2024 年,Andrej Karpathy 发了一条推文,几乎是在抬杠 RAG:
"下一代 LLM 产品不会靠 RAG 解决一切,而是让模型把知识内化,像一个真正的专家。"
两年过去,这个争论并没有收场 —— 而是变成了企业 AI 系统架构师每天都要做的选择题:什么知识该扔给 RAG,什么知识该教给模型本身。
一 · RAG · The Library Approach 外挂的图书馆
RAG (Retrieval-Augmented Generation) 的思路非常直白 —— 把你的知识分块、向量化、塞进向量库。用户问问题的时候先去向量库里找相关片段,拼到 prompt 里一起喂给 LLM。
这套架构的优点几乎写在了教科书里:
- 知识随时更新 —— 改一条向量就能改答案,不用重新训练。
- 引用可追溯 —— 给出答案时可以附带来源链接,合规、可审计。
- 成本可控 —— 向量检索便宜,LLM 本身不动。
- 隔离清晰 —— 多租户、部门知识库都能按权限过滤。
它的痛点也很清楚:能告诉模型"事实",但无法告诉它"风格"和"品味"。RAG 把一本《红楼梦》喂进向量库,模型回答时可以引用原文,但你让它"写一段曹雪芹风格的新章节",它还是不会。
二 · Karpathy KB · The Internalized Approach 内化的专家
卡帕西知识库 (Karpathy Knowledge Base) 的核心主张:真正好用的企业 AI,应该像一个读了你们公司所有资料的新员工 —— 他不是每次都去查档案柜,而是这些知识已经在他脑子里,能用公司的语气说话,能识别内部黑话,能在第一次听到一个缩写时就知道它是什么。
实现路径有三条:
- 继续预训练 (Continued Pre-training) —— 在基础模型之上,用企业自己的文档做下一轮训练。
- LoRA / QLoRA 微调 —— 轻量级权重插件,几小时就能把一批风格样本"嵌"进模型。
- System prompt 沉淀 —— Karpathy 最喜欢讲的路径,把大量 context 稳定写进 system prompt,配合 prompt caching 把 token 成本压到极低。
RAG 给你"能查"的记忆,Karpathy KB 给你"能懂"的记忆。
RAG gives retrievable memory. Karpathy KB gives native fluency.
RAG gives retrievable memory. Karpathy KB gives native fluency.
三 · 对比矩阵 When to Use Which
| 维度 | RAG · 外挂图书馆 | Karpathy KB · 内化专家 |
|---|---|---|
| 知识更新频率 | 分钟级 | 按周/月重训 |
| 风格/语气保留 | 差 | 强 |
| 引用可追溯 | 天然带 cite | 需要额外设计 |
| 训练/部署成本 | 低 | 中-高 |
| 推理 token 消耗 | 高 (上下文拼接) | 低 (已内化) |
| 适合的知识类型 | 事实、数据、法规、手册 | 品牌语气、经验、直觉 |
| 幻觉控制 | 靠检索边界 | 靠训练质量 |
四 · 真实场景判断法 Field Rules
→ 用 RAG 的场景
- 法律 · 医疗 · 金融合规 —— 每条结论必须能指回原文条款。
- 产品手册 / API 文档 —— 版本更替频繁,重训不现实。
- 客服知识库 —— 每天都在新增 FAQ。
- 多租户 SaaS —— 不同客户隔离自己的数据。
→ 用 Karpathy KB 的场景
- 品牌文案助手 —— 需要把你们公司十年来的文案风格继承下来。
- 专业顾问机器人 —— 需要"经验直觉",不能像学生翻书那样查。
- 行业 DSL / 专有语言 —— 内部框架、配置语言,希望模型一次就能写对。
- 小语种 / 稀有领域 —— 基础模型不熟,RAG 拼 context 也救不了。
五 · 辉火云管家的混合架构 OpenClaw Hybrid
在 OpenClaw · 辉火云管家 里,我们选择了一个分层的混合架构:
- Layer 1 · 基础模型 — Claude / DeepSeek / Qwen,提供通用能力。
- Layer 2 · 行业 KB (Karpathy 式) — Odoo / ERP / MES / 质检知识,通过 system prompt + prompt caching 稳定注入 8K-32K token。
- Layer 3 · 企业 RAG — 客户的产品目录、工单历史、供应商名录,实时向量检索。
- Layer 4 · 会话 memory — 当前会话的短期上下文 + 长期决策日志。
不是"RAG 好还是 Karpathy KB 好",而是"哪一层给哪一种记忆"。
—— 这是一个架构问题,不是路线之争。
—— 这是一个架构问题,不是路线之争。
— 青岛火一五信息科技 · 2026 年 4 月 —