LLM 不只回答问题,而是采取行动——订机票、退款、查数据库、做各种决策——这类系统的统称。本页是本 wiki AI 域的核心锚点之一,后续多数实践类源都会链回这里。
与 prompt engineering 的代际差
IBM 7 Skills 给的比喻:
| Prompt Engineering | Agent Engineering | |
|---|---|---|
| 工作 | 写更好的指令 | 工程系统 |
| 比喻 | 跟菜谱 | 当大厨 |
| 范围 | 单次对话 | 生产部署、可观测、容错 |
| 关键能力 | 措辞 | 软件工程 + AI 特有部分 |
7 项技能(Agent Engineering 骨架)
来源:2026-04-14-ibm-7-skills-ai-agents。
| # | 技能 | 一句话 | 是否 AI 特有 |
|---|---|---|---|
| 1 | 系统设计 | Agent 是乐团,不是单点 | 否(后端通识) |
| 2 | 工具与契约设计 | Schema 模糊,agent 会用想象力填空 | 半新 |
| 3 | 检索工程 | 见 RAG | 是 |
| 4 | 可靠性工程 | Retry/timeout/fallback/circuit breaker | 否(后端通识) |
| 5 | 安全与防护 | Agent 是攻击面,prompt injection 是真威胁 | 半新 |
| 6 | 评估与可观测 | Tracing + eval pipelines;"vibes don't scale" | 是 |
| 7 | 产品思维 | 给本质不可预测的系统做 UX | 是 |
1/4 是后端工程师已经会的;3/6/7 是真正需要新学的;2/5 是旧问题新形态。
与 LLM-Wiki 的关系
LLM-Wiki 模式本身就是一个 agent 系统:LLM 读 raw、改 wiki、维护 index/log——执行的是真实动作。它把 Karpathy 这套 vault 框架变成了一个特定形态的 agent:知识库维护 agent。
与 RAG 的关系
RAG 是 7 项技能里第 3 项的内容。Agents 通常需要 RAG 来从知识库取上下文,但 Karpathy 提醒:如果是个人/小团队场景,LLM Wiki 模式可能比 RAG 更合适——预编译知识而非每次重检。
真实实践样本
- onevcat:从 AI 猫娘到 Prowl — 独立开发者的一手多 agent 生产实践:3 个 IM 异步 agent 分工协作、邮件互评的「人格漂移」、argue 多模型辩论编排、MeowHook 事件网关、co-author/trace 的 agent attribution 与审计、Prowl 并行终端。比大厂视角更可复刻。
- → 可照做版:个人多Agent工作流(最佳实践清单)
Multi-agent
什么时候多 agent 值得、什么时候是坑,单独成页:Multi-Agent。一句话判据 = 是否共改同一份产物 + 有没有干净的管理/汇总层。
完美场景:封闭 + 可验证
立党 的四条:封闭环境 · 完整运行/编译/仿真 · 无限试错 · 可精确验证。满足的领域:编程、Lean 数学、EDA 芯片、MATLAB/Simulink、CAD;不满足的:金融/股市(公开有对手)。 → 这正是 需求驱动的自动化开发工作流 把隔离测试环境做到「可跑可验证」的价值所在。
待补
- Agent 框架的横向对比(LangChain / AutoGPT / Anthropic SDK / OpenAI Agents SDK / MCP 等)
- 大厂 agent 生产经验(Anthropic、OpenAI、Replit、Cursor)
- 7 项技能里还没独立成页的子主题:
- Tool & Contract Design
- Reliability Engineering(agent 上下文)
- Prompt Injection / Agent Security
- Evals & Observability for Agents
- Agent UX
等专门源进入再独立。本页保持作为锚点。