jalen.cool
全部笔记

AI Agents

LLM 不只回答问题,而是采取行动——订机票、退款、查数据库、做各种决策——这类系统的统称。本页是本 wiki AI 域的核心锚点之一,后续多数实践类源都会链回这里。

与 prompt engineering 的代际差

IBM 7 Skills 给的比喻:

Prompt EngineeringAgent Engineering
工作写更好的指令工程系统
比喻跟菜谱当大厨
范围单次对话生产部署、可观测、容错
关键能力措辞软件工程 + AI 特有部分

7 项技能(Agent Engineering 骨架)

来源:2026-04-14-ibm-7-skills-ai-agents

#技能一句话是否 AI 特有
1系统设计Agent 是乐团,不是单点否(后端通识)
2工具与契约设计Schema 模糊,agent 会用想象力填空半新
3检索工程RAG
4可靠性工程Retry/timeout/fallback/circuit breaker否(后端通识)
5安全与防护Agent 是攻击面,prompt injection 是真威胁半新
6评估与可观测Tracing + eval pipelines;"vibes don't scale"
7产品思维给本质不可预测的系统做 UX

1/4 是后端工程师已经会的;3/6/7 是真正需要新学的;2/5 是旧问题新形态。

LLM-Wiki 的关系

LLM-Wiki 模式本身就是一个 agent 系统:LLM 读 raw、改 wiki、维护 index/log——执行的是真实动作。它把 Karpathy 这套 vault 框架变成了一个特定形态的 agent:知识库维护 agent

RAG 的关系

RAG 是 7 项技能里第 3 项的内容。Agents 通常需要 RAG 来从知识库取上下文,但 Karpathy 提醒:如果是个人/小团队场景,LLM Wiki 模式可能比 RAG 更合适——预编译知识而非每次重检。

真实实践样本

  • onevcat:从 AI 猫娘到 Prowl — 独立开发者的一手多 agent 生产实践:3 个 IM 异步 agent 分工协作、邮件互评的「人格漂移」、argue 多模型辩论编排、MeowHook 事件网关、co-author/trace 的 agent attribution 与审计、Prowl 并行终端。比大厂视角更可复刻。
  • → 可照做版:个人多Agent工作流(最佳实践清单)

Multi-agent

什么时候多 agent 值得、什么时候是坑,单独成页:Multi-Agent。一句话判据 = 是否共改同一份产物 + 有没有干净的管理/汇总层

完美场景:封闭 + 可验证

立党 的四条:封闭环境 · 完整运行/编译/仿真 · 无限试错 · 可精确验证。满足的领域:编程、Lean 数学、EDA 芯片、MATLAB/Simulink、CAD;不满足的:金融/股市(公开有对手)。 → 这正是 需求驱动的自动化开发工作流 把隔离测试环境做到「可跑可验证」的价值所在。

待补

  • Agent 框架的横向对比(LangChain / AutoGPT / Anthropic SDK / OpenAI Agents SDK / MCP 等)
  • 大厂 agent 生产经验(Anthropic、OpenAI、Replit、Cursor)
  • 7 项技能里还没独立成页的子主题:
    • Tool & Contract Design
    • Reliability Engineering(agent 上下文)
    • Prompt Injection / Agent Security
    • Evals & Observability for Agents
    • Agent UX

等专门源进入再独立。本页保持作为锚点。