AI Agents · blog.jalen.cool

LLM 不只回答问题,而是采取行动——订机票、退款、查数据库、做各种决策——这类系统的统称。本页是本 wiki AI 域的核心锚点之一,后续多数实践类源都会链回这里。

与 prompt engineering 的代际差

#	技能	一句话	是否 AI 特有
1	系统设计	Agent 是乐团,不是单点	否(后端通识)
2	工具与契约设计	Schema 模糊,agent 会用想象力填空	半新
3	检索工程	见 RAG	是
4	可靠性工程	Retry/timeout/fallback/circuit breaker	否(后端通识)
5	安全与防护	Agent 是攻击面,prompt injection 是真威胁	半新
6	评估与可观测	Tracing + eval pipelines;"vibes don't scale"	是
7	产品思维	给本质不可预测的系统做 UX	是

1/4 是后端工程师已经会的;3/6/7 是真正需要新学的;2/5 是旧问题新形态。

LLM-Wiki 模式本身就是一个 agent 系统:LLM 读 raw、改 wiki、维护 index/log——执行的是真实动作。它把 Karpathy 这套 vault 框架变成了一个特定形态的 agent:知识库维护 agent。

RAG 是 7 项技能里第 3 项的内容。Agents 通常需要 RAG 来从知识库取上下文,但 Karpathy 提醒:如果是个人/小团队场景,LLM Wiki 模式可能比 RAG 更合适——预编译知识而非每次重检。

onevcat:从 AI 猫娘到 Prowl — 独立开发者的一手多 agent 生产实践:3 个 IM 异步 agent 分工协作、邮件互评的「人格漂移」、argue 多模型辩论编排、MeowHook 事件网关、co-author/trace 的 agent attribution 与审计、Prowl 并行终端。比大厂视角更可复刻。
→ 可照做版:个人多Agent工作流(最佳实践清单)

什么时候多 agent 值得、什么时候是坑,单独成页:Multi-Agent。一句话判据 = 是否共改同一份产物 + 有没有干净的管理/汇总层。

立党的四条:封闭环境 · 完整运行/编译/仿真 · 无限试错 · 可精确验证。满足的领域:编程、Lean 数学、EDA 芯片、MATLAB/Simulink、CAD;不满足的:金融/股市(公开有对手)。 → 这正是需求驱动的自动化开发工作流把隔离测试环境做到「可跑可验证」的价值所在。

等专门源进入再独立。本页保持作为锚点。