[post] vibe coding 与编程 Agent

（待完善）

Agent = Model + Harness

Agent 本身的原理，以及如何更好的使用如 claude code，codex，open claw

自然语言会是新的 Shell 吗？

0 背景

0.1 与 ChatGPT 聊天

ChatGPT 像一个“专家问答窗口”，用户输入自然语言，模型返回自然语言。

生成式预训练大模型 GPT，NLP 的技术路线从为每个任务单独训练转向预训练大模型 + 微调/提示。

https://openai.com/zh-Hans-CN/index/chatgpt/

2022 年 11 月 30 日，隆重推出 ChatGPT，3.5。能对话，写文章，回答追问，这个时候的模型已经比较厉害了，但是还是能看出来车轱辘话来回讲。

2023 年 3 月，GPT-4 出来，AI 真的能做些事情了。

2024 年 5 月 GPT-4o，免费用户能体验到的最先进的模型。

0.2 通过 api 与 llm 对话

关于 LLM API，2020 年 6 月，GPT3-API 开放给开发者

https://openai.com/zh-Hans-CN/index/openai-api/

api 比网页对话问答更接近模型，早期的 GPT3 模型就已经有 API 的调用接口了，将大模型集成进软件工作流的尝试也开始了。

大模型，大语言模型，字符串进字符串出（文本进文本出，严格来说 token 进，token 出，字符串被 Tokenizer 处理为 token，https://platform.openai.com/tokenizer）其实和 unix 的 cli 工具如 ls ，在外部视角看起来没什么区别如 ls /dev

/dev 是一个字符串，argv[1] 的类型为 char*，终端显示的东西，都是 printf 出来的字符串。从标准输出流出去的字符串，steace 看到 write(1，) 输出了 dev 里的文件。

用比较高的视角来看，这些工具也是 stdin 计算之后 stdout，只不过是专用的工具，并且是靠近计算机的语言，不是严格的C这种的，对于非程序员来说也不是完全可读的。

那么可以做一个程序，在 API 外面封装一层很简单的代码，接受终端的字符串进，然后输出计算过后的字符串。

“帮我实现一个 cli 程序，实通过 LLM API 的调用，实现在终端完成单次对话的效果。” 作为提示词给 codex 几分钟就能实现出来，一个集成到终端的聊天工具

如果去看模型厂商的开发手册，curl 快速测 api，sdk 大多提供了 python 的包。但这里还是强行要求用 C 语言解析，cjson，http请求。如果做二进制分发 go 语言可能更合适，标准库的支持更多。

对 ai 编程来说，如果只关心行为，用什么语言实现也不重要了，甚至可以要求 AI 拿汇编去写，上上强度。

./llm "hello "

对于终端来说，参数作为输入，管道、重定向，也可以作为程序的输入。组合输入，可以做更多的事情，需要做一些提示词的组装，对 AI 身份的预设，(Prompt Engineering 会考虑的比较周到的东西)

一些典型用法

cat log | llm "总结一下“

cat main.c | llm "解释一下"

已经像是一个集成进 cli 的能用的小工具了。到这里，还是对 llm api 的一次性使用，组装 rpompt -> 调 api -> 拿结果，展示给用户

LLM API wrapper

LLM 的字符串进字符串出天然和 unix 工具通过管道传递信息的方式适配，这也是关于 MCP 与 CLI 的讨论的来源，飞书出了飞书CLI，可以给 agent 一个详细的命令行使用文档，通过飞书 CLI 实现各种功能。

0.3 输出也进入执行系统？

到此为止，只考虑了进入端的接入。是否可以让 llm 的输出也作为下一个 unix 工具的输入？

让 llm 启动时读一个 System.md，里面存放了 System Prompt，全局行为的约束 (预训练大模型 + 提示，做专用的事情)，连同所有的输入，一起组装起来。

这个 System.md 与 CLAUDE.md 或者 AGENTS.md 作用相同，都是文件名匹配，在启动时加载的。

比如说，System.md 要求，输出可以直接在 shell 执行的指令，并且，不加任何符号包围。

然后，使用一些 shell 的机制，$()

思想实验/最小原型

那么比如 $(llm “创建一个名为 readme.md 的文件”) ，这个整体就真的创建了一个新的文件。

在 LLM 的帮助下，讲几句话，一些东西发生了变化。

当能创建一个文件，理论上读写修改删除都能做到，在 linux 里，能读写文件 = 能做任何事情，比如操作硬件。

claude -p 看起来和 llm 有点像，llm 是 claude -p 的极简版吧，差了非常多的东西。

$(llm "创建一个名为 readme.md 的文件") 是一个思维实验，

当 LLM 的输出不再只是给人看，而是进入 shell，被系统执行时，LLM 就从“回答者”变成了“行动建议生成器”。

mini agent

最小原型缺了非常多的东西

命令执行结果、权限控制、任务状态。。。。

从行动建议到做事情

LLM 直管文字的输入输出，能做事情，依赖了 prompt 和 $()，LLM 的需要有些代码去帮助 LLM 做他想做的操作。

早期，排bug，复制 log 粘贴到网页，然后根据 gpt 的提示，粘贴代码，直到问题被解决。

提要求  ->   LLM  调用工具？  ->  否，做总结输出，结束
      |                   |
       -- 调工具，拿工具结果-

想要用什么，先得让 LLM 知道有什么，因此，工具信息也需要给到 LLM，

每一轮推理的结果，和工作调用的结果，都会附加在前面的内容，做最新的一次推理。

一个万能工具，bash，几乎能做任何事情。

使用时遇到了问题

上面的这个已经能用了，核心原理上已经解决了。后面去改善

目标坚定？

大任务，给自己做一个计划表，todowrite，自己慢慢做

todo、plan、checkpoint、阶段验收。Claude Code、Codex 这类工具会有计划、任务列表、子任务、diff review。

一些只需要知道结果，用结果决策的，找一个实习生，临时外包，subagent

LLM 性能的限制

context windows，

用到时加载全部，上下文压缩

记忆？内存和硬盘？记脑子里，写笔记本上？

东西越来越多，system prompt 是时候考量一下了。

一些想法

vibe coding 不是编程消失，而是编程活动的重心迁移：从手写每一行代码，转向描述目标、组织上下文、设计工具、约束权限、检查结果。

编程 Agent 也不是魔法。它更像一个新的操作层：LLM 负责理解意图，工具负责改变世界，上下文负责维持状态，权限系统负责控制边界。真正的工程能力，仍然体现在如何设计这个系统。