我自己的体感是——大部分人对 AI 工具的使用,其实还停留在 Vibe Coding 阶段。所谓「一个人 = 一家公司」,多半是自欺欺人。
你以为的「AI 编程」,可能只是 Vibe Coding
「Vibe Coding」这个词,是 Karpathy 自己 2025 年 2 月在 X 上随手发的一条推文里造出来的。原话是这样的——
「There is a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.」
Vibe Coding 当然有它真实的进步。Karpathy 在 AI Ascent 上自己说——「December was a clear point... the chunks just came out fine. Then I kept asking for more and they still came out fine.」从去年 12 月起,他不再亲自写大段代码了,因为 AI 给出来的东西「就是能跑」。
回到红杉那场访谈。Karpathy 把 2024 年 12 月单独标出来——「December was a clear point... the chunks just came out fine. Then I kept asking for more and they still came out fine.」12 月是个清晰的转折点,AI 写出来的代码块就是能跑,他要更多、AI 还能继续给出来。从那以后,他自己就几乎不再亲手写代码了。
那 Agentic Engineering 又是什么?Karpathy 在访谈里这样说——「Agentic engineering is about preserving the quality bar of professional software.」「Agentic Engineering 的关键,是守住专业软件的质量底线。」
也就是说:Vibe Coding 抬高了「谁能写软件」的下限——本来不会写代码的人也能搓出 demo。但要保住「专业软件的质量底线」,需要的不是把目标抛给 AI 然后看运气,而是要主动地——定义问题、组织上下文、编排 Agent、验证结果。程序员的角色,从「代码编写者」变成了「编排者」。
「is under active development and is not ready for use yet. Do not build external automation, integrations, or long-lived workflows on top of workspace behavior.」
图片来源:宝玉 baoyu.io
他在访谈里给了一个很形象的类比——
「Programming through prompting.国内外开源生态走到哪里了 但 Karpathy 喊的「Agentic Engineering」,落到工具层,开源生态目前其实只走到了三档里的前两档。OpenSpec 自己最新的 v1.3 加了一个叫「Coordination Workspaces」的实验性功能,想做跨 repo 的协调,但官方文档明确写着——
「is under active development and is not ready for use yet.
4 月底,Karpathy 站在红杉资本 AI Ascent 的舞台上,演讲题目印着 From Vibe Coding to Agentic Engineering——按字面翻,是「从凭感觉写代码,到工程化地编排 Agent」。
同一周,朋友圈在刷的是另一句话——「AI 让一个人就能干一家公司的活」。
同一个 AI,跑得最快的人在喊「质量底线」,跑得最慢的旁观者在喊「颠覆生产力」。这场温差,比任何评测都更说明问题。
我自己的体感是——大部分人对 AI 工具的使用,其实还停留在 Vibe Coding 阶段。所谓「一个人 = 一家公司」,多半是自欺欺人。
你以为的「AI 编程」,可能只是 Vibe Coding
「Vibe Coding」这个词,是 Karpathy 自己 2025 年 2 月在 X 上随手发的一条推文里造出来的。原话是这样的——
翻成中文是:「有种新的编程方式我叫它'凭感觉写代码'——你完全交给感觉、拥抱指数曲线、忘记代码的存在。」
这条推文当时有 4500 万浏览,「Vibe Coding」后来还被 Collins 字典选为 2025 年度词汇。说白了:把目标抛给 AI,让它边跑边写、自己决定下一步——你只看结果。
Vibe Coding 当然有它真实的进步。Karpathy 在 AI Ascent 上自己说——「December was a clear point... the chunks just came out fine. Then I kept asking for more and they still came out fine.」从去年 12 月起,他不再亲自写大段代码了,因为 AI 给出来的东西「就是能跑」。
普通人也一样——现在拿 Cursor 加语音输入,一晚上就能搓出一个能演示的网页;hackathon 上已经几乎没人还在敲键盘。这是真实的变化,不能否认。
只是 Vibe Coding 的天花板,也清楚得近乎残酷。
最近最有代表性的一个例子是 Lovable。这家估值 66 亿美元的 vibe coding 平台,今年 3 月 3 日被人发现存在 BOLA 漏洞——「thousands」(成千上万)个用户项目的源代码、数据库凭证、Stripe 客户 ID 全部对公网暴露,受影响的账号里包括 Nvidia、Microsoft、Uber、Spotify 员工。这个漏洞,从被通报到被修复,整整开放了 48 天。
发现并报告这件事的安全机构 Trend Micro 给了一句很准确的判断——
工具的发明者其实自己也警惕。Claude Code 里有一个被 Anthropic 收编为官方插件的命令叫「Ralph Loop」(正式名 Ralph Wiggum,致敬辛普森一家里那个又蠢又执着的小孩)——它的原型只是一行 bash 脚本:
while :; do cat PROMPT.md | claude-code; done意思就是「拿同一个目标反复让 AI 自己跑,直到跑完为止」。这套循环的发明者是澳大利亚开发者 Geoffrey Huntley。The Register 在 1 月报道这个工具时,引述他自己的原话——「nauseous」(恶心、反胃)。他怕「自己以糟糕的方式改变了软件开发」,并因此暂停了 2025 年的部分工作。
工具的作者都在公开警惕,外行的旁观者却在喊「一个人 = 一家公司」。这本身就是答案。
Karpathy 给的下一站,叫 Agentic Engineering
回到红杉那场访谈。Karpathy 把 2024 年 12 月单独标出来——「December was a clear point... the chunks just came out fine. Then I kept asking for more and they still came out fine.」12 月是个清晰的转折点,AI 写出来的代码块就是能跑,他要更多、AI 还能继续给出来。从那以后,他自己就几乎不再亲手写代码了。
媒体后来把这段话翻译成了「80% / 20% 翻转」——以前 80% 自己写、20% AI 辅助,12 月后比例反过来。但 transcript 里 Karpathy 没说过这个具体数字。他给的是定性判断,不是统计。
这个区别其实很重要——重要在于:AI 跑得最快的那个人,从去年冬天起,就主动把「写代码」这件事从自己的工作清单里划掉了。
接下来才是关键。Karpathy 给这种新方式起了一个框架——Software 1.0 / 2.0 / 3.0。
他在访谈里给了一个很形象的类比——
LLM 是一种新型计算机:模型权重是 CPU(固定的算力底座),context window 是 RAM(短期工作记忆),prompt 就是程序。
简单说:过去你给 CPU 写指令,现在你给 LLM 摆道具。
那 Agentic Engineering 又是什么?Karpathy 在访谈里这样说——「Agentic engineering is about preserving the quality bar of professional software.」「Agentic Engineering 的关键,是守住专业软件的质量底线。」
也就是说:Vibe Coding 抬高了「谁能写软件」的下限——本来不会写代码的人也能搓出 demo。但要保住「专业软件的质量底线」,需要的不是把目标抛给 AI 然后看运气,而是要主动地——定义问题、组织上下文、编排 Agent、验证结果。程序员的角色,从「代码编写者」变成了「编排者」。
这是范式跃迁,不是工具升级。
国内外开源生态走到哪里了
但 Karpathy 喊的「Agentic Engineering」,落到工具层,开源生态目前其实只走到了三档里的前两档。
第一档:Vibe Coding 系。代表是 OpenAI Codex 的
/goal命令,和 Claude Code 的 Ralph Loop。我自己这两个都用过,体感很简单——它们是「更高级的 Vibe Coding 工具」。Codex 的/goal严谨一些,会跑 plan → act → test → review → iterate 的 5 状态机;Ralph Loop 更原始,就是循环。但工作单元一致——把目标抛给 AI、让它自己跑,跑出什么算什么。HN 上一句话评得很到位——「Ralph-generated codebases run, but they lack structural coherence」。代码能跑,但架构没有结构。第二档:单项目编排系。代表是 Superpowers 和 OpenSpec。前者由独立开发者 Jesse Vincent 主导(GitHub 用户名 obra),今年 1 月被 Anthropic 收编进官方插件市场;它有 14 个 skill 组成的 7 步开发方法论——brainstorm → plan → subagent TDD → review → finish——把「写代码」从 vibe 升级为有结构的 workflow。OpenSpec 是 YC 项目,由 Fission-AI 维护,主推「spec-driven development」——人和 AI 在写代码之前先把意图写成 spec,然后状态机走 propose → apply → archive。
我自己用下来,这两个工具的体感是一样的——它们更强调开发流程上的编排能力,更适合现有项目的 feature 开发。但工作单元仍然是「单 repo 内的一条 feature branch」。OpenSpec 自己最新的 v1.3 加了一个叫「Coordination Workspaces」的实验性功能,想做跨 repo 的协调,但官方文档明确写着——
连工具方自己都在说「不要拿这个去搭长生命周期的工作流」。
第三档:多 Agent 编排系。代表是 Anthropic 官方上线的 Claude Code Agent Teams(v2.1.32+,目前还是 experimental,需要打开
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1环境变量)。它的设计已经接近「真正的多 Agent 协作」——四个组件:Team Lead 派活、多个 Teammate 各自带独立 context window 干活、共享一份 Task List、彼此之间还有 Mailbox 直接通信。我自己用过 Agent Teams——它确实能做到 multi-agent 的并行协作,但可控性相对较难。整体上,业界目前还没有看到一套非常成熟的、能够覆盖全流程的 Agent Teams 编排工具。
但工具能力分层只解决了「工具该怎么造」的问题。真正的难,其实在更下面——
真正的难,是企业级项目从来不是一个 feature
把任何企业级软件项目拆开,里面没有「一个人写一晚上」这回事。它至少要走完——
每一个阶段都需要 Agent 协作、状态共享、跨阶段通信。Vibe Coding 在 (c) 之前就会迷失,单项目编排能扛住 (b)+(c),但碰到 (a) 商业化分析和 (d)(e) 测试运维就不得不靠人手工接力。多 Agent 编排是设计上唯一接近这种全流程协作的方向——但接近不等于到达。
这就是为什么 Karpathy 喊的是 Agentic Engineering,不是 Vibe Coding。
所谓「AI 让一个人干一家公司的活」,更准确的说法是——
我会继续观察的,是国内开源生态会不会真的走出一套面向多 Agent 编排的方法论。Anthropic 自家的 Multi-Agent Research System 用一组多 Agent 协作的实验跑出了 90%+ 的评测提升,但成本贵 ~15×——这只是起点,不是答案。
在那之前,「一个人 = 一家公司」更像是营销话术,不是工程现实。
你愿不愿意承认这个差别,决定了你看到的 AI 是 Vibe Coding 工具,还是 Software 3.0 的入口。