Claude Code 爆了,但真正拉开差距的不是模型
这几天如果你在看 AI 编程圈,最容易看到的词就是 Claude Code。
很多人在晒它会写代码、会读项目、会改 bug。看起来像是模型突然又进了一大步。
但我这两天把热榜和 GitHub 上几条真正跑出来的信号连在一起看,感觉结论不是“Claude Code 更强了”这么简单。
真正开始拉开差距的,其实不是模型本身,而是模型外面那层 harness。
说白了,就是你给 AI 配的那套工作系统:记忆、工具、技能、子 agent、沙箱、消息流转,还有任务怎么拆、怎么校验、怎么回滚。
<figure><img src=“images/01-compare.png” alt=“01-compare”></figure>
如果只有一个很强的模型,但没有这套系统,它当然也能写点东西。
可一旦任务变长、上下文变多、项目开始有历史包袱,它就很容易出现几个老问题:前面说过的忘了,刚修好的又改坏了,或者表面很努力,实际上一直在原地打转。
这也是为什么最近真正值得看的,不只是 Claude Code 本体,而是围绕它长出来的那批项目。
比如 everything-claude-code。它强调的不是“再给你一个更强的 prompt”,而是怎么把 skills、memory、security、research-first workflow 这些东西接到 Claude Code 身上。
这个思路很关键。
因为很多人现在还把 AI 编码理解成“聊天框里把需求说清楚”。但项目不是聊天,项目是连续决策。你今天的改动,要接住昨天的约束,还不能把上周能跑的东西弄坏。
这时候,单次回答的聪明已经不够了。
你真正需要的是一个能持续工作的系统。
另一个很有代表性的信号,是字节的 deer-flow。
它讲得更直接:复杂任务不是一轮对话能搞定的,而是要靠 memory、tools、subagents、sandbox 一起协作,把几分钟到几小时的任务拆开处理。
<figure><img src=“images/02-timeline.png” alt=“02-timeline”></figure>
这件事为什么重要?
因为 AI 编码已经开始进入下半场了。
上半场大家比的是“谁第一次输出更惊艳”。下半场比的是“谁能在真实项目里稳定干活”。
前者像 demo,后者才像生产。
前者让你觉得“哇,好聪明”。后者才会让你真的省时间。
我自己这段时间做 OpenClaw,感受特别明显。
以前总觉得 prompt 要写得更精细一点,模型才能更懂我。后来发现不是。
真正影响结果的,往往是另外几件事:任务开始前有没有先把上下文读回来;不同类型的任务有没有对应 skill;失败之后有没有明确停点;长任务是不是拆给不同 agent 去做;最后有没有一层硬校验,防止“脚本看起来成功,实际上没落库”。
这些东西单看都不性感,但合起来就很要命。
因为它们决定了 AI 不是“偶尔灵一次”,而是能不能成为一个长期可靠的工作部件。
所以如果你最近也在研究 Claude Code、Cursor、Codex 这类工具,我的建议反而不是继续卷 prompt。
先问自己三个问题:
第一,你有没有给 AI 持续记忆?
第二,你有没有把常见动作沉成可复用工具?
第三,你有没有让它在长任务里学会拆分、校验和回退?
如果这三个都没有,那模型再强,你能拿到的也只是一个高配聊天框。
但如果这三件事开始补上,AI 才会从“会写”变成“能交付”。
这也是我为什么觉得,这一轮真正值得写的,不是 Claude Code 爆了,而是 agent harness 开始浮到台面上了。
大家以为还在拼模型,其实已经在拼工作流了。
而且这件事一旦成型,受影响的不只是写代码。
做内容、做研究、做运营、做自动化,都会走到同一个方向:谁先把 memory、tools、workflow 和 quality gate 搭起来,谁就先把 AI 从玩具变成生产力。
所以别再只找“完美提示词”了。
去建你的工具库,去写你的流程文档,去把那些会重复发生的判断变成系统。
模型当然重要。
但真正决定你上限能不能落地的,已经不是模型本身,而是你给它装了什么样的 harness。
你现在用 AI 写代码,最大的瓶颈还是模型不够强,还是工作流还没搭起来?
数据来源:GitHub Trending(everything-claude-code、deer-flow)、Hacker News(Claude Code Cheat Sheet、How I’m Productive with Claude Code)