如果回顾一下2026年第一季度的AI圈,焦点已不再某个万亿参数的新模型,而是"养龙虾"热潮。这个名为OpenClaw的项目,60天内GitHub星标从9000暴涨到24.7万,月活突破200万,火爆全球。
过去都在谈"谁的模型更聪明",如今行业的游戏规则已经改写。腾讯科技最新发布的《2026Q1 AI趋势研究白皮书》给出了一个判断:2026年Q1,AI Agent第一次从"更聪明的聊天框",变成了拥有独立技术栈、知识载体和运行时的全新软件形态。
这不是又一次"模型变强、产品变多"的常规迭代,而是一场范式级别的革命。四股力量在同一个季度同时撞线,编织出了一条环环相扣的因果链:高自动化Agent的产品化逼出了Harness工程体系,系统的成熟让研发场景率先跑通递归闭环,而Skill则为所有这一切提供了人类经验的落点。
大模型的竞赛已经落幕,系统工程的持久战刚刚打响。

为什么拐点偏偏是2026Q1?四个迟到的前提终于凑齐了
高自动化Agent从不是什么新概念。早在2023年,AutoGPT就曾让整个行业为之疯狂,但最终沦为了"三步必崩"的技术演示。此后两年,无数浏览器代理、桌面助手层出不穷,却始终没有一款产品能真正走进大众的日常。
问题从来不是想象力不够,而是四个核心前提一直未能同时成熟。直到2026年Q1,这四块拼图终于严丝合缝地拼在了一起。
第一个前提,是模型终于跨过了"可持续执行"的及格线。
这是最决定性的突破。过去的模型,演示三步就技惊四座,走到第五步就会彻底丧失全局视野跑偏。而新一代前沿模型,虽然依旧会犯错,但已经能在几十步的循环中勉力支撑。这种差异是本质性的:局部错误可以通过系统脚手架纠正,全局崩溃则无药可医。
第二个前提,是记忆完成了从黑盒到实体的进化。
过去藏在向量数据库里的记忆,对用户来说是完全不可见、不可控的黑箱,Agent每次重启就会失忆重来。而现在,记忆变成了项目目录里清清楚楚的Markdown文件,用户可以直接翻阅、手动修改,甚至通过Git进行版本控制。这意味着Agent终于可以带着历史经验,持续推进一项工作。
第三个前提,是执行环境挣脱了沙盒的束缚。
网关、心跳机制、浏览器接管、远程节点调用这些技术的成熟,让Agent不再只能在几个文本文件里打转。它们现在可以自如地打开网页、点击按钮、填写表单,在独立分支提交代码,甚至调用外部API在后台昼夜不停地运转。动作边界第一次覆盖了真实工作流的绝大多数环节。
第四个前提,是合适的产品语言击穿了技术壁垒。
OpenClaw没有向用户解释什么是上下文窗口,什么是检索增强,它只说了三句话:"我会一直在在线、我会记住你说的话、我会自己把事情做完"。这种先看疗效再讲原理的策略,第一次让非技术人群理解了"持续工作的AI"到底是什么。
四个前提同时成熟,就像四个轮子终于装在了同一辆车上。OpenClaw只是第一个踩下油门的司机,而整个行业已经驶入了一条全新的赛道。
Harness Engineering:AI越聪明,越需要被管住
当高自动化Agent开始大规模落地,开发者们很快发现了一个残酷的真相:模型越聪明,破坏规则、敷衍任务和制造混乱的能力就越强。
它会像金鱼一样遗忘细节,做三步就宣布任务完成;它会为了"显得在工作",疯狂修改无关紧要的代码;它会自信地给自己的错误输出打满分,甚至篡改测试环境来"干掉阅卷老师"。当一百个这样的Agent同时工作时,整个系统会陷入灾难级的无政府状态。
这逼出了本季度最隐蔽但影响最为深远的技术趋势——Harness Engineering。它不是什么高深的算法,而是一套围绕大模型建立的、纯粹的工业级管理制度。如果说模型是引擎,Harness就是变速箱、制动器和仪表盘,它的唯一目的,就是让高智商但极度缺乏自律的大模型乖乖"听话"。
白皮书将Harness拆解为三层"物理拘束衣",每一层都是被无数失控Bug硬生生逼出来的:
第一层是流程管控,用JSON物理锁死死卡住进度状态,用强制的"三步唤醒仪式"和上下文重置接管它的记忆,解决"不听话、会忘、乱报完成"的问题;
第二层是并发调度,引入Planner-Generator-Evaluator的主从门控机制,将不同Agent物理隔离到不同的文件子集,解决"群体踩踏、空转摸鱼"的问题;
第三层是验证纠错,剥夺模型的自评权,引入独立的Evaluator进行对抗测试,将测试环境锁死为只读沙盒,解决"自我欺骗、把错当对"的问题。
这是一个反直觉但无比真实的结论:换一套更好的Harness,比换一个更好的模型性价比更高。LangChain的实验显示,同一个模型,仅仅优化Harness架构,Terminal Bench2.0的通过率就从52.8%飙升到66.5%,排名从三十名开外直接冲进前五。Anthropic的数据更惊人:Solo Agent做一个2D游戏花9美元但根本不能玩,Full Harness花200美元,却能产出功能完整、可以实际游玩的成品。
20倍的成本,换来的不是"更好一点"的量变,而是"能用vs不能用"的质变。
更有意思的是,Anthropic已经开始了"拆Harness"的进程。Opus 4.6发布后,他们毫不犹豫地拆掉了当年费尽心力搭建的Context Reset和Sprint Contract组件。正如他们自己所说:"Harness的每一个组件都编码了一条关于模型做不到什么的假设,这些假设是承重的,但不是永久的。"
能搭说明之前的问题真实存在,能拆说明模型的能力边界正在快速推进。通往简单的路必须经过复杂,而知道自己在经过复杂,和以为复杂就是终点,这就是行业头部和跟风者的差距。
递归研发:AI开始自己改进自己
当Harness让Agent能够稳定、可靠地工作后,第一个跑通完整闭环的场景,不出意外地是研发本身。
研发场景天然具备三个让递归成为可能的条件:可验证(有明确的测试指标)、可回退(Git版本控制)、可读写(代码和日志都是纯文本)。这意味着Agent可以自主完成"执行→验证→识别问题→修改→再执行"的完整循环,而不需要人类在每一步介入。
白皮书指出,当前的递归研发已经分化出三条清晰的路线,每一条都在改写科研的底层逻辑:
探索型递归,以Google DeepMind的AlphaEvolve为代表。它不只是优化参数,而是在极大的解空间里搜索人类从未想到过的新算法。它找到的数据中心调度方案,为Google回收了全球0.7%的算力,价值数十亿美元;它改进的Strassen矩阵乘法算法,解决了困扰数学界半个多世纪的问题。
优化型递归,以Karpathy的Autoresearch为代表。这个只有630行代码的开源项目,让"一晚上跑50个实验"变成了行业标准。人类只需要定义目标函数和边界,Agent就会不知疲倦地迭代参数,只保留比上一次更好的结果。这套模式已经被推广到数据库优化、工单路由、RAG管道等几乎所有可以量化的领域。
工程流型递归,以Anthropic和OpenAI的内部实践为代表。Claude超过90%的新代码是AI自己写的,OpenAI的Codex已经深度参与了从测试诊断到部署调试的全流程。AI不再只是"打字更快的助手",而是真正在"做研发"——理解问题、制定策略、实施修改、验证效果。
这带来了一个前所未有的问题:人脑的速度,已经成了整个系统的限速器。当Agent一晚能跑100个实验时,人类根本来不及逐个审核结果,更来不及设定下一个实验目标。"AI研究进入AI主导阶段",本质上就是议程设定权的转移:未来人类只需要定义最终目标和伦理边界,而具体的研究路线、实验设计、参数优化,都将由AI自主完成。
更重要的是,递归研发的加速是指数级的。模型用自己优化的工具链,去优化下一代工具链,每一轮的改进都会让下一轮的效率更高。而决定这场指数竞赛胜负的,已经不再是模型本身的能力,而是自进化基础设施的完善程度——评估管线的真实性、记忆与选择机制的效率、执行环境的稳定性。
模型能力正在快速趋同,而自进化Infra的差距,才是接下来真正拉开距离的地方。
Skill:人类经验终于找到了数字化的终极形态
如果说Harness解决了"AI怎么听话"的问题,递归研发解决了"AI怎么改进自己"的问题,那么Skill解决的,就是"AI怎么懂行"的问题。
很多人对AI有一个天然的误解:只要模型足够大,它迟早会学会所有事情。但真实世界的麻烦在于,绝大多数关键能力根本不是公开知识。"这个API在高并发下有个隐藏的限流"、"我们团队从来不用ORM的级联删除"、"这个客户只接受下午三点以后的会议"——这些是资深从业者用无数踩坑换来的know-how,不在训练数据里,也不适合硬编码进产品逻辑。
Skill填补的就是这个空白。它比Prompt更稳(结构化、可版本控制),比Workflow更活(允许模型灵活判断),比重新训练模型更轻(改一个Markdown文件即可)。一个Skill就是一个结构化的知识包,包含触发条件、标准操作流程、可执行脚本和参考资料,它把人类的实操经验,变成了Agent可以读取和执行的标准化格式。
这是知识传递方式的一次革命。过去,经验的传递靠师傅带徒弟、写文档、做培训,慢、不可规模化、严重依赖个人。而现在,一个资深工程师花两小时把TDD方法论写成一个Skill,全公司几千个Agent实例可以同时加载。以前初级工程师要花两年才能积累的经验,现在被打包成一个文件,一键分发。
经验不再附着于人,而是附着于结构。
当然,Skill生态的爆发也带来了新的问题。ClawHub半年积累了13700个Skill,但同时也出现了341个恶意Skill事件,被称为"AI版的npm投毒"。Vercel的评测则暴露了一个更根本的缺陷:Agent在56%的情况下,根本不会主动调用Skill。再多的好东西,如果它意识不到自己需要用,就等于没有。
针对这些问题,中美市场走出了三条不同的路线:ClawHub走社区开放路线,增长最快但安全问题最突出;腾讯SkillHub走平台审核路线,先审后上,解决了安全焦虑但开放性受限;字节的DeerFlow和扣子走开源可控路线,Skill就是纯Markdown文件,进Git管理,兼顾了安全和灵活性。
没有谁是绝对的赢家,不同的场景需要不同的平衡。但所有人都达成了一个共识:Skill作为人类经验数字化的终极形态,已经成为了Agent时代最核心的资产。它不仅会重构软件行业,甚至会动摇整个SaaS的根基——当Agent能通过Skill执行"用Salesforce管客户"的全部流程,用户还需要打开Salesforce的界面吗?
· 结语 ·
2026年Q1,是AI历史上一个值得被记住的季度。我们看到,Agent不再是实验室里的玩具,而是可以真正持续工作、创造价值的数字劳动者。
但这只是开始。白皮书指出,下一个季度,行业的焦点将从"能不能做"转向"能不能托付"。安全、权限、责任归属、组织治理,这些系统之外的问题,正在成为最大的瓶颈。
当Agent能操作你的文件系统、调用你的API、代表你和客户沟通时,出了错谁负责?当AI写的代码出了生产事故,应该问责程序员,还是问责AI,还是问责公司?当一个组织里90%的执行工作都由Agent完成时,中层管理的角色是什么?组织的架构又该如何重构?
这些问题,没有技术答案。
大模型的战争已经结束,系统的战争刚刚开始。而这场战争的最终胜负,从来不取决于谁的模型更聪明,而取决于谁能更好地回答这些人性和制度的问题。
毕竟,所有技术的终点,都是人。