腾讯研究院推出《AI Coding 观察报告 2.0》

腾讯研究院推出《AI Coding 观察报告 2.0》

《丰饶之后:AI Coding 观察报告 2.0》是腾讯研究院推出的AI透镜系列深度研究报告,由曹士圯、余一、袁晓辉执笔,覆盖2025下半年至2026第一季度。报告站在首版《AI Coding非共识报告》发布9个月后,系统验证7条非共识的落地情况,提炼6个结构性洞察。核心命题是:当AI Coding跨越”辅助补全”与”自主协作”两道能力门槛后,代码生成进入丰饶时代,稀缺性从”如何编写”迁移到”如何验证、如何定义规格、如何持续运营”。

报告背景与定位

  • 研究脉络:2025年7月首版报告提出”AI Coding是通用Agent的先验战场”等7条非共识。9个月后,多数判断已成共识,新的结构性问题浮现。二版不再争论”AI能否编程”,是追问”丰饶之后,什么变得稀缺”。
  • 时间跨度:聚焦2025H2至2026Q1,涵盖Claude Opus 4.5发布(第二道门槛)、METR实验结论逆转、Cursor估值跃升、Skills生态爆发、三场”Anthropic Day”等关键事件。
  • 研究方法:基于实验室技术报告、第三方基准(SWE-bench/Vellum)、行业调研(a16z/Pragmatic Engineer/GitClear)、企业实践(Anthropic/OpenAI/Cursor)及安全事件分析,采用”AI透镜”穿透噪声,提取可验证的结构性趋势。

6个结构性洞察

  • 模型加速趋同,前沿差距不减:六大商业模型在SWE-bench Verified上压缩至1个百分点区间,开源Qwen3-Coder追至80%段位,”选哪家模型”对多数企业已非核心决策。但Anthropic 2026年4月9天内连发Mythos Preview(93.9%,不公开)与Opus 4.7(87.6%,公开),”内部能力持续突破+阶段性差异化降权公开”的双轨机制表明,前沿实验室的能力储备与公开模型之间正在拉开新差距。
  • Agent原生成为工具演化的收敛方向:形态层面,Cursor 3、Codex App、Google Antigravity将IDE从”代码编辑器+AI插件”升级为”Agent编排平台+代码视图”。接口层面,CLI赢得Agent内循环(gh命令约200 tokens vs GitHub MCP服务器55,000 tokens,差275倍),MCP退守企业外循环,Skills用SOP封装成为非开发者首选接口。给Agent最好的工作环境是编排平台,最好的能力接口是代码与SOP。
  • 代码生成规模化,验证成新瓶颈:SWE-bench 87.6%意味着”如何实现”退出核心瓶颈。新瓶颈出现在两端:向前是规格定义(KTH实验显示AI可从926字英文规格完整自举代码),向后是验证维护(Veracode发现45%AI代码任务含已知漏洞,GitClear分析2.11亿行代码后技术债务增30-41%)。下一波价值创造不在更好的代码生成,而在更好的规格、验证、维护基础设施。
  • 产品构建零门槛,品味、运营逐渐稀缺:YC W2025批次25%创业公司95%+代码由AI生成,Solo founder比例从23.7%升至36.3%,Base44单人6个月被Wix以8000万美元收购。”原型墙”普遍存在:AI快速生成MVP后,安全、扩展性、边缘情况浮现,维护成本从20美元/月升至200美元/月。AI消除”从零到原型”门槛,但分发、运维、合规、品味成为新稀缺。
  • SaaS没有死去,它正在被重新分配:三场”Anthropic Day”定点打击中间层SaaS:Cowork发布致FactSet跌10%,COBOL博客致IBM跌13.2%(25年最大单日跌幅),Claude Design致Figma跌6.89%。受害者全是”把API包成带收费UI”的单功能中间层。同一时期,Cursor估值从293亿跃至500亿美元,Skills目录超2600个,平台层与自建层两极壮大。计价单位从”按座位”迁向”按产出”。
  • 做什么和谁能做,开发者被双向重定义:”做什么”在变:开发者从”编写者”转为”编排者”,Staff+工程师63.5%是最重度Agent用户,判断力与系统理解力成核心技能。”谁能做”也在变:非开发者首次以”构建者”身份进入,Epic Games超50%Claude Code使用来自非开发者,Skills让非开发者10分钟内用markdown写出第一个Agent能力。就业在三层流动:底层初级编码被压缩,中层技术项目经理新增(LinkedIn+250%),高层架构与产品定义被杠杆化放大。

报告内容详解

第一章 质变时刻:两道能力门槛与五维证据

  • 第一道门槛(2024年中,Claude 3.5 Sonnet):AI从辅助补全跃升为可靠代码生成助手,能力边界从Copilot式行内补全扩展到Cursor式全栈写作。
  • 第二道门槛(2025年末-2026上半年,Opus 4.5/4.7):从简单任务辅助跨越到稳定自主协作,Opus 4.5首次在SWE-bench Verified突破80%(达80.9%),token消耗较上一代下降约65%。
  • 五维证据汇聚:技术(SWE-bench突破)、产品(Plan Mode/多Agent/1M context)、用户体验(”Claude Christmas”现象)、意见领袖(Karpathy从”模型就是垃圾”转为”Opus 4.5强了10倍”)、商业(Claude Code ARR从零到25亿美元,Anthropic估值3800亿美元)。
  • METR逆转:2025年初首次RCT显示AI让开发者慢19%,2026年2月后续实验逆转为快18%(CI -38%到+9%),30-50%开发者拒绝”无AI”条件。

第二章 模型与驾驭工程:趋同、分化与协同进化

  • 商业趋同:六家头部模型(Opus 4.5/4.6、Gemini 3.1 Pro、MiniMax M2.5、Kimi K2.6、GPT-5.4)在SWE-bench Verified上压缩至1个百分点区间。
  • 前沿分化:Opus 4.7一次性跳升6.8pp至87.6%,打破5个月趋同区间;Mythos Preview达93.9%但不公开,双轨机制形成。
  • 驾驭工程(Harness Engineering):当模型趋同时,竞争力转向驾驭框架。SWE-bench Pro上,scaffold变化导致的分数波动是模型更换的22倍。技能演进路径从提示词工程(2022-24)到上下文工程(2025)再到驾驭工程(2026)。
  • 多Agent编排:从Sub-agents(一个大脑指挥手脚)到Agent Teams(一个团队各司其职),Kimi K2.6推至300个sub-agents并行、12小时连续执行。
  • 源码泄漏启发:2026年3月Claude Code意外暴露51.2万行TypeScript源码,揭示40+离散能力Tool System、KAIROS守护进程、autoDream记忆整合等设计。

第三章 工具生态的重塑:Agent-First、CLI与Skills

  • Agent-First转型:IDE定位从”代码编辑器+AI插件”升级为”Agent编排平台+代码视图”。Cursor 3.0推出Agents Window支持跨仓库并行运行多Agent;OpenAI Codex App上线两个半月周活达400万。
  • CLI vs MCP:CLI对Agent是原生语言(训练数据含海量shell命令),MCP需要额外抽象层。行业收敛到分层路由:CLI赢本地快速迭代(内循环),MCP赢企业跨系统协调(外循环)。
  • Skills生态:Agent Skills以文件夹(SKILL.md+可选脚本)作为Agent”入职手册”,采用渐进式披露按需加载。三层架构:Skills(SOP层,何时做/怎么做)封装MCP(集成层,连外部系统)与CLI(执行层,基础设施操作)。Skills让非开发者首次直接成为Agent作者,生态一个季度翻倍至2600+ curated目录。

第四章 当构建不再稀缺:瓶颈迁移、原型墙与赛道消融

  • 瓶颈迁移:过去瓶颈在”编写实现”,AI消除后,瓶颈迁移到”定义规格”与”验证维护”两端。Karpathy提出Software 1.0(Code)→2.0(Weights)→3.0(Prompts/Specs)范式演进。
  • 原型墙(Prototype Wall):第一周兴奋(AI快速生成MVP)→第三周担忧(安全、扩展性浮现)→第二月放弃(维护成本超预期)。Addy Osmani提出”70%问题”:AI代码看似70%正确,完成剩余30%代价可能超过从头手写。
  • 赛道消融:AI Coding作为独立品类边界开始消融,编程能力(读写文件+执行命令+迭代修复)天然等于通用Agent能力栈。Claude Code→Agent SDK→Cowork→Channels路径清晰,多入口(IDE/终端/IM/Web/桌面)汇聚。

第五章 格局与安全:SaaS重新分配与三种新攻击面

  • SaaS重新分配:中间层”复杂度封装层”SaaS被冲击,平台层(Cursor/Anthropic)与极简自建层(Skills生态)两极壮大。IDC预测纯座位计费2028年前作废,计价单位从”per seat”向”per outcome/consumption”迁移。
  • 三种新攻击面:LiteLLM供应链攻击(AI工具本身成攻击目标)、Axios npm供应链事件(旧范式+AI加速)、Vercel/Context.ai身份劫持(AI工具OAuth被入侵,攻击者被AI显著加速)。
  • 攻防对称下降:Nicholas Carlini用Claude Code发现Linux内核23年漏洞;Mythos Preview发现数千个零日漏洞(OpenBSD 27年TCP SACK漏洞发现成本不到50美元)。前沿实验室采用”双轨降权+身份验证准入”新范式。

第六章 面向未来:角色转型、非开发者入场与就业流动

  • 角色转型:开发者从”编写者”转向”编排者”,时间分配向上游迁移(定义规格、设计约束、评估产出、管理协作)。Amjad Masad三象限:往下走(系统编程/嵌入式/安全关键)、留在中间(全栈/CRUD,最危险)、往上走(产品设计/商业策略)。
  • 教育体系响应:Stanford开设”The Modern Software Developer”课程鼓励学生不写代码;MIT开设”No Code and Agentic AI”专业课;62%美国大学CS招生下降但AI专业涌流。
  • 非开发者入场:Epic Games超50%Claude Code使用来自非开发者;Block非工程师员工自建MCP服务器;Bolt.new 60-70%用户非传统开发者。
  • 一人公司主流化:YC solo founder比例升至36.3%,”10人做100人的事”从预言变常态。Cursor 20人做到1亿ARR,Bolt.new 15人2个月做到2000万ARR。
  • 就业三层流动:高层(架构/判断力)价值上升,中层(管理Agent的技术项目经理)新增,底层(初级编码)被压缩。

报告结论

腾讯研究院《丰饶之后:AI Coding 观察报告 2.0》指出,随着Claude Opus 4.7等模型跨越自主协作门槛,AI Coding已进入代码生成的丰饶时代,稀缺性从”如何编写”迁移至”如何定义规格、验证维护与持续运营”;开发者从编写者转为编排者,非开发者借Skills首次以构建者身份入场,工具形态全面Agent-First化,SaaS中间层被重新分配为平台层与极简自建层两极,而AI同时拉低攻防门槛使供应链安全面临全新挑战。

原文链接:丰饶之后:AI Coding 观察报告 2.0|AI 透镜系列研究

购物车
滚动至顶部