Hi，大家好，这里是遇到问题，先用AI的橘子姐姐。

每天醒来，AI世界都是新的景色。

国内的AI大战，从元宝红包，到千问奶茶，真是一代人有一代人的“鸡蛋”要领。

国外也不闲着，AI编程领域发布了两个重量级模型：

Anthropic 的：Claude Opus 4.6

OpenAI 的：GPT-5.3-Codex

两家几乎同时甩出了王炸，我们喝着千问奶茶，来快速了解一下两个模型的优势亮点。

01. 模型优势与关键跑分

Claude Opus 4.6

最猛的升级之一是，支持100万token的上下文窗口，差不多能一次性塞进去好几本长篇小说的概念。擅长复杂任务规划与长周期任务处理，自己发现问题并尝试修正错误。

在金融、法律等专业领域表现优异，GDPval-AA评分领先行业。新增自适应思考与四档努力程度（Effort控制）调控。还强化了与办公软件（如Excel、PowerPoint）的集成。

模型关键跑分

Terminal-Bench 2.0（评估智能体编码能力）：获得最高分65.4%。
GDPval-AA（评估专业领域知识工作）：Elo评分1606分，比自己的前代Opus 4.5高了190分，比GPT-5.2高了144分。
Arena.ai综合评测：在代码、文本、专家三大领域均排名第一。

GPT-5.3-Codex

速度比前代GPT-5.2-Codex 快25%，完成同等任务token使用量会减少一半。首个参与自身创建的AI模型。支持多任务并行处理，适合快速迭代开发。

用户可在任务执行过程中实时中断并调整方向，支持查看进度、提问、建议修正。从需求文档撰写、代码编写、调试部署到监控分析的全流程自动化。首个获得OpenAI”高能力”网络安全评级的模型。

模型关键跑分

Terminal-Bench 2.0（评估智能体编码能力）：得分 77.3% 。
GDPval（综合知识工作评估）：表现与GPT-5.2持平。
SWE-Bench Pro（评估解决真实GitHub仓库问题的能力）：得分 56.8% 。

02. 实测体验

我刚好购买了两个模型的限时套餐，赶紧来体验一波~

购买套餐网址：https://vipcheap.com/zh

对于海外模型，能用微信支付的网站，真的太厉害了，已经亲测，绝对安全。

1. 游戏复刻

微信当年除了微信红包大火之外，还有一个跳一跳小游戏也很火爆，至今记忆犹新，我们来复刻一下。

访问Claude官网，输入提示词，选择模型Opus 4.6

请帮我复刻一版微信跳一跳小游戏

三分钟没到就生成好了，自动给出了3D的视角和游戏特效。

体验之后，我又优化了几版：

请优化一下前端页面，包括： 1.落地区域可以是不同形状的物体 2.跳跃的物体调整为一个3D小奶龙 3.游戏区域最后居中展示在页面中 4.再适当增强一些游戏效果

请把“3D小奶龙角色”，改成“彩色小马”

优化一下”完美落点”效果，除了加分之外，每次显示“不同的马年祝福语”提示。

生成的效果感觉和微信跳一跳差不多，只不过UI方面还是不太高级。

一起来看看试玩效果：

说实话，玩着还真有点上瘾了。

再来看看GPT-5.3-Codex

我是在VSCode上使用的，同样的提示词输入进去，选择 GPT-5.3-Codex 模型。

也是三分钟的时间就完成了

这效果给我惊呆了，一点没有艺术细胞吗？

同样我也优化了几版提示词

直接来看效果吧

说实话这个小马我是没看出来，马都掉出界面以外了…

2. 生成社区服务站

先来看Opus 4.6，我们输入提示词

请设计并生成一个社区服务站，产品定位主要是为社区用户提供生活服务，比如遛狗喂猫，取快递等功能，用户可通过小程序登录使用。有几个你需要注意的：
1.产品功能尽可能完善，同时要保证实际使用性
2.服务站的功能在设计时要保证用户和平台的交互逻辑
3.覆盖地区可包含四级以上城市
4.要包含新型养老服务。

我看到结果，有点惊呆了

就是这么简单的几句话，生成的结果真的是可以直接上线使用的完整产品了，所有交互链路都是通的。

而且还补全了我没有提到的服务分类。

你别说你别说，Opus 4.6还真是挺强的~

同样，再来看看GPT-5.3-Codex

输入同样的提示词，耗时3分钟完成，速度和Opus 4.6相当。

来看看效果，抗不抗打？

这是？生成了一个Web服务介绍网站？没有理解到我提到的产品实际使用场景吗？——（用户可通过小程序登录使用）。

3. 小程序源码审查

我之前开发了一款“疯了么”小程序，只用五步手搓AI“疯了么APP”，发现下一个千万级产品就是这款，体验上有点小bug，报告下载后无法查看。

我下载了小程序的所有源码，正好让Opus 4.6来检测一下能不能检测出来。

输入提示词：

这是一个小程序的所有源码文件，请检测一下代码是否有Bug，或不足之处和需要优化的地方。

Opus4.6真的检测出来了。

影响：登录成功后无法跳转到首页；首页提交后无法跳转到报告页；报告页”重新分析”按钮失效。三个核心流程全部断裂。

检测出来这么多Bug和问题，还给出了对应的优化建议。

我直接输入：

请根据代码审查报告，生成新的优化后的应用源代码，并生成新的应用

新的应用保留了之前的UI设计和风格，只是解决了链路不同的问题，真的是指哪打哪，一个很懂你的工程师。

GPT-5.3-Codex没拿到结果。。。

4. 趣味接龙游戏

提示词：假设我们部门一共有7个人,分别叫小红,小绿,小白,小黑,小黄,小青和我,我们打算要参加团建活动,我设计了一个接龙游戏,请你模拟所有人,玩游戏。游戏规律为:每一句开头要接前一句的后三个字作为开头,按照这个规律接下去,最终实现和第一句形成闭环。第一句:天天忙,天天忙,忙完一生上天堂。

看起来有点太朴素了，没什么笑点，

请把风格变成娱乐抓马类型的

这版还不错，完美理解到了职场打工人的场景上。

而GPT-5.3-Codex，开始都没有充分理解游戏的规则，只是记住了“接后三个字”

需要再次说明规则

笑哭.jpg，捂脸.jpg

03. 体验感受

整个体验下来，感觉Opus 4.6很全面，而GPT-5.3-Codex，让我有点搞不明白了，主打编程，那上面的复刻游戏和社区服务站，是认真的吗？

还是我没有用好？

对我们这样的非技术人员来说，Claude Opus 4.6好像会更合适一些，能根据你的任务，多想一步，补充可能缺失的部分，真正是站在人的角度去思考和执行。

AI编程到今天，谈论的已不再是”辅助”，而是”自主”。能理解复杂需求、规划开发流程、执行多步骤任务，甚至进行自我调试。

对技术人员来说，他们的优势是会根据实际开发需求和场景，先判断选择哪个最合适，或者结合使用，发挥各自优势。

两个模型代表了不同的技术路线：

Opus 4.6侧重”广度与深度”（超大上下文+多代理协作），强调 ‍“别出错”‍ ，注重可靠性与长周期任务稳定性。

GPT-5.3-Codex侧重”速度与自主性”（实时交互+自我迭代），强调 ‍“先跑起来”‍ ，注重速度与多任务并行能力。

你觉得 Opus 4.6 和 GPT-5.3-Codex 哪个最适合你呢？

原文链接：Claude Opus 4.6 与 GPT-5.3-Codex 实测，谁更强？

实测 Claude Opus 4.6 vs GPT-5.3-Codex ，编程谁更强？01. 模型优势与关键跑分02. 实测体验03. 体验感受