Hi,大家好,这里是遇到问题,先用AI的橘子姐姐。
每天醒来,AI世界都是新的景色。
国内的AI大战,从元宝红包,到千问奶茶,真是一代人有一代人的“鸡蛋”要领。
国外也不闲着,AI编程领域发布了两个重量级模型:
Anthropic 的:Claude Opus 4.6
OpenAI 的:GPT-5.3-Codex
两家几乎同时甩出了王炸,我们喝着千问奶茶,来快速了解一下两个模型的优势亮点。
01. 模型优势与关键跑分
Claude Opus 4.6
最猛的升级之一是,支持100万token的上下文窗口,差不多能一次性塞进去好几本长篇小说的概念。擅长复杂任务规划与长周期任务处理,自己发现问题并尝试修正错误。
在金融、法律等专业领域表现优异,GDPval-AA评分领先行业。新增自适应思考与四档努力程度(Effort控制)调控。还强化了与办公软件(如Excel、PowerPoint)的集成。
模型关键跑分
- Terminal-Bench 2.0(评估智能体编码能力):获得最高分65.4%。
- GDPval-AA(评估专业领域知识工作):Elo评分1606分,比自己的前代Opus 4.5高了190分,比GPT-5.2高了144分。
- Arena.ai综合评测:在代码、文本、专家三大领域均排名第一。
GPT-5.3-Codex
速度比前代GPT-5.2-Codex 快25%,完成同等任务token使用量会减少一半。首个参与自身创建的AI模型。支持多任务并行处理,适合快速迭代开发。
用户可在任务执行过程中实时中断并调整方向,支持查看进度、提问、建议修正。从需求文档撰写、代码编写、调试部署到监控分析的全流程自动化。首个获得OpenAI”高能力”网络安全评级的模型。
模型关键跑分
- Terminal-Bench 2.0(评估智能体编码能力):得分 77.3% 。
- GDPval(综合知识工作评估):表现与GPT-5.2持平。
- SWE-Bench Pro(评估解决真实GitHub仓库问题的能力):得分 56.8% 。
02. 实测体验
我刚好购买了两个模型的限时套餐,赶紧来体验一波~
购买套餐网址:https://vipcheap.com/zh
对于海外模型,能用微信支付的网站,真的太厉害了,已经亲测,绝对安全。
1. 游戏复刻
微信当年除了微信红包大火之外,还有一个跳一跳小游戏也很火爆,至今记忆犹新,我们来复刻一下。
访问Claude官网,输入提示词,选择模型Opus 4.6
请帮我复刻一版微信跳一跳小游戏
三分钟没到就生成好了,自动给出了3D的视角和游戏特效。
体验之后,我又优化了几版:
请优化一下前端页面,包括: 1.落地区域可以是不同形状的物体 2.跳跃的物体调整为一个3D小奶龙 3.游戏区域最后居中展示在页面中 4.再适当增强一些游戏效果
请把“3D小奶龙角色”,改成“彩色小马”
优化一下”完美落点”效果,除了加分之外,每次显示“不同的马年祝福语”提示。
生成的效果感觉和微信跳一跳差不多,只不过UI方面还是不太高级。
一起来看看试玩效果:
说实话,玩着还真有点上瘾了。
再来看看GPT-5.3-Codex
我是在VSCode上使用的,同样的提示词输入进去,选择 GPT-5.3-Codex 模型。
也是三分钟的时间就完成了
这效果给我惊呆了,一点没有艺术细胞吗?
同样我也优化了几版提示词
直接来看效果吧
说实话这个小马我是没看出来,马都掉出界面以外了…
2. 生成社区服务站
先来看Opus 4.6,我们输入提示词
请设计并生成一个社区服务站,产品定位主要是为社区用户提供生活服务,比如遛狗喂猫,取快递等功能,用户可通过小程序登录使用。有几个你需要注意的:
1.产品功能尽可能完善,同时要保证实际使用性
2.服务站的功能在设计时要保证用户和平台的交互逻辑
3.覆盖地区可包含四级以上城市
4.要包含新型养老服务。
我看到结果,有点惊呆了
就是这么简单的几句话,生成的结果真的是可以直接上线使用的完整产品了,所有交互链路都是通的。
而且还补全了我没有提到的服务分类。
你别说你别说,Opus 4.6还真是挺强的~
同样,再来看看GPT-5.3-Codex
输入同样的提示词,耗时3分钟完成,速度和Opus 4.6相当。
来看看效果,抗不抗打?
这是?生成了一个Web服务介绍网站?没有理解到我提到的产品实际使用场景吗?——(用户可通过小程序登录使用)。
3. 小程序源码审查
我之前开发了一款“疯了么”小程序,只用五步手搓AI“疯了么APP”,发现下一个千万级产品 就是这款,体验上有点小bug,报告下载后无法查看。
我下载了小程序的所有源码,正好让Opus 4.6来检测一下能不能检测出来。
输入提示词:
这是一个小程序的所有源码文件,请检测一下代码是否有Bug,或不足之处和需要优化的地方。
Opus4.6真的检测出来了。
影响:登录成功后无法跳转到首页;首页提交后无法跳转到报告页;报告页”重新分析”按钮失效。三个核心流程全部断裂。
检测出来这么多Bug和问题,还给出了对应的优化建议。
我直接输入:
请根据代码审查报告,生成新的优化后的应用源代码,并生成新的应用
新的应用保留了之前的UI设计和风格,只是解决了链路不同的问题,真的是指哪打哪,一个很懂你的工程师。
GPT-5.3-Codex没拿到结果。。。
4. 趣味接龙游戏
提示词:假设我们部门一共有7个人,分别叫小红,小绿,小白,小黑,小黄,小青和我,我们打算要参加团建活动,我设计了一个接龙游戏,请你模拟所有人,玩游戏。 游戏规律为:每一句开头要接前一句的后三个字作为开头,按照这个规律接下去,最终实现和第一句形成闭环。 第一句:天天忙,天天忙,忙完一生上天堂。
看起来有点太朴素了,没什么笑点,
请把风格变成娱乐抓马类型的
这版还不错,完美理解到了职场打工人的场景上。
而GPT-5.3-Codex,开始都没有充分理解游戏的规则,只是记住了“接后三个字”
需要再次说明规则
笑哭.jpg,捂脸.jpg
03. 体验感受
整个体验下来,感觉Opus 4.6很全面,而GPT-5.3-Codex,让我有点搞不明白了,主打编程,那上面的复刻游戏和社区服务站,是认真的吗?
还是我没有用好?
对我们这样的非技术人员来说,Claude Opus 4.6好像会更合适一些,能根据你的任务,多想一步,补充可能缺失的部分,真正是站在人的角度去思考和执行。
AI编程到今天,谈论的已不再是”辅助”,而是”自主”。能理解复杂需求、规划开发流程、执行多步骤任务,甚至进行自我调试。
对技术人员来说,他们的优势是会根据实际开发需求和场景,先判断选择哪个最合适,或者结合使用,发挥各自优势。
两个模型代表了不同的技术路线:
Opus 4.6侧重”广度与深度”(超大上下文+多代理协作),强调 “别出错” ,注重可靠性与长周期任务稳定性。
GPT-5.3-Codex侧重”速度与自主性”(实时交互+自我迭代),强调 “先跑起来” ,注重速度与多任务并行能力。
你觉得 Opus 4.6 和 GPT-5.3-Codex 哪个最适合你呢?
原文链接:Claude Opus 4.6 与 GPT-5.3-Codex 实测,谁更强?




