DeepSeek V4 系列模型预览版上线了,最明显的变化就是把 1M 上下文变成了 DeepSeek 所有官方服务的标配。
DeepSeek V4 系列有两款模型:旗舰版 DeepSeek-V4-Pro 和轻量版 DeepSeek-V4-Flash。
看到 DeepSeek 公布的最新评测数据显示,DeepSeek-V4-Pro 的推理能力已经追平了顶级的闭源模型,世界知识仅次于 Gemini-Pro-3.1,Agentic Coding 评测表现也稳居开源模型前列。
更有意思的是,深度求索公司内部员工使用的 Agentic Coding 模型,评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。
巧合的是,前阵子智谱刚发布的 GLM-5.1,也高调宣布在代码测评里跑赢了 Opus 4.6。
大家都在宣称自己能拳打 Sonnet、脚踢 Opus。但比起榜单成绩,我相信大家和我一样,更关心的肯定是:在真实的开发流程中,到底谁更好用?
于是我把 DeepSeek-V4-Pro、GLM-5.1 全部接入到 Claude Code 中,来了一场 Coding PK!
废话不多说,直接上实测。
01. 实测对比
天气卡片
你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个HTML文件(包含完整CSS和JavaScript)。实现横版天气页面,包含4个并排的动画天气卡片:
-晴天(太阳光线、动态光晕)
-大风(飘动云朵、摇曳树木、风线)
-暴雨(下落雨滴、形成水洼、闪电)
-暴雪(下落雪花、堆积效果)
卡片需深色背景,支持按钮切换天气状态,实现流畅交互和微动效。代码必须可直接运行,美观度优先。
用纯 CSS 实现太阳光线、云朵、闪电等等元素,非常考验模型对关键帧动画的想象力。
DeepSeek-V4-Pro 用了 6 分多钟把 4 种天气元素都做出来了,还加上了正常、温和、极端 3 种模式选择,看起来挺不错的。
天气卡片切换的时候不太丝滑,视觉质感还可以再优化优化。
只用了不到 4 分钟,页面排版和 DeepSeek-V4-Pro 相似,动效不仅形象,而且非常流畅、自然。
天气卡片切换时,用的是高亮提醒,切换非常丝滑。
商业网站
做一个高端水晶手链产品展示页。
只有一句极简 Prompt,全靠大模型自己补充商业化网页的设计感和排版。
GLM-5.1 依旧不到 4 分钟就搞定了。网页设计的很高级,大面积留白,配色也很合适,光看第一版,就感觉高级感满满了。页面中的小卡片都做了悬停效果,是可以直接拿来用的水平。
DeepSeek-V4-Pro 花了 6 分钟左右,网页的版式非常不错。但是水晶的渲染有点减分,首页的水晶的图层顺序没处理好,旋转时前后遮挡很不自然。
全屏画板
做一个互动式的全屏水彩画板网页工具,用户选择画笔颜色后,可以在画布中点击并拖动鼠标自由作画,画布会产生类似水彩颜料滴入清水后缓慢扩散的效果,整体像在水面上作画,晕染自然、柔和、舒展,有明显的流动感。
####核心视觉要求:
– 画迹呈现为连续的柔和水纹。用户拖动鼠标时,颜色先在笔触附近形成较浓的柔和色团,然后缓慢向外晕染,扩散范围逐渐变大,边缘逐渐羽化,形成自然的渐隐过渡。
– 后画上去的颜色会覆盖且压住之前的颜色,请使用更接近水彩混合方式,避免使用纯 additive blending 导致画面越来越亮。颜色可以轻微融合,但要保留用户刚画下去时的主要颜色。
– 每一笔在落下后缓慢扩散几秒,像颜料在水中慢慢舒展。
– 网站要有轻微动画,比如标题缓慢浮动,控制面板淡入,按钮 hover 时有发光效果。整体交互要顺滑,适合用户无脑点开玩几分钟,达到解压效果。
– 控制面板使用毛玻璃效果,悬浮在画面上方或侧边,包含画笔颜色切换、画笔粗细调节、清空画布、保存图片按钮。晕染强度调节影响扩散速度、扩散范围和边缘柔化程度。
####技术要求:
– 使用 HTML、CSS、原生 JavaScript 实现。
– 使用 canvas 绘制主要视觉效果。
– 不要依赖后端。
– 代码放在单个 HTML 文件中即可运行。
– 适配桌面端和移动端。
– 移动端支持手指触摸绘制。
– 画布要根据窗口大小自动缩放。
– 保存图片功能可以把当前 canvas 导出为 PNG。
DeepSeek 9分31秒完成。功能方面都在,而且笔触和晕染调节都很好用,可以清空画布和保存图片。DeepSeek做的晕开的效果非常自然。
晕染的档位虽然设置了0-100,但实际调到25以上,颜色就跟奶油一样化开了,很难在画布上留痕了。
GLM-5.1用了大概 6 分钟。界面配色和 DeepSeek-V4-Pro 很像。功能还是挺全的,但是画笔的轨迹渲染的不是很连贯,画的线条不流畅。
功能方面都实现的挺不错的。
从我测试的这几个偏前端的案例来看,GLM-5.1 无论在出代码的速度,还是页面的最终质感上,DeepSeek-V4-Pro确实略显平庸。
02. Codex 专业点评
前面聊的更多是我个人的直观感受,但是代码真实的质量如何,还得靠行家。这次我特意请了一个专业外援 Codex,帮我们从需求理解、代码结构、性能意识等等多个专业维度点评点评。
天气卡片对比分析
视觉上我觉得 GLM-5.1 生成的卡片观感好很多,结构清晰,动画也流畅,但在 Codex 的内行眼里,DeepSeek-V4-Pro 反而更胜一筹。
DeepSeek-V4-Pro 生成的天气卡片是靠大量 canvas 和动画堆起来的,不仅逻辑严密,局部动画细节、材质表现、光影、层次,都处理的相当漂亮。
商业网站
DeepSeek-V4-Pro 生成的页面,是典型的技术驱动,canvas 很多,动画很多,局部很精致,但信息结构没有被很好地组织起来。
GLM-5.1 的页面结构、品牌信息、CTA、视觉主图是成体系的,在产品完成度上全面领先。很多内容是用数据结构去驱动的,DOM + CSS 搞定布局和展示,逻辑清晰,维护成本低,也更接近真实团队的开发方式。
全屏画板对比分析
DeepSeek-V4-Pro 生成的页面,更像一个可交互的小工具。功能很全,但核心视觉是短板。
GLM-5.1 把重点放在画出来像不像。CMY 减色、颜料沉积、granulation 颗粒感这些细节一加进去,整个画板的质感瞬间就不一样了。
03. 一些分享
以往我们测大模型,更多是看功能能不能跑通,会不会有报错。现在,光跑通已经不太够了。
AI 编程进入到网页、产品 Demo、交互工具这些更接近真实交付的场景之后,我们开始在意更多感性的东西:页面有没有设计感,功能用起来够不够丝滑,动效自不自然?
不得不承认,我们对 AI 编程的评判标准,正在肉眼可见地提高。各家大模型也在用实打实的进化,一点点抬高我们对 AI 编程的期待。
说回这次的主角 DeepSeek V4。这回放出来的虽然只是个预览版,但表现确实可圈可点。底层的数据量更大了,上下文也飙升到 1M,加上现在还在打折期,用起来性价比极高。虽然它没有当年 R1 横空出世时、一鸣惊人的感觉,依旧意义深远。
DeepSeek 团队已经扩充到 300 人的规模,开始了新一轮的融资。目前,还已经悄悄完成了跟华为、寒武纪等国内头部 AI 芯片厂商的深度优化适配。咱们的国产大模型,正在往更完整的国产算力生态里扎根。
现在,就等 DeepSeek V4 的正式版了。
原文链接:实测 DeepSeek V4 & GLM-5.1,Vibe Coding 谁更强?




