DeepSeek V4 系列模型预览版上线了，最明显的变化就是把 1M 上下文变成了 DeepSeek 所有官方服务的标配。

DeepSeek V4 系列有两款模型：旗舰版 DeepSeek-V4-Pro 和轻量版 DeepSeek-V4-Flash。

看到 DeepSeek 公布的最新评测数据显示，DeepSeek-V4-Pro 的推理能力已经追平了顶级的闭源模型，世界知识仅次于 Gemini-Pro-3.1，Agentic Coding 评测表现也稳居开源模型前列。

更有意思的是，深度求索公司内部员工使用的 Agentic Coding 模型，评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式。

巧合的是，前阵子智谱刚发布的 GLM-5.1，也高调宣布在代码测评里跑赢了 Opus 4.6。

大家都在宣称自己能拳打 Sonnet、脚踢 Opus。但比起榜单成绩，我相信大家和我一样，更关心的肯定是：在真实的开发流程中，到底谁更好用？

于是我把 DeepSeek-V4-Pro、GLM-5.1 全部接入到 Claude Code 中，来了一场 Coding PK！

废话不多说，直接上实测。

01. 实测对比

天气卡片

你是 Apple Inc 的顶级 UI 设计师，以 iOS 18 的设计风格（毛玻璃效果、高斯模糊、动态渐变、细腻阴影）创建一个单个HTML文件（包含完整CSS和JavaScript）。实现横版天气页面，包含4个并排的动画天气卡片：

-晴天（太阳光线、动态光晕）

-大风（飘动云朵、摇曳树木、风线）

-暴雨（下落雨滴、形成水洼、闪电）

-暴雪（下落雪花、堆积效果）

卡片需深色背景，支持按钮切换天气状态，实现流畅交互和微动效。代码必须可直接运行，美观度优先。

用纯 CSS 实现太阳光线、云朵、闪电等等元素，非常考验模型对关键帧动画的想象力。

DeepSeek-V4-Pro 用了 6 分多钟把 4 种天气元素都做出来了，还加上了正常、温和、极端 3 种模式选择，看起来挺不错的。

天气卡片切换的时候不太丝滑，视觉质感还可以再优化优化。

只用了不到 4 分钟，页面排版和 DeepSeek-V4-Pro 相似，动效不仅形象，而且非常流畅、自然。

天气卡片切换时，用的是高亮提醒，切换非常丝滑。

商业网站

做一个高端水晶手链产品展示页。

只有一句极简 Prompt，全靠大模型自己补充商业化网页的设计感和排版。

GLM-5.1 依旧不到 4 分钟就搞定了。网页设计的很高级，大面积留白，配色也很合适，光看第一版，就感觉高级感满满了。页面中的小卡片都做了悬停效果，是可以直接拿来用的水平。

DeepSeek-V4-Pro 花了 6 分钟左右，网页的版式非常不错。但是水晶的渲染有点减分，首页的水晶的图层顺序没处理好，旋转时前后遮挡很不自然。

全屏画板

做一个互动式的全屏水彩画板网页工具，用户选择画笔颜色后，可以在画布中点击并拖动鼠标自由作画，画布会产生类似水彩颜料滴入清水后缓慢扩散的效果，整体像在水面上作画，晕染自然、柔和、舒展，有明显的流动感。

####核心视觉要求：

– 画迹呈现为连续的柔和水纹。用户拖动鼠标时，颜色先在笔触附近形成较浓的柔和色团，然后缓慢向外晕染，扩散范围逐渐变大，边缘逐渐羽化，形成自然的渐隐过渡。

– 后画上去的颜色会覆盖且压住之前的颜色，请使用更接近水彩混合方式，避免使用纯 additive blending 导致画面越来越亮。颜色可以轻微融合，但要保留用户刚画下去时的主要颜色。

– 每一笔在落下后缓慢扩散几秒，像颜料在水中慢慢舒展。

– 网站要有轻微动画，比如标题缓慢浮动，控制面板淡入，按钮 hover 时有发光效果。整体交互要顺滑，适合用户无脑点开玩几分钟，达到解压效果。

– 控制面板使用毛玻璃效果，悬浮在画面上方或侧边，包含画笔颜色切换、画笔粗细调节、清空画布、保存图片按钮。晕染强度调节影响扩散速度、扩散范围和边缘柔化程度。

####技术要求：

– 使用 HTML、CSS、原生 JavaScript 实现。

– 使用 canvas 绘制主要视觉效果。

– 不要依赖后端。

– 代码放在单个 HTML 文件中即可运行。

– 适配桌面端和移动端。

– 移动端支持手指触摸绘制。

– 画布要根据窗口大小自动缩放。

– 保存图片功能可以把当前 canvas 导出为 PNG。

DeepSeek 9分31秒完成。功能方面都在，而且笔触和晕染调节都很好用，可以清空画布和保存图片。DeepSeek做的晕开的效果非常自然。

晕染的档位虽然设置了0-100，但实际调到25以上，颜色就跟奶油一样化开了，很难在画布上留痕了。

GLM-5.1用了大概 6 分钟。界面配色和 DeepSeek-V4-Pro 很像。功能还是挺全的，但是画笔的轨迹渲染的不是很连贯，画的线条不流畅。

功能方面都实现的挺不错的。

从我测试的这几个偏前端的案例来看，GLM-5.1 无论在出代码的速度，还是页面的最终质感上，DeepSeek-V4-Pro确实略显平庸。

02. Codex 专业点评

前面聊的更多是我个人的直观感受，但是代码真实的质量如何，还得靠行家。这次我特意请了一个专业外援 Codex，帮我们从需求理解、代码结构、性能意识等等多个专业维度点评点评。

天气卡片对比分析

视觉上我觉得 GLM-5.1 生成的卡片观感好很多，结构清晰，动画也流畅，但在 Codex 的内行眼里，DeepSeek-V4-Pro 反而更胜一筹。

DeepSeek-V4-Pro 生成的天气卡片是靠大量 canvas 和动画堆起来的，不仅逻辑严密，局部动画细节、材质表现、光影、层次，都处理的相当漂亮。

商业网站

DeepSeek-V4-Pro 生成的页面，是典型的技术驱动，canvas 很多，动画很多，局部很精致，但信息结构没有被很好地组织起来。

GLM-5.1 的页面结构、品牌信息、CTA、视觉主图是成体系的，在产品完成度上全面领先。很多内容是用数据结构去驱动的，DOM + CSS 搞定布局和展示，逻辑清晰，维护成本低，也更接近真实团队的开发方式。

全屏画板对比分析

DeepSeek-V4-Pro 生成的页面，更像一个可交互的小工具。功能很全，但核心视觉是短板。

GLM-5.1 把重点放在画出来像不像。CMY 减色、颜料沉积、granulation 颗粒感这些细节一加进去，整个画板的质感瞬间就不一样了。

03. 一些分享

以往我们测大模型，更多是看功能能不能跑通，会不会有报错。现在，光跑通已经不太够了。

AI 编程进入到网页、产品 Demo、交互工具这些更接近真实交付的场景之后，我们开始在意更多感性的东西：页面有没有设计感，功能用起来够不够丝滑，动效自不自然？

不得不承认，我们对 AI 编程的评判标准，正在肉眼可见地提高。各家大模型也在用实打实的进化，一点点抬高我们对 AI 编程的期待。

说回这次的主角 DeepSeek V4。这回放出来的虽然只是个预览版，但表现确实可圈可点。底层的数据量更大了，上下文也飙升到 1M，加上现在还在打折期，用起来性价比极高。虽然它没有当年 R1 横空出世时、一鸣惊人的感觉，依旧意义深远。

DeepSeek 团队已经扩充到 300 人的规模，开始了新一轮的融资。目前，还已经悄悄完成了跟华为、寒武纪等国内头部 AI 芯片厂商的深度优化适配。咱们的国产大模型，正在往更完整的国产算力生态里扎根。

现在，就等 DeepSeek V4 的正式版了。

原文链接：实测 DeepSeek V4 & GLM-5.1，Vibe Coding 谁更强？

01. 实测对比

天气卡片

商业网站

全屏画板

02. Codex 专业点评

天气卡片对比分析

商业网站

全屏画板对比分析

03. 一些分享

相关文章