DeepSeek V4 逻辑测评

短的结论：一道清澈而纯粹的光

基本情况：

作为国产大模型的顶流，DeepSeek V4 在发布后立刻引发了全民关注。面向生产力的编程Coding 场景评估已在先前单独发文，本篇主要分析其逻辑能力。

V4 Pro 作为万亿参数模型，与先前发布的同为万亿的Seed 2.0 Pro，Kimi K2.6，顺利在第一梯队头部会师，并且V4 Pro 以显著优势，拿到了国产模型第一。不过V4 Pro 在max 档位下的推理开销要显著高于其他两个模型，最终的成本也更高，依赖DeepSeek 未来大量使用国产算力后进行成本优化。

而V4 Flash 以200B+ 级别体量也与尺寸相近的Hy3 在第一梯队尾部相遇。V4 Flash 定价更低，但综合成本与Hy3 持平，二者在很多方面表现互有胜负，下文进行详述。

逻辑成绩：

*1 表格为了突出对比关系，仅展示部分可对照模型，不是完整排序。

*2 题目及测试方式，参见：大语言模型-逻辑能力横评 26-03 月榜

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

*4 红字模型代表工作在推理模式下(慢思考)，黑色模型则是对应的非推理模式(快思考)

V4 Pro 相比前代V3.2，无论尺寸还是性能，都有巨大跃升，不适合直接对比。因此选取相近的国产模型以及GPT-5.4 进行对比。写文时GPT-5.5 还没有API，也没有进行过逻辑测试，所以不做对比。而V4 Flash 主要与Hy3 对比。

优势：

指令遵循：V4 Pro 的指令遵循能力稳定，复杂语境和多条件，也可以在多Pass 下有相同表现。即便是要求输出字数在一定范围，V4 Pro 也能想办法遵循。其指令能力与GPT-5.4 非常接近，显著高于Kimi K2.6。K2.6 主要输在指令多且相似的情况，表现略低一些。而GPT-5.4 则可以无视这些人为设置的障碍。V4 Pro 介于二者之间。V4 Pro 在max 档位下，会无视指令要求的“不要过度思考”等指示，都会按max 的设定进行超长思考。high 档位则会响应此类要求。V4 Flash 指令能力与V4 Pro 基本持平，略高于Hy3，Hy3 在少量边缘case 下无法遵守，而V4 Flash 无此问题。
复杂推理：在多步，长链推理等任务上，V4 Pro的上限持平K2.6，略弱于GPT-5.4，但表现不够稳定。在max 档位下，V4 Pro 通常会进行过度思考，过多思考带来副作用就是会随机性的陷入局部解，在小范围内进行推导，忽略更多可能性。这种问题在编程侧的表现就是遇到复杂任务，会随机丢失一部分细节功能。V4 Flash 同样受此问题影响，在一些中等难度任务上，反而没有Hy3 表现稳定。
上下文幻觉：V4 Pro 存在幻觉，但并不高。通常出现在上下文有大量相似文本时，会有轻微的错误，多Pass 下幻觉程度相同。不过这种情况GPT-5.4 也难以幸免。长文本的信息提取类任务中，GPT-5.4 可以稳定全对，而V4 Pro 在思维链中原本已经正确提取了所有信息，但在后续处理中会出现失真。V4 Flash 的幻觉水平持平V4 Pro，上限和稳定性都好于Hy3。

不足：

规律洞察：通常认为规律洞察是万亿模型涌现能力之一，但V4 Pro 却没有表现出符合其参数规模的洞察力。比如在数学符号推导，字母规律探索等测试中，GPT-5.4, Opus 等模型具备真正的洞察力，思考长度不高。而V4 Pro 依然大量依赖低效穷举手段，并且在穷举过程中，也不会剪枝，导致推理长度在规定的上限边缘，且有半数概率会超长。K2.6 虽然推理效率也不高，但偶尔会表现出较好的归纳洞察力，结果来看会更好。V4 Flash 从Pro 继承了一定洞察能力，但表现较为随机，小概率能随机出超过同梯队的表现，总体上与Hy3 互有胜负，区别不大。
低效推理：虽然V4 同时有多个档位，但其max 档位推理效率却显著更低。在相同正确率下，high 档位消耗的Token 通常只有max 的1/2 乃至1/3。而max 虽然在更极限的难题上有更高的答案正确率，但也与其消耗的Token 量级不匹配。如果考察GPT-5.4 的xhigh 档位，则差距更明显，GPT-5.4 可以做到智力与Token 消耗接近线性相关。

赛博史官曰：

DeepSeek 发布的模型通常在某些方面都是当时的SOTA，在性价比上甚至能保持很长标杆，这样的模型即便闭源收费，也不乏大量用户买单。而DeepSeek 是坚定的开源派，他们相信技术应该是普惠的，也相信众人拾柴火焰高，他们不厌其烦的公布所有已知的研发细节，自己淋过雨，便为其他大模型团队撑起一把伞，也希望以此鼓励其他大模型团队不要为一时的困难而气馁。

DeepSeek 便是这样一个由一群纯粹的人组建的纯粹的团队。一个纯粹的人是无法被打败，他并不在乎评价，眼里只有前方的远路。如果路途遥远，夜深不见光，他便成为光。毕竟，这是关乎人类未来命运的大事。

本文来自转载大模型观测员，不代表发现AI立场，如若转载，请联系原作者；如有侵权，请联系编辑删除。