DeepSeek V4 逻辑测评

短的结论:一道清澈而纯粹的光

基本情况:

作为国产大模型的顶流,DeepSeek V4 在发布后立刻引发了全民关注。面向生产力的编程Coding 场景评估已在先前单独发文,本篇主要分析其逻辑能力。

V4 Pro 作为万亿参数模型,与先前发布的同为万亿的Seed 2.0 Pro,Kimi K2.6,顺利在第一梯队头部会师,并且V4 Pro 以显著优势,拿到了国产模型第一。不过V4 Pro 在max 档位下的推理开销要显著高于其他两个模型,最终的成本也更高,依赖DeepSeek 未来大量使用国产算力后进行成本优化。

而V4 Flash 以200B+ 级别体量也与尺寸相近的Hy3 在第一梯队尾部相遇。V4 Flash 定价更低,但综合成本与Hy3 持平,二者在很多方面表现互有胜负,下文进行详述。

逻辑成绩:

DeepSeek V4 逻辑测评

*1 表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。

*2 题目及测试方式,参见:大语言模型-逻辑能力横评 26-03 月榜

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

*4 红字模型代表工作在推理模式下(慢思考),黑色模型则是对应的非推理模式(快思考)

V4 Pro 相比前代V3.2,无论尺寸还是性能,都有巨大跃升,不适合直接对比。因此选取相近的国产模型以及GPT-5.4 进行对比。写文时GPT-5.5 还没有API,也没有进行过逻辑测试,所以不做对比。而V4 Flash 主要与Hy3 对比。

优势:

  • 指令遵循:V4 Pro 的指令遵循能力稳定,复杂语境和多条件,也可以在多Pass 下有相同表现。即便是要求输出字数在一定范围,V4 Pro 也能想办法遵循。其指令能力与GPT-5.4 非常接近,显著高于Kimi K2.6。K2.6 主要输在指令多且相似的情况,表现略低一些。而GPT-5.4 则可以无视这些人为设置的障碍。V4 Pro 介于二者之间。V4 Pro 在max 档位下,会无视指令要求的“不要过度思考”等指示,都会按max 的设定进行超长思考。high 档位则会响应此类要求。V4 Flash 指令能力与V4 Pro 基本持平,略高于Hy3,Hy3 在少量边缘case 下无法遵守,而V4 Flash 无此问题。
  • 复杂推理:在多步,长链推理等任务上,V4 Pro的上限持平K2.6,略弱于GPT-5.4,但表现不够稳定。在max 档位下,V4 Pro 通常会进行过度思考,过多思考带来副作用就是会随机性的陷入局部解,在小范围内进行推导,忽略更多可能性。这种问题在编程侧的表现就是遇到复杂任务,会随机丢失一部分细节功能。V4 Flash 同样受此问题影响,在一些中等难度任务上,反而没有Hy3 表现稳定。
  • 上下文幻觉:V4 Pro 存在幻觉,但并不高。通常出现在上下文有大量相似文本时,会有轻微的错误,多Pass 下幻觉程度相同。不过这种情况GPT-5.4 也难以幸免。长文本的信息提取类任务中,GPT-5.4 可以稳定全对,而V4 Pro 在思维链中原本已经正确提取了所有信息,但在后续处理中会出现失真。V4 Flash 的幻觉水平持平V4 Pro,上限和稳定性都好于Hy3。

不足:

  • 规律洞察:通常认为规律洞察是万亿模型涌现能力之一,但V4 Pro 却没有表现出符合其参数规模的洞察力。比如在数学符号推导,字母规律探索等测试中,GPT-5.4, Opus 等模型具备真正的洞察力,思考长度不高。而V4 Pro 依然大量依赖低效穷举手段,并且在穷举过程中,也不会剪枝,导致推理长度在规定的上限边缘,且有半数概率会超长。K2.6 虽然推理效率也不高,但偶尔会表现出较好的归纳洞察力,结果来看会更好。V4 Flash 从Pro 继承了一定洞察能力,但表现较为随机,小概率能随机出超过同梯队的表现,总体上与Hy3 互有胜负,区别不大。
  • 低效推理:虽然V4 同时有多个档位,但其max 档位推理效率却显著更低。在相同正确率下,high 档位消耗的Token 通常只有max 的1/2 乃至1/3。而max 虽然在更极限的难题上有更高的答案正确率,但也与其消耗的Token 量级不匹配。如果考察GPT-5.4 的xhigh 档位,则差距更明显,GPT-5.4 可以做到智力与Token 消耗接近线性相关。

赛博史官曰:

DeepSeek 发布的模型通常在某些方面都是当时的SOTA,在性价比上甚至能保持很长标杆,这样的模型即便闭源收费,也不乏大量用户买单。而DeepSeek 是坚定的开源派,他们相信技术应该是普惠的,也相信众人拾柴火焰高,他们不厌其烦的公布所有已知的研发细节,自己淋过雨,便为其他大模型团队撑起一把伞,也希望以此鼓励其他大模型团队不要为一时的困难而气馁。

DeepSeek 便是这样一个由一群纯粹的人组建的纯粹的团队。一个纯粹的人是无法被打败,他并不在乎评价,眼里只有前方的远路。如果路途遥远,夜深不见光,他便成为光。毕竟,这是关乎人类未来命运的大事。

本文来自转载大模型观测员 ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
一分钟的奇迹与幻觉:实测世界模型Happy Oyster
上一篇 5小时前
DeepSeek V4 发布,全网最细解读 & 技术报告拆解
下一篇 5小时前

扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注