OpenAI GPT-5.5 测评

短的结论：彼可取而代之

基本情况：

去年10月以来，中美的大模型研发都明显加速了，基本都从原先平均4个月左右的迭代周期，进化到2个月左右，而OpenAI 这一次则进一步的，发布周期离前代仅48天。

但这不意味着GPT-5.5 又是一个像5.4 对5.2 那样的小修小补，5.5 是一次真正的大更新。GPT-5.5 把推理的稳定性提升到前所未见的高度，多Pass 的差别仅有3.2%，这意味着用户在使用GPT-5.5 时，几乎不再需要重试，第一遍就是最好的。这无疑会为用户节省许多API 成本。

另一项显著变化是GPT-5.5 的推理效率确实有较大改进，在开启xhigh 档位推理条件下，GPT-5.5 与GPT-5.4 在答案相同情况下，5.5 的Token 用量反而更少。5.4 原本无法满分的题目，5.5 在稍多Token 消耗下可以满分。对于较简单问题，GPT-5.5 可以在更低的思考档位下取得和5.4 相同的结果，Token 消耗显著更低。

但是这种Token 效率红利怎么能轮到用户受益呢，一倍的输出价格基本抵消了节省的Token。便宜和效率不可兼得，用户需要二选一。

逻辑成绩：

*1 表格为了突出对比关系，仅展示部分可对照模型，不是完整排序。

*2 题目及测试方式，参见：大语言模型-逻辑能力横评 26-03 月榜，额外新增#61，#62 两题。

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

*4 红字模型代表工作在推理模式下(慢思考)，黑色模型则是对应的非推理模式(快思考)

优势：

直觉能力：直觉能力是模型尺寸提升后自然涌现的高级能力之一，是一种更高效的洞察。通常不需要试探或者分析，就能锁定问题的能力。在一些中等难度找规律问题中，GPT-5.5 几乎不费吹灰之力，仅思考3000 Token 就能得到正确答案，比前代还要少10%。相比之下，Opus 在同样问题上需要至少8000，而国产模型普遍需要20K 以上，不乏消耗到50K 的。对于更复杂的规律，GPT-5.5 虽然消耗高一些，但能保证稳定满分，而国产模型就大概率要挣扎在Token 耗尽的边缘，进行无效穷举。
字符能力：GPT-5.5 的文本逐字符处理能力相比GPT-5.4 有小幅但关键的进化。在难度相当到的#41 混乱文本解析题，先前Opus 4.6 拼尽全力，解读到大部分信息，而GPT-5.5 首次拿到满分。不过这种难题GPT-5.5 无法稳定满分，下限还是持平GPT-5.4。但在GPT-5.4 无法稳定满分的更简单的考察下，GPT-5.5 可以稳定满分。
编程能力：代码基本功大幅改进，一遍过的概率极大提高，在已经测试的两个工程项目（C和E）中，GPT-5.5 总扣分只有前代GPT-5.4 的1/3。其中E 项目更是只有一处微小错误，基本通关。GPT 系列在编程上历来被诟病的UI 审美问题，在GPT-5.5 得到彻底反转，现在GPT-5.5 的直出审美并不在Opus 4.6 之下，在UI 细节上也会主动考虑更多，主动添加交互动效，精致的SVG等。GPT-5.5 在主动考虑更多的情况下，并没有丢失指令遵循能力，依然保持了用户要什么就做什么的精确性，主动发挥的部分克制且精准。这也导致了在架构设计方面，GPT-5.5 依然不会像Opus 那样进行大量自我发挥，一次性开出巨大篇幅的代码。想要怎样的架构，还是需要用户更明确的授意。

不足：

计算能力：在GPT-5.5 如此强的推理能力之下，面对数学计算，表现和GPT-5.4 一致，基本无改进。比如简单的矩阵乘法，计算结果已经超出误差范围。而GPT-5.4 是持平GPT-5.2，这代表这个方向确实是暂时被OpenAI 放弃了，在Agent 工况下，计算确实不需要模型亲自手算。但需要指出，这项能力在对手Opus，以及一众国产头部模型中，反而发挥都较好。

赛博史官曰：

通常北美御三家的新模型的逻辑得分，看起来没有和同期的其他模型差距太大，但随着题目更新，御三家则总能维持在80分段，而其他模型则一退再退，直到退到实际性能该在的位置。这是因为要尽量准确刻画更广大的第二三梯队模型，观察他们的进化，不得不将题目设置为二三梯队模型也能勉强拿到一些分数的难度。

从另一方面来看，北美御三家的性能有目共睹，并不需要一个第三方为其背书。而通过观察御三家的性能长板，以此来衡量其他模型在同维度上的缺陷，能更好的理解下位模型输在哪里。

毕竟在大模型竞赛上，没有牢不可破的第一名。今天编程领域的王座上坐着GPT 与Opus两人，那未来未必不会有第三人。所有人都在全力以赴，所有人都是王位的竞争者。

本文来自转载大模型观测员，不代表发现AI立场，如若转载，请联系原作者；如有侵权，请联系编辑删除。