OpenAI GPT-5.5 测评

短的结论:彼可取而代之

基本情况:

去年10月以来,中美的大模型研发都明显加速了,基本都从原先平均4个月左右的迭代周期,进化到2个月左右,而OpenAI 这一次则进一步的,发布周期离前代仅48天。

但这不意味着GPT-5.5 又是一个像5.4 对5.2 那样的小修小补,5.5 是一次真正的大更新。GPT-5.5 把推理的稳定性提升到前所未见的高度,多Pass 的差别仅有3.2%,这意味着用户在使用GPT-5.5 时,几乎不再需要重试,第一遍就是最好的。这无疑会为用户节省许多API 成本。

另一项显著变化是GPT-5.5 的推理效率确实有较大改进,在开启xhigh 档位推理条件下,GPT-5.5 与GPT-5.4 在答案相同情况下,5.5 的Token 用量反而更少。5.4 原本无法满分的题目,5.5 在稍多Token 消耗下可以满分。对于较简单问题,GPT-5.5 可以在更低的思考档位下取得和5.4 相同的结果,Token 消耗显著更低。

但是这种Token 效率红利怎么能轮到用户受益呢,一倍的输出价格基本抵消了节省的Token。便宜和效率不可兼得,用户需要二选一。

逻辑成绩:

OpenAI GPT-5.5 测评

*1 表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。

*2 题目及测试方式,参见:大语言模型-逻辑能力横评 26-03 月榜,额外新增#61#62 两题。

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

*4 红字模型代表工作在推理模式下(慢思考),黑色模型则是对应的非推理模式(快思考)

优势:

  • 直觉能力:直觉能力是模型尺寸提升后自然涌现的高级能力之一,是一种更高效的洞察。通常不需要试探或者分析,就能锁定问题的能力。在一些中等难度找规律问题中,GPT-5.5 几乎不费吹灰之力,仅思考3000 Token 就能得到正确答案,比前代还要少10%。相比之下,Opus 在同样问题上需要至少8000,而国产模型普遍需要20K 以上,不乏消耗到50K 的。对于更复杂的规律,GPT-5.5 虽然消耗高一些,但能保证稳定满分,而国产模型就大概率要挣扎在Token 耗尽的边缘,进行无效穷举。
  • 字符能力:GPT-5.5 的文本逐字符处理能力相比GPT-5.4 有小幅但关键的进化。在难度相当到的#41 混乱文本解析题,先前Opus 4.6 拼尽全力,解读到大部分信息,而GPT-5.5 首次拿到满分。不过这种难题GPT-5.5 无法稳定满分,下限还是持平GPT-5.4。但在GPT-5.4 无法稳定满分的更简单的考察下,GPT-5.5 可以稳定满分。
  • 编程能力:代码基本功大幅改进,一遍过的概率极大提高,在已经测试的两个工程项目(C和E)中,GPT-5.5 总扣分只有前代GPT-5.4 的1/3。其中E 项目更是只有一处微小错误,基本通关。GPT 系列在编程上历来被诟病的UI 审美问题,在GPT-5.5 得到彻底反转,现在GPT-5.5 的直出审美并不在Opus 4.6 之下,在UI 细节上也会主动考虑更多,主动添加交互动效,精致的SVG等。GPT-5.5 在主动考虑更多的情况下,并没有丢失指令遵循能力,依然保持了用户要什么就做什么的精确性,主动发挥的部分克制且精准。这也导致了在架构设计方面,GPT-5.5 依然不会像Opus 那样进行大量自我发挥,一次性开出巨大篇幅的代码。想要怎样的架构,还是需要用户更明确的授意。

不足:

  • 计算能力:在GPT-5.5 如此强的推理能力之下,面对数学计算,表现和GPT-5.4 一致,基本无改进。比如简单的矩阵乘法,计算结果已经超出误差范围。而GPT-5.4 是持平GPT-5.2,这代表这个方向确实是暂时被OpenAI 放弃了,在Agent 工况下,计算确实不需要模型亲自手算。但需要指出,这项能力在对手Opus,以及一众国产头部模型中,反而发挥都较好。

赛博史官曰:

通常北美御三家的新模型的逻辑得分,看起来没有和同期的其他模型差距太大,但随着题目更新,御三家则总能维持在80分段,而其他模型则一退再退,直到退到实际性能该在的位置。这是因为要尽量准确刻画更广大的第二三梯队模型,观察他们的进化,不得不将题目设置为二三梯队模型也能勉强拿到一些分数的难度。

从另一方面来看,北美御三家的性能有目共睹,并不需要一个第三方为其背书。而通过观察御三家的性能长板,以此来衡量其他模型在同维度上的缺陷,能更好的理解下位模型输在哪里。

毕竟在大模型竞赛上,没有牢不可破的第一名。今天编程领域的王座上坐着GPT 与Opus两人,那未来未必不会有第三人。所有人都在全力以赴,所有人都是王位的竞争者。

本文来自转载大模型观测员 ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
“养龙虾”暗藏风险:仿冒技能包正在成为新型病毒传播渠道
上一篇 11小时前
调查显示:Claude用户群体收入水平显著高于其他AI助手
下一篇 11小时前

扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注