gpt5.5使用起来居然感觉比opus4.7还强,按理来说moe应该没有dense强(之前opus一直按着gpt锤),但是gpt5.5为啥能追平甚至超过opus4.7呢?查了一些资料后,我发现gpt5.5是在4.5之后首次从零开始彻底重新预训练的模型(之前的多模态都是伪多模态,本质上还是视觉、音频和文本模型拼接),多模态的router肯定比拼接的强,而且oai和nv深度合作,用特殊的专家并行(Wide-expert Parallelism)和耦合服务(Disaggregated Serving)实现跨芯片token路由,居然和拼接的5.4保持基本一样的token生成延迟。(不过这也解释了为啥5.5比5.4贵)然后5.5还解决了专家矛盾和路径迷失问题(指工具调用失败后陷入无限循环/造假),这本来就是moe相较于dense的缺陷。还有就是之前我刷到过一篇论文说只要输入token的Active Capacity达到一定阈值时,在逼近误差和方差权衡上的表现moe就能和dense完全一致。(顺带一提dsv4pro用了Engram Conditional Memory来优化moe)
然后就是opus使用dense的缺陷,当重构某个系统模块时,Opus 4.7要先输出一堆内部逻辑推理,还得解释即将采取的步骤,然后输出代码后,还要输出总结,和防御性免责声明,这就会导致上下文腐败,虽然cc的自动压缩很强,但是在长对话的后半段就会像失了智一样。(gpt虽然贵,还话唠,但是实际上输出的token是没有opus多的,所以都说opus贵)而且opus4.7不知道什么原因,产生严重错误居然比opus4.6还多,开倒车是hyw?
总结一下,随着参数规模的爆炸,moe应该是未来的大趋势了。A/的Mythos也是moe,然后opus是大dense,sonnet是小dense,不知道下一版opus会不会是dense和moe混合模式。(结合image2,这下真是oai天下了)
评论交流
欢迎留下你的想法