moe真能干过dense吗？

gpt5.5使用起来居然感觉比opus4.7还强，按理来说moe应该没有dense强（之前opus一直按着gpt锤），但是gpt5.5为啥能追平甚至超过opus4.7呢？查了一些资料后，我发现gpt5.5是在4.5之后首次从零开始彻底重新预训练的模型（之前的多模态都是伪多模态，本质上还是视觉、音频和文本模型拼接），多模态的router肯定比拼接的强，而且oai和nv深度合作，用特殊的专家并行（Wide-expert Parallelism）和耦合服务（Disaggregated Serving）实现跨芯片token路由，居然和拼接的5.4保持基本一样的token生成延迟。（不过这也解释了为啥5.5比5.4贵）然后5.5还解决了专家矛盾和路径迷失问题（指工具调用失败后陷入无限循环/造假），这本来就是moe相较于dense的缺陷。还有就是之前我刷到过一篇论文说只要输入token的Active Capacity达到一定阈值时，在逼近误差和方差权衡上的表现moe就能和dense完全一致。（顺带一提dsv4pro用了Engram Conditional Memory来优化moe）

然后就是opus使用dense的缺陷，当重构某个系统模块时，Opus 4.7要先输出一堆内部逻辑推理，还得解释即将采取的步骤，然后输出代码后，还要输出总结，和防御性免责声明，这就会导致上下文腐败，虽然cc的自动压缩很强，但是在长对话的后半段就会像失了智一样。（gpt虽然贵，还话唠，但是实际上输出的token是没有opus多的，所以都说opus贵）而且opus4.7不知道什么原因，产生严重错误居然比opus4.6还多，开倒车是hyw？

总结一下，随着参数规模的爆炸，moe应该是未来的大趋势了。A/的Mythos也是moe，然后opus是大dense，sonnet是小dense，不知道下一版opus会不会是dense和moe混合模式。（结合image2，这下真是oai天下了）

SZC's Blog

moe真能干过dense吗？

评论交流