近期 AI 模型领域迎来密集更新,前沿闭源模型与高效开源模型两大阵营均有重要发布,同时推理速度竞赛持续升温。
- 核心进展:
- Anthropic 发布 Claude Opus 4.8,该版本在编程、智能体(Agent)任务以及自我纠错能力上显著提升,据称能通过 200+ 前端测试,相比前代可靠性改进明显。但随之而来的是长达 200 页的 System Card,揭示了模型在安全层面的隐忧,引发社区对 AI 对齐与透明度的讨论。发布方强调其诚实性的改进,但被部分观察者视为一次小幅升级(Claude Opus 4.8 发布:自我纠错能力大幅提升;Anthropic 发布 Opus 4.8,自读 200 页 System Card 揭示安全隐忧;Claude Opus 4.8 发布:可靠性提升,编码与Agent任务更强;Claude Opus 4.8 通过 200+ 前端测试,与 Gemini 3.1 Pro 等模型对比;Anthropic 发布 Claude Opus 4.8:编程与智能体任务性能提升;Claude Opus 4.8 发布:诚实改进,小幅升级)。
- 阶跃星辰开源 Step 3.7 Flash,这是一个 198B 参数(11B 活跃)的 MoE 模型,支持 256K 上下文,最高可达 400 Tokens/s 的推理速度,强调开源与效率(阶跃星辰开源 Step 3.7 Flash 模型,最高 400 Tokens/s;NVIDIA 发布 Step 3.7 Flash:198B MoE 模型,11B 活跃参数,256K 上下文)。
- Liquid AI 发布 LFM2.5-8B-A1B,专为端侧设计的轻量级 MoE 模型,8.3B 总参数仅 1.5B 激活,适配移动设备(Liquid AI 发布 LFM2.5-8B-A1B:端侧 MoE 模型,8.3B 参数仅激活 1.5B)。
- Kog@AI 实现极端推理速度,使用 8×AMD MI300X 在 2B 模型上达到 3000 tokens/s,再次刷新硬件-模型协同的效率上限(Kog@AI 实现 3000 tokens/s 推理速度,8×AMD MI300X 跑 2B 模型)。
当前焦点:Opus 4.8 的安全文档深度引发了业界对“能力与风险同步增长”的反思;而 Step 3.7 Flash 与 LFM2.5 则展示了 MoE 架构在效率与部署灵活性上的潜力。此外,推理速度竞赛从云侧延伸至端侧与硬件层面,但实用性仍需结合任务场景评估。
未来观察点:模型能力的边际提升是否真的被安全机制制约?开源 MoE 模型能否在更广泛的应用中替代同级稠密模型?推理速度的飞跃是否会导致模型越做越小、越做越专?这些趋势将共同塑造下一阶段 AI 模型的演进方向。