精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:27

arXiv cs.AI@Songhao Wu, Ang Lv, Ruobing Xie, Yankai Lin

精选

Mixture-of-Experts (MoE) 模型中的路由器负责决定激活哪些专家，但其设计缺乏理论指导。本文提出将每个路由器行与对应专家的主奇异方向对齐，因为该方向能最有效地描述矩阵。基于此，作者设计了 Manifold Power Iteration (MPI) 方法，采用“先幂迭代再收缩”的范式，使路由器行收敛到专家的主奇异方向。实验在 1B 到 11B 参数的 MoE 模型上验证，该方法显著提升了模型效果。

论文 MoE 路由器设计主奇异方向 Manifold Power Iteration 模型优化

推荐理由：MoE 模型的路由器设计长期缺乏理论依据，MPI 给出了可解释的优化方向，做大规模 MoE 训练的团队值得关注，能直接提升模型效率。

原文

6月2日

09:56

Y Combinator@ycombinator

精选

BentoLabsAI 推出了面向长时间运行智能体的监控与学习层，能够帮助智能体实现模型级别的性能提升。例如，Sonnet 4.5 在 TB2 内部测试中得分从 42.2% 提升至 52.4%。该工具旨在解决智能体在生产环境中缺乏可观测性和持续优化能力的问题。BentoLabsAI 由 Y Combinator 支持，刚刚正式发布。

AI产品智能体监控/可观测性模型优化 BentoLabsAI Y Combinator

推荐理由：做智能体部署和运维的团队终于有了专门的监控与学习工具，BentoLabsAI 能直接提升模型效果，值得关注和试用。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月31日

00:04

00:04IT之家（博客/媒体）

精选76°

小米 MiMo-V2.5 系列 API 完成永久降价，最高降幅达 99%，并首次公开推理系统全链路优化方案。该方案围绕 Hybrid SWA + MoE + 多模态架构，重构了 KVCache 管理、分级缓存、前缀缓存及调度策略，将 KVCache 存储压缩至同级方案的约 1/7，显著降低长序列场景下的推理成本。这是业内首篇全面覆盖该组合架构的大规模工程落地方案，模型能力未缩减，但推理效率大幅提升。核心优化包括双池分治的 KVCache 系统、前缀缓存树重构、GCache 三级缓存以及 KVCache 亲和调度，使缓存命中率达 93% 以上，TTFT P90 降低 30%。

AI产品推理系统 KVCache MiMo-V2.5 模型优化小米

推荐理由：小米公开的推理系统优化方案直接解释了 MiMo-V2.5 降价 99% 的技术基础，做模型推理部署的团队可以借鉴其 Hybrid SWA 和缓存管理思路，看完会明白长序列推理成本如何真正降下来。

原文

5月29日

13:08

berryxia@berryxia

精选

FaceMind团队通过100种语言和四大核心任务的实验发现，在语义不变的前提下，使用预训练语料中频率更高的表达方式，无论是Prompting还是Fine-tuning，模型表现都会显著提升。这一发现被称为Adam’s Law（文本频率定律），它补充了数据工程中“质量-规模-难度”铁三角缺失的第四维度：频率。高频表达不是简化，而是让模型在熟悉的概率空间里工作，效果更好。写Prompt时，应优先考虑模型在训练语料中见过的频率，而非追求文雅或专业。

技巧 Prompt工程文本频率定律 FaceMind 模型优化数据工程

推荐理由：写Prompt总感觉模型不听话？FaceMind的实验戳破了“高级词汇”的幻觉——用高频表达能让模型表现直接起飞，做Prompt工程或微调模型的开发者值得一试。

原文

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月25日

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

原文

5月22日

14:56

Cohere@cohere

精选

Cohere 发布了新模型 Command A+，该模型针对 NVIDIA Blackwell 架构进行了优化，并使用了 NVIDIA CUDA-X 库进行训练。NVIDIA AI 基础设施团队公开祝贺，强调了双方在 AI 基础设施上的紧密合作。这一合作意味着 Command A+ 将充分利用 NVIDIA 最新硬件的性能，为企业和开发者提供更高效的 AI 推理能力。

AI模型 Cohere Command A+NVIDIA Blackwell AI 基础设施模型优化

推荐理由：Cohere 与 NVIDIA 的深度合作让 Command A+ 在 Blackwell 上跑出最佳性能，做企业级 AI 部署的团队值得关注这个新选择。

原文