11:27arXiv cs.AI@Songhao Wu, Ang Lv, Ruobing Xie, Yankai Lin精选Mixture-of-Experts (MoE) 模型中的路由器负责决定激活哪些专家,但其设计缺乏理论指导。本文提出将每个路由器行与对应专家的主奇异方向对齐,因为该方向能最有效地描述矩阵。基于此,作者设计了 Manifold Power Iteration (MPI) 方法,采用“先幂迭代再收缩”的范式,使路由器行收敛到专家的主奇异方向。实验在 1B 到 11B 参数的 MoE 模型上验证,该方法显著提升了模型效果。论文MoE路由器设计主奇异方向Manifold Power Iteration模型优化推荐理由:MoE 模型的路由器设计长期缺乏理论依据,MPI 给出了可解释的优化方向,做大规模 MoE 训练的团队值得关注,能直接提升模型效率。原文
03:18Clement Delangue@ClementDelangueGoogle、Hugging Face 与开源 AI 社区联合发起 Gemma 挑战赛,旨在通过数十个智能体协作,让 Gemma 4 E4B 模型运行更快。Hugging Face 的 Hub 正从人类协作平台演变为智能体协作平台,这一赛事展示了 AI 智能体在模型优化中的潜力。挑战赛鼓励开发者参与,推动开源 AI 生态发展。AI产品智能体开源/仓库GemmaHugging Face模型优化推荐理由:这是 AI 智能体协作的实战案例,做模型优化或智能体开发的团队值得关注——看看智能体如何像人类一样在 Hub 上合作提速模型。原文
03:05ollama@ollamaOllama 宣布 Gemma 4 的量化感知训练(QAT)权重现已可用。这些权重在保持模型质量的同时,显著降低了内存需求。用户可以通过 Ollama 直接运行多个 Gemma 4 变体,包括 e2b、e4b、12B、26B 和 31B 等版本。Google Gemma 团队也在 Hugging Face 上发布了所有 Gemma 4 模型大小及其 drafters 的 QAT 检查点,旨在优化设备端性能。这为在资源受限环境中部署大型语言模型提供了更高效的方案。AI模型Gemma 4量化感知训练Ollama模型优化Hugging Face10 个信源在谈推荐理由:QAT 权重让 Gemma 4 在更低内存下运行,适合在本地或边缘设备部署大模型的开发者,可以直接用 Ollama 命令体验。原文
09:56Y Combinator@ycombinator精选BentoLabsAI 推出了面向长时间运行智能体的监控与学习层,能够帮助智能体实现模型级别的性能提升。例如,Sonnet 4.5 在 TB2 内部测试中得分从 42.2% 提升至 52.4%。该工具旨在解决智能体在生产环境中缺乏可观测性和持续优化能力的问题。BentoLabsAI 由 Y Combinator 支持,刚刚正式发布。AI产品智能体监控/可观测性模型优化BentoLabsAIY Combinator推荐理由:做智能体部署和运维的团队终于有了专门的监控与学习工具,BentoLabsAI 能直接提升模型效果,值得关注和试用。原文
00:04IT之家(博客/媒体)精选76°小米 MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%,并首次公开推理系统全链路优化方案。该方案围绕 Hybrid SWA + MoE + 多模态架构,重构了 KVCache 管理、分级缓存、前缀缓存及调度策略,将 KVCache 存储压缩至同级方案的约 1/7,显著降低长序列场景下的推理成本。这是业内首篇全面覆盖该组合架构的大规模工程落地方案,模型能力未缩减,但推理效率大幅提升。核心优化包括双池分治的 KVCache 系统、前缀缓存树重构、GCache 三级缓存以及 KVCache 亲和调度,使缓存命中率达 93% 以上,TTFT P90 降低 30%。AI产品推理系统KVCacheMiMo-V2.5模型优化小米推荐理由:小米公开的推理系统优化方案直接解释了 MiMo-V2.5 降价 99% 的技术基础,做模型推理部署的团队可以借鉴其 Hybrid SWA 和缓存管理思路,看完会明白长序列推理成本如何真正降下来。原文
13:08berryxia@berryxia精选FaceMind团队通过100种语言和四大核心任务的实验发现,在语义不变的前提下,使用预训练语料中频率更高的表达方式,无论是Prompting还是Fine-tuning,模型表现都会显著提升。这一发现被称为Adam’s Law(文本频率定律),它补充了数据工程中“质量-规模-难度”铁三角缺失的第四维度:频率。高频表达不是简化,而是让模型在熟悉的概率空间里工作,效果更好。写Prompt时,应优先考虑模型在训练语料中见过的频率,而非追求文雅或专业。技巧Prompt工程文本频率定律FaceMind模型优化数据工程1 个信源在谈推荐理由:写Prompt总感觉模型不听话?FaceMind的实验戳破了“高级词汇”的幻觉——用高频表达能让模型表现直接起飞,做Prompt工程或微调模型的开发者值得一试。原文
02:52rohanpaul_ai@rohanpaul_ai精选72°研究发现,大型混合专家(MoE)模型在处理许多简单token时,浪费了约一半的专家计算资源。新提出的ZEDA(零专家自蒸馏适应)框架,通过为路由器添加“零专家”选项,让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练,而是将原MoE模型作为冻结教师,通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试,去除了约50%的专家计算,精度损失极小,实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度,而是与不确定性相关,为部署MoE模型提供了更经济的方案。论文MoE模型优化推理加速自蒸馏Qwen3GLM推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。原文
14:56Cohere@cohere精选Cohere 发布了新模型 Command A+,该模型针对 NVIDIA Blackwell 架构进行了优化,并使用了 NVIDIA CUDA-X 库进行训练。NVIDIA AI 基础设施团队公开祝贺,强调了双方在 AI 基础设施上的紧密合作。这一合作意味着 Command A+ 将充分利用 NVIDIA 最新硬件的性能,为企业和开发者提供更高效的 AI 推理能力。AI模型CohereCommand A+NVIDIA BlackwellAI 基础设施模型优化推荐理由:Cohere 与 NVIDIA 的深度合作让 Command A+ 在 Blackwell 上跑出最佳性能,做企业级 AI 部署的团队值得关注这个新选择。原文
07:26AK@_akhaliq75°Apple 发布了一项关于 On-Policy Distillation 的研究,探讨了这种知识蒸馏方法在哪些场景下有效、哪些场景下有害,并分析了背后的原因。该研究旨在帮助 AI 开发者更好地理解和应用蒸馏技术,以优化模型性能。关键发现包括:On-Policy Distillation 在特定任务中能显著提升学生模型的表现,但在某些情况下可能导致性能下降。研究还揭示了蒸馏过程中数据分布和模型容量等因素的影响。这项工作为 AI 训练提供了实用指导,尤其适用于资源受限的部署场景。论文知识蒸馏On-Policy Distillation模型优化AppleAI 训练推荐理由:Apple 这篇研究把 On-Policy Distillation 的坑和甜点都讲透了,做模型压缩或部署的团队可以直接参考,避免踩坑。原文
21:55Shashikant Kore@kshashi此推文引用Goodhart's Law(古德哈特定律),指出当一项指标成为目标时,它就不再是一个好的指标。在AI领域,过度优化基准测试或评估指标可能导致模型表现失真,忽视真实能力。这提醒AI从业者要关注评估体系的可靠性,避免指标陷阱。行业AI安全评估指标Goodhart's Law模型优化推荐理由:对AI从业者的重要提醒:评估指标需与真实目标一致,否则可能误导模型优化方向。原文
22:16Clement Delangue@ClementDelangueHuggingFace CEO Clement Delangue指出,本地开源权重AI在笔记本电脑上的性能提升速度是摩尔定律的两倍多。从2024年5月到2026年5月,MacBook Pro硬件上限仅停留在128GB统一内存,但可运行的顶级开源模型(如Llama 3 70B到DeepSeek V4 Flash)在AI指数上的评分从10跃升至47,相当于智能水平每10.7个月翻倍。这表明算法和模型的进步正在大幅超越硬件迭代,使得本地AI能力持续快速增长。行业开源/仓库本地推理模型优化硬件限制技术趋势推荐理由:该数据直观展示了算法优化在AI发展中的巨大潜力,对本地部署和边缘计算场景具有重要参考价值,暗示未来AI应用无需依赖昂贵硬件升级。原文