精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

14:06

14:06IT之家（博客/媒体）

精选72°

苹果在 WWDC 上推出 CoreAI 引擎，接替服役 9 年的 CoreML，主打端侧大模型推理。首批基准测试显示，在 M4 Mac 上运行 Qwen3 0.6B 小模型时，CoreAI 解码速度是 MLX 的 2.47 倍，iPhone 17 Pro 上为 1.6 倍。但在 80 亿参数模型上，CoreAI 仅比 MLX 快 5%，优势随模型规模增大而收窄。持续负载测试中，CoreML 配合神经引擎在温控降频场景下性能保持率反超 GPU 路线。横向对比，谷歌 LiteRT-LM 运行 Gemma 时内存占用仅为苹果 MLX 的 1/4.5，显示针对特定模型优化的重要性。

AI产品苹果 CoreAI 端侧推理 MLX Qwen3

推荐理由：苹果端侧 AI 架构迎来重大更新，CoreAI 在小模型推理上显著提速，做本地 AI 应用或模型部署的开发者值得关注，尤其是 M4 Mac 用户可以直接感受到更快的响应。

原文

6月3日

10:38

arXiv cs.LG@Ting-Yun Chang, Harvey Yiyun Fu, Deqing Fu, Chenghao Yang, Jesse Thomason, Robin Jia

精选

推理模型通过长思维链提升准确性，但长输出导致内存和计算瓶颈。现有KV缓存淘汰方法在压缩缓存时会丢失关键信息，导致模型陷入重复推理循环。研究发现，少量值状态具有异常大的幅度，淘汰它们会引发灾难性失败；引入随机性可提高缓存多样性。基于此，研究者提出VaSE方法，无需训练即可保护大幅度值状态并促进多样化淘汰决策。在6个推理任务上，Qwen3模型使用VaSE实现4倍KV缓存压缩，准确率超过最强淘汰方法4%以上，弥合了效率与准确性之间的差距。

论文 KV缓存推理模型内存优化随机淘汰 Qwen3

推荐理由：推理模型的长输出让内存和计算成本飙升，VaSE用随机淘汰策略在4倍压缩下保持高准确率，做推理模型优化的开发者可以直接参考论文实现。

原文

6月2日

11:10

arXiv cs.AI@Ekaterina Alimaskina, Darya Rudas, Denis Shveykin, Gleb Molodtsov, Pavel Vasiliev, Aleksandr Beznosikov

精选72°

该研究揭示了大型推理模型在极端低比特（2-bit）量化推理时，并非单纯降低答案准确率，而是产生更长的推理轨迹，包括重复循环、预算耗尽、延迟决策和未闭合推理段，导致端到端速度不升反降。作者针对 Qwen3-8B 和 Qwen3-32B 模型，提出了两种轻量级控制方法：FP16 规划（为 2-bit 模型提供短的高精度大纲）和循环救援（检测重复轨迹并回退或提前提交答案）。在 MATH-500 上，循环救援将 Qwen3-8B 准确率从 17.2% 提升至 74.2%，规划加循环救援将 Qwen3-32B 从 65.0% 提升至 87.2%。研究表明，将低比特推理失败视为可控生成病理，通过轻量检测和选择性 FP16 支持，2-bit 推理可以恢复准确率并保持真实端到端加速。代码已开源。

论文推理模型量化/低比特 Qwen3 失败模式开源/仓库

推荐理由：做推理模型量化和部署的团队终于有了针对 2-bit 失败模式的系统解法——不是简单降精度，而是用 FP16 规划和循环救援来修复生成过程，Qwen3 用户可以直接复现并提升准确率。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

11:56

arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho

精选72°

该研究提出了首个系统化框架，将混合专家模型（MoE）转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络，再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法，共350种配置。发现评分方法影响最大，其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下，MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点，训练速度快1.6倍。

论文模型压缩知识蒸馏混合专家模型稠密模型 Qwen3

推荐理由：这个框架解决了MoE模型在内存受限设备上部署的痛点，做模型压缩和边缘部署的团队可以直接参考其方法，比传统剪枝效果更好且训练更快。

原文

5月25日

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

原文

5月19日

14:46

arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo

精选72°

EnvFactory是一个全自动框架，解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境，通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐式意图的查询。仅用85个已验证环境（远少于此前工作的5倍以上），EnvFactory就生成了2575条SFT和RL轨迹，并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成，为Agentic RL提供了可扩展、可扩展且鲁棒的基础。

论文 Agentic RL 工具使用环境合成 Qwen3 自动化框架

推荐理由：做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法，想省掉手动造环境成本的开发者可以直接用。

原文

5月13日

19:12

arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard

精选75°

该论文提出了一种新的语言模型后训练原则：将稀缺的标注验证数据优先用于最强模型（教师）进行稀疏奖励强化学习（如GRPO），然后通过稠密奖励蒸馏（如OPD）将行为迁移到小模型（学生）。实验表明，在固定学生模型大小（Qwen3-1.7B）下，先对8B教师进行RL再蒸馏，效果优于直接在学生上运行GRPO。该原则强调避免在未准备好的策略上使用稀缺数据，而是通过“稀疏奖励发现→稠密迁移→学生侧稀疏奖励”的流程优化资源分配。

论文后训练强化学习知识蒸馏奖励设计 Qwen3

推荐理由：这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署，做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。

原文

15:51

Perplexity@perplexity_ai

精选

Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明，GB200 不仅是训练平台，更是大型 MoE 模型高吞吐推理的重大升级，性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率，为大规模 AI 服务提供新思路。

AI模型推理模型 Perplexity Qwen3 NVIDIA GB200 MoE

推荐理由：做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著，Perplexity 的实践给出了可直接参考的优化路径。

原文