精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:02

arXiv cs.LG@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou

精选83°

强化学习（RL）训练中，rollout 阶段是主要瓶颈。多 Token 预测（MTP）本可通过推测解码加速，但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系，并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数，直接优化拒绝采样接受率，在数学推理、代码生成和智能体任务上实现最高 95% 接受率，吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上，异步 RL 训练端到端加速达 1.8 倍，且无需在线更新 MTP。

论文强化学习多 Token 预测推测解码拒绝采样 Qwen

推荐理由：RL 训练加速是 LLM 后训练的核心痛点，Bebop 用 MTP+拒绝采样把加速做到 1.8 倍，做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……