精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:05

arXiv cs.LG@Tong Xie, Yuanhao Ban, Yunqi Hong, Sohyun An, Yihang Chen, Cho-Jui Hsieh

精选

该论文重新审视了监督微调（SFT）的传统做法，指出最大化每个token的似然可能因噪声或与模型先验不一致而效果不佳。作者提出将SFT视为目标分布设计问题，并引入Q-target框架，将监督分解为对观测token的依赖程度和剩余概率的分配方式。基于此，他们提出了Target-SFT方法，直接根据期望的目标分布构建训练目标。在十个推理数据集-模型组合的实验中，Target-SFT一致优于现有方法，展示了基于目标的设计原则的有效性。这项工作为SFT提供了更统一的视角，并开辟了更广阔的搜索空间。

论文监督微调目标分布设计 Q-target框架推理模型 LLM训练

推荐理由：做LLM微调的团队终于有了一个更系统的设计框架——Target-SFT直接告诉你如何选择目标分布，而不是盲目拟合每个token。做推理模型优化的开发者建议试试，效果在多个数据集上都有提升。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月27日

10:51

arXiv cs.LG@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi

精选

BASIS 是一种无需评论家的后训练算法，通过单次采样每个提示的轨迹，并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明，与单次采样的 REINFORCE++ 基线相比，BASIS 将价值函数估计的均方误差降低了 69%，且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化：BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能，并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。

论文强化学习推理模型 LLM训练价值函数估计 BASIS

推荐理由：做LLM推理强化学习的团队终于有了一个兼顾计算和样本效率的方案——BASIS用单次采样就达到多采样的效果，训练成本大幅降低，建议做RLHF或推理优化的开发者点开看看。

原文

5月25日

11:12

arXiv cs.AI@Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma

精选

现有的大语言模型缩放定律（如单调幂律）无法解释灾难性过训练和量化退化等非单调现象。研究者提出香农缩放定律，将LLM训练建模为噪声信道上的信息传输，基于香农-哈特利定理，将模型参数映射为信道带宽，训练token映射为信号功率。该理论揭示了LLM的香农容量：若缩放模型或数据时未保持足够信噪比，噪声放大将导致性能从单调提升转为U形退化。在Pythia和OLMo2上的实验验证了该定律，其预测准确率优于经典缩放定律，并能外推到未见模型。

论文缩放定律香农容量噪声信道 LLM训练理论框架

推荐理由：香农缩放定律统一解释了LLM训练中的非单调退化现象，做模型缩放和训练优化的研究者可以直接用这个框架预测性能拐点，避免盲目增加计算量。

原文

5月21日

10:07

arXiv: DeepSeek@Zhaohui Zheng, Chenhang He, Shihao Wang, Yuxuan Li, Ming-Ming Cheng, Lei Zhang

精选

论文提出Digit Entropy Loss（DEL），一种用于大语言模型（LLM）数值学习的新损失函数。现有方法如Number Token Loss和Discretized Distance Loss分别导致数字分布过尖锐或过平坦，而DEL通过将无监督熵优化改造为有监督形式，并摒弃数值距离项，解决了这一问题。DEL支持整数、小数和小数点，将学习目标从单个数字扩展到浮点数域。在CodeLlama、Mistral、DeepSeek和Qwen-2.5等四个代表性LLM上的七个数学推理基准测试中，DEL在预测准确性和数值距离上均优于现有方法。

论文数值学习损失函数数学推理代码生成 LLM训练

推荐理由：数值预测是数学推理和代码生成的基础能力，DEL直接改进了LLM对数字的学习效果。做数学推理或代码生成模型训练的团队，值得关注这个新损失函数，它简单有效且开源可用。

原文

5月19日

10:18

arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang

精选72°

Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明，Charon 在不同模型和配置下预测误差始终低于 5.35%，在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中，Charon 发现了一种配置，将系统吞吐量提升至超过工程调优的基线，展示了其实际价值。

论文 LLM训练推理优化性能模拟并行策略 Charon

推荐理由：做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设，Charon 能帮你快速找到最佳配置，避免盲目调参，建议直接看论文实验部分。

原文

5月18日

20:20

AlphaSignal@AlphaSignalAI

精选76°

Nous Research 发表论文提出 Token Superposition Training，一种无需改变模型架构或优化器的即插即用方法，可将 LLM 预训练时间缩短最多 2.5 倍。该方法将连续 token 分组并平均其嵌入，然后联合预测下一组，使用多热交叉熵损失，并在训练中期（20-40% 后）切换回标准 next-token prediction。最终模型权重与常规训练一致，在 270M 到 10B MoE 规模上均优于基线损失和下游评估。这意味着训练成本大幅降低，且不影响最终模型质量。

论文预训练加速 Token Superposition Training Nous Research LLM训练即插即用

推荐理由：训练 LLM 的团队终于有了一个不改变模型、不调优化器的加速方案——直接插进去就能省 2.5 倍时间，做预训练或资源受限的开发者值得一试。

原文