全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:05

arXiv cs.LG@Tong Xie, Yuanhao Ban, Yunqi Hong, Sohyun An, Yihang Chen, Cho-Jui Hsieh

精选

该论文重新审视了监督微调（SFT）的传统做法，指出最大化每个token的似然可能因噪声或与模型先验不一致而效果不佳。作者提出将SFT视为目标分布设计问题，并引入Q-target框架，将监督分解为对观测token的依赖程度和剩余概率的分配方式。基于此，他们提出了Target-SFT方法，直接根据期望的目标分布构建训练目标。在十个推理数据集-模型组合的实验中，Target-SFT一致优于现有方法，展示了基于目标的设计原则的有效性。这项工作为SFT提供了更统一的视角，并开辟了更广阔的搜索空间。

论文监督微调目标分布设计 Q-target框架推理模型 LLM训练

推荐理由：做LLM微调的团队终于有了一个更系统的设计框架——Target-SFT直接告诉你如何选择目标分布，而不是盲目拟合每个token。做推理模型优化的开发者建议试试，效果在多个数据集上都有提升。

原文

5月29日

11:06

arXiv cs.AI@Yalun Dai, Yangyu Huang, Tongshen Yang, Yonghan Wang, Xin Zhang, Wenshan Wu, Qihao Zhao, Hao Li, Yuanyuan Gao, Kim-Hui Yap, Scarlett Li

该论文系统研究了数据组织对LLM训练的影响，提出四个关键准则：边界锐化、循环调度、课程连续性和局部多样性。基于这些准则，作者设计了两种新的数据排序方法STR和SAW，通过复用预计算的样本级分数，几乎不增加额外计算开销。实验表明，这些方法在预训练和SFT阶段均能提升训练稳定性和模型性能。对于追求训练效率的AI团队，这是一个低成本的优化方向。

论文数据组织 LLM训练 STR SAW 训练效率

推荐理由：数据组织是LLM训练中常被忽视的杠杆，STR和SAW方法几乎零成本就能提升训练效果，做预训练或SFT的团队值得一试。

原文

5月27日

10:51

arXiv cs.LG@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi

精选

BASIS 是一种无需评论家的后训练算法，通过单次采样每个提示的轨迹，并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明，与单次采样的 REINFORCE++ 基线相比，BASIS 将价值函数估计的均方误差降低了 69%，且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化：BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能，并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。

论文强化学习推理模型 LLM训练价值函数估计 BASIS

推荐理由：做LLM推理强化学习的团队终于有了一个兼顾计算和样本效率的方案——BASIS用单次采样就达到多采样的效果，训练成本大幅降低，建议做RLHF或推理优化的开发者点开看看。

原文

5月25日

11:12

arXiv cs.AI@Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma

精选

现有的大语言模型缩放定律（如单调幂律）无法解释灾难性过训练和量化退化等非单调现象。研究者提出香农缩放定律，将LLM训练建模为噪声信道上的信息传输，基于香农-哈特利定理，将模型参数映射为信道带宽，训练token映射为信号功率。该理论揭示了LLM的香农容量：若缩放模型或数据时未保持足够信噪比，噪声放大将导致性能从单调提升转为U形退化。在Pythia和OLMo2上的实验验证了该定律，其预测准确率优于经典缩放定律，并能外推到未见模型。

论文缩放定律香农容量噪声信道 LLM训练理论框架

推荐理由：香农缩放定律统一解释了LLM训练中的非单调退化现象，做模型缩放和训练优化的研究者可以直接用这个框架预测性能拐点，避免盲目增加计算量。

原文

5月21日

10:07

arXiv: DeepSeek@Zhaohui Zheng, Chenhang He, Shihao Wang, Yuxuan Li, Ming-Ming Cheng, Lei Zhang

精选

论文提出Digit Entropy Loss（DEL），一种用于大语言模型（LLM）数值学习的新损失函数。现有方法如Number Token Loss和Discretized Distance Loss分别导致数字分布过尖锐或过平坦，而DEL通过将无监督熵优化改造为有监督形式，并摒弃数值距离项，解决了这一问题。DEL支持整数、小数和小数点，将学习目标从单个数字扩展到浮点数域。在CodeLlama、Mistral、DeepSeek和Qwen-2.5等四个代表性LLM上的七个数学推理基准测试中，DEL在预测准确性和数值距离上均优于现有方法。

论文数值学习损失函数数学推理代码生成 LLM训练

推荐理由：数值预测是数学推理和代码生成的基础能力，DEL直接改进了LLM对数字的学习效果。做数学推理或代码生成模型训练的团队，值得关注这个新损失函数，它简单有效且开源可用。

原文

5月19日

10:18

arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang

精选72°

Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明，Charon 在不同模型和配置下预测误差始终低于 5.35%，在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中，Charon 发现了一种配置，将系统吞吐量提升至超过工程调优的基线，展示了其实际价值。

论文 LLM训练推理优化性能模拟并行策略 Charon

推荐理由：做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设，Charon 能帮你快速找到最佳配置，避免盲目调参，建议直接看论文实验部分。

原文