AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 1009 条中筛出 58 条
全部模型产品行业论文技巧
标签:LLM训练×
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
11:05
11:05arXiv cs.LG@Tong Xie, Yuanhao Ban, Yunqi Hong, Sohyun An, Yihang Chen, Cho-Jui Hsieh
精选
该论文重新审视了监督微调(SFT)的传统做法,指出最大化每个token的似然可能因噪声或与模型先验不一致而效果不佳。作者提出将SFT视为目标分布设计问题,并引入Q-target框架,将监督分解为对观测token的依赖程度和剩余概率的分配方式。基于此,他们提出了Target-SFT方法,直接根据期望的目标分布构建训练目标。在十个推理数据集-模型组合的实验中,Target-SFT一致优于现有方法,展示了基于目标的设计原则的有效性。这项工作为SFT提供了更统一的视角,并开辟了更广阔的搜索空间。
论文监督微调目标分布设计Q-target框架推理模型LLM训练

推荐理由:做LLM微调的团队终于有了一个更系统的设计框架——Target-SFT直接告诉你如何选择目标分布,而不是盲目拟合每个token。做推理模型优化的开发者建议试试,效果在多个数据集上都有提升。
原文
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月27日
10:51
10:51arXiv cs.LG@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi
精选
BASIS 是一种无需评论家的后训练算法,通过单次采样每个提示的轨迹,并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明,与单次采样的 REINFORCE++ 基线相比,BASIS 将价值函数估计的均方误差降低了 69%,且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化:BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能,并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。
论文强化学习推理模型LLM训练价值函数估计BASIS

推荐理由:做LLM推理强化学习的团队终于有了一个兼顾计算和样本效率的方案——BASIS用单次采样就达到多采样的效果,训练成本大幅降低,建议做RLHF或推理优化的开发者点开看看。
原文
5月25日
11:12
11:12arXiv cs.AI@Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
精选
现有的大语言模型缩放定律(如单调幂律)无法解释灾难性过训练和量化退化等非单调现象。研究者提出香农缩放定律,将LLM训练建模为噪声信道上的信息传输,基于香农-哈特利定理,将模型参数映射为信道带宽,训练token映射为信号功率。该理论揭示了LLM的香农容量:若缩放模型或数据时未保持足够信噪比,噪声放大将导致性能从单调提升转为U形退化。在Pythia和OLMo2上的实验验证了该定律,其预测准确率优于经典缩放定律,并能外推到未见模型。
论文缩放定律香农容量噪声信道LLM训练理论框架

推荐理由:香农缩放定律统一解释了LLM训练中的非单调退化现象,做模型缩放和训练优化的研究者可以直接用这个框架预测性能拐点,避免盲目增加计算量。
原文
5月21日
10:07
10:07arXiv: DeepSeek@Zhaohui Zheng, Chenhang He, Shihao Wang, Yuxuan Li, Ming-Ming Cheng, Lei Zhang
精选
论文提出Digit Entropy Loss(DEL),一种用于大语言模型(LLM)数值学习的新损失函数。现有方法如Number Token Loss和Discretized Distance Loss分别导致数字分布过尖锐或过平坦,而DEL通过将无监督熵优化改造为有监督形式,并摒弃数值距离项,解决了这一问题。DEL支持整数、小数和小数点,将学习目标从单个数字扩展到浮点数域。在CodeLlama、Mistral、DeepSeek和Qwen-2.5等四个代表性LLM上的七个数学推理基准测试中,DEL在预测准确性和数值距离上均优于现有方法。
论文数值学习损失函数数学推理代码生成LLM训练

推荐理由:数值预测是数学推理和代码生成的基础能力,DEL直接改进了LLM对数字的学习效果。做数学推理或代码生成模型训练的团队,值得关注这个新损失函数,它简单有效且开源可用。
原文
5月19日
10:18
10:18arXiv cs.AI@Mengtian Yang, Zhekun Zhang, Mingheng Wu, Jianwen Yan, Hanshi Sun, Li-wen Chang
精选72°
Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明,Charon 在不同模型和配置下预测误差始终低于 5.35%,在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中,Charon 发现了一种配置,将系统吞吐量提升至超过工程调优的基线,展示了其实际价值。
论文LLM训练推理优化性能模拟并行策略Charon

推荐理由:做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设,Charon 能帮你快速找到最佳配置,避免盲目调参,建议直接看论文实验部分。
原文
5月18日
20:20
20:20AlphaSignal@AlphaSignalAI
精选76°
Nous Research 发表论文提出 Token Superposition Training,一种无需改变模型架构或优化器的即插即用方法,可将 LLM 预训练时间缩短最多 2.5 倍。该方法将连续 token 分组并平均其嵌入,然后联合预测下一组,使用多热交叉熵损失,并在训练中期(20-40% 后)切换回标准 next-token prediction。最终模型权重与常规训练一致,在 270M 到 10B MoE 规模上均优于基线损失和下游评估。这意味着训练成本大幅降低,且不影响最终模型质量。
论文预训练加速Token Superposition TrainingNous ResearchLLM训练即插即用

推荐理由:训练 LLM 的团队终于有了一个不改变模型、不调优化器的加速方案——直接插进去就能省 2.5 倍时间,做预训练或资源受限的开发者值得一试。
原文
精选全部日报登录