全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:09

09:09

arXiv cs.AI@Joe Dwyer

本研究在固定计算预算下训练了一个4.26百万参数的Llama风格小模型，使用TinyStories语料库和CPU全精度训练，累计约2000万训练Token。通过重复测量设计，在21个间隔收集了验证损失、困惑度、波动性等指标。结果显示，验证损失从初始的8.3552迅速降至约400万Token时的2.7996，但最终回升至3.9010，困惑度也呈现先降后升的非单调模式。研究还发现了验证损失的反复回退现象，且未观察到稳定阶段。这表明在计算受限环境下，仅依赖最终指标评估模型效率可能掩盖训练过程中的不稳定性、退化及收益递减问题。

论文训练动力学小模型 Token预算验证损失计算效率

推荐理由：这篇论文戳破了「更多Token=更好模型」的直觉，做小模型训练或资源受限场景的开发者会看到训练轨迹比终点指标更关键，建议点开看看如何用间隔遥测避免白费算力。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月11日

19:03

19:03arXiv: DeepSeek（学术论文）

70°

该研究揭示了共享输出Token预算时，长思维链会挤占答案空间，导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中，非思维链模式在≤2048 Token下表现更优，且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点，并通过拆分预算生成方法（如IRIS）将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。

论文思维链 Token预算推理模型 Qwen3 DeepSeek-R1

推荐理由：该工作对当前LLM推理优化具有实际指导意义，提醒研究者在固定输出长度场景中平衡推理链与答案空间，避免盲目延长思维链。