09:09arXiv cs.AI@Joe Dwyer本研究在固定计算预算下训练了一个4.26百万参数的Llama风格小模型,使用TinyStories语料库和CPU全精度训练,累计约2000万训练Token。通过重复测量设计,在21个间隔收集了验证损失、困惑度、波动性等指标。结果显示,验证损失从初始的8.3552迅速降至约400万Token时的2.7996,但最终回升至3.9010,困惑度也呈现先降后升的非单调模式。研究还发现了验证损失的反复回退现象,且未观察到稳定阶段。这表明在计算受限环境下,仅依赖最终指标评估模型效率可能掩盖训练过程中的不稳定性、退化及收益递减问题。论文训练动力学小模型Token预算验证损失计算效率推荐理由:这篇论文戳破了「更多Token=更好模型」的直觉,做小模型训练或资源受限场景的开发者会看到训练轨迹比终点指标更关键,建议点开看看如何用间隔遥测避免白费算力。原文
10:39arXiv cs.AI@Andhika Bernard Lumbantobing, Hokky Situngkir精选该研究借鉴印尼GASING算术教学法,将左到右的计算步骤序列化为自然语言思维链(CoT)监督数据,训练了一个86M参数的GPT-2模型。模型仅使用下一个词预测目标,无需强化学习或奖励优化,在保留问题上达到80%以上准确率,性能可与更大模型竞争。通过注意力掩码、残差流探测等机制分析发现,模型先内化程序化路径,随后发展出类似心算的关联检索能力。这项工作表明,基于教学法的针对性训练能以较小规模实现强算术能力。论文算术推理思维链CoT教学法GPT-2小模型推荐理由:做小模型算术推理的团队可以借鉴这种教学法思路——用人类教学步骤替代复杂强化学习,86M参数就能达到大模型水平,值得一试。原文
12:37arXiv: DeepSeek@Pingfan Su, Kai Ye, Shijin Gong, Erhan Xu, Jin Zhu, Giulia Livieri, Chengchun Shi精选READER是一种新型AI文本检测方法,通过让模型在检测前生成结构化推理(rationale)来提升准确性和可解释性。它基于一个名为READ的监督数据集进行微调,该数据集包含人工标注的推理过程和判定结果。尽管只有1.5B参数,READER在分布内和分布外场景下均优于现有检测器,甚至超过GPT-5.2、Gemini-3-Pro和DeepSeek-V3.2等千倍规模的大模型。这项研究解决了AI文本检测中可解释性差和分布偏移下性能下降的关键问题。论文AI文本检测推理增强可解释性小模型分布偏移推荐理由:AI文本检测的可解释性和鲁棒性一直是痛点,READER用1.5B参数就超越了千倍大模型,做内容安全或反作弊的团队值得关注这个新思路。原文