10:47arXiv: DeepSeek@Haolong Qian, Xianliang Yang, Yinuo ma, Lirong Che, Feng Lu, Ye Guo, Lei Song, Jiang Bian, Chun Yuan论文在Qwen2.5、LLaMA-3和DeepSeek三个系列上发现:用小模型自身生成并通过拒绝采样选取的轨迹,比用更强Oracle模型精炼的高奖励数据,能更有效提升数学推理。Oracle精炼虽修复逻辑,但引入分布偏移,增加小模型适应成本,抵消了逻辑改进的收益。作者提出风格对齐精炼(Style-Aligned Refinement),保留小模型原生轨迹风格同时融入Oracle逻辑修复,降低适应成本并恢复下游效用。该发现挑战了数学推理蒸馏中依赖奖励模型分数选择数据的常规做法。论文Qwen2.5LLaMA-3DeepSeek知识蒸馏推理模型推荐理由:这篇论文揭穿了一个直觉错误:你以为给小白模型喂“学霸笔记”能变强,结果效果还不如它自己瞎写的解题草稿。原因是学霸的思路和它不匹配,硬学反而费劲。原文
09:25arXiv: DeepSeek@Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh精选72°该研究分析了多智能体LLM系统中幻觉的动态传播过程,通过500次级联实验追踪事实不一致性。结果显示,3级级联将归一化幻觉分数从0.422降至0.272,但事实准确性从0.789降至0.769,揭示了幻觉抑制与事实保留之间的权衡。不同模型表现各异:LLaMA-3-70B-Instruct幻觉最低,GPT-5.3生成更快但幻觉率更高。领域分析表明,科学领域幻觉较低,抽象领域较高。论文多智能体系统幻觉传播级联分析LLaMA-3GPT-5.3推荐理由:多智能体系统开发者终于有了量化幻觉传播的基准——这篇论文揭示了级联深度与事实准确性的权衡,做Agent编排的团队建议仔细看,避免盲目堆叠智能体导致事实失真。原文
10:36arXiv cs.AI@Tohida Rehman, Debarshi Kumar Sanyal, Samiran Chattopadhyay研究人员提出了一种利用开源预训练模型和大语言模型自动生成学术论文标题的方法。他们使用了 CSPubSum、LREC-COLING-2024 以及新构建的 SpringerSSAT 数据集,并引入 GPT-3.5-turbo 进行零样本生成。实验表明,微调后的 PEGASUS-large 在 ROUGE、METEOR、BERTScore 等指标上全面优于微调后的 LLaMA-3-8B 和零样本 GPT-3.5-turbo。此外,ChatGPT 生成的标题更具创意性。整体上,AI 生成的标题可靠且适用。论文论文标题生成PEGASUSLLaMA-3GPT-3.5自然语言处理推荐理由:写论文总为标题发愁的研究者可以关注——PEGASUS-large 能自动从摘要生成靠谱标题,省去反复推敲的时间,建议试试这个开源方案。原文