6月29日
6月25日
6月24日
09:46
09:46arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong
71°
RaDaR是一个32B参数的开源推理大模型,专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中,RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断,提前时间1.87个月。在随机医生辅助试验中,RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。
推荐理由:RaDaR发布了一个32B开源推理模型,罕见病诊断比DeepSeek-R1还强,医生用它准确率提升21%。
6月23日
12:56
12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman
72°
SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。
推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。
6月19日
11:41
11:41arXiv cs.AI@Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda
71°
论文分析 DiffusionGemma 的推理透明度,将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流,可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面,扩散模型因每步所有 token 可变化而更复杂,研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。

推荐理由:Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大,发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样,还发现了扩散模型特有的奇怪推理方式。
6月18日
6月17日
10:45
10:45arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto
循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加,信号传播问题加剧,影响模型性能。本文提出FPRM,一种基于Transformer的固定点推理模型,采用预归一化层和残差缩放解决信号传播,并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。
推荐理由:这篇论文提出了FPRM,用固定点收敛让循环推理深度自适应任务难度,在Sudoku和ARC-AGI上效果不错,适合关注推理架构的人。
09:37
09:37arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis
新基准DiagFlowBench包含50张工业诊断流程图,转化为1676轮多轮对话,对比合规与偏离流程的输入。评估10个商业和开源模型发现,模型在识别超范围输入时表现差异大,常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。
推荐理由:DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里,能不能识别用户问跑题的问题。10个模型测下来,差得挺大,而且那种看似合理但不对的答案最危险。论文值得一看。
6月16日