6月26日
6月19日
11:41
11:41arXiv cs.AI@Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda
71°
论文分析 DiffusionGemma 的推理透明度,将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流,可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面,扩散模型因每步所有 token 可变化而更复杂,研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。

推荐理由:Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大,发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样,还发现了扩散模型特有的奇怪推理方式。
6月18日
6月16日
11:12
11:12arXiv cs.LG@Matteo Cartiglia, Sandro Kuppel, Wouter Botermans Wannes Peeters, Natan Biesmans, Liam Vandekerckhove, Eric Beamish, Koen Ongena, Wouter Renckens, Pol Van Dorpe, Sanjin Marion
该研究提出用对比编码器将随机单分子信号映射到可解释分子坐标,编码器仅基于物理模型模拟信号训练。编码器对结构参数敏感,对采集条件和构象不变,允许跨设备数据整合。单次编码完成分子识别,计算成本比对齐方法降低三个数量级。实验验证了混合物定量、稀有变异检测和实时信号采集。
推荐理由:这篇论文用模拟信号训练编码器,把纳米孔信号转成可解释坐标,识别快了一千倍,实验也扎实。
10:24
10:24arXiv cs.LG@Mohamed Manzour, Aditya Kumar, Augusto Luis Ballardini, Miguel Ángel Sotelo
该框架采用因果推断方法进行换道预测,结合专家约束因果发现与Deep End-to-end Causal Inference (DECI) 模型。在车道线跨越事件前3秒内,平均F1分数超过95%。通过干预效应分析区分直接贡献变量与中介效应,并生成对比因果链解释。与传统基于相关性分类的方法不同,该框架提供可解释的因果推理。
推荐理由:这篇论文把换道预测从统计相关提升到因果推理,用DECI模型实现了95%以上的F1分数,还给出了清晰的因果链解释,做自动驾驶可解释性的一定要看。
6月15日
6月11日
11:58
11:58arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana
精选
这篇论文提出了一种基于可解释性的后训练数据管道,用于诊断和修正偏好数据中的虚假关联。作者通过可解释性协议识别出数据中潜在的概念,让用户能明确哪些行为应该被模型学习。实验表明,该方法能有效缓解过度风格化、谄媚等不良行为,并增强安全性和个性等期望属性。这项工作将后训练从优化黑箱奖励转变为审计和塑造学习信号的过程。
推荐理由:做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重,直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开,能省下大量试错时间。
6月10日
6月9日
13:05
13:05arXiv cs.AI@Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Max Lamparth, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene Solaiman
AI评估结果虽大量产生,但报告格式不统一,导致读者难以跨来源比较、识别遗漏或追溯证据。现有方案仅覆盖评估生命周期的片段,缺乏统一记录,且未区分不同利益相关者的需求。研究者提出了EvalCards,一个可操作的报告层,整合基准元数据、评估运行数据和模型元数据。他们从52篇论文和10次访谈中推导出报告模式,实现了四个解释信号(可复现性、文档完整性、来源与风险、分数可比性),并针对研究与非研究受众设计了阅读模式。该工具已在5816个模型、635个基准和101843个结果上部署,揭示了当前报告实践中的系统性缺陷。
推荐理由:AI评估报告混乱是行业痛点,做模型评测、写技术文档或选型决策的团队,可以直接用EvalCards统一报告格式,减少误解和重复劳动。
6月4日
10:56
10:56arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi
AgentMob 提出了一种无需训练的 LLM 驱动智能体框架,用于个体级移动预测。它通过快速路径处理常规出行,对模糊情况则触发迭代工具调用,结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上,AgentMob 在无需训练的 LLM 方法中表现最佳,GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性,并提供了决策透明度。代码已开源。
推荐理由:做城市模拟、交通规划或政策分析的团队,终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%,建议直接试一下开源代码。
6月2日