6月18日
09:37
09:37arXiv: Google DeepMind@Tim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth
该研究系统审计了Physics-IQ视频物理理解基准,发现其提示质量和真实标注存在缺陷。作者提出三项改进措施,包括优化提示与真值、引入样本级评分系统,并应用六种图像到视频生成模型验证。新版Physics-IQ Verified改进了57.6%的样本和34.8%的提示,模型排名变化中度显著(Kendall's τ=0.46)。
推荐理由:DeepMind发布了Physics-IQ验证版,专门评测视频模型对物理世界的理解。现有基准有缺陷,他们修正后让模型排名更可信了。
6月17日
12:00
12:00arXiv cs.LG@Longlong Zhu, Jiashuo Yu, Zedi Chen, Yuhan Wu, Zhifan Jiang, Yuchen Xian, Yimeng Liu, Jiajie Su, Shaopeng Zhou, Xingyuan Li, Hongyan Liu, Xuan Liu, Dong Zhang, Chunming Wu, Xiang Chen
OmniPlan采用基于大语言模型的解释器将异构自然语言意图转化为统一偏好向量,并利用混合专家架构动态选择MIP求解器、启发式算法和DRL模型作为专家。在分布式机器学习推理卸载任务(包括决策树、SVM、XGBoost等)的真实测试中,OmniPlan实现了近最优卸载,延迟降低高达97.8%,网络设备资源消耗降低11.5%。
推荐理由:OmniPlan用LLM和混合专家做网络优化,在分布式ML卸载上延迟降97.8%,资源降11.5%,效果很直观。
10:45
10:45arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam
精选
Looped World Models(LoopWM)首次将循环架构引入世界建模,通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法,LoopWM在参数效率上提升多达100倍,并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴,独立于模型规模和训练数据规模。
推荐理由:这篇论文用循环架构解决了世界模型长程预测的计算瓶颈,参数省了100倍还能自适应深度,做仿真和规划的研究者值得看。
10:45
10:45arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto
循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加,信号传播问题加剧,影响模型性能。本文提出FPRM,一种基于Transformer的固定点推理模型,采用预归一化层和残差缩放解决信号传播,并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。
推荐理由:这篇论文提出了FPRM,用固定点收敛让循环推理深度自适应任务难度,在Sudoku和ARC-AGI上效果不错,适合关注推理架构的人。
10:45
10:45arXiv cs.AI@Weizhi Zhang, Zechen Li, Hamid Palangi, Ben Graef, A. Ali Heydari, Simon A. Lee, Salman Rahman, Ray Luo, Zeinab Esmaeilpour, Erik Schenck, Chloe Zhang, Yamin Li, Menglian Zhou, Philip S. Yu, Daniel McDuff, Lindsey Sunden, Mark Malhotra, Shwetak Patel, Ahmed A. Metwally
RubricsTree是一个专家对齐的分层评估框架,包含超过100个可临床验证的原子布尔规则,这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集,实现可扩展且与专家质量对齐的评估。在元评估中,RubricsTree在专家对齐上显著超过强基线,且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时,RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。
推荐理由:RubricsTree用4000条真实查询构建100多条可验证规则,评估健康AI比LLM裁判更准,还能当训练奖励,让Gemini等模型性能飙升66%。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。