6月18日
6月17日
12:00
12:00arXiv cs.LG@Longlong Zhu, Jiashuo Yu, Zedi Chen, Yuhan Wu, Zhifan Jiang, Yuchen Xian, Yimeng Liu, Jiajie Su, Shaopeng Zhou, Xingyuan Li, Hongyan Liu, Xuan Liu, Dong Zhang, Chunming Wu, Xiang Chen
OmniPlan采用基于大语言模型的解释器将异构自然语言意图转化为统一偏好向量,并利用混合专家架构动态选择MIP求解器、启发式算法和DRL模型作为专家。在分布式机器学习推理卸载任务(包括决策树、SVM、XGBoost等)的真实测试中,OmniPlan实现了近最优卸载,延迟降低高达97.8%,网络设备资源消耗降低11.5%。
推荐理由:OmniPlan用LLM和混合专家做网络优化,在分布式ML卸载上延迟降97.8%,资源降11.5%,效果很直观。
10:45
10:45arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam
精选
Looped World Models(LoopWM)首次将循环架构引入世界建模,通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法,LoopWM在参数效率上提升多达100倍,并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴,独立于模型规模和训练数据规模。
推荐理由:这篇论文用循环架构解决了世界模型长程预测的计算瓶颈,参数省了100倍还能自适应深度,做仿真和规划的研究者值得看。
10:45
10:45arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto
循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加,信号传播问题加剧,影响模型性能。本文提出FPRM,一种基于Transformer的固定点推理模型,采用预归一化层和残差缩放解决信号传播,并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。
推荐理由:这篇论文提出了FPRM,用固定点收敛让循环推理深度自适应任务难度,在Sudoku和ARC-AGI上效果不错,适合关注推理架构的人。
10:45
10:45arXiv cs.AI@Weizhi Zhang, Zechen Li, Hamid Palangi, Ben Graef, A. Ali Heydari, Simon A. Lee, Salman Rahman, Ray Luo, Zeinab Esmaeilpour, Erik Schenck, Chloe Zhang, Yamin Li, Menglian Zhou, Philip S. Yu, Daniel McDuff, Lindsey Sunden, Mark Malhotra, Shwetak Patel, Ahmed A. Metwally
RubricsTree是一个专家对齐的分层评估框架,包含超过100个可临床验证的原子布尔规则,这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集,实现可扩展且与专家质量对齐的评估。在元评估中,RubricsTree在专家对齐上显著超过强基线,且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时,RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。
推荐理由:RubricsTree用4000条真实查询构建100多条可验证规则,评估健康AI比LLM裁判更准,还能当训练奖励,让Gemini等模型性能飙升66%。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。