6月17日
12:00
12:00arXiv cs.LG@Longlong Zhu, Jiashuo Yu, Zedi Chen, Yuhan Wu, Zhifan Jiang, Yuchen Xian, Yimeng Liu, Jiajie Su, Shaopeng Zhou, Xingyuan Li, Hongyan Liu, Xuan Liu, Dong Zhang, Chunming Wu, Xiang Chen
OmniPlan采用基于大语言模型的解释器将异构自然语言意图转化为统一偏好向量,并利用混合专家架构动态选择MIP求解器、启发式算法和DRL模型作为专家。在分布式机器学习推理卸载任务(包括决策树、SVM、XGBoost等)的真实测试中,OmniPlan实现了近最优卸载,延迟降低高达97.8%,网络设备资源消耗降低11.5%。
推荐理由:OmniPlan用LLM和混合专家做网络优化,在分布式ML卸载上延迟降97.8%,资源降11.5%,效果很直观。
10:45
10:45arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam
精选
Looped World Models(LoopWM)首次将循环架构引入世界建模,通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法,LoopWM在参数效率上提升多达100倍,并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴,独立于模型规模和训练数据规模。
推荐理由:这篇论文用循环架构解决了世界模型长程预测的计算瓶颈,参数省了100倍还能自适应深度,做仿真和规划的研究者值得看。
10:45
10:45arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto
循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加,信号传播问题加剧,影响模型性能。本文提出FPRM,一种基于Transformer的固定点推理模型,采用预归一化层和残差缩放解决信号传播,并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。
推荐理由:这篇论文提出了FPRM,用固定点收敛让循环推理深度自适应任务难度,在Sudoku和ARC-AGI上效果不错,适合关注推理架构的人。
10:45
10:45arXiv cs.AI@Weizhi Zhang, Zechen Li, Hamid Palangi, Ben Graef, A. Ali Heydari, Simon A. Lee, Salman Rahman, Ray Luo, Zeinab Esmaeilpour, Erik Schenck, Chloe Zhang, Yamin Li, Menglian Zhou, Philip S. Yu, Daniel McDuff, Lindsey Sunden, Mark Malhotra, Shwetak Patel, Ahmed A. Metwally
RubricsTree是一个专家对齐的分层评估框架,包含超过100个可临床验证的原子布尔规则,这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集,实现可扩展且与专家质量对齐的评估。在元评估中,RubricsTree在专家对齐上显著超过强基线,且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时,RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。
推荐理由:RubricsTree用4000条真实查询构建100多条可验证规则,评估健康AI比LLM裁判更准,还能当训练奖励,让Gemini等模型性能飙升66%。
10:43
10:43arXiv cs.AI@Henry Bodwell, Hong Yang, John C. Simeone, Kelvin Gorospe, Bella Sullivan, Lana Huang, Jessica Gephart, Sandy Aylesworth, Molly Masterton, Naren Ramakrishnan
论文提出IUU+DB系统,利用大语言模型(LLM)从异构文档中提取非法、未报告和未监管捕捞(IUU)及相关海鲜欺诈、劳工虐待事件信息。系统可分类是否相关,提取行为者、地点、物种、船舶、违规类型及执法结果等关键数据,并支持去重和趋势分析。案例验证表明,IUU+DB能帮助组织碎片化证据,识别地理和行为热点,为学术界、非政府组织、行业风险评估及政府政策执行提供支持。
推荐理由:这篇论文搞了个IUU+DB系统,用LLM自动从大量文档里挖出非法捕捞和海鲜欺诈的线索,能帮监管者和研究人员快速定位热点区域,挺实用的。