13:47
13:47
arXiv cs.LG@Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架,由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力,并整合为单一模型。在测试时,MaxProof 将模型作为生成器、验证器、优化器和排序器,对候选证明群体进行搜索,并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上,M3 模型分别达到 35/42 和 36/42,超过了人类金牌阈值。
推荐理由:数学证明是 AI 推理的硬核测试,MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈,做数学 AI 或推理系统的研究者值得关注其方法。
10:51
10:51
arXiv cs.AI@Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen SpatialClaw 提出了一种无需训练的空间推理框架,通过将代码作为动作接口,让 VLM 智能体能够逐步执行并观察中间结果,从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码(无法中途调整),要么依赖结构化工具调用(灵活性不足),限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核,预加载输入帧和感知原语,智能体每步写一个可执行单元,基于之前输出调整策略。在 20 个空间推理基准上,SpatialClaw 平均准确率 59.9%,比最新空间智能体高 11.2 个百分点,且跨 6 个 VLM 骨干网络表现一致。
推荐理由:做 3D 视觉或机器人空间推理的团队,终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点,值得在现有模型上直接试试。
10:49
10:49
arXiv cs.AI@Zongsheng Cao, Bihao Zhan, Jinxin Shi, Jiong Wang, Fangchen Yu, Zhijie Zhong, Zijie Guo, Tianshuo Peng, Zhuo Liu, Yi Xie, Xiang Zhuang, Yue Fan, Runmin Ma, Shiyang Feng, Xiangchao Yan, Anran Liu, Peng Ye, Wenlong Zhang, Shufei Zhang, Chunfeng Song, Fenghua Ling, Jie Zhou, Liang He, Bo Zhang, Lei Bai Agents-K1 是一个端到端的科学知识编排管线,能将原始论文转化为智能体可用的科学知识图谱。它包含多模态解析器、基于 GRPO 训练的 4B 信息提取模型和统一接口 CLI,覆盖实体、多模态证据、引用和关系。团队用该管线处理了 246 万篇论文,构建了 Scholar-KG 数据集,并开源了其中 100 万篇子集。实验表明,Agents-K1 在科学信息提取、知识图谱构建和多跳推理上表现优异。
推荐理由:做科学知识图谱或文献挖掘的团队可以直接用这个开源管线,省去自己设计抽取流程的麻烦,尤其适合需要跨论文推理的科研场景。
10:20
10:20
arXiv cs.AI@Xiaoyuan Liu, Jianhong Tu, Yuqi Chen, Siyuan Xie, Sihan Ren, Tianneng Shi, Gal Gantar, Evan Sandoval, Donghyun Lee, Daniel Miao, Peter J. Gilbert, Nick Hynes, Mauro Staver, Warren He, David Marn, Andrew Low, Xi Zhang, Elron Bandel, Michal Shmueli-Scheuer, Siva Reddy, Alexandre Drouin, Alexandre Lacoste, Ramayya Krishnan, Elham Tabassi, Yu Su, Victor Barres, Chenguang Wang, Wenbo Guo, Dawn Song AgentBeats 提出了一种全新的智能体评估框架 AAA(Agentified Agent Assessment),由智能体担任裁判,通过 A2A 和 MCP 标准化协议与待测智能体交互,取代传统依赖 LLM 的固定测试框架。该方法统一了评估接口,解决了现有基准测试集成成本高、测试与生产环境不匹配、跨设计公平比较难的问题。研究通过五个月开放竞赛(298 个裁判智能体、467 个参赛智能体)和编程智能体案例验证,证明 AAA 在覆盖度、实用性和保真度上均表现优异。AgentBeats 为智能体评估提供了开放、标准化、可复现的路径。
推荐理由:做智能体评测或基准测试的团队终于有了一个通用框架——AgentBeats 用智能体评估智能体,解决了传统测试碎片化、难复现的痛点,建议做 Agent 平台或竞赛的开发者点开看看。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。