6月15日
6月12日
13:47
13:47arXiv cs.LG@Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng
73°
MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架,由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力,并整合为单一模型。在测试时,MaxProof 将模型作为生成器、验证器、优化器和排序器,对候选证明群体进行搜索,并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上,M3 模型分别达到 35/42 和 36/42,超过了人类金牌阈值。

推荐理由:数学证明是 AI 推理的硬核测试,MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈,做数学 AI 或推理系统的研究者值得关注其方法。
10:49
10:49arXiv cs.AI@Zongsheng Cao, Bihao Zhan, Jinxin Shi, Jiong Wang, Fangchen Yu, Zhijie Zhong, Zijie Guo, Tianshuo Peng, Zhuo Liu, Yi Xie, Xiang Zhuang, Yue Fan, Runmin Ma, Shiyang Feng, Xiangchao Yan, Anran Liu, Peng Ye, Wenlong Zhang, Shufei Zhang, Chunfeng Song, Fenghua Ling, Jie Zhou, Liang He, Bo Zhang, Lei Bai
Agents-K1 是一个端到端的科学知识编排管线,能将原始论文转化为智能体可用的科学知识图谱。它包含多模态解析器、基于 GRPO 训练的 4B 信息提取模型和统一接口 CLI,覆盖实体、多模态证据、引用和关系。团队用该管线处理了 246 万篇论文,构建了 Scholar-KG 数据集,并开源了其中 100 万篇子集。实验表明,Agents-K1 在科学信息提取、知识图谱构建和多跳推理上表现优异。
推荐理由:做科学知识图谱或文献挖掘的团队可以直接用这个开源管线,省去自己设计抽取流程的麻烦,尤其适合需要跨论文推理的科研场景。
10:26
10:26arXiv cs.AI@Achraf Hsain, Sultan Almuhammadi
本文提出盾牌强化学习(shielded reinforcement learning)不应仅作为运行时安全机制,而应作为设计阶段的分析工具。作者通过一个受约束的双人安全博弈实例,将规范编译、乘积博弈构建、吸引子计算和获胜区域提取等自动机理论方法,用于生成系统的结构性洞察,而非对部署智能体的运行时限制。该方法输出一个“可防御性判定”——一个形式化证书,表明拓扑-规范对是否可防御,并附带获胜区域和盾牌。结合吸引子结构的拓扑级度量和盾牌约束下的对抗多智能体强化学习行为,形成“可防御性指纹”,同时捕捉形式安全属性和自适应博弈下的操作行为。通过假设分析发现,形式可防御性与操作有效性捕捉了安全的不同方面:小的架构变化可导致操作结果的巨大变化,而形式安全裕度几乎不变。因此,盾牌合成最有价值之处不在于作为安全智能体的部署机制,而在于回答系统是否、何处以及如何可防御的架构问题。
推荐理由:这篇论文把盾牌合成从运行时约束工具重新定义为设计阶段的分析框架,做网络安全架构和形式化验证的团队值得一读——它提供了一种新思路,用形式化方法回答“系统到底能不能防住”这个根本问题。
10:20
10:20arXiv cs.AI@Xiaoyuan Liu, Jianhong Tu, Yuqi Chen, Siyuan Xie, Sihan Ren, Tianneng Shi, Gal Gantar, Evan Sandoval, Donghyun Lee, Daniel Miao, Peter J. Gilbert, Nick Hynes, Mauro Staver, Warren He, David Marn, Andrew Low, Xi Zhang, Elron Bandel, Michal Shmueli-Scheuer, Siva Reddy, Alexandre Drouin, Alexandre Lacoste, Ramayya Krishnan, Elham Tabassi, Yu Su, Victor Barres, Chenguang Wang, Wenbo Guo, Dawn Song
AgentBeats 提出了一种全新的智能体评估框架 AAA(Agentified Agent Assessment),由智能体担任裁判,通过 A2A 和 MCP 标准化协议与待测智能体交互,取代传统依赖 LLM 的固定测试框架。该方法统一了评估接口,解决了现有基准测试集成成本高、测试与生产环境不匹配、跨设计公平比较难的问题。研究通过五个月开放竞赛(298 个裁判智能体、467 个参赛智能体)和编程智能体案例验证,证明 AAA 在覆盖度、实用性和保真度上均表现优异。AgentBeats 为智能体评估提供了开放、标准化、可复现的路径。
推荐理由:做智能体评测或基准测试的团队终于有了一个通用框架——AgentBeats 用智能体评估智能体,解决了传统测试碎片化、难复现的痛点,建议做 Agent 平台或竞赛的开发者点开看看。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。