10:51
10:51
arXiv cs.AI@Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen SpatialClaw 提出了一种无需训练的空间推理框架,通过将代码作为动作接口,让 VLM 智能体能够逐步执行并观察中间结果,从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码(无法中途调整),要么依赖结构化工具调用(灵活性不足),限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核,预加载输入帧和感知原语,智能体每步写一个可执行单元,基于之前输出调整策略。在 20 个空间推理基准上,SpatialClaw 平均准确率 59.9%,比最新空间智能体高 11.2 个百分点,且跨 6 个 VLM 骨干网络表现一致。
推荐理由:做 3D 视觉或机器人空间推理的团队,终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点,值得在现有模型上直接试试。
10:49
10:49
arXiv cs.AI@Zongsheng Cao, Bihao Zhan, Jinxin Shi, Jiong Wang, Fangchen Yu, Zhijie Zhong, Zijie Guo, Tianshuo Peng, Zhuo Liu, Yi Xie, Xiang Zhuang, Yue Fan, Runmin Ma, Shiyang Feng, Xiangchao Yan, Anran Liu, Peng Ye, Wenlong Zhang, Shufei Zhang, Chunfeng Song, Fenghua Ling, Jie Zhou, Liang He, Bo Zhang, Lei Bai Agents-K1 是一个端到端的科学知识编排管线,能将原始论文转化为智能体可用的科学知识图谱。它包含多模态解析器、基于 GRPO 训练的 4B 信息提取模型和统一接口 CLI,覆盖实体、多模态证据、引用和关系。团队用该管线处理了 246 万篇论文,构建了 Scholar-KG 数据集,并开源了其中 100 万篇子集。实验表明,Agents-K1 在科学信息提取、知识图谱构建和多跳推理上表现优异。
推荐理由:做科学知识图谱或文献挖掘的团队可以直接用这个开源管线,省去自己设计抽取流程的麻烦,尤其适合需要跨论文推理的科研场景。
10:20
10:20
arXiv cs.AI@Xiaoyuan Liu, Jianhong Tu, Yuqi Chen, Siyuan Xie, Sihan Ren, Tianneng Shi, Gal Gantar, Evan Sandoval, Donghyun Lee, Daniel Miao, Peter J. Gilbert, Nick Hynes, Mauro Staver, Warren He, David Marn, Andrew Low, Xi Zhang, Elron Bandel, Michal Shmueli-Scheuer, Siva Reddy, Alexandre Drouin, Alexandre Lacoste, Ramayya Krishnan, Elham Tabassi, Yu Su, Victor Barres, Chenguang Wang, Wenbo Guo, Dawn Song AgentBeats 提出了一种全新的智能体评估框架 AAA(Agentified Agent Assessment),由智能体担任裁判,通过 A2A 和 MCP 标准化协议与待测智能体交互,取代传统依赖 LLM 的固定测试框架。该方法统一了评估接口,解决了现有基准测试集成成本高、测试与生产环境不匹配、跨设计公平比较难的问题。研究通过五个月开放竞赛(298 个裁判智能体、467 个参赛智能体)和编程智能体案例验证,证明 AAA 在覆盖度、实用性和保真度上均表现优异。AgentBeats 为智能体评估提供了开放、标准化、可复现的路径。
推荐理由:做智能体评测或基准测试的团队终于有了一个通用框架——AgentBeats 用智能体评估智能体,解决了传统测试碎片化、难复现的痛点,建议做 Agent 平台或竞赛的开发者点开看看。
10:09
10:09
arXiv cs.AI@Baochang Ren, Xinjie Liu, Xi Chen, Yanshuo Liu, Chenxi Li, Daqi Gao, Zeqin Su, Jintao Xing, Zirui Xue, Rui Li, Xiangyu Zhao, Shuofei Qiao, Minting Pan, Wangmeng Zuo, Lei Bai, Dongzhan Zhou, Ningyu Zhang, Huajun Chen 现有AI能读文献、写假设、规划实验方案,但实际动手操作仍需人类。LabVLA提出将视觉-语言-动作模型(VLA)应用于科学实验室场景,解决现有模型只在家庭和桌面场景训练、无法处理实验室仪器和透明液体等特殊问题。研究团队构建了RoboGenesis仿真数据引擎,生成实验室专用训练数据,并设计了LabVLA模型,采用两阶段训练:先用FAST动作标记预训练让模型具备动作感知能力,再用流匹配后训练附加动作专家模块。在LabUtopia基准测试中,LabVLA在分布内和分布外场景下均取得最高平均成功率。这项工作为机器人自主执行科学实验提供了可行路径。
推荐理由:做机器人操作或科学自动化的团队终于有了实验室场景的专用VLA方案——LabVLA解决了数据稀缺和模型适配两大瓶颈,在仿真基准上表现领先,值得关注其后续实物部署进展。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。