10:09
10:09
arXiv cs.AI@Baochang Ren, Xinjie Liu, Xi Chen, Yanshuo Liu, Chenxi Li, Daqi Gao, Zeqin Su, Jintao Xing, Zirui Xue, Rui Li, Xiangyu Zhao, Shuofei Qiao, Minting Pan, Wangmeng Zuo, Lei Bai, Dongzhan Zhou, Ningyu Zhang, Huajun Chen 现有AI能读文献、写假设、规划实验方案,但实际动手操作仍需人类。LabVLA提出将视觉-语言-动作模型(VLA)应用于科学实验室场景,解决现有模型只在家庭和桌面场景训练、无法处理实验室仪器和透明液体等特殊问题。研究团队构建了RoboGenesis仿真数据引擎,生成实验室专用训练数据,并设计了LabVLA模型,采用两阶段训练:先用FAST动作标记预训练让模型具备动作感知能力,再用流匹配后训练附加动作专家模块。在LabUtopia基准测试中,LabVLA在分布内和分布外场景下均取得最高平均成功率。这项工作为机器人自主执行科学实验提供了可行路径。
推荐理由:做机器人操作或科学自动化的团队终于有了实验室场景的专用VLA方案——LabVLA解决了数据稀缺和模型适配两大瓶颈,在仿真基准上表现领先,值得关注其后续实物部署进展。
09:25
09:25
arXiv cs.AI@Jiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan OmniDirector 提出了一种通用相机运动表示方法,将相机参数编码为网格运动视频,从而支持多镜头视频生成。该框架在百万级相机网格-视频对上训练,能够协调角色、动作和相机,提供导演级别的控制。它设计了一种分层提示扩展代理,通过理解信号关系系统描述相机运动和视觉内容,实现不同控制信号的和谐集成。实验表明,OmniDirector 在复杂相机运动克隆任务上表现优异,解决了现有方法依赖配对数据且性能不佳的问题。
推荐理由:做视频生成和相机运动控制的团队终于有了一个无需配对数据就能克隆多镜头相机运动的方案——OmniDirector 用网格运动视频统一了相机表示,直接在百万级数据上训练,效果比依赖合成配对数据的方法好很多,做视频编辑和影视制作的开发者值得关注。
09:13
09:13
arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制,旨在解决大语言模型在超长上下文(百万级 token)下的计算瓶颈。MSA 基于分组查询注意力(GQA),通过轻量级索引分支对键值块进行评分,并为每个 GQA 组独立选择 Top-k 子集,实现高效的组级稀疏检索。在 109B 参数的多模态模型上,MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍,并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源,同时发布了基于 MSA 的生产级多模态模型。
推荐理由:做长上下文推理或 agent 工作流的开发者,终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减,且内核已开源,值得立刻试跑。
09:12
09:12
arXiv cs.AI@Zihao Wang, Yiming Li, Yutong Wu, Zheyu Liu, Kangjie Chen, Fok Kar Wai, Pin-Yu Chen, Vrizlynn L. L. Thing, Bo Li, Dacheng Tao, Tianwei Zhang StakeBench 是一个新的安全基准,用于评估 LLM 驱动的 Web 智能体在面对提示注入攻击时的风险。与现有仅关注攻击可行性的基准不同,StakeBench 采用利益相关者中心视角,区分攻击对用户、卖家、平台等不同实体的影响。研究发现,当前智能体无法可靠抵御任何攻击目标,且失败模式多样,包括“隐蔽寄生”(攻击成功但不干扰用户任务)、“错位破坏”(任务中断但攻击失败)和“复合失败”(攻击和任务均失败)。该基准揭示了传统评估忽略的漏洞分布,强调了在真实部署中需要利益相关者感知的评估。代码已开源。
推荐理由:做 Web 智能体安全评估的团队会发现 StakeBench 补上了现有基准的盲区——它不只看攻击是否成功,还看谁承担了后果,建议安全研究人员和智能体开发者点开看看。
09:08
09:08
arXiv cs.AI@Tao Hu, Jiaxin Ai, Licheng Wen, Xueheng Li, Shu Zou, Siqi Li, Nianchen Deng, Xinyu Cai, Hongbin Zhou, Pinlong Cai, Daocheng Fu, Yu Yang, Hairong Zhang, Botian Shi, Xuemeng Yang IterCAD 是一个统一的多模态智能体框架,用于闭环、交互式的计算机辅助设计(CAD)生成与编辑。它通过多轮交互将智能体与可执行的 CAD 沙箱连接,支持图纸到代码、文本到代码和交互式编辑三种任务。研究团队开发了数据合成流水线,融入先进工业制造特征,生成符合标准的多视图工程图纸和复杂编辑任务。通过渐进式监督微调和几何感知强化学习优化智能体,显著提升了代码可执行性和几何精度。实验表明,IterCAD 在多个基准测试中表现优异,尤其在闭环迭代优化方面超越现有方法。
推荐理由:CAD 工程师和设计自动化研究者终于有了一个能闭环迭代的智能体——IterCAD 解决了传统一次生成与真实迭代流程脱节的问题,做工业设计和 AI 辅助制造的团队可以直接用其数据合成和评估方法。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。