6月9日
09:50
09:50arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng
精选
VESTA 是一个全自动化的 LLM 智能体安全评估框架,能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示,难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试,发现平均安全风险率高达 47.1%,部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。
推荐理由:做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景,直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看,结果可能会让你重新审视现有模型的风险。
09:47
09:47arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan
精选72°
GEAR-VLA 是一种新型视觉-语言-动作(VLA)框架,旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化,学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能,在 AgileX 上成功率 85.9%,在未见本体 LDT-01 上达 81.0%,在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。
推荐理由:GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点,做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法,值得关注其开源代码。
6月8日

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。