6月9日
09:50
09:50arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng
精选
VESTA 是一个全自动化的 LLM 智能体安全评估框架,能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示,难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试,发现平均安全风险率高达 47.1%,部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。
推荐理由:做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景,直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看,结果可能会让你重新审视现有模型的风险。
09:47
09:47arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan
精选72°
GEAR-VLA 是一种新型视觉-语言-动作(VLA)框架,旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化,学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能,在 AgileX 上成功率 85.9%,在未见本体 LDT-01 上达 81.0%,在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。
推荐理由:GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点,做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法,值得关注其开源代码。
6月8日
11:09
11:09arXiv cs.LG@Ekaterina Grishina, Stepan Kuznetsov, Askar Tsyganov, Ilya Ivanov, Daria Korovaitceva, Margarita Rusanova, Uliana Parkina, Alexander Derevyagin, Evgeny Frolov, Sergey Samsonov, Anton Lysenko
推荐算法排名因数据集特性(稀疏性、序列结构、规模)而异,简单平均指标(如NDCG)会产生误导。研究者提出基于Bradley-Terry模型的排名方法,能根据数据集统计特征生成更可靠的排名。该方法还引入新指标评估排名一致性,并能在不运行模型的情况下预测新数据集上的算法表现。这对推荐系统开发者选择算法和评估基准有重要参考价值。
推荐理由:推荐系统团队做算法选型时,别再被平均指标骗了——BT模型帮你根据数据集特性精准排名,省去跑全量模型的成本,做评估基准的开发者值得一试。
11:03
11:03arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov
ThinkBooster 是一个统一的测试时计算(TTC)扩展框架,旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试,以及兼容OpenAI的代理服务,支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡,并展示了实际增益。代码以MIT许可证开源。

推荐理由:做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益,不用再自己拼凑评估流程,建议直接试。