全部 AI 动态 · AI 热点

6月25日

09:32

arXiv cs.AI@Divake Kumar, Sina Tayebati, Devashri Naik, Amanda Sofie Rios, Nilesh Ahuja, Omesh Tickoo, Ranganath Krishnan, Amit Ranjan Trivedi

Argus基准系统评估了4个VLM智能体和4个数据集上27种开箱不确定性量化方法，以及3个闭源供应商的8种方法。主要发现是UQ排名在固定模型下跨数据集稳定（Spearman rho最高0.969），但跨模型类和接口时衰减。隐状态和密度法在开箱族中最稳定，而CoCoA-1MCA、Focus等方法在特定场景胜出。闭源UQ需在目标上重新排序，平均转移相关性仅+0.08。校准后局部加权盘半径缩小40-60%，但校准-测试不匹配时覆盖度下降。

论文 Argus VLM GUI定位不确定性量化计算机使用智能体

推荐理由：这篇论文搞了个Argus基准，比较了27种不确定性方法在4个VLM模型和4个GUI数据集上的表现。结论很实在：方法排名换模型就不灵了，闭源还得单独测。做智能体部署的可以看看。

原文

6月19日

10:10

arXiv cs.AI@Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng YAN

SPOT-E方法针对视觉语言模型在处理证据密集型任务时因小区域视觉证据被忽略导致的读取失败问题。该方法利用答案跨度预测熵作为模型内部反馈，通过低熵锚点和熵整形目标消除歧义，避免模型陷入捷径塌缩。SPOT-E基于GRPO进行每实例轻量级调优，生成问题条件化的聚光灯。在多个VLM族和基准测试中，SPOT-E一致提升了性能并增强了视觉损坏鲁棒性。代码已开源。

论文 SPOT-E VLM GRPO 多模态测试时优化

推荐理由：SPOT-E这个新方法挺有意思，它不重训模型，只在推理时搞了个视觉聚光灯和熵整形，就让VLM在那些需要细看局部证据的任务上表现好多了。尤其用GRPO调优，效果提升还挺稳定。

原文

01:32

SiliconFlowAI@siliconflowai

精选

MoonshotAI 基于 K2.6 推出了 Kimi K2.7 Code，参数量为 32B 激活/1T 总参数，支持交错思考与多步工具调用。相比 K2.6，推理 token 使用量降低 30%，在编码与指令遵循上表现提升，接近 GPT-5.5 和 Opus 4.8。定价为缓存输入/输入/输出每百万 token 0.19/0.94/4.00 美元。该模型可在 SiliconFlow 上使用。

AI模型 Kimi K2.7 Code MoonshotAI 编码模型推理效率 VLM

推荐理由：想少想多做？K2.7 Code 编码专用，推理开销比 K2.6 低三成，还能对标 GPT-5.5，适合写代码时不用纠结。

原文

6月18日

10:57

arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro

论文提出 Act2Answer 协议，通过让智能体在桌面场景中执行物体放置动作来选择答案，从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现，VLA 在简单概念上表现扎实，但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明，VQA 联合训练有助于提升知识保留，而答案相关信息在 VLA 中层达到峰值，上层则衰减。

论文 VLA VLM Act2Answer 常识推理多模态

推荐理由：想知道微调后的机器人模型到底还记不记得常识？这篇论文用动作答题的方式测了7个VLA，发现简单概念还行，复杂知识掉得厉害。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:19

arXiv cs.AI@Dongbin Na, Chanwoo Kim, Giyun Choi, Dooyoung Hong

现代视觉语言模型在具身问答中对不可回答查询常产生过度自信回答。本文提出的Semantic Flip框架通过独立变换查询与视频记忆合成辅助OOD样本，无需外部标注即可训练轻量拒绝模块。该方法可附加到任何冻结的预训练VLM上。在SpaceReject基准上，Semantic Flip取得0.9559的F1分数。

论文 Semantic Flip SpaceReject VLM 智能体 AI安全

推荐理由：这篇论文教具身AI什么时候该说'我不知道'，不用额外训练数据就有效。

原文

6月15日

11:13

arXiv cs.LG@Rohit Gandikota, David Bau

精选

论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头，其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads（少于全部9%）进行注意力掩码干预，能以83.1%的准确率引导模型描述指定的漫画面板，而随机干预无效。该干预同样适用于自然COCO图像，且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。

论文 VLM Gaze Heads 注意力头多模态模型可解释性

推荐理由：操控VLM输出，像翻漫画一样准

原文

6月12日