全部 AI 动态 · AI 热点

6月25日

11:01

arXiv cs.AI@Yu-Yang Chen, Lan-Zhe Guo

TriViewBench 是一个基于合成3D场景的受控多视图视觉推理基准，包含1,923个场景和超过14K个问答对，分为4个复杂度级别和3个推理类别：局部决策、物体计数和全局恢复。评估18个开源和闭源MLLMs发现，所有模型能力排序一致（局部决策>物体计数>全局恢复），且随着复杂度增加性能单调下降：局部决策下降12.11%，物体计数下降59.14%，全局恢复骤降80.02%。错误分析表明，单视图任务中因遮挡导致欠计数，多视图任务因跨视角身份混淆导致过计数。Chain-of-Thought提示几乎无收益（Δ=-0.16%），表明瓶颈在于跨视角空间表示而非推理策略。

论文 TriViewBench MLLMs 多模态视觉推理基准测试

推荐理由：这篇论文用TriViewBench测了18个多模态模型，发现它们都在多视图推理上崩得厉害，CoT也救不了。想了解当前MLLM的结构推理极限，可以看看。

原文

6月23日

11:04

arXiv cs.AI@Zhuoran Jin, Kejian Zhu, Hongbang Yuan, Yupu Hao, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

该研究系统评估12项多模态任务，涵盖感知与推理两类，使用14个非推理模型和8个推理模型。结果显示，CoT在视觉定位、目标计数等感知任务中会导致性能下降，但在数学、科学和多图推理中有效。开源多模态推理模型整体提升有限，可能因过度侧重数学。当前多模态CoT存在'轻看，重思'模式，视觉反省持续减弱，而口头反思相对保持。视觉推理仍是主要瓶颈。

论文 CoT 多模态推理推理模型视觉推理多模态任务

推荐理由：这篇论文系统测了多模态思维链到底行不行，发现它在视觉定位上帮倒忙，但对数学推理很管用，还揭示了视觉瓶颈。做多模态的值得看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:46

arXiv: DeepSeek@Xu-Jing Ye, Yuan-Gen Wang, Ruping Wang

L-VARC是一种新框架，通过语言引导的LUPI分支增强视觉推理，解决ARC任务中纯语言模型参数大、纯视觉模型过拟合的问题。它利用DeepSeek-V3压缩语义，用CLIP对齐视觉与语义特征，训练后丢弃语言分支，仅保留18M参数的轻量模型。实验表明，L-VARC在ARC任务上超越现有最佳方法，代码已开源。

论文视觉推理 ARC LUPI DeepSeek-V3 轻量模型

推荐理由：ARC是AGI的关键测试，L-VARC用语言引导视觉推理，18M参数就能超越SOTA，做视觉推理或小模型研究的开发者值得一试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

10:44

arXiv cs.LG@Lianghuan Huang, Yihao Li, Saeed Salehi, Yingshan Chang, Ansh Soni, Konrad P. Kording

精选

该论文从信息论角度形式化了视觉中的“绑定问题”，即系统如何知道哪些特征（如颜色、形状）属于同一个物体。研究者提出了一种探测方法，用于测量深度学习模型（尤其是Vision Transformers）内部表示中的绑定信息。实验发现，ViT的不同组件（如[CLS]标记和空间标记）包含不同程度的绑定信息，且在特征共享、遮挡等挑战性场景中表现差异显著。这项工作表明，绑定信息是强视觉识别与推理的关键要素，但目前模型仍存在特征误归因的常见失败。

论文绑定问题 Vision Transformer 信息论视觉推理特征归因

推荐理由：做视觉AI的开发者会关心：你的ViT模型真的理解“蓝色圆形”是一个整体吗？这篇论文给出了量化绑定信息的方法，值得点开看看如何诊断模型的结构性盲点。

原文

10:17

arXiv cs.AI@Senjie Jin, Peixin Wang, Boyang Liu, Xiaoran Fan, Shuo Li, Zhiheng Xi, Jiazheng Zhang, Yuhao Zhou, Tao Gui, Qi Zhang, Xuanjing Huang

精选

研究发现，在视觉推理任务中，仅依赖令牌级熵进行强化学习（RLVR）会失效，因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量，要么忽视熵主要驱动语义探索。为此，研究者提出VEPO框架，通过视觉敏感性与令牌熵的乘法耦合，将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明，VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点，消融实验验证了方法的有效性。

论文强化学习视觉推理令牌选择多模态 VEPO

推荐理由：视觉推理强化学习一直缺乏有效的信用分配机制，VEPO解决了这个痛点——做多模态RL的团队可以直接参考这个框架，在视觉-语义交叉场景中提升模型表现。

原文

5月15日

10:52

arXiv cs.AI@Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng

精选

ATLAS 提出了一种新框架，用一个离散的“功能标记”（functional token）同时作为代理操作和潜在视觉推理单元，避免了传统方法中生成中间视觉内容的高计算成本。该标记无需视觉监督，保持标准词汇表格式，可通过下一个词预测生成，兼容标准 SFT 和 RL 训练。针对强化学习中功能标记稀疏的问题，引入 Latent-Anchored GRPO 稳定训练。实验表明 ATLAS 在挑战性基准上表现优异且可解释性强。这项工作为视觉推理研究提供了新范式。

论文视觉推理功能标记强化学习 ATLAS 多模态

推荐理由：ATLAS 用单个词解决视觉推理中计算开销和泛化难题，做多模态或视觉推理的开发者可以直接参考其设计思路，值得关注。

原文