ATLAS：一个词同时实现代理与潜在视觉推理

精选理由

ATLAS 用单个词解决视觉推理中计算开销和泛化难题，做多模态或视觉推理的开发者可以直接参考其设计思路，值得关注。

AI 摘要

ATLAS 提出了一种新框架，用一个离散的“功能标记”（functional token）同时作为代理操作和潜在视觉推理单元，避免了传统方法中生成中间视觉内容的高计算成本。该标记无需视觉监督，保持标准词汇表格式，可通过下一个词预测生成，兼容标准 SFT 和 RL 训练。针对强化学习中功能标记稀疏的问题，引入 Latent-Anchored GRPO 稳定训练。实验表明 ATLAS 在挑战性基准上表现优异且可解释性强。这项工作为视觉推理研究提供了新范式。

AI 翻译 · 中文

arXiv cs.AIVisual reasoning, often interleaved with intermediate visual states, has emerged as a promising direction in the field. A straightforward approach is to directly generate images via unified models during reasoning, but t…

阅读原文