09:30arXiv: OpenAI@Haoxiang Sun, Tao Wang, Li Yuan, Jian Zhao, Jiancheng Lv这篇来自 arXiv 的论文系统梳理了多模态大语言模型(MLLM)中视觉-语言感知的演变,首次将其视为统一的跨模态能力。论文提出了五阶段分类法,涵盖从早期方法到 OpenAI O-series、DeepSeek R-series 等最新模型带来的感知中心范式转变。它总结了每个阶段的代表性方法,并指出了开放挑战与通向通用智能的研究方向。该综述为 MLLM 感知研究提供了结构化理解与可操作的路线图。论文O-seriesR-seriesOpenAIDeepSeek多模态大模型综述视觉语言7 个信源在谈推荐理由:想搞懂多模态模型怎么从分开看图文进化成统一感知?这篇综述用五阶段框架讲清了O-series和R-series带来的转变,比碎片化教程系统得多。原文