精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

11:48

11:48

arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong

精选

多模态大模型在物理世界中的空间推理能力至关重要，但现有基准多依赖静态问答或特定模拟器，无法评估真实交互场景。研究者提出SpatialWorld，一个统一基准，整合8种异构仿真后端，包含760个人工标注任务，覆盖家务、旅行、社交协作等领域。智能体需在仅视觉部分可观测条件下主动收集证据，并通过统一文本接口做出决策。评估15个先进智能体发现，最强模型GPT-5平均任务成功率仅17.4%，开源模型Qwen-3.5为14.1%，表明主动探索和长程规划仍是瓶颈。

论文空间推理多模态大模型基准测试智能体仿真环境

推荐理由：做多模态智能体或空间推理研究的团队，这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率，值得用来检验自家模型。

6月2日

11:58

11:58

arXiv cs.AI@Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang

精选

视频相邻帧通常高度冗余，但现有视频多模态大模型仍将每帧独立编码为RGB图像，导致大量重复视觉token。AdaCodec提出一种预测式视觉编码接口：仅当场景无法从先前上下文预测时才发送完整参考帧，否则仅传输帧间变化（包括运动和预测残差）作为紧凑的P-token。在11个基准测试中，AdaCodec在相同token预算下优于Qwen3-VL-8B逐帧RGB基线；在长视频基准上，仅用1/7预算（32k token）即超越224k基线，并在通用视频基准上提升平均分数，同时将首token延迟从9.26秒降至1.62秒。

论文视频理解多模态大模型预测式编码 token压缩 AdaCodec

推荐理由：做视频理解或多模态模型优化的团队，终于有了一个能大幅降低计算开销而不牺牲性能的方案——AdaCodec用预测式编码直击视频冗余痛点，建议做视频MLLM的开发者直接看论文复现。

11:58

11:58

arXiv cs.AI@Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim

精选

研究发现多模态大语言模型作为自动评估者时存在“感知判断偏见”：当视觉证据与文本线索冲突时，模型倾向于奖励看似合理但感知错误的回答。研究者通过受控视觉扰动构建了 Perceptually Perturbed Judgment 数据集，并开发了结合 GRPO 奖励与批量排序目标的统一训练框架。该方法无需显式成对标签，即可实现全局一致性排序。实验表明，该方法显著提升了多模态评估者的感知保真度、排序一致性与人类评价对齐度。这项工作为训练感知可靠、可解释且鲁棒的多模态评估者提供了可扩展路径。

论文多模态大模型评测偏见感知扰动奖励建模 GRPO

推荐理由：做多模态模型评测的团队终于有了对抗感知偏见的方法——Perceptual Perturbation 框架能直接提升评估者的视觉可靠性，建议做 MLLM 评测基准的开发者点开看看实验细节。

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月25日

11:17

11:17

arXiv cs.AI@Haoyuan Wang, Xiaohao Liu, Jiajie Su, Jianmao Xiao, Chaochao Chen

精选

多模态大模型需要高效更新知识，但现有方法在语义等价变体上泛化不足。论文提出ASAM框架，包含Latent Adversarial Robustification（LAR）生成对抗变体，以及Rank-Constrained Subspace Learning（RCSL）通过低秩对齐增强编辑鲁棒性。实验表明该方法在保持可靠性和局部性的同时，显著提升了跨视觉和语言变体的泛化能力。这项工作为多模态知识编辑的鲁棒性提供了新思路。

论文多模态大模型知识编辑对抗训练子空间学习泛化性

推荐理由：做多模态大模型知识更新的研究者会关注——ASAM解决了编辑后泛化差的痛点，用对抗子空间对齐让模型对语义等价变体也生效，值得在MLLM编辑任务上试试。

10:01

10:01

arXiv cs.LG@Liupeng Li, Haoqian Kang, Zhenyu Lu, Jinpeng Wang, Bin Chen, Ke Chen, Yaowei Wang

精选

高分辨率图像感知是当前多模态大模型（MLLMs）的关键瓶颈。现有视觉搜索方法在覆盖率和效率之间难以平衡：专家辅助搜索高效但易遗漏，扫描式搜索全覆盖但计算冗余。CVSearch 提出了一种无需训练的“评估-搜索”自适应框架，先尝试专家辅助搜索，失败时再触发语义感知扫描，通过语义引导的自适应分块避免物体碎片化，并利用视觉复杂度驱动的动态自底向上搜索实现局部细节的高效迭代探索。实验表明，CVSearch 在高分辨率基准上达到最先进精度，同时显著提升搜索效率。代码已开源。

论文多模态大模型高分辨率图像视觉搜索自适应框架开源/仓库

推荐理由：高分辨率图像感知是 MLLMs 落地的硬骨头，CVSearch 用零训练成本解决了覆盖率和效率的矛盾，做多模态感知或视觉问答的团队可以直接拿来用。

5月19日

14:25

14:25

arXiv cs.AI@Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu

精选

多模态大模型在细粒度视觉理解任务中常因无法聚焦关键证据而失败，而非缺乏局部识别能力。研究者提出Vision-OPD框架，通过区域到全局的自蒸馏方法，让模型从裁剪后的局部图像（教师）中学习，并迁移到全图（学生）策略上。该方法无需外部教师模型、标注数据或推理时工具，仅通过最小化教师与学生间token级分布差异来提升性能。在多个细粒度视觉理解基准上，Vision-OPD模型性能优于或媲美更大规模的开源、闭源及“思考+图像”智能体模型。

论文多模态大模型细粒度视觉理解自蒸馏区域到全局 Vision-OPD

推荐理由：多模态模型开发者常头疼的“看不清细节”问题，Vision-OPD用自蒸馏给出了一个轻量解法——不用外部模型或标注，直接让模型学会“自动放大”关键区域。做细粒度视觉理解或MLLM优化的团队值得关注。

11:43

11:43

arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang

精选

多模态大语言模型（MLLMs）在融合视觉与文本信息方面取得显著进展，但现有方法存在两个关键问题：视觉信息被当作普通文本token处理，削弱了其独特贡献；随着生成长度增加，模型对视觉信息的依赖逐渐减弱，导致视觉-语言对齐恶化。为此，研究者提出Vision Inference Former（VIF），一个轻量级架构模块，在推理解码阶段持续注入视觉语义，确保生成内容与视觉语义一致。在14个基准任务上的实验表明，VIF能在不同架构上稳定提升性能，且额外开销极小。代码已开源。

论文多模态大模型视觉一致性轻量模块推理优化开源/仓库

推荐理由：多模态模型开发者常遇到生成内容偏离图像的问题，VIF用极简模块解决了视觉一致性衰减的痛点，想提升MLLM可靠性的团队可以直接试。

11:40

11:40

arXiv cs.AI@Junyu Pan, Yansen Wang, Enze Zhang, Baoliang Lu, Weilong Zheng, Dongsheng Li

精选

现有方法将脑电信号（EEG）与文本对齐，但会丢失精细的感知信息。研究者提出生成式视觉对齐（GVG）框架，通过EEG到图像的生成模型作为视觉翻译器，为非视觉EEG生成实例特定的代理图像，让多模态大模型（MLLM）利用视觉先验进行临床状态解读。在GVG-X-Omni和GVG-Janus两个骨干模型上验证，仅图像对齐的轻量模型在冻结7B参数骨干上仅调优170M参数，即可匹配1.7B参数文本对齐基线。进一步的三模态图像+文本对齐实验显示，视觉代理对齐能有效补充文本对齐，在EEG理解和视觉生成上均有一致提升。

论文脑电信号多模态大模型生成式视觉对齐 EEG理解视觉代理

推荐理由：脑电信号理解一直受限于文本对齐的信息损失，GVG用生成图像作为桥梁，让MLLM能利用视觉先验进行更丰富的解读。做脑机接口或神经科学AI的团队，这个框架值得关注，轻量模型就能达到大模型效果。

11:33

11:33

arXiv cs.AI@Yajing Zhou, Xiangyu Kong

精选

该论文揭示了多模态大语言模型（MLLM）在空间推理中存在的“笛卡尔幻觉”——依赖文本概率分布而缺乏真正的3D拓扑理解。作者设计了一个新颖的视听任务：让智能体A推断智能体B对A相对位置的估计，以测试MLLM的二阶心智理论能力。为解决此问题，他们提出了“锚定具身空间分解思维链”，引导模型先建立B的局部坐标系，再根据A是否在B视野内动态加权视觉和听觉模态。实验表明，当前MLLM在零样本下准确率仅42%，而该感知受限推理链显著优于纯自我中心或他中心基线。这项工作暴露了MLLM空间推理的当前极限，并为具身AI中的认知模态感知推理建立了基础范式。

论文多模态大模型空间推理心智理论具身AI 思维链

推荐理由：这篇论文戳破了MLLM空间推理的泡沫——它们并不真正理解3D世界。做具身AI、多智能体系统或空间推理的开发者，看完会重新评估模型能力边界。

09:58

09:58

arXiv cs.AI@Yanjie Li

精选

CatalyticMLLM 是一种用于催化材料的图-文本多模态大语言模型，将性质预测和逆向结构设计统一在同一模型和共享表示空间中。传统方法将这两个任务解耦，导致生成模型与预测模型之间存在表示空间和训练目标的不一致，容易引入数据分布偏移和评估偏差。该模型通过统一框架，不仅能利用三维结构和文本信息进行可靠的性质预测，还能根据目标性质生成并筛选物理可行的 CIF 候选结构，形成“逆向设计-预测-筛选-重新设计”的闭环优化。实验表明，该统一范式在催化松弛能预测和逆向设计任务上均优于解耦基线，验证了联合建模的有效性。

论文催化材料多模态大模型性质预测逆向设计图-文本

推荐理由：催化材料研究者终于有了一个能同时做性质预测和逆向设计的统一模型，避免了传统解耦方法的数据偏移问题，做材料计算和 AI 辅助设计的团队可以直接参考其方法。

5月15日

10:12

10:12

arXiv: OpenAI@Tianwei Chen, Takuya Furusawa, Yuki Hirakawa, Ryotaro Shimizu, Mo Fan, Takashi Wada

精选

本文提出 MultiEmo-Bench，一个多标签视觉情感分析基准数据集，用于全面评估多模态大模型（MLLMs）预测图像引发情感的能力。现有数据集采用单候选情感标注方案，忽略了单张图像可能引发多种不同强度情感的事实，导致低估 MLLMs 能力。新数据集为每张图像雇佣 20 名标注者，收集所有被激发的情感，最终包含 10,344 张图像和 236,998 条有效投票，覆盖八种情感。评估了 Qwen3-VL、GPT、Gemini 和 Claude 等模型，结果表明当前 MLLMs 虽有进步，但仍有很大提升空间。实验还发现，LLM-as-a-judge 方法在视觉情感分析这一主观任务上效果不稳定。

论文多模态大模型视觉情感分析基准数据集多标签标注 Qwen3-VL

推荐理由：做多模态情感分析或评估 MLLMs 情感能力的团队，终于有了一个更可靠的多标签基准——MultiEmo-Bench 解决了现有数据集低估模型的问题，值得直接用于模型评测。