全部 AI 动态 · AI 热点

6月30日

11:51

arXiv cs.LG@Chuxiao Zuo, Yao Zhu, Minqiang Xu, Manhong Wang, Yunke Zhang, Fei Huang

提出自适应模态路由（AMR）模块，用于多模态多语言说话人识别。AMR使用W2V-BERT 2.0音频编码器和IResNet-18人脸编码器，通过可训练路由器动态分配模态权重。在POLY-SIM 2026评估集上，系统在4个协议上的平均准确率达99.07%，比FOP基线提升32.73%。具体成绩：英语多模态99.93%，乌尔都语多模态100.00%，英语仅音频97.50%，乌尔都语仅音频98.83%。

论文 W2V-BERT 2.0 IResNet-18 AMR 多模态说话人识别

推荐理由：这篇用AMR动态融合音视频特征，缺失模态也能准确识别说话人。在POLY-SIM上平均99%准确率，比基线高32%，很实用。

原文

11:22

arXiv cs.LG@Haitao Wu, Qirui Zhang, Zhouheng Yao, Shangquan Sun, Qihao Zheng, Mianxin Liu, Chi Zhang, Wanli Ouyang, Chunfeng Song, Changqing Zhang, Jiamin Wu

BrainJanus是首个将脑、视觉和语言整合到单一框架的统一脑模型。它引入Unified Brain Tokenizer将连续神经活动量化为离散Token，并与视觉和语言表征对齐到共享的Omni空间。基于All-in-One自回归架构，该模型通过下一个Token预测实现图像到脑、文本到脑的编码以及脑到图像、脑到文本的解码。在多项基准测试中，BrainJanus取得优越性能，并展现出零样本泛化能力和可解释的生物拓扑结构。代码已在GitHub开源。

论文 BrainJanus 脑机接口多模态零样本学习脑解码

推荐理由：这篇论文提出了BrainJanus，一个能双向翻译脑信号与图像、文本的统一模型，在零样本和生物可解释性上突破传统方法。

原文

10:21

arXiv cs.AI@Chao Tian, Zikun Zhou, Chao Yang, Guoqing Zhu, Zhenyu He

本文提出一种稀疏跨模态融合机制用于RGB-T目标检测，避免传统方法中双重骨干网络和全局融合的高计算成本。该方法先通过轻量级单模态检测器快速扫描图像，生成高召回率的候选区域（RoI），再对稀疏的候选区域进行跨模态特征融合以精化检测结果。两阶段框架显著降低了参数和计算成本，同时在高分辨率图像上保持可扩展性。实验证明该方法在保持竞争力的前提下实现高效检测。

论文 RGB-T 稀疏融合目标检测多模态

推荐理由：这篇论文找到了一种聪明的方法：先快速扫一遍图像找出可能的目标区域，再只对这几个区域做多模态融合，省了很多计算。适合想做轻量级多模态目标检测的人读。

原文

10:16

arXiv cs.AI@Elys Allesiardo, Antoine Caubrière, Valentin Vielzeuf

该论文深入分析了非序列多模态句子级嵌入，重点研究SONAR模型。研究发现某些嵌入维度对扰动敏感，可作为解码异常的指示器。通过利用编码与解码间的一致性，构建了准确的异常检测器。论文还探索了修改特定维度以尝试纠正异常。

论文 SONAR 多模态嵌入异常检测

推荐理由：这篇论文用SONAR模型把嵌入维度玩出花了，直接用一致性检测解码异常，还尝试修正，挺有意思的。

原文

6月26日

10:52

arXiv cs.AI@Junhao Shi, Zezheng Huai, Siyin Wang, Jia Chen, Yubang Wang, Zhaoye Fei, Hechang Chen, Jingjing Gong, Xipeng Qiu, Yu-Gang Jiang

OmniAct 提出了一个分层异步架构，将多模态语义规划器、基于事件边界压缩的自适应分层记忆和异步视觉抢占引擎模块化集成，以解决持久自主机器人的跨域工具调用与物理故障恢复问题。在40个真实世界长期任务中，使用两个机器人平台协调四个IoT设备，OmniAct在所有复杂度级别上端到端成功率一致提升，累积超过10万交互token时保持接近线性的token消耗，并让中等规模开源模型达到闭源模型性能。

AI模型 OmniAct 具身智能多模态机器人 IoT交互

推荐理由：他们搞了个新架构，让机器人能自己协调API、物联网和物理动作，干活出错还能自己恢复，20个任务里成功率都比之前高，而且省钱省token。

原文

6月25日

11:01

arXiv cs.AI@Yu-Yang Chen, Lan-Zhe Guo

TriViewBench 是一个基于合成3D场景的受控多视图视觉推理基准，包含1,923个场景和超过14K个问答对，分为4个复杂度级别和3个推理类别：局部决策、物体计数和全局恢复。评估18个开源和闭源MLLMs发现，所有模型能力排序一致（局部决策>物体计数>全局恢复），且随着复杂度增加性能单调下降：局部决策下降12.11%，物体计数下降59.14%，全局恢复骤降80.02%。错误分析表明，单视图任务中因遮挡导致欠计数，多视图任务因跨视角身份混淆导致过计数。Chain-of-Thought提示几乎无收益（Δ=-0.16%），表明瓶颈在于跨视角空间表示而非推理策略。

论文 TriViewBench MLLMs 多模态视觉推理基准测试

推荐理由：这篇论文用TriViewBench测了18个多模态模型，发现它们都在多视图推理上崩得厉害，CoT也救不了。想了解当前MLLM的结构推理极限，可以看看。

原文

10:45

arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli

精选

论文提出Facet-Probe审计框架，从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差，发现所有模型均非排序不变，各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示，验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转，提示词级缓解措施无法泛化到视觉推理。

论文 Facet-Probe MLLM Gemini 多模态模型可靠性

推荐理由：这篇论文用Facet-Probe测试了18个主流多模态大模型，发现它们对输入顺序都很敏感，最好的模型也错13.4%，提醒我们模型可靠性还不是想象中那么好。

原文

09:40

arXiv: OpenAI@Nikolaos D. Tantaroudas, Ilias Karachalios, Andrew J. McCracken

论文介绍了Falco eleonorae，一个面向希腊小岛农民的双语（希腊语主、英语次）对话式AI助手。系统利用OpenAI GPT-5家族模型进行回答生成，并通过MCP工具查询本地作物、季节性日历、方言词汇等结构化数据。它支持语音输入（使用欧盟流式语音转文字服务）和图像描述（由视觉模型处理），并设计为渐进式Web应用以适应低带宽环境。作者论证，对于资源受限的农村部署，这种托管式检索增强方案比自托管模型更可靠且更易实现。

论文 Falco eleonorae GPT-5 MCP/工具多模态 RAG

推荐理由：OpenAI的GPT-5给希腊农民做了个接地气的AI助手，能说方言、看图、查作物日历，比通用聊天更实用。

原文

6月23日

10:35

arXiv cs.LG@Talia Sternberg, Gallil Maimon, Yossi Adi

该论文分析了来自不同模型族和规模的交错语音文本语言模型，发现它们会在中间层隐式转录语音对应的文本词，其中77%的数据中该文本词出现在Top候选词中。随后模型在文本空间预测下一个词，再转回语音域。研究还表明，交错训练数据和文本LM初始化是诱发该行为的关键，且该行为与口语知识能力相关。

论文 Speech Language Models 交错训练语音模型多模态模型可解释性

推荐理由：这篇论文让你搞懂语音语言模型内部是怎么偷偷把语音转成文本再推理的，分析得很透彻，适合想深入理解多模态模型原理的人。

原文

6月19日

11:47

arXiv cs.LG@Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

UNIEGO提出分层多教师蒸馏框架，使用9个教师（覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型）来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突，框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏（SPD）为每个样本自适应选择正确且自信的代理子集，抑制错误信号。UNIEGO在三个自我中心视频基准（动作识别、视频检索、动作分割）上达到最先进性能。

AI模型 UNIEGO 自我中心视频知识蒸馏表示学习多模态

推荐理由：想用多视角多模态数据训练视频理解模型？UNIEGO用代理模型搞定异构教师蒸馏，在三个任务上刷新了纪录。

原文

11:36

arXiv cs.AI@Solène Debuysère, Nicolas Trouvé, Nathan Letheule, Elise Colin, Georgia Channing

SARLO-80是一个基于Umbra卫星VHR SAR SLC数据构建的SAR-光学-文本对齐数据集，包含约2500个全球场景，覆盖72个国家257个地点。所有SAR数据被标准化为80cm斜距网格，并切分为1024×1024像素图块，与对应的高分辨率光学图像精确对齐。数据集提供119,566个三元组（幅度/复数SAR图块、对齐光学图块、三种长度的自然语言描述），支持跨模态检索和条件生成等基准测试。完整代码和划分已开源在Hugging Face Hub。

论文 SARLO-80 Umbra SAR 多模态数据集

推荐理由：想做SAR与光学图像对齐研究？这个数据集用Umbra的VHR数据做了精细对齐，还带文本描述，直接拿去做多模态训练或评测。

原文

10:10

arXiv cs.AI@Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng YAN

SPOT-E方法针对视觉语言模型在处理证据密集型任务时因小区域视觉证据被忽略导致的读取失败问题。该方法利用答案跨度预测熵作为模型内部反馈，通过低熵锚点和熵整形目标消除歧义，避免模型陷入捷径塌缩。SPOT-E基于GRPO进行每实例轻量级调优，生成问题条件化的聚光灯。在多个VLM族和基准测试中，SPOT-E一致提升了性能并增强了视觉损坏鲁棒性。代码已开源。

论文 SPOT-E VLM GRPO 多模态测试时优化

推荐理由：SPOT-E这个新方法挺有意思，它不重训模型，只在推理时搞了个视觉聚光灯和熵整形，就让VLM在那些需要细看局部证据的任务上表现好多了。尤其用GRPO调优，效果提升还挺稳定。

原文

6月18日

10:57

arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro

论文提出 Act2Answer 协议，通过让智能体在桌面场景中执行物体放置动作来选择答案，从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现，VLA 在简单概念上表现扎实，但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明，VQA 联合训练有助于提升知识保留，而答案相关信息在 VLA 中层达到峰值，上层则衰减。

论文 VLA VLM Act2Answer 常识推理多模态

推荐理由：想知道微调后的机器人模型到底还记不记得常识？这篇论文用动作答题的方式测了7个VLA，发现简单概念还行，复杂知识掉得厉害。

原文

10:38

arXiv cs.LG@Hugo Miccinilli, Theo Di Piazza

ChronoSurv是一个基于有向图的框架，用于头颈癌患者的多模态生存预测。它将患者诊疗过程建模为按诊断步骤对齐的临床轨迹，并通过分层拓扑整合细粒度、粗粒度和全局表示。在两个公开数据集上，ChronoSurv实现了优于现有方法的判别性能，且校准误差达到统计显著水平。消融实验验证了各组件对整体性能的贡献。

论文 ChronoSurv 生存分析多模态头颈癌图神经网络

推荐理由：这篇论文把临床流程做成图结构来预测生存时间，比传统方法更准，适合做医疗AI的朋友看看。

原文

10:34

arXiv cs.LG@Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

ViGOS是一种针对多模态大语言模型(MLLM)的后训练框架，采用解耦感知与推理的自蒸馏方法(OPSD)。学生模型先生成视觉描述，再基于此进行推理，避免直接利用文本目标产生捷径。实验在通用视觉-语言、专家推理、视觉数学、空间定位和视觉-语言先验五类基准上验证，ViGOS在易出现捷径的场景中显著提升了图像依赖行为。

论文 ViGOS MLLM OPSD 多模态自蒸馏

推荐理由：这篇论文提出了ViGOS，专门解决多模态模型自蒸馏时只看文本不看图的毛病，在多个视觉语言基准上有效果。

原文

09:41

arXiv cs.AI@Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi Gao

ThinkDeception首次将多模态大语言模型(MLLM)引入欺骗检测领域，将其从二分类任务转变为显式认知推理过程。研究团队构建了首个逐步多模态思维链(CoT)数据集，并基于此开发基础模型ThinkDeception Base。核心创新是提出Visual-Audio Consistency Group Relative Policy Optimization(VAC-GRPO)，采用渐进式训练将数据分为四个难度层级。在主流基准上，ThinkDeception在检测准确性和推理质量上达到新SOTA。

AI模型 ThinkDeception MLLM 多模态思维链(CoT)推理模型

推荐理由：这个框架用MLLM和思维链一步步拆解欺骗线索，比黑箱模型更能解释为什么判定说谎，准确率还最高。

原文

6月17日

10:17

arXiv cs.LG@Haoqi Yuan, Zhixuan Liang, Anzhe Chen, Ye Wang, Haoyang Li, Pei Lin, Yiyang Huang, Zixing Lei, Tong Zhang, Jiazhao Zhang, Jie Zhang, Jingyang Fan, Gengze Zhou, Qihang Peng, Chenxu Lv, Xiaoyue Chen, An Yang, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Chenfei Wu, Xiong-Hui Chen

83°

Qwen-RobotManip是基于Qwen-VL构建的视觉-语言-动作基础模型。它引入统一对齐框架，覆盖表示、运动和操作行为三个维度，使多源训练数据协调一致。通过人工到机器人的合成流水线，利用15种平台的示教数据，构建了约38,100小时的预训练语料。模型在RoboCasa365、LIBERO-Plus、EBench等OOD基准上显著优于先前最佳模型π0.5，并在AgileX ALOHA、Franka、UR、ARX等真实机器人平台上验证。

AI模型 Qwen-RobotManip Qwen-VL 机器人基础模型多模态零样本迁移

推荐理由：阿里Qwen团队这个机器人模型用开源数据和人类演示就能学，跨平台零样本操作，还在多个测试里碾压了π0.5，做机器人开发的别错过。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:14

arXiv cs.LG@Yonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue

TuneJury 是一个面向文本到音乐生成的开放实例级成对奖励模型，基于人类偏好标签（包括竞技场投票、指标对齐偏好、众包成对比较和专家美学评分）训练。它通过简单分数阈值支持数据过滤，在保留测试对和分布外基准上表现良好，并胜过先前的基线。该模型还引入锚定校准方法，以更高的数据效率恢复一致性，并在三种下游应用（推理时最优N采样、DITTO风格潜在优化和专家迭代后训练）中持续提升奖励轴收益。TuneJury 已在 GitHub 发布。

论文 TuneJury 音乐生成多模态偏好对齐奖励模型

推荐理由：如果你在搞音乐生成，想用人类偏好来对齐模型，这个开源的奖励模型 TuneJury 可以让你直接拿来用，还附带了三种应用示例，比重新训一个省事多了。

原文

10:48

arXiv: DeepSeek@Zewen Liu

论文发现，当AI智能体使用语言模型在反馈循环中自我评估时，会产生系统性偏好偏差。在多模态环境中，评估者偏好崩溃（EPC）被显著放大：用GPT-4o评估DeepSeek-chat时，单一策略step_by_step吸收48.4%权重，是纯文本自评估崩溃程度的3.2倍，而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示：在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数，并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中，跨模型评估产生强对称双向传染（均值γ_{T->V}=1.176, γ_{V->T}=1.089），而自评估（DeepSeek-chat）97%运行传染为零。

论文 GPT-4o DeepSeek-chat 多模态评估者偏好崩溃跨模态传染

推荐理由：这篇论文用GPT-4o和DeepSeek-chat做实验，发现AI自我评估时策略偏好会崩坏，还跨模态传染，数字很硬核，搞多模态和智能体的值得看。

原文

10:41

arXiv cs.LG@Miso Choi, Seonga Choi, Mincheol Kwon, Woosung Joung, Jinkyu Kim, Jungbeom Lee

论文发现，在Vicuna、Qwen2.5、LLaMA2和Mistral等模型家族中，上下文的真实性评分（Truth Scores）在指令微调或多模态适配后高度保留，与其注意头权重继承一致。作者提出TruthProbe软门控策略，通过放大上下文真实头而保留其他头贡献，在HaluEval上提升上下文真实性，并在POPE和CHAIR上减少多模态幻觉。基础LLM的真实头评分有效传递给微调后的LLM和多模态LLM后代。代码已开源。

论文 TruthProbe Vicuna Qwen2.5 多模态幻觉

推荐理由：这篇论文挺有意思，发现模型家族里真实头会继承，搞了个TruthProbe来减少幻觉，效果不错，适合研究模型可解释性和幻觉问题的人看。

原文

09:47

arXiv cs.LG@Hangling Xie

该论文提出MAF（多模态自适应少样本提示）框架，用于提升多模态大语言模型在情感分析任务中的表现。MAF动态检索与查询相关的演示样本，通过编码面部表情、场景上下文和文本语义，并引入唇动幅度检测机制在多人场景中准确识别说话人。一个轻量级系数生成网络被训练用于实时输出查询条件化融合权重，加权聚合多模态相似度以选取Top-K信息量最大的示例。在多个公开基准数据集上，MAF相比骨干模型取得显著且一致的性能提升，并与强基线方法保持竞争力。

论文 MAF MLLM 情感分析少样本提示多模态

推荐理由：这篇论文提出MAF，能根据输入动态挑选示例来引导MLLM做情感分析，在多个数据集上效果提升明显，比固定提示强很多。

原文

09:45

arXiv cs.AI@Yaoting Huang, Yifu Yuan, Linqi Han, Chengwen Li, Shuoheng Zhang, Xianze Yao, Hongyao Tang, Yan Zheng, Jianye Hao

RoboPIN提出PinCoT（固定思维链）方法，将每个推理步骤绑定到视觉锚点，每个锚点包含实体名称、唯一标识、视图索引和空间定位。基于4B参数的小模型，在14个基准测试（涵盖空间推理、多视图推理和指向任务）中，平均超越7B开源模型Mimo-Embodied达12%。该方法通过三阶段后训练注入具身知识和过程监督，显著提升定位精度和跨步骤实体一致性。

论文 RoboPIN PinCoT 具身推理推理模型多模态

推荐理由：这篇论文用4B小模型在具身推理上打败了7B的Mimo-Embodied，平均提高12%，靠的是把每一步推理都牢牢钉在视觉证据上，挺有意思。

原文

09:44

arXiv cs.AI@Maonan Wang, Zhengyan Huang, Kemou Jiang, Yuhang Fu, Jiayue Zhu, Yuxin Cai, Xingchen Zou, Qiaosheng Zhang, Yi Yu, Ding Wang, Xi Chen, Ben M. Chen, Yuxuan Liang, Zhiyong Cui, Man On Pun, Yirong Chen

OmniTraffic是一个基于12个真实十字路口重建3D环境的可控生成管道，可编辑车道拓扑、信号相位等参数。它产出800万VQA样本和3000个人工验证的测试集，覆盖场景感知、多视角推理和决策支持三个层级。评估11个前沿MLLM显示人类与模型间存在显著差距，尤其在拓扑和时空推理任务上。基于OmniTraffic模拟数据微调轻量级MLLM后，在真实场景中性能得到提升。

论文 OmniTraffic 交通推理 MLLM 多模态 3D重建

推荐理由：想研究交通场景的多模态推理？OmniTraffic提供了大规模可控数据集和基准，还能用模拟数据微调小模型提升真实表现，很实用。

原文

6月15日

11:13

arXiv cs.LG@Rohit Gandikota, David Bau

精选

论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头，其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads（少于全部9%）进行注意力掩码干预，能以83.1%的准确率引导模型描述指定的漫画面板，而随机干预无效。该干预同样适用于自然COCO图像，且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。

论文 VLM Gaze Heads 注意力头多模态模型可解释性

推荐理由：操控VLM输出，像翻漫画一样准

原文

11:13

arXiv cs.LG@Constanza A. Molina Catricheo, Simon Boeder, Ting-Jia Guo, Giacomo May, Clément Berthelot, Devis Tuia, Friedrich Fedor Reinhard, Fabio Remondino, Benjamin Risse

该研究发布了1.4 TB多模态无人机数据集，覆盖104棵含巢树木，包含27,945张RGB图像、111,780张多光谱图像及约7.81亿个3D点。语义分割基准测试中，Point Transformer V3在测试集上达到86.35% mIoU，优于KPConv和RandLA-Net。数据集结合光谱、空间与结构信息，可支持巢体积估计等生态应用，并为极端类别不平衡下的3D分割算法提供挑战性基准。

论文 NEST3D 多模态 3D分割语义分割数据集

推荐理由：生态数据集，3D分割新基准

原文

11:12

arXiv cs.AI@Hui Geng, Yi Su, Han Yin, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Hengzhu Liu, Xie Chen, Kele Xu

AudioDER是一个约19.1万样本的推理导向后训练数据集，覆盖声音、语音和音乐，每个样本包括音频、多选题、四个候选答案、音频描述和思维链推理。基于声学相似性去重提高多样性，并利用Qwen3-30B生成CoT推理解释。在MMAU-mini、MMSU、MMAR等基准上，使用Qwen2-Audio-7B-Instruct后训练持续提升性能。该数据集开源，旨在推动音频推理研究。

AI模型 AudioDER Qwen3-30B Qwen2-Audio-7B-Instruct 音频推理多模态

推荐理由：去重+CoT，提升音频模型推理能力

原文

11:10

arXiv cs.AI@Sicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu

ClinHallu是一个用于诊断医疗多模态大模型(MLLM)推理中分阶段幻觉的基准，包含7031个验证实例。每个实例的推理轨迹被分解为视觉识别、知识回忆和推理整合三个阶段。通过阶段替换干预，可测量纠正特定阶段对最终答案的影响。轨迹监督微调能有效减少阶段幻觉。该基准为诊断和缓解医疗MLLM推理错误提供了细粒度测试平台。

AI模型 ClinHallu MLLM 多模态幻觉诊断医疗AI

推荐理由：诊断医疗AI幻觉的利器

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:49

arXiv cs.AI@Zongsheng Cao, Bihao Zhan, Jinxin Shi, Jiong Wang, Fangchen Yu, Zhijie Zhong, Zijie Guo, Tianshuo Peng, Zhuo Liu, Yi Xie, Xiang Zhuang, Yue Fan, Runmin Ma, Shiyang Feng, Xiangchao Yan, Anran Liu, Peng Ye, Wenlong Zhang, Shufei Zhang, Chunfeng Song, Fenghua Ling, Jie Zhou, Liang He, Bo Zhang, Lei Bai

Agents-K1 是一个端到端的科学知识编排管线，能将原始论文转化为智能体可用的科学知识图谱。它包含多模态解析器、基于 GRPO 训练的 4B 信息提取模型和统一接口 CLI，覆盖实体、多模态证据、引用和关系。团队用该管线处理了 246 万篇论文，构建了 Scholar-KG 数据集，并开源了其中 100 万篇子集。实验表明，Agents-K1 在科学信息提取、知识图谱构建和多跳推理上表现优异。

论文知识图谱科学信息提取 Agents-K1 Scholar-KG 多模态

推荐理由：做科学知识图谱或文献挖掘的团队可以直接用这个开源管线，省去自己设计抽取流程的麻烦，尤其适合需要跨论文推理的科研场景。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:32

arXiv cs.AI@Litao Li, Yibo Yu, Yufeng Hu, Zhuo Yang, Jiali Wen, Yixin Chen, Yixi Zhou

精选

本文提出了针对2026年SoccerNet VQA挑战赛的解决方案。研究团队首先开发了一种由视觉语言模型驱动的低成本数据合成流程，将原始领域数据系统性地转化为多样化的VQA样本，包括简洁答案和长文本回答。其次，提出了MSUE架构，这是一种多专家问答架构，利用大语言模型动态地将问题分配给文本、图像和视频专家。这些专家分别由强大的文本基线Gemini3-Flash、微调的Qwen3-VL和外部知识库实例化，协同工作以提升VQA性能。MSUE在挑战基准上达到了0.95的准确率，在排行榜上获得第三名。

论文多模态 VQA 足球分析 SoccerNet 大语言模型

推荐理由：足球视频分析团队和体育AI研究者可以借鉴其低成本数据合成和多专家协作架构，直接提升VQA任务的准确率，值得关注。

原文

09:51

arXiv cs.AI@Shang Ma, Jisheng Dang, Wencan Zhang, Yifan Zhang, Bimei Wang, Hong Peng, Bin Hu, Qi Tian, Tat-Seng Chua

精选

研究者提出了一种名为 MODF-SIR 的多智能体协作框架，基于轻量级多模态大语言模型，专门用于社交智能推理。该框架通过知识蒸馏增强训练和推理阶段，能够精确定位多模态社交数据，并提取长尾事件以格式化文本呈现，避免关键信息被噪声淹没。它集成了测试时自适应（TTA）、思维链提示和自反思机制，并利用 LoRA 微调基础模型。在多个基准测试中，仅用约 30% 的训练数据就达到了最先进的结果。代码、演示和模型均已开源。

论文多智能体知识蒸馏社交智能推理多模态 LoRA

推荐理由：社交智能推理是 AI 理解人类互动的关键，MODF-SIR 用轻量模型和蒸馏技术解决了长尾事件被忽略的痛点，做多模态社交分析或人机交互的团队可以直接用开源代码复现。

原文

6月10日

10:07

arXiv cs.AI@Peiqi Jia, Haonan Jia, Ziqi Miao, Linkang Du, Yuntao Wang, Zhou Su

精选

该论文首次在视觉语言模型（MLLMs）中引入显式人格条件，建立了涵盖单人格诱导、多人格诱导和人格切换的系统评估框架。实验发现，人格诱导能提升图像描述性能，但会损害需要精确推理的任务（如视觉问答）。多人格组合和动态切换时存在平衡与残留效应，模型行为受前后人格约束共同调节。现有基于提示的人格诱导方法在多模态场景下迁移性有限。研究揭示了MLLMs人格建模的动态复杂性，呼吁开发更鲁棒、定制化的方法。

论文视觉语言模型人格建模多模态行为控制评估框架

推荐理由：做多模态AI行为控制或社交机器人开发的团队，这篇论文揭示了人格诱导对推理能力的意外损害，值得在模型部署前仔细评估。

原文

09:10

arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

精选76°

快手发布Keye-VL-2.0-30B-A3B，一个基于MoE架构的开源多模态基础模型，专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构，实现无损256K上下文处理，能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏（MOPD）和上下文/视频强化学习，解决了多任务对齐中的灾难性遗忘问题，仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中，Keye-VL-2.0在相似规模模型中达到最优性能，尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。

AI模型开源/仓库 MoE 长视频理解智能体多模态

推荐理由：长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文，做视频分析或智能体应用的团队可以直接下载权重试试。

原文

6月9日

11:01

arXiv cs.AI@Luciano Duarte, Olga Ovcharenko, Sebastian Schelter

精选

数据库社区缺乏结合表格、文本和图像的大规模真实数据集。研究者从大都会艺术博物馆、芝加哥艺术博物馆和荷兰国立博物馆收集了651045条博物馆记录，构建了多模态文化遗产数据集ArtiFact。该数据集包含130209条注入七类错误（如材料时代错乱、时间偏移）的记录，用于跨模态错误检测任务。实验表明，当前系统难以检测领域特定的细微错误，且在语义查询处理中，对文化邻近性、模糊对象类型和历史术语的查询表现不佳。ArtiFact为多模态数据管理研究提供了具有挑战性的基准。

论文多模态数据集/基准文化遗产错误检测语义查询

推荐理由：做多模态数据管理、文化遗产数字化或数据质量研究的团队，这个真实世界的大规模基准能帮你测试模型在细粒度错误检测和语义查询上的真实水平，值得跑一跑。

原文

10:38

arXiv cs.AI@Jonathan F. Carter, Lionel Tarassenko

精选

该研究提出 Hypnos，一个多模态睡眠基础模型，使用来自 2 万多次夜间多导睡眠监测的 8 种传感模态（如 EEG、ECG、呼吸信号）训练。与现有使用掩码重建或对比学习的方法不同，Hypnos 采用下一词预测作为自监督目标，通过残差向量量化将每种模态离散化为 token 流，并用自回归 RQ-Transformer 并行预测所有模态的下一个 token。在睡眠阶段分类任务中，Hypnos 仅用 1% 的标注数据就达到了强监督基线的性能，还能泛化到日间生理信号，在检测房颤上超越专门的 ECG 基础模型。结果表明，下一词预测是多模态生理信号表征学习的有效且可扩展的自监督目标。

论文基础模型睡眠生理学多模态下一词预测自监督学习

推荐理由：睡眠医学和生理信号分析的研究者终于有了一个无需大量标注数据就能学到通用表征的基础模型——Hypnos 用下一词预测解决了多模态生理数据的学习难题，做睡眠分期或房颤检测的团队可以直接用它生成嵌入，大幅降低标注成本。

原文

09:36

arXiv cs.AI@Xuanyi Liu, Deyi Ji, Junyu Lu, Jing Wang, Qianxiong Xu, Xuhang Chen, Tianrun Chen, Siwei Ma

精选

FaithRewriter 是一种新的提示增强框架，旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性，但缺乏视觉基础，容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索，然后将该图像与提示结合输入大规模语言模型，生成视觉上更合理的增强内容。最后，这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明，FaithRewriter 生成的提示更忠实于用户意图，视觉上更合理，有效缩小了意图-生成差距。

论文文生图提示增强 FaithRewriter 多模态视觉锚点

推荐理由：做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题，生成的提示更贴近用户真实意图，值得在项目中尝试集成。

原文

6月4日

10:34

arXiv cs.AI@Jingyuan Chen, Sheng Jin, Haopeng Sun, Wentao Liu, Chen Qian

UniCAD 是一个面向计算机辅助设计（CAD）的多模态学习基准，涵盖点云到CAD重建、文本/图像到CAD生成以及CAD问答等任务。同时提出的 UniCAD-MLLM 是一个通用多模态大语言模型，能端到端处理文本、图像、草图和点云，在单一框架内完成异构任务。实验表明，UniCAD-MLLM 在 UniCAD 和 Fusion360 基准上均达到最先进水平，超越现有任务专用和多任务基线。该工作填补了CAD领域缺乏统一多模态基准的空白，将开源数据集、代码和预训练模型。

论文 CAD 多模态基准大语言模型 3D重建

推荐理由：CAD 研究者终于有了统一的多模态基准和通用模型，做3D设计、CAD生成或问答的团队可以直接用 UniCAD-MLLM 替代多个专用模型，建议关注开源资源。

原文

6月3日

10:17

arXiv cs.AI@Senjie Jin, Peixin Wang, Boyang Liu, Xiaoran Fan, Shuo Li, Zhiheng Xi, Jiazheng Zhang, Yuhao Zhou, Tao Gui, Qi Zhang, Xuanjing Huang

精选

研究发现，在视觉推理任务中，仅依赖令牌级熵进行强化学习（RLVR）会失效，因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量，要么忽视熵主要驱动语义探索。为此，研究者提出VEPO框架，通过视觉敏感性与令牌熵的乘法耦合，将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明，VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点，消融实验验证了方法的有效性。

论文强化学习视觉推理令牌选择多模态 VEPO

推荐理由：视觉推理强化学习一直缺乏有效的信用分配机制，VEPO解决了这个痛点——做多模态RL的团队可以直接参考这个框架，在视觉-语义交叉场景中提升模型表现。

原文

6月2日

11:12

arXiv cs.AI@Stefano Samele, Eugenio Lomurno, Teodora Jovanovic, Sanjay Shivakumar Manohar, Alberto Crivellaro, Matteo Matteucci

工业异常检测领域近年引入多模态视觉语言模型，声称可通过文本指令实现零样本或少样本检测。但现有评估方法沿用单模态基准，无法验证模型是否真正依赖文本条件。本文提出TGAD结构化基准，通过三个递进场景测试：MVTec AD上的提示敏感性测试、组件级标注扩展、以及新构建的组装面板数据集APD。测试发现，三种代表性模型（生成式大视觉语言模型、无训练判别式、嵌入自适应判别式）均仅表面响应文本指令：移除物体名词后生成模型I-AUROC从97.4降至82.6；组件指令无法约束决策；在APD上图像级判别甚至低于随机水平（最低31.5）。结果表明当前多模态异常检测系统的文本引导能力被高估，需要此类基准才能实现工业部署所需的可靠语言控制。

论文异常检测多模态基准测试视觉语言模型工业检测

推荐理由：做工业视觉检测的团队会发现，当前号称支持文本引导的模型其实并不听指令——TGAD基准直接戳破了这个泡沫，建议点开看看你的模型是否真的被语言控制。

原文

11:12

arXiv cs.AI@Xinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu

网络上有大量多模态、异构、嘈杂的程序性知识，但直接用于智能体执行长周期任务效果不佳。研究者提出 guide-to-skill 学习问题，并发布首个基准 MMG2Skill-Bench。他们设计的闭环框架 MMG2Skill 能将人类指南编译为可编辑技能，在执行时条件化固定视觉语言模型，并通过轨迹级根因反馈持续修正技能。在 GUI 控制、开放游戏和策略卡牌等六个 VLM 骨干上，该方法比基线提升 12.8 到 25.3 个百分点。消融实验表明，直接提示原始指南反而会降低性能，而结构化技能构建和轨迹驱动修正是关键。

论文智能体技能蒸馏多模态长周期任务闭环学习

推荐理由：做智能体长任务规划的团队终于有了把网络教程变成可执行技能的方案——MMG2Skill 直接解决了指南与技能之间的鸿沟，做 GUI 自动化或游戏 AI 的开发者可以试试这个闭环框架。

原文

6月1日

10:24