精选 AI 资讯 · AI 热点

AITOP

7月6日

12:01

AITOP7月6日 12:01

AI巨头瞄准'无利可图'疾病，颠覆传统制药逻辑

6月23日

13:55

Geek@geekbb

精选

百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目，支持一次性解析超长文档。该模型提供两种推理模式：gundam模式用于处理单张图片中的密集文字，base模式适用于多页文档或PDF。项目代码已在GitHub上发布，允许开发者直接使用。

AI模型百度 DeepSeek-OCR 视觉语言模型 OCR 开源模型

推荐理由：百度开源的OCR模型，在DeepSeek-OCR上做了升级，能一次性处理超长文档和密集文字，两种模式很实用。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:30

官方账号arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu

精选

视觉语言模型（VLM）将图像投影为数百到数千个视觉令牌，导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式，永久丢弃低分令牌。但研究发现，视觉令牌的重要性会随解码器深度变化，早期低分令牌可能在后续层变得重要。为此，研究者提出Reroute，一种无需训练的插件，将移除改为可恢复路由：被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上，在LLaVA-1.5和Qwen骨干上，在激进令牌缩减下提升了接地性能，同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由，而非不可逆修剪。代码已开源。

论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库

推荐理由：VLM推理成本高是实际部署的痛点，Reroute用零训练代价解决了令牌缩减中信息丢失的问题，做多模态模型优化或部署的团队可以直接集成到现有方案中，值得一试。

原文

6月10日

11:32

官方账号arXiv cs.AI@Mahmood Alzubaidi, Uzair Shah, Raden Muaz, Ines Abbes, Nader Mohammed, Abdullatif Magram, Khalid Alyafei, Mowafa Househ, Marco Agus

精选

FADA 是一个基于 Qwen3.5-VL 构建的统一视觉语言模型，能够通过单一流程完成胎儿超声图像的临床解读、分类、检测和分割，无需外部标签。它通过选择性蒸馏技术从四个领域专用基础模型中提取知识，在分割任务上达到 0.8820 平均 Dice，检测 mAP@0.50 为 0.7671，解读合规率 100%。专家验证显示，在 237 张图像上，临床指导模式下 73.5% 的解读获得满分。该系统可在单张消费级 GPU 上训练，并能在搭载骁龙 7 Gen 1 的智能手机上离线运行完整流程约 60 秒，为资源受限地区的产前超声筛查提供了可行方案。

AI模型 FADA Qwen3.5-VL 胎儿超声视觉语言模型边缘部署

推荐理由：FADA 解决了中低收入国家超声技师短缺导致的产前筛查缺口，做医疗 AI 或边缘部署的团队可以直接在手机上跑完整流程，值得关注其开源代码和模型。

原文

10:07

官方账号arXiv cs.AI@Peiqi Jia, Haonan Jia, Ziqi Miao, Linkang Du, Yuntao Wang, Zhou Su

精选

该论文首次在视觉语言模型（MLLMs）中引入显式人格条件，建立了涵盖单人格诱导、多人格诱导和人格切换的系统评估框架。实验发现，人格诱导能提升图像描述性能，但会损害需要精确推理的任务（如视觉问答）。多人格组合和动态切换时存在平衡与残留效应，模型行为受前后人格约束共同调节。现有基于提示的人格诱导方法在多模态场景下迁移性有限。研究揭示了MLLMs人格建模的动态复杂性，呼吁开发更鲁棒、定制化的方法。

论文视觉语言模型人格建模多模态行为控制评估框架

推荐理由：做多模态AI行为控制或社交机器人开发的团队，这篇论文揭示了人格诱导对推理能力的意外损害，值得在模型部署前仔细评估。

原文

6月5日

12:39

官方账号arXiv cs.LG@Tengfei Zhang, Ziheng Zhao, Lisong Dai, Xiaoman Zhang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Weidi Xie

精选

该研究提出了一个实体感知的跨图像比较推理框架 MedReCo，用于解决放射科实践中依赖前后对比和参考病例的诊断需求。研究构建了 MedReCo-DB 大规模数据集，包含来自 8 家机构、4 个国家、7 种影像模态的 69 万张图像，并将报告分解为解剖结构、异常发现和病理条件。基于此，开发了用于可控检索的 MedReCo 编码器和用于生成式比较解读的 MedReCo-VLM 视觉语言模型。在内部、外部和跨中心评估中，MedReCo 在 12 项内部检索设置中均取得最高 Recall@1，外部检索平均提升 6 个百分点；MedReCo-VLM 在比较生成评估中全面最优，纵向随访准确率提升 14.5-46.5 个百分点（胸片）和 13.0-27.9 个百分点（CT）。这表明实体感知的比较推理可从常规临床数据中大规模学习，为医学影像 AI 提供更贴近临床的范式。

论文医学影像比较推理视觉语言模型检索放射科

推荐理由：放射科医生和医学影像 AI 研究者终于有了一个能真正做前后对比和参考病例检索的框架——MedReCo 在 12 项检索任务中全胜，做临床 AI 落地的团队值得关注。

原文

6月4日

12:49

Fireworks AI@FireworksAI_HQ

精选72°

Step 3.7 Flash 是阶跃星辰（StepFun）发布的 198B 稀疏 MoE 视觉语言模型，专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器，支持原生多模态理解和行动，可靠工具使用，以及增强的网页和视觉搜索。在真实智能体工作负载下，推理速度可达 400 tok/sec，并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。

AI模型视觉语言模型稀疏MoE 推理效率智能体 StepFun

推荐理由：多数实验室事后才考虑推理效率，而 Step 3.7 Flash 从设计之初就为推理优化，做智能体应用和视觉语言模型的开发者可以直接试用，感受 400 tok/sec 的流畅体验。

原文

6月3日

10:43

官方账号arXiv cs.LG@Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo, Alexander Robey, Na Li, Yebin Wang, Changliu Liu

精选

VLESA 是一个面向具身 AI 的安全框架，通过分析第一人称视频实时预测危险动作并触发干预。它解决了“意图依赖的安全”问题——相同动作在不同情境下可能安全或危险。研究团队引入了配对第一人称帧与目标条件安全标注的数据集，并训练了基于 GRPO 的目标条件安全 Q 过滤器，无需重新训练即可评估动作安全性。在 ASIMOV-2.0 基准上，VLESA 在精确帧上实现了更高的干预准确率，GRPO 训练的 Q 过滤器通过目标条件约束解码将动作安全性提升了超过 41 个百分点。代码已开源。

论文具身智能安全监控视觉语言模型 GRPO 开源/仓库

推荐理由：做具身 AI 安全或人机协作的团队，VLESA 提供了一个可落地的实时安全监控方案，能根据上下文判断危险动作，建议直接看论文和代码。

原文

6月2日

09:42

官方账号arXiv cs.AI@Bingyu Li, Da Zhang, Tao Huo, Zhiyuan Zhao, Junyu Gao, Xuelong Li

精选

多时序指代分割（MTRS）是一项新任务，要求模型从多时序图像中分割出语言描述的时间变化。研究团队提出了CRAFT-Agent自动化数据构建流程，并构建了首个基准MTRefSeg-21K，包含2.1万高质量三元组。现有视觉语言模型在该任务上表现不佳，为此团队提出了MTRefSeg-R1框架，采用两阶段训练策略，先学习通用时序变化感知，再微调实现细粒度语言引导定位。实验表明，MTRefSeg-R1显著优于现有基线，揭示了多时序视觉推理的挑战与潜力。

论文多时序推理指代分割视觉语言模型基准数据集变化检测

推荐理由：做多模态视觉推理或时序变化检测的团队，这个新基准和基线模型值得关注——它填补了LVLM在时序推理上的空白，可以直接用来评估和提升模型能力。

原文

6月1日

10:38

官方账号arXiv cs.AI@Arnau Marin-Llobet, Simon Henniger, Mahzarin R. Banaji

精选

研究发现，视觉语言模型（VLM）在处理性别模糊的图像（如全副武装的工人、背影）时，即使内部编码了女性关联，输出仍倾向于男性，尤其在传统女性职业上表现明显。研究者提出零样本指标LALS，通过将视觉token激活投影到文本嵌入空间，逐层测量概念关联。实验覆盖15个职业、800多张模糊图像和4个VLM，发现模型内部存在不对称过滤：男性信号从头到尾增强，女性信号在中间层达到峰值后被压制。服装颜色等文化线索会进一步调节内部关联。这项研究揭示了VLM在模糊输入下的性别偏见机制，对AI公平性评估有重要启示。

论文视觉语言模型性别偏见 LALS 模型对齐公平性

推荐理由：做AI公平性研究或模型对齐的团队，这篇论文直接戳破了VLM在模糊输入下的性别偏见黑箱——LALS方法让你能逐层看到模型内部编码与输出的脱耦，建议做模型审计的开发者点开看看具体实验设计。

原文

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月26日

11:49

官方账号arXiv cs.AI@Xinrui Shi, Kai Liu, Ziqing Zhang, Jianze Li, Anqi Li, Yulun Zhang

精选

轻量级视觉语言模型在标准基准上表现不错，但在需要多步推理的密集场景中（如多个物体、属性、关系）系统性地失败。为此，研究者首先构建了DRBench基准，包含14,573个问题、2,943张图像，覆盖5类任务和3个推理层次。然后提出DRScaffold框架，通过将监督目标分解为四个因果有序阶段，在不改动模型架构的情况下强制进行有依据的推理。实验表明，使用DRScaffold训练的Qwen2.5-VL-3B在DRBench上超越了冻结的Qwen2.5-VL-32B，证明结构化监督可以替代大量模型规模。代码和模型已开源。

论文视觉语言模型密集场景推理 DRBench DRScaffold Qwen2.5-VL

推荐理由：轻量级VLM在复杂场景中经常胡编乱造，DRScaffold用结构化监督解决了这个痛点，做视觉推理或部署小模型的团队可以直接用它的框架和基准来提升可靠性。

原文

5月25日

11:18

官方账号arXiv cs.AI@Jiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong

精选

PhotoFlow 提出了一种基于智能体的虚拟摄影框架，能够在无预设相机位姿或参考图像的情况下，根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块，通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准，包含47个场景和141个语言条件摄影任务。实验表明，PhotoFlow 在六轮渲染预算下，成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。

论文智能体 3D场景理解虚拟摄影视觉语言模型闭环搜索

推荐理由：做3D场景理解或自动摄影的团队，PhotoFlow 把语言指令到相机参数的全流程打通了，可以直接用它的闭环搜索思路提升自己的渲染管线。

原文

11:13

官方账号arXiv cs.AI@Jianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu

精选

该研究通过SpaceNum框架系统评估了视觉语言模型（VLMs）在空间数值理解上的表现，包括动态探索和静态布局两种场景。实验发现，当前VLMs在将视觉空间结构与语言数值表示进行映射时，表现接近随机猜测，严重依赖浅层空间线索。模型难以建立稳定的坐标感知表示，也无法从视觉观察中抽象出结构化空间布局。即使加入显式推理或微调，提升也有限。这项研究揭示了VLMs在具身环境中输出数值（如动作幅度、空间坐标）时，可能并未真正理解其空间含义。

论文视觉语言模型空间推理数值理解具身智能基准测试

推荐理由：做具身智能或空间推理的开发者会发现，当前VLMs的数值输出可能只是“看起来对”，实际缺乏空间感知——这项研究用严谨实验戳破了这个盲区，值得关注。

原文

5月21日

11:21

官方账号arXiv cs.AI@Yakun Yu, Ashley Wiens, Adrián Barahona-Ríos, Benedict Wilkins, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer

精选

现有视觉语言模型（VLM）在游戏故障检测评估中，大多将故障视为静态视觉异常，忽略了时间性故障——这类故障需通过帧间变化才能识别。研究者提出TempGlitch基准，包含五种时间性故障类型及配对的无故障视频，用于系统评估。对12个开源和闭源VLM的测试显示，当前模型在TempGlitch上表现接近随机，要么过于保守漏检，要么过于敏感误报。增加帧采样密度或模型规模并不能可靠解决这些问题。该基准为时间推理、游戏理解和自动化故障检测提供了聚焦测试平台。

论文视觉语言模型游戏QA 故障检测时间推理基准测试

推荐理由：游戏QA团队和VLM研究者终于有了专门测试时间性故障的基准——当前模型表现接近随机，说明这是个硬骨头，做自动化测试的值得关注。

原文

09:46

官方账号arXiv cs.AI@Yutong Xie, Zhenglin Hua, Ran Wang, Wing W. Y. Ng, Xizhao Wang, Yuheng Jia

精选

大型视觉语言模型（LVLMs）在视觉语言任务中表现出色，但仍易产生与视觉内容不一致的幻觉。研究发现，幻觉源于模型对正确视觉证据关注不足，并在生成过程中逐渐遗忘。作者提出基于层间视觉注意力差异（ILVAD）的无需训练方法，通过识别并增强对视觉证据的注意力，同时选择与视觉证据强相关的文本token进行强调。在五个最新模型上的多项基准测试中，该方法一致地缓解了幻觉，且即插即用。代码已开源。

论文幻觉缓解视觉语言模型注意力机制无需训练开源/仓库

推荐理由：做LVLM幻觉研究的开发者可以直接用这个无需训练的方法来提升模型可靠性，代码已开源，值得一试。

原文

5月20日

16:00

官方账号arXiv cs.AI@Zhefan Xu, Ghassen Jerfel, Marina Haliem, Qi Zhao, Jeonhyung Kang, Khaled S. Refaat

精选

本文提出 VL-DPO 框架，利用视觉语言模型（VLM）作为零样本推理器，自动从预训练模型的轨迹输出中生成偏好对，再通过直接偏好优化（DPO）微调运动预测模型，使其与人类驾驶偏好对齐。在 Waymo Open End-to-End Driving Dataset 上实验表明，VLM 的轨迹选择可作为人类偏好的高质量代理，最终模型在评分反馈（RFS）上提升 11.94%，平均位移误差（ADE）降低 10.01%。该方法解决了标准模仿学习难以捕捉人类驾驶偏好细微差异的问题，为自动驾驶行为决策提供了新的对齐思路。

论文自动驾驶偏好对齐视觉语言模型直接偏好优化运动预测

推荐理由：自动驾驶团队终于有了一个自动对齐人类偏好的实用方法——用 VLM 生成偏好对再微调，比手工标注高效太多，做运动预测或决策规划的开发者值得一试。

原文

09:43

09:43IT之家（博客/媒体）

精选

微信AI团队模式识别中心在ICASSP 2026上凭借论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》获得最佳工业论文奖，这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出WalkVLM-LR模型，专为视障人士行走辅助设计，核心创新在于减少输出冗余和时间冗余，解决“何时该提醒”的问题。目前延迟控制在百毫秒量级，实时性已较可用，但仍有优化空间。该成果标志着中国企业在信号处理领域的技术突破。

论文视觉语言模型信号处理微信AI ICASSP 视障辅助

推荐理由：微信AI团队解决了视障辅助场景中VLM“说太多”和“说太频繁”的痛点，做AI助残或边缘端VLM的开发者可以关注其减少冗余的思路，实时性已接近可用，值得点开了解技术细节。

原文

5月19日

11:42

官方账号arXiv cs.AI@Junming Liu, Yuqi Li, Yifei Sun, Maonan Wang, Piotr Koniusz, Yirong Chen, Ding Wang

精选

视觉语言模型（VLM）在空间推理上仍存在脆弱性，即使能正确回答原始输入，也可能在变换后失败。为此，研究者提出SAGE（Spatial Alignment via Geometric Evolution），一种自进化框架，通过几何和语言对偶操作强制VLM保持逻辑一致性。SAGE将一致性作为GRPO训练的辅助奖励，并动态调整操作池以聚焦最具信息量的信号。该方法模型无关、数据高效，可作为轻量后训练阶段应用于任何VLM。实验表明，SAGE在视频和空间推理基准上持续优于强基线，并提升了对未见数据的泛化能力。

论文空间推理视觉语言模型自进化训练逻辑一致性 GRPO

推荐理由：空间推理是VLM的硬伤，SAGE用自进化训练解决了这个痛点，做多模态模型训练或空间理解应用的团队可以直接参考方法。

原文

11:28

官方账号arXiv cs.AI@Pawat Chunhachatrachai, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu

精选

SpatioRoute 是一种无需训练或微调的动态提示生成方法，用于提升视觉语言模型在零样本设置下对第一人称视频的空间问答能力。它通过规则或大语言模型驱动的路由，将每个问题映射到语义定制的提示模板，在 SQA3D 基准上相比固定提示基线提升高达 5% 的准确率，且无需 3D 点云输入。研究还发现，链式思维提示在 Qwen 系列模型上反而会降低性能，表明问题感知路由比统一推理指令更有效。

论文零样本推理空间问答提示工程视觉语言模型 SQA3D

推荐理由：做零样本视频空间推理的团队终于有了一个即插即用的提升方案——SpatioRoute 无需额外训练就能涨点 5%，做 VLM 应用的开发者可以直接在 SQA3D 上试试。

原文

5月18日

11:50

官方账号arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu

精选

VLA-AD提出一种蒸馏框架，利用视觉语言模型作为离线语义监督器，将大型VLA教师模型（如OpenVLA-7B）压缩为轻量级学生策略（158M参数），模型大小减少44倍，推理速度提升3.28倍（12.5 Hz on RTX 4090），性能仅下降0.27%。该方法不仅模仿底层动作，还引入任务阶段锚点和多帧操作方向描述等高层语义信号，仅在训练时使用，测试时学生策略独立运行。在LIBERO基准测试中，VLA-AD对π0.5-4B教师也有效，学生策略在部分任务上甚至超越教师。额外分析表明，语义引导使学生对教师动作噪声（如高频夹爪误操作）更鲁棒。

论文 VLA策略模型蒸馏机器人操控视觉语言模型推理加速

推荐理由：做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型，7B教师变158M学生，速度3倍提升且性能几乎无损，做实时闭环控制的开发者可以直接参考。

原文