全部 AI 动态 · AI 热点

6月15日

11:13

arXiv cs.LG@Rohit Gandikota, David Bau

精选

论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头，其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads（少于全部9%）进行注意力掩码干预，能以83.1%的准确率引导模型描述指定的漫画面板，而随机干预无效。该干预同样适用于自然COCO图像，且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。

论文 VLM Gaze Heads 注意力头多模态模型可解释性

推荐理由：操控VLM输出，像翻漫画一样准

原文

11:13

arXiv cs.LG@Constanza A. Molina Catricheo, Simon Boeder, Ting-Jia Guo, Giacomo May, Clément Berthelot, Devis Tuia, Friedrich Fedor Reinhard, Fabio Remondino, Benjamin Risse

该研究发布了1.4 TB多模态无人机数据集，覆盖104棵含巢树木，包含27,945张RGB图像、111,780张多光谱图像及约7.81亿个3D点。语义分割基准测试中，Point Transformer V3在测试集上达到86.35% mIoU，优于KPConv和RandLA-Net。数据集结合光谱、空间与结构信息，可支持巢体积估计等生态应用，并为极端类别不平衡下的3D分割算法提供挑战性基准。

论文 NEST3D 多模态 3D分割语义分割数据集

推荐理由：生态数据集，3D分割新基准

原文

11:12

arXiv cs.AI@Hui Geng, Yi Su, Han Yin, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Hengzhu Liu, Xie Chen, Kele Xu

AudioDER是一个约19.1万样本的推理导向后训练数据集，覆盖声音、语音和音乐，每个样本包括音频、多选题、四个候选答案、音频描述和思维链推理。基于声学相似性去重提高多样性，并利用Qwen3-30B生成CoT推理解释。在MMAU-mini、MMSU、MMAR等基准上，使用Qwen2-Audio-7B-Instruct后训练持续提升性能。该数据集开源，旨在推动音频推理研究。

AI模型 AudioDER Qwen3-30B Qwen2-Audio-7B-Instruct 音频推理多模态

推荐理由：去重+CoT，提升音频模型推理能力

原文

11:10

arXiv cs.AI@Sicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu

ClinHallu是一个用于诊断医疗多模态大模型(MLLM)推理中分阶段幻觉的基准，包含7031个验证实例。每个实例的推理轨迹被分解为视觉识别、知识回忆和推理整合三个阶段。通过阶段替换干预，可测量纠正特定阶段对最终答案的影响。轨迹监督微调能有效减少阶段幻觉。该基准为诊断和缓解医疗MLLM推理错误提供了细粒度测试平台。

AI模型 ClinHallu MLLM 多模态幻觉诊断医疗AI

推荐理由：诊断医疗AI幻觉的利器

原文

6月14日

07:21

宝玉的分享@宝玉

文章指出 Claude Design 的核心能力在于模型能同时处理 UI/UX、数据结构、状态管理和交互逻辑，而非依赖 Harness 工具。Codex 目前缺乏类似产品，因为其模型在跨领域整合上存在差距。作者分析认为，Codex 需要提升模型对多模态和逻辑的协同处理能力，才能推出类似产品。

AI模型 Codex Claude Design 多模态 UI/UX 模型能力

推荐理由：分析 Codex 与 Claude Design 的差距

原文

01:21

Decoder@Jonathan Kemper

Count Anything 是首个能通过文本提示计数任意图像中物体的 AI 模型，在对比测试中将错误率降低 50%。该模型可处理从人群到显微镜下细胞样本等场景，但在极度密集物体和模糊术语上仍有困难。

AI模型 Count Anything 计数模型多模态图像分析

推荐理由：计数准确率翻倍

原文

6月13日

22:23

rohanpaul_ai@rohanpaul_ai

精选73°

Nvidia 推出 Cosmos 3，一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言，把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计，让机器人能连接所见与可能发生的事，并决定下一步行动。论文显示，Cosmos 3 可基于视频推断动作，或与未来场景一同生成动作，从而解决机器人抓取、滑动等物理交互问题。

论文 Cosmos 3 Nvidia 物理AI 多模态动作标记

推荐理由：Nvidia 让机器人学会动作语言

原文

17:51

17:51IT之家（博客/媒体）

科大讯飞在2026长三角机器人及自动化展览会上发布星火多模态大模型 X2-VL，这是当前唯一基于全国产算力训练的主流大模型，采用专属 MoE 架构。该模型基于无锡本地算力平台太湖星跃平台加速训练。在高中各科图文试题测试中，X2-VL 答题准确率接近95%。在挑战2026年高考数学全国I卷中，X2-VL 获得148分，超过模型A（144分）和模型B（143分）。

AI模型星火X2-VL 科大讯飞多模态国产算力 MoE架构

推荐理由：国产算力训练的模型，高考数学148分

原文

17:22

量子位@一水

精选

Jiuwen Symbiosis是一个将AI Agent与物理实体结合的框架，通过整合传感器、执行器和实时控制，使Agent能直接与环境交互。该框架在工业机器人测试中实现了90%的任务完成率，相比传统方案提升30%。它支持多模态感知（视觉、触觉、力觉）和动态规划，已在仓储物流场景中部署。实践表明，这种具身智能系统能有效处理非结构化环境中的复杂操作。

AI模型 Jiuwen Symbiosis 智能体具身智能多模态工业机器人

推荐理由：让AI Agent动起来干活

原文

13:23

13:23IT之家（博客/媒体）

6月12日，MiniMax 开源了新一代原生多模态旗舰模型 M3。同日，摩尔线程宣布其旗舰级 AI 训推一体智算卡 MTT S5000 已完成对该模型的 Day-0 适配。MTT S5000 凭借硬件级原生 FP8 加速，单卡 AI 算力（稠密）高达 1000 TFLOPS，配备 80GB 显存与 1.6TB/s 带宽，支撑百万 token 级长序列。适配通过原生算子定制提升推理吞吐并降低延迟，同时同步拉起 vLLM 与 SGLang 两大推理框架。

AI模型 MiniMax M3 摩尔线程 MTT S5000 多模态推理框架

推荐理由：摩尔线程让国产模型跑得更快

原文

13:16

MiniMax_AI@MiniMax_AI

MiniMax 在 X 上感谢 SambaNovaAI 的合作，并表达了对 M3 模型在 SambaNova 的 RDU（可重构数据流单元）上运行的期待。M3 是 MiniMax 开发的多模态模型，SambaNovaAI 提供专用硬件加速。这一合作旨在提升 M3 的推理效率。

行业 MiniMax SambaNovaAI M3 RDU 多模态

推荐理由：MiniMax 的 M3 要上 SambaNova 的 RDU 了

原文

13:05

MiniMax_AI@MiniMax_AI

UnslothAI 支持在本地运行 MiniMax 的 M3 模型，用户可通过其优化工具进行部署。M3 是 MiniMax 发布的多模态模型，支持文本、图像和音频处理。UnslothAI 提供高效的本地推理方案，降低硬件门槛。

AI模型 M3 MiniMax UnslothAI 多模态本地部署

推荐理由：用UnslothAI本地跑M3

原文

11:02

MiniMax_AI@MiniMax_AI

MiniMax 的 M3 模型已上线 Fireworks AI 平台，提供快速推理服务。M3 支持长时智能体、全仓库理解和多模态编程功能。用户现可在 Fireworks AI 上直接尝试 M3 模型。

AI产品 MiniMax M3 Fireworks AI 多模态编程助手

推荐理由：MiniMax M3 上线 Fireworks，推理快

原文

10:58

MiniMax_AI@MiniMax_AI

MiniMax 的 M3 模型已集成至 FactoryAI 的 droid 平台。M3 是 MiniMax 于 2025 年 1 月发布的混合专家模型，拥有 4560 亿参数，支持 400 万 token 上下文窗口。该模型在多个基准测试中表现优异，例如在 MMLU 上达到 90.8% 准确率。此次上线意味着开发者可通过 FactoryAI 的机器人平台直接调用 M3 进行推理任务。

AI产品 MiniMax M3 FactoryAI droid 多模态

推荐理由：M3 模型上线机器人平台

原文

10:55

MiniMax_AI@MiniMax_AI

精选

MiniMax 发布 M3 模型，总参数量约 428B，激活参数约 23B。该模型在编码、长周期智能体和原生多模态（文本、图像、视频）任务上表现优异，支持 1M token 上下文长度。M3 以开源权重形式发布，在 Baseten 平台可运行。

AI模型 MiniMax M3 开源模型多模态智能体

推荐理由：开源模型能打编码和多模态

原文

10:53

Together AI@togethercompute

精选

MiniMax 发布开源权重原生多模态模型 MiniMax-M3，具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴，通过推理优化在并发场景下实现高达 125% 的吞吐量提升。

AI模型 MiniMax-M3 Together AI 多模态开源模型 1M上下文

推荐理由：MiniMax 新模型上线，吞吐量提升 125%

原文

10:40

AI Will@FinanceYF5

Fable模型在测试中成功生成等时线旅行地图，需查询数千条路线并综合飞机、火车、驾车、步行多种交通方式。此前所有模型均无法完成此复杂任务。Fable仅需一个提示即可开始处理。该测试展示了Fable在复杂规划任务上的能力。

AI模型 Fable 等时线地图智能体多模态

推荐理由：Fable能搞定别人做不了的地图

原文

10:02

pandaily@contact@pandaily.com (Pandaily)

精选

华为在HDC 2026上推出HarmonyOS 7开发者测试版，系统从应用平台转型为智能任务平台。新架构以Agent为核心，支持任务自动编排与跨设备协同。开发者可通过ArkTS语言和API构建智能体，实现语音、视觉等多模态交互。HarmonyOS 7计划于2026年第三季度正式商用。

AI产品 HarmonyOS 7 华为智能体多模态开发者测试版

推荐理由：华为系统全面转向智能体

原文

09:47

09:47IT之家（博客/媒体）

精选

华为云与MiniMax达成深化合作，基于昇腾算力底座为M3模型提供Tokens算力支持。M3采用MSA注意力架构，支持1M超长上下文，是原生多模态模型，可处理图片、视频输入并操作电脑桌面。在SWE-Bench Pro上，M3超过GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7；在SVG-Bench上超过Opus 4.7；在OmniDocBench上超过Gemini 3.1 Pro；在Claw-Eval上获得最高分。华为云通过昇腾算力优化MSA算子和MOE均衡，保障M3大规模推理性能。

AI模型 MiniMax M3 华为云昇腾多模态

推荐理由：华为云联手MiniMax，M3多模态模型开源

原文

6月12日

22:18

LMSYS Org (SGLang)@lmsysorg

73°

SGLang 宣布 Day-0 支持 MiniMax-M3，这是 MiniMax 推出的原生多模态 MoE 推理模型，总参数量约 428B（活跃参数约 23B），支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制，在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速，每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能，并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。

AI模型 SGLang MiniMax-M3 多模态 MoE 推理模型

推荐理由：SGLang 第一时间支持 MiniMax-M3，做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速，编码和智能体任务表现值得一试。

原文

15:45

Hailuo AI@Hailuo_AI

MiniMax 发布了 Hub，一个本地 AI Agent 创意工作站，支持从研究、脚本、图像、音乐到最终剪辑的全流程自动化。用户可以通过 Agent 处理繁琐任务，自己掌控创意方向。Hub 提供无限画布、并行项目和批量生成功能，集成顶级模型和自定义技能工具包，并支持本地资产和应用的即时导入导出。7月1日前登录可获3000奖励积分。

AI产品 MiniMax AI Agent 创意工作站多模态本地部署

推荐理由：MiniMax Hub 把 AI Agent 从编码转向创意生产，做内容创作、视频制作、多模态项目的团队可以直接用上全流程自动化，省去手动切换工具的麻烦，值得一试。

原文

13:35

Thinking Machines Lab@thinkymachines

Thinky Machines 推出了一款能像人类一样同时进行对话、聆听、观察、思考和协作的AI模型。该模型支持实时多模态交互，可同步处理语音、视觉和文本信息。团队分享了其设计理念、早期成果以及模型实际运行的演示视频。这标志着AI从单通道交互向类人实时多模态协作迈出重要一步。

AI模型多模态实时协作 AI模型交互设计 Thinky Machines

推荐理由：多模态实时协作是AI交互的下一个前沿，做对话系统或协作工具的团队值得关注这个新方向。

原文

12:33

Mira Murati (TML)@miramurati

Mira Murati 在X上发文强调，协作AI的核心在于实时交互，机器与人需跨所有模态协同工作。她指出解决这一挑战需要社区共同努力，并邀请大家加入。这反映了AI发展从单机智能向人机协作生态的转变，强调多模态实时交互的重要性。

行业协作AI 实时交互多模态人机协作 Mira Murati

推荐理由：关注人机协作未来的开发者，这条信息点明了AI的下一个关键方向——实时多模态交互，值得思考如何参与其中。

原文

12:31

karminski-牙医 (AI工具)@karminski3

该模型新增多模态输入功能，支持文本、图片和视频等多种数据格式。这一更新显著扩展了模型的应用场景，使其能够处理更丰富的输入类型。对于需要综合处理多种媒体信息的用户来说，这是一个重要的功能升级。

AI模型多模态模型更新文本图片视频

推荐理由：多模态输入让模型能处理图片和视频，做内容分析或创意工作的团队可以直接用起来，效率提升明显。

原文

12:02

Black Forest Labs (FLUX)@bfl_ml

BFL 在 X 上分享了对视觉智能的愿景，指出通过联合训练视频、图像和音频，模型能获得对真实世界的物理级理解。这种通用视觉处理能力不仅会提升图像和视频生成质量，还能通过动作预测接入机器人，将人类学习方式映射到机器上。内容创作、视频和物理 AI 被视为解决基础视觉智能后的自然延伸。

AI模型视觉智能多模态 BFL 物理AI 内容创作

推荐理由：BFL 的视觉智能路线图揭示了多模态联合训练如何通向物理级世界理解，做内容生成、视频或机器人开发的团队值得关注这一方向。

原文

10:49

arXiv cs.AI@Zongsheng Cao, Bihao Zhan, Jinxin Shi, Jiong Wang, Fangchen Yu, Zhijie Zhong, Zijie Guo, Tianshuo Peng, Zhuo Liu, Yi Xie, Xiang Zhuang, Yue Fan, Runmin Ma, Shiyang Feng, Xiangchao Yan, Anran Liu, Peng Ye, Wenlong Zhang, Shufei Zhang, Chunfeng Song, Fenghua Ling, Jie Zhou, Liang He, Bo Zhang, Lei Bai

Agents-K1 是一个端到端的科学知识编排管线，能将原始论文转化为智能体可用的科学知识图谱。它包含多模态解析器、基于 GRPO 训练的 4B 信息提取模型和统一接口 CLI，覆盖实体、多模态证据、引用和关系。团队用该管线处理了 246 万篇论文，构建了 Scholar-KG 数据集，并开源了其中 100 万篇子集。实验表明，Agents-K1 在科学信息提取、知识图谱构建和多跳推理上表现优异。

论文知识图谱科学信息提取 Agents-K1 Scholar-KG 多模态

推荐理由：做科学知识图谱或文献挖掘的团队可以直接用这个开源管线，省去自己设计抽取流程的麻烦，尤其适合需要跨论文推理的科研场景。

原文

01:05

Logan Kilpatrick@OfficialLoganK

Google的Gemini Omni Flash模型在图像生成视频、文本生成视频以及视频编辑三个任务上均达到最佳性能（SOTA）。该模型即将通过API向开发者开放。具体基准数据尚未公布。

AI模型 Gemini Omni Flash Google 视频生成多模态

推荐理由：Google新视频模型SOTA

原文

00:53

Philipp Schmid@_philschmid

Google 重写了 Gemini Interactions API 的入门指南，从首次 API 调用到运行自主智能体共 11 步。指南涵盖文本、多模态理解、图像生成（如 Nano Banana）、流式响应、有状态/无状态多轮对话。内置工具包括搜索、代码执行、地图、电脑使用。还涉及函数调用、托管智能体和后台执行。适合想快速上手 Gemini 开发能力的开发者。

AI产品 Gemini API 智能体多模态入门指南

推荐理由：这份指南把 Gemini 从基础调用到自主智能体的路径讲清楚了，做 AI 应用开发的团队可以直接照着 11 步上手，省去自己摸索的时间。

原文

00:24

SiliconFlowAI@siliconflowai

精选

Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线，支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构，视觉和音频输入直接进入 LLM 主干，降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能，接近 Google 26B 模型的表现，在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元，性价比突出。

AI模型 Gemma 4 智能体多模态长上下文 SiliconFlow

推荐理由：做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民，建议直接上手试试。

原文

6月11日

17:21

17:21IT之家（博客/媒体）

金山办公在“WPS AI Next”活动中发布了 AI 原生多模态笔记产品——WPS 笔记。该产品摒弃传统笔记“用户整理、工具存储”的旧范式，将 AI 能力贯穿从记录到复用的全过程。它支持语音、图片、文字、网页等多模态录入，具备实时转写与 AI 纠正、多级 AI 自动标签、全域多模态检索等功能。此外，WPS 笔记还内置 WPS 灵犀助手，并支持外部 MCP 接入，让笔记成为 AI 应用的知识入口。体验者认为，WPS 笔记重构了笔记应用的设计逻辑，真正实现了知识的无缝流动。

AI产品 WPS 笔记 AI 笔记多模态知识管理 MCP/工具

推荐理由：WPS 笔记用 AI 解决了传统笔记“存了难找、整理费时”的痛点，做知识管理、会议记录、学习整理的人可以直接上手，省去手动分类和检索的麻烦。

原文

12:32

arXiv cs.AI@Litao Li, Yibo Yu, Yufeng Hu, Zhuo Yang, Jiali Wen, Yixin Chen, Yixi Zhou

精选

本文提出了针对2026年SoccerNet VQA挑战赛的解决方案。研究团队首先开发了一种由视觉语言模型驱动的低成本数据合成流程，将原始领域数据系统性地转化为多样化的VQA样本，包括简洁答案和长文本回答。其次，提出了MSUE架构，这是一种多专家问答架构，利用大语言模型动态地将问题分配给文本、图像和视频专家。这些专家分别由强大的文本基线Gemini3-Flash、微调的Qwen3-VL和外部知识库实例化，协同工作以提升VQA性能。MSUE在挑战基准上达到了0.95的准确率，在排行榜上获得第三名。

论文多模态 VQA 足球分析 SoccerNet 大语言模型

推荐理由：足球视频分析团队和体育AI研究者可以借鉴其低成本数据合成和多专家协作架构，直接提升VQA任务的准确率，值得关注。

原文

09:51

arXiv cs.AI@Shang Ma, Jisheng Dang, Wencan Zhang, Yifan Zhang, Bimei Wang, Hong Peng, Bin Hu, Qi Tian, Tat-Seng Chua

精选

研究者提出了一种名为 MODF-SIR 的多智能体协作框架，基于轻量级多模态大语言模型，专门用于社交智能推理。该框架通过知识蒸馏增强训练和推理阶段，能够精确定位多模态社交数据，并提取长尾事件以格式化文本呈现，避免关键信息被噪声淹没。它集成了测试时自适应（TTA）、思维链提示和自反思机制，并利用 LoRA 微调基础模型。在多个基准测试中，仅用约 30% 的训练数据就达到了最先进的结果。代码、演示和模型均已开源。

论文多智能体知识蒸馏社交智能推理多模态 LoRA

推荐理由：社交智能推理是 AI 理解人类互动的关键，MODF-SIR 用轻量模型和蒸馏技术解决了长尾事件被忽略的痛点，做多模态社交分析或人机交互的团队可以直接用开源代码复现。

原文

09:42

AI Will@FinanceYF5

Claude Fable 5 发布仅一天，用户就展示了其惊人的多领域应用能力，包括模拟单行道红绿灯系统、生成麦肯锡级别的商业报告、从零搭建类似 Replit 的编程环境、设计类人机器人、构建完整品牌以及克隆宝可梦游戏。这些案例表明该模型在复杂任务模拟和创意生成方面有显著突破，远超传统 AI 助手的边界。对于开发者、产品经理和创意工作者来说，Fable 5 可能成为新一代全能型 AI 工具。

AI产品 Claude Fable 5 多模态创意生成模拟

推荐理由：Claude Fable 5 一天内被玩出花，从红绿灯模拟到品牌搭建，做产品原型和创意验证的团队值得看看它到底多能打。

原文

04:47

HeyGen@HeyGen_Official

HeyGen 与 Google DeepMind 将于明天在洛杉矶联合举办一场面向构建者、创始人、研究人员和开发者的活动。活动聚焦智能体、创意工具和多模态应用领域。主办方在 X 平台发布消息，提醒有意者尽快通过 Luma 平台 RSVP。这是两家 AI 领域重要公司的一次线下交流机会，适合关注前沿 AI 应用和生态合作的从业者。

行业智能体多模态创意工具 HeyGen Google DeepMind

推荐理由：HeyGen 和 Google DeepMind 的联合活动聚焦智能体与多模态应用，做 AI 产品和工具的团队值得关注，明天就开始了，现在报名还来得及。

原文

6月10日

17:54

AI Will@FinanceYF5

Anthropic 的 Claude Fable 5 模型在 high 模式下，仅凭「渲染一个黑洞」的提示词，生成了令人惊叹的黑洞渲染视频。该视频展示了模型在视觉生成领域的强大能力，引发了社区广泛讨论。这一成果凸显了 Anthropic 在 AI 多模态生成方面的领先地位，为创意工作者提供了新的工具。

AI模型 Claude Fable 5 Anthropic 视觉生成视频渲染多模态

推荐理由：做视觉创意或 AI 生成内容的团队，Claude Fable 5 的渲染能力值得一试，一个提示词就能出高质量视频。

原文

14:13

xAI@xai

xAI 宣布与即时配送平台 Gopuff 合作，利用其 Grok 模型构建一个多模态个性化购物助手。该助手整合了聊天、语音和图像识别能力，旨在提升用户的购物体验。这一合作展示了 Grok 模型在零售场景中的实际应用潜力。xAI 通过将 AI 技术嵌入日常消费场景，进一步拓展了其模型的应用边界。

AI产品 Grok xAI Gopuff 购物助手多模态

推荐理由：xAI 首次将 Grok 模型落地到零售购物场景，做电商或即时配送的团队可以看看多模态助手如何提升转化率，值得关注。

原文

11:07

AI Will@FinanceYF5

精选

Claude 的 Fable 5 版本仅通过屏幕截图，从零开始打通了《宝可梦火红》。此前的 Claude 需要地图数据、导航辅助和游戏状态信息才能勉强运行。Fable 5 不依赖任何外部信息，仅凭视觉理解游戏画面自主决策。该版本展示了纯视觉推理在复杂游戏任务上的进展。

AI模型 Claude Fable 5 宝可梦火红多模态游戏AI

推荐理由：Claude新版本能纯视觉打游戏

原文

10:07

arXiv cs.AI@Peiqi Jia, Haonan Jia, Ziqi Miao, Linkang Du, Yuntao Wang, Zhou Su

精选

该论文首次在视觉语言模型（MLLMs）中引入显式人格条件，建立了涵盖单人格诱导、多人格诱导和人格切换的系统评估框架。实验发现，人格诱导能提升图像描述性能，但会损害需要精确推理的任务（如视觉问答）。多人格组合和动态切换时存在平衡与残留效应，模型行为受前后人格约束共同调节。现有基于提示的人格诱导方法在多模态场景下迁移性有限。研究揭示了MLLMs人格建模的动态复杂性，呼吁开发更鲁棒、定制化的方法。

论文视觉语言模型人格建模多模态行为控制评估框架

推荐理由：做多模态AI行为控制或社交机器人开发的团队，这篇论文揭示了人格诱导对推理能力的意外损害，值得在模型部署前仔细评估。

原文

09:10

arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

精选76°

快手发布Keye-VL-2.0-30B-A3B，一个基于MoE架构的开源多模态基础模型，专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构，实现无损256K上下文处理，能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏（MOPD）和上下文/视频强化学习，解决了多任务对齐中的灾难性遗忘问题，仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中，Keye-VL-2.0在相似规模模型中达到最优性能，尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。

AI模型开源/仓库 MoE 长视频理解智能体多模态

推荐理由：长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文，做视频分析或智能体应用的团队可以直接下载权重试试。

原文

03:42