全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

22:52

NVIDIA AI@NVIDIAAI

MiniMax 团队发布了 MiniMax M3，这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制，总参数量约 428B，激活参数仅约 23B，在保持高性能的同时大幅降低了计算成本。该模型已开源权重，可在 Hugging Face 获取，并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。

AI模型 MiniMax M3 多模态模型长上下文开源/仓库

推荐理由：多模态推理模型终于有了高效的开源选择——MiniMax M3 用 23B 激活参数实现长上下文多模态推理，做视频分析或长文档处理的团队可以直接在 NVIDIA 端点免费试，值得关注。

原文

17:01

17:01IT之家（博客/媒体）

商汤科技开源了 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 模型，专为图文交错创作场景优化。该模型解决了多轮生成中角色形象飘移、画风断裂、图文脱节等痛点，支持绘本、故事书、多页 PPT 等连续内容创作。核心升级包括叙事连贯性与角色一致性提升、图文语义对齐增强、视觉质量改善，以及新增多页 PPT 自动生成能力。模型已在 Hugging Face 开源，适合需要高质量图文内容生成的创作者和开发者。

AI模型商汤 SenseNova U1 图文交错生成开源/仓库多模态模型

推荐理由：做绘本、PPT 或教程的创作者终于不用反复修图了——这个模型能保持角色和画风从头到尾一致，直接生成多页内容，建议试试。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:44

John Schulman@johnschulman2

精选

Thinky 团队分享了全双工多模态模型的研究成果，该模型支持实时、自然的交互，同时不牺牲智能水平。创始人 John Schulman 指出，人机协作能力在 AI 领域常被低估，因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层，持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。

AI模型全双工多模态模型实时交互人机协作 Thinky

推荐理由：全双工交互解决了 AI 对话中“你说我听”的延迟感，做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。

原文

12:26

xiaomimimo@xiaomimimo

精选

小米旗下 MiMo 团队发布了 MiMo Code V0.1，一款开源的终端 AI 编程助手。它内置了 MiMo V2.5 多模态模型，支持百万 token 上下文窗口，并具备无限上下文、智能体-模型协同、设计优先的 Compose 模式、自进化系统、语音输入等功能。该工具兼容 Claude Code，可零成本迁移现有技能和 MCP 服务器，并支持多种主流模型提供商。项目采用 MIT 许可，已在 GitHub 开源。

AI产品编程助手开源/仓库 MiMo Code 多模态模型终端工具

推荐理由：小米把终端 AI 编程助手做成了开源产品，百万 token 上下文和自进化系统对处理大型项目的开发者很实用，兼容 Claude Code 让迁移几乎无感，建议试试。

原文

11:45

Microsoft AI@MicrosoftAI

精选

微软AI实验室在MSBuild 2026上发布了7个新模型，涵盖推理、代码、图像、语音和转录能力。这些模型基于科学和清洁的商业安全数据构建，设计为无缝协作。微软AI负责人Mustafa Suleyman在主题演讲中展示了这些进展，标志着微软在AI领域的快速扩张。

AI产品微软多模态模型推理模型代码模型 MSBuild

推荐理由：微软一口气推出7个覆盖多模态的模型，做AI应用开发的团队可以直接集成这些能力，减少自研成本，值得关注。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

17:49

Geek@geekbb

精选72°

腾讯混元团队开源了 UniRL 框架，它将强化学习后训练流程（采样、打分、计算优势、更新策略、同步权重）统一应用于多种多模态模型。该框架同时支持图像/视频扩散模型和自回归语言模型，为多模态 AI 的后训练提供了标准化方案。UniRL 解决了不同模态模型在 RL 后训练中流程不统一、实现复杂的问题，降低了多模态强化学习的门槛。开发者可以直接在 GitHub 上获取代码并尝试。

AI产品腾讯混元 UniRL 强化学习多模态模型开源/仓库

推荐理由：做多模态模型后训练的团队终于有了统一框架——UniRL 把扩散模型和语言模型的 RL 流程标准化了，省去重复造轮子的时间，值得直接上手试。

原文

6月9日

22:19

Hunyuan@TXhunyuan

72°

腾讯混元团队推出UniRL，一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型（LLM）和视觉语言模型（VLM）的强化学习训练，并同时发布两个新算法：DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型，简化多模态模型的训练流程。代码已在GitHub开源，为多模态AI研究提供了新的基础设施选择。

AI模型强化学习多模态模型开源/仓库腾讯混元 UniRL

推荐理由：多模态模型训练一直面临框架碎片化问题，UniRL用一个RL循环统一了扩散、LLM和VLM，做多模态研究的团队可以直接用开源代码降低实验成本。

原文

12:37

arXiv cs.LG@Badr AlKhamissi, Johannes Mehrer, Lara Marinov, Ahmed Abdelaal, Abdulkadir Gokce, Martin Schrimpf

精选

研究团队提出 Topo-Omni，一种多模态地形模型，将视觉、听觉和语言/认知处理整合到单一连续的模拟皮层上。该模型通过微调预训练基础模型并加入空间平滑约束，自发形成了与人类神经影像一致的跨模态功能簇。通过驱动或抑制特定簇，可以选择性影响感知，模拟人类干预实验。模型还发现了新的自然景观和动物网络功能簇，并在人类数据中得到验证。这项工作表明单一空间原则即可组织跨模态和跨处理阶段的表征，为皮层组织提供可检验的假设。

论文多模态模型脑区功能地形模型神经科学 Topo-Omni

推荐理由：神经科学和AI交叉领域的研究者会感兴趣——Topo-Omni用单一模型统一了多模态皮层地图，还能预测新脑区，做认知建模或脑启发AI的团队值得关注。

原文

6月6日

05:45

Google AI@GoogleAI

Google AI 本周密集发布多项产品更新：Nano Banana 2 和 Nano Banana Pro 正式 GA，可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 使用；Co-Scientist 是一个多智能体系统，用于结构化科学思维，能生成和优化新假设；dreambeans 可基于 Google 应用数据自动生成个性化每日话题；Gemma 4 12B 是统一无编码器模型，支持离线多模态智能；Gemma 4 模型及其 drafters 已通过量化感知训练优化，降低内存需求并提升端侧性能；RealTime 2 是开放权重的实时音乐模型，可通过 MIDI 键盘、文本提示和手势演奏。

AI产品智能体多模态模型开源/仓库 Gemma 4 Co-Scientist

推荐理由：Google 一周内连发 6 项更新，覆盖企业智能体、科学推理、端侧模型和创意工具，做 AI 应用开发或科学研究的团队值得逐一了解，尤其是 Co-Scientist 和 Gemma 4 12B 的离线能力值得一试。

原文

6月5日

11:42

AI Will@FinanceYF5

83°

谷歌发布了 Gemma 4 12B，一款轻量级多模态 AI 模型，无需重型编码器栈即可在笔记本电脑上本地运行。该模型支持视觉、音频、推理和智能体四大核心能力，采用 Apache 2.0 开源协议。这降低了多模态 AI 的硬件门槛，让个人开发者和小团队也能在本地部署和实验。对于关注边缘计算和隐私保护的 AI 从业者来说，这是一个值得关注的开源选择。

AI模型多模态模型开源/仓库本地部署推理模型 Gemma

推荐理由：Gemma 4 12B 让多模态 AI 真正跑在笔记本上，做本地推理、智能体或隐私敏感应用的开发者可以直接拿来用，省去云端依赖。

原文

09:36

ollama@ollama

精选

Google 的 Gemma 4 12B 模型已更新至 Ollama，支持所有平台运行。该模型是统一的无编码器多模态模型，专为笔记本电脑设计，在边缘效率与高级推理之间取得平衡，并采用 Apache 2.0 许可。用户可通过 Ollama 在 Claude Code、Hermes Agent、OpenClaw、Codex 等工具中直接调用。

AI模型 Gemma 4 Ollama 多模态模型本地部署开源/仓库

推荐理由：本地运行多模态模型的门槛又降低了——Gemma 4 12B 在 Ollama 上即开即用，做本地 AI 应用或边缘推理的开发者可以直接上手试。

原文

6月4日

16:45

AI Will@FinanceYF5

72°

微软在 Microsoft Foundry 平台一次性推出七款新模型，强调“零蒸馏”技术，即模型完全由原始训练数据生成，未经过蒸馏压缩，保证了更高的原始性能和透明度。其中多模态模型已于今日在 OpenRouter 上线，Thinking 模型即将登陆 OpenRouter、Fireworks AI 和 Baseten 等平台。这一举措为开发者提供了更多高质量、可溯源的模型选择，尤其适合对模型纯净度和可解释性有要求的场景。

AI模型微软零蒸馏多模态模型 Thinking模型 OpenRouter

推荐理由：零蒸馏模型意味着更高的原始性能和可追溯性，做模型评估或对数据纯净度敏感的团队值得关注，可以直接在 Foundry 和 OpenRouter 上试用。

原文

10:18

arXiv cs.AI@Jie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong

多模态模型在长视频理解中，记忆能力成为关键瓶颈。现有基准多聚焦感知与推理，缺乏对记忆的系统评估。北京大学团队提出M³Eval，基于认知心理学设计任务，从信息保留、保真度、抗干扰性等维度评估模型记忆。实验发现，模型在并行视频流中难以保持分离表征，时空记忆可靠性差异大，符号记忆有限。该基准为多模态记忆研究提供了重要资源，揭示了模型记忆与人类记忆的显著差异。

论文多模态模型记忆评估视频理解认知心理学基准测试

推荐理由：做多模态模型或视频理解的团队，M³Eval 帮你找到模型记忆的短板，看完你会重新思考模型架构设计。

原文

08:22

berryxia@berryxia

Google 昨晚发布了 Gemma 4 12B 多模态大模型，该模型支持文本和图像输入，最低只需 16GB 内存即可运行。这降低了多模态模型的本地部署门槛，适合个人开发者和资源受限的环境。与 Qwen 等同类模型的对比结果值得关注，可能影响开源多模态模型的竞争格局。

AI模型多模态模型 Gemma 4 Google 本地部署开源模型

推荐理由：多模态模型本地运行门槛进一步降低，做 AI 应用或本地部署的开发者可以关注 Gemma 4 与 Qwen 的对比，评估是否值得迁移或尝试。

原文

02:51

marktechpost@Asif Razzaq

88°

Google DeepMind 发布了 Gemma 4 12B，一款无编码器的多模态模型，直接将视觉和音频输入送入 LLM 主干，无需传统视觉或音频编码器。该模型原生支持音频理解，可在 16GB 内存的笔记本电脑上本地运行，并采用 Apache 2.0 开源许可。这降低了多模态 AI 的硬件门槛，让开发者能在消费级设备上部署视觉和音频处理能力。Gemma 4 12B 的发布标志着多模态模型向轻量化和本地化迈出重要一步。

AI模型多模态模型开源/仓库 Gemma 4 12B 本地部署无编码器

推荐理由：多模态模型终于能跑在普通笔记本上了，做本地 AI 应用或边缘计算的开发者可以直接下载试用，16GB 内存就能跑视觉+音频推理，开源许可也友好。

原文

02:36

Google AI Developers@googleaidevs

78°

Google 发布了 Gemma 4 12B，一款无编码器的多模态模型，可直接在笔记本电脑上运行。该模型去除了传统的视觉和音频编码器，让输入直接进入 LLM 主干，实现高效的多模态推理。在 16GB VRAM 下即可运行复杂智能体工作流，性能接近其 26B 的 MoE 模型。采用 Apache 2.0 许可，适合本地部署和开发。

AI模型 Gemma 4 多模态模型无编码器本地推理 Apache 2.0

推荐理由：无编码器架构让多模态模型更轻量、更高效，做本地 AI 应用或智能体开发的团队可以直接在笔记本上跑，值得一试。

原文

00:33

Philipp Schmid@_philschmid

76°

Google 发布了 Gemma 4 12B，这是其首个支持原生音频输入的中型多模态模型。该模型采用无编码器架构，直接将视觉和音频信息融入大语言模型，仅需 16GB 内存即可运行。在基准测试中，其性能接近 26B 参数模型，且采用 Apache 2.0 开源许可。这标志着中小型模型在多模态能力上的重要突破，尤其适合资源受限的开发者。

AI模型 Gemma 4 多模态模型音频输入开源/仓库 Google

推荐理由：Gemma 4 12B 让中小团队也能用上原生音频多模态模型，16GB 内存门槛极低，做语音交互或视觉应用的开发者可以直接下载试试。

原文

6月3日

10:58

arXiv cs.AI@Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna

多模态语言模型在空间推理任务中常因无法直接观察关键信息而表现不佳。研究者提出 Imaginative Perception Tokens (IPT)，一种中间感知表征，让模型能推断未观察到的空间结构，如从不可见视角看物体、追踪遮挡路径等。在 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务上，IPT 监督显著提升空间推理准确率，在 MVC 上提升 3.4%，且优于文本思维链训练。研究发现文本思维链在空间计算中可能因模态不匹配而降低性能，而 IPT 提供了更有效的监督信号。该方法无需在推理时生成图像，即可产生可解释的中间表征，提升泛化能力。

论文空间推理多模态模型 Imaginative Perception Tokens 视觉语言模型思维链

推荐理由：空间推理是多模态模型的短板，IPT 提供了一种不依赖文本思维链的监督方式，做视觉推理或空间理解的团队可以直接参考论文方法。

原文

6月2日

09:42

arXiv cs.AI@Siyan Li, Zehao Wang, Jiachen Li, Kanok Boriboonsomsin, Matthew J. Barth, Guoyuan Wu

这篇综述论文系统回顾了大语言模型（LLM）和多模态大语言模型（MM-LLM）在交通系统管理与运营（TSMO）中的应用。研究覆盖了交通运营与服务、出行与车队服务、数据建模与决策支持三个领域，通过PRISMA方法筛选并分析了现有研究。论文指出，LLM在数据异构性、实时推理、可解释性、多模态融合和治理方面仍面临挑战，但作为决策支持层具有巨大潜力，特别是MM-LLM在整合文本、视觉和传感器数据时表现突出。未来方向包括本地化适配、边缘部署、基准测试和跨机构协作。

论文大语言模型多模态模型交通系统管理决策支持综述论文

推荐理由：这篇综述为交通领域的从业者提供了LLM应用的完整地图——从传感器数据到决策支持，做智慧交通或城市管理的团队可以直接参考其中的案例和挑战，避免重复踩坑。

原文

6月1日

18:24

berryxia@berryxia

精选76°

KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B，总参数 30B 但活跃参数仅 3B，采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文，视频理解能力随输入帧数增加而准确率上升，打破长视频导致模型迷失的直觉。在多个长视频基准上，其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解，是多模态领域的重要进展。

AI模型多模态模型稀疏注意力开源/仓库视频理解 KwaiKeye

推荐理由：做视频理解或多模态应用的开发者，终于有了一个长上下文和深度理解兼得的开源模型，建议直接去 Hugging Face 下载试试。

原文

16:03

pandaily@contact@pandaily.com (Pandaily)

在 BEYOND Expo 2026 上，OmAI 推出了 AI 视频创作助手 OttoBox，基于自研多模态模型 OmModel。该工具能将视频粗剪时间从 8 小时缩短至 30 分钟，大幅提升创作效率。OttoBox 面向视频创作者、营销团队和内容制作人，旨在降低视频制作门槛。这一发布标志着 AI 在视频编辑领域的实用化进展。

AI产品视频创作多模态模型 AI 编辑 OttoBox OmAI

推荐理由：视频创作者和营销团队终于有了能真正省时间的 AI 工具——粗剪从半天缩到半小时，建议做短视频或宣传片的直接试试。

原文

15:13

pandaily@contact@pandaily.com (Pandaily)

LINKER Technology 在 BEYOND Expo 2026 上推出了 OttoBox，一款基于自研 OmModel 多模态模型的 AI 视频创作助手。该工具将视频粗剪时间从传统的 8 小时大幅缩短至 30 分钟，显著提升视频制作效率。OttoBox 利用 AI 自动识别关键片段、生成剪辑建议，并支持快速导出。这一产品面向内容创作者、视频编辑团队和营销人员，有望降低视频制作门槛。

AI产品 AI 视频创作多模态模型 OttoBox LINKER Technology 视频编辑

推荐理由：视频创作者和剪辑团队终于有了能真正省时间的 AI 工具——粗剪效率提升 16 倍，建议做短视频或营销内容的直接试用。

原文

15:07

NVIDIA AI@NVIDIAAI

精选

NVIDIA 宣布其 Cosmos 3 模型完全开源，包括模型权重和训练配方。该模型已在 Hugging Face 上发布，供开发者自由使用。此举延续了 NVIDIA 在 AI 领域开放生态的策略，旨在推动更多创新应用。Cosmos 3 的开放将加速研究者和工程师在视觉、语言等多模态任务上的探索。

AI模型开源/仓库多模态模型 NVIDIA Cosmos 3 Hugging Face

推荐理由：NVIDIA 把 Cosmos 3 的权重和训练配方全开源了，做多模态研究的团队可以直接下载使用，省去从头训练的算力成本，值得点开看看。

原文

15:06

NVIDIA AI@NVIDIAAI

精选

NVIDIA AI 发布了一个基于数十亿跨模态样本训练的多模态预训练模型，旨在为开发者提供强大的基础模型，用于构建物理AI系统。该模型能显著减少所需的数据量和训练成本，使开发者能够更高效地开发机器人、自动驾驶等物理AI应用。NVIDIA 在技术博客中详细介绍了该模型的架构和性能优势。

AI模型 NVIDIA 多模态模型预训练模型物理AI 机器人

推荐理由：做物理AI（如机器人、自动驾驶）的开发者终于有了一个强大的预训练基础，能大幅降低数据收集和训练成本，建议直接查看技术博客了解细节。

原文

5月29日

13:58

arXiv: OpenAI@Alejandra Zambrano, Sara Vera Marjanovic, Imene Kerboua, Xing Han Lù, Leila Kosseim

精选

LLM网页智能体在探索、关键步骤遗漏和任务约束敏感性上存在不足，现有研究认为这些失败源于规划弱点，但自然语言计划表示的影响尚未被系统探索。PlanAhead提出静态规划-执行框架，自动将WebArena任务分为三个难度级别，并在困难任务上评估四种计划表示（顺序子目标、叙事、伪代码、清单）对多模态LLM智能体（OpenAI、阿里巴巴、Google）的影响。引入两个新指标：达成率和解决任务一致性，发现计划形式和底层LLM都显著影响智能体的鲁棒性和任务成功率。

论文 LLM智能体规划表示 WebArena 多模态模型评估指标

推荐理由：做LLM智能体开发的团队终于有了计划表示的系统性对比——选对计划形式能直接提升任务成功率，建议做Web Agent的开发者点开看看具体指标差异。

原文

11:07

arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang

精选

浙江大学团队提出 Archon，一个完全预训练的统一多模态模型，用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构，统一了七种模态，并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题，Archon 引入了一种内存高效的语义视频重参数化方法，实现 4 倍 token 压缩同时保留精细动态，并配合语义驱动的视频扩散解码器。此外，提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理，提升了生成保真度和可控性。实验表明，Archon 在多种数字人生成任务上达到或超越现有水平。

论文数字人多模态模型视频生成自回归模型 token压缩

推荐理由：做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了，不用再拼凑多个模型，做沉浸式体验的开发者可以直接参考其架构。

原文

5月28日

11:27