全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

22:52

NVIDIA AI@NVIDIAAI

MiniMax 团队发布了 MiniMax M3，这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制，总参数量约 428B，激活参数仅约 23B，在保持高性能的同时大幅降低了计算成本。该模型已开源权重，可在 Hugging Face 获取，并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。

AI模型 MiniMax M3 多模态模型长上下文开源/仓库

推荐理由：多模态推理模型终于有了高效的开源选择——MiniMax M3 用 23B 激活参数实现长上下文多模态推理，做视频分析或长文档处理的团队可以直接在 NVIDIA 端点免费试，值得关注。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:44

John Schulman@johnschulman2

精选

Thinky 团队分享了全双工多模态模型的研究成果，该模型支持实时、自然的交互，同时不牺牲智能水平。创始人 John Schulman 指出，人机协作能力在 AI 领域常被低估，因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层，持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。

AI模型全双工多模态模型实时交互人机协作 Thinky

推荐理由：全双工交互解决了 AI 对话中“你说我听”的延迟感，做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。

原文

12:26

xiaomimimo@xiaomimimo

精选

小米旗下 MiMo 团队发布了 MiMo Code V0.1，一款开源的终端 AI 编程助手。它内置了 MiMo V2.5 多模态模型，支持百万 token 上下文窗口，并具备无限上下文、智能体-模型协同、设计优先的 Compose 模式、自进化系统、语音输入等功能。该工具兼容 Claude Code，可零成本迁移现有技能和 MCP 服务器，并支持多种主流模型提供商。项目采用 MIT 许可，已在 GitHub 开源。

AI产品编程助手开源/仓库 MiMo Code 多模态模型终端工具

推荐理由：小米把终端 AI 编程助手做成了开源产品，百万 token 上下文和自进化系统对处理大型项目的开发者很实用，兼容 Claude Code 让迁移几乎无感，建议试试。

原文

11:45

Microsoft AI@MicrosoftAI

精选

微软AI实验室在MSBuild 2026上发布了7个新模型，涵盖推理、代码、图像、语音和转录能力。这些模型基于科学和清洁的商业安全数据构建，设计为无缝协作。微软AI负责人Mustafa Suleyman在主题演讲中展示了这些进展，标志着微软在AI领域的快速扩张。

AI产品微软多模态模型推理模型代码模型 MSBuild

推荐理由：微软一口气推出7个覆盖多模态的模型，做AI应用开发的团队可以直接集成这些能力，减少自研成本，值得关注。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

17:49

Geek@geekbb

精选72°

腾讯混元团队开源了 UniRL 框架，它将强化学习后训练流程（采样、打分、计算优势、更新策略、同步权重）统一应用于多种多模态模型。该框架同时支持图像/视频扩散模型和自回归语言模型，为多模态 AI 的后训练提供了标准化方案。UniRL 解决了不同模态模型在 RL 后训练中流程不统一、实现复杂的问题，降低了多模态强化学习的门槛。开发者可以直接在 GitHub 上获取代码并尝试。

AI产品腾讯混元 UniRL 强化学习多模态模型开源/仓库

推荐理由：做多模态模型后训练的团队终于有了统一框架——UniRL 把扩散模型和语言模型的 RL 流程标准化了，省去重复造轮子的时间，值得直接上手试。

原文

6月9日

22:19

Hunyuan@TXhunyuan

72°

腾讯混元团队推出UniRL，一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型（LLM）和视觉语言模型（VLM）的强化学习训练，并同时发布两个新算法：DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型，简化多模态模型的训练流程。代码已在GitHub开源，为多模态AI研究提供了新的基础设施选择。

AI模型强化学习多模态模型开源/仓库腾讯混元 UniRL

推荐理由：多模态模型训练一直面临框架碎片化问题，UniRL用一个RL循环统一了扩散、LLM和VLM，做多模态研究的团队可以直接用开源代码降低实验成本。

原文

6月6日

05:45

Google AI@GoogleAI

Google AI 本周密集发布多项产品更新：Nano Banana 2 和 Nano Banana Pro 正式 GA，可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 使用；Co-Scientist 是一个多智能体系统，用于结构化科学思维，能生成和优化新假设；dreambeans 可基于 Google 应用数据自动生成个性化每日话题；Gemma 4 12B 是统一无编码器模型，支持离线多模态智能；Gemma 4 模型及其 drafters 已通过量化感知训练优化，降低内存需求并提升端侧性能；RealTime 2 是开放权重的实时音乐模型，可通过 MIDI 键盘、文本提示和手势演奏。

AI产品智能体多模态模型开源/仓库 Gemma 4 Co-Scientist

推荐理由：Google 一周内连发 6 项更新，覆盖企业智能体、科学推理、端侧模型和创意工具，做 AI 应用开发或科学研究的团队值得逐一了解，尤其是 Co-Scientist 和 Gemma 4 12B 的离线能力值得一试。

原文

6月5日

11:42

AI Will@FinanceYF5

83°

谷歌发布了 Gemma 4 12B，一款轻量级多模态 AI 模型，无需重型编码器栈即可在笔记本电脑上本地运行。该模型支持视觉、音频、推理和智能体四大核心能力，采用 Apache 2.0 开源协议。这降低了多模态 AI 的硬件门槛，让个人开发者和小团队也能在本地部署和实验。对于关注边缘计算和隐私保护的 AI 从业者来说，这是一个值得关注的开源选择。

AI模型多模态模型开源/仓库本地部署推理模型 Gemma

推荐理由：Gemma 4 12B 让多模态 AI 真正跑在笔记本上，做本地推理、智能体或隐私敏感应用的开发者可以直接拿来用，省去云端依赖。

原文

09:36

ollama@ollama

精选

Google 的 Gemma 4 12B 模型已更新至 Ollama，支持所有平台运行。该模型是统一的无编码器多模态模型，专为笔记本电脑设计，在边缘效率与高级推理之间取得平衡，并采用 Apache 2.0 许可。用户可通过 Ollama 在 Claude Code、Hermes Agent、OpenClaw、Codex 等工具中直接调用。

AI模型 Gemma 4 Ollama 多模态模型本地部署开源/仓库

推荐理由：本地运行多模态模型的门槛又降低了——Gemma 4 12B 在 Ollama 上即开即用，做本地 AI 应用或边缘推理的开发者可以直接上手试。

原文

6月4日

16:45

AI Will@FinanceYF5

72°

微软在 Microsoft Foundry 平台一次性推出七款新模型，强调“零蒸馏”技术，即模型完全由原始训练数据生成，未经过蒸馏压缩，保证了更高的原始性能和透明度。其中多模态模型已于今日在 OpenRouter 上线，Thinking 模型即将登陆 OpenRouter、Fireworks AI 和 Baseten 等平台。这一举措为开发者提供了更多高质量、可溯源的模型选择，尤其适合对模型纯净度和可解释性有要求的场景。

AI模型微软零蒸馏多模态模型 Thinking模型 OpenRouter

推荐理由：零蒸馏模型意味着更高的原始性能和可追溯性，做模型评估或对数据纯净度敏感的团队值得关注，可以直接在 Foundry 和 OpenRouter 上试用。

原文

08:22

berryxia@berryxia

Google 昨晚发布了 Gemma 4 12B 多模态大模型，该模型支持文本和图像输入，最低只需 16GB 内存即可运行。这降低了多模态模型的本地部署门槛，适合个人开发者和资源受限的环境。与 Qwen 等同类模型的对比结果值得关注，可能影响开源多模态模型的竞争格局。

AI模型多模态模型 Gemma 4 Google 本地部署开源模型

推荐理由：多模态模型本地运行门槛进一步降低，做 AI 应用或本地部署的开发者可以关注 Gemma 4 与 Qwen 的对比，评估是否值得迁移或尝试。

原文

02:36

Google AI Developers@googleaidevs

78°

Google 发布了 Gemma 4 12B，一款无编码器的多模态模型，可直接在笔记本电脑上运行。该模型去除了传统的视觉和音频编码器，让输入直接进入 LLM 主干，实现高效的多模态推理。在 16GB VRAM 下即可运行复杂智能体工作流，性能接近其 26B 的 MoE 模型。采用 Apache 2.0 许可，适合本地部署和开发。

AI模型 Gemma 4 多模态模型无编码器本地推理 Apache 2.0

推荐理由：无编码器架构让多模态模型更轻量、更高效，做本地 AI 应用或智能体开发的团队可以直接在笔记本上跑，值得一试。

原文

00:33

Philipp Schmid@_philschmid

76°

Google 发布了 Gemma 4 12B，这是其首个支持原生音频输入的中型多模态模型。该模型采用无编码器架构，直接将视觉和音频信息融入大语言模型，仅需 16GB 内存即可运行。在基准测试中，其性能接近 26B 参数模型，且采用 Apache 2.0 开源许可。这标志着中小型模型在多模态能力上的重要突破，尤其适合资源受限的开发者。

AI模型 Gemma 4 多模态模型音频输入开源/仓库 Google

推荐理由：Gemma 4 12B 让中小团队也能用上原生音频多模态模型，16GB 内存门槛极低，做语音交互或视觉应用的开发者可以直接下载试试。

原文

6月1日

18:24

berryxia@berryxia

精选76°

KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B，总参数 30B 但活跃参数仅 3B，采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文，视频理解能力随输入帧数增加而准确率上升，打破长视频导致模型迷失的直觉。在多个长视频基准上，其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解，是多模态领域的重要进展。

AI模型多模态模型稀疏注意力开源/仓库视频理解 KwaiKeye

推荐理由：做视频理解或多模态应用的开发者，终于有了一个长上下文和深度理解兼得的开源模型，建议直接去 Hugging Face 下载试试。

原文

15:07

NVIDIA AI@NVIDIAAI

精选

NVIDIA 宣布其 Cosmos 3 模型完全开源，包括模型权重和训练配方。该模型已在 Hugging Face 上发布，供开发者自由使用。此举延续了 NVIDIA 在 AI 领域开放生态的策略，旨在推动更多创新应用。Cosmos 3 的开放将加速研究者和工程师在视觉、语言等多模态任务上的探索。

AI模型开源/仓库多模态模型 NVIDIA Cosmos 3 Hugging Face

推荐理由：NVIDIA 把 Cosmos 3 的权重和训练配方全开源了，做多模态研究的团队可以直接下载使用，省去从头训练的算力成本，值得点开看看。

原文

15:06

NVIDIA AI@NVIDIAAI

精选

NVIDIA AI 发布了一个基于数十亿跨模态样本训练的多模态预训练模型，旨在为开发者提供强大的基础模型，用于构建物理AI系统。该模型能显著减少所需的数据量和训练成本，使开发者能够更高效地开发机器人、自动驾驶等物理AI应用。NVIDIA 在技术博客中详细介绍了该模型的架构和性能优势。

AI模型 NVIDIA 多模态模型预训练模型物理AI 机器人

推荐理由：做物理AI（如机器人、自动驾驶）的开发者终于有了一个强大的预训练基础，能大幅降低数据收集和训练成本，建议直接查看技术博客了解细节。

原文

5月27日

20:57

berryxia@berryxia

腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试，专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像，覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败，最强模型在甲骨文上仅14%准确率，GPT-5和Gemini 2.5 Pro接近0。更反直觉的是，开启推理模式反而降低表现，模型实际依赖载体（如龟壳、青铜器）而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。

AI模型 OCR 古文字识别多模态模型基准测试文化遗产

推荐理由：这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字，只是认载体。做文化遗产数字化或OCR研究的团队，看完会重新思考模型能力的边界。

原文

5月26日

15:16

向阳乔木@vista8

网易有道持续开源其大模型，包括轻量级推理模型子曰-o1和数学模型子曰3，均支持单块消费级GPU运行。基于这些模型，有道已推出龙虾LobsterAI、同传Agent、Thinkflow等AI Agent产品。最新开源了全模态模型和TTS模型，标志着从教育垂直模型向AI Agent基础设施方向拓展。开源生态建设虽难但长期价值高，开发者可在线体验TTS和下载多模态模型。

AI产品网易有道开源/仓库多模态模型 TTS AI Agent

推荐理由：网易有道从教育垂直模型转向AI Agent基建，开源的多模态和TTS模型让做Agent开发的团队可以直接用消费级GPU跑，值得关注其生态进展。

原文

5月21日

08:00

The Rundown AI@therundownai

93°

在 Google I/O 大会上，Demis Hassabis 正式介绍了 Gemini Omni，一个号称“能从任何输入创建任何输出”的新型 AI 模型。该模型支持文本、图像、音频、视频等多种模态的输入与生成，旨在实现真正的多模态理解和创作。这一发布标志着 Google 在通用 AI 能力上的重要一步，可能重塑内容创作、人机交互等领域的范式。目前具体技术细节和上线时间尚未公布，但已引发行业广泛关注。

AI模型 Gemini Omni 多模态模型 Google I/O AI 创作人机交互

推荐理由：Gemini Omni 把多模态 AI 的边界推到了“任意输入→任意输出”，做内容创作、产品设计或人机交互的团队值得关注——这可能是下一代 AI 应用的基础设施。

原文

07:59

DeepLearning.AI@DeepLearningAI

DeepLearningAI 在 X 平台发起一项投票，测试当前 AI 图像模型能否正确识别图片中的两种健身器材。该投票旨在引发对多模态推理模型能力的讨论，并推广其“AI Prompting for Everyone”课程。目前投票选项包括“能”、“不能”和“可能”，已有 682 次浏览和 5 次投票。这反映了业界对 AI 视觉理解真实世界物体能力的持续关注。

AI模型多模态模型图像识别推理模型 DeepLearningAI AI 投票

推荐理由：想了解多模态模型在真实场景中的识别能力？这个投票让你快速感知 AI 的视觉推理边界，做 AI 应用开发的可以参与讨论并学习提示技巧。

原文

07:59

Google Gemini App@GeminiApp

72°

在 Google I/O 大会上，Gemini 宣布了一系列重大更新，包括对 Gemini 体验的完全重新设计，引入 Neural Expressive 技术。Gemini 将推出智能体功能，如 Daily Brief 和 Gemini Spark，提供更主动的助手体验。同时发布了 Gemini Omni 和 3.5 Flash 模型，性能与效率进一步提升。这些更新标志着 Gemini 从单一对话助手向多模态智能体平台的转型。

AI产品 Gemini Google I/O 智能体多模态模型 AI 助手

推荐理由：Google 把 Gemini 从对话助手升级为智能体平台，做 AI 应用开发或日常重度使用的团队值得关注——Daily Brief 和 Spark 这类主动服务可能改变人机交互方式。

原文

00:14

rohanpaul_ai@rohanpaul_ai

76°

中国 AI 实验室商汤开源了 SenseNova U1，这是一个统一的多模态模型，能在单一模型中理解、推理并生成图像和文本。其架构去除了传统的视觉编码器和变分自编码器，在共享表示空间中处理图像和语言，减少了模块间切换和信息损失，提升了生成一致性。该模型在生成信息图、指南、海报、漫画等密集视觉内容时表现出色，据客户基准测试，生成信息图的速度约为 Qwen-Image-2.0 / Seedream-4.5 的两倍，且质量相当。

AI模型商汤 SenseNova U1 多模态模型开源/仓库图像生成

推荐理由：商汤的架构创新解决了多模态模型常见的模块间信息丢失问题，做视觉内容生成或信息图设计的团队可以直接用这个开源模型，生成效率翻倍值得一试。

原文

5月20日

14:27

rohanpaul_ai@rohanpaul_ai

76°

中国AI实验室商汤科技在HuggingFace上发布了SenseNova U1模型，采用原生多模态建模和MoT架构（38B激活3B MoE）。该模型将多模态生成视为一个统一的建模问题，而非分离的视觉、语言和图像模块链，从而减少了模块间的信息损失，提升了生成内容的一致性。SenseNova U1特别擅长生成可读、结构化、一致的图文输出，如信息图、指南、海报、漫画等。它支持ComfyUI，推理速度快（A3B），为密集视觉内容创作提供了高效工具。

AI模型 SenseNova U1 多模态模型 MoT架构 MoE 开源/仓库

推荐理由：SenseNova U1解决了多模态生成中模块切换导致的信息丢失问题，做信息图、海报、漫画等密集视觉内容的创作者可以直接用ComfyUI体验，效果惊艳。

原文

09:52

shao__meng@shao__meng

83°

Google 在 I/O 大会上发布了 Gemini Omni，这是一个原生多模态的「理解+生成」模型，主攻视频领域。与 Veo、Sora 等传统视频生成模型不同，Omni 从底层设计为多模态，支持任意组合输入（图、文、视频、音频）产出或编辑视频。其核心差异化能力包括对话式视频编辑（多轮修改保持一致性）、结合世界知识与物理直觉的生成，以及任意参考物组合。Omni 在编辑方式、提示词要求和知识运用上全面超越现有模型，标志着视频生成进入新阶段。

AI产品 Gemini Omni 多模态模型视频生成对话式编辑 Google I/O

推荐理由：做视频创作或 AI 内容生成的团队，终于有了一个能像聊天一样改视频的工具——多轮编辑保持一致性，不用每次重写 prompt，建议直接看官方对比。

原文

08:18

berryxia@berryxia

76°

Google 发布 Gemini Omni，一种不仅能生成逼真视频，还能基于物理直觉和知识推理场景后续发展的 AI 模型。它将物理直观与历史、科学、文化背景知识结合，使生成内容更符合现实逻辑。该模型即日起面向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出，首批支持视频输出。这一进展标志着视频生成从单纯视觉真实迈向因果推理的新阶段。

AI模型 Gemini Omni 视频生成物理推理 Google AI 多模态模型

推荐理由：做视频生成或物理模拟的开发者值得关注——Gemini Omni 把常识推理带进视频生成，让 AI 不再只是“画得好”，而是“想得对”。

原文

5月16日

22:36

向阳乔木@vista8

豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 0428 开始内测，新增音频理解能力，支持图片、视频、音频、文本四种输入。该模型在 Agent、Coding、GUI 能力上也有明显提升。测试案例包括前端动效复刻、视频 Hooks 建议、字幕识别等。目前第三方 AI Chat 客户端普遍不支持音视频上传解析，限制了该模型的应用。

AI模型豆包 Doubao-Seed-2.0-lite 全模态理解音频理解多模态模型

推荐理由：豆包终于补齐了音频理解短板，做多模态应用的开发者可以直接拿 API 测试前端动效复刻、视频分析等场景，比之前只能处理文本和图片强太多。

原文

5月14日

13:37

百川智能 Baichuan@BaichuanAI

百川智能发布了Baichuan-Omni-1.5模型，在视觉、语音和多模态流处理方面超越了GPT-4o mini。该模型在多模态医疗应用领域表现尤为突出，显示出更强的专业能力。这一进展表明国产多模态模型在特定垂直领域已具备国际竞争力。

AI模型百川智能多模态模型 GPT-4o mini 医疗AI 视觉/语音

推荐理由：多模态模型在医疗场景的突破值得关注，做AI医疗应用或跨模态处理的团队可以看看百川的进展，对比GPT-4o mini的性价比可能更高。

原文