22:52NVIDIA AI@NVIDIAAIMiniMax 团队发布了 MiniMax M3,这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制,总参数量约 428B,激活参数仅约 23B,在保持高性能的同时大幅降低了计算成本。该模型已开源权重,可在 Hugging Face 获取,并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。AI模型MiniMaxM3多模态模型长上下文开源/仓库10 个信源在谈推荐理由:多模态推理模型终于有了高效的开源选择——MiniMax M3 用 23B 激活参数实现长上下文多模态推理,做视频分析或长文档处理的团队可以直接在 NVIDIA 端点免费试,值得关注。原文
12:44John Schulman@johnschulman2精选Thinky 团队分享了全双工多模态模型的研究成果,该模型支持实时、自然的交互,同时不牺牲智能水平。创始人 John Schulman 指出,人机协作能力在 AI 领域常被低估,因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层,持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。AI模型全双工多模态模型实时交互人机协作Thinky推荐理由:全双工交互解决了 AI 对话中“你说我听”的延迟感,做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。原文
12:26xiaomimimo@xiaomimimo精选小米旗下 MiMo 团队发布了 MiMo Code V0.1,一款开源的终端 AI 编程助手。它内置了 MiMo V2.5 多模态模型,支持百万 token 上下文窗口,并具备无限上下文、智能体-模型协同、设计优先的 Compose 模式、自进化系统、语音输入等功能。该工具兼容 Claude Code,可零成本迁移现有技能和 MCP 服务器,并支持多种主流模型提供商。项目采用 MIT 许可,已在 GitHub 开源。AI产品编程助手开源/仓库MiMo Code多模态模型终端工具推荐理由:小米把终端 AI 编程助手做成了开源产品,百万 token 上下文和自进化系统对处理大型项目的开发者很实用,兼容 Claude Code 让迁移几乎无感,建议试试。原文
11:45Microsoft AI@MicrosoftAI精选微软AI实验室在MSBuild 2026上发布了7个新模型,涵盖推理、代码、图像、语音和转录能力。这些模型基于科学和清洁的商业安全数据构建,设计为无缝协作。微软AI负责人Mustafa Suleyman在主题演讲中展示了这些进展,标志着微软在AI领域的快速扩张。AI产品微软多模态模型推理模型代码模型MSBuild推荐理由:微软一口气推出7个覆盖多模态的模型,做AI应用开发的团队可以直接集成这些能力,减少自研成本,值得关注。原文
17:49Geek@geekbb精选72°腾讯混元团队开源了 UniRL 框架,它将强化学习后训练流程(采样、打分、计算优势、更新策略、同步权重)统一应用于多种多模态模型。该框架同时支持图像/视频扩散模型和自回归语言模型,为多模态 AI 的后训练提供了标准化方案。UniRL 解决了不同模态模型在 RL 后训练中流程不统一、实现复杂的问题,降低了多模态强化学习的门槛。开发者可以直接在 GitHub 上获取代码并尝试。AI产品腾讯混元UniRL强化学习多模态模型开源/仓库推荐理由:做多模态模型后训练的团队终于有了统一框架——UniRL 把扩散模型和语言模型的 RL 流程标准化了,省去重复造轮子的时间,值得直接上手试。原文
22:19Hunyuan@TXhunyuan72°腾讯混元团队推出UniRL,一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型(LLM)和视觉语言模型(VLM)的强化学习训练,并同时发布两个新算法:DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型,简化多模态模型的训练流程。代码已在GitHub开源,为多模态AI研究提供了新的基础设施选择。AI模型强化学习多模态模型开源/仓库腾讯混元UniRL推荐理由:多模态模型训练一直面临框架碎片化问题,UniRL用一个RL循环统一了扩散、LLM和VLM,做多模态研究的团队可以直接用开源代码降低实验成本。原文
05:45Google AI@GoogleAIGoogle AI 本周密集发布多项产品更新:Nano Banana 2 和 Nano Banana Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 使用;Co-Scientist 是一个多智能体系统,用于结构化科学思维,能生成和优化新假设;dreambeans 可基于 Google 应用数据自动生成个性化每日话题;Gemma 4 12B 是统一无编码器模型,支持离线多模态智能;Gemma 4 模型及其 drafters 已通过量化感知训练优化,降低内存需求并提升端侧性能;RealTime 2 是开放权重的实时音乐模型,可通过 MIDI 键盘、文本提示和手势演奏。AI产品智能体多模态模型开源/仓库Gemma 4Co-Scientist10 个信源在谈推荐理由:Google 一周内连发 6 项更新,覆盖企业智能体、科学推理、端侧模型和创意工具,做 AI 应用开发或科学研究的团队值得逐一了解,尤其是 Co-Scientist 和 Gemma 4 12B 的离线能力值得一试。原文
11:42AI Will@FinanceYF583°谷歌发布了 Gemma 4 12B,一款轻量级多模态 AI 模型,无需重型编码器栈即可在笔记本电脑上本地运行。该模型支持视觉、音频、推理和智能体四大核心能力,采用 Apache 2.0 开源协议。这降低了多模态 AI 的硬件门槛,让个人开发者和小团队也能在本地部署和实验。对于关注边缘计算和隐私保护的 AI 从业者来说,这是一个值得关注的开源选择。AI模型多模态模型开源/仓库本地部署推理模型Gemma推荐理由:Gemma 4 12B 让多模态 AI 真正跑在笔记本上,做本地推理、智能体或隐私敏感应用的开发者可以直接拿来用,省去云端依赖。原文
09:36ollama@ollama精选Google 的 Gemma 4 12B 模型已更新至 Ollama,支持所有平台运行。该模型是统一的无编码器多模态模型,专为笔记本电脑设计,在边缘效率与高级推理之间取得平衡,并采用 Apache 2.0 许可。用户可通过 Ollama 在 Claude Code、Hermes Agent、OpenClaw、Codex 等工具中直接调用。AI模型Gemma 4Ollama多模态模型本地部署开源/仓库10 个信源在谈推荐理由:本地运行多模态模型的门槛又降低了——Gemma 4 12B 在 Ollama 上即开即用,做本地 AI 应用或边缘推理的开发者可以直接上手试。原文
16:45AI Will@FinanceYF572°微软在 Microsoft Foundry 平台一次性推出七款新模型,强调“零蒸馏”技术,即模型完全由原始训练数据生成,未经过蒸馏压缩,保证了更高的原始性能和透明度。其中多模态模型已于今日在 OpenRouter 上线,Thinking 模型即将登陆 OpenRouter、Fireworks AI 和 Baseten 等平台。这一举措为开发者提供了更多高质量、可溯源的模型选择,尤其适合对模型纯净度和可解释性有要求的场景。AI模型微软零蒸馏多模态模型Thinking模型OpenRouter推荐理由:零蒸馏模型意味着更高的原始性能和可追溯性,做模型评估或对数据纯净度敏感的团队值得关注,可以直接在 Foundry 和 OpenRouter 上试用。原文
08:22berryxia@berryxiaGoogle 昨晚发布了 Gemma 4 12B 多模态大模型,该模型支持文本和图像输入,最低只需 16GB 内存即可运行。这降低了多模态模型的本地部署门槛,适合个人开发者和资源受限的环境。与 Qwen 等同类模型的对比结果值得关注,可能影响开源多模态模型的竞争格局。AI模型多模态模型Gemma 4Google本地部署开源模型10 个信源在谈推荐理由:多模态模型本地运行门槛进一步降低,做 AI 应用或本地部署的开发者可以关注 Gemma 4 与 Qwen 的对比,评估是否值得迁移或尝试。原文
02:36Google AI Developers@googleaidevs78°Google 发布了 Gemma 4 12B,一款无编码器的多模态模型,可直接在笔记本电脑上运行。该模型去除了传统的视觉和音频编码器,让输入直接进入 LLM 主干,实现高效的多模态推理。在 16GB VRAM 下即可运行复杂智能体工作流,性能接近其 26B 的 MoE 模型。采用 Apache 2.0 许可,适合本地部署和开发。AI模型Gemma 4多模态模型无编码器本地推理Apache 2.010 个信源在谈推荐理由:无编码器架构让多模态模型更轻量、更高效,做本地 AI 应用或智能体开发的团队可以直接在笔记本上跑,值得一试。原文
00:33Philipp Schmid@_philschmid76°Google 发布了 Gemma 4 12B,这是其首个支持原生音频输入的中型多模态模型。该模型采用无编码器架构,直接将视觉和音频信息融入大语言模型,仅需 16GB 内存即可运行。在基准测试中,其性能接近 26B 参数模型,且采用 Apache 2.0 开源许可。这标志着中小型模型在多模态能力上的重要突破,尤其适合资源受限的开发者。AI模型Gemma 4多模态模型音频输入开源/仓库Google10 个信源在谈推荐理由:Gemma 4 12B 让中小团队也能用上原生音频多模态模型,16GB 内存门槛极低,做语音交互或视觉应用的开发者可以直接下载试试。原文
18:24berryxia@berryxia精选76°KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B,总参数 30B 但活跃参数仅 3B,采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文,视频理解能力随输入帧数增加而准确率上升,打破长视频导致模型迷失的直觉。在多个长视频基准上,其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解,是多模态领域的重要进展。AI模型多模态模型稀疏注意力开源/仓库视频理解KwaiKeye推荐理由:做视频理解或多模态应用的开发者,终于有了一个长上下文和深度理解兼得的开源模型,建议直接去 Hugging Face 下载试试。原文
15:07NVIDIA AI@NVIDIAAI精选NVIDIA 宣布其 Cosmos 3 模型完全开源,包括模型权重和训练配方。该模型已在 Hugging Face 上发布,供开发者自由使用。此举延续了 NVIDIA 在 AI 领域开放生态的策略,旨在推动更多创新应用。Cosmos 3 的开放将加速研究者和工程师在视觉、语言等多模态任务上的探索。AI模型开源/仓库多模态模型NVIDIACosmos 3Hugging Face9 个信源在谈推荐理由:NVIDIA 把 Cosmos 3 的权重和训练配方全开源了,做多模态研究的团队可以直接下载使用,省去从头训练的算力成本,值得点开看看。原文
15:06NVIDIA AI@NVIDIAAI精选NVIDIA AI 发布了一个基于数十亿跨模态样本训练的多模态预训练模型,旨在为开发者提供强大的基础模型,用于构建物理AI系统。该模型能显著减少所需的数据量和训练成本,使开发者能够更高效地开发机器人、自动驾驶等物理AI应用。NVIDIA 在技术博客中详细介绍了该模型的架构和性能优势。AI模型NVIDIA多模态模型预训练模型物理AI机器人8 个信源在谈推荐理由:做物理AI(如机器人、自动驾驶)的开发者终于有了一个强大的预训练基础,能大幅降低数据收集和训练成本,建议直接查看技术博客了解细节。原文
20:57berryxia@berryxia腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。AI模型OCR古文字识别多模态模型基准测试文化遗产推荐理由:这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字,只是认载体。做文化遗产数字化或OCR研究的团队,看完会重新思考模型能力的边界。原文
15:16向阳乔木@vista8网易有道持续开源其大模型,包括轻量级推理模型子曰-o1和数学模型子曰3,均支持单块消费级GPU运行。基于这些模型,有道已推出龙虾LobsterAI、同传Agent、Thinkflow等AI Agent产品。最新开源了全模态模型和TTS模型,标志着从教育垂直模型向AI Agent基础设施方向拓展。开源生态建设虽难但长期价值高,开发者可在线体验TTS和下载多模态模型。AI产品网易有道开源/仓库多模态模型TTSAI Agent推荐理由:网易有道从教育垂直模型转向AI Agent基建,开源的多模态和TTS模型让做Agent开发的团队可以直接用消费级GPU跑,值得关注其生态进展。原文
08:00The Rundown AI@therundownai93°在 Google I/O 大会上,Demis Hassabis 正式介绍了 Gemini Omni,一个号称“能从任何输入创建任何输出”的新型 AI 模型。该模型支持文本、图像、音频、视频等多种模态的输入与生成,旨在实现真正的多模态理解和创作。这一发布标志着 Google 在通用 AI 能力上的重要一步,可能重塑内容创作、人机交互等领域的范式。目前具体技术细节和上线时间尚未公布,但已引发行业广泛关注。AI模型Gemini Omni多模态模型Google I/OAI 创作人机交互推荐理由:Gemini Omni 把多模态 AI 的边界推到了“任意输入→任意输出”,做内容创作、产品设计或人机交互的团队值得关注——这可能是下一代 AI 应用的基础设施。原文
07:59DeepLearning.AI@DeepLearningAIDeepLearningAI 在 X 平台发起一项投票,测试当前 AI 图像模型能否正确识别图片中的两种健身器材。该投票旨在引发对多模态推理模型能力的讨论,并推广其“AI Prompting for Everyone”课程。目前投票选项包括“能”、“不能”和“可能”,已有 682 次浏览和 5 次投票。这反映了业界对 AI 视觉理解真实世界物体能力的持续关注。AI模型多模态模型图像识别推理模型DeepLearningAIAI 投票推荐理由:想了解多模态模型在真实场景中的识别能力?这个投票让你快速感知 AI 的视觉推理边界,做 AI 应用开发的可以参与讨论并学习提示技巧。原文
07:59Google Gemini App@GeminiApp72°在 Google I/O 大会上,Gemini 宣布了一系列重大更新,包括对 Gemini 体验的完全重新设计,引入 Neural Expressive 技术。Gemini 将推出智能体功能,如 Daily Brief 和 Gemini Spark,提供更主动的助手体验。同时发布了 Gemini Omni 和 3.5 Flash 模型,性能与效率进一步提升。这些更新标志着 Gemini 从单一对话助手向多模态智能体平台的转型。AI产品GeminiGoogle I/O智能体多模态模型AI 助手推荐理由:Google 把 Gemini 从对话助手升级为智能体平台,做 AI 应用开发或日常重度使用的团队值得关注——Daily Brief 和 Spark 这类主动服务可能改变人机交互方式。原文
00:14rohanpaul_ai@rohanpaul_ai76°中国 AI 实验室商汤开源了 SenseNova U1,这是一个统一的多模态模型,能在单一模型中理解、推理并生成图像和文本。其架构去除了传统的视觉编码器和变分自编码器,在共享表示空间中处理图像和语言,减少了模块间切换和信息损失,提升了生成一致性。该模型在生成信息图、指南、海报、漫画等密集视觉内容时表现出色,据客户基准测试,生成信息图的速度约为 Qwen-Image-2.0 / Seedream-4.5 的两倍,且质量相当。AI模型商汤SenseNova U1多模态模型开源/仓库图像生成推荐理由:商汤的架构创新解决了多模态模型常见的模块间信息丢失问题,做视觉内容生成或信息图设计的团队可以直接用这个开源模型,生成效率翻倍值得一试。原文
14:27rohanpaul_ai@rohanpaul_ai76°中国AI实验室商汤科技在HuggingFace上发布了SenseNova U1模型,采用原生多模态建模和MoT架构(38B激活3B MoE)。该模型将多模态生成视为一个统一的建模问题,而非分离的视觉、语言和图像模块链,从而减少了模块间的信息损失,提升了生成内容的一致性。SenseNova U1特别擅长生成可读、结构化、一致的图文输出,如信息图、指南、海报、漫画等。它支持ComfyUI,推理速度快(A3B),为密集视觉内容创作提供了高效工具。AI模型SenseNova U1多模态模型MoT架构MoE开源/仓库推荐理由:SenseNova U1解决了多模态生成中模块切换导致的信息丢失问题,做信息图、海报、漫画等密集视觉内容的创作者可以直接用ComfyUI体验,效果惊艳。原文
09:52shao__meng@shao__meng83°Google 在 I/O 大会上发布了 Gemini Omni,这是一个原生多模态的「理解+生成」模型,主攻视频领域。与 Veo、Sora 等传统视频生成模型不同,Omni 从底层设计为多模态,支持任意组合输入(图、文、视频、音频)产出或编辑视频。其核心差异化能力包括对话式视频编辑(多轮修改保持一致性)、结合世界知识与物理直觉的生成,以及任意参考物组合。Omni 在编辑方式、提示词要求和知识运用上全面超越现有模型,标志着视频生成进入新阶段。AI产品Gemini Omni多模态模型视频生成对话式编辑Google I/O推荐理由:做视频创作或 AI 内容生成的团队,终于有了一个能像聊天一样改视频的工具——多轮编辑保持一致性,不用每次重写 prompt,建议直接看官方对比。原文
08:18berryxia@berryxia76°Google 发布 Gemini Omni,一种不仅能生成逼真视频,还能基于物理直觉和知识推理场景后续发展的 AI 模型。它将物理直观与历史、科学、文化背景知识结合,使生成内容更符合现实逻辑。该模型即日起面向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,首批支持视频输出。这一进展标志着视频生成从单纯视觉真实迈向因果推理的新阶段。AI模型Gemini Omni视频生成物理推理Google AI多模态模型推荐理由:做视频生成或物理模拟的开发者值得关注——Gemini Omni 把常识推理带进视频生成,让 AI 不再只是“画得好”,而是“想得对”。原文
22:36向阳乔木@vista8豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 0428 开始内测,新增音频理解能力,支持图片、视频、音频、文本四种输入。该模型在 Agent、Coding、GUI 能力上也有明显提升。测试案例包括前端动效复刻、视频 Hooks 建议、字幕识别等。目前第三方 AI Chat 客户端普遍不支持音视频上传解析,限制了该模型的应用。AI模型豆包Doubao-Seed-2.0-lite全模态理解音频理解多模态模型推荐理由:豆包终于补齐了音频理解短板,做多模态应用的开发者可以直接拿 API 测试前端动效复刻、视频分析等场景,比之前只能处理文本和图片强太多。原文
13:37百川智能 Baichuan@BaichuanAI百川智能发布了Baichuan-Omni-1.5模型,在视觉、语音和多模态流处理方面超越了GPT-4o mini。该模型在多模态医疗应用领域表现尤为突出,显示出更强的专业能力。这一进展表明国产多模态模型在特定垂直领域已具备国际竞争力。AI模型百川智能多模态模型GPT-4o mini医疗AI视觉/语音推荐理由:多模态模型在医疗场景的突破值得关注,做AI医疗应用或跨模态处理的团队可以看看百川的进展,对比GPT-4o mini的性价比可能更高。原文