22:52NVIDIA AI@NVIDIAAIMiniMax 团队发布了 MiniMax M3,这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制,总参数量约 428B,激活参数仅约 23B,在保持高性能的同时大幅降低了计算成本。该模型已开源权重,可在 Hugging Face 获取,并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。AI模型MiniMaxM3多模态模型长上下文开源/仓库10 个信源在谈推荐理由:多模态推理模型终于有了高效的开源选择——MiniMax M3 用 23B 激活参数实现长上下文多模态推理,做视频分析或长文档处理的团队可以直接在 NVIDIA 端点免费试,值得关注。原文
17:01IT之家(博客/媒体)商汤科技开源了 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 模型,专为图文交错创作场景优化。该模型解决了多轮生成中角色形象飘移、画风断裂、图文脱节等痛点,支持绘本、故事书、多页 PPT 等连续内容创作。核心升级包括叙事连贯性与角色一致性提升、图文语义对齐增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已在 Hugging Face 开源,适合需要高质量图文内容生成的创作者和开发者。AI模型商汤SenseNova U1图文交错生成开源/仓库多模态模型推荐理由:做绘本、PPT 或教程的创作者终于不用反复修图了——这个模型能保持角色和画风从头到尾一致,直接生成多页内容,建议试试。原文
12:44John Schulman@johnschulman2精选Thinky 团队分享了全双工多模态模型的研究成果,该模型支持实时、自然的交互,同时不牺牲智能水平。创始人 John Schulman 指出,人机协作能力在 AI 领域常被低估,因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层,持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。AI模型全双工多模态模型实时交互人机协作Thinky推荐理由:全双工交互解决了 AI 对话中“你说我听”的延迟感,做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。原文
12:26xiaomimimo@xiaomimimo精选小米旗下 MiMo 团队发布了 MiMo Code V0.1,一款开源的终端 AI 编程助手。它内置了 MiMo V2.5 多模态模型,支持百万 token 上下文窗口,并具备无限上下文、智能体-模型协同、设计优先的 Compose 模式、自进化系统、语音输入等功能。该工具兼容 Claude Code,可零成本迁移现有技能和 MCP 服务器,并支持多种主流模型提供商。项目采用 MIT 许可,已在 GitHub 开源。AI产品编程助手开源/仓库MiMo Code多模态模型终端工具推荐理由:小米把终端 AI 编程助手做成了开源产品,百万 token 上下文和自进化系统对处理大型项目的开发者很实用,兼容 Claude Code 让迁移几乎无感,建议试试。原文
11:45Microsoft AI@MicrosoftAI精选微软AI实验室在MSBuild 2026上发布了7个新模型,涵盖推理、代码、图像、语音和转录能力。这些模型基于科学和清洁的商业安全数据构建,设计为无缝协作。微软AI负责人Mustafa Suleyman在主题演讲中展示了这些进展,标志着微软在AI领域的快速扩张。AI产品微软多模态模型推理模型代码模型MSBuild推荐理由:微软一口气推出7个覆盖多模态的模型,做AI应用开发的团队可以直接集成这些能力,减少自研成本,值得关注。原文
17:49Geek@geekbb精选72°腾讯混元团队开源了 UniRL 框架,它将强化学习后训练流程(采样、打分、计算优势、更新策略、同步权重)统一应用于多种多模态模型。该框架同时支持图像/视频扩散模型和自回归语言模型,为多模态 AI 的后训练提供了标准化方案。UniRL 解决了不同模态模型在 RL 后训练中流程不统一、实现复杂的问题,降低了多模态强化学习的门槛。开发者可以直接在 GitHub 上获取代码并尝试。AI产品腾讯混元UniRL强化学习多模态模型开源/仓库推荐理由:做多模态模型后训练的团队终于有了统一框架——UniRL 把扩散模型和语言模型的 RL 流程标准化了,省去重复造轮子的时间,值得直接上手试。原文
22:19Hunyuan@TXhunyuan72°腾讯混元团队推出UniRL,一个面向统一多模态模型的强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型(LLM)和视觉语言模型(VLM)的强化学习训练,并同时发布两个新算法:DRPO和Flow-DPPO。UniRL旨在用一个强化学习循环覆盖多种模型类型,简化多模态模型的训练流程。代码已在GitHub开源,为多模态AI研究提供了新的基础设施选择。AI模型强化学习多模态模型开源/仓库腾讯混元UniRL推荐理由:多模态模型训练一直面临框架碎片化问题,UniRL用一个RL循环统一了扩散、LLM和VLM,做多模态研究的团队可以直接用开源代码降低实验成本。原文
12:37arXiv cs.LG@Badr AlKhamissi, Johannes Mehrer, Lara Marinov, Ahmed Abdelaal, Abdulkadir Gokce, Martin Schrimpf精选研究团队提出 Topo-Omni,一种多模态地形模型,将视觉、听觉和语言/认知处理整合到单一连续的模拟皮层上。该模型通过微调预训练基础模型并加入空间平滑约束,自发形成了与人类神经影像一致的跨模态功能簇。通过驱动或抑制特定簇,可以选择性影响感知,模拟人类干预实验。模型还发现了新的自然景观和动物网络功能簇,并在人类数据中得到验证。这项工作表明单一空间原则即可组织跨模态和跨处理阶段的表征,为皮层组织提供可检验的假设。论文多模态模型脑区功能地形模型神经科学Topo-Omni推荐理由:神经科学和AI交叉领域的研究者会感兴趣——Topo-Omni用单一模型统一了多模态皮层地图,还能预测新脑区,做认知建模或脑启发AI的团队值得关注。原文
05:45Google AI@GoogleAIGoogle AI 本周密集发布多项产品更新:Nano Banana 2 和 Nano Banana Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 使用;Co-Scientist 是一个多智能体系统,用于结构化科学思维,能生成和优化新假设;dreambeans 可基于 Google 应用数据自动生成个性化每日话题;Gemma 4 12B 是统一无编码器模型,支持离线多模态智能;Gemma 4 模型及其 drafters 已通过量化感知训练优化,降低内存需求并提升端侧性能;RealTime 2 是开放权重的实时音乐模型,可通过 MIDI 键盘、文本提示和手势演奏。AI产品智能体多模态模型开源/仓库Gemma 4Co-Scientist10 个信源在谈推荐理由:Google 一周内连发 6 项更新,覆盖企业智能体、科学推理、端侧模型和创意工具,做 AI 应用开发或科学研究的团队值得逐一了解,尤其是 Co-Scientist 和 Gemma 4 12B 的离线能力值得一试。原文
11:42AI Will@FinanceYF583°谷歌发布了 Gemma 4 12B,一款轻量级多模态 AI 模型,无需重型编码器栈即可在笔记本电脑上本地运行。该模型支持视觉、音频、推理和智能体四大核心能力,采用 Apache 2.0 开源协议。这降低了多模态 AI 的硬件门槛,让个人开发者和小团队也能在本地部署和实验。对于关注边缘计算和隐私保护的 AI 从业者来说,这是一个值得关注的开源选择。AI模型多模态模型开源/仓库本地部署推理模型Gemma推荐理由:Gemma 4 12B 让多模态 AI 真正跑在笔记本上,做本地推理、智能体或隐私敏感应用的开发者可以直接拿来用,省去云端依赖。原文
09:36ollama@ollama精选Google 的 Gemma 4 12B 模型已更新至 Ollama,支持所有平台运行。该模型是统一的无编码器多模态模型,专为笔记本电脑设计,在边缘效率与高级推理之间取得平衡,并采用 Apache 2.0 许可。用户可通过 Ollama 在 Claude Code、Hermes Agent、OpenClaw、Codex 等工具中直接调用。AI模型Gemma 4Ollama多模态模型本地部署开源/仓库10 个信源在谈推荐理由:本地运行多模态模型的门槛又降低了——Gemma 4 12B 在 Ollama 上即开即用,做本地 AI 应用或边缘推理的开发者可以直接上手试。原文
16:45AI Will@FinanceYF572°微软在 Microsoft Foundry 平台一次性推出七款新模型,强调“零蒸馏”技术,即模型完全由原始训练数据生成,未经过蒸馏压缩,保证了更高的原始性能和透明度。其中多模态模型已于今日在 OpenRouter 上线,Thinking 模型即将登陆 OpenRouter、Fireworks AI 和 Baseten 等平台。这一举措为开发者提供了更多高质量、可溯源的模型选择,尤其适合对模型纯净度和可解释性有要求的场景。AI模型微软零蒸馏多模态模型Thinking模型OpenRouter推荐理由:零蒸馏模型意味着更高的原始性能和可追溯性,做模型评估或对数据纯净度敏感的团队值得关注,可以直接在 Foundry 和 OpenRouter 上试用。原文
10:18arXiv cs.AI@Jie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong多模态模型在长视频理解中,记忆能力成为关键瓶颈。现有基准多聚焦感知与推理,缺乏对记忆的系统评估。北京大学团队提出M³Eval,基于认知心理学设计任务,从信息保留、保真度、抗干扰性等维度评估模型记忆。实验发现,模型在并行视频流中难以保持分离表征,时空记忆可靠性差异大,符号记忆有限。该基准为多模态记忆研究提供了重要资源,揭示了模型记忆与人类记忆的显著差异。论文多模态模型记忆评估视频理解认知心理学基准测试推荐理由:做多模态模型或视频理解的团队,M³Eval 帮你找到模型记忆的短板,看完你会重新思考模型架构设计。原文
08:22berryxia@berryxiaGoogle 昨晚发布了 Gemma 4 12B 多模态大模型,该模型支持文本和图像输入,最低只需 16GB 内存即可运行。这降低了多模态模型的本地部署门槛,适合个人开发者和资源受限的环境。与 Qwen 等同类模型的对比结果值得关注,可能影响开源多模态模型的竞争格局。AI模型多模态模型Gemma 4Google本地部署开源模型10 个信源在谈推荐理由:多模态模型本地运行门槛进一步降低,做 AI 应用或本地部署的开发者可以关注 Gemma 4 与 Qwen 的对比,评估是否值得迁移或尝试。原文
02:51marktechpost@Asif Razzaq88°Google DeepMind 发布了 Gemma 4 12B,一款无编码器的多模态模型,直接将视觉和音频输入送入 LLM 主干,无需传统视觉或音频编码器。该模型原生支持音频理解,可在 16GB 内存的笔记本电脑上本地运行,并采用 Apache 2.0 开源许可。这降低了多模态 AI 的硬件门槛,让开发者能在消费级设备上部署视觉和音频处理能力。Gemma 4 12B 的发布标志着多模态模型向轻量化和本地化迈出重要一步。AI模型多模态模型开源/仓库Gemma 4 12B本地部署无编码器2 个信源在谈推荐理由:多模态模型终于能跑在普通笔记本上了,做本地 AI 应用或边缘计算的开发者可以直接下载试用,16GB 内存就能跑视觉+音频推理,开源许可也友好。原文
02:36Google AI Developers@googleaidevs78°Google 发布了 Gemma 4 12B,一款无编码器的多模态模型,可直接在笔记本电脑上运行。该模型去除了传统的视觉和音频编码器,让输入直接进入 LLM 主干,实现高效的多模态推理。在 16GB VRAM 下即可运行复杂智能体工作流,性能接近其 26B 的 MoE 模型。采用 Apache 2.0 许可,适合本地部署和开发。AI模型Gemma 4多模态模型无编码器本地推理Apache 2.010 个信源在谈推荐理由:无编码器架构让多模态模型更轻量、更高效,做本地 AI 应用或智能体开发的团队可以直接在笔记本上跑,值得一试。原文
00:33Philipp Schmid@_philschmid76°Google 发布了 Gemma 4 12B,这是其首个支持原生音频输入的中型多模态模型。该模型采用无编码器架构,直接将视觉和音频信息融入大语言模型,仅需 16GB 内存即可运行。在基准测试中,其性能接近 26B 参数模型,且采用 Apache 2.0 开源许可。这标志着中小型模型在多模态能力上的重要突破,尤其适合资源受限的开发者。AI模型Gemma 4多模态模型音频输入开源/仓库Google10 个信源在谈推荐理由:Gemma 4 12B 让中小团队也能用上原生音频多模态模型,16GB 内存门槛极低,做语音交互或视觉应用的开发者可以直接下载试试。原文
10:58arXiv cs.AI@Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna多模态语言模型在空间推理任务中常因无法直接观察关键信息而表现不佳。研究者提出 Imaginative Perception Tokens (IPT),一种中间感知表征,让模型能推断未观察到的空间结构,如从不可见视角看物体、追踪遮挡路径等。在 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务上,IPT 监督显著提升空间推理准确率,在 MVC 上提升 3.4%,且优于文本思维链训练。研究发现文本思维链在空间计算中可能因模态不匹配而降低性能,而 IPT 提供了更有效的监督信号。该方法无需在推理时生成图像,即可产生可解释的中间表征,提升泛化能力。论文空间推理多模态模型Imaginative Perception Tokens视觉语言模型思维链推荐理由:空间推理是多模态模型的短板,IPT 提供了一种不依赖文本思维链的监督方式,做视觉推理或空间理解的团队可以直接参考论文方法。原文
09:42arXiv cs.AI@Siyan Li, Zehao Wang, Jiachen Li, Kanok Boriboonsomsin, Matthew J. Barth, Guoyuan Wu这篇综述论文系统回顾了大语言模型(LLM)和多模态大语言模型(MM-LLM)在交通系统管理与运营(TSMO)中的应用。研究覆盖了交通运营与服务、出行与车队服务、数据建模与决策支持三个领域,通过PRISMA方法筛选并分析了现有研究。论文指出,LLM在数据异构性、实时推理、可解释性、多模态融合和治理方面仍面临挑战,但作为决策支持层具有巨大潜力,特别是MM-LLM在整合文本、视觉和传感器数据时表现突出。未来方向包括本地化适配、边缘部署、基准测试和跨机构协作。论文大语言模型多模态模型交通系统管理决策支持综述论文推荐理由:这篇综述为交通领域的从业者提供了LLM应用的完整地图——从传感器数据到决策支持,做智慧交通或城市管理的团队可以直接参考其中的案例和挑战,避免重复踩坑。原文
18:24berryxia@berryxia精选76°KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B,总参数 30B 但活跃参数仅 3B,采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文,视频理解能力随输入帧数增加而准确率上升,打破长视频导致模型迷失的直觉。在多个长视频基准上,其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解,是多模态领域的重要进展。AI模型多模态模型稀疏注意力开源/仓库视频理解KwaiKeye推荐理由:做视频理解或多模态应用的开发者,终于有了一个长上下文和深度理解兼得的开源模型,建议直接去 Hugging Face 下载试试。原文
16:03pandaily@contact@pandaily.com (Pandaily)在 BEYOND Expo 2026 上,OmAI 推出了 AI 视频创作助手 OttoBox,基于自研多模态模型 OmModel。该工具能将视频粗剪时间从 8 小时缩短至 30 分钟,大幅提升创作效率。OttoBox 面向视频创作者、营销团队和内容制作人,旨在降低视频制作门槛。这一发布标志着 AI 在视频编辑领域的实用化进展。AI产品视频创作多模态模型AI 编辑OttoBoxOmAI推荐理由:视频创作者和营销团队终于有了能真正省时间的 AI 工具——粗剪从半天缩到半小时,建议做短视频或宣传片的直接试试。原文
15:13pandaily@contact@pandaily.com (Pandaily)LINKER Technology 在 BEYOND Expo 2026 上推出了 OttoBox,一款基于自研 OmModel 多模态模型的 AI 视频创作助手。该工具将视频粗剪时间从传统的 8 小时大幅缩短至 30 分钟,显著提升视频制作效率。OttoBox 利用 AI 自动识别关键片段、生成剪辑建议,并支持快速导出。这一产品面向内容创作者、视频编辑团队和营销人员,有望降低视频制作门槛。AI产品AI 视频创作多模态模型OttoBoxLINKER Technology视频编辑推荐理由:视频创作者和剪辑团队终于有了能真正省时间的 AI 工具——粗剪效率提升 16 倍,建议做短视频或营销内容的直接试用。原文
15:07NVIDIA AI@NVIDIAAI精选NVIDIA 宣布其 Cosmos 3 模型完全开源,包括模型权重和训练配方。该模型已在 Hugging Face 上发布,供开发者自由使用。此举延续了 NVIDIA 在 AI 领域开放生态的策略,旨在推动更多创新应用。Cosmos 3 的开放将加速研究者和工程师在视觉、语言等多模态任务上的探索。AI模型开源/仓库多模态模型NVIDIACosmos 3Hugging Face9 个信源在谈推荐理由:NVIDIA 把 Cosmos 3 的权重和训练配方全开源了,做多模态研究的团队可以直接下载使用,省去从头训练的算力成本,值得点开看看。原文
15:06NVIDIA AI@NVIDIAAI精选NVIDIA AI 发布了一个基于数十亿跨模态样本训练的多模态预训练模型,旨在为开发者提供强大的基础模型,用于构建物理AI系统。该模型能显著减少所需的数据量和训练成本,使开发者能够更高效地开发机器人、自动驾驶等物理AI应用。NVIDIA 在技术博客中详细介绍了该模型的架构和性能优势。AI模型NVIDIA多模态模型预训练模型物理AI机器人8 个信源在谈推荐理由:做物理AI(如机器人、自动驾驶)的开发者终于有了一个强大的预训练基础,能大幅降低数据收集和训练成本,建议直接查看技术博客了解细节。原文
13:58arXiv: OpenAI@Alejandra Zambrano, Sara Vera Marjanovic, Imene Kerboua, Xing Han Lù, Leila Kosseim精选LLM网页智能体在探索、关键步骤遗漏和任务约束敏感性上存在不足,现有研究认为这些失败源于规划弱点,但自然语言计划表示的影响尚未被系统探索。PlanAhead提出静态规划-执行框架,自动将WebArena任务分为三个难度级别,并在困难任务上评估四种计划表示(顺序子目标、叙事、伪代码、清单)对多模态LLM智能体(OpenAI、阿里巴巴、Google)的影响。引入两个新指标:达成率和解决任务一致性,发现计划形式和底层LLM都显著影响智能体的鲁棒性和任务成功率。论文LLM智能体规划表示WebArena多模态模型评估指标10 个信源在谈推荐理由:做LLM智能体开发的团队终于有了计划表示的系统性对比——选对计划形式能直接提升任务成功率,建议做Web Agent的开发者点开看看具体指标差异。原文
11:07arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang精选浙江大学团队提出 Archon,一个完全预训练的统一多模态模型,用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构,统一了七种模态,并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题,Archon 引入了一种内存高效的语义视频重参数化方法,实现 4 倍 token 压缩同时保留精细动态,并配合语义驱动的视频扩散解码器。此外,提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理,提升了生成保真度和可控性。实验表明,Archon 在多种数字人生成任务上达到或超越现有水平。论文数字人多模态模型视频生成自回归模型token压缩推荐理由:做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了,不用再拼凑多个模型,做沉浸式体验的开发者可以直接参考其架构。原文
11:27arXiv cs.AI@Xinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang精选多模态大模型的视觉输出需要可靠且细粒度的验证。本文提出多模态元验证方法,发现符号化验证器输出(如边界框)比文本解释更有效,且将二元判断与元验证的强化学习目标解耦能显著提升性能。基于此训练的OmniVerifier-M1通用视觉验证器,不仅提供稳健验证和细粒度错误定位,还驱动了M1-TTS智能体生成系统,实现动态区域级自我修正。该工作为更可靠、可解释的多模态验证铺平道路,支持更安全可控的基础模型部署。论文多模态模型元验证强化学习符号化输出自我修正推荐理由:做多模态模型评估或安全部署的团队,可以关注这种符号化元验证思路——它用边界框替代文本解释做奖励信号,既高效又避免依赖辅助模型,直接提升验证的细粒度与可解释性。原文
20:57berryxia@berryxia腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。AI模型OCR古文字识别多模态模型基准测试文化遗产推荐理由:这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字,只是认载体。做文化遗产数字化或OCR研究的团队,看完会重新思考模型能力的边界。原文
15:16向阳乔木@vista8网易有道持续开源其大模型,包括轻量级推理模型子曰-o1和数学模型子曰3,均支持单块消费级GPU运行。基于这些模型,有道已推出龙虾LobsterAI、同传Agent、Thinkflow等AI Agent产品。最新开源了全模态模型和TTS模型,标志着从教育垂直模型向AI Agent基础设施方向拓展。开源生态建设虽难但长期价值高,开发者可在线体验TTS和下载多模态模型。AI产品网易有道开源/仓库多模态模型TTSAI Agent推荐理由:网易有道从教育垂直模型转向AI Agent基建,开源的多模态和TTS模型让做Agent开发的团队可以直接用消费级GPU跑,值得关注其生态进展。原文
21:43Decoder@Jonathan Kemper精选72°字节跳动Seed团队研究发现,通过提问方式训练7B参数的多模态大模型(LMM),在处理长文档(尤其是图像密集型文档)时,其可靠性甚至超过更大规模的模型。该模型能处理比训练时见过的文档长四倍的内容,且无需逐页转录文本,而是通过自主寻找相关段落来回答问题。这一方法显著提升了长文档问答的效率与准确性,为多模态模型在复杂文档理解任务中的应用提供了新思路。论文字节跳动多模态模型长文档理解训练方法问答推荐理由:做文档理解或长文本AI应用的团队值得关注——字节跳动用提问替代转录,让7B模型在长文档任务上超越大模型,直接降低了计算成本,建议点开看看具体方法。原文
17:49IT之家(博客/媒体)精选网易有道宣布将“子曰”大模型 4.0 的核心双引擎——多模态模型(27B 参数)和语音合成(TTS)模型面向全球全量开源。多模态模型在视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率达 81.4%,并通过思维链重构将输出长度压缩 43.2%,降低推理成本。TTS 模型支持跨语种音色情感迁移克隆,3 秒内完成零样本原声复制,准确度超 97%,覆盖 14 种语言。开发者可免费下载、部署并二次开发,适合教育场景和语音应用。AI模型开源/仓库多模态模型语音合成教育场景网易有道推荐理由:教育场景的开发者终于有了可商用的开源多模态模型——27B 参数在数理问题上达到 SOTA,且推理成本更低;TTS 模型 3 秒克隆音色并跨语种带情感,做语音助手或教育产品的团队可以直接下载试试。原文
16:09pandaily@contact@pandaily.com (Pandaily)精选HiDream AI 推出了其原生统一多模态模型 HiDream-O1-Image-Pro,该模型拥有超过 2000 亿参数,能够处理图像、文本等多种模态信息。同时,公司宣布完成新一轮亿元级融资,资金将用于模型研发和商业化落地。这一进展标志着多模态大模型在参数规模和统一架构上迈出了重要一步,有望推动更复杂的跨模态应用场景。AI模型多模态模型HiDream AIHiDream-O1-Image-Pro参数规模融资推荐理由:200B+ 参数的统一多模态模型意味着更强的跨模态理解和生成能力,做多模态 AI 应用或研究的团队值得关注其技术细节和后续开源动态。原文
16:08pandaily@contact@pandaily.com (Pandaily)76°字节跳动开源了Lance,一个仅3B激活参数的原生统一多模态AI模型。Lance能在一个系统中同时处理图像理解、图像生成和视频任务,无需多个模型拼接。该模型采用原生多模态架构,而非传统的视觉编码器+语言模型组合,实现了更高效的跨模态交互。Lance的开源发布为多模态AI研究提供了轻量级基线,尤其适合资源受限场景下的部署。AI模型多模态模型开源/仓库字节跳动Lance轻量级模型推荐理由:Lance用3B参数实现了图像理解+生成+视频的统一处理,做多模态应用或边缘部署的团队可以直接拿来用,省去多模型集成的麻烦。原文
13:58IT之家(博客/媒体)精选83°字节跳动开源了名为Lance的多模态AI模型,激活参数量仅3B,却能原生统一处理图像理解、视频理解、图像生成、视频生成和跨模态编辑等任务。与常见将理解与生成拆分为多个模块的方案不同,Lance从训练起就采用共享上下文与能力解耦的双流专家架构,兼顾高层语义特征与低层连续表示。在多项基准测试中,Lance在图像生成、视频生成、图像编辑和视频理解上均取得领先成绩,例如GenEval总分0.90、VBench总分85.11。模型采用Apache 2.0许可开源,权重已在Hugging Face提供,推理需至少40GB显存。AI模型多模态模型开源/仓库字节跳动Lance统一模型推荐理由:Lance用3B参数实现了多模态理解与生成的统一,解决了传统方案模块拼接效率低、能力割裂的问题。做多模态AI研究或应用开发的团队可以直接下载权重试试,尤其适合资源有限但想探索统一模型的场景。原文
08:00The Rundown AI@therundownai93°在 Google I/O 大会上,Demis Hassabis 正式介绍了 Gemini Omni,一个号称“能从任何输入创建任何输出”的新型 AI 模型。该模型支持文本、图像、音频、视频等多种模态的输入与生成,旨在实现真正的多模态理解和创作。这一发布标志着 Google 在通用 AI 能力上的重要一步,可能重塑内容创作、人机交互等领域的范式。目前具体技术细节和上线时间尚未公布,但已引发行业广泛关注。AI模型Gemini Omni多模态模型Google I/OAI 创作人机交互推荐理由:Gemini Omni 把多模态 AI 的边界推到了“任意输入→任意输出”,做内容创作、产品设计或人机交互的团队值得关注——这可能是下一代 AI 应用的基础设施。原文
07:59DeepLearning.AI@DeepLearningAIDeepLearningAI 在 X 平台发起一项投票,测试当前 AI 图像模型能否正确识别图片中的两种健身器材。该投票旨在引发对多模态推理模型能力的讨论,并推广其“AI Prompting for Everyone”课程。目前投票选项包括“能”、“不能”和“可能”,已有 682 次浏览和 5 次投票。这反映了业界对 AI 视觉理解真实世界物体能力的持续关注。AI模型多模态模型图像识别推理模型DeepLearningAIAI 投票推荐理由:想了解多模态模型在真实场景中的识别能力?这个投票让你快速感知 AI 的视觉推理边界,做 AI 应用开发的可以参与讨论并学习提示技巧。原文
07:59Google Gemini App@GeminiApp72°在 Google I/O 大会上,Gemini 宣布了一系列重大更新,包括对 Gemini 体验的完全重新设计,引入 Neural Expressive 技术。Gemini 将推出智能体功能,如 Daily Brief 和 Gemini Spark,提供更主动的助手体验。同时发布了 Gemini Omni 和 3.5 Flash 模型,性能与效率进一步提升。这些更新标志着 Gemini 从单一对话助手向多模态智能体平台的转型。AI产品GeminiGoogle I/O智能体多模态模型AI 助手推荐理由:Google 把 Gemini 从对话助手升级为智能体平台,做 AI 应用开发或日常重度使用的团队值得关注——Daily Brief 和 Spark 这类主动服务可能改变人机交互方式。原文
00:14rohanpaul_ai@rohanpaul_ai76°中国 AI 实验室商汤开源了 SenseNova U1,这是一个统一的多模态模型,能在单一模型中理解、推理并生成图像和文本。其架构去除了传统的视觉编码器和变分自编码器,在共享表示空间中处理图像和语言,减少了模块间切换和信息损失,提升了生成一致性。该模型在生成信息图、指南、海报、漫画等密集视觉内容时表现出色,据客户基准测试,生成信息图的速度约为 Qwen-Image-2.0 / Seedream-4.5 的两倍,且质量相当。AI模型商汤SenseNova U1多模态模型开源/仓库图像生成推荐理由:商汤的架构创新解决了多模态模型常见的模块间信息丢失问题,做视觉内容生成或信息图设计的团队可以直接用这个开源模型,生成效率翻倍值得一试。原文
14:27rohanpaul_ai@rohanpaul_ai76°中国AI实验室商汤科技在HuggingFace上发布了SenseNova U1模型,采用原生多模态建模和MoT架构(38B激活3B MoE)。该模型将多模态生成视为一个统一的建模问题,而非分离的视觉、语言和图像模块链,从而减少了模块间的信息损失,提升了生成内容的一致性。SenseNova U1特别擅长生成可读、结构化、一致的图文输出,如信息图、指南、海报、漫画等。它支持ComfyUI,推理速度快(A3B),为密集视觉内容创作提供了高效工具。AI模型SenseNova U1多模态模型MoT架构MoE开源/仓库推荐理由:SenseNova U1解决了多模态生成中模块切换导致的信息丢失问题,做信息图、海报、漫画等密集视觉内容的创作者可以直接用ComfyUI体验,效果惊艳。原文
09:52shao__meng@shao__meng83°Google 在 I/O 大会上发布了 Gemini Omni,这是一个原生多模态的「理解+生成」模型,主攻视频领域。与 Veo、Sora 等传统视频生成模型不同,Omni 从底层设计为多模态,支持任意组合输入(图、文、视频、音频)产出或编辑视频。其核心差异化能力包括对话式视频编辑(多轮修改保持一致性)、结合世界知识与物理直觉的生成,以及任意参考物组合。Omni 在编辑方式、提示词要求和知识运用上全面超越现有模型,标志着视频生成进入新阶段。AI产品Gemini Omni多模态模型视频生成对话式编辑Google I/O推荐理由:做视频创作或 AI 内容生成的团队,终于有了一个能像聊天一样改视频的工具——多轮编辑保持一致性,不用每次重写 prompt,建议直接看官方对比。原文