17:01IT之家(博客/媒体)商汤科技开源了 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 模型,专为图文交错创作场景优化。该模型解决了多轮生成中角色形象飘移、画风断裂、图文脱节等痛点,支持绘本、故事书、多页 PPT 等连续内容创作。核心升级包括叙事连贯性与角色一致性提升、图文语义对齐增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已在 Hugging Face 开源,适合需要高质量图文内容生成的创作者和开发者。AI模型商汤SenseNova U1图文交错生成开源/仓库多模态模型推荐理由:做绘本、PPT 或教程的创作者终于不用反复修图了——这个模型能保持角色和画风从头到尾一致,直接生成多页内容,建议试试。原文
02:51marktechpost@Asif Razzaq88°Google DeepMind 发布了 Gemma 4 12B,一款无编码器的多模态模型,直接将视觉和音频输入送入 LLM 主干,无需传统视觉或音频编码器。该模型原生支持音频理解,可在 16GB 内存的笔记本电脑上本地运行,并采用 Apache 2.0 开源许可。这降低了多模态 AI 的硬件门槛,让开发者能在消费级设备上部署视觉和音频处理能力。Gemma 4 12B 的发布标志着多模态模型向轻量化和本地化迈出重要一步。AI模型多模态模型开源/仓库Gemma 4 12B本地部署无编码器2 个信源在谈推荐理由:多模态模型终于能跑在普通笔记本上了,做本地 AI 应用或边缘计算的开发者可以直接下载试用,16GB 内存就能跑视觉+音频推理,开源许可也友好。原文
16:03pandaily@contact@pandaily.com (Pandaily)在 BEYOND Expo 2026 上,OmAI 推出了 AI 视频创作助手 OttoBox,基于自研多模态模型 OmModel。该工具能将视频粗剪时间从 8 小时缩短至 30 分钟,大幅提升创作效率。OttoBox 面向视频创作者、营销团队和内容制作人,旨在降低视频制作门槛。这一发布标志着 AI 在视频编辑领域的实用化进展。AI产品视频创作多模态模型AI 编辑OttoBoxOmAI推荐理由:视频创作者和营销团队终于有了能真正省时间的 AI 工具——粗剪从半天缩到半小时,建议做短视频或宣传片的直接试试。原文
15:13pandaily@contact@pandaily.com (Pandaily)LINKER Technology 在 BEYOND Expo 2026 上推出了 OttoBox,一款基于自研 OmModel 多模态模型的 AI 视频创作助手。该工具将视频粗剪时间从传统的 8 小时大幅缩短至 30 分钟,显著提升视频制作效率。OttoBox 利用 AI 自动识别关键片段、生成剪辑建议,并支持快速导出。这一产品面向内容创作者、视频编辑团队和营销人员,有望降低视频制作门槛。AI产品AI 视频创作多模态模型OttoBoxLINKER Technology视频编辑推荐理由:视频创作者和剪辑团队终于有了能真正省时间的 AI 工具——粗剪效率提升 16 倍,建议做短视频或营销内容的直接试用。原文
21:43Decoder@Jonathan Kemper精选72°字节跳动Seed团队研究发现,通过提问方式训练7B参数的多模态大模型(LMM),在处理长文档(尤其是图像密集型文档)时,其可靠性甚至超过更大规模的模型。该模型能处理比训练时见过的文档长四倍的内容,且无需逐页转录文本,而是通过自主寻找相关段落来回答问题。这一方法显著提升了长文档问答的效率与准确性,为多模态模型在复杂文档理解任务中的应用提供了新思路。论文字节跳动多模态模型长文档理解训练方法问答推荐理由:做文档理解或长文本AI应用的团队值得关注——字节跳动用提问替代转录,让7B模型在长文档任务上超越大模型,直接降低了计算成本,建议点开看看具体方法。原文
17:49IT之家(博客/媒体)精选网易有道宣布将“子曰”大模型 4.0 的核心双引擎——多模态模型(27B 参数)和语音合成(TTS)模型面向全球全量开源。多模态模型在视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率达 81.4%,并通过思维链重构将输出长度压缩 43.2%,降低推理成本。TTS 模型支持跨语种音色情感迁移克隆,3 秒内完成零样本原声复制,准确度超 97%,覆盖 14 种语言。开发者可免费下载、部署并二次开发,适合教育场景和语音应用。AI模型开源/仓库多模态模型语音合成教育场景网易有道推荐理由:教育场景的开发者终于有了可商用的开源多模态模型——27B 参数在数理问题上达到 SOTA,且推理成本更低;TTS 模型 3 秒克隆音色并跨语种带情感,做语音助手或教育产品的团队可以直接下载试试。原文
16:09pandaily@contact@pandaily.com (Pandaily)精选HiDream AI 推出了其原生统一多模态模型 HiDream-O1-Image-Pro,该模型拥有超过 2000 亿参数,能够处理图像、文本等多种模态信息。同时,公司宣布完成新一轮亿元级融资,资金将用于模型研发和商业化落地。这一进展标志着多模态大模型在参数规模和统一架构上迈出了重要一步,有望推动更复杂的跨模态应用场景。AI模型多模态模型HiDream AIHiDream-O1-Image-Pro参数规模融资推荐理由:200B+ 参数的统一多模态模型意味着更强的跨模态理解和生成能力,做多模态 AI 应用或研究的团队值得关注其技术细节和后续开源动态。原文
16:08pandaily@contact@pandaily.com (Pandaily)76°字节跳动开源了Lance,一个仅3B激活参数的原生统一多模态AI模型。Lance能在一个系统中同时处理图像理解、图像生成和视频任务,无需多个模型拼接。该模型采用原生多模态架构,而非传统的视觉编码器+语言模型组合,实现了更高效的跨模态交互。Lance的开源发布为多模态AI研究提供了轻量级基线,尤其适合资源受限场景下的部署。AI模型多模态模型开源/仓库字节跳动Lance轻量级模型推荐理由:Lance用3B参数实现了图像理解+生成+视频的统一处理,做多模态应用或边缘部署的团队可以直接拿来用,省去多模型集成的麻烦。原文
13:58IT之家(博客/媒体)精选83°字节跳动开源了名为Lance的多模态AI模型,激活参数量仅3B,却能原生统一处理图像理解、视频理解、图像生成、视频生成和跨模态编辑等任务。与常见将理解与生成拆分为多个模块的方案不同,Lance从训练起就采用共享上下文与能力解耦的双流专家架构,兼顾高层语义特征与低层连续表示。在多项基准测试中,Lance在图像生成、视频生成、图像编辑和视频理解上均取得领先成绩,例如GenEval总分0.90、VBench总分85.11。模型采用Apache 2.0许可开源,权重已在Hugging Face提供,推理需至少40GB显存。AI模型多模态模型开源/仓库字节跳动Lance统一模型推荐理由:Lance用3B参数实现了多模态理解与生成的统一,解决了传统方案模块拼接效率低、能力割裂的问题。做多模态AI研究或应用开发的团队可以直接下载权重试试,尤其适合资源有限但想探索统一模型的场景。原文
01:31IT之家(博客/媒体)76°在 2026 年谷歌 I/O 大会上,谷歌正式发布 Gemini Omni 模型,宣称能“从任何输入生成任何输出”,支持对话式编辑,用户可通过一句话改变视频中的角色、背景等元素。首款模型 Gemini Omni Flash 即日起在 Gemini App、Google Flow、YouTube Shorts 可用,未来将推出 API 服务。该模型标志着多模态 AI 进入更灵活、更直观的交互阶段,降低了视频编辑门槛。AI产品谷歌Gemini Omni多模态模型视频编辑对话式交互推荐理由:视频创作者和内容运营团队终于可以像聊天一样改视频了——Gemini Omni 让一句话替换背景、角色成为现实,建议做短视频或后期的人直接体验。原文
18:37IT之家(博客/媒体)在联发科天玑开发者大会(MDDC 2026)上,OPPO推出了行业首个端侧AIGC光影处理引擎,基于自研DiT架构生成式大模型,用户无需联网即可在手机本地优化暗光、逆光等复杂光线下的照片,效果接近云端模型水平。同时,OPPO还展示了基于天玑9500芯片的端侧AI翻译技术,出词速率达每秒300个token,以及业界首个端侧全模态Omni模型,支持视频、语音、文本三种输入。此外,手机超级助手“小布Claw”能基于本地数据提供个性化建议,所有敏感能力需用户授权,确保数据不出设备。这些技术标志着端侧AI在影像、翻译和多模态交互上的重要突破。AI产品OPPO端侧AIAIGC光影处理AI翻译多模态模型推荐理由:OPPO把专业级AI调色能力塞进手机本地,摄影爱好者不用联网也能拯救逆光废片,建议喜欢手机拍照的试试这个功能。原文