全部 AI 动态 · AI 热点

AITOP

5月21日

08:00

歸藏(guizang.ai)@op7418

AI产品谷歌 Gemini Omni 视频模型多模态实时交互

推荐理由：做视频分析和多模态应用的开发者终于可以上手测试了——Gemini Omni 的实时视频理解能力可能改变视频交互方式，建议有相关需求的团队尽早体验。

原文

03:22

小互@imxiaohu

精选

Open Duck机器人搭载了谷歌的Gemma 4模型，实现了视觉识别和自然语言对话。在演示中，它能识别书桌、水杯等物体并描述场景。机器人还能通过语音与用户进行多轮问答。该方案展示了40亿参数模型在边缘设备上的实时推理能力。

AI产品 Gemma 4 Open Duck 机器人多模态

推荐理由：Gemma 4让机器人会看会聊

原文

5月20日

18:46

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云宣布将于2026年举办Qwen Conference，主题议程聚焦AI原生云、智能体原生云架构、推理未来和多模态视觉技术。会议承诺无冗余内容，直接提供面向全球规模的工程蓝图。该会议旨在展示阿里云在AI基础设施和智能体领域的最新进展，为开发者和企业提供可落地的技术方案。目前已开放注册。

行业 AI原生云智能体推理多模态阿里云

推荐理由：阿里云首次将AI原生云和智能体原生云架构作为核心议题，做云原生和AI基础设施的团队可以提前了解工程蓝图，建议关注注册。

原文

18:30

berryxia@berryxia

72°

ZenMux 平台已上线 Gemini 3.5 Flash 模型，用户可免费体验。该模型在递归二叉树生长测试中，从输入提示词到生成完整 HTML 动画网页仅用 77.56 秒，效果自然优雅。Gemini 3.5 Flash 专为 Agent 设计，在 MCP Atlas、Toolathlon 等多项榜单排名第一，多模态能力超越上一代 Gemini 3.1 Pro。支持按量计费和 Builder 套餐，兼容主流 API 格式。

AI产品 Gemini 3.5 Flash ZenMux Agent 多模态免费体验

推荐理由：AI 开发者可以零成本体验 Google 最新旗舰模型，77 秒生成动画网页展示了其极速推理和 Agent 能力，做创意编程或 Agent 应用的建议立即试用。

原文

15:14

AI Will@FinanceYF5

83°

Google AI 今日宣布推出全新智能搜索框，集成了其最先进的 Gemini 3.5 模型，带来更强的智能体能力。用户可以通过文本、图像、文件和视频等多种模态进行提问，搜索能够跨模态进行推理。该搜索体验将 AI Overviews 和 AI Mode 合并为统一的 AI 搜索体验，支持追问、构建上下文，并提供更个性化的回答。新功能已在全球桌面端和移动端上线。

AI产品 Gemini 3.5 智能搜索多模态智能体 Google AI

推荐理由：Google 将 Gemini 3.5 的智能体能力直接嵌入搜索，意味着日常搜索从关键词匹配升级为多模态推理助手。重度依赖搜索获取信息的用户、研究者和开发者，值得立刻体验这种能理解图片和视频的搜索方式。

原文

14:35

berryxia@berryxia

72°

ZenMux 平台已免费上线 Google 最新发布的 Gemini 3.5 Flash 模型，用户可直接体验。该模型在递归二叉树生长测试中，从输入提示词到生成完整 HTML 动画网页仅用 77.56 秒，效果惊艳。Gemini 3.5 Flash 专为 Agent 设计，在 MCP Atlas、Toolathlon 等多项榜单排名第一，多模态理解能力全面超越上一代 Gemini 3.1 Pro。平台支持零延迟首发，兼容主流 API 格式，并提供免费试用额度。

AI产品 Gemini 3.5 Flash ZenMux Agent 多模态免费试用

推荐理由：Google I/O 刚发布就能免费白嫖，做 Agent 或动画生成的开发者可以立刻上手测试，77 秒出完整 HTML 动画的效率值得一试。

原文

13:09

berryxia@berryxia

83°

Google DeepMind 推出了 Gemini 3.5 Flash 模型，在 Intelligence Index 上获得 55 分，比上一代 Gemini 3 Flash 高 9 分，超越 Grok 4.3 和 Claude Sonnet 4.6。Agentic 任务 Elo 评分达 1656，幻觉率从 92% 降至 61%，多模态理解 MMMU-Pro 达 84%，输出速度超 280 tokens/s，比前代快 70%。但成本大幅上升，运行一次测试的成本是 Gemini 3 Flash 的 5.5 倍，定价为 $1.5/$9 per 1M input/output tokens，是前代的 3 倍。这标志着智能与速度的 Pareto 前沿被刷新，但“Flash”系列的性价比优势不再。

AI模型 Gemini 3.5 Flash Google DeepMind 推理模型多模态成本分析

推荐理由：Gemini 3.5 Flash 在智能和速度上实现了突破，做 AI 应用或 agent 开发的团队值得关注——性能提升显著，但预算敏感型项目需要重新评估成本。

原文

09:28

Google AI@GoogleAI

72°

Google 宣布推出全新智能搜索框，将 AI Overviews 和 AI Mode 合并为统一的 AI 搜索体验。该搜索框基于最先进的 Gemini 3.5 模型，支持文本、图像、文件和视频等多模态输入，并能跨模态进行推理。用户可提出后续问题、构建上下文，获得更个性化和精准的回复。新搜索体验已在全球桌面端和移动端上线。

AI产品 Gemini 3.5 AI 搜索多模态智能体 Google

推荐理由：Google 将 AI 搜索能力整合进一个统一入口，做搜索优化或内容运营的团队值得关注——这意味着用户行为和数据反馈将更集中，直接影响 SEO 策略和内容分发逻辑。

原文

08:13

berryxia@berryxia

83°

Google I/O 2026 主题演讲由 Sundar Pichai 主讲，聚焦「Agentic Gemini 时代」，强调 AI 从聊天机器人进化为能自主思考、执行任务、跨设备运行的「世界模型」。主要发布包括 Gemini 3.5 Flash（速度提升 4 倍，默认模型）、Gemini Omni 多模态世界模型（支持任意输入输出，理解物理世界）、Gemini Spark 全天候自主 Agent，以及 Android XR 智能眼镜预览。Google 将 AI 深度整合到 Search、Workspace、Gmail 等产品中，并推出开发者工具 Antigravity 2.0。整体策略务实，注重落地而非参数竞赛。

行业 Google I/O Gemini 智能体多模态世界模型

推荐理由：Google 把 AI 从聊天工具升级为操作系统级智能体，做开发、用搜索、搞创意的团队都能直接受益——Gemini 3.5 Flash 已可用，建议开发者立刻试试。

原文

07:26

orange.ai@oran_ge

83°

Google 昨晚发布 Gemini flash 3.5 模型，现已可用。该模型在多项指标上大幅超越 3.1 Pro，与 GPT 5.5 接近，且在 Agentic 和多模态能力上更优。价格仅为 GPT 5.5 的三分之一，缓存价格六分之一，API 定价 $1.50/$9.00 每百万 token。上下文窗口达 1M token，速度是其他旗舰模型的 4 倍，非常适合 Agent 场景。

AI模型 Gemini flash 3.5 推理模型多模态 Agent

推荐理由：做 Agent 和多模态应用的开发者终于有了性价比更高的选择——Gemini flash 3.5 速度是旗舰模型的 4 倍，价格却只有 GPT 5.5 的三分之一，建议直接试 API。

原文

04:16

Demis Hassabis@demishassabis

精选

Demis Hassabis 宣布 Gemini Omni 在多模态理解与编辑方面取得重大进展。该模型能处理照片、视频和音频输入，并构建全新场景。初期从视频开始，未来将支持任意输入与输出。用户可上传自己的视频并在其上迭代想法。

AI模型 Gemini Omni 多模态视频编辑场景生成

推荐理由：Gemini Omni能处理视频/音频/图片并构建新场景

原文

03:17

Google AI@GoogleAI

精选

谷歌AI推出Gemini Omni，支持通过自然语言描述来编辑视频。用户只需说出想改变的内容，就能调整角色、场景和风格。该功能类似Nano Banana对图片的编辑方式，但应用于视频领域。

AI产品 Gemini Omni Google 视频编辑多模态

推荐理由：谷歌让你用语言改视频

原文

03:17

Google AI@GoogleAI

精选

GoogleAI 推出 Gemini Omni 模型，支持从文本、图像、音频等多种输入类型生成内容，初始阶段重点支持视频输入。该模型旨在实现“从任何输入创建任何输出”的目标，但官方未公布具体基准测试成绩或模型参数。推文通过 Twitter 线程形式解释其意义，引发社区关注。

AI模型 Gemini Omni GoogleAI 多模态视频生成

推荐理由：谷歌的万能创作模型来了

原文

03:07

Google Gemini App@GeminiApp

精选

Google 即日起向 Google AI Plus、Pro 和 Ultra 订阅用户全球推送 Gemini Omni，支持在 gemini.google 网站和移动应用中使用。未来将陆续支持图像和音频等更多输出格式。该模型可同时处理文本、图像、音频等多模态输入。目前所有 Plus、Pro 和 Ultra 用户均可体验。

AI产品 Gemini Omni Google 多模态

推荐理由：试试谷歌新多模态模型

原文

03:07

Google Gemini App@GeminiApp

精选

Google在Google IO上发布新模型Gemini Omni，可接受图像、视频和文本作为输入，生成高质量视频。该模型利用Gemini的真实世界知识，使视频内容更加准确和连贯。这是多模态视频生成的重要进展，支持从多种混合输入直接创建视频内容。

AI模型 Gemini Omni Google 视频生成多模态

推荐理由：Google发了能多模态生视频的模型

原文

03:00

Justine Moore@venturetwins

Google DeepMind 的 Omni 模型支持最多五张图片和一段视频作为提示输入。用户通过将 Zillow 房产截图批量输入模型，获得了令人满意的分析结果。该功能突破了传统单图限制，适用于房产比较、多角度分析等场景。目前仅支持最多10秒视频，但用户期待更长时长。

AI产品多模态 Google DeepMind Omni 图片提示房产分析

推荐理由：做房产分析或多图对比的团队可以直接用 Omni 批量处理截图，省去手动整理信息的麻烦，值得一试。

原文

02:56

OpenRouter@OpenRouterAI

83°

Google DeepMind 的 Gemini 3.5 Flash 模型已在 OpenRouter 平台上线。该模型在编码、智能体任务和工具使用方面超越了 Gemini 3.1 Pro，同时保持了 Flash 级别的价格和速度。它支持 100 万 token 上下文窗口、6.5 万 token 最大输出，并具备多模态能力。输入价格为每百万 token 1.50 美元，输出价格为每百万 token 9 美元。

AI模型 Gemini 3.5 Flash OpenRouter 编码智能体多模态

推荐理由：做编码和智能体开发的团队终于有了更便宜且更强的选择——Gemini 3.5 Flash 在关键任务上超越 Pro 系列，价格却只有 Flash 档位，值得立刻在 OpenRouter 上试试。

原文

01:47

Justine Moore@venturetwins

精选

Google DeepMind 推出 Omni 模型，支持用户上传真实视频并通过文本指令进行编辑，包括改变动作、风格或主体。用户还可以在视频上直接标注请求。示例中，用户要求“每次拍手时更换帽子”，模型成功执行。该功能展示了多模态模型在视频编辑领域的应用。

AI产品 Omni Google DeepMind 视频编辑多模态

推荐理由：在视频上直接改动作换风格

原文

01:17

Google DeepMind@GoogleDeepMind

Google DeepMind推出Gemini Omni，这是其首个可从任何内容生成任何内容的模型，首先聚焦视频生成。该模型结合了Gemini的推理能力与DeepMind的生成式媒体系统，在多模态理解和编辑方面取得进展。它代表了世界理解、多模态和编辑能力的飞跃。目前已开始部署。

AI模型 Gemini Omni Google DeepMind 多模态视频生成

推荐理由：谷歌发布能生成视频的Gemini Omni

原文

5月19日

23:00

Weaviate@weaviate_io

精选

Weaviate推出新方法，使用Gemini embedding 2 multimodal直接对视频片段进行嵌入。无需转录文本或元数据，将原始视频分割成重叠片段后即可存入Weaviate。用户提问后系统直接从视频中定位相关片段并生成回答。该方法简化了视频搜索流程，消除了预处理步骤。相关notebook和完整指南已在GitHub和Weaviate博客发布。

技巧 Weaviate Gemini 多模态视频检索

推荐理由：视频搜索不用转文字了

原文

13:42

@OpenAIDevs@OpenAIDevs

精选

AltaraTech 利用 OpenAI 模型帮助科学家和工程师处理多模态、复杂的科研数据，实现多步骤研发工作流的透明化。该公司在 OpenAI 开发者日上展示了如何通过 AI 推理跨模态数据、并行化长周期任务，并增强结果的可解释性。这一方案旨在提升科研效率与信任度，目前团队正在招聘。

AI产品 OpenAI 科研智能多模态工作流自动化 AltaraTech

推荐理由：科研团队终于有了可落地的 AI 方案——AltaraTech 用 OpenAI 模型打通多模态数据推理与长流程并行化，做材料、生物等复杂实验的科学家可以直接参考，建议点开看看他们怎么解决透明性痛点。

原文

12:01

Geek@geekbb

72°

阿里巴巴通义千问团队发布了 Qwen 3.7 预览版，包括 Max 和 Plus 两个版本，已在 LMSYS Arena 上线。该模型在文本和视觉任务上表现强劲，使阿里在 Arena 文本榜单升至第6、视觉榜单升至第5。官方表示完整系列模型即将发布，值得期待。

AI模型 Qwen Arena 多模态文本生成阿里

推荐理由：Qwen 3.7 预览版在 Arena 上表现亮眼，阿里排名大幅提升，做多模态或文本生成的应用开发者可以关注后续正式版发布。

原文

09:15

berryxia@berryxia

72°

Odyssey AI 实验室发布了 Starchild-1，这是全球首个实时多模态世界模型。与以往只能生成画面的世界模型不同，Starchild-1 能同时生成真实世界的声音，实现视觉与听觉的同步融合。视频演示中，画面动态与声音实时匹配，营造出完整的场景模拟。这一突破不仅提升了视频生成的真实感，更被视为向通用世界模型迈出的关键一步，旨在让 AI 真正理解和模拟物理世界。

AI模型世界模型多模态实时生成 AI模拟 Odyssey AI

推荐理由：做 AI 模拟、游戏开发或虚拟现实的人会眼前一亮——Starchild-1 让世界模型从“只看”进化到“又看又听”，实时多模态融合直接拉高了物理模拟的真实感，值得关注它的后续开放计划。

原文

08:39

阿里通义 Qwen@Alibaba_Qwen

76°

阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型，已在 Arena 平台上线。在文本 Arena 中，Qwen3.7 Max Preview 综合排名第13，阿里成为第6大实验室；数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中，Qwen3.7 Plus Preview 排名第16，阿里升至第5。这标志着阿里在多模态能力上的显著进步，正式版 Qwen3.7 系列即将发布。

AI模型 Qwen3.7 阿里 Arena 推理模型多模态

推荐理由：Qwen3.7 Preview 在数学和编程子项表现突出，做推理和代码任务的开发者可以关注正式版发布，值得一试。

原文

5月18日

02:34

rohanpaul_ai@rohanpaul_ai

78°

OpenBMB 发布 MiniCPM-o 4.5，一个 9B 参数的全双工多模态模型，能同时看、听、说。它基于 Omni-Flow 框架，将交互视为连续时间流，打破传统轮询式对话，实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B，且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。

AI模型 MiniCPM-o 4.5 全双工多模态开源/仓库实时交互

推荐理由：做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型，值得直接上手试。

原文

5月16日

17:57

Paul Couvert@itsPaulAi

Thinking Machines 展示了其模型 MiniCPM-o 4.5 的全双工交互能力，能同时处理音频、视觉和文本流数据。模型将连续数据流分割为固定长度片段，并按时间戳精确对齐融合，实现实时看、听、说。该设计模仿人类同时对话、观察和思考的方式，交互体验接近真人。早期结果和演示视频已公开，展示了 AI 与人类实时协作的新范式。

AI模型 MiniCPM-o 4.5 全双工交互实时流处理 Thinking Machines 多模态

推荐理由：全双工实时交互解决了 AI 对话中“轮流说话”的延迟痛点，做语音助手或实时交互系统的开发者可以直接看演示和设计思路。

原文

16:49

DeepLearning.AI@DeepLearningAI

DeepLearning.AI 发布《构建多模态数据管道》教程，强调企业数据大多以文本、音频、图像和视频形式存在，但大部分未被利用。教程教授如何跨多模态格式处理和检索数据，释放企业数据的价值。该课程适合数据工程师和AI开发者，旨在解决企业数据利用率低的问题。

AI产品多模态数据管道 DeepLearning.AI 企业数据教程

推荐理由：企业数据中80%是非结构化的多模态数据，做数据工程或AI应用的团队可以直接用这套方法盘活沉睡数据，建议点开看看。

原文

5月14日

18:29

Meta AI@AIatMeta

Meta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark，这是一个原生多模态推理模型，支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线，并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。

AI模型多模态推理模型工具调用智能体 Meta

推荐理由：做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力，Meta 承诺未来开源也值得关注。

原文

15:02

kimi_moonshot@Kimi_Moonshot

月之暗面发布了 Kimi K2.6 Agent Swarm，将并行子智能体数量从 K2.5 的 100 个提升至 300 个，每次运行步数从 1500 步增加到 4000 步。该版本支持输出真实文件而非聊天内容，一次运行可生成 100+ 文件、10 万字文献综述或 2 万行数据集。K2.6 集成了搜索、分析、编程、长文写作和视觉生成等多种异构技能，所有技能可并行运行。用户可通过提供的链接直接体验。

AI产品智能体并行计算 Kimi 月之暗面多模态

推荐理由：K2.6 将并行子智能体规模提升 3 倍，做复杂研究或数据处理的团队可以一次跑出完整报告和数据集，效率提升明显，值得直接上手试。

原文

5月13日

20:25

AK@_akhaliq

精选

商汤科技推出 SenseNova-U1，基于 NEO-unify 架构实现多模态理解与生成的统一。该模型将视觉与语言任务整合至单一框架，无需分离。NEO-unify 架构通过共同表示学习，兼顾高效推理与生成质量。SenseNova-U1 在多个多模态基准上取得竞争力表现。

AI模型 SenseNova-U1 NEO-unify 商汤多模态统一模型

推荐理由：商汤新模型，统一看和写

原文

09:12

TestingCatalog@testingcatalog

Google 在 Gemini 网页版新增了 Omni 横幅，预示即将推出多模态 Agent 功能。Gemini Omni 将能结合文本、图像和视频，并允许用户将自己添加到不同场景中。同时，AI 头像（Likeness）功能也即将登陆 Gemini，可能与 Omni 深度集成，该功能在移动端应用上表现突出。这一更新可能于今日的 Android 发布会上公布。

AI产品 Gemini 多模态 Agent AI头像 Google

推荐理由：Gemini Omni 的推出标志着 Google 在多模态 AI Agent 领域的重大进展，结合 AI 头像功能，将显著提升用户交互体验。

原文

09:12

TestingCatalog@testingcatalog

Meta宣布其AI模型Muse Spark将集成到Meta AI应用的新语音模式和实时摄像头视图中，支持图像生成、地图显示、Reels数据拉取等功能。同时，购物模式新增了Facebook Marketplace搜索能力。Muse Spark将在未来几周内逐步在Ray-Ban Meta和Oakley Meta眼镜上推出，并扩展至WhatsApp、Instagram等平台。

AI产品多模态 Muse Spark Meta 语音模式实时摄像头

推荐理由：Muse Spark的发布标志着Meta在AI多模态交互上的重要进展，通过语音和视觉增强用户体验，并整合购物功能，对AI产品生态有显著影响。

原文

09:12

TestingCatalog@testingcatalog

Google 在 Android Show 2026 上发布了全新的 Android Intelligence，带来多项 AI 功能。新系统支持跨应用自动执行多步骤任务，Gemini 在 Chrome 中新增 Browser Use 功能，可自动填写表单。此外，还推出了“Rambler”语音转文字工具和自定义生成 UI 组件。这些更新显著提升了 Android 的智能化水平，为用户带来更便捷的交互体验。

AI产品智能体多模态大模型 Android Gemini

推荐理由：Android Intelligence 的发布标志着 Google 在移动端 AI 集成上的重要进展，其自动化任务和语音转文字功能将直接影响用户日常使用。

原文

08:42

阶跃星辰 Stepfun@StepFun_ai

Stepfun 发布了 Step Image Edit 2，一个 3.5B 参数的图像模型，在指令式图像编辑基准 KRIS-Bench 上排名第一，涵盖总体、事实和概念类别。其性能超越参数规模 5-6 倍的模型，支持文本到图像生成、指令编辑、双语文字渲染和风格迁移。推理速度快，文本到图像仅需 0.7 秒，每次编辑 1.6 秒，每张图像成本仅 $0.003。该模型已在 Stepfun 开放平台上线，模型 ID 为 step-image-edit-2。

AI模型图像编辑文本到图像多模态 Stepfun 开源/仓库

推荐理由：该模型以极小参数量在图像编辑基准上取得领先，推理速度快且成本低，为图像编辑和生成任务提供了高效的新选择。

原文

02:41

NVIDIA AI@NVIDIAAI

NVIDIA AI官方发布了关于Nemotron 3 Nano Omni的专家问答内容，来自Nemotron Labs。该模型是Nemotron系列的最新进展，专注于边缘设备上的高效AI推理。问答中探讨了模型架构、量化技术与实际部署场景，强调了小模型在保持高性能同时降低计算成本的重要性。这标志着NVIDIA在小型化多模态AI模型上的持续投入。

AI模型 NVIDIA Nemotron 边缘推理模型压缩多模态

推荐理由：对于关注边缘AI部署和模型压缩的开发者，Nemotron系列的技术细节具有实际参考价值，尤其适合了解NVIDIA在小模型领域的最新动态。

原文

5月12日

21:55

AK@_akhaliq

阿里发布Qwen-Image-2.0技术报告，介绍了新一代多模态图像生成模型。该模型在文本到图像生成、图像编辑和风格迁移等任务上表现出色，支持高分辨率输出和细粒度控制。报告详细阐述了模型架构、训练方法和性能评估，表明其在多项基准测试中达到领先水平。这对于推动多模态AI发展和实际应用具有重要意义。

论文多模态图像生成 Qwen 技术报告

推荐理由：Qwen-Image-2.0的发布展示了阿里在多模态生成领域的持续进步，为图像生成任务提供了新的基准和工具，值得相关从业者关注。

原文

21:55

AK@_akhaliq

TMAS（多智能体协同扩展测试时计算）是一种新方法，通过让多个AI智能体协同工作来提升模型推理能力，类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数，仅通过集成多个智能体在测试时分配计算资源，在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径，为资源有限的研究团队提供新思路。

论文推理模型智能体多模态协同计算测试时扩展

推荐理由：TMAS探索了多智能体协同扩展测试时计算的范式，无需额外训练即可提升模型性能，对推理模型和智能体系统的发展具有参考价值。

原文

17:35

AK@_akhaliq

Pixal3D是一个新的3D生成方法，能够从单张或多张图像生成像素对齐的3D模型。该方法利用像素对齐的表示方式，提高了生成3D模型的几何和纹理精度。相关论文和代码已发布，为3D内容创作提供了更高效的工具。该技术有望推动AR/VR、游戏和影视领域的3D资产自动化生成。

论文 3D生成像素对齐多模态论文

推荐理由：Pixal3D通过像素对齐提升3D生成质量，对于自动化3D建模和数字内容创作具有实际应用价值，值得关注。

原文

17:19

歸藏(guizang.ai)@op7418

OpenAI 推出了GPT-image-2.0图像生成模型，同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升，支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展，为创意行业和内容生产提供了更强大的工具。

AI模型图像生成视频生成 GPT-image-2.0 Seedance 2.0 多模态

推荐理由：对于AI生成领域从业者，GPT-image-2.0和Seedance 2.0的发布代表了图像和视频生成技术的最新进展，值得关注其在实际应用中的表现和潜在影响。

原文

17:19

歸藏(guizang.ai)@op7418

75°

前 OpenAI CTO Mira 创立的公司 Thinking Machines 发布了一款名为“交互模型”的创新 AI。该模型能原生处理音频、视频、文本等多种模态，并且实时思考、响应和行动。区别于传统的 Agent 架构将不同模型串联，它将所有模态统一在一个模型中，实现任意模态下的实时交互，用户可以随时打断、补充，AI 会持续关注用户状态并输出结果。模型由前台交互模型（每200毫秒处理输入并输出）和后台推理模型（处理复杂推理和长任务）两部分组成，最终提供实时交互和重度任务处理的能力。

AI模型多模态交互模型 Thinking Machines 实时

推荐理由：该模型打破了传统 AI 交互的固定对话模式，实现了真正的多模态实时交互，可能重新定义人机交互的标准。对于从事 AI 产品和交互设计的从业者而言，这是一个值得关注的技术方向。

原文