全部 AI 动态 · AI 热点

6月2日

09:51

Julien Chaumond@julien_c

精选

阿里巴巴 Qwen 团队发布 Qwen3.7-Plus，一个多模态智能体模型，统一了视觉和语言能力。该模型支持多模态交互式混合智能体，可同时处理 GUI 和 CLI 操作，具备视觉感知、推理、定位和搜索增强问答能力。它还能作为全能编码助手和生产力工具，接受全模态输入。Qwen3.7-Plus 现已通过阿里云模型服务 API 提供，开发者可直接尝试。

AI模型 Qwen 多模态智能体开源/仓库阿里云

推荐理由：多模态智能体模型将视觉与语言统一，做自动化操作和智能体开发的团队可以直接用 API 试，省去自己拼接多模型的工作。

原文

09:32

阿里通义 Qwen@Alibaba_Qwen

83°

阿里 Qwen 团队正式推出 Qwen3.7-Plus，这是一款将视觉与语言能力统一的多模态智能体模型。它支持多模态交互混合智能体，可同时处理 GUI 和 CLI 操作；具备全模态输入的编程助手与生产力工具能力；视觉方面涵盖感知、推理、定位和搜索增强问答。该模型在多种智能体框架上表现出跨框架泛化能力，现已通过阿里云 Model Studio API 开放使用。

AI模型多模态智能体 Qwen3.7-Plus 阿里云 API

推荐理由：做多模态应用或智能体开发的团队可以直接用 API 试——一个模型搞定看、想、写、做，省去多模型拼接的麻烦。

原文

08:23

Guillermo Rauch@rauchg

76°

MiniMax M3 在 Next.js 智能体评测中成为领先的开源模型，性能仅次于 Opus 和 GPT-5，但成本低 10 倍。这是 MiniMax 首个支持多模态输入的长上下文模型。Vercel 宣布 M3 已上线 AI Gateway，并提供一周 50% 折扣。开发者可以以极低成本获得接近顶级模型的智能体能力。

AI模型 MiniMax M3 开源模型智能体 Next.js 多模态

推荐理由：做 Next.js 智能体开发的团队终于有了高性价比的开源选择——M3 性能接近 Opus 但成本仅 1/10，Vercel 用户现在就能用上，建议立刻试试。

原文

08:14

岚叔@lufzzliz

AI模型 Qwen3.7-Plus 多模态 Agent 工具调用性价比

推荐理由：Qwen3.7-Plus 把多模态 Agent 的实用门槛又拉低了一截，做自动化工作流或 GUI 操作的开发者可以直接关注，性价比和功能覆盖都很能打。

原文

6月1日

19:05

AI Will@FinanceYF5

72°

Greg Isenberg 分享了基于 GPT Realtime 2.0 的 17 个创业想法，这些想法只有在实时语音模型支持下才能实现。涵盖实时合同谈判、语音交易终端、多语言同传、医疗问诊、现场服务调度、编程助手、拍卖代理、律师证词准备、播客研究、销售教练、房产评估、智能婴儿监护等场景。核心特点是模型能在对话中并行查询多个数据源、理解专业术语、支持 128K 上下文，并可根据任务复杂度调整推理深度。这些想法展示了实时语音 AI 如何将传统需要多步骤、多工具的任务压缩到一次对话中完成。

AI产品 GPT Realtime 2.0 实时语音创业点子智能体多模态

推荐理由：实时语音 AI 终于有了具体可落地的商业场景，做创业或产品经理的可以直接从中找灵感，17 个方向覆盖了从法律到医疗的多个垂直领域，值得收藏研究。

原文

18:53

岚叔@lufzzliz

精选76°

MiniMax 发布新一代旗舰模型 M3，面向 coding agent、长上下文和多模态任务。M3 支持 1M 上下文，核心技术创新是 MiniMax Sparse Attention (MSA)，通过稀疏注意力将 KV 分块并精确选取相关块，大幅降低长上下文计算成本。在 1M 上下文下，每 token 计算量仅为上一代的 1/20，prefill 提速 9 倍以上，decode 提速 15 倍以上。M3 支持文本、图片、视频输入，将长上下文、工具调用、多模态理解和持续执行能力整合，明确押注 agentic coding 场景。

AI模型 MiniMax-M3 稀疏注意力长上下文 Agentic Coding 多模态

推荐理由：M3 的稀疏注意力解决了长上下文推理的成本痛点，做 coding agent 和自动化任务的开发者可以直接关注——1M 上下文下计算量骤降 95%，意味着更长的任务链也能跑得动。

原文

14:50

歸藏(guizang.ai)@op7418

精选76°

MiniMax 正式发布大版本模型升级 MiniMax M3，核心亮点包括标配 1M 超长上下文、采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构，以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20，大幅提升可落地性。API 价格同步更新，小于 512k 的 API 限时五折（7 天）。模型权重和技术报告将在约 10 天后开源。

AI模型 MiniMax M3 长上下文稀疏注意力多模态 API

推荐理由：MiniMax M3 把长上下文、稀疏注意力和多模态融合做到了一个模型里，而且计算效率大幅提升，做 Agent 开发、多模态应用或长文档处理的团队可以直接用 API 试试，价格也很友好。

原文

11:12

OpenRouter@OpenRouterAI

精选76°

MiniMax 发布了 M3 模型，这是首个同时具备编码、智能体与多模态能力的开源权重模型。在 SWE-Bench Pro 上达到 59.0%，Terminal Bench 2.1 上 66.0%，并支持 1M 上下文窗口。模型原生多模态，从零开始训练，权重和技术报告将在约 10 天后公开。API 已上线 platform.minimax.io，并提供 MiniMax Code 工具。

AI模型 MiniMax M3 开源模型编码智能体多模态

推荐理由：MiniMax M3 把编码、智能体和多模态三个前沿能力打包进一个开源模型，做 AI 应用开发或智能体研究的团队可以直接用 API 体验，值得关注即将开源的权重。

原文

11:11

OpenRouter@OpenRouterAI

精选76°

MiniMax-M3 是一款前沿开源权重模型，已在 OpenRouter 平台上线。它集成了 100 万 token 的超长上下文窗口、顶尖的编程与智能体能力，以及原生支持图像和视频的多模态处理。该模型在编码和智能体任务上表现卓越，同时保持了开源特性，为开发者和研究者提供了强大的工具。其 1M token 上下文窗口尤其适合处理长文档、复杂代码库和多模态数据融合场景。

AI模型 MiniMax-M3 开源模型长上下文多模态编程助手

推荐理由：MiniMax-M3 把长上下文、强编码和多模态塞进一个开源模型里，做复杂智能体或长文档处理的团队可以直接在 OpenRouter 上试，省去自己部署的麻烦。

原文

11:07

lmarena.ai@lmarena_ai

精选76°

MiniMax 发布开源权重模型 M3，首次在单一模型中融合编码、智能体与多模态三大前沿能力。在 SWE-Bench Pro 上达到 59.0%，Terminal Bench 2.1 为 66.0%，并支持 1M 上下文长度。模型已上线 Arena 的文本、视觉、文档和代码竞技场，用户可投票评测。权重和技术报告将在约 10 天后公开。

AI模型 MiniMax M3 开源模型编码智能体多模态 Arena

推荐理由：MiniMax M3 把编码、智能体和多模态塞进一个开源模型，做 AI 应用和 Agent 开发的团队可以直接在 Arena 上测效果，省去自己搭环境的时间。

原文

5月30日

12:53

Geek@geekbb

精选

阿里云推出 Model Studio CLI（百炼 CLI），这是一个官方命令行工具，支持与 Qwen 系列模型进行文本对话、多模态理解（图片、音频、视频）、图片与视频生成编辑、语音合成识别、知识库检索及网页搜索等功能。该工具将阿里云 AI 平台能力集成到终端，方便开发者通过命令行快速调用。项目已开源在 GitHub，适合需要自动化或脚本化调用 AI 能力的场景。

AI产品阿里云百炼 CLI 命令行工具多模态开源/仓库

推荐理由：百炼 CLI 把阿里云的多模态和搜索能力直接搬到了命令行，做自动化脚本或需要批量调用 AI 的开发者可以省去写 API 调用的麻烦，值得一试。

原文

05:39

Jeff Dean@JeffDean

精选

在Logan Kilpatrick主持的对话中，Gemini联合负责人Jeff Dean、Oriol Vinyals、Noam Shazeer和Koray Kavukcuoglu分享了Gemini的当前进展、发展历程及下一步计划。对话未披露具体基准分数或版本号，但涉及模型在多模态和推理能力上的方向。

行业 Gemini Google 多模态推理模型

推荐理由：听Gemini团队聊模型走向

原文

03:36

Logan Kilpatrick@OfficialLoganK

精选

Gemini联合负责人Jeff Dean、Koray Kavukcuoglu、Noam Shazeer和Oriol Vinyals在一场对话中回顾了Gemini的发展历程。他们讨论了Gemini在多模态推理和编程任务上的性能表现。对话还展望了下一步在Agent和工具使用能力上的增强方向。

AI模型 Gemini Google 多模态对话

推荐理由：Gemini团队亲自聊未来

原文

00:23

AK@_akhaliq

精选

DynaFLIP 提出一种基于三模态（视觉、触觉、动力学）的表示学习方法，用于提升机器人对物体动态交互的理解。在 RoboTouch 和 DexYCB 等基准上，DynaFLIP 相比单模态基线提升了 15% 的抓取成功率。该方法利用自监督动力学预测任务对齐多模态特征，无需大量标注数据。实验显示，DynaFLIP 在零样本迁移到新物体时泛化性优于现有方法。

AI模型 DynaFLIP 机器人感知多模态表示学习

推荐理由：让机器人看懂手-物交互

原文

5月29日

23:50

AK@_akhaliq

精选

Qwen-VLA 是一个统一的视觉-语言-动作模型，旨在跨任务、环境和机器人本体进行泛化。该模型通过融合视觉与语言指令，直接输出机器人动作。在多个基准测试中，Qwen-VLA 展示了优于现有方法的性能，尤其是在零样本泛化场景。其架构基于 ViT-L 视觉编码器和 Qwen2.5 语言基座。

AI模型 Qwen-VLA 机器人多模态视觉-语言-动作

推荐理由：通才机器人模型来了

原文

12:15

OpenRouter@OpenRouterAI

精选76°

StepFun 发布了 Step 3.7 Flash 模型，这是一款面向智能体、编码、搜索和多模态工作流的高效模型。该模型采用 198B 稀疏 MoE 架构，仅激活约 11B 参数，支持 256K 上下文和三种推理级别，推理速度达 400 TPS。在 ClawEval-1.1、SimpleVQA Search 和 SWE-PRO 等基准测试中表现领先，并支持视觉理解、工具调用和本地运行。模型权重以 Apache 2.0 开源，可在 Mac Studio、DGX Spark 等设备上运行。

AI模型智能体推理模型开源/仓库编程助手多模态

推荐理由：Step 3.7 Flash 解决了智能体场景中速度与可靠性的平衡问题，做智能体开发、编码自动化和多模态应用的团队可以直接用开源权重部署，值得一试。

原文

12:15

OpenRouter@OpenRouterAI

精选

阶跃星辰的 Step 3.7 Flash 模型已在 OpenRouter 平台上线。该模型是一个多模态（图像/视频/文本）MoE 架构，总参数量达 196B，但推理时仅激活 11B 参数，效率极高。模型针对编程、智能体工作流和结构化输出进行了专门调优，并支持可选的推理级别，用户可根据需求在速度、成本和深度之间灵活权衡。

AI模型阶跃星辰 Step 3.7 Flash MoE 多模态编程助手

推荐理由：做编程和智能体开发的团队终于有了一个高效的多模态 MoE 选择——196B 参数只激活 11B，成本可控且支持灵活推理级别，建议在 OpenRouter 上直接试。

原文

09:06

NVIDIA AI@NVIDIAAI

精选76°

NVIDIA 宣布推出 Step 3.7 Flash 模型，这是一个 198B 参数的混合专家（MoE）模型，但仅需 11B 活跃参数即可运行，大幅降低推理成本。该模型支持 256K 上下文长度，并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用，也可通过 NVIDIA NIM 微服务部署，并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展，尤其适合需要多模态理解和长上下文处理的应用场景。

AI模型 Step 3.7 Flash NVIDIA MoE 多模态长上下文

推荐理由：198B 参数但仅 11B 活跃，推理效率极高，做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用，省成本又省心。

原文

5月28日

23:48

AK@_akhaliq

该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法，用于优化多模态智能体的推理策略。通过探索性策略优化，智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明，AEPO 在多个基准测试上显著提升了智能体的性能，尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。

论文智能体多模态推理模型强化学习 AEPO

推荐理由：多模态智能体推理是当前 AI 的前沿方向，AEPO 为开发者提供了一种可落地的训练优化思路，做智能体或多模态应用的团队值得关注。

原文

10:28

Google Gemini App@GeminiApp

Google 宣布 Gemini Omni 现已面向所有 Google AI Plus、Pro 和 Ultra 订阅用户开放，支持网页版和 Gemini 应用。该功能提供了更强大的多模态交互能力，用户可以在对话中同时处理文本、图像和音频。此次开放标志着 Gemini 在多模态 AI 领域的重要进展，订阅用户可以直接体验。

AI产品 Gemini 多模态订阅服务 AI 助手 Google

推荐理由：多模态交互是 AI 的下一个关键方向，Gemini Omni 让订阅用户能同时处理文本、图像和音频，做内容创作或数据分析的团队值得立即体验。

原文

5月25日

20:56

阿里云 Alibaba Cloud@alibaba_cloud

在Qwen Conference 2026上，行业领袖和生态先驱在基础模型论坛中围绕“Qwen的多模态未来”展开圆桌讨论。他们探讨了驱动跨模态对齐的架构变革，并深入分析了AI原生趋势。会议旨在揭示多模态AI的最新进展和未来方向。活动详情可通过链接获取。

行业多模态 Qwen 架构变革 AI原生圆桌讨论

推荐理由：关注多模态AI架构演进的开发者，这场圆桌讨论能帮你理解跨模态对齐的核心技术趋势，值得一看。

原文

17:54

AI Will@FinanceYF5

精选

OpenAI 发布 ChatGPT Images 2.0，但核心不是图像模型，而是将图像视为一种语言，融入主干而非附加功能。Altman 强调从 GPT-3 直接跨越到 GPT-5，官方博客以「图像是语言，不是装饰」开篇，表明战略转向。这意味着图像生成与理解将深度集成到对话中，改变用户与 AI 交互的方式。

AI产品 ChatGPT 图像生成多模态 OpenAI 战略升级

推荐理由：OpenAI 把图像从附加功能提升为对话主干，做内容创作或产品设计的团队值得关注——这可能会改变你使用 AI 的方式。

原文

17:53

AI Will@FinanceYF5

精选

OpenAI 将图像输出定价为每百万 tokens 30 美元，与文字定价并列在同一价目表上。这标志着图像不再只是消费品，而是成为 agent 经济中的最小原语，和文字一样可编程调用、按字节计量、流式组合。这种定价模式意味着图像与文字在 AI 系统中被同等对待，开发者可以像调用文字一样调用图像，实现更灵活的 AI 应用。这一变化对构建多模态 agent 的团队影响深远。

AI产品 OpenAI 图像定价 agent 经济多模态 tokens

推荐理由：图像定价与文字统一，意味着多模态 agent 开发成本首次透明化，做 AI 应用和 agent 的团队值得关注这个定价信号。

原文

17:38

Philipp Schmid@_philschmid

精选

谷歌Gemini 3.5 Flash在视频理解、图像和音频等多模态任务中表现优异，但目前关注度不高。作者Phil Schmid认为该模型的能力被严重低估。该模型支持多种输入模态，适合复杂的多模态推理场景。

AI模型 Gemini 3.5 Flash 视频理解多模态

推荐理由：谷歌的Gemini 3.5 Flash多模态能力被严重低估了

原文

14:42

阿里云 Alibaba Cloud@alibaba_cloud

阿里云将于5月26日在新加坡金沙会展中心举办Agentic AI前沿峰会，汇聚行业先驱与远见者。会议将深入分析Agentic AI的核心基础设施及跨行业多模态工作流。该峰会旨在探讨AI代理技术的最新进展与行业应用，为参会者提供前沿洞察。活动详情可通过链接获取。

行业阿里云 Agentic AI 多模态行业峰会新加坡

推荐理由：想了解Agentic AI最新趋势的开发者与行业决策者，这场峰会值得关注——阿里云将展示从底层基础设施到跨行业应用的全景图。

原文

5月24日

16:36

阿里云 Alibaba Cloud@alibaba_cloud

5月26日，Picsart视频产品主管Narek Hayrapetyan将在新加坡金沙会展中心分享多模态AI如何彻底改变视觉创作。活动由阿里云主办，聚焦AI在图像和视频生成中的实际应用。参与者可现场了解多模态模型如何提升创作效率。

行业多模态视频生成大模型阿里云

推荐理由：听Picsart高管讲多模态创作

原文

16:02

阿里云 Alibaba Cloud@alibaba_cloud

阿里巴巴通义大模型业务部多模态交互负责人Steven Hoi教授将于5月26日在新加坡金沙会展中心发表主题演讲，探讨Agent时代的基础模型。该演讲聚焦于基础模型如何支撑智能体应用的发展。活动面向AI从业者和研究者开放注册。

行业 Agent 大模型多模态智能体

推荐理由：阿里专家讲Agent时代基础模型

原文

5月23日

02:16

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 在 Roboflow 视觉评估中多项指标超越 3.1 Pro。其平均推理速度快约6倍，大幅降低延迟。该模型在多模态理解上展示出更强能力，尤其适合视觉密集型任务。

AI模型 Gemini 3.5 Flash Gemini 3.1 Pro Google 多模态视觉理解

推荐理由：谷歌新 Flash 视觉又快又准

原文

01:48

Ethan Mollick@emollick

76°

Ethan Mollick 指出，Gemini Omni 与其他视频 AI 的关键区别在于其完全多模态能力，可以原生编辑视频。他展示了将1896年经典电影《火车进站》中的火车改为子弹头列车、乐高风格，并添加时间旅行者、蜈蚣和布偶等元素。视频中甚至保留了反射效果，体现了 Gemini Omni 对视频内容的深度理解和编辑能力。这一演示凸显了 Gemini Omni 在视频生成和编辑领域的独特优势。

AI产品 Gemini Omni 多模态视频编辑 AI 演示原生编辑

推荐理由：Gemini Omni 的原生视频编辑能力让创作者可以直接在视频中做复杂修改，做视频内容或 AI 应用的开发者值得关注，看看它如何理解并重构视频场景。

原文

5月22日

15:16

小互@imxiaohu

精选

网易有道今日开源 Confucius4 双模型，分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模，有道更注重工程精度和落地成本。开源直接提供完整权重，而非仅开放 API，降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题，语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。

AI模型开源/仓库多模态语音克隆数学推理 Confucius4

推荐理由：做教育 AI 或语音应用的开发者可以直接拿到完整权重，省去从零训练的成本，建议试试这两个模型的实际效果。

原文

07:53

AI Will@FinanceYF5

Google 发布了名为 Gemini Omni 的新模型，能够从任意输入（如视频）生成任意内容。该模型首先支持视频输入，类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用，API 支持即将推出。这标志着多模态 AI 能力的重大扩展，让用户能更灵活地创作和交互。

AI模型 Gemini Omni 多模态视频生成 Google AI模型

推荐理由：多模态 AI 又进一步——Gemini Omni 从视频直接生成内容，做视频创作或内容生产的团队值得关注，API 开放后可以直接集成到工作流中。

原文

5月21日

08:01

Google Gemini App@GeminiApp

Google 宣布全球 AI Plus、Pro 和 Ultra 订阅用户现可在 Gemini 应用中试用 Gemini Omni 功能。该功能允许用户直接在应用内进行多模态交互和创作。Google 鼓励用户分享自己的创作成果。此举标志着 Google 在 AI 多模态能力上的进一步扩展，面向高级订阅用户开放。

AI产品 Gemini 多模态订阅用户 AI 创作 Google

推荐理由：Google 将多模态 AI 能力直接集成到 Gemini 应用中，Plus/Pro/Ultra 订阅用户现在就能上手体验，做内容创作或 AI 实验的团队值得一试。

原文

08:01

Guillermo Rauch@rauchg

72°

Vercel 发布了 AI Gateway 的 WordPress 插件，让 WordPress 站点可以轻松接入多种 AI 模型。该插件支持文本、图像、视频和音频等多种模态，只需一个 API 密钥即可调用。由于 WordPress 占据全球约 42% 的网站，这一插件将极大降低 AI 功能的集成门槛，使大量网站能够快速获得 AI 能力。

AI产品 AI Gateway WordPress Vercel 多模态 API 集成

推荐理由：WordPress 站长和开发者可以一键为网站接入多模态 AI，无需复杂配置，覆盖 42% 的网页生态，值得立即尝试。

原文

08:00

AI Will@FinanceYF5

谷歌宣布将Gemini 3.5模型直接集成到搜索框中，支持图片、视频和文件等多模态输入，用户可以进行跨模态提问。同时，AI Overviews和AI Mode功能合并，提供更智能的搜索体验。这一变化标志着搜索从关键词、语义时代进入AI原生交互阶段，大幅降低用户获取信息的门槛。对于日常依赖搜索获取信息的用户和开发者来说，这是搜索体验的一次重大升级。

AI产品谷歌 Gemini 3.5 AI搜索多模态 AI Overviews

推荐理由：谷歌把最强AI直接塞进搜索框，做信息检索或内容研究的团队可以立刻体验跨模态提问，搜索效率会有质的提升。

原文

08:00

歸藏(guizang.ai)@op7418

72°

谷歌在 I/O 大会上宣布将 Antigravit 整个生态整合进 Gemini，Gemini CLI 更名为 Antigravit CLI，并发布对应 SDK。Antigravit 2.0 版本更像 Codex，而非 Cursor。实测 Gemini 3.5 Flash 配合 Antigravit 在排版上表现不错，但权限审批繁琐、缺少内置浏览器等细节体验不足。整体仍处于早期阶段，适合基础任务。

AI产品谷歌 I/O Antigravit Gemini 编程助手多模态

推荐理由：谷歌把 Antigravit 生态整合进 Gemini，做 AI 编程的开发者可以试试它的多模态排版能力，但别期待太复杂的自动化——权限和体验还差一截。

原文

08:00

小互@imxiaohu

91°

Google I/O 2026 开发者大会发布了三款 Gemini 模型：Gemini 3.5 Flash 升级为行动大脑，专注于自主决策与任务执行；Gemini Spark 定位为远端个人 AI 代理入口，强化跨设备协同；Gemini Omni 则是多模态世界模型的雏形，能理解并交互物理世界。这次发布标志着 Google 从单一对话模型向多智能体、多模态生态的全面转型，对开发者和 AI 应用场景有深远影响。

AI产品 Gemini 多模态智能体开发者大会 Google I/O

推荐理由：Google 一口气推出三款定位清晰的模型，从行动大脑到世界模型雏形，做 AI 应用或智能体开发的团队值得关注，这可能是未来一年最值得跟进的生态方向。

原文

08:00

小互@imxiaohu

一条推文将 Gemini Omni 形容为“视频版的香蕉”，暗示其具备强大的视频编辑与理解能力。作者认为它远不止视频编辑，而是世界模型的雏形，代表了通用 AGI 的初始形态。该推文引发了对 Gemini Omni 潜力的讨论，认为它可能推动 AI 从语言模型向多模态世界理解迈进。

AI产品 Gemini Omni 世界模型 AGI 多模态视频理解

推荐理由：如果你关注多模态 AI 和 AGI 进展，这条推文点出了 Gemini Omni 可能超越视频编辑、成为世界模型雏形的关键判断，值得一看。

原文

08:00

Google Gemini App@GeminiApp

Google 宣布 Gemini Omni 即日起向所有 Google AI Plus、Pro 和 Ultra 订阅用户开放，可在 gemini.google 网站和移动应用中使用。该功能支持用户创建个性化头像，并鼓励在评论区分享作品。此举标志着 Google 在 AI 多模态交互上的进一步扩展，为付费用户提供了更丰富的创作工具。

AI产品 Gemini Omni Google AI 头像生成多模态订阅服务

推荐理由：Gemini Omni 让 Google AI 订阅用户有了新的创作玩法，做内容或社交媒体的团队可以试试用它生成头像，提升互动趣味。

原文

08:00

Philipp Schmid@_philschmid

Google 正式推出 Gemini 3.5 模型，并同步发布了开发者指南和 AI Studio 平台。开发者指南提供了详细的 API 文档和集成示例，帮助快速上手。AI Studio 则是一个在线实验环境，支持直接测试模型能力。这一更新意味着开发者可以更便捷地利用 Gemini 3.5 构建应用，尤其适合需要多模态理解或长上下文处理的场景。

AI产品 Gemini 3.5 开发者指南 AI Studio API 多模态

推荐理由：做 AI 应用开发的团队可以直接用 Gemini 3.5 的 API 和 AI Studio 快速验证想法，省去本地部署的麻烦，值得点开看看文档和示例。

原文

08:00

小互@imxiaohu

Google 推出了全新的 Omni 模型，这是一个多模态 AI 模型，能够同时处理文本、图像、音频等多种输入。该模型在理解和生成跨模态内容方面表现出色，有望推动 AI 交互方式的革新。Omni 模型的出现标志着多模态 AI 技术的重要进展，为开发者提供了更强大的工具来构建更自然的用户界面。

AI模型多模态 Omni Google AI模型跨模态

推荐理由：多模态模型是 AI 交互的下一个前沿，做跨模态应用的开发者可以直接关注 Omni 模型的能力边界，看看能否替代现有方案。

原文