09:51Julien Chaumond@julien_c精选阿里巴巴 Qwen 团队发布 Qwen3.7-Plus,一个多模态智能体模型,统一了视觉和语言能力。该模型支持多模态交互式混合智能体,可同时处理 GUI 和 CLI 操作,具备视觉感知、推理、定位和搜索增强问答能力。它还能作为全能编码助手和生产力工具,接受全模态输入。Qwen3.7-Plus 现已通过阿里云模型服务 API 提供,开发者可直接尝试。AI模型Qwen多模态智能体开源/仓库阿里云推荐理由:多模态智能体模型将视觉与语言统一,做自动化操作和智能体开发的团队可以直接用 API 试,省去自己拼接多模型的工作。原文
09:32阿里通义 Qwen@Alibaba_Qwen83°阿里 Qwen 团队正式推出 Qwen3.7-Plus,这是一款将视觉与语言能力统一的多模态智能体模型。它支持多模态交互混合智能体,可同时处理 GUI 和 CLI 操作;具备全模态输入的编程助手与生产力工具能力;视觉方面涵盖感知、推理、定位和搜索增强问答。该模型在多种智能体框架上表现出跨框架泛化能力,现已通过阿里云 Model Studio API 开放使用。AI模型多模态智能体Qwen3.7-Plus阿里云API3 个信源在谈推荐理由:做多模态应用或智能体开发的团队可以直接用 API 试——一个模型搞定看、想、写、做,省去多模型拼接的麻烦。原文
08:23Guillermo Rauch@rauchg76°MiniMax M3 在 Next.js 智能体评测中成为领先的开源模型,性能仅次于 Opus 和 GPT-5,但成本低 10 倍。这是 MiniMax 首个支持多模态输入的长上下文模型。Vercel 宣布 M3 已上线 AI Gateway,并提供一周 50% 折扣。开发者可以以极低成本获得接近顶级模型的智能体能力。AI模型MiniMax M3开源模型智能体Next.js多模态6 个信源在谈推荐理由:做 Next.js 智能体开发的团队终于有了高性价比的开源选择——M3 性能接近 Opus 但成本仅 1/10,Vercel 用户现在就能用上,建议立刻试试。原文
08:14岚叔@lufzzlizQwen3.7-Plus 是通义千问最新推出的多模态模型,延续了 Plus 系列的高性价比特点。该模型不仅支持屏幕读取、网页/移动端/桌面端操作,还能编写代码、调用工具和处理工作流。当前行业趋势正朝向多模态 Agent 发展,Qwen3.7-Plus 在长链路稳定性、工具调用失败恢复以及 GUI 操作权限与审计边界方面有所加强。该模型适合需要构建复杂自动化任务的开发者和团队。AI模型Qwen3.7-Plus多模态Agent工具调用性价比3 个信源在谈推荐理由:Qwen3.7-Plus 把多模态 Agent 的实用门槛又拉低了一截,做自动化工作流或 GUI 操作的开发者可以直接关注,性价比和功能覆盖都很能打。原文
19:05AI Will@FinanceYF572°Greg Isenberg 分享了基于 GPT Realtime 2.0 的 17 个创业想法,这些想法只有在实时语音模型支持下才能实现。涵盖实时合同谈判、语音交易终端、多语言同传、医疗问诊、现场服务调度、编程助手、拍卖代理、律师证词准备、播客研究、销售教练、房产评估、智能婴儿监护等场景。核心特点是模型能在对话中并行查询多个数据源、理解专业术语、支持 128K 上下文,并可根据任务复杂度调整推理深度。这些想法展示了实时语音 AI 如何将传统需要多步骤、多工具的任务压缩到一次对话中完成。AI产品GPT Realtime 2.0实时语音创业点子智能体多模态1 个信源在谈推荐理由:实时语音 AI 终于有了具体可落地的商业场景,做创业或产品经理的可以直接从中找灵感,17 个方向覆盖了从法律到医疗的多个垂直领域,值得收藏研究。原文
18:53岚叔@lufzzliz精选76°MiniMax 发布新一代旗舰模型 M3,面向 coding agent、长上下文和多模态任务。M3 支持 1M 上下文,核心技术创新是 MiniMax Sparse Attention (MSA),通过稀疏注意力将 KV 分块并精确选取相关块,大幅降低长上下文计算成本。在 1M 上下文下,每 token 计算量仅为上一代的 1/20,prefill 提速 9 倍以上,decode 提速 15 倍以上。M3 支持文本、图片、视频输入,将长上下文、工具调用、多模态理解和持续执行能力整合,明确押注 agentic coding 场景。AI模型MiniMax-M3稀疏注意力长上下文Agentic Coding多模态6 个信源在谈推荐理由:M3 的稀疏注意力解决了长上下文推理的成本痛点,做 coding agent 和自动化任务的开发者可以直接关注——1M 上下文下计算量骤降 95%,意味着更长的任务链也能跑得动。原文
14:50歸藏(guizang.ai)@op7418精选76°MiniMax 正式发布大版本模型升级 MiniMax M3,核心亮点包括标配 1M 超长上下文、采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构,以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20,大幅提升可落地性。API 价格同步更新,小于 512k 的 API 限时五折(7 天)。模型权重和技术报告将在约 10 天后开源。AI模型MiniMax M3长上下文稀疏注意力多模态API6 个信源在谈推荐理由:MiniMax M3 把长上下文、稀疏注意力和多模态融合做到了一个模型里,而且计算效率大幅提升,做 Agent 开发、多模态应用或长文档处理的团队可以直接用 API 试试,价格也很友好。原文
11:12OpenRouter@OpenRouterAI精选76°MiniMax 发布了 M3 模型,这是首个同时具备编码、智能体与多模态能力的开源权重模型。在 SWE-Bench Pro 上达到 59.0%,Terminal Bench 2.1 上 66.0%,并支持 1M 上下文窗口。模型原生多模态,从零开始训练,权重和技术报告将在约 10 天后公开。API 已上线 platform.minimax.io,并提供 MiniMax Code 工具。AI模型MiniMaxM3开源模型编码智能体多模态推荐理由:MiniMax M3 把编码、智能体和多模态三个前沿能力打包进一个开源模型,做 AI 应用开发或智能体研究的团队可以直接用 API 体验,值得关注即将开源的权重。原文
11:11OpenRouter@OpenRouterAI精选76°MiniMax-M3 是一款前沿开源权重模型,已在 OpenRouter 平台上线。它集成了 100 万 token 的超长上下文窗口、顶尖的编程与智能体能力,以及原生支持图像和视频的多模态处理。该模型在编码和智能体任务上表现卓越,同时保持了开源特性,为开发者和研究者提供了强大的工具。其 1M token 上下文窗口尤其适合处理长文档、复杂代码库和多模态数据融合场景。AI模型MiniMax-M3开源模型长上下文多模态编程助手6 个信源在谈推荐理由:MiniMax-M3 把长上下文、强编码和多模态塞进一个开源模型里,做复杂智能体或长文档处理的团队可以直接在 OpenRouter 上试,省去自己部署的麻烦。原文
11:07lmarena.ai@lmarena_ai精选76°MiniMax 发布开源权重模型 M3,首次在单一模型中融合编码、智能体与多模态三大前沿能力。在 SWE-Bench Pro 上达到 59.0%,Terminal Bench 2.1 为 66.0%,并支持 1M 上下文长度。模型已上线 Arena 的文本、视觉、文档和代码竞技场,用户可投票评测。权重和技术报告将在约 10 天后公开。AI模型MiniMaxM3开源模型编码智能体多模态Arena推荐理由:MiniMax M3 把编码、智能体和多模态塞进一个开源模型,做 AI 应用和 Agent 开发的团队可以直接在 Arena 上测效果,省去自己搭环境的时间。原文
12:53Geek@geekbb精选阿里云推出 Model Studio CLI(百炼 CLI),这是一个官方命令行工具,支持与 Qwen 系列模型进行文本对话、多模态理解(图片、音频、视频)、图片与视频生成编辑、语音合成识别、知识库检索及网页搜索等功能。该工具将阿里云 AI 平台能力集成到终端,方便开发者通过命令行快速调用。项目已开源在 GitHub,适合需要自动化或脚本化调用 AI 能力的场景。AI产品阿里云百炼 CLI命令行工具多模态开源/仓库推荐理由:百炼 CLI 把阿里云的多模态和搜索能力直接搬到了命令行,做自动化脚本或需要批量调用 AI 的开发者可以省去写 API 调用的麻烦,值得一试。原文
05:39Jeff Dean@JeffDean精选在Logan Kilpatrick主持的对话中,Gemini联合负责人Jeff Dean、Oriol Vinyals、Noam Shazeer和Koray Kavukcuoglu分享了Gemini的当前进展、发展历程及下一步计划。对话未披露具体基准分数或版本号,但涉及模型在多模态和推理能力上的方向。行业GeminiGoogle多模态推理模型推荐理由:听Gemini团队聊模型走向原文
03:36Logan Kilpatrick@OfficialLoganK精选Gemini联合负责人Jeff Dean、Koray Kavukcuoglu、Noam Shazeer和Oriol Vinyals在一场对话中回顾了Gemini的发展历程。他们讨论了Gemini在多模态推理和编程任务上的性能表现。对话还展望了下一步在Agent和工具使用能力上的增强方向。AI模型GeminiGoogle多模态对话推荐理由:Gemini团队亲自聊未来原文
00:23AK@_akhaliq精选DynaFLIP 提出一种基于三模态(视觉、触觉、动力学)的表示学习方法,用于提升机器人对物体动态交互的理解。在 RoboTouch 和 DexYCB 等基准上,DynaFLIP 相比单模态基线提升了 15% 的抓取成功率。该方法利用自监督动力学预测任务对齐多模态特征,无需大量标注数据。实验显示,DynaFLIP 在零样本迁移到新物体时泛化性优于现有方法。AI模型DynaFLIP机器人感知多模态表示学习推荐理由:让机器人看懂手-物交互原文
23:50AK@_akhaliq精选Qwen-VLA 是一个统一的视觉-语言-动作模型,旨在跨任务、环境和机器人本体进行泛化。该模型通过融合视觉与语言指令,直接输出机器人动作。在多个基准测试中,Qwen-VLA 展示了优于现有方法的性能,尤其是在零样本泛化场景。其架构基于 ViT-L 视觉编码器和 Qwen2.5 语言基座。AI模型Qwen-VLA机器人多模态视觉-语言-动作推荐理由:通才机器人模型来了原文
12:15OpenRouter@OpenRouterAI精选76°StepFun 发布了 Step 3.7 Flash 模型,这是一款面向智能体、编码、搜索和多模态工作流的高效模型。该模型采用 198B 稀疏 MoE 架构,仅激活约 11B 参数,支持 256K 上下文和三种推理级别,推理速度达 400 TPS。在 ClawEval-1.1、SimpleVQA Search 和 SWE-PRO 等基准测试中表现领先,并支持视觉理解、工具调用和本地运行。模型权重以 Apache 2.0 开源,可在 Mac Studio、DGX Spark 等设备上运行。AI模型智能体推理模型开源/仓库编程助手多模态推荐理由:Step 3.7 Flash 解决了智能体场景中速度与可靠性的平衡问题,做智能体开发、编码自动化和多模态应用的团队可以直接用开源权重部署,值得一试。原文
12:15OpenRouter@OpenRouterAI精选阶跃星辰的 Step 3.7 Flash 模型已在 OpenRouter 平台上线。该模型是一个多模态(图像/视频/文本)MoE 架构,总参数量达 196B,但推理时仅激活 11B 参数,效率极高。模型针对编程、智能体工作流和结构化输出进行了专门调优,并支持可选的推理级别,用户可根据需求在速度、成本和深度之间灵活权衡。AI模型阶跃星辰Step 3.7 FlashMoE多模态编程助手2 个信源在谈推荐理由:做编程和智能体开发的团队终于有了一个高效的多模态 MoE 选择——196B 参数只激活 11B,成本可控且支持灵活推理级别,建议在 OpenRouter 上直接试。原文
09:06NVIDIA AI@NVIDIAAI精选76°NVIDIA 宣布推出 Step 3.7 Flash 模型,这是一个 198B 参数的混合专家(MoE)模型,但仅需 11B 活跃参数即可运行,大幅降低推理成本。该模型支持 256K 上下文长度,并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用,也可通过 NVIDIA NIM 微服务部署,并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展,尤其适合需要多模态理解和长上下文处理的应用场景。AI模型Step 3.7 FlashNVIDIAMoE多模态长上下文5 个信源在谈推荐理由:198B 参数但仅 11B 活跃,推理效率极高,做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用,省成本又省心。原文
23:48AK@_akhaliq该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法,用于优化多模态智能体的推理策略。通过探索性策略优化,智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明,AEPO 在多个基准测试上显著提升了智能体的性能,尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。论文智能体多模态推理模型强化学习AEPO推荐理由:多模态智能体推理是当前 AI 的前沿方向,AEPO 为开发者提供了一种可落地的训练优化思路,做智能体或多模态应用的团队值得关注。原文
10:28Google Gemini App@GeminiAppGoogle 宣布 Gemini Omni 现已面向所有 Google AI Plus、Pro 和 Ultra 订阅用户开放,支持网页版和 Gemini 应用。该功能提供了更强大的多模态交互能力,用户可以在对话中同时处理文本、图像和音频。此次开放标志着 Gemini 在多模态 AI 领域的重要进展,订阅用户可以直接体验。AI产品Gemini多模态订阅服务AI 助手Google推荐理由:多模态交互是 AI 的下一个关键方向,Gemini Omni 让订阅用户能同时处理文本、图像和音频,做内容创作或数据分析的团队值得立即体验。原文
20:56阿里云 Alibaba Cloud@alibaba_cloud在Qwen Conference 2026上,行业领袖和生态先驱在基础模型论坛中围绕“Qwen的多模态未来”展开圆桌讨论。他们探讨了驱动跨模态对齐的架构变革,并深入分析了AI原生趋势。会议旨在揭示多模态AI的最新进展和未来方向。活动详情可通过链接获取。行业多模态Qwen架构变革AI原生圆桌讨论推荐理由:关注多模态AI架构演进的开发者,这场圆桌讨论能帮你理解跨模态对齐的核心技术趋势,值得一看。原文
17:54AI Will@FinanceYF5精选OpenAI 发布 ChatGPT Images 2.0,但核心不是图像模型,而是将图像视为一种语言,融入主干而非附加功能。Altman 强调从 GPT-3 直接跨越到 GPT-5,官方博客以「图像是语言,不是装饰」开篇,表明战略转向。这意味着图像生成与理解将深度集成到对话中,改变用户与 AI 交互的方式。AI产品ChatGPT图像生成多模态OpenAI战略升级7 个信源在谈推荐理由:OpenAI 把图像从附加功能提升为对话主干,做内容创作或产品设计的团队值得关注——这可能会改变你使用 AI 的方式。原文
17:53AI Will@FinanceYF5精选OpenAI 将图像输出定价为每百万 tokens 30 美元,与文字定价并列在同一价目表上。这标志着图像不再只是消费品,而是成为 agent 经济中的最小原语,和文字一样可编程调用、按字节计量、流式组合。这种定价模式意味着图像与文字在 AI 系统中被同等对待,开发者可以像调用文字一样调用图像,实现更灵活的 AI 应用。这一变化对构建多模态 agent 的团队影响深远。AI产品OpenAI图像定价agent 经济多模态tokens5 个信源在谈推荐理由:图像定价与文字统一,意味着多模态 agent 开发成本首次透明化,做 AI 应用和 agent 的团队值得关注这个定价信号。原文
17:38Philipp Schmid@_philschmid精选谷歌Gemini 3.5 Flash在视频理解、图像和音频等多模态任务中表现优异,但目前关注度不高。作者Phil Schmid认为该模型的能力被严重低估。该模型支持多种输入模态,适合复杂的多模态推理场景。AI模型Gemini 3.5 Flash视频理解多模态推荐理由:谷歌的Gemini 3.5 Flash多模态能力被严重低估了原文
14:42阿里云 Alibaba Cloud@alibaba_cloud阿里云将于5月26日在新加坡金沙会展中心举办Agentic AI前沿峰会,汇聚行业先驱与远见者。会议将深入分析Agentic AI的核心基础设施及跨行业多模态工作流。该峰会旨在探讨AI代理技术的最新进展与行业应用,为参会者提供前沿洞察。活动详情可通过链接获取。行业阿里云Agentic AI多模态行业峰会新加坡推荐理由:想了解Agentic AI最新趋势的开发者与行业决策者,这场峰会值得关注——阿里云将展示从底层基础设施到跨行业应用的全景图。原文
16:36阿里云 Alibaba Cloud@alibaba_cloud5月26日,Picsart视频产品主管Narek Hayrapetyan将在新加坡金沙会展中心分享多模态AI如何彻底改变视觉创作。活动由阿里云主办,聚焦AI在图像和视频生成中的实际应用。参与者可现场了解多模态模型如何提升创作效率。行业多模态视频生成大模型阿里云推荐理由:听Picsart高管讲多模态创作原文
16:02阿里云 Alibaba Cloud@alibaba_cloud阿里巴巴通义大模型业务部多模态交互负责人Steven Hoi教授将于5月26日在新加坡金沙会展中心发表主题演讲,探讨Agent时代的基础模型。该演讲聚焦于基础模型如何支撑智能体应用的发展。活动面向AI从业者和研究者开放注册。行业Agent大模型多模态智能体推荐理由:阿里专家讲Agent时代基础模型原文
02:16Logan Kilpatrick@OfficialLoganK精选Gemini 3.5 Flash 在 Roboflow 视觉评估中多项指标超越 3.1 Pro。其平均推理速度快约6倍,大幅降低延迟。该模型在多模态理解上展示出更强能力,尤其适合视觉密集型任务。AI模型Gemini 3.5 FlashGemini 3.1 ProGoogle多模态视觉理解推荐理由:谷歌新 Flash 视觉又快又准原文
01:48Ethan Mollick@emollick76°Ethan Mollick 指出,Gemini Omni 与其他视频 AI 的关键区别在于其完全多模态能力,可以原生编辑视频。他展示了将1896年经典电影《火车进站》中的火车改为子弹头列车、乐高风格,并添加时间旅行者、蜈蚣和布偶等元素。视频中甚至保留了反射效果,体现了 Gemini Omni 对视频内容的深度理解和编辑能力。这一演示凸显了 Gemini Omni 在视频生成和编辑领域的独特优势。AI产品Gemini Omni多模态视频编辑AI 演示原生编辑推荐理由:Gemini Omni 的原生视频编辑能力让创作者可以直接在视频中做复杂修改,做视频内容或 AI 应用的开发者值得关注,看看它如何理解并重构视频场景。原文
15:16小互@imxiaohu精选网易有道今日开源 Confucius4 双模型,分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模,有道更注重工程精度和落地成本。开源直接提供完整权重,而非仅开放 API,降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题,语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。AI模型开源/仓库多模态语音克隆数学推理Confucius4推荐理由:做教育 AI 或语音应用的开发者可以直接拿到完整权重,省去从零训练的成本,建议试试这两个模型的实际效果。原文
07:53AI Will@FinanceYF5Google 发布了名为 Gemini Omni 的新模型,能够从任意输入(如视频)生成任意内容。该模型首先支持视频输入,类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用,API 支持即将推出。这标志着多模态 AI 能力的重大扩展,让用户能更灵活地创作和交互。AI模型Gemini Omni多模态视频生成GoogleAI模型推荐理由:多模态 AI 又进一步——Gemini Omni 从视频直接生成内容,做视频创作或内容生产的团队值得关注,API 开放后可以直接集成到工作流中。原文
08:01Google Gemini App@GeminiAppGoogle 宣布全球 AI Plus、Pro 和 Ultra 订阅用户现可在 Gemini 应用中试用 Gemini Omni 功能。该功能允许用户直接在应用内进行多模态交互和创作。Google 鼓励用户分享自己的创作成果。此举标志着 Google 在 AI 多模态能力上的进一步扩展,面向高级订阅用户开放。AI产品Gemini多模态订阅用户AI 创作Google推荐理由:Google 将多模态 AI 能力直接集成到 Gemini 应用中,Plus/Pro/Ultra 订阅用户现在就能上手体验,做内容创作或 AI 实验的团队值得一试。原文
08:01Guillermo Rauch@rauchg72°Vercel 发布了 AI Gateway 的 WordPress 插件,让 WordPress 站点可以轻松接入多种 AI 模型。该插件支持文本、图像、视频和音频等多种模态,只需一个 API 密钥即可调用。由于 WordPress 占据全球约 42% 的网站,这一插件将极大降低 AI 功能的集成门槛,使大量网站能够快速获得 AI 能力。AI产品AI GatewayWordPressVercel多模态API 集成推荐理由:WordPress 站长和开发者可以一键为网站接入多模态 AI,无需复杂配置,覆盖 42% 的网页生态,值得立即尝试。原文
08:00AI Will@FinanceYF5谷歌宣布将Gemini 3.5模型直接集成到搜索框中,支持图片、视频和文件等多模态输入,用户可以进行跨模态提问。同时,AI Overviews和AI Mode功能合并,提供更智能的搜索体验。这一变化标志着搜索从关键词、语义时代进入AI原生交互阶段,大幅降低用户获取信息的门槛。对于日常依赖搜索获取信息的用户和开发者来说,这是搜索体验的一次重大升级。AI产品谷歌Gemini 3.5AI搜索多模态AI Overviews推荐理由:谷歌把最强AI直接塞进搜索框,做信息检索或内容研究的团队可以立刻体验跨模态提问,搜索效率会有质的提升。原文
08:00歸藏(guizang.ai)@op741872°谷歌在 I/O 大会上宣布将 Antigravit 整个生态整合进 Gemini,Gemini CLI 更名为 Antigravit CLI,并发布对应 SDK。Antigravit 2.0 版本更像 Codex,而非 Cursor。实测 Gemini 3.5 Flash 配合 Antigravit 在排版上表现不错,但权限审批繁琐、缺少内置浏览器等细节体验不足。整体仍处于早期阶段,适合基础任务。AI产品谷歌 I/OAntigravitGemini编程助手多模态10 个信源在谈推荐理由:谷歌把 Antigravit 生态整合进 Gemini,做 AI 编程的开发者可以试试它的多模态排版能力,但别期待太复杂的自动化——权限和体验还差一截。原文
08:00小互@imxiaohu91°Google I/O 2026 开发者大会发布了三款 Gemini 模型:Gemini 3.5 Flash 升级为行动大脑,专注于自主决策与任务执行;Gemini Spark 定位为远端个人 AI 代理入口,强化跨设备协同;Gemini Omni 则是多模态世界模型的雏形,能理解并交互物理世界。这次发布标志着 Google 从单一对话模型向多智能体、多模态生态的全面转型,对开发者和 AI 应用场景有深远影响。AI产品Gemini多模态智能体开发者大会Google I/O推荐理由:Google 一口气推出三款定位清晰的模型,从行动大脑到世界模型雏形,做 AI 应用或智能体开发的团队值得关注,这可能是未来一年最值得跟进的生态方向。原文
08:00小互@imxiaohu一条推文将 Gemini Omni 形容为“视频版的香蕉”,暗示其具备强大的视频编辑与理解能力。作者认为它远不止视频编辑,而是世界模型的雏形,代表了通用 AGI 的初始形态。该推文引发了对 Gemini Omni 潜力的讨论,认为它可能推动 AI 从语言模型向多模态世界理解迈进。AI产品Gemini Omni世界模型AGI多模态视频理解推荐理由:如果你关注多模态 AI 和 AGI 进展,这条推文点出了 Gemini Omni 可能超越视频编辑、成为世界模型雏形的关键判断,值得一看。原文
08:00Google Gemini App@GeminiAppGoogle 宣布 Gemini Omni 即日起向所有 Google AI Plus、Pro 和 Ultra 订阅用户开放,可在 gemini.google 网站和移动应用中使用。该功能支持用户创建个性化头像,并鼓励在评论区分享作品。此举标志着 Google 在 AI 多模态交互上的进一步扩展,为付费用户提供了更丰富的创作工具。AI产品Gemini OmniGoogle AI头像生成多模态订阅服务推荐理由:Gemini Omni 让 Google AI 订阅用户有了新的创作玩法,做内容或社交媒体的团队可以试试用它生成头像,提升互动趣味。原文
08:00Philipp Schmid@_philschmidGoogle 正式推出 Gemini 3.5 模型,并同步发布了开发者指南和 AI Studio 平台。开发者指南提供了详细的 API 文档和集成示例,帮助快速上手。AI Studio 则是一个在线实验环境,支持直接测试模型能力。这一更新意味着开发者可以更便捷地利用 Gemini 3.5 构建应用,尤其适合需要多模态理解或长上下文处理的场景。AI产品Gemini 3.5开发者指南AI StudioAPI多模态5 个信源在谈推荐理由:做 AI 应用开发的团队可以直接用 Gemini 3.5 的 API 和 AI Studio 快速验证想法,省去本地部署的麻烦,值得点开看看文档和示例。原文
08:00小互@imxiaohuGoogle 推出了全新的 Omni 模型,这是一个多模态 AI 模型,能够同时处理文本、图像、音频等多种输入。该模型在理解和生成跨模态内容方面表现出色,有望推动 AI 交互方式的革新。Omni 模型的出现标志着多模态 AI 技术的重要进展,为开发者提供了更强大的工具来构建更自然的用户界面。AI模型多模态OmniGoogleAI模型跨模态推荐理由:多模态模型是 AI 交互的下一个前沿,做跨模态应用的开发者可以直接关注 Omni 模型的能力边界,看看能否替代现有方案。原文