08:00歸藏(guizang.ai)@op7418谷歌最新的视频模型 Gemini Omni 已开始向部分用户推送,标志着该模型从测试阶段进入更广泛可用阶段。Gemini Omni 支持多模态输入,包括视频、图像和文本,能够进行实时视频理解和交互。这一放量意味着更多开发者可以尝试其视频分析能力,如实时场景理解、物体识别和对话式交互。对于 AI 视频应用和实时多模态交互领域,这是一个重要进展。AI产品谷歌Gemini Omni视频模型多模态实时交互推荐理由:做视频分析和多模态应用的开发者终于可以上手测试了——Gemini Omni 的实时视频理解能力可能改变视频交互方式,建议有相关需求的团队尽早体验。原文
03:22小互@imxiaohu精选Open Duck机器人搭载了谷歌的Gemma 4模型,实现了视觉识别和自然语言对话。在演示中,它能识别书桌、水杯等物体并描述场景。机器人还能通过语音与用户进行多轮问答。该方案展示了40亿参数模型在边缘设备上的实时推理能力。AI产品Gemma 4Open Duck机器人多模态1 个信源在谈推荐理由:Gemma 4让机器人会看会聊原文
18:46阿里云 Alibaba Cloud@alibaba_cloud精选阿里云宣布将于2026年举办Qwen Conference,主题议程聚焦AI原生云、智能体原生云架构、推理未来和多模态视觉技术。会议承诺无冗余内容,直接提供面向全球规模的工程蓝图。该会议旨在展示阿里云在AI基础设施和智能体领域的最新进展,为开发者和企业提供可落地的技术方案。目前已开放注册。行业AI原生云智能体推理多模态阿里云推荐理由:阿里云首次将AI原生云和智能体原生云架构作为核心议题,做云原生和AI基础设施的团队可以提前了解工程蓝图,建议关注注册。原文
18:30berryxia@berryxia72°ZenMux 平台已上线 Gemini 3.5 Flash 模型,用户可免费体验。该模型在递归二叉树生长测试中,从输入提示词到生成完整 HTML 动画网页仅用 77.56 秒,效果自然优雅。Gemini 3.5 Flash 专为 Agent 设计,在 MCP Atlas、Toolathlon 等多项榜单排名第一,多模态能力超越上一代 Gemini 3.1 Pro。支持按量计费和 Builder 套餐,兼容主流 API 格式。AI产品Gemini 3.5 FlashZenMuxAgent多模态免费体验推荐理由:AI 开发者可以零成本体验 Google 最新旗舰模型,77 秒生成动画网页展示了其极速推理和 Agent 能力,做创意编程或 Agent 应用的建议立即试用。原文
15:14AI Will@FinanceYF583°Google AI 今日宣布推出全新智能搜索框,集成了其最先进的 Gemini 3.5 模型,带来更强的智能体能力。用户可以通过文本、图像、文件和视频等多种模态进行提问,搜索能够跨模态进行推理。该搜索体验将 AI Overviews 和 AI Mode 合并为统一的 AI 搜索体验,支持追问、构建上下文,并提供更个性化的回答。新功能已在全球桌面端和移动端上线。AI产品Gemini 3.5智能搜索多模态智能体Google AI推荐理由:Google 将 Gemini 3.5 的智能体能力直接嵌入搜索,意味着日常搜索从关键词匹配升级为多模态推理助手。重度依赖搜索获取信息的用户、研究者和开发者,值得立刻体验这种能理解图片和视频的搜索方式。原文
14:35berryxia@berryxia72°ZenMux 平台已免费上线 Google 最新发布的 Gemini 3.5 Flash 模型,用户可直接体验。该模型在递归二叉树生长测试中,从输入提示词到生成完整 HTML 动画网页仅用 77.56 秒,效果惊艳。Gemini 3.5 Flash 专为 Agent 设计,在 MCP Atlas、Toolathlon 等多项榜单排名第一,多模态理解能力全面超越上一代 Gemini 3.1 Pro。平台支持零延迟首发,兼容主流 API 格式,并提供免费试用额度。AI产品Gemini 3.5 FlashZenMuxAgent多模态免费试用推荐理由:Google I/O 刚发布就能免费白嫖,做 Agent 或动画生成的开发者可以立刻上手测试,77 秒出完整 HTML 动画的效率值得一试。原文
13:09berryxia@berryxia83°Google DeepMind 推出了 Gemini 3.5 Flash 模型,在 Intelligence Index 上获得 55 分,比上一代 Gemini 3 Flash 高 9 分,超越 Grok 4.3 和 Claude Sonnet 4.6。Agentic 任务 Elo 评分达 1656,幻觉率从 92% 降至 61%,多模态理解 MMMU-Pro 达 84%,输出速度超 280 tokens/s,比前代快 70%。但成本大幅上升,运行一次测试的成本是 Gemini 3 Flash 的 5.5 倍,定价为 $1.5/$9 per 1M input/output tokens,是前代的 3 倍。这标志着智能与速度的 Pareto 前沿被刷新,但“Flash”系列的性价比优势不再。AI模型Gemini 3.5 FlashGoogle DeepMind推理模型多模态成本分析推荐理由:Gemini 3.5 Flash 在智能和速度上实现了突破,做 AI 应用或 agent 开发的团队值得关注——性能提升显著,但预算敏感型项目需要重新评估成本。原文
09:28Google AI@GoogleAI72°Google 宣布推出全新智能搜索框,将 AI Overviews 和 AI Mode 合并为统一的 AI 搜索体验。该搜索框基于最先进的 Gemini 3.5 模型,支持文本、图像、文件和视频等多模态输入,并能跨模态进行推理。用户可提出后续问题、构建上下文,获得更个性化和精准的回复。新搜索体验已在全球桌面端和移动端上线。AI产品Gemini 3.5AI 搜索多模态智能体Google推荐理由:Google 将 AI 搜索能力整合进一个统一入口,做搜索优化或内容运营的团队值得关注——这意味着用户行为和数据反馈将更集中,直接影响 SEO 策略和内容分发逻辑。原文
08:13berryxia@berryxia83°Google I/O 2026 主题演讲由 Sundar Pichai 主讲,聚焦「Agentic Gemini 时代」,强调 AI 从聊天机器人进化为能自主思考、执行任务、跨设备运行的「世界模型」。主要发布包括 Gemini 3.5 Flash(速度提升 4 倍,默认模型)、Gemini Omni 多模态世界模型(支持任意输入输出,理解物理世界)、Gemini Spark 全天候自主 Agent,以及 Android XR 智能眼镜预览。Google 将 AI 深度整合到 Search、Workspace、Gmail 等产品中,并推出开发者工具 Antigravity 2.0。整体策略务实,注重落地而非参数竞赛。行业Google I/OGemini智能体多模态世界模型推荐理由:Google 把 AI 从聊天工具升级为操作系统级智能体,做开发、用搜索、搞创意的团队都能直接受益——Gemini 3.5 Flash 已可用,建议开发者立刻试试。原文
07:26orange.ai@oran_ge83°Google 昨晚发布 Gemini flash 3.5 模型,现已可用。该模型在多项指标上大幅超越 3.1 Pro,与 GPT 5.5 接近,且在 Agentic 和多模态能力上更优。价格仅为 GPT 5.5 的三分之一,缓存价格六分之一,API 定价 $1.50/$9.00 每百万 token。上下文窗口达 1M token,速度是其他旗舰模型的 4 倍,非常适合 Agent 场景。AI模型Geminiflash 3.5推理模型多模态Agent推荐理由:做 Agent 和多模态应用的开发者终于有了性价比更高的选择——Gemini flash 3.5 速度是旗舰模型的 4 倍,价格却只有 GPT 5.5 的三分之一,建议直接试 API。原文
04:16Demis Hassabis@demishassabis精选Demis Hassabis 宣布 Gemini Omni 在多模态理解与编辑方面取得重大进展。该模型能处理照片、视频和音频输入,并构建全新场景。初期从视频开始,未来将支持任意输入与输出。用户可上传自己的视频并在其上迭代想法。AI模型Gemini Omni多模态视频编辑场景生成推荐理由:Gemini Omni能处理视频/音频/图片并构建新场景原文
03:17Google AI@GoogleAI精选谷歌AI推出Gemini Omni,支持通过自然语言描述来编辑视频。用户只需说出想改变的内容,就能调整角色、场景和风格。该功能类似Nano Banana对图片的编辑方式,但应用于视频领域。AI产品GeminiOmniGoogle视频编辑多模态推荐理由:谷歌让你用语言改视频原文
03:17Google AI@GoogleAI精选GoogleAI 推出 Gemini Omni 模型,支持从文本、图像、音频等多种输入类型生成内容,初始阶段重点支持视频输入。该模型旨在实现“从任何输入创建任何输出”的目标,但官方未公布具体基准测试成绩或模型参数。推文通过 Twitter 线程形式解释其意义,引发社区关注。AI模型Gemini OmniGoogleAI多模态视频生成推荐理由:谷歌的万能创作模型来了原文
03:07Google Gemini App@GeminiApp精选Google 即日起向 Google AI Plus、Pro 和 Ultra 订阅用户全球推送 Gemini Omni,支持在 gemini.google 网站和移动应用中使用。未来将陆续支持图像和音频等更多输出格式。该模型可同时处理文本、图像、音频等多模态输入。目前所有 Plus、Pro 和 Ultra 用户均可体验。AI产品Gemini OmniGoogle多模态推荐理由:试试谷歌新多模态模型原文
03:07Google Gemini App@GeminiApp精选Google在Google IO上发布新模型Gemini Omni,可接受图像、视频和文本作为输入,生成高质量视频。该模型利用Gemini的真实世界知识,使视频内容更加准确和连贯。这是多模态视频生成的重要进展,支持从多种混合输入直接创建视频内容。AI模型Gemini OmniGoogle视频生成多模态推荐理由:Google发了能多模态生视频的模型原文
03:00Justine Moore@venturetwinsGoogle DeepMind 的 Omni 模型支持最多五张图片和一段视频作为提示输入。用户通过将 Zillow 房产截图批量输入模型,获得了令人满意的分析结果。该功能突破了传统单图限制,适用于房产比较、多角度分析等场景。目前仅支持最多10秒视频,但用户期待更长时长。AI产品多模态Google DeepMindOmni图片提示房产分析推荐理由:做房产分析或多图对比的团队可以直接用 Omni 批量处理截图,省去手动整理信息的麻烦,值得一试。原文
02:56OpenRouter@OpenRouterAI83°Google DeepMind 的 Gemini 3.5 Flash 模型已在 OpenRouter 平台上线。该模型在编码、智能体任务和工具使用方面超越了 Gemini 3.1 Pro,同时保持了 Flash 级别的价格和速度。它支持 100 万 token 上下文窗口、6.5 万 token 最大输出,并具备多模态能力。输入价格为每百万 token 1.50 美元,输出价格为每百万 token 9 美元。AI模型Gemini 3.5 FlashOpenRouter编码智能体多模态推荐理由:做编码和智能体开发的团队终于有了更便宜且更强的选择——Gemini 3.5 Flash 在关键任务上超越 Pro 系列,价格却只有 Flash 档位,值得立刻在 OpenRouter 上试试。原文
01:47Justine Moore@venturetwins精选Google DeepMind 推出 Omni 模型,支持用户上传真实视频并通过文本指令进行编辑,包括改变动作、风格或主体。用户还可以在视频上直接标注请求。示例中,用户要求“每次拍手时更换帽子”,模型成功执行。该功能展示了多模态模型在视频编辑领域的应用。AI产品OmniGoogle DeepMind视频编辑多模态推荐理由:在视频上直接改动作换风格原文
01:17Google DeepMind@GoogleDeepMindGoogle DeepMind推出Gemini Omni,这是其首个可从任何内容生成任何内容的模型,首先聚焦视频生成。该模型结合了Gemini的推理能力与DeepMind的生成式媒体系统,在多模态理解和编辑方面取得进展。它代表了世界理解、多模态和编辑能力的飞跃。目前已开始部署。AI模型Gemini OmniGoogle DeepMind多模态视频生成推荐理由:谷歌发布能生成视频的Gemini Omni原文
23:00Weaviate@weaviate_io精选Weaviate推出新方法,使用Gemini embedding 2 multimodal直接对视频片段进行嵌入。无需转录文本或元数据,将原始视频分割成重叠片段后即可存入Weaviate。用户提问后系统直接从视频中定位相关片段并生成回答。该方法简化了视频搜索流程,消除了预处理步骤。相关notebook和完整指南已在GitHub和Weaviate博客发布。技巧WeaviateGemini多模态视频检索推荐理由:视频搜索不用转文字了原文
13:42@OpenAIDevs@OpenAIDevs精选AltaraTech 利用 OpenAI 模型帮助科学家和工程师处理多模态、复杂的科研数据,实现多步骤研发工作流的透明化。该公司在 OpenAI 开发者日上展示了如何通过 AI 推理跨模态数据、并行化长周期任务,并增强结果的可解释性。这一方案旨在提升科研效率与信任度,目前团队正在招聘。AI产品OpenAI科研智能多模态工作流自动化AltaraTech推荐理由:科研团队终于有了可落地的 AI 方案——AltaraTech 用 OpenAI 模型打通多模态数据推理与长流程并行化,做材料、生物等复杂实验的科学家可以直接参考,建议点开看看他们怎么解决透明性痛点。原文
12:01Geek@geekbb72°阿里巴巴通义千问团队发布了 Qwen 3.7 预览版,包括 Max 和 Plus 两个版本,已在 LMSYS Arena 上线。该模型在文本和视觉任务上表现强劲,使阿里在 Arena 文本榜单升至第6、视觉榜单升至第5。官方表示完整系列模型即将发布,值得期待。AI模型QwenArena多模态文本生成阿里推荐理由:Qwen 3.7 预览版在 Arena 上表现亮眼,阿里排名大幅提升,做多模态或文本生成的应用开发者可以关注后续正式版发布。原文
09:15berryxia@berryxia72°Odyssey AI 实验室发布了 Starchild-1,这是全球首个实时多模态世界模型。与以往只能生成画面的世界模型不同,Starchild-1 能同时生成真实世界的声音,实现视觉与听觉的同步融合。视频演示中,画面动态与声音实时匹配,营造出完整的场景模拟。这一突破不仅提升了视频生成的真实感,更被视为向通用世界模型迈出的关键一步,旨在让 AI 真正理解和模拟物理世界。AI模型世界模型多模态实时生成AI模拟Odyssey AI推荐理由:做 AI 模拟、游戏开发或虚拟现实的人会眼前一亮——Starchild-1 让世界模型从“只看”进化到“又看又听”,实时多模态融合直接拉高了物理模拟的真实感,值得关注它的后续开放计划。原文
08:39阿里通义 Qwen@Alibaba_Qwen76°阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型,已在 Arena 平台上线。在文本 Arena 中,Qwen3.7 Max Preview 综合排名第13,阿里成为第6大实验室;数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中,Qwen3.7 Plus Preview 排名第16,阿里升至第5。这标志着阿里在多模态能力上的显著进步,正式版 Qwen3.7 系列即将发布。AI模型Qwen3.7阿里Arena推理模型多模态推荐理由:Qwen3.7 Preview 在数学和编程子项表现突出,做推理和代码任务的开发者可以关注正式版发布,值得一试。原文
02:34rohanpaul_ai@rohanpaul_ai78°OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。AI模型MiniCPM-o 4.5全双工多模态开源/仓库实时交互推荐理由:做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型,值得直接上手试。原文
17:57Paul Couvert@itsPaulAiThinking Machines 展示了其模型 MiniCPM-o 4.5 的全双工交互能力,能同时处理音频、视觉和文本流数据。模型将连续数据流分割为固定长度片段,并按时间戳精确对齐融合,实现实时看、听、说。该设计模仿人类同时对话、观察和思考的方式,交互体验接近真人。早期结果和演示视频已公开,展示了 AI 与人类实时协作的新范式。AI模型MiniCPM-o 4.5全双工交互实时流处理Thinking Machines多模态推荐理由:全双工实时交互解决了 AI 对话中“轮流说话”的延迟痛点,做语音助手或实时交互系统的开发者可以直接看演示和设计思路。原文
16:49DeepLearning.AI@DeepLearningAIDeepLearning.AI 发布《构建多模态数据管道》教程,强调企业数据大多以文本、音频、图像和视频形式存在,但大部分未被利用。教程教授如何跨多模态格式处理和检索数据,释放企业数据的价值。该课程适合数据工程师和AI开发者,旨在解决企业数据利用率低的问题。AI产品多模态数据管道DeepLearning.AI企业数据教程推荐理由:企业数据中80%是非结构化的多模态数据,做数据工程或AI应用的团队可以直接用这套方法盘活沉睡数据,建议点开看看。原文
18:29Meta AI@AIatMetaMeta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark,这是一个原生多模态推理模型,支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线,并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。AI模型多模态推理模型工具调用智能体Meta推荐理由:做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力,Meta 承诺未来开源也值得关注。原文
15:02kimi_moonshot@Kimi_Moonshot月之暗面发布了 Kimi K2.6 Agent Swarm,将并行子智能体数量从 K2.5 的 100 个提升至 300 个,每次运行步数从 1500 步增加到 4000 步。该版本支持输出真实文件而非聊天内容,一次运行可生成 100+ 文件、10 万字文献综述或 2 万行数据集。K2.6 集成了搜索、分析、编程、长文写作和视觉生成等多种异构技能,所有技能可并行运行。用户可通过提供的链接直接体验。AI产品智能体并行计算Kimi月之暗面多模态推荐理由:K2.6 将并行子智能体规模提升 3 倍,做复杂研究或数据处理的团队可以一次跑出完整报告和数据集,效率提升明显,值得直接上手试。原文
20:25AK@_akhaliq精选商汤科技推出 SenseNova-U1,基于 NEO-unify 架构实现多模态理解与生成的统一。该模型将视觉与语言任务整合至单一框架,无需分离。NEO-unify 架构通过共同表示学习,兼顾高效推理与生成质量。SenseNova-U1 在多个多模态基准上取得竞争力表现。AI模型SenseNova-U1NEO-unify商汤多模态统一模型推荐理由:商汤新模型,统一看和写原文
09:12TestingCatalog@testingcatalogGoogle 在 Gemini 网页版新增了 Omni 横幅,预示即将推出多模态 Agent 功能。Gemini Omni 将能结合文本、图像和视频,并允许用户将自己添加到不同场景中。同时,AI 头像(Likeness)功能也即将登陆 Gemini,可能与 Omni 深度集成,该功能在移动端应用上表现突出。这一更新可能于今日的 Android 发布会上公布。AI产品Gemini多模态AgentAI头像Google推荐理由:Gemini Omni 的推出标志着 Google 在多模态 AI Agent 领域的重大进展,结合 AI 头像功能,将显著提升用户交互体验。原文
09:12TestingCatalog@testingcatalogMeta宣布其AI模型Muse Spark将集成到Meta AI应用的新语音模式和实时摄像头视图中,支持图像生成、地图显示、Reels数据拉取等功能。同时,购物模式新增了Facebook Marketplace搜索能力。Muse Spark将在未来几周内逐步在Ray-Ban Meta和Oakley Meta眼镜上推出,并扩展至WhatsApp、Instagram等平台。AI产品多模态Muse SparkMeta语音模式实时摄像头推荐理由:Muse Spark的发布标志着Meta在AI多模态交互上的重要进展,通过语音和视觉增强用户体验,并整合购物功能,对AI产品生态有显著影响。原文
09:12TestingCatalog@testingcatalogGoogle 在 Android Show 2026 上发布了全新的 Android Intelligence,带来多项 AI 功能。新系统支持跨应用自动执行多步骤任务,Gemini 在 Chrome 中新增 Browser Use 功能,可自动填写表单。此外,还推出了“Rambler”语音转文字工具和自定义生成 UI 组件。这些更新显著提升了 Android 的智能化水平,为用户带来更便捷的交互体验。AI产品智能体多模态大模型AndroidGemini推荐理由:Android Intelligence 的发布标志着 Google 在移动端 AI 集成上的重要进展,其自动化任务和语音转文字功能将直接影响用户日常使用。原文
08:42阶跃星辰 Stepfun@StepFun_aiStepfun 发布了 Step Image Edit 2,一个 3.5B 参数的图像模型,在指令式图像编辑基准 KRIS-Bench 上排名第一,涵盖总体、事实和概念类别。其性能超越参数规模 5-6 倍的模型,支持文本到图像生成、指令编辑、双语文字渲染和风格迁移。推理速度快,文本到图像仅需 0.7 秒,每次编辑 1.6 秒,每张图像成本仅 $0.003。该模型已在 Stepfun 开放平台上线,模型 ID 为 step-image-edit-2。AI模型图像编辑文本到图像多模态Stepfun开源/仓库推荐理由:该模型以极小参数量在图像编辑基准上取得领先,推理速度快且成本低,为图像编辑和生成任务提供了高效的新选择。原文
02:41NVIDIA AI@NVIDIAAINVIDIA AI官方发布了关于Nemotron 3 Nano Omni的专家问答内容,来自Nemotron Labs。该模型是Nemotron系列的最新进展,专注于边缘设备上的高效AI推理。问答中探讨了模型架构、量化技术与实际部署场景,强调了小模型在保持高性能同时降低计算成本的重要性。这标志着NVIDIA在小型化多模态AI模型上的持续投入。AI模型NVIDIANemotron边缘推理模型压缩多模态推荐理由:对于关注边缘AI部署和模型压缩的开发者,Nemotron系列的技术细节具有实际参考价值,尤其适合了解NVIDIA在小模型领域的最新动态。原文
21:55AK@_akhaliq阿里发布Qwen-Image-2.0技术报告,介绍了新一代多模态图像生成模型。该模型在文本到图像生成、图像编辑和风格迁移等任务上表现出色,支持高分辨率输出和细粒度控制。报告详细阐述了模型架构、训练方法和性能评估,表明其在多项基准测试中达到领先水平。这对于推动多模态AI发展和实际应用具有重要意义。论文多模态图像生成Qwen技术报告推荐理由:Qwen-Image-2.0的发布展示了阿里在多模态生成领域的持续进步,为图像生成任务提供了新的基准和工具,值得相关从业者关注。原文
21:55AK@_akhaliqTMAS(多智能体协同扩展测试时计算)是一种新方法,通过让多个AI智能体协同工作来提升模型推理能力,类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数,仅通过集成多个智能体在测试时分配计算资源,在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径,为资源有限的研究团队提供新思路。论文推理模型智能体多模态协同计算测试时扩展8 个信源在谈推荐理由:TMAS探索了多智能体协同扩展测试时计算的范式,无需额外训练即可提升模型性能,对推理模型和智能体系统的发展具有参考价值。原文
17:35AK@_akhaliqPixal3D是一个新的3D生成方法,能够从单张或多张图像生成像素对齐的3D模型。该方法利用像素对齐的表示方式,提高了生成3D模型的几何和纹理精度。相关论文和代码已发布,为3D内容创作提供了更高效的工具。该技术有望推动AR/VR、游戏和影视领域的3D资产自动化生成。论文3D生成像素对齐多模态论文推荐理由:Pixal3D通过像素对齐提升3D生成质量,对于自动化3D建模和数字内容创作具有实际应用价值,值得关注。原文
17:19歸藏(guizang.ai)@op7418OpenAI 推出了GPT-image-2.0图像生成模型,同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升,支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展,为创意行业和内容生产提供了更强大的工具。AI模型图像生成视频生成GPT-image-2.0Seedance 2.0多模态3 个信源在谈推荐理由:对于AI生成领域从业者,GPT-image-2.0和Seedance 2.0的发布代表了图像和视频生成技术的最新进展,值得关注其在实际应用中的表现和潜在影响。原文
17:19歸藏(guizang.ai)@op741875°前 OpenAI CTO Mira 创立的公司 Thinking Machines 发布了一款名为“交互模型”的创新 AI。该模型能原生处理音频、视频、文本等多种模态,并且实时思考、响应和行动。区别于传统的 Agent 架构将不同模型串联,它将所有模态统一在一个模型中,实现任意模态下的实时交互,用户可以随时打断、补充,AI 会持续关注用户状态并输出结果。模型由前台交互模型(每200毫秒处理输入并输出)和后台推理模型(处理复杂推理和长任务)两部分组成,最终提供实时交互和重度任务处理的能力。AI模型多模态交互模型Thinking Machines实时4 个信源在谈推荐理由:该模型打破了传统 AI 交互的固定对话模式,实现了真正的多模态实时交互,可能重新定义人机交互的标准。对于从事 AI 产品和交互设计的从业者而言,这是一个值得关注的技术方向。原文