全部 AI 动态 · AI 热点

5月22日

15:16

小互@imxiaohu

精选

网易有道今日开源 Confucius4 双模型，分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模，有道更注重工程精度和落地成本。开源直接提供完整权重，而非仅开放 API，降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题，语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。

AI模型开源/仓库多模态语音克隆数学推理 Confucius4

推荐理由：做教育 AI 或语音应用的开发者可以直接拿到完整权重，省去从零训练的成本，建议试试这两个模型的实际效果。

原文

07:53

AI Will@FinanceYF5

Google 发布了名为 Gemini Omni 的新模型，能够从任意输入（如视频）生成任意内容。该模型首先支持视频输入，类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用，API 支持即将推出。这标志着多模态 AI 能力的重大扩展，让用户能更灵活地创作和交互。

AI模型 Gemini Omni 多模态视频生成 Google AI模型

推荐理由：多模态 AI 又进一步——Gemini Omni 从视频直接生成内容，做视频创作或内容生产的团队值得关注，API 开放后可以直接集成到工作流中。

原文

5月21日

15:14

marktechpost@Asif Razzaq

精选

字节跳动智能创作实验室推出Lance，一个原生统一多模态模型，仅用3B激活参数即可处理图像与视频的理解、生成和编辑。Lance在图像理解基准MSCOCO上达到44.8的BLEU-4，在视频生成测试集UCF-101上取得FVD 159.3。该模型支持文本到图像、文本到视频、图像编辑、视频编辑等多种任务。Lance以Apache 2.0许可证开源，代码和权重已在GitHub发布。

AI模型 Lance ByteDance 多模态视频生成开源模型

推荐理由：3B参数打通图视频理解生成

原文

08:01

Google Gemini App@GeminiApp

Google 宣布全球 AI Plus、Pro 和 Ultra 订阅用户现可在 Gemini 应用中试用 Gemini Omni 功能。该功能允许用户直接在应用内进行多模态交互和创作。Google 鼓励用户分享自己的创作成果。此举标志着 Google 在 AI 多模态能力上的进一步扩展，面向高级订阅用户开放。

AI产品 Gemini 多模态订阅用户 AI 创作 Google

推荐理由：Google 将多模态 AI 能力直接集成到 Gemini 应用中，Plus/Pro/Ultra 订阅用户现在就能上手体验，做内容创作或 AI 实验的团队值得一试。

原文

08:01

Guillermo Rauch@rauchg

72°

Vercel 发布了 AI Gateway 的 WordPress 插件，让 WordPress 站点可以轻松接入多种 AI 模型。该插件支持文本、图像、视频和音频等多种模态，只需一个 API 密钥即可调用。由于 WordPress 占据全球约 42% 的网站，这一插件将极大降低 AI 功能的集成门槛，使大量网站能够快速获得 AI 能力。

AI产品 AI Gateway WordPress Vercel 多模态 API 集成

推荐理由：WordPress 站长和开发者可以一键为网站接入多模态 AI，无需复杂配置，覆盖 42% 的网页生态，值得立即尝试。

原文

08:00

AI Will@FinanceYF5

谷歌宣布将Gemini 3.5模型直接集成到搜索框中，支持图片、视频和文件等多模态输入，用户可以进行跨模态提问。同时，AI Overviews和AI Mode功能合并，提供更智能的搜索体验。这一变化标志着搜索从关键词、语义时代进入AI原生交互阶段，大幅降低用户获取信息的门槛。对于日常依赖搜索获取信息的用户和开发者来说，这是搜索体验的一次重大升级。

AI产品谷歌 Gemini 3.5 AI搜索多模态 AI Overviews

推荐理由：谷歌把最强AI直接塞进搜索框，做信息检索或内容研究的团队可以立刻体验跨模态提问，搜索效率会有质的提升。

原文

08:00

歸藏(guizang.ai)@op7418

72°

谷歌在 I/O 大会上宣布将 Antigravit 整个生态整合进 Gemini，Gemini CLI 更名为 Antigravit CLI，并发布对应 SDK。Antigravit 2.0 版本更像 Codex，而非 Cursor。实测 Gemini 3.5 Flash 配合 Antigravit 在排版上表现不错，但权限审批繁琐、缺少内置浏览器等细节体验不足。整体仍处于早期阶段，适合基础任务。

AI产品谷歌 I/O Antigravit Gemini 编程助手多模态

推荐理由：谷歌把 Antigravit 生态整合进 Gemini，做 AI 编程的开发者可以试试它的多模态排版能力，但别期待太复杂的自动化——权限和体验还差一截。

原文

08:00

小互@imxiaohu

91°

Google I/O 2026 开发者大会发布了三款 Gemini 模型：Gemini 3.5 Flash 升级为行动大脑，专注于自主决策与任务执行；Gemini Spark 定位为远端个人 AI 代理入口，强化跨设备协同；Gemini Omni 则是多模态世界模型的雏形，能理解并交互物理世界。这次发布标志着 Google 从单一对话模型向多智能体、多模态生态的全面转型，对开发者和 AI 应用场景有深远影响。

AI产品 Gemini 多模态智能体开发者大会 Google I/O

推荐理由：Google 一口气推出三款定位清晰的模型，从行动大脑到世界模型雏形，做 AI 应用或智能体开发的团队值得关注，这可能是未来一年最值得跟进的生态方向。

原文

08:00

小互@imxiaohu

一条推文将 Gemini Omni 形容为“视频版的香蕉”，暗示其具备强大的视频编辑与理解能力。作者认为它远不止视频编辑，而是世界模型的雏形，代表了通用 AGI 的初始形态。该推文引发了对 Gemini Omni 潜力的讨论，认为它可能推动 AI 从语言模型向多模态世界理解迈进。

AI产品 Gemini Omni 世界模型 AGI 多模态视频理解

推荐理由：如果你关注多模态 AI 和 AGI 进展，这条推文点出了 Gemini Omni 可能超越视频编辑、成为世界模型雏形的关键判断，值得一看。

原文

08:00

Google Gemini App@GeminiApp

Google 宣布 Gemini Omni 即日起向所有 Google AI Plus、Pro 和 Ultra 订阅用户开放，可在 gemini.google 网站和移动应用中使用。该功能支持用户创建个性化头像，并鼓励在评论区分享作品。此举标志着 Google 在 AI 多模态交互上的进一步扩展，为付费用户提供了更丰富的创作工具。

AI产品 Gemini Omni Google AI 头像生成多模态订阅服务

推荐理由：Gemini Omni 让 Google AI 订阅用户有了新的创作玩法，做内容或社交媒体的团队可以试试用它生成头像，提升互动趣味。

原文

08:00

Philipp Schmid@_philschmid

Google 正式推出 Gemini 3.5 模型，并同步发布了开发者指南和 AI Studio 平台。开发者指南提供了详细的 API 文档和集成示例，帮助快速上手。AI Studio 则是一个在线实验环境，支持直接测试模型能力。这一更新意味着开发者可以更便捷地利用 Gemini 3.5 构建应用，尤其适合需要多模态理解或长上下文处理的场景。

AI产品 Gemini 3.5 开发者指南 AI Studio API 多模态

推荐理由：做 AI 应用开发的团队可以直接用 Gemini 3.5 的 API 和 AI Studio 快速验证想法，省去本地部署的麻烦，值得点开看看文档和示例。

原文

08:00

08:00IT之家（博客/媒体）

83°

谷歌在 2026 I/O 开发者大会上宣布，Gemini 3.5 Pro 模型将于下月正式发布。目前该模型已在谷歌内部使用，官方称其进步非常强，但未透露具体细节。这一消息表明谷歌在 AI 模型迭代上持续加速，Gemini 3.5 Pro 有望在性能、多模态或推理能力上带来显著提升，值得开发者和 AI 从业者关注。

AI模型 Gemini 3.5 Pro 谷歌推理模型多模态 AI 模型发布

推荐理由：谷歌 Gemini 系列模型迭代节奏加快，3.5 Pro 内部使用已获「进步超强」评价，做多模态或推理应用的开发者值得提前关注，下月发布后可直接上手体验。

原文

08:00

小互@imxiaohu

Google 推出了全新的 Omni 模型，这是一个多模态 AI 模型，能够同时处理文本、图像、音频等多种输入。该模型在理解和生成跨模态内容方面表现出色，有望推动 AI 交互方式的革新。Omni 模型的出现标志着多模态 AI 技术的重要进展，为开发者提供了更强大的工具来构建更自然的用户界面。

AI模型多模态 Omni Google AI模型跨模态

推荐理由：多模态模型是 AI 交互的下一个前沿，做跨模态应用的开发者可以直接关注 Omni 模型的能力边界，看看能否替代现有方案。

原文

08:00

歸藏(guizang.ai)@op7418

AI产品谷歌 Gemini Omni 视频模型多模态实时交互

推荐理由：做视频分析和多模态应用的开发者终于可以上手测试了——Gemini Omni 的实时视频理解能力可能改变视频交互方式，建议有相关需求的团队尽早体验。

原文

03:22

小互@imxiaohu

精选

Open Duck机器人搭载了谷歌的Gemma 4模型，实现了视觉识别和自然语言对话。在演示中，它能识别书桌、水杯等物体并描述场景。机器人还能通过语音与用户进行多轮问答。该方案展示了40亿参数模型在边缘设备上的实时推理能力。

AI产品 Gemma 4 Open Duck 机器人多模态

推荐理由：Gemma 4让机器人会看会聊

原文

5月20日

18:46

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云宣布将于2026年举办Qwen Conference，主题议程聚焦AI原生云、智能体原生云架构、推理未来和多模态视觉技术。会议承诺无冗余内容，直接提供面向全球规模的工程蓝图。该会议旨在展示阿里云在AI基础设施和智能体领域的最新进展，为开发者和企业提供可落地的技术方案。目前已开放注册。

行业 AI原生云智能体推理多模态阿里云

推荐理由：阿里云首次将AI原生云和智能体原生云架构作为核心议题，做云原生和AI基础设施的团队可以提前了解工程蓝图，建议关注注册。

原文

18:30

berryxia@berryxia

72°

ZenMux 平台已上线 Gemini 3.5 Flash 模型，用户可免费体验。该模型在递归二叉树生长测试中，从输入提示词到生成完整 HTML 动画网页仅用 77.56 秒，效果自然优雅。Gemini 3.5 Flash 专为 Agent 设计，在 MCP Atlas、Toolathlon 等多项榜单排名第一，多模态能力超越上一代 Gemini 3.1 Pro。支持按量计费和 Builder 套餐，兼容主流 API 格式。

AI产品 Gemini 3.5 Flash ZenMux Agent 多模态免费体验

推荐理由：AI 开发者可以零成本体验 Google 最新旗舰模型，77 秒生成动画网页展示了其极速推理和 Agent 能力，做创意编程或 Agent 应用的建议立即试用。

原文

15:14

AI Will@FinanceYF5

83°

Google AI 今日宣布推出全新智能搜索框，集成了其最先进的 Gemini 3.5 模型，带来更强的智能体能力。用户可以通过文本、图像、文件和视频等多种模态进行提问，搜索能够跨模态进行推理。该搜索体验将 AI Overviews 和 AI Mode 合并为统一的 AI 搜索体验，支持追问、构建上下文，并提供更个性化的回答。新功能已在全球桌面端和移动端上线。

AI产品 Gemini 3.5 智能搜索多模态智能体 Google AI

推荐理由：Google 将 Gemini 3.5 的智能体能力直接嵌入搜索，意味着日常搜索从关键词匹配升级为多模态推理助手。重度依赖搜索获取信息的用户、研究者和开发者，值得立刻体验这种能理解图片和视频的搜索方式。

原文

14:35

berryxia@berryxia

72°

ZenMux 平台已免费上线 Google 最新发布的 Gemini 3.5 Flash 模型，用户可直接体验。该模型在递归二叉树生长测试中，从输入提示词到生成完整 HTML 动画网页仅用 77.56 秒，效果惊艳。Gemini 3.5 Flash 专为 Agent 设计，在 MCP Atlas、Toolathlon 等多项榜单排名第一，多模态理解能力全面超越上一代 Gemini 3.1 Pro。平台支持零延迟首发，兼容主流 API 格式，并提供免费试用额度。

AI产品 Gemini 3.5 Flash ZenMux Agent 多模态免费试用

推荐理由：Google I/O 刚发布就能免费白嫖，做 Agent 或动画生成的开发者可以立刻上手测试，77 秒出完整 HTML 动画的效率值得一试。

原文

13:09

berryxia@berryxia

83°

Google DeepMind 推出了 Gemini 3.5 Flash 模型，在 Intelligence Index 上获得 55 分，比上一代 Gemini 3 Flash 高 9 分，超越 Grok 4.3 和 Claude Sonnet 4.6。Agentic 任务 Elo 评分达 1656，幻觉率从 92% 降至 61%，多模态理解 MMMU-Pro 达 84%，输出速度超 280 tokens/s，比前代快 70%。但成本大幅上升，运行一次测试的成本是 Gemini 3 Flash 的 5.5 倍，定价为 $1.5/$9 per 1M input/output tokens，是前代的 3 倍。这标志着智能与速度的 Pareto 前沿被刷新，但“Flash”系列的性价比优势不再。

AI模型 Gemini 3.5 Flash Google DeepMind 推理模型多模态成本分析

推荐理由：Gemini 3.5 Flash 在智能和速度上实现了突破，做 AI 应用或 agent 开发的团队值得关注——性能提升显著，但预算敏感型项目需要重新评估成本。

原文

09:28

Google AI@GoogleAI

72°

Google 宣布推出全新智能搜索框，将 AI Overviews 和 AI Mode 合并为统一的 AI 搜索体验。该搜索框基于最先进的 Gemini 3.5 模型，支持文本、图像、文件和视频等多模态输入，并能跨模态进行推理。用户可提出后续问题、构建上下文，获得更个性化和精准的回复。新搜索体验已在全球桌面端和移动端上线。

AI产品 Gemini 3.5 AI 搜索多模态智能体 Google

推荐理由：Google 将 AI 搜索能力整合进一个统一入口，做搜索优化或内容运营的团队值得关注——这意味着用户行为和数据反馈将更集中，直接影响 SEO 策略和内容分发逻辑。

原文

08:13

berryxia@berryxia

83°

Google I/O 2026 主题演讲由 Sundar Pichai 主讲，聚焦「Agentic Gemini 时代」，强调 AI 从聊天机器人进化为能自主思考、执行任务、跨设备运行的「世界模型」。主要发布包括 Gemini 3.5 Flash（速度提升 4 倍，默认模型）、Gemini Omni 多模态世界模型（支持任意输入输出，理解物理世界）、Gemini Spark 全天候自主 Agent，以及 Android XR 智能眼镜预览。Google 将 AI 深度整合到 Search、Workspace、Gmail 等产品中，并推出开发者工具 Antigravity 2.0。整体策略务实，注重落地而非参数竞赛。

行业 Google I/O Gemini 智能体多模态世界模型

推荐理由：Google 把 AI 从聊天工具升级为操作系统级智能体，做开发、用搜索、搞创意的团队都能直接受益——Gemini 3.5 Flash 已可用，建议开发者立刻试试。

原文

07:26

orange.ai@oran_ge

83°

Google 昨晚发布 Gemini flash 3.5 模型，现已可用。该模型在多项指标上大幅超越 3.1 Pro，与 GPT 5.5 接近，且在 Agentic 和多模态能力上更优。价格仅为 GPT 5.5 的三分之一，缓存价格六分之一，API 定价 $1.50/$9.00 每百万 token。上下文窗口达 1M token，速度是其他旗舰模型的 4 倍，非常适合 Agent 场景。

AI模型 Gemini flash 3.5 推理模型多模态 Agent

推荐理由：做 Agent 和多模态应用的开发者终于有了性价比更高的选择——Gemini flash 3.5 速度是旗舰模型的 4 倍，价格却只有 GPT 5.5 的三分之一，建议直接试 API。

原文

04:16

Demis Hassabis@demishassabis

精选

Demis Hassabis 宣布 Gemini Omni 在多模态理解与编辑方面取得重大进展。该模型能处理照片、视频和音频输入，并构建全新场景。初期从视频开始，未来将支持任意输入与输出。用户可上传自己的视频并在其上迭代想法。

AI模型 Gemini Omni 多模态视频编辑场景生成

推荐理由：Gemini Omni能处理视频/音频/图片并构建新场景

原文

03:48

03:48Google Blog: AI（博客/媒体）

72°

Google 在 Search IO 2026 上宣布了搜索引擎与AI深度融合的新阶段，将传统搜索的精准性与AI的生成能力结合。新功能包括更智能的对话式搜索、多模态理解（图片、视频、文本混合查询）以及个性化结果生成。这一更新旨在提升用户获取信息的效率，同时保持搜索结果的可靠性。Google 强调，AI 不会取代搜索，而是增强其能力，让用户能更自然地探索复杂问题。

AI产品 AI搜索 Google 搜索引擎多模态对话式AI

推荐理由：Google 把搜索引擎和AI生成能力真正打通了，做搜索优化或内容运营的团队值得关注——这可能会改变用户获取信息的方式，建议点开看看具体怎么落地。

原文

03:17

Google AI@GoogleAI

精选

谷歌AI推出Gemini Omni，支持通过自然语言描述来编辑视频。用户只需说出想改变的内容，就能调整角色、场景和风格。该功能类似Nano Banana对图片的编辑方式，但应用于视频领域。

AI产品 Gemini Omni Google 视频编辑多模态

推荐理由：谷歌让你用语言改视频

原文

03:17

Google AI@GoogleAI

精选

GoogleAI 推出 Gemini Omni 模型，支持从文本、图像、音频等多种输入类型生成内容，初始阶段重点支持视频输入。该模型旨在实现“从任何输入创建任何输出”的目标，但官方未公布具体基准测试成绩或模型参数。推文通过 Twitter 线程形式解释其意义，引发社区关注。

AI模型 Gemini Omni GoogleAI 多模态视频生成

推荐理由：谷歌的万能创作模型来了

原文

03:07

Google Gemini App@GeminiApp

精选

Google 即日起向 Google AI Plus、Pro 和 Ultra 订阅用户全球推送 Gemini Omni，支持在 gemini.google 网站和移动应用中使用。未来将陆续支持图像和音频等更多输出格式。该模型可同时处理文本、图像、音频等多模态输入。目前所有 Plus、Pro 和 Ultra 用户均可体验。

AI产品 Gemini Omni Google 多模态

推荐理由：试试谷歌新多模态模型

原文

03:07

Google Gemini App@GeminiApp

精选

Google在Google IO上发布新模型Gemini Omni，可接受图像、视频和文本作为输入，生成高质量视频。该模型利用Gemini的真实世界知识，使视频内容更加准确和连贯。这是多模态视频生成的重要进展，支持从多种混合输入直接创建视频内容。

AI模型 Gemini Omni Google 视频生成多模态

推荐理由：Google发了能多模态生视频的模型

原文

03:00

Justine Moore@venturetwins

Google DeepMind 的 Omni 模型支持最多五张图片和一段视频作为提示输入。用户通过将 Zillow 房产截图批量输入模型，获得了令人满意的分析结果。该功能突破了传统单图限制，适用于房产比较、多角度分析等场景。目前仅支持最多10秒视频，但用户期待更长时长。

AI产品多模态 Google DeepMind Omni 图片提示房产分析

推荐理由：做房产分析或多图对比的团队可以直接用 Omni 批量处理截图，省去手动整理信息的麻烦，值得一试。

原文

02:56

OpenRouter@OpenRouterAI

83°

Google DeepMind 的 Gemini 3.5 Flash 模型已在 OpenRouter 平台上线。该模型在编码、智能体任务和工具使用方面超越了 Gemini 3.1 Pro，同时保持了 Flash 级别的价格和速度。它支持 100 万 token 上下文窗口、6.5 万 token 最大输出，并具备多模态能力。输入价格为每百万 token 1.50 美元，输出价格为每百万 token 9 美元。

AI模型 Gemini 3.5 Flash OpenRouter 编码智能体多模态

推荐理由：做编码和智能体开发的团队终于有了更便宜且更强的选择——Gemini 3.5 Flash 在关键任务上超越 Pro 系列，价格却只有 Flash 档位，值得立刻在 OpenRouter 上试试。

原文

02:11

02:11IT之家（博客/媒体）

76°

谷歌在 2026 I/O 大会上宣布搜索业务迎来 25 年来最大改版，核心是用 AI 全面重塑搜索入口与交互方式。用户从“输关键词”转向“描述完整需求”，由 Gemini 3.5 Flash 模型提供快速响应。新版搜索支持多模态输入（文本、图片、视频、文件等），AI Overview 支持连续追问，形成聊天式交互。此外，谷歌计划推出 24 小时后台运行的搜索智能体，可追踪公寓、球鞋发售等目标，并在夏季上线。个人智能功能扩展到 98 种语言、近 200 个国家，可连接 Gmail、Google Photos 等个人数据。

AI产品谷歌搜索 AI 搜索 Gemini 3.5 Flash 搜索智能体多模态

推荐理由：谷歌搜索这次改版彻底改变了搜索方式，从关键词到完整需求，做内容、做运营、做产品的团队都该关注——搜索流量和用户行为即将发生根本变化，建议尽早了解并调整策略。

原文

01:47

Justine Moore@venturetwins

精选

Google DeepMind 推出 Omni 模型，支持用户上传真实视频并通过文本指令进行编辑，包括改变动作、风格或主体。用户还可以在视频上直接标注请求。示例中，用户要求“每次拍手时更换帽子”，模型成功执行。该功能展示了多模态模型在视频编辑领域的应用。

AI产品 Omni Google DeepMind 视频编辑多模态

推荐理由：在视频上直接改动作换风格

原文

01:17

Google DeepMind@GoogleDeepMind

Google DeepMind推出Gemini Omni，这是其首个可从任何内容生成任何内容的模型，首先聚焦视频生成。该模型结合了Gemini的推理能力与DeepMind的生成式媒体系统，在多模态理解和编辑方面取得进展。它代表了世界理解、多模态和编辑能力的飞跃。目前已开始部署。

AI模型 Gemini Omni Google DeepMind 多模态视频生成

推荐理由：谷歌发布能生成视频的Gemini Omni

原文

5月19日

23:00

Weaviate@weaviate_io

精选

Weaviate推出新方法，使用Gemini embedding 2 multimodal直接对视频片段进行嵌入。无需转录文本或元数据，将原始视频分割成重叠片段后即可存入Weaviate。用户提问后系统直接从视频中定位相关片段并生成回答。该方法简化了视频搜索流程，消除了预处理步骤。相关notebook和完整指南已在GitHub和Weaviate博客发布。

技巧 Weaviate Gemini 多模态视频检索

推荐理由：视频搜索不用转文字了

原文

13:42

@OpenAIDevs@OpenAIDevs

精选

AltaraTech 利用 OpenAI 模型帮助科学家和工程师处理多模态、复杂的科研数据，实现多步骤研发工作流的透明化。该公司在 OpenAI 开发者日上展示了如何通过 AI 推理跨模态数据、并行化长周期任务，并增强结果的可解释性。这一方案旨在提升科研效率与信任度，目前团队正在招聘。

AI产品 OpenAI 科研智能多模态工作流自动化 AltaraTech

推荐理由：科研团队终于有了可落地的 AI 方案——AltaraTech 用 OpenAI 模型打通多模态数据推理与长流程并行化，做材料、生物等复杂实验的科学家可以直接参考，建议点开看看他们怎么解决透明性痛点。

原文

12:01

Geek@geekbb

72°

阿里巴巴通义千问团队发布了 Qwen 3.7 预览版，包括 Max 和 Plus 两个版本，已在 LMSYS Arena 上线。该模型在文本和视觉任务上表现强劲，使阿里在 Arena 文本榜单升至第6、视觉榜单升至第5。官方表示完整系列模型即将发布，值得期待。

AI模型 Qwen Arena 多模态文本生成阿里

推荐理由：Qwen 3.7 预览版在 Arena 上表现亮眼，阿里排名大幅提升，做多模态或文本生成的应用开发者可以关注后续正式版发布。

原文

09:15

berryxia@berryxia

72°

Odyssey AI 实验室发布了 Starchild-1，这是全球首个实时多模态世界模型。与以往只能生成画面的世界模型不同，Starchild-1 能同时生成真实世界的声音，实现视觉与听觉的同步融合。视频演示中，画面动态与声音实时匹配，营造出完整的场景模拟。这一突破不仅提升了视频生成的真实感，更被视为向通用世界模型迈出的关键一步，旨在让 AI 真正理解和模拟物理世界。

AI模型世界模型多模态实时生成 AI模拟 Odyssey AI

推荐理由：做 AI 模拟、游戏开发或虚拟现实的人会眼前一亮——Starchild-1 让世界模型从“只看”进化到“又看又听”，实时多模态融合直接拉高了物理模拟的真实感，值得关注它的后续开放计划。

原文

08:39

阿里通义 Qwen@Alibaba_Qwen

76°

阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型，已在 Arena 平台上线。在文本 Arena 中，Qwen3.7 Max Preview 综合排名第13，阿里成为第6大实验室；数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中，Qwen3.7 Plus Preview 排名第16，阿里升至第5。这标志着阿里在多模态能力上的显著进步，正式版 Qwen3.7 系列即将发布。

AI模型 Qwen3.7 阿里 Arena 推理模型多模态

推荐理由：Qwen3.7 Preview 在数学和编程子项表现突出，做推理和代码任务的开发者可以关注正式版发布，值得一试。

原文

08:33

08:33IT之家（博客/媒体）

72°

AI模型千问 Qwen3.7 Arena AI 多模态推理模型

推荐理由：千问新模型在数学和编程榜单上冲进前十，做技术选型或对比评测的开发者值得关注，可以直接去 Arena AI 体验。

原文