15:16小互@imxiaohu精选网易有道今日开源 Confucius4 双模型,分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模,有道更注重工程精度和落地成本。开源直接提供完整权重,而非仅开放 API,降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题,语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。AI模型开源/仓库多模态语音克隆数学推理Confucius4推荐理由:做教育 AI 或语音应用的开发者可以直接拿到完整权重,省去从零训练的成本,建议试试这两个模型的实际效果。原文
07:53AI Will@FinanceYF5Google 发布了名为 Gemini Omni 的新模型,能够从任意输入(如视频)生成任意内容。该模型首先支持视频输入,类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用,API 支持即将推出。这标志着多模态 AI 能力的重大扩展,让用户能更灵活地创作和交互。AI模型Gemini Omni多模态视频生成GoogleAI模型推荐理由:多模态 AI 又进一步——Gemini Omni 从视频直接生成内容,做视频创作或内容生产的团队值得关注,API 开放后可以直接集成到工作流中。原文
15:14marktechpost@Asif Razzaq精选字节跳动智能创作实验室推出Lance,一个原生统一多模态模型,仅用3B激活参数即可处理图像与视频的理解、生成和编辑。Lance在图像理解基准MSCOCO上达到44.8的BLEU-4,在视频生成测试集UCF-101上取得FVD 159.3。该模型支持文本到图像、文本到视频、图像编辑、视频编辑等多种任务。Lance以Apache 2.0许可证开源,代码和权重已在GitHub发布。AI模型LanceByteDance多模态视频生成开源模型推荐理由:3B参数打通图视频理解生成原文
08:01Google Gemini App@GeminiAppGoogle 宣布全球 AI Plus、Pro 和 Ultra 订阅用户现可在 Gemini 应用中试用 Gemini Omni 功能。该功能允许用户直接在应用内进行多模态交互和创作。Google 鼓励用户分享自己的创作成果。此举标志着 Google 在 AI 多模态能力上的进一步扩展,面向高级订阅用户开放。AI产品Gemini多模态订阅用户AI 创作Google推荐理由:Google 将多模态 AI 能力直接集成到 Gemini 应用中,Plus/Pro/Ultra 订阅用户现在就能上手体验,做内容创作或 AI 实验的团队值得一试。原文
08:01Guillermo Rauch@rauchg72°Vercel 发布了 AI Gateway 的 WordPress 插件,让 WordPress 站点可以轻松接入多种 AI 模型。该插件支持文本、图像、视频和音频等多种模态,只需一个 API 密钥即可调用。由于 WordPress 占据全球约 42% 的网站,这一插件将极大降低 AI 功能的集成门槛,使大量网站能够快速获得 AI 能力。AI产品AI GatewayWordPressVercel多模态API 集成推荐理由:WordPress 站长和开发者可以一键为网站接入多模态 AI,无需复杂配置,覆盖 42% 的网页生态,值得立即尝试。原文
08:00AI Will@FinanceYF5谷歌宣布将Gemini 3.5模型直接集成到搜索框中,支持图片、视频和文件等多模态输入,用户可以进行跨模态提问。同时,AI Overviews和AI Mode功能合并,提供更智能的搜索体验。这一变化标志着搜索从关键词、语义时代进入AI原生交互阶段,大幅降低用户获取信息的门槛。对于日常依赖搜索获取信息的用户和开发者来说,这是搜索体验的一次重大升级。AI产品谷歌Gemini 3.5AI搜索多模态AI Overviews推荐理由:谷歌把最强AI直接塞进搜索框,做信息检索或内容研究的团队可以立刻体验跨模态提问,搜索效率会有质的提升。原文
08:00歸藏(guizang.ai)@op741872°谷歌在 I/O 大会上宣布将 Antigravit 整个生态整合进 Gemini,Gemini CLI 更名为 Antigravit CLI,并发布对应 SDK。Antigravit 2.0 版本更像 Codex,而非 Cursor。实测 Gemini 3.5 Flash 配合 Antigravit 在排版上表现不错,但权限审批繁琐、缺少内置浏览器等细节体验不足。整体仍处于早期阶段,适合基础任务。AI产品谷歌 I/OAntigravitGemini编程助手多模态10 个信源在谈推荐理由:谷歌把 Antigravit 生态整合进 Gemini,做 AI 编程的开发者可以试试它的多模态排版能力,但别期待太复杂的自动化——权限和体验还差一截。原文
08:00小互@imxiaohu91°Google I/O 2026 开发者大会发布了三款 Gemini 模型:Gemini 3.5 Flash 升级为行动大脑,专注于自主决策与任务执行;Gemini Spark 定位为远端个人 AI 代理入口,强化跨设备协同;Gemini Omni 则是多模态世界模型的雏形,能理解并交互物理世界。这次发布标志着 Google 从单一对话模型向多智能体、多模态生态的全面转型,对开发者和 AI 应用场景有深远影响。AI产品Gemini多模态智能体开发者大会Google I/O推荐理由:Google 一口气推出三款定位清晰的模型,从行动大脑到世界模型雏形,做 AI 应用或智能体开发的团队值得关注,这可能是未来一年最值得跟进的生态方向。原文
08:00小互@imxiaohu一条推文将 Gemini Omni 形容为“视频版的香蕉”,暗示其具备强大的视频编辑与理解能力。作者认为它远不止视频编辑,而是世界模型的雏形,代表了通用 AGI 的初始形态。该推文引发了对 Gemini Omni 潜力的讨论,认为它可能推动 AI 从语言模型向多模态世界理解迈进。AI产品Gemini Omni世界模型AGI多模态视频理解推荐理由:如果你关注多模态 AI 和 AGI 进展,这条推文点出了 Gemini Omni 可能超越视频编辑、成为世界模型雏形的关键判断,值得一看。原文
08:00Google Gemini App@GeminiAppGoogle 宣布 Gemini Omni 即日起向所有 Google AI Plus、Pro 和 Ultra 订阅用户开放,可在 gemini.google 网站和移动应用中使用。该功能支持用户创建个性化头像,并鼓励在评论区分享作品。此举标志着 Google 在 AI 多模态交互上的进一步扩展,为付费用户提供了更丰富的创作工具。AI产品Gemini OmniGoogle AI头像生成多模态订阅服务推荐理由:Gemini Omni 让 Google AI 订阅用户有了新的创作玩法,做内容或社交媒体的团队可以试试用它生成头像,提升互动趣味。原文
08:00Philipp Schmid@_philschmidGoogle 正式推出 Gemini 3.5 模型,并同步发布了开发者指南和 AI Studio 平台。开发者指南提供了详细的 API 文档和集成示例,帮助快速上手。AI Studio 则是一个在线实验环境,支持直接测试模型能力。这一更新意味着开发者可以更便捷地利用 Gemini 3.5 构建应用,尤其适合需要多模态理解或长上下文处理的场景。AI产品Gemini 3.5开发者指南AI StudioAPI多模态5 个信源在谈推荐理由:做 AI 应用开发的团队可以直接用 Gemini 3.5 的 API 和 AI Studio 快速验证想法,省去本地部署的麻烦,值得点开看看文档和示例。原文
08:00IT之家(博客/媒体)83°谷歌在 2026 I/O 开发者大会上宣布,Gemini 3.5 Pro 模型将于下月正式发布。目前该模型已在谷歌内部使用,官方称其进步非常强,但未透露具体细节。这一消息表明谷歌在 AI 模型迭代上持续加速,Gemini 3.5 Pro 有望在性能、多模态或推理能力上带来显著提升,值得开发者和 AI 从业者关注。AI模型Gemini 3.5 Pro谷歌推理模型多模态AI 模型发布1 个信源在谈推荐理由:谷歌 Gemini 系列模型迭代节奏加快,3.5 Pro 内部使用已获「进步超强」评价,做多模态或推理应用的开发者值得提前关注,下月发布后可直接上手体验。原文
08:00小互@imxiaohuGoogle 推出了全新的 Omni 模型,这是一个多模态 AI 模型,能够同时处理文本、图像、音频等多种输入。该模型在理解和生成跨模态内容方面表现出色,有望推动 AI 交互方式的革新。Omni 模型的出现标志着多模态 AI 技术的重要进展,为开发者提供了更强大的工具来构建更自然的用户界面。AI模型多模态OmniGoogleAI模型跨模态推荐理由:多模态模型是 AI 交互的下一个前沿,做跨模态应用的开发者可以直接关注 Omni 模型的能力边界,看看能否替代现有方案。原文
08:00歸藏(guizang.ai)@op7418谷歌最新的视频模型 Gemini Omni 已开始向部分用户推送,标志着该模型从测试阶段进入更广泛可用阶段。Gemini Omni 支持多模态输入,包括视频、图像和文本,能够进行实时视频理解和交互。这一放量意味着更多开发者可以尝试其视频分析能力,如实时场景理解、物体识别和对话式交互。对于 AI 视频应用和实时多模态交互领域,这是一个重要进展。AI产品谷歌Gemini Omni视频模型多模态实时交互推荐理由:做视频分析和多模态应用的开发者终于可以上手测试了——Gemini Omni 的实时视频理解能力可能改变视频交互方式,建议有相关需求的团队尽早体验。原文
03:22小互@imxiaohu精选Open Duck机器人搭载了谷歌的Gemma 4模型,实现了视觉识别和自然语言对话。在演示中,它能识别书桌、水杯等物体并描述场景。机器人还能通过语音与用户进行多轮问答。该方案展示了40亿参数模型在边缘设备上的实时推理能力。AI产品Gemma 4Open Duck机器人多模态1 个信源在谈推荐理由:Gemma 4让机器人会看会聊原文
18:46阿里云 Alibaba Cloud@alibaba_cloud精选阿里云宣布将于2026年举办Qwen Conference,主题议程聚焦AI原生云、智能体原生云架构、推理未来和多模态视觉技术。会议承诺无冗余内容,直接提供面向全球规模的工程蓝图。该会议旨在展示阿里云在AI基础设施和智能体领域的最新进展,为开发者和企业提供可落地的技术方案。目前已开放注册。行业AI原生云智能体推理多模态阿里云推荐理由:阿里云首次将AI原生云和智能体原生云架构作为核心议题,做云原生和AI基础设施的团队可以提前了解工程蓝图,建议关注注册。原文
18:30berryxia@berryxia72°ZenMux 平台已上线 Gemini 3.5 Flash 模型,用户可免费体验。该模型在递归二叉树生长测试中,从输入提示词到生成完整 HTML 动画网页仅用 77.56 秒,效果自然优雅。Gemini 3.5 Flash 专为 Agent 设计,在 MCP Atlas、Toolathlon 等多项榜单排名第一,多模态能力超越上一代 Gemini 3.1 Pro。支持按量计费和 Builder 套餐,兼容主流 API 格式。AI产品Gemini 3.5 FlashZenMuxAgent多模态免费体验推荐理由:AI 开发者可以零成本体验 Google 最新旗舰模型,77 秒生成动画网页展示了其极速推理和 Agent 能力,做创意编程或 Agent 应用的建议立即试用。原文
15:14AI Will@FinanceYF583°Google AI 今日宣布推出全新智能搜索框,集成了其最先进的 Gemini 3.5 模型,带来更强的智能体能力。用户可以通过文本、图像、文件和视频等多种模态进行提问,搜索能够跨模态进行推理。该搜索体验将 AI Overviews 和 AI Mode 合并为统一的 AI 搜索体验,支持追问、构建上下文,并提供更个性化的回答。新功能已在全球桌面端和移动端上线。AI产品Gemini 3.5智能搜索多模态智能体Google AI推荐理由:Google 将 Gemini 3.5 的智能体能力直接嵌入搜索,意味着日常搜索从关键词匹配升级为多模态推理助手。重度依赖搜索获取信息的用户、研究者和开发者,值得立刻体验这种能理解图片和视频的搜索方式。原文
14:35berryxia@berryxia72°ZenMux 平台已免费上线 Google 最新发布的 Gemini 3.5 Flash 模型,用户可直接体验。该模型在递归二叉树生长测试中,从输入提示词到生成完整 HTML 动画网页仅用 77.56 秒,效果惊艳。Gemini 3.5 Flash 专为 Agent 设计,在 MCP Atlas、Toolathlon 等多项榜单排名第一,多模态理解能力全面超越上一代 Gemini 3.1 Pro。平台支持零延迟首发,兼容主流 API 格式,并提供免费试用额度。AI产品Gemini 3.5 FlashZenMuxAgent多模态免费试用推荐理由:Google I/O 刚发布就能免费白嫖,做 Agent 或动画生成的开发者可以立刻上手测试,77 秒出完整 HTML 动画的效率值得一试。原文
13:09berryxia@berryxia83°Google DeepMind 推出了 Gemini 3.5 Flash 模型,在 Intelligence Index 上获得 55 分,比上一代 Gemini 3 Flash 高 9 分,超越 Grok 4.3 和 Claude Sonnet 4.6。Agentic 任务 Elo 评分达 1656,幻觉率从 92% 降至 61%,多模态理解 MMMU-Pro 达 84%,输出速度超 280 tokens/s,比前代快 70%。但成本大幅上升,运行一次测试的成本是 Gemini 3 Flash 的 5.5 倍,定价为 $1.5/$9 per 1M input/output tokens,是前代的 3 倍。这标志着智能与速度的 Pareto 前沿被刷新,但“Flash”系列的性价比优势不再。AI模型Gemini 3.5 FlashGoogle DeepMind推理模型多模态成本分析推荐理由:Gemini 3.5 Flash 在智能和速度上实现了突破,做 AI 应用或 agent 开发的团队值得关注——性能提升显著,但预算敏感型项目需要重新评估成本。原文
09:28Google AI@GoogleAI72°Google 宣布推出全新智能搜索框,将 AI Overviews 和 AI Mode 合并为统一的 AI 搜索体验。该搜索框基于最先进的 Gemini 3.5 模型,支持文本、图像、文件和视频等多模态输入,并能跨模态进行推理。用户可提出后续问题、构建上下文,获得更个性化和精准的回复。新搜索体验已在全球桌面端和移动端上线。AI产品Gemini 3.5AI 搜索多模态智能体Google推荐理由:Google 将 AI 搜索能力整合进一个统一入口,做搜索优化或内容运营的团队值得关注——这意味着用户行为和数据反馈将更集中,直接影响 SEO 策略和内容分发逻辑。原文
08:13berryxia@berryxia83°Google I/O 2026 主题演讲由 Sundar Pichai 主讲,聚焦「Agentic Gemini 时代」,强调 AI 从聊天机器人进化为能自主思考、执行任务、跨设备运行的「世界模型」。主要发布包括 Gemini 3.5 Flash(速度提升 4 倍,默认模型)、Gemini Omni 多模态世界模型(支持任意输入输出,理解物理世界)、Gemini Spark 全天候自主 Agent,以及 Android XR 智能眼镜预览。Google 将 AI 深度整合到 Search、Workspace、Gmail 等产品中,并推出开发者工具 Antigravity 2.0。整体策略务实,注重落地而非参数竞赛。行业Google I/OGemini智能体多模态世界模型推荐理由:Google 把 AI 从聊天工具升级为操作系统级智能体,做开发、用搜索、搞创意的团队都能直接受益——Gemini 3.5 Flash 已可用,建议开发者立刻试试。原文
07:26orange.ai@oran_ge83°Google 昨晚发布 Gemini flash 3.5 模型,现已可用。该模型在多项指标上大幅超越 3.1 Pro,与 GPT 5.5 接近,且在 Agentic 和多模态能力上更优。价格仅为 GPT 5.5 的三分之一,缓存价格六分之一,API 定价 $1.50/$9.00 每百万 token。上下文窗口达 1M token,速度是其他旗舰模型的 4 倍,非常适合 Agent 场景。AI模型Geminiflash 3.5推理模型多模态Agent推荐理由:做 Agent 和多模态应用的开发者终于有了性价比更高的选择——Gemini flash 3.5 速度是旗舰模型的 4 倍,价格却只有 GPT 5.5 的三分之一,建议直接试 API。原文
04:16Demis Hassabis@demishassabis精选Demis Hassabis 宣布 Gemini Omni 在多模态理解与编辑方面取得重大进展。该模型能处理照片、视频和音频输入,并构建全新场景。初期从视频开始,未来将支持任意输入与输出。用户可上传自己的视频并在其上迭代想法。AI模型Gemini Omni多模态视频编辑场景生成推荐理由:Gemini Omni能处理视频/音频/图片并构建新场景原文
03:48Google Blog: AI(博客/媒体)72°Google 在 Search IO 2026 上宣布了搜索引擎与AI深度融合的新阶段,将传统搜索的精准性与AI的生成能力结合。新功能包括更智能的对话式搜索、多模态理解(图片、视频、文本混合查询)以及个性化结果生成。这一更新旨在提升用户获取信息的效率,同时保持搜索结果的可靠性。Google 强调,AI 不会取代搜索,而是增强其能力,让用户能更自然地探索复杂问题。AI产品AI搜索Google搜索引擎多模态对话式AI推荐理由:Google 把搜索引擎和AI生成能力真正打通了,做搜索优化或内容运营的团队值得关注——这可能会改变用户获取信息的方式,建议点开看看具体怎么落地。原文
03:17Google AI@GoogleAI精选谷歌AI推出Gemini Omni,支持通过自然语言描述来编辑视频。用户只需说出想改变的内容,就能调整角色、场景和风格。该功能类似Nano Banana对图片的编辑方式,但应用于视频领域。AI产品GeminiOmniGoogle视频编辑多模态推荐理由:谷歌让你用语言改视频原文
03:17Google AI@GoogleAI精选GoogleAI 推出 Gemini Omni 模型,支持从文本、图像、音频等多种输入类型生成内容,初始阶段重点支持视频输入。该模型旨在实现“从任何输入创建任何输出”的目标,但官方未公布具体基准测试成绩或模型参数。推文通过 Twitter 线程形式解释其意义,引发社区关注。AI模型Gemini OmniGoogleAI多模态视频生成推荐理由:谷歌的万能创作模型来了原文
03:07Google Gemini App@GeminiApp精选Google 即日起向 Google AI Plus、Pro 和 Ultra 订阅用户全球推送 Gemini Omni,支持在 gemini.google 网站和移动应用中使用。未来将陆续支持图像和音频等更多输出格式。该模型可同时处理文本、图像、音频等多模态输入。目前所有 Plus、Pro 和 Ultra 用户均可体验。AI产品Gemini OmniGoogle多模态推荐理由:试试谷歌新多模态模型原文
03:07Google Gemini App@GeminiApp精选Google在Google IO上发布新模型Gemini Omni,可接受图像、视频和文本作为输入,生成高质量视频。该模型利用Gemini的真实世界知识,使视频内容更加准确和连贯。这是多模态视频生成的重要进展,支持从多种混合输入直接创建视频内容。AI模型Gemini OmniGoogle视频生成多模态推荐理由:Google发了能多模态生视频的模型原文
03:00Justine Moore@venturetwinsGoogle DeepMind 的 Omni 模型支持最多五张图片和一段视频作为提示输入。用户通过将 Zillow 房产截图批量输入模型,获得了令人满意的分析结果。该功能突破了传统单图限制,适用于房产比较、多角度分析等场景。目前仅支持最多10秒视频,但用户期待更长时长。AI产品多模态Google DeepMindOmni图片提示房产分析推荐理由:做房产分析或多图对比的团队可以直接用 Omni 批量处理截图,省去手动整理信息的麻烦,值得一试。原文
02:56OpenRouter@OpenRouterAI83°Google DeepMind 的 Gemini 3.5 Flash 模型已在 OpenRouter 平台上线。该模型在编码、智能体任务和工具使用方面超越了 Gemini 3.1 Pro,同时保持了 Flash 级别的价格和速度。它支持 100 万 token 上下文窗口、6.5 万 token 最大输出,并具备多模态能力。输入价格为每百万 token 1.50 美元,输出价格为每百万 token 9 美元。AI模型Gemini 3.5 FlashOpenRouter编码智能体多模态推荐理由:做编码和智能体开发的团队终于有了更便宜且更强的选择——Gemini 3.5 Flash 在关键任务上超越 Pro 系列,价格却只有 Flash 档位,值得立刻在 OpenRouter 上试试。原文
02:11IT之家(博客/媒体)76°谷歌在 2026 I/O 大会上宣布搜索业务迎来 25 年来最大改版,核心是用 AI 全面重塑搜索入口与交互方式。用户从“输关键词”转向“描述完整需求”,由 Gemini 3.5 Flash 模型提供快速响应。新版搜索支持多模态输入(文本、图片、视频、文件等),AI Overview 支持连续追问,形成聊天式交互。此外,谷歌计划推出 24 小时后台运行的搜索智能体,可追踪公寓、球鞋发售等目标,并在夏季上线。个人智能功能扩展到 98 种语言、近 200 个国家,可连接 Gmail、Google Photos 等个人数据。AI产品谷歌搜索AI 搜索Gemini 3.5 Flash搜索智能体多模态推荐理由:谷歌搜索这次改版彻底改变了搜索方式,从关键词到完整需求,做内容、做运营、做产品的团队都该关注——搜索流量和用户行为即将发生根本变化,建议尽早了解并调整策略。原文
01:47Justine Moore@venturetwins精选Google DeepMind 推出 Omni 模型,支持用户上传真实视频并通过文本指令进行编辑,包括改变动作、风格或主体。用户还可以在视频上直接标注请求。示例中,用户要求“每次拍手时更换帽子”,模型成功执行。该功能展示了多模态模型在视频编辑领域的应用。AI产品OmniGoogle DeepMind视频编辑多模态推荐理由:在视频上直接改动作换风格原文
01:17Google DeepMind@GoogleDeepMindGoogle DeepMind推出Gemini Omni,这是其首个可从任何内容生成任何内容的模型,首先聚焦视频生成。该模型结合了Gemini的推理能力与DeepMind的生成式媒体系统,在多模态理解和编辑方面取得进展。它代表了世界理解、多模态和编辑能力的飞跃。目前已开始部署。AI模型Gemini OmniGoogle DeepMind多模态视频生成推荐理由:谷歌发布能生成视频的Gemini Omni原文
23:00Weaviate@weaviate_io精选Weaviate推出新方法,使用Gemini embedding 2 multimodal直接对视频片段进行嵌入。无需转录文本或元数据,将原始视频分割成重叠片段后即可存入Weaviate。用户提问后系统直接从视频中定位相关片段并生成回答。该方法简化了视频搜索流程,消除了预处理步骤。相关notebook和完整指南已在GitHub和Weaviate博客发布。技巧WeaviateGemini多模态视频检索推荐理由:视频搜索不用转文字了原文
13:42@OpenAIDevs@OpenAIDevs精选AltaraTech 利用 OpenAI 模型帮助科学家和工程师处理多模态、复杂的科研数据,实现多步骤研发工作流的透明化。该公司在 OpenAI 开发者日上展示了如何通过 AI 推理跨模态数据、并行化长周期任务,并增强结果的可解释性。这一方案旨在提升科研效率与信任度,目前团队正在招聘。AI产品OpenAI科研智能多模态工作流自动化AltaraTech推荐理由:科研团队终于有了可落地的 AI 方案——AltaraTech 用 OpenAI 模型打通多模态数据推理与长流程并行化,做材料、生物等复杂实验的科学家可以直接参考,建议点开看看他们怎么解决透明性痛点。原文
12:01Geek@geekbb72°阿里巴巴通义千问团队发布了 Qwen 3.7 预览版,包括 Max 和 Plus 两个版本,已在 LMSYS Arena 上线。该模型在文本和视觉任务上表现强劲,使阿里在 Arena 文本榜单升至第6、视觉榜单升至第5。官方表示完整系列模型即将发布,值得期待。AI模型QwenArena多模态文本生成阿里推荐理由:Qwen 3.7 预览版在 Arena 上表现亮眼,阿里排名大幅提升,做多模态或文本生成的应用开发者可以关注后续正式版发布。原文
09:15berryxia@berryxia72°Odyssey AI 实验室发布了 Starchild-1,这是全球首个实时多模态世界模型。与以往只能生成画面的世界模型不同,Starchild-1 能同时生成真实世界的声音,实现视觉与听觉的同步融合。视频演示中,画面动态与声音实时匹配,营造出完整的场景模拟。这一突破不仅提升了视频生成的真实感,更被视为向通用世界模型迈出的关键一步,旨在让 AI 真正理解和模拟物理世界。AI模型世界模型多模态实时生成AI模拟Odyssey AI推荐理由:做 AI 模拟、游戏开发或虚拟现实的人会眼前一亮——Starchild-1 让世界模型从“只看”进化到“又看又听”,实时多模态融合直接拉高了物理模拟的真实感,值得关注它的后续开放计划。原文
08:39阿里通义 Qwen@Alibaba_Qwen76°阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型,已在 Arena 平台上线。在文本 Arena 中,Qwen3.7 Max Preview 综合排名第13,阿里成为第6大实验室;数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中,Qwen3.7 Plus Preview 排名第16,阿里升至第5。这标志着阿里在多模态能力上的显著进步,正式版 Qwen3.7 系列即将发布。AI模型Qwen3.7阿里Arena推理模型多模态推荐理由:Qwen3.7 Preview 在数学和编程子项表现突出,做推理和代码任务的开发者可以关注正式版发布,值得一试。原文
08:33IT之家(博客/媒体)72°阿里云千问最新模型 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 已上线 Qwen Chat 和 Arena AI,预计在 5 月 20 日阿里云峰会正式发布。在文本领域,Qwen3.7-Max-Preview 综合排名第 13,其中数学第 7、编程第 10,阿里通义千问在实验室中排第 6。视觉领域 Qwen3.7-Plus-Preview 综合排名第 16,阿里通义千问在视觉榜位列第 5。该模型在专家级应用和软件 IT 领域也表现不俗,展示了千问系列在多模态和推理能力上的持续进步。AI模型千问Qwen3.7Arena AI多模态推理模型推荐理由:千问新模型在数学和编程榜单上冲进前十,做技术选型或对比评测的开发者值得关注,可以直接去 Arena AI 体验。原文