全部 AI 动态 · AI 热点

5月22日

08:05

AI Will@FinanceYF5

88°

OpenAI 的一个通用推理模型成功证明了一个数学难题，该模型并非专门为数学问题设计，而是具备广泛推理能力的系统。这一成果被视为数学与人工智能社区的重要里程碑，表明通用 AI 在复杂推理任务上已取得突破。该模型通过自我改进和逻辑推理，无需领域特化即可解决高难度数学问题。这为未来通用 AI 在科学、工程等领域的应用打开了新可能。

AI模型通用推理模型数学证明 OpenAI 里程碑人工智能

推荐理由：通用推理模型攻克数学难题，证明 AI 不再需要特化就能做高难度推理——做 AI 研究和数学建模的团队值得关注，这可能是通用智能落地的信号。

原文

08:05

08:05IT之家（博客/媒体）

83°

OpenAI 宣布其全新推理模型成功推翻了一个由数学家埃尔德什于 1946 年提出的几何猜想，这是 AI 首次自主攻克数学核心领域的重大未解难题。该模型并非为数学问题定制，而是通用推理系统，能梳理复杂逻辑链条并跨学科关联知识。OpenAI 附上了多位数学家的佐证，避免了此前 GPT-5 声称攻克难题却实为现成解法的尴尬。这一突破被认为将对生物学、物理学、工程学和医学产生深远影响。

AI模型推理模型数学证明 OpenAI 几何猜想科研突破

推荐理由：AI 首次自主攻克数学核心难题，对数学、物理等领域的科研人员是重大信号——AI 已能发现人类未曾想到的解法，做基础研究的团队值得关注。

原文

07:57

07:57SuperTechFans（博客/媒体）

精选

OpenAI 内部模型构造出单位距离对数为 n^(1+δ) 的点集，推翻长期认为方格构造最优的假设。该证明经外部数学家验证并发表伴随论文，是 AI 首次自主完成复杂数学证明的里程碑。菲尔兹奖得主蒂姆·高斯等数学家高度评价此成果，认为 AI 已具备原创性和执行力。

AI模型 OpenAI 单位距离问题数学证明推理模型

推荐理由：AI 首次独立证明数学猜想

原文

07:53

AI Will@FinanceYF5

Google 发布了名为 Gemini Omni 的新模型，能够从任意输入（如视频）生成任意内容。该模型首先支持视频输入，类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用，API 支持即将推出。这标志着多模态 AI 能力的重大扩展，让用户能更灵活地创作和交互。

AI模型 Gemini Omni 多模态视频生成 Google AI模型

推荐理由：多模态 AI 又进一步——Gemini Omni 从视频直接生成内容，做视频创作或内容生产的团队值得关注，API 开放后可以直接集成到工作流中。

原文

06:56

AI Engineer@aiDotEngineer

72°

TLMs 项目展示了如何在边缘设备上运行小型语言模型和智能体。其中 Function Gemma 模型仅有 2.7 亿参数，在 Pixel 7 上预填充速度接近每秒 2000 token，开箱即用对固定应用意图的准确率达 46%。通过合成数据集微调后，在十个函数中的八个上准确率超过 90%。Cormac 介绍了两种设备端 AI 路径：基于 Gemma 4 的技能框架（含全设备端运行的餐厅轮盘演示）和 Eloquent 转录应用（通过串联两个子十亿参数模型构建）。

AI模型 Tiny LLM 边缘设备 Function Gemma 智能体移动端AI

推荐理由：边缘设备上跑 LLM 和智能体终于有了可落地的方案——2.7 亿参数的 Function Gemma 在手机上就能达到 90%+ 准确率，做移动端 AI 应用的开发者可以直接参考其微调路径和架构设计。

原文

06:20

阿里通义 Qwen@Alibaba_Qwen

76°

阿里通义千问团队发布了 Qwen3.7-Max 模型，在编程智能体基准测试中表现强劲，同时在通用智能体能力上也有大幅提升。该模型在最具挑战性的推理基准测试中展现出卓越实力，并在通用能力和多语言处理方面脱颖而出。这标志着国产大模型在智能体领域的重要进展。

AI模型 Qwen3.7-Max 编程智能体推理模型多语言阿里通义千问

推荐理由：Qwen3.7-Max 在编程和通用智能体任务上的大幅提升，对做 AI 编程工具和智能体应用的开发者是直接利好，建议关注其实际效果。

原文

03:55

rohanpaul_ai@rohanpaul_ai

Qwen 3.7 Max 在编程和智能体能力上接近前沿模型，在 Artificial Analysis 排名第五，与 GPT 5.4 (xhigh) 相当，略高于刚发布的 Gemini 3.5 Flash。该模型现已通过 AI/ML API 提供，代理可靠性是其核心亮点。AI/ML API 还为用户提供免费试用码，方便开发者体验。

AI模型 Qwen 3.7 Max 编程助手智能体 AI/ML API 推理模型

推荐理由：Qwen 3.7 Max 在编程和智能体能力上逼近 GPT 5.4，做 AI 应用和智能体开发的团队值得试试，尤其是想低成本接近前沿模型的开发者。

原文

02:27

Ethan Mollick@emollick

一项研究显示，GPT-5.2 在同行评审中达到专家水平。45 位科学家花费 469 小时，对 82 篇论文的人类和 AI 评审进行了评估。结果发现，当前 AI 评审者甚至能与 Nature 官方顶级评审员竞争，尽管仍存在弱点。这表明 AI 在学术评审领域有巨大潜力，可能改变科研出版流程。

AI模型 GPT-5.2 同行评审学术出版科研工具 AI 评估

推荐理由：科研人员和学术编辑终于有了高效的评审助手——GPT-5.2 的评审质量已接近 Nature 顶级评审员，做论文审稿或投稿的团队值得关注这项进展。

原文

02:12

rohanpaul_ai@rohanpaul_ai

83°

阿里巴巴发布了其最强旗舰模型 Qwen3.7-Max，专为真实世界任务和生产环境设计。该模型在智能体可靠性上做了核心优化，能够自主规划步骤、调用工具、检查结果并修复错误，不会在首次出错后崩溃。在 Artificial Analysis Intelligence Index 上，Qwen3.7-Max 得分 56.6，较 Qwen3.6-Max 提升 4.8 分，排名第五，与 GPT 5.4 相当。性能提升主要集中在科学推理、智能体能力和编程方面。此外，推理内核经过多轮底层 GPU 优化，实现了 10 倍的几何平均加速。

AI模型阿里 Qwen3.7-Max 智能体推理模型编程助手

推荐理由：Qwen3.7-Max 在智能体可靠性上的突破，让做自动化工作流和复杂任务编排的开发者有了更稳定的选择，建议直接上手测试。

原文

01:41

AK@_akhaliq

Mix-Quant 是一种针对智能体大语言模型（LLM）的量化方法，旨在解决预填充阶段（Prefilling）和精确解码（Precise Decoding）的平衡问题。该方法通过量化预填充来加速推理，同时保持解码阶段的精度，特别适用于需要快速响应和准确输出的智能体应用。Mix-Quant 在保持模型性能的同时，显著降低了计算成本和内存占用，为智能体系统的部署提供了更高效的方案。该技术有望推动智能体LLM在实时交互和资源受限场景中的实际应用。

AI模型量化智能体推理优化 Mix-Quant LLM

推荐理由：做智能体LLM部署的团队终于有了兼顾速度和精度的量化方案——Mix-Quant 解决了预填充慢、解码不准的痛点，建议做推理优化的开发者点开看看。

原文

01:27

OpenRouter@OpenRouterAI

76°

AI模型 Qwen3.7-Max 阿里通义千问智能体编程助手 OpenRouter

推荐理由：做智能体开发或自动化办公的团队，Qwen3.7-Max 在编程和长任务执行上的提升值得一试，OpenRouter 上可直接体验。

原文

5月21日

23:05

berryxia@berryxia

Qwen 3.7 Max 正式发布，博主使用经典的「AI模型二叉树Prompt」对其进行了深度思考和快速模式测试。该Prompt要求模型编写HTML程序绘制递归分形二叉树，并实现生长动画和摇曳效果。测试结果通过视频展示，并与之前的Gemini 3.5 Flash结果进行了对比。用户可自行测试不同模型在该任务上的表现。

AI模型 Qwen 3.7 Max 推理模型编程助手模型评测分形二叉树

推荐理由：Qwen 3.7 Max 的发布值得关注，尤其是对AI模型编程能力感兴趣的开发者，可以用这个二叉树Prompt亲自测试它的表现，看看它和Gemini 3.5 Flash相比如何。

原文

22:19

Logan Kilpatrick@OfficialLoganK

76°

Gemini 3.5 Flash 在 APEX-Agents-AA 基准测试中排名第一，超越了参数规模更大的模型。该基准专注于智能体能力评估，Gemini 3.5 Flash 以较小模型实现了领先性能，展示了高效架构的优势。这一结果对智能体开发领域具有重要意义，表明模型效率与性能可以兼得。

AI模型 Gemini 3.5 Flash 智能体基准测试模型效率 APEX-Agents

推荐理由：智能体开发者可以关注：Gemini 3.5 Flash 用更小参数实现了更强性能，意味着更低成本和更快响应，值得在项目中尝试。

原文

22:15

阿里通义 Qwen@Alibaba_Qwen

阿里发布 Qwen3.7-Max 旗舰模型，在 Artificial Analysis Intelligence Index 上获得 56.6 分，比 Qwen3.6-Max-Preview 提升 4.8 分。主要改进集中在科学推理、智能体能力和编程能力，同时幻觉率大幅下降。模型上下文窗口从 256K 提升至 1M 令牌，但仅支持文本输入输出。虽然仍落后于 OpenAI、Anthropic 和 Google 的模型，但这是阿里最接近前沿模型的一次。

AI模型 Qwen3.7-Max 阿里推理模型智能体编程助手

推荐理由：阿里 Qwen 系列持续追赶前沿，Qwen3.7-Max 在推理和智能体能力上进步明显，做 AI 应用开发或模型选型的团队值得关注这次性能跃升。

原文

22:14

阿里通义 Qwen@Alibaba_Qwen

83°

阿里巴巴 Qwen 团队展示了一项令人瞩目的成果：模型在约 35 小时的连续自主执行中，独立完成了 432 次内核评估和 1158 次工具调用。它自行编写、编译、分析并迭代优化了 Extend Attention Kernel，最终在多个工作负载上实现了相对于 Triton 参考实现的 10.0 倍几何平均加速。这标志着模型具备了真正的自主编程与优化能力，无需人类干预即可完成复杂系统级任务。

AI模型 Qwen 自主进化内核优化 AI 编程性能加速

推荐理由：这是 AI 自主编程能力的里程碑——模型不再只是写代码，而是能像资深工程师一样分析、调优、迭代。做 AI 系统优化或关注模型自主性的开发者，值得仔细看看这个案例。

原文

22:13

阿里通义 Qwen@Alibaba_Qwen

88°

阿里通义千问发布 Qwen3.7-Max，定位为智能体时代的旗舰基础模型。该模型在编码、办公助手、长时自主任务等方面表现突出，支持端到端前端原型、多文件重构、真实调试等场景。通过 MCP 集成和多智能体编排，可胜任可靠的生产力助手。在长达 35 小时的核优化任务中，自主调用超 1000 次工具，无需人工干预。模型兼容 Claude Code、OpenClaw、Qwen Code 等多种框架，API 已在阿里云 Model Studio 上线，用户也可在 Qwen Studio 体验。

AI模型 Qwen3.7-Max 智能体 MCP/工具编程助手多智能体

推荐理由：做智能体开发或自动化流程的团队，终于有了一个能连续跑 35 小时不翻车的基座模型，建议直接上 API 试试长任务场景。

原文

21:55

阿里云 Alibaba Cloud@alibaba_cloud

83°

阿里云发布了 Qwen3.7-Max 模型，在 Artificial Analysis Intelligence Index 上获得 56.6 分，比预览版 Qwen3.6-Max-Preview 提升了 4.8 分。该模型在科学推理、智能体能力、编程和减少幻觉方面均有显著改进。这标志着阿里在大模型领域的持续迭代和竞争力提升。

AI模型 Qwen3.7-Max 阿里云推理模型智能体编程助手

推荐理由：Qwen3.7-Max 在推理和智能体能力上大幅跃升，做 AI 应用开发和科学计算的团队值得关注，可以直接测试其编程和 agent 表现。

原文

21:21

阿里云 Alibaba Cloud@alibaba_cloud

91°

阿里云发布了 Qwen3.7-Max，这是其最新的旗舰模型，专为智能体时代设计。该模型在编码、办公助手和长周期自主任务上表现出色，能连续工作35小时完成内核优化任务，执行超过1000次工具调用而无需人工干预。它支持MCP集成和多智能体编排，且与多种框架兼容，如Claude Code、OpenClaw等。API已在Model Studio上线，开发者可直接使用。

AI模型 Qwen3.7-Max 智能体编码助手 MCP/工具阿里云

推荐理由：Qwen3.7-Max 解决了智能体在长周期任务中的自主性和可靠性问题，做自动化编码、办公流程优化的开发者可以直接在Model Studio上手体验。

原文

21:05

Patrick Loeber@patloeber

76°

Gemini 3.5 Flash (Medium) 在 Zapier 的 AutomationBench 基准测试中夺得第一，得分 14.5%，远超 GPT 5.5 (xhigh) 的 12.9%。值得注意的是，中等推理设置（medium）表现优于高推理（high），因为高推理会过度消耗工具调用限制。该模型还以约 7 倍的成本优势领先，成为目前最持久的自动化模型。Google 已推荐将 medium 作为默认 API 设置，适用于大多数任务。

AI模型 Gemini 3.5 Flash AutomationBench 推理模型成本优化 API 设置

推荐理由：做自动化流程的开发者终于有了性价比之选——Gemini 3.5 Flash 不仅性能领先，成本还低 7 倍，建议直接试试 medium 设置。

原文

20:19

Hunyuan@TXhunyuan

腾讯混元发布 Hy-MT2 开源多语言翻译模型，支持 33 种语言无缝互译。7B 和 30B-A3B 版本在多项翻译任务上超越参数大数十倍的模型，轻量 1.8B 版本甚至优于微软等商业 API。模型采用腾讯 AngelSlim 1.25-bit 极致量化，仅需 440MB 存储，可在主流移动芯片上本地推理，速度比 Hy-MT1.5 快 1.5 倍。项目已在 GitHub、Hugging Face 等平台开源。

AI模型开源/仓库翻译模型腾讯混元量化多语言

推荐理由：做多语言翻译的开发者终于有了能本地跑的开源模型——Hy-MT2 的 1.8B 版本比微软 API 还强，且量化后仅 440MB，手机芯片就能推理，建议直接下载试试。

原文

17:31

17:31IT之家（博客/媒体）

腾讯混元发布新一代多语言翻译模型 Hy-MT2 并正式开源，包含 1.8B、7B、30B-A3B 三种尺寸，支持 33 种语言互译及 5 种民族语言/方言互译。轻量级 1.8B 模型通过极端量化仅需 440MB 存储空间，可在苹果、高通、联发科等手机芯片上本地部署，推理速度比上一代提升 1.5 倍，且性能超越微软等主流商业 API。同步推出的腾讯 Hy 翻译小程序支持语音输入、自定义翻译风格和离线翻译，解决了弱网络场景下的翻译需求。IFMTBench 翻译指令遵循测试集也一并开源，用于评估模型对翻译风格、术语指定等指令的遵循能力。

AI模型翻译模型开源/仓库腾讯混元端侧部署多语言

推荐理由：手机端就能跑的高质量翻译模型来了，做本地化应用、离线翻译工具或移动端 AI 产品的开发者可以直接下载试用，440MB 的轻量版值得关注。

原文

17:28

orange.ai@oran_ge

93°

OpenAI 一个未公布的内部推理模型自主解决了 Erdős 1946 年提出的平面单位距离问题，这是 AI 首次独立解决一个数学领域的著名开放问题。模型的思维链长达 125 页，核心手法是从代数数论引入工具解决离散几何问题，这种跨领域连接是人类 80 年未曾想到的。该模型并非专为数学训练，而是通用推理模型，表明推理能力达到一定阈值后创造性会自然涌现。这一成果被认为是 AI 发展的里程碑时刻。

AI模型推理模型数学 OpenAI 创造性涌现未公开模型

推荐理由：这是 AI 首次自主解决数学开放问题，证明了通用推理模型能跨领域创造新解法，做 AI 研究和数学研究的都该看看——它可能改变我们对 AI 创造力的认知。

原文

16:25

Greg Brockman@gdb

88°

OpenAI 在著名的组合几何问题——Erdős 1946 年提出的平面单位距离问题上取得重大突破，AI 模型找到了构造 n 个点使得单位距离对数超线性增长的方法。此前所有已知构造的单位距离对数都接近线性，而新方法实现了 n^{1+δ} 的常数 δ 增长（后续改进显示 δ=0.014）。这是 AI 首次在数学核心难题上做出实质性新知识生成，而非仅验证已知结果。数学家表示“很难入睡”，认为这是 AGI 的征兆。

AI模型 OpenAI 数学突破组合几何新知识生成 AGI

推荐理由：这是 AI 首次在数学核心难题上生成全新知识，做数学研究或 AI 基础研究的团队值得关注——它可能改变我们对 AI 创造力的认知。

原文

15:51

Milvus@milvusio

精选

Milvus团队指出，传统RAG在智能体工作流中表现不佳，存在单次检索遗漏上下文、相似性不等于相关性、缺乏检索质量检查、单一策略不适用所有查询等问题。但RAG并未死亡，而是进化成了Agentic RAG，通过查询路由、混合检索、检索评估（如Corrective RAG）和多步检索来解决上述问题。生产中的教训是：检索层必须匹配工作负载，架构越复杂越难维护。文章提供了更深入的架构建议。

AI模型 RAG Agentic RAG 检索增强生成智能体工作流 Milvus

推荐理由：做智能体应用的团队会发现传统RAG的痛点被精准戳中，Agentic RAG的改进方案直接可用，建议点开看看具体架构设计。

原文

15:14

marktechpost@Asif Razzaq

精选

字节跳动智能创作实验室推出Lance，一个原生统一多模态模型，仅用3B激活参数即可处理图像与视频的理解、生成和编辑。Lance在图像理解基准MSCOCO上达到44.8的BLEU-4，在视频生成测试集UCF-101上取得FVD 159.3。该模型支持文本到图像、文本到视频、图像编辑、视频编辑等多种任务。Lance以Apache 2.0许可证开源，代码和权重已在GitHub发布。

AI模型 Lance ByteDance 多模态视频生成开源模型

推荐理由：3B参数打通图视频理解生成

原文

14:57

rohanpaul_ai@rohanpaul_ai

83°

OpenAI 的通用推理模型成功推翻了一个自 1946 年以来的 Erdős 平面单位距离猜想，证明了存在无限族构造能多项式改进已知上界。关键在于该模型并非专用定理证明引擎，而是通过增加测试时计算（推理阶段思考）来提升表现，无需大量领域特化训练。这一突破展示了通用推理系统在数学探索中的潜力，能够跨越几何与代数数论（如类域塔理论）的鸿沟，发现人类因学科边界和直觉限制而忽略的路径。外部数学家已验证了该证明的正确性。

AI模型推理模型数学 OpenAI Erdős 猜想测试时计算

推荐理由：OpenAI 用通用推理模型解决了一个困扰数学家近 80 年的难题，证明 AI 不需要专用引擎也能做前沿数学研究。做 AI 推理或数学建模的团队值得关注——它展示了“推理时计算”比“更多训练”更能带来突破。

原文

14:35

AI Will@FinanceYF5

88°

OpenAI 的一个通用推理模型独立解决了数学家 Paul Erdős 在 1946 年提出的“平面单位距离问题”，这是 AI 首次自主解决一个数学领域的著名开放问题。该问题困扰了数学界近 80 年，此前最优解被认为接近正方形网格，而 AI 发现了一种全新的构造方式，表现更优。这一突破标志着 AI 开始具备长链条、跨领域推理能力，未来可能加速生物学、医学、工程学等领域的进展。但决定问题和解读结果的仍然是人类，AI 只是工具。

AI模型 OpenAI 推理模型数学突破平面单位距离问题 AI 自主推理

推荐理由：这是 AI 首次自主解决数学开放问题，做数学研究或 AI 推理的开发者值得关注——它展示了 AI 在长链条推理上的潜力，建议点开看看具体突破。

原文

14:34

AI Will@FinanceYF5

91°

OpenAI 的 AI 模型首次自主解决了数学领域一个长达 80 年的开放问题——Erdős 1946 年提出的“平面单位距离问题”。此前学界普遍认为最优解类似网格结构，但 AI 发现了更优的新构造。这是 AI 首次在没有人类引导的情况下独立攻克数学核心开放问题，标志着 AI 在数学研究中的历史性突破。该成果展示了 AI 在复杂数学推理和模式发现方面的潜力，可能改变未来数学研究的方式。

AI模型 OpenAI 数学推理平面单位距离问题 AI 突破自主发现

推荐理由：数学研究者和 AI 爱好者会震惊——AI 首次独立解决了一个困扰人类 80 年的数学难题，这意味着 AI 不再是辅助工具，而是能自主发现新知识的伙伴。建议点开看看，见证历史。

原文

13:27

Stability AI@StabilityAI

Stability AI 推出了 Stable Audio 3.0，这是一个开源权重模型系列，专为艺术实验设计。新版本支持最长六分钟的变长音频生成，并能在便携设备上完成完整歌曲创作，无需 GPU。模型基于完全许可的数据集训练，用户可商用输出，年收入不超过 100 万美元。首次支持 LoRa 训练，允许用户用自己的音频库定制模型。Stability AI 邀请开发者参与实验，认为最佳创新仍在等待被构建。

AI模型 Stable Audio 3.0 开源/仓库音频生成 LoRa训练 Stability AI

推荐理由：音乐创作者和 AI 音频开发者终于有了一个可商用、可定制的开源音频模型——Stable Audio 3.0 支持六分钟生成和 LoRa 微调，做音乐生成或声音设计的团队可以直接上手实验。

原文

12:39

rohanpaul_ai@rohanpaul_ai

精选76°

atomic.chat 展示了 Multi-Token Prediction（MTP）技术，让本地运行的 Qwen 27B 密集模型从 51 tokens/s 提升到 117 tokens/s，MoE 35B-A3B 模型在 2x RTX 5090 上从 218 提升到 267 tokens/s。MTP 通过一次生成并验证多个未来 token，减少 GPU 重复读取模型权重的次数，从而突破内存带宽瓶颈。测试中约 80% 的 draft token 被接受，且零精度损失，仅额外占用约 1GB VRAM。该项目完全开源，对本地大模型部署者是个重大利好。

AI模型本地大模型 MTP/多 token 预测推理加速 Qwen 开源/仓库

推荐理由：本地大模型用户终于可以突破内存带宽瓶颈了——MTP 让 Qwen 27B 速度翻倍还零精度损失，跑本地模型的开发者建议直接去 GitHub 试。

原文

12:28

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 在 Zapier 推出的 Automation Bench 基准测试中排名第一，超越 GPT-4o、Claude 3.5 等其他前沿模型。该模型以显著更低的推理成本实现领先性能，展示了高效自动化任务处理能力。基准测试涵盖多步骤工作流，Gemini 3.5 Flash 的胜出凸显其性价比优势。

AI模型 Gemini 3.5 Flash Zapier Automation Bench 基准测试成本

推荐理由：谷歌新模型跑分第一还省钱

原文

11:23

arXiv cs.AI@Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco

精选72°

torchtune 是一个 PyTorch 原生的后训练库，旨在简化大语言模型（LLM）的微调、实验和部署流程。与 Axolotl、Unsloth 等框架相比，torchtune 强调模块化、可定制性和对底层 PyTorch 组件的直接访问，而非牺牲透明度和可扩展性。论文展示了其模型构建器、训练配方和分布式训练栈的设计，并在多种后训练场景中评估了性能。结果表明，torchtune 在保持强性能和内存效率的同时，足够灵活以支持快速研究迭代。该库为可复现的 LLM 后训练研究提供了实用基础。

AI模型 torchtune PyTorch LLM 微调后训练开源/仓库

推荐理由：做 LLM 微调的研究者或工程师，如果受够了黑盒框架的调试痛苦，torchtune 的模块化设计和 PyTorch 原生体验值得一试，能让你在保持性能的同时自由定制训练流程。

原文

09:35

09:35SuperTechFans（博客/媒体）

83°

谷歌发布了 Gemini 3.5 系列模型，其中 3.5 Flash 版本在多项基准测试中表现优异，输出速度是其他前沿模型的 4 倍，特别适合大规模多步骤代理任务。该模型已通过 Gemini 应用、Google 搜索等渠道上线，开发者可通过 Antigravity 平台和 API 使用。推测其采用混合精度（FP4/FP8）和较少活跃参数，在保持高性能的同时降低成本。这一发布标志着智能代理技术的新突破，有望推动 AI 在复杂场景中的广泛应用。

AI模型 Gemini 3.5 Flash 推理模型低延迟代理任务谷歌

推荐理由：Gemini 3.5 Flash 解决了高智能与低延迟的矛盾，做多步骤代理和编码的开发者可以直接用上，成本还更低，值得一试。

原文

08:01

AI Breakfast@AiBreakfast

据 AI Breakfast 报道，Google 的 Gemini 3.5 Flash 模型在多个关键基准测试中超越了 Anthropic 的 Opus 4.7，包括终端基准、MCP Atlas、OSWorld 验证、金融代理、CharXiv 推理等。更重要的是，Gemini 3.5 Flash 的成本仅为 Opus 4.7 的一小部分。这一结果挑战了“贵即更好”的认知，表明轻量级模型在特定任务上可能更具性价比。对于预算有限但追求高性能的开发者或团队，这是一个值得关注的信号。

AI模型 Gemini 3.5 Flash Opus 4.7 基准测试性价比模型对比

推荐理由：轻量模型在多个实际任务上反超旗舰模型，做 AI 应用选型的团队可以直接参考这份基准对比来优化成本与效果。

原文

08:00

Google DeepMind@GoogleDeepMind

72°

Google DeepMind 发布 Gemini 3.5 Flash 模型演示，展示其通过多智能体协同完成复杂任务的能力。视频中，模型自动部署多个子智能体，分工协作设计并建造一座完整的虚拟城市。这一演示凸显了 Gemini 3.5 Flash 在任务分解与多智能体协调方面的进步，为复杂自动化场景提供了新思路。

AI模型 Gemini 3.5 Flash 多智能体任务分解自动化 Google DeepMind

推荐理由：多智能体协同是 AI 落地的关键方向，做自动化或游戏开发的团队值得看看 Gemini 3.5 Flash 如何拆解任务并调度子智能体。

原文

08:00

The Rundown AI@therundownai

93°

在 Google I/O 大会上，Demis Hassabis 正式介绍了 Gemini Omni，一个号称“能从任何输入创建任何输出”的新型 AI 模型。该模型支持文本、图像、音频、视频等多种模态的输入与生成，旨在实现真正的多模态理解和创作。这一发布标志着 Google 在通用 AI 能力上的重要一步，可能重塑内容创作、人机交互等领域的范式。目前具体技术细节和上线时间尚未公布，但已引发行业广泛关注。

AI模型 Gemini Omni 多模态模型 Google I/O AI 创作人机交互

推荐理由：Gemini Omni 把多模态 AI 的边界推到了“任意输入→任意输出”，做内容创作、产品设计或人机交互的团队值得关注——这可能是下一代 AI 应用的基础设施。

原文

08:00

08:00IT之家（博客/媒体）

83°

谷歌在 2026 I/O 开发者大会上宣布，Gemini 3.5 Pro 模型将于下月正式发布。目前该模型已在谷歌内部使用，官方称其进步非常强，但未透露具体细节。这一消息表明谷歌在 AI 模型迭代上持续加速，Gemini 3.5 Pro 有望在性能、多模态或推理能力上带来显著提升，值得开发者和 AI 从业者关注。

AI模型 Gemini 3.5 Pro 谷歌推理模型多模态 AI 模型发布

推荐理由：谷歌 Gemini 系列模型迭代节奏加快，3.5 Pro 内部使用已获「进步超强」评价，做多模态或推理应用的开发者值得提前关注，下月发布后可直接上手体验。

原文

08:00

小互@imxiaohu

Google 推出了全新的 Omni 模型，这是一个多模态 AI 模型，能够同时处理文本、图像、音频等多种输入。该模型在理解和生成跨模态内容方面表现出色，有望推动 AI 交互方式的革新。Omni 模型的出现标志着多模态 AI 技术的重要进展，为开发者提供了更强大的工具来构建更自然的用户界面。

AI模型多模态 Omni Google AI模型跨模态

推荐理由：多模态模型是 AI 交互的下一个前沿，做跨模态应用的开发者可以直接关注 Omni 模型的能力边界，看看能否替代现有方案。

原文

07:59

NVIDIA AI@NVIDIAAI

83°

NVIDIA AI宣布与SpaceXAI合作，利用Colossus 2集群的百万H100等效算力，从零开始训练一个规模显著更大的模型，总计算量提升10倍。双方将结合各自的数据和训练技术，预期模型能力将有重大飞跃。这一合作展示了超大规模算力在AI前沿研究中的关键作用，可能推动下一代基础模型的性能突破。

AI模型 NVIDIA SpaceXAI 大模型训练算力 Colossus 2

推荐理由：算力提升10倍意味着模型能力可能迎来质变，关注大模型训练的开发者可以了解这一合作的技术路径和潜在影响。

原文

07:59

Noam Shazeer@noamshazeer

91°

在 Google IO 大会上，Noam Shazeer 宣布推出 Gemini 3.5 Flash 模型，专为智能体和编程场景优化。该模型具备前沿性能，速度是其他前沿模型的 4 倍，即日起全球上线。这标志着 Google 在实时 AI 应用领域的重要进展，尤其适合需要快速响应的智能体工作流。

AI模型 Gemini 3.5 Flash 智能体编程助手 Google IO 推理模型

推荐理由：做智能体开发和编程的团队终于有了速度与性能兼得的选择——Gemini 3.5 Flash 比同类快 4 倍，值得立即上手测试。

原文