全部 AI 动态 · AI 热点

5月20日

07:26

orange.ai@oran_ge

83°

Google 昨晚发布 Gemini flash 3.5 模型，现已可用。该模型在多项指标上大幅超越 3.1 Pro，与 GPT 5.5 接近，且在 Agentic 和多模态能力上更优。价格仅为 GPT 5.5 的三分之一，缓存价格六分之一，API 定价 $1.50/$9.00 每百万 token。上下文窗口达 1M token，速度是其他旗舰模型的 4 倍，非常适合 Agent 场景。

AI模型 Gemini flash 3.5 推理模型多模态 Agent

推荐理由：做 Agent 和多模态应用的开发者终于有了性价比更高的选择——Gemini flash 3.5 速度是旗舰模型的 4 倍，价格却只有 GPT 5.5 的三分之一，建议直接试 API。

原文

06:53

Jeff Dean@JeffDean

83°

Google 在 #GoogleIO 上发布了 Gemini 3.5 Flash 模型，主打快速与高能力的结合。该模型在几乎所有基准测试上优于 3.1 Pro，尤其在编程方面有巨大进步。其输出速度是其他前沿模型的 4 倍，智能与速度的平衡使其在同类模型中独树一帜。Gemini 3.5 Flash 即日起在 @antigravity 及 Google 产品和 API 中可用。

AI模型 Gemini 3.5 Flash Google 推理模型编程助手速度

推荐理由：对于需要快速响应的 AI 应用开发者来说，Gemini 3.5 Flash 在速度和能力上找到了新平衡点，编程任务尤其受益，建议立即试用。

原文

06:44

Patrick Loeber@patloeber

83°

Google 的 Gemini 3.5 Flash 模型现已正式可用（GA），在智能体和编程任务上达到前沿水平。该模型在复杂长周期任务中表现出色，并在多个挑战性基准测试中超越了上一代 3.1 Pro。同时，它保持了极快的推理速度，适合对延迟敏感的应用场景。开发者可以立即在 Google AI Studio 或 Vertex AI 上使用。

AI模型 Gemini 3.5 Flash 智能体编程助手推理模型 Google

推荐理由：做智能体或编程自动化的开发者终于有了一个又快又强的模型——Gemini 3.5 Flash 在长任务和基准上超越 3.1 Pro，且已 GA 可直接用，建议立刻上手试试。

原文

04:24

Google AI Developers@googleaidevs

88°

谷歌宣布推出 Gemini 3.5 系列模型，这是其最新一代模型家族，将前沿智能与行动能力相结合。该系列为智能体模型设定了新标准，不仅能推理，还能执行任务。这意味着模型可以自主完成更多实际操作，而不仅仅是生成文本。对于开发者和企业用户来说，Gemini 3.5 有望在自动化、工作流执行等场景中发挥更大作用。

AI模型 Gemini 3.5 智能体推理模型谷歌模型发布

推荐理由：做智能体应用和自动化流程的开发者值得关注——Gemini 3.5 把推理和执行合二为一，能直接减少你写胶水代码的功夫。

原文

02:43

Jeff Dean@JeffDean

91°

Google 在 I/O 大会上发布 Gemini 3.5 系列，首推 3.5 Flash 模型。该模型专为复杂、长周期的智能体工作流设计，在 Terminal-Bench 和 MCP Atlas 等智能体与编程基准上超越 3.1 Pro，运行速度比其他前沿模型快 4 倍。在 Google Antigravity 中优化后，速度可提升至 12 倍。它可作为子智能体协作、高频迭代循环的强大引擎，用于大规模解决实际问题。

AI模型 Gemini 3.5 Flash 智能体编程助手 Google I/O 推理模型

推荐理由：做复杂智能体编排和编程自动化的开发者，终于有了一个又快又强的模型引擎——Gemini 3.5 Flash 在基准上超越前代，速度还快 4 倍，值得立刻上手试。

原文

02:42

Philipp Schmid@_philschmid

83°

Google 宣布 Gemini 3.5 Flash 模型正式全面可用。该模型在编程和智能体任务上超越 Gemini 3.1 Pro，支持 100 万 token 上下文窗口和 6.5 万 token 最大输出，输出速度提升 4 倍。提供四种思考级别（minimal、low、medium、high），并自动保留多轮对话中的思考过程。现已登陆 Google AI Studio、Android Studio、Gemini 企业版等多个平台。

AI模型 Gemini 3.5 Flash 推理模型智能体编程助手 Google

推荐理由：做智能体开发和编程的团队终于有了更快的 Flash 模型——速度提升 4 倍且支持长上下文，建议在 AI Studio 里直接试试 medium 思考级别。

原文

02:09

Logan Kilpatrick@OfficialLoganK

78°

Google 发布了 Gemini 3.5 Flash，号称迄今为止最强大的模型，在智能、速度和成本方面均达到新高度。团队经过 6 个月优化，使其更适用于实际场景。该模型现已全面可用，旨在为开发者提供更高效、更经济的 AI 解决方案。

AI模型 Gemini 3.5 Flash 推理模型成本优化实际应用 Google

推荐理由：Gemini 3.5 Flash 在性能与成本之间找到了新平衡，做 AI 应用开发的团队可以直接部署，值得关注。

原文

01:59

Sundar Pichai@sundarpichai

精选

Gemini 3.5 Flash今天在Google IO大会上正式向所有用户开放，可通过Antigravity及Google产品和API使用。相比3.1 Pro，3.5 Flash在几乎所有基准测试中表现更优，编码能力显著进步。其速度是其他前沿模型的4倍（token/秒），在智能与输出速度的象限图中处于领先位置。

AI模型 Gemini 3.5 Flash Google IO 编码推理模型速度

推荐理由：速度暴涨4倍，编码超强

原文

01:24

Google Gemini App@GeminiApp

精选

Google 在 #GoogleIO 上发布 Gemini 3.5 Flash 模型，号称能快速高效完成日常任务和多步骤创意项目。该模型可处理现实世界复杂问题并帮助用户采取行动。官方表示这是其最佳性能模型。

AI模型 Gemini 3.5 Flash Google GoogleIO 推理模型

推荐理由：Google 新模型，又快又高效

原文

5月19日

20:59

Julien Chaumond@julien_c

llama.cpp 支持 MTP（多 token 预测），这是一种内置于模型中的推测解码，可将 token 生成速度提升约 2 倍。需要升级 llama.cpp 到 build 9200 以上（可使用 brew install --HEAD）。可选 Dense 27B 或 35B A3B MoE 模型，前者在 48-64GB 内存下约 30 tok/s，后者可达约 100 tok/s。运行命令为 llama-server 加上 --spec-type draft-mtp 参数。

技巧 llama.cpp MTP Qwen3.6 推理模型开源模型

推荐理由：教你用 Qwen3.6 跑出 2 倍速推理

原文

12:16

LangChain@LangChainAI

LangChain 在 Interrupt 大会上宣布了 Deep Agents 的重大更新。该更新旨在提升智能体的深度推理和复杂任务处理能力。具体改进包括更高效的规划、执行和反思循环，使智能体能够处理更复杂的多步骤任务。这一更新对于构建高级 AI 应用的开发者来说是一个重要进展，有望提升智能体的自主性和可靠性。

AI产品智能体 LangChain Deep Agents 推理模型 AI 开发

推荐理由：LangChain 的 Deep Agents 更新解决了智能体在复杂任务中深度推理不足的问题，做 AI 智能体开发的团队可以直接关注，看看新特性如何提升你的应用。

原文

09:52

berryxia@berryxia

88°

Cursor 发布了 Composer 2.5 模型，宣称是目前最强大的模型，具备更聪明的推理、更强的长任务持续能力和更可靠的复杂指令执行。该模型在同等能力下实现了10倍效率提升，底层基于与 Moonshot Kimi K2.5 相同的开源架构。训练规模扩大、强化学习环境更复杂，并加入了文本反馈机制，使模型能在长 rollout 中快速学习。Cursor 已与 SpaceXAI 合作，计划用10倍算力训练更大模型。下周还将翻倍模型用量。

AI产品 Cursor Composer 2.5 编程助手开源/仓库推理模型

推荐理由：Composer 2.5 解决了 AI 编程中长任务容易崩、指令执行飘的痛点，做复杂代码开发的团队可以直接体验10倍效率提升，建议点开看看具体架构和用量翻倍细节。

原文

08:39

阿里通义 Qwen@Alibaba_Qwen

76°

阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型，已在 Arena 平台上线。在文本 Arena 中，Qwen3.7 Max Preview 综合排名第13，阿里成为第6大实验室；数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中，Qwen3.7 Plus Preview 排名第16，阿里升至第5。这标志着阿里在多模态能力上的显著进步，正式版 Qwen3.7 系列即将发布。

AI模型 Qwen3.7 阿里 Arena 推理模型多模态

推荐理由：Qwen3.7 Preview 在数学和编程子项表现突出，做推理和代码任务的开发者可以关注正式版发布，值得一试。

原文

00:43

Cursor@cursor_ai

精选

Cursor 推出 Composer 2.5，号称其最强模型。该模型在长期任务中有更好的持续工作能力，更可靠地遵循复杂指令。接下来一周，用户使用该模型的额度翻倍。该消息由 Cursor 官方 Twitter 账号发布。

AI模型 Cursor Composer 2.5 推理模型编程助手

推荐理由：最强模型，一周翻倍用

原文

5月17日

23:41

rohanpaul_ai@rohanpaul_ai

精选76°

论文多智能体推理模型斯坦福多跳推理 LLM

推荐理由：这篇论文戳破了多智能体系统“越多越好”的迷思，做AI推理和智能体架构的开发者看完会重新思考设计方向——先试一个强模型，别急着堆智能体。

原文

07:32

berryxia@berryxia

Anthropic 此前被认为“太危险”而不适合公开发布的 Claude Mythos 模型，突然出现在 Google Cloud Console 中，且 preview 标签已消失。这与之前 Opus 4.7 的发布路径一致——先在云控制台露面，随后正式落地。最合理的猜测是 Anthropic 不会直接推公开版，而是让已接入 GCP 的企业用户直接调用，在企业环境中运行。这一举动将“危险模型”的叙事直接反转，表明 Anthropic 正以最安静的方式将最强思考模型推向生产环境。

AI产品 Claude Mythos Anthropic Google Cloud 企业部署推理模型

推荐理由：Anthropic 把之前说“太危险”的模型悄悄放到了 GCP 上，做企业级 AI 部署的团队可以直接关注——这可能是你最早拿到最强思考模型的渠道。

原文

5月16日

23:56

Geek@geekbb

OpenCode 宣布再次免费提供 Qwen 3.6 Plus 模型，此前第一轮因用户过度使用导致容量耗尽。团队表示已找到更多 GPU 资源，开启第二轮免费使用。该模型在编程和推理任务上表现强劲，此次免费活动对开发者是直接利好。用户可直接在 OpenCode 平台体验，无需付费。

AI产品 Qwen 3.6 Plus OpenCode 免费模型编程助手推理模型

推荐理由：Qwen 3.6 Plus 免费开放第二轮，做编程和推理的开发者可以直接薅羊毛，上次没抢到的这次建议早点试。

原文

23:04

Fireworks AI@FireworksAI_HQ

Fireworks AI 宣布与 Azure AI Foundry 集成，为团队提供生产级推理层，解决前沿模型在延迟、吞吐量和治理方面的约束。该服务帮助团队在规模化运行模型时避免常见瓶颈。Fireworks AI 的推理优化与 Azure 的云基础设施结合，适合需要高性能和合规性的企业场景。

AI产品推理模型 Fireworks AI Azure AI Foundry 生产部署企业级

推荐理由：做 AI 推理部署的团队终于有了兼顾性能和治理的选项——Fireworks AI 在 Azure 上直接可用，建议有生产环境需求的点开看看。

原文

22:52

elvis@omarsar0

精选

一篇立场论文提出，智能体 AI 系统（而非更大的基础模型）是通往 AGI 最可行的路径。作者将“智能体”的贡献形式化为多个可分离的维度：记忆、推理、工具使用、自我改进和对齐。每个维度都有其独特的瓶颈（如长程连贯性、信用分配、安全审计），而这些瓶颈无法通过增加预训练算力来解决。论文认为，单纯扩大模型规模不足以克服这些挑战，智能体架构才是关键。

论文智能体 AGI 推理模型对齐论文

推荐理由：这篇论文为智能体 AI 的路线图提供了清晰的理论框架，做 AGI 研究或智能体开发的团队值得一读，能帮你理解为什么堆算力不是万能药。

原文

01:17

Together AI@togethercompute

Together AI 宣布上线 Gemma-4-31B-it-Pearl 模型，这是 Pearl Research Labs 基于 Gemma 4 31B 进行指令微调的版本，采用了 @prlnet 的 Proof of Useful Work 协议。该模型现已作为无服务器推理端点提供，价格比标准版低 25% 以上。对于需要高效、低成本部署大模型的 AI 开发者来说，这是一个值得关注的新选择。

AI产品 Gemma-4-31B-it-Pearl Together AI 推理模型无服务器推理价格优惠

推荐理由：做模型推理部署的团队可以关注这个价格优势——同样基于 Gemma 4 31B，但成本直降 25%+，适合预算敏感的生产环境。

原文

5月15日

13:13

berryxia@berryxia

76°

蚂蚁集团 AGI 团队开源了 Ring-2.6-1T，一个拥有 1 万亿参数的旗舰思考模型，专为 Agent 工作流、代码工程、长时序执行等复杂任务设计。该模型支持 high 和 xhigh 两种推理模式，采用 IcePop 异步强化学习算法稳定训练。完全开源意味着企业可将模型部署到本地服务器，解决数据隐私和合规问题。模型已在 Hugging Face 和 ModelScope 上线，降低了企业级 Agent 应用的部署门槛。

AI模型开源/仓库推理模型 Agent工作流企业自动化蚂蚁集团

推荐理由：万亿参数思考模型开源，解决了企业数据不出域的痛点，做内部自动化或对数据安全敏感的团队可以直接部署试试。

原文

08:58

Ethan Mollick@emollick

Ethan Mollick 指出，第二条缩放定律（Second Scaling Law）依然未被打破：只要增加 LLM 的思考 token（thinking tokens），就能在黑客攻击、数学、科学、填字游戏等任务上获得更好表现。目前尚未观察到性能平台期。这一发现对依赖推理能力的 AI 应用开发者有直接指导意义，意味着通过增加计算资源（而非仅扩大模型规模）即可持续提升模型在复杂任务上的表现。

论文缩放定律推理模型思考 token LLM 性能 Ethan Mollick

推荐理由：做 LLM 推理优化或复杂任务应用的团队，这条定律意味着你不需要等更大模型——加思考 token 就能直接提升效果，值得在现有模型上试试。

原文

5月14日

18:29

Meta AI@AIatMeta

Meta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark，这是一个原生多模态推理模型，支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线，并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。

AI模型多模态推理模型工具调用智能体 Meta

推荐理由：做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力，Meta 承诺未来开源也值得关注。

原文

13:37

百川智能 Baichuan@BaichuanAI

百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩，其中HealthBench得分65.1，Hard得分44.4，幻觉率仅3.5%低于ChatGPT，ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步，对AI应用开发者具有重要参考价值。

AI模型百川AI 基准测试医疗AI 抗幻觉推理模型

推荐理由：百川AI在多个关键基准上超越ChatGPT，做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。

原文

13:37

深度求索 DeepSeek@deepseek_ai

78°

DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者，已在 App、Web 和 API 上线；V3.2-Speciale 则专注于极致推理能力，目前仅通过 API 提供。这两个模型以推理优先为设计理念，旨在更好地支持智能体（agent）场景。技术报告已同步公开。

AI模型 DeepSeek 推理模型智能体模型发布 API

推荐理由：做智能体开发或需要强推理能力的团队，DeepSeek 这次直接给了两个新选择——V3.2 可立即上手，Speciale 适合追求极致推理的 API 用户，值得关注技术报告里的细节。

原文

13:37

深度求索 DeepSeek@deepseek_ai

78°

DeepSeek 发布了 V4 Preview 版本，包含 Pro 和 Flash 两个模型，均支持 1M 上下文长度。Pro 版本总参数量 1.6T，激活参数 49B，性能对标全球顶级闭源模型；Flash 版本总参数量 284B，激活参数 13B，主打高效经济。模型权重和技术报告已开源，API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。

AI模型 DeepSeek-V4 开源/仓库长上下文推理模型性价比

推荐理由：长上下文和低成本是当前 AI 应用的两大痛点，DeepSeek-V4 同时解决这两个问题，做 RAG、文档分析或长对话的开发者可以直接上手试试。

原文

13:36

xAI@xai

xAI 发布了 Grok 4.3 模型，已在其 API 上可用。该模型在代理工具调用和指令遵循方面领先 @ArtificialAnlys 排行榜，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。Grok 4.3 支持 100 万 token 上下文窗口，输入价格为每百万 token 1.25 美元，输出价格为 2.50 美元。开发者可以立即创建 API 密钥开始使用。

AI模型 Grok 4.3 xAI 推理模型 API 企业应用

推荐理由：Grok 4.3 在代理工具调用和企业场景（如法律、金融）中表现突出，做智能体或企业级应用的开发者可以直接用 API 体验，性价比也不错。

原文

01:10

Noam Shazeer@NoamShazeer

Google 发布了 Gemini 3.1 Flash Live 模型，专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先，支持多语言，已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体，完成复杂任务。

AI模型 Gemini 语音智能体函数调用多语言推理模型

推荐理由：语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先，做语音交互的团队可以直接上手试试。

原文

5月13日

15:51

Perplexity@perplexity_ai

精选

Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明，GB200 不仅是训练平台，更是大型 MoE 模型高吞吐推理的重大升级，性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率，为大规模 AI 服务提供新思路。

AI模型推理模型 Perplexity Qwen3 NVIDIA GB200 MoE

推荐理由：做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著，Perplexity 的实践给出了可直接参考的优化路径。

原文

5月12日

21:55

AK@_akhaliq

TMAS（多智能体协同扩展测试时计算）是一种新方法，通过让多个AI智能体协同工作来提升模型推理能力，类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数，仅通过集成多个智能体在测试时分配计算资源，在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径，为资源有限的研究团队提供新思路。

论文推理模型智能体多模态协同计算测试时扩展

推荐理由：TMAS探索了多智能体协同扩展测试时计算的范式，无需额外训练即可提升模型性能，对推理模型和智能体系统的发展具有参考价值。

原文

21:55

AK@_akhaliq

该研究提出了一种名为“叛逆学生”的新方法，通过反转教师模型的信号来训练学生模型，从而在推理中探索更多可能性。该方法结合了自蒸馏和强化学习（RLVR），允许学生模型学习超越教师模型的推理策略。实验表明，该技术能有效提升模型的推理能力和探索性，在多个基准测试中取得显著改进。这项工作对于如何利用弱监督或反向信号增强AI推理具有重要启示。

论文推理模型强化学习自蒸馏反向信号

推荐理由：该工作通过反转教师信号进行推理探索，为自蒸馏和强化学习结合提供了新思路，可能推动弱监督下推理模型的发展，值得关注。

原文

21:55

AK@_akhaliq

TMAS是一种通过多智能体协同来扩展测试时计算的新方法。它通过让多个AI模型（智能体）在推理过程中协同工作，显著提升了复杂推理任务的表现。该方法的核心是让智能体之间进行交互和协作，从而更有效地利用计算资源。这为无需大规模预训练即可提升模型智能提供了一条新路径。对于现有AI系统的智能化升级具有重要启示意义。

论文多智能体推理模型测试时计算协同/协作

推荐理由：TMAS展示了通过多智能体协同而非单纯扩大模型规模来提升推理能力的新思路，对AI效率提升和实际部署有参考价值。

原文

21:55

Together AI@togethercompute

75°

DeepSeek V4 Pro在Together AI无服务器平台上发布，具备长上下文推理能力和领先的编程性能。该模型通过KV缓存、前缀重用、混合注意力、批处理、内核优化和端点配置等技术实现高效服务。来自@zhyncs42、@realDanFu等人的深入分析揭示了其技术细节。

AI模型推理模型开源/仓库 Together AI 长上下文编程

推荐理由：DeepSeek V4 Pro在长上下文推理和编程任务上的表现达到SOTA，同时其高效服务技术栈的公开分析对AI部署实践有重要参考价值。

原文

21:55

Together AI@togethercompute

Yutori AI的浏览器代理产品（Scouts、Delegate、Navigator）基于Together AI推理平台运行，实现了相比前沿模型每步2倍的速度提升、4-5倍的推理成本降低，并保持99.9%的可用性与弹性扩展。这展示了在AI代理场景中，推理基础设施对产品性能的关键作用。

AI产品智能体推理模型 Together AI Yutori AI Native Cloud

推荐理由：该案例说明了在浏览器AI代理这类高频率模型调用的场景下，专用推理基础设施可显著提升性能并降低成本，对AI代理产品落地具有参考价值。

原文

17:56

AK@_akhaliq

Soohak是由数学家精心策划的基准测试，旨在评估大型语言模型（LLM）在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域，包括代数、几何、分析等，要求模型不仅具备计算能力，还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。

论文推理模型 LLM 数学评测基准测试 Soohak

推荐理由：Soohak填补了现有数学评测基准在科研深度上的空白，为AI在数学领域的前沿应用提供了更精确的评估工具，有助于推动模型在数学推理和问题解决上的进步。

原文