全部 AI 动态 · AI 热点

5月29日

02:01

Claude@claudeai

83°

Anthropic 发布了 Claude Opus 4.8，这是其最新旗舰模型，现已通过网页、Claude Platform 以及所有主流云平台提供。该模型在推理、代码生成和复杂任务处理上有所提升，旨在为开发者和企业用户提供更强的 AI 能力。此次更新标志着 Anthropic 在模型性能上的持续迭代，对依赖大模型的应用场景有直接影响。

AI模型 Claude Opus 4.8 Anthropic 推理模型编程助手云平台

推荐理由：Claude Opus 4.8 是 Anthropic 的最新旗舰，推理和代码能力升级明显，做复杂 AI 应用或需要高精度模型的团队值得第一时间体验。

原文

02:00

Claude@claudeai

93°

Anthropic 发布了 Claude Opus 4.8，这是 Opus 4.7 的升级版本。新模型在判断力、自我认知的诚实度以及独立工作能力上都有显著提升，能够更长时间地自主完成任务。价格保持不变，用户无需额外付费即可使用。该模型已在今天上线，引发了社区广泛讨论。

AI模型 Claude Opus 4.8 推理模型自主工作 Anthropic

推荐理由：Claude Opus 4.8 在判断力和自主性上的提升，对需要长任务执行和复杂推理的开发者是直接利好，建议立即体验。

原文

01:57

lmarena.ai@lmarena_ai

Anthropic 发布了 Claude Opus 4.8，该模型在 Opus 4.7 基础上提升了判断准确度、对自身进展的诚实性以及更长的自主工作能力。目前已在 Battle Mode 中上线，用户可以用最难的提示词进行测试并投票。价格与之前版本相同。这是 Claude 系列的最新旗舰模型，值得关注其在实际任务中的表现。

AI模型 Claude Opus 4.8 Anthropic 推理模型自主工作 Battle Mode

推荐理由：Claude Opus 4.8 在判断力和自主性上做了关键升级，做复杂推理或长任务自动化的开发者可以直接在 Battle Mode 中测试它的真实水平。

原文

01:07

Claude@claudeai

精选

Anthropic 发布 Claude Opus 4.8，今日可通过网页、Claude Platform 及主要云平台（AWS、GCP、Azure）使用。该版本在前代基础上优化了推理能力，在多项基准测试中表现提升。官方博客详细介绍了改进细节，包括更准确的代码生成和长文本理解。

AI模型 Claude Opus 4.8 Anthropic 推理模型云平台对话AI

推荐理由：Anthropic 发布新版本，可用性提升

原文

5月28日

23:48

AK@_akhaliq

该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法，用于优化多模态智能体的推理策略。通过探索性策略优化，智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明，AEPO 在多个基准测试上显著提升了智能体的性能，尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。

论文智能体多模态推理模型强化学习 AEPO

推荐理由：多模态智能体推理是当前 AI 的前沿方向，AEPO 为开发者提供了一种可落地的训练优化思路，做智能体或多模态应用的团队值得关注。

原文

16:53

阿里云 Alibaba Cloud@alibaba_cloud

阿里云发布的Qwen3.7-Max模型在OpenRouter平台上的使用量达到77.3B tokens，成功登顶趋势LLM排行榜。这一成绩表明该模型在开发者社区中获得了广泛采用和认可。阿里云表示这只是开始，暗示未来将有更多更新和优化。该模型在推理、编程等任务上表现出色，成为开源社区的热门选择。

AI模型 Qwen3.7-Max OpenRouter 趋势榜推理模型阿里云

推荐理由：Qwen3.7-Max登顶OpenRouter趋势榜，说明它在实际使用中获得了开发者认可，做AI应用或模型评测的团队值得关注这个新标杆。

原文

10:40

rohanpaul_ai@rohanpaul_ai

精选

研究发现，长时间运行的语言智能体如果定期暂停并整合记忆，性能会更好。当前Transformer模型随着上下文增长，注意力机制需要检查更多历史token，导致推理变慢且成本增加。论文提出在模型中引入“睡眠阶段”：暂停推理，多次重读近期上下文，将有用信息写入固定大小的记忆层，然后清空短期注意力缓存。这样，模型在睡眠时进行额外计算，而正常推理仍保持单次前向传播的高效。实验表明，睡眠时间越长，模型在需要深度推理的复杂任务上表现越好，尤其当旧信息已不在注意力缓存中时。

论文智能体长上下文记忆整合注意力机制推理模型

推荐理由：长时运行智能体终于有了解决上下文膨胀问题的思路——做Agent或长链推理的开发者值得关注，它可能改变你处理长期记忆的方式。

原文

5月27日

20:56

berryxia@berryxia

88°

Anthropic 于 2026 年 4 月 7 日发布 Project Glasswing 及 Claude Mythos Preview，该前沿模型网络攻防能力极强，因安全顾虑仅开放给合作伙伴用于防御。OpenAI 则在 5 月 20 日宣布其内部通用推理模型成功推翻数学家 Paul Erdős 的平面单位距离问题猜想。这两件事共同表明，前沿模型在更高抽象层面的可靠推理能力已迈过临界点，能稳定处理完整论证和知识体系，而非仅限片段操作。Claude Mythos Preview 在编码和网络安全评测中表现突出，多数基准测试超越 GPT-5.5。

AI模型推理模型网络安全数学证明 Anthropic OpenAI

推荐理由：AI 推理能力从片段到完整体系的跃迁，是开发者和安全从业者必须关注的分水岭——Claude Mythos 的防御性开放和 OpenAI 的数学突破，直接改变了模型应用边界，建议点开了解具体案例。

原文

13:43

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云宣布 Qwen3.7 Max 模型现已支持 Go 语言，通过 OpenCode 集成。该模型拥有 1M 上下文窗口，推理能力更强，为开发者带来更多可能性。这一更新使得 Go 语言开发者能够直接利用 Qwen3.7 Max 的强大能力进行复杂任务处理。

AI产品 Qwen3.7 Max Go 1M上下文推理模型 OpenCode

推荐理由：Go 开发者终于能直接调用 Qwen3.7 Max 的 1M 上下文和强推理能力了，做大型代码库分析或长文档处理的团队值得一试。

原文

04:08

elvis@omarsar0

精选

该论文提出一种睡眠压缩机制，让模型每N步进行离线递归处理将上下文写入持久快速权重，然后清除KV缓存。在细胞自动机、多跳图检索和数学推理任务上，该方法比纯Transformer和SSM-Attention混合模型效果更好，睡眠时间越长性能提升越大。这为长时智能体提供了替代方案，通过压缩和遗忘原始token来避免注意力二次计算开销。

论文 DAIR.AI 智能体长上下文推理模型状态空间模型

推荐理由：智能体睡一觉，推理更强

原文

5月26日

23:21

berryxia@berryxia

76°

CMU和UMD的研究者发现，大模型在多跳推理任务中表现不佳的根本原因不是内存容量，而是缺乏将上下文转化为可用内部表示的“巩固”过程。他们提出“睡眠”机制：在清空KV缓存前，让模型对当前上下文多次前向传播，将记忆沉淀进fast weights。实验显示，这一方法使多跳推理准确率提升52%，且推理延迟不变。这与当前行业狂加上下文窗口和test-time compute的方向不同，更接近人脑的睡眠记忆巩固机制。

论文推理模型多跳推理睡眠机制 CMU UMD

推荐理由：做深度推理项目的开发者终于有了新思路——不用堆算力，而是给模型“离线整理”时间，准确率直接拉升52%，值得一试。

原文

14:28

阿里云 Alibaba Cloud@alibaba_cloud

阿里云宣布将于Qwen Conference 2026举办AI Key Frames直播活动，聚焦AI生产力核心、全栈AI重塑增长曲线。活动将邀请行业先锋探讨推理、内容创作和开放AI生态等前沿领域。直播旨在帮助观众深入理解AI原生趋势，并推动AI应用落地。用户可通过链接预约观看。

行业阿里云 Qwen AI大会推理模型内容创作

推荐理由：阿里云Qwen大会首次以直播形式拆解AI生产力核心，做AI应用或关注推理、内容创作的开发者值得预约，能直接获取行业先锋的一手洞察。

原文

01:28

elvis@omarsar0

精选76°

微软研究院提出 SkillOpt，一种将智能体技能文档视为可训练外部状态的新方法。该方法通过一个优化器模型对技能文件进行验证门控的增删改编辑，并引入文本学习率控制改写强度，而智能体本身保持不变。在 52 个（模型、基准、工具）组合上，SkillOpt 均达到最佳或并列最佳，在 GPT-5.5 上直接聊天提升 23.5 点，与 Codex 配合提升 24.8 点，与 Claude Code 配合提升 19.1 点，且零额外推理成本。学到的技能可跨模型和工具迁移，效果优于人工编写技能、TextGrad、GEPA 和 EvoSkill。

论文智能体技能优化微软 SkillOpt 推理模型

推荐理由：做智能体开发的工程师别再手写技能文档了——SkillOpt 证明自动优化技能文件能带来显著性能提升，且零推理开销，值得在你的 Agent 工作流中尝试。

原文

5月25日

21:41

Skywork@Skywork_ai

精选

Skywork 团队发布了名为 SkyClaw 的新模型技术细节和基准测试结果。SkyClaw 在多个基准上展现了竞争力，具体性能指标可在技术报告中查看。用户可以通过 Skywork 平台直接试用该模型。这一发布为 AI 模型社区提供了新的选择，尤其适合需要高性能推理的开发者。

AI模型 Skywork SkyClaw 基准测试推理模型开源/仓库

推荐理由：SkyClaw 的基准测试结果值得关注，做模型选型或推理优化的开发者可以直接查看技术细节并试用。

原文

12:12

Paul Couvert@itsPaulAi

阿里巴巴发布了 Qwen-3.7-Max 模型，性能出色，可轻松接入 Hermes Agent 或 OpenCode，替代 GPT-5.5 或 Opus 4.7。输出成本比 Opus 4.7 低 3.3 倍，比 GPT-5.5 低 4 倍，输入成本也比两者低 2 倍。该模型在多个基准测试中表现优异，为开发者提供了高性价比的替代方案。

AI模型 Qwen-3.7-Max 阿里推理模型成本优化智能体

推荐理由：Qwen-3.7-Max 以极低成本提供接近顶级模型的性能，做 AI 应用开发或智能体集成的团队可以大幅降低推理开销，值得立刻上手试试。

原文

5月24日

14:44

rohanpaul_ai@rohanpaul_ai

精选

有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型，速度超过4 tokens/sec。Kimi K2.5是混合专家模型，总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分，专家权重存储在Optane PMem中，192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多，但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置，实现混合GPU/CPU推理。

AI模型 Kimi K2.5 混合专家模型推理模型开源/仓库大模型

推荐理由：用旧硬件跑万亿模型，省钱又酷

原文

13:52

rohanpaul_ai@rohanpaul_ai

精选75°

DeepSeek 通过 MoE、DSA 和 V4-Pro 的 CSA/HCA 技术，将 1M-token 单 token 推理 FLOPs 降至 V3.2 的 27%，KV 缓存降至 10%。其 Engram 研究线利用可扩展查找内存替代密集计算。Reuters 报道 V4-Pro 永久降价 75%，同时面临华为昇腾供应限制。这些举措旨在减少对 HBM 和高端 GPU 的依赖，使中国内存、加速器和系统适用于前沿 AI。

AI模型 DeepSeek MoE DSA 推理模型大模型

推荐理由：DeepSeek 用架构创新绕过硬件瓶颈

原文

13:04

Gary Marcus@GaryMarcus

70°

普林斯顿大学一位年轻教授在OpenAI发起的Erdos游戏挑战中，仅用3天就超越了OpenAI的表现。该游戏测试AI在数学推理上的能力，涉及Erdos数等概念。这位教授的方法基于arxiv.org/abs/2605.20579论文，展示了更高效的推理策略。

论文推理模型大模型 OpenAI Erdos游戏数学推理

推荐理由：普林斯顿教授3天反超OpenAI

原文

5月23日

23:36

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 模型在 Vending Bench 基准测试中达到性价比帕累托前沿。Vending Bench 用于衡量模型运行模拟商店的能力。该模型在成本与智能之间取得最优平衡，优于其他竞品。这是 Gemini 系列在推理效率上的重要进展。

AI模型 Gemini 3.5 Flash Google Vending Bench 推理模型

推荐理由：谷歌新模型性价比超群

原文

5月22日

22:16

Gary Marcus@GaryMarcus

GaryMarcus 在 X 上转发了一条消息，称标准 GPT-5.5 已经成功复现了某个数学证明，并质疑这是否意味着所谓的“阶跃变化”只是问题本身更简单。该推文引用了 ChatGPT 的分享链接，显示模型在推理任务上的表现。这一讨论反映了 AI 社区对模型能力提升本质的持续争论：是模型真的变强了，还是任务难度被高估了。

AI模型 GPT-5.5 推理模型阶跃变化 AI 能力评估数学证明

推荐理由：AI 研究者和大模型用户值得关注——GPT-5.5 的推理表现引发了对“阶跃变化”定义的反思，看完会重新审视模型能力的评估标准。

原文

14:00

OpenRouter@OpenRouterAI

精选

DeepSeek V4 Flash 在 OpenRouter 每周排行榜中登顶，获得 1196 次浏览和 38 个点赞。该模型是 DeepSeek V4 的轻量版本，表现出色。OpenRouter 排行榜基于用户使用量和反馈，V4 Flash 的领先显示了其在开发者中的受欢迎程度。

AI模型 DeepSeek V4 Flash DeepSeek OpenRouter 推理模型

推荐理由：DeepSeek新模型登顶社区排行榜

原文

09:37

Together AI@togethercompute

83°

阿里巴巴推出Qwen3.7-Max旗舰模型，专为智能体时代设计，支持100万token上下文窗口。该模型在智能体编程、推理和长周期自主任务上表现领先。现在可通过Together Serverless Inference平台用于生产级智能体工作流。这标志着大模型从对话助手向自主智能体核心引擎的转变。

AI模型 Qwen3.7-Max 智能体长上下文推理模型阿里

推荐理由：做智能体应用的开发者终于有了一个原生支持长上下文和自主决策的旗舰模型，1M上下文窗口直接解决复杂任务中的记忆瓶颈，建议在Together上试试生产级部署。

原文

06:20

阿里通义 Qwen@Alibaba_Qwen

76°

阿里通义千问团队发布了 Qwen3.7-Max 模型，在编程智能体基准测试中表现强劲，同时在通用智能体能力上也有大幅提升。该模型在最具挑战性的推理基准测试中展现出卓越实力，并在通用能力和多语言处理方面脱颖而出。这标志着国产大模型在智能体领域的重要进展。

AI模型 Qwen3.7-Max 编程智能体推理模型多语言阿里通义千问

推荐理由：Qwen3.7-Max 在编程和通用智能体任务上的大幅提升，对做 AI 编程工具和智能体应用的开发者是直接利好，建议关注其实际效果。

原文

03:55

rohanpaul_ai@rohanpaul_ai

Qwen 3.7 Max 在编程和智能体能力上接近前沿模型，在 Artificial Analysis 排名第五，与 GPT 5.4 (xhigh) 相当，略高于刚发布的 Gemini 3.5 Flash。该模型现已通过 AI/ML API 提供，代理可靠性是其核心亮点。AI/ML API 还为用户提供免费试用码，方便开发者体验。

AI模型 Qwen 3.7 Max 编程助手智能体 AI/ML API 推理模型

推荐理由：Qwen 3.7 Max 在编程和智能体能力上逼近 GPT 5.4，做 AI 应用和智能体开发的团队值得试试，尤其是想低成本接近前沿模型的开发者。

原文

02:12

rohanpaul_ai@rohanpaul_ai

83°

阿里巴巴发布了其最强旗舰模型 Qwen3.7-Max，专为真实世界任务和生产环境设计。该模型在智能体可靠性上做了核心优化，能够自主规划步骤、调用工具、检查结果并修复错误，不会在首次出错后崩溃。在 Artificial Analysis Intelligence Index 上，Qwen3.7-Max 得分 56.6，较 Qwen3.6-Max 提升 4.8 分，排名第五，与 GPT 5.4 相当。性能提升主要集中在科学推理、智能体能力和编程方面。此外，推理内核经过多轮底层 GPU 优化，实现了 10 倍的几何平均加速。

AI模型阿里 Qwen3.7-Max 智能体推理模型编程助手

推荐理由：Qwen3.7-Max 在智能体可靠性上的突破，让做自动化工作流和复杂任务编排的开发者有了更稳定的选择，建议直接上手测试。

原文

5月21日

23:05

berryxia@berryxia

Qwen 3.7 Max 正式发布，博主使用经典的「AI模型二叉树Prompt」对其进行了深度思考和快速模式测试。该Prompt要求模型编写HTML程序绘制递归分形二叉树，并实现生长动画和摇曳效果。测试结果通过视频展示，并与之前的Gemini 3.5 Flash结果进行了对比。用户可自行测试不同模型在该任务上的表现。

AI模型 Qwen 3.7 Max 推理模型编程助手模型评测分形二叉树

推荐理由：Qwen 3.7 Max 的发布值得关注，尤其是对AI模型编程能力感兴趣的开发者，可以用这个二叉树Prompt亲自测试它的表现，看看它和Gemini 3.5 Flash相比如何。

原文

22:15

阿里通义 Qwen@Alibaba_Qwen

阿里发布 Qwen3.7-Max 旗舰模型，在 Artificial Analysis Intelligence Index 上获得 56.6 分，比 Qwen3.6-Max-Preview 提升 4.8 分。主要改进集中在科学推理、智能体能力和编程能力，同时幻觉率大幅下降。模型上下文窗口从 256K 提升至 1M 令牌，但仅支持文本输入输出。虽然仍落后于 OpenAI、Anthropic 和 Google 的模型，但这是阿里最接近前沿模型的一次。

AI模型 Qwen3.7-Max 阿里推理模型智能体编程助手

推荐理由：阿里 Qwen 系列持续追赶前沿，Qwen3.7-Max 在推理和智能体能力上进步明显，做 AI 应用开发或模型选型的团队值得关注这次性能跃升。

原文

21:55

阿里云 Alibaba Cloud@alibaba_cloud

83°

阿里云发布了 Qwen3.7-Max 模型，在 Artificial Analysis Intelligence Index 上获得 56.6 分，比预览版 Qwen3.6-Max-Preview 提升了 4.8 分。该模型在科学推理、智能体能力、编程和减少幻觉方面均有显著改进。这标志着阿里在大模型领域的持续迭代和竞争力提升。

AI模型 Qwen3.7-Max 阿里云推理模型智能体编程助手

推荐理由：Qwen3.7-Max 在推理和智能体能力上大幅跃升，做 AI 应用开发和科学计算的团队值得关注，可以直接测试其编程和 agent 表现。

原文

21:05

Patrick Loeber@patloeber

76°

Gemini 3.5 Flash (Medium) 在 Zapier 的 AutomationBench 基准测试中夺得第一，得分 14.5%，远超 GPT 5.5 (xhigh) 的 12.9%。值得注意的是，中等推理设置（medium）表现优于高推理（high），因为高推理会过度消耗工具调用限制。该模型还以约 7 倍的成本优势领先，成为目前最持久的自动化模型。Google 已推荐将 medium 作为默认 API 设置，适用于大多数任务。

AI模型 Gemini 3.5 Flash AutomationBench 推理模型成本优化 API 设置

推荐理由：做自动化流程的开发者终于有了性价比之选——Gemini 3.5 Flash 不仅性能领先，成本还低 7 倍，建议直接试试 medium 设置。

原文

17:28

orange.ai@oran_ge

93°

OpenAI 一个未公布的内部推理模型自主解决了 Erdős 1946 年提出的平面单位距离问题，这是 AI 首次独立解决一个数学领域的著名开放问题。模型的思维链长达 125 页，核心手法是从代数数论引入工具解决离散几何问题，这种跨领域连接是人类 80 年未曾想到的。该模型并非专为数学训练，而是通用推理模型，表明推理能力达到一定阈值后创造性会自然涌现。这一成果被认为是 AI 发展的里程碑时刻。

AI模型推理模型数学 OpenAI 创造性涌现未公开模型

推荐理由：这是 AI 首次自主解决数学开放问题，证明了通用推理模型能跨领域创造新解法，做 AI 研究和数学研究的都该看看——它可能改变我们对 AI 创造力的认知。

原文

15:49

rohanpaul_ai@rohanpaul_ai

精选72°

一种名为GRAM（生成式递归推理）的新模型，仅用1000万参数，通过同时探索多条推理路径，在硬数独谜题上达到97%准确率，超越此前最佳递归模型（87.4%）。传统递归模型是确定性的，容易陷入错误轨迹，而GRAM在每个推理步骤注入随机性，生成多样化的推理路径，并在测试时并行运行并选择最佳结果。在N皇后等多解任务中，GRAM保持近乎完美的准确率，而确定性模型随解数量增加而崩溃。此外，GRAM还能作为生成器，用16步生成有效数独谜题，成功率99%，远超扩散模型。

论文推理模型并行推理随机性数独 GRAM

推荐理由：GRAM用随机性打破了递归模型的确定性瓶颈，做推理模型或搜索算法的研究者可以直接复现，做数独或组合优化应用的团队值得关注。

原文

14:57

rohanpaul_ai@rohanpaul_ai

83°

OpenAI 的通用推理模型成功推翻了一个自 1946 年以来的 Erdős 平面单位距离猜想，证明了存在无限族构造能多项式改进已知上界。关键在于该模型并非专用定理证明引擎，而是通过增加测试时计算（推理阶段思考）来提升表现，无需大量领域特化训练。这一突破展示了通用推理系统在数学探索中的潜力，能够跨越几何与代数数论（如类域塔理论）的鸿沟，发现人类因学科边界和直觉限制而忽略的路径。外部数学家已验证了该证明的正确性。

AI模型推理模型数学 OpenAI Erdős 猜想测试时计算

推荐理由：OpenAI 用通用推理模型解决了一个困扰数学家近 80 年的难题，证明 AI 不需要专用引擎也能做前沿数学研究。做 AI 推理或数学建模的团队值得关注——它展示了“推理时计算”比“更多训练”更能带来突破。

原文

14:35

AI Will@FinanceYF5

88°

OpenAI 的一个通用推理模型独立解决了数学家 Paul Erdős 在 1946 年提出的“平面单位距离问题”，这是 AI 首次自主解决一个数学领域的著名开放问题。该问题困扰了数学界近 80 年，此前最优解被认为接近正方形网格，而 AI 发现了一种全新的构造方式，表现更优。这一突破标志着 AI 开始具备长链条、跨领域推理能力，未来可能加速生物学、医学、工程学等领域的进展。但决定问题和解读结果的仍然是人类，AI 只是工具。

AI模型 OpenAI 推理模型数学突破平面单位距离问题 AI 自主推理

推荐理由：这是 AI 首次自主解决数学开放问题，做数学研究或 AI 推理的开发者值得关注——它展示了 AI 在长链条推理上的潜力，建议点开看看具体突破。

原文

07:59

Noam Shazeer@noamshazeer

91°

在 Google IO 大会上，Noam Shazeer 宣布推出 Gemini 3.5 Flash 模型，专为智能体和编程场景优化。该模型具备前沿性能，速度是其他前沿模型的 4 倍，即日起全球上线。这标志着 Google 在实时 AI 应用领域的重要进展，尤其适合需要快速响应的智能体工作流。

AI模型 Gemini 3.5 Flash 智能体编程助手 Google IO 推理模型

推荐理由：做智能体开发和编程的团队终于有了速度与性能兼得的选择——Gemini 3.5 Flash 比同类快 4 倍，值得立即上手测试。

原文

07:59

DeepLearning.AI@DeepLearningAI

DeepLearningAI 在 X 平台发起一项投票，测试当前 AI 图像模型能否正确识别图片中的两种健身器材。该投票旨在引发对多模态推理模型能力的讨论，并推广其“AI Prompting for Everyone”课程。目前投票选项包括“能”、“不能”和“可能”，已有 682 次浏览和 5 次投票。这反映了业界对 AI 视觉理解真实世界物体能力的持续关注。

AI模型多模态模型图像识别推理模型 DeepLearningAI AI 投票

推荐理由：想了解多模态模型在真实场景中的识别能力？这个投票让你快速感知 AI 的视觉推理边界，做 AI 应用开发的可以参与讨论并学习提示技巧。

原文

07:59

Ethan Mollick@emollick

一年前，OpenAI曾宣称其未发布的通用模型在国际数学奥林匹克竞赛（IMO）中夺得金牌，但至今未公开该模型的具体名称或版本。这一神秘模型引发了外界对其能力的广泛猜测，尤其是它是否代表了OpenAI在推理和数学能力上的重大突破。如今，随着GPT-5.5 Pro Extended的推出，人们开始质疑新模型是否已追平或超越当年金牌模型的水平。该问题由学者Ethan Mollick在X上提出，再次引发对OpenAI模型演进和透明度讨论。

AI模型 OpenAI 推理模型 IMO GPT-5.5 Pro Extended 模型能力

推荐理由：OpenAI的IMO金牌模型至今未公开，这背后可能隐藏着模型能力的真实上限。关注推理模型和数学能力的开发者，值得思考GPT-5.5 Pro Extended是否已填补这一空白。

原文

07:08

Google Gemini App@GeminiApp

精选

Google 发布 Gemini 3.5 Flash，即日起全球用户可免费使用。用户只需在 gemini.google 或移动应用底部下拉菜单中选择“3.5 Flash”即可体验。该模型侧重高效推理与快速响应，面向免费层级开放。

AI模型 Gemini 3.5 Flash Google 推理模型免费

推荐理由：谷歌免费上架新模型，试试手速

原文

5月20日

15:12

AI Will@FinanceYF5

精选72°

Google 提出 Nexus 框架，将时间序列预测从纯数值模式匹配转向事件驱动的推理问题。Nexus 通过多个智能体分别处理历史文本事件、宏观环境、局部冲击，并由合成器校准，让模型理解数字背后的原因。在 Zillow 房价测试中，基于 Claude 的版本相比直接思维链提示，平均绝对百分比误差（MAPE）降低 86.6%。虽然目前仅在有限数据集上验证，但方向明确：未来的预测不仅要外推曲线，还要解释曲线为何移动。

论文时间序列预测智能体推理模型 Google Claude

推荐理由：做时间序列预测的团队终于有了一个能理解「为什么涨跌」的框架，Nexus 把事件和数字结合，效果显著。做量化、经济预测或房地产分析的建议点开论文看看。

原文

13:09

berryxia@berryxia

83°

Google DeepMind 推出了 Gemini 3.5 Flash 模型，在 Intelligence Index 上获得 55 分，比上一代 Gemini 3 Flash 高 9 分，超越 Grok 4.3 和 Claude Sonnet 4.6。Agentic 任务 Elo 评分达 1656，幻觉率从 92% 降至 61%，多模态理解 MMMU-Pro 达 84%，输出速度超 280 tokens/s，比前代快 70%。但成本大幅上升，运行一次测试的成本是 Gemini 3 Flash 的 5.5 倍，定价为 $1.5/$9 per 1M input/output tokens，是前代的 3 倍。这标志着智能与速度的 Pareto 前沿被刷新，但“Flash”系列的性价比优势不再。

AI模型 Gemini 3.5 Flash Google DeepMind 推理模型多模态成本分析

推荐理由：Gemini 3.5 Flash 在智能和速度上实现了突破，做 AI 应用或 agent 开发的团队值得关注——性能提升显著，但预算敏感型项目需要重新评估成本。

原文

09:34

rohanpaul_ai@rohanpaul_ai

72°

Google 发布了 Gemini 3.5 Flash 模型，在多项基准测试中超越了 Gemini 3.1 Pro，成为同级别中的最强模型。该模型具备智能体能力，每秒 token 处理速度提升 4 倍。AI/ML API 平台已集成该模型，并提供 24 小时免费使用。开发者可快速体验其强大性能。

AI模型 Gemini 3.5 Flash 推理模型智能体 API 免费

推荐理由：Gemini 3.5 Flash 以更小体量超越 Pro 级模型，做智能体或高吞吐应用的开发者值得立即体验，尤其是 API 限免窗口仅 24 小时。

原文