全部 AI 动态 · AI 热点

5月27日

11:56

歸藏(guizang.ai)@op7418

Qwen 3.7 Max 在 Arena Coding Agent 的 Frontend 榜单上排名第四，成为排名最高的中国实验室模型，超越了 GLM-5.1，并与 Claude Opus 4.6 在智能体网页开发任务上持平。这一成绩展示了阿里通义千问在智能体编程领域的强劲实力，对关注 AI 编程和前端开发的团队有重要参考价值。

推荐理由：Qwen 3.7 Max 在智能体编程榜单上超越 GLM-5.1 并追平 Claude Opus 4.6，做前端开发或智能体应用的团队值得关注这一国产模型的进展。

原文

11:12

歸藏(guizang.ai)@op7418

MiniMax 宣布即将发布新一代 M3 模型，并开源其 MSA 架构。这是 MiniMax 沉寂一段时间后的重要更新，M3 模型预计在性能上有显著提升。开源 MSA 架构将推动社区研究和应用发展。该消息在推特上引发关注，但具体细节尚未公布。

AI模型 MiniMax M3模型 MSA架构开源大模型

推荐理由：MiniMax 的 M3 模型和开源 MSA 架构值得关注，尤其是对开源大模型和架构研究感兴趣的开发者，可以提前了解并准备试用。

原文

11:02

Greg Brockman@gdb

开发者 Theo 在 X 上分享了他对 GPT-5.5 的深度使用体验，称经过两个月的适应后，GPT-5.5 已成为他无法替代的编码模型。他指出，要发挥 GPT-5.5 的全部能力，需要完全不同的提示方式，并花时间配置 agents.md 文件。一旦跨过学习曲线，其他模型在代码任务上都无法与之相比。这反映了 GPT-5.5 在编程领域的独特优势，也提示开发者需要调整使用习惯。

AI模型 GPT-5.5 编码模型开发者体验提示工程 AI编程

推荐理由：做 AI 编程的开发者如果还在用旧模型，值得花时间适应 GPT-5.5 的独特提示方式——跨过门槛后，其他模型可能就回不去了。

原文

08:36

berryxia@berryxia

83°

MiniMax AI工程负责人Skyler Miao预告了下一代模型M3的发布，并透露其核心架构：基于GQA的动态块稀疏注意力。该技术通过轻量索引分支快速筛选相关token块，仅对关键块执行稀疏注意力计算，大幅降低算力需求。在1M token上下文下，M3的预填充速度比M2快9.7倍，解码速度快15.6倍。这使得百万token级别的Agent任务从理论走向实用，长上下文处理变得又快又省。M3的发布将为长上下文模型赛道增添有力竞争者。

AI模型 MiniMax M3 长上下文稀疏注意力 Agent

推荐理由：MiniMax M3用动态稀疏注意力把1M上下文的算力成本打下来了，做长上下文Agent的开发者可以直接关注，这可能是让百万token任务真正落地的关键突破。

原文

07:22

berryxia@berryxia

PrismML 发布了 Bonsai Image 4B 扩散模型的 1-bit 和 Ternary 版本，分别仅 0.93GB 和 1.21GB，比全精度模型小 8.3 倍。在 Mac M4 Pro 上生成速度最高提升 5.6 倍，图像质量和提示词遵循度与更大模型相当。同时上线了 Bonsai Studio iOS App，支持 iPhone 本地离线生成图像，无需订阅或 API。这标志着高质量图像生成从云端真正走向个人设备。

AI模型端侧模型扩散模型图像生成模型压缩 PrismML

推荐理由：端侧生图终于不再妥协——Bonsai Image 4B 用极致压缩把云端级质量塞进手机，做移动端 AI 应用或离线创作工具的开发者可以直接在 iPhone 上试，无需联网和付费。

原文

03:23

lmarena.ai@lmarena_ai

微软 AI 团队推出的 MAI-Image-2.5（预览版）在文生图竞技场排行榜上以 1254 分位列第三，相比前代 MAI-Image-2 提升了 72 分。此前该榜单前五名仅由 Google DeepMind 和 OpenAI 占据，微软的加入打破了这一格局。该模型在图像质量上取得了显著进步，且微软 Build 大会即将到来，预计会有更多更新。

AI模型微软 MAI-Image-2.5 文生图排行榜 AI模型

推荐理由：微软在文生图领域首次跻身顶级阵营，做图像生成或 AI 应用的开发者值得关注其后续在 Build 大会上的发布。

原文

00:23

lmarena.ai@lmarena_ai

精选83°

Qwen3.7 Max 在 Code Arena 前端编程评测中排名第4，成为榜单上排名最高的中国实验室模型，超越了 GLM-5.1，并与 Claude Opus 4.6 持平。该模型专为智能体时代设计，支持端到端编码、前端原型、多文件重构和真实调试，还能通过 MCP 集成和多智能体编排完成办公任务。在长时自主任务中，它可连续运行 35 小时，执行超过 1000 次工具调用而无需人工干预。API 已在阿里云百炼平台上线，用户也可在 Qwen Studio 体验。

AI模型 Qwen3.7 Max Code Arena 前端编程智能体阿里云

推荐理由：Qwen3.7 Max 在智能体编程任务上追平了 Claude Opus 4.6，做前端开发或自动化智能体的团队值得一试，尤其是需要长时自主执行的场景。

原文

5月26日

22:56

NVIDIA AI@NVIDIAAI

NVIDIA AI 官方账号发布了一段由 Julia Turc 制作的关于“世界模型”的讲解视频。视频澄清了世界模型与视频生成的区别，探讨了其超越“AI 垃圾”的潜力，并幽默回应了 Yann LeCun 的争议。该视频旨在帮助观众理解这一当前 AI 领域最热门但最模糊的概念之一。

AI模型世界模型 NVIDIA 视频生成 AI 科普 Yann LeCun

推荐理由：世界模型是当前 AI 最模糊的概念之一，这个视频帮你理清它与视频生成的区别，想搞懂 AI 前沿方向的建议点开。

原文

20:27

Hunyuan@TXhunyuan

精选

腾讯混元宣布Hy-MT2模型转换为Apache License 2.0许可，允许自由研究、商业使用、微调和衍生作品。该模型的两个变体目前在Hugging Face趋势排行榜上分别位列第1和第4位。社区可直接克隆、修改并反馈。

AI模型 Hy-MT2 Tencent Hunyuan Apache 2.0 开源模型

推荐理由：腾讯混元MT2现在完全开源可商用

原文

16:18

向阳乔木@vista8

精选

网易有道发布子曰4全模态模型，27B参数，在视觉数理方向达到同规模SOTA，纯文本数理难题准确率81.4%。该模型面向中文学习场景，兼顾多模态与纯文本数理推理能力。同时，子曰4全模态模型和TTS引擎同步开源，开放参数权重，支持本地部署和二次训练。TTS模型仅需3秒即可克隆原声，支持14种语言，克隆准确度超97%，音色还原度95%以上。

AI模型全模态模型开源/仓库数理推理 TTS/语音克隆网易有道

推荐理由：教育科技团队和AI开发者有了一个27B甜点级参数的全模态开源选择，数理推理和语音克隆能力都很能打，做学习类应用或本地部署的可以直接上手试试。

原文

16:09

Yangyi@Yangyixxxx

精选

Anthropic联合创始人Chris Olah在讨论AI内部状态时指出，他们不断发现一些“神秘、甚至令人不安”的东西，包括类似人类神经科学结果的结构、内省证据，以及功能上类似快乐、满足、恐惧、悲伤和不安的内部状态。Olah表示，他不知道这意味着什么，但认为这值得持续审慎辨析。这一发现暗示，通过直接解析神经科学可能无法完全理解AI，而通过反向模拟AI的推理过程，反而可能归纳出结论，形成一种“双向奔赴”的研究路径。

AI模型 Anthropic AI内部状态可解释性神经科学情感模拟

推荐理由：AI内部状态研究正在揭示与人类情感相似的结构，做AI安全或可解释性研究的团队值得关注——这可能会改变我们对AI意识的理解方式。

原文

15:24

AI Will@FinanceYF5

Anthropic 正在准备发布名为 Mythos 1 的新模型，预览版为 "claude-mythos-1-preview"。该模型在 Claude 平台上短暂可见，并新增了相关字符串。Mythos 模型将首先在 Claude Code 和 Claude Security 中提供，但根据 Anthropic 之前的沟通，普通公众可能无法直接访问该模型。这一动态表明 Anthropic 正在为特定场景优化模型能力。

AI模型 Anthropic Mythos 1 Claude Code Claude Security 模型发布

推荐理由：Anthropic 开始为安全场景和代码工具定制模型，做 AI 安全或开发工具的团队值得关注，这可能是专业级模型落地的信号。

原文

15:22

AI Will@FinanceYF5

Anthropic 正在准备推出代号为 claude-mythos-1-preview 的新模型 Mythos 1，该模型将登陆 Claude Code 和 Claude Security 产品。模型曾短暂在代码中露面，相关标识已更新。官方表示普通用户暂时无法使用该模型，暗示可能面向企业或特定场景。这一动态表明 Anthropic 在持续迭代其模型能力，并针对开发者和安全场景进行优化。

AI模型 Anthropic Mythos 1 Claude Code Claude Security 模型更新

推荐理由：Anthropic 的新模型 Mythos 1 专为 Claude Code 和 Security 场景设计，做 AI 开发或安全工作的团队值得关注——这可能意味着更强的代码理解和安全分析能力，虽然普通用户暂不可用，但提前了解有助于规划技术栈。

原文

15:02

阿里云 Alibaba Cloud@alibaba_cloud

83°

阿里云宣布其 Qwen3.7-Max 模型在 Code Arena 评测中以 1541 分位列全球第二，仅次于 Claude。该模型专为生产环境设计，支持连续运行 35 小时任务、执行 1000 次以上工具调用，能将原本两周的项目缩短至数小时完成。这标志着国产大模型在编程领域取得重要突破，为开发者提供了高性能的替代选择。

AI模型 Qwen3.7-Max 编程模型 Code Arena 阿里云生产部署

推荐理由：Qwen3.7-Max 在编程能力上逼近 Claude，做自动化脚本或复杂项目开发的团队可以试试，能显著缩短交付周期。

原文

10:50

Hunyuan@TXhunyuan

精选

腾讯混元发布Hy-MT2系列翻译模型，包含Hy-MT2-1.8B和Hy-MT2-30B-A3B两个版本。Hy-MT2-1.8B在Hugging Face开源模型趋势排行榜位列第1，Hy-MT2-30B-A3B位列第4，两者合计下载量已超7000次。同时基于Hy-MT2推出腾讯Hy翻译微信小程序，支持语音输入、离线翻译以及自定义翻译风格与指令。

AI模型 Hy-MT2 Tencent Hunyuan 翻译模型开源模型 Hugging Face

推荐理由：腾讯翻译模型冲上榜首

原文

10:29

AI Will@FinanceYF5

93°

Google DeepMind 发布 AlphaProof Nexus，一个基于 Gemini 的 agentic 框架，用于形式化数学证明搜索。该 AI agent 自主解决了 9 个 Erdős 问题（其中两个已开放 56 年）、44 个 OEIS 问题、一个 15 年未解的代数几何问题和一个 7 年未解的 min-max 优化问题。整个推理成本仅几百美元，标志着 AI 从做练习题转向真正的数学研究。

AI模型 AI agent 数学证明 DeepMind Gemini 形式化验证

推荐理由：AI 用几百美元成本解决了人类数学家 56 年未解的问题，做数学研究或形式化验证的团队值得关注——这可能是数学研究自动化的转折点。

原文

10:28

AI Will@FinanceYF5

83°

Google DeepMind发布AlphaProof Nexus论文，展示了一个AI agent在353个开放数学问题中自主解决了9个Erdős难题，其中包括两个56年未解的问题，并证明了44个OEIS猜想。每道题的推理成本仅数百美元，标志着AI在数学推理领域取得了重大突破。这项工作展示了AI agent在解决长期悬而未决的数学难题方面的潜力，为数学研究提供了新的工具和方法。

AI模型数学推理 AI agent DeepMind Erdős难题 OEIS猜想

推荐理由：数学研究者和AI爱好者值得关注：AlphaProof Nexus以极低成本自主攻克了56年未解的难题，展示了AI在数学推理上的新高度，建议点开了解具体方法和成果。

原文

5月25日

21:41

Skywork@Skywork_ai

精选

Skywork 发布了自研智能体模型 SkyClaw-v1.0，专为工具使用和多轮执行场景设计。该模型在推理能力和任务执行流畅度上有所提升，旨在更好地服务于云端工作流。SkyClaw-v1.0 的推出标志着 Skywork 在智能体领域的重要进展，为自动化任务处理提供了新的选择。

AI模型智能体 Skywork SkyClaw-v1.0 工具使用多轮执行

推荐理由：做自动化工作流和云端任务编排的团队，SkyClaw-v1.0 在工具调用和多轮执行上更顺手，值得关注。

原文

21:41

Skywork@Skywork_ai

精选

Skywork 团队发布了名为 SkyClaw 的新模型技术细节和基准测试结果。SkyClaw 在多个基准上展现了竞争力，具体性能指标可在技术报告中查看。用户可以通过 Skywork 平台直接试用该模型。这一发布为 AI 模型社区提供了新的选择，尤其适合需要高性能推理的开发者。

AI模型 Skywork SkyClaw 基准测试推理模型开源/仓库

推荐理由：SkyClaw 的基准测试结果值得关注，做模型选型或推理优化的开发者可以直接查看技术细节并试用。

原文

21:30

The Rundown AI@therundownai

Google 的 AI 系统成功解决了九个长期未解的数学难题，标志着 AI 在数学推理领域取得重大突破。这些难题曾困扰数学家多年，AI 的解法可能为数学研究开辟新路径。该成果展示了 AI 在复杂逻辑和抽象推理方面的潜力，对数学、计算机科学等领域具有深远影响。

AI模型 Google AI 数学推理未解难题突破研究

推荐理由：数学和 AI 研究者值得关注——Google AI 破解未解难题，可能改变数学研究范式，建议点开了解具体突破。

原文

21:07

Skywork@Skywork_ai

精选72°

Skywork团队发布了基于自建OpenClaw环境训练的新模型，该环境从真实用户模式中合成了工具和任务。新模型在PinchBench、Claw-Eval和Skywork-Claw-Bench三个基准测试上超越了前沿开源模型。提供了两个版本：v1.0（完整版）和v1.0-lite（更快、成本更低）。这一进展展示了通过定制化训练环境提升模型在特定任务上性能的潜力。

AI模型 Skywork OpenClaw 工具使用开源/仓库模型评测

推荐理由：做工具使用和任务自动化开发的团队可以关注——Skywork用自建环境训练出了超越开源前沿的模型，而且提供了轻量版降低使用成本，值得试试。

原文

20:22

阿里云 Alibaba Cloud@alibaba_cloud

精选

在 2026 年 Qwen 大会上，NVIDIA 高级解决方案架构师 Jian Zhai 在基础模型论坛上深入解析了 Qwen 推理优化技术，展示了通过 NVIDIA 全栈加速实现的突破性性能提升。该演讲聚焦于如何利用 NVIDIA 的软硬件协同优化，显著降低 Qwen 模型的推理延迟并提高吞吐量，为 AI 应用落地提供关键支持。这一合作体现了 AI 原生生态的快速发展，对部署 Qwen 模型的开发者和企业具有重要参考价值。

AI模型 Qwen NVIDIA 推理优化全栈加速 AI 原生

推荐理由：NVIDIA 全栈加速让 Qwen 推理性能实现突破，做模型部署和推理优化的工程师可以直接参考其技术方案，值得关注。

原文

19:20

rohanpaul_ai@rohanpaul_ai

精选76°

华为发布了一种名为 LogicFolding 的新型芯片设计方法，旨在通过减少信号传输延迟来提升性能，而非单纯追求晶体管尺寸缩小。该方法引入“τ scaling”概念，将芯片性能瓶颈从晶体管大小转向时间延迟的优化。LogicFolding 通过垂直堆叠有源电路层并用混合键合连接，缩短关键路径，降低延迟和能耗。这一突破有望帮助华为在芯片制造领域缩小与台积电的差距。

AI模型华为 LogicFolding 芯片设计 τ scaling 半导体

推荐理由：芯片设计从业者和关注半导体竞争格局的读者值得关注——LogicFolding 提出了从“缩小晶体管”到“减少时间浪费”的新范式，可能改变行业对性能提升的衡量标准。建议点开了解具体技术细节。

原文

17:38

Philipp Schmid@_philschmid

精选

谷歌Gemini 3.5 Flash在视频理解、图像和音频等多模态任务中表现优异，但目前关注度不高。作者Phil Schmid认为该模型的能力被严重低估。该模型支持多种输入模态，适合复杂的多模态推理场景。

AI模型 Gemini 3.5 Flash 视频理解多模态

推荐理由：谷歌的Gemini 3.5 Flash多模态能力被严重低估了

原文

14:14

@elonmusk@elonmusk

91°

Elon Musk 宣布 Grok 基础模型 V9-Medium（1.5T 参数）已完成训练，评估结果良好。模型在补充训练中加入了大量 Cursor 数据，后续还会增加。目前正在进行微调，强化学习将在几天后开始，预计 2-3 周内公开发布。相比当前服务所有 Grok 生产流量的 0.5T v8-small，V9-Medium 将带来重大改进，尤其在复杂编程任务上。

AI模型 Grok V9-Medium 1.5T参数编程助手 Cursor

推荐理由：Grok V9-Medium 参数规模提升至 1.5T，专门强化了编程能力，做 AI 编程或使用 Cursor 的开发者值得关注，2-3 周后就能直接体验。

原文

12:24

Yangyi@Yangyixxxx

从今年年初开始，由于大模型蒸馏技术的过度使用，AI模型出现了自言自语的现象。蒸馏是指用大型模型训练小型模型的过程，但频繁的蒸馏可能导致模型学习到一些无意义的内部对话模式。这种现象可能影响模型的输出质量和可靠性，引发对AI训练方法的反思。目前该问题已引起研究者的关注，需要进一步探索蒸馏的合理边界。

AI模型大模型蒸馏模型行为训练方法 AI自言自语

推荐理由：做模型蒸馏或训练AI的团队值得关注——过度蒸馏可能导致模型行为异常，影响实际部署效果，建议点开了解具体表现和潜在风险。

原文

12:12

Paul Couvert@itsPaulAi

阿里巴巴发布了 Qwen-3.7-Max 模型，性能出色，可轻松接入 Hermes Agent 或 OpenCode，替代 GPT-5.5 或 Opus 4.7。输出成本比 Opus 4.7 低 3.3 倍，比 GPT-5.5 低 4 倍，输入成本也比两者低 2 倍。该模型在多个基准测试中表现优异，为开发者提供了高性价比的替代方案。

AI模型 Qwen-3.7-Max 阿里推理模型成本优化智能体

推荐理由：Qwen-3.7-Max 以极低成本提供接近顶级模型的性能，做 AI 应用开发或智能体集成的团队可以大幅降低推理开销，值得立刻上手试试。

原文

06:49

Clement Delangue@ClementDelangue

精选

llama.cpp 新增 MTP（Multi-Token Prediction）支持，使本地模型推理速度大幅提升。在 A10G 上测试 Qwen3.6-27B 模型，生成速度从 25 tok/s 提升至 45 tok/s，增幅达 78%。这一优化让本地模型具备了作为日常驱动力的实用性，对本地部署和隐私敏感场景意义重大。开发者可直接在 llama.cpp 中启用 MTP 功能，体验更流畅的本地推理。

AI模型 llama.cpp MTP/多令牌预测本地推理 Qwen3.6-27B 推理优化

推荐理由：本地模型速度翻倍，做本地部署的开发者终于可以告别卡顿，建议直接试试 MTP 支持。

原文

05:28

rohanpaul_ai@rohanpaul_ai

精选

著名数学家陶哲轩（Terry Tao）指出，AI 正在推动数学证明的规模化生产。他将证明写作转化为搜索问题：AI 从目标出发生成数千个小引理，然后通过廉价验证器淘汰大部分，只保留少数有效的。这种方法使得大规模数学生产成为可能，改变了传统数学研究的范式。

AI模型 AI 数学证明生成陶哲轩规模化搜索问题

推荐理由：陶哲轩的观察揭示了 AI 在数学研究中的新应用方向——将证明转化为可规模化的搜索问题，做数学研究或 AI 推理的开发者值得关注这一思路。

原文

04:04

Gary Marcus@GaryMarcus

精选76°

DeepMind团队使用神经符号方法（neurosymbolic）成功解决了9个开放的Erdos问题，工作比OpenAI更细致、定量化。该方法结合了LLM和Lean证明助手，实现自主推理，仅在形式验证通过后才进行人工审核。Gary Marcus评论称，OpenAI可能因知道DeepMind即将发布而仓促推出自己的方案。这一进展展示了神经符号方法在数学推理中的潜力，也引发了关于研究竞争和严谨性的讨论。

AI模型神经符号 DeepMind Erdos问题 Lean证明助手数学推理

推荐理由：DeepMind用神经符号方法严谨解决数学难题，做AI推理或形式验证的开发者值得关注——这比纯LLM方案更可靠，也暗示了未来研究的方向。

原文

5月24日

15:34

orange.ai@oran_ge

DeepSeek V4 Pro模型在性能上并非最佳，但其缓存技术几乎免费，可大幅降低推理成本。Opus模型应用该技术后成本下降10倍。V4.1版本将使用真实harness数据训练，有望快速提升性能。

AI模型大模型 DeepSeek 缓存成本优化

推荐理由：缓存技术让成本降10倍

原文

14:44

rohanpaul_ai@rohanpaul_ai

精选

有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型，速度超过4 tokens/sec。Kimi K2.5是混合专家模型，总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分，专家权重存储在Optane PMem中，192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多，但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置，实现混合GPU/CPU推理。

AI模型 Kimi K2.5 混合专家模型推理模型开源/仓库大模型

推荐理由：用旧硬件跑万亿模型，省钱又酷

原文

13:52

rohanpaul_ai@rohanpaul_ai

精选75°

DeepSeek 通过 MoE、DSA 和 V4-Pro 的 CSA/HCA 技术，将 1M-token 单 token 推理 FLOPs 降至 V3.2 的 27%，KV 缓存降至 10%。其 Engram 研究线利用可扩展查找内存替代密集计算。Reuters 报道 V4-Pro 永久降价 75%，同时面临华为昇腾供应限制。这些举措旨在减少对 HBM 和高端 GPU 的依赖，使中国内存、加速器和系统适用于前沿 AI。

AI模型 DeepSeek MoE DSA 推理模型大模型

推荐理由：DeepSeek 用架构创新绕过硬件瓶颈

原文

10:49

Gary Marcus@GaryMarcus

精选

Gary Marcus 在推文中指出，世界模型（world model）并非新概念，已在象棋程序、导航系统、维基百科等系统中存在多年，它们是对对象、地点、事件、机制等可推理内容的显式表示。然而，当前的大语言模型（LLM）缺乏这种显式世界模型。Marcus 强调，大多数世界模型是手工构建的，真正的挑战在于如何从数据中自动获取它们。这引发了关于AI系统如何更好地理解和推理世界的讨论。

AI模型世界模型 LLM 推理 Gary Marcus 知识表示

推荐理由：Marcus 点出了LLM的核心短板——缺乏显式世界模型，做AI推理和知识表示的开发者值得关注，看完会重新思考LLM的局限性。

原文

10:38

Gary Marcus@GaryMarcus

精选

Gary Marcus 引用 scaling01 观点，认为 Mythos 在多项基准测试中优于 GPT-5.5，包括 SWE-bench Pro（77.8% vs 58.6%）、HLE（56.8% vs 41.4%）和网络安全测试。Mythos 在漏洞利用方面表现更强，能更高效地发现安全漏洞，但这也带来严重安全隐患。Marcus 警告，若 Mythos 完全发布，将对未充分防御的现实系统造成巨大混乱。目前最大的未知是 Mythos 在开放真实世界问题中的表现。

AI模型 Mythos GPT-5.5 基准测试安全威胁 AI模型

推荐理由：Mythos 在编程和网络安全基准上碾压 GPT-5.5，做 AI 安全或模型评估的团队需要关注其潜在威胁，建议提前加固防御。

原文

5月23日

23:36

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 模型在 Vending Bench 基准测试中达到性价比帕累托前沿。Vending Bench 用于衡量模型运行模拟商店的能力。该模型在成本与智能之间取得最优平衡，优于其他竞品。这是 Gemini 系列在推理效率上的重要进展。

AI模型 Gemini 3.5 Flash Google Vending Bench 推理模型

推荐理由：谷歌新模型性价比超群

原文

20:54

Gary Marcus@GaryMarcus

精选

Gary Marcus 引用六年前的文章《AI 的下一个十年》，指出世界模型（World Models）的核心地位终于得到认可。DeepMind 的 Demis Hassabis 认为当前 AI 的局限在于语言只能描述世界，无法包含世界，而世界模型是他“最持久的热情”。语言模型从文本中吸收了远超预期的现实结构，但文本只是经验的压缩残渣，无法编码重量、抓握、平衡、摩擦等物理细节。世界模型旨在学习物理现实的隐藏语法——物体如何持续、力如何展开、空间如何随行动变化——这对于真正的智能至关重要，因为智能不仅是回答得好，更是知道下一步行动会带来什么后果。

AI模型世界模型 Gary Marcus Demis Hassabis DeepMind AGI

推荐理由：Marcus 和 Hassabis 点出了当前 LLM 的根本局限——文本无法替代真实体验，做 AI 研究或关注 AGI 方向的开发者值得深入理解世界模型为何是下一关键突破。

原文

16:21

@atomic_chat_hq@atomic_chat_hq

在游戏开发竞赛中，Deepseek V4 Pro 与 GPT-5.5 被要求制作卡丁车游戏。GPT-5.5 以 0.33 美元成本、25 tok/s 速度生成 10,580 tokens，耗时 7 分钟，最终游戏质量、视觉效果和创意方向明显更优。Deepseek V4 Pro 成本仅 0.07656 美元，便宜 4.3 倍，生成 18,869 tokens（近 2 倍），但游戏在图形、视觉打磨和创意执行上较弱。结论是尽管 Deepseek 定位为强编码模型，在游戏开发测试中仍远落后于 GPT-5.5。

AI模型 Deepseek V4 Pro GPT-5.5 游戏开发模型对比成本效率

推荐理由：想用 AI 做游戏开发的团队，这个对比直接告诉你：省钱不一定省心——Deepseek 便宜但质量差一截，GPT-5.5 贵但成品更靠谱，建议根据预算和品质要求选模型。

原文

16:19

@atomic_chat_hq@atomic_chat_hq

精选72°

Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术，在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中，Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps（+137%），而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps（+25%）。MTP 通过一次前向传播验证多个预测 token，显著减少了内存带宽瓶颈，密集模型受益更大。该技术保持零精度损失，仅需额外约 1 GB 显存，且代码已开源。

AI模型推理加速 MTP/多token预测 Qwen MoE/密集模型开源/仓库

推荐理由：MTP 技术让本地大模型推理速度翻倍，尤其适合在消费级显卡上跑密集模型的开发者——2 块 RTX 5090 就能让 27B 模型达到 117 tps，值得直接试开源代码。

原文

16:19

@atomic_chat_hq@atomic_chat_hq

精选76°

在编写自训练俄罗斯方块机器人的真实智能体任务中，Qwen 3.7-Max 以 56% 的改进幅度、仅 1.32 美元的训练成本，全面超越 Claude Opus 4.7（+28%，12.15 美元）和 GPT-5.5（+7%，2.85 美元）。测试中每个模型可读取自身代码、运行基准测试并迭代重写 10 轮。Qwen 3.7-Max 在性能提升和成本效率上均占优，成本仅为 Claude 的 1/9、GPT 的 1/2。这表明 Qwen Max 在长智能体循环任务中具有显著优势。

AI模型 Qwen 3.7-Max 智能体模型对比成本效率自迭代

推荐理由：做智能体开发或自动化任务的团队，Qwen 3.7-Max 在成本与性能上碾压对手，值得在类似场景中直接替换测试。

原文