全部 AI 动态 · AI 热点

AITOP

6月12日

20:13

shao__meng@shao__meng

73°

推荐理由：K2.7-Code 在 MCP 场景下超过 Opus 4.8，且推理 token 减少 30%，做编程 Agent 的团队可以直接用开源模型跑长任务，成本更低、成功率更高。

原文

18:45

18:45IT之家（博客/媒体）

月之暗面今日发布并开源 Kimi K2.7 Code 编程模型，相比 K2.6 在长上下文编程、指令遵循和长程任务性能上显著提升，平均 token 消耗减少 30%。内外部基准测试显示，代码能力提升 11%-31.5%，Agent 自主化执行能力提升约 10%。模型已通过 Kimi API 开放平台提供，价格与 K2.6 一致，并预告 6 月 15 日推出 5-6 倍输出速度的高速版，仅需 2 倍价格。非编程任务仍推荐使用 K2.6 模型。

AI模型月之暗面 Kimi K2.7 Code 编程模型开源/仓库 API

推荐理由：Kimi K2.7 Code 在编程场景下 token 消耗降低 30%，做 AI 编程的开发者可以立刻通过 API 体验，高速版下周上线值得关注。

原文

17:56

shao__meng@shao__meng

精选

在华为开发者大会HDC 2026上，余承东宣布开源盘古模型全面升级，推出openPangu 2.0版本。该版本在性能、效率等方面进行了优化，具体改进细节尚未公布。余承东强调团队将保持领先，持续追赶行业前沿。

AI模型 openPangu 华为盘古开源模型

推荐理由：华为开源盘古2.0来了

原文

17:01

17:01IT之家（博客/媒体）

商汤科技开源了 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 模型，专为图文交错创作场景优化。该模型解决了多轮生成中角色形象飘移、画风断裂、图文脱节等痛点，支持绘本、故事书、多页 PPT 等连续内容创作。核心升级包括叙事连贯性与角色一致性提升、图文语义对齐增强、视觉质量改善，以及新增多页 PPT 自动生成能力。模型已在 Hugging Face 开源，适合需要高质量图文内容生成的创作者和开发者。

AI模型商汤 SenseNova U1 图文交错生成开源/仓库多模态模型

推荐理由：做绘本、PPT 或教程的创作者终于不用反复修图了——这个模型能保持角色和画风从头到尾一致，直接生成多页内容，建议试试。

原文

16:13

marktechpost@Asif Razzaq

Zyphra 发布了 Zamba2-VL 系列开源视觉语言模型，包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构，在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比，Zamba2-VL 在保持竞争力的同时，将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展，尤其适合对延迟敏感的应用场景。

AI模型视觉语言模型 Mamba2 Transformer 开源/仓库低延迟

推荐理由：做视觉语言模型部署或实时推理的开发者，Zamba2-VL 的首 token 延迟优势能显著提升用户体验，值得直接尝试。

原文

15:56

pandaily@contact@pandaily.com (Pandaily)

在第八届BAAI大会上，图灵奖得主Whitfield Diffie和Andrew Barto分别发表主题演讲，共同关注AGI安全与对齐背后的基础理论挑战。Diffie指出当前AI系统缺乏可验证的安全机制，Barto则强调强化学习中的奖励设计难题。两位学者认为，AGI的安全问题不仅是工程问题，更是理论问题，需要从数学和哲学层面重新思考。这一讨论为AI安全研究提供了新的视角，提醒业界在追求能力提升的同时不能忽视理论基础。

AI模型 AGI安全图灵奖理论挑战对齐 BAAI

推荐理由：两位图灵奖得主同时敲响AGI安全理论警钟，做AI安全研究的团队值得关注——这可能是未来几年最核心的学术方向。

原文

15:48

marktechpost@Sana Hassan

本文基于 MONAI 框架，构建了完整的 3D 医学图像分割流程，使用 Medical Segmentation Decathlon 的脾脏数据集。流程包括 CT 体素方向对齐、间距归一化、强度窗宽、前景裁剪和补丁采样等医学影像专用预处理，然后训练 3D UNet 模型。该教程提供了可复现的代码实现，适合医学影像 AI 开发者快速上手。

AI模型 MONAI 3D UNet 医学图像分割 CT 体素端到端流程

推荐理由：医学影像分割的端到端流程往往繁琐，MONAI 这套实现把预处理到训练串起来了，做 CT 分割的团队可以直接复用代码，省去踩坑时间。

原文

15:07

15:07IT之家（博客/媒体）

73°

华为在 HDC 2026 上正式发布开源盘古 openPangu 2.0 模型，包含 Pro（505B 总参数/18B 激活）和 Flash（92B 总参数/6B 激活）两个版本，支持 512K 上下文。该模型针对昇腾算力优化，单卡吞吐率是业界主流开源模型的 2 倍，并适配鸿蒙系统，在 Agent 任务上更快更准更省。华为计划从 6 月 30 日起陆续开源 7 大组件，包括预训练代码、后训练代码和训练算子。余承东坦言，由于算力大量支持国内其他企业，华为自留算力有限，因此模型参数规模控制在 505B，更聚焦时延和吞吐率提升。

AI模型华为盘古 2.0 开源模型昇腾鸿蒙

推荐理由：华为开源盘古 2.0 解决了国产大模型在昇腾生态下的部署效率问题，使用昇腾算力的开发者和企业可以直接受益，建议关注 6 月 30 日的开源组件发布。

原文

14:46

AI Will@FinanceYF5

73°

Claude Fable 5 发布仅两天，社区已涌现出大量令人惊叹的案例，包括完整 App、3D 场景等此前难以实现的内容。有用户整理了 25 个典型案例，展示了该模型在创意生成和复杂任务上的突破性能力。这些案例表明，Fable 5 在交互式内容创作和实时生成方面达到了新高度，对开发者和创作者具有重要参考价值。

AI模型 Claude Fable 5 案例合集创意生成 3D场景 App开发

推荐理由：Claude Fable 5 两天就催生了 25 个疯狂案例，做创意应用或交互式内容的开发者值得一看，能直接激发你的下一个项目灵感。

原文

14:43

Philipp Schmid@_philschmid

Agents' Last Exam (ALE) 是一个针对 AI 智能体的新基准测试，包含来自 55 个行业的 1000 多个真实专业任务，所有任务都源自实际专家工作，而非合成数据。测试结果显示，最佳智能体在最简单任务上得分低于 50%，在困难任务上低于 10%，最前沿模型在最高难度任务上通过率为 0%。模型选择对性能的影响大于工具链（harness），且增加 token 消耗并不能提升结果。智能体常见失败模式包括策略错误（47%）、领域知识缺失（31%）和执行错误（22%），且 34% 的任务需要 GUI 软件，但智能体倾向于回避并采用 CLI 变通方案。

AI模型智能体基准测试 ALE 真实任务评估

推荐理由：ALE 揭示了当前 AI 智能体在真实专业任务上的真实水平，做智能体开发或评估的团队值得关注——它可能是衡量 Agent 能力的最后一把尺子。

原文

14:19

AI Will@FinanceYF5

Boris Cherny 评价 Fable 5 是自 Opus 4.5 以来最显著的模型升级。该模型从单纯的编码助手进化为产品构建中的思考和设计伙伴，具备判断力、品味和维度感。在调试任务中，Fable 5 展现出前所未有的系统性和精确性，会自动测量、添加日志并验证修复效果。Cherny 认为这种能力并非来自提示工程，而是模型本身的“人格”特质，带来了从未体验过的“大模型气息”。

AI模型 Fable 5 编程助手推理模型智能体模型升级

推荐理由：Fable 5 解决了 AI 编程从工具到伙伴的跃迁问题，做复杂产品开发的团队值得一试——它不再只是帮你写代码，而是能和你一起设计。

原文

14:18

AI Will@FinanceYF5

TypeScript创始人Boris Cherny高度评价Fable 5，称其为自Opus 4.5以来最大的模型跨越。他指出，之前的Claude更像一个编码agent，而Fable 5已经进化为产品设计伙伴，具备判断力、品味和维度感。例如，在debug时，它会主动添加日志、验证修复，并确认问题真正解决后才宣布完成，而这些行为没有任何prompt要求。Cherny表示，这是第一次感受到“大模型的气息”，暗示模型开始展现出类似人类的主动性和性格。

AI模型 Fable 5 Claude 产品设计编码agent 大模型

推荐理由：做产品设计和开发的团队值得关注——Fable 5不再是简单的编码工具，而是能主动思考、有品味的协作伙伴，看完你会重新定义AI在项目中的角色。

原文

13:35

Thinking Machines Lab@thinkymachines

Thinky Machines 推出了一款能像人类一样同时进行对话、聆听、观察、思考和协作的AI模型。该模型支持实时多模态交互，可同步处理语音、视觉和文本信息。团队分享了其设计理念、早期成果以及模型实际运行的演示视频。这标志着AI从单通道交互向类人实时多模态协作迈出重要一步。

AI模型多模态实时协作 AI模型交互设计 Thinky Machines

推荐理由：多模态实时协作是AI交互的下一个前沿，做对话系统或协作工具的团队值得关注这个新方向。

原文

13:23

Z.ai (智谱国际)@Zai_org

精选

GLM-5V-Turbo 技术报告发布，详细介绍了该模型在模型设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成方面的主要改进。这些改进使模型在多模态编程、视觉工具使用和基于框架的智能体任务中表现出色。该报告旨在推动原生多模态智能体基础模型的发展，为构建更强大的 AI 智能体提供技术基础。

AI模型 GLM-5V-Turbo 多模态智能体强化学习工具链技术报告

推荐理由：做多模态智能体开发的团队可以看看 GLM-5V-Turbo 在工具链和框架集成上的设计思路，尤其是视觉工具使用和多模态编程的强化学习方案，值得参考。

原文

13:15

Physical Intelligence@physical_int

精选

Physical Intelligence 开发了一种强化学习（RL）方法，用于在数小时甚至数分钟内微调其模型以执行精确任务。该方法不训练整个模型，而是向最新模型 π-0.6 添加一个“RL token”输出，由小型 actor 和 critic 网络使用，通过 RL 快速学习。这大幅降低了模型微调的时间和计算成本，适用于机器人等需要快速适应新任务的场景。该技术有望加速 AI 在物理世界中的应用部署。

AI模型强化学习微调 π-0.6 机器人 Physical Intelligence

推荐理由：Physical Intelligence 的 RL 微调方法解决了模型适应新任务耗时长的痛点，做机器人或物理 AI 的团队可以大幅缩短部署周期，值得关注。

原文

13:14

Physical Intelligence@physical_int

精选

Physical Intelligence 为其机器人模型开发了一套记忆系统，结合了短期视觉记忆和长期语义记忆。该系统使机器人能够执行复杂的长任务，如清理厨房或从头制作烤奶酪三明治。这一突破解决了机器人长期任务执行中的记忆瓶颈，提升了自主性和实用性。

AI模型机器人记忆系统 Physical Intelligence 长期任务视觉记忆

推荐理由：机器人团队终于有了实用的记忆方案——短期视觉+长期语义让机器人能完成厨房清理、做三明治等长任务，做机器人开发的建议点开看看。

原文

13:14

Physical Intelligence@physical_int

Physical Intelligence公司提出，通用AI模型已驱动许多数字应用，而类似π0.6的“物理智能层”将推动物理世界的新应用。该公司已与多家企业合作，部署机器人执行实际任务。π0.6模型旨在为机器人提供通用智能，使其能适应复杂物理环境。这一进展标志着AI从数字领域向物理世界的扩展，有望加速机器人商业化应用。

AI模型 π0.6 物理智能机器人通用模型 Physical Intelligence

推荐理由：Physical Intelligence的π0.6模型正在将AI能力从数字世界延伸到物理世界，做机器人或自动化应用的团队值得关注——它可能成为机器人通用智能的基础层。

原文

13:10

Guillaume Lample (Mistral)@GuillaumeLample

精选73°

Guillaume Lample 宣布推出首个语音模型 Voxtral TTS，该模型在性能上达到业界领先水平，同时大幅降低成本和延迟。它采用新架构，结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告，详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展，未来将有更多音频相关成果。

AI模型语音模型 TTS 低成本低延迟 Voxtral

推荐理由：Voxtral TTS 在成本和延迟上显著优于现有方案，做语音合成或实时语音应用的开发者可以直接关注，技术报告也值得细读。

原文

13:08

Guillaume Lample (Mistral)@GuillaumeLample

Mistral 发布了 Voxtral 2，包含两个新模型：Voxtral Realtime（实时转录，延迟可低于 200 毫秒，Apache 2 许可）和 Voxtral Mini Transcribe 2（支持说话人分离、词级时间戳和上下文偏置）。该模型支持 13 种语言，通过 Mistral API 提供，是市场上性价比最高的转录 API 之一。

AI模型 Mistral Voxtral 2 语音识别实时转录开源/仓库

推荐理由：做语音转录或实时字幕的开发者终于有了一个开源且低延迟的选择——Voxtral Realtime 的 Apache 2 许可和 sub-200ms 延迟值得一试。

原文

12:52

Artificial Analysis@ArtificialAnlys

精选

Ideogram 4.0 是 Ideogram 首个开放权重的模型，在开放权重文生图排行榜上位列第8。该模型支持 2K×2K 分辨率输出，具备强文本渲染、边界框布局控制和透明背景生成能力。它使用结构化 JSON 提示词来指定构图和场景元素，并通过提示词增强器将自然语言转换为结构化格式。在 API 方面，提供 Turbo、Default 和 Quality 三个档次，价格从每千张 30 美元到 100 美元不等。权重可免费下载用于评估和非商业用途，商业自托管需单独授权。

AI模型 Ideogram 4.0 开源/仓库文生图文本渲染布局控制

推荐理由：做图像生成或设计工具的开发者终于有了一个开源的高质量选择——Ideogram 4.0 的文本渲染和布局控制能力突出，且开放权重意味着可以本地部署和二次开发，值得关注。

原文

12:49

Artificial Analysis@ArtificialAnlys

88°

Anthropic 今日发布 Claude Fable 5，在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一，领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分，并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制，在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元，是 Opus 4.8 的两倍，但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。

AI模型 Claude Fable 5 Anthropic 推理模型智能体基准测试

推荐理由：Claude Fable 5 在多项智能和代理基准上碾压竞品，做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。

原文

12:49

John Schulman@johnschulman2

精选

OpenAI 研究员 John Schulman 指出，renderers（渲染器）是 LLM 栈的基础组件，负责在 token 和消息之间映射，使 API、数据集和 RL 环境能忽略 tokenizer 和格式细节。当前实现细节错误会导致训练-测试不匹配、缓存效率低下和提示注入漏洞。Schulman 在 Tinker Cookbook 中包含了 renderers 模块，但认为它应作为独立库标准化。这为 LLM 工具链的互操作性和安全性提供了关键改进方向。

AI模型 LLM 基础设施渲染器提示注入标准化 OpenAI

推荐理由：做 LLM 应用开发或工具链的团队，这个关于 renderers 标准化的讨论直接关系到你的 prompt 安全性和缓存效率，值得关注后续独立库的发布。

原文

12:48

Artificial Analysis@ArtificialAnlys

精选

HiDream 发布 O1-Image-1.5 模型，在 Artificial Analysis 文生图排行榜上位列第三，超越 Google 的 Nano Banana 2。该模型基于统一 Transformer（UiT）架构，将像素、文本和任务条件编码到同一共享 token 空间，无需分离文本编码器、VAE 和图像模型。它支持生成 2K 分辨率图像，质量接近 OpenAI 的 GPT Image 1.5 和 Gemini 3.1 Flash Image Preview。定价为每千张图像 80 美元，目前在 HiHarness 和 Vivago 平台可用。

AI模型文生图 HiDream 统一Transformer 排行榜 2K分辨率

推荐理由：HiDream 用统一 Transformer 架构简化了文生图流程，做图像生成或模型对比的开发者值得关注其性价比和效果。

原文

12:45

Artificial Analysis@ArtificialAnlys

83°

Anthropic 发布了 Claude Fable 5，这是首个公开可用的 Mythos 级模型，在代理型真实世界知识工作基准测试 GDPval-AA 中排名第一。该模型与 Claude Mythos 5 共享底层模型，但增加了针对网络安全、生物、化学和蒸馏相关有害查询的安全防护。Fable 5 还引入了回退机制，可将标记的查询路由到 Claude Opus 4.8 等第二模型。在 GDPval-AA 上，Fable 5 得分 1932，使 Anthropic 模型占据前四名中的三席。回退发生在不到 5% 的会话中，性能稳定。

AI模型 Claude Fable 5 Mythos 级模型代理型基准安全防护回退机制

推荐理由：做 AI 代理或知识工作自动化的团队值得关注——Claude Fable 5 在真实世界任务基准上登顶，且安全回退机制降低了误判风险，可以直接评估是否适合你的场景。

原文

12:44

John Schulman@johnschulman2

精选

Thinky 团队分享了全双工多模态模型的研究成果，该模型支持实时、自然的交互，同时不牺牲智能水平。创始人 John Schulman 指出，人机协作能力在 AI 领域常被低估，因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层，持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。

AI模型全双工多模态模型实时交互人机协作 Thinky

推荐理由：全双工交互解决了 AI 对话中“你说我听”的延迟感，做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。

原文

12:42

Sebastian Raschka@rasbt

精选

Nemotron 3 Ultra 是 NVIDIA 发布的新一代开源权重模型，延续了前代 Super 变体的 Mamba-2 注意力混合架构和 LatentMoE 设计，但规模更大。该模型在能力与效率之间取得了极佳平衡，性能表现令人印象深刻。开源权重意味着开发者可以自由下载、微调和部署，适合资源受限但追求高性能的场景。这一发布进一步丰富了开源大模型生态，为研究者和工程师提供了新的选择。

AI模型 Nemotron 3 Ultra Mamba-2 LatentMoE 开源/仓库 NVIDIA

推荐理由：NVIDIA 把 Mamba-2 混合架构和 LatentMoE 做到更大更强，追求高性价比模型的团队可以直接拿来用，省去从头训练的昂贵成本。

原文

12:42

Sebastian Raschka@rasbt

精选

Sebastian Raschka 分享了4个新加入开源权重、可在消费级硬件上运行的本地LLM模型。这些模型扩展了本地AI生态，让普通用户无需高端GPU即可运行大语言模型。具体模型包括一些轻量级但性能不错的选项，适合个人开发者和小团队。这一进展降低了AI应用的门槛，推动了去中心化AI的发展。

AI模型开源/仓库本地模型消费级硬件 LLM Sebastian Raschka

推荐理由：本地LLM生态又壮大了，做个人AI项目或隐私敏感应用的开发者可以直接关注，这些模型让消费级硬件跑大模型更现实了。

原文

12:39

Noam Brown (OpenAI 推理)@polynoamial

73°

OpenAI 的 GPT-5.5 模型在一项公开评测中取得了最高分。更令人关注的是，它在考虑 token 消耗、成本和实际运行时间后，依然保持最佳表现。这表明 GPT-5.5 不仅在能力上领先，在效率方面也具备显著优势。对于追求高性能与低成本平衡的开发者来说，这是一个重要信号。

AI模型 GPT-5.5 OpenAI 模型评测效率成本优化

推荐理由：GPT-5.5 在评测中不仅性能第一，还兼顾了 token 和成本效率，做模型选型的团队可以直接参考这个结果来优化预算。

原文

12:37

Black Forest Labs (FLUX)@bfl_ml

精选

Black Forest Labs 创始人 Andi Blatt 在斯坦福 CS153 课程中，与 Anjney Midha 对谈视觉生成模型的演进路径。他回顾了从 GANs 到扩散模型再到 FLUX 的技术跃迁，强调从不可控到一致、可控视觉输出的关键突破。Blatt 还指出“具备行动能力的视觉系统”是下一代 AI 的重要方向，意味着视觉模型不再只是生成图像，而是能理解并驱动交互。这场分享为理解当前视觉 AI 前沿提供了技术脉络和产业视角。

AI模型视觉生成 FLUX 扩散模型 GANs 斯坦福

推荐理由：Blatt 把视觉生成从 GANs 到 FLUX 的演进脉络讲透了，做图像生成或视觉 AI 的开发者能从中看到技术拐点，值得花 10 分钟听一下。

原文

12:35

Mark Chen (OpenAI 研究)@markchen90

83°

OpenAI 的一个模型成功推翻了 Erdős 长期未解的单位距离猜想，给出了一个优雅而复杂的证明，融合了代数数论与几何的深刻思想。数学成为 AI 研究突破最显著的领域，专家们愿意与 AI 生成的证明深度互动。OpenAI 强调目标并非取代人类，而是探索人类在强大 AI 时代仍能发挥重要作用的路径。团队计划与数学界合作，并将经验推广到编程和通用协作领域。

AI模型 OpenAI 推理模型数学证明代数数论 Erdős猜想

推荐理由：数学研究者或对 AI 推理能力感兴趣的人会震撼——OpenAI 模型解决了数论几何交叉的经典难题，证明过程优雅且可验证。建议点开看看 AI 如何用代数数论工具攻克几何猜想，这对理解 AI 在严谨科学中的潜力很有启发。

原文

12:35

Mark Chen (OpenAI 研究)@markchen90

英国 AI 安全研究所（UK AISI）发布了一项针对前沿模型的长时智能体能力评估，测试了模型在复杂、多步骤任务中的自主执行能力。结果显示，Claude 5.5 与 Mythos 在该评估中表现相似，均展现出较高的智能体能力。该评估强调了前沿模型在长期自主任务中可能带来的风险，但同时也指出通过有效的缓解措施，可以安全地部署这些模型供用户使用。这一测试对于理解模型在实际应用中的安全边界具有重要意义。

AI模型 Claude 5.5 Mythos 智能体 AI 安全长时任务

推荐理由：UK AISI 的这项评估直接关系到前沿模型的安全部署，做 AI 安全或智能体开发的团队值得关注——它揭示了长时任务中的真实风险，也展示了缓解措施的有效性。

原文

12:31

karminski-牙医 (AI工具)@karminski3

该模型新增多模态输入功能，支持文本、图片和视频等多种数据格式。这一更新显著扩展了模型的应用场景，使其能够处理更丰富的输入类型。对于需要综合处理多种媒体信息的用户来说，这是一个重要的功能升级。

AI模型多模态模型更新文本图片视频

推荐理由：多模态输入让模型能处理图片和视频，做内容分析或创意工作的团队可以直接用起来，效率提升明显。

原文

12:31

karminski-牙医 (AI工具)@karminski3

精选

Google发布了Gemma小模型的Diffusion版本，名为Diffusion Gemma，大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化，5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本，速度远快于传统逐字生成模型，但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平，在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

AI模型 Diffusion模型 Gemma Google NVIDIA 推理加速

推荐理由：Diffusion Gemma把文本生成速度拉到单卡700TPS，做实时对话或高吞吐推理的团队可以直接用，4bit量化16G显存就能跑，值得试试能否做投机解码的草稿模型。

原文

12:30

Mira Murati (TML)@miramurati

精选

OpenAI 宣布正在开发一种全新的交互模型，该模型从零开始训练，原生支持实时交互，而非像传统模型那样将实时功能附加到回合制模型上。这意味着模型可以更自然地处理对话中的打断、停顿和同时发言，提升交互流畅度。这一方向可能改变语音助手、客服机器人等实时对话场景的体验。目前该工作仍处于研究阶段，具体发布时间未定。

AI模型实时交互 OpenAI 语音助手对话模型交互模型

推荐理由：做语音交互或实时对话产品的团队值得关注——原生实时模型能解决当前 AI 对话中“等说完才能回应”的痛点，直接提升用户体验。

原文

12:20

Tri Dao (FlashAttention)@tri_dao

精选

WentaoGuo7 提出了一种对混合专家模型（MoE）反向传播的数学重写方法，显著降低了激活内存占用，并大幅提升了训练速度，尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性（如2CTA MMA和CLC）来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义，能有效缓解内存瓶颈并加速迭代。

AI模型 MoE 反向传播内存优化 Blackwell 加速

推荐理由：做MoE模型训练和推理的开发者，这个数学重写能直接降低你的显存压力并加速训练，尤其适合细粒度MoE场景，建议试试Blackwell新特性带来的性能提升。

原文

12:19

Tri Dao (FlashAttention)@tri_dao

精选

一位开发者宣布，快速 muon 优化器即将支持消费级显卡。所有代码均以 matmul + epilogue 形式编写，因此一旦为 Blackwell 消费级显卡实现了主循环，所有高级对称矩阵乘法即可自动获得光速性能。这意味着普通用户也能在自家显卡上高效运行该优化器，无需依赖专业硬件。

AI模型 muon优化器消费级显卡 Blackwell 矩阵乘法开源/仓库

推荐理由：这个优化器让消费级显卡也能跑出专业级训练性能，做模型微调或自训练的开发者可以直接关注，省下买高端硬件的钱。

原文

12:10

vLLM@vllm_project

精选73°

GoogleDeepMind 推出了 DiffusionGemma，这是一个基于 Gemma4 架构的 26B 参数扩散语言模型（dLLM），并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同，DiffusionGemma 能并行去噪 256 个 token 的块，在单张 H200（FP8）上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现，对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心，由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。

AI模型扩散语言模型 vLLM GoogleDeepMind 并行生成推理加速

推荐理由：DiffusionGemma 用并行去噪替代逐 token 生成，大幅提升推理速度，做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验，值得关注。

原文

12:05

Allen AI (Ai2)@allen_ai

精选

Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据，允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源，降低了进入门槛。

AI模型机器人开源/仓库基础模型微调 Allen AI

推荐理由：机器人开发者终于有了一个完全开源的基础模型可用，MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用，值得立即尝试。

原文

12:04

LMSYS Org (SGLang)@lmsysorg

精选

SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型，这是 Gemma 4 的文本扩散变体（26B A4B MoE）。与传统逐 token 解码不同，DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入（文本、图像、视频）输出文本、稀疏 MoE 架构（8/128 专家）以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。

AI模型 SGLang DiffusionGemma Gemma 4 文本扩散 MoE

推荐理由：文本扩散模型大幅提升生成效率，适合需要低延迟批量推理的 AI 应用开发者，建议立即在 SGLang 中体验。

原文

12:02

Black Forest Labs (FLUX)@bfl_ml

BFL 在 X 上分享了对视觉智能的愿景，指出通过联合训练视频、图像和音频，模型能获得对真实世界的物理级理解。这种通用视觉处理能力不仅会提升图像和视频生成质量，还能通过动作预测接入机器人，将人类学习方式映射到机器上。内容创作、视频和物理 AI 被视为解决基础视觉智能后的自然延伸。

AI模型视觉智能多模态 BFL 物理AI 内容创作

推荐理由：BFL 的视觉智能路线图揭示了多模态联合训练如何通向物理级世界理解，做内容生成、视频或机器人开发的团队值得关注这一方向。

原文