20:13shao__meng@shao__meng73°Kimi 开源了最新编码模型 K2.7-Code,基于 K2.6 针对编程 Agent 专项优化,重点提升长链路编码任务成功率并减少推理 token。在编码基准上全面进步,其中 Kimi Code Bench v2 提升 21.8%,MLS Bench Lite 提升 31.5%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8 的 76.4,在多工具编排上具备竞争力。效率方面,推理 token 整体减少约 30%,Program Bench 的 token 消耗降低 42% 同时分数提升。模型支持强制 Thinking 模式、Preserve Thinking 和多模态输入,已在 Hugging Face 开源。AI模型KimiK2.7-Code编码模型AgentMCP/工具开源/仓库推荐理由:K2.7-Code 在 MCP 场景下超过 Opus 4.8,且推理 token 减少 30%,做编程 Agent 的团队可以直接用开源模型跑长任务,成本更低、成功率更高。原文
18:45IT之家(博客/媒体)月之暗面今日发布并开源 Kimi K2.7 Code 编程模型,相比 K2.6 在长上下文编程、指令遵循和长程任务性能上显著提升,平均 token 消耗减少 30%。内外部基准测试显示,代码能力提升 11%-31.5%,Agent 自主化执行能力提升约 10%。模型已通过 Kimi API 开放平台提供,价格与 K2.6 一致,并预告 6 月 15 日推出 5-6 倍输出速度的高速版,仅需 2 倍价格。非编程任务仍推荐使用 K2.6 模型。AI模型月之暗面Kimi K2.7 Code编程模型开源/仓库API5 个信源在谈推荐理由:Kimi K2.7 Code 在编程场景下 token 消耗降低 30%,做 AI 编程的开发者可以立刻通过 API 体验,高速版下周上线值得关注。原文
17:56shao__meng@shao__meng精选在华为开发者大会HDC 2026上,余承东宣布开源盘古模型全面升级,推出openPangu 2.0版本。该版本在性能、效率等方面进行了优化,具体改进细节尚未公布。余承东强调团队将保持领先,持续追赶行业前沿。AI模型openPangu华为盘古开源模型推荐理由:华为开源盘古2.0来了原文
17:01IT之家(博客/媒体)商汤科技开源了 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 模型,专为图文交错创作场景优化。该模型解决了多轮生成中角色形象飘移、画风断裂、图文脱节等痛点,支持绘本、故事书、多页 PPT 等连续内容创作。核心升级包括叙事连贯性与角色一致性提升、图文语义对齐增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已在 Hugging Face 开源,适合需要高质量图文内容生成的创作者和开发者。AI模型商汤SenseNova U1图文交错生成开源/仓库多模态模型推荐理由:做绘本、PPT 或教程的创作者终于不用反复修图了——这个模型能保持角色和画风从头到尾一致,直接生成多页内容,建议试试。原文
16:13marktechpost@Asif RazzaqZyphra 发布了 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构,在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比,Zamba2-VL 在保持竞争力的同时,将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展,尤其适合对延迟敏感的应用场景。AI模型视觉语言模型Mamba2Transformer开源/仓库低延迟推荐理由:做视觉语言模型部署或实时推理的开发者,Zamba2-VL 的首 token 延迟优势能显著提升用户体验,值得直接尝试。原文
15:56pandaily@contact@pandaily.com (Pandaily)在第八届BAAI大会上,图灵奖得主Whitfield Diffie和Andrew Barto分别发表主题演讲,共同关注AGI安全与对齐背后的基础理论挑战。Diffie指出当前AI系统缺乏可验证的安全机制,Barto则强调强化学习中的奖励设计难题。两位学者认为,AGI的安全问题不仅是工程问题,更是理论问题,需要从数学和哲学层面重新思考。这一讨论为AI安全研究提供了新的视角,提醒业界在追求能力提升的同时不能忽视理论基础。AI模型AGI安全图灵奖理论挑战对齐BAAI推荐理由:两位图灵奖得主同时敲响AGI安全理论警钟,做AI安全研究的团队值得关注——这可能是未来几年最核心的学术方向。原文
15:48marktechpost@Sana Hassan本文基于 MONAI 框架,构建了完整的 3D 医学图像分割流程,使用 Medical Segmentation Decathlon 的脾脏数据集。流程包括 CT 体素方向对齐、间距归一化、强度窗宽、前景裁剪和补丁采样等医学影像专用预处理,然后训练 3D UNet 模型。该教程提供了可复现的代码实现,适合医学影像 AI 开发者快速上手。AI模型MONAI3D UNet医学图像分割CT 体素端到端流程推荐理由:医学影像分割的端到端流程往往繁琐,MONAI 这套实现把预处理到训练串起来了,做 CT 分割的团队可以直接复用代码,省去踩坑时间。原文
15:07IT之家(博客/媒体)73°华为在 HDC 2026 上正式发布开源盘古 openPangu 2.0 模型,包含 Pro(505B 总参数/18B 激活)和 Flash(92B 总参数/6B 激活)两个版本,支持 512K 上下文。该模型针对昇腾算力优化,单卡吞吐率是业界主流开源模型的 2 倍,并适配鸿蒙系统,在 Agent 任务上更快更准更省。华为计划从 6 月 30 日起陆续开源 7 大组件,包括预训练代码、后训练代码和训练算子。余承东坦言,由于算力大量支持国内其他企业,华为自留算力有限,因此模型参数规模控制在 505B,更聚焦时延和吞吐率提升。AI模型华为盘古 2.0开源模型昇腾鸿蒙推荐理由:华为开源盘古 2.0 解决了国产大模型在昇腾生态下的部署效率问题,使用昇腾算力的开发者和企业可以直接受益,建议关注 6 月 30 日的开源组件发布。原文
14:46AI Will@FinanceYF573°Claude Fable 5 发布仅两天,社区已涌现出大量令人惊叹的案例,包括完整 App、3D 场景等此前难以实现的内容。有用户整理了 25 个典型案例,展示了该模型在创意生成和复杂任务上的突破性能力。这些案例表明,Fable 5 在交互式内容创作和实时生成方面达到了新高度,对开发者和创作者具有重要参考价值。AI模型Claude Fable 5案例合集创意生成3D场景App开发10 个信源在谈推荐理由:Claude Fable 5 两天就催生了 25 个疯狂案例,做创意应用或交互式内容的开发者值得一看,能直接激发你的下一个项目灵感。原文
14:43Philipp Schmid@_philschmidAgents' Last Exam (ALE) 是一个针对 AI 智能体的新基准测试,包含来自 55 个行业的 1000 多个真实专业任务,所有任务都源自实际专家工作,而非合成数据。测试结果显示,最佳智能体在最简单任务上得分低于 50%,在困难任务上低于 10%,最前沿模型在最高难度任务上通过率为 0%。模型选择对性能的影响大于工具链(harness),且增加 token 消耗并不能提升结果。智能体常见失败模式包括策略错误(47%)、领域知识缺失(31%)和执行错误(22%),且 34% 的任务需要 GUI 软件,但智能体倾向于回避并采用 CLI 变通方案。AI模型智能体基准测试ALE真实任务评估推荐理由:ALE 揭示了当前 AI 智能体在真实专业任务上的真实水平,做智能体开发或评估的团队值得关注——它可能是衡量 Agent 能力的最后一把尺子。原文
14:19AI Will@FinanceYF5Boris Cherny 评价 Fable 5 是自 Opus 4.5 以来最显著的模型升级。该模型从单纯的编码助手进化为产品构建中的思考和设计伙伴,具备判断力、品味和维度感。在调试任务中,Fable 5 展现出前所未有的系统性和精确性,会自动测量、添加日志并验证修复效果。Cherny 认为这种能力并非来自提示工程,而是模型本身的“人格”特质,带来了从未体验过的“大模型气息”。AI模型Fable 5编程助手推理模型智能体模型升级10 个信源在谈推荐理由:Fable 5 解决了 AI 编程从工具到伙伴的跃迁问题,做复杂产品开发的团队值得一试——它不再只是帮你写代码,而是能和你一起设计。原文
14:18AI Will@FinanceYF5TypeScript创始人Boris Cherny高度评价Fable 5,称其为自Opus 4.5以来最大的模型跨越。他指出,之前的Claude更像一个编码agent,而Fable 5已经进化为产品设计伙伴,具备判断力、品味和维度感。例如,在debug时,它会主动添加日志、验证修复,并确认问题真正解决后才宣布完成,而这些行为没有任何prompt要求。Cherny表示,这是第一次感受到“大模型的气息”,暗示模型开始展现出类似人类的主动性和性格。AI模型Fable 5Claude产品设计编码agent大模型10 个信源在谈推荐理由:做产品设计和开发的团队值得关注——Fable 5不再是简单的编码工具,而是能主动思考、有品味的协作伙伴,看完你会重新定义AI在项目中的角色。原文
13:35Thinking Machines Lab@thinkymachinesThinky Machines 推出了一款能像人类一样同时进行对话、聆听、观察、思考和协作的AI模型。该模型支持实时多模态交互,可同步处理语音、视觉和文本信息。团队分享了其设计理念、早期成果以及模型实际运行的演示视频。这标志着AI从单通道交互向类人实时多模态协作迈出重要一步。AI模型多模态实时协作AI模型交互设计Thinky Machines推荐理由:多模态实时协作是AI交互的下一个前沿,做对话系统或协作工具的团队值得关注这个新方向。原文
13:23Z.ai (智谱国际)@Zai_org精选GLM-5V-Turbo 技术报告发布,详细介绍了该模型在模型设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成方面的主要改进。这些改进使模型在多模态编程、视觉工具使用和基于框架的智能体任务中表现出色。该报告旨在推动原生多模态智能体基础模型的发展,为构建更强大的 AI 智能体提供技术基础。AI模型GLM-5V-Turbo多模态智能体强化学习工具链技术报告推荐理由:做多模态智能体开发的团队可以看看 GLM-5V-Turbo 在工具链和框架集成上的设计思路,尤其是视觉工具使用和多模态编程的强化学习方案,值得参考。原文
13:15Physical Intelligence@physical_int精选Physical Intelligence 开发了一种强化学习(RL)方法,用于在数小时甚至数分钟内微调其模型以执行精确任务。该方法不训练整个模型,而是向最新模型 π-0.6 添加一个“RL token”输出,由小型 actor 和 critic 网络使用,通过 RL 快速学习。这大幅降低了模型微调的时间和计算成本,适用于机器人等需要快速适应新任务的场景。该技术有望加速 AI 在物理世界中的应用部署。AI模型强化学习微调π-0.6机器人Physical Intelligence推荐理由:Physical Intelligence 的 RL 微调方法解决了模型适应新任务耗时长的痛点,做机器人或物理 AI 的团队可以大幅缩短部署周期,值得关注。原文
13:14Physical Intelligence@physical_int精选Physical Intelligence 为其机器人模型开发了一套记忆系统,结合了短期视觉记忆和长期语义记忆。该系统使机器人能够执行复杂的长任务,如清理厨房或从头制作烤奶酪三明治。这一突破解决了机器人长期任务执行中的记忆瓶颈,提升了自主性和实用性。AI模型机器人记忆系统Physical Intelligence长期任务视觉记忆推荐理由:机器人团队终于有了实用的记忆方案——短期视觉+长期语义让机器人能完成厨房清理、做三明治等长任务,做机器人开发的建议点开看看。原文
13:14Physical Intelligence@physical_intPhysical Intelligence公司提出,通用AI模型已驱动许多数字应用,而类似π0.6的“物理智能层”将推动物理世界的新应用。该公司已与多家企业合作,部署机器人执行实际任务。π0.6模型旨在为机器人提供通用智能,使其能适应复杂物理环境。这一进展标志着AI从数字领域向物理世界的扩展,有望加速机器人商业化应用。AI模型π0.6物理智能机器人通用模型Physical Intelligence推荐理由:Physical Intelligence的π0.6模型正在将AI能力从数字世界延伸到物理世界,做机器人或自动化应用的团队值得关注——它可能成为机器人通用智能的基础层。原文
13:10Guillaume Lample (Mistral)@GuillaumeLample精选73°Guillaume Lample 宣布推出首个语音模型 Voxtral TTS,该模型在性能上达到业界领先水平,同时大幅降低成本和延迟。它采用新架构,结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告,详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展,未来将有更多音频相关成果。AI模型语音模型TTS低成本低延迟Voxtral推荐理由:Voxtral TTS 在成本和延迟上显著优于现有方案,做语音合成或实时语音应用的开发者可以直接关注,技术报告也值得细读。原文
13:08Guillaume Lample (Mistral)@GuillaumeLampleMistral 发布了 Voxtral 2,包含两个新模型:Voxtral Realtime(实时转录,延迟可低于 200 毫秒,Apache 2 许可)和 Voxtral Mini Transcribe 2(支持说话人分离、词级时间戳和上下文偏置)。该模型支持 13 种语言,通过 Mistral API 提供,是市场上性价比最高的转录 API 之一。AI模型MistralVoxtral 2语音识别实时转录开源/仓库推荐理由:做语音转录或实时字幕的开发者终于有了一个开源且低延迟的选择——Voxtral Realtime 的 Apache 2 许可和 sub-200ms 延迟值得一试。原文
12:52Artificial Analysis@ArtificialAnlys精选Ideogram 4.0 是 Ideogram 首个开放权重的模型,在开放权重文生图排行榜上位列第8。该模型支持 2K×2K 分辨率输出,具备强文本渲染、边界框布局控制和透明背景生成能力。它使用结构化 JSON 提示词来指定构图和场景元素,并通过提示词增强器将自然语言转换为结构化格式。在 API 方面,提供 Turbo、Default 和 Quality 三个档次,价格从每千张 30 美元到 100 美元不等。权重可免费下载用于评估和非商业用途,商业自托管需单独授权。AI模型Ideogram 4.0开源/仓库文生图文本渲染布局控制2 个信源在谈推荐理由:做图像生成或设计工具的开发者终于有了一个开源的高质量选择——Ideogram 4.0 的文本渲染和布局控制能力突出,且开放权重意味着可以本地部署和二次开发,值得关注。原文
12:49Artificial Analysis@ArtificialAnlys88°Anthropic 今日发布 Claude Fable 5,在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一,领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分,并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制,在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元,是 Opus 4.8 的两倍,但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。AI模型Claude Fable 5Anthropic推理模型智能体基准测试10 个信源在谈推荐理由:Claude Fable 5 在多项智能和代理基准上碾压竞品,做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。原文
12:49John Schulman@johnschulman2精选OpenAI 研究员 John Schulman 指出,renderers(渲染器)是 LLM 栈的基础组件,负责在 token 和消息之间映射,使 API、数据集和 RL 环境能忽略 tokenizer 和格式细节。当前实现细节错误会导致训练-测试不匹配、缓存效率低下和提示注入漏洞。Schulman 在 Tinker Cookbook 中包含了 renderers 模块,但认为它应作为独立库标准化。这为 LLM 工具链的互操作性和安全性提供了关键改进方向。AI模型LLM 基础设施渲染器提示注入标准化OpenAI10 个信源在谈推荐理由:做 LLM 应用开发或工具链的团队,这个关于 renderers 标准化的讨论直接关系到你的 prompt 安全性和缓存效率,值得关注后续独立库的发布。原文
12:48Artificial Analysis@ArtificialAnlys精选HiDream 发布 O1-Image-1.5 模型,在 Artificial Analysis 文生图排行榜上位列第三,超越 Google 的 Nano Banana 2。该模型基于统一 Transformer(UiT)架构,将像素、文本和任务条件编码到同一共享 token 空间,无需分离文本编码器、VAE 和图像模型。它支持生成 2K 分辨率图像,质量接近 OpenAI 的 GPT Image 1.5 和 Gemini 3.1 Flash Image Preview。定价为每千张图像 80 美元,目前在 HiHarness 和 Vivago 平台可用。AI模型文生图HiDream统一Transformer排行榜2K分辨率10 个信源在谈推荐理由:HiDream 用统一 Transformer 架构简化了文生图流程,做图像生成或模型对比的开发者值得关注其性价比和效果。原文
12:45Artificial Analysis@ArtificialAnlys83°Anthropic 发布了 Claude Fable 5,这是首个公开可用的 Mythos 级模型,在代理型真实世界知识工作基准测试 GDPval-AA 中排名第一。该模型与 Claude Mythos 5 共享底层模型,但增加了针对网络安全、生物、化学和蒸馏相关有害查询的安全防护。Fable 5 还引入了回退机制,可将标记的查询路由到 Claude Opus 4.8 等第二模型。在 GDPval-AA 上,Fable 5 得分 1932,使 Anthropic 模型占据前四名中的三席。回退发生在不到 5% 的会话中,性能稳定。AI模型Claude Fable 5Mythos 级模型代理型基准安全防护回退机制10 个信源在谈推荐理由:做 AI 代理或知识工作自动化的团队值得关注——Claude Fable 5 在真实世界任务基准上登顶,且安全回退机制降低了误判风险,可以直接评估是否适合你的场景。原文
12:44John Schulman@johnschulman2精选Thinky 团队分享了全双工多模态模型的研究成果,该模型支持实时、自然的交互,同时不牺牲智能水平。创始人 John Schulman 指出,人机协作能力在 AI 领域常被低估,因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层,持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。AI模型全双工多模态模型实时交互人机协作Thinky推荐理由:全双工交互解决了 AI 对话中“你说我听”的延迟感,做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。原文
12:42Sebastian Raschka@rasbt精选Nemotron 3 Ultra 是 NVIDIA 发布的新一代开源权重模型,延续了前代 Super 变体的 Mamba-2 注意力混合架构和 LatentMoE 设计,但规模更大。该模型在能力与效率之间取得了极佳平衡,性能表现令人印象深刻。开源权重意味着开发者可以自由下载、微调和部署,适合资源受限但追求高性能的场景。这一发布进一步丰富了开源大模型生态,为研究者和工程师提供了新的选择。AI模型Nemotron 3 UltraMamba-2LatentMoE开源/仓库NVIDIA10 个信源在谈推荐理由:NVIDIA 把 Mamba-2 混合架构和 LatentMoE 做到更大更强,追求高性价比模型的团队可以直接拿来用,省去从头训练的昂贵成本。原文
12:42Sebastian Raschka@rasbt精选Sebastian Raschka 分享了4个新加入开源权重、可在消费级硬件上运行的本地LLM模型。这些模型扩展了本地AI生态,让普通用户无需高端GPU即可运行大语言模型。具体模型包括一些轻量级但性能不错的选项,适合个人开发者和小团队。这一进展降低了AI应用的门槛,推动了去中心化AI的发展。AI模型开源/仓库本地模型消费级硬件LLMSebastian Raschka推荐理由:本地LLM生态又壮大了,做个人AI项目或隐私敏感应用的开发者可以直接关注,这些模型让消费级硬件跑大模型更现实了。原文
12:39Noam Brown (OpenAI 推理)@polynoamial73°OpenAI 的 GPT-5.5 模型在一项公开评测中取得了最高分。更令人关注的是,它在考虑 token 消耗、成本和实际运行时间后,依然保持最佳表现。这表明 GPT-5.5 不仅在能力上领先,在效率方面也具备显著优势。对于追求高性能与低成本平衡的开发者来说,这是一个重要信号。AI模型GPT-5.5OpenAI模型评测效率成本优化10 个信源在谈推荐理由:GPT-5.5 在评测中不仅性能第一,还兼顾了 token 和成本效率,做模型选型的团队可以直接参考这个结果来优化预算。原文
12:37Black Forest Labs (FLUX)@bfl_ml精选Black Forest Labs 创始人 Andi Blatt 在斯坦福 CS153 课程中,与 Anjney Midha 对谈视觉生成模型的演进路径。他回顾了从 GANs 到扩散模型再到 FLUX 的技术跃迁,强调从不可控到一致、可控视觉输出的关键突破。Blatt 还指出“具备行动能力的视觉系统”是下一代 AI 的重要方向,意味着视觉模型不再只是生成图像,而是能理解并驱动交互。这场分享为理解当前视觉 AI 前沿提供了技术脉络和产业视角。AI模型视觉生成FLUX扩散模型GANs斯坦福推荐理由:Blatt 把视觉生成从 GANs 到 FLUX 的演进脉络讲透了,做图像生成或视觉 AI 的开发者能从中看到技术拐点,值得花 10 分钟听一下。原文
12:35Mark Chen (OpenAI 研究)@markchen9083°OpenAI 的一个模型成功推翻了 Erdős 长期未解的单位距离猜想,给出了一个优雅而复杂的证明,融合了代数数论与几何的深刻思想。数学成为 AI 研究突破最显著的领域,专家们愿意与 AI 生成的证明深度互动。OpenAI 强调目标并非取代人类,而是探索人类在强大 AI 时代仍能发挥重要作用的路径。团队计划与数学界合作,并将经验推广到编程和通用协作领域。AI模型OpenAI推理模型数学证明代数数论Erdős猜想8 个信源在谈推荐理由:数学研究者或对 AI 推理能力感兴趣的人会震撼——OpenAI 模型解决了数论几何交叉的经典难题,证明过程优雅且可验证。建议点开看看 AI 如何用代数数论工具攻克几何猜想,这对理解 AI 在严谨科学中的潜力很有启发。原文
12:35Mark Chen (OpenAI 研究)@markchen90英国 AI 安全研究所(UK AISI)发布了一项针对前沿模型的长时智能体能力评估,测试了模型在复杂、多步骤任务中的自主执行能力。结果显示,Claude 5.5 与 Mythos 在该评估中表现相似,均展现出较高的智能体能力。该评估强调了前沿模型在长期自主任务中可能带来的风险,但同时也指出通过有效的缓解措施,可以安全地部署这些模型供用户使用。这一测试对于理解模型在实际应用中的安全边界具有重要意义。AI模型Claude 5.5Mythos智能体AI 安全长时任务1 个信源在谈推荐理由:UK AISI 的这项评估直接关系到前沿模型的安全部署,做 AI 安全或智能体开发的团队值得关注——它揭示了长时任务中的真实风险,也展示了缓解措施的有效性。原文
12:31karminski-牙医 (AI工具)@karminski3该模型新增多模态输入功能,支持文本、图片和视频等多种数据格式。这一更新显著扩展了模型的应用场景,使其能够处理更丰富的输入类型。对于需要综合处理多种媒体信息的用户来说,这是一个重要的功能升级。AI模型多模态模型更新文本图片视频推荐理由:多模态输入让模型能处理图片和视频,做内容分析或创意工作的团队可以直接用起来,效率提升明显。原文
12:31karminski-牙医 (AI工具)@karminski3精选Google发布了Gemma小模型的Diffusion版本,名为Diffusion Gemma,大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化,5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本,速度远快于传统逐字生成模型,但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平,在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。AI模型Diffusion模型GemmaGoogleNVIDIA推理加速10 个信源在谈推荐理由:Diffusion Gemma把文本生成速度拉到单卡700TPS,做实时对话或高吞吐推理的团队可以直接用,4bit量化16G显存就能跑,值得试试能否做投机解码的草稿模型。原文
12:30Mira Murati (TML)@miramurati精选OpenAI 宣布正在开发一种全新的交互模型,该模型从零开始训练,原生支持实时交互,而非像传统模型那样将实时功能附加到回合制模型上。这意味着模型可以更自然地处理对话中的打断、停顿和同时发言,提升交互流畅度。这一方向可能改变语音助手、客服机器人等实时对话场景的体验。目前该工作仍处于研究阶段,具体发布时间未定。AI模型实时交互OpenAI语音助手对话模型交互模型8 个信源在谈推荐理由:做语音交互或实时对话产品的团队值得关注——原生实时模型能解决当前 AI 对话中“等说完才能回应”的痛点,直接提升用户体验。原文
12:20Tri Dao (FlashAttention)@tri_dao精选WentaoGuo7 提出了一种对混合专家模型(MoE)反向传播的数学重写方法,显著降低了激活内存占用,并大幅提升了训练速度,尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性(如2CTA MMA和CLC)来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义,能有效缓解内存瓶颈并加速迭代。AI模型MoE反向传播内存优化Blackwell加速10 个信源在谈推荐理由:做MoE模型训练和推理的开发者,这个数学重写能直接降低你的显存压力并加速训练,尤其适合细粒度MoE场景,建议试试Blackwell新特性带来的性能提升。原文
12:19Tri Dao (FlashAttention)@tri_dao精选一位开发者宣布,快速 muon 优化器即将支持消费级显卡。所有代码均以 matmul + epilogue 形式编写,因此一旦为 Blackwell 消费级显卡实现了主循环,所有高级对称矩阵乘法即可自动获得光速性能。这意味着普通用户也能在自家显卡上高效运行该优化器,无需依赖专业硬件。AI模型muon优化器消费级显卡Blackwell矩阵乘法开源/仓库推荐理由:这个优化器让消费级显卡也能跑出专业级训练性能,做模型微调或自训练的开发者可以直接关注,省下买高端硬件的钱。原文
12:10vLLM@vllm_project精选73°GoogleDeepMind 推出了 DiffusionGemma,这是一个基于 Gemma4 架构的 26B 参数扩散语言模型(dLLM),并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同,DiffusionGemma 能并行去噪 256 个 token 的块,在单张 H200(FP8)上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现,对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心,由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。AI模型扩散语言模型vLLMGoogleDeepMind并行生成推理加速10 个信源在谈推荐理由:DiffusionGemma 用并行去噪替代逐 token 生成,大幅提升推理速度,做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验,值得关注。原文
12:05Allen AI (Ai2)@allen_ai精选Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据,允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源,降低了进入门槛。AI模型机器人开源/仓库基础模型微调Allen AI推荐理由:机器人开发者终于有了一个完全开源的基础模型可用,MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用,值得立即尝试。原文
12:04LMSYS Org (SGLang)@lmsysorg精选SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型,这是 Gemma 4 的文本扩散变体(26B A4B MoE)。与传统逐 token 解码不同,DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入(文本、图像、视频)输出文本、稀疏 MoE 架构(8/128 专家)以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。AI模型SGLangDiffusionGemmaGemma 4文本扩散MoE7 个信源在谈推荐理由:文本扩散模型大幅提升生成效率,适合需要低延迟批量推理的 AI 应用开发者,建议立即在 SGLang 中体验。原文
12:02Black Forest Labs (FLUX)@bfl_mlBFL 在 X 上分享了对视觉智能的愿景,指出通过联合训练视频、图像和音频,模型能获得对真实世界的物理级理解。这种通用视觉处理能力不仅会提升图像和视频生成质量,还能通过动作预测接入机器人,将人类学习方式映射到机器上。内容创作、视频和物理 AI 被视为解决基础视觉智能后的自然延伸。AI模型视觉智能多模态BFL物理AI内容创作推荐理由:BFL 的视觉智能路线图揭示了多模态联合训练如何通向物理级世界理解,做内容生成、视频或机器人开发的团队值得关注这一方向。原文