13:05Aran Komatsuzaki (论文推介)@arankomatsuzaki精选Aran Komatsuzaki 使用 Codex 的 /goal 命令,自动探索一些 20-50 年历史的未解猜想,运行 8 小时后已看到可发表的进展。他认为人们高估了“开放数十年”作为重要性的指标,很多旧问题只是无聊但难,而非真正重要。他主张加速近期研究方向,因为社区有共识和品味,而旧问题参与者少、门槛高。他的更强观点是:当前模型已能 95% 自动化地推动前沿,但领域人士保守、AI 人士不了解深层问题,导致这一能力被低估。AI产品Codex自动推理数学猜想AI 研究未解问题推荐理由:Aran 用 Codex 自动探索未解猜想 8 小时就看到了可发表进展,做自动推理或数学研究的开发者值得关注——这暗示了 AI 在数学前沿的潜力被严重低估,建议试试 Codex /goal 在自己的领域跑一跑。原文
13:02Aran Komatsuzaki (论文推介)@arankomatsuzaki一位用户在一天内消耗了 1.7B tokens 的 Codex(Pro 5x 套餐)和 80M tokens 的 Claude Code(Max 20x 套餐)。结果只有 Claude Code 发出了使用限制警告,而 Codex 没有。这揭示了不同 AI 编程助手在 token 配额和使用限制上的巨大差异,对重度用户来说,选择哪个工具可能直接影响工作流是否会被中断。AI产品CodexClaude CodeAI编程助手token配额使用限制推荐理由:这个对比直接暴露了 AI 编程助手在 token 配额上的真实差异,做自动化或大规模代码生成的开发者看完会重新评估自己的工具选择——别等到被限流才后悔。原文
13:02ARC Prize@arcprize精选Arc Prize联合创始人Francois Chollet与Polynoamial讨论AI领域对推理计算(inference compute)的普遍低估。他们认为,推理计算(模型在推理时消耗的计算资源)可能比训练计算更关键,是通往AGI的隐藏力量。同时,他们探讨了是否存在新的AGI测试方法,以及缺乏计算资源的学术界如何在AI竞争中保持竞争力。这场对话挑战了当前以训练规模为中心的AI发展范式。行业推理计算AGI学术界AI竞争Francois Chollet推荐理由:Chollet的洞见挑战了AI界对训练算力的迷信,做AI研究或关注AGI进展的开发者值得一看,可能会重新思考你的算力分配策略。原文
13:01Google Labs@GoogleLabsGoogle Labs 宣布 Project Genie 的访问权限进一步扩大,从今天起,全球的 Google AI Ultra 5X 订阅用户(最新订阅层级)可以体验 Project Genie。该项目是 Google 在 AI 领域的新尝试,旨在为用户提供更智能的交互体验。此次扩展意味着更多用户能够接触到这一前沿工具,标志着 Google 在 AI 服务普及上的重要一步。用户可通过提供的链接直接尝试。AI产品GoogleProject GenieAI Ultra 5X订阅服务全球扩展推荐理由:Project Genie 的全球扩展让更多 AI 订阅用户能直接体验 Google 的最新 AI 能力,如果你是 AI Ultra 5X 用户或关注 Google 生态,建议点开链接试试。原文
12:56Unitree 宇树@UnitreeRobotics宇树科技宣布与BitRobot Network、Lightwheel AI、新加坡理工大学以及DeepMind、Lightwheel等机构的专家合作,共同发起人形机器人IKEA组装挑战。该挑战旨在推动人形机器人在复杂操作任务(如家具组装)中的能力边界。合作方包括多位机器人领域知名研究者,如DeepMind的Jie Tan。这一挑战将测试人形机器人的移动与精细操作结合能力,对机器人实用化有重要意义。行业人形机器人操作挑战宇树科技DeepMindIKEA组装推荐理由:人形机器人从实验室走向真实场景的关键一步——IKEA组装挑战考验的是移动+精细操作的综合能力,做机器人研发的团队值得关注这个合作带来的技术突破。原文
12:55Amazon Science@AmazonScience精选亚马逊AWS宣布其Nitro隔离引擎(Nitro Isolation Engine)已在Graviton5实例上正式商用,成为首个部署在商业云中的形式化验证的虚拟机监控器。该引擎通过33万行机器检查的数学证明来确保安全隔离,消除了传统软件漏洞的风险。这一突破意味着云租户可以依赖数学保证而非仅靠测试来获得隔离安全性,对高安全需求的行业(如金融、医疗)尤为重要。AI产品形式化验证AWSGraviton5云安全虚拟机监控器推荐理由:形式化验证从学术走向商业云,做云安全或高合规性系统的团队值得关注——数学证明比测试更可靠,AWS已经把它落地了。原文
12:54Amazon Science@AmazonScience精选AWS 宣布其自研芯片 Graviton5 正式可用。该芯片采用四芯片架构,拥有 192 个核心,支持 DDR5-8800 内存和 PCIe Gen6。相比上一代 Graviton4,在通用计算和智能体 AI 工作负载上性能提升 25%。这标志着 AWS 在自研芯片领域的又一重要进展,为云端 AI 和通用计算提供了更强的基础设施选择。AI产品AWSGraviton5芯片云端计算AI 基础设施推荐理由:AWS 自研芯片的迭代直接关系到云端计算成本与性能,做 AI 推理或大规模部署的团队值得关注 Graviton5 的性价比提升。原文
12:52Unitree 宇树@UnitreeRobotics宇树科技展示了其G1机器人通过外部语音命令实时生成任意动作的能力。视频为现场单次录制,包含现场音频。由于动作由AI实时自主生成,存在轻微延迟且动作流畅度有所降低。这一技术展示了人机交互的新方式,使机器人能更灵活地响应人类指令。AI产品宇树科技G1机器人语音控制实时动作生成人机交互推荐理由:宇树G1的语音实时动作生成让机器人交互更自然,做机器人开发或人机交互研究的团队值得关注这一进展。原文
12:52Artificial Analysis@ArtificialAnlys精选Ideogram 4.0 是 Ideogram 首个开放权重的模型,在开放权重文生图排行榜上位列第8。该模型支持 2K×2K 分辨率输出,具备强文本渲染、边界框布局控制和透明背景生成能力。它使用结构化 JSON 提示词来指定构图和场景元素,并通过提示词增强器将自然语言转换为结构化格式。在 API 方面,提供 Turbo、Default 和 Quality 三个档次,价格从每千张 30 美元到 100 美元不等。权重可免费下载用于评估和非商业用途,商业自托管需单独授权。AI模型Ideogram 4.0开源/仓库文生图文本渲染布局控制2 个信源在谈推荐理由:做图像生成或设计工具的开发者终于有了一个开源的高质量选择——Ideogram 4.0 的文本渲染和布局控制能力突出,且开放权重意味着可以本地部署和二次开发,值得关注。原文
12:51John Schulman@johnschulman2精选OpenAI 联合创始人 John Schulman 在 X 上表示期待 Geoffrey Hinton 的新对齐组织。他特别提到 Hinton 2018 年关于 AI 安全辩论的论文是其最爱之一,认为该论文优雅地定义了可扩展监督问题,远超时代。这暗示 Hinton 可能正在组建新的 AI 安全研究团队,引发行业关注。行业AI 安全对齐Geoffrey HintonJohn Schulman可扩展监督10 个信源在谈推荐理由:Hinton 和 Schulman 两位 AI 安全重量级人物联手,关注 AI 对齐的从业者值得跟进这一动向。原文
12:50Artificial Analysis@ArtificialAnlys精选随着用户和企业赋予 AI 模型和智能体更多自主权,筛选其输入输出的护栏变得至关重要。然而,现有的护栏评测基准未能跟上模型智能的发展速度。与 NVIDIA 合作,该团队在三个开放数据集上独立评测了护栏与审核模型,衡量了检测质量、延迟以及捕捉不安全内容与过度拒绝安全内容之间的权衡。结果显示,没有模型能全面胜出,且缺乏统一的评判标准。这被视为一个测量问题的早期步骤,随着模型承担更多实际工作,该问题将愈发重要。行业AI 安全护栏评测NVIDIA模型审核智能体10 个信源在谈推荐理由:AI 安全护栏评测标准滞后,做模型部署和安全审核的团队需要关注这个评测缺口,建议点开了解当前护栏模型的真实表现。原文
12:49Artificial Analysis@ArtificialAnlys88°Anthropic 今日发布 Claude Fable 5,在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一,领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分,并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制,在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元,是 Opus 4.8 的两倍,但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。AI模型Claude Fable 5Anthropic推理模型智能体基准测试10 个信源在谈推荐理由:Claude Fable 5 在多项智能和代理基准上碾压竞品,做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。原文
12:49John Schulman@johnschulman2精选OpenAI 研究员 John Schulman 指出,renderers(渲染器)是 LLM 栈的基础组件,负责在 token 和消息之间映射,使 API、数据集和 RL 环境能忽略 tokenizer 和格式细节。当前实现细节错误会导致训练-测试不匹配、缓存效率低下和提示注入漏洞。Schulman 在 Tinker Cookbook 中包含了 renderers 模块,但认为它应作为独立库标准化。这为 LLM 工具链的互操作性和安全性提供了关键改进方向。AI模型LLM 基础设施渲染器提示注入标准化OpenAI10 个信源在谈推荐理由:做 LLM 应用开发或工具链的团队,这个关于 renderers 标准化的讨论直接关系到你的 prompt 安全性和缓存效率,值得关注后续独立库的发布。原文
12:48Artificial Analysis@ArtificialAnlys精选HiDream 发布 O1-Image-1.5 模型,在 Artificial Analysis 文生图排行榜上位列第三,超越 Google 的 Nano Banana 2。该模型基于统一 Transformer(UiT)架构,将像素、文本和任务条件编码到同一共享 token 空间,无需分离文本编码器、VAE 和图像模型。它支持生成 2K 分辨率图像,质量接近 OpenAI 的 GPT Image 1.5 和 Gemini 3.1 Flash Image Preview。定价为每千张图像 80 美元,目前在 HiHarness 和 Vivago 平台可用。AI模型文生图HiDream统一Transformer排行榜2K分辨率10 个信源在谈推荐理由:HiDream 用统一 Transformer 架构简化了文生图流程,做图像生成或模型对比的开发者值得关注其性价比和效果。原文
12:48John Schulman@johnschulman2OpenAI 联合创始人 John Schulman 宣布担任 AI 科学分析平台(链接未公开)的顾问。该平台利用 AI 帮助作者和审稿人进行比人类单独完成更深入、更彻底的分析。Schulman 认为这是 AI 在科学领域非常积极的发展方向。此举可能推动 AI 在学术评审和科研协作中的实际应用。AI产品AI 科学分析论文评审John Schulman科研协作AI 顾问10 个信源在谈推荐理由:AI 在科研评审中的落地案例来了——做学术写作或论文评审的团队值得关注,Schulman 的背书意味着这个方向有实质进展。原文
12:47Jerry Liu@jerryjliu0精选LlamaIndex创始人Jerry Liu指出,当前Agent通过MCP进行联邦搜索存在检索相关性差、速度慢、数据权重分配难、查询接口不统一等问题。他认为数据摄取、索引和检索层需要重大进步才能支撑Agent的复杂上下文获取。John Suh则提出公司应重建以统一时间线为基础的数据系统,整合可观测性、产品指标和文件变更,以实现AI驱动的100倍效率提升。行业AgentMCP/工具数据检索企业AILlamaIndex1 个信源在谈推荐理由:做Agent和RAG系统的开发者会看到当前架构的瓶颈在哪——MCP联邦搜索的检索相关性和速度问题亟待解决,而John Suh的“统一时间线”构想给企业数据基建提供了新方向,值得关注。原文
12:45Artificial Analysis@ArtificialAnlys83°Anthropic 发布了 Claude Fable 5,这是首个公开可用的 Mythos 级模型,在代理型真实世界知识工作基准测试 GDPval-AA 中排名第一。该模型与 Claude Mythos 5 共享底层模型,但增加了针对网络安全、生物、化学和蒸馏相关有害查询的安全防护。Fable 5 还引入了回退机制,可将标记的查询路由到 Claude Opus 4.8 等第二模型。在 GDPval-AA 上,Fable 5 得分 1932,使 Anthropic 模型占据前四名中的三席。回退发生在不到 5% 的会话中,性能稳定。AI模型Claude Fable 5Mythos 级模型代理型基准安全防护回退机制10 个信源在谈推荐理由:做 AI 代理或知识工作自动化的团队值得关注——Claude Fable 5 在真实世界任务基准上登顶,且安全回退机制降低了误判风险,可以直接评估是否适合你的场景。原文
12:44John Schulman@johnschulman2精选Thinky 团队分享了全双工多模态模型的研究成果,该模型支持实时、自然的交互,同时不牺牲智能水平。创始人 John Schulman 指出,人机协作能力在 AI 领域常被低估,因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层,持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。AI模型全双工多模态模型实时交互人机协作Thinky推荐理由:全双工交互解决了 AI 对话中“你说我听”的延迟感,做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。原文
12:42Sebastian Raschka@rasbt精选Nemotron 3 Ultra 是 NVIDIA 发布的新一代开源权重模型,延续了前代 Super 变体的 Mamba-2 注意力混合架构和 LatentMoE 设计,但规模更大。该模型在能力与效率之间取得了极佳平衡,性能表现令人印象深刻。开源权重意味着开发者可以自由下载、微调和部署,适合资源受限但追求高性能的场景。这一发布进一步丰富了开源大模型生态,为研究者和工程师提供了新的选择。AI模型Nemotron 3 UltraMamba-2LatentMoE开源/仓库NVIDIA10 个信源在谈推荐理由:NVIDIA 把 Mamba-2 混合架构和 LatentMoE 做到更大更强,追求高性价比模型的团队可以直接拿来用,省去从头训练的昂贵成本。原文
12:42Sebastian Raschka@rasbt精选Sebastian Raschka 分享了4个新加入开源权重、可在消费级硬件上运行的本地LLM模型。这些模型扩展了本地AI生态,让普通用户无需高端GPU即可运行大语言模型。具体模型包括一些轻量级但性能不错的选项,适合个人开发者和小团队。这一进展降低了AI应用的门槛,推动了去中心化AI的发展。AI模型开源/仓库本地模型消费级硬件LLMSebastian Raschka推荐理由:本地LLM生态又壮大了,做个人AI项目或隐私敏感应用的开发者可以直接关注,这些模型让消费级硬件跑大模型更现实了。原文
12:39Noam Brown (OpenAI 推理)@polynoamial73°OpenAI 的 GPT-5.5 模型在一项公开评测中取得了最高分。更令人关注的是,它在考虑 token 消耗、成本和实际运行时间后,依然保持最佳表现。这表明 GPT-5.5 不仅在能力上领先,在效率方面也具备显著优势。对于追求高性能与低成本平衡的开发者来说,这是一个重要信号。AI模型GPT-5.5OpenAI模型评测效率成本优化10 个信源在谈推荐理由:GPT-5.5 在评测中不仅性能第一,还兼顾了 token 和成本效率,做模型选型的团队可以直接参考这个结果来优化预算。原文
12:39Dylan Patel (SemiAnalysis)@dylan522p尽管 Anthropic 发布了 Mythos 5 和 Fable 5 模型,但 OpenAI 的使用份额在昨日反而增长。多位 SemiAnalysis 的重度用户在尝试 Mythos/Fable 时遭遇了无理由的拒绝,导致他们转向 Codex 并发现其优于 4.8 Opus。这一事件反映了用户对模型可用性和一致性的敏感度,以及模型发布后实际体验对市场份额的直接影响。行业OpenAIAnthropicMythos 5Fable 5市场份额10 个信源在谈推荐理由:模型发布后用户体验决定市场份额,做 AI 产品决策的团队值得关注——用户因拒绝而流失的案例再次验证了可用性的重要性。原文
12:38Dylan Patel (SemiAnalysis)@dylan522p该分析报告对 DeepSeek 推理系统在多种硬件平台上的性能进行了详细评估,包括 NVIDIA GB200 NVL72、Blackwell、AMD MI355X 以及华为的芯片。报告还提供了过去 44 天内每日性能随时间变化的追踪数据。这些数据对于理解不同硬件在 AI 推理任务中的实际表现和稳定性具有重要参考价值,尤其适合关注硬件选型和性能优化的 AI 工程师。行业DeepSeek推理性能GB200 NVL72BlackwellAMD MI355X华为硬件对比10 个信源在谈推荐理由:这份 44 天的性能追踪数据对做 AI 推理部署的团队很有价值,能直观对比 NVIDIA、AMD 和华为硬件的实际表现,建议点开看具体趋势。原文
12:37Black Forest Labs (FLUX)@bfl_mlBFL(Black Forest Labs)入选《福布斯》2025年AI 50榜单,表彰其在视觉智能领域的开源基础设施贡献。公司感谢研究人员和社区推动像素前沿,构建开放基础设施。该榜单旨在识别最具影响力的AI私营公司。BFL的入选凸显了其在视觉AI领域的领先地位。行业BFLForbes AI 50视觉智能开源基础设施AI榜单推荐理由:关注视觉AI基础设施的开发者可以看看BFL的入选理由——它证明了开源路线在商业榜单上也能获得认可,值得关注其后续动作。原文
12:37Black Forest Labs (FLUX)@bfl_ml精选Black Forest Labs 创始人 Andi Blatt 在斯坦福 CS153 课程中,与 Anjney Midha 对谈视觉生成模型的演进路径。他回顾了从 GANs 到扩散模型再到 FLUX 的技术跃迁,强调从不可控到一致、可控视觉输出的关键突破。Blatt 还指出“具备行动能力的视觉系统”是下一代 AI 的重要方向,意味着视觉模型不再只是生成图像,而是能理解并驱动交互。这场分享为理解当前视觉 AI 前沿提供了技术脉络和产业视角。AI模型视觉生成FLUX扩散模型GANs斯坦福推荐理由:Blatt 把视觉生成从 GANs 到 FLUX 的演进脉络讲透了,做图像生成或视觉 AI 的开发者能从中看到技术拐点,值得花 10 分钟听一下。原文
12:35Mark Chen (OpenAI 研究)@markchen9083°OpenAI 的一个模型成功推翻了 Erdős 长期未解的单位距离猜想,给出了一个优雅而复杂的证明,融合了代数数论与几何的深刻思想。数学成为 AI 研究突破最显著的领域,专家们愿意与 AI 生成的证明深度互动。OpenAI 强调目标并非取代人类,而是探索人类在强大 AI 时代仍能发挥重要作用的路径。团队计划与数学界合作,并将经验推广到编程和通用协作领域。AI模型OpenAI推理模型数学证明代数数论Erdős猜想8 个信源在谈推荐理由:数学研究者或对 AI 推理能力感兴趣的人会震撼——OpenAI 模型解决了数论几何交叉的经典难题,证明过程优雅且可验证。建议点开看看 AI 如何用代数数论工具攻克几何猜想,这对理解 AI 在严谨科学中的潜力很有启发。原文
12:35Mark Chen (OpenAI 研究)@markchen90英国 AI 安全研究所(UK AISI)发布了一项针对前沿模型的长时智能体能力评估,测试了模型在复杂、多步骤任务中的自主执行能力。结果显示,Claude 5.5 与 Mythos 在该评估中表现相似,均展现出较高的智能体能力。该评估强调了前沿模型在长期自主任务中可能带来的风险,但同时也指出通过有效的缓解措施,可以安全地部署这些模型供用户使用。这一测试对于理解模型在实际应用中的安全边界具有重要意义。AI模型Claude 5.5Mythos智能体AI 安全长时任务1 个信源在谈推荐理由:UK AISI 的这项评估直接关系到前沿模型的安全部署,做 AI 安全或智能体开发的团队值得关注——它揭示了长时任务中的真实风险,也展示了缓解措施的有效性。原文
12:34Geek@geekbbMarkMark 是一款专为 macOS 设计的原生 Markdown 阅读器,支持边阅读边批注,并可将审阅意见一键交给 AI 进行修订。该工具由开发者 easychen 发布在 GitHub 上,旨在提升 Markdown 文档的审阅和编辑效率。对于需要频繁审阅技术文档、博客或笔记的用户来说,MarkMark 提供了一种流畅的本地化解决方案。目前该项目已获得社区关注,适合 macOS 用户尝试。AI产品MarkdownmacOS批注工具AI修订开源/仓库3 个信源在谈推荐理由:写文档、审稿的 macOS 用户终于有了原生批注工具,批注完直接丢给 AI 改,省去手动复制粘贴的麻烦,值得下载体验。原文
12:34AI Will@FinanceYF5本文指出,为了让AI智能体或助手有效工作,它们需要被赋予与同岗位人类完全相同的工具权限,如手机号、信用卡和邮箱地址。这一观点强调了AI与人类协作时权限对等的重要性,是AI从辅助工具向自主智能体演进的关键一步。文章还列举了多家相关公司,包括AI助手和基础设施提供商,表明这一趋势正在被行业关注和推动。行业AI智能体工具权限人机协作基础设施行业趋势推荐理由:做AI智能体开发的团队需要正视权限对等这一核心问题,它直接决定了AI能否真正替代人类执行复杂任务。建议关注文中提到的Infra提供商,它们正在解决这个基础设施难题。原文
12:33AI Will@FinanceYF5此前 AI 公司难以基于 iMessage 开发,因苹果未公开 API。基础设施服务商通过部署真实手机号的苹果设备集群来绕过限制。如今苹果终于开放入口,上周 Poke 成为首个通过苹果商务信息服务审核的 AI 智能体。这意味着更多 AI 智能体将能合法接入 iMessage,为开发者带来新机会。AI产品苹果iMessageAI 智能体商务信息服务Poke推荐理由:苹果终于松口开放 iMessage 入口,做 AI 消息服务的团队可以直接接入,不用再绕道模拟设备,建议关注后续审核动态。原文
12:33Mira Murati (TML)@miramuratiMira Murati 在X上发文强调,协作AI的核心在于实时交互,机器与人需跨所有模态协同工作。她指出解决这一挑战需要社区共同努力,并邀请大家加入。这反映了AI发展从单机智能向人机协作生态的转变,强调多模态实时交互的重要性。行业协作AI实时交互多模态人机协作Mira Murati推荐理由:关注人机协作未来的开发者,这条信息点明了AI的下一个关键方向——实时多模态交互,值得思考如何参与其中。原文
12:32karminski-牙医 (AI工具)@karminski3精选一位开发者分享体感:模型编程能力的强弱,极度体现在代码直觉上,而这部分最难训练,需要海量开发经验堆砌。他以一个路网生成bug为例,GPT-5.5-pro-xhigh反复修不好,因为模型固有直觉认为每条边只需一个tile,而实际需要两个。即使多模态截图打脸也无用,最终开发者自己下场,让模型给tile编号并追问,才暴露问题。修复过程很简单:告诉模型每个tile对应单位长度,计算填充即可。不同模型在类似bug上表现差异巨大:有的上来就不犯错,有的迭代几次修好,有的怎么都修不好。技巧编程助手代码直觉模型能力bug修复开发经验推荐理由:这个案例戳中了AI编程的深层痛点——代码直觉比参数更重要,做复杂逻辑开发的团队看完会重新评估模型选择。原文
12:32karminski-牙医 (AI工具)@karminski3精选FlashMemory 论文提出一种神经内存索引器,能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB,且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段,按需加载 KVCache,实现注意力降噪。索引器采用解耦训练,无需加载基座模型,训练成本大幅降低。该技术对长文本推理场景具有重大意义,尤其适合资源受限的部署环境。论文FlashMemoryDeepSeekV4显存优化长上下文注意力降噪推荐理由:长文本推理的显存瓶颈被 FlashMemory 大幅缓解,做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法,效果甚至比原版更好。原文
12:31karminski-牙医 (AI工具)@karminski3该模型新增多模态输入功能,支持文本、图片和视频等多种数据格式。这一更新显著扩展了模型的应用场景,使其能够处理更丰富的输入类型。对于需要综合处理多种媒体信息的用户来说,这是一个重要的功能升级。AI模型多模态模型更新文本图片视频推荐理由:多模态输入让模型能处理图片和视频,做内容分析或创意工作的团队可以直接用起来,效率提升明显。原文
12:31karminski-牙医 (AI工具)@karminski3精选Google发布了Gemma小模型的Diffusion版本,名为Diffusion Gemma,大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化,5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本,速度远快于传统逐字生成模型,但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平,在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。AI模型Diffusion模型GemmaGoogleNVIDIA推理加速10 个信源在谈推荐理由:Diffusion Gemma把文本生成速度拉到单卡700TPS,做实时对话或高吞吐推理的团队可以直接用,4bit量化16G显存就能跑,值得试试能否做投机解码的草稿模型。原文
12:30karminski-牙医 (AI工具)@karminski3精选一位开发者分享使用经验,认为模型的 one-pass 能力(在较少思考下一次性正确输出)才是衡量 SOTA 的关键。如果模型需要依赖 agentic coding 来修复第一次犯的错,反而说明其能力不足。真正的 agentic coding 应解决工程量和运行时问题,而非静态检查就能发现的 bug。作者调侃,若 bug 不在 thinking 中修复而要在后续上下文中修复,可能是为了推销 coding plan。AI产品AI编程模型评估Agentic CodingOne-passSOTA推荐理由:这条观点戳中了 AI 编程中模型能力与工具使用的本质区别,做 AI 编程工具或评估模型的开发者看完会有感触——别再被 agentic coding 的噱头骗了。原文
12:30Mira Murati (TML)@miramurati精选OpenAI 宣布正在开发一种全新的交互模型,该模型从零开始训练,原生支持实时交互,而非像传统模型那样将实时功能附加到回合制模型上。这意味着模型可以更自然地处理对话中的打断、停顿和同时发言,提升交互流畅度。这一方向可能改变语音助手、客服机器人等实时对话场景的体验。目前该工作仍处于研究阶段,具体发布时间未定。AI模型实时交互OpenAI语音助手对话模型交互模型8 个信源在谈推荐理由:做语音交互或实时对话产品的团队值得关注——原生实时模型能解决当前 AI 对话中“等说完才能回应”的痛点,直接提升用户体验。原文
12:29Mira Murati (TML)@miramuratiThinking Machines 宣布欢迎 Workshop Labs 的创始人 Luke Drago 和 Rudolf L. 加入团队。两人此前创办 Workshop Labs,致力于打造让未来保持人性化的 AI。加入后,他们将延续这一使命,与 Thinking Machines 共同开发与人类协同思考、扩展人类能动性的强大 AI 系统。Thinking Machines 强调,从 Tinker 项目到研究资助再到前沿探索,所有工作都服务于同一个目标:让 AI 赋能人类文明。Luke 和 Rudolf 的加入进一步强化了这一方向。行业AI 伦理人类能动性Thinking MachinesWorkshop Labs人才流动推荐理由:两位创始人带着「AI 让人类更重要」的信念加入 Thinking Machines,关注 AI 伦理与人类能动性的从业者值得关注这家公司的下一步动作。原文
12:29Mira Murati (TML)@miramurati前 OpenAI CTO Mira Murati 在 X 上发文感谢 NVIDIA CEO Jensen Huang 及其团队的支持,宣布双方合作部署至少 1GW 的 Vera Rubin 系统。该系统旨在将可适应的协作 AI 带给每个人,标志着 AI 基础设施的大规模扩展。Vera Rubin 是 NVIDIA 下一代 AI 计算平台,此次合作将显著提升 AI 训练和推理能力。行业NVIDIAVera RubinAI 基础设施合作Mira Murati10 个信源在谈推荐理由:AI 基础设施的规模化部署是行业关键瓶颈,关注算力布局的团队和开发者值得了解这一合作动向。原文
12:28Mira Murati (TML)@miramuratiThinking Machines 宣布与 Barret Zoph 分道扬镳,同时任命 Soumith Chintala 为新任 CTO。Chintala 是 AI 领域资深领导者,曾为 PyTorch 等开源项目做出重要贡献,过去十年持续推动 AI 发展。此次人事变动标志着公司战略方向的调整,Chintala 的加入可能带来技术路线和团队管理上的新变化。关注 AI 基础设施和开源生态的从业者值得留意后续动态。行业Thinking MachinesSoumith ChintalaCTO 任命AI 基础设施人事变动推荐理由:AI 基础设施领域的关键人事变动,做深度学习框架或关注开源生态的开发者值得关注——Soumith Chintala 的 CTO 任命可能影响 Thinking Machines 的技术走向。原文