模型推理效率飙升，Claude Science助力科研

模型发布/更新

Model Releases

5 篇

ASPIRE：机器人技能库自我进化，实现10倍迁移学习效率提升

X·KOLX：Jim Fan (@jimfan)原文 ↗

Jim Fan团队发布ASPIRE，这是他们物理自研系列的第二项工作。ASPIRE让机器人构建一个自我进化的技能库，解决第100个任务时不再像第一个任务那样茫然。该方法通过编码代理观察模拟和真实机器人的多模态传感轨迹，对控制程序进行进化搜索，并将最佳知识提炼到不断扩展的库中。ASPIRE实现了约10倍的迁移学习token削减，相比传统从头重训练效率大幅提升。项目展示了超过90项技能和150+任务，代码将开源。

扩散模型在分子设计中的突破：前Llama负责人加入Genesis，PEARL零样本OpenBind获胜

X·KOLX：Latent Space (swyx) (@Brandon Anderson)原文 ↗

前Meta Llama负责人Evan Feinberg与Sergey Edunov创立Genesis Molecular AI，将扩散模型应用于药物发现。其模型PEARL在OpenBind基准上实现零样本分子对接，无需训练即可预测蛋白质-配体结合构象。同时，共折叠技术（co-folding）首次越过准确度阈值，使AI能同时预测分子与受体的三维结合状态。这标志着扩散模型在生物学领域超越了传统LLM的应用边界。

NVIDIA推出Nemotron-Labs-TwoTower：将30B模型拆二并行生成token

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA Research将30B参数的Nemotron-3-Nano-30B-A3B模型拆分为两半，一半维护上下文，一半生成token。该扩散语言模型仅复用预训练权重而非从头训练，在保持98.7%原始质量的同时实现了2.42倍的生成加速。这种方法将传统的自回归逐token生成改为并行写入，显著提升了推理效率。

OpenAI 推出 GeneBench-Pro 基准，专注生物学计算能力评估

官方IT之家原文 ↗

OpenAI 发布 GeneBench-Pro 基准测试，用于评估 AI 模型在生物学计算中的真实研究能力。该基准包含 129 道题目，覆盖基因组学、定量生物学等 10 大领域和 21 子领域。每道题提供接近真实科研环境的数据集，要求模型自主探索、选择分析方法并给出答案。OpenAI 采用合成数据避免评分偏差，确保模型真正理解问题而非走捷径。目前已在 Hugging Face 开源 10 道示例题，后续将开放 50 道题给 Artificial Analysis 第三方评测。

NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

NVIDIA 发布了 Nemotron-Labs-TwoTower，一个基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的离散扩散语言模型。该模型以开放权重形式提供，采用 NVIDIA Nemotron 开放模型许可证。其核心设计旨在解决自回归模型逐个 token 解码导致的吞吐量瓶颈。通过扩散过程并行生成，有望显著提升文本生成速度。

产品发布/更新

Product

5 篇

Anthropic 发布 Claude Science，面向科学家的 AI 工作台内置 60 多个科研技能

X·KOLX：小互 (@imxiaohu)原文 ↗

Anthropic 推出的 Claude Science 是一个本地或远程运行的科学 AI 工作台，内置 60 多个预配置技能和连接器，覆盖基因组学、单细胞、蛋白质组学等领域。它可连接 UniProt、PDB、Ensembl 等专业数据源以及期刊和预印本资源。Claude Science 能自主起草计算任务，经用户同意后提交到 HPC 集群或 Modal 云端 GPU，将分析从单块 GPU 扩展到数百块，且原始数据始终留在用户系统。该工具还内置审稿 agent，自动检查引用真实性、数字一致性和图表代码对应关系。

vLLM v0.24.0 发布：支持 MiniMax-M3 和 DeepSeek-V4

X·KOLX：vLLM (@vllm_project)原文 ↗

vLLM v0.24.0 发布，包含571次提交和256位贡献者（77位新贡献者）。新增 MiniMax-M3 模型支持，包括 FP8/MXFP4 精度和 AMD 调优。DeepSeek-V4 集成 FlashInfer 稀疏索引缓存和 prefill chunk-planning，并支持 SM120。Model Runner V2 默认处理量化模型，引入统一流式解析器引擎，支持工具调用与推理，另有 DiffusionGemma、DeepEP v2 和 Rust 前端更新。

Claude Science 科研工作台发布：集成60+数据库，本地可运行

X·KOLX：宝玉 (@dotey)原文 ↗

Anthropic 发布了 Claude Science，一个面向科学研究者的 AI 工作台，定位类似 Claude Code 在编程领域的角色。它使用现有 Claude 模型（包括 Opus 4.8），未专门训练生物学能力，但整合了 60 多个科学数据库和本地计算环境。Claude Science 支持 macOS 和 Linux，可通过 SSH 连接实验室集群，数据敏感部分可留在本地，计算量大时可调用 Modal 按需扩展至上百个 GPU。早期用户案例中，Gladstone 研究所用其在几天内搭建基因组浏览器，UCSF 团队用它发现了一年未解决的 RNA-seq 污染物。Claude Science 目前面向 Pro（20 美元/月）及以上付费用户公测，Anthropic 还将资助最多 50 个研究项目，每个最高 3 万美元。

SynthID 水印已覆盖超1000亿张图片与视频，开放文本水印技术

X·KOLX：Google AI (@GoogleAI)原文 ↗

Google DeepMind 于2023年推出的 SynthID 水印技术，最初用于图像，现支持视频、音频和文本。该技术已为超过1000亿张图片和视频以及6万小时音频添加水印。用户可通过 Google 搜索、Gemini 应用等验证内容，验证次数超过5000万。Google 还采用 C2PA 内容凭证标准，并开源了文本水印技术，与 OpenAI、NVIDIA、Apple 合作推广。

Claude Code v2.1.198：Chrome 扩展 GA，背景代理通知等功能更新

X·KOLX：Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Claude Code v2.1.198 发布，Claude in Chrome 扩展现已正式可用。新增背景代理通知，支持 agent_needs_input 和 agent_completed 钩子。新增 /dataviz 技能，提供图表和仪表盘设计指南及可运行的颜色调色板验证器。网关新增 Anthropic AWS (anthropicAws) 作为上游提供商。修复了中间网络断开导致任务中止的问题，临时错误会重试回退。

行业动态

Industry

5 篇

Meta大规模AI存储蓝图：应对指数级增长

官方Meta Engineering Blog原文 ↗

过去几年，模型能力和训练数据集规模呈指数级增长，前沿模型发布间隔从几个月缩短到几周。Meta分享了其为大规模AI训练设计的存储蓝图，强调可靠快速的存储对降低计算成本和加速训练至关重要。该方案涉及分布式文件系统与高性能硬件结合。

Anthropic 回应 Claude Code 暗藏检测中国用户代码，明日更新删除

官方IT之家原文 ↗

用户 LegitMichel777 逆向分析 Claude Code 2.1.196 版本时发现自 2.1.91 版本起内置检测中国用户的机制。该机制检查系统时区是否为 Asia/Shanghai 或 Asia/Urumqi，并匹配含 147 条域名的清单，包括百度、阿里巴巴、字节跳动、月之暗面等。检测结果通过替换日期格式和 Unicode 字符（U+2019、U+02BC、U+02B9）编码在系统提示词中，代码使用了密钥为“91”的 XOR 混淆。Anthropic 团队成员 Thariq Shihipar 回应称这是 2026 年 3 月上线的实验性措施，用于防止账户转售和模型蒸馏攻击，将在 7 月 2 日更新中删除。

OpenAI通过软件优化将推理成本减半

X·KOLX：@koltregaskes (@koltregaskes)原文 ↗

OpenAI近期通过纯软件优化将推理成本降低了约50%，工程师利用更好的批处理和KV-cache管理提升了GPU利用率。该优化已部署到ChatGPT的登录用户流量中，GPU需求降至仅数百块。部分人猜测这是通过量化实现，并可能关联到近期ChatGPT质量下降的投诉。

Content Independence Day 一周年：AI代理如何重塑网络经济

X·KOLX：Cloudflare Blog (@Emily Lanfear)原文 ↗

Cloudflare发布报告，回顾一年前推出Content Independence Day后的市场变化。报告指出，AI代理的兴起正在颠覆传统的搜索引荐模式，导致流量分配和收入来源发生根本性改变。为了应对这一趋势，Cloudflare提出了新基础设施需求，以支撑可持续的网络经济。数据显示，AI代理相关流量在过去一年增长了数倍，传统内容发布者需调整商业模式。

AI计算需求将全球电网推向极限

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

据Gartner报告，数据中心电力消耗激增26%，AI训练和推理是主要驱动因素。AI计算需求的快速增长给全球电网基础设施带来巨大压力。预计到2026年7月，电网可能达到极限。

论文研究

Research

5 篇

Random Reshuffling 理论证明首次超越随机梯度下降

X·KOLX：arXiv cs.LG (@Zijian Liu)原文 ↗

一篇论文证明了 Random Reshuffling（RR）在光滑凸优化中，对于任意合理的步长和有限轮次，其收敛速度均严格优于标准 SGD。此前理论认为 RR 的步长需小于 1/n 阈值才能收敛，导致其最优理论速率低于 SGD。新结果首次从数学上解决了这一长期悬而未决的问题。

替代保真度：开放模型何时能解释封闭模型？

X·KOLX：arXiv cs.LG (@Philippe Chlenski, Zachariah Carmichael, Ayush Warikoo, Chia-Tse Shao, Yingxiao Ye, Aobo Yang, Vivek Miglani, Nehal Bandi)原文 ↗

该论文研究使用开放语言模型（如Llama、Qwen）解释封闭API模型（如GPT、Gemini）时的可靠性问题。在11个模型上的实验表明，预测层面的保真度（log-odds一致性）远高于归因层面的保真度（leave-one-out重要性）。存在访问-效度反转：白盒信号（如注意力模式）虽稳定但无法预测因果归因，而黑盒输入消融能直接捕捉归因。论文警告，仅凭预测一致性不足以证明机械可解释性可从开放模型迁移到封闭模型。

SemRF：语言模型残差流动态的语义参考框架

X·KOLX：arXiv cs.LG (@Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang)原文 ↗

SemRF（语义参考框架）通过固定锚点将语义测量与残差动态分离，解决语言模型层间解码坐标不一致问题。伪逆绑定实现精确同步，在限制双可逆性下提供稳定语义基坐标和失真边界。该框架定义语义Voronoi图，将每层分配至粗粒度单元，并保留单元内的运动和边距。通过轨迹的曲率衡量知识密度，低曲率表示分段线性可压缩性和较低的语义复杂度。实验在控制接口误差和投影残差下给出理论保证。

校准而非编译：检测和修复语言模型编写的误指定概率程序

X·KOLX：arXiv cs.LG (@Jian Xu, Delu Zeng, John Paisley, Qibin Zhao)原文 ↗

该研究针对LLM编写的概率程序（NumPyro、Stan、Pyro），采用贝叶斯工作流（后验预测检查、模拟校准、采样器诊断R-hat/ESS）作为验证器。在14种误指定类型、10个模型族的200个实例上，校准方法检测AUC达0.97（2%假阳性率下召回率88%），而单元测试召回率为0%。修复方面，使用校准反馈的LLM修复循环使GPT-5.1通过率从33%升至92%，Claude从75%升至100%，单元测试反馈甚至比无反馈更差。对LLM从头编写的程序，15%-47%存在统计误指定且单元测试全部漏检，校准引导修复显著优于LLM-as-judge等方法。

ECHO: 选择性记忆框架解决智能体强化学习中的历史坍塌与可溯学习

X·KOLX：arXiv cs.LG (@Zijun Xie, Binbin Zheng, Enlei Gong, Jihua Liu, Yuyang You, Lingfeng Liu, Jiayao Tang, Guanqun Zhao, Aoqi Hu, Zeyu Chen)原文 ↗

ECHO通过源索引重建方法，将每个环境交互回合压缩为紧凑记忆记录，并从中选择构建策略上下文。该方法在BrowseComp-Plus基准上达到43.4%保留准确率，超越GRPO的28.9%和SUPO的36.1%，且使用更少回合和轨迹量。训练后的策略在多项问答、代码生成和深度信息检索任务中实现了零样本泛化提升。

技巧与观点

Tips & Takes

5 篇

136

今日事件

一手报道

新模型

信源

AITOP日报