VOL.2026.07.02·136 STORIES·AITOP DAILY

AITOP日报

二〇二六年七月二日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
5

ASPIRE:机器人技能库自我进化,实现10倍迁移学习效率提升

X·KOLX:Jim Fan (@jimfan)原文 ↗

Jim Fan团队发布ASPIRE,这是他们物理自研系列的第二项工作。ASPIRE让机器人构建一个自我进化的技能库,解决第100个任务时不再像第一个任务那样茫然。该方法通过编码代理观察模拟和真实机器人的多模态传感轨迹,对控制程序进行进化搜索,并将最佳知识提炼到不断扩展的库中。ASPIRE实现了约10倍的迁移学习token削减,相比传统从头重训练效率大幅提升。项目展示了超过90项技能和150+任务,代码将开源。

扩散模型在分子设计中的突破:前Llama负责人加入Genesis,PEARL零样本OpenBind获胜

X·KOLX:Latent Space (swyx) (@Brandon Anderson)原文 ↗

前Meta Llama负责人Evan Feinberg与Sergey Edunov创立Genesis Molecular AI,将扩散模型应用于药物发现。其模型PEARL在OpenBind基准上实现零样本分子对接,无需训练即可预测蛋白质-配体结合构象。同时,共折叠技术(co-folding)首次越过准确度阈值,使AI能同时预测分子与受体的三维结合状态。这标志着扩散模型在生物学领域超越了传统LLM的应用边界。

OpenAI 推出 GeneBench-Pro 基准,专注生物学计算能力评估

官方IT之家原文 ↗

OpenAI 发布 GeneBench-Pro 基准测试,用于评估 AI 模型在生物学计算中的真实研究能力。该基准包含 129 道题目,覆盖基因组学、定量生物学等 10 大领域和 21 子领域。每道题提供接近真实科研环境的数据集,要求模型自主探索、选择分析方法并给出答案。OpenAI 采用合成数据避免评分偏差,确保模型真正理解问题而非走捷径。目前已在 Hugging Face 开源 10 道示例题,后续将开放 50 道题给 Artificial Analysis 第三方评测。

02

产品发布/更新

Product
5

Anthropic 发布 Claude Science,面向科学家的 AI 工作台内置 60 多个科研技能

X·KOLX:小互 (@imxiaohu)原文 ↗

Anthropic 推出的 Claude Science 是一个本地或远程运行的科学 AI 工作台,内置 60 多个预配置技能和连接器,覆盖基因组学、单细胞、蛋白质组学等领域。它可连接 UniProt、PDB、Ensembl 等专业数据源以及期刊和预印本资源。Claude Science 能自主起草计算任务,经用户同意后提交到 HPC 集群或 Modal 云端 GPU,将分析从单块 GPU 扩展到数百块,且原始数据始终留在用户系统。该工具还内置审稿 agent,自动检查引用真实性、数字一致性和图表代码对应关系。

vLLM v0.24.0 发布:支持 MiniMax-M3 和 DeepSeek-V4

X·KOLX:vLLM (@vllm_project)原文 ↗

vLLM v0.24.0 发布,包含571次提交和256位贡献者(77位新贡献者)。新增 MiniMax-M3 模型支持,包括 FP8/MXFP4 精度和 AMD 调优。DeepSeek-V4 集成 FlashInfer 稀疏索引缓存和 prefill chunk-planning,并支持 SM120。Model Runner V2 默认处理量化模型,引入统一流式解析器引擎,支持工具调用与推理,另有 DiffusionGemma、DeepEP v2 和 Rust 前端更新。

Claude Science 科研工作台发布:集成60+数据库,本地可运行

X·KOLX:宝玉 (@dotey)原文 ↗

Anthropic 发布了 Claude Science,一个面向科学研究者的 AI 工作台,定位类似 Claude Code 在编程领域的角色。它使用现有 Claude 模型(包括 Opus 4.8),未专门训练生物学能力,但整合了 60 多个科学数据库和本地计算环境。Claude Science 支持 macOS 和 Linux,可通过 SSH 连接实验室集群,数据敏感部分可留在本地,计算量大时可调用 Modal 按需扩展至上百个 GPU。早期用户案例中,Gladstone 研究所用其在几天内搭建基因组浏览器,UCSF 团队用它发现了一年未解决的 RNA-seq 污染物。Claude Science 目前面向 Pro(20 美元/月)及以上付费用户公测,Anthropic 还将资助最多 50 个研究项目,每个最高 3 万美元。

SynthID 水印已覆盖超1000亿张图片与视频,开放文本水印技术

X·KOLX:Google AI (@GoogleAI)原文 ↗

Google DeepMind 于2023年推出的 SynthID 水印技术,最初用于图像,现支持视频、音频和文本。该技术已为超过1000亿张图片和视频以及6万小时音频添加水印。用户可通过 Google 搜索、Gemini 应用等验证内容,验证次数超过5000万。Google 还采用 C2PA 内容凭证标准,并开源了文本水印技术,与 OpenAI、NVIDIA、Apple 合作推广。

Claude Code v2.1.198:Chrome 扩展 GA,背景代理通知等功能更新

X·KOLX:Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Claude Code v2.1.198 发布,Claude in Chrome 扩展现已正式可用。新增背景代理通知,支持 agent_needs_input 和 agent_completed 钩子。新增 /dataviz 技能,提供图表和仪表盘设计指南及可运行的颜色调色板验证器。网关新增 Anthropic AWS (anthropicAws) 作为上游提供商。修复了中间网络断开导致任务中止的问题,临时错误会重试回退。

03

行业动态

Industry
5

Anthropic 回应 Claude Code 暗藏检测中国用户代码,明日更新删除

官方IT之家原文 ↗

用户 LegitMichel777 逆向分析 Claude Code 2.1.196 版本时发现自 2.1.91 版本起内置检测中国用户的机制。该机制检查系统时区是否为 Asia/Shanghai 或 Asia/Urumqi,并匹配含 147 条域名的清单,包括百度、阿里巴巴、字节跳动、月之暗面等。检测结果通过替换日期格式和 Unicode 字符(U+2019、U+02BC、U+02B9)编码在系统提示词中,代码使用了密钥为“91”的 XOR 混淆。Anthropic 团队成员 Thariq Shihipar 回应称这是 2026 年 3 月上线的实验性措施,用于防止账户转售和模型蒸馏攻击,将在 7 月 2 日更新中删除。

Content Independence Day 一周年:AI代理如何重塑网络经济

X·KOLX:Cloudflare Blog (@Emily Lanfear)原文 ↗

Cloudflare发布报告,回顾一年前推出Content Independence Day后的市场变化。报告指出,AI代理的兴起正在颠覆传统的搜索引荐模式,导致流量分配和收入来源发生根本性改变。为了应对这一趋势,Cloudflare提出了新基础设施需求,以支撑可持续的网络经济。数据显示,AI代理相关流量在过去一年增长了数倍,传统内容发布者需调整商业模式。

04

论文研究

Research
5

替代保真度:开放模型何时能解释封闭模型?

X·KOLX:arXiv cs.LG (@Philippe Chlenski, Zachariah Carmichael, Ayush Warikoo, Chia-Tse Shao, Yingxiao Ye, Aobo Yang, Vivek Miglani, Nehal Bandi)原文 ↗

该论文研究使用开放语言模型(如Llama、Qwen)解释封闭API模型(如GPT、Gemini)时的可靠性问题。在11个模型上的实验表明,预测层面的保真度(log-odds一致性)远高于归因层面的保真度(leave-one-out重要性)。存在访问-效度反转:白盒信号(如注意力模式)虽稳定但无法预测因果归因,而黑盒输入消融能直接捕捉归因。论文警告,仅凭预测一致性不足以证明机械可解释性可从开放模型迁移到封闭模型。

SemRF:语言模型残差流动态的语义参考框架

X·KOLX:arXiv cs.LG (@Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang)原文 ↗

SemRF(语义参考框架)通过固定锚点将语义测量与残差动态分离,解决语言模型层间解码坐标不一致问题。伪逆绑定实现精确同步,在限制双可逆性下提供稳定语义基坐标和失真边界。该框架定义语义Voronoi图,将每层分配至粗粒度单元,并保留单元内的运动和边距。通过轨迹的曲率衡量知识密度,低曲率表示分段线性可压缩性和较低的语义复杂度。实验在控制接口误差和投影残差下给出理论保证。

校准而非编译:检测和修复语言模型编写的误指定概率程序

X·KOLX:arXiv cs.LG (@Jian Xu, Delu Zeng, John Paisley, Qibin Zhao)原文 ↗

该研究针对LLM编写的概率程序(NumPyro、Stan、Pyro),采用贝叶斯工作流(后验预测检查、模拟校准、采样器诊断R-hat/ESS)作为验证器。在14种误指定类型、10个模型族的200个实例上,校准方法检测AUC达0.97(2%假阳性率下召回率88%),而单元测试召回率为0%。修复方面,使用校准反馈的LLM修复循环使GPT-5.1通过率从33%升至92%,Claude从75%升至100%,单元测试反馈甚至比无反馈更差。对LLM从头编写的程序,15%-47%存在统计误指定且单元测试全部漏检,校准引导修复显著优于LLM-as-judge等方法。

ECHO: 选择性记忆框架解决智能体强化学习中的历史坍塌与可溯学习

X·KOLX:arXiv cs.LG (@Zijun Xie, Binbin Zheng, Enlei Gong, Jihua Liu, Yuyang You, Lingfeng Liu, Jiayao Tang, Guanqun Zhao, Aoqi Hu, Zeyu Chen)原文 ↗

ECHO通过源索引重建方法,将每个环境交互回合压缩为紧凑记忆记录,并从中选择构建策略上下文。该方法在BrowseComp-Plus基准上达到43.4%保留准确率,超越GRPO的28.9%和SUPO的36.1%,且使用更少回合和轨迹量。训练后的策略在多项问答、代码生成和深度信息检索任务中实现了零样本泛化提升。

05

技巧与观点

Tips & Takes
5

在AWS上构建无服务器A2A网关实现代理发现、路由与访问控制

X·KOLX:AWS Machine Learning Blog (@Reilly Manton)原文 ↗

本教程介绍如何在AWS上构建一个无服务器A2A网关,将多个Agent部署在单一域名下,并通过路径路由(/agents/{agentId})进行访问。标准A2A客户端无需修改即可使用该网关。网关利用AWS Lambda、API Gateway和Amazon DynamoDB实现代理发现、路由和访问控制。该方法无需管理服务器,自动扩展,降低运维成本。

用Amazon Bedrock与Neptune实现神经生物学启发的HippoRAG

X·KOLX:AWS Machine Learning Blog (@Tanay Chowdhury)原文 ↗

HippoRAG是一种受神经生物学启发的检索增强生成方法,结合图数据库和个性化PageRank算法。文章展示了在AWS上使用Amazon Bedrock提供大语言模型能力,Amazon Neptune作为图数据库,Neptune Analytics运行个性化PageRank计算,以及Amazon Titan Embeddings生成向量表示。该实现面向企业级应用,可提升检索的精度与效率。

136
今日事件
47
一手报道
37
新模型
59
信源
AITOP · 编辑系统自动生成