VOL.2026.07.01·279 STORIES·AITOP DAILY

AITOP日报

二〇二六年七月一日 星期三DAILY · 每早八时
01

模型发布/更新

Model Releases
5

Agents-A1:35B MoE智能体模型在长视野任务上媲美万亿参数性能

X·KOLX:arXiv: DeepSeek (@Lei Bai, Zongsheng Cao, Yang Chen, Zhiyao Cui, Shangheng Du, Yue Fan, Shiyang Feng, Zijie Guo, Haonan He, Liang He, Xiaohan He, Shuyue Hu, Yusong Hu, Songtao Huang, Yichen Jiang, Hao Li, Xin Li, Dahua Lin, Weihao Lin, Fenghua Ling, Dongrui Liu, Zhuo Liu, Runmin Ma, Chunjiang Mu, Haoyang Peng, Tianshuo Peng, Jinxin Shi, Luohe Shi, Boyuan Sun, Zelin Tan, Shengji Tang, Qianyi Wang, Yiming Wu, Yi Xie, Xiangchao Yan, Jingqi Ye, Peng Ye, Fangchen Yu, Jiakang Yuan, Bihao Zhan, Bo Zhang, Chen Zhang, Shufei Zhang, Shuaiyu Zhang, Wenlong Zhang, Yiqun Zhang, Junpeng Zhao, Zhijie Zhong, Bowen Zhou, Yuhao Zhou)原文 ↗

Agents-A1是一个35B参数的Mixture-of-Experts智能体模型,通过扩展智能体视野(平均轨迹长度45K tokens)达到万亿参数级别性能。它在SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和MolBench-Bind(56.8)上超越了1T参数的Kimi-K2.6和DeepSeek-V4-pro,在SciCode(44.3)、HLE(47.6)和BrowseComp(75.5)上也具有竞争力。训练采用三阶段流程:全领域SFT、领域级教师模型、多教师领域路由在线蒸馏。

美团发布LongCat-2.0,1.6T参数MoE,零英伟达依赖国产加速卡训练

X·KOLX:shao__meng (@shao__meng)原文 ↗

美团发布LongCat-2.0,采用1.6T参数MoE架构,激活参数48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,全过程不依赖英伟达。模型在Terminal-Bench 2.1上得70.8,SWE-bench Pro 59.5(超过GPT-5.5的58.6)。其稀疏注意力与跨层索引技术支撑长上下文,并自研底层算子弥补国产芯片短板。LongCat-2.0定位Agent与编程任务,已在OpenRouter上提供预览。

Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8:智能体编码与定价对比

X·KOLX:marktechpost (@Asif Razzaq)原文 ↗

Anthropic 发布 Claude Sonnet 5,在智能体编码基准上缩小了与 Opus 4.8 的差距。Sonnet 5 沿用 Sonnet 系列的定价,成本低于 Opus 系列。与上一代 Sonnet 4.6 相比,Sonnet 5 在多项智能体任务上表现提升。API 定价方面,Sonnet 5 每百万 tokens 输入约 3 美元、输出约 15 美元,Opus 4.8 则分别约 15 美元、75 美元。

VLK: 通过合成交互学习人形机器人操作

X·KOLX:arXiv cs.AI (@Yen-Jen Wang, Jiaman Li, Sirui Chen, Takara E. Truong, Pei Xu, Pieter Abbeel, Rocky Duan, Koushil Sreenath, Angjoo Kanazawa, Carmelo Sferrazza, Guanya Shi, Karen Liu)原文 ↗

VLK提出利用3D高斯溅射(3D Gaussian Splatting)重建度量级室内场景,并合成导航与物体交互轨迹,生成48,000个配对视觉-语言-运动学(VLK)数据,无需人工干预。训练出的VLK策略能够预测短时全身运动轨迹,并通过全身跟踪器将预测转化为实际动作。在物理Unitree G1人形机器人上,该方法成功完成导航和单物体运输任务,实现了从模拟到真实的感知驱动操作。

ASPIRE:让机器人技能库自我进化无限累积

X·KOLX:Jim Fan (@jimfan)原文 ↗

ASPIRE 是斯坦福团队提出的新型机器人持续学习方法。它通过编码智能体观察仿真与真实机器人的多模态感官痕迹,对控制程序进行进化搜索,并将最佳技能提炼到不断扩展的库中。ASPIRE 实现了约 10 倍的迁移学习计算令牌节省,且开源完整代码。机器人在真实世界中学习 100 个任务后不会像第一次那样迷茫,技能库可无限累积。

02

产品发布/更新

Product
5

Anthropic 发布 Claude Science:面向科研者的 AI 工作台

X·KOLX:宝玉 (@dotey)原文 ↗

Anthropic 今天发布了 Claude Science,一个面向科学研究者的 AI 工作台,定位类似 Claude Code 在软件开发中的作用。它不是新模型,仍使用现有 Claude 模型(包括 Opus 4.8),但整合了60多个科学数据库,涵盖基因组学、单细胞分析等领域。该工具支持通过 Agent 调用数据库、生成子任务,并配备审查 Agent 检查引用和计算结果。它提供可复现性,每张图表附带完整代码、运行环境和对话记录,支持本地运算或通过 SSH 连接高性能计算集群。早期用户案例包括 Gladstone 研究所几天内搭建基因组浏览器,以及 UCSF 用其发现RNA-seq数据中的病毒污染物。

Meta推Vistara芯片方案:复用拆机DDR4内存,AI推理服务器最多减25%

官方IT之家原文 ↗

Meta在ISCA 2026大会发布自研Vistara定制芯片方案,通过CXL 2.0/1.1规范桥接DDR4和DDR5内存。每台MemServer配备1颗AMD Turin处理器(158核心、316线程)和256 GB DDR4内存。该方案已在数百万台服务器部署,用于分离式机器学习推理、大数据处理等场景。测试显示,分离式机器学习推理服务器数量最多减少25%,分布式缓存平均延迟降低29%。

shot-scraper 1.10 发布 video 命令,让智能体录制操作视频

官方Simon Willison’s Weblog原文 ↗

shot-scraper 1.10 新增 video 命令,接受 storyboard.yml 文件定义操作步骤,使用 Playwright 录制 Web 应用的视频演示。作者提供示例:配置将 CSV/TSV/JSON 数据批量插入 Datasette 新表的操作流程,并生成 mp4 视频。storyboard 文件支持定义服务器启动、视口大小、光标显示、剪贴板模拟及多场景的点击、填写、等待等动作。该工具旨在让编程智能体自动生成工作演示视频。

MFS 为 Agent 补全 IM 之外的工作上下文

X·KOLX:Milvus (@milvusio)原文 ↗

团队发现,同一个 Agent 放在 IM 中比放在终端或独立 Web 应用中使用率更高、答案更好,因为 IM 自带问题、人员、历史决策、链接、截图等上下文。但答案往往还依赖代码、设计文档、GitHub issue、数据库记录等外部来源。MFS 将这些来源映射为稳定的文件路径,让 Agent 能像工程师一样先定位再查询,最终将对话、团队知识与外部工具统一为可搜索的上下文层。该项目已在 GitHub 开源。

03

行业动态

Industry
5

英伟达在华启动机器人人才招聘,聚焦具身智能等四大方向

官方IT之家原文 ↗

英伟达近日在中国启动机器人人才招聘,围绕具身智能、仿真、部署、解决方案架构四大方向开放16个岗位,工作地点包括北京、上海、深圳。其中具身智能团队岗位最多(6个),重点研发灵巧操作、全身移动操作等前沿技术。仿真方向围绕Isaac Sim、Isaac Lab构建训练基础设施,涵盖大规模强化学习与Sim-to-Real迁移。部署方向聚焦人形机器人的算法优化与真机落地,探索LLM与策略模型协同。解决方案架构方向负责AI计算平台设计,解决LLM推理与训练加速问题。英伟达近期还推出与宇树科技合作的人形机器人参考设计H2+,拥有31个自由度。

Claude Code 被指在系统提示词里用 Unicode 字符给中国代理用户打水印

X·KOLX:宝玉 (@dotey)原文 ↗

安全研究员 Adnane Khan 逆向分析 Claude Code v2.1.193 到 v2.1.196 版本后,指控该工具会在系统提示词中嵌入肉眼不可见的 Unicode 字符差异,用于标记通过中国代理服务器访问的用户。检查条件包括:代理域名是否在包含 147 个条目的 XOR-91 编码列表中(涵盖百度、阿里、字节跳动、Moonshot AI 等),以及系统时区是否为 Asia/Shanghai 或 Asia/Urumqi。标记方式有两种:日期分隔符从短横线改为斜杠,以及将“Today's”中的撇号替换为四种不同的 Unicode 字符(U+2019、U+02BC、U+02B9)以编码不同状态。该机制仅在用户设置了 ANTHROPIC_BASE_URL 环境变量时触发,不影响通过官方 api.anthropic.com 使用的用户。报告指出,这种隐蔽信道虽然不发送额外网络请求,但未公开且误伤大量合法用途用户。

Anthropic 提出“compute multipliers”,OpenAI 发现可减半推理成本

X·KOLX:The Rundown AI (@therundownai)原文 ↗

Anthropic CEO Dario Amodei 将“compute multipliers”定义为AI领域高度保密的效率提升方法,并限制公司内部知情人数以防止泄露给竞争对手。The Information 报道,OpenAI 已发现一个可将其推理成本减半的 compute multiplier。同时,OpenAI 近期与 Broadcom 合作推出了自研 Jalapeño 芯片,旨在进一步提升推理效率并降低成本。

TrendForce:AI产能排挤与减产,晶圆代工成熟制程涨价或至2027年

官方IT之家原文 ↗

TrendForce报告指出,AI服务器与Edge AI需求升温,晶圆代工产能向AI倾斜,八英寸制程受惠于AI相关Power订单及台积电、三星电子减产,产能利用率与价格拉升。十二英寸成熟制程因台积电减产、55nm以上Power IC订单强劲及AI应用排挤,代工价格已出现5-10%调涨意向,并预期涨势延伸至2027年。消费电子因零部件涨价面临成本压力,但原物料通膨与大厂减产使2027年涨价难以避免。

04

论文研究

Research
5

DOPD:双重同策略蒸馏方法提出,解决特权幻觉问题

X·KOLX:arXiv cs.AI (@Xinlei Yu, Gen Li, Qingyi Si, Guibin Zhang, Yuqi Xu, Congcong Wang, Shuai Dong, Kaiwen Tuo, Xiangyu Zeng, Kaituo Feng, Qunzhong Wang, Yang Shi, Xiaobin Hu, Xiangyu Yue, Jiaqi Wang, Shuicheng Yan)原文 ↗

DOPD是一种advantage-aware的双重蒸馏范式,通过动态路由令牌级监督信号,在特权教师和特权学生策略之间进行分配,缓解了传统同策略蒸馏中的特权幻觉问题。实验在LLM(如GPT-2)和VLM(如CLIP)上验证,结果显示DOPD在稳定性和鲁棒性等指标上持续优于Vanilla OPD。

组合函数树的PAC可学习性:科学发现的样本复杂度

X·KOLX:arXiv cs.LG (@Şuayp Talha Kocabay, Talha Rüzgar Akkuş, Kerem Yalçın)原文 ↗

论文证明组合函数树的Rademacher复杂度不随符号结构数量指数增长,而是受深度d和基算子Lipschitz常数控制。具体界为ℜ_n(ℋ_comp^d) ≤ (Kb√2L)^{d-1}ℜ_n(ℋ_comp^1),其中K为算子库大小、b为元数。当K,b=O(1)时,高概率风险界为O(L^d/√n)。实验在合成物理类目标上验证了理论预测。

LLM Agent记忆中毒检测的取证轨迹签名

X·KOLX:arXiv cs.LG (@Jun Wen Leong)原文 ↗

研究发现LLM Agent在持续记忆中毒攻击下存在行为不变性:成功攻击必须调用memory_recall_fact后再调用email_send_email。仅凭该规则的检测AUC达0.9563,基于19个轨迹特征的随机森林分类器将AUC提升至0.9904(BCa 95% CI [0.987, 0.993])。跨9个模型(7B-120B参数)验证,6/9的留出测试AUC为1.000。该签名可泛化至GPT-4.1和GPT-4o等前沿模型,无需重新训练。通过工具调用日志即可区分记忆通道攻击与提示注入攻击。

优化动力学揭示对比嵌入范数中的语义特异性印记

X·KOLX:arXiv cs.AI (@Ziwei Su, Junyu Ren, Victor Veitch)原文 ↗

该论文研究了对比嵌入模型中,尽管训练损失是尺度不变的且通常使用余弦相似度,但嵌入向量的范数(norm)却意外地与概念特异性、词频和人类不确定性等语义属性相关。作者通过分析优化动力学,推导出一个解析公式,证明嵌入长度作为训练过程的副产品自然地编码了这些信息。研究还展示了这种信号如何在特定模型和检索任务中作为“免费”校准工具使用,为之前仅基于经验的观察提供了理论解释。

05

技巧与观点

Tips & Takes
3
279
今日事件
66
一手报道
63
新模型
83
信源
AITOP · 编辑系统自动生成