AITOP 日报｜2026年7月4日｜英伟达开源双塔AI，阿里发现超导材料

模型发布/更新

Model Releases

5 篇

PAW编程范式：4B编译器生成适配器，0.6B模型匹敌32B

X·KOLX：arXiv cs.AI (@Wentao Zhang, Liliana Hotsko, Woojeong Kim, Pengyu Nie, Stuart Shieber, Yuntian Deng)原文 ↗

PAW（Program-as-Weights）提出一种模糊函数编程范式，将自然语言规范编译为紧凑的本地可执行神经构件。一个4B编译器在FuzzyBench（1000万示例）上训练，为冻结的0.6B Qwen3解释器生成参数高效适配器。该解释器执行PAW程序，性能匹配直接提示Qwen3-32B，但推理内存仅为其1/50，在MacBook M3上达30 tokens/s。PAW将基础模型从逐输入求解器转变为可复用小工具构建器。

可控模拟代理的行为潜变量：CNeVA框架

X·KOLX：arXiv cs.LG (@Juanwu Lu, Junyu Zhu, Ziran Wang)原文 ↗

论文提出可控神经变分代理（CNeVA），通过闭合形式共轭变分更新从逐通道折扣回报推断每个代理的高斯行为潜变量。采用混合通道掩码课程训练整流流轨迹生成器，实现无分类器引导。在Waymo Open Motion数据集上，CNeVA达到竞争性真实感，同时暴露逐通道可控性——这是排名更高的模仿模型所缺乏的。基于速度和加速度的操控产生单调响应，且引入软资格门（soft eligibility gates）后安全性操控显著且单调。实验表明，必须将操控指标与物理合理性护栏结合阅读，以避免奖励黑客混杂。

阿里Qwen3-Omni实时语音推理优化：首音延迟降至0.6秒

X·KOLX：vLLM (@vllm_project)原文 ↗

Qwen3-Omni采用多模态Thinker与Talker（Code2Wav）流水线架构。高并发下仅复制语音阶段，复用Thinker结果，首音频延迟从约6秒降至0.6秒。吞吐量在同GPU上提升5.4倍，语音生成快于实时。该优化由阿里、蚂蚁集团SCT团队和vLLM-Omni团队共同实现。

WattGPU：预测未见过GPU和LLM的推理功耗与延迟

X·KOLX：arXiv cs.LG (@Mauricio Fadel Argerich, Jonathan Fürst, Marta Patiño-Martínez)原文 ↗

WattGPU提出了两个预测模型，分别用于平均GPU功耗和令牌间延迟（ITL），仅利用公开的LLM元数据和GPU规格，无需硬件访问或预配置。在42个开源LLM（0.1B-27B参数）和8个GPU的数据集上，通过留一GPU和留一LLM交叉验证，功耗模型在离线场景下中位数绝对百分比误差≤3.4%，服务器场景下≤13.5%；延迟模型在服务器模式下≤8.5%，且GPU排名相关性Kendall τ≥0.76。与基于功耗的热设计功率（TDP）和基于延迟的roofline基线相比，WattGPU在未见过LLM-GPU组合上误差降低约4倍，在完全未见过GPU上降低约2倍。

OrbitQuant：无需校准数据的扩散Transformer量化方法

X·KOLX：arXiv cs.AI (@Donghyun Lee, Jitesh Chavan, Duy Nguyen, Sam Huang, Liming Jiang, Priyadarshini Panda, Timo Mertens, Saurabh Shukla)原文 ↗

OrbitQuant提出一种数据无关的权重量化方案，通过随机置换块Hadamard（RPBH）旋转将激活值变换到归一化旋转基，使各坐标分布固定无需重新拟合校准数据。在FLUX.1、Z-Image-Turbo、Wan 2.1、CogVideoX四个模型上，该方法在多个低位宽设定下达到后训练量化（PTQ）最佳效果，并将图像扩散Transformer的PTQ推进到W2A4可用质量。同一量化器可直接从图像迁移到视频，无需针对每种模态调整。

产品发布/更新

Product

5 篇

Claude Code v2.1.200 发布，修复多项后台代理与 MCP 问题

X·KOLX：Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Claude Code v2.1.200 更改了 AskUserQuestion 对话框默认不再自动继续，用户可通过 /config 开启空闲超时。默认权限模式改为 Manual，并修复了因 disabledMcpServers 或 enabledMcpServers 为非法数组值导致的启动崩溃。后台会话在睡眠/唤醒或重开后不再静默停止，且修复了后台代理崩溃后因 PID 重用而无法重启的问题。插件目录标志放置顺序错误导致代理视图不显示的问题已解决，/mcp server list 现在可正确跟踪屏幕阅读器焦点。改进了安装脚本，当系统因内存不足终止安装时会给出解释。

Apache Paimon 2.0 升级多模态数据基础，面向AI原生工作流

X·KOLX：阿里云 Alibaba Cloud (@alibaba_cloud)原文 ↗

在 Flink Forward Asia Shenzhen 2026 上，阿里云 DLF 负责人 Jingsong Li 和阿里集团数据架构专家 Ziliang Zhang 介绍了 Apache Paimon 2.0。新版本将流式湖仓演进为统一多模态数据基础。通过与 Apache Flink 集成，构建端到端管道，能提供无瓶颈的高质量数据。该架构旨在支持 AI 原生工作流的实时数据需求。

Milvus 开源 MFS 工具将多种数据源统一为文件系统命名空间

X·KOLX：Milvus (@milvusio)原文 ↗

Milvus 开源了 MFS (Multi-source File-like Search)，一个可将代码仓库、Slack 线程、设计文档、Jira 问题、CRM 笔记和数据库行等来源统一为文件式命名空间并生成稳定 URI 的工具。它通过连接器将数据注入 mfs-server，利用队列、缓存、元数据和索引实现搜索和浏览。Agent 可通过 CLI、Python/TypeScript SDK 或两个内置技能（mfs-ingest 和 mfs-find）使用，mfs-find 支持 tree、ls、cat 等命令浏览原始来源。该工具旨在为 Agent 提供统一上下文层，整合内存、技能、文档、消息、问题、PR、邮件、客户记录和表格。

Google发布Paper Assistant Tool辅助审稿，数学错误检测召回率提升34%

X·KOLX：berryxia (@berryxia)原文 ↗

Google推出Paper Assistant Tool (PAT)，一个专门辅助学术审稿的AI框架。该工具能通读全文，检查理论推导、验证实验结果、标记潜在问题。其核心使用inference scaling进行深度分析，在SPOT benchmark上数学错误检测召回率提升34%。PAT已在STOC和ICML会议试点，帮助审稿人提前发现关键问题。

CCOnline 改用完全 serverless 架构，session 隔离动态 sandbox

X·KOLX：idoubi (@idoubicc)原文 ↗

CCOnline（cconline.sh）将架构改为完全 serverless，基于 Cloudflare 运行，使用 Worker、D1 和 R2。不再为每个用户分配 sandbox，改为以 session 进行隔离，动态挂载 sandbox 执行 agent 运算。支持 BYOK 自带模型，计费按 sandbox 运行时长和 token 消耗。目前为邀请注册制，提供 100 个邀请码 K76C585GC7R4。

行业动态

Industry

5 篇

中国AI算力国产化迎来拐点，国产GPU新部署占比达41%

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

字节跳动、阿里巴巴和百度等中国科技巨头纷纷转向国产AI芯片。据报道，国产GPU在新部署中的占比已升至41%。这一数据表明中国AI算力国产化进程进入关键转折点。

全球首例AI Agent勒索攻击曝光，从漏洞利用到数据库加密全程自主完成

官方IT之家原文 ↗

安全厂商Sysdig记录到首个由AI Agent（JADEPUFFER）完全自主执行的勒索攻击。攻击者利用Langflow高危漏洞CVE-2025-3248远程执行代码，入侵后自动窃取OpenAI、Anthropic、DeepSeek、Gemini等API密钥以及阿里云、腾讯云、华为云等云平台凭证。该AI在31秒内分析失败原因并修复管理员账号创建错误，累计执行超过600个攻击载荷。最后使用MySQL的AES_ENCRYPT()函数加密Nacos中全部1342条配置数据，但未保存加密密钥导致数据无法恢复。

开源AI生态图谱Open Source AI Gap Map发布

官方Simon Willison’s Weblog原文 ↗

Current AI成立于2025年2月巴黎AI行动峰会，已承诺4亿美元资金，近日发布Gap Map v0.1，深度索引421个产品（266个软件工具、85个模型、50个数据集、20个硬件项目），来自228个组织，按14个类别组织。底层数据以1,184个YAML文件形式在GitHub上以MIT许可证开源，另有16,185个GitHub仓库被追踪，可通过Datasette Lite探索。

Meta 后续 MTIA 芯片将采用三星 2nm 制程

官方IT之家原文 ↗

Meta 计划在 MTIA 系列中导入三星晶圆代工 2nm 制程，订单总额超 10 万亿韩元（约 437.8 亿元人民币）。此前两代 MTIA 由台积电制造。MTIA 450 和 MTIA 500 预计分别于 2027 年初和 2028 年大规模部署。双方合作深入到芯片架构设计阶段，以实现 6 个月迭代周期。

消息称阿里巴巴全面禁用Claude产品，7月10日生效

官方IT之家原文 ↗

阿里巴巴内部宣布全面禁用Anthropic旗下Claude系列产品，包括Sonnet、Opus、Fable及Claude Code等Agent工具，7月10日生效。此前阿里鼓励员工使用外部模型，部分程序员每周消耗额度达数百美元。Claude Code自4月2日的2.1.91版本起内置隐蔽检测机制，检查系统时区是否为Asia/Shanghai或Asia/Urumqi，并匹配一份含147个条目的中国科技企业域名清单。Anthropic团队成员Thariq Shihipar回应称该机制是实验性防账户转售和模型蒸馏措施，已在新版本中回滚。

论文研究

Research

5 篇

微软2026年早期推广Claude Code与Copilot CLI效果研究

X·KOLX：arXiv: Anthropic (@Emerson Murphy-Hill, Jenna Butler, Alexandra Savelieva)原文 ↗

微软在2026年初向数万名工程师推广了Claude Code和GitHub Copilot CLI。研究发现首次使用主要通过社交网络扩散，留存与工程师的编码活动频率相关而非人口统计因素。采用者合并的Pull Request数量比以往约多24%，该提升在四个月的观察窗口内持续存在。这些结果基于微软内部的实际部署数据，表明命令行AI编码代理并非短期新奇效应。

DecompRL: 用强化学习学习模块化代码生成，解决更难的编程问题

X·KOLX：arXiv cs.LG (@Juliette Decugis, Fabian Gloeckle, Francis Bach, Taco Cohen, Gabriel Synnaeve)原文 ↗

DecompRL是一种强化学习算法，专门训练大语言模型（如Qwen 2.5 7B、Code World Model 32B）将复杂问题分解为可独立求解的子函数并重新组合。通过重组n个模块的k种实现，可产生最多k^n个候选解，将GPU推理瓶颈转移到廉价CPU评估，GPU token成本降低约50倍。在LiveCodeBench和CodeContests基准上，当每个问题的推理token超过10^5时，DecompRL显著优于标准RL和多样性优化RL基线，能解决标准生成方法无法触及的问题。

学习移动再学习做事：面向VLA的任务无关预训练

X·KOLX：arXiv cs.AI (@Junhao Shi, Siyin Wang, Xiaopeng Yu, Li Ji, Jingjing Gong, Xipeng Qiu)原文 ↗

VLA模型受限于专家演示数据稀缺，这些数据需要观测、指令和动作的三元组，成本高昂。研究提出分解假设，将物理能力（如何移动）与语义对齐（做什么）解耦。基于此设计了TAP框架，先通过自监督逆动力学从无标签交互数据学习运动先验，再用少量专家数据将先验与语言对齐。在SIMPLER基准上，TAP匹配使用超过100万专家轨迹的模型，实现了10%的绝对提升。真实WidowX机器人平台测试中，TAP在相机扰动下保持25%成功率，而互联网规模基线降至0%。

LIME：从自拍视频中学习意图感知的相机运动

X·KOLX：arXiv cs.LG (@Boyang Sun, Jiajie Li, Yung-Hsu Yang, Chenyangguang Zhang, Tim Engelbracht, Sunghwan Hong, Cesar Cadena, Marc Pollefeys, Hermann Blum)原文 ↗

该论文提出了一个名为LIME的视觉语言相机运动生成器。它根据当前RGB图像和自然语言意图，预测下一视角的相对目标相机位姿（SE(3)）。为了训练模型，作者从第一人称视频中挖掘多意图相机运动监督信号，配对合理的意图和观察增益描述。LIME结合了自回归的观察增益输出和连续流匹配位姿头，能够联合预测下一视图该展示什么并代表多假设目标视图。实验表明，LIME可从被动的人类视频中学习主动选择相机位姿，用于下游机器人任务。

NeuFS：面向LLM的神经元感知主动少样本学习

X·KOLX：arXiv cs.LG (@Zhuowei Chen, Liwei Chen, Christian Schunn, Raquel Coelho, Xiang Lorraine Li)原文 ↗

NeuFS提出一种基于神经元激活模式的主动少样本学习框架，替代传统基于输出熵或语义相似性的样本选择方法。它在推理和文本分类两个任务共三个数据集上超越现有AFSL基线。消融实验证明内部神经元激活信号比外部嵌入在选择信号上更有效。该方法通过双标准策略兼顾样本多样性和模型易幻觉样本识别。

技巧与观点

Tips & Takes

5 篇

115

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

PAW编程范式：4B编译器生成适配器，0.6B模型匹敌32B

可控模拟代理的行为潜变量：CNeVA框架

阿里Qwen3-Omni实时语音推理优化：首音延迟降至0.6秒

WattGPU：预测未见过GPU和LLM的推理功耗与延迟

OrbitQuant：无需校准数据的扩散Transformer量化方法

产品发布/更新

Claude Code v2.1.200 发布，修复多项后台代理与 MCP 问题

Apache Paimon 2.0 升级多模态数据基础，面向AI原生工作流

Milvus 开源 MFS 工具将多种数据源统一为文件系统命名空间

Google发布Paper Assistant Tool辅助审稿，数学错误检测召回率提升34%

CCOnline 改用完全 serverless 架构，session 隔离动态 sandbox

行业动态

中国AI算力国产化迎来拐点，国产GPU新部署占比达41%

全球首例AI Agent勒索攻击曝光，从漏洞利用到数据库加密全程自主完成

开源AI生态图谱Open Source AI Gap Map发布

Meta 后续 MTIA 芯片将采用三星 2nm 制程

消息称阿里巴巴全面禁用Claude产品，7月10日生效

论文研究

微软2026年早期推广Claude Code与Copilot CLI效果研究

DecompRL: 用强化学习学习模块化代码生成，解决更难的编程问题

学习移动再学习做事：面向VLA的任务无关预训练

LIME：从自拍视频中学习意图感知的相机运动

NeuFS：面向LLM的神经元感知主动少样本学习

技巧与观点

用 Claude Code 构建你的第一个 agentic loop

LlamaIndex 发布集成 LiteParse 的 Eve agent 模板

让Fable自己判断：Claude Code省token技巧

多模态提示技巧：如何用语音和屏幕注释提升Agent效率

Anthropic工程师45分钟演示如何拆解Agent：Tool、子Agent、长prompt处理