AITOP 日报｜2026年5月20日｜AI 代理进化真相与开源DNA模型突破

模型发布/更新

Model Releases

5 篇

Hugging Face 发布开源 DNA 模型 Carbon，可在笔记本本地运行

X·KOLX：Clement Delangue (@ClementDelangue)原文 ↗

Hugging Face 发布了名为 Carbon 的开源 DNA 基础模型，包含开放权重、训练代码和数据管道。该模型专为下游生物学任务设计，可微调或持续预训练。Carbon 比同尺寸最佳模型快 275 倍，能在单 GPU 上不到 2 天处理整个人类基因组，甚至可在笔记本电脑上本地运行。其核心技术是 DNA 原生分词器，将序列分割为 6 碱基块以提升效率，同时保留单碱基分辨率。此举旨在推动生物学 AI 的透明化和本地化，避免个人健康数据依赖黑盒 API。

Google I/O 发布 Gemini 3.5 Flash，最强编程与智能体模型

X·KOLX：Jeff Dean (@JeffDean)原文 ↗

Google 在 I/O 大会上发布 Gemini 3.5 系列，首推 3.5 Flash 模型。该模型专为复杂、长周期的智能体工作流设计，在 Terminal-Bench 和 MCP Atlas 等智能体与编程基准上超越 3.1 Pro，运行速度比其他前沿模型快 4 倍。在 Google Antigravity 中优化后，速度可提升至 12 倍。它可作为子智能体协作、高频迭代循环的强大引擎，用于大规模解决实际问题。

阿里千问发布最强智能体模型 Qwen3.7-Max

官方IT之家原文 ↗

阿里千问今日正式发布 Qwen3.7-Max，定位为面向智能体时代的旗舰模型，即将通过阿里云百炼 API 提供服务。该模型在编程、办公自动化、长周期自主执行等智能体任务上表现突出，例如在长达 35 小时、超 1000 次工具调用的内核优化实验中保持连贯推理。在多项基准测试中，Qwen3.7-Max 在编程智能体（如 SWE-Pro 60.6）、通用智能体（如 MCP-Mark 60.8）和推理（如 GPQA Diamond 92.4）上均取得领先或与顶尖模型相当的成绩。此外，它支持跨框架部署，兼容 Claude Code、OpenClaw 等，并具备多语言理解与翻译能力。

Karpathy 加入 Anthropic 预训练团队，拟用递归训练提升 Claude

官方SuperTechFans原文 ↗

Andrej Karpathy 宣布加入 Anthropic 预训练团队，计划将 AutoResearch 理念扩展为递归训练项目，以提升 Claude 核心能力。社区对此褒贬不一，有人认为这是自动化研究的好方向，也有人质疑其创新性。Karpathy 表示仍会继续从事教育事业。此举可能加速 Anthropic 在预训练技术上的突破。

NVIDIA 发布 SANA-WM：单图+文本+相机轨迹生成可控世界

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA 研究团队开源了 SANA-WM，一个 2.6B 参数的世界模型，能在单张 GPU 上根据一张图片、文本描述和相机轨迹生成 60 秒可控视频。该模型原生支持精确的相机控制，为视频生成和世界模拟提供了新的可能性。SANA-WM 的开源发布降低了高质量可控视频生成的门槛，对内容创作、游戏和仿真领域有重要意义。

产品发布/更新

Product

5 篇

NVIDIA开源LongLive 2.0：全球首个4-bit超长视频生成基础设施

X·KOLX：berryxia (@berryxia)原文 ↗

NVIDIA研究员Yukang Chen开源了LongLive 2.0，这是全球首个端到端支持4-bit量化的超长视频生成基础设施，覆盖训练和推理全流程。核心技术包括FP4量化和并行加速，在5B模型上实现45.7 FPS的实时生成速度。该工具支持真实视频训练、few-step蒸馏、多shot训练/推理、序列并行、NVFP4 KV cache和异步VAE解码部署。此前长视频生成面临速度慢或长度受限的问题，LongLive 2.0将4-bit长视频实时生成能力推向开源社区。

Computer use 让 Claude 成为可操作真实 UI 的智能体

X·KOLX：claudedevs (@claudedevs)原文 ↗

Claude 的 Computer use 功能使其能够像人类一样操作真实用户界面。一篇新博客文章详细介绍了如何让该功能在生产环境中更可靠，包括提高点击精度、选择思考努力级别、在长会话中保持上下文，以及录制 Claude 可回放的演示。这些技巧对于构建自动化工作流的开发者至关重要。

Anthropic 推出 Sandboxes 和 Tunnels，解决 Agent 执行层问题

X·KOLX：AlphaSignal (@AlphaSignalAI)原文 ↗

Anthropic 发布了两项新功能：Sandboxes 和 Tunnels，旨在解决 AI Agent 在执行层常见的失败问题，如凭证过期、缺乏重试逻辑以及工具访问不当。Sandboxes 允许在用户自己的基础设施内运行工具执行，而 Tunnels 则通过单一出站加密连接让 Agent 访问内部系统，无需暴露公共端点。这些更新不涉及新模型，而是专注于增强对模型决策后执行过程的控制。对于依赖 Agent 自动化任务的团队来说，这能显著提升可靠性和安全性。

Moonshot AI 发布 Kimi WebBridge：AI 智能体像你一样浏览网页

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

Moonshot AI 推出了 Kimi WebBridge 浏览器扩展，允许 Kimi AI 智能体使用用户的完整浏览器身份（包括登录会话、Cookie 和账户）自主执行任务。这意味着 AI 可以代表用户进行网页操作，如填写表单、提交数据或访问需要登录的网站，而无需手动复制粘贴或暴露敏感信息。该扩展解决了 AI 工具在访问受限内容时的痛点，提升了自动化任务的效率和安全性。对于需要频繁进行网页操作的开发者或普通用户，Kimi WebBridge 提供了一种更自然的 AI 交互方式。

PaddleOCR 3.5 打通 Hugging Face 生态，支持 Transformers 推理后端

X·KOLX：berryxia (@berryxia)原文 ↗

PaddleOCR 3.5 正式发布，支持 Transformers 作为推理后端，PP-OCRv5 和 PaddleOCR-VL 1.5 模型可直接在 Hugging Face 生态中运行。此前将 PaddleOCR 集成到 RAG 或 Document AI 项目需要额外搭建服务栈，现在流程大幅简化。Hugging Face 团队参与了合作，使得 OCR 工具与主流 Transformer 生态无缝对接。输出结果更精准可靠，无需依赖 LLM 来补充。

行业动态

Industry

5 篇

Qwen Conference 2026 主题议程：AI原生云与智能体架构

X·KOLX：阿里云 Alibaba Cloud (@alibaba_cloud)原文 ↗

阿里云宣布将于2026年举办Qwen Conference，主题议程聚焦AI原生云、智能体原生云架构、推理未来和多模态视觉技术。会议承诺无冗余内容，直接提供面向全球规模的工程蓝图。该会议旨在展示阿里云在AI基础设施和智能体领域的最新进展，为开发者和企业提供可落地的技术方案。目前已开放注册。

Google I/O 2026 Keynote 完整总结：Agentic Gemini 时代到来

X·KOLX：berryxia (@berryxia)原文 ↗

Google I/O 2026 主题演讲由 Sundar Pichai 主讲，聚焦「Agentic Gemini 时代」，强调 AI 从聊天机器人进化为能自主思考、执行任务、跨设备运行的「世界模型」。主要发布包括 Gemini 3.5 Flash（速度提升 4 倍，默认模型）、Gemini Omni 多模态世界模型（支持任意输入输出，理解物理世界）、Gemini Spark 全天候自主 Agent，以及 Android XR 智能眼镜预览。Google 将 AI 深度整合到 Search、Workspace、Gmail 等产品中，并推出开发者工具 Antigravity 2.0。整体策略务实，注重落地而非参数竞赛。

京东打造全国首个具身智能数据采集社区，家务变身训练数据

官方IT之家原文 ↗

京东宣布全国首个具身智能数据采集社区在宿迁正式运行，居民通过日常家务即可采集机器人训练数据。采集员佩戴京东自研的JoyEgoCam终端，记录上肢轨迹、力度分布等关键参数，数据经处理后用于训练具身模型。京东计划两年内积累超1000万小时真实场景视频数据，覆盖物流、家庭、农业等五大场景，旨在解决具身智能领域高质量数据供给不足的瓶颈。该社区已试运行，居民参与可获得收入补贴，数据通过合规平台向学术界和开发者开放。

微软内部示警：GitHub 面临生存级风险，AI 编程工具削弱托管必要性

官方IT之家原文 ↗

科技媒体 The Information 报道，微软内部已发出警告，认为 GitHub 正面临“生存级风险”，主要来自 Cursor、Claude Code 和 OpenAI 等 AI 编程工具。这些工具改变了开发者写代码、调试和协作的方式，削弱了将代码持续上传到 GitHub 仓库的必要性。微软曾允许内部团队同时使用 Claude Code 和 GitHub Copilot CLI，但近期要求统一转向 Copilot CLI，以压缩运营成本。尽管微软未完全放弃 Anthropic 模型，但此举凸显了 GitHub 在 AI 时代面临的竞争压力。OpenAI 也曾考虑自建替代平台，进一步加剧了 GitHub 的生存危机。

OpenAI 联合创始人卡帕西官宣加盟 Anthropic，重返大模型研发前线

官方IT之家原文 ↗

AI 领域顶级研究员、OpenAI 创始成员 Andrej Karpathy 正式加入 Anthropic，将主导预训练团队并组建新团队，探索利用 Claude 自身能力加速预训练研究。此举被视为 Anthropic 在顶尖 AI 人才争夺中的重大胜利，也标志着 Karpathy 从教育领域重返一线研发。他曾在特斯拉领导 Autopilot 计算机视觉团队，近期提出“vibe coding”概念，此次加盟将直接参与 Claude 模型的核心能力建设。

论文研究

Research

5 篇

进化编码智能体到底在进化什么？EvoTrace 揭示真相

X·KOLX：arXiv cs.LG (@Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta)原文 ↗

最新研究指出，将 LLM 与进化搜索结合的编码智能体在数学发现和算法设计上表现强劲，但进步可能源于多种机制：新算法结构、调整现有策略、重组模型内部知识或过拟合评估器。为区分这些机制，研究者推出了 EvoTrace 数据集，涵盖四种进化框架、推理与非推理模型及 16 个任务。他们开发了 EvoReplay 方法，通过重放分析高分解背后的局部搜索状态，并标注了九种编辑类型。结果发现，大部分得分提升来自少数编辑类型，且约 30% 的代码行是重复引入的已删除行，表明基准进步可能并非真正的新算法结构。

生产级LLM智能体运行时架构模式选择与组合方法论

X·KOLX：arXiv cs.AI (@Vasundra Srinivasan)原文 ↗

该论文首次将LLM输出与确定性系统之间的边界定义为“随机-确定性边界”（SDB），并视其为生产级智能体运行时的核心原语。作者围绕SDB提出了运行时设计的三个关注点（协调、状态、控制），并给出了六种运行时模式（如层次委派、散聚+Saga、事件驱动序列等），每种模式都追溯了其分布式系统根源并分析了当工作节点变为随机模型时的变化。论文贡献了一套五步模式选择方法论、一个将生产故障映射到模式弱点的诊断流程，以及一种名为“回放发散”的故障模式。通过可靠性分解，论文论证了随着模型方差降低，模式选择和SDB强度对长期可靠性的影响越来越大。

Graft：剪枝+检索补偿，突破投机解码效率瓶颈

X·KOLX：arXiv cs.LG (@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang)原文 ↗

投机解码通过草稿-验证范式加速大模型推理，但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟，却会丢弃潜在有效候选，导致接受率无法达到稠密树的上限。本文提出Graft框架，将剪枝与检索作为相互增强的操作：剪枝释放计算预算，检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制，以近乎零开销将高预测性的检索令牌填入剪枝空位，无需训练且无损。在短上下文、长上下文及大规模模型（如Qwen3-235B）上，Graft实现了最高5.41倍加速，平均加速比EAGLE-3提升21.8%，并初步探索了在非自回归草稿范式中的应用。

蒸馏保证：算法对齐下的组合优化知识迁移

X·KOLX：arXiv cs.LG (@Thien Le, Melanie Weber)原文 ↗

本文研究了在组合优化任务中，如何将大型模型的知识蒸馏到更小、更高效的模型。作者假设目标模型是图神经网络，其架构与任务的动态规划算法对齐。基于决策树蒸馏的最新理论分析，论文证明了当源模型足够丰富（通过线性表示假设形式化）时，蒸馏问题可以在动态规划转移函数的复杂度参数内高效解决。该工作为算法对齐框架下的成功蒸馏提供了严格充分条件。

预训练表征大小如何影响下游泛化：高维分析

X·KOLX：arXiv cs.LG (@Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe)原文 ↗

该论文通过高维分析框架，研究了预训练表征维度对下游线性探测泛化性能的影响。作者将预训练建模为无标签数据的主成分分析，下游任务建模为有标签数据的线性回归，并推导出训练误差和泛化误差的精确表达式。研究发现，当预训练数据充足但下游数据稀缺时，最大压缩的表征最优；而当预训练数据有限时，高维表征泛化更好。论文还量化了无标签数据与有标签数据之间的替代关系，并在自编码器和预训练大语言模型中观察到类似现象。

技巧与观点

Tips & Takes

3 篇

Andrew Ng：先写大纲再让AI生成，避免AI写作的通用化问题

X·KOLX：DeepLearning.AI (@DeepLearningAI)原文 ↗

DeepLearning.AI 指出，常见的提示错误是直接让 AI 生成最终稿。更好的工作流是先让 AI 生成大纲，通过调整结构来显著改善最终输出，避免 AI 写作的通用化问题。Andrew Ng 在《AI Prompting for Everyone》课程中教授了实用提示技巧。

HamJEPA：用哈密顿几何改进JEPA表示学习

X·KOLX：arXiv cs.LG (@Robert Jenkinson Alvarez)原文 ↗

论文指出JEPA（联合嵌入预测架构）通常将单视图嵌入正则化为各向同性高斯分布，这隐含地引入了欧几里得对称性，但并非无害。当下游几何结构已知时，最优协方差应为哈密顿能量预算下的(c/d)H^{-1}，各向同性会导致可量化的性能损失。当下游几何未知时，任何固定边际目标都可能与某些结构严重不匹配。作者提出HamJEPA，将每个视图编码为相空间状态(q,p)，并用可学习的哈密顿跳蛙映射预测视图间转换，非各向同性尺度和谱底防止崩溃。在CIFAR-100上，HamJEPA在30轮时比SIGReg提升+4.89 kNN@20和+3.52线性探针点，80轮时提升+6.45 kNN@20和+10.64线性探针点。在ImageNet-100上，45轮时提升+4.82 kNN@20和+7.52线性探针点。

k-inductive 神经屏障证书：未知非线性动力学的安全验证

X·KOLX：arXiv cs.LG (@Ben Wooding, Hongchao Zhang, Taylor T. Johnson, Abolfazl Lavaei)原文 ↗

传统离散时间屏障证书要求安全函数每一步都非增，约束严格。本文提出 k-inductive 屏障证书，允许函数在 k-1 步内暂时增加（每步不超过阈值 ε），同时保证整体安全，提升了灵活性。研究利用神经网络构建 k-inductive 神经屏障证书（k-NBCs），适用于部分未知的非线性系统。为解决神经网络缺乏形式化保证的问题，采用反例引导归纳合成（CEGIS）与可满足性模理论（SMT）验证，但传统方法需已知系统动力学。本文借助 Willems 基本引理的推广，仅用单条状态轨迹构建数据驱动表示，实现未知模型的 SMT 验证，且不牺牲精度。在三个非线性案例上验证了方法的有效性。

182

今日事件

一手报道

新模型

信源