AITOP 日报｜2026年6月10日｜MoE 与智能体双线突破，AI 推理加速工具涌现

模型发布/更新

Model Releases

4 篇

Kwai Keye-VL-2.0：开源MoE多模态模型，支持256K长视频理解

X·KOLX：arXiv: DeepSeek (@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang)原文 ↗

快手发布Keye-VL-2.0-30B-A3B，一个基于MoE架构的开源多模态基础模型，专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构，实现无损256K上下文处理，能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏（MOPD）和上下文/视频强化学习，解决了多任务对齐中的灾难性遗忘问题，仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中，Keye-VL-2.0在相似规模模型中达到最优性能，尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。

Anthropic 发布 Claude Fable 5：带分类器门控的公共模型

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Anthropic 正式推出 Claude Fable 5，这是 Mythos 类模型的公共版本。Fable 5 与 Mythos 5 共享底层模型，但 Fable 增加了分类器门控，用于检测敏感的网络、生物、化学和模型复制请求。当触发门控时，请求不会直接拒绝，而是回退到 Opus 4.8 处理，这是一种模型回退控制机制。该模型支持 100 万 token 上下文窗口，能在 1 天内完成 5000 万行 Ruby 迁移。关键在于，产品已从单一模型转变为路由机器，根据请求内容决定用户可接触的智能层级。Anthropic 表示，回退机制仅在不到 5% 的会话中触发，且限于狭窄主题。

Cohere 发布首个开源编程模型 North Mini Code，专为 Agent 编程设计

X·KOLX：shao__meng (@shao__meng)原文 ↗

Cohere 发布了其首个开源编程模型 North Mini Code，采用 MoE 架构（30B 参数，3B 激活），拥有 128 个专家，每 token 激活 8 个。模型支持 256K 输入和 64K 输出上下文，最低可在 1× H100（FP8）上运行。训练采用三阶段后训练方法，包括级联 SFT、可验证奖励强化学习（RLVR）和跨 Harness 泛化，使其在 Agent 编程任务上表现突出。在 SWE-Bench Verified 上 pass@10 达 80.2%，Terminal-Bench v2 pass@10 达 55.1%，并在同量级开源模型中领先。模型原生支持交错思考与工具调用，适合子 Agent 编排、代码审查、终端操作等场景。

摩尔线程开源 MusaCoder：国产 GPU 全栈训练的代码大模型

官方IT之家原文 ↗

摩尔线程发布并开源了首个基于国产 GPU 算力底座全链路训练的代码大模型 MusaCoder，包含 9B 和 27B 两个参数规模。该模型专注于 GPU 底层算子生成，可从 PyTorch 标准算子自动生成高性能 CUDA/MUSA 原生 Kernel 代码，降低开发者手写门槛。在 KernelBench 评测中，MusaCoder-27B-RL 以 Overall Pass@8 93.2% 的成绩超越 Claude Opus 4.7、DeepSeek-V4 Pro 等主流模型，性能领先。模型已在 Hugging Face 开源，论文同步发布。

产品发布/更新

Product

3 篇

DarkAgents：多智能体系统自动完成天体粒子物理研究

X·KOLX：arXiv: OpenAI (@Michele Lucente, Silvia Pascoli, Filippo Sala, Matteo Zandi)原文 ↗

DarkAgents 是一个利用大语言模型推理和代码生成能力，结合确定性人类编写代码的多智能体系统，用于构建理论天体粒子物理研究的自动化管线。该系统针对该领域的特定挑战，如模型构建、复杂管道计算、多重约束和假设审计。它支持多种命令行工具，包括 Mistral、Anthropic、OpenAI 以及通过 Ollama 运行的本地模型。首次应用是研究宇宙学一级相变，从经典尺度不变粒子物理模型开始，最终拟合 NANOGrav 纳赫兹引力波谱。测试运行发现了文献中一些拟合的不一致性，并基于耗散体流引力波模板产生了新的拟合结果。代码已在 GitHub 上开源。

GitHub Copilot CLI 自定义智能体：从一次性提示到可复用工作流

X·KOLX：GitHub Blog (@Natalie Guevara)原文 ↗

GitHub 推出 Copilot CLI 的自定义智能体功能，允许开发者将终端中的一次性提示转化为可重复、可审查的工作流。该功能让 Copilot 理解你的技术栈和团队流程，从而更精准地执行任务。通过自定义智能体，团队可以共享和复用最佳实践，提升开发效率。这对于需要标准化操作流程的团队尤其有用，减少了重复劳动和错误。

Nextdoor 工程师用 Codex 突破开发限制

官方OpenAI Blog原文 ↗

Nextdoor 的工程师利用 OpenAI 的 Codex 模型（基于 GPT-5.5）来调查难以复现的问题、跨平台构建应用，并专注于产品成果。Codex 帮助他们自动化调试流程，减少重复劳动，从而将更多精力放在创新和用户体验上。这一实践展示了 AI 编程助手在真实生产环境中的价值，尤其适合处理复杂、跨平台的工程挑战。

行业动态

Industry

4 篇

Andrej Karpathy：AI让软件需求暴增，Jevons悖论正在上演

官方Simon Willison’s Weblog原文 ↗

Andrej Karpathy 在引用 Claude Fable 5 时指出，随着 AI 让工作软件变得唾手可得，Jevons 悖论正在发生——软件需求反而大幅增长。他提到可以随时请求解释器、可视化工具、仪表盘、定制单用途应用，甚至为项目生成超具体的 wandb 替代品，还能十倍扩展测试套件、自动优化代码、运行大型研究项目。Karpathy 认为这正在改变一切，鼓励大家“解放思维”。

Anthropic示警：AI执行力逼近人类，方向把控仍具优势

官方IT之家原文 ↗

Anthropic于6月5日发布博文，指出AI正加速自身研发，迈向递归自我改进，但强调这一阶段尚未到来。AI可稳定独立完成任务的时长约每4个月翻倍，从2024年的4分钟增至2026年的12小时。在Anthropic内部，超过80%的合入代码由Claude编写，工程师人均日代码量较2024年提升8倍。然而，人类在方向把控、问题选择等决策层面仍具优势，AI自我改进仍受算力约束。

Perplexity 与哈佛研究：AI Agent 让知识工作成本降 94%，效率提 87%

X·KOLX：shao__meng (@shao__meng)原文 ↗

Perplexity 与哈佛商学院合作，基于真实使用数据首次系统比较了「对话助手」与「通用 Agent」对知识工作的影响。研究发现，Agent 模式（Computer）相比传统搜索模式（Search），任务完成时间平均节省 87%，成本降低约 94%，且用户满意度更高。Agent 提高了任务自主性，用户角色从「操作者」转向「监督者」，同时扩大了工作边界，让用户能承担更广、更深的任务。研究覆盖 18 个领域，编程领域效果最显著，时间节省 92%，成本节省 96%。

德国法院里程碑裁决：Google AI Overviews 视为自身言论，需为错误答案担责

X·KOLX：Decoder (@Matthias Bastian)原文 ↗

德国一家地区法院裁定，Google 对其 AI 生成的搜索概览（AI Overviews）内容直接负责，不能像传统搜索引擎那样享受有限责任保护。该案中，Google 的 AI 错误地将两家出版商与欺诈行为关联，且这些说法未出现在任何链接来源中。这一裁决可能为全球 AI 生成内容的责任认定树立先例，意味着科技公司需更谨慎地部署 AI 摘要功能。

论文研究

Research

5 篇

CPU-GPU混合设计实现本地MoE推理云级SLO

X·KOLX：arXiv: DeepSeek (@Wenxin Wang, Yule Hou, Yu Ji, Peng Qu, Youhui Zhang)原文 ↗

本地部署大型混合专家模型（MoE）在服务质量上远不及云端环境，即使低并发场景也存在四大差距：依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统，通过流式加载预填充（SLP）将预填充吞吐提升至1200 tokens/s，支持32K提示词在30秒内完成；分布式SLP（DSLP）结合SmallEP专家并行，在双RTX 5090上达到1800 tokens/s和45K提示词；以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量，无需数据中心基础设施即可获得高质量、低成本的本地推理。

MoE 专家重要性因果审计：观测指标无法预测剪枝效果

X·KOLX：arXiv: DeepSeek (@Leonard Engmann, Christian Medeiros Adriano, Holger Giese)原文 ↗

这篇论文对混合专家模型（MoE）中的专家重要性评估方法进行了因果审计。研究者发现，当前广泛使用的路由统计指标（如利用率、激活范数、路由权重分布）无法预测哪些专家可以被移除而不影响模型功能。他们在 OLMoE-1B-7B-0924、Qwen1.5-MoE-A2.7B 和 DeepSeek-V2-Lite 三个高冗余 MoE 架构上进行了 token 级干预实验，结果在所有 60 个指标-层组合中，观测指标与因果重要性之间的效应量均低于 Cohen's d = 0.17。现有剪枝方法之所以有效，并非因为它们识别出了可去除的专家，而是因为早期层的冗余性使得大多数选择标准可以互换。这项研究为可解释性领域提供了一个明确的反例，说明从总体观测统计到 token 级干预结论的推理步骤需要更严格的因果验证。

Piper：可编程分布式训练系统，解耦策略与运行时实现

X·KOLX：arXiv: DeepSeek (@Megan Frisella, Shubham Tiwari, Andy Ruan, Yi Pan, Parker Gustafson, Mat Jacob, Gilbert Bernstein, Stephanie Wang)原文 ↗

Piper 是一种用户可控的分布式训练系统，通过将训练策略与运行时实现解耦，解决了现有系统难以适应新策略或集成先进策略的问题。用户只需通过少量模型注释和调度指令声明训练策略，系统自动编译为设备执行计划。Piper 使用统一中间表示（IR）表示所有计算和通信，支持数据、流水线、专家并行及 ZeRO 等优化。实验表明，Piper 在常见策略上保持性能，同时通过联合调度计算和通信（如 DeepSeek-V3 的 DualPipe）实现额外性能与内存效率提升。

ABC-Bench：评估LLM智能体的生物安全能力基准

X·KOLX：arXiv: OpenAI (@Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman, Harmon Bhasin, Seth Donoughe)原文 ↗

ABC-Bench（Agentic Bio-Capabilities Benchmark）是一个用于评估大型语言模型智能体在生物安全相关任务上能力的基准测试套件。它包含三类任务：编写代码操作液体处理机器人、设计用于体外组装的DNA片段、以及规避DNA合成筛选。所有测试的LLM智能体在三项任务上均超过了人类专家基线水平，但在需要新颖生物信息推理的任务上表现较弱。湿实验验证显示，OpenAI的o4-mini-high模型生成的脚本成功在OpenTrons机器人上组装出预期序列的DNA。该基准旨在量化AI在生物研究中的双刃剑效应——既推动科学进步，也带来新的生物安全风险。

τ-Rec：面向智能体推荐系统的可验证基准

X·KOLX：arXiv: DeepSeek (@Bharath Sivaram Narasimhan, Karthik R Narasimhan)原文 ↗

推荐系统正转向多轮对话式智能体，但现有评估依赖“LLM作为裁判”，存在主观性、高成本和不一致问题。τ-Rec 基准用可验证奖励和揭示标签引导机制替代主观评估，通过结构化目录谓词和 pass^k 可靠性指标测试智能体的推理一致性。对 GPT-5.4、Claude Sonnet 4.6 等 9 种配置的评估显示，最佳模型 pass^1 仅约 57%，pass^4 约 38%，暴露了当前对话智能体部署中的可靠性悬崖。所有代码和数据已开源。

技巧与观点

Tips & Takes

3 篇

223

今日事件

一手报道

新模型

信源

AITOP日报