VOL.2026.05.15·144 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月十五日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
4

Transformer vs MoE:一张图讲清路由、专家选择与负载均衡

X·KOLX:berryxia (@berryxia)原文 ↗

Daily Dose of Data Science 通过视觉图解清晰对比了 Transformer 和 Mixture of Experts(MoE)的核心差异。MoE 将 Transformer 中的单个前馈网络拆分为多个小专家网络,推理时仅激活部分专家,虽参数更多但计算更快。模型通过 Router(多分类器)为每个 token 选择 top-K 专家,但训练中面临“专家过选”和“负载不均”两大问题。前者通过加噪声和屏蔽非 top-K logit 解决,后者通过设置专家容量上限并自动转交 token 来平衡。Mixtral 8x7B 和 Llama 4 是典型 MoE 模型。

Andrew Ng 新课程:Transformers in Practice,与 AMD 合作

X·KOLX:Andrew Ng (@AndrewYNg)原文 ↗

Andrew Ng 推出新课程《Transformers in Practice》,与 AMD 合作,由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角,帮助理解其行为、诊断推理缓慢等问题,并做出更明智的部署决策。课程包含交互式可视化,而非纯视频,让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。

蚂蚁集团开源万亿参数思考模型 Ring-2.6-1T

X·KOLX:berryxia (@berryxia)原文 ↗

蚂蚁集团 AGI 团队开源了 Ring-2.6-1T,一个拥有 1 万亿参数的旗舰思考模型,专为 Agent 工作流、代码工程、长时序执行等复杂任务设计。该模型支持 high 和 xhigh 两种推理模式,采用 IcePop 异步强化学习算法稳定训练。完全开源意味着企业可将模型部署到本地服务器,解决数据隐私和合规问题。模型已在 Hugging Face 和 ModelScope 上线,降低了企业级 Agent 应用的部署门槛。

02

产品发布/更新

Product
4

CodeGraph 开源 MCP 服务器:减少 Claude Code 94% 工具调用

X·KOLX:AlphaSignal (@AlphaSignalAI)原文 ↗

CodeGraph 是一个开源的 MCP 服务器,通过预索引代码库为本地知识图谱,让 AI 代理直接查询图谱而非扫描文件,从而大幅减少工具调用。在六个真实项目测试中,平均减少 92% 工具调用,探索速度提升 71%,在 TypeScript 和 Java 代码库上分别减少 94% 和 96% 的调用。它基于 Tree-sitter 解析语法树,使用 SQLite 存储符号和调用关系,支持 19 种以上语言,完全本地运行,无需 API 密钥。只需一条 npx 命令即可设置,文件监视器可保持图谱实时更新。

Cline SDK 发布,CLI 在 Terminal-Bench 多项第一

X·KOLX:shao__meng (@shao__meng)原文 ↗

Cline 团队发布了 Cline SDK,同时推出基于 SDK 的 Cline CLI 和 Skills。Cline 是最早的 Agentic Coding 工具之一,此前以 IDE 插件形式存在,技术实力强,工程团队多人曾加入 Codex。最新 Cline CLI 在 Terminal-Bench 2.0 上多项第一,超越 Claude Code、Codex 和 Droid 等 Agent。Cline 2.0 重写了 prompts、简化 loop、收紧上下文管理、改进反馈与错误处理,并重新设计工具暴露方式。在开源权重模型上领先更明显,如 kimi-k2.6 达 55.1% vs OpenCode 37.1%。新能力包括 Plugin 层、Provider 开放性、原生 Agent Teams、开箱即用的 CRON/checkpointing/Web search/MCP connector,以及实验性的 CLI Connectors 可接入 Telegram/WhatsApp/Slack。

微软押注 WinUI 3 重塑 Win11 原生体验,文件管理器内存分配减少 41%

官方IT之家原文 ↗

微软明确押注 WinUI 3 以改善 Windows 11 长期被批评的卡顿、臃肿问题。通过优化 WinUI 框架,文件资源管理器启动过程中的内存分配次数减少 41%,临时内存分配减少 63%,WinUI 代码执行时间降低 25%。微软还将开始菜单从基于 React 的网页组件转向纯原生 WinUI 3 代码,并发布开源 dotnet new 项目模板,支持命令行创建原生应用。此外,微软推出 WinUI 智能体插件,可接入 GitHub Copilot、Claude Code 等 AI 助手,辅助开发者生成代码和修复错误。部分优化目前需选择加入,未来将在 WinAppSDK 3.0 或 4.0 中默认启用。

Prime Intellect 用 Claude Code 和 Codex 实现 AI 研究自动化

X·KOLX:berryxia (@berryxia)原文 ↗

Prime Intellect 让 Claude Code(Opus 4.5)和 Codex(GPT 5.5)在 nanoGPT speedrun 的 optimizer track 上完全自主运行,使用闲置算力完成约 1 万次实验,消耗 1.4 万 H200 小时。Claude Code 将记录推进到 2930 steps,超越人类基准的 2990 steps,整个过程无人值守。实验在 optimizer 搜索、超参数扫描和方法 stacking 上高效,但在真正创新上遇到瓶颈。Prime Intellect 已开源所有 scratchpad、运行日志、配置和生成的 idea,将 AI 研究自动化从概念变为可复现的现实。

03

行业动态

Industry
4

Raycast 2.0 重写:从原生 Swift 到混合架构的技术抉择

X·KOLX:shao__meng (@shao__meng)原文 ↗

Raycast 2.0 是自 2020 年发布以来最大的一次重写,团队从纯原生 Swift/AppKit 应用转向 TypeScript + Swift + C# + Rust + Node + React 的混合架构,以实现跨平台并保持原生质感。重写原因包括编译时间变长、AppKit 掣肘和原生工程师难招。技术选型上,他们放弃了 Electron 和 Tauri,自研了四层架构(Host App、Web Frontend、Node Backend、Rust Core),并解决了 WebView 在 macOS 和 Windows 上的渲染、节流、闪烁等问题。最终内存占用从 v1 的 200-300 MB 增至 v2 的 350-450 MB,但团队通过优化和科普帮助用户正确理解内存使用。

联发科:智能体跨端协同从三个层面入手

官方IT之家原文 ↗

联发科在天玑开发者大会上发布天玑AI智能体化引擎2.0和开发套件3.0,并公布与OPPO、小米等厂商的合作成果。针对跨端智能体协同的痛点,联发科从IP设计、软件平台和生态层三个层面推进:统一NPU架构降低迁移成本,NeuroPilot平台实现一次开发多端部署,通过大模型和统一指令集打破生态壁垒。此外,联发科还讨论了AI定义汽车、内存涨价对端侧AI的影响,以及“龙虾”框架对芯片规划的启示。

Anthropic Claude Mythos 辅助发现苹果 macOS 26.4.1 提权漏洞

官方IT之家原文 ↗

安全专家利用 Anthropic 最强 AI 模型 Claude Mythos,在苹果 macOS 26.4.1 系统中成功实现提权攻击,从普通本地账户获取 root shell 并绕过 Apple Silicon 的 MIE 保护。攻击结合了 2 个漏洞和多种利用技巧,由人类研究员与 AI 共同完成,耗时约 5 天。这是首个公开的 Apple M5 内核内存破坏利用案例,凸显 AI 在安全研究中的辅助价值。苹果正在审查漏洞,技术细节暂未公开。

烽火通信成功研制 13824 芯光缆并量产,创国内纪录

官方IT之家原文 ↗

烽火通信宣布成功研制 13824 芯超大芯数光缆并已量产,创下国内首款万芯级、业界最大芯数光缆双重纪录。该光缆外径仅 40mm,纤芯密度达 11 芯/mm²,可替代 48 根 288 芯光缆,节约 90% 以上管道资源。产品适配超大规模 AIDC 建设需求,满足 10 万+卡算力集群楼间互联场景。此举打破国外技术垄断,补齐国内超大芯数光缆短板,提升算力中心布线效率并降低运维成本。该产品即将在武汉光博会首次公开亮相。

04

论文研究

Research
5

MANSU:首个抗量化遗忘的机器遗忘方法

X·KOLX:arXiv cs.LG (@Saisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu)原文 ↗

现有机器遗忘评估仅在全精度模型上进行,但实际部署的语言模型都会经过量化。研究发现,4-bit量化可以逆转梯度下降法的遗忘效果,而能抵抗量化的方法又几乎不改变模型。MANSU通过因果电路归因定位最小遗忘子图,结合零空间投影和参数幅度下限,首次实现了遗忘效果在量化后不反弹。该方法还提出了电路归因散度(CAD)作为新的验证指标,能区分结构擦除与行为抑制。实验表明,MANSU在多个模型和基准上同时满足遗忘、保留、抗量化和结构擦除四个目标。

CLOVER:闭环价值估计与排序框架,端到端自动驾驶规划新SOTA

X·KOLX:arXiv cs.AI (@Sining Ang, Yuguang Yang, Canyu Chen, Yan Wang)原文 ↗

端到端自动驾驶规划器通常通过模仿单一记录轨迹来训练,但评估时却使用基于规则的规划指标(如安全性、可行性、进度和舒适度),导致训练与评估不匹配。CLOVER 提出了一种闭环价值估计与排序框架,采用轻量级生成器-评分器结构:生成器产生多样候选轨迹,评分器预测规划指标子分数进行排序。通过构建评估器过滤的伪专家轨迹和集合级覆盖监督,CLOVER 扩展了候选支持;并采用保守闭环自蒸馏优化生成器和评分器。在NAVSIM上,CLOVER 达到94.5 PDMS和90.4 EPDMS,创下新SOTA;在更具挑战的NavHard上获得48.3 EPDMS,匹配最强结果。

Pelican-Unified 1.0:首个统一具身智能模型,理解、推理、想象与行动一体化

X·KOLX:arXiv cs.AI (@Yi Zhang, Yinda Chen, Che Liu, Zeyuan Ding, Jin Xu, Shilong Zou, Junwei Liao, Jiayu Hu, Xiancong Ren, Xiaopeng Zhang, Yechi Liu, Haoyuan Shi, Zecong Tang, Haosong Sun, Renwen Cui, Kuishu Wu, Wenhai Liu, Yang Xu, Yingji Zhang, Yidong Wang, Senkang Hu, Jinpeng Lu, Nga Teng Chan, Yechen Wu, Yong Dai, Jian Tang, Xiaozhu Ju)原文 ↗

Pelican-Unified 1.0 是首个按照统一原则训练的具身基础模型,将场景理解、指令推理、未来想象和动作执行整合到单一模型中。它使用一个视觉语言模型(VLM)作为统一的理解和推理模块,并通过统一未来生成器(UFG)同时生成未来视频和动作。实验表明,统一并未牺牲性能:在八个VLM基准上平均得分64.7,在WorldArena上排名第一(66.03),在RoboTwin上达到93.5(动作方法中第二好)。该工作展示了统一范式在保持专家级性能的同时,将多种能力融合到一个模型中的可行性。

OpenDeepThink:通过Bradley-Terry聚合实现并行推理扩展

X·KOLX:arXiv cs.AI (@Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang)原文 ↗

OpenDeepThink 是一种基于种群的测试时计算扩展框架,通过成对 Bradley-Terry 比较选择最佳推理候选,解决了并行采样中的选择瓶颈。每次迭代中,LLM 对随机候选对进行评判并聚合为全局排名,保留顶部候选并变异前四分之三,丢弃底部四分之一。在 Codeforces 上,Gemini 3.1 Pro 的 Elo 评分在 8 轮 LLM 调用(约 27 分钟)内提升 405 分。该方法跨弱强模型无需重新调参,在 HLE 基准上,增益集中在客观可验证领域,主观领域则出现逆转。同时发布了 CF-73 数据集,包含 73 道专家评级的 Codeforces 问题。

CoCo-InEKF:用学习接触协方差实现动态接触场景状态估计

X·KOLX:arXiv cs.LG (@Michael Baumgartner, David Müller, Agon Serifi, Ruben Grandia, Espen Knoop, Markus Gross, Moritz Bächer)原文 ↗

足式机器人在高速动态运动中的状态估计仍具挑战,传统方法依赖二元接触状态,无法处理部分接触或方向性滑移。本文提出 CoCo-InEKF,一种可微不变扩展卡尔曼滤波器,用连续接触速度协方差替代二元接触状态,通过轻量神经网络端到端学习这些协方差,动态调整接触置信度。该方法无需启发式真值接触标签,并引入自动接触候选点选择流程。在双足机器人上的实验表明,CoCo-InEKF 在线性速度估计上实现了更优的精度-效率权衡,并改善了滤波器一致性,支持跳舞、复杂地面交互等挑战性运动。

05

技巧与观点

Tips & Takes
3

RoSHAP:提升特征归因稳定性的鲁棒指标框架

X·KOLX:arXiv cs.LG (@Lanxin Xiang, Liang Shi, Youhui Ye, Boyu Jiang, Dawei Zhou, Feng Guo)原文 ↗

特征归因分析在解释机器学习模型时,常因数据分割、随机种子等随机因素导致结果不稳定。本文提出 RoSHAP 框架,通过 Bootstrap 重采样和核密度估计建模特征重要性得分的分布,并证明聚合得分渐近服从高斯分布,大幅降低计算成本。RoSHAP 指标同时奖励活跃、强且稳定的特征,在模拟和真实实验中优于单次归因方法。使用 RoSHAP 筛选的特征构建的模型,在预测性能接近全特征模型的同时,显著减少了特征数量。该框架提升了模型的可解释性和稳定性,为可靠的数据驱动决策提供了支持。

HandITL:通过无缝干预纠正提升灵巧VLA模型

X·KOLX:arXiv cs.LG (@Zhuohang Li, Liqun Huang, Wei Xu, Zhengming Zhu, Nie Lin, Xiao Ma, Xinjun Sheng, Ruoshi Wen)原文 ↗

Vision-Language-Action (VLA) 模型在灵巧操作中容易因高维动作空间和接触丰富的动力学产生累积误差。现有交互式模仿学习(IIL)在接管时存在人机指令不匹配,导致机器人手部“手势跳跃”。Hand-in-the-Loop (HandITL) 提出一种无缝干预方法,将人类纠正意图与自主策略执行融合,避免手势跳跃。实验表明,相比直接遥操作接管,HandITL 减少接管抖动 99.8%,降低抓取失败率 87.5%,平均完成时间缩短 19.1%。在三个长时灵巧任务上,用 HandITL 收集的干预数据训练的策略平均性能提升 19%。

144
今日事件
41
一手报道
6
新模型
35
信源
AITOP · 编辑系统自动生成