AITOP 日报｜2026年6月19日｜CXL与稀疏注意力：AI推理效率革命

模型发布/更新

Model Releases

4 篇

QCPIKAN：量子-经典物理信息KAN用于PDE求解

X·KOLX：arXiv cs.LG (@Xiang Rao, Yuxuan Shen)原文 ↗

研究者提出QCPIKAN，这是首个量子-经典物理信息Kolmogorov-Arnold网络，采用Chebyshev多项式KAN层和参数化量子电路。理论证明该设计能使高频误差以指数率收敛，并有效抑制数值色散。在三种典型渗流场景（单相流、组分输送、两相流）中验证。相比现有量子-经典物理信息神经网络，QCPIKAN在全局预测精度、局部误差控制、动态演化跟踪和位移前沿定位上表现更优。

过程验证强化学习在Lean定理证明中的应用

X·KOLX：arXiv: DeepSeek (@Minsu Kim, Se-Young Yun)原文 ↗

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

Laguna M.1模型获SGLang Day-0支持，225B MoE聚焦智能体编码

X·KOLX：LMSYS Org (SGLang) (@lmsysorg)原文 ↗

poolside发布的Laguna M.1是一个225B参数的MoE模型，专为智能体编码和长期任务设计。该模型采用70层结构：3个密集SwiGLU层加67个稀疏MoE层，共有256个专家，top-k=16且使用无辅助损失负载均衡。它在所有层使用全局注意力：64个Q头、8个KV头，以及softplus输出门控。Laguna M.1支持原生交错推理：在工具调用之间进行思考，并可每个请求切换。在SWE-bench Verified、SWE-bench Multilingual、SWE-Bench Pro和Terminal-Bench 2.0上表现强劲。现在可通过SGLang运行。

OpenAI o3 Deep Research 协助诊断376例疑难病例发现18种新病因

X·KOLX：Greg Brockman (@gdb)原文 ↗

OpenAI 与波士顿儿童医院及哈佛大学合作，在 NEJM AI 发表研究。研究使用 o3 Deep Research 模型重新分析 376 个先前未解决的罕见儿科病例。模型帮助临床医生找到了 18 个新诊断。其中包括 Kyra 的病例，她从 9 岁起持续肌肉无力，在 28 岁生日前夕被确诊为罕见的肌原纤维肌病。

产品发布/更新

Product

4 篇

Perplexity发布Brain，为Computer Agent打造自改进上下文图记忆系统

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Perplexity推出了Brain，一种自我改进的记忆系统，专门用于其Computer agent。Brain记录代理工作的历史，包括成功、失败和修正，并构建可追溯的上下文图。它会在夜间自动分析这些记录，优化后续行为。早期测试显示，Brain在正确性、召回率和成本方面均有提升。

OpenAI Codex 上线 Record & Replay 功能：演示一次操作即可生成可复用 Skill

X·KOLX：宝玉 (@dotey)原文 ↗

OpenAI Codex 桌面端新增 Record & Replay 功能，允许用户在 Mac 上录制一系列操作，Codex 自动生成可编辑的 Skill 文件。目前仅支持 macOS，欧盟地区不可用，使用前需开启 Computer Use。该功能旨在简化日常重复性任务，如报销填单、发布视频、创建 issue 等。录制完成后，用户可在新对话中调用 Skill 并传入不同参数，由 Codex 结合 Computer Use、浏览器和插件自动执行。

Amazon Bedrock AgentCore harness正式可用：数分钟从想法到生产级智能体

X·KOLX：AWS Machine Learning Blog (@Kosti Vasilakakis)原文 ↗

Amazon Bedrock AgentCore harness现已正式可用，仅需CreateHarness和InvokeHarness两个API调用即可在数秒内启动一个智能体。该智能体运行在隔离环境（含文件系统和shell）中，可安全读写文件、运行命令和编写代码。它支持跨会话记忆用户和对话，接入AWS策展的技能目录，通过网关或MCP调用工具，并能在不丢失上下文的情况下中途切换模型提供商。每个步骤实时流式传输并自动追踪到Amazon CloudWatch，无需编写编排代码或构建容器。

Claude Code 推出 Artifact 功能，终端会话变可共享网页

X·KOLX：宝玉 (@dotey)原文 ↗

Anthropic 在 Claude Code CLI 和桌面应用中新增 Artifact 功能，可将终端会话内容（如 PR 走查、调试时间线、发布清单）生成实时更新的私有网页，团队成员通过链接可直接查看。Artifact 会利用当前会话的完整上下文（包括代码库、外部工具和对话内容）自动更新，历史版本可回溯。该功能以 beta 形式向 Claude Team 和 Enterprise 组织开放，个人用户暂时无法使用。

行业动态

Industry

4 篇

DecagonAI 借助 Together AI 将语音代理成本降低近6倍

X·KOLX：Together AI (@togethercompute)原文 ↗

DecagonAI 通过与 Together AI 合作，将语音代理每轮对话成本降低近6倍，同时保持实时语音所需的低延迟。他们从闭源模型迁移到微调的开源模型，实现 p95 模型延迟低于400ms。采用自定义投机解码和提示缓存技术，并在 NVIDIA Blackwell 上优化服务部署。模型更新频率达到每周甚至每日，体现了从封闭 API 到开放模型的转变。

Anjney Midha：GPU利用率95%即“故障”，AI竞争进入计算网格时代

X·KOLX：Latent.Space (@latentspacepod)原文 ↗

AMP 创始人 Anjney Midha 在播客中分享 Google 内部将 95% GPU 利用率视为“故障”的标准，指出单纯购买更多 GPU 已非 AI 竞争核心。他介绍 AMP 正推动将 FLOPs 像兆瓦级电力一样调度，并警告数据中心阻力可能成为 AI 最大瓶颈之一。同时分析 Anthropic 通过独特文化和准备在编码领域取得突破，DeepMind 的研究囤积导致市场失灵，强调下一个前沿属于能在计算、资本、文化和科学上“最大化输出”的团队。

DeepMind 新路线图将 AI 智能体当作潜在内部威胁

X·KOLX：Decoder (@Matthias Bastian)原文 ↗

Google DeepMind 发布了新的 "AI Control Roadmap"，将安全措施与可衡量的 AI 能力挂钩。公司对 100 万个编码任务的分析显示，大多数问题源于过于热心的 AI 智能体，而非恶意意图。DeepMind 警告，建立全球安全标准的时间窗口正在关闭。

AI 账单失控：AT&T、Meta 等巨头急刹车，从“疯狂消耗”到“严苛限制”

官方IT之家原文 ↗

科技公司正从鼓励员工无限制使用AI（tokenmaxxing）转向严格限制（tokenminimizing）。Uber在四个月内花光2026年全年AI编码预算，被迫将人均月支出上限设为1500美元。沃尔玛限制内部AI助手，亚马逊取消AI使用排行榜。微软发现部分工程师个人每月token消耗高达2000美元，AT&T则限制员工使用GitHub Copilot。企业引入“AI网关”工具，将简单任务路由到廉价模型以控制成本。

论文研究

Research

4 篇

Token是群元素：矩阵李群上的李代数注意力

X·KOLX：arXiv cs.LG (@Przemyslaw Musialski)原文 ↗

论文提出Lie-Algebra Attention，其中token被定义为矩阵李群G的元素gi，而非传统特征向量。注意力分数使用相对姿态的对数范数闭合形式sij = -‖log(gi^-1 gj)‖²/τ，无需学习核函数。该方法适用于非紧致非交换的仿射群Aff(2)，这是向量token方法无法达到的。在SE(2)、SO(3)和Aff(2)上的序列补全实验中，其参数比MLP核少50-80倍，且在SE(2)上性能更优，而向量token基线的不变性误差高达5-12个数量级。

SAC: 基于CXL的稀疏注意力LLM解耦KV缓存系统

X·KOLX：arXiv: DeepSeek (@Ruiyang Ma, Teng Ma, Junru Li, Hantian Zha, Xuchun Shang, Qingda Hu, Zheng Liu, Xinjun Yang, Tao Ma, Guojie Luo)原文 ↗

长上下文LLM推理的内存瓶颈日益突出。传统RDMA解耦内存池对于稀疏注意力模型效率低下，仍需完整获取KV缓存。SAC系统利用CXL的低延迟、缓存行粒度加载/存储语义，仅在推理时按需获取所需的top-k KV条目。在DeepSeek-V3.2上使用SGLang的评估显示，相比RDMA基线，SAC实现了2.1倍吞吐量提升、9.7倍TTFT降低和1.8倍TBT降低。

CWE-Trace框架揭示微调LLM在漏洞检测中的局限性

X·KOLX：arXiv: DeepSeek (@Arastoo Zibaeirad, Marco Vieira)原文 ↗

研究提出CWE-Trace框架，基于834个手动整理的Linux内核样本（覆盖74个CWE）评估LLM的漏洞检测能力。实验发现数据污染对性能无实质帮助：84%的污染样本不携带可用记忆信号。微调仅改变输出阈值（DFI范围-85.5至+94.8 pp），而不改变底层决策策略，模型在历史数据和截止后数据上表现一致。最佳检测准确率仅52.1%（高出随机2.1个百分点），CWE排名Top-1准确率低于1.3%，表明当前LLM缺乏可靠的安全推理能力。

量子环全归约：分布式学习的通信与隐私优势

X·KOLX：arXiv cs.LG (@María Gragera Garcés, Lirandë Pira)原文 ↗

该论文提出量子环全归约（quantum ring all-reduce），利用预共享纠缠和超密编码，将逐链路在线通信量降低至最优因子2倍。协议通过验证纠缠实现可组合的ε安全聚合，仅需2倍GHZ副本开销，提供经典协议无法实现的信息论隐私。在梯度冲突检测中，对于GapIP_τ问题，量子优势在边际参数上呈二次方改进：需Õ(τ⁻¹ log P)量子比特 vs Õ(min(τ⁻², P))经典比特。对于TieAudit_ε问题，量子优势呈指数级分离：仅需O(ε⁻² log P)量子比特，而经典需Ω(√P)比特。

技巧与观点

Tips & Takes

3 篇

204

今日事件

一手报道

新模型

信源

AITOP日报