X·KOLX:arXiv: DeepSeek (@Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani-Tur, Julia Hockenmaier)
大型推理模型(LRM)产生的推理轨迹具有非线性结构(如回溯和自我修正),增加了评估和监控的难度。ReasoningFlow 框架将这些轨迹转化为细粒度的有向无环图(DAG),通过人工标注31条轨迹(2100步)验证了标注方案,并自动标注了1260条轨迹(247,700步),涵盖数学、科学和论证三个任务及五种模型。分析发现:不同LRM的推理结构相似;错误步骤大多不用于推导最终答案;机制性因果依赖与语言层面的话语结构不一致。该框架提升了推理过程的可监控性,数据集和代码已开源。
X·KOLX:arXiv cs.AI (@Jui-Hui Chung, Ziyang Cai, Zihao Li, Qishuo Yin, Rohit Agarwal, Simon Park, Rodrigo Porto, Narutatsu Ri, Ziran Yang, Shange Tang, Xingyu Dang, Hongzhou Lin, Mengdi Wang, Danqi Chen, Chi Jin, Liam H Fowl, Sanjeev Arora)
Goedel-Architect 是一个基于 Lean 4 的智能体框架,通过生成和精炼“蓝图”(定义和引理的依赖图)来简化形式化定理证明。它先根据自然语言证明生成蓝图,然后并行证明每个引理节点,失败节点会驱动全局蓝图精炼,避免了传统递归分解的低效循环。使用开源模型 DeepSeek-V4-Flash 作为骨干,在 MiniF2F-test 上达到 99.2% pass@1,在 PutnamBench 上达到 75.6% pass@1。结合自然语言证明引导,可解决更难的题目,如 IMO 2025 的 4/6 和 Putnam 2025 的 11/12。该框架在开源管道中实现了最先进性能,且成本比同类开源方案低 500 倍。
X·KOLX:arXiv cs.AI (@Yasmine Omri, Ziyu Gan, Zachary Broveak, Robin Geens, Zexue He, Alex Pentland, Marian Verhelst, Tsachy Weissman, Thierry Tambe)
该论文首次对 LLM 智能体的记忆系统进行系统性表征,提出了面向系统的四轴分类法,并构建了阶段感知的性能分析工具。研究覆盖了 10 个代表性记忆系统在两个基准套件上的行为,揭示了设计选择如何影响写入和读取路径的代价。最终给出了 10 条系统设计建议,涵盖构建调度、能力下限、查询量摊销、新鲜度-延迟权衡及集群管理。这项工作为构建高效、可扩展的长期记忆智能体提供了关键指导。
X·KOLX:arXiv cs.AI (@Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang, Furu Wei)
本文提出跨层稀疏注意力(CLSA),一种基于KV共享架构(如YOCO)的新方法。核心创新在于不仅共享KV缓存,还共享路由索引——单个索引器计算一次token级top-k选择,结果跨层复用,既保留了细粒度选择性,又分摊了路由开销。实验显示,在128K上下文下,CLSA实现最高7.6倍解码加速和17.1倍整体吞吐提升,同时保持模型质量。这为长上下文LLM提供了一种兼顾效率与质量的架构方案。
X·KOLX:arXiv cs.AI (@Thamilvendhan Munirathinam)
论文提出了一种轻量级协议——Recuse Signal,允许服务器通过现有协议通道(如SSH横幅、PostgreSQL NOTICE)向连接的LLM智能体发送“请退出”信号,类似于robots.txt对爬虫的控制。实验表明,在SSH场景下,该信号能100%诱导智能体退出,而对照组则100%完成任务。但该信号是合作性而非绝对性的:当操作员明确授权时,最强模型会继续执行,其他模型则仍遵循主机策略。研究释放了标准、适配器和实验工具,为智能体行为治理提供了新思路。