全部 AI 动态 · AI 热点

5月20日

11:42

arXiv: OpenAI@Zhuohan Gu, Qizheng Zhang, Omar Khattab, Samuel Madden

精选

PEEK 是一种为长上下文 LLM 智能体设计的系统，通过缓存和维护“上下文地图”来提升其在重复外部上下文（如文档库、代码仓库）中的表现。现有方法要么保留智能体的轨迹、被动访问原始材料，要么保留任务级策略，但都忽略了可复用的方向知识（如上下文内容、组织方式、历史有用的实体和模式）。PEEK 通过三个模块（Distiller、Cartographer、Evictor）将推理信号转化为结构化、固定大小的上下文地图，并嵌入智能体提示中。实验显示，PEEK 在长上下文推理和信息聚合任务上比强基线提升 6.3-34.0%，同时减少 93-145 次迭代，成本比最先进的 ACE 框架低 1.7-5.8 倍。在上下文学习任务上，PEEK 的解决率和评分准确率分别提升 6.0-14.0% 和 7.8-12.1%，成本仅为 ACE 的 1.4 倍，且泛化到不同语言模型和智能体架构。

论文长上下文智能体缓存策略上下文地图 PEEK

推荐理由：PEEK 解决了长上下文智能体在重复场景中反复“从头探索”的痛点，做文档分析或代码库维护的开发者可以直接用，能显著降低推理成本并提升准确率。

原文

11:41

arXiv: Google DeepMind@Bosun Liang, Shuo Pei, Zirui Chen, Chuanzhi Fan, Chen Sun, Yuankai Wu, Huachun Tan, Yong Wang

精选

强化学习常产生高频振荡控制信号，影响物理部署的安全与稳定。显式动作分块虽能预测固定轨迹，但会扩大策略输出维度，导致优化困难。本文提出双窗口平滑（DWS）框架，通过隐式动作分块实现平滑连续控制，无需扩展动作空间。DWS包含执行窗口（确保物理平滑）和价值窗口（修正评论家偏差），并引入轻量级时序正则化器。在DeepMind控制套件、工业能源管理及视觉自动驾驶任务中，DWS超越现有方法，实现100%成功率。

论文强化学习连续控制动作分块平滑控制 DWS

推荐理由：做机器人控制或自动驾驶的团队，DWS解决了强化学习控制信号抖动这个老大难问题，无需增加模型复杂度就能提升安全性和成功率，值得在你们的仿真或实机任务上试试。

原文

11:39

arXiv cs.LG@Thien Le, Melanie Weber

精选

本文研究了在组合优化任务中，如何将大型模型的知识蒸馏到更小、更高效的模型。作者假设目标模型是图神经网络，其架构与任务的动态规划算法对齐。基于决策树蒸馏的最新理论分析，论文证明了当源模型足够丰富（通过线性表示假设形式化）时，蒸馏问题可以在动态规划转移函数的复杂度参数内高效解决。该工作为算法对齐框架下的成功蒸馏提供了严格充分条件。

论文蒸馏组合优化图神经网络算法对齐动态规划

推荐理由：组合优化任务通常依赖大型模型，但部署成本高。本文给出了理论保证，让做图神经网络和算法对齐的开发者知道何时可以安全地蒸馏到小模型，值得关注。

原文

11:37

arXiv cs.LG@Parsa Esmati, Junha Hyung, Amirhossein Dadashzadeh, Jaegul Choo, Majid Mirmehdi

精选

扩散和流生成模型依赖引导机制对齐样本与用户输入，但现有方法如无分类器引导（CFG）是启发式的速度/分数线性组合，忽略生成流形几何，导致概率不守恒，强引导下样本偏离流形。研究者通过连续性方程分析引导，将其分解为散度项和分数平行项，并证明散度项在接近数据流形时结构性地发散。基于此提出自适应流形引导（AdaMaG），通过时间依赖调度和分数平行衰减同时约束两项，无需额外推理成本。实验表明，AdaMaG在图像生成基准上提升真实感、减少幻觉，并在高引导强度下实现受控去饱和。

论文扩散模型流生成模型引导机制概率守恒 AdaMaG

推荐理由：做图像生成的开发者终于有了理论扎实的引导方法——AdaMaG解决了CFG强引导下样本失真和幻觉问题，直接提升生成质量，建议做扩散模型的团队试试。

原文

11:35

arXiv cs.LG@Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta

精选72°

论文进化算法编码智能体 LLM EvoTrace 基准分析

推荐理由：做 AI 编码智能体或进化算法研究的开发者，这篇论文帮你拆解了 benchmark 分数的真实来源——别再只看最终得分了，EvoTrace 让你看清智能体到底在“进化”什么。

原文

11:31

arXiv cs.LG@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

精选

投机解码通过草稿-验证范式加速大模型推理，但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟，却会丢弃潜在有效候选，导致接受率无法达到稠密树的上限。本文提出Graft框架，将剪枝与检索作为相互增强的操作：剪枝释放计算预算，检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制，以近乎零开销将高预测性的检索令牌填入剪枝空位，无需训练且无损。在短上下文、长上下文及大规模模型（如Qwen3-235B）上，Graft实现了最高5.41倍加速，平均加速比EAGLE-3提升21.8%，并初步探索了在非自回归草稿范式中的应用。

论文投机解码推理加速剪枝检索补偿大模型部署

推荐理由：做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失，直接提升EAGLE-3 21.8%的加速比，搞LLM部署的值得试试。

原文

11:30

arXiv cs.LG@Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe

精选

该论文通过高维分析框架，研究了预训练表征维度对下游线性探测泛化性能的影响。作者将预训练建模为无标签数据的主成分分析，下游任务建模为有标签数据的线性回归，并推导出训练误差和泛化误差的精确表达式。研究发现，当预训练数据充足但下游数据稀缺时，最大压缩的表征最优；而当预训练数据有限时，高维表征泛化更好。论文还量化了无标签数据与有标签数据之间的替代关系，并在自编码器和预训练大语言模型中观察到类似现象。

论文预训练表征学习泛化理论线性探测高维分析

推荐理由：这篇论文为预训练表征的维度选择提供了理论指导，做迁移学习或模型压缩的研究者可以直接参考其结论来优化训练策略。

原文

11:28

arXiv cs.LG@Robert Jenkinson Alvarez

精选

论文指出JEPA（联合嵌入预测架构）通常将单视图嵌入正则化为各向同性高斯分布，这隐含地引入了欧几里得对称性，但并非无害。当下游几何结构已知时，最优协方差应为哈密顿能量预算下的(c/d)H^{-1}，各向同性会导致可量化的性能损失。当下游几何未知时，任何固定边际目标都可能与某些结构严重不匹配。作者提出HamJEPA，将每个视图编码为相空间状态(q,p)，并用可学习的哈密顿跳蛙映射预测视图间转换，非各向同性尺度和谱底防止崩溃。在CIFAR-100上，HamJEPA在30轮时比SIGReg提升+4.89 kNN@20和+3.52线性探针点，80轮时提升+6.45 kNN@20和+10.64线性探针点。在ImageNet-100上，45轮时提升+4.82 kNN@20和+7.52线性探针点。

论文 JEPA 表示学习哈密顿几何自监督学习各向同性

推荐理由：这篇论文戳破了JEPA中“各向同性正则化无害”的默认假设，做自监督表示学习的团队值得关注——它用哈密顿几何给出了更优的耦合方式，实验提升显著且理论扎实。

原文

11:26

arXiv cs.LG@Ben Wooding, Hongchao Zhang, Taylor T. Johnson, Abolfazl Lavaei

精选

传统离散时间屏障证书要求安全函数每一步都非增，约束严格。本文提出 k-inductive 屏障证书，允许函数在 k-1 步内暂时增加（每步不超过阈值 ε），同时保证整体安全，提升了灵活性。研究利用神经网络构建 k-inductive 神经屏障证书（k-NBCs），适用于部分未知的非线性系统。为解决神经网络缺乏形式化保证的问题，采用反例引导归纳合成（CEGIS）与可满足性模理论（SMT）验证，但传统方法需已知系统动力学。本文借助 Willems 基本引理的推广，仅用单条状态轨迹构建数据驱动表示，实现未知模型的 SMT 验证，且不牺牲精度。在三个非线性案例上验证了方法的有效性。

论文安全验证神经屏障证书未知非线性系统 CEGIS-SMT 数据驱动

推荐理由：做安全关键系统（如自动驾驶、机器人）验证的团队，终于有了处理未知动力学的方法——用一条轨迹就能生成带形式保证的屏障证书，比传统依赖精确模型的方式实用得多，值得关注。

原文

11:24

arXiv cs.LG@Emaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

精选76°

Toto 2.0 是一系列开源时间序列基础模型，参数规模从 4M 到 2.5B，展示了单一训练配方即可实现预测质量的可靠提升。该模型家族在 BOOM、GIFT-Eval 和 TIME 三个基准上刷新了最先进水平。研究团队详细描述了架构、训练数据、超参数迁移管道等设计决策。所有五个基础检查点均以 Apache 2.0 许可证开源。这项工作标志着时间序列预测领域正式进入规模扩展时代。

论文时间序列预测基础模型开源/仓库规模扩展 Toto 2.0

推荐理由：时间序列预测终于有了可扩展的基础模型，做金融、能源、运维等预测任务的团队可以直接用开源权重，值得关注。

原文

11:20

arXiv cs.LG@Ken Nakamura, Tomoya Nakai, Ryuto Yashiro, Ayumu Yamashita, Kaoru Amano

精选

本文提出一个统一框架，通过识别预测恢复的响应维度来评估人工视觉模型与人类视觉皮层的对齐程度，而不仅仅是依赖预测精度。利用重复fMRI测量，先确定可重复预测的脑响应维度，再量化模型或他人脑信号对这些维度的恢复程度。在自然场景数据集上的实验显示，早期到中期视觉皮层存在低维可重复维度，脑间比较可提供诊断性人类参考。预训练和随机初始化模型有时预测精度相似，但恢复轮廓不同，表明仅靠预测精度可能掩盖模型与大脑的失配。该框架为评估模型-大脑对齐提供了更诊断性的方法。

论文视觉模型大脑对齐 fMRI 预测精度可重复维度

推荐理由：做视觉模型与脑科学交叉研究的团队，终于有了一个能诊断模型到底恢复了大脑哪些维度的工具，而不是只看一个精度数字。建议做fMRI或视觉编码模型的点开，看完会重新理解什么才是真正的模型-大脑对齐。

原文

11:19

arXiv cs.LG@Jintao Li, Weichang Li, Kai Tong, Xaingyu Guo

精选

FiLark 是一个专为分布式声学传感（DAS）设计的 Python 框架，采用“流式优先”原则统一处理数据访问、信号处理、可视化和监控。它解决了传统批处理框架无法高效处理连续、超高通道数据流的问题，支持交互式浏览任意长录音、在数据流中直接标注事件，并集成 CPU/GPU 加速的信号处理库。该框架通过统一的流抽象，使交互式开发的处理配置可直接迁移到生产流水线，无需修改。

论文分布式声学传感流式处理 Python框架信号处理可视化

推荐理由：DAS 领域的研究者和工程师终于有了一个能处理连续数据流的工具，不用再手动切片段做离线分析了。做地震监测、管道检测或声学事件标注的团队，可以直接用 FiLark 搭建从探索到部署的完整工作流。

原文

11:17

arXiv cs.LG@Zhen Xiong, Shang-Ling Hsu, Cyrus Shahabi

精选

TrajTok 是一种新型轨迹编码器，通过自适应多分辨率六边形网格分词和掩码标记预训练，从原始GPS轨迹中学习可迁移的轨迹表征。它解决了传统网格分词中细粒度导致稀疏、粗粒度混淆运动模式的问题。TrajTok 使用分解式Transformer编码器，分别处理几何和运动学特征，并通过交叉注意力融合。在Porto数据集上，冻结的TrajTok编码器配合轻量任务适配器，在轨迹相似性搜索、分类、预计到达时间等任务上超越多个专用方法。这表明多分辨率空间分词与掩码预训练是构建通用轨迹基础模型的有前景方向。

论文轨迹表征空间分词 Transformer 预训练 GPS数据

推荐理由：做轨迹分析或时空数据挖掘的团队，TrajTok 提供了一种无需为每个任务单独训练模型的通用方案，值得关注其预训练权重和代码开源。

原文

11:15

arXiv cs.LG@Aurélien Pion, Emmanuel Vazquez

精选

贝叶斯优化依赖高斯过程预测分布来选择评估点，但核函数和超参数选择可能导致预测分布校准不良，影响探索-利用平衡。针对最小化问题，期望改进等采样准则依赖于当前最优值以下的预测分布，下尾校准直接决定采样决策。本文提出tcGP，一种后处理方法，专门校准高斯过程在低阈值以下的预测分布，并证明基于tcGP的EI全局优化算法在设计空间中是稠密的。标准基准实验表明，tcGP相比标准GP和全局校准GP，显著改善了下尾校准和贝叶斯优化性能。

论文贝叶斯优化高斯过程下尾校准期望改进 tcGP

推荐理由：做贝叶斯优化的团队终于有了专门解决下尾校准问题的工具——tcGP直接提升低值区域的预测可靠性，让EI采样更精准，做超参数调优或实验设计的建议试试。

原文

11:13

arXiv cs.LG@Yuchen Wu, Kangjie Zhou, Weijie Su

精选

本文研究了在结构化交互学习环境中，生成模型因反复使用其他模型生成的合成数据而导致性能退化（模型崩溃）的条件。作者用有向图形式化模型间的交互模式，发现模型崩溃的发生关键取决于交互图的拓扑结构。他们推导出模型崩溃发生的充要条件，并为线性回归和一般M估计器建立了有限样本和渐近理论保证。这项研究填补了此前仅关注单模型自训练而忽略多模型交互场景的空白。

论文模型崩溃交互学习生成模型有向图统计学习

推荐理由：做生成模型训练或数据增强的团队，这篇论文帮你搞清楚多模型交互时什么时候会踩坑——交互图拓扑是决定因素，值得仔细看看理论条件。

原文

11:11

arXiv cs.LG@Sudheer Tubati, Amit Goyal

精选

音乐流媒体欺诈（如人为刷播放量）对平台和创作者构成威胁，但传统检测方法难以区分合法边缘案例（如超级粉丝、睡眠音乐会话）与欺诈行为。研究者提出SAGE方法，结合SimHash分层采样与模块化门控集成，从无标签数据中可靠识别负样本。该方法通过可配置统计门（马氏距离和k-NN密度）实现精度-召回率自适应权衡，并解决正-无标签学习中的表示偏差问题。在客户级和艺术家级欺诈检测任务上均表现优异，无需修改核心方法即可跨领域泛化。

论文欺诈检测负样本挖掘门控集成 SimHash 正-无标签学习

推荐理由：SAGE解决了欺诈检测中难以区分合法异常与真实欺诈的痛点，做风控或流媒体反作弊的团队可以直接参考其门控集成思路，值得一试。

原文

11:09

arXiv cs.LG@Antonio Peña Corredor, Julien Lesseur, Romain Nunez, Paul Rivalland, Thomas Philippe

精选

航空SiC/SiC复合材料的X射线CT无损检测依赖专家目视评估，缺乏可追溯性。研究团队提出p-ResNet-50，在卷积网络中引入原型层，将高检测精度与基于案例的解释结合。六个学习原型与专家定义的语义类别（健康基体、基体-空气界面、孔隙、线状缺陷、混合形态）对齐，每个分类都可追溯到物理有意义的参考。通过锚点和中心点正则化项防止原型坍缩，UMAP潜空间分析明确标出模型可靠与不可靠区域。在约12000个补丁的数据集上，p-ResNet-50达到与黑盒ResNet-50相当的精度（0.957 vs 0.959），同时提供可追溯决策和不确定性标记。

论文可解释AI 缺陷检测 X射线CT 原型网络 SiC/SiC复合材料

推荐理由：做工业无损检测或AI可解释性研究的团队会感兴趣——p-ResNet-50在保持高精度的同时让黑盒模型变得可审计，航空质检场景可以直接参考其原型对齐方法。

原文

11:06

arXiv cs.LG@Keanu Nichols, Divya Appapogu, Giscard Biamby, Dina Bashkirova, Anna Rohrbach, Bryan A. Plummer

精选

随着生成式 AI 的普及，图像篡改变得愈发容易，可能传播虚假信息。然而，现有研究缺乏针对不同视觉域中高级篡改的检测方法。为此，研究者提出了 AUDITS 基准，包含超过 53 万张来自用户和新闻照片的图像，利用扩散模型进行修复，支持对篡改类型、大小、质量及域迁移的多轴分析。实验评估了现有检测方法在不同域迁移下的鲁棒性，旨在推动更可靠、泛化的图像篡改检测研究。

论文图像篡改检测 AUDITS 基准扩散模型域迁移视觉安全

推荐理由：图像篡改检测是 AI 安全的关键环节，AUDITS 为研究者提供了首个大规模多轴基准，做视觉取证或 AI 安全的人可以直接用它来评估和提升模型鲁棒性。

原文

11:04

arXiv cs.LG@Xinyang Tian, Ruitao Liu, Ziyi Ye, Siyang Xue, Xin Wang, Xuesong Chen

精选

该研究提出一种基于微状态的通用脑电图（EEG）表征学习方法。传统EEG分析依赖时域或频域特征，而微状态作为脑活动在微观时间尺度上的基本构建块，能更简洁地编码信号。研究者从大规模医疗EEG数据集中通过聚类构建了通用微状态分词器，将连续EEG信号转化为离散微状态序列。该分词器在睡眠分期、情绪识别和运动想象分类等多个下游任务中表现优于传统时频域特征，且在不同模型上均有一致提升。进一步分析表明，微状态方法具有更强的可解释性和可扩展性，为认知神经科学和临床研究开辟了新应用。

论文 EEG表征学习微状态脑机接口通用分词器神经信息学

推荐理由：做脑机接口或神经信息处理的团队，微状态分词器直接提升了多任务泛化能力，比调时频特征更省力，值得在自家数据集上试试。

原文

10:55

arXiv: DeepSeek@Yanhang Li, Zhichao Fan, Zexin Zhuang

精选

该研究审计了推理模型在遗忘后是否仍通过思维链泄露已遗忘内容。使用 DeepSeek-R1-Distill-Qwen-7B 和 LoRA 记忆虚构作者，通过 NPO 遗忘和六 token canary 头条件，发现思维链替换为短非 canary 前缀可显著降低答案率，而 bypass 间隙本身不能可靠指示权重级记忆。不同种子下结果不一致，甚至出现反转。推荐在标准审计外增加解码时模板替换作为廉价检查。

论文推理模型遗忘审计思维链记忆残留 DeepSeek-R1

推荐理由：做模型遗忘审计的团队会发现，思维链泄露可能被误判为权重记忆，这篇论文提供了一个简单有效的 sanity check 方法，值得在评估流程中加上。

原文

10:53

arXiv: DeepSeek@Aman Desai

精选

RooAgent 是一个基于 LLM 的自然语言接口，专为高能物理领域的 Root 数据分析设计。它将物理分析函数封装为工具，让 LLM 智能体根据自然语言指令调用，支持直方图检查、事件选择、运动学分布可视化、拟合和显著性估计等任务。该工具提供两种运行模式：基于 LangGraph 的智能体（兼容 GPT-4.1 和 DeepSeek-V3），以及 MCP 服务器模式（用于 Anthropic Claude CLI）。通过 Monte Carlo 模拟和 ATLAS 开放数据测试，RooAgent 展示了在多任务信号-背景工作流中的有效性。代码已开源在 GitHub 并可通过 PyPI 安装。

AI产品 LLM智能体高能物理 Root数据分析开源/仓库 MCP/工具

推荐理由：高能物理研究者终于有了一个能用自然语言操作 Root 数据的智能体，省去手动写脚本的繁琐，做粒子物理分析的团队可以直接试试。

原文

10:51

arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila

精选

研究人员提出一个基于强化学习的框架，将提示词优化建模为序列决策问题。PPO代理通过混合动作空间（直接生成、遗传变异、语义重写）迭代改进提示词，并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上，使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器，PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1，优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明，带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。

论文提示词优化强化学习代码生成 PPO LLM

推荐理由：做LLM代码生成或提示词工程的开发者，这个框架直接解决了提示词敏感性问题——用RL自动优化提示词，比手动调参高效得多，建议关注其混合动作空间和奖励设计。

原文

10:49

arXiv: DeepSeek@Adrien Bazoge, Josselin Corvellec, Sofiane Djillali Sid-Ahmed, Pierre-Antoine Gourraud

精选

一项新研究评估了提示语言对大型语言模型临床诊断推理和最终诊断准确性的影响，比较了英文和法文下五个模型（o3、DeepSeek-R1、GPT-4-Turbo、Llama-3.1-405B-Instruct、BioMistral-7B）的表现。180个临床案例由两位医生使用18分量表评估，涵盖16个医学专科。结果显示，除o3外，其他四个模型在英文提示下表现更好，平均差异0.37-0.91分，差异体现在鉴别诊断、逻辑结构和内部有效性等多个推理维度。这表明提示语言仍是LLM临床性能的关键决定因素，对全球语言文化公平部署具有重要影响。

论文 LLM 临床决策支持多语言诊断推理 o3

推荐理由：医疗AI开发者需要注意：你的模型在非英语场景下可能掉链子，o3是唯一不受语言影响的例外。做多语言临床决策支持的团队，这篇论文值得细读。

原文

10:47

arXiv: DeepSeek@Dawei Tian, Jiakun Liu, Yun Peng, Yichen Zhang, Jianlei Chi, Jun Sun, Xiaohong Su

精选

MuMuTestUp 是一个基于变异测试的多智能体框架，用于自动更新因代码变更而过时的测试用例。它通过三个专门智能体（变异分析、覆盖分析、语义检索）分别强化断言、定位未覆盖行/分支、处理幻觉问题，解决了现有方法忽略断言充分性、依赖粗粒度行覆盖、无法处理 LLM 幻觉查询的三大局限。研究还构建了包含 571 个样本的 PRBENCH 数据集，在开源和闭源 LLM 上均优于现有基线。该工作对持续集成/持续部署（CI/CD）环境下的测试维护有重要价值。

论文测试用例更新多智能体变异测试 CI/CD PRBENCH

推荐理由：测试维护是 CI/CD 的痛点，MuMuTestUp 用变异测试和多智能体协作解决了断言弱和覆盖不全的问题，做自动化测试或持续集成的团队值得关注。

原文

10:46

arXiv: DeepSeek@Shuyu Wei, Jian Sun, Delai Qiu, Yining Wang, Shengping Liu, Jiaen Liang, Ying Fu, Wei Huang, Jitao Sang

精选

针对大语言模型推理中响应长度与准确率的权衡问题，研究者提出条件熵塑形（CES）框架。CES基于DAPO，利用token级熵作为不确定性信号，对正确推理路径的高熵“分叉点”进行惩罚以提升简洁性，对错误路径的高熵点给予奖励以鼓励探索。在DeepSeek-R1-Distill-7B上测试12个数学基准，CES在保持或提升准确率的同时显著缩短响应长度，在1.5B小模型和域外基准上也有类似效果。该方法为自适应推理提供了新思路，尤其适合需要高效准确推理的场景。

论文推理模型熵塑形响应长度优化 DeepSeek-R1-Distill-7B 数学推理

推荐理由：做LLM推理优化的团队终于有了一个能同时提升准确率和缩短响应长度的方案——CES框架在数学推理任务上效果显著，建议做模型推理效率的开发者点开看看具体实现。

原文

10:44

arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

精选

GoLongRL 是一个完全开源的长上下文强化学习训练方案，包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法，覆盖 9 种任务类型，每个任务配有自然评估指标，数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下，GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集，且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外，论文提出 TMN-Reweight 方法，通过任务级均值归一化和难度自适应加权，解决异构奖励优化问题，进一步提升平均性能并保持通用能力。

论文长上下文强化学习开源/仓库 RLVR 多任务对齐

推荐理由：长上下文 RL 训练的数据构建和奖励设计一直是个难题，GoLongRL 提供了开源数据集和优化方法，做长上下文模型训练的团队可以直接复用，省去大量数据构造工作。

原文

10:42

arXiv: DeepSeek@Moiz Arif, Avinash Maurya, Sudharshan Vazhkudai, Bogdan Nicolae

精选72°

本文系统研究了从标准生成式 AI 向推理密集型架构（如长链思维模型）转变时，LLM 推理面临的新瓶颈。研究发现，推理工作负载产生大量推理 token，使推理进入“容量受限”阶段，而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型，论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响，张量并行在 32B 参数附近有次线性增益，而大规模稠密模型受互联和内存带宽限制，稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。

论文推理模型并行策略 KV缓存 MoE 系统优化

推荐理由：这篇论文戳中了推理模型部署的核心痛点——从计算瓶颈转向容量瓶颈，做 LLM 推理优化的工程师和架构师值得细读，能帮你避开常见的并行策略陷阱。

原文

10:40

arXiv cs.AI@Franco Terranova, Guillermo Bernardez, Albert Cabellos-Aparicio, Nina Miolane, Abdelkader Lahmadi

精选

图组合优化（GCO）问题因NP难特性而难以精确求解，现有基于强化学习（RL）和图神经网络（GNN）的方法在泛化性和计算可扩展性上存在局限。本文提出Projection Agents，直接在连续GNN动作嵌入空间中预测潜在动作，并通过单次前向传播解码为有效离散动作，避免了传统逐步搜索的开销。该方法在多个基准上实现最高16.2倍推理加速和40%更好的泛化性能，尤其适用于超线性决策空间。同时，作者开源了LaGCO-RL库，支持自动构建潜在动作空间并兼容现有RL-GCO方案，便于复现和适配新问题。

论文图组合优化强化学习图神经网络潜在动作空间开源/仓库

推荐理由：做图组合优化或RL求解NP-hard问题的研究者，这篇论文解决了泛化差和扩展性瓶颈，16倍加速和40%泛化提升值得一试，开源库还能直接复用。

原文

10:38

arXiv cs.AI@Isaac David, Arthur Gervais

精选

该研究通过构建包含30个本地漏洞分析任务的轨迹基准，比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示，Gemma模型的去对齐版本在安全任务上成功率显著提升（31B从0.7%升至14.0%，26B从0.0%升至10.7%），且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益，Qwen2.5-Coder去对齐版本成功率反而下降（2.0% vs 5.3%），去对齐的Llama变体则无法通过工具协议。研究强调，安全对齐效果应在系统层面测量，区分拒绝率、不安全动作、工具可靠性和证据基础，而非仅依赖拒绝率。

论文安全智能体安全对齐 Gemma 4 Qwen2.5-Coder Llama 3.1

推荐理由：安全智能体开发者需要了解：去对齐模型在漏洞分析任务上可能提升成功率，但效果因模型而异，且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类，避免盲目采用去对齐策略。

原文

10:36

arXiv cs.AI@Husnain Amjad, Raja Khurram Shahzad, Aamir Shahzad, Mehwish Fatima

精选

这篇综述系统梳理了大型语言模型在数学推理领域的最新进展，涵盖约120篇论文。文章提出了统一的数学数据集分类法，区分了预训练语料、监督微调资源和评估基准。它分析了推理架构和训练策略（如工具集成、验证器引导推理、参数高效微调）对鲁棒性和泛化能力的影响。比较评估揭示了最终答案准确率与过程级推理验证之间的差距。最后，论文指出了常见失败模式（如推理忠实性问题、基准偏差）和未来研究方向。

论文推理模型数学推理综述/论文评估基准 LLM

推荐理由：做LLM推理研究或评估的团队，这篇综述帮你系统梳理了120篇论文的脉络，直接拿来当研究起点，省去大量文献筛选时间。

原文

10:35

arXiv cs.AI@Hyunsoo Han, Sangyeop Yeo, Jaejun Yoo

精选

该研究提出了一种名为 LIFT and PLACE 的知识蒸馏框架，用于训练轻量级扩散模型。LIFT 将蒸馏过程分解为粗对齐和细调优两个阶段，先让学生模型学习教师模型的整体分布，再处理细节。PLACE 则通过分组自适应系数处理空间非均匀误差，进一步提升了蒸馏效果。实验表明，该方法在图像/潜空间、U-Net/DiT 骨干网络、条件/无条件生成等场景下均有效，甚至在极端压缩（学生模型仅 1.3M 参数，为教师的 1.6%）时，传统蒸馏方法失效（FID 高达 50-200+），而新方法仍能稳定收敛并达到 FID 15.73。

论文知识蒸馏扩散模型模型压缩 LIFT PLACE

推荐理由：做扩散模型轻量化或模型压缩的团队，终于有了一个在极端压缩下仍能稳定训练的蒸馏方案，值得直接复现实验。

原文

10:33

arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin

精选

ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统，通过残差量化k-means和形式概念分析构建模糊概念图，显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上，ContextRAG仅需30次LLM调用和22,073个token完成索引，而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%，多跳任务F1为36.8%。分析表明，检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。

论文 RAG 图构建多跳问答形式概念分析效率优化

推荐理由：做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销，多跳问答效果还更好，做知识密集型问答的开发者值得一试。

原文

10:31

arXiv cs.AI@Wen Shi, Zhe Wang, Huafei Huang, Qing Qing, Ziqi Xu, Qixin Zhang, Xikun Zhang, Renqiang Luo, Feng Xia

精选

TERGAD 是一种新型图异常检测框架，通过大语言模型将节点拓扑属性转化为自然语言描述，生成高维语义嵌入，再与原始节点特征自适应融合。该方法解决了现有文本增强方法忽略节点结构上下文的问题，能检测由内容与拓扑不一致导致的复杂异常。在六个真实数据集上，TERGAD 持续优于现有基线，消融实验验证了结构语义引导和门控融合机制的有效性。代码已开源。

论文图异常检测大语言模型结构语义增强门控融合开源/仓库

推荐理由：做图异常检测的研究者终于有了一个能同时利用结构语义和文本特征的框架——TERGAD 用 LLM 把拓扑信息翻译成自然语言，比纯数值特征更易捕捉异常模式，建议做 GAD 的团队直接跑一下开源代码。

原文

10:29

arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge

精选72°

EngiAI 是一个针对大型语言模型（LLM）在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度：工作流基准（7种提示风格，涵盖直接工具使用、语义消歧、条件分支等）、检索增强生成（RAG）基准（通过门控评分隔离检索对参数选择的贡献）以及高性能计算（HPC）基准（评估SLURM集群上的端到端ML训练编排）。EngiAI 参考实现基于LangGraph，通过监督架构协调7个专业智能体，统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上，专有模型平均任务完成率达96-97%，而开源4B参数模型为55-78%，条件分支任务最具挑战性（Photonics2D上完成率降至20-53%）。RAG门控验证了检索增强评分接近完美（≈1.0），而无检索时接近零，HPC编排中一个模型100%完成所有步骤，另一个仅50%，揭示了多步骤指令遵循在长工作流中会退化。

论文多智能体系统工程设计基准测试 LangGraph RAG

推荐理由：做工程设计自动化或LLM多智能体系统的开发者，这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板，建议直接参考EngiAI框架来测试自己的方案。

原文

10:27

arXiv cs.AI@Yin Xiaolong, Liu Yu, Shen Jiahang, Lu Xingyu, Ni Jingzhe, Fan Fengxiao, Sang Fan

精选

本文提出一种记忆增强的强化学习框架，用于自动生成计算机辅助设计（CAD）模型。现有基于大语言模型的方法在处理长操作序列、多样操作类型和强几何约束的复杂CAD时，常因推理链断裂和缺乏纠错机制而失败。新框架将底层几何内核封装为可调用的结构化工具链，构建了从意图理解、全局规划、执行到多维验证的闭环机制，并设计了包含案例库和技能库的双轨记忆模块及动态效用检索算法。通过引入强化学习优化检索与策略，智能体可避免语义相似但几何不可行的检索陷阱，实现在线自我纠错和持续进化，无需额外大规模标注数据。实验表明，该方法在复杂CAD生成任务上显著提升了成功率和几何一致性。

论文 CAD生成强化学习记忆增强智能体几何约束

推荐理由：做CAD自动生成或智能制造AI的团队，这个框架解决了长序列建模和几何约束的痛点，强化学习+记忆库的设计值得参考，可以直接复现实验。

原文

10:25

arXiv cs.AI@Yannis Bendi-Ouis, Romain de Coudenhove, Xavier Hinaut

精选

CogScale 是一个包含 14 个可扩展合成任务的基准测试，旨在隔离和评估模型在不同参数规模下的认知与记忆能力。它提供了一个轻量级标准化框架，让研究者无需大规模训练即可快速验证架构创新。研究者在严格参数预算（1k、10k、100k）下评估了 GRU、LSTM、xLSTM、ESN、Mamba、Transformer 解码器和编码器-解码器七种架构。结果显示，经典 RNN 和回声状态网络在严格参数预算下擅长基础记忆，但只有注意力机制和现代状态空间模型在推理复杂度和任务难度提升时保持高性能。

论文基准测试序列处理记忆能力推理模型 CogScale

推荐理由：序列模型研究者终于有了一个轻量级、可扩展的评估工具，CogScale 能帮你快速筛选架构创新，避免盲目大规模训练的高成本。做记忆与推理能力对比的团队可以直接用这个基准来验证新想法。

原文

10:24

arXiv cs.AI@Yuze Zhao, Junpeng Fang, Lu Yu, Zhenya Huang, Kai Zhang, Qing Cui, Qi Liu, Jun Zhou, Enhong Chen

精选72°

这篇论文通过控制预训练实验，重新审视了代码训练对语言模型推理能力的影响。研究发现，纯代码主要提升编程能力，而非通用推理能力，甚至与数学等知识密集型任务存在竞争关系。真正提升数学推理的是跨领域的结构化推理信号，如代码-文本和数学-文本混合数据。在固定数学预算下，增加结构化数学样本密度能显著提升复杂数学推理，同时保持编程性能。分析还显示，数据组成效应反映在专家激活模式中，为跨领域的竞争与协同提供了机制层面的证据。

论文推理模型预训练数学推理代码训练数据策略

推荐理由：这篇论文戳破了“代码训练提升通用推理”的迷思，做预训练数据策略的团队值得细看——它指明了如何通过结构化推理信号精准优化数学能力，而非盲目堆代码。

原文

10:22

arXiv cs.AI@Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bunsow Boldt, Paolo Burelli, Andrew Burke Dittberner

精选

现有情感计算与社交信号处理数据集难以支持对同地小组中个体、人际和群体层面的情感耦合分析。研究者推出了GroupAffect-4，包含10组共40名参与者在四种协作任务（信息汇集、谈判、创意生成、公共物品博弈）中的多模态数据。每位参与者佩戴腕式生理传感器、眼动追踪眼镜和近讲麦克风，并收集连续情感自评、任务后问卷、任务结果和大五人格评分，所有数据通过共享时钟对齐。数据集覆盖91%以上的预期生理窗口和98%的眼动窗口，谈判任务的情感操纵检验验证了任务有效性。它定义了15个基准目标，涵盖个体内状态、个体间特质和群体动态三个分析层次，并提供了留一组交叉验证的可行性基线。数据集以BIDS风格结构、Croissant元数据、数据表、每会话质量报告和开源处理脚本发布。

论文多模态数据集情感计算协作交互生理信号眼动追踪

推荐理由：做情感计算、社交信号处理或小组协作研究的团队终于有了一个覆盖个体、人际和群体三层次的高质量多模态数据集，数据完整性和任务效度都经过验证，可以直接用于训练和评估模型。

原文

10:20