全部 AI 动态 · AI 热点

5月20日

15:12

AI Will@FinanceYF5

精选72°

Google 提出 Nexus 框架，将时间序列预测从纯数值模式匹配转向事件驱动的推理问题。Nexus 通过多个智能体分别处理历史文本事件、宏观环境、局部冲击，并由合成器校准，让模型理解数字背后的原因。在 Zillow 房价测试中，基于 Claude 的版本相比直接思维链提示，平均绝对百分比误差（MAPE）降低 86.6%。虽然目前仅在有限数据集上验证，但方向明确：未来的预测不仅要外推曲线，还要解释曲线为何移动。

论文时间序列预测智能体推理模型 Google Claude

推荐理由：做时间序列预测的团队终于有了一个能理解「为什么涨跌」的框架，Nexus 把事件和数字结合，效果显著。做量化、经济预测或房地产分析的建议点开论文看看。

原文

15:10

AI Will@FinanceYF5

精选

Nexus 是一个基于智能体的时间序列预测框架，将大语言模型与专用预测模型结合，通过多智能体协作完成数据预处理、模型选择、参数调优和结果解释。该框架在多个公开数据集上表现优于传统方法，尤其擅长处理非平稳和缺失数据场景。Nexus 的模块化设计允许用户灵活替换预测引擎，降低了时间序列分析的门槛。论文已在 arXiv 公开，代码预计后续开源。

论文智能体时间序列预测 Nexus 大语言模型开源/仓库

推荐理由：时间序列预测是金融、能源、运维等领域的高频需求，Nexus 用智能体编排替代手动调参，做预测分析的团队可以直接参考其框架设计，省去重复造轮子的时间。

原文

15:08

AI Will@FinanceYF5

精选72°

Google 新论文 Nexus 提出，时间序列预测不应仅依赖历史曲线，还需理解背后的事件。该方法将预测任务拆分为多个 agent：整理事件、判断环境、追踪冲击和综合校准。在 Zillow 数据集测试中，使用 Claude 的 Nexus 版本比普通 CoT 提示平均 MAPE 降低 86.6%。这标志着预测模型从单纯画曲线转向解释曲线为何变动，为金融、房地产等领域提供更可解释的预测。

论文时间序列预测多智能体事件驱动 Google Claude

推荐理由：做时间序列预测的团队终于有了新思路——Nexus 把事件理解引入预测，MAPE 降低 86.6% 的效果值得在业务中试试。

原文

14:43

14:43IT之家（博客/媒体）

精选

美国国家标准与技术研究院（NIST）研究人员提出在月球南极永久阴影坑（温度低至-223°C）布设超稳定激光器。该激光器采用硅光学谐振腔，利用极寒环境稳定频率，避免热胀冷缩影响。未来可构建月球版GPS系统，为宇航员、月球车提供定位，减少对地面测控的依赖。研究成果于5月8日发表在《美国国家科学院院刊》上。

论文 NIST 月球导航永久阴影坑超稳定激光器

推荐理由：月球导航新思路：用阴影坑做激光

原文

12:21

pandaily@contact@pandaily.com (Pandaily)

精选72°

清华大学与阿里巴巴联合发表论文，提出ViT³（Vision Test-Time Training）架构，这是一种纯Transformer模型，在视觉任务中实现了线性计算复杂度。该架构使得在边缘设备上进行高分辨率图像理解成为可能，解决了传统Transformer在视觉应用中计算量过大的问题。该论文已被CVPR 2026接收为Oral论文，标志着视觉Transformer在效率上取得重要突破。

论文视觉Transformer 线性复杂度边缘计算高分辨率图像清华/阿里

推荐理由：视觉Transformer终于突破了计算瓶颈，做边缘计算或高分辨率图像处理的开发者可以直接关注，这可能是部署到手机等设备的关键技术。

原文

11:42

arXiv: OpenAI@Zhuohan Gu, Qizheng Zhang, Omar Khattab, Samuel Madden

精选

PEEK 是一种为长上下文 LLM 智能体设计的系统，通过缓存和维护“上下文地图”来提升其在重复外部上下文（如文档库、代码仓库）中的表现。现有方法要么保留智能体的轨迹、被动访问原始材料，要么保留任务级策略，但都忽略了可复用的方向知识（如上下文内容、组织方式、历史有用的实体和模式）。PEEK 通过三个模块（Distiller、Cartographer、Evictor）将推理信号转化为结构化、固定大小的上下文地图，并嵌入智能体提示中。实验显示，PEEK 在长上下文推理和信息聚合任务上比强基线提升 6.3-34.0%，同时减少 93-145 次迭代，成本比最先进的 ACE 框架低 1.7-5.8 倍。在上下文学习任务上，PEEK 的解决率和评分准确率分别提升 6.0-14.0% 和 7.8-12.1%，成本仅为 ACE 的 1.4 倍，且泛化到不同语言模型和智能体架构。

论文长上下文智能体缓存策略上下文地图 PEEK

推荐理由：PEEK 解决了长上下文智能体在重复场景中反复“从头探索”的痛点，做文档分析或代码库维护的开发者可以直接用，能显著降低推理成本并提升准确率。

原文

11:41

arXiv: Google DeepMind@Bosun Liang, Shuo Pei, Zirui Chen, Chuanzhi Fan, Chen Sun, Yuankai Wu, Huachun Tan, Yong Wang

精选

强化学习常产生高频振荡控制信号，影响物理部署的安全与稳定。显式动作分块虽能预测固定轨迹，但会扩大策略输出维度，导致优化困难。本文提出双窗口平滑（DWS）框架，通过隐式动作分块实现平滑连续控制，无需扩展动作空间。DWS包含执行窗口（确保物理平滑）和价值窗口（修正评论家偏差），并引入轻量级时序正则化器。在DeepMind控制套件、工业能源管理及视觉自动驾驶任务中，DWS超越现有方法，实现100%成功率。

论文强化学习连续控制动作分块平滑控制 DWS

推荐理由：做机器人控制或自动驾驶的团队，DWS解决了强化学习控制信号抖动这个老大难问题，无需增加模型复杂度就能提升安全性和成功率，值得在你们的仿真或实机任务上试试。

原文

11:39

arXiv cs.LG@Thien Le, Melanie Weber

精选

本文研究了在组合优化任务中，如何将大型模型的知识蒸馏到更小、更高效的模型。作者假设目标模型是图神经网络，其架构与任务的动态规划算法对齐。基于决策树蒸馏的最新理论分析，论文证明了当源模型足够丰富（通过线性表示假设形式化）时，蒸馏问题可以在动态规划转移函数的复杂度参数内高效解决。该工作为算法对齐框架下的成功蒸馏提供了严格充分条件。

论文蒸馏组合优化图神经网络算法对齐动态规划

推荐理由：组合优化任务通常依赖大型模型，但部署成本高。本文给出了理论保证，让做图神经网络和算法对齐的开发者知道何时可以安全地蒸馏到小模型，值得关注。

原文

11:37

arXiv cs.LG@Parsa Esmati, Junha Hyung, Amirhossein Dadashzadeh, Jaegul Choo, Majid Mirmehdi

精选

扩散和流生成模型依赖引导机制对齐样本与用户输入，但现有方法如无分类器引导（CFG）是启发式的速度/分数线性组合，忽略生成流形几何，导致概率不守恒，强引导下样本偏离流形。研究者通过连续性方程分析引导，将其分解为散度项和分数平行项，并证明散度项在接近数据流形时结构性地发散。基于此提出自适应流形引导（AdaMaG），通过时间依赖调度和分数平行衰减同时约束两项，无需额外推理成本。实验表明，AdaMaG在图像生成基准上提升真实感、减少幻觉，并在高引导强度下实现受控去饱和。

论文扩散模型流生成模型引导机制概率守恒 AdaMaG

推荐理由：做图像生成的开发者终于有了理论扎实的引导方法——AdaMaG解决了CFG强引导下样本失真和幻觉问题，直接提升生成质量，建议做扩散模型的团队试试。

原文

11:35

arXiv cs.LG@Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta

精选72°

论文进化算法编码智能体 LLM EvoTrace 基准分析

推荐理由：做 AI 编码智能体或进化算法研究的开发者，这篇论文帮你拆解了 benchmark 分数的真实来源——别再只看最终得分了，EvoTrace 让你看清智能体到底在“进化”什么。

原文

11:31

arXiv cs.LG@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

精选

投机解码通过草稿-验证范式加速大模型推理，但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟，却会丢弃潜在有效候选，导致接受率无法达到稠密树的上限。本文提出Graft框架，将剪枝与检索作为相互增强的操作：剪枝释放计算预算，检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制，以近乎零开销将高预测性的检索令牌填入剪枝空位，无需训练且无损。在短上下文、长上下文及大规模模型（如Qwen3-235B）上，Graft实现了最高5.41倍加速，平均加速比EAGLE-3提升21.8%，并初步探索了在非自回归草稿范式中的应用。

论文投机解码推理加速剪枝检索补偿大模型部署

推荐理由：做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失，直接提升EAGLE-3 21.8%的加速比，搞LLM部署的值得试试。

原文

11:30

arXiv cs.LG@Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe

精选

该论文通过高维分析框架，研究了预训练表征维度对下游线性探测泛化性能的影响。作者将预训练建模为无标签数据的主成分分析，下游任务建模为有标签数据的线性回归，并推导出训练误差和泛化误差的精确表达式。研究发现，当预训练数据充足但下游数据稀缺时，最大压缩的表征最优；而当预训练数据有限时，高维表征泛化更好。论文还量化了无标签数据与有标签数据之间的替代关系，并在自编码器和预训练大语言模型中观察到类似现象。

论文预训练表征学习泛化理论线性探测高维分析

推荐理由：这篇论文为预训练表征的维度选择提供了理论指导，做迁移学习或模型压缩的研究者可以直接参考其结论来优化训练策略。

原文

11:28

arXiv cs.LG@Robert Jenkinson Alvarez

精选

论文指出JEPA（联合嵌入预测架构）通常将单视图嵌入正则化为各向同性高斯分布，这隐含地引入了欧几里得对称性，但并非无害。当下游几何结构已知时，最优协方差应为哈密顿能量预算下的(c/d)H^{-1}，各向同性会导致可量化的性能损失。当下游几何未知时，任何固定边际目标都可能与某些结构严重不匹配。作者提出HamJEPA，将每个视图编码为相空间状态(q,p)，并用可学习的哈密顿跳蛙映射预测视图间转换，非各向同性尺度和谱底防止崩溃。在CIFAR-100上，HamJEPA在30轮时比SIGReg提升+4.89 kNN@20和+3.52线性探针点，80轮时提升+6.45 kNN@20和+10.64线性探针点。在ImageNet-100上，45轮时提升+4.82 kNN@20和+7.52线性探针点。

论文 JEPA 表示学习哈密顿几何自监督学习各向同性

推荐理由：这篇论文戳破了JEPA中“各向同性正则化无害”的默认假设，做自监督表示学习的团队值得关注——它用哈密顿几何给出了更优的耦合方式，实验提升显著且理论扎实。

原文

11:26

arXiv cs.LG@Ben Wooding, Hongchao Zhang, Taylor T. Johnson, Abolfazl Lavaei

精选

传统离散时间屏障证书要求安全函数每一步都非增，约束严格。本文提出 k-inductive 屏障证书，允许函数在 k-1 步内暂时增加（每步不超过阈值 ε），同时保证整体安全，提升了灵活性。研究利用神经网络构建 k-inductive 神经屏障证书（k-NBCs），适用于部分未知的非线性系统。为解决神经网络缺乏形式化保证的问题，采用反例引导归纳合成（CEGIS）与可满足性模理论（SMT）验证，但传统方法需已知系统动力学。本文借助 Willems 基本引理的推广，仅用单条状态轨迹构建数据驱动表示，实现未知模型的 SMT 验证，且不牺牲精度。在三个非线性案例上验证了方法的有效性。

论文安全验证神经屏障证书未知非线性系统 CEGIS-SMT 数据驱动

推荐理由：做安全关键系统（如自动驾驶、机器人）验证的团队，终于有了处理未知动力学的方法——用一条轨迹就能生成带形式保证的屏障证书，比传统依赖精确模型的方式实用得多，值得关注。

原文

11:24

arXiv cs.LG@Emaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

精选76°

Toto 2.0 是一系列开源时间序列基础模型，参数规模从 4M 到 2.5B，展示了单一训练配方即可实现预测质量的可靠提升。该模型家族在 BOOM、GIFT-Eval 和 TIME 三个基准上刷新了最先进水平。研究团队详细描述了架构、训练数据、超参数迁移管道等设计决策。所有五个基础检查点均以 Apache 2.0 许可证开源。这项工作标志着时间序列预测领域正式进入规模扩展时代。

论文时间序列预测基础模型开源/仓库规模扩展 Toto 2.0

推荐理由：时间序列预测终于有了可扩展的基础模型，做金融、能源、运维等预测任务的团队可以直接用开源权重，值得关注。

原文

11:20

arXiv cs.LG@Ken Nakamura, Tomoya Nakai, Ryuto Yashiro, Ayumu Yamashita, Kaoru Amano

精选

本文提出一个统一框架，通过识别预测恢复的响应维度来评估人工视觉模型与人类视觉皮层的对齐程度，而不仅仅是依赖预测精度。利用重复fMRI测量，先确定可重复预测的脑响应维度，再量化模型或他人脑信号对这些维度的恢复程度。在自然场景数据集上的实验显示，早期到中期视觉皮层存在低维可重复维度，脑间比较可提供诊断性人类参考。预训练和随机初始化模型有时预测精度相似，但恢复轮廓不同，表明仅靠预测精度可能掩盖模型与大脑的失配。该框架为评估模型-大脑对齐提供了更诊断性的方法。

论文视觉模型大脑对齐 fMRI 预测精度可重复维度

推荐理由：做视觉模型与脑科学交叉研究的团队，终于有了一个能诊断模型到底恢复了大脑哪些维度的工具，而不是只看一个精度数字。建议做fMRI或视觉编码模型的点开，看完会重新理解什么才是真正的模型-大脑对齐。

原文

11:19

arXiv cs.LG@Jintao Li, Weichang Li, Kai Tong, Xaingyu Guo

精选

FiLark 是一个专为分布式声学传感（DAS）设计的 Python 框架，采用“流式优先”原则统一处理数据访问、信号处理、可视化和监控。它解决了传统批处理框架无法高效处理连续、超高通道数据流的问题，支持交互式浏览任意长录音、在数据流中直接标注事件，并集成 CPU/GPU 加速的信号处理库。该框架通过统一的流抽象，使交互式开发的处理配置可直接迁移到生产流水线，无需修改。

论文分布式声学传感流式处理 Python框架信号处理可视化

推荐理由：DAS 领域的研究者和工程师终于有了一个能处理连续数据流的工具，不用再手动切片段做离线分析了。做地震监测、管道检测或声学事件标注的团队，可以直接用 FiLark 搭建从探索到部署的完整工作流。

原文

11:17

arXiv cs.LG@Zhen Xiong, Shang-Ling Hsu, Cyrus Shahabi

精选

TrajTok 是一种新型轨迹编码器，通过自适应多分辨率六边形网格分词和掩码标记预训练，从原始GPS轨迹中学习可迁移的轨迹表征。它解决了传统网格分词中细粒度导致稀疏、粗粒度混淆运动模式的问题。TrajTok 使用分解式Transformer编码器，分别处理几何和运动学特征，并通过交叉注意力融合。在Porto数据集上，冻结的TrajTok编码器配合轻量任务适配器，在轨迹相似性搜索、分类、预计到达时间等任务上超越多个专用方法。这表明多分辨率空间分词与掩码预训练是构建通用轨迹基础模型的有前景方向。

论文轨迹表征空间分词 Transformer 预训练 GPS数据

推荐理由：做轨迹分析或时空数据挖掘的团队，TrajTok 提供了一种无需为每个任务单独训练模型的通用方案，值得关注其预训练权重和代码开源。

原文

11:15

arXiv cs.LG@Aurélien Pion, Emmanuel Vazquez

精选

贝叶斯优化依赖高斯过程预测分布来选择评估点，但核函数和超参数选择可能导致预测分布校准不良，影响探索-利用平衡。针对最小化问题，期望改进等采样准则依赖于当前最优值以下的预测分布，下尾校准直接决定采样决策。本文提出tcGP，一种后处理方法，专门校准高斯过程在低阈值以下的预测分布，并证明基于tcGP的EI全局优化算法在设计空间中是稠密的。标准基准实验表明，tcGP相比标准GP和全局校准GP，显著改善了下尾校准和贝叶斯优化性能。

论文贝叶斯优化高斯过程下尾校准期望改进 tcGP

推荐理由：做贝叶斯优化的团队终于有了专门解决下尾校准问题的工具——tcGP直接提升低值区域的预测可靠性，让EI采样更精准，做超参数调优或实验设计的建议试试。

原文

11:13

arXiv cs.LG@Yuchen Wu, Kangjie Zhou, Weijie Su

精选

本文研究了在结构化交互学习环境中，生成模型因反复使用其他模型生成的合成数据而导致性能退化（模型崩溃）的条件。作者用有向图形式化模型间的交互模式，发现模型崩溃的发生关键取决于交互图的拓扑结构。他们推导出模型崩溃发生的充要条件，并为线性回归和一般M估计器建立了有限样本和渐近理论保证。这项研究填补了此前仅关注单模型自训练而忽略多模型交互场景的空白。

论文模型崩溃交互学习生成模型有向图统计学习

推荐理由：做生成模型训练或数据增强的团队，这篇论文帮你搞清楚多模型交互时什么时候会踩坑——交互图拓扑是决定因素，值得仔细看看理论条件。

原文

11:11

arXiv cs.LG@Sudheer Tubati, Amit Goyal

精选

音乐流媒体欺诈（如人为刷播放量）对平台和创作者构成威胁，但传统检测方法难以区分合法边缘案例（如超级粉丝、睡眠音乐会话）与欺诈行为。研究者提出SAGE方法，结合SimHash分层采样与模块化门控集成，从无标签数据中可靠识别负样本。该方法通过可配置统计门（马氏距离和k-NN密度）实现精度-召回率自适应权衡，并解决正-无标签学习中的表示偏差问题。在客户级和艺术家级欺诈检测任务上均表现优异，无需修改核心方法即可跨领域泛化。

论文欺诈检测负样本挖掘门控集成 SimHash 正-无标签学习

推荐理由：SAGE解决了欺诈检测中难以区分合法异常与真实欺诈的痛点，做风控或流媒体反作弊的团队可以直接参考其门控集成思路，值得一试。

原文

11:09

arXiv cs.LG@Antonio Peña Corredor, Julien Lesseur, Romain Nunez, Paul Rivalland, Thomas Philippe

精选

航空SiC/SiC复合材料的X射线CT无损检测依赖专家目视评估，缺乏可追溯性。研究团队提出p-ResNet-50，在卷积网络中引入原型层，将高检测精度与基于案例的解释结合。六个学习原型与专家定义的语义类别（健康基体、基体-空气界面、孔隙、线状缺陷、混合形态）对齐，每个分类都可追溯到物理有意义的参考。通过锚点和中心点正则化项防止原型坍缩，UMAP潜空间分析明确标出模型可靠与不可靠区域。在约12000个补丁的数据集上，p-ResNet-50达到与黑盒ResNet-50相当的精度（0.957 vs 0.959），同时提供可追溯决策和不确定性标记。

论文可解释AI 缺陷检测 X射线CT 原型网络 SiC/SiC复合材料

推荐理由：做工业无损检测或AI可解释性研究的团队会感兴趣——p-ResNet-50在保持高精度的同时让黑盒模型变得可审计，航空质检场景可以直接参考其原型对齐方法。

原文

11:06

arXiv cs.LG@Keanu Nichols, Divya Appapogu, Giscard Biamby, Dina Bashkirova, Anna Rohrbach, Bryan A. Plummer

精选

随着生成式 AI 的普及，图像篡改变得愈发容易，可能传播虚假信息。然而，现有研究缺乏针对不同视觉域中高级篡改的检测方法。为此，研究者提出了 AUDITS 基准，包含超过 53 万张来自用户和新闻照片的图像，利用扩散模型进行修复，支持对篡改类型、大小、质量及域迁移的多轴分析。实验评估了现有检测方法在不同域迁移下的鲁棒性，旨在推动更可靠、泛化的图像篡改检测研究。

论文图像篡改检测 AUDITS 基准扩散模型域迁移视觉安全

推荐理由：图像篡改检测是 AI 安全的关键环节，AUDITS 为研究者提供了首个大规模多轴基准，做视觉取证或 AI 安全的人可以直接用它来评估和提升模型鲁棒性。

原文

11:04

arXiv cs.LG@Xinyang Tian, Ruitao Liu, Ziyi Ye, Siyang Xue, Xin Wang, Xuesong Chen

精选

该研究提出一种基于微状态的通用脑电图（EEG）表征学习方法。传统EEG分析依赖时域或频域特征，而微状态作为脑活动在微观时间尺度上的基本构建块，能更简洁地编码信号。研究者从大规模医疗EEG数据集中通过聚类构建了通用微状态分词器，将连续EEG信号转化为离散微状态序列。该分词器在睡眠分期、情绪识别和运动想象分类等多个下游任务中表现优于传统时频域特征，且在不同模型上均有一致提升。进一步分析表明，微状态方法具有更强的可解释性和可扩展性，为认知神经科学和临床研究开辟了新应用。

论文 EEG表征学习微状态脑机接口通用分词器神经信息学

推荐理由：做脑机接口或神经信息处理的团队，微状态分词器直接提升了多任务泛化能力，比调时频特征更省力，值得在自家数据集上试试。

原文

10:55

arXiv: DeepSeek@Yanhang Li, Zhichao Fan, Zexin Zhuang

精选

该研究审计了推理模型在遗忘后是否仍通过思维链泄露已遗忘内容。使用 DeepSeek-R1-Distill-Qwen-7B 和 LoRA 记忆虚构作者，通过 NPO 遗忘和六 token canary 头条件，发现思维链替换为短非 canary 前缀可显著降低答案率，而 bypass 间隙本身不能可靠指示权重级记忆。不同种子下结果不一致，甚至出现反转。推荐在标准审计外增加解码时模板替换作为廉价检查。

论文推理模型遗忘审计思维链记忆残留 DeepSeek-R1

推荐理由：做模型遗忘审计的团队会发现，思维链泄露可能被误判为权重记忆，这篇论文提供了一个简单有效的 sanity check 方法，值得在评估流程中加上。

原文

10:51

arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila

精选

研究人员提出一个基于强化学习的框架，将提示词优化建模为序列决策问题。PPO代理通过混合动作空间（直接生成、遗传变异、语义重写）迭代改进提示词，并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上，使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器，PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1，优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明，带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。

论文提示词优化强化学习代码生成 PPO LLM

推荐理由：做LLM代码生成或提示词工程的开发者，这个框架直接解决了提示词敏感性问题——用RL自动优化提示词，比手动调参高效得多，建议关注其混合动作空间和奖励设计。

原文

10:49

arXiv: DeepSeek@Adrien Bazoge, Josselin Corvellec, Sofiane Djillali Sid-Ahmed, Pierre-Antoine Gourraud

精选

一项新研究评估了提示语言对大型语言模型临床诊断推理和最终诊断准确性的影响，比较了英文和法文下五个模型（o3、DeepSeek-R1、GPT-4-Turbo、Llama-3.1-405B-Instruct、BioMistral-7B）的表现。180个临床案例由两位医生使用18分量表评估，涵盖16个医学专科。结果显示，除o3外，其他四个模型在英文提示下表现更好，平均差异0.37-0.91分，差异体现在鉴别诊断、逻辑结构和内部有效性等多个推理维度。这表明提示语言仍是LLM临床性能的关键决定因素，对全球语言文化公平部署具有重要影响。

论文 LLM 临床决策支持多语言诊断推理 o3

推荐理由：医疗AI开发者需要注意：你的模型在非英语场景下可能掉链子，o3是唯一不受语言影响的例外。做多语言临床决策支持的团队，这篇论文值得细读。

原文

10:47

arXiv: DeepSeek@Dawei Tian, Jiakun Liu, Yun Peng, Yichen Zhang, Jianlei Chi, Jun Sun, Xiaohong Su

精选

MuMuTestUp 是一个基于变异测试的多智能体框架，用于自动更新因代码变更而过时的测试用例。它通过三个专门智能体（变异分析、覆盖分析、语义检索）分别强化断言、定位未覆盖行/分支、处理幻觉问题，解决了现有方法忽略断言充分性、依赖粗粒度行覆盖、无法处理 LLM 幻觉查询的三大局限。研究还构建了包含 571 个样本的 PRBENCH 数据集，在开源和闭源 LLM 上均优于现有基线。该工作对持续集成/持续部署（CI/CD）环境下的测试维护有重要价值。

论文测试用例更新多智能体变异测试 CI/CD PRBENCH

推荐理由：测试维护是 CI/CD 的痛点，MuMuTestUp 用变异测试和多智能体协作解决了断言弱和覆盖不全的问题，做自动化测试或持续集成的团队值得关注。

原文

10:46

arXiv: DeepSeek@Shuyu Wei, Jian Sun, Delai Qiu, Yining Wang, Shengping Liu, Jiaen Liang, Ying Fu, Wei Huang, Jitao Sang

精选

针对大语言模型推理中响应长度与准确率的权衡问题，研究者提出条件熵塑形（CES）框架。CES基于DAPO，利用token级熵作为不确定性信号，对正确推理路径的高熵“分叉点”进行惩罚以提升简洁性，对错误路径的高熵点给予奖励以鼓励探索。在DeepSeek-R1-Distill-7B上测试12个数学基准，CES在保持或提升准确率的同时显著缩短响应长度，在1.5B小模型和域外基准上也有类似效果。该方法为自适应推理提供了新思路，尤其适合需要高效准确推理的场景。

论文推理模型熵塑形响应长度优化 DeepSeek-R1-Distill-7B 数学推理

推荐理由：做LLM推理优化的团队终于有了一个能同时提升准确率和缩短响应长度的方案——CES框架在数学推理任务上效果显著，建议做模型推理效率的开发者点开看看具体实现。

原文

10:44

arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

精选

GoLongRL 是一个完全开源的长上下文强化学习训练方案，包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法，覆盖 9 种任务类型，每个任务配有自然评估指标，数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下，GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集，且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外，论文提出 TMN-Reweight 方法，通过任务级均值归一化和难度自适应加权，解决异构奖励优化问题，进一步提升平均性能并保持通用能力。

论文长上下文强化学习开源/仓库 RLVR 多任务对齐

推荐理由：长上下文 RL 训练的数据构建和奖励设计一直是个难题，GoLongRL 提供了开源数据集和优化方法，做长上下文模型训练的团队可以直接复用，省去大量数据构造工作。

原文

10:42