全部 AI 动态 · AI 热点

6月18日

10:49

arXiv cs.AI@Diana Magalhães, Eva Maia, João Vitorino, Isabel Praça

XGBoost-Forget是一种针对XGBoost模型的机器遗忘方法，用于删除特定数据点而无需完全重新训练。该方法在IoT-23和GeNIS两个网络入侵表格数据集上评估，使用多项指标衡量模型性能、遗忘效率和遗忘质量。实验表明，XGBoost-Forget在保持接近原始模型预测性能的同时，实现显著更快的遗忘速度，展示了其在表格网络入侵场景中的潜力。

论文 XGBoost 机器遗忘 IoT-23 GeNIS 网络入侵检测

推荐理由：这篇论文提出了XGBoost-Forget，让XGBoost模型能快速遗忘特定数据，在入侵检测数据集上效果不错。

原文

10:47

arXiv cs.AI@Giuseppe Gabriele, Fabio Pavirani, Seyed Soroush Karimi Madahi, Chris Develder

一篇论文提出决策聚焦强化学习（DF-RL）框架，用于控制电动汽车充电，解决未知离开时间问题。该方法将预测器与充电策略进行端到端联合训练，相比不使用离开时间预测的RL方法，总奖励提升14%，未供应能量（因车辆提前离开导致充电失败）减少55%。实验基于历史数据模拟，验证了在不确定性下充电决策质量的改善。

论文强化学习电动汽车充电预测器决策聚焦

推荐理由：这个论文搞了个新训练方式，让预测器和充电策略一起优化，结果充电失败少了一半多，值得做RL调度的看看。

原文

10:46

arXiv cs.AI@Anselm Haak, Patrick Koopmann, Yasir Mahmood, Anni-Yasmin Turhan

该论文研究了EL_bot本体语言中，在修复语义（brave和AR语义）下，ABox溯因问题中组合多个属性（如签名限制、最小冲突等）和最优性标准的假设。作者发现，同时满足多个属性或附加最优性标准通常不会增加计算复杂度。论文通过理论分析证明了这一结果，为知识库缺失蕴涵的解释提供了更实用的假设生成方法。

论文 EL_bot ABox溯因修复语义复杂度

推荐理由：这篇论文讲的是如何组合多个最优属性来生成解释，而且不增加复杂度，对做知识推理的朋友挺有用。

原文

10:43

arXiv cs.AI@Soheyl Bateni, Maryam Abdolali

ClaMPAPP系统将LLM用作特征提取接口，而非直接诊断引擎，对自由文本病历进行模式约束提取后经确定性检查，再输入XGBoost分类器。该系统在两个德国医院独立儿科阑尾炎队列上评估，性能优于端到端LLM基线（包括开源和专有模型）。在内部和外部验证中，ClaMPAPP实现了最强整体诊断性能，并最小化漏诊阑尾炎病例。端到端LLM在敏感度-特异度权衡和叙事重排下表现更不稳定。

论文 ClaMPAPP LLM XGBoost 儿科阑尾炎临床决策支持

推荐理由：这篇论文提出了一个实用设计：用LLM理解病历文本，但把最终判断交给更可靠的机器学习模型，值得做临床AI的看看。

原文

10:43

arXiv cs.AI@Depen Morwani, Alexandru Meterez, Pranav Nair, Sham Kakade

精选

该论文研究了随机重球法（HB）和加速SGD（ASGD）在一致线性回归中的计算效率与串行运行时间权衡。结果表明HB在任意谱下无法超越SGD的计算效率前沿，但允许在比SGD临界批量大sqrtκ倍的窗口内减少串行运行时间。ASGD在快速衰减幂律谱下可提升小批量计算效率，但随着批量增大，牺牲效率换取更优串行时间。合成线性回归实验验证了这些定性规律。

论文 HB ASGD SGD 随机动量方法计算效率

推荐理由：这篇论文把HB和ASGD在批量大小上的效率权衡讲清楚了，特别是那个sqrtκ倍的窗口，对想用动量方法加速训练的人很有参考价值。

原文

10:42

arXiv cs.LG@Nahum Korda, Gadi Evron

OpenAnt是一个开源漏洞发现系统，将静态程序分析与大语言模型推理结合，采用多阶段流水线。它通过代码分解将分析面减少97%，仅保留从外部入口可达的攻击相关代码。系统通过对抗验证模拟攻击者能力评估可利用性，并自动生成动态验证环境在沙箱容器中执行。在OpenSSL、WordPress和Flowise等开源项目评估中，OpenAnt识别了之前未知的漏洞，同时大幅降低误报率。

论文 OpenAnt LLM 漏洞发现代码安全开源项目

推荐理由：OpenAnt把LLM和静态分析结合起来做漏洞挖掘，在三个知名开源项目里发现了新漏洞，误报还少，值得做安全的看看。

原文

10:40

arXiv cs.LG@Mingzhi Song

本文提出局部总体风险证书(Local Population-Risk Certificates)，为当前模型θ周围的候选方向v∈D构建ℓ_{θ+v}-ℓ_θ的两面置信带。该证书的上端点作为风险控制更新规则：仅当上端点非正时才接受更新，否则保留当前模型。这种方法保证了更新不会增加总体风险，为安全模型更新提供了理论保障。

论文风险控制模型更新置信带理论分析

推荐理由：这篇论文用置信带兜底，保证模型更新不会越改越差，适合需要稳妥迭代的场景。

原文

10:39

arXiv cs.LG@Till Richter, Niki Kilbertus

OrthoReg提出了一种正交正则化方法，直接惩罚符号组件与神经组件的重叠，防止符号结构被神经残差吸收。相比标准L2正则化，该方法在符号组件通过稀疏发现学习时仍能保持互补分解。在部分库不匹配的基准动力系统上，OrthoReg改善了符号恢复准确性和分布外泛化性能。

论文 OrthoReg 动力系统混合建模正则化符号回归

推荐理由：这篇论文提出OrthoReg，解决了混合建模中神经网络容易学走符号部分的问题，实验效果明显，写代码的朋友可以看看。

原文

10:38

arXiv cs.LG@Hugo Miccinilli, Theo Di Piazza

ChronoSurv是一个基于有向图的框架，用于头颈癌患者的多模态生存预测。它将患者诊疗过程建模为按诊断步骤对齐的临床轨迹，并通过分层拓扑整合细粒度、粗粒度和全局表示。在两个公开数据集上，ChronoSurv实现了优于现有方法的判别性能，且校准误差达到统计显著水平。消融实验验证了各组件对整体性能的贡献。

论文 ChronoSurv 生存分析多模态头颈癌图神经网络

推荐理由：这篇论文把临床流程做成图结构来预测生存时间，比传统方法更准，适合做医疗AI的朋友看看。

原文

10:37

arXiv cs.LG@Michael Detzel, Gabriel Nobis, Kristiyan Blagov, Juri Schubert, Jackie Ma, Wojciech Samek

INDEQS是一种基于图的神经控制微分方程时间序列预测方法，在架构中分别应用先验有向图信息于内混合（隐藏状态混合）和外混合（向量场与控制信号混合）。该方法提供轻量级图约束变体和支持自适应图卷积的学习变体。在合成的有向图连续平流模拟数据集以及真实世界的河流水位和PeMS08交通流预测任务上，INDEQS的外信息融合变体在参数量相近时，平均绝对误差持续低于未利用先验的NCDE。连续解码器相比离散卷积解码器在准确性和时间灵活性上更优。

论文 INDEQS NCDE 时间序列预测图神经网络控制微分方程

推荐理由：这篇论文把已知图结构嵌入神经微分方程里做时间序列预测，效果比没加图信息的NCDE更好。在河流流量和交通流数据上都有提升，对图和时序结合感兴趣可以看看。

原文

10:36

arXiv cs.LG@Arnaud Lequen, Clément Legrand-Lixon, Léo Saulières

PQLRM算法将Pareto Q-Learning与奖励机器（Reward Machines）结合，维护向量化Q估计来逼近Pareto前沿。实验表明，相比朴素PQL基线，PQLRM在奖励机器编码的非马尔可夫任务中收敛更快。它还能合成QRM无法获得的Pareto最优策略，提升了多目标强化学习的样本效率。

论文 PQLRM Reward Machines Pareto Q-Learning 多目标强化学习

推荐理由：这篇论文提出了PQLRM，把Pareto Q-Learning和奖励机器结合起来，在多目标任务里比基线收敛更快，还能找到普通方法找不到的最优策略。

原文

10:34

arXiv cs.LG@Ousmane Touat, César Sabater, Mohamed Maouche, Sonia Ben Mokhtar

Giskard 是一种面向大规模去中心化学习的聚合协议，同时解决机密性和拜占庭容错问题。它通过将n个参与方组织成大小为O(log n)的委员会树，并利用BGW风格的安全多方计算（MPC）在委员会内执行坐标近似中值分布式二分搜索。理论分析证明了安全性与机密性，实验支持多达100万参与者。与最接近的竞争者相比，Giskard将每方通信复杂度渐近降低，且在少于n/4拜占庭节点下保持模型效用相当。

论文 Giskard Byzantine鲁棒机密聚合去中心化学习安全多方计算

推荐理由：Giskard 用委员会树加多方计算搞定隐私和防御坏节点，支持百万级节点，比现有方案通信量更低，值得做去中心化学习的同学看看。

原文

10:34

arXiv cs.LG@Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

ViGOS是一种针对多模态大语言模型(MLLM)的后训练框架，采用解耦感知与推理的自蒸馏方法(OPSD)。学生模型先生成视觉描述，再基于此进行推理，避免直接利用文本目标产生捷径。实验在通用视觉-语言、专家推理、视觉数学、空间定位和视觉-语言先验五类基准上验证，ViGOS在易出现捷径的场景中显著提升了图像依赖行为。

论文 ViGOS MLLM OPSD 多模态自蒸馏

推荐理由：这篇论文提出了ViGOS，专门解决多模态模型自蒸馏时只看文本不看图的毛病，在多个视觉语言基准上有效果。

原文

10:33

arXiv cs.LG@Antoine Pesenti, Aidan O'Sullivan

该论文使用深度学习（DNN）结合可解释AI（XAI）技术，分析欧洲39个竞价区的电价决定因素。通过SHAP方法和扩展的SSHAP聚合框架量化特征贡献。研究发现太阳能等可再生能源在电价形成中作用突出，尽管其发电占比低；天然气价格仍是主导且一致的驱动因素；跨区域互联显著影响价格动态。论文还构建了一个合成全欧洲统一电力市场的反事实场景。

论文 XAI SHAP DNN 欧洲电力市场可解释性

推荐理由：这篇论文用XAI方法拆解了欧洲39个地区的电价驱动力，告诉你太阳能比想象中更重要、天然气还是老大，还模拟了全欧统一电价会怎样。

原文

10:32

arXiv cs.LG@Yiyan Huang, Cheuk Hang Leung, Qi Wu, Zhiheng Zhang

该论文研究离线策略学习中结果变量为分布的情况，将每个潜在结果视为概率测度，并通过 Wasserstein 重心下的效用函数定义奖励。论文基于 IPW 和 Doubly Robust 估计量建立了统计保证，证明了有限样本后悔率的领先项为 O~(√(N-dim(Π)/N))。在一维 Wasserstein 设定下，后悔率仍由策略类复杂度主导。另外提供了极小化下界，证明了对 N 和 N-dim(Π) 的领先依赖的紧致性。

论文 Wasserstein 离线策略学习分布结果因果推断 IPW

推荐理由：这篇论文把因果推断中的离线策略学习扩展到了分布结果，用Wasserstein重心定义奖励，并给出了严格的统计保证，和传统均值策略学习不同，适合做理论研究的参考。

原文

10:29

arXiv cs.LG@Alexandre Lemire Paquin, Brahim Chaib-Draa, Philippe Giguère

本文研究利用平滑损失函数对PAC-Bayes界进行去随机化，以获得确定性预测器的高概率泛化界。通过后验均值从Gibbs预测器到确定性预测器的代价由Jensen gap类的泛化差距给出，并通过Rademacher复杂度控制。得到的界涉及参数Jacobian和得分映射Hessian表示的平坦度量，适用于有界和无界平滑损失，并特例化为线性预测器和平滑神经网络。理论中的Jacobian和Hessian量启发了一个实用的正则化器，对BatchNorm网络在CIFAR-10上进行了不同批量大小下的实验。

论文 PAC-Bayes 泛化界正则化器 Jacobian CIFAR-10

推荐理由：这篇论文从PAC-Bayes理论推导出一个基于Jacobian和Hessian的新正则化器，在CIFAR-10上验证有效，值得搞泛化理论的人看看。

原文

10:24

arXiv: OpenAI@Yijin Wang, Shuyi Wang, Wenhan Zhang, Yuqi Ouyang

该论文提出了一个多领域基准数据集，包含8602张图像，覆盖商业海报、信息图、学术海报、收据、表格和UI截图6个类别，用于检测OpenAI的GPT Image 2生成的文本丰富图像。在零样本设置下评估了5种AI生成图像检测器，发现性能高度依赖领域：在部分类别表现好的方法在其他类别失败，且最强传统检测器对JPEG压缩敏感。此外，多模态视觉语言模型的初步评估显示其在结构化格式上既有潜力也有局限。

论文 GPT-Image-2 AI生成图像检测多领域基准文本丰富图像多模态检测

推荐理由：想测你手上的AI图片检测器靠不靠谱？这个基准有8602张图、6种类型，还试了5种检测器，发现它们碰上有文字的图片（比如收据、海报）就露馅，连JPEG压缩都扛不住。

原文

10:21

arXiv: DeepSeek@Tom Hadfield

该论文提出一种新的数据流形内在维度度量——Patnaik-Pearson维度，灵感来自HTSR、SETOL以及TwoNN估计器。作者证明权重矩阵经验谱密度服从帕累托分布时，该维度与HTSR和SETOL分析的尾指数临界值一致。通过理论分析和数值实验，研究了该维度在典型神经网络变换下的行为。在BERT-base和DeepSeek-R1-Distill-Qwen-1模型上，计算了token嵌入初始数据流形的维度及其随层数演变。所有代码和笔记本已在GitHub开源。

论文 Patnaik-Pearson维度 BERT-base DeepSeek-R1 内在维度谱分析

推荐理由：这篇论文提出了一个叫Patnaik-Pearson的新维度指标，用来分析BERT和DeepSeek模型内部表示的结构变化，还开源了代码，挺实用的。

原文

10:04

arXiv cs.LG@Augusto Sarti

该论文提出一种基于波启发交互结构（wave-inspired interaction structures）的显式动态单元，摒弃传统黑箱非线性逼近方法。这些单元采用严格因果组织（causal organization），消除代数循环，无需隐式求解器即可直接评估。在非线性系统识别任务（nonlinear system identification）中，堆叠该单元形成的分层架构在参数优化有限的情况下，深度提升了表示质量和泛化能力。即使仅用readout-only拟合，架构也能产生有用的内部表示，说明交互结构本身即可提供模型表现力。

论文结构化动态单元波启发交互动态系统学习非线性系统识别显式交互架构

推荐理由：这篇论文提出了全新的动态学习范式：用结构化单元替代黑箱非线性，实验证明深度和交互结构能带来更好的表示和泛化，值得做时序建模的人关注。

原文

10:04

arXiv cs.LG@Parisa Lotfibagha, Kristen Miller, William J. Gallagher, Elizabeth B. Selden, Muge Capan

该研究提出Contextual Markov Decision Process (CMDP)模型，基于22,154名2型糖尿病患者的电子健康记录（EHR）数据，优化不同亚群的随访间隔。通过主成分分析和聚类，识别出低风险和高风险两个亚群。模型建议：未测量实验室值时1个月内随访；指标升高或近期住院时最多3个月；血糖控制稳定时6至12个月，高风险患者间隔更短。与类似美国糖尿病协会的固定策略相比，高合并症亚群成本降低34.8%，低合并症亚群成本降低6.4%。

论文 CMDP T2D EHR 强化学习慢性病管理

推荐理由：这篇论文用CMDP模型和真实患者数据证明，个性化随访间隔比固定方案更省钱、更有效，高成本人群能省三成多。

原文

10:03

arXiv cs.LG@Hugo O. Garcés, Alejandro J. Rojas, Bernardo A. Hernández, Andrés Escalona, Jonathan M. Palma, Md. Rezwan Parvez, Bhushan Gopaluni, Sirish L. Shah

该论文在非线性系统上比较了无模型控制器在虚假数据注入和拒绝服务攻击下的性能，分析了四种RL奖励类型（Lyapunov、指数、渐进、线性）的准确率、成本和弹性。结果显示Lyapunov奖励以低跟踪误差实现了最佳弹性，指数模式在中等训练条件下提供良好折衷，渐进和线性奖励收敛更快但鲁棒性较差。RL-MPC模型表现出强稳态弹性但需更长训练时间，RL-PID控制器训练时间显著缩短。PPO相比DDPG显著降低了KPI方差。

论文 PPO DDPG Lyapunov奖励强化学习信息物理系统安全

推荐理由：这篇论文对比了四种强化学习奖励函数在抵御网络攻击时的表现，发现Lyapunov奖励弹性最好，PPO比DDPG方差更低，做控制器设计可以拿来参考。

原文

10:02

arXiv cs.LG@Zilong Zhang, Yi-Ting Hung, Lei Ding, Chi-Kuang Yeh

该研究将LLM作为评判者时的语速偏见等系统性偏差定义为问题核心。作者将有限人类监督下的LLM评估建模为正-无标记学习问题。提出基于部分最优传输(Partial Optimal Transport)的几何审计框架，无需重新训练即可识别人类一致偏好并纠正有偏评判者。实验表明该方法在提升与人类偏好一致性、增强对呈现偏差鲁棒性上优于现有流水线，并提供可解释的置信度估计。

论文 LLM LLM-as-a-Judge 正-无标记学习 Partial Optimal Transport 评估偏见

推荐理由：想治治AI裁判的偏袒病？这论文用数学几何直接纠偏，不用重训模型，比调prompt靠谱多了。

原文

09:59

arXiv cs.LG@Taharim Rahman Anon, Jakaria Islam Emon

提出可学习的残差语音到脉冲编码器，与Recurrent Leaky Integrate-and-Fire (R-LIF)骨干联合训练。在Google Speech Commands v2 (GSC-v2)基准上达到94.97%准确率。35k参数的紧凑变体达到89.8%，匹配或超越参数多一个数量级的基线。编码器学习任务对齐的脉冲表示，提升类别可分性。Direct Feedback Alignment (DFA)在相同设置下达到91.5%，量化了生物启发学习规则的性能权衡。

论文 SNN 脉冲神经网络语音编码 GSC-v2 DFA

推荐理由：这篇论文给脉冲神经网络设计了个自适应语音编码器，参数少还能在GSC-v2上跑到94.97%，比很多大模型都强，还比较了两种训练方式。

原文

09:53

arXiv cs.LG@Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen

稀疏混合专家（SMoE）架构通过Top-k专家选择实现条件路由，但这会导致映射不连续。论文将不连续性按阶数分类（由切换事件中并列专家数决定），并建立渐近体积估计：低阶不连续性占据主导，高阶体积趋于零。通过扩散过程建模输入随机扰动，证明路径几乎必然在有限时间内首次击中一阶不连续性。实验结果在语言和视觉任务上表明，提出的平滑机制不仅恢复连续性，还提升了经验性能。

论文 Sparse Mixture-of-Experts SMoE MoE 稀疏专家模型不连续性分析

推荐理由：这篇论文把SMoE的不连续性分析得清清楚楚，还附带了一个计算量很小的平滑方法，实验证明又能提高效果，值得一看。

原文

09:48

arXiv cs.AI@Enrico Cassano, Michał Brzozowski, Zuzanna Dubanowska, Paolo Mandica, Neo Christopher Chung

ARIADNE是一个无需训练、与适配器无关的动态适配器选择框架。它通过计算每个适配器训练集嵌入的质心，在推理时根据无标签输入与质心的距离选择适配器。在Llama 3.2 1B Instruct上对23个NLP任务测试，恢复了97.44%的上界性能。扩展到44个任务时，平均选择准确率达到89.7%。无需访问适配器内部参数或额外训练。

论文 ARIADNE Llama 3.2 PEFT 推理路由适配器选择

推荐理由：这篇论文提出了ARIADNE，一个不用训练就能自动为输入选对适配器的方法，在Llama 3.2上恢复了97%的上界性能，比现有路由方式更灵活。

原文

09:47

arXiv cs.AI@Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽的问题。研究观察到GRPO中梯度集中在高奖励方差任务上，基于Popoviciu上界。提出RODS方法，利用进度奖励方差作为零成本边界检测器，无需额外推理。通过技能对齐重采样管道合成新多轮变体，维护动态缓冲池。从400个人工种子开始，保持约800样本活跃池，达到与17K样本离线管道相当性能，轨迹数减少约20倍。

论文 RODS GRPO 工具使用智能体强化学习数据合成

推荐理由：这篇论文用奖励方差自动发现困难样本并生成新数据，训练效率比静态数据高20倍，特别适合多轮工具智能体场景。

原文

09:46

arXiv cs.AI@Xhevahire Tërnava

论文对10个vibe coded C/C++项目进行分析，发现制品内变体性近乎为零，所有变体决策集中在生成时。提出VbR（Variability by Regeneration）方法，让LLM作为推导引擎，为每个变体生成无死代码的二进制。用一个wc产品家族演示了完整流程。该工作首次将产品线思想引入AI生成代码的变体性管理。

论文 Vibe Coding VbR 产品线变体性 LLM

推荐理由：这篇论文用10个C++项目分析了vibe coding的变体性问题，还提出了VbR方法让LLM直接生成无死代码的二进制，挺有启发的。

原文

09:45

arXiv cs.AI@David Aaron Evans, Jay C. Rothenberger, Kara J. Sulia, Nick P. Bassill, Chris D. Thorncroft

HRRR高分辨率数值天气预报系统的误差常与未解析的边界层过程、对流和地形诱导环流有关。已有研究用LSTM网络基于地表观测预测HRRR误差，但复杂垂直大气演变时性能下降。本文提出LSTM-ViT混合框架，融合地表序列学习与纽约州网大气廓线数据。在预测降水、10m风速和2m温度误差上，LSTM-ViT均优于基线LSTM，其中降水误差预测技能提升约两倍。改进在短预报时效和行星边界层活跃期尤为显著。

论文 LSTM Vision Transformer HRRR 天气预报预报误差

推荐理由：这篇论文用LSTM加Vision Transformer看大气垂直结构，让天气预报误差预测精度翻倍，搞气象AI的值得一读。

原文

09:44

arXiv cs.AI@Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane

传统分布式大模型训练需要每个数据中心持有完整模型副本，导致巨大内存和通信开销。FoMoE通过将专家层分散到不同节点，将通信开销降低至传统方法的1.42倍，相比DDP下降45.44倍。其跳词机制在实际训练中实现了1.4倍的吞吐量提升。系统建模显示，FoMoE在100B参数规模下仍能保持通信和内存优势。

论文 FoMoE MoE 分布式训练通信优化弱连接数据中心

推荐理由：FoMoE把MoE的专家拆开放不同数据中心，省通信还提速，适合多数据中心联合训练大模型。

原文

09:43

arXiv cs.AI@Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh

TRAP基准评估了22个模型（包括前沿闭源和开源模型）在文档中利用私密信息完成任务时的隐私泄露风险。所有模型均显示非平凡泄露，且指令遵循能力与泄露率正相关。现有的提示防御方法在减少泄露的同时显著降低了任务准确性。论文证明基于softmax的模型无法通过软约束防御同时实现高任务成功率和零泄露概率。提出的结构性私密字段隔离方法用哈希键替换私有字段，几乎完全防止泄露且保持任务精度。

论文 TRAP 基准隐私提取智能体防御

推荐理由：想看看你的AI模型干活时会不会偷偷泄密？这篇论文做了22个模型的隐私压力测试，还给了个不会牺牲任务性能的防漏方案。

原文

09:42

arXiv cs.AI@Fengying Ye, Yanming Sun, Runzhe Zhan, Zheqi Zhang, Lidia S. Chao, Derek F. Wong

G-IdiomAlign是一个新的基准测试，以Wiktionary的英语注释为锚点，专门评估跨语言习语对齐能力。它包含两个协议：带类型干扰项的多项选择习语等价测试，以及通过有无注释对比生成来隔离语义锚点效果。实验发现，多种LLM在低资源语言上普遍倾向于直译，这是主要失败模式。添加注释后，在基于嵌入的语义度量下生成质量有所提升，但绝对性能仍然有限，说明开放输出空间仍有较大改进余地。对Qwen3-8B的分析表明，差异更多集中在注意力头而非层上，且优质生成与更强的注释锚定相关。

论文 G-IdiomAlign Qwen3-8B LLM 习语对齐跨语言理解

推荐理由：这篇论文搞了个G-IdiomAlign基准，专门测AI能不能理解不同语言的习语。结果模型爱直译，加了注释能好点但还差得远，值得一看。

原文

09:40

arXiv cs.AI@Yafeng Wu, Huu Hiep Nguyen, Thin Nguyen, Hung Le

论文提出CADE框架，用于时间序列问答。该框架通过点式线性编码器和MLP投影器将每个时间步直接映射到LLM嵌入空间，避免分词瓶颈和固定窗格损失。引入单向监督对比损失对齐时间序列嵌入与冻结类名文本锚点。在Time-MQA基准上，CADE在六个TSQA任务中一致优于开源和闭源LLM基线。

论文 CADE 时间序列问答 LLM 对比学习 Time-MQA

推荐理由：这篇论文提出CADE，解决了LLM处理时间序列时丢了数值信息的痛点，用直接时间步嵌入和对比对齐，在Time-MQA上比GPT-4还强。

原文

09:37

arXiv: Google DeepMind@Tim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

该研究系统审计了Physics-IQ视频物理理解基准，发现其提示质量和真实标注存在缺陷。作者提出三项改进措施，包括优化提示与真值、引入样本级评分系统，并应用六种图像到视频生成模型验证。新版Physics-IQ Verified改进了57.6%的样本和34.8%的提示，模型排名变化中度显著（Kendall's τ=0.46）。

论文 Physics-IQ 视频生成模型基准测试物理理解 DeepMind

推荐理由：DeepMind发布了Physics-IQ验证版，专门评测视频模型对物理世界的理解。现有基准有缺陷，他们修正后让模型排名更可信了。

原文

09:26

arXiv: DeepSeek@Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang

精选

DiT强化学习后训练需要数千块高端GPU，成本极高。Spotlight系统利用Spot GPU（价格低69-77%）和种子探索技术，将训练速度提升4倍。该系统通过带子集探索规划器最大化奖励方差，弹性序列并行在预emption时毫秒级恢复，并采用拉取式调度平衡负载。在Qwen-Image后训练中，Spotlight达到相同验证分数的成本降低1.4-6.4倍，在DeepSeek-OCR和Geneval数据集上512×512和1280×1280分辨率下图像质量更优。

论文 Spotlight DiT Qwen-Image 强化学习扩散模型

推荐理由：Spotlight系统用便宜的Spot GPU做DiT强化学习后训练，成本降低1.4-6.4倍，训练快4倍，适合预算有限的团队。

原文

09:25

arXiv: DeepSeek@Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei

SenFlow将混合文档中的句子级AI文本检测重构为结构化预测问题，在图传播与线性链CRF基础上实现整文档级联合解码。MOSAIC基准包含16,000篇混合文档，由DeepSeek-V3.2和Kimi K2生成，并引入困惑度一致性过滤。在跨域迁移最难协议下，SenFlow平均Macro-F1比现有方法高出4.15个百分点。研究还发现，即使经困惑度过滤后，AI插入的句子长度仍存在生成器依赖的差距。

论文 SenFlow MOSAIC DeepSeek-V3.2 Kimi K2 AI生成文本检测

推荐理由：这篇论文用SenFlow模型做混合人机文本检测，在MOSAIC基准上比现有方法高出4个多点的F1分数，还发现AI句子有长度特征。

原文

09:24

arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan

该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对，以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型，进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应，表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。

论文 GPT-4o DeepSeek-V3 Claude Sonnet 4.6 性别偏见招聘

推荐理由：这篇论文用43200次测试发现，五个主流LLM在日文简历上全有亲女性偏见，改提示没用，删名字才行，看清AI招聘的坑。

原文

09:23

arXiv: DeepSeek@Zhengxiong Luo, Mehtab Zafar, Dylan Wolff, Abhik Roychoudhury

精选

Code-Augur提出安全规范优先范式，将漏洞检测智能体的隐性假设显式化为安全规范，并通过运行时反证持续细化。在真实项目上，Code-Augur比Claude Mythos等专用模型检测到更多漏洞。它基于Sonnet和DeepSeek等通用LLM构建，发现了22个关键开源项目的新漏洞。该方法通过模糊测试触发断言，揭示漏洞或修正规范，提升检测可信度。

论文 Code-Augur 漏洞检测智能体安全规范 Sonnet

推荐理由：这篇论文让AI漏洞检测不再黑箱——Code-Augur会生成明确的安全假设，再用模糊测试验证，已经在真实项目里挖出22个新漏洞，比专用模型还管用。

原文

09:22

arXiv: DeepSeek@Siddharth Aphale, Kelly Liu

一项研究分析了SFT（监督微调）的过度训练对RLVR（基于强化学习的验证）训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型，发现SFT深度增加时，预RL的pass@1上升，但GRPO的pass@10从0.806降至0.481（3种子均值，n=20）。预RL熵与GRPO结果正相关（ρ=+0.69）。研究者提出一个两阶段诊断方法，结合预RL熵筛选和早期GRPO熵监控，可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。

论文 Qwen2.5-Coder-3B DeepSeek-Coder-6.7B SFT RLVR 强化学习

推荐理由：这篇论文发现了SFT过训练会搞崩GRPO训练的秘密，还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。

原文

09:21

arXiv: DeepSeek@Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

精选

该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题，提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题，通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验，结合4-bit量化后，50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上，内存占用减少5.27倍，优于现有基线。

论文 MoE 结构剪枝量化 DeepSeek Qwen

推荐理由：想省显存又怕掉精度？这篇论文用通道级剪枝加4-bit量化，把MoE模型体积砍到1/5还能保住性能，DeepSeek和Qwen都能用。

原文

09:20

arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

精选

PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试，评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理，发现纯求解器评估不足以区分智能体性能，验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。

论文 PowerAgentBench-SS 智能体电力系统基准工具使用

推荐理由：搞电力系统智能体评估的可以看看这个，用IEEE 39节点系统测试大模型能不能真干活，不只看结果还看过程，挺实在的。

原文