全部 AI 动态 · AI 热点

6月18日

10:57

arXiv cs.LG@Amiri Hayes, Belinda Li, Jacob Andreas

研究者提出用程序合成方法反向工程Transformer注意力头。他们先计算注意力矩阵，再让预训练语言模型生成Python程序来重现注意力模式。在GPT-2、TinyLlama-1.1B和Llama-3B上，不到1000个程序实现了平均IoU>75%。替换25%的注意力头仅导致16%的困惑度增加，并在下游问答基准上保持性能。

推荐理由：这篇论文用Python程序解释了注意力头怎么工作，还能直接用程序替换掉原始头，精度很高，想看模型内部机制的可以读。

原文

10:57

arXiv cs.LG@ Xizhuo, Zhang, Zekai Wang, Fei Liu, Bing Yao

本文提出P-K-GCN框架，结合连续样条GCN从粗粒度图提取空间依赖，并引入Koopman算子理论将非线性时间动力学线性化到紧凑潜空间。优化目标加入物理损失，确保重建结果符合物理定律。理论分析证明物理增强和Koopman正则化通过降低Rademacher复杂度收紧泛化界，减小超分辨率误差。在3D心脏几何上从稀疏低分辨率测量重建高分辨率电动力学，P-K-GCN相比基线模型取得更优精度。

论文 P-K-GCN Koopman 图卷积网络时空超分辨率物理约束

推荐理由：这篇论文提出P-K-GCN，用图卷积加Koopman算子做时空超分辨率，在3D心脏建模上比现有方法更准，物理约束让结果更可靠。

原文

10:57

arXiv cs.LG@Christopher B. Womack, Shahine Bouabid, Andrei Sokolov, Popat Salunke, Glenn Flierl, Sebastian D. Eastham, Noelle E. Selin

该论文发现机器学习气候仿真模型的预测能力受限于训练数据的结构多样性不足。作者提出一种通过可微简单气候模型(SCM)优化训练情景的方法，使仿真模型能泛化到训练数据中未出现的新情景。实验表明，使用单个优化情景训练的仿真模型，其技能优于使用6个标准ScenarioMIP路径训练的模型。即使训练数据更小，优化后的模型也能成功分离不同气候强迫因子（如温室气体与气溶胶）的物理行为。用SCM优化的情景驱动中等复杂度气候模型时，产生的训练数据比直接使用ScenarioMIP输出更有效。

论文 SCM ScenarioMIP 气候仿真数据优化泛化能力

推荐理由：这篇论文告诉你，与其堆模型复杂度，不如优化训练数据——用同一个气候模型设计动态丰富的情景，能让仿真模型比用六个标准路径表现更好。

原文

10:57

arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro

论文提出 Act2Answer 协议，通过让智能体在桌面场景中执行物体放置动作来选择答案，从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现，VLA 在简单概念上表现扎实，但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明，VQA 联合训练有助于提升知识保留，而答案相关信息在 VLA 中层达到峰值，上层则衰减。

论文 VLA VLM Act2Answer 常识推理多模态

推荐理由：想知道微调后的机器人模型到底还记不记得常识？这篇论文用动作答题的方式测了7个VLA，发现简单概念还行，复杂知识掉得厉害。

原文

10:57

arXiv cs.LG@Jiaqing Zhang, Sabyasachi Bandyopadhyay, Miguel Contreras, Jessica Sena, Yuanfang Ren, Andrea Davidson, Ziyuan Guan, Tezcan Ozrazgat-Baslanti, Subhash Nerella, Azra Bihorac, Parisa Rashidi

该研究探讨环境声音和光照强度能否独立预测ICU谵妄。基于9个ICU的309名患者数据，评估了四种高效序贯神经网络模型在10个预测窗口上的表现。卷积模型在声音数据上取得最强辨别能力，AUC达0.80。结合声音与光照可改善短期（<1周）预测，模型在感知期结束后立即分配最高风险。

论文 ICU谵妄环境感知声音光照风险预测

推荐理由：这篇论文发现ICU里的环境声音比光照更能预测谵妄，卷积模型AUC达到0.80，为无创预警提供了新思路。

原文

10:56

arXiv cs.LG@Xin Ci Wong, Duygu Sarikaya, Kieran Zucker, Marc De Kamps, Nishant Ravikumar

该论文评估了蒙特卡洛丢弃法（MC Dropout）在脑肿瘤分割中识别错误的能力。在126例BraTS21患者上测试了SegResNet和UNet-Res两个模型，MC Dropout保持了分割精度（|ΔDice|<0.01），且不确定性-误差对齐AUROC（熵H）约0.97。但全局对齐掩盖了区域差异：UNet-Res在增强肿瘤亚区域的熵仅为0.054，期望校准误差（ECE）达0.915，Dice仅0.714，显示严重误校准。标准Dice和AUROC无法检测这一失败模式。

论文 MC Dropout 不确定性估计脑肿瘤分割模型校准 BraTS

推荐理由：这篇论文用具体数据告诉你，模型Dice高不一定安全，得看关键区域的校准情况。做医疗AI必读。

原文

10:56

arXiv cs.LG@Daniel Romero Schellhorn, Till Mossakowski, Björn Gehrke

NeSyCat Torch 扩展了 ULLER 框架，通过强单子和真值聚合结构统一了经典、模糊、概率和神经语义。该实现使用分布单子进行参考语义和度量评估，并引入惰性对数张量单子实现数值稳定可微训练。在 MNIST 加法任务上，基于 HaskTorch、JAX 和 PyTorch 的实现比 LTN 和 DeepProbLog 更快且准确率更高，同时达到接近 DeepStochLog 的精度。该框架保持单子参数化，未来可扩展至连续概率（如 Giry 单子）。

论文 NeSyCat Torch ULLER 神经符号学习 MNIST PyTorch

推荐理由：把神经符号学习统一到一个可微框架里，在 MNIST 加法上比 LTN 和 DeepProbLog 又快又准，还兼容 PyTorch。

原文

10:56

arXiv cs.LG@Sanghyeok Choi, Henry Gouk, Esmeralda S. Whitammer

Large Language Gibbs 是一种利用大型语言模型条件分布进行结构化概率推理的MCMC方案。该方法通过迭代重采样单个变量避免单次自回归生成的顺序偏差，产生的平稳分布反映所有局部条件之间的折中。在合成分布采样、一致性推理和贝叶斯结构学习任务上验证了有效性。结果表明LLM条件作为MCMC转移算子可替代单次生成进行结构化推理。

AI模型 Large Language Gibbs LLM MCMC 结构化推理概率推断

推荐理由：这篇论文提出用LLM做MCMC采样，比直接生成更鲁棒，适合复杂推理场景，值得做概率建模的人看看。

原文

10:56

arXiv cs.LG@Mark A. Anastasio

这篇Perspective论文区分了算法创新（在固定问题定义内改进计算实现和性能）与概念创新（重新定义问题、衡量标准、临床相关性）。作者指出当前激励结构、培训路径和发表规范 disproportionately 奖励算法创新，尤其在早期研究者中，而低估了概念贡献。通过医学影像AI的代表性案例，论文展示概念基础不足如何导致目标错位、泛化脆弱和有限现实影响。最后给出针对研究者、导师、审稿人和期刊的可操作建议，以更好地识别和支持概念创新。

论文医学影像AI 概念创新算法创新论文 AI评估

推荐理由：想知道医学影像AI领域的科研方向出了问题在哪？这篇Perspective论文直接点出算法竞赛之外的概念缺失，给实验室和期刊提出了改进建议。

原文

10:56

arXiv cs.LG@Robi Rahman, Sabiha Tajdari

该论文评估了使用零开销、保护隐私的NVML遥测（仅观察计算的物理效应，不访问模型权重或训练数据）进行GPU工作负载分类的对抗鲁棒性。研究人员在5轮监控-逃避迭代中，针对9种GPU模型（跨4代架构）评估了20种逃避策略。开发的分类器在全语料库上实现了98.2%的二进制准确率，面对最困难意外工作负载（即使被对抗性伪装）也能达到43-87%的准确率。

论文 NVML GPU工作负载分类对抗鲁棒性 AI计算治理论文

推荐理由：这篇论文用简单的NVML遥测就能高精度检测隐藏的ML训练，还能对抗各种伪装，对AI计算治理很有启发。

原文

10:56

arXiv cs.LG@Bartłomiej Baranowski, Dave Zhenyu Chen, Matthias Nießner

OneCanvas将多视角patch特征投影到等距柱状全景画布，并添加3D坐标的位置嵌入。无需复杂几何编码器或大量训练预算。在SQA3D和VSI-Bench上达到SOTA准确率，在SPBench上泛化到分布外数据。训练计算量比最强竞争方法少一个数量级。

论文 OneCanvas SQA3D VSI-Bench 3D场景理解空间推理

推荐理由：OneCanvas用全景投影做3D理解，训练少10倍，在SQA3D上SOTA，适合机器人和具身AI。

原文

10:56

arXiv cs.LG@Xingze Zheng, Hanyin Cheng, Siyuan Wang, Yiting Hao, Peng Chen, Yuan Jun, Yang Shu

SCAN提出多尺度聚类增强重建型时间序列异常检测，在UCR、KDD21等数据集上取得最先进结果。表示层面整合正常模式聚类中心表示，约束模型聚焦代表性正常模式。异常判据层面基于聚类隶属概率导出异常置信度分数，并与重建误差构成双判据。在多尺度邻域中心表示上执行多视图聚类，提升聚类性能。实验覆盖7个真实数据集，平均AUROC比现有方法提升2.3%。

论文 SCAN 时间序列异常检测异常检测多尺度聚类

推荐理由：SCAN这篇论文用多尺度聚类解决了异常检测的老问题，比之前的方法效果好，搞时序异常检测的值得看看。

原文

10:56

arXiv cs.LG@Eric Chillón, Artur K. Lidtke, Nguyen Anh Khoa Doan, Bernat Font

本研究提出一种数据驱动的代数多重网格（AMG）平滑器，采用改进的图卷积同构网络（GCIN）。该网络从稀疏系数矩阵中学习最优多项式系数，以构建稀疏伪逆算子，在非结构化网格上减少V-cycle迭代次数。在多个基准测试中，该方法实现了4%到37%的壁钟时间加速。模型展现出强大的泛化能力，可处理训练时未见过的、尺寸大128倍的网格，并加速AirfRANS数据集等工业相关问题的收敛。

论文 Graph Neural Networks AMG 压力-Poisson方程 AirfRANS 计算流体力学

推荐理由：这篇论文用图神经网络优化AMG求解器，在非结构网格上提速最高37%，而且能在128倍大的网格上照样用，搞CFD的可以看看。

原文

10:55

arXiv cs.LG@Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman

TxBench-PP是一个用于评估AI agent在小分子临床前药理学中决策能力的基准，包含100个涉及作用机制、药效学等任务的评估。在16个模型配置（涉及11个模型和4800条轨迹）中，最佳配置Claude Opus 4.8 / Pi仅通过59.3%（178/300）的端点尝试，GPT-5.5 / Pi通过55.3%。结果表明，当前AI系统无法可靠复现临床前药理学决策。

AI模型 TxBench-PP Claude Opus 4.8 GPT-5.5 AI agent 药物发现

推荐理由：想看看AI在药物发现中到底行不行？这个基准测试用4800条轨迹告诉你，Claude Opus 4.8和GPT-5.5都还差得远，最高才59.3%的通过率。

原文

10:54

arXiv cs.LG@Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

STARE针对GRPO等强化学习训练中策略熵崩溃问题，提出令牌级信用分配纠偏方法。通过惊讶度分位数识别熵关键令牌子集，选择性重加权其有效优势，并引入目标熵闭环门控实现稳定熵调节。在1.5B至32B规模模型及短CoT、长CoT、多轮工具使用三类任务中，STARE可维持数千步稳定训练。在AIME24和AIME25上，STARE准确率较DAPO等基线提升4%-8%，反射令牌和响应长度同步增长，表明探索-利用平衡得到改善。代码已开源。

论文 STARE GRPO 策略熵强化学习推理模型

推荐理由：STARE解决了GRPO训练中策略熵崩溃的老问题，在AIME数学竞赛上比DAPO高4-8个点，代码也开源了，搞RL训练的同学可以试试。

原文

10:49

arXiv cs.AI@Diana Magalhães, Eva Maia, João Vitorino, Isabel Praça

XGBoost-Forget是一种针对XGBoost模型的机器遗忘方法，用于删除特定数据点而无需完全重新训练。该方法在IoT-23和GeNIS两个网络入侵表格数据集上评估，使用多项指标衡量模型性能、遗忘效率和遗忘质量。实验表明，XGBoost-Forget在保持接近原始模型预测性能的同时，实现显著更快的遗忘速度，展示了其在表格网络入侵场景中的潜力。

论文 XGBoost 机器遗忘 IoT-23 GeNIS 网络入侵检测

推荐理由：这篇论文提出了XGBoost-Forget，让XGBoost模型能快速遗忘特定数据，在入侵检测数据集上效果不错。

原文

10:47

arXiv cs.AI@Giuseppe Gabriele, Fabio Pavirani, Seyed Soroush Karimi Madahi, Chris Develder

一篇论文提出决策聚焦强化学习（DF-RL）框架，用于控制电动汽车充电，解决未知离开时间问题。该方法将预测器与充电策略进行端到端联合训练，相比不使用离开时间预测的RL方法，总奖励提升14%，未供应能量（因车辆提前离开导致充电失败）减少55%。实验基于历史数据模拟，验证了在不确定性下充电决策质量的改善。

论文强化学习电动汽车充电预测器决策聚焦

推荐理由：这个论文搞了个新训练方式，让预测器和充电策略一起优化，结果充电失败少了一半多，值得做RL调度的看看。

原文

10:46

arXiv cs.AI@Anselm Haak, Patrick Koopmann, Yasir Mahmood, Anni-Yasmin Turhan

该论文研究了EL_bot本体语言中，在修复语义（brave和AR语义）下，ABox溯因问题中组合多个属性（如签名限制、最小冲突等）和最优性标准的假设。作者发现，同时满足多个属性或附加最优性标准通常不会增加计算复杂度。论文通过理论分析证明了这一结果，为知识库缺失蕴涵的解释提供了更实用的假设生成方法。

论文 EL_bot ABox溯因修复语义复杂度

推荐理由：这篇论文讲的是如何组合多个最优属性来生成解释，而且不增加复杂度，对做知识推理的朋友挺有用。

原文

10:43

arXiv cs.AI@Soheyl Bateni, Maryam Abdolali

ClaMPAPP系统将LLM用作特征提取接口，而非直接诊断引擎，对自由文本病历进行模式约束提取后经确定性检查，再输入XGBoost分类器。该系统在两个德国医院独立儿科阑尾炎队列上评估，性能优于端到端LLM基线（包括开源和专有模型）。在内部和外部验证中，ClaMPAPP实现了最强整体诊断性能，并最小化漏诊阑尾炎病例。端到端LLM在敏感度-特异度权衡和叙事重排下表现更不稳定。

论文 ClaMPAPP LLM XGBoost 儿科阑尾炎临床决策支持

推荐理由：这篇论文提出了一个实用设计：用LLM理解病历文本，但把最终判断交给更可靠的机器学习模型，值得做临床AI的看看。

原文

10:43

arXiv cs.AI@Depen Morwani, Alexandru Meterez, Pranav Nair, Sham Kakade

精选

该论文研究了随机重球法（HB）和加速SGD（ASGD）在一致线性回归中的计算效率与串行运行时间权衡。结果表明HB在任意谱下无法超越SGD的计算效率前沿，但允许在比SGD临界批量大sqrtκ倍的窗口内减少串行运行时间。ASGD在快速衰减幂律谱下可提升小批量计算效率，但随着批量增大，牺牲效率换取更优串行时间。合成线性回归实验验证了这些定性规律。

论文 HB ASGD SGD 随机动量方法计算效率

推荐理由：这篇论文把HB和ASGD在批量大小上的效率权衡讲清楚了，特别是那个sqrtκ倍的窗口，对想用动量方法加速训练的人很有参考价值。

原文

10:42

arXiv cs.LG@Nahum Korda, Gadi Evron

OpenAnt是一个开源漏洞发现系统，将静态程序分析与大语言模型推理结合，采用多阶段流水线。它通过代码分解将分析面减少97%，仅保留从外部入口可达的攻击相关代码。系统通过对抗验证模拟攻击者能力评估可利用性，并自动生成动态验证环境在沙箱容器中执行。在OpenSSL、WordPress和Flowise等开源项目评估中，OpenAnt识别了之前未知的漏洞，同时大幅降低误报率。

论文 OpenAnt LLM 漏洞发现代码安全开源项目

推荐理由：OpenAnt把LLM和静态分析结合起来做漏洞挖掘，在三个知名开源项目里发现了新漏洞，误报还少，值得做安全的看看。

原文

10:40

arXiv cs.LG@Mingzhi Song

本文提出局部总体风险证书(Local Population-Risk Certificates)，为当前模型θ周围的候选方向v∈D构建ℓ_{θ+v}-ℓ_θ的两面置信带。该证书的上端点作为风险控制更新规则：仅当上端点非正时才接受更新，否则保留当前模型。这种方法保证了更新不会增加总体风险，为安全模型更新提供了理论保障。

论文风险控制模型更新置信带理论分析

推荐理由：这篇论文用置信带兜底，保证模型更新不会越改越差，适合需要稳妥迭代的场景。

原文

10:39

arXiv cs.LG@Till Richter, Niki Kilbertus

OrthoReg提出了一种正交正则化方法，直接惩罚符号组件与神经组件的重叠，防止符号结构被神经残差吸收。相比标准L2正则化，该方法在符号组件通过稀疏发现学习时仍能保持互补分解。在部分库不匹配的基准动力系统上，OrthoReg改善了符号恢复准确性和分布外泛化性能。

论文 OrthoReg 动力系统混合建模正则化符号回归

推荐理由：这篇论文提出OrthoReg，解决了混合建模中神经网络容易学走符号部分的问题，实验效果明显，写代码的朋友可以看看。

原文

10:38

arXiv cs.LG@Hugo Miccinilli, Theo Di Piazza

ChronoSurv是一个基于有向图的框架，用于头颈癌患者的多模态生存预测。它将患者诊疗过程建模为按诊断步骤对齐的临床轨迹，并通过分层拓扑整合细粒度、粗粒度和全局表示。在两个公开数据集上，ChronoSurv实现了优于现有方法的判别性能，且校准误差达到统计显著水平。消融实验验证了各组件对整体性能的贡献。

论文 ChronoSurv 生存分析多模态头颈癌图神经网络

推荐理由：这篇论文把临床流程做成图结构来预测生存时间，比传统方法更准，适合做医疗AI的朋友看看。

原文

10:37

arXiv cs.LG@Michael Detzel, Gabriel Nobis, Kristiyan Blagov, Juri Schubert, Jackie Ma, Wojciech Samek

INDEQS是一种基于图的神经控制微分方程时间序列预测方法，在架构中分别应用先验有向图信息于内混合（隐藏状态混合）和外混合（向量场与控制信号混合）。该方法提供轻量级图约束变体和支持自适应图卷积的学习变体。在合成的有向图连续平流模拟数据集以及真实世界的河流水位和PeMS08交通流预测任务上，INDEQS的外信息融合变体在参数量相近时，平均绝对误差持续低于未利用先验的NCDE。连续解码器相比离散卷积解码器在准确性和时间灵活性上更优。

论文 INDEQS NCDE 时间序列预测图神经网络控制微分方程

推荐理由：这篇论文把已知图结构嵌入神经微分方程里做时间序列预测，效果比没加图信息的NCDE更好。在河流流量和交通流数据上都有提升，对图和时序结合感兴趣可以看看。

原文

10:36

arXiv cs.LG@Arnaud Lequen, Clément Legrand-Lixon, Léo Saulières

PQLRM算法将Pareto Q-Learning与奖励机器（Reward Machines）结合，维护向量化Q估计来逼近Pareto前沿。实验表明，相比朴素PQL基线，PQLRM在奖励机器编码的非马尔可夫任务中收敛更快。它还能合成QRM无法获得的Pareto最优策略，提升了多目标强化学习的样本效率。

论文 PQLRM Reward Machines Pareto Q-Learning 多目标强化学习

推荐理由：这篇论文提出了PQLRM，把Pareto Q-Learning和奖励机器结合起来，在多目标任务里比基线收敛更快，还能找到普通方法找不到的最优策略。

原文

10:34

arXiv cs.LG@Ousmane Touat, César Sabater, Mohamed Maouche, Sonia Ben Mokhtar

Giskard 是一种面向大规模去中心化学习的聚合协议，同时解决机密性和拜占庭容错问题。它通过将n个参与方组织成大小为O(log n)的委员会树，并利用BGW风格的安全多方计算（MPC）在委员会内执行坐标近似中值分布式二分搜索。理论分析证明了安全性与机密性，实验支持多达100万参与者。与最接近的竞争者相比，Giskard将每方通信复杂度渐近降低，且在少于n/4拜占庭节点下保持模型效用相当。

论文 Giskard Byzantine鲁棒机密聚合去中心化学习安全多方计算

推荐理由：Giskard 用委员会树加多方计算搞定隐私和防御坏节点，支持百万级节点，比现有方案通信量更低，值得做去中心化学习的同学看看。

原文

10:34

arXiv cs.LG@Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

ViGOS是一种针对多模态大语言模型(MLLM)的后训练框架，采用解耦感知与推理的自蒸馏方法(OPSD)。学生模型先生成视觉描述，再基于此进行推理，避免直接利用文本目标产生捷径。实验在通用视觉-语言、专家推理、视觉数学、空间定位和视觉-语言先验五类基准上验证，ViGOS在易出现捷径的场景中显著提升了图像依赖行为。

论文 ViGOS MLLM OPSD 多模态自蒸馏

推荐理由：这篇论文提出了ViGOS，专门解决多模态模型自蒸馏时只看文本不看图的毛病，在多个视觉语言基准上有效果。

原文

10:33

arXiv cs.LG@Antoine Pesenti, Aidan O'Sullivan

该论文使用深度学习（DNN）结合可解释AI（XAI）技术，分析欧洲39个竞价区的电价决定因素。通过SHAP方法和扩展的SSHAP聚合框架量化特征贡献。研究发现太阳能等可再生能源在电价形成中作用突出，尽管其发电占比低；天然气价格仍是主导且一致的驱动因素；跨区域互联显著影响价格动态。论文还构建了一个合成全欧洲统一电力市场的反事实场景。

论文 XAI SHAP DNN 欧洲电力市场可解释性

推荐理由：这篇论文用XAI方法拆解了欧洲39个地区的电价驱动力，告诉你太阳能比想象中更重要、天然气还是老大，还模拟了全欧统一电价会怎样。

原文

10:32

arXiv cs.LG@Yiyan Huang, Cheuk Hang Leung, Qi Wu, Zhiheng Zhang

该论文研究离线策略学习中结果变量为分布的情况，将每个潜在结果视为概率测度，并通过 Wasserstein 重心下的效用函数定义奖励。论文基于 IPW 和 Doubly Robust 估计量建立了统计保证，证明了有限样本后悔率的领先项为 O~(√(N-dim(Π)/N))。在一维 Wasserstein 设定下，后悔率仍由策略类复杂度主导。另外提供了极小化下界，证明了对 N 和 N-dim(Π) 的领先依赖的紧致性。

论文 Wasserstein 离线策略学习分布结果因果推断 IPW

推荐理由：这篇论文把因果推断中的离线策略学习扩展到了分布结果，用Wasserstein重心定义奖励，并给出了严格的统计保证，和传统均值策略学习不同，适合做理论研究的参考。

原文

10:31

arXiv cs.LG@Daochen Zha, Chun How Tan, Xin Liu, Bin Xu, Han Zhao, Xiaowei Liu, Tracy Yu, Hui Gao, Huiji Gao, Liwei He, Stephanie Moyerman, Sanjeev Katariya

JourneyFormer是Airbnb提出的序列建模解决方案，用于处理搜索排序中客人序列长、探索性强且标签稀疏的问题。模型设计涵盖事件选择、ID嵌入、模型架构和标签归因等关键环节，并采用专门策略加速训练和推理。JourneyFormer已部署到Airbnb生产环境，离线排名指标和线上A/B测试（覆盖2个生产表面）均显示关键业务指标显著提升。

AI模型 JourneyFormer Airbnb 序列建模搜索排序推荐系统

推荐理由：Airbnb搞了个JourneyFormer，专治搜索排序中又长又乱的用户序列，实测线上A/B测试效果很不错。

原文

10:29

arXiv cs.LG@Alexandre Lemire Paquin, Brahim Chaib-Draa, Philippe Giguère

本文研究利用平滑损失函数对PAC-Bayes界进行去随机化，以获得确定性预测器的高概率泛化界。通过后验均值从Gibbs预测器到确定性预测器的代价由Jensen gap类的泛化差距给出，并通过Rademacher复杂度控制。得到的界涉及参数Jacobian和得分映射Hessian表示的平坦度量，适用于有界和无界平滑损失，并特例化为线性预测器和平滑神经网络。理论中的Jacobian和Hessian量启发了一个实用的正则化器，对BatchNorm网络在CIFAR-10上进行了不同批量大小下的实验。

论文 PAC-Bayes 泛化界正则化器 Jacobian CIFAR-10

推荐理由：这篇论文从PAC-Bayes理论推导出一个基于Jacobian和Hessian的新正则化器，在CIFAR-10上验证有效，值得搞泛化理论的人看看。

原文

10:24

arXiv: OpenAI@Yijin Wang, Shuyi Wang, Wenhan Zhang, Yuqi Ouyang

该论文提出了一个多领域基准数据集，包含8602张图像，覆盖商业海报、信息图、学术海报、收据、表格和UI截图6个类别，用于检测OpenAI的GPT Image 2生成的文本丰富图像。在零样本设置下评估了5种AI生成图像检测器，发现性能高度依赖领域：在部分类别表现好的方法在其他类别失败，且最强传统检测器对JPEG压缩敏感。此外，多模态视觉语言模型的初步评估显示其在结构化格式上既有潜力也有局限。

论文 GPT-Image-2 AI生成图像检测多领域基准文本丰富图像多模态检测

推荐理由：想测你手上的AI图片检测器靠不靠谱？这个基准有8602张图、6种类型，还试了5种检测器，发现它们碰上有文字的图片（比如收据、海报）就露馅，连JPEG压缩都扛不住。

原文

10:22

arXiv: DeepSeek@Ruida Wang, Rui Pan, Pengcheng Wang, Shizhe Diao, Tong Zhang

研究团队提出Diffusion-Proof，这是首个将扩散LLM（dLLM）应用于形式定理证明的框架。该框架包含两个7B模型：dLLM-Prover-7B负责整段证明生成，dLLM-Corrector-7B利用双向信息进行局部校正。相比同等数据集训练的自回归基线，Diffusion-Proof在ProofNet-Test上提升1.61%，在MiniF2F-Test上提升6.14%。此外，该框架成功解决了一个更先进的DeepSeek-Prover-V2-7B未能解答的IMO问题，展示了扩散模型在长程连贯性任务上的优势。

AI模型 Diffusion-Proof dLLM 推理模型形式定理证明数学证明

推荐理由：扩散模型也能做定理证明了，比自回归强，MiniF2F上高出6个百分点，还解了一道DeepSeek没解出的IMO题。

原文

10:21

arXiv: DeepSeek@Tom Hadfield

该论文提出一种新的数据流形内在维度度量——Patnaik-Pearson维度，灵感来自HTSR、SETOL以及TwoNN估计器。作者证明权重矩阵经验谱密度服从帕累托分布时，该维度与HTSR和SETOL分析的尾指数临界值一致。通过理论分析和数值实验，研究了该维度在典型神经网络变换下的行为。在BERT-base和DeepSeek-R1-Distill-Qwen-1模型上，计算了token嵌入初始数据流形的维度及其随层数演变。所有代码和笔记本已在GitHub开源。

论文 Patnaik-Pearson维度 BERT-base DeepSeek-R1 内在维度谱分析

推荐理由：这篇论文提出了一个叫Patnaik-Pearson的新维度指标，用来分析BERT和DeepSeek模型内部表示的结构变化，还开源了代码，挺实用的。

原文

10:04

arXiv cs.LG@Augusto Sarti

该论文提出一种基于波启发交互结构（wave-inspired interaction structures）的显式动态单元，摒弃传统黑箱非线性逼近方法。这些单元采用严格因果组织（causal organization），消除代数循环，无需隐式求解器即可直接评估。在非线性系统识别任务（nonlinear system identification）中，堆叠该单元形成的分层架构在参数优化有限的情况下，深度提升了表示质量和泛化能力。即使仅用readout-only拟合，架构也能产生有用的内部表示，说明交互结构本身即可提供模型表现力。

论文结构化动态单元波启发交互动态系统学习非线性系统识别显式交互架构

推荐理由：这篇论文提出了全新的动态学习范式：用结构化单元替代黑箱非线性，实验证明深度和交互结构能带来更好的表示和泛化，值得做时序建模的人关注。

原文

10:04

arXiv cs.LG@Parisa Lotfibagha, Kristen Miller, William J. Gallagher, Elizabeth B. Selden, Muge Capan

该研究提出Contextual Markov Decision Process (CMDP)模型，基于22,154名2型糖尿病患者的电子健康记录（EHR）数据，优化不同亚群的随访间隔。通过主成分分析和聚类，识别出低风险和高风险两个亚群。模型建议：未测量实验室值时1个月内随访；指标升高或近期住院时最多3个月；血糖控制稳定时6至12个月，高风险患者间隔更短。与类似美国糖尿病协会的固定策略相比，高合并症亚群成本降低34.8%，低合并症亚群成本降低6.4%。

论文 CMDP T2D EHR 强化学习慢性病管理

推荐理由：这篇论文用CMDP模型和真实患者数据证明，个性化随访间隔比固定方案更省钱、更有效，高成本人群能省三成多。

原文

10:03

arXiv cs.LG@Hugo O. Garcés, Alejandro J. Rojas, Bernardo A. Hernández, Andrés Escalona, Jonathan M. Palma, Md. Rezwan Parvez, Bhushan Gopaluni, Sirish L. Shah

该论文在非线性系统上比较了无模型控制器在虚假数据注入和拒绝服务攻击下的性能，分析了四种RL奖励类型（Lyapunov、指数、渐进、线性）的准确率、成本和弹性。结果显示Lyapunov奖励以低跟踪误差实现了最佳弹性，指数模式在中等训练条件下提供良好折衷，渐进和线性奖励收敛更快但鲁棒性较差。RL-MPC模型表现出强稳态弹性但需更长训练时间，RL-PID控制器训练时间显著缩短。PPO相比DDPG显著降低了KPI方差。

论文 PPO DDPG Lyapunov奖励强化学习信息物理系统安全

推荐理由：这篇论文对比了四种强化学习奖励函数在抵御网络攻击时的表现，发现Lyapunov奖励弹性最好，PPO比DDPG方差更低，做控制器设计可以拿来参考。

原文

10:02