全部 AI 动态 · AI 热点

6月17日

12:00

arXiv cs.LG@Longlong Zhu, Jiashuo Yu, Zedi Chen, Yuhan Wu, Zhifan Jiang, Yuchen Xian, Yimeng Liu, Jiajie Su, Shaopeng Zhou, Xingyuan Li, Hongyan Liu, Xuan Liu, Dong Zhang, Chunming Wu, Xiang Chen

OmniPlan采用基于大语言模型的解释器将异构自然语言意图转化为统一偏好向量，并利用混合专家架构动态选择MIP求解器、启发式算法和DRL模型作为专家。在分布式机器学习推理卸载任务（包括决策树、SVM、XGBoost等）的真实测试中，OmniPlan实现了近最优卸载，延迟降低高达97.8%，网络设备资源消耗降低11.5%。

论文 OmniPlan LLM 混合专家架构网络规划 ML推理卸载

推荐理由：OmniPlan用LLM和混合专家做网络优化，在分布式ML卸载上延迟降97.8%，资源降11.5%，效果很直观。

原文

12:00

arXiv cs.LG@Steve Halley, Maurício Gruppi

该论文提出SD-ZFS框架，将S2V-DQN架构适配到最小零强制集(ZFS)问题。ZFS是NP难的图着色问题，在图神经网络、网络控制和逻辑电路设计中有应用。在多个不同结构的图数据集上训练模型，评估其泛化、扩展和迁移能力。与最优解和贪心启发式相比，SD-ZFS框架展示了有效性。

论文 SD-ZFS S2V-DQN 强化学习图神经网络零强制集

推荐理由：这篇论文告诉你如何用强化学习搞定一个NP难的图论问题，效果比传统贪心算法好，适合研究图神经网络和组合优化的人。

原文

12:00

arXiv cs.LG@Umer Siddique, Peilang Li, Yongcan Cao

该论文研究多目标强化学习（MORL）中的公平性优化问题。传统单策略方法使用广义基尼福利函数（GGF）只能处理固定用户偏好，缺乏策略多样性。作者证明对于凹分段线性福利函数（如GGF），公平策略仍属于凸覆盖集（CCS）。提出三种新算法：集成GGF的多策略多目标Q学习（MOQL）、状态增强多策略MOQL及随机策略扩展。在多个领域实验表明，该方法能学习一组适应不同用户偏好的公平帕累托最优策略。

论文 MORL GGF 多目标强化学习公平性帕累托最优

推荐理由：这篇论文提出了在MORL中兼顾最优和公平的新方法，用GGF和三种算法生成多样化的公平策略，比传统单策略方法更灵活。

原文

11:59

arXiv cs.LG@Mostafa Darvishi

该论文系统介绍了面向微控制器级嵌入式设备的机器学习工作流，涵盖从数据采集到部署的工程决策。重点包括从三轴加速度计两秒窗口提取均方根和频谱特征用于惯性运动识别，音频经抗混叠滤波后转换为梅尔频率倒谱系数，由紧凑一维卷积网络处理关键词识别。论文还讨论了类别不平衡下的验证、模型与运行时协同设计、量化、阈值化、调度和现场监控等实践规则。

论文 Embedded Machine Learning Microcontroller Edge Devices Feature Extraction Model Deployment

推荐理由：这篇论文把嵌入式ML的工程细节讲得很实在，从特征提取到量化部署都有实操建议，做边缘AI的开发者值得一看。

原文

11:58

arXiv cs.LG@Ramprasath Ganesaraja, Sahil Dilip Panse, Swathika N

Mamba-2 1.3B参数模型通过分组量化感知训练（QAT）从FP16教师蒸馏，仅消耗4 GPU小时（单H100）和102M tokens，将内存从2,687 MB压缩至744 MB（3.61倍）。零样本七任务平均准确率达48.1%，接近Bi-Mamba的48.4%（±0.9pp置信区间）。该方法无需从头训练150B tokens，使用预训练检查点即可。研究还发现零比例坍缩现象，即可学习量化尺度导致的不稳定性，这在从头训练中不会出现。后处理校正策略对SSM无效，因循环结构导致误差累积。

论文 Mamba-2 Ternary Mamba 量化感知训练模型压缩状态空间模型

推荐理由：把Mamba-2压缩到1比特权重不用花大钱从头训练，用预训练模型加少量微调就行，效果只差0.3%。

原文

11:58

arXiv cs.LG@Mohammadreza Rashidi

该论文分析了Handlebars模板引擎中双花括号{{x}}和三角花括号{{{x}}}对LLM提示注入的影响。双花括号HTML转义尖括号但不转义方括号、冒号或Markdown井号，导致ChatML、Llama-3和XML分隔符存活率为0.00，而Llama-2 [INST]、Human:/Assistant:和Markdown ###分隔符存活率为1.00。在5760次试验中，GPT-3.5 Turbo在原始插值下任务劫持成功率达97%，在转义下为91%。Claude Haiku 4.5几乎完全抵抗两种攻击。转义默认值仅对HTML转义覆盖的分隔符方案有效，无法替代指令与数据的结构化分离。

论文 Handlebars LLM提示注入 GPT-3.5 Turbo Claude Haiku 4.5 提示工程安全

推荐理由：这篇论文用具体数据告诉你，Handlebars的{{}}和{{{}}}差别有多大，以及为什么别指望HTML转义防注入。

原文

11:41

arXiv cs.LG@Ari Blondal, Hamed Hatami, Pooya Hatami, Chavdar Lalov, Sivan Tretiak

这篇论文研究了二元概念类的信号秩（sign rank）的下界方法。作者证明了Z2-索引（Z2-index）被列表可复制数（list replicability number）的线性函数所上界，从而解决了Frick、Hosseini和Vasileuski提出的信号秩与Z2-索引之间是否存在强分离的问题。论文进一步分析了列表可复制数的上界，将其关联到两个组合度量：高度（height）和最小星数（minimum star number）。最后，作者证明了两个概念类的乘积的列表可复制数不超过各自列表可复制数之和。

论文 sign rank Z2-index list replicability number 学习理论组合度量

推荐理由：这篇论文厘清了信号秩、Z2-索引和列表可复制数三个复杂概念的关系，解决了前人遗留的分离问题，还给出了组合上界，适合对学习理论下界感兴趣的人。

原文

11:41

arXiv cs.LG@Rishit Dagli, Donglai Xiang, Vismay Modi, Xuning Yang, Gavriel State, David I. W. Levin, Maria Shugrina

AdaVoMP提出预测3D物体杨氏模量（E）、泊松比（ν）和密度（ρ）的密集空间变化分布。它使用稀疏自适应体素结构SAV，通过稀疏Transformer编码器-解码器自回归生成每输入形状的独特SAV。相比最准确的前期方法VoMP，分辨率提高16^3倍。实验表明，AdaVoMP在测试时计算量更少的情况下估计更准确的体积属性。可将高分辨率复杂3D物体转换为可仿真的资产，实现逼真的可变形模拟。

论文 AdaVoMP VoMP SAV 机械属性物理仿真

推荐理由：AdaVoMP能预测3D物体的机械属性，分辨率比最好方法高16^3倍，还省计算，适合物理仿真。

原文

11:39

arXiv cs.LG@Hao Liang, Cheng Tang, Yunzong Xu

本文研究广义交换机中有限视界排队峰值的渐近行为，采用MaxWeight等漂移最小化调度策略。在均匀松弛负载条件下，平方根包络（√T）仅持续到几何阈值；超出后，运行最大值以O(log T)增长，高概率和期望均成立。匹配下界表明对数项和几何阈值均不可避免。对广义输入排队交换机，获得具有紧对数系数的有限时间峰值界限。仿真验证了两阶段包络及局部几何修正效应。

论文 MaxWeight 广义交换机排队论调度策略随机网络

推荐理由：这篇论文揭示了排队峰值在几何阈值前后从平方根到对数的转变，对理解随机网络调度策略的限时行为很有价值。

原文

11:39

arXiv cs.LG@Trisha Mittal, Akshay Mehra, Joshua Kimball

这篇论文基于ImageNet-1K、ImageNet100和ImageNette三个数据集，采用三种训练协议，对七种最新数据集蒸馏（DD）方法与三种核心集选择（CS）策略进行了标准化对比。实验发现，部分DD方法甚至不如随机子集，而最先进的DD方法在大规模数据集上表现与核心集相当或更差。DD方法的构建成本显著高于CS。此外，核心集在数据分布覆盖、代表性和多样性上始终优于蒸馏集。

论文 Dataset Distillation Coreset Selection ImageNet-1K 数据压缩论文

推荐理由：想用数据集蒸馏来压缩训练集？这篇论文告诉你，现有DD方法在ImageNet上不比随机选子集好，还更贵，不如直接用核心集。

原文

11:38

arXiv cs.LG@Abir Ashab Niloy, Ahmed Ryan, Imamul Hossain Rafi, Md Erfan, Md Rayhanur Rahman

研究者构建了一个包含870个会话（70个攻击，800个正常）和约230万事件的多源日志数据集，覆盖系统、网络和浏览器日志。攻击事件用ATT&CK技术ID标注，涉及12种战术和53种技术。使用LoRA微调Qwen2.5-1.5B、Llama-3.2-3B、Phi-4-Mini三个小型语言模型，在分块分类任务上准确率从约8%提升至90%-97%。技术识别任务最佳精确匹配准确率为42%，但部分匹配得分较高，表明模型掌握了大部分推理逻辑。

论文 Qwen2.5-1.5B Llama-3.2-3B Phi-4-Mini ATT&CK 多源日志

推荐理由：这个新数据集把系统、网络和浏览器日志合在一起，还按ATT&CK标准标了攻击手法。拿三个小模型试了一下，分块分类准确率从8%升到90%以上，挺实用的。

原文

11:38

arXiv cs.LG@M. Forzo, E. Monzio Compagnoni, A. Russo, A. Pacchiano

本文针对带线性函数近似的时序差分(TD)学习，提出了一种随机微分方程(SDE)近似，以替代传统常微分方程(ODE)描述。ODE仅捕捉渐近平均动力学而忽略随机波动，新SDE模型在马尔可夫噪声下区分了投影Bellman算子的收缩动力学与采样噪声的影响。该模型解释了恒定步长误差下限是由马尔可夫长期协方差与投影Bellman算子收缩几何相互作用导致。论文提供了理论证明与数值验证。

论文 TD learning 线性函数近似随机微分方程策略评估马尔可夫噪声

推荐理由：这篇论文从数学上解释了TD学习的误差为啥降不下去，用扩散近似把随机性的影响说清楚了。方法派、做强化学习理论的可以看看。

原文

11:35

arXiv cs.LG@Ahmed Ryan, Saad Sakib Noor, Md Erfan, Shaswata Mitra, Sudip Mittal, Md Rayhanur Rahman

该研究构建了包含2076条人工标注句子的数据集（1281条正样本、795条负样本），来自83份复杂的非结构化CTI报告，映射到114种ATT&CK技术。评估了7个开源LLM（参数规模8B至236B），最高micro-F1得分为0.22。参数大小与F1得分呈显著正相关，提示策略和温度设置无显著影响。结果表明当前开源LLM尚无法用于生产级ATT&CK分类。

论文 ATT&CK CTI MITRE 开源模型多标签分类

推荐理由：这篇论文造了2076条人工标注的CTI数据，测了7个开源大模型，结果最好的F1才0.22，说明开源模型在安全情报分析上还不够用。

原文

11:26

arXiv cs.LG@Marco Deano, Filippo Ziche, Nicola Bombieri

论文提出S4oP，一种增量式运算符级剪枝方法，针对S4和S4D结构状态空间模型。该方法通过交替结构化掩码和微调逐步剪枝运算符。实验在多个基准数据集上表明，剪枝70%的模型运算符仍能保持原模型性能，同时显著降低推理延迟。这是首次系统研究SSM的结构化运算符剪枝。

论文 S4oP S4 S4D SSM 模型剪枝

推荐理由：这篇论文把S4模型剪掉70%计算量还能保持性能，想在小设备上跑S4模型可以看看。

原文

10:46

arXiv cs.AI@Mingtong Zhang, Dhruv Shah

论文提出了VERITAS框架，将预训练通用机器人策略作为“生成器”，搭配无梯度的“视觉验证器”在推理时评估动作。该框架无需额外训练即可提升策略性能，优于原通用策略。使用验证的自主轨迹进行微调后，策略性能持续提升，且效率与专家演示相当，无需人工干预。实验表明推理时验证是一种实用且可扩展的部署改进机制。

论文 VERITAS 机器人推理时验证策略改进自主学习

推荐理由：这篇论文展示了如何用视觉验证器让机器人策略在推理时自我改进，无需额外训练，效率堪比专家演示，值得关注。

原文

10:46

arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet Talwalkar

ReproRepo是一个可扩展的框架，利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文，测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域，但精确定位仍不足。代码已开源。

论文 ReproRepo GPT-5.5 Codex 可重复性 LLM智能体

推荐理由：这篇论文提出了一个可扩展的框架，用GitHub Issues来测试LLM智能体找论文代码的复现问题，比现有手动基准好很多，值得看。

原文

10:46

arXiv cs.AI@Qi Chai, Wenhao Shen, Nanjie Yao, Yue Xia, Kaiyong Zhao, Jie Ma, Guosheng Lin, Hao Wang

EvolveNav 提出了一种自演化框架，用于零样本物体目标导航，无需预先训练。该方法通过构建代理规则记忆，从过往轨迹中提取可操作知识，并采用基于上置信界（UCB）的检索策略平衡语义相关性和历史成功率。还引入了记忆引导的前置反思模块，在行动前预测潜在结果，减少低效探索。实验表明，EvolveNav 在多个基准上超越现有零样本基线，成功率提升 10.1%，同时减少了不必要的步骤。

论文 EvolveNav 零样本物体导航记忆机制具身智能

推荐理由：这篇论文搞了个EvolveNav，让机器人自己从失败中学习，零样本导航成功率直接涨了10%，而且没走那么多冤枉路。

原文

10:46

arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos

本文提出一种基于模仿学习的策略学习技术，用于在部分可观测的自主网络环境中预测红方（攻击方）动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后，该方法能有效处理不同红方策略，并在多种模拟场景下实现高预测准确率。

论文模仿学习强化学习 AI安全智能体网络防御

推荐理由：这篇论文用模仿学习帮防守方预测攻击者行动，在模拟网络攻防场景下准确率很高。

原文

10:45

arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam

精选

Looped World Models（LoopWM）首次将循环架构引入世界建模，通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法，LoopWM在参数效率上提升多达100倍，并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴，独立于模型规模和训练数据规模。

论文 LoopWM 世界模型循环架构参数效率

推荐理由：这篇论文用循环架构解决了世界模型长程预测的计算瓶颈，参数省了100倍还能自适应深度，做仿真和规划的研究者值得看。

原文

10:45

arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto

循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加，信号传播问题加剧，影响模型性能。本文提出FPRM，一种基于Transformer的固定点推理模型，采用预归一化层和残差缩放解决信号传播，并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。

论文 FPRM Transformer 固定点推理推理模型架构优化

推荐理由：这篇论文提出了FPRM，用固定点收敛让循环推理深度自适应任务难度，在Sudoku和ARC-AGI上效果不错，适合关注推理架构的人。

原文

10:45

arXiv cs.AI@Weizhi Zhang, Zechen Li, Hamid Palangi, Ben Graef, A. Ali Heydari, Simon A. Lee, Salman Rahman, Ray Luo, Zeinab Esmaeilpour, Erik Schenck, Chloe Zhang, Yamin Li, Menglian Zhou, Philip S. Yu, Daniel McDuff, Lindsey Sunden, Mark Malhotra, Shwetak Patel, Ahmed A. Metwally

RubricsTree是一个专家对齐的分层评估框架，包含超过100个可临床验证的原子布尔规则，这些规则从4000个真实用户查询中通过迭代人机协作提炼而成。框架使用上下文自适应路由器为每个查询激活相关子集，实现可扩展且与专家质量对齐的评估。在元评估中，RubricsTree在专家对齐上显著超过强基线，且可靠惩罚上下文退化的响应。作为结构化指令、文本反馈或训练奖励用于性能优化时，RubricsTree在HealthBench上为Gemini、GPT和Qwen系列模型带来高达约66%的相对提升。

论文 RubricsTree HealthBench Gemini GPT 健康代理

推荐理由：RubricsTree用4000条真实查询构建100多条可验证规则，评估健康AI比LLM裁判更准，还能当训练奖励，让Gemini等模型性能飙升66%。

原文

10:44

arXiv cs.AI@Nicola Franco

Anthropic发布了对两个前沿模型Fable 5和Opus 4.8的红队研究。研究使用HackAgent框架，对7,826个有害意图进行自动化越狱攻击，覆盖十类危害。最强自适应树状攻击在Opus 4.8上成功率达11.5%，而在Fable 5上仅为6.1%。两个模型分别产生了1,620和702个经专家确认的有害输出。结论表明，即使经过充分测试的前沿模型仍可在持续自动化攻击下被可靠破解。

论文 Anthropic Fable 5 Opus 4.8 AI安全越狱攻击

推荐理由：Anthropic公开了Fable 5和Opus 4.8的对抗性测试结果：树状攻击破Opus 4.8的11.5%，但Fable 5更抗打，仅6.1%。别被整体数字骗了，残存风险不小。

原文

10:44

arXiv cs.AI@Nick Bettencourt, Xiaowei Ding, Kay Giesecke

斯坦福大学发布SEFD数据集，重建SEC文件为布局忠实的MultiMarkdown格式，用于金融语言模型预训练。SEFD-v1初始快照包含152B tokens，总归档估计550B tokens。该数据集与Common Crawl衍生语料重叠小于0.1%，具有极高的新颖性。同时推出两个基准EDGAR-Forecast（财务数值预测）和EDGAR-OCR（复杂表格转录），评估模型在金融领域的能力。

论文 SEFD EDGAR 金融数据预训练数据财务基准

推荐理由：斯坦福这个SEFD数据集太实用了，152B token的金融预训练数据，跟Common Crawl几乎不重复，还自带财务预测和表格识别基准，搞金融NLP的可以省好多事。

原文

10:43

arXiv cs.AI@Lekan Molu

精选

这篇论文提出用向后Kolmogorov方程将扩散策略提升至Cameron-Martin空间，以确定性PDE替代随机分数匹配。在PushT操作基准上，Cameron-Martin损失使最大回合奖励提升17%（0.95 vs 0.78），推理时步间漂移降低67.6%。在6站CONWIP制造线上，RMSE较LSTM降低28.4%，饥饿事件召回率达1.0，瓶颈识别Precision@1=1.0，信噪比13倍。结合Hamilton-Jacobi可达性理论，死锁事件减少96%（351次预防）。方法提供收敛保证、轨迹规整性和无奖励信号的故障检测。

论文 Kolmogorov回归扩散策略 Cameron-Martin空间 PushT CONWIP

推荐理由：这篇论文用Kolmogorov方程改进了扩散策略，在PushT和制造线上奖励提升17%、漂移减少67%，还能做故障检测，比普通扩散方法靠谱。

原文

10:43

arXiv cs.AI@Henry Bodwell, Hong Yang, John C. Simeone, Kelvin Gorospe, Bella Sullivan, Lana Huang, Jessica Gephart, Sandy Aylesworth, Molly Masterton, Naren Ramakrishnan

论文提出IUU+DB系统，利用大语言模型（LLM）从异构文档中提取非法、未报告和未监管捕捞（IUU）及相关海鲜欺诈、劳工虐待事件信息。系统可分类是否相关，提取行为者、地点、物种、船舶、违规类型及执法结果等关键数据，并支持去重和趋势分析。案例验证表明，IUU+DB能帮助组织碎片化证据，识别地理和行为热点，为学术界、非政府组织、行业风险评估及政府政策执行提供支持。

论文 IUU+DB LLM 非法捕捞海鲜欺诈劳工虐待

推荐理由：这篇论文搞了个IUU+DB系统，用LLM自动从大量文档里挖出非法捕捞和海鲜欺诈的线索，能帮监管者和研究人员快速定位热点区域，挺实用的。

原文

10:42

arXiv cs.AI@Michèle Finck

大型语言模型已能生成至少中位质量的法律文本，但现有法律AI评估仅测量辅助性任务，无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”，却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白，并呼吁建立对应的标准化评估。

论文 LLM EU AI Act 法律推理基准教义性推理

推荐理由：这篇论文直击法律AI评测的核心缺陷——现有基准只测写文书，不测真正懂法理。做法律AI或合规的朋友值得看看。

原文

10:42

arXiv cs.AI@Libing Zeng, Li Ma, Mingming He, Ning Yu, Paul Debevec, Nima Khademi Kalantari

ReAge3D提出一种3D人脸重龄化方法，可生成细节丰富、保持身份的重龄化结果。它引入2D扩散模型DiffReaging，在合成图像对上训练。采用中心向外编辑传播策略，先重龄化正面视角图像，再通过扭曲和Masked-DiffReaging过程重建其他视角，确保多视图一致。该方法在视觉和定量上优于现有3D编辑技术，支持对年龄变换的平滑精细控制。

论文 ReAge3D DiffReaging 3D人脸重龄化多视图一致性

推荐理由：一篇新论文，用DiffReaging和传播策略解决了3D人脸重龄化的视图不一致问题，效果超过现有方法，做图像编辑和3D视觉的可以看看。

原文

10:41

arXiv cs.AI@Yuwei Zhang, Tong Xia, Bianca Emmerich, Yu Yvonne Wu, Dimitris Spathis, Xin Liu, Daniel McDuff, Cecilia Mascolo

论文提出WEQA，一个查询自适应智能体框架，统一LLM推理与可穿戴分析及建模工具。它采用LLM控制器合成执行计划，动态路由查询至传感器分析与预训练模型组合，并借助外部知识进行响应审计。研究团队构建了涵盖四个公开可穿戴数据集、三个健康领域的基准。实验显示，WEQA比LLM和智能体基线准确率高出24%。一项由12名医学专家和8名用户参与的盲测表明，其在有用性和临床合理性上有显著提升。

论文 WEQA 可穿戴健康数据医学问答智能体 LLM

推荐理由：这篇论文解决了大模型看不懂可穿戴数据的问题。WEQA框架比基线的准确率高出24%，还通过了医学专家盲测，做医疗AI的同学值得看看。

原文

10:41

arXiv cs.AI@Josef Liyanjun Chen

该研究将机器人闪存耐久性视为非可再生资源，提出用单个影子价格η优化数据在RAM、板载NVM和云之间的分布。在重复长程操作场景中，价值-写入关联χ的测量值约为+1.0×10^{-3}，短程场景中接近零，非重复遥操作场景中为负。高端TLC闪存（3000 P/E）上耐久预算不构成约束，但廉价QLC/eMMC（约1000 P/E）上具有约束性。学习型磨损感知控制器在任务价值上与基于价格的路由持平，因为实现的价值在不同层级间保持不变。非单调最优已被证明但尚未在实验数据中观察到。

论文具身智能闪存耐久性影子价格 NVM 云存储

推荐理由：这篇论文把机器人闪存写寿命当成钱来算，发现只有便宜芯片上才需要省着用，高端芯片随便写。读它学怎么用价格信号管好机器人记忆。

原文

10:40

arXiv cs.AI@Sinclair Gurny, Ryan Quinn

C3GD 是一个公开的枪声数据集，包含超过 8000 个现场采集的枪声数据点，覆盖 28 种枪支和 16 种口径。数据集提供了远超现有公开资源的元数据，包括麦克风类型、位置等细节。它主要面向口径分类任务，也可用于枪声检测、音频分离和音频信号处理，旨在提高真实场景下的泛化能力。该数据集解决了互联网收集枪声音频带来的低质量和标签噪声问题。

论文 C3GD 枪声分类数据集音频处理公开数据集

推荐理由：想做枪声分类或检测的朋友，这个 C3GD 数据集有 8000+ 现场样本、28 种枪和 16 种口径，比网上扒的数据干净多了。

原文

10:40

arXiv cs.AI@Ziqi Zhou, Yubo Ye, Sumeet Atul Vadhavka, Linwei Wang, Zhiqiang Tao

论文提出LEADS框架，利用LLM智能体在结构化动作空间中迭代发现混合物理-神经模型，解决传统方法需要专家手动设计且无法跨患者迁移的问题。在三种合成反应数据和真实心脏电生理数据上，LEADS均优于人工设计的混合模型和其他基于LLM的方法。该方法保证了模型的物理合理性、可解释性和数值稳定性，同时允许开放性的架构探索。

论文 LEADS 心脏电生理数字孪生 LLM 智能体

推荐理由：这篇论文用LLM智能体自动设计心脏数字孪生的混合模型，比人工靠经验搭的更准，还跨病人管用。合成和真实数据上都赢了其他方法。

原文

10:35

arXiv: OpenAI@Dipayan Banik, Kowshik Chowdhury, Shazibul Islam Shamim

该论文分析了33,596个AI Agent（OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code）提交的86,156个测试文件补丁，发现80.2%的测试补丁包含弱或没有显式断言（oracle signals）。研究者总结出8种oracle信号类型，并发现经过回归分析调整后，强oracle信号使PR合并可能性提高28%（OR=1.28, p<0.001）。结果表明仅凭测试文件数量会高估验证强度。

论文 AI Agent 测试代码断言代码质量实证研究

推荐理由：这篇论文用86k条实际数据告诉你：AI写的测试代码虽然多，但八成没用断言，光靠数量验收会翻车。建议读读他们总结的oracle信号分类。

原文

10:30

arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs

新基准TAC（Travel Agent Compassion）测试AI代理在12个旅行预订场景中是否避免动物剥削选项，涵盖6类动物剥削，扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平，最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后，Claude和GPT-5.5提升47-63个百分点，GPT-5.2提升26个百分点，DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识，表明低分并非因识别出测试。

论文 TAC 动物福利 AI Agent 基准测试 Claude Opus 4.7

推荐理由：动物福利问题有了AI专属的代理基准TAC，实测Claude Opus 4.7刚过一半，加个提示词能暴增60%，暴露了模型在实际行动中的盲区。

原文

10:22

arXiv cs.LG@Cosimo Gregucci, Obaidah Theeb, Daniel Hernandez, Antonio Vergari, Steffen Staab

这篇论文研究了知识图谱基础模型（KGFM）的零样本泛化机制。作者提出“半链接”概念，即三元组(h,r,t)中的(h,r)或(r,t)部分。实验表明，只需观察到测试三元组的一个半链接在推理图中，就足以准确预测完整链接。基于此，论文划分了四种半链接观测组合场景，并在这些场景下对现有KGFM进行了分层分析。分析发现，当前最先进的KGFM依赖已见半链接进行预测，而未见半链接带来不同挑战，这为未来模型改进提供了诊断方向。

论文 KGFM knowledge graph 零样本泛化半链接 arXiv

推荐理由：这篇论文把知识图谱模型泛化的底层逻辑讲清楚了——原来只要看到半个链接就能猜出整条，还分出了四种情况。搞图神经网络或KG推理的人别错过。

原文

10:21

arXiv cs.LG@Tomasz Maciazek

精选

该研究分析了高斯过程（GP）后验采样中释放样本路径的差分隐私（DP）性质。与标准DP机制不同，后验采样的内在随机性可提供隐私保证。作者推导了显式的Rényi-DP界限，将隐私泄露分解为后验均值依赖和后验协方差依赖部分，并指出有效岭正则化对隐私有显著影响。通过成员推理攻击实验，验证了隐私泄露与正则化强度、后验方差及释放样本路径数量之间的预测关系。在噪声观测任务中，隐私兼容的正则化在保持有用决策的同时仅带来适度效用损失。

论文 Gaussian Process Differential Privacy Rényi-DP AI安全隐私保护

推荐理由：这篇论文分析了GP后验采样的隐私性，不用额外加噪就能获得DP保证，还给了Rényi-DP界限。和标准加噪方法比，它更巧妙地利用了内生随机性。

原文

10:21

arXiv cs.LG@Yuming Chen, Yuxin Xie, Tao Zhou, Yi Zhou

提出CERS框架，将链式思维推理集成到半监督医学图像分割中，解决视觉-语义不匹配问题。利用大语言模型生成语言推理描述构建知识池，并设计语义感知参考选择策略，通过形态过滤和CoT一致性消除硬负样本。引入多尺度坐标注意力模块融合推理上下文，在多个基准上优于现有方法，尤其改善边界模糊和语义不一致。

论文 CERS Chain-of-Thought 医学图像分割半监督学习大语言模型

推荐理由：这篇论文用CoT推理帮医学图像分割识别病理不同的病变，比只看像素的旧方法靠谱得多，尤其是处理边界模糊的情况。

原文

10:20

arXiv cs.LG@Degala Pushpa Sri, Mayank Atreya, Lakshmi. H, Navin Chhibber, Mukesh Soni

该研究针对电商平台难以预测客户未来购买行为的问题，提出混合Ret-DNN（零售深度神经网络）与XGBoost（极端梯度提升）模型。数据来自英国在线零售商，包含近500,000条交易记录。Ret-DNN作为特征提取器捕获时间特征，XGBoost基于提取特征输出购买概率。该模型在测试集上达到0.2193的平均绝对误差（MAE），优于纯Ret-DNN模型。

论文 Ret-DNN XGBoost 客户行为预测电商预测分析

推荐理由：这篇论文用Ret-DNN加XGBoost预测电商客户行为，MAE仅0.2193，比单独用Ret-DNN效果更好，适合做电商预测研究的人参考。

原文

10:19

arXiv cs.LG@Kathrin Korte, Christian Medeiros Adriano, Joachim Winther Pedersen, Eleni Nisioti, Sebastian Risi

该研究在A-B-A范式下比较了任务划分循环网络与单网络基线在持续学习中的表现。高维“lazy”状态中，两种架构性能相近，模块化收益小。低维“rich”状态中，模块化网络形成梯度任务特异子空间，对相似任务重叠、中等相似对齐、不相似分离，实现更组合化的组织。结果表明，初始化尺度诱导的表征维度是决定模块化结构是否有利于持续学习的关键因素。

论文持续学习模块化表征维度 A-B-A范式循环网络

推荐理由：这篇论文用实验告诉你：模块化在持续学习中不是万能的，维度低时才有用，帮你判断何时该用模块化设计。

原文

10:18

arXiv cs.LG@Takaya Kawakatsu

论文提出结构精炼模块，通过非因果注意力产生序无关的细胞特征。在ICDAR 2019和PubTables-1M两个数据集上，细胞定位和端到端识别一致提升。推理时间减少约3倍。现有方法因自回归解码导致细胞表示顺序依赖，影响全局一致性。新设计实现并行推理，同时每个细胞基于全局上下文。

论文表格识别多任务学习自回归解码非因果注意力

推荐理由：这篇论文解决了表格识别中自回归解码的顺序依赖问题，用非因果注意力让细胞特征序无关，推理快了3倍，识别也更准。

原文

10:18

arXiv cs.LG@Toshitaka Hayashi, Hamido Fujita, Dalibor Cimr, Richard Cimler, Jitka Kühnová

该论文提出一种对单类分类(OCC)模型进行元分类的方法，利用排名相关(Ranking Correlation)和最近邻(Nearest Neighbor)度量。实验将OCC模型按训练数据集、算法和超参数分类，在数据集分类任务上达到高准确率。在睡眠记录(Sleeping Records)数据集上展示了数据集的分类效果。代码已开源在GitHub。

论文 OCC模型排名相关最近邻元分类睡眠记录

推荐理由：这篇研究用排名相关和最近邻把单类分类模型分门别类，在睡眠数据上效果不错，代码也开源了。

原文