全部 AI 动态 · AI 热点

6月19日

11:10

arXiv cs.AI@Zahra Asghari Varzaneh, Reza Khoshkangini, Pia Saldeen, Lars Johansson, Thomas Ebner

该论文利用55个上下文感知时间特征（包括滚动热稳定性、温湿度同步达标率、峰值压力时长和压力后恢复速度）建模IVF实验室微环境。基于亚洲诊所61周数据，这些特征将交叉验证预测误差从原始平均值的3-5%降至1.27%。分层贝叶斯Beta回归模型通过部分池化共享环境效应，在另一北欧诊所的留出数据上对35-39岁年龄组实现R2=0.86，相比基线误差减少64%。研究证明结构化环境监测包含临床上有意义的可迁移信号。

论文 IVF 分层贝叶斯环境监测临床预测

推荐理由：搞生殖医学或临床预测的看这篇：55个环境特征把IVF成功率预测误差压到1.27%，模型还能跨诊所迁移，相当实用。

原文

11:09

arXiv cs.AI@Rostislav Makarov, Timo Gerkmann

该研究提出一种将传统语音分类器改造为扩散生成主干的方法。从冻结的噪声条件分类器（在log-Mel频谱上）开始，附加一个轻量子网络来复用中间分类器表示，仅训练该子网络，使用去噪得分匹配目标。这种方法实现了单主干模型的条件语音生成，在保持语音质量的同时减少了内存占用和计算成本。

论文语音分类器扩散模型条件生成单主干模型语音合成

推荐理由：这篇论文教你用一个现成的语音分类器直接生成语音，省掉单独训练扩散模型，更轻量高效。

原文

11:08

arXiv cs.LG@Jun He, Deying Yu

论文提出 Sovereign Execution Broker (SEB)，一种运行时执行边界，用于证书绑定的自主基础设施。SEB 消耗由 Sovereign Assurance Boundary (SAB) 签发的证书，验证请求变更是否匹配认证执行契约，检查有效期窗口、策略纪元、撤销纪元和实时状态漂移。SEB 铸造作用域执行身份，调用基础设施 API，记录签名决策和结果记录。原型在 AWS 和 Kubernetes 集群上评估，测量延迟开销、撤销传播、漂移检测和故障注入下的安全性。

论文 Sovereign Execution Broker 自主代理证书绑定执行边界安全

推荐理由：想给自主代理加一把安全锁？这篇论文提出了SEB，一个在运行时强制证书绑定的执行边界，能控制突变操作。实测在AWS和K8s上延迟开销可控。

原文

11:07

arXiv cs.LG@Asa Shepard, Jeannie Albrecht

论文提出探针-改进调优法，通过合成bug修复探针迭代诊断和修补仓库指导文件，无需代理循环或工具调用。在SWE-bench Verified上，使用Qwen3.5-35B-A3B模型200步，平均解决率33.0%，高于静态知识库的28.3%和无指导基线的25.5%（p<0.001）。改进来自覆盖度而非精确度：优化指导使可评估补丁增加14.5个百分点，但补丁精确度稳定在约59%（p=0.119）。跨模型实验显示，当模型无法生成足够诊断输出时调优效果下降，但补丁精确度仍保持恒定。

论文探针-改进调优 SWE-bench Verified Qwen3.5-35B-A3B 编码智能体仓库指导文件

推荐理由：这篇论文告诉你：给编码智能体写AGENTS.md时，别一次性写好就完，得用探针-改进法迭代修。实测在SWE-bench上解决率涨了近5个点，主要是能让智能体多搞定14.5%的实例。

原文

11:06

arXiv cs.LG@Sihui Dai, Mann Patel

该论文通过混合良性合规示范（无害请求、有用回复）与有害合规示范（有害请求、有用回复），测试了三种关于示范组合如何导致有害合规的假设。在四个模型中，良性示范与有害示范不可互换：良性示范可能减少或增加有害合规，取决于模型。研究发现偏好优化是关键训练阶段，可防止良性示范增加有害合规；示范排序存在强烈的近因偏差；模型在拒绝与上下文学习交互时表现不同。

论文 LLM jailbreak demonstration in-context learning 安全对齐

推荐理由：这篇论文解释了为什么不同的合规示范会以不同方式影响模型，帮你理解LLM的jailbreak机制，不只是实证而是分析原理。

原文

11:06

arXiv cs.LG@Sai Sakunthala Guddanti, Anil Prabhakar, Ria Rushin Joseph

该论文系统研究了多qutrit量子系统中von Neumann熵的估计问题，使用两种互补方法：变分量子算法(VQA)和经典卷积神经网络(CNN)。对于最多3个qutrit的系统，构建了11种SU(3)启发的ansatz，参数扫描表明估计精度主要由可训练参数数量决定，并固定约120个参数。对于2至5个qutrit的系统，基于张量积互斥基测量结果训练的CNN仅使用全态层析所需12.5%的测量，即可对4与5 qutrit系统实现90百分位绝对误差约0.13-0.16 nats。CNN对shot噪声鲁棒，且泛化到分布外状态。结果显示VQA适用于小系统，而CNN估计器在大qutrit系统中具有更好的可扩展性和鲁棒性。

论文 qutrit VQA CNN 熵估计量子信息

推荐理由：这篇论文用CNN和VQA两种方法估测量子系统的熵，发现CNN只用12.5%的数据就能准确估计，对更大系统效果更好，值得关注。

原文

11:04

arXiv cs.LG@Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

这篇论文提出利用用户与LLM交互时的鼠标轨迹和眼动数据作为隐式反馈来替代昂贵的显式偏好标注。他们构建了IFLLM数据集，包含59名用户的1336个多轮问答，并记录了鼠标和眼动数据。基于这些隐式反馈训练的奖励模型将文本奖励模型的准确率从55%提升到64%。对8个LLM应用DPO后，响应质量相对提升近3倍，证明了隐式反馈在真实场景中的价值。数据集和代码已开源。

论文 IFLLM LLM 隐式反馈 DPO 开源模型

推荐理由：别光看用户点了什么赞，鼠标和眼睛动的方向才是真心话。这篇论文用59人的眼动和鼠标轨迹数据训练奖励模型，准确率从55%飙到64，还开源了数据集。

原文

11:03

arXiv cs.LG@Yusuf Salcan, Simon Ging, Robin Schirrmeister, Philipp Arnold, Elmar Kotter, Behzad Bozorgtabar, Thomas Brox

论文提出RefRad2D数据集，包含120万CT和MR图像-文本对，覆盖德语和英语。该数据集通过LLM标注和自动分割生成任务特定的VQA和空间定位子集。基于此训练的RadGrounder模型同时支持报告生成、视觉问答和边界框检测/分割。在Slake和VQA-RAD外部基准上，RadGrounder取得与专用医学VLM竞争的结果。加入临床数据训练可提升开放VQA表现，且增加空间定位监督不降低语言质量。

论文 RefRad2D RadGrounder 放射学 VQA 空间定位

推荐理由：这篇论文开源了120万对的放射学双语数据集RefRad2D，训练出的RadGrounder能同时做报告生成、VQA和空间定位，空间定位还不影响语言质量，搞医疗AI的值得看看。

原文

11:02

arXiv cs.LG@Mingyu Yang, Keye Zheng, Congchao Cheng, Yujie Liu, Xingkang Lu, Fan Jiang, Yefei Zheng

现有批量式轨迹蒸馏中，同一记忆操作在不同批次间可能收到矛盾反馈，缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比，利用指数移动平均累积每操作符号证据，并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中，MAA取得14个最佳结果，一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。

论文智能体 MAA 轨迹蒸馏边际优势累积

推荐理由：这篇论文提出MAA，能让智能体自我进化时跨批次累积有效操作，减少75%的token消耗，在多个基准上超过现有方法。

原文

11:01

arXiv cs.LG@Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao

论文提出UltraQuant，一种针对智能体工作负载的4位KV缓存压缩方法，基于TurboQuant旋转和码书量化。在长上下文多轮任务中，UltraQuant在缓存压力大的后期轮次将P50首令牌延迟降低3.47倍，全轮次平均降低2.3倍。相比FP8 KV缓存基线，输出吞吐量提升1.63倍。设计包括非对称K/V处理、Walsh-Hadamard旋转及AMD GPU专用优化。

论文 UltraQuant FP4 KV缓存 AMD GPU 推理优化

推荐理由：长上下文智能体推理慢？UltraQuant把4位KV缓存做到实用，延迟降3倍多，吞吐涨1.6倍，值得看看。

原文

10:56

arXiv cs.LG@Bruno Scarone, Alfredo Viola, Renée J. Miller

该论文针对机器学习模型在种族和性别等交叉敏感属性上表现出的歧视问题，提出了一种扩展的偏差缓解框架。该框架引入覆盖约束，确保训练数据中交叉子群有足够代表性。通过将偏差缓解表述为整数线性规划，量化了公平性代价（最小数据修改成本作为公平容忍度的函数）。在公开数据集上的实验表明，该方法能在保留预测精度的同时，通过容忍小近似偏差提高数据效率，并满足覆盖约束对下游性能的保护。

论文公平性偏差缓解覆盖约束交叉属性机器学习公平性

推荐理由：这篇论文想办法解决交叉群体数据少导致的模型歧视，搞了个框架能平衡公平和成本，还告诉你修改多少数据能换多少公平。

原文

10:38

arXiv: DeepSeek@Arastoo Zibaeirad, Marco Vieira

精选

研究提出CWE-Trace框架，基于834个手动整理的Linux内核样本（覆盖74个CWE）评估LLM的漏洞检测能力。实验发现数据污染对性能无实质帮助：84%的污染样本不携带可用记忆信号。微调仅改变输出阈值（DFI范围-85.5至+94.8 pp），而不改变底层决策策略，模型在历史数据和截止后数据上表现一致。最佳检测准确率仅52.1%（高出随机2.1个百分点），CWE排名Top-1准确率低于1.3%，表明当前LLM缺乏可靠的安全推理能力。

论文 CWE-Trace Linux内核漏洞检测推理模型 Fine-tuning

推荐理由：这篇论文用800多个Linux内核漏洞样本做了严谨测试，发现LLM微调后只是改分数线，不是真懂安全。检测率刚过50%，别指望它们当安全审计员。

原文

10:37

arXiv: DeepSeek@Zewen Liu

论文提出Contagion Networks框架，测量评估偏差在多智能体LLM系统中的传播。使用DeepSeek-chat在3个智能体实验中，设定三种评估偏差画像（结构化、平衡、基于证据），测得Cross-Agent Contagion Matrix Gamma_3中偏差传播系数gamma在0.157至0.352之间。发现同质模型智能体传播系数比先前跨模型结果弱3-5倍（MM-EPC约0.85-1.3），处于抑制区。将评估委员会从k=1增至k=3可将有效传播降低72.4%。

论文 DeepSeek-chat Contagion Networks 多智能体评估偏差传播抑制

推荐理由：想知道大模型评估偏差怎么在智能体间传播？这篇论文用DeepSeek-chat做了实验，告诉你委员会投票能降72%传播，实用。

原文

10:21

arXiv cs.AI@Yuexing Hao, Xiaomin Li

研究提出三阶段流程：分割GUI轨迹、聚类为候选技能、训练技能感知策略。在InteraSkill Workflows基准上，8个聚类中有5个纯度≥0.95。然而，GRPO仅将技能步准确率从18.5%提升到20.5%，BrowseComp+几乎不变，且频率先验在源域指标上更优。表明轨迹挖掘可暴露可检查的技能结构，但当前边界检测器、无序段表示和离线奖励模型不足以可靠跨域策略改进。

论文 SKILL.md 计算机使用代理轨迹挖掘 GUI自动化 InteraSkill

推荐理由：这篇论文揭示了自动从交互数据中挖掘技能库的现状：能高精度聚类，但跨域提升有限。看了能知道方法还能改进哪里。

原文

10:19

arXiv cs.AI@Xijia Tao, Yihua Teng, Xinyu Fu, Ziru Liu, Kecheng Chen, Yuzhi Zhao, Suiyun Zhang, Rui Liu, Lingpeng Kong

SoftSkill 提出一种方法，将智能体的自然语言技能（Markdown 文件）转化为紧凑的连续上下文对象，通过可训练的软增量进行微调，而基础模型保持不变。在单轮设置下，Qwen3.5-4B 使用长度为 32 的 SoftSkill 前缀相比无技能提示，在 SearchQA 上提升 8.3 点，LiveMath 提升 42.1 点，DocVQA 提升 1.3 点。与 SkillOpt 相比，SoftSkill 在 SearchQA 上准确率提升 5.2 点，LiveMath 提升 12.5 点，同时将数百到数千个 Markdown 技能令牌替换为几个虚拟令牌。论文还探讨了智能体执行作为更难边界情况下的表现。

论文 SoftSkill Qwen3.5-4B 智能体行为压缩上下文适应

推荐理由：论文提出了 SoftSkill，能把复杂技能压缩成几个虚拟向量，用 Qwen3.5-4B 测试，数学题直接涨了 42 个点，比 SkillOpt 还强。

原文

10:17

arXiv cs.AI@Giancarlo Santamato, Andrea Mattia Garavagno, Massimiliano Solazzi, Antonio Frisoli

论文提出一种在数据极度稀缺条件下设计基于深度迁移学习的振动智能故障诊断系统（IFDS）的新方法。该方法采用周期性多激励水平程序，利用真实系统的固有非线性特性生成图像，供预训练卷积神经网络（CNN）分析以诊断故障。同时提出一种新的数据可视化及增强技术以应对IFDS设计中典型的数据不足。在铁路受电弓结构上的实验验证了该方法的有效性。

论文迁移学习故障诊断数据稀缺非线性 CNN

推荐理由：这篇论文用系统非线性生成图像，数据极少也能做故障诊断，还在铁路受电弓上验证了，搞工业AI的可以看看。

原文

10:15

arXiv cs.AI@Shihao Ji, HongXi Li, Zihui Song, Mingyu Li

Lagrange提出基于掩码潜在场（MLF）的开放词汇稀疏驾驶框架，利用视觉语言模型（VLM）编码类无关目标提议为连续语义视觉标记。通过意图驱动的掩码交叉注意力模块过滤无关实体，将注意力解码为空间坐标上的隐式连续能量场。将决策制定为跨越该能量场的拉格朗日动作最小化问题，强制遵守车辆运动学并执行碰撞避免。在nuScenes和CODA基准上的离线评估显示，该框架实现了鲁棒、可解释且运动学可行的开放世界自主性。

论文 Lagrange 自动驾驶视觉语言模型掩码潜在场端到端驾驶

推荐理由：自动驾驶新框架Lagrange用掩码潜在场和VLM处理开放世界异常，比密集模型更高效，在nuScenes和CODA上表现不错。

原文

10:14

arXiv cs.AI@Luyang Fang, Yingchuan Zhang, Jongchan Park, Zhaoji Wang, Ping Ma, Xiaoming Zhai

研究提出基于Vision Transformer（ViT）的自信度感知评分框架，用于自动评估学生绘制的科学模型。在6个NGSS对齐的中学评估项目上，该方法通过从测试时预测分布中提取响应级自信度，实现高置信度响应自动评分，低置信度响应转人工审核。相比传统方法，该框架在保持评分可靠性的同时，支持自动覆盖率和评分风险之间的实用权衡。

论文 Vision Transformer 自信度感知自动评分教育评估 NGSS

推荐理由：这篇论文教你用ViT给学生的科学画图自动打分，还能判断哪些该机器批、哪些该人看，很适合做教育评估的参考。

原文

10:13

arXiv cs.AI@Simon Aagaard Enni, Malthe Stavning Erslev, Karl-Emil Kjær Bilstrup, Kristoffer Laigaard Nielbo

该论文提出'编辑对齐'作为参与式AI的设计实践，旨在让编辑专家参与重新对齐LLM界面以符合编辑标准。通过和北欧公共知识机构合作，设计并实现了LLM驱动的百科全书界面案例研究。论文将编辑标准视为设计制品，把编辑实践和价值观转化为技术对齐目标。最后讨论编辑对齐如何为编辑提供持续参与和代理权。

论文编辑对齐参与式AI LLM 知识传播公共知识机构

推荐理由：这篇论文通过具体案例展示了如何让编辑参与对齐LLM，帮助公共知识机构保持编辑标准，实操性强且有启发性。

原文

10:12

arXiv cs.AI@Celestine Achi

论文提出九维意义智能框架（MIF），用于尼日利亚公共话语的上下文感知评估。现有基准NaijaSenti和AfriSenti仅做三向情感分类。MIF在30项校准数据集上评估Gemini 2.5 Flash，零样本下注册分类准确率33.3%，使用MIF后升至73.3%。复合意义智能分数从73.2升至78.6。编码潜台词检测提升10点，战略行动推荐提升10.3点。框架、指南和校准集已开源。

论文 MIF Gemini 2.5 Flash NaijaSenti 情感分析尼日利亚话语

推荐理由：这篇论文发现AI在尼日利亚话语中常误解真实意图，他们设计的MIF框架让Gemini 2.5 Flash的注册识别准确率从33%跳到73%，成果很实在。

原文

10:12

arXiv cs.AI@Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien

VLA模型（如pi_0、GR00T-N1.5）参数规模达数十亿，微调计算成本高。本文通过中心核对齐（Centered Kernel Alignment）识别冗余层，无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证，压缩后模型性能与完整模型相当。微调时间减少40-50%，实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。

论文 VLA pi_0 GR00T-N1.5 模型压缩机器人操作

推荐理由：这篇论文发现VLA模型很多层是冗余的，用他们的方法可以白嫖50%层数，微调快一半，推理快30%，效果不降。搞机器人微调的可以试试。

原文

10:11

arXiv cs.AI@Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao

MACR针对LLM推理中参数知识与外部上下文之间的冲突，提出了一种显式消解机制。该方法首先用修改的语义熵衡量模型对答案的置信度，据此内部知识不足时再检索外部信息。然后引入三个专用智能体，分别归纳规则、分析潜在冲突并消解所有不一致。实验在多个基准上显著超过现有方法，并提供可解释的冲突消解过程。

论文 LLM MACR 知识冲突多智能体推理模型

推荐理由：这篇论文提出了MACR，能帮LLM自己判断知识是否可靠并解决矛盾，比过去的方法强不少，还能解释冲突。

原文

10:10

arXiv cs.AI@Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng YAN

SPOT-E方法针对视觉语言模型在处理证据密集型任务时因小区域视觉证据被忽略导致的读取失败问题。该方法利用答案跨度预测熵作为模型内部反馈，通过低熵锚点和熵整形目标消除歧义，避免模型陷入捷径塌缩。SPOT-E基于GRPO进行每实例轻量级调优，生成问题条件化的聚光灯。在多个VLM族和基准测试中，SPOT-E一致提升了性能并增强了视觉损坏鲁棒性。代码已开源。

论文 SPOT-E VLM GRPO 多模态测试时优化

推荐理由：SPOT-E这个新方法挺有意思，它不重训模型，只在推理时搞了个视觉聚光灯和熵整形，就让VLM在那些需要细看局部证据的任务上表现好多了。尤其用GRPO调优，效果提升还挺稳定。

原文

10:08

arXiv cs.AI@Tingyue Pan, Mingyue Cheng, Daoyu Wang, Yitong Zhou, Jie Ouyang, Qi Liu, Enhong Chen

ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图（方法导向、场景锚定、比较型、范围控制）的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314，在 Recall@All 上为0.355，表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。

论文 ScholarQuest LLM 智能体学术搜索基准

推荐理由：想测你的LLM论文搜索智能体？ScholarQuest 给了1000多个主题和4种意图的标准测试，最强方法才0.314召回，你的能提多少？

原文

10:07

arXiv cs.AI@Ishanu Chattopadhyay

论文提出智能可定义为对罕见但有效未来的合法放大，即系统增加在被动动力学下本可能发生但受领域约束允许的结果的概率。其核心是递归自模拟架构：系统必须同时模拟世界及自身在其中的位置。主要结论给出了必要性陈述和条件近似充分性：高罕见有效提升（rare-valid lift）在热力学上必须依赖高保真内部模拟；当保真度高且模拟包含有效策略时，可达提升接近执行受限最优。该框架将智能置于从被动物质、反馈控制器、大型语言模型到人类文本生成器的统一可测量标度上。

论文 Intelligence Thermodynamic Recursive self-simulation 智能度量自模拟

推荐理由：一篇理论论文，用热力学把智能测量变成可量化的事——递归自模拟不仅是特征，还是必要条件。适合想从原理上理解智能本质的人。

原文

10:07

arXiv cs.AI@Xinyi Zheng, Ling Shi, Tianlong Yu, Yongxin Zhao, Lorenz Goette, Kailong Wang

QMFOL是一个自动生成一元一阶逻辑推理任务的框架，可精确控制推理深度、宽度、标签类型和干扰项。基于该框架构建的QMFOLBench包含2880个实例、960种配置。在6个大型推理模型（LRMs）和2个LLM上的评估表明，逻辑复杂度增加时性能下降、计算开销上升。模型在True标签任务上表现优于False或Unknown任务，且对语义变化敏感。

论文 QMFOL LLM 推理基准测试

推荐理由：这篇论文提出了一个更好的推理测试方法QMFOL，能精细控制逻辑难度，用来测LLM推理能力更准。

原文

09:54

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

该论文提出了一种去偏见的、跨模型的VLM-as-3D-Judge协议，用于可靠地评估单图像到3D网格质量，弥补了传统几何和CLIP代理的不足。研究者将该评分器用于优化开源生成模型TRELLIS在特定资产类别（家具）上的表现，无需人工标注。他们使用训练评委（Qwen2.5-VL-7B）和评估评委（InternVL3-8B）分离以避免循环，并修复了图像过载、几何隐藏渲染和无参考评分等三种失败模式。实验表明，在轻度参数高效适应下，该方法与强基线持平（胜率0.50），但无法超过65%的胜率目标，且发现干净输入会饱和评委。

论文 TRELLIS Qwen2.5-VL-7B InternVL3-8B 单图像3D生成 VLM-as-judge

推荐理由：这篇论文介绍了一种让AI自动评判并优化3D生成质量的方法，不用人工打标签。它把VLM评委从打分变成训练的一部分，在特定类别（家具）上达到了和强基线持平的效果，但说明了简单微调还不够。

原文

09:53

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

论文使用Qwen2.5-7B-Instruct对比了零样本、仅SFT、仅RAG和SFT+RAG混合四种方法在安大略住宅租赁法条文引用上的效果。混合方法以0.481精确匹配（节+条）取得最高分，且将幻觉降至零。SFT提升了高召回候选集中条款选择的鲁棒性，而仅用bge-small嵌入就超越了更大专用检索模型。扩大训练集未带来提升，0.70目标尚未达到。

论文 Qwen2.5-7B RAG SFT 零幻觉法律引用

推荐理由：这篇论文用Qwen2.5-7B做了个四路对比，发现微调加检索混合方案在法条引用上精确匹配0.481还零幻觉，比纯微调或纯检索都强，而且用轻量bge-small就够用。

原文

09:52

arXiv cs.LG@Mathieu Laurière, Ariel Neufeld, Kyunghyun Park

该论文提出一种鲁棒Q-learning算法，用于离散时间平均场控制问题，处理公共噪声规律中的Wasserstein不确定性。算法结合量化投影方案和Wasserstein对偶重构，并证明了同步和异步学习方案的收敛性及有限时间迭代界。在系统性风险和流行病模型上的数值实验比较了异步实现与理想Bellman迭代，展示了在公共噪声误指定下的鲁棒性-性能权衡。

论文 Q-learning Wasserstein不确定性平均场控制鲁棒强化学习论文

推荐理由：这篇论文给了一个能应对不确定性干扰的Q-learning方法，在系统和疫情模型上都试过了，效果不错。

原文

09:50

arXiv cs.LG@María Gragera Garcés, Lirandë Pira

精选

该论文提出量子环全归约（quantum ring all-reduce），利用预共享纠缠和超密编码，将逐链路在线通信量降低至最优因子2倍。协议通过验证纠缠实现可组合的ε安全聚合，仅需2倍GHZ副本开销，提供经典协议无法实现的信息论隐私。在梯度冲突检测中，对于GapIP_τ问题，量子优势在边际参数上呈二次方改进：需Õ(τ⁻¹ log P)量子比特 vs Õ(min(τ⁻², P))经典比特。对于TieAudit_ε问题，量子优势呈指数级分离：仅需O(ε⁻² log P)量子比特，而经典需Ω(√P)比特。

论文 ring all-reduce 量子通信分布式训练隐私聚合梯度冲突检测

推荐理由：这篇论文讲怎么用量子通信让分布式训练既省带宽又有信息论隐私保护，比经典协议通信量减半，梯度检测上还有指数级优势。

原文

09:49

arXiv cs.LG@Paul Collart, Juergen Gall, Andrea Schnepf, Holger Pagel, Lars Doorenbos

该研究提出了首个混合建模框架，从DNA测序数据推断的宏基因组功能特征中推导过程型土壤有机质周转模型的生物动力学参数值。该框架使用神经网络将基因组性状数据映射到生物动力学参数，并整合生态理论和文献约束以确保行为真实。在合成数据和真实数据上的评估表明，该方法在小训练集条件下仍能有效学习不可观测组分的动态，性能优于多个基线模型。

论文混合建模宏基因组土壤微生物有机质周转生态约束

推荐理由：这篇论文提出了一个新方法，用神经网络从宏基因组数据预测土壤微生物参数，还能在小样本下保持准确，搞生态模拟或AI交叉的可以看看。

原文

09:47

arXiv cs.LG@Valentin Abadie, Clemens Hutter, Helmut Bölcskei

本文证明：对于 [-1,1] 上的任意连续函数，存在一个固定的 ReLU RNN（隐层维度固定、权重固定），通过延长运行时间即可实现一致逼近。核心创新在于引入中间模型 TMNU（Turing machine with neural units），它保留了实现多项式逼近方案的算法自由度，同时能被隐维度和权重大小有明确上界的 RNN 模拟。得到的收敛速率与底层多项式逼近率对应。本文还给出了极小极大下界，证明运行时间是该固定网络逼近范式中不可避免的资源。

论文 RNN Recurrent Neural Networks 逼近定理 TMNU 连续函数

推荐理由：这篇论文很硬核：用一个固定 RNN 就能逼近任意连续函数，运行越长越准，像图灵机一样。

原文

09:47

arXiv cs.LG@Xiaoran Liu, Istvan David

论文提出基于模型驱动的方法，通过混合遗传算法（结合全局搜索和启发式局部搜索）自动生成多组相似但不同的强化学习训练环境。方法将变异和约束表达为模型变换，由先进模型变换引擎操作化搜索过程。在野火缓解场景和课程学习（依赖环境家族的学习范式）中验证了方法的有效性。原型工具将手工开发环境家族的错误率降低，提升了可扩展性。

论文强化学习模型驱动课程学习环境家族遗传算法

推荐理由：这篇论文提出用模型驱动和遗传算法自动生成RL环境变体，省去手写大量相似环境的麻烦，野火场景验证过，做课程学习的可以看看。

原文

09:46

arXiv cs.LG@Itay Lavie, Noam Levi, Yonatan Kahn

本文从物理学视角分析了深度学习训练与泛化的统计特性，指出其打破了经典统计学的多项直觉。重点讨论了神经缩放定律（neural scaling laws）及其与约束、归纳偏置的相互作用。文章还回顾了构建深度学习模型时的多种选择及其合理性。

论文深度学习神经缩放定律统计特性物理学视角

推荐理由：这篇论文从物理学角度拆解深度学习的统计特性，解释了神经缩放定律如何打破经典统计直觉，做研究的值得看看。

原文

09:45

arXiv cs.LG@Philipp Kern, László Antal, Erika Ábráham, Carsten Sinz

SLiR是一种新的神经网络验证方法，仅需Lipschitz常数或临界点即可为任意激活函数生成线性松弛。该方法通过参数化斜率和移位过程确保上界和下界的正确性。实验表明，在多种实际激活函数上，SLiR生成的松弛更紧，可验证的属性数量比现有方法最多提升7.8倍。

论文 SLiR 神经网络验证激活函数线性松弛 Lipschitz常数

推荐理由：SLiR让验证任意激活函数变得简单，比现有方法多验证近8倍属性，做神经网络安全的可以看看。

原文

09:44

arXiv cs.LG@Luke J. Zachmann, David D. Diaz, Vincent A. Landau, Chelsey Walden-Schreiner, Tony Chang, Nathan E. Rutenbeck, Katharyn A. Duffy, Kiarie Ndegwa, Andreas Gros, Scott Conway, Guy Bayes

VibrantForests框架融合国家森林清查、机载激光雷达和卫星图像，以10米分辨率生成美国本土全区域的森林结构属性图。该模型同时估计冠层覆盖、冠层高度、地上活树生物量、断面积和二次平均直径五项指标。模型扩展了常见被动传感器模型的饱和范围，并减少了回归均值行为（稀疏条件下高估、密集条件下低估）。该框架能以年度节奏提供连贯的全区域森林管理相关属性估计。

论文 VibrantForests 激光雷达卫星图像森林制图计算机视觉

推荐理由：VibrantForests搞了个新框架，用卫星和激光雷达做出全美10米分辨率森林地图，比老模型更准，不饱和不回归均值。

原文

09:42