全部 AI 动态 · AI 热点

6月19日

09:52

arXiv cs.LG@Mathieu Laurière, Ariel Neufeld, Kyunghyun Park

该论文提出一种鲁棒Q-learning算法，用于离散时间平均场控制问题，处理公共噪声规律中的Wasserstein不确定性。算法结合量化投影方案和Wasserstein对偶重构，并证明了同步和异步学习方案的收敛性及有限时间迭代界。在系统性风险和流行病模型上的数值实验比较了异步实现与理想Bellman迭代，展示了在公共噪声误指定下的鲁棒性-性能权衡。

论文 Q-learning Wasserstein不确定性平均场控制鲁棒强化学习论文

推荐理由：这篇论文给了一个能应对不确定性干扰的Q-learning方法，在系统和疫情模型上都试过了，效果不错。

原文

09:50

arXiv cs.LG@María Gragera Garcés, Lirandë Pira

精选

该论文提出量子环全归约（quantum ring all-reduce），利用预共享纠缠和超密编码，将逐链路在线通信量降低至最优因子2倍。协议通过验证纠缠实现可组合的ε安全聚合，仅需2倍GHZ副本开销，提供经典协议无法实现的信息论隐私。在梯度冲突检测中，对于GapIP_τ问题，量子优势在边际参数上呈二次方改进：需Õ(τ⁻¹ log P)量子比特 vs Õ(min(τ⁻², P))经典比特。对于TieAudit_ε问题，量子优势呈指数级分离：仅需O(ε⁻² log P)量子比特，而经典需Ω(√P)比特。

论文 ring all-reduce 量子通信分布式训练隐私聚合梯度冲突检测

推荐理由：这篇论文讲怎么用量子通信让分布式训练既省带宽又有信息论隐私保护，比经典协议通信量减半，梯度检测上还有指数级优势。

原文

09:49

arXiv cs.LG@Paul Collart, Juergen Gall, Andrea Schnepf, Holger Pagel, Lars Doorenbos

该研究提出了首个混合建模框架，从DNA测序数据推断的宏基因组功能特征中推导过程型土壤有机质周转模型的生物动力学参数值。该框架使用神经网络将基因组性状数据映射到生物动力学参数，并整合生态理论和文献约束以确保行为真实。在合成数据和真实数据上的评估表明，该方法在小训练集条件下仍能有效学习不可观测组分的动态，性能优于多个基线模型。

论文混合建模宏基因组土壤微生物有机质周转生态约束

推荐理由：这篇论文提出了一个新方法，用神经网络从宏基因组数据预测土壤微生物参数，还能在小样本下保持准确，搞生态模拟或AI交叉的可以看看。

原文

09:48

arXiv cs.LG@Xiang Rao, Yuxuan Shen

精选

研究者提出QCPIKAN，这是首个量子-经典物理信息Kolmogorov-Arnold网络，采用Chebyshev多项式KAN层和参数化量子电路。理论证明该设计能使高频误差以指数率收敛，并有效抑制数值色散。在三种典型渗流场景（单相流、组分输送、两相流）中验证。相比现有量子-经典物理信息神经网络，QCPIKAN在全局预测精度、局部误差控制、动态演化跟踪和位移前沿定位上表现更优。

AI模型 QCPIKAN KAN 量子经典混合物理驱动网络 PDE求解

推荐理由：这篇论文发布了QCPIKAN，首个混合量子经典PDE求解器，用Chebyshev KAN层加速收敛，渗流模拟精度远超市面同类。

原文

09:47

arXiv cs.LG@Valentin Abadie, Clemens Hutter, Helmut Bölcskei

本文证明：对于 [-1,1] 上的任意连续函数，存在一个固定的 ReLU RNN（隐层维度固定、权重固定），通过延长运行时间即可实现一致逼近。核心创新在于引入中间模型 TMNU（Turing machine with neural units），它保留了实现多项式逼近方案的算法自由度，同时能被隐维度和权重大小有明确上界的 RNN 模拟。得到的收敛速率与底层多项式逼近率对应。本文还给出了极小极大下界，证明运行时间是该固定网络逼近范式中不可避免的资源。

论文 RNN Recurrent Neural Networks 逼近定理 TMNU 连续函数

推荐理由：这篇论文很硬核：用一个固定 RNN 就能逼近任意连续函数，运行越长越准，像图灵机一样。

原文

09:47

arXiv cs.LG@Xiaoran Liu, Istvan David

论文提出基于模型驱动的方法，通过混合遗传算法（结合全局搜索和启发式局部搜索）自动生成多组相似但不同的强化学习训练环境。方法将变异和约束表达为模型变换，由先进模型变换引擎操作化搜索过程。在野火缓解场景和课程学习（依赖环境家族的学习范式）中验证了方法的有效性。原型工具将手工开发环境家族的错误率降低，提升了可扩展性。

论文强化学习模型驱动课程学习环境家族遗传算法

推荐理由：这篇论文提出用模型驱动和遗传算法自动生成RL环境变体，省去手写大量相似环境的麻烦，野火场景验证过，做课程学习的可以看看。

原文

09:46

arXiv cs.LG@Itay Lavie, Noam Levi, Yonatan Kahn

本文从物理学视角分析了深度学习训练与泛化的统计特性，指出其打破了经典统计学的多项直觉。重点讨论了神经缩放定律（neural scaling laws）及其与约束、归纳偏置的相互作用。文章还回顾了构建深度学习模型时的多种选择及其合理性。

论文深度学习神经缩放定律统计特性物理学视角

推荐理由：这篇论文从物理学角度拆解深度学习的统计特性，解释了神经缩放定律如何打破经典统计直觉，做研究的值得看看。

原文

09:45

arXiv cs.LG@Philipp Kern, László Antal, Erika Ábráham, Carsten Sinz

SLiR是一种新的神经网络验证方法，仅需Lipschitz常数或临界点即可为任意激活函数生成线性松弛。该方法通过参数化斜率和移位过程确保上界和下界的正确性。实验表明，在多种实际激活函数上，SLiR生成的松弛更紧，可验证的属性数量比现有方法最多提升7.8倍。

论文 SLiR 神经网络验证激活函数线性松弛 Lipschitz常数

推荐理由：SLiR让验证任意激活函数变得简单，比现有方法多验证近8倍属性，做神经网络安全的可以看看。

原文

09:44

arXiv cs.LG@Luke J. Zachmann, David D. Diaz, Vincent A. Landau, Chelsey Walden-Schreiner, Tony Chang, Nathan E. Rutenbeck, Katharyn A. Duffy, Kiarie Ndegwa, Andreas Gros, Scott Conway, Guy Bayes

VibrantForests框架融合国家森林清查、机载激光雷达和卫星图像，以10米分辨率生成美国本土全区域的森林结构属性图。该模型同时估计冠层覆盖、冠层高度、地上活树生物量、断面积和二次平均直径五项指标。模型扩展了常见被动传感器模型的饱和范围，并减少了回归均值行为（稀疏条件下高估、密集条件下低估）。该框架能以年度节奏提供连贯的全区域森林管理相关属性估计。

论文 VibrantForests 激光雷达卫星图像森林制图计算机视觉

推荐理由：VibrantForests搞了个新框架，用卫星和激光雷达做出全美10米分辨率森林地图，比老模型更准，不饱和不回归均值。

原文

09:42

arXiv cs.LG@Federica Filippini

许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习（RL）通过加权惩罚将成本和约束违规合并为标量奖励，但权重需手动调整。本文提出MAMO（多智能体多目标约束优化系统），利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦，为动态环境中约束优化问题的自主RL方案迈出第一步。

论文 MAMO 多智能体强化学习约束优化

推荐理由：这篇论文提出MAMO，用多智能体RL自动调权重，解决约束优化中手动调参难题。

原文

09:42

arXiv cs.LG@Md Moman Ul Haque Khan, Samira Sadaoui

该论文从理论上分析了概念漂移的特征，并分类讨论了多种漂移检测算法。在合成和真实数据集上评估了这些算法在不同漂移场景（如突变和渐变）下的性能。研究旨在加深对概念漂移行为及检测器适用性的理解。

论文概念漂移机器学习流数据检测算法论文

推荐理由：这篇论文系统梳理了概念漂移检测算法，并用合成和真实数据测试了它们在突变和渐变场景下的表现，适合做这一方向基础研究的人参考。

原文

09:41

arXiv cs.LG@Ziheng Wei, Annie Qu, Rui Miao

离线强化学习中，即时奖励常因记录稀疏或审查而缺失，导致评估偏差。本文聚焦奖励缺失非随机(MNAR)场景，在有限时域MDP下研究离线策略评估(OPE)。作者利用未来状态作为影子变量，结合奖励依赖倾向模型辨识全数据条件均值奖励。进一步引入桥函数并通过min-max估计避免双重采样，提出Fitted-Q-Evaluation风格估计器。在模拟数据和MIMIC-III Sepsis数据上，该方法在误差和一致性上优于现有基线。

论文 OPE MNAR MDP 缺失数据离线强化学习

推荐理由：想处理真实场景奖励缺失的强化学习玩家可以看这篇，用影子变量和桥函数解决偏差问题，实验比传统方法稳。

原文

09:40

arXiv cs.LG@Jian Xu, Delu Zeng, John Paisley, Qibin Zhao

该论文指出量子视觉Transformer和量子卷积网络有两个未解释现象：纠缠更多的ansatz泛化更好，注入量子噪声可提升测试准确率。作者通过量子核视觉模型证明两者由有效维度d_eff控制，去极化噪声使d_eff收缩至1，振幅阻尼在倒U型区间提升准确率最高+13%。论文提供了容量/对齐风险分解，将两个孤立现象统一为可测量原则。

论文 quantum kernel effective dimension 量子视觉泛化理论量子噪声

推荐理由：这篇论文把量子视觉模型里两个反直觉现象（纠缠越多越好、加噪声反而更好）归结成一个可测量的有效维度，你读完就能抓住设计关键。

原文

09:38

arXiv: DeepSeek@Minsu Kim, Se-Young Yun

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

AI模型 Lean 定理证明强化学习形式验证推理模型

推荐理由：这篇论文用Lean在定理证明训练中引入细粒度过程奖励，比只判对错的强化学习效果好，在MiniF2F和ProofNet上都有提升。

原文

09:37

arXiv: OpenAI@Jose Manuel Suarez, Luis Mariano Bibbo, Joaquin Bogado, Alenandro Fernandez

论文提出一种结合大语言模型与检索增强生成（RAG）的混合方法，自动迁移Qiskit代码版本。该方法利用自动生成的迁移场景分类作为结构化的版本特定知识源。实验评估了Google Gemini Flash-2.5和OpenAI Gpt-oss-20b两种模型，在限制性检索方案下显著减少幻觉，提升描述质量。Google Gemini Flash-2.5在检测复杂重构场景中表现更优。研究证实了数据驱动方法在量子软件工程中的潜力。

论文 Qiskit 代码迁移 RAG Google Gemini Flash-2.5 量子软件工程

推荐理由：量子开发者福音！用LLM+RAG自动搞定Qiskit代码跨版本迁移，减少手动返工。Google Gemini Flash-2.5效果最佳，值得看看。

原文

09:37

arXiv: OpenAI@Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G

REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准，覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴，包括领域、格式、难度等。评估了五个检测器（Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6）在1,000条记录上的表现，发现基于规则的检测器在高风险数据上表现较差（HIGH敏感类别召回率0.07），而LLM检测器更鲁棒。该基准还提供了实体级元数据（披露状态、披露形式、GDPR敏感等级）以支持分层评估。

论文 REDACT PII检测多语言基准实体识别 LLM评估

推荐理由：这个基准提供了具体的数据和评估，能帮你了解不同检测器在处理多语言PII时的真实表现差异。

原文

09:36

arXiv: OpenAI@Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex Smola

IHBench评估语音助手在10个企业领域中断后的恢复能力，包含6种中断类型。27个音频语言模型配置来自OpenAI、Google和开源社区。闭源模型在任务完成度上显著优于开源模型，长对话中性能下降慢约3.3倍，且无音频-文本模态差距。人类研究验证了LLM评判的可靠性，交叉分析显示恢复质量是独立能力维度。

论文 IHBench OpenAI Google 语音助手基准测试

推荐理由：想测语音助手被用户打断后能不能接好活？IHBench专门看这个，比谁恢复得自然、不错步骤。闭源模型比开源稳太多了。

原文

09:35

arXiv: DeepSeek@Shi Chen, Rongcun Wang, Yuan Tian, Xiaoyuan Xie, Wei Song, Rubing Huang

该论文提出了SolidityBench，包含5,470个存储库级Solidity智能合约及其自然语言描述。同时提出SolidityScore，一种关注安全性修饰符、合约声明等域关键结构的语义度量。研究评估了Qwen2.5-Coder、DeepSeek-Coder和CodeLlama等模型在零样本、思维链、上下文学习、检索增强生成和监督微调五种方法上的表现。结果显示，通用模型在存储库级Solidity生成中存在结构性缺陷；在非参数方法中，检索增强生成效果最佳，而上下文学习在超过两个示例后因上下文饱和而性能下降；监督微调通过将Solidity特定约束内化到模型参数中实现了最大改进。

论文 Solidity SolidityBench SolidityScore Qwen2.5-Coder DeepSeek-Coder CodeLlama 智能合约代码生成

推荐理由：这篇论文为Solidity智能合约代码生成建了个新基准（5470个合约）和专用评分指标，测试了多个主流代码模型的各种方法，结论明确：靠谱的领域数据+微调最管用。

原文

09:34

arXiv: DeepSeek@Ruiyang Ma, Teng Ma, Junru Li, Hantian Zha, Xuchun Shang, Qingda Hu, Zheng Liu, Xinjun Yang, Tao Ma, Guojie Luo

精选71°

长上下文LLM推理的内存瓶颈日益突出。传统RDMA解耦内存池对于稀疏注意力模型效率低下，仍需完整获取KV缓存。SAC系统利用CXL的低延迟、缓存行粒度加载/存储语义，仅在推理时按需获取所需的top-k KV条目。在DeepSeek-V3.2上使用SGLang的评估显示，相比RDMA基线，SAC实现了2.1倍吞吐量提升、9.7倍TTFT降低和1.8倍TBT降低。

论文 SAC CXL KV缓存稀疏注意力 DeepSeek-V3.2

推荐理由：长上下文推理，内存传输是瓶颈。新方案SAC用CXL按需取KV缓存，比RDMA吞吐量翻倍、延迟降到十分之一，做稀疏推理的值得一看。

原文

09:33

arXiv: DeepSeek@Gregory Matsnev

该论文提出一种基于提示的不确定性分解方法，将动作置信度与请求不确定性分离，使智能体在任务规格模糊时主动请求澄清。作者引入WebShop-Clarification和ALFWorld-Clarification两个基准，其中50%任务故意模糊。在GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120B五个大模型上测试，该方法在ALFWorld-Clarification上的澄清F1比ReAct+UE提升73%，比UAM提升36%。

论文 GPT-5.1 DeepSeek-v3.2-exp GLM-4.7 Qwen3.5-35B 智能体

推荐理由：这篇论文给出了一个简单实用的方法，让智能体在任务模糊时主动提问，而非盲目执行。五个大模型上都有提升，值得做Agent的同学看看。

原文

6月18日

11:13

arXiv cs.LG@Kaustubh Kapil, Kishor P. Upla

研究者提出Transformer Geometry Observatory (TGO) 系统框架，用于探索视觉Transformer的表征几何与动力学。TGO-I聚焦光谱几何，使用ViT-Small/16模型在ImageNet-100上训练，分析有效秩、稳定秩、参与比、光谱熵、光谱平坦度、光谱各向异性等指标。结果发现训练中维度利用率持续增加，各向异性降低，光谱熵和参与比上升，特征谱趋于平坦。与直觉相反，方差在表征维度上再分配，CLS token表征展现出最高有效维度和最低各向异性。

论文 Vision Transformers ViT 表征几何光谱几何 ImageNet-100

推荐理由：这篇论文用TGO框架搞清楚了ViT的维度在训练中怎么变化——不是集中而是越来越分散，尤其CLS token最明显，对理解视觉Transformer内部机制很有参考价值。

原文

10:58

arXiv cs.AI@Zongmin Zhang, Yuyang Lou, Bowen Zhang, Junwu Chen, Ryo Kuroki, Xuan Vu Nguyen, Edvin Fako, Lixue Cheng, Philippe Schwaller

AdsMind提出闭环多智能体框架，通过机器学习力场（MLFF）松弛反馈实现自主纠错。在AA20和OCD-GMAE62基准上分别达到100%和98.8%的成功率。每个案例仅需4.11和4.67次MLFF松弛，比启发式枚举减少约14倍。DFT验证（VASP/PBE）显示，相比开放循环基线，AdsMind在所有测试案例中保持正确的吸附能符号。该框架兼顾可靠性、自反思和可解释性。

论文 AdsMind 多智能体系统机器学习力场吸附构型

推荐理由：AdsMind用物理反馈让AI自纠错，在催化剂吸附搜索中达到近乎完美成功率，比暴力枚举快14倍，值得做计算化学的试试。

原文

10:58

arXiv cs.AI@Linus Sander, Habtom Kahsay Gidey, Alexander Lenz, Alois Knoll

该论文提出一个包含对手方、负载、交互状态、发现机制和模式灵活性5个维度的分类法，对9个活跃维护的开源协议进行迭代分析。研究发现所有智能体间协议均结合混合负载与会话状态持久化，多数协议支持多个预定义模式，两个协议在运行时协商模式，显示模式灵活性趋势。去中心化发现仍属罕见。短期看协议将趋同统一智能体间与智能体-上下文通信，长期则可能发展为分层协议栈。

论文 LLM 通信协议智能体分类法

推荐理由：这篇论文把9个主流的智能体通信协议拆成5个维度做分类，告诉你哪种协议适合什么场景，以及未来会怎么演进。如果你在做多智能体系统，想选协议或者设计协议，这篇很有参考价值。

原文

10:58

arXiv cs.AI@Jingyi Zhou, Senlin Luo, Haofan Chen

HACD-H是一个统一框架，将情感适应、关系组织、社交记忆和人格一致性整合为动态系统。实验基于约14,700轮对话数据，发现社交智能与社交认知能量显著负相关（r=-0.391，p<0.001）。交互轨迹展示出稳定的关系吸引子和阶段性发展模式，社交智能源于长期共演而非孤立能力。该理论为构建自适应社交智能AI系统提供了基础。

论文 HACD-H 人机共演社交智能社交认知长期交互

推荐理由：这篇论文提出了HACD-H框架，用近1.5万轮对话数据说明AI和人的社交智能是在长期互动中慢慢涌现的，而不是单靠单次对话或简单记忆就能做到的。

原文

10:58

arXiv cs.AI@Haewoon Kwak

该论文研究多智能体LLM团队中过程级协调控制的价值，通过行为签名（多数锁定、探索、恢复）和逐动作消融实验，将交易型、变革型、情境型三种领导风格作为控制器。在四种任务制度和三个开源模型族（包括Llama-4-Scout）的12种组合中，没有控制器在准确率上占优，交易型控制与共享第0轮投票的差距在1.3个百分点内。情境型控制在Llama-4-Scout social任务上比平坦基线高出8个百分点，仅当初始多数不可靠且任务可恢复时才有效。结果表明协调控制是权变，而非排行榜驱动，与团队科学的权变理论一致。

论文 Multi-Agent LLM Teams Llama-4-Scout 多智能体领导力协调控制

推荐理由：这篇论文用实验证明多智能体团队里领导不是万能的，只有在初始投票不靠谱且能补救的特定条件下才有用，比如情境领导在Llama-4-Scout上提升了8个点。挺扎实的研究。

原文

10:58

arXiv cs.AI@Kasper Helverskov Petersen, François R J Cornet, Martin Ovesen, Mikkel Jordahn, Kristian S. Thygesen, Mikkel N. Schmidt

研究团队将等变图神经网络GotenNet应用于光学光谱预测，在包含10,533个结构的RPA级别光谱数据集上进行评估。该模型在0-8 eV能量范围内和静态实介电常数预测上显著超越现有最佳方法。结果表明等变几何特征能提升材料光学性质预测精度，对太阳能电池等光电器件的高通量筛选具有直接价值。

论文 Equivariant Graph Neural Networks GotenNet 材料筛选光学光谱图神经网络

推荐理由：这篇论文用GotenNet做光学光谱预测，在1万个结构上比现有模型准不少，特别是0-8 eV区间，搞材料筛选的可以看看。

原文

10:58

arXiv cs.AI@Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty

该论文指出万维网基于人作为主要消费者的假设运行三十年，但AI代理的崛起使这一假设失效。论文提出在访问层为代理提供等效访问权限（通过速率限制和代理识别元数据），在经济层引入基于意图的层级框架和代币订阅模型，在内容层提出代理文本标记语言（ATML）和加密来源链对抗知识递归问题。包含十项设计原则，涵盖访问、经济、内容三个层面。

论文 Agent-First Web ATML 智能体 AI安全 Web设计

推荐理由：这篇论文讨论了如何让网站不再封杀AI代理，而是为它们设计合理的访问、收费和内容标注机制，比如ATML语言。适合关心Web未来和AI治理的人看。

原文

10:58

arXiv cs.AI@Mukund Khanna, Raj Singh Yadav, Kunal Singh

当前指令式图像编辑模型在处理产品图片时，难以保持品牌标识和文字细节。该工作构建了包含87k SFT样本和869张产品图像的RL数据集，并提出Cyclic Consistency奖励来强制产品身份语义保持。在Qwen-Image-Edit-2511和Flux.1-Kontext-dev上微调后，模型在OCR和感知指标上取得一致提升，其中Qwen模型字符错误率降低5倍。研究还发布了ProductConsistency Benchmark用于标准化评估。

论文 ProductConsistency Qwen-Image-Edit-2511 Flux.1-Kontext-dev 图像编辑产品身份保持

推荐理由：这篇论文搞了一个新数据集和训练方法，能让AI改产品图时更准地保留品牌和文字，Qwen的错字率降到原来的五分之一，做电商图片编辑的可以看看。

原文

10:58

arXiv cs.AI@Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen

ScenA方法利用预训练的文本到音频流匹配基础模型，直接通过多个参考语音和自然语言提示生成整个音频场景。它继承了野外数据中自然的背景噪声、重叠对话等特性，无需逐句结构。但存在“参考捷径”问题：模型可仅凭声学相似性识别参考语音而忽略文本提示。通过高噪声偏差的时间步分布强制模型依赖文本提示。在CoVoMix2-Dialogue基准上，ScenA在说话人绑定指标上优于现有系统，并生成带重叠语音、情感发声和环境音的丰富对话音频。

AI模型 ScenA CoVoMix2-Dialogue 流匹配多说话人音频场景生成

推荐理由：ScenA这个新方法能用参考语音和自然描述直接生成多人对话场景，比现有系统更自然，还带背景噪音和重叠说话。

原文

10:57

arXiv cs.AI@Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying

提出Rubric-Conditioned Self-Distillation框架，用评分标准替代标量奖励，提供token级指导。方法分两步：先学习生成任务级评分标准，再训练评分标准引导的推理器。在多个科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。避免了单一参考推理链的噪声和标量奖励的模糊性。

AI模型 Rubric-Conditioned Self-Distillation 推理模型自我蒸馏评分标准科学推理

推荐理由：想提升推理模型训练效果？这篇用评分标准做细粒度自蒸馏，比GRPO和OPSD都强，实验扎实。

原文

10:57

arXiv cs.LG@Yaniv Livertovsky, Shahar Somin, Gonen Singer

CAHP将注意力头选择重新定义为全局图论问题，利用图聚类和信息论距离识别互补子集。该方法无需预定义稀疏度，通过检测边际性能下降曲线自动确定每层保留的头数。在SST-5和MNLI基准上，CAHP在不同规模Transformer中均优于梯度方法，尤其在高压缩率下。结构分析表明，CAHP避免了梯度方法的“邻近偏差”，保留了模型中间层的功能关键头。

论文 CAHP Transformer 注意力头剪枝模型压缩 SST-5

推荐理由：想压缩Transformer模型？CAHP自动剪掉冗余注意力头，不用调参，在SST-5和MNLI上比梯度方法更强，还保住了中间层的关键结构。

原文

10:57

arXiv cs.AI@Anoushka Vyas, Aarushi Dhanuka, Sina Khoshfetrat Pakazad, Henrik Ohlsson

Data Intelligence Agents (DIA) 系统包含三个自主编码智能体：Data Interpreter、Schema Creator 和 Query Generator。该系统将自主编码智能体(ACA)作为第一类抽象，通过生成、执行、验证和修复具体构件，并利用共享记忆重用经验。DIA 已在企业客户的生产环境中部署。研究者对 Query Generator 进行了深入评估，在涵盖4个任务类别和4种方言的7个SQL基准上，其全自主模式匹配或超越了所有7个基准的最佳公开结果。

论文 Data Intelligence Agents ACA Query Generator SQL 智能体

推荐理由：这篇论文搞了个DIA系统，用三个自主编码智能体自动处理企业数据查询，在7个SQL基准上全自主跑赢了所有已知最佳结果。

原文

10:57

arXiv cs.AI@Biswadeep Sen, Yi-Chieh Lee

一项针对120人的实验比较了社交聊天机器人三种纠错策略：网页撤回、自我纠正和专家聊天机器人纠正。结果显示三种策略均能纠正错误，但只有自我纠正不损害聊天机器人的可信度（信任度和专业感知评分更高）。用户与聊天机器人的社交连接强度（社交吸引力、自我披露）显著预测信念改变幅度，但仅在自我纠正时成立。外部来源纠正会切断社交连接与信念改变之间的关联。

论文社交聊天机器人用户信任错误纠正人机交互

推荐理由：这篇论文发现聊天机器人自己认错比让别人纠正更能维护信任，而且和用户关系越好效果越好，实测120人，结果很实用。

原文

10:57

arXiv cs.AI@Ikram Belmadani, Oumaima El Khettari, Carlos Ramisch, Frederic Bechet, Richard Dufour, Benoit Favre

该研究以法语医疗问答为案例，比较了持续预训练（CPT）、监督微调（SFT）及其组合在Llama 2、Mistral、Bloom三个模型家族、7B-70B多种规模和三种初始化类型上的效果。对于多项选择问答（MCQA），CPT+SFT通常得分最高，但相对于单独SFT的提升很小且常不显著，SFT成为强且成本效益高的默认选择。对于开放问答（OEQA），CPT一致提升基于重叠的指标（如BLEU、ROUGE），而SFT常降低生成质量；指令微调和CPT+SFT在LLM评估中更受偏好。跨语言实验显示，法语适应可有效迁移到英语基准（如MedQA）。

论文 LLM 医疗领域领域适应法语问答微调

推荐理由：这篇论文用扎实的数据告诉你，在医疗领域微调模型时SFT性价比最高，CPT对开放问答有帮助但别盲目上全套，省钱又省力。

原文

10:57

arXiv cs.AI@Keran Wang, Drishti Goel, Jiayue Melissa Shi, Violeta J. Rodriguez, Daniel S. Brown, Dong Whi Yoo, Ravi Karkar, Koustuv Saha

2023年，超过1100万美国护理人员提供了180亿小时无偿护理，但心理健康问题普遍。现有研究常将复杂的心理社会经验简化为“照顾者负担”，忽略了具体未满足的需求。该论文基于跨学科文献综述和两项定性研究，提出了一套分类法，系统链接护理人员需求与技术支持类型，发现关系紧张和同情疲劳等未被充分服务的领域。该分类法为临床医生、研究人员和技术设计者提供了共同词汇，以开发更以人为本的痴呆症护理创新。

论文阿尔茨海默病痴呆症护理人员心理健康技术干预

推荐理由：这篇论文给照顾痴呆症家人的护理人员做了个心理需求与技术支持的分类，很实用，适合关心护理者健康的人看。

原文

10:57

arXiv cs.AI@Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan Wu

X+Slides 是一个评估大语言模型根据受众条件自动生成幻灯片的新基准。它覆盖 113 个主题和 7 种演示场景，使用 8133 个去重、基于源文本的探针，并引入四个互补指标：Audience Coverage、Domain-wise Coverage、Efficiency 和 Correctness。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明，在 τ_A=0.7 阈值下，NotebookLM 消融版达到最高 Audience Coverage 0.853，而 DeepPresenter 为 0.714，SlideTailor 为 0.594。结果显示当前系统仍无法完整恢复受众关键信息，且视觉质量不能替代源文本验证。

论文 X+Slides LLM 幻灯片生成基准 NotebookLM

推荐理由：想了解如何科学评估AI做PPT的水平？这篇论文用113个主题和8133个探针，测出NotebookLM能覆盖85%的受众关键信息，比DeepPresenter和SlideTailor强不少。

原文

10:57

arXiv cs.AI@Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

论文提出MAST方法，在Qwen2.5-Math-1.5B和Qwen3-1.7B-Base上选择性遗忘RLVR诱导的推理，相比全参数更新附带损害更小。MAST通过token级delta-log-probability分析发现SFT-to-RLVR增量与SFT更新差异显著，全参数梯度上升会损害MATH和GSM8K保留性能。MAST基于离主成分能量、更新幅度和遗忘梯度耦合幅度排序注意力投影张量，仅更新前k个子集。在Qwen2.5-Math-1.5B上，MAST使MATH遗忘从45/150降至37/150（McNemar p=0.0078），且GSM8K提升0.8个百分点，MATH保留仅下降0.5个百分点。在Qwen3上，MAST保持GSM8K，而全参数遗忘使其崩溃。

论文 MAST Qwen2.5 Qwen3 推理模型选择性遗忘

推荐理由：这篇论文提出了MAST，一种更精准的模型遗忘方法，在Qwen2.5和Qwen3上只遗忘你想忘的，保留数学能力不掉。适合研究模型编辑或推理安全的同学。

原文

10:57

arXiv cs.LG@V. Samuel Pérez-Díaz, Vinay L. Kashyap, Joshua D. Ingram, David Fouhey, Juan Rafael Martínez-Galarza, Pavlos Protopapas, Jeremy J. Drake, Dong-Woo Kim, Cecilia Garraffo

研究利用LightGBM梯度提升分类器，对钱德拉源目录（CSC v2.1）约25.4万个X射线源与盖亚DR3光学数据进行交叉匹配。基于贝叶斯框架NWAY构建高质量训练集，利用星等、颜色和距离等特征，识别出约11.3万个对应体，其中约7000个有多个候选。在钱德拉猎户座超深度项目（COUP）上验证，机器学习方法在不使用位置信息时重现了95%的NWAY匹配结果。研究还发现约2万个源虽在空间上匹配但为偶然重合，并发布了对应的目录。

论文 Chandra Gaia LightGBM X射线源交叉匹配

推荐理由：这篇论文教你用机器学习给X射线源找光学配对，比纯靠位置准多了。他们用LightGBM找到了11万多个钱德拉对应体，还公开了目录，做多波段天文的人别错过。

原文

10:57