全部 AI 动态 · AI 热点

6月17日

10:43

arXiv cs.AI@Henry Bodwell, Hong Yang, John C. Simeone, Kelvin Gorospe, Bella Sullivan, Lana Huang, Jessica Gephart, Sandy Aylesworth, Molly Masterton, Naren Ramakrishnan

论文提出IUU+DB系统，利用大语言模型（LLM）从异构文档中提取非法、未报告和未监管捕捞（IUU）及相关海鲜欺诈、劳工虐待事件信息。系统可分类是否相关，提取行为者、地点、物种、船舶、违规类型及执法结果等关键数据，并支持去重和趋势分析。案例验证表明，IUU+DB能帮助组织碎片化证据，识别地理和行为热点，为学术界、非政府组织、行业风险评估及政府政策执行提供支持。

论文 IUU+DB LLM 非法捕捞海鲜欺诈劳工虐待

推荐理由：这篇论文搞了个IUU+DB系统，用LLM自动从大量文档里挖出非法捕捞和海鲜欺诈的线索，能帮监管者和研究人员快速定位热点区域，挺实用的。

原文

10:42

arXiv cs.AI@Michèle Finck

大型语言模型已能生成至少中位质量的法律文本，但现有法律AI评估仅测量辅助性任务，无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”，却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白，并呼吁建立对应的标准化评估。

论文 LLM EU AI Act 法律推理基准教义性推理

推荐理由：这篇论文直击法律AI评测的核心缺陷——现有基准只测写文书，不测真正懂法理。做法律AI或合规的朋友值得看看。

原文

10:42

arXiv cs.AI@Libing Zeng, Li Ma, Mingming He, Ning Yu, Paul Debevec, Nima Khademi Kalantari

ReAge3D提出一种3D人脸重龄化方法，可生成细节丰富、保持身份的重龄化结果。它引入2D扩散模型DiffReaging，在合成图像对上训练。采用中心向外编辑传播策略，先重龄化正面视角图像，再通过扭曲和Masked-DiffReaging过程重建其他视角，确保多视图一致。该方法在视觉和定量上优于现有3D编辑技术，支持对年龄变换的平滑精细控制。

论文 ReAge3D DiffReaging 3D人脸重龄化多视图一致性

推荐理由：一篇新论文，用DiffReaging和传播策略解决了3D人脸重龄化的视图不一致问题，效果超过现有方法，做图像编辑和3D视觉的可以看看。

原文

10:41

arXiv cs.AI@Yuwei Zhang, Tong Xia, Bianca Emmerich, Yu Yvonne Wu, Dimitris Spathis, Xin Liu, Daniel McDuff, Cecilia Mascolo

论文提出WEQA，一个查询自适应智能体框架，统一LLM推理与可穿戴分析及建模工具。它采用LLM控制器合成执行计划，动态路由查询至传感器分析与预训练模型组合，并借助外部知识进行响应审计。研究团队构建了涵盖四个公开可穿戴数据集、三个健康领域的基准。实验显示，WEQA比LLM和智能体基线准确率高出24%。一项由12名医学专家和8名用户参与的盲测表明，其在有用性和临床合理性上有显著提升。

论文 WEQA 可穿戴健康数据医学问答智能体 LLM

推荐理由：这篇论文解决了大模型看不懂可穿戴数据的问题。WEQA框架比基线的准确率高出24%，还通过了医学专家盲测，做医疗AI的同学值得看看。

原文

10:41

arXiv cs.AI@Josef Liyanjun Chen

该研究将机器人闪存耐久性视为非可再生资源，提出用单个影子价格η优化数据在RAM、板载NVM和云之间的分布。在重复长程操作场景中，价值-写入关联χ的测量值约为+1.0×10^{-3}，短程场景中接近零，非重复遥操作场景中为负。高端TLC闪存（3000 P/E）上耐久预算不构成约束，但廉价QLC/eMMC（约1000 P/E）上具有约束性。学习型磨损感知控制器在任务价值上与基于价格的路由持平，因为实现的价值在不同层级间保持不变。非单调最优已被证明但尚未在实验数据中观察到。

论文具身智能闪存耐久性影子价格 NVM 云存储

推荐理由：这篇论文把机器人闪存写寿命当成钱来算，发现只有便宜芯片上才需要省着用，高端芯片随便写。读它学怎么用价格信号管好机器人记忆。

原文

10:40

arXiv cs.AI@Sinclair Gurny, Ryan Quinn

C3GD 是一个公开的枪声数据集，包含超过 8000 个现场采集的枪声数据点，覆盖 28 种枪支和 16 种口径。数据集提供了远超现有公开资源的元数据，包括麦克风类型、位置等细节。它主要面向口径分类任务，也可用于枪声检测、音频分离和音频信号处理，旨在提高真实场景下的泛化能力。该数据集解决了互联网收集枪声音频带来的低质量和标签噪声问题。

论文 C3GD 枪声分类数据集音频处理公开数据集

推荐理由：想做枪声分类或检测的朋友，这个 C3GD 数据集有 8000+ 现场样本、28 种枪和 16 种口径，比网上扒的数据干净多了。

原文

10:40

arXiv cs.AI@Ziqi Zhou, Yubo Ye, Sumeet Atul Vadhavka, Linwei Wang, Zhiqiang Tao

论文提出LEADS框架，利用LLM智能体在结构化动作空间中迭代发现混合物理-神经模型，解决传统方法需要专家手动设计且无法跨患者迁移的问题。在三种合成反应数据和真实心脏电生理数据上，LEADS均优于人工设计的混合模型和其他基于LLM的方法。该方法保证了模型的物理合理性、可解释性和数值稳定性，同时允许开放性的架构探索。

论文 LEADS 心脏电生理数字孪生 LLM 智能体

推荐理由：这篇论文用LLM智能体自动设计心脏数字孪生的混合模型，比人工靠经验搭的更准，还跨病人管用。合成和真实数据上都赢了其他方法。

原文

10:35

arXiv: OpenAI@Dipayan Banik, Kowshik Chowdhury, Shazibul Islam Shamim

该论文分析了33,596个AI Agent（OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code）提交的86,156个测试文件补丁，发现80.2%的测试补丁包含弱或没有显式断言（oracle signals）。研究者总结出8种oracle信号类型，并发现经过回归分析调整后，强oracle信号使PR合并可能性提高28%（OR=1.28, p<0.001）。结果表明仅凭测试文件数量会高估验证强度。

论文 AI Agent 测试代码断言代码质量实证研究

推荐理由：这篇论文用86k条实际数据告诉你：AI写的测试代码虽然多，但八成没用断言，光靠数量验收会翻车。建议读读他们总结的oracle信号分类。

原文

10:30

arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs

新基准TAC（Travel Agent Compassion）测试AI代理在12个旅行预订场景中是否避免动物剥削选项，涵盖6类动物剥削，扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平，最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后，Claude和GPT-5.5提升47-63个百分点，GPT-5.2提升26个百分点，DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识，表明低分并非因识别出测试。

论文 TAC 动物福利 AI Agent 基准测试 Claude Opus 4.7

推荐理由：动物福利问题有了AI专属的代理基准TAC，实测Claude Opus 4.7刚过一半，加个提示词能暴增60%，暴露了模型在实际行动中的盲区。

原文

10:22

arXiv cs.LG@Cosimo Gregucci, Obaidah Theeb, Daniel Hernandez, Antonio Vergari, Steffen Staab

这篇论文研究了知识图谱基础模型（KGFM）的零样本泛化机制。作者提出“半链接”概念，即三元组(h,r,t)中的(h,r)或(r,t)部分。实验表明，只需观察到测试三元组的一个半链接在推理图中，就足以准确预测完整链接。基于此，论文划分了四种半链接观测组合场景，并在这些场景下对现有KGFM进行了分层分析。分析发现，当前最先进的KGFM依赖已见半链接进行预测，而未见半链接带来不同挑战，这为未来模型改进提供了诊断方向。

论文 KGFM knowledge graph 零样本泛化半链接 arXiv

推荐理由：这篇论文把知识图谱模型泛化的底层逻辑讲清楚了——原来只要看到半个链接就能猜出整条，还分出了四种情况。搞图神经网络或KG推理的人别错过。

原文

10:21

arXiv cs.LG@Tomasz Maciazek

精选

该研究分析了高斯过程（GP）后验采样中释放样本路径的差分隐私（DP）性质。与标准DP机制不同，后验采样的内在随机性可提供隐私保证。作者推导了显式的Rényi-DP界限，将隐私泄露分解为后验均值依赖和后验协方差依赖部分，并指出有效岭正则化对隐私有显著影响。通过成员推理攻击实验，验证了隐私泄露与正则化强度、后验方差及释放样本路径数量之间的预测关系。在噪声观测任务中，隐私兼容的正则化在保持有用决策的同时仅带来适度效用损失。

论文 Gaussian Process Differential Privacy Rényi-DP AI安全隐私保护

推荐理由：这篇论文分析了GP后验采样的隐私性，不用额外加噪就能获得DP保证，还给了Rényi-DP界限。和标准加噪方法比，它更巧妙地利用了内生随机性。

原文

10:21

arXiv cs.LG@Yuming Chen, Yuxin Xie, Tao Zhou, Yi Zhou

提出CERS框架，将链式思维推理集成到半监督医学图像分割中，解决视觉-语义不匹配问题。利用大语言模型生成语言推理描述构建知识池，并设计语义感知参考选择策略，通过形态过滤和CoT一致性消除硬负样本。引入多尺度坐标注意力模块融合推理上下文，在多个基准上优于现有方法，尤其改善边界模糊和语义不一致。

论文 CERS Chain-of-Thought 医学图像分割半监督学习大语言模型

推荐理由：这篇论文用CoT推理帮医学图像分割识别病理不同的病变，比只看像素的旧方法靠谱得多，尤其是处理边界模糊的情况。

原文

10:20

arXiv cs.LG@Degala Pushpa Sri, Mayank Atreya, Lakshmi. H, Navin Chhibber, Mukesh Soni

该研究针对电商平台难以预测客户未来购买行为的问题，提出混合Ret-DNN（零售深度神经网络）与XGBoost（极端梯度提升）模型。数据来自英国在线零售商，包含近500,000条交易记录。Ret-DNN作为特征提取器捕获时间特征，XGBoost基于提取特征输出购买概率。该模型在测试集上达到0.2193的平均绝对误差（MAE），优于纯Ret-DNN模型。

论文 Ret-DNN XGBoost 客户行为预测电商预测分析

推荐理由：这篇论文用Ret-DNN加XGBoost预测电商客户行为，MAE仅0.2193，比单独用Ret-DNN效果更好，适合做电商预测研究的人参考。

原文

10:19

arXiv cs.LG@Kathrin Korte, Christian Medeiros Adriano, Joachim Winther Pedersen, Eleni Nisioti, Sebastian Risi

该研究在A-B-A范式下比较了任务划分循环网络与单网络基线在持续学习中的表现。高维“lazy”状态中，两种架构性能相近，模块化收益小。低维“rich”状态中，模块化网络形成梯度任务特异子空间，对相似任务重叠、中等相似对齐、不相似分离，实现更组合化的组织。结果表明，初始化尺度诱导的表征维度是决定模块化结构是否有利于持续学习的关键因素。

论文持续学习模块化表征维度 A-B-A范式循环网络

推荐理由：这篇论文用实验告诉你：模块化在持续学习中不是万能的，维度低时才有用，帮你判断何时该用模块化设计。

原文

10:18

arXiv cs.LG@Takaya Kawakatsu

论文提出结构精炼模块，通过非因果注意力产生序无关的细胞特征。在ICDAR 2019和PubTables-1M两个数据集上，细胞定位和端到端识别一致提升。推理时间减少约3倍。现有方法因自回归解码导致细胞表示顺序依赖，影响全局一致性。新设计实现并行推理，同时每个细胞基于全局上下文。

论文表格识别多任务学习自回归解码非因果注意力

推荐理由：这篇论文解决了表格识别中自回归解码的顺序依赖问题，用非因果注意力让细胞特征序无关，推理快了3倍，识别也更准。

原文

10:18

arXiv cs.LG@Toshitaka Hayashi, Hamido Fujita, Dalibor Cimr, Richard Cimler, Jitka Kühnová

该论文提出一种对单类分类(OCC)模型进行元分类的方法，利用排名相关(Ranking Correlation)和最近邻(Nearest Neighbor)度量。实验将OCC模型按训练数据集、算法和超参数分类，在数据集分类任务上达到高准确率。在睡眠记录(Sleeping Records)数据集上展示了数据集的分类效果。代码已开源在GitHub。

论文 OCC模型排名相关最近邻元分类睡眠记录

推荐理由：这篇研究用排名相关和最近邻把单类分类模型分门别类，在睡眠数据上效果不错，代码也开源了。

原文

10:17

arXiv cs.LG@Hsing-Yu Chen, Jérôme Arjonilla, I-Chen Wu, Ti-Rong Wu

WallZero是基于AlphaZero的智能体，专为7x7棋盘上的WallGo游戏设计。它击败了两位参与研究的职业围棋选手，平均每局获得1.98倍领地。论文使用WallZero分析游戏公平性，发现Netflix剧集《The Devil's Plan》中的开局更平衡。相关代码已在GitHub开源。

论文 WallZero AlphaZero WallGo 智能体策略分析

推荐理由：想知道AlphaZero怎么攻克新棋类游戏？这篇论文有具体策略和实战战绩，干货满满。

原文

10:17

arXiv cs.LG@SongEun Kim, Seungyoo Lee, Edwin Fong, Hyungi Lee, Juho Lee

论文发现LLM在多项选择问答中早期存在信念漂移，违背鞅性质。通过提出的提示预测重采样（PPR）方法，模型在多次重采样后信念自稳定并收敛。基于此，研究者进一步提出种子答案提示策略和自一致性损失微调方法。在多项选择QA基准测试中，这些方法显著减少信念漂移并提高预测一致性，且不牺牲准确性。

论文 LLM 信念稳定性 PPR 鞅性质微调

推荐理由：这篇论文发现了LLM回答重复问题时信念会自己稳定，还给了两种让模型更一致的方法，适合关注推理可靠性的读者。

原文

10:16

arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Tan Lai Ngoc, Nam Nguyen, Tuan Dam, Tan M. Nguyen

该论文提出了一个统一框架，用于刻画现代神经网络架构（如使用GELU、SiLU、SwiGLU激活的前馈网络、具备正弦和旋转位置编码的多头注意力、以及多种门控设计的混合专家模型）中的梯度下降守恒定律。此前守恒定律仅在线性和ReLU网络中被理解。实验验证了所预测的不变量。

论文 GELU SiLU SwiGLU Mixture-of-Experts 守恒定律

推荐理由：想知道GELU、多头注意力这些架构背后为什么有隐式偏好？这篇论文给出了严格的理论解释。

原文

10:16

arXiv cs.LG@Khoat Than

精选

该论文给出No-Free-Fairness定理，指出学习系统中不公平的三个根本来源。首先，当任务在子组上存在不可约成本时，任何决策规则必须在整体性能与子组差异间权衡，形成固有的公平-成本边界。其次，即使在理想无噪声场景下存在完全公平且准确的解，有限样本学习也会导致子组间非平凡差异，且强制执行严格相对公平可能使达到低成本所需样本数呈指数增长。最后，模型类限制可独立引发差异：若模型无法表示某子组的准确解，则公平性无法通过数据或训练实现。

论文 AI公平性公平-准确性权衡统计学习理论子组差异

推荐理由：这篇论文用数学证明了公平和准确不可兼得，小样本会让偏见更严重，模型表达能力不够也不行。做AI公平的人都会引用它。

原文

10:15

arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Van-Hoan Trinh, Tan Lai Ngoc, Tan M. Nguyen

精选

这篇论文研究了Transformer中注意力机制的函数等价性，重点分析了sinusoidal和旋转位置编码（RoPE）两种变体。作者发现sinusoidal编码保留了普通注意力的等价结构，而RoPE显著减小了对称群，从而增强了表达力。这一发现为RoPE在实践中的流行提供了理论解释。论文还讨论了位置编码如何影响线性模式连接性，并通过对齐算法证明连接性的存在和变化关键依赖于位置编码。实验表明使用RoPE的Transformer在参数空间具有更少的函数等价性，有助于优化和泛化。

论文 Transformer RoPE 位置编码注意力机制函数等价性

推荐理由：这篇论文解释了为啥RoPE比Sinusoidal位置编码更受青睐——它减少了参数空间的对称性，让Transformer表达力更强。如果你好奇背后的理论，值得一看。

原文

09:45

arXiv cs.AI@Manon Reusens, Sofie Goethals, David Martens

该论文正式提出LLM消费者行为理论，作为分析LLM代理自主消费决策的新领域。作者结合经典与行为经济学及NLP进展，形式化人类偏好如何通过LLM代理反映并聚合为市场需求。论文梳理了关于LLM决策、人类行为模拟和偏好提取的碎片化文献，指出在代理市场中理性与异质性等传统假设可能失效。文章未提供实证验证，而是勾勒研究范围并识别对齐、偏好表示和市场动态等开放问题。

论文 LLM 消费者行为经济学智能体

推荐理由：这篇论文把LLM当作消费决策的代理人来研究，从经济学角度提出了一个全新的理论框架，适合想了解人机交互市场动态的读者。

原文

09:44

arXiv cs.AI@Davide Domini, Gianluca Aguzzi, Lorenzo Pellegrini, Mirko Viroli, Lukas Esterle

研究者提出C2FL，一种完全分布式的联邦学习方法。节点通过空间聚类自组织成学习组，反映环境地理结构。为应对时间漂移，每个节点结合经验回放与驻留时间感知的自适应平均步骤，逐步融入区域共识。合成实验表明，标准联邦学习策略在空间和时间漂移下准确率下降超过30%，而C2FL恢复至接近集中式训练的性能。

论文 C2FL 联邦学习空间聚类时间漂移持续学习

推荐理由：这篇论文用空间聚类和驻留时间自适应平均，解决了移动场景下联邦学习数据漂移的老大难问题，效果比标准FL好很多。

原文

09:44

arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino

光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动（ReAct）循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比，token消耗节省了三倍。

论文 T-API ReAct 光网络智能体

推荐理由：这篇论文首次把ReAct循环和T-API结合到光网络管理里，领域专用工具准确率更高还省token，值得一看。

原文

09:44

arXiv cs.AI@Bin Wang, Heming Yang, Jinfang Sheng

McWC模型分别建模周期、趋势和跨通道相关性。其多层循环性构建模块解耦循环信息，多层感知机提取通道间相关性，多级小波分解融合高低频信息。在六个真实世界数据集上达到最优性能，计算效率优于此前方法。

论文 McWC 时间序列预测周期分解小波分解通道相关性

推荐理由：这篇论文用McWC模型同时处理周期、趋势和通道相关性，在六个数据集上最准，算得还快，值得看。

原文

09:43

arXiv cs.AI@Yonghao Chen, Sicheng Yang, Rui Tang, Lei Zhu

本文提出一种语义优先的潜在建模框架用于3D MRI重建与跨对比度合成。现有压缩架构存在三个问题：长程解剖连贯性保存不足、临床语义丢失、优化目标导致重建过于平滑。该方法引入Latent Harmonization Encoder (LHE)捕获全局解剖依赖，设计Semantic Recovery Block (SRB)从自监督语义教师注入高级先验，并采用Anatomy-aware Frequency Loss (AFL)保留诊断相关高频结构。在两个公开多对比度MRI数据集上的实验表明，该方法在重建保真度和跨对比度合成质量上均有一致改进。

论文 3D MRI 跨对比度合成潜在建模 LHE SRB

推荐理由：这篇论文针对3D MRI跨对比度合成中潜在空间语义丢失的问题，用LHE、SRB和AFL三个模块提升了重建质量，效果不错。

原文

09:42

arXiv cs.AI@Jinjie Shen, Wei Deng, Xian Hu, Daiguo Zhou, Jian Luan

STAR方法针对文本到图像生成的RL后训练中的奖励粒度不匹配问题，提出时空自适应奖励分配。它利用生成模型内的文本-图像注意力，在去噪步骤和生成过程中动态构建空间分配图，将组相对优势分配给更相关的潜在区域。以Stable Diffusion 3.5 Medium为基础模型，在GenEval、OCR文本渲染和PickScore三项任务上分别达到0.9759、0.9757和23.60的分数。

论文 STAR 文本到图像生成强化学习 Stable Diffusion 奖励分配

推荐理由：这篇论文提出STAR方法，通过空间和时间自适应分配奖励，让RL后训练更精准地优化文本到图像生成，效果在GenEval等基准上显著提升。

原文

09:42

arXiv cs.AI@Ruixin Song, Md Mahbub Alam, Zahra Sadeghi, Amilcar Soares, José F. Rodrigues-Jr, Gabriel Spadon

MoCo-AIS提出一种基于 Momentum Contrast 的对比学习框架，用于学习船舶轨迹的嵌入表示。该框架在大型真实AIS数据集（包含多种航行行为与工况）上评估了多种主流深度学习模型。结果表明，MoCo-AIS在轨迹相似性学习任务上显著优于现有基线方法。同时，该框架为轨迹表示模型的评估提供了统一基准平台。

论文 MoCo-AIS 轨迹相似性对比学习 AIS 船舶轨迹

推荐理由：这篇论文给做轨迹相似性的人提供了一个现成的对比学习框架，用MoCo范式在真实AIS数据上测了多个模型，效果比基线好。

原文

09:41

arXiv cs.AI@Marco Aruta, Vadim Malvone, Aniello Murano, Domenico Parente, Luca Rizzuti

研究人员提出一个神经符号框架，将大语言模型(LLM)集成到多智能体系统(MAS)模型检查流程中。LLM作为策略生成预言机，产生的候选策略由标准MAS模型检查器进行形式验证。该生成-认证架构利用LLM引导搜索大型组合策略空间，同时保持形式正确性。框架在NatATL逻辑中实例化，创建了首个包含4211个实例的NatATL策略合成数据集。使用开源Qwen3-32B模型时，认证管道的策略合成准确率达92%。

论文 LLM 多智能体系统策略合成神经符号方法 Qwen3-32B

推荐理由：用LLM帮MAS做策略合成，再加形式验证保证正确性，Qwen3-32B跑出92%准确率，挺实在的方法。

原文

09:41

arXiv cs.AI@Andrea Santomauro, Luigi Portinale, Giorgio Leonardi

本研究从理论和实验两方面分析了相似性位置编码（simPE）在旋转扰动下的鲁棒性。论文首先证明simPE通常不具备旋转不变性，但基于Lipschitz假设推导出其在Frobenius范数下的显式扰动界。实验在四个数据集（Arrow、Shapes、Digits、FashionMNIST）上进行，测试图像逐渐增大旋转角度，simPE在准确率、F1、精确率和召回率上均优于标准学习型位置编码，尤其在小到中等旋转角度下表现更优。

论文 simPE 位置编码鲁棒性旋转不变性 Transformer

推荐理由：这篇论文证明了simPE在图像旋转下比标准位置编码更稳，用四个数据集给出了理论界和实验验证，做视觉Transformer的值得看。

原文

09:40

arXiv cs.AI@Jinghan Wu, Jing Li, Ivor W. Tsang, Xuetao Zhang

论文提出即插即用的多模态指代消解方法 Plug-and-Adapt，无需在目标数据集上训练即可使用。该方法先利用视觉-语言对齐数据集预训练一个细粒度对齐模型，再通过证据理论融合视觉和类别线索进行相似度聚合。在 CIN 基准测试中，CoNLL F1 比现有专用方法提升 5.31%，比主流 VLLM 提升 2.12%。在掩码 CIN 和 VCR-MCR 数据集上验证了鲁棒性和泛化能力。

论文 Plug-and-Adapt 多模态指代消解对齐模型证据理论 CIN基准

推荐理由：这篇论文提出不用大模型也能高性能做多模态指代消解，直接在 CIN 上就比专用方法和 VLLM 高 5% 和 2%，而且即插即用，挺实用的。

原文

09:40

arXiv cs.AI@Liangkai Hang, Junjie Yao, Zhiyu Li, Feiyu Xiong, Hongkang Yang, Zhi-Qin John Xu

73°

论文发现缩小参数初始化尺度能持续改善大语言模型的预训练效果，在推理密集型任务上提升最为显著，同时识别出两种常见训练设置会抑制该优势。研究揭示了初始化尺度的关键平衡点，并发现小初始化驱动参数先凝聚为低复杂度结构再扩展为丰富表示。基于此提出γ初始化规则——将初始化范围作为可调旋钮，默认使用小初始化几乎不增加成本即可改善训练和推理。

论文初始化大语言模型推理预训练压缩

推荐理由：发现一个几乎零成本的训练技巧：缩小初始化尺度能大幅提升大模型推理能力。

原文

09:39

arXiv cs.AI@Jessica McFadyen, Ole Jorgensen, Harry Coppock, Kevin Wei, Cozmin Ududec

一项研究评估了12个前沿语言模型在7个基准上的表现，包括FrontierMath、TerminalBench和网络安全任务。研究发现，增加推理计算（如更大token预算和重复提交）能显著提升得分，例如在FrontierMath上提升达20%以上。固定预算的评估会低估新一代模型能力，因为它们在更大预算下能解锁并更可靠地解决难题。不同基准对推理缩放方法的依赖各异：重复提交对多数基准有效，但外部反馈仅在特定任务中有帮助。

论文推理计算 FrontierMath TerminalBench LLM评估

推荐理由：别被固定预算的基准分数骗了，这篇论文揭示了很多模型实际能力需要更多推理计算才能看出来。

原文

09:38

arXiv cs.AI@Julian Hoever, Gregor Schiele

KANLib是一个模块化、可扩展且计算高效的Kolmogorov-Arnold网络（KAN）框架，统一了PyKAN、EfficientKAN和FastKAN等现有实现的核心概念。它支持两种基函数类型、自适应网格缩放、网格扩展及细粒度架构定制，并保持与PyTorch工作流的兼容性。在California Housing基准上，KANLib再现了参考KAN实现的预测行为，同时实现了有竞争力的计算效率。该框架允许探索超出标准KAN公式的架构变体，对预测性能影响微小。

论文 KANLib KAN Kolmogorov-Arnold Networks 可解释性模块化框架

推荐理由：想试KAN但被碎片化实现劝退？KANLib把PyKAN、EfficientKAN、FastKAN统一成一个高效框架，直接上手跑基准。

原文

09:38

arXiv cs.AI@Aueaphum Aueawatthanaphisut, Badri Raj Lamichhane

该论文提出一个基于LLM编排的多智能体框架，将大数据即服务生命周期分解为数据摄取、数据清洗、特征工程、AutoML训练、模型评估、MLOps部署、监控和漂移检测等专业智能体。中央LLM编排层协调代理执行、验证中间输出、管理流程上下文并支持动态工作流组合。框架包含共享工件治理、可重复性支持、人在回路检查点和漂移感知反馈循环。在包含缺失值、分类变量、异常值、类别不平衡和模拟协变量漂移的受控表格基准数据集上，与手动ML、仅AutoML和单智能体LLM基线对比，该多智能体BDaaS管道实现了有竞争力的预测性能，并提高了工作流完成率、工件可追溯性、部署就绪度、可重复性和漂移恢复能力。

论文 LLM 多智能体 AutoML MLOps BDaaS

推荐理由：这篇论文用LLM编排多个专业智能体，自动搞定数据工程到部署监控的全流程，比单智能体和纯AutoML更可靠，适合做生产级自动化参考。

原文

09:38

arXiv cs.AI@Koki Okajima, Yasutoshi Ida, Tsukasa Yoshida, Yasuaki Nakamura

论文提出 Non-Negative Elastic Net (NNN) 解码，将检索视为联合解码问题，通过稀疏非负线性组合用文档嵌入重构查询嵌入。理论证明，对所有语料库，NNN 解码能处理稠密检索能处理的全部查询，并在有相关文档的语料库上额外处理稠密检索无法处理的查询。在多个基准测试上，对冻结嵌入应用 NNN 解码带来一致改进；端到端训练嵌入进一步超越稠密检索的所有指标。

论文 NNN decoding dense retrieval 信息检索稀疏表示嵌入

推荐理由：这篇论文提出一种叫 NNN 的解码方法，能比传统向量点积检索挑出更多样化的文档，在多个基准上都有提升，做搜索相关的值得看看。

原文

09:37

arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis

新基准DiagFlowBench包含50张工业诊断流程图，转化为1676轮多轮对话，对比合规与偏离流程的输入。评估10个商业和开源模型发现，模型在识别超范围输入时表现差异大，常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。

论文 DiagFlowBench 诊断对话推理模型 AI安全多轮对话

推荐理由：DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里，能不能识别用户问跑题的问题。10个模型测下来，差得挺大，而且那种看似合理但不对的答案最危险。论文值得一看。

原文

09:31

arXiv: DeepSeek@Siyue Chen, Yifu Guo, Yuquan Lu, Zishan Xu, Jiaye Lin, Jianbo Lin, Siyu Zhang, Cheng Yang, Junxin Li, Yujia Li, Yu Huo, Ruixuan Wang

该论文提出了LLM代码推理的内部生命周期概念：模型先在早期层中酝酿答案，使其线性可解，然后在后期层分化为四种解析结果——已解析、过度处理、错误解析、未解析。研究对Qwen、Llama、DeepSeek三个架构的16个模型进行了6类代码推理任务的层析探针和上下文剥离解码（CSD）实验。结果显示已解析平均仅41.5%，且函数调用任务中，调用深度从1层增至3层时已解析率从61.1%骤降至2.5%。所有模型的酝酿持续时长稳定在24%-42%，但解析成功率随模型能力和规模变化。

论文代码推理 Qwen Llama DeepSeek 推理模型

推荐理由：这篇论文用层析探针找到了LLM做代码推理时“酝酿”到“解析”的秘密，发现即便准确率相近，内部失败模式也截然不同，值得想理解推理本质的人读。

原文

09:27

arXiv: DeepSeek@Filip Sondej, Yushi Yang, Adam Mahdi

精选

现有大模型遗忘方法（如GradDiff、NPO、SimNPO、RMU、UNDIAL）易被微调或少样本提示逆转，表明确实只是浅层遗忘。RepSelect通过每次更新前崩塌权重梯度的主成分，隔离遗忘集特定的表示，保持通用能力不受影响。在生物危害知识和虐待倾向两个遗忘类别上，对Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四个模型族评估，RepSelect后学习准确率降低幅度是最好基线的4-50倍，且对少样本提示攻击接近完全鲁棒。

论文 RepSelect Llama 3 Qwen 3.5 模型遗忘 AI安全

推荐理由：这篇论文发现现有大模型遗忘只是表面记忆，新方法RepSelect能真正让模型忘记特定知识，还防微调和提示破解。

原文

08:30

vLLM@vllm_project

SemiAnalysis对强化学习训练系统进行深度分析，指出效率关键在于匹配训练器与生成器的吞吐量。研究基于vLLM+verl框架，@KaichaoYou和Ao Shen进行了沙箱扩展实验。该工作建立在@KaichaoYou早期在OpenRLHF、verl、slime等框架的RL集成工作之上。

论文 SemiAnalysis vLLM verl OpenRLHF RL训练

推荐理由：这篇分析硬核拆解RL训练效率瓶颈，vLLM+verl的沙箱实验值得一看。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。