全部 AI 动态 · AI 热点

6月17日

10:44

arXiv cs.AI@Nicola Franco

Anthropic发布了对两个前沿模型Fable 5和Opus 4.8的红队研究。研究使用HackAgent框架，对7,826个有害意图进行自动化越狱攻击，覆盖十类危害。最强自适应树状攻击在Opus 4.8上成功率达11.5%，而在Fable 5上仅为6.1%。两个模型分别产生了1,620和702个经专家确认的有害输出。结论表明，即使经过充分测试的前沿模型仍可在持续自动化攻击下被可靠破解。

推荐理由：Anthropic公开了Fable 5和Opus 4.8的对抗性测试结果：树状攻击破Opus 4.8的11.5%，但Fable 5更抗打，仅6.1%。别被整体数字骗了，残存风险不小。

原文

10:44

arXiv cs.AI@Nick Bettencourt, Xiaowei Ding, Kay Giesecke

斯坦福大学发布SEFD数据集，重建SEC文件为布局忠实的MultiMarkdown格式，用于金融语言模型预训练。SEFD-v1初始快照包含152B tokens，总归档估计550B tokens。该数据集与Common Crawl衍生语料重叠小于0.1%，具有极高的新颖性。同时推出两个基准EDGAR-Forecast（财务数值预测）和EDGAR-OCR（复杂表格转录），评估模型在金融领域的能力。

论文 SEFD EDGAR 金融数据预训练数据财务基准

推荐理由：斯坦福这个SEFD数据集太实用了，152B token的金融预训练数据，跟Common Crawl几乎不重复，还自带财务预测和表格识别基准，搞金融NLP的可以省好多事。

原文

10:43

arXiv cs.AI@Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Issam H. Laradji

DRFLOW 是一个用于评估智能体从异构来源预测个性化工作流的新型基准，包含 100 个任务、5 个领域、1,246 个参考步骤，并基于 3,900 多个来源构建。它定义了 7 项诊断指标，涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。作者还提出了 DRFLOW-Agent (DRFA) 作为参考代理，其在平均 F1 分数上比强基线代理提升最多 10.02%，但仍有较大改进空间。

AI模型 DRFLOW 工作流预测基准测试智能体企业任务

推荐理由：想测测你家智能体能不能给出真正可执行的步骤？DRFLOW 用 100 个企业任务逼真考核，DRFA 也才比普通基线高 10%，挑战不小。

原文

10:43

arXiv cs.AI@Lekan Molu

精选

这篇论文提出用向后Kolmogorov方程将扩散策略提升至Cameron-Martin空间，以确定性PDE替代随机分数匹配。在PushT操作基准上，Cameron-Martin损失使最大回合奖励提升17%（0.95 vs 0.78），推理时步间漂移降低67.6%。在6站CONWIP制造线上，RMSE较LSTM降低28.4%，饥饿事件召回率达1.0，瓶颈识别Precision@1=1.0，信噪比13倍。结合Hamilton-Jacobi可达性理论，死锁事件减少96%（351次预防）。方法提供收敛保证、轨迹规整性和无奖励信号的故障检测。

论文 Kolmogorov回归扩散策略 Cameron-Martin空间 PushT CONWIP

推荐理由：这篇论文用Kolmogorov方程改进了扩散策略，在PushT和制造线上奖励提升17%、漂移减少67%，还能做故障检测，比普通扩散方法靠谱。

原文

10:43

arXiv cs.AI@Henry Bodwell, Hong Yang, John C. Simeone, Kelvin Gorospe, Bella Sullivan, Lana Huang, Jessica Gephart, Sandy Aylesworth, Molly Masterton, Naren Ramakrishnan

论文提出IUU+DB系统，利用大语言模型（LLM）从异构文档中提取非法、未报告和未监管捕捞（IUU）及相关海鲜欺诈、劳工虐待事件信息。系统可分类是否相关，提取行为者、地点、物种、船舶、违规类型及执法结果等关键数据，并支持去重和趋势分析。案例验证表明，IUU+DB能帮助组织碎片化证据，识别地理和行为热点，为学术界、非政府组织、行业风险评估及政府政策执行提供支持。

论文 IUU+DB LLM 非法捕捞海鲜欺诈劳工虐待

推荐理由：这篇论文搞了个IUU+DB系统，用LLM自动从大量文档里挖出非法捕捞和海鲜欺诈的线索，能帮监管者和研究人员快速定位热点区域，挺实用的。

原文

10:42

arXiv cs.AI@Michèle Finck

大型语言模型已能生成至少中位质量的法律文本，但现有法律AI评估仅测量辅助性任务，无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”，却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白，并呼吁建立对应的标准化评估。

论文 LLM EU AI Act 法律推理基准教义性推理

推荐理由：这篇论文直击法律AI评测的核心缺陷——现有基准只测写文书，不测真正懂法理。做法律AI或合规的朋友值得看看。

原文

10:42

arXiv cs.AI@Libing Zeng, Li Ma, Mingming He, Ning Yu, Paul Debevec, Nima Khademi Kalantari

ReAge3D提出一种3D人脸重龄化方法，可生成细节丰富、保持身份的重龄化结果。它引入2D扩散模型DiffReaging，在合成图像对上训练。采用中心向外编辑传播策略，先重龄化正面视角图像，再通过扭曲和Masked-DiffReaging过程重建其他视角，确保多视图一致。该方法在视觉和定量上优于现有3D编辑技术，支持对年龄变换的平滑精细控制。

论文 ReAge3D DiffReaging 3D人脸重龄化多视图一致性

推荐理由：一篇新论文，用DiffReaging和传播策略解决了3D人脸重龄化的视图不一致问题，效果超过现有方法，做图像编辑和3D视觉的可以看看。

原文

10:41

arXiv cs.AI@Yuwei Zhang, Tong Xia, Bianca Emmerich, Yu Yvonne Wu, Dimitris Spathis, Xin Liu, Daniel McDuff, Cecilia Mascolo

论文提出WEQA，一个查询自适应智能体框架，统一LLM推理与可穿戴分析及建模工具。它采用LLM控制器合成执行计划，动态路由查询至传感器分析与预训练模型组合，并借助外部知识进行响应审计。研究团队构建了涵盖四个公开可穿戴数据集、三个健康领域的基准。实验显示，WEQA比LLM和智能体基线准确率高出24%。一项由12名医学专家和8名用户参与的盲测表明，其在有用性和临床合理性上有显著提升。

论文 WEQA 可穿戴健康数据医学问答智能体 LLM

推荐理由：这篇论文解决了大模型看不懂可穿戴数据的问题。WEQA框架比基线的准确率高出24%，还通过了医学专家盲测，做医疗AI的同学值得看看。

原文

10:41

arXiv cs.AI@Josef Liyanjun Chen

该研究将机器人闪存耐久性视为非可再生资源，提出用单个影子价格η优化数据在RAM、板载NVM和云之间的分布。在重复长程操作场景中，价值-写入关联χ的测量值约为+1.0×10^{-3}，短程场景中接近零，非重复遥操作场景中为负。高端TLC闪存（3000 P/E）上耐久预算不构成约束，但廉价QLC/eMMC（约1000 P/E）上具有约束性。学习型磨损感知控制器在任务价值上与基于价格的路由持平，因为实现的价值在不同层级间保持不变。非单调最优已被证明但尚未在实验数据中观察到。

论文具身智能闪存耐久性影子价格 NVM 云存储

推荐理由：这篇论文把机器人闪存写寿命当成钱来算，发现只有便宜芯片上才需要省着用，高端芯片随便写。读它学怎么用价格信号管好机器人记忆。

原文

10:40

arXiv cs.AI@Sinclair Gurny, Ryan Quinn

C3GD 是一个公开的枪声数据集，包含超过 8000 个现场采集的枪声数据点，覆盖 28 种枪支和 16 种口径。数据集提供了远超现有公开资源的元数据，包括麦克风类型、位置等细节。它主要面向口径分类任务，也可用于枪声检测、音频分离和音频信号处理，旨在提高真实场景下的泛化能力。该数据集解决了互联网收集枪声音频带来的低质量和标签噪声问题。

论文 C3GD 枪声分类数据集音频处理公开数据集

推荐理由：想做枪声分类或检测的朋友，这个 C3GD 数据集有 8000+ 现场样本、28 种枪和 16 种口径，比网上扒的数据干净多了。

原文

10:40

arXiv cs.AI@Ziqi Zhou, Yubo Ye, Sumeet Atul Vadhavka, Linwei Wang, Zhiqiang Tao

论文提出LEADS框架，利用LLM智能体在结构化动作空间中迭代发现混合物理-神经模型，解决传统方法需要专家手动设计且无法跨患者迁移的问题。在三种合成反应数据和真实心脏电生理数据上，LEADS均优于人工设计的混合模型和其他基于LLM的方法。该方法保证了模型的物理合理性、可解释性和数值稳定性，同时允许开放性的架构探索。

论文 LEADS 心脏电生理数字孪生 LLM 智能体

推荐理由：这篇论文用LLM智能体自动设计心脏数字孪生的混合模型，比人工靠经验搭的更准，还跨病人管用。合成和真实数据上都赢了其他方法。

原文

10:35

arXiv: OpenAI@Dipayan Banik, Kowshik Chowdhury, Shazibul Islam Shamim

该论文分析了33,596个AI Agent（OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code）提交的86,156个测试文件补丁，发现80.2%的测试补丁包含弱或没有显式断言（oracle signals）。研究者总结出8种oracle信号类型，并发现经过回归分析调整后，强oracle信号使PR合并可能性提高28%（OR=1.28, p<0.001）。结果表明仅凭测试文件数量会高估验证强度。

论文 AI Agent 测试代码断言代码质量实证研究

推荐理由：这篇论文用86k条实际数据告诉你：AI写的测试代码虽然多，但八成没用断言，光靠数量验收会翻车。建议读读他们总结的oracle信号分类。

原文

10:30

arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs

新基准TAC（Travel Agent Compassion）测试AI代理在12个旅行预订场景中是否避免动物剥削选项，涵盖6类动物剥削，扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平，最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后，Claude和GPT-5.5提升47-63个百分点，GPT-5.2提升26个百分点，DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识，表明低分并非因识别出测试。

论文 TAC 动物福利 AI Agent 基准测试 Claude Opus 4.7

推荐理由：动物福利问题有了AI专属的代理基准TAC，实测Claude Opus 4.7刚过一半，加个提示词能暴增60%，暴露了模型在实际行动中的盲区。

原文

10:22

arXiv cs.LG@Eric V. Strobl

BLITZ 是一种非参数条件独立性检验方法，可在不到一秒内完成单次测试，适用于因果发现算法中数千次查询的场景。它首先通过低阶多项式回归移除对条件集的平滑依赖，再用浅层树回归对小规模非线性特征图进行残差化。理论分析表明，两阶段设计减少了树回归的有效复杂度，从而控制残差条件均值偏差并避免过拟合。模拟中，BLITZ 比快速核方法、随机特征方法和回归方法等竞争对手提供更好的零分布校准，同时保持最快速度之一。在合成图和流式细胞术数据的因果发现实验中，BLITZ 产生更可靠的端点定向结果和稳健的结构恢复。

AI模型 BLITZ 因果发现条件独立性检验非参数检验两阶段回归

推荐理由：想快速做条件独立性检验？BLITZ 能在一秒内跑完，校准还比核方法好，因果发现定向更靠谱。

原文

10:22

arXiv cs.LG@Cosimo Gregucci, Obaidah Theeb, Daniel Hernandez, Antonio Vergari, Steffen Staab

这篇论文研究了知识图谱基础模型（KGFM）的零样本泛化机制。作者提出“半链接”概念，即三元组(h,r,t)中的(h,r)或(r,t)部分。实验表明，只需观察到测试三元组的一个半链接在推理图中，就足以准确预测完整链接。基于此，论文划分了四种半链接观测组合场景，并在这些场景下对现有KGFM进行了分层分析。分析发现，当前最先进的KGFM依赖已见半链接进行预测，而未见半链接带来不同挑战，这为未来模型改进提供了诊断方向。

论文 KGFM knowledge graph 零样本泛化半链接 arXiv

推荐理由：这篇论文把知识图谱模型泛化的底层逻辑讲清楚了——原来只要看到半个链接就能猜出整条，还分出了四种情况。搞图神经网络或KG推理的人别错过。

原文

10:21

arXiv cs.LG@Tomasz Maciazek

精选

该研究分析了高斯过程（GP）后验采样中释放样本路径的差分隐私（DP）性质。与标准DP机制不同，后验采样的内在随机性可提供隐私保证。作者推导了显式的Rényi-DP界限，将隐私泄露分解为后验均值依赖和后验协方差依赖部分，并指出有效岭正则化对隐私有显著影响。通过成员推理攻击实验，验证了隐私泄露与正则化强度、后验方差及释放样本路径数量之间的预测关系。在噪声观测任务中，隐私兼容的正则化在保持有用决策的同时仅带来适度效用损失。

论文 Gaussian Process Differential Privacy Rényi-DP AI安全隐私保护

推荐理由：这篇论文分析了GP后验采样的隐私性，不用额外加噪就能获得DP保证，还给了Rényi-DP界限。和标准加噪方法比，它更巧妙地利用了内生随机性。

原文

10:21

arXiv cs.LG@Yuming Chen, Yuxin Xie, Tao Zhou, Yi Zhou

提出CERS框架，将链式思维推理集成到半监督医学图像分割中，解决视觉-语义不匹配问题。利用大语言模型生成语言推理描述构建知识池，并设计语义感知参考选择策略，通过形态过滤和CoT一致性消除硬负样本。引入多尺度坐标注意力模块融合推理上下文，在多个基准上优于现有方法，尤其改善边界模糊和语义不一致。

论文 CERS Chain-of-Thought 医学图像分割半监督学习大语言模型

推荐理由：这篇论文用CoT推理帮医学图像分割识别病理不同的病变，比只看像素的旧方法靠谱得多，尤其是处理边界模糊的情况。

原文

10:20

arXiv cs.LG@Degala Pushpa Sri, Mayank Atreya, Lakshmi. H, Navin Chhibber, Mukesh Soni

该研究针对电商平台难以预测客户未来购买行为的问题，提出混合Ret-DNN（零售深度神经网络）与XGBoost（极端梯度提升）模型。数据来自英国在线零售商，包含近500,000条交易记录。Ret-DNN作为特征提取器捕获时间特征，XGBoost基于提取特征输出购买概率。该模型在测试集上达到0.2193的平均绝对误差（MAE），优于纯Ret-DNN模型。

论文 Ret-DNN XGBoost 客户行为预测电商预测分析

推荐理由：这篇论文用Ret-DNN加XGBoost预测电商客户行为，MAE仅0.2193，比单独用Ret-DNN效果更好，适合做电商预测研究的人参考。

原文

10:19

arXiv cs.LG@Kathrin Korte, Christian Medeiros Adriano, Joachim Winther Pedersen, Eleni Nisioti, Sebastian Risi

该研究在A-B-A范式下比较了任务划分循环网络与单网络基线在持续学习中的表现。高维“lazy”状态中，两种架构性能相近，模块化收益小。低维“rich”状态中，模块化网络形成梯度任务特异子空间，对相似任务重叠、中等相似对齐、不相似分离，实现更组合化的组织。结果表明，初始化尺度诱导的表征维度是决定模块化结构是否有利于持续学习的关键因素。

论文持续学习模块化表征维度 A-B-A范式循环网络

推荐理由：这篇论文用实验告诉你：模块化在持续学习中不是万能的，维度低时才有用，帮你判断何时该用模块化设计。

原文

10:19

arXiv cs.LG@Mikhail Krasnov, Carolina Fortuna, Blaž Bertalanič

论文提出MKAN，一种通过指数重参数化B样条系数、正边权和单调基激活函数实现硬单调性保证的KAN变体，训练可用无约束梯度下降。理论贡献是表示代价定理：任何C^K特征提取器（语义邻域分划为球状）存在单调实现，节点数N'=N*+k≤2N*，其中k为原始非单调坐标数。在SMM/ICML-2024基准上，MKAN与SOTA单调神经网络竞争力相当，且是唯一兼具硬单调性与KAN边缘功能透明性的方法。在4个真实数据集的自监督特征尺寸扫描中验证了2N*预测，在受控单调生成数据集上MKAN的Spearman对齐显著高于KAN、MLP和线性基线。

AI模型 MKAN KAN 单调性表示代价定理

推荐理由：如果你做单调神经网络或者KAN相关研究，这篇论文提出了一个既有理论保障又有实际效果的MKAN，在基准上不输现有方法，而且保持了KAN的可解释性。

原文

10:18

arXiv cs.LG@Takaya Kawakatsu

论文提出结构精炼模块，通过非因果注意力产生序无关的细胞特征。在ICDAR 2019和PubTables-1M两个数据集上，细胞定位和端到端识别一致提升。推理时间减少约3倍。现有方法因自回归解码导致细胞表示顺序依赖，影响全局一致性。新设计实现并行推理，同时每个细胞基于全局上下文。

论文表格识别多任务学习自回归解码非因果注意力

推荐理由：这篇论文解决了表格识别中自回归解码的顺序依赖问题，用非因果注意力让细胞特征序无关，推理快了3倍，识别也更准。

原文

10:18

arXiv cs.LG@Ning Ni, Yingjie Lao

AnchorKV是一种即插即用的KV缓存压缩方法，通过构建离线安全锚点来偏置token保留分数，使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术，在逐层键投影空间中提取拒绝方向，并引入软惩罚token选择规则。在保持压缩效率的同时，AnchorKV能显著提升LLM的安全对齐能力，抵御越狱攻击。实验表明，在适度牺牲少量性能的情况下，该方法可有效降低有害输出率。

AI模型 AnchorKV KV缓存压缩越狱攻击安全对齐

推荐理由：想压缩KV缓存又怕模型不安全？AnchorKV用软惩罚巧妙拒绝有害token，既省内存又防越狱，适合部署场景。

原文

10:18

arXiv cs.LG@Toshitaka Hayashi, Hamido Fujita, Dalibor Cimr, Richard Cimler, Jitka Kühnová

该论文提出一种对单类分类(OCC)模型进行元分类的方法，利用排名相关(Ranking Correlation)和最近邻(Nearest Neighbor)度量。实验将OCC模型按训练数据集、算法和超参数分类，在数据集分类任务上达到高准确率。在睡眠记录(Sleeping Records)数据集上展示了数据集的分类效果。代码已开源在GitHub。

论文 OCC模型排名相关最近邻元分类睡眠记录

推荐理由：这篇研究用排名相关和最近邻把单类分类模型分门别类，在睡眠数据上效果不错，代码也开源了。

原文

10:17

arXiv cs.LG@Hsing-Yu Chen, Jérôme Arjonilla, I-Chen Wu, Ti-Rong Wu

WallZero是基于AlphaZero的智能体，专为7x7棋盘上的WallGo游戏设计。它击败了两位参与研究的职业围棋选手，平均每局获得1.98倍领地。论文使用WallZero分析游戏公平性，发现Netflix剧集《The Devil's Plan》中的开局更平衡。相关代码已在GitHub开源。

论文 WallZero AlphaZero WallGo 智能体策略分析

推荐理由：想知道AlphaZero怎么攻克新棋类游戏？这篇论文有具体策略和实战战绩，干货满满。

原文

10:17

arXiv cs.LG@Haoqi Yuan, Zhixuan Liang, Anzhe Chen, Ye Wang, Haoyang Li, Pei Lin, Yiyang Huang, Zixing Lei, Tong Zhang, Jiazhao Zhang, Jie Zhang, Jingyang Fan, Gengze Zhou, Qihang Peng, Chenxu Lv, Xiaoyue Chen, An Yang, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Chenfei Wu, Xiong-Hui Chen

83°

Qwen-RobotManip是基于Qwen-VL构建的视觉-语言-动作基础模型。它引入统一对齐框架，覆盖表示、运动和操作行为三个维度，使多源训练数据协调一致。通过人工到机器人的合成流水线，利用15种平台的示教数据，构建了约38,100小时的预训练语料。模型在RoboCasa365、LIBERO-Plus、EBench等OOD基准上显著优于先前最佳模型π0.5，并在AgileX ALOHA、Franka、UR、ARX等真实机器人平台上验证。

AI模型 Qwen-RobotManip Qwen-VL 机器人基础模型多模态零样本迁移

推荐理由：阿里Qwen团队这个机器人模型用开源数据和人类演示就能学，跨平台零样本操作，还在多个测试里碾压了π0.5，做机器人开发的别错过。

原文

10:17

arXiv cs.LG@SongEun Kim, Seungyoo Lee, Edwin Fong, Hyungi Lee, Juho Lee

论文发现LLM在多项选择问答中早期存在信念漂移，违背鞅性质。通过提出的提示预测重采样（PPR）方法，模型在多次重采样后信念自稳定并收敛。基于此，研究者进一步提出种子答案提示策略和自一致性损失微调方法。在多项选择QA基准测试中，这些方法显著减少信念漂移并提高预测一致性，且不牺牲准确性。

论文 LLM 信念稳定性 PPR 鞅性质微调

推荐理由：这篇论文发现了LLM回答重复问题时信念会自己稳定，还给了两种让模型更一致的方法，适合关注推理可靠性的读者。

原文

10:16

arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Tan Lai Ngoc, Nam Nguyen, Tuan Dam, Tan M. Nguyen

该论文提出了一个统一框架，用于刻画现代神经网络架构（如使用GELU、SiLU、SwiGLU激活的前馈网络、具备正弦和旋转位置编码的多头注意力、以及多种门控设计的混合专家模型）中的梯度下降守恒定律。此前守恒定律仅在线性和ReLU网络中被理解。实验验证了所预测的不变量。

论文 GELU SiLU SwiGLU Mixture-of-Experts 守恒定律

推荐理由：想知道GELU、多头注意力这些架构背后为什么有隐式偏好？这篇论文给出了严格的理论解释。

原文

10:16

arXiv cs.LG@Khoat Than

精选

该论文给出No-Free-Fairness定理，指出学习系统中不公平的三个根本来源。首先，当任务在子组上存在不可约成本时，任何决策规则必须在整体性能与子组差异间权衡，形成固有的公平-成本边界。其次，即使在理想无噪声场景下存在完全公平且准确的解，有限样本学习也会导致子组间非平凡差异，且强制执行严格相对公平可能使达到低成本所需样本数呈指数增长。最后，模型类限制可独立引发差异：若模型无法表示某子组的准确解，则公平性无法通过数据或训练实现。

论文 AI公平性公平-准确性权衡统计学习理论子组差异

推荐理由：这篇论文用数学证明了公平和准确不可兼得，小样本会让偏见更严重，模型表达能力不够也不行。做AI公平的人都会引用它。

原文

10:15

arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Van-Hoan Trinh, Tan Lai Ngoc, Tan M. Nguyen

精选

这篇论文研究了Transformer中注意力机制的函数等价性，重点分析了sinusoidal和旋转位置编码（RoPE）两种变体。作者发现sinusoidal编码保留了普通注意力的等价结构，而RoPE显著减小了对称群，从而增强了表达力。这一发现为RoPE在实践中的流行提供了理论解释。论文还讨论了位置编码如何影响线性模式连接性，并通过对齐算法证明连接性的存在和变化关键依赖于位置编码。实验表明使用RoPE的Transformer在参数空间具有更少的函数等价性，有助于优化和泛化。

论文 Transformer RoPE 位置编码注意力机制函数等价性

推荐理由：这篇论文解释了为啥RoPE比Sinusoidal位置编码更受青睐——它减少了参数空间的对称性，让Transformer表达力更强。如果你好奇背后的理论，值得一看。

原文

09:45

arXiv cs.AI@Manon Reusens, Sofie Goethals, David Martens

该论文正式提出LLM消费者行为理论，作为分析LLM代理自主消费决策的新领域。作者结合经典与行为经济学及NLP进展，形式化人类偏好如何通过LLM代理反映并聚合为市场需求。论文梳理了关于LLM决策、人类行为模拟和偏好提取的碎片化文献，指出在代理市场中理性与异质性等传统假设可能失效。文章未提供实证验证，而是勾勒研究范围并识别对齐、偏好表示和市场动态等开放问题。

论文 LLM 消费者行为经济学智能体

推荐理由：这篇论文把LLM当作消费决策的代理人来研究，从经济学角度提出了一个全新的理论框架，适合想了解人机交互市场动态的读者。

原文

09:44

arXiv cs.AI@Davide Domini, Gianluca Aguzzi, Lorenzo Pellegrini, Mirko Viroli, Lukas Esterle

研究者提出C2FL，一种完全分布式的联邦学习方法。节点通过空间聚类自组织成学习组，反映环境地理结构。为应对时间漂移，每个节点结合经验回放与驻留时间感知的自适应平均步骤，逐步融入区域共识。合成实验表明，标准联邦学习策略在空间和时间漂移下准确率下降超过30%，而C2FL恢复至接近集中式训练的性能。

论文 C2FL 联邦学习空间聚类时间漂移持续学习

推荐理由：这篇论文用空间聚类和驻留时间自适应平均，解决了移动场景下联邦学习数据漂移的老大难问题，效果比标准FL好很多。

原文

09:44

arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino

光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动（ReAct）循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比，token消耗节省了三倍。

论文 T-API ReAct 光网络智能体

推荐理由：这篇论文首次把ReAct循环和T-API结合到光网络管理里，领域专用工具准确率更高还省token，值得一看。

原文

09:44

arXiv cs.AI@Bin Wang, Heming Yang, Jinfang Sheng

McWC模型分别建模周期、趋势和跨通道相关性。其多层循环性构建模块解耦循环信息，多层感知机提取通道间相关性，多级小波分解融合高低频信息。在六个真实世界数据集上达到最优性能，计算效率优于此前方法。

论文 McWC 时间序列预测周期分解小波分解通道相关性

推荐理由：这篇论文用McWC模型同时处理周期、趋势和通道相关性，在六个数据集上最准，算得还快，值得看。

原文

09:43

arXiv cs.AI@Yonghao Chen, Sicheng Yang, Rui Tang, Lei Zhu

本文提出一种语义优先的潜在建模框架用于3D MRI重建与跨对比度合成。现有压缩架构存在三个问题：长程解剖连贯性保存不足、临床语义丢失、优化目标导致重建过于平滑。该方法引入Latent Harmonization Encoder (LHE)捕获全局解剖依赖，设计Semantic Recovery Block (SRB)从自监督语义教师注入高级先验，并采用Anatomy-aware Frequency Loss (AFL)保留诊断相关高频结构。在两个公开多对比度MRI数据集上的实验表明，该方法在重建保真度和跨对比度合成质量上均有一致改进。

论文 3D MRI 跨对比度合成潜在建模 LHE SRB

推荐理由：这篇论文针对3D MRI跨对比度合成中潜在空间语义丢失的问题，用LHE、SRB和AFL三个模块提升了重建质量，效果不错。

原文

09:42

arXiv cs.AI@Jinjie Shen, Wei Deng, Xian Hu, Daiguo Zhou, Jian Luan

STAR方法针对文本到图像生成的RL后训练中的奖励粒度不匹配问题，提出时空自适应奖励分配。它利用生成模型内的文本-图像注意力，在去噪步骤和生成过程中动态构建空间分配图，将组相对优势分配给更相关的潜在区域。以Stable Diffusion 3.5 Medium为基础模型，在GenEval、OCR文本渲染和PickScore三项任务上分别达到0.9759、0.9757和23.60的分数。

论文 STAR 文本到图像生成强化学习 Stable Diffusion 奖励分配

推荐理由：这篇论文提出STAR方法，通过空间和时间自适应分配奖励，让RL后训练更精准地优化文本到图像生成，效果在GenEval等基准上显著提升。

原文

09:42

arXiv cs.AI@Ruixin Song, Md Mahbub Alam, Zahra Sadeghi, Amilcar Soares, José F. Rodrigues-Jr, Gabriel Spadon

MoCo-AIS提出一种基于 Momentum Contrast 的对比学习框架，用于学习船舶轨迹的嵌入表示。该框架在大型真实AIS数据集（包含多种航行行为与工况）上评估了多种主流深度学习模型。结果表明，MoCo-AIS在轨迹相似性学习任务上显著优于现有基线方法。同时，该框架为轨迹表示模型的评估提供了统一基准平台。

论文 MoCo-AIS 轨迹相似性对比学习 AIS 船舶轨迹

推荐理由：这篇论文给做轨迹相似性的人提供了一个现成的对比学习框架，用MoCo范式在真实AIS数据上测了多个模型，效果比基线好。

原文

09:41

arXiv cs.AI@Sicheng Yang, Hongqiu Wang, Zhaohu Xing, Sixiang Chen, Qiuxia Yang, Yize Mao, Guang Yang, Lei Zhu

SegDINO提出一种高效分割框架，基于DINOv3骨干网络，通过Token Pyramid Adaptation（TPA）将中间DINO特征重组为伪多尺度层次，并引入Scale-Aware Decoding（SAD）进行高效尺度内优化和自顶向下多尺度传播。作者还构建了PanCT数据集，包含284例患者专家标注的胰腺肿瘤CT图像，用于评估对小病灶的处理能力。在PanCT和三个公开基准上，SegDINO以更高效率达到SOTA结果。代码已开源。

AI模型 SegDINO DINOv3 医学图像分割多尺度特征

推荐理由：医学图像分割不用再堆复杂解码器了，直接看SegDINO怎么用DINO特征加轻量多尺度建模做到又快又准。

原文

09:41

arXiv cs.AI@Marco Aruta, Vadim Malvone, Aniello Murano, Domenico Parente, Luca Rizzuti

研究人员提出一个神经符号框架，将大语言模型(LLM)集成到多智能体系统(MAS)模型检查流程中。LLM作为策略生成预言机，产生的候选策略由标准MAS模型检查器进行形式验证。该生成-认证架构利用LLM引导搜索大型组合策略空间，同时保持形式正确性。框架在NatATL逻辑中实例化，创建了首个包含4211个实例的NatATL策略合成数据集。使用开源Qwen3-32B模型时，认证管道的策略合成准确率达92%。

论文 LLM 多智能体系统策略合成神经符号方法 Qwen3-32B

推荐理由：用LLM帮MAS做策略合成，再加形式验证保证正确性，Qwen3-32B跑出92%准确率，挺实在的方法。

原文

09:41

arXiv cs.AI@Andrea Santomauro, Luigi Portinale, Giorgio Leonardi

本研究从理论和实验两方面分析了相似性位置编码（simPE）在旋转扰动下的鲁棒性。论文首先证明simPE通常不具备旋转不变性，但基于Lipschitz假设推导出其在Frobenius范数下的显式扰动界。实验在四个数据集（Arrow、Shapes、Digits、FashionMNIST）上进行，测试图像逐渐增大旋转角度，simPE在准确率、F1、精确率和召回率上均优于标准学习型位置编码，尤其在小到中等旋转角度下表现更优。

论文 simPE 位置编码鲁棒性旋转不变性 Transformer

推荐理由：这篇论文证明了simPE在图像旋转下比标准位置编码更稳，用四个数据集给出了理论界和实验验证，做视觉Transformer的值得看。

原文

09:41

arXiv cs.AI@Mikołaj Zasada, Łukasz Struski, Jacek Tabor, Marcin Kurdziel

SoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由，实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算，使容量分配可学习。在语言建模和下游任务上，SoftMoE性能与稀疏MoE相当或更优，但激活专家数量更少。实验显示分配呈高度非均匀性，后层激活更多专家。

AI模型 SoftMoE MoE LLM 专家混合可微路由

推荐理由：稀疏MoE的top-k路由不灵活还浪费算力，SoftMoE用可微路由让模型自己学会少用专家，性能却不输，代码开源了。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。