12:29arXiv cs.AI@Heejeong Nam, Chandradithya S Jonnalagadda, Harshit Aggarwal, Eric Xu, Randall BalestrieroObserved Transition Factorization (OTF) 将每个过渡分解为稀疏的观察过渡原语,用于解耦智能体动作与干扰物、相机动态等。基于此,OTF-LAM 在标准逆向正向动力学框架中将运动原语抽象为动作潜变量,而 OTF-LAM-Dino 则在冻结的 DINOv2 表示空间中预测未来状态,无需解码器。实验表明,OTF 原语在控制载体和形态变化下零样本迁移,下游策略学习性能在复杂过渡歧义下匹配或优于基线。论文OTF-LAMOTFDINOv2智能体歧义运动原语推荐理由:这篇论文提出了新方法 OTF,能在有干扰的场景下解耦动作源。OFT-LAM 和 OFT-LAM-Dino 两种变体在零样本迁移和复杂环境下表现不错,适合做多物体交互推理的研究者看看。原文
12:28arXiv cs.AI@Sathvik Manikantan Napa Ugandhar, Hao Zhang, Alison Gunzler, Yuzhe Wang, Thomas Thebaud, Georgi Tinchev, Venkatesh Ravichandran, Laureano Moro-Velázquez论文提出DyadEE数据集,包含真实情感协调对话和通过交换伴侣、情感重合成制造的干扰对话。同时提出TRACE框架,将双人交互建模为基于情感微调Whisper声学嵌入的有序序列,将每个样本视为交互痕迹而非池化话语。在DyadEE上实验表明,融入对话上下文和关系信息可提升检测效果,TRACE达到97.01%的准确率。论文TRACEDyadEEWhisper情感识别语音交互推荐理由:想研究语音AI如何感知对话中的情感协调?这篇论文提出了新数据集DyadEE和框架TRACE,准确率高达97%,值得做语音交互的朋友看看。原文
12:23arXiv cs.AI@Cheng Gong, Haoyang Wang, Chao Lu, Zirui Li, Jianwei Gong这篇论文提出 Rollout-Retrieval Lifelong Policy Learning(R^2LPL)框架,让预训练的自动驾驶策略能从自身闭环错误中持续学习。R^2LPL 通过回滚可恢复的错误状态并检索可行修正目标,将稀疏的失败证据转化为紧凑的监督信号。在大型闭环 nuPlan 基准上,经过少量轮次的 rollout 和终身学习迭代,R^2LPL 将中等初始性能的学习型规划器提升至 SOTA 水平,尤其在具有挑战性的 Test14-hard 分集上表现突出。该方法证明了将可恢复闭环错误转化为修正知识用于持续策略改进的有效性。论文R^2LPLnuPlan自动驾驶终身学习策略学习推荐理由:这篇论文教你用 R^2LPL 让自动驾驶策略从自己的错误里学,在 nuPlan 上跑分直接刷到 SOTA。原文
12:22arXiv cs.AI@Rahul Suresh Babu, Shashank Indukuri工具增强语言模型智能体在选取正确工具后仍可能对错误的外部实体执行操作。例如,请求“给Alex发邮件关于发布事宜”可能导致联系错误的Alex或附加错误文档。该研究区分了工具正确性与实体正确性,提出了企业工作流中错误实体失败的分类法。在60个任务、5个模型后端和6种工具方法的评估中,所有方法实现0.0%工具错误,但动作基线仍有24.0-26.0%的运行出现错误实体动作。实体感知方法消除了错误实体动作,但会因模糊延迟降低直接任务完成率。论文智能体工具增强实体绑定AI安全可靠性推荐理由:这篇论文揭露了一个容易被忽视的坑:智能体工具用对了,但可能找错对象。测试中有24-26%的出错率,很值得关注。原文
12:12arXiv cs.LG@Srinivasa Rao P., Vangmayi P Reddy该论文提出统一框架,连接信息论、拓扑和统计力学,解释深度学习的泛化极限。核心是熵可学习性界限(ELH),规定网络仅当数据流形香农熵超过决策边界拓扑熵且平衡网络权重的冯·诺依曼熵时才能学习。作者证明香农-拓扑瓶颈定理,表明超过此界限时系统进入信息挫折的玻璃态记忆阶段,泛化变得热力学不可能。他们发现grokking现象实质是熵释放,权重突然重组解锁瓶颈。论文还提出熵梯度下降(EGD)算法,动态管理权重熵以保持学习轨道。论文深度学习理论信息论泛化grokking可学习性推荐理由:这篇论文用熵来解释深度学习泛化的硬极限和grokking,还给了EGD优化算法,理论研究者可以看看。原文
12:10arXiv cs.LG@Mark Rhee, Jamie Simon, Dhruva Karkada该论文研究Muon优化器在矩阵分解问题中的参数动力学,发现其与梯度下降有三点关键差异:1)Muon避免从小初始化开始的慢鞍点动力学,以相同速率学习所有顶模,较小模先收敛;2)即使学习率超过局部损失尖锐度的临界阈值,Muon仍保持稳定,允许通过指数学习率退火实现快速收敛;3)Muon流守恒矩阵√(P^T P)-√(Q^T Q),而梯度流守恒P^T P - Q^T Q。从零初始化时,两者都能找到平衡解。论文还推导了简单设定下的对齐速率,并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。论文Muon矩阵分解优化器动力学平衡解推荐理由:如果你关注优化器理论,这篇论文揭示了Muon比梯度下降更快的机制,并且给出了一个只需两步就对齐参数的学习率调度,很实用。原文
11:53arXiv cs.LG@Nick Oh, Helen Jin本文指出,后验解释方法常用于解释科学机器学习模型,但仅凭模型可靠(预测匹配结果)和解释忠实(解释匹配模型)不足以证明模型揭示了现象的真实结构。文章强调,两者均未验证模型的工作机制是否与现象本身一致。作者认为,要支持关于现象结构的声明,还需依赖外部佐证,而非仅靠解释链。论文后验解释可解释性科学模型XAI推荐理由:这篇论文点出一个关键漏洞:模型准、解释对,不等于模型真懂现象。做AI科学发现的人必看。原文
11:52arXiv cs.LG@Isao Kurosawa研究人员针对碳捕获与封存(CCS)、地热等场景中事件检测的鲁棒性展开研究,将传感器故障容错与低信噪比鲁棒性区分开。他们基于Hi-net地震波形、Utah FORGE 2024钻孔DAS和MAFAULDA工业振动三个真实数据集构建了统一二进制事件检测基准,使用8通道256样本表示。在干净数据上所有模型AUC约0.99。在渐进式传感器丢失下,简单模型已具备鲁棒性,CEPHALON无优势。但在加性噪声-2.5 dB时,CEPHALON的AUC为0.939,而卷积基线在0.532-0.572之间。消融实验表明训练策略(每样本传感器丢弃)是低SNR鲁棒性的主导因素,而非平行冗余架构。论文CEPHALONHi-netUtah FORGEMAFAULDA事件检测鲁棒性推荐理由:这篇论文用三个真实数据把故障容错和抗噪鲁棒性分清楚了,发现训练方式比架构更关键,做事件检测的可以看看。原文
11:51arXiv cs.LG@Chuxiao Zuo, Yao Zhu, Minqiang Xu, Manhong Wang, Yunke Zhang, Fei Huang提出自适应模态路由(AMR)模块,用于多模态多语言说话人识别。AMR使用W2V-BERT 2.0音频编码器和IResNet-18人脸编码器,通过可训练路由器动态分配模态权重。在POLY-SIM 2026评估集上,系统在4个协议上的平均准确率达99.07%,比FOP基线提升32.73%。具体成绩:英语多模态99.93%,乌尔都语多模态100.00%,英语仅音频97.50%,乌尔都语仅音频98.83%。论文W2V-BERT 2.0IResNet-18AMR多模态说话人识别推荐理由:这篇用AMR动态融合音视频特征,缺失模态也能准确识别说话人。在POLY-SIM上平均99%准确率,比基线高32%,很实用。原文
11:47arXiv cs.LG@Şuayp Talha Kocabay, Talha Rüzgar Akkuş, Kerem Yalçın精选论文证明组合函数树的Rademacher复杂度不随符号结构数量指数增长,而是受深度d和基算子Lipschitz常数控制。具体界为ℜ_n(ℋ_comp^d) ≤ (Kb√2L)^{d-1}ℜ_n(ℋ_comp^1),其中K为算子库大小、b为元数。当K,b=O(1)时,高概率风险界为O(L^d/√n)。实验在合成物理类目标上验证了理论预测。论文PAC学习符号回归Rademacher复杂度组合函数树推荐理由:论文把PAC学习理论用到符号回归上,证明了组合函数树的样本复杂度不会随深度爆炸,还给了可跑的代码。原文
11:45arXiv cs.AI@Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, Ling Zhang该综述聚焦于“永远在线”的LLM智能体,将其视为持久状态系统,涵盖可检索记忆、任务账本、权限、凭证等。论文提出了六个诊断轴(权威性、范围、可变性、来源、可恢复性、可操作性)和生命周期(写入、验证、组织、检索、行动、更新、遗忘、审计、回滚)。基于435篇论文的编码语料库,发现当前研究集中在状态积累与检索,而忽视治理、恢复与放弃。为此,作者引入了Always-On Evaluation Protocol(AOEP-v0),一种通过评分状态突变和恢复义务来测试治理需求的评估合同。该议程将永远在线智能体与数据库、分布式系统、形式化方法、能力安全和机器遗忘等领域联系起来。论文Always-On AgentsLLM智能体持久状态治理综述推荐理由:一篇很扎实的综述,把LLM智能体“一直在线”带来的状态管理问题系统化了。有435篇论文支撑,还提出了自己的评估协议AOEP-v0,适合想深入理解智能体持久化设计的读者。原文
11:44arXiv cs.AI@Xingran Ruan, Angelo Salatino, Rosa Filgueira, Kara Moraw, Alexandru Marcoci, Gemma Derrick, Sarah Callaghan这篇论文比较了GPT-4o、Mistral和DSIT-Taxonomies算法从42份UKRI基金提案摘要中提取研究实体的效果。Mistral实现了90.5%的主题分类准确率,远超DSIT-Taxonomies的71.4%。Mistral与GPT-4o的实体集质量相当且语义重叠度高,但Mistral在操作效率和安全性上更优。研究依托OpenAlex Topics分类体系,为大规模敏感数据分析提供参考。论文MistralGPT-4o实体提取主题检测OpenAlex Topics推荐理由:这篇论文实打实比较了GPT-4o、Mistral和DSIT-Taxonomies在提取基金提案实体上的能力,Mistral准确率90.5%碾压对手,做科研数据挖掘的可以看看。原文
11:43arXiv cs.AI@Wenjia Jiang, Zongyuan Cai, Yuanhang Shao, Chenru Wang, Boyan Han, Zhixue Song, Keyu Chen, Shengwei An, Xu Yang, Zhou YangManimAgent是一个基于大语言模型的自进化多模态智能体,能从学术论文段落生成Manim库的Python代码以渲染数学动画。它通过双通道情节记忆库(M+和M-)跨任务保存反思经验,无需权重更新或人工种子。在固定探针评估中,相比无记忆、匹配预算的检索增强生成和混洗记忆基线,盲人Pass@1随记忆增长而上升,反思轮次下降。论文ManimAgentManim多模态智能体代码生成视觉教育推荐理由:这篇论文提出了ManimAgent,它能通过经验记忆自我进化,生成数学动画代码时效果比基线方法好很多。原文
11:42arXiv cs.AI@Rahul Khedar, Mayank Malhotra, Avinash Karn, Mouli V, Prakhar MehrotraRhetor是一个多智能体系统,输入运行中的web应用和源码,输出带旁白和实时语音问答的排练直播演示。其跨模态特征表示融合UI探索与源码分析,并采用多策略语义定位器。在四个应用中测试,包括公共白板应用Excalidraw,定位器触发率(sigma-bar)在147个动作中为0.31-1.00。在53个动作的大负载任务上触发率约0.92,Excalidraw在迭代2收敛至1.00。论文还定义了十项指标的基准协议用于评估设计选择。论文Rhetor多智能体实时语音问答直播演示Excalidraw推荐理由:Rhetor能自动生成带实时问答的直播演示,比纯浏览器代理或固定视频强,在Excalidraw上达到100%定位准确率。原文
11:41arXiv cs.AI@Zhifei Hu, Alexandra I. CristeaPromptGNN-sim提出双向结构-语义融合框架,利用GAT进行语义感知邻域选择,生成结构感知提示(含目标节点摘要、标签类别、相似邻居关键词)引导LLM。通过跨模态对比学习和交叉注意力联合优化GNN与LLM。在Cora、Pubmed、WikiCS等6个公开数据集上,PromptGNN-sim在准确率、泛化性和鲁棒性上超越经典GNN、LLM及近期融合方法。论文PromptGNN-simGNNLLM图学习文本属性图推荐理由:这篇论文给出了一个让GNN和LLM真正协作的新思路——用图结构信息去构造提示词,再反过来优化图模型。实验扎实,覆盖6个数据集,比现有融合方法都强。原文
11:39arXiv cs.AI@Bang An, Yibo Yang, Dandan Guo, Ebtisam Alshehri, Carlos Hinojosa, Bernard Ghanem论文提出Embedded Attack,将有害的问答对嵌入良性训练样本中,测试表明代表性防护机制在样本级别难以检测。为应对这一威胁,作者提出双参考SFT(DR-SFT),通过词元级正则化将DPO风格的对比目标适配到SFT,在粗粒度数据过滤之外缓解有害微调。实验证明该攻击能绕过现有防御,而DR-SFT可有效降低有害行为。论文Embedded AttackDR-SFTAI安全微调对抗防御推荐理由:这篇论文揭示了有害微调的新方式,提出Embedded Attack和DR-SFT,对AI安全研究者很有启发。原文
11:35arXiv cs.AI@Maxime Riché, Daniel Tan, Vili Kohonen, Niels Warncke该论文提出接种适配器(Inoculation Adapters, IA),基于LoRA在训练时强化不良特征以减轻优化压力。方法分三步:在不良特征上训练IA,冻结IA同时训练任务适配器,部署时丢弃IA仅保留任务适配器。在6个模型家族和包括突发性错位(emergent misalignment)在内的多种不良特征上,IA比接种提示(inoculation prompting)更有效抑制不良特征。同时避免接种提示的两个缺点:无法可靠通过提示诱发的特征抑制、引入较少意外后门。但IA在保留期望特征方面未一致优于接种提示,仍是挑战。论文Inoculation AdaptersLoRA选择性泛化AI安全后门推荐理由:这篇论文提出了一种叫接种适配器的新方法,用LoRA在训练时强化不想有的特征,比之前的接种提示更好用,后门更少,适合关心AI安全的人看。原文
11:24arXiv cs.LG@Yousuf Moiz Ali, Jaroslaw E. Prilepsky, João Pedro, Sasipim Srivallapanondh, Antonio Napoli, Sergei K. Turitsyn, Pedro Freire该论文提出一种混合主动在线学习框架,针对光网络故障检测中的概念漂移问题。采用基于边界的选择性标注策略,仅需查询3.4%的流式样本即可达到接近上限的准确率和AUC分数。相比于静态推理,该方法延迟开销可忽略不计。实验验证了该框架在标签高效场景下的有效性。论文概念漂移主动学习在线学习光网络故障检测推荐理由:这篇论文只用3.4%的标注数据就搞定了光网络故障检测中的概念漂移,效率高延迟低,做在线学习和故障检测的朋友可以看看。原文
11:22arXiv cs.LG@Haitao Wu, Qirui Zhang, Zhouheng Yao, Shangquan Sun, Qihao Zheng, Mianxin Liu, Chi Zhang, Wanli Ouyang, Chunfeng Song, Changqing Zhang, Jiamin WuBrainJanus是首个将脑、视觉和语言整合到单一框架的统一脑模型。它引入Unified Brain Tokenizer将连续神经活动量化为离散Token,并与视觉和语言表征对齐到共享的Omni空间。基于All-in-One自回归架构,该模型通过下一个Token预测实现图像到脑、文本到脑的编码以及脑到图像、脑到文本的解码。在多项基准测试中,BrainJanus取得优越性能,并展现出零样本泛化能力和可解释的生物拓扑结构。代码已在GitHub开源。论文BrainJanus脑机接口多模态零样本学习脑解码推荐理由:这篇论文提出了BrainJanus,一个能双向翻译脑信号与图像、文本的统一模型,在零样本和生物可解释性上突破传统方法。原文
11:20arXiv cs.LG@Jan Stenner, Alexander Kilian, Sebastian Peitz, Hermann de Meer该论文研究了强化学习作为在线控制器,用于风电场内数据中心的高性能计算(HPC)工作负载转移。使用固定日仿真框架结合合成风能和电价信号以及延迟完成反馈进行测试。在单个风轮机和单个数据中心的基准场景中,纯强化学习存在信用分配问题,早期白天未能充分利用免费风能。评估了两种互补措施:基于优化的模仿学习和基于势能的奖励塑造。在200天测试集上,PPO和SAC变体表现出色,但性能仍低于具有全局视野的优化器。论文强化学习数据中心风电场PPOSAC推荐理由:这篇论文用强化学习让风电场数据中心更省电,在单机场景下比较了PPO和SAC的效果,还试了模仿学习和奖励塑造。原文
11:19arXiv cs.LG@Alia Tarek, Hamsa Saberr, Hamza Elghonemy, Youssef Afify, Tamer Basha, Omair Shahzad Bhatti, Abdulrahman M. Selim, Hasan Md Tusfiqur Alam Daniel SonntagTRACE是一个概念瓶颈模型,用于对纵向3D MRI进行4分类胶质母细胞瘤反应评估,严格对齐RANO 2.0标准。该模型在LUMIERE数据集上通过5折患者交叉验证,实现了4类macro F1为0.4769,二分类(进展vs非进展)macro F1为0.7085。TRACE先预测肿瘤测量作为根概念,再通过确定性规则计算下游RANO衍生概念,并引入扫描间隔和新病灶信息。消融实验表明专家RANO图和干预一致性训练对性能至关重要,干预实验显示修正概念可提升下游预测。论文TRACELUMIERERANO医学影像概念瓶颈推荐理由:想理解脑肿瘤MRI评估的黑箱?TRACE用概念瓶颈让模型决策透明可验证,在LUMIERE上表现接近非可解释方法,值得看。原文
11:15arXiv cs.LG@Bertram Taetz, Hugo Albuquerque Cosme da Silva, Gabriele Bleser-Taetz本研究提出基于冻结大语言模型和LoRA变体的持续学习方法,使运动-语言智能体能在不遗忘旧知识的情况下增量学习新动作概念。采用混合专家架构和基于自编码器的路由器在推理时选择任务特定专家,无需任务标签。在从HumanML3D导出的5任务基准上,该方法在运动到文本(M2T)和文本到运动(T2M)两个方向上实现了近乎零遗忘,且保持高质量生成与描述。实验表明硬专家选择在质量指标上显著优于软专家混合,专家隔离对持续学习性能至关重要。论文运动-语言智能体持续学习LoRA混合专家HumanML3D推荐理由:这篇论文提出用LoRA和混合专家架构让智能体不断学新动作而不忘旧的,5任务基准上几乎零遗忘,值得做持续学习或运动生成的看看。原文
11:14arXiv cs.LG@Aaryam Sharma推测解码利用快速起草器生成候选 token,再由大模型验证以加速推理。现有理论主要针对随机采样,而实用系统多用贪婪解码和松弛接受规则。本文提出一类具有拒绝区域的接受准则,并给出其精确 KL 散度下界,覆盖严格贪婪、加性和乘性松弛、top-(m) 以及熵阈值等情形。对于树形解码,推导出目标贪婪 token 仍被起草器 top-(m) 覆盖的充分条件。在 Qwen3 模型上的实验表明,松弛和树形准则显著扩大了可保证接受的区域。论文Qwen3speculative decoding推理模型解码方法推荐理由:这篇论文搞明白了推测解码里那些花式接受规则到底行不行,给出了数学保证,还在Qwen3上验证了,搞推理加速的值得一看。原文
11:13arXiv cs.LG@Boshko Koloski, Xiangjian Jiang, Senja Pollak, Blaž Škrlj, Mateja Jamnik, Nikola Simidjievski论文针对TabPFN和TabICL等纳米级表格基础模型,提出KnowsTFM方法,通过知识图谱的结构注意力先验和参数高效低秩更新进行微调。在数据稀缺、高维且分布偏移的专业领域,KnowsTFM相比原始变体取得显著提升,但在通用任务上增益微小。研究还发现,对前沿模型持续微调可能导致预训练知识及机制崩溃。论文KnowsTFMTabPFNTabICL微调知识图谱推荐理由:这篇论文教你用小知识图谱提升小表格模型在专业领域的效果,比普通微调更靠谱,还揭示了持续微调的风险。原文
11:11arXiv cs.LG@Feifan Wang提出曲率引导的Sheaf扩散(CGSD),利用离散Forman-Ricci曲率作为拓扑信号进行无监督社区检测。在Cora、Cornell、Texas、Wisconsin、Chameleon五个异质图基准上,CGSD在Wisconsin和Chameleon上优于九个无监督基线,其余三个具竞争力。其曲率感知谱聚类器(CSpec)在相同嵌入下将平均NMI从0.091(K-Means)提升至0.107(+15%,p=0.008)。代码已在GitHub开源。论文CGSD社区检测异质图无监督学习Forman-Ricci曲率推荐理由:这篇用边的曲率做无监督社区检测,在异质图上赢了九个基线,聚类器部分提升显著,代码也开源了。原文
11:10arXiv cs.LG@Shihao Zhang, Yuguang Yan, Junzhe Zhang, Wei Zhao, Bohan Wang, Hanwang Zhang文本到视频扩散模型通常依赖额外奖励信号(如奖励模型或DPO)对齐人类偏好,但计算成本高且需人工标注。本文提出数据流形本身可作为奖励模型,通过显式建模高质量SFT数据的流形结构获得密集、可微、近乎零成本的奖励信号。基于局部坐标编码(LCC)捕获流形骨架,但LCC存在均值回归问题导致丢失高频细节。为此提出Shell-LCC,建模流形表面为各向同性壳层以对齐真实高密度区域。实验表明Shell-LCC能提升真实感、增强高频细节、减少过平滑伪影并缓解运动模糊。论文Shell-LCCLCCT2V视频生成奖励模型推荐理由:这篇论文发现数据流形本身就是好奖励,提出Shell-LCC,不花啥钱就能让AI生成的视频更清晰、少模糊,比加奖励模型省事多了。原文
11:08arXiv cs.LG@Floor van Maarschalkerwaart, Subhadip Mukherjee, Christoph Brune, Marcello Carioni该论文提出一种结构化分布鲁棒优化(DRO)框架,在逆问题学习重建中对抗训练与测试噪声分布不匹配的问题。与标准 Wasserstein DRO 对全部联合分布均匀扰动不同,该方法将不确定性集限制在符合测量过程的扰动子集上(如条件分布 P(Y|X)),更真实地建模前向算子与噪声模型。理论推导了强对偶性与显式最坏情况风险界,表明该框架等效于在重建算子 Lipschitz 常数上施加 Tikhonov 正则化。在去模糊和 sinogram-to-CT 重建实验上,该方法相比标准 DRO 和 MSE 基线,在鲁棒性、稳定性和可解释性上均有提升,且在线性设置下学习到的算子呈现低秩结构,可视为截断 SVD 的数据驱动变体。论文分布鲁棒优化逆问题学习重建鲁棒性Tikhonov正则化推荐理由:这篇论文解决了逆问题模型在噪声变化时性能暴跌的痛点,用结构化的 DRO 替代傻均匀扰动,实验还发现它自动学出低秩算子。搞图像重建或鲁棒学习的可以细看。原文
11:05arXiv cs.LG@Marcelina Marjankowska, Valerio Modugno, Paolo Barucca该论文研究训练过程中Hessian矩阵领先特征向量的动态演化。作者在多层感知机分类任务上,通过位移和逆参与率两个统计量跟踪特征向量变化。结果显示SGD训练下曲率方向逐渐趋于稳定,而Adam则持续重组特征向量。Adam还表现出局部化现象,少量参数主导领先曲率方向。这些发现揭示了优化器差异对训练轨迹的影响。论文SGDAdamHessian优化器训练动态推荐理由:这篇论文分析了SGD和Adam训练中Hessian特征向量的不同行为,发现Adam会让少量参数主导曲率方向,直观解释了为什么两种优化器训练结果不同。原文
11:01arXiv cs.LG@Naeem Paeedeh, Mahardhika Pratama, Wolfgang Mayer, Mukesh Prasad, Weiping Ding, Yew-Soon Ong本文定义了少样本领域增量学习(FSDIL)问题,针对传统方法在数据极少时过拟合的痛点。提出持续视觉-语言整合(CVLC)算法,关键思想是在基领域预留隐空间和双融合投影(DCP)参数高效微调。通过LLM生成多模板和同义词校准视觉与语言原型并融合,再用DCP适应新领域。在多个基准上,CVLC相比此前方法提升最高达16%。代码已开源。论文FSDILCVLCDomain Incremental Learning少样本学习持续学习推荐理由:这篇论文提出了一个叫FSDIL的新问题和一个叫CVLC的算法,用双融合投影微调视觉语言模型,在少样本领域增量学习上比之前的方法好16%。原文
10:58arXiv cs.LG@Dario Fenoglio, Daniil Kirilenko, Martin Gjoreski, Marc Langheinrich该论文提出了一种基于条件随机场(CRF)的联邦学习聚合权重优化框架。它通过定义客户端的一元势函数和客户端对的成对势函数,建模单个客户端的可靠性以及客户端间的交互。CRF推理生成的自适应聚合权重改进了全局训练目标的收敛性。在非IID数据异质性场景下,该方法在多个联邦学习基线方法上持续提升了性能。论文联邦学习条件随机场非IID数据聚合权重推荐理由:这篇论文用CRF替代固定加权规则,解决了客户端数据分布不均的问题,在非IID场景下比经典联邦学习方法更稳定。原文
10:57arXiv: Anthropic@Carson Rodrigues, Oysturn Vas该论文基于15个独立MCP服务器(5个来自ANSYR语音AI平台,10个来自官方注册表),识别出五种架构模式:Resource Gateway、Tool Orchestrator、Stateful Session Server、Proxy Aggregator和Domain-Specific Adapter。定量评估包括分类法跨两个LLM评分者的Cohen's kappa为0.76,并定位了三处模式边界模糊问题。端到端传输开销测量了环回和跨主机路径。工具计数研究显示Claude Haiku 4.5在10-15个工具时工具选择准确率低于90%,Sonnet 4在20-30个工具时准确率下降。论文MCPClaude Haiku 4.5Sonnet 4架构模式工具选择推荐理由:想给LLM挂外部工具?这篇论文把MCP服务器架构拆成五种模式,还有反模式和性能数据,Claude Haiku和Sonnet用户值得看看。原文
10:41arXiv: DeepSeek@Sebastian Kula, Martin Tamajka该论文提出一种多智能体虚假信息检测方法,模仿人类标注者的决策过程,采用共识机制、认知与知识多样性以及层次结构。系统使用开源模型LLaMA、Qwen、Deepseek等,确保透明度。在英语、波兰语、斯洛伐克语、保加利亚语数据集上评估,性能超过GPT-4和GPT-3.5。任务包括直接检测虚假信息、识别值得验证的文本、检测可验证事实主张。论文LLaMAQwenDeepseekGPT-4虚假信息检测推荐理由:这篇论文用多个开源模型合作检测假新闻,效果比GPT-4还好,还用了四种语言测试,值得搞安全或内容审核的人看看。原文
10:38arXiv: Google DeepMind@Qijun Li, Zheng Fu, Qi Song, Yifei He, Weitao Zhou, Kun Jiang, Diange Yang精选Dual-Flow RL利用条件流匹配(CFM)同时建模回报分布和多模态策略分布,克服了传统单峰高斯价值估计的偏差问题。该方法引入熵-协方差探索调节器(ECER),实现基于状态的自适应探索。在DeepMind Control Suite的36个任务中,Dual-Flow RL在32个任务上取得最优,并在Humanoid-Bench上显著优于diffusion-based和flow-based方法。ECER通过策略熵与动作不确定性协方差动态调节探索强度,避免了模式坍塌。论文Dual-Flow RLDeepMind Control SuiteHumanoid-Bench强化学习多模态探索推荐理由:这篇论文用条件流匹配把回报分布和多模态策略一起建模,解决了强化学习中的多模态探索难题,在DeepMind控制任务上吊打了扩散方法。原文
10:37arXiv: DeepSeek@Xuan Zhao, Haonan He, Qingyu Yang, Minglei Li, Jingqi Ye, Zelin Tan, Bo Wan, Peng Ye提出ParametricSkills框架,将自由格式的文本技能在测试时转换为LoRA参数适配器。该框架利用大规模技能库和OpenCode合成的单/多轮轨迹训练超网络。在六个软件工程子任务上,比上下文学习平均提升6.44个点(由DeepSeek-V4-Flash评判),BERT Score和F1分数也更高。参数化技能具有累积性,为测试时持续学习提供了初步方向。论文ParametricSkillsOpenCodeDeepSeek-V4-FlashLoRA软件工程2 个信源在谈推荐理由:这篇论文把技能文本直接转成模型参数,编程任务上比上下文学习高出6分多,还能不断积累,挺实用的。原文
10:36arXiv: DeepSeek@Hui Zang, Pengfei Xia, Hong Liu, Jiajia Chu, Tuo Hao, Minghao Chen, Rui Zhang, Ziyang Zhang精选Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模,但数据移动瓶颈导致推理效率低下。两个关键问题:低贡献专家带来几乎均等的内存与传输成本(成本收益比低),以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销,选择性剪枝低重要性高成本专家,并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1(671B参数)上的评估显示,CAEE将端到端推理延迟降低8%-18%(专家卸载与设备内执行),模型准确率下降小于1%。论文CAEEMoEDeepSeek-R1推理优化多设备推荐理由:CAEE框架能降低MoE模型推理延迟8%-18%,且准确率几乎不受影响。DeepSeek-R1用户可重点关注。原文
10:26arXiv: DeepSeek@Liu Zewen论文提出EPC诊断框架,包含多模态偏好崩溃指数(MPCI)、评估器耦合矩阵和JS散度(JSD)。在8种实验条件下(N=122次重复)发现耦合系数均值范围0.00-1.18,其中GPT-4o May、GPT-4o-mini、Qwen3.7-plus和DashScope 30r四个条件显示强耦合(N=36),而GPT-4o June、qwen-plus N=30等四个条件崩溃到近零。特别地,GPT-4o从5月到6月的版本漂移(N=8重复实验)导致结论反转,自评估条件97%为零(JSD=0.003)。论文GPT-4oDeepSeekQwen3.7-plusEPC评估器漂移推荐理由:这篇论文告诉你,你以为可靠的GPT-4o评估器可能几周后就失效了,它还给了你一个EPC框架来自己检查。原文
10:25arXiv: DeepSeek@Caglar Uysal, Baturay Birinci, Süha Orhun Mutluergil, Orçun Çetin该论文对DeepSeek、GPT、Gemini、Grok、Llama和Qwen六种前沿LLM进行了提示注入漏洞实证评估。测试涵盖直接攻击与多阶段混淆攻击,涉及多种语言和字符编码。结果显示所有模型均存在系统性漏洞,非英语语种的恶意合规率显著高于英语。DeepSeek、Gemini和Grok在复杂指令下尤其易受攻击,简单字符编码仅部分降低风险。论文DeepSeekGPTGemini提示词注入AI安全推荐理由:这篇论文告诉你,DeepSeek、GPT这些模型在非英语场景下有多容易被黑客利用来生成钓鱼内容,安全对齐的漏洞比想象中大。原文
10:24arXiv: DeepSeek@Avisha Dilhara, Nevidu Jayatilleke研究者发布 sinhala-ocr-lk-acts-1010 数据集,包含1,010页来自斯里兰卡立法法案(1981-1989与2000-2019年)的页面级图像与转录文本,划分为707训练、101验证和202测试样本。使用QLoRA在8次实验中微调 DeepSeek-OCR V1、DeepSeek-OCR V2 和 LightOnOCR-2-1B 三个模型。LightOnOCR-2-1B 取得最佳性能,在全部测试样本上字符错误率(CER)为1.05%,优于 Surya-OCR(8.84%)、Tesseract v5(10.69%)和 Google Document AI(2.06%)。该模型在不同印刷年份的文档上表现一致,即使文档严重退化仍保持性能。论文sinhala-ocr-lk-acts-1010LightOnOCR-2-1BDeepSeek-OCR V1DeepSeek-OCR V2OCR推荐理由:新数据集让僧伽罗语OCR有了真实评测基准,LightOnOCR-2-1B 只用1.05%错误率碾压商业和开源方案,适合做古籍或法律文档自动识别。原文
10:23arXiv cs.AI@Buğra Alperen Uluırmak, Rifat Kurban该研究结合系统搜索、叙事综合与灰色证据,对2018-2026年评估-安全测量工作进行梳理,涵盖八个证据流(基准有效性、动态评估、LLM-as-judge可靠性等)。引入EvalSafetyGap作为组织假设,借助Goodhart法则及作者提出的不稳定分解与对齐三难困境生成可检验比较。对10个模型进行审计,发现能力与持续对抗鲁棒性之间统计不显著(Pearson r=+0.232, p=0.520),开放-封闭安全差距主要由治理与披露驱动,而非行为鲁棒性。贡献在于提供共享词汇表与证据地图,支持动态评估、透明来源报告、多尝试安全测量及可审计对齐实践。论文LLM评估AI安全EvalSafetyGap模型审计对齐推荐理由:这篇论文梳理了LLM评估与安全之间测量问题的八大证据流,还审计了10个模型,发现很多看似安全差距其实来自信息披露。搞模型安全的人值得看看怎么避免被表面指标骗到。原文
10:21arXiv cs.AI@Chao Tian, Zikun Zhou, Chao Yang, Guoqing Zhu, Zhenyu He本文提出一种稀疏跨模态融合机制用于RGB-T目标检测,避免传统方法中双重骨干网络和全局融合的高计算成本。该方法先通过轻量级单模态检测器快速扫描图像,生成高召回率的候选区域(RoI),再对稀疏的候选区域进行跨模态特征融合以精化检测结果。两阶段框架显著降低了参数和计算成本,同时在高分辨率图像上保持可扩展性。实验证明该方法在保持竞争力的前提下实现高效检测。论文RGB-T稀疏融合目标检测多模态推荐理由:这篇论文找到了一种聪明的方法:先快速扫一遍图像找出可能的目标区域,再只对这几个区域做多模态融合,省了很多计算。适合想做轻量级多模态目标检测的人读。原文