全部 AI 动态 · AI 热点

5月28日

11:57

arXiv cs.LG@Zhen-Hao Xie, Yu-Cheng Shi, Da-Wei Zhou

本文提出AREA方法，针对CLIP模型在类增量学习（CIL）中的灾难性遗忘问题。传统CLIP通过模板提示（如“一张[类别]的照片”）进行视觉与文本嵌入的相似度匹配，但该过程可分解为属性提取与属性聚合两个阶段。由于增量学习仅能访问当前任务数据，模型容易偏向新类别。AREA通过主测地线分析在超球面嵌入空间锚定属性，并引入轻量级任务专家与变分信息瓶颈正则化来稳定聚合。推理时利用最优传输进行任务属性流路由，实现更精确预测。实验表明，AREA在多个基准上超越现有最先进方法。

论文类增量学习 CLIP 属性提取灾难性遗忘最优传输

推荐理由：做持续学习或CLIP微调的团队，AREA把增量遗忘的根因拆解为属性提取与聚合两个环节，并给出了可落地的解耦方案，值得看看代码和实验细节。

原文

11:56

arXiv: DeepSeek@Yi Ding, Zijie Xuan, Haowei Zhou, Zhenyu Ju, Xiaoxiao Dong, Jingwen Zhang, Xingyu Zhu, Leixin Sun, Haochi Zhang

精选

TCP-MCP 提出了一种将智能体提示和通信拓扑作为统一基因进行协同进化的框架，解决了传统方法中两者孤立设计的问题。该框架通过初始化景观探测校准早期搜索行为，并利用帕累托前沿诊断在任务性能、token 成本和结构复杂度三个目标下自适应探索。在 DeepSeek-V3.2 骨干模型上，TCP-MCP 在 MMLU-Pro、MMLU 和 GSM8K 上分别达到 82.66%、89.96% 和 96.61% 的准确率，相比辩论式系统最多节省 5.69 倍 token。实验表明，联合进化提示和通信结构是实现成本感知和任务自适应多智能体系统设计的实用路径。

论文多智能体系统协同进化提示优化通信拓扑 DeepSeek-V3.2

推荐理由：多智能体系统设计者终于有了一个能同时优化提示和通信拓扑的框架——TCP-MCP 在保持高准确率的同时大幅降低 token 成本，做复杂协作任务的团队可以直接参考其方法。

原文

11:56

arXiv cs.LG@Audrey Chan, Aaron Labbé, Jacob Lavoie, Jordan Bannister, Arsène Fansi Tchango, Guillaume Lajoie, Laurent Charlin

论文推荐系统情感计算离线优化世界模型 DPO

推荐理由：做健康/情感类推荐系统的团队终于有了一个可落地的离线优化方案——用世界模型模拟用户情感反馈，避免在线实验的伦理风险，做医疗或老年人应用的开发者可以直接参考其方法论。

原文

11:56

arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho

精选72°

该研究提出了首个系统化框架，将混合专家模型（MoE）转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络，再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法，共350种配置。发现评分方法影响最大，其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下，MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点，训练速度快1.6倍。

论文模型压缩知识蒸馏混合专家模型稠密模型 Qwen3

推荐理由：这个框架解决了MoE模型在内存受限设备上部署的痛点，做模型压缩和边缘部署的团队可以直接参考其方法，比传统剪枝效果更好且训练更快。

原文

11:55

arXiv: DeepSeek@Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu

一项针对医疗问答链式推理（CoT）蒸馏的研究发现，蒸馏后的小模型在最终答案准确率上显著提升（MedQA-USMLE从74.7%到84.4%），但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型，蒸馏自DeepSeek-V3系列教师模型，并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于：当答案选项简短、无法约束完整推理时，学生模型能模仿专家风格的推理过程，但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒，在医疗等高风险领域，仅用答案准确率评估蒸馏模型是不够的，推理步骤的事实性必须单独审计。

论文链式推理模型蒸馏医疗QA 推理审计 DeepSeek

推荐理由：做医疗AI或模型蒸馏的团队注意了：答案准不等于推理对，蒸馏后步骤错误率反而飙升，临床场景下这是致命隐患。建议点开看看审计方法，避免踩坑。

原文

11:55

arXiv cs.LG@Yangyi Huang, Ruotian Peng, Zeju Qiu, Jiale Kang, Yandong Wen, Bernhard Schölkopf, Weiyang Liu

论文提出 PEFT-Arena 基准，从稳定性-可塑性困境（目标任务适应 vs 预训练能力保持）评估参数高效微调方法。研究发现，在同等参数预算下，正交微调在帕累托前沿上表现最佳。通过权重空间谱分析和激活空间表示保持分析，解释了不同方法遗忘预训练能力的原因。最终检查点往往偏离最优平衡点，论文展示了路径回退的后处理改进案例。

论文参数高效微调稳定性-可塑性正交微调预训练能力保持 PEFT-Arena

推荐理由：做 LLM 微调的团队终于有了评估预训练能力保持的基准——PEFT-Arena 帮你选方法时不再只看下游指标，建议做模型适配的开发者点开看看。

原文

11:54

arXiv: DeepSeek@Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna

这篇论文系统研究了混合专家（MoE）大模型推理中的多级解耦策略，从分块预填充聚合、预填充-解码解耦到最新的算子级 Attention-FFN 解耦（AFD）。AFD 将注意力计算和 MoE-FFN 执行分别部署在不同 GPU 组上，以应对 MoE 模型中内存受限的注意力、计算密集的专家 FFN 以及 MoE 路由通信带来的异构资源需求。通过结合设备级内核测量和高保真网络模拟的框架，论文在真实工作负载下评估了各级解耦的收益与局限。结果表明，在严格的 TTFT/TPOT 服务等级目标下，AFD 在 DeepSeek-V3.2 上可维持约 4000 tokens/s 的系统吞吐量，而传统非 AFD 部署无法满足要求。论文还给出了根据工作负载和模型架构划分注意力与 FFN 的实用建议，为当前机架/集群级部署及未来解耦 AI 基础设施提供了设计原则。

论文 MoE 推理优化解耦架构 Attention-FFN DeepSeek-V3.2

推荐理由：MoE 模型推理的瓶颈终于被系统性地拆解了——Attention-FFN 解耦让吞吐量提升到传统方案无法企及的水平，做大规模 MoE 推理部署的团队可以直接参考论文中的分区策略来优化集群。

原文

11:54

arXiv: DeepSeek@Ifeoluwa Kunle-John, Josiah Paul, Oluwatosin Agbaakin, Peter Aina, Ikenna Odezuligbo, Sydney Anuyah

因果抽取是生物医学文本挖掘的核心任务，但现有资源常混淆因果与关联、局限于句子级标注或仅关注显式因果线索。PubMedCausal 是一个基于 PubMed 摘要构建的跨度级标注语料库，包含 3 万段落级样本、3945 条因果行和 6491 个因果对，标注了完整因果跨度、类型及句子属性。基准测试显示，生物医学编码器 PubMedBERT 在因果检测上 F1 达 0.7391，而 DeepSeek-R1-32B 在跨度级抽取上 F1 为 0.6765。该语料库支持跨数据集评估，并揭示了类别不平衡、长因果跨度、隐式因果等挑战。

论文因果抽取生物医学语料库 PubMed 跨度级标注

推荐理由：做生物医学文本挖掘或因果推理的团队终于有了一个高质量、细粒度的标注资源，可以直接用来训练和评估模型，建议点开看看数据细节。

原文

11:36

arXiv: OpenAI@Aman Priyanshu, Supriti Vijay, Esha Pahwa

精选72°

该研究引入了一个模拟平台，让数千个LLM智能体在社区中互动一个月，评估隐私泄露风险。研究发现，从单轮转向多轮社交评估时，隐私泄露率从19.95%升至45.30%（OpenAI模型）。观察同伴泄露后，智能体泄露敏感信息的概率增加8倍。即使有明确的隐私指令，泄露率仍高于37.8%。这表明静态聊天基准测试低估了智能体部署中的隐私风险，社交环境本身就能引发单轮评估无法发现的敏感信息泄露。

论文隐私安全多智能体系统 LLM评估社交模拟安全基准

推荐理由：多智能体系统正在走向真实部署，但隐私风险被严重低估——做AI安全评估或部署智能体应用的团队，建议看看这个研究，它揭示了社交环境如何放大隐私泄露。

原文

11:36

arXiv: OpenAI@Ian Diks, Harihara Muralidharan, Tim Proctor, Kenny Workman

精选

研究人员推出 SpatialBench-Long 基准测试，专门评估 AI 智能体在空间生物学中的长程科学推理能力。该基准包含 24 个评估任务，涵盖胰腺癌、胶质母细胞瘤、肺癌等多种疾病模型，涉及 CosMx、Visium、Xenium 等多种空间转录组学技术。任务要求智能体从原始或近原始数据中恢复生物学结论，而非执行预设分析流程。当前最佳模型（Gemini 3.5 Flash、GPT-5.5 等）在 72 次运行中仅完成 8 次（11.1%），表明该任务极具挑战性。该基准通过确定性评分和专家审查确保结果可靠性。

论文空间生物学基准测试 AI智能体科学推理 SpatialBench-Long

推荐理由：空间生物学研究者终于有了衡量AI科学推理能力的硬核基准——SpatialBench-Long 要求智能体从复杂空间数据中推导真实结论，而非简单跑流程。做生物信息学或AI for Science的团队，值得看看当前模型的表现差距在哪里。

原文

11:35

arXiv: OpenAI@Matthew Fickus, John Jasper, Dustin G. Mixon

该论文证明了在复数域中，当维度d满足d²-d+1 < n < d²时，不存在d×n的等角紧框架。这一结果填补了等角紧框架理论中的一个重要间隙，称为Singer-Zauner间隙。证明方法源自OpenAI的内部模型，通过类比实数域中等角紧框架与强正则图的关系，将复数域问题转化为图论问题。该发现对信号处理、量子信息理论和编码理论有潜在影响。

论文等角紧框架 Singer-Zauner间隙图论信号处理量子信息

推荐理由：等角紧框架是信号处理和量子信息中的核心工具，这篇论文解决了长期悬而未决的间隙问题，做相关理论研究的数学家和工程师值得关注。

原文

11:35

arXiv: Anthropic@Thomas Mbrice

该研究首次将立场检测应用于预测市场（如Polymarket）的评论，这些评论包含价格无法捕捉的方向性信号。由于评论极端简短、存在特定行话且类别严重不平衡（仅8.7%的评论反对市场结果），研究通过微调RoBERTa-base模型，探索了四种输入配置和三种数据增强条件。结果表明，市场上下文是最关键的因素，能将反对类别的召回率从0.10提升至0.45；反事实增强在弱配置下有效（F1从0.10升至0.24），但在强配置下会降低性能；50%的增强比例是最优剂量。注意力可解释性分析为所有发现提供了机制支持。

论文立场检测预测市场反事实增强数据不平衡 Polymarket

推荐理由：做金融舆情或预测市场分析的团队会感兴趣——这篇论文用反事实增强解决了极端不平衡数据下的立场检测难题，50%合成数据是最佳实践，值得在类似场景中尝试。

原文

11:32

arXiv cs.AI@HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu

精选72°

研究团队发现，基于LLM的搜索智能体在BrowseComp基准测试中，高达44.5%的问题无需工具即可回答，超过一半的搜索查询来自内部假设而非检索线索，表现出对内在知识的依赖而非真正的证据驱动搜索。当移除支持答案的外部证据后，智能体表现甚至不如闭卷基线。为此，团队推出了LiveBrowseComp，一个包含335个依赖90天内发布事实的问题的深度搜索基准，所有智能体在该基准上的闭卷准确率低于2%，搜索增强得分比BrowseComp下降25-40点，且模型排名不再可靠。该基准旨在评估智能体超越内在知识覆盖的真实搜索能力。

论文搜索智能体基准测试内在知识依赖 LLM评估 LiveBrowseComp

推荐理由：这项研究戳穿了搜索智能体的真实能力——它们可能只是在验证已知信息而非真正搜索。做搜索Agent或评估AI检索能力的团队，值得看看LiveBrowseComp这个新基准，避免被静态测试误导。

原文

11:32

arXiv cs.AI@Manjiang Yu, Hongji Li, Junwei Chen, Xue Li, Priyanka Singh, Yang Cao, Lijie Hu

现有的大语言模型对齐方法通常对所有输入使用固定的干预方向与强度，导致在良性输入上通用能力下降。本文提出MARI（Multi-Adapter Representation Interventions via Energy Calibration），通过竞争性多适配器机制让不同专家捕获非线性校正模式，自适应决定干预方向与强度。同时设计基于能量的门控模块，利用内部传播动力学区分适合干预的输入。实验表明，MARI在TruthfulQA、BBQ和安全基准上达到最先进对齐性能，同时在MMLU和ARC等通用任务上保持甚至提升能力。代码已开源。

论文大语言模型表示干预对齐多适配器能量校准

推荐理由：做LLM对齐的团队终于有了一个不牺牲通用能力的干预方案——MARI用多适配器和能量门控解决了“一刀切”干预的痛点，做安全对齐或事实性增强的开发者可以直接试。

原文

11:32

arXiv cs.AI@Bibek Poudel, Sai Swaminathan, Weizi Li

AlphaTransit 是一个基于搜索的公交网络规划框架，结合了蒙特卡洛树搜索（MCTS）与神经网络策略-价值网络，用于解决公交线路设计中延迟反馈的挑战。它能在构建完整网络前预测每条线路扩展的长期效果，避免局部优化导致的换乘瓶颈或重叠问题。在Bloomington基准测试中，AlphaTransit在混合和全公交需求场景下分别达到54.6%和82.1%的服务率，比纯强化学习提升9.9%和11.4%，比无学习引导的MCTS提升2.5%和11.2%。代码和数据已开源。

论文公交网络设计 MCTS/搜索神经网络交通规划开源/仓库

推荐理由：城市交通规划团队终于有了一个能提前预见线路设计后果的AI工具——AlphaTransit用搜索+学习解决了公交网络设计的延迟反馈难题，做交通规划或智慧城市的研究者可以直接用开源代码跑自己的数据。

原文

11:31

arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang

精选72°

MemTrace 提出了一种新框架，将大语言模型的记忆管道转化为可执行的记忆演化图，实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准，涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统，系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因，发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化，形成闭环系统，自动修正错误并提升端任务性能最高达7.62%。代码已开源。

论文记忆系统错误归因 LLM 开源/仓库性能优化

推荐理由：做LLM记忆系统或长上下文推理的开发者，终于有了一个能自动定位记忆错误根因的工具，还能自动优化提示提升性能，值得试试这个开源方案。

原文

11:31

arXiv cs.AI@Xiaohang Feng, Yiling Xie

精选

现有AI生成商品图虽能匹配文本描述，但未直接优化电商转化率。本文提出Utility-Aware InfoNCE损失函数，将消费者需求纳入对比学习，引导模型生成既语义一致又能提升需求的图像。在Amazon和Airbnb数据集上，该方法在提升需求、保持图像保真度和文本一致性方面均优于现有模型。人类实验验证了其商业有效性，且该框架可灵活嵌入新兴生成模型。

论文多模态对比学习商品图生成电商转化需求优化 InfoNCE损失

推荐理由：电商团队和AI产品经理终于有了直接优化销量的图像生成方案——不用再猜哪张图更卖货，模型自己学会了。做商品图生成的开发者建议直接看论文里的损失函数设计。

原文

11:31

arXiv cs.AI@Tirtharaj Dash

精选

BIRDNet 是一种新型神经网络架构，通过挖掘特征间的布尔蕴含关系（BIR）构建知识图，并将其编码为网络连接。该方法使用稀疏异常二项检验挖掘关系，形成有向图，等价于命题规则库。BIRDNet 的每层隐藏单元对应一条规则，仅连接两个特征，因此架构天然稀疏，最多只有 2/d 的权重活跃。模型保持可解释性，每个训练单元保留稳定的符号身份，规则可直接从网络读取。在六个转录组和蛋白质组基准测试中，BIRDNet 在 AUROC 上仅比最强基线低 0.02，但活跃参数减少高达 96 倍，且第一层规则能恢复已知生物标志物。

论文可解释AI 布尔蕴含稀疏网络生物信息学知识图

推荐理由：BIRDNet 解决了深度神经网络可解释性与稀疏性的矛盾，做生物信息学或知识图谱的团队可以直接用它的开源代码，在保持高精度的同时获得可读的规则。

原文

11:30

arXiv cs.AI@Bushi Xiao, Sarvesh Soni, Daisy Zhe Wang

精选

大型语言模型在临床文本中部署时，可靠地表达自身不确定性至关重要。现有不确定性量化方法多针对开放域生成，无法在长临床文本中定位到token或片段级别。研究者提出Reverse Probing，首个专为临床摘要设计的不确定性量化框架，直接从已有标注摘要中估计token级不确定性，而非采样新输出。该方法将文本作为探针，从四种内部激活中提取不确定性信号，在两个专家标注的临床数据集上超越八种基线方法，AUPRC提升高达4倍，同时降低推理时间和计算成本。特征分析显示，delta能量和邻域上下文是所有模型中最一致的预测因子，为模型如何内部响应无支持的临床内容提供了可解释的洞见。

论文不确定性量化临床文本大型语言模型 Token级可解释性

推荐理由：临床AI部署中，模型能否准确表达不确定性直接关系到患者安全——Reverse Probing让token级不确定性量化首次在临床摘要场景落地，做医疗NLP或AI安全的研究者值得关注。

原文

11:30

arXiv cs.AI@Linas Nasvytis, Simon Jerome Han, Ben Prystawski, Satchel Grant, Noah D. Goodman, Judith E. Fan

精选72°

论文提出一种名为对比反思（CORE）的非参数学习算法，通过对比成功与失败的推理轨迹，生成简短的自然语言洞察（如策略和约束），从而快速提升模型推理能力。实验表明，CORE在四个推理任务上比参数方法（如GRPO）和非参数方法（如GEPA、情景RAG）收敛更快，仅需5个训练样本即可达到可比或更优的性能。该方法还显著节省上下文token，将学到的知识压缩为可解释的洞察，而非直接存储轨迹。研究指出，将推理成败对比蒸馏为抽象洞察，是比权重更新或提示优化更高效、更可解释的模型自我改进路径。

论文推理模型对比学习非参数方法模型自我改进 CORE

推荐理由：CORE用极少的样本和推理次数就能让模型快速变聪明，做推理优化或小样本学习的团队值得关注，尤其适合资源受限场景。

原文

11:29

arXiv cs.AI@Kunhao Zheng, Pierre Chambon, Juliette Decugis, Jonas Gehring, Taco Cohen, Benjamin Negrevergne, Gabriel Synnaeve

精选

该研究探讨了在代码强化学习（RL）中，通过外推权重平均（extrapolative weight averaging）能否在不额外训练的情况下，扩展微调检查点之间的帕累托前沿。研究者针对竞争性编程任务，使用嵌套单元测试覆盖（从低覆盖到高覆盖）训练检查点，发现正确性与效率之间存在权衡：高覆盖奖励减少优化失败但增加正确性失败，整体解决率不变。通过低覆盖和高覆盖检查点的插值可恢复该前沿，而外推则能超越训练端点。该现象在纯推理、工具使用和智能体编码三种推理设置以及32B和7B两种模型规模下均成立。外推权重平均的集成方法在LCB/hard基准上，以相同样本预算将pass@250提升了3.3%。结果表明，嵌套单元测试覆盖诱导的前沿可通过外推权重平均进行导航、扩展和利用。

论文代码RL 权重平均正确性-效率前沿竞争性编程推理设置

推荐理由：代码RL领域首次系统揭示正确性与效率的权衡前沿，做编程竞赛或代码生成优化的团队可以直接用外推权重平均提升模型性能，无需额外训练成本。

原文

11:29

arXiv cs.AI@Yiheng Zhu, Kangle Deng, Jean-Philippe Fauconnier, Inaki Navarro, Daiqing Li, Ava Pun, Yinan Zhang, Peiye Zhuang, Xiaoxia Sun, Maneesh Agrawala, Kiran Bhat, Tinghui Zhou

精选

CubePart 是一个新型生成框架，能够根据用户定义的部件名称列表（如“轮子”“门”），生成语义一致、可组装的3D网格部件。它解决了现有3D生成模型输出单一网格或任意部件分解、无法满足游戏和仿真中特定部件需求的问题。框架包含一个大规模开放词汇部件标注数据集构建流程，以及两阶段生成架构（全局形状合成+部件级解码）。生成的3D资产可直接导入游戏引擎，无需手动后处理即可支持动画和脚本行为。

论文 3D生成部件可控开放词汇游戏/仿真 CubePart

推荐理由：游戏和仿真开发者终于有了能按需生成语义部件的3D工具——CubePart 让部件结构成为显式控制信号，生成的资产可直接驱动动画和脚本，省去大量手动拆解工作，做交互式3D内容的团队值得一试。

原文

11:29

arXiv cs.AI@Edwin Jose

精选

SwarmHarness 提出了一种去中心化协议，让闲置的 GPU 算力（个人工作站、推理服务器、边缘设备）通过技能节点自组织成计算集群，无需中央协调或区块链基础设施。其核心组件包括基于分布式哈希表的节点发现、基于效用函数的任务路由，以及基于 Shapley 值的信用激励机制。节点通过贡献算力赚取信用，消耗信用提交任务，不贡献的节点信用耗尽后失去路由优先级，形成自调节的参与经济。该协议不仅用于算力共享，还作为自主分布式 AI 智能体网络的基础原语，支持智能体之间无需人工介入地雇佣算力、路由子任务和结算信用。

论文去中心化算力智能体网络激励对齐任务路由 Shapley值

推荐理由：SwarmHarness 解决了闲置算力无法安全共享的核心痛点，做分布式计算或 AI 智能体网络的开发者可以直接参考其激励设计，无需依赖中心化云市场或复杂区块链。

原文

11:28

arXiv cs.AI@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang

精选72°

现有记忆增强型LLM智能体通常将记忆视为静态仓库，在动态环境中表现脆弱。为此，研究者提出FluxMem框架，将记忆建模为异构图，并通过初始连接形成、反馈驱动精炼和长期巩固三个阶段逐步优化拓扑结构。在执行过程中，FluxMem能自动修复缺失链接、剪枝干扰、对齐抽象粒度，并将成功轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试中，FluxMem均取得最先进性能，展现出强大的适应性和泛化能力。代码已开源。

论文 LLM智能体记忆增强图神经网络开源/仓库动态环境

推荐理由：FluxMem解决了LLM智能体在动态环境中记忆僵化的痛点，做复杂任务自动化的开发者可以直接参考其开源实现，提升智能体的长期记忆和适应能力。

原文

11:28

arXiv cs.AI@Suji Kim, Kangsan Kim, Sung Ju Hwang

精选

计算机使用代理（CUA）在多个领域取得进展，但为每个领域部署大型专家模型成本高昂。小模型虽更实用，但在特定领域表现不均。研究发现，简单合成大规模训练数据效果有限。为此，研究者提出LearnWeak框架，利用强参考代理识别小模型的弱点，自动生成针对性任务和训练数据，并引入错误感知的专精目标，区分规划与执行错误。在OSWorld基准上，LearnWeak在八个领域平均提升EvoCUA-8B和OpenCUA-7B分别11.6和11.1个百分点，优于现有方法。

论文计算机使用代理模型专精弱点识别自动数据合成 OSWorld

推荐理由：做小模型领域专精的团队终于有了高效方案——LearnWeak用强模型找弱模型短板，自动生成针对性数据，比盲目合成数据效果好太多，做CUA或自动化代理的开发者值得一试。

原文

11:28

arXiv cs.AI@Shiyu Chen, Tarfah Alrashed, Alon Halevy, Natasha Noy

精选

一项新研究对比了智能体在两种环境下检索数据的效果：基线智能体搜索数十亿网页，语义智能体利用 schema.org 元数据检索 9000 万数据集。结果显示，语义智能体在检索可操作数据方面精度更高，元数据丰富注册表的精度提升 44.9%，机器可读下载页面的精度提升 46.6%。基线智能体虽然覆盖更广（多回答 40% 的问题），但常返回散文式页面或门户登录页，导致“最后一英里”失效。研究认为，无结构检索适合探索性任务，而结构化元数据生态是可靠自动化工作流的基础。

论文智能体语义元数据数据检索 FAIR原则 LLM评估

推荐理由：做数据驱动智能体或自动化工作流的团队，这篇论文直接告诉你该不该依赖语义元数据——结论是结构化数据仍是可靠执行的基石，值得点开看具体精度对比。

原文

11:27

arXiv cs.AI@Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao

精选

本文提出 Skill-Conditioned Gated Self-Distillation (SGSD) 方法，用于改进大语言模型的推理能力。传统自蒸馏方法依赖可信的先验信息（如参考答案），而 SGSD 从经验技能库中检索技能-错误对，构建多教师池，通过验证器判断教师极性，并设计门控目标函数来蒸馏有效信息。在多个数学推理基准上，SGSD 在 Qwen3-1.7B 上平均比 GRPO 提升 6.2%，比 OPSD 提升 1.7%，且对先验信息的假设更弱。代码已开源。

论文推理模型自蒸馏数学推理技能库 LLM

推荐理由：做 LLM 推理优化的研究者可以关注——SGSD 用技能库替代参考答案作为先验，降低了蒸馏对标注数据的依赖，数学推理场景效果显著，值得在自蒸馏框架中尝试。

原文

11:27

arXiv cs.AI@Abhilash Durgam, Nyle Siddiqui, Jeffrey A. Chan-Santiago, Qiushi Fu, Elakkat D. Gireesh, Mubarak Shah

精选

CaMBRAIN 是首个基于 Mamba 的因果状态空间模型，专为脑电图（EEG）信号实时推理设计。现有深度学习模型依赖注意力机制，序列长度增加时计算量呈二次增长，且需滑动窗口处理，无法理解全局信号。CaMBRAIN 利用因果状态空间模型保持线性复杂度，并引入多阶段自监督训练，增强长程记忆能力。在三个 EEG 数据集上，CaMBRAIN 达到最先进性能，吞吐量比现有模型高 10 倍以上，首次实现变长 EEG 信号的连续推理。

论文 EEG 状态空间模型 Mamba 实时推理自监督学习

推荐理由：做脑机接口或神经信号处理的团队终于有了能实时处理长序列 EEG 的工具——CaMBRAIN 解决了注意力机制的计算瓶颈，吞吐量提升 10 倍，做实时监测或临床诊断的开发者可以直接用。

原文

11:27

arXiv cs.AI@Xinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang

精选

多模态大模型的视觉输出需要可靠且细粒度的验证。本文提出多模态元验证方法，发现符号化验证器输出（如边界框）比文本解释更有效，且将二元判断与元验证的强化学习目标解耦能显著提升性能。基于此训练的OmniVerifier-M1通用视觉验证器，不仅提供稳健验证和细粒度错误定位，还驱动了M1-TTS智能体生成系统，实现动态区域级自我修正。该工作为更可靠、可解释的多模态验证铺平道路，支持更安全可控的基础模型部署。

论文多模态模型元验证强化学习符号化输出自我修正

推荐理由：做多模态模型评估或安全部署的团队，可以关注这种符号化元验证思路——它用边界框替代文本解释做奖励信号，既高效又避免依赖辅助模型，直接提升验证的细粒度与可解释性。

原文

11:26

arXiv cs.AI@William Overman, Mohsen Bayati

精选

论文提出校准集体监督（CCO）方法，通过聚合多个辅助评分函数形成惩罚项，衡量AI行为对保守基线的偏离。CCO受可达到效用保留启发，实现集体保守主义：当监督者认为行为无异议时，高效用行为仍被选中，仅在担忧累积时被覆盖。该方法利用共形决策理论在线校准保守程度，确保不良结果低于用户指定阈值，且无需分布假设。在修改版SWE-bench上，较弱监督者成功约束了对抗性更强的智能体；在MACHIAVELLI环境中，CCO在保持奖励的同时大幅减少伦理违规。

论文 AI安全可扩展监督共形预测保守主义智能体对齐

推荐理由：这篇论文解决了超人类AI系统的监督难题，做AI安全和对齐的研究者可以直接参考其理论保证和实验验证。

原文

11:26

arXiv cs.AI@Jiahe Pan, Stelian Coros, Jitendra Malik, Toru Lin

精选

该研究提出了一种基于物理原理的触觉表示方法——压力中心（CoP），用于解决仿真到现实（sim-to-real）迁移中触觉信息丢失的问题。传统方法常将触觉数据简化为粗糙的低维特征，而CoP保留了密集的接触信息，同时保持对仿真到现实迁移的鲁棒性。研究还提出了一种基于可导动力学的传感器校准方案，无需真实力测量即可估计触觉传感器方向。在盲操作任务（如插销入孔和球平衡）中，基于CoP的策略在五指手上实现了零样本仿真到现实迁移，性能优于二进制接触和原始触觉基线。分析表明，CoP策略能编码物体质量等任务相关物理属性，作为控制的副产品涌现。

论文灵巧操作仿真到现实触觉表示压力中心机器人

推荐理由：这项研究解决了灵巧操作中触觉信息从仿真到现实迁移的瓶颈，做机器人灵巧操作或触觉感知的团队可以直接参考其CoP表示方法，零样本迁移效果值得一试。

原文

5月27日

12:18

arXiv: DeepSeek@Dongxu Yang

精选72°

Device Context Protocol (DCP) 是一种专为微控制器设计的轻量级协议，典型帧小于 50 字节，支持能力范围检查、类型检查、试运行评估和单位即类型等安全原语。与 MCP 和 IoT-MCP 不同，DCP 在主机侧通过 Bridge 拒绝幻觉或提示注入的调用，确保物理设备安全。参考实现在 ESP32 上仅需 27.6 KB 闪存和 0.6 KB RAM。实验表明，DCP 能 100% 阻止能力升级攻击，78% 阻止提示注入攻击，而 MCP 和 IoT-MCP 的阻止率仅为 0-1%。DCP 填补了 MCP 与物理设备之间的空白，为 LLM 控制受限硬件提供了安全基础。

论文协议/标准安全/防护物联网/嵌入式 LLM/工具调用开源/仓库

推荐理由：做物联网或嵌入式 AI 的开发者终于有了一个能安全控制微控制器的协议——DCP 在 50 字节内实现了 MCP 无法提供的安全防护，建议直接看论文和开源实现。

原文

12:16

arXiv: DeepSeek@Guanghui Wang, Kaiwen Lv Kacuila, Zhiyong Yang, Zitai Wang, Jin-Wen Wu, Longtao Huang, Qianqian Xu, Qingming Huang

精选72°

这篇论文发现，在 LLM 知识蒸馏中，混合使用教师模型的硬标签（采样 token）和软标签（完整分布）比单独使用任何一种效果更好。作者提出 Bridge-Garden 分解理论，将生成步骤分为“桥”（需精确 token）和“花园”（可灵活选择）两类，硬标签擅长处理桥，软标签擅长处理花园，混合策略能减少训练与推理之间的暴露偏差。基于该理论开发的混合监督方法在 7 组师生模型（含 Qwen、Llama、Gemma、DeepSeek）上优于现有基线，同时将训练成本降低 9.7 倍。代码已开源。

论文知识蒸馏暴露偏差混合标签模型压缩 Qwen/Llama/Gemma/DeepSeek

推荐理由：做 LLM 蒸馏的团队终于有了理论指导——Bridge-Garden 理论解释了为什么混合标签有效，并且直接给出了可落地的方案，训练成本还降了 9.7 倍，建议做模型压缩的开发者点开看看。

原文

12:16

arXiv: DeepSeek@Heriberto Cuayahuitl, Grace Jang

精选

研究人员发布了 MeDial-Speech，一个包含 111 小时真实医患对话的语音数据集，涵盖路易体痴呆、心力衰竭、肩痛和心绞痛四种疾病。该数据集来自机器人与患者、医生与患者的对话，旨在训练和评估用于医疗咨询的 AI 系统。论文还提出了一个基于句子选择的对话基准，测试了 GPT-5 mini、DeepSeek-V3 和 Claude Sonnet 4 三个大模型。结果显示 Claude Sonnet 4 在句子选择任务中准确率最高（手动转录 71.1%，自动转录 74.7%），但所有模型在概率预测上均过度自信。数据集对非商业用途免费开放。

论文医疗对话语音数据集大模型评估 Claude Sonnet 4 MeDial-Speech

推荐理由：医疗 AI 终于有了真实场景的语音对话基准——111 小时医患对话数据，覆盖四种疾病，做医疗对话系统的团队可以直接拿来训练和测试模型。Claude Sonnet 4 在句子选择上领先，但所有模型都过度自信，这个发现值得关注。

原文

12:15

arXiv: DeepSeek@Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

精选72°

论文推理模型安全/对齐思维链激活引导 DeepSeek-R1

推荐理由：这项研究揭示了 CoT 在模型安全中的双重角色——既增强鲁棒性又引入新风险，做 AI 安全和对齐的团队值得关注，尤其是使用推理模型的开发者需要重新评估防御策略。

原文

12:14

arXiv: DeepSeek@Mingyue Wang, Xingyu Xie, Hang Yang, Li Gao, Lixin Su, Ge Chen, Dawei Yin, Daiting Shi

精选

百度搜索团队提出QDET（查询驱动事件时间线摘要）系统，用于在搜索中为热点新闻查询构建聚焦的事件时间线。该系统通过多任务监督微调（时序排序、因果判断、时间线补全）和基于强化学习的简洁摘要生成，使7B参数模型在时间线摘要F1得分（76.2%）上超越DeepSeek-R1-671B（76.1%），参数量仅为后者的1%。在线A/B测试显示，QDET使点击率提升5.5%、停留时间延长4.6%、探索深度增加4.4%。该工作证明领域专用优化能以极低成本达到大模型级别的生产质量。

论文事件时间线摘要搜索多任务微调强化学习百度

推荐理由：搜索和新闻聚合团队终于有了可落地的轻量级时间线方案——7B模型干翻671B，CTR和用户停留时间双双提升，做搜索排序或事件摘要的工程师可以直接参考其多任务微调策略。

原文

12:13

arXiv: DeepSeek@Xiongwei Zhu, Xiaojian Liao, Tianyang Jiang, Yusen Zhang, Liang Wang, Limin Xiao

精选

细粒度混合专家（MoE）模型在推理时只激活部分专家，但内存受限场景下只能缓存少量专家，未缓存的专家需从慢速外部存储获取，导致频繁换入换出和I/O开销。ReMoE提出一种路由器微调框架，通过偏向近期选中的专家来产生时间上稳定的路由，从而提升专家复用率，减少存储访问。实验表明，在DeepSeek和Qwen模型上，ReMoE将专家复用率提升26%，同时保持下游任务性能。在vLLM GPU-CPU专家卸载场景下，输出吞吐量提升8.4%；在Jetson Orin NX上使用llama.cpp时，TPOT降低43.6-49.8%，解码速度提升1.77-1.99倍。代码和模型已开源。

论文 MoE模型推理优化路由器微调专家复用边缘部署

推荐理由：ReMoE解决了内存受限设备上MoE模型推理的I/O瓶颈，做边缘部署或大模型推理优化的开发者可以直接试，开源代码让复现门槛很低。

原文

10:53

arXiv cs.LG@Xieting Chu, Sriram Vishwanath, Vijay Ganesh

精选

符号回归旨在从观测数据中寻找闭合形式的数学表达式。现有神经方法通过单次编码直接映射表达式，但存在“摊销差距”。本文提出潜在方程嵌入框架，通过迭代摊销推理来缩小这一差距。LEE学习一个共享潜在空间，包含编码器、表达式解码器和评估解码器，后者将潜在空间与函数行为显式关联。推理时，LEE通过重新编码解码出的表达式与观测数据，逐步改进潜在估计，并融合连续梯度下降与离散重新编码。在SRBench上，LEE生成的表达式比最强基线简单2-10倍，复杂度仅为8-11，同时保持高精度。

论文符号回归潜在空间迭代精炼可解释建模 LEE

推荐理由：符号回归领域终于有了能同时兼顾精度和简洁性的方法，做科学发现和可解释建模的团队可以直接用LEE替代传统遗传编程，结果更干净。

原文

10:53

arXiv cs.LG@Oroel Ipas, Guillermo Gomez-Trenado, Rocío Romero-Zaliz, Isaac Triguero

精选

在低标注表格学习场景中，如何选择标注实例是关键挑战。对于TabPFN等表格基础模型，上下文选择直接影响预测性能。有监督实验表明，精心选择的标注集能显著优于随机选择。但冷启动场景（无标签时选择实例）研究不足。LUCoS方法利用无监督预训练网络的潜在几何结构选择代表性样本作为上下文，在67个数据集上平均AUC、ACC和F1排名第一。该方法通过覆盖度和表示空间的选择机制，有效避免了原始特征空间选择失效的问题。

论文表格基础模型无监督学习上下文选择 TabPFN 冷启动

推荐理由：做表格数据标注或低资源学习的团队，LUCoS解决了冷启动下上下文选择的核心难题，无需标签就能显著提升模型效果，值得在TabPFN等模型上试试。

原文

10:53

arXiv cs.LG@Sridhar Mahadevan

精选

本文提出 Kan Extension Transformers (KETs)，一个基于范畴论的统一框架，将多种 Transformer 变体（标准注意力、几何 Transformer、扩散模型）视为加权结构化扩展算子的特例。KET 将注意力推广到高阶单纯形邻域，并揭示了与扩散式补全的桥梁。当扩展算子作用于分离的预测载体而非教师强制隐状态时，形成一种有效的自条件化机制，在不泄露未来 token 的情况下暴露非因果结构。在 Penn Treebank、WikiText-2 和 WikiText-103 上的 12 种 Transformer 变体实验中，严格因果设置下二次 KET 在 WikiText-2 和 WikiText-103 上表现最强；但最大收益来自 predict-detach 机制而非邻域族变化。

论文 Transformer 范畴论自条件化扩散模型注意力机制

推荐理由：这篇论文用范畴论统一了注意力、扩散和自条件化，做 Transformer 架构研究的开发者会看到新的理论视角；predict-detach 机制带来的收益比改邻域更大，值得关注。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。