全部 AI 动态 · AI 热点

6月3日

10:25

arXiv cs.AI@Máté Gedeon, Péter Mihajlik

低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线：先由LLM生成带参与者元数据的场景级对话，再将说话人属性映射到TTS语音配置，最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上，仅用67小时真实对话加636小时合成数据训练的模型，性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言，且LLM生成器选择和合成数据组成对效果影响显著。

论文语音识别数据增强低资源语言 TTS LLM

推荐理由：低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据，效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试，尤其适合匈牙利语等小语种场景。

原文

10:24

arXiv cs.AI@Mubarak A. Ojewale, Adriana E. Chis, Jorge M. Cortes-Mendoza, Bernardo Pulido-Gaytan, Horacio Gonzalez-Velez

联邦学习中客户端数据分布随时间漂移会导致模型遗忘，现有方法如Flashback假设分布静止，无法应对时间变化。FlashbackCL通过引入时间衰减标签计数、设备感知重放缓冲区和服务器端核心集筛选，在CIFAR-10上相对Flashback提升6.9%-10.0%，时间遗忘减少68%。在静态CIFAR-100上也提升3.5个点，表明类平衡重放对空间和时间异质性均有正则化效果。

论文联邦学习时间遗忘持续学习类平衡重放 FlashbackCL

推荐理由：联邦学习团队终于有了应对数据漂移的实用方案——FlashbackCL直接替换Flashback即可，做边缘设备或持续学习部署的开发者值得一试。

原文

10:23

arXiv cs.AI@Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal

随着计算资源增长快于高质量文本供给，多轮训练成为新常态，但单模型在几轮后即饱和。论文提出“超时代预训练”（q0），将多轮预算转化为多样模型群体并聚合预测，达到比单模型更低的验证损失。q0包含三个核心原语：反相关学习率与权重衰减的循环调度、链式蒸馏、以及基于学习先验的模型选择与加权。在1.8B参数模型、100M FineWeb tokens上，q0仅用约56轮就匹配了256轮强集成基线，效率提升约4.6倍，在Slowrun设置下累积数据效率达12.9倍。该方法还给出了不同预算下的最优分配策略，从单轮到最大预算均可适用。

论文预训练数据效率模型集成蒸馏 q0

推荐理由：多轮训练效率瓶颈是当前大模型预训练的痛点，q0用群体模型替代单模型精炼，做预训练或数据效率优化的研究者可以直接复现并应用到自己的训练流程中。

原文

10:17

arXiv cs.AI@Senjie Jin, Peixin Wang, Boyang Liu, Xiaoran Fan, Shuo Li, Zhiheng Xi, Jiazheng Zhang, Yuhao Zhou, Tao Gui, Qi Zhang, Xuanjing Huang

精选

研究发现，在视觉推理任务中，仅依赖令牌级熵进行强化学习（RLVR）会失效，因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量，要么忽视熵主要驱动语义探索。为此，研究者提出VEPO框架，通过视觉敏感性与令牌熵的乘法耦合，将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明，VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点，消融实验验证了方法的有效性。

论文强化学习视觉推理令牌选择多模态 VEPO

推荐理由：视觉推理强化学习一直缺乏有效的信用分配机制，VEPO解决了这个痛点——做多模态RL的团队可以直接参考这个框架，在视觉-语义交叉场景中提升模型表现。

原文

10:17

arXiv cs.AI@Xinyang Liu, Xuanyu Liang, Shiqi Ding, Boyang Li, Zhiqiang Que, Jiayang Li, Guosheng Hu

精选

FFR（Forward-Forward for Regression）是首个将Forward-Forward（FF）算法成功扩展到回归任务的方法。FF算法通过局部逐层优化替代反向传播（BP），但原本只适用于分类任务，因为回归的连续目标空间缺乏自然“对立样本”。FFR提出三项创新：基于有序竞争的好度函数、分层阶梯架构（浅层学习粗粒度排序、深层细化回归）以及带不确定性估计的分层预测。在五个真实回归基准上，FFR平均恢复BP 98.6%的精度，峰值训练内存仅为BP的27%（深度8）和8%（深度32），每轮迭代时间约为BP的72%，显著优于所有无BP的竞品。

论文 Forward-Forward算法回归任务反向传播替代生物启发学习低内存训练

推荐理由：做回归任务的深度学习研究者终于有了FF算法的可用方案——FFR在保持低内存优势的同时逼近BP精度，资源受限场景或生物启发学习的团队值得关注。

原文

10:16

arXiv cs.AI@Eric Cho, Shawn Huang, Alice Lu, Andy Lyu

精选

Hedge-Bench 1.0 是一个针对金融推理的 AI 智能体基准测试，包含 102 个来自对冲基金分析师实际工作中的真实任务。与现有依赖模型评判的基准不同，它基于专家推理轨迹进行确定性评分，避免了噪声和循环论证。测试结果显示，前沿模型和智能体在该基准上的得分低于 16%，说明当前 AI 在复杂金融推理上仍有巨大差距。该数据集和评估工具已在 GitHub 开源。

论文金融推理智能体基准测试对冲基金开源/仓库

推荐理由：金融 AI 终于有了硬核的推理基准——不是算公式或查文档，而是真正考验分析师级别的开放式问题。做量化、金融 NLP 或智能体评估的团队值得关注，可以直接用这个 benchmark 检验自家模型。

原文

10:15

arXiv cs.AI@Mubarak Adetunji Ojewale

精选

解耦式LLM推理中，KV缓存需在解码前穿越数据中心网络，导致传输时间直接计入首令牌延迟（TTFT）。现有调度器仅考虑计算负载和前缀缓存局部性，忽略了预填充与解码实例间的拓扑距离和动态拥塞。NetKV通过引入网络成本预言机，证明了忽略网络项会导致缓存感知调度在上下文长度增长时性能任意次优。在64 GPU四层胖树模拟器上，NetKV将平均TTFT降低21.2%，SLO达标率提升20.1个百分点，且每令牌时间开销低于0.5毫秒。该方法无需修改传输层、推理引擎或硬件。

论文推理模型 KV缓存网络感知调度解耦推理 TTFT优化

推荐理由：做大规模LLM推理部署的团队，NetKV直接解决了TTFT瓶颈——网络延迟被正式纳入调度决策，实测效果显著且零侵入，值得在现有集群上评估。

原文

10:15

arXiv cs.AI@Jai Lal Lulla, Matthias Galster, Jie M. Zhang, Sebastian Baltes, Christoph Treude

精选

该研究协议探讨了配置机制如何影响AI编程工具（如Claude Code和OpenAI Codex）在构建功能与导入库之间的决策。这些决策直接影响软件安全、许可合规、性能和可维护性。研究将使用控制实验，操纵不同配置（如无配置、上下文文件、技能、MCP库发现工具和权限控制），测量工具选择的库、是否披露新库以及披露的完整性。九项预注册假设指导实验，最终将发布基准数据集和分析管道。

论文 AI编程工具构建vs购买配置机制 Claude Code OpenAI Codex

推荐理由：AI编程工具的自动决策直接影响软件质量和合规性，做AI开发工具或使用AI编程的团队需要了解如何通过配置引导工具行为，建议点开了解实验设计。

原文

10:13

arXiv cs.AI@Jiabei Cheng, Jingbo Zhou, Jun Xia, Changkai Li, Zhen Lei, Chang Yu, Stan Z. Li

精选

单细胞多组学数据同时测量多种模态，但实验成本高、噪声大，催生了多种计算翻译方法。然而，现有方法缺乏系统性的基准评估。为此，研究者提出了scTranslation基准，包含多样化数据集、集成最新模型并提供全面评估指标。该基准还评估了特征选择、特征质量和小样本设置等影响因素，这些因素此前很少被系统研究。通过大规模实验，scTranslation揭示了多项重要发现，为未来研究开辟了新方向。基准已开源，代码可在GitHub获取。

论文单细胞组学多模态翻译基准评估开源/仓库 scTranslation

推荐理由：单细胞组学研究者终于有了系统评估翻译模型的工具——scTranslation覆盖了数据、指标和影响因素，做多模态分析的团队可以直接用这个基准来对比方法，省去自己搭建评估流程的麻烦。

原文

10:13

arXiv cs.AI@Yingqi Zhang

精选72°

Agent libOS 提出了一种受库操作系统启发的运行时架构，将LLM智能体视为可调度的进程，具备身份、生命周期、对象内存、显式能力、人工审批队列和审计记录。其核心设计原则是工具作为类似libc的包装器，运行时原语作为权限边界，文件系统访问、对象访问、睡眠、人工批准、JIT工具注册和外部副作用都在原语边界处通过显式能力和策略进行检查。原型实现了异步调度、命名空间本地对象内存、运行时集成的人工批准、一次性权限授予、每个进程的工作目录、shell和图像注册原语、Deno/TypeScript JIT工具、文件系统/对象桥接工具、可注入的资源提供者子系统和123个回归测试。该工作不旨在提高规划器准确性，而是展示一种运行时基板，使长期运行的LLM智能体能够被调度、授权、恢复和审计，而无需将工具调度视为信任边界。

论文 LLM智能体运行时能力控制审计库操作系统

推荐理由：做LLM智能体工程化的团队终于有了一个正经的运行时方案——Agent libOS把智能体当进程管理，解决了长期运行、权限控制和审计的痛点，做智能体框架或生产部署的开发者值得细读。

原文

10:01

arXiv: OpenAI@Muhammad Ali

精选

巴尔蒂语（Balti）是巴基斯坦吉尔吉特-巴尔蒂斯坦地区的一种藏语方言，此前没有任何公开的自动语音识别（ASR）资源。研究者构建了名为BaltiVoice的16.8小时朗读语音语料库，包含10060条经过验证的本地纳斯塔利克文字发音，数据源自Mozilla Common Voice录音。他们基于OpenAI Whisper-small模型进行微调，在538条验证集上实现了30.07%的词错误率（WER），而零样本基线高达182.18%。该语料库、微调模型及实时转录演示已公开发布在HuggingFace上，为低资源语言的语音技术发展提供了重要基础。

论文语音识别低资源语言 Whisper微调巴尔蒂语开源语料库

推荐理由：这是首个为巴尔蒂语打造的ASR系统，解决了低资源语言语音识别的空白，做多语言语音技术或濒危语言保护的团队可以直接用这个开源模型和语料库。

原文

10:01

arXiv: OpenAI@Nikhil Vincent

精选

CoughSense 是一个利用智能手机录音自动分类五种呼吸系统疾病（健康、COVID-19、哮喘、支气管炎、肺炎）的系统。它基于 OpenAI Whisper 编码器微调，并引入主动帧 QKV 注意力池化（Active-frame QKV attention pooling），解决了 Whisper 30秒输入窗口内短咳嗽信号被静音稀释的问题。系统还通过加权采样、数据增强、平衡混合、对比学习、症状条件化和域自适应等技术，处理了19:1的类别不平衡和跨数据集域偏移。在四个公开数据集共18,301条录音上，CoughSense（Whisper-tiny，8.6M参数）达到82.3%的平衡准确率，双编码器融合版本达到85.4%。主动帧池化是最大的单一贡献模块（提升5.1个点），对任何使用Whisper的短音频任务都有参考价值。

论文 Whisper 呼吸疾病分类咳嗽分析主动帧池化域自适应

推荐理由：做呼吸疾病音频诊断或短音频分类的团队，可以直接借鉴CoughSense的主动帧池化和域自适应方案，解决Whisper在短信号上的静音稀释痛点。

原文

6月2日

12:19

arXiv: OpenAI@Hikmet Simsir, Ozgur S. Oguz

精选

论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS)，一种轻量级方法，通过优化冻结生成式策略的噪声空间扰动来提升性能，无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标，在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中，LP-DS 在样本效率、成功率和回报上均有提升，回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型，并在真实 Franka 机器人上验证了有效性。

论文扩散模型强化学习机器人操控策略微调信任域优化

推荐理由：做机器人操控或强化学习的团队，终于有了一个不更新大模型也能微调扩散策略的轻量方案——LP-DS 在保持动作多样性的同时提升回报，建议试试看能否解决你的分布偏移问题。

原文

12:06

arXiv: Anthropic@Mikael Gorsky

随着AI编程助手普及，软件工程师的工作正从写代码转向指导智能体，但学术界发现当前缺失的不是更好的模型，而是系统化的实践者学科。为此，论文提出ASE-26，一套完整的本科课程体系，包含21个模块，核心概念是“进化螺旋”作为意图与构建共同演化的操作形式。课程还涉及与智能体协作完成作业的评分承诺，以及如何让学科超越当前模型能力。该课程已作为可引用参考存入Zenodo，旨在通过结构化教育填补行业缺乏的智能体软件工程技能。

论文智能体软件工程课程体系 AI编程教育

推荐理由：软件工程教育者或AI工具重度用户会发现，ASE-26直接回应了行业从写代码到指挥智能体的转型痛点，值得参考其课程设计思路。

原文

12:06

arXiv: Anthropic@Zelin He, Haotian Lin, Boran Han, Wei Zhu, Haoyang Fang, Bernie Wang, Xuan Zhu, Runze Li, Matthew Reimherr

ReSkill 是一种新型的智能体强化学习框架，旨在解决现有方法中技能创建与策略优化脱节的问题。它受 Anthropic 的 Skill Creator 启发，将技能创建嵌入到策略学习循环中，通过断言驱动的技能创建器、组内采样和自适应 Thompson 采样三个机制，实现技能与策略的协同进化。实验表明，ReSkill 在多个领域优于现有方法，尤其在未见任务上表现突出，能自动创建、测试、优化和淘汰技能。该工作为构建可泛化的智能体系统提供了新思路。

论文智能体强化学习技能学习策略优化 ReSkill

推荐理由：做智能体强化学习的团队终于有了一个能自动积累可复用策略的框架——ReSkill 让技能创建和策略优化不再打架，直接提升泛化能力，做 RL 和 LLM 智能体的研究者值得细读。

原文

12:06

arXiv: Anthropic@Hiskias Dingeto, Will Leeney

精选72°

LLM智能体通过工具调用访问第三方服务（如Gmail、Salesforce）时，面临间接提示注入攻击的威胁，但现有基准测试覆盖不足。研究者推出AgentRedBench，包含215个跨24种企业集成的微妙授权攻击场景，覆盖9个功能家族和5种攻击类型。在8个模型（Anthropic、OpenAI、Google）上，无防护的攻击成功率（ASR）从32%（Claude Sonnet 4.6）到81%（Gemini 3 Flash）不等。同时发布AgentRedGuard防护模型，在集成多样化的对抗性工具响应内容上训练，将ASR从69.9%降至2.4%，误报率仅0.37%，显著优于所有开源基线。该工作为智能体安全提供了更真实的评估基准和有效防御方案。

论文 LLM智能体安全/红队测试提示注入 SaaS集成开源/仓库

推荐理由：做LLM智能体安全或SaaS集成开发的团队，终于有了一个能真实反映生产环境威胁的测试基准和可用的防护模型，建议直接看论文和开源代码。

原文

12:06

arXiv: DeepSeek@Boao Kong, Weichen Jia, Engao Zhang, Guohong Li, Yonghan Dong, Yao Wang, Yaoyuan Wang, Yunke Peng, Kun Yuan

低精度训练在降低大模型训练成本的同时，常因少数算子的数值不稳定导致训练失败。论文提出GNMR（梯度范数与均值比）轻量控制器，通过比较当前梯度范数与历史均值，并结合Δ-GNMR检测短窗口内的突变，在固定预算和锁定间隔内执行恢复操作，无需改变数值格式或底层实现。在激活量化、DeepSeek式训练和LLaMA-2 13B微调等场景中，GNMR以稀疏的恢复动作保持高保真质量。该方法为低精度训练提供了一种后端无关的稳定性控制方案。

论文低精度训练训练稳定性 GNMR 大模型量化

推荐理由：低精度训练是降低大模型成本的关键，但数值不稳定常让训练白费。GNMR用轻量控制解决了这个痛点，做大规模训练或量化训练的团队值得关注，可以直接集成到现有流程中。

原文

12:06

arXiv: DeepSeek@Md Motaleb Hossen Manik, Ge Wang

HypothesisMed 是一个针对生物医学多项选择题的推理时可靠性管道，通过结合直接提示、思维链、HypothesisMed-v3 提示和答案融合来提升模型输出的可解析性和可靠性。它引入 SPACE 标签（有效、不完整、矛盾）标记答案空间，并提供置信度信息。在 MedQA、MedMCQA 和 PubMedQA 上对 Qwen2.5-7B、Phi-4-mini、DeepSeek-R1-32B 和 BioMistral-7B 的评估显示，该管道在加权准确率上优于各模型的最佳基线，同时提高了解析覆盖率和 SPACE 覆盖率。例如，Phi-4-mini 的准确率从 0.4296 提升至 0.5192。但 SPACE 压力测试表明答案空间诊断仍具挑战，Qwen2.5-7B 的 SPACE 准确率仅为 0.3074。该工作的主要贡献不是追求通用 SOTA，而是提供了一个可复现的推理时框架，用于在结构化可靠性约束下评估生物医学问答模型。

论文生物医学问答推理时可靠性答案融合 SPACE标签模型评估

推荐理由：生物医学问答领域终于有了一个关注可靠性而非单纯准确率的实用框架——HypothesisMed 让模型输出可解析、可审计，做医疗 AI 或临床决策支持的团队可以直接用这套管道评估自己的模型，避免模型自信犯错。

原文

12:06

arXiv: DeepSeek@Bin Zhu, Yanghui Rao

这篇论文研究了在有限人工标注预算下，LLM法官面板（多个LLM作为评估者）的校准策略选择问题。低维堆叠器（如标量或可靠性聚合）估计成本低但无法捕捉交互效应，而联合输出表可以建模交互但需要更多数据填充单元格。作者提出了一个有限校准机制图，并实例化为可部署的验证选择器。在RewardBench、LLMBar等基准测试中，使用7个法官（包括DeepSeek V4 Flash）的实验表明，标量/可靠性聚合在20个真实数据集-预算组合中赢了16个，说明当前法官输出往往是加性或冗余的。当存在六路交互时，联合输出表才显著优于标量方法（测试MSE从0.224降至0.061）。结论是，关键问题不是“需要多少法官”，而是下一个法官的信息在当前人工标签下是否可估计。

论文 LLM评估校准策略法官面板有限预算交互效应

推荐理由：做LLM评估或模型对齐的团队会关心：这篇论文给出了在有限标注预算下选择校准策略的实用指南，建议直接参考其机制图来优化你的法官面板配置。

原文

12:05

arXiv: DeepSeek@Jiashen Huang, Yu Jia, Xu Pan

一项针对405名中国用户的研究发现，对国内机构的信任显著影响用户对国产AI模型（如DeepSeek）的信任，而对ChatGPT等全球模型的影响较弱。研究提出“机构棱镜”框架，认为AI信任不仅是技术性能的反映，更是机构信任的折射。高机构信任增强用户对国产AI的情感信任，并使其认知评价更积极；低机构信任则削弱这一优势。该研究揭示了宏观治理与微观心理在AI信任形成中的关联，为理解不同国家AI信任差异提供了新视角。

论文机构信任 AI信任 DeepSeek ChatGPT 人机交互

推荐理由：做AI产品出海或研究人机信任的团队，这篇论文揭示了机构信任如何成为AI采纳的关键变量——理解这一点，比单纯优化模型性能更能解释用户选择。建议点开看看框架和问卷设计。

原文

12:05

arXiv: DeepSeek@Yiming Liao, Zeno Franco, Jose Eduardo Lizarraga Mazaba, Keke Chen

医疗大语言模型在临床决策支持中常出现幻觉，带来严重风险。现有基准缺乏真实临床背景，且对缓解幻觉的指导有限。Med-HEAL框架基于EHRNoteQA基准和MIMIC-IV数据，构建了幻觉数据集，通过LLM-as-a-Judge和人工审核双重标注。研究测试了自我批评和检索增强上下文学习两种策略，在五个开源模型上，自我批评策略显著提升了其中三个模型的准确性。该框架提供了可复用的数据集和实用方法，有助于医疗AI的安全部署。

论文医疗LLM 幻觉缓解上下文学习 EHR 开源/仓库

推荐理由：医疗AI的幻觉问题直接关系到患者安全，Med-HEAL给出了可落地的缓解方案——做临床NLP或医疗AI部署的团队，可以直接用其公开数据集和代码来评估和优化自己的模型。

原文

12:05

arXiv: DeepSeek@Bole Ma, Jan Eitzinger, Harald Köstler, Gerhard Wellein

72°

本文研究跨 GPU 实例的注意力机制优化问题。传统方法在查询需要访问其他 GPU 上的 KV 缓存块时，会移动缓存块到查询所在 GPU，但多查询注意力（MLA）将每个 token 的键和值压缩为窄向量，使得路由查询（约 1KB）比移动缓存块更便宜。作者在真实多节点 H100 集群上测量了跨实例 MLA 注意力，提出了拓扑感知成本模型和路由/获取/本地决策谓词，发现解码时路由查询可将缓存移动的约 3 毫秒开销降低到几十微秒。该模型不限于 MLA，可推广到 DeepSeek-V3.2、V4 和 GLM-5.1 等架构。

论文注意力机制 MLA 跨实例推理 GPU 集群成本模型

推荐理由：做大规模 LLM 推理部署的团队，这篇论文给出了跨 GPU 注意力优化的新思路——路由查询而非移动缓存，实测能大幅降低延迟。建议关注其成本模型和决策谓词，可直接用于优化自家推理系统。

原文

12:05

arXiv: DeepSeek@Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim

K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试，包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证，前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率，远低于 BrowseComp 的表现。韩国本土大模型表现更差，仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试，最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白，揭示了当前模型在非英语环境下的显著短板。

论文智能体基准测试韩语网页浏览 GPT-5.5 DeepSeek-V4-Pro GLM-5.1

推荐理由：做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半，说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。

原文

12:05

arXiv cs.LG@William Dorrell

稀疏自编码器（SAE）在解析神经网络表征为可解释概念方面取得了成功，但其提取内容的科学结论尚不明确。本文避开传统的数据生成模型，直接研究字典学习最优解必须满足的性质。作者将局部最优性分析扩展到非负联合优化问题，推导出最优SAE特征与其分布之间的约束关系。这些约束解释了SAE的多种行为，包括层次分裂与吸收、残差结构以及密集对跖特征。最后，作者构建了一个新的大字典凸问题，探索了每个数据点对应大量原子的极限情况，为设计下一代SAE提供了理论指导。

论文稀疏自编码器可解释性神经网络表征字典学习理论分析

推荐理由：这篇论文为SAE的可解释性提供了理论根基，做可解释AI或模型控制的开发者可以直接参考其结论来设计更可靠的SAE变体。

原文

12:05

arXiv cs.LG@Ning Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang

论文提出 PaW 框架，在强化学习训练语言智能体时，利用策略 rollout 中的动作-观测对作为世界模型监督信号，无需额外模拟器或推理计算。通过动作熵筛选数据、噪声容忍损失和自适应损失平衡三个组件，PaW 在多个智能体任务基准上显著优于纯 RL 基线。该方法解决了 RL 缺乏环境反馈监督的问题，让智能体不仅知道“做什么能得高分”，还理解“动作对环境的影响”。实验表明标准 RL rollout 即可提供有效的世界模型训练信号，降低了世界模型的应用门槛。

论文强化学习世界模型语言智能体 PaW 共训练

推荐理由：做语言智能体强化学习的团队，可以用 PaW 在现有 RL 流程中零成本加入世界模型监督，提升智能体对环境的理解能力，值得在项目中尝试。

原文

12:04

arXiv cs.AI@Yiheng Shu, Bernal Jiménez Gutiérrez, Saisri Padmaja Jonnalagedda, Yuguang Yao, Huan Sun, Yu Su

语言智能体在单个任务上花费大量推理时间，但跨任务的经验复用不足。现有基准难以严格评估持续学习，多聚焦长上下文检索或简单任务流，缺乏对跨任务关系的分析。本文提出AgentCL框架，通过受控任务流和迁移增益指标，评估智能体能否积累可复用经验、随时间改进并避免干扰。实验表明，受控流比简单流更能区分记忆设计的可塑性，而简单流和保留设置常暴露记忆导致的性能退化。该工作为设计平衡可塑性与稳定复用的记忆系统提供了方向。

论文持续学习智能体评估框架记忆设计语言模型

推荐理由：做智能体持续学习和记忆设计的团队，AgentCL提供了比现有基准更严格的评估方法，能帮你诊断记忆设计在跨任务复用中的真实效果，值得参考。

原文

12:04

arXiv cs.LG@Lei Yang, Siyu Ding, Deyi Xiong

该研究揭示了多域强化学习（RL）中一个关键问题：在数学推理、代码生成等单一领域训练会损害其他领域性能。现有解释（如灾难性遗忘或全局梯度冲突）不完整，因为即使全模型梯度几乎正交时，干扰仍会发生。研究发现，单域RL产生稀疏、小幅度的参数编辑，不同领域共享大量活跃计算路径，更新方向决定协同或冲突。基于局部扰动模型，作者证明后期训练主要通过二阶损伤项损害早期领域，该损伤集中在低维共享冲突子空间。通过短暂领域刷新（如代码→数学→问答→创意写作后重新训练数学），数学性能从57.66恢复至66.04，且其他领域性能保持良好，平均得分达66.39。此外，无训练的回滚方法也部分恢复了数学性能，提供了局部损伤的直接证据。

论文强化学习多域训练干扰恢复局部扰动 LLM后训练

推荐理由：该理论解释了多域RL训练中性能下降的机制，并提出了有效的恢复方法，对从事LLM后训练和多任务学习的开发者有直接指导意义，建议关注其刷新策略。

原文

12:04

arXiv cs.AI@Hilton Raj, Vishnuram AV

MASER 提出了一种轻量级框架，解决现有视觉语言模型（VLM）在3D环境中仅针对单一模态微调、忽略问题语义可能更适合其他模态的问题。该框架在共享VLM骨干上训练五个不同模态适配器（自然语言、RGB图像、点云、深度图、相机姿态），并通过神经路由策略在推理时根据问题选择最优适配器。在Open3D-VQA基准测试中，点云模态在51.5%情况下最优，MASER的路由准确率达到51.3%的oracle一致性，优于随机森林的43.5%，且每次推理仅需一次适配器调用。这项工作为具身智能体在3D空间中的多模态推理提供了高效解决方案。

论文具身智能 3D空间智能多模态路由视觉语言模型 Open3D-VQA

推荐理由：做具身智能或3D视觉问答的团队，终于有了一个不用暴力融合所有模态的轻量方案——MASER根据问题语义动态选最优模态，点云在超半数场景下最准，值得在Open3D-VQA上试试。

原文

12:04

arXiv cs.LG@Ruohao Guo, Wei Xu, Alan Ritter

大型语言模型在作为助手的同时，也可能被恶意用户利用，通过多轮交互放大危害，包括让新手生成专业有害内容，以及规模化执行有害操作。现有研究常忽略多轮对话中的危害累积。为此，研究者提出了HarmAmp基准，涵盖12类风险场景，并设计了TrajSafe主动监控器，通过探测用户真实意图和引导模型安全完成来干预有害轨迹。实验表明，TrajSafe能显著降低多轮交互中的危害，同时保持低过度拒绝率和模型通用能力。这项工作为缓解LLM交互中的细微安全风险提供了新范式。

论文 LLM安全多轮对话危害放大 HarmAmp TrajSafe

推荐理由：多轮对话中的危害放大是LLM安全部署的盲区，做AI安全或内容审核的团队可以关注HarmAmp基准和TrajSafe方案，直接用于评估和加固自己的模型。

原文

12:04

arXiv cs.AI@Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee

推理语言模型在复杂推理任务上表现优异，但在非英语输入上仍存在多语言推理差距，主要原因是语言理解失败。英语翻译可以缓解这一问题，但并非所有输入都需要翻译。为此，研究者提出 Luar（语言理解边界感知强化学习框架），训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中，Luar 优于标准 GRPO 等方法，尤其在低资源语言上提升显著。该框架能避免不必要的翻译，并泛化到未见过的低资源语言。项目代码已开源。

论文推理模型多语言强化学习翻译开源/仓库

推荐理由：多语言推理场景下，翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」，做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。

原文

12:04

arXiv cs.LG@Kaito Shiku, Ahtisham Fazeel Abbasi, Ryoma Bise, Yuichiro Iwashita, Kazuya Nishimura, Andreas Dengel, Muhammad Nabeel Asim

该研究提出了一种名为GC-MoE的新方法，用于从组织学图像和细胞位置预测单个细胞的基因表达，从而降低单细胞空间转录组学测量的成本。与现有方法不同，GC-MoE通过路由网络估计细胞类型概率，并软性地组合细胞类型特异性专家来预测基因表达，从而捕捉细胞间的表达变异性。该方法还引入了细胞类型特异性共表达感知预测器和轻量级细胞间交互注意力模块，以编码细胞类型依赖的基因程序。在公共单细胞空间转录组数据集上的实验表明，GC-MoE在性能上优于现有的单细胞和基于点的基线方法。这项工作为从组织学图像推断单细胞基因表达提供了更精确的工具，对生物医学研究具有重要意义。

论文空间转录组学专家混合模型细胞类型特异性组织学图像基因表达预测

推荐理由：做空间转录组学或计算病理学的研究者可以直接用GC-MoE替代昂贵的单细胞测序，从常规组织切片中预测单细胞基因表达，省成本又提精度。

原文

12:03

arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen

精选72°

MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台，测试智能体与个人账户和本地数据库交互的能力。实验发现，当前最先进的智能体在处理个人化工具时表现挣扎，凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源，可供开发者直接使用。

论文 MCP/工具智能体基准测试个人应用开源/仓库

推荐理由：MCP-Persona 填补了现有基准忽视个人化工具交互的空白，做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。

原文

12:03

arXiv cs.LG@Zhiwei Gao, Liu Yang, George Em Karniadakis

现有神经算子评估主要依赖预测误差，但准确输出不代表模型学到了正确的局部动力学结构。研究者提出一种基于雅可比矩阵的谱审计方法，通过将网络输出对查询函数求导，得到学习到的切向算子，再投影到傅里叶模式上，揭示频率依赖增益、相位结构和跨模式耦合等局部谱特征。该方法在多个基准测试中发现了预测误差无法暴露的问题，如高频退化、错误相位恢复和提示-算子不一致。结果表明，预测精度和局部算子保真度是神经算子的两个独立属性，该框架可用于稳定性、敏感性和算子一致性的诊断。

论文神经算子谱审计雅可比矩阵 PDE代理模型局部动力学

推荐理由：这篇论文给做神经算子、物理信息学习或科学计算的团队提供了一个关键诊断工具——预测误差可能骗人，但雅可比谱审计能揪出模型学没学到真正的物理机制。做PDE代理模型或算子学习的建议点开看看，能帮你避免模型“看起来准、用起来崩”的坑。

原文

12:03

arXiv cs.AI@Bardia Mohammadi, Lars Klein, Akhil Arora, Laurent Bindschaedler

论文提出“幽灵工具调用”概念，指AI代理在投机执行未来工具调用时，向外部服务泄露用户意图的问题。即使代理后续放弃该分支，外部观察者已获取的信息无法撤回。作者提出“投机工具隐私契约”运行时抽象，将提交前的观察视为独立于状态变更的一等效应。原型系统评估了12种策略，发现只有发布时修改或抑制调用参数/目标的策略才能减少推断，事后过滤、只读限制和访问控制列表均无效。

论文 AI代理隐私保护投机执行工具调用论文

推荐理由：做AI代理安全与隐私的开发者会关心——投机执行加速了响应，却让用户意图裸奔给外部服务，这篇论文给出了可落地的运行时方案，值得研究隐私工程的团队细读。

原文

12:03

arXiv cs.LG@Zhensheng Wang, Xiaole Liu, Wenmian Yang, Kun Zhou, Yiquan Zhang, Weijia Jia

现有表格问答系统多聚焦于历史数据查询，无法进行面向未来的数值预测。为此，研究者提出了新任务——开放域表格问答的未来数据预测与推理，并构建了首个基于房地产数据的时序预测与推理数据集ODTQA-FoRe。该任务面临历史数据精准检索、LLM预测能力不足、多样化查询标准化回答等挑战。为解决这些问题，团队提出了TimeFore框架，将问题分解为检索器、预测器和分析器三个协作角色，分别负责SQL数据获取、外部时序模型调用和结果综合。实验表明，TimeFore在预测准确性和回答一致性上显著优于基线方法。

论文表格问答时序预测 LLM智能体数据集房地产数据

推荐理由：做表格问答或时序预测的团队终于有了专门的数据集和框架——TimeFore用LLM+外部模型解决了LLM本身预测不准的痛点，做数据分析和AI应用的开发者可以直接参考其协作架构。

原文

12:03

arXiv cs.LG@Mind Lab, :, Song Cao, Vic Cao, Kaijie Chen, Bunny Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Autumn Jin, Fancy Kong, Kyrie Lei, Alexy Li, Dawn Li, Ray Li, Theo Li, Wenhao Li, Jiayi Lin, Domini Liu, Heshan Liu, Kairus Liu, Logan Liu, Maeve Luo, Runism Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Maxwell Yao, Regis Ye, Wenlin Ye, Yanying Ye, Josh Ying, Danney Zeng, Salmon Zhan, Anya Zhang, Ruijia Zhang, Shiyang Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Sizer Zhou, Xinyue Zhu, Murphy Zhuang

本文重新审视参数高效微调（PEFT）的角色，提出将其视为在强大基础模型上附加的持久本地状态，而非仅作为全参数微调的廉价替代。研究围绕三个扩展维度展开：向上扩展（更强的共享先验使小适配器更有用）、向下扩展（研究适配器的最小可靠尺寸）以及向外扩展（大量持久适配实例共存）。MinT 基础设施示例展示了如何管理适配器的身份、版本、来源、评估和服务驻留。结果表明，PEFT 可以成为持久个性化模型的紧凑载体，而不仅仅是预算有限的微调替代方案。

论文参数高效微调个性化模型扩展性基础模型 MinT

推荐理由：这篇论文重新定义了 PEFT 的潜力——从省钱技巧变成个性化模型的基石，做大规模模型部署和个性化服务的团队值得关注，尤其是那些需要为每个用户维护独立模型状态的场景。

原文

12:02