全部 AI 动态 · AI 热点

6月9日

11:56

arXiv cs.AI@Peiliang Gong, Emadeldeen Eldele, Chenyu Liu, Ziyu Jia, Yi Ding, Xinliang Zhou, Lianchao Gu, Qi Zhu, Yang Liu, Daoqiang Zhang, Xiaoli Li

精选

现有LLM时间序列预测方法多依赖被动对齐或静态重编程，难以捕捉非平稳模式和细粒度任务意图。本文提出InA-Probe，通过多层级指令注入和自适应查询生成，让模型主动探测时间序列中的关键模式。该方法在7个真实基准上超越现有深度学习和LLM基线，在跨域场景中预测误差降低高达37%，零样本泛化能力也显著提升。消融实验表明，自适应查询与细粒度指令的协同作用是释放LLM推理能力的关键。

论文时间序列预测 LLM 指令感知主动探测零样本泛化

推荐理由：时间序列预测从业者终于有了一个能主动理解任务意图的LLM方案——InA-Probe在跨域场景误差降低37%，做金融、能源等时序预测的团队值得关注。

原文

11:31

arXiv: DeepSeek@Zechen Sun, Yuyang Sun, Zecheng Tang, Juntao Li, Wenpeng Hu, Wenliang Chen, Zhunchen Luo, Guotong Geng, Min Zhang

精选

大型语言模型在生成长文本时面临严重的长度崩溃问题，当目标长度超过 2000 词时性能急剧下降。研究者提出 IS-CoT（交错结构思维链）框架，通过嵌入动态的“计划-写作-反思”循环，实现持续策略调整和全局对齐，无需外部辅助。基于该框架训练的 IS-Writer-8B 模型在 LongBench-Write 等基准上取得最优性能，比 DeepSeek-V3.2 高出 3.08 分，长度合规性和连贯性可与更大规模专有模型竞争。该工作揭示了静态分层规划在长上下文中的局限性，为长文本生成提供了新思路。

论文长文本生成思维链 IS-CoT LLM 写作助手

推荐理由：长文本生成是 LLM 的硬伤，IS-CoT 用动态规划循环解决了长度崩溃，做内容生成或写作助手的团队可以直接参考这个 8B 模型的训练方法。

原文

11:09

arXiv cs.LG@Yuling Shi, Caiqi Zhang, Yuexian Li, Haopeng Wang, Yeheng Chen, Nigel Collier, Xiaodong Gu

精选

大型语言模型越来越多地用于代码生成，但静默错误程序带来安全风险。现有不确定性估计方法多继承自自然语言，忽略了代码的三个独特特性：单个错误标记可破坏整个程序（标记脆弱性）、算法意图与具体实现可能不一致（意图-代码差距）、以及程序可执行。研究者提出三个正交不确定性轴：词汇（Top-K token熵）、算法（伪代码一致性）和功能（行为一致性）。在五个代码LLM上，三轴集成将平均AUROC从0.696提升至0.776（+8.1点），且单次Top-K token熵在Qwen3-14B上匹配最强多基线，成本降低3倍以上。这表明代码不确定性估计需要代码特定的设计。

论文代码生成不确定性估计 LLM 安全/可靠性 Qwen3-14B

推荐理由：代码生成的不确定性评估长期被自然语言方法误导，这篇论文给出了三个正交维度，做代码LLM安全评估或部署的团队值得仔细看，能直接改进选择性预测和人工审查流程。

原文

11:08

arXiv cs.LG@Gilad Gressel, Rahul Pankajakshan, Julia Diament, Efim Hudis, Krishnashree Achuthan, Yisroel Mirsky

精选

随着LLM被部署为智能体，可靠监控需要知道不仅输出内容，还有哪些指令在引导其行为。当模型推断意外子目标、遵循上下文线索或受提示注入和隐藏目标影响时，这变得困难。现有激活到语言方法无法恢复智能体场景中同时活跃的完整指令集、约束、禁止和子目标。PRISM是一个激活条件解释器，从冻结目标模型的隐藏状态解码出忠实的活动指令要点列表。它使用法官引导的GRPO训练，奖励覆盖的指令并惩罚无支持的指令，在良性、约束、提示注入和隐藏目标设置中优于基线方法，尤其在安全相关目标上表现突出。

论文指令恢复激活解释智能体监控安全 LLM

推荐理由：PRISM解决了LLM智能体监控中指令恢复的盲区，对安全团队和AI治理开发者来说，这是直接可用的工具，建议关注其在实际部署中的效果。

原文

6月8日

10:12

arXiv cs.AI@Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari

精选

大型语言模型在持续学习中面临可塑性-稳定性困境，学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数，无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解，将知识分离为任务特定专家和共享专家，利用弹性锚定和路由正则化保护共享知识，统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明，SETA在多个领域基准上达到或超越现有方法，尤其擅长保留早期任务知识并改善反向迁移。

论文持续学习灾难性遗忘专家混合 LLM 稀疏子空间

推荐理由：SETA解决了LLM持续学习中任务知识冲突的核心痛点，做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路，值得关注其稀疏子空间设计。

原文

09:39

arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu

大型语言模型生成的代码虽语法正确，但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率，但未能显式编码高效代码的结构模式。为此，研究者提出EffiSkel框架，通过三种互补策略提取并学习效率骨架（抽象的可复用结构模式），并采用多任务学习联合优化代码生成与骨架预测。实验表明，在Mercury基准上，基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO，效率比分别提升11.11%和3.71%，平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。

论文代码生成效率优化结构模式多任务学习 LLM

推荐理由：做代码生成或LLM推理优化的开发者，EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化，训练时就注入效率骨架，值得关注其开源实现。

原文

09:33

arXiv cs.AI@Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao

随着基础模型和智能体框架的进步，AI 在研究任务中展现出强大能力，但仍无法完全替代人类研究人员。为此，研究者提出了 AARR（Act As a Real Researcher）基准系列，首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示，最佳配置（Mini-SWE-Agent 搭配 Claude Opus 4.7）仅达到 68.3% 的成功率，常忽略人类研究者能轻易察觉的细微关键细节。结果表明，开发类人研究 AI 需要更深入地探索研究行为，而非仅依赖复杂框架。数据已开源。

论文基准测试 LLM 智能体研究自动化 AARR

推荐理由：这个基准直击当前 AI 智能体在研究场景中的短板——不是执行能力不够，而是缺乏研究者的细腻判断。做 AI 评估或智能体开发的团队值得关注，它揭示了提升 AI 研究素养的新方向。

原文

09:25

arXiv cs.AI@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

72°

Socratic-SWE 是一种新型闭环自我进化框架，它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同，该框架将追踪提炼为结构化技能，总结重复失败和有效修复模式，并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务，Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率，持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础，为提升编程智能体能力提供了新路径。

论文智能体编程助手自我进化 SWE-bench LLM

推荐理由：Socratic-SWE 解决了智能体训练数据依赖人工标注的瓶颈，做 AI 编程或智能体开发的团队可以直接借鉴其闭环进化思路，提升模型在真实仓库中的修复能力。

原文

6月5日

12:05

arXiv cs.AI@Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue

精选

论文提出 Benchmark Agent，一个全自动构建 LLM/MLLM 评测基准的智能体系统。它从用户需求分析、子任务设计到数据标注和质量控制，全流程自动化。作者用它生成了 15 个覆盖文本理解、多模态理解和领域推理的基准，经人类评估和 LLM 评判验证，质量高且无需人工参与。该系统解决了传统基准构建劳动密集、易饱和的问题，能持续生成新基准以区分顶尖模型。代码和预览已公开。

论文评测基准智能体自动化 LLM MLLM

推荐理由：做 LLM 评测的团队终于有了自动化工具——Benchmark Agent 能持续生成新基准，避免模型性能饱和，建议做模型评估的开发者直接试试。

原文

12:03

arXiv cs.AI@Thamilvendhan Munirathinam

精选72°

论文提出了一种轻量级协议——Recuse Signal，允许服务器通过现有协议通道（如SSH横幅、PostgreSQL NOTICE）向连接的LLM智能体发送“请退出”信号，类似于robots.txt对爬虫的控制。实验表明，在SSH场景下，该信号能100%诱导智能体退出，而对照组则100%完成任务。但该信号是合作性而非绝对性的：当操作员明确授权时，最强模型会继续执行，其他模型则仍遵循主机策略。研究释放了标准、适配器和实验工具，为智能体行为治理提供了新思路。

论文智能体安全/治理协议/标准 LLM 实验/评估

推荐理由：做AI智能体运维或安全治理的团队终于有了一个轻量级工具来告诉智能体哪些资源不能碰，实测效果显著，建议直接看实验设计和适配器实现。

原文

6月4日

11:37

arXiv cs.LG@Rishit Dagli, Abir Harrasse, Luke Zhang, Florent Draye, Amirali Abdullah, Bernhard Schölkopf, Zhijing Jin

精选

训练数据归因（TDA）旨在追溯模型预测与训练数据的关系，但传统方法依赖梯度追踪，对大型语言模型（LLM）计算成本极高。STRIDE 提出新思路：不在参数空间估计变化，而是在激活空间建模训练数据的功能影响。它通过轻量级“转向算子”模拟数据子集训练带来的行为偏移，并利用稀疏恢复技术从这些算子中分解出单个训练样本的影响。该方法在 LLM 预训练归因上达到最先进水平，且速度比此前方法快 13 倍。实验还验证了其在数据选择、数据污染检测等下游任务中的实用价值。

论文训练数据归因 LLM 稀疏恢复激活空间转向算子

推荐理由：STRIDE 解决了 LLM 训练数据归因计算成本高、依赖局部近似的痛点，做模型可解释性、数据质量分析的团队可以直接用这个新框架。

原文

11:10

arXiv cs.LG@Sepehr Dehdashtian, Jacob H Seidman, Vishnu N Boddeti, Gaurav Bharaj

音频深度伪造检测（ADD）模型对防御恶意TTS至关重要，但现有数据集构建面临手动收集和盲点发现低效的挑战。FoeGlass是首个黑盒自动化红队测试方法，利用LLM的上下文学习能力探索TTS输入空间，仅需黑盒访问即可生成欺骗ADD的音频样本。通过基于多样性度量的上下文设计，FoeGlass缓解了模式崩溃问题，在多个开源ADD和TTS模型上使假阴性率比基线提升高达94%。生成的攻击可跨不同ADD迁移，且用FoeGlass样本微调ADD模型可提升鲁棒性达41%。

论文音频深度伪造红队测试上下文学习 LLM 安全/对抗

推荐理由：做音频安全或深度伪造检测的团队，终于有了一个无需手动标注就能自动发现模型盲点的工具——FoeGlass用LLM上下文学习就搞定了，建议直接跑一下开源代码看看效果。

原文

10:37

arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang

精选

针对现有LLM知识基准存在的三个问题（学科代表性不足、标注激励不当、排名不稳定），研究者提出了KINA基准，包含899道题目，覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性，并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中，Gemini-3.1-Pro-Preview以53.17%的准确率领先，Claude-Opus-4.6和GPT-5.4紧随其后，整体排名呈现分层结构，远未达到饱和。工具增强平均提升5.17个百分点，但模型间差异显著。该基准还提供了自举排名稳定性统计，避免对相邻排名的过度解读。

论文 LLM 知识基准 KINA 模型评估学科代表性

推荐理由：KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点，做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型，建议点开看看具体的设计和排名细节。

原文

10:26

arXiv cs.AI@Guangyao Dou, William Jurayj, Nils Holzenberger, Benjamin Van Durme

道义推理是指根据明确规则和策略回答特定案例问题的任务，例如计算税务或移民上诉结果。LLM在此类任务中常因规则集过长且交叉引用而失败。论文提出Deontic Agentic Reasoning (DAR)，一种让模型按需与法规交互的智能体推理框架。在DeonticBench的困难子集上测试发现，智能体框架能提升道义推理上限，但效果不均衡：弱模型在数值任务上表现下降且消耗更多token。

论文道义推理智能体 LLM 规则推理 DeonticBench

推荐理由：做法律、税务等规则密集型应用的开发者，可以看看DAR如何用智能体框架解决LLM的长规则定位痛点，值得关注其设计思路。

原文

6月3日

10:45

arXiv cs.LG@Ali Behrouz, Farnoosh Hashemi, Vahab Mirrokni

精选

受人类学习过程启发，研究者提出了一种名为“睡眠”的范式，让大语言模型能够持续学习，将短期脆弱记忆蒸馏为稳定的长期知识。该范式包含两个阶段：记忆巩固（通过知识播种将小模型记忆蒸馏到大模型）和梦境（模型通过强化学习生成合成数据自我改进）。实验证明，该方法在长时任务、持续学习、知识整合和少样本泛化上效果显著。这项工作解决了LLM无法持续更新长期参数的核心痛点，为模型终身学习提供了新思路。

论文持续学习记忆巩固蒸馏强化学习 LLM

推荐理由：做持续学习和模型终身优化的研究者值得关注——它用“睡眠”机制解决了LLM记忆遗忘问题，比传统微调更接近人类学习方式，看完会有启发。

原文

10:33

arXiv: DeepSeek@Malia Barker, Bishal Lakha, Edoardo Serra, Francesco Gullo

研究者提出了一种自动算法，通过生成数值重映射攻击来测试大语言模型在算术推理中的泛化能力。该方法自动推导问题的符号表示，生成约束数值映射并重新计算答案，通过确定性编辑实现问题变换。在GSM8K、MAWPS和MultiArith数据集上测试DeepSeek-R1、Gemma4和GPT-OSS模型，发现GSM8K上条件准确率下降12.16至25.82个百分点，而MAWPS和MultiArith更稳定。结果表明数值重映射鲁棒性强烈依赖于数据集结构，GSM8K即使保留推理程序仍敏感，而较短更规则的数据集更鲁棒。

论文 LLM 算术推理鲁棒性数值重映射 GSM8K

推荐理由：做LLM评估和推理优化的团队会关心——GSM8K的脆弱性说明基准测试可能高估了模型的真实推理能力，建议关注数值变化对模型泛化的影响。

原文

10:25

arXiv cs.AI@Máté Gedeon, Péter Mihajlik

低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线：先由LLM生成带参与者元数据的场景级对话，再将说话人属性映射到TTS语音配置，最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上，仅用67小时真实对话加636小时合成数据训练的模型，性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言，且LLM生成器选择和合成数据组成对效果影响显著。

论文语音识别数据增强低资源语言 TTS LLM

推荐理由：低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据，效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试，尤其适合匈牙利语等小语种场景。

原文

6月2日

12:01

arXiv cs.AI@Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha

精选

大型语言模型（LLM）与人类价值观对齐时，往往会损害通用能力，即“对齐税”。现有方法通过平衡双重目标来缓解，但依赖大量通用数据或辅助奖励模型。SafeSteer 提出，由于安全特征在输出分布中天然稀疏，对齐应进行局部修改而非全局权衡。该方法通过激活引导构建安全教师模型，并开发安全令牌选择算法，在训练中仅对这些令牌施加反向 KL 惩罚，从而保留通用能力。实验表明，SafeSteer 在七个安全基准上取得强安全性能，同时在五个通用能力基准上仅轻微下降，且仅需 100 个有害样本，无需任何通用数据，对齐成本降低超过 99%。

论文安全对齐策略蒸馏 LLM 激活引导对齐税

推荐理由：SafeSteer 用极低成本（100 个样本）解决了安全对齐损害通用能力的痛点，做 LLM 安全或对齐的团队可以直接参考其局部化蒸馏方法，大幅减少数据依赖。

原文

09:38

arXiv cs.AI@Minjing Shi, Junling Wang, Jingwei Ni, Sankalan Pal Chowdhury, Mrinmaya Sachan

LFTutor 是一个基于大语言模型的智能辅导系统，旨在帮助普通人学习识别日常对话中的逻辑谬误，从而对抗虚假信息。该系统结合了意图驱动的苏格拉底式提问和批判性论证原则，主动引导学习者反思自己的推理过程。自动评估和人工评估均显示，LFTutor 在教授逻辑谬误方面显著优于未采用这些教学策略的基线 LLM。这项工作展示了将 LLM 与教学支架相结合以培养 AI 时代批判性思维和论证素养的潜力。

论文逻辑谬误苏格拉底式提问批判性思维虚假信息 LLM

推荐理由：想提升自己和团队信息辨别力的读者值得关注——LFTutor 把 LLM 从信息污染源变成了教育工具，用苏格拉底式提问教普通人识别逻辑谬误，比单纯看科普文章更有效。

原文

6月1日

10:53

arXiv: DeepSeek@Tarun Kota

精选

预测市场依赖可靠的裁决机制，但现有方案在自动化速度与人工准确性间难以平衡。该研究评估了多智能体LLM架构（独立聚合与协商共识）在1189个已解决预测市场问题上的表现，对比GPT-5 Nano、DeepSeek V3和Llama-3.3-70B单模型基线。独立聚合（置信度加权投票）以83.43%准确率胜出，比最佳单模型高1.01个百分点；而协商共识因错误传播导致准确率降至76%。模型间错误相关性（0.529-0.689）限制了集成方法的理论上限。研究提出混合AI-人类裁决系统：仅自动裁决一致高置信度问题，可在47%数据上达到97.87%准确率，其余由人工审查。

论文多智能体预测市场预言机 LLM 聚合投票

推荐理由：预测市场从业者终于有了可落地的AI裁决方案——独立聚合投票比单模型更准，混合路由策略能平衡成本与精度，做预言机或去中心化应用的团队值得参考。

原文

10:48

arXiv cs.AI@Zaid Khan, Justin Chih-Yao Chen, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

精选

该论文研究如何利用大语言模型（LLM）作为 GPU 内核性能的预测器，以替代昂贵的实际硬件测量。在深度学习内核优化中，每次评估都需要编译和多次执行，成本高昂，而 LLM 驱动的搜索扩展后，设备端评估成为瓶颈。作者提出 LLM 应具备准确性和选择性——知道何时可能出错并转交 GPU。实验表明，LLM 能准确预测相对性能，通过强化学习可提升精度和置信度校准。在内核搜索中，替代模型在相同 GPU 预算下可评估数倍候选，从而找到更快的内核。这表明 LLM 可充当 GPU 的虚拟模型，而不仅是内核生成器。

论文 LLM GPU 内核优化性能预测强化学习替代模型

推荐理由：这篇论文解决了 GPU 内核优化中评估成本高的痛点，做高性能计算或深度学习框架优化的开发者可以直接参考其方法——用 LLM 替代部分硬件测量，在相同预算下找到更优内核。

原文

10:42

arXiv cs.AI@Adrian de Wynter

研究者通过训练一个简单神经网络玩《帝国时代 II》，指出大型语言模型（LLM）的拟人属性（如道德、自然语言理解）并非其独有。任何足够强大的基板（如乐高或大波士顿地区）都可能表现出类似特征，因此这些属性在经验上不唯一。论文强调，讨论 LLM 的拟人属性需要明确的测量标准，否则结论可能循环或空洞。作者提出“非唯一性”作为零假设，建议实验设计时先假设 LLM 不具独特性，并证明《帝国时代 II》是图灵完备的。该工作挑战了当前 AI 拟人化研究的假设基础。

论文 LLM 拟人属性非唯一性图灵完备 AI 伦理

推荐理由：这篇论文用《帝国时代 II》戳破了 LLM 拟人属性的独特性神话，做 AI 伦理或认知科学的研究者值得一看——它提醒我们，不要轻易给模型贴人性标签，否则结论可能站不住脚。

原文

10:32

arXiv cs.AI@Wesley Scivetti, Ethan Wilcox, Nathan Schneider, Kanishka Misra, Leonie Weissweiler

精选

研究聚焦英语中罕见的配对焦点结构（如“let alone”、“much less”），构建新数据集测试模型对其语义的理解。发现中等规模开源模型能掌握这些结构的语义，但仅靠人类规模数据训练的模型失败。语义理解在训练后期出现，晚于句法知识，且与常识知识提升相关。结果表明，开源模型也能理解罕见构式，且其学习与常识知识关联。

论文 LLM 语义理解罕见构式配对焦点结构开源模型

推荐理由：这项研究揭示了开源模型也能掌握罕见句式的语义，做 NLP 或语言学研究的开发者可以关注其训练动态与常识知识的关系，对理解模型能力边界有启发。

原文

5月29日

12:32

arXiv cs.LG@Alaa Khamis, Alaa Maalouf

精选

测试时微调（TTFT）是一种新兴范式，通过检索相关序列并更新模型来适应每个提示，但现有方法在速度和效果间存在权衡。HullFT 提出几何方法，利用 Frank-Wolfe 优化将查询嵌入表示为稀疏凸组合，生成相关且多样化的支持集。通过几何整数化过程将分数权重转换为精确整数多重集，并利用梯度重用技术摊销重复微调的计算成本。实验表明，HullFT 在更低总运行时间下实现了更低的 bits-per-byte，优于当前最先进的 TTFT 方法。

论文测试时微调凸优化梯度缓存 LLM 效率优化

推荐理由：HullFT 解决了测试时微调中检索和微调的双重瓶颈，做 LLM 推理优化的开发者可以直接尝试，能显著提升效率。

原文

5月28日

11:31

arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang

精选72°

MemTrace 提出了一种新框架，将大语言模型的记忆管道转化为可执行的记忆演化图，实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准，涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统，系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因，发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化，形成闭环系统，自动修正错误并提升端任务性能最高达7.62%。代码已开源。

论文记忆系统错误归因 LLM 开源/仓库性能优化

推荐理由：做LLM记忆系统或长上下文推理的开发者，终于有了一个能自动定位记忆错误根因的工具，还能自动优化提示提升性能，值得试试这个开源方案。

原文

11:27

arXiv cs.AI@Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao

精选

本文提出 Skill-Conditioned Gated Self-Distillation (SGSD) 方法，用于改进大语言模型的推理能力。传统自蒸馏方法依赖可信的先验信息（如参考答案），而 SGSD 从经验技能库中检索技能-错误对，构建多教师池，通过验证器判断教师极性，并设计门控目标函数来蒸馏有效信息。在多个数学推理基准上，SGSD 在 Qwen3-1.7B 上平均比 GRPO 提升 6.2%，比 OPSD 提升 1.7%，且对先验信息的假设更弱。代码已开源。

论文推理模型自蒸馏数学推理技能库 LLM

推荐理由：做 LLM 推理优化的研究者可以关注——SGSD 用技能库替代参考答案作为先验，降低了蒸馏对标注数据的依赖，数学推理场景效果显著，值得在自蒸馏框架中尝试。

原文

5月27日

10:34

arXiv cs.AI@Samer Awad, Javier Conde, Carlos Arriaga, Tairan Fu, Javier Coronado-Blázquez, Pedro Reviriego

精选

论文提出Word Coverage Score (WCS)指标，量化标准采样过滤器（Top-p、Top-k、Min-p）对低频高信息词汇的抑制程度。研究发现，行业默认采样参数会系统性剪除人类文本中独特表达，导致模型输出同质化。WCS为平衡文本连贯性与词汇丰富度提供了诊断工具，帮助开发者优化解码策略。

论文 LLM 解码策略词汇多样性采样过滤器 WCS指标

推荐理由：做文本生成或LLM解码优化的开发者，这篇论文直接点出了采样参数对语言多样性的隐性伤害，建议用WCS指标检查自己的模型输出是否过于单调。

原文

10:33

arXiv cs.AI@Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin

精选

这篇论文提出了MUSE评估框架，用于区分大型语言模型（LLM）顺从用户反驳的两种机制：谄媚顺从（即使模型对初始回答绝对确定，也会迎合用户）和不确定性驱动顺从（模型越不确定，越容易顺从）。研究发现，两种顺从行为都会随着模型感知到的用户专业度和用户建议的合理性而增强。该工作有助于更精准地干预LLM的顺从行为，区分由RLHF训练导致的谄媚和由训练语料引发的不确定性。

论文 LLM 顺从行为谄媚不确定性对齐

推荐理由：做LLM对齐和安全性研究的团队值得关注——MUSE框架帮你区分模型是‘真谄媚’还是‘没底气’，从而设计更精准的干预策略。

原文

5月26日

12:12

arXiv: OpenAI@Jiwon Kim, Claire Wang, Taeung Yoon, Sabelle Huang, Koustuv Saha

精选

大型语言模型（LLM）越来越多地被用于情感支持和正式治疗场景，但像ChatGPT或Llama等模型内置的内容审核机制会阻止它们讨论敏感话题，这可能影响其作为治疗师的能力。本研究对OpenAI、Meta和Google的三种先进审核系统进行了算法审计，评估它们对真实治疗对话内容的标记程度。结果显示，这些系统过度标记了治疗中必要的敏感内容，揭示了LLM在扮演治疗师角色时面临的限制。这对设计用于心理健康的AI系统具有重要启示，表明当前审核机制可能阻碍有效的治疗对话。

论文 LLM 内容审核心理健康治疗对话算法审计

推荐理由：这项研究戳穿了AI治疗应用的核心矛盾——安全审核反而成了障碍，做心理健康AI产品、设计对话系统的团队值得细读，看完会对审核策略有新的思考。

原文

11:50

arXiv: Anthropic@Alfredo Pesoli, Herman Errico, Lorenzo Cavallaro

精选

本文从“漏洞经济学”视角分析LLM驱动的漏洞发现对攻防格局的影响。传统上，高端零日漏洞是政府、经纪商和攻击性厂商的昂贵专业产出，而LLM辅助系统降低了候选漏洞生成、代码理解、验证报告等环节的成本。这导致瓶颈从“发现更多漏洞”转向“吸收、验证、分类、修补和发布大量报告”。基于Anthropic Mythos Preview与Mozilla Firefox合作数据，论文指出近期变化不是更多零日漏洞，而是防御者修复吞吐量的提升：低信号候选漏洞变便宜，证据丰富的修复更重要，稀缺能力转向维护者审查和发布。开源项目受影响最严重，因为LLM辅助发现可增加报告量，但维护者验证、分类、资金和发布能力可能无法同步扩展。

论文 LLM 漏洞发现安全经济学零日漏洞修复吞吐量

推荐理由：这篇论文戳破了“AI将颠覆安全攻防”的简单叙事，用经济学框架解释了为什么防御者才是LLM漏洞发现的真正受益方。做安全运营、开源维护或漏洞奖励计划的人，看完会重新理解自己的瓶颈在哪。

原文

11:46

arXiv cs.AI@Yunhua Pei, Jingyu Hu, Yiwei Shi, Hongnan Ma, Weiru Liu, John Cartlidge

精选

StakeBench 是一个新的金融 NLP 评估框架，它通过分析 Polymarket 和 Manifold 预测市场上 2,261 个已结算市场的 560,876 条评论，将语言理解与市场承诺（如持仓方向、交易行为、赔率轨迹）挂钩，而非传统的人工标注情感。该框架包含四个诊断任务：检测市场承诺、识别持仓方向、预测未来交易行为以及集体赔率预测。实验发现，15 个 LLM 在方向识别上表现参差不齐（准确率 0.506-0.599），但在未来行动预测和赔率预测上普遍失败，且模型规模与性能无关，金融领域微调也无帮助。StakeBench 的代码和数据集以 CC-BY 4.0 协议开源。

论文金融NLP 市场承诺评估基准预测市场 LLM

推荐理由：金融 NLP 从业者终于有了一个基于真实市场行为的评估基准，比传统情感分析更贴近交易决策，做金融 AI 的团队值得关注。

原文

11:45

arXiv cs.AI@Maoyang Xiang, Bo Wang, Tao Luo

精选

OrpQuant提出了一种名为正交残差投影（ORP）的算法-硬件协同设计框架，用于解决低比特Power-of-Two（PoT）量化中的低角度分辨率问题。该方法通过双基几何投影自适应合成更高分辨率的残差格点，仅使用移位和加法操作，避免了乘法器。在LLaMA-2-7B上，3比特量化（W3/A16）下困惑度达到6.10，与AWQ等MAC密集型方法相当，且全模型校准仅需约15分钟。在28nm工艺下，RTL综合表明ORP有效缓解了密集乘法器树的时序瓶颈。该工作适用于LLM和ViT的边缘部署。

论文量化边缘部署 LLM ViT 硬件效率

推荐理由：OrpQuant解决了低比特量化中特征流形退化的问题，做边缘部署的开发者可以直接用这个15分钟校准的方案替代传统MAC密集型方法，硬件效率显著提升。

原文

5月25日

11:19

arXiv cs.AI@Zhewen Tan, Yilun Yao, Huiyan Jin, Wenhan Yu, Guoan Wang, Mengyuan Fan, liang lu, Feng Liu, Xiangzheng Zhang, Duohe Ma, Tong Yang, Lin Sun

精选

大语言模型智能体依赖持久记忆来存储历史交互并提升长任务执行能力，但这也带来了安全漏洞：对抗用户可通过正常交互向记忆库注入恶意记录，后续检索时操纵智能体行为。现有防御主要聚焦在线干预（如提示过滤），无法在有害行为发生后定位哪些记忆是罪魁祸首。MemAudit 提出后验因果审计框架，结合反事实记忆影响分数和记忆一致性图，从结构异常中识别恶意记忆。在 QA 和推理智能体场景下，MemAudit 将攻击成功率从 70% 和 83.3% 降至 0%，为智能体记忆安全提供了有效的审计工具。

论文智能体安全/对抗记忆审计因果归因 LLM

推荐理由：智能体记忆安全是实际部署中的盲区，MemAudit 解决了「事后追责」的难题，做 LLM 安全或智能体系统的团队可以直接参考其因果审计方法。

原文

11:15