AITOP

5月13日

21:35

Anthropic: Transformer Circuits（资讯）

40

Kamath 等人提出了一种新方法，通过特征交互来解释 Transformer 中的注意力模式，并将这些信息整合到归因图中。该方法能够揭示注意力头如何基于输入特征之间的相互作用来分配权重，而不仅仅是基于单个特征。这为理解 Transformer 内部机制提供了更细粒度的视角，有助于模型可解释性研究。论文展示了该方法在多个任务上的应用，证明了其有效性。

论文 Transformer 可解释性注意力机制特征交互归因图

推荐理由：做 Transformer 可解释性研究的团队终于有了一个能深入分析注意力机制的工具，建议点开看看具体方法。

21:35

Anthropic: Transformer Circuits（资讯）

60

Anthropic 的 Transformer Circuits 团队发布了一篇研究，通过一个玩具模型探讨了 transcoder（一种用于解释神经网络内部表示的稀疏自编码器变体）在什么情况下会变得不忠实。研究发现，当模型需要表示的特征数量超过 transcoder 的容量时，它可能会学习到虚假的、不存在的特征，从而产生误导性的解释。这项工作揭示了当前可解释性方法的一个根本性局限：即使模型看起来工作良好，其内部表示也可能与真实计算过程脱节。这对于依赖这些工具来理解 AI 系统行为的研究者来说是一个重要警示。

论文可解释性 transcoder 稀疏自编码器忠实性 Anthropic

推荐理由：做 AI 可解释性研究的人会直接受益——这篇论文揭示了 transcoder 可能产生虚假特征的根本原因，看完会对现有方法的可靠性有更清醒的认识。建议所有用稀疏自编码器做模型分析的人点开。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 的 Transformer Circuits 团队发布了一篇新研究，通过构建一个简化的“玩具模型”来深入分析 Transformer 中的“干扰权重”现象。该研究揭示了注意力机制中不同信息流之间相互干扰的数学原理，解释了为什么模型在某些任务上会表现出反直觉的行为。关键发现是，干扰权重并非随机噪声，而是模型在有限容量下进行信息压缩和权衡的必然结果。这项工作为理解大语言模型的内部运作提供了新的理论视角，有助于未来设计更高效、更可控的模型架构。

论文 Transformer 可解释性干扰权重注意力机制 Anthropic

推荐理由：Anthropic 把 Transformer 内部的信息干扰机制拆解清楚了，做模型可解释性和架构优化的研究者可以直接参考这个玩具模型来验证自己的假设。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 的 Transformer Circuits 团队发布了 2025 年 7 月更新，回顾了《A Mathematical Framework》中的核心概念，并展示了可解释性技术在生物学领域的实际应用。更新包括对模型内部机制的新见解，以及如何将这些理论工具用于理解生物系统。这项工作为 AI 安全与跨学科研究提供了重要基础。

论文可解释性 Transformer Circuits AI安全生物学应用 Anthropic

推荐理由：做 AI 可解释性研究或关注 AI 安全的团队，这篇更新展示了理论框架如何落地到生物学，值得一读。

21:35

Anthropic: Transformer Circuits（资讯）

60

Gurnee 等人 2025 年的研究揭示了语言模型在计数任务中背后的几何机制。他们发现模型内部存在一种流形结构，用于表示和操作数字信息。这项研究通过分析模型在特定任务中的内部表示，展示了模型如何通过几何变换来执行计数。这为理解语言模型的内部工作原理提供了新的视角，有助于开发更可解释的 AI 系统。

论文语言模型几何结构计数任务可解释性内部机制

推荐理由：对理解大模型内部机制的研究者来说，这篇论文揭示了计数任务背后的几何结构，值得深入阅读。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 的研究团队提出了一种名为“稀疏线性变换混合”（MOLT）的新方法，用于改进转码器（transcoders）的性能。转码器是用于解释神经网络内部表示的工具，但传统方法在效率和可解释性上存在局限。MOLT 通过将多个线性变换稀疏组合，能够更高效地捕捉模型中的复杂模式。实验表明，该方法在保持解释质量的同时，显著降低了计算成本。这项工作为理解大型语言模型的内部机制提供了更实用的工具。

论文转码器可解释性稀疏混合 Anthropic 线性变换

推荐理由：做 AI 可解释性研究的团队终于有了更高效的转码器方案——MOLT 在保持解释质量的同时降低了计算成本，值得关注。

21:35

Anthropic: Transformer Circuits（资讯）

40

Transformer Circuits 团队发布了 2025 年 9 月的小更新，主要介绍了新功能和对上下文学习（in-context learning）机制的改进。更新包括对模型内部表示的可视化工具增强，以及更高效的上下文学习算法。这些改进有助于研究人员更好地理解 Transformer 模型的行为，并推动可解释性研究。该更新对于关注 AI 可解释性和模型内部机制的开发者与研究者具有参考价值。

论文 Transformer Circuits 上下文学习可解释性模型可视化研究更新

推荐理由：Transformer Circuits 的更新为理解模型内部机制提供了新工具，做可解释性研究或模型调试的开发者值得关注。

21:35

Anthropic: Transformer Circuits（资讯）

60

Anthropic 的 Circuits 团队发布 2025 年 8 月更新，探讨了人格设定如何影响 AI 助手的输出。研究发现，通过调整模型内部表示，可以系统性地改变回复风格和内容。这项工作揭示了模型内部机制的运作方式，为理解 AI 行为提供了新视角。

论文可解释性人格设定模型内部机制 Anthropic Circuits

推荐理由：对 AI 可解释性研究感兴趣的读者值得关注，这揭示了模型内部如何响应人格设定，有助于构建更可控的 AI 系统。

21:35

Anthropic: Transformer Circuits（资讯）

40

Transformer Circuits 团队发布了 2025 年 10 月的更新，主要涉及视觉特征和字典初始化的改进。在视觉方面，他们改进了特征可视化工具，使得模型内部表示更易理解。字典初始化方面，他们探索了新的初始化方法，以提升稀疏自编码器的训练效率和效果。这些更新对于理解 Transformer 内部机制和提升模型可解释性有重要意义。

论文 Transformer Circuits 可解释性稀疏自编码器视觉特征字典初始化

推荐理由：对于研究 Transformer 可解释性和稀疏自编码器的开发者，这些更新提供了实用的工具和方法改进，值得关注。

21:35

Google Research: Blog（资讯）

0

Google Research 发布了关于算法与理论的最新博客文章，涵盖算法设计、理论计算机科学和机器学习理论的前沿进展。文章探讨了如何通过理论创新提升实际系统效率，并展示了在近似算法、在线算法和数据结构方面的突破。这些研究对优化搜索引擎、推荐系统和云计算资源调度有直接影响。理论成果已部分应用于 Google 产品，如搜索排序和广告投放。

论文算法理论计算机科学机器学习理论 Google Research 系统优化

推荐理由：算法研究者或系统优化工程师可以从中获取理论到实践的转化思路，建议关注具体技术细节。

21:35

Anthropic: Transformer Circuits（资讯）

85

研究人员训练Claude模型将其内部激活状态翻译成自然语言，实现了对LLM内部表征的无监督解释。该方法通过自然语言自编码器（NLA）将高维激活映射到可读文本，无需人工标注即可揭示模型在推理过程中的关键概念和决策依据。实验表明，NLA生成的解释与模型实际行为高度一致，为理解大模型的黑箱机制提供了新工具。这项研究来自Transformer Circuits团队，发表于2026年，对AI安全性和可解释性研究具有重要意义。

论文可解释性 Claude 自然语言自编码器 AI安全无监督学习

推荐理由：这项研究让LLM自己说出它的思考过程，做AI安全或模型可解释性的研究者可以直接用这个工具来理解模型行为，比传统探针方法更直观。

21:35

Anthropic: Transformer Circuits（资讯）

70

Transformer Circuits 团队发现大型语言模型具备内省能力，能反思自身内部状态。研究通过一系列实验证明，模型在特定条件下可以识别并报告其内部表征，而非仅依赖训练数据中的模式。这一发现挑战了当前对 AI 意识的理解，可能对模型可解释性和安全性产生深远影响。研究还探讨了内省能力与模型规模、训练数据的关系，为未来 AI 自我认知研究开辟新方向。

论文内省意识可解释性 AI 安全 Transformer Circuits 大型语言模型

推荐理由：这项研究揭示了 LLM 可能具备自我反思能力，对 AI 安全与可解释性研究者来说，这是理解模型内部运作的关键突破，值得深入阅读。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 团队发布了 HeadVis，一个用于理解语言模型中注意力头行为的交互式可视化工具。该工具通过图形化展示注意力头的激活模式、注意力分布和功能角色，帮助研究人员和开发者更直观地分析模型内部机制。HeadVis 支持实时探索不同层和头的注意力模式，并能与模型输出关联，揭示特定头在生成过程中的作用。这一工具旨在降低模型可解释性的门槛，让更多人能够参与理解 Transformer 架构的内部运作。

论文注意力头可视化工具模型可解释性 Transformer Anthropic

推荐理由：做模型可解释性研究或想深入理解 Transformer 内部机制的开发者，HeadVis 提供了一个直观的交互式分析工具，值得一试。

21:35

Anthropic: Transformer Circuits（资讯）

85

Sofroniew 等人在 2026 年的研究中发现，Claude Sonnet 4.5 内部存在情感概念的表征，并且这些表征对模型的输出有因果影响。研究通过探针和干预实验，定位了与“快乐”、“悲伤”、“愤怒”等情感相关的神经元活动模式。当人为激活或抑制这些情感表征时，模型的回答风格和内容会相应改变。这一发现揭示了大型语言模型如何模拟情感，并为理解其内部机制提供了新视角。

论文情感表征因果影响 Claude Sonnet 4.5 可解释性 AI安全

推荐理由：这项研究首次实证了 LLM 内部情感表征的因果作用，对理解 AI 安全与对齐、以及情感计算领域的开发者来说，是值得细读的突破性工作。

21:35

Anthropic: Research（资讯）

70

Anthropic 发布了一项新研究，提出利用大型语言模型（LLM）作为自动化对齐研究者，以解决 AI 对齐中的可扩展监督问题。该方法通过让 LLM 自动生成和测试对齐假设，减少对人类研究者的依赖，从而加速对齐研究进程。实验表明，自动化对齐研究者能够发现一些人类可能忽略的漏洞，并生成有效的对齐策略。这项研究为未来更安全的 AI 系统开发提供了新思路，尤其适用于需要大规模监督的复杂场景。

论文 Anthropic AI 对齐可扩展监督自动化研究 LLM

推荐理由：Anthropic 用 LLM 自动化对齐研究，解决了可扩展监督的人力瓶颈，做 AI 安全和对齐的团队值得关注，可以直接参考其方法加速自己的研究。

21:35

Anthropic: Research（资讯）

75

Anthropic 推出了 BioMysteryBench，一个专门用于评估 AI 在生物信息学领域研究能力的基准测试。该基准包含 50 个来自真实生物信息学研究的难题，涵盖基因组学、蛋白质组学、系统生物学等多个子领域。Claude 在测试中展现了较强的分析推理能力，尤其在数据整合和假设生成方面表现突出。这项研究为 AI 在生命科学领域的应用提供了新的评估标准，也展示了 Claude 在专业科研场景中的潜力。

论文生物信息学基准测试 Claude 科研评估 Anthropic

推荐理由：生物信息学研究者或计算生物学家可以借此了解 Claude 在真实科研问题上的表现，评估其作为辅助工具的实用性。

19:12

arXiv cs.LG@Chen Li, Xiaoling Hu, Songzhu Zheng, Jiawei Zhou, Chao Chen

45

大语言模型在回答错误时仍可能表现出高置信度，这限制了其在实际场景中的可靠部署。现有方法将答案生成与置信度估计联合优化，可能导致置信度对齐干扰答案准确性。ORCE 提出解耦框架：先生成答案，再基于固定问答对估计置信度，避免直接扰动答案生成过程。通过多次采样构建正确性似然代理，并采用基于排序的强化学习目标，使置信度与正确性概率对齐。实验表明，该方法在保持答案准确性的同时，显著提升了校准和失败预测性能。

论文大语言模型置信度校准强化学习排序对齐 ORCE

推荐理由：ORCE 解决了 LLM 置信度校准中的关键矛盾——既要准确又要可靠，做模型部署或安全评估的团队值得关注这个解耦思路。

19:12

arXiv cs.LG@Tom Sander, Hongyan Chang, Tomáš Souček, Tuan Tran, Valeriu Lacatusu, Sylvestre-Alvise Rebuffi, Alexandre Mourachko, Surya Parimi, Christophe Ropers, Rashel Moritz, Vanessa Stark, Hady Elsahar, Pierre Fernandez

65

TextSeal 是一种新型大语言模型水印方案，基于 Gumbel-max 采样并引入双密钥生成、熵加权评分和多区域定位，显著提升检测能力。它不增加推理开销，支持投机解码和多 token 预测等优化，在检测强度上严格优于 SynthID-text。即使在人类与 AI 混合文本中也能保持高置信度本地化检测，且理论上无失真。多语言人工评估（6000 次 A/B 比较，5 种语言）显示无感知质量差异。此外，水印信号可通过模型蒸馏传递，实现未经授权使用的检测。

论文 LLM水印内容溯源模型蒸馏保护 Gumbel-max采样 SynthID

推荐理由：做 LLM 内容溯源或版权保护的团队终于有了一个既不影响生成质量、又能抗稀释的实用方案，建议关注其蒸馏检测能力。

19:12

arXiv cs.AI@William Parris

40

这篇论文提出“语义奖励崩塌”（SRC）概念，指在 RLHF 和偏好优化中，不同语义类别的评估不满（如事实错误、不确定性披露、格式不满等）被压缩成通用优化信号，导致模型倾向于抑制可见的不确定性而非保持校准的完整性。作者认为，当前自适应推理系统在泛化评估压力下，可能产生表演性自信、幻觉连续性、校准漂移、谄媚等行为，这些是优化后果而非欺骗。论文借鉴制度代理崩溃、指标博弈、软件可靠性工程等理论，主张将不确定性披露和升级行为视为受保护的认知行为。最后提出“宪法奖励分层”（CRS）框架，作为可测试的治理导向研究方向。

论文 RLHF/偏好优化 AI安全/对齐不确定性校准奖励崩塌宪法奖励分层

推荐理由：这篇论文点出了 RLHF 优化的结构性隐患——模型越优化越不敢说“不知道”，做 AI 安全和对齐的研究者、模型训练工程师值得细读，看完会对当前偏好优化的代价有更深理解。

19:12

arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

精选65

本文研究了在线策略自蒸馏（OPSD）方法，即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题：教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此，他们提出OGLS-SD框架，利用可验证的结果奖励对比成功与失败的在线轨迹，并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导，在多个基准上稳定了自蒸馏过程并提升了推理性能。

论文自蒸馏推理模型 logit校准结果引导 LLM

推荐理由：如果你在做LLM推理优化或自蒸馏训练，OGLS-SD解决了教师-学生分布不匹配的痛点，用结果奖励校准logits的思路直接可复用，值得仔细看方法细节。

19:12

arXiv cs.AI@Eilam Shapira, Moshe Tennenholtz, Roi Reichart

精选45

该研究探讨了 AI 代理如何在有限交互中预测陌生对手的下一步决策，例如买家代理面对未知卖家或采购助理与供应商谈判。研究通过受控谈判游戏将问题建模为目标自适应文本表格预测，每个决策点结合结构化游戏状态、报价历史和对话。模型基于表格基础模型，并引入 LLM-as-Observer 作为额外表示层：冻结的小型 LLM 读取决策时刻状态和对话，其隐藏状态作为决策导向特征，而非直接预测。在 13 个前沿 LLM 代理上训练并测试 91 个保留代理，该模型在响应预测 AUC 上提升约 4 点，报价预测误差降低 14%，证明隐藏的 LLM 表示能暴露直接提示无法获取的决策信号。

论文 AI 代理对手建模谈判游戏文本表格预测 LLM-as-Observer

推荐理由：做多代理系统或谈判 AI 的开发者，这篇论文提供了一个实用的对手建模框架——用有限交互预测对方决策，比直接提示更准。建议点开看看他们的 LLM-as-Observer 方法，可能帮你省掉大量试错成本。

19:12

arXiv cs.LG@Guinan Su, Yanwu Yang, Xueyan Li, Jonas Geiping

精选65

当前语言模型（如ChatGPT）仍基于单消息流架构，导致模型无法同时读写、思考与行动，限制了自主智能体的效率。本文提出多流LLM架构，将输入、输出、思考等角色拆分为独立并行流，每次前向传播可同时读取多输入流并生成多输出流。该方法解决了单流瓶颈，提升了并行效率、安全性和可监控性，为自主智能体（如编程、计算机操作）提供了更高效的基础架构。

论文多流架构自主智能体并行计算语言模型效率提升

推荐理由：自主智能体开发者长期受困于模型无法同时读写和思考的瓶颈，这篇论文直接给出了数据驱动的并行流解决方案，值得关注其后续实现和效果。

19:12

arXiv: Anthropic@Neil Fendley, Zhengyu Liu, Aonan Guan, Jiacheng Zhong, Yinzhi Cao

精选85

研究人员设计了首个检测与利用框架JAW，针对GitHub Actions和n8n等自动化平台中的智能体工作流进行劫持攻击。攻击者可通过操控GitHub Issue评论等输入，诱导LLM代理执行凭证泄露、任意命令等恶意操作。JAW通过静态路径可行性分析、动态提示来源分析和运行时能力分析，成功劫持了4714个GitHub工作流和8个n8n模板。受影响组件包括Claude Code、Gemini CLI、Qwen CLI、Cursor CLI等15个广泛使用的GitHub Actions及两个n8n官方节点。研究人员已向GitHub、Google、Anthropic等厂商负责任披露，并获得致谢、修复和漏洞赏金。

论文智能体工作流安全/漏洞 GitHub Actions n8n LLM安全

推荐理由：这是首个系统研究AI工作流安全风险的工作，使用GitHub Actions或n8n的开发者应立刻检查自己的工作流是否暴露在类似攻击下，建议点开了解具体攻击路径和防护建议。

19:12

arXiv cs.AI@Haoyu Wang, Yuliang Song, Tao Li, Zhiwei Deng, Yaqing Wang, Deepak Ramachandran, Eldan Cohen, Dan Roth

精选60

该研究提出CP-SynC-XL基准（100个组合问题，4577个实例），评估三种求解器构建范式：原生Python算法搜索、Python+OR-Tools约束建模、MiniZinc+OR-Tools声明式建模。结果显示，Python+OR-Tools正确率最高，而原生Python易产生格式正确但验证失败的方案。提示模型进行搜索优化仅带来1.03-1.12倍的中位加速，但许多实例反而变慢，且正确率在长尾问题上显著下降。代码审计发现，优化提示会导致模型用局部近似替代完整搜索、注入未验证的边界或添加冗余声明式机制，陷入“启发式陷阱”。研究建议：LLM应主要用于形式化变量、约束和目标，而搜索优化需单独验证。

论文 LLM 组合优化求解器约束建模启发式陷阱

推荐理由：做组合优化或约束求解的开发者，这篇论文用实验数据告诉你为什么别让LLM碰搜索优化——它可能让你的求解器变慢还出错。建议读读，避免踩坑。

19:12

arXiv cs.LG@Linghai Liu, Sinho Chewi

精选40

研究者提出一种针对复合对数凹分布（形如 e^{-f-g}）的采样算法，仅需对 f 计算梯度，对 g 使用受限高斯预言机（RGO）。该算法在 f+g 强凸且 f 光滑时，达到总变差距离 ε 误差的迭代次数为 Õ(κ√d log⁴(1/ε))，与经典 g=0 情形的最优结果一致。此外，算法还扩展到非对数凹（满足 Poincaré 或 log-Sobolev 不等式）以及 f 非光滑但 Lipschitz 的情形。这是首次将近端梯度思想系统引入采样领域，理论保证与优化中的近端梯度法相呼应。

论文采样算法对数凹分布近端梯度受限高斯预言机理论复杂度

推荐理由：做高维采样或贝叶斯推断的团队终于有了一个理论干净、复杂度最优的通用工具——复合目标下的采样效率首次追上光滑情形，做 MCMC 算法设计的建议细读。

19:12

arXiv cs.AI@Eric Bigelow, Raphaël Sarfati, Daniel Wurgaft, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana

精选65

该研究提出大语言模型（LLM）的上下文学习可视为在低维几何空间（概念信念空间）中的轨迹更新。通过故事理解任务，结合行为与表征分析发现：信念更新在低维结构化流形上可被良好描述；模型行为与内部表征一致反映该结构，且可用简单线性探针解码预测行为；对表征的干预能因果性地引导信念轨迹，效果可从概念空间几何预测。该工作为 LLM 的贝叶斯解释提供了结构化几何基础。

论文上下文学习信念空间几何表征可解释性贝叶斯推理

推荐理由：这项研究把 LLM 上下文学习的黑箱过程可视化成了几何轨迹，做可解释性、推理机制或认知建模的研究者值得关注——它提供了干预模型信念的实操方法，看完会有启发。

19:12

arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang

精选75

大语言模型在复杂推理中常出现“过度思考”问题，导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链，但高质量样本在探索空间中极为稀疏，形成采样瓶颈。受认知科学启发，研究者从理论上证明，参考答案引导的后验分布比先验分布具有更高期望效用，可突破高质量样本的采样瓶颈。为此，他们提出VPG-EA框架，将高效推理形式化为变分推断问题，引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略，通过交叉视图评估过滤伪高效路径，再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示，VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。

论文推理模型效率优化变分推断过度思考知识蒸馏

推荐理由：这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案，做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法，值得细读。

19:12

arXiv cs.AI@Islam Eldifrawi, Shengrui Wang, Amine Trabelsi

精选60

CAAFC 是一个新型自动事实核查框架，旨在解决现有 AFC 系统与专业事实核查实践之间的脱节问题。它不仅能检测事实错误和幻觉，还能通过主要信息源提供可操作的纠正理由。该框架支持对声明、对话和对话内容进行核查，并在必要时更新证据和知识库以纳入最新信息。在多个基准数据集上，CAAFC 超越了当前最先进的 AFC 和幻觉检测系统。这项工作对于应对海量 AI 生成内容中的虚假信息具有重要意义。

论文自动事实核查幻觉检测 CAAFC 虚假信息知识库更新

推荐理由：CAAFC 解决了现有自动事实核查系统与专业实践脱节的痛点，做内容审核、AI 安全或信息验证的团队可以直接参考其框架设计，提升事实核查的可靠性和可操作性。

19:12

arXiv: DeepSeek@Ali Karakoc, H. Birkan Yilmaz

精选65

该论文提出两种基于大语言模型（LLM）的对抗性SQL注入生成系统：RADAGAS（检索增强生成）和RefleXQLi（反思链式推理），用于自动化测试Web应用防火墙（WAF）的防御能力。研究使用GPT-4o、Claude 3.7 Sonnet和DeepSeek R1，在10种WAF（包括规则型、AI/ML型和商业型）上进行了240次实验，生成了24万个payload并执行了220万次测试。结果显示，RADAGAS-GPT4o以22.73%的绕过率领先基线模型，对AI/ML型WAF（如WAF-Brain和CNN-WAF）的绕过率高达92.49%和80.48%，但对规则型WAF（如ModSecurity和Coraza）的绕过率仅0-5.70%。研究还发现，多样性较低的payload更容易绕过，但若初始payload失败则效果不佳。这项工作为安全测试中LLM的应用提供了全面视角。

论文 SQL注入 LLM 对抗性攻击 WAF绕过安全测试

推荐理由：安全工程师和渗透测试人员可以借鉴RADAGAS和RefleXQLi的思路，自动化生成对抗性SQL注入payload来评估自家WAF的盲区，尤其是AI/ML型WAF的脆弱点值得重点关注。

19:12

arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa

精选60

量化是加速生成模型推理的标准技术，但传统块浮点（BFP）格式使用基于块最大幅度的固定缩放因子，可能导致量化误差次优。本文提出ScaleSearch方法，通过细粒度搜索利用微缩放格式的尾数位，最小化量化误差。ScaleSearch可集成于后训练量化（PTQ）和低精度注意力机制，实验显示NVFP4量化误差降低27%，Qwen3-8B在MATH500上PTQ提升15点。此外，ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点，几乎无性能损失。

论文量化块浮点 NVFP4 后训练量化推理加速

推荐理由：做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法，建议做低精度部署的开发者试试。

19:12

arXiv cs.AI@Rian Touchent, Eric de la Clergerie

精选65

论文提出一种编码器领域适配新方法：先用因果语言建模（CLM）训练，再切换回掩码语言建模（MLM）微调。在 ModernBERT 上测试，该方法在 8 个法语和 11 个英语生物医学任务上，相比纯 MLM 基线提升 0.3-2.8 个百分点。研究发现 CLM 的密集监督主要影响低层 Transformer 层（0-7），冻结低层会消除收益，而冻结中层则保留收益。这种表征变化在后续 MLM 阶段持续存在，且随模型规模扩大而增强。团队发布了 ModernCamemBERT-bio 和 ModernBERT-bio 作为生物医学编码器新基准。

论文编码器领域适配因果语言建模掩码语言建模 ModernBERT

推荐理由：做 NLP 领域适配的团队终于有了比纯 MLM 更优的预训练策略——CLM 绕路法简单有效，在生物医学任务上直接涨点，建议做领域编码器的开发者试试这个两阶段方案。

19:12

arXiv cs.LG@Leonardo N. Coregliano, William Opich

精选35

近期一系列研究开始探索乘积空间上学习理论概念的变体，统称为高元学习理论。本文提出高元样本压缩方案的概念，并证明存在非平凡质量的高元样本压缩方案意味着高元PAC可学习性。该工作将经典样本压缩理论扩展到高元场景，为理解复杂数据结构下的学习能力提供了新视角。研究结果建立了高元压缩与可学习性之间的理论桥梁，对机器学习理论有基础性贡献。

论文高元学习理论样本压缩 PAC可学习性乘积空间机器学习理论

推荐理由：理论机器学习研究者会感兴趣——这项研究把样本压缩理论推到了高元空间，证明了压缩方案与PAC可学习性的新联系，做学习理论或高维数据分析的值得关注。

19:12

arXiv: DeepSeek@Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz

精选60

研究团队利用大语言模型（LLM）从自发语音中零样本预测Ryff心理幸福感（PWB）分数。基于PsyVoiD数据库中111名参与者的几分钟语音录音，评估了12种指令微调LLM（包括Llama-3、Ministral、Mistral、Gemma-2/3、Phi-4、DeepSeek和QwQ-Preview）。与临床心理学和语言学专家合作开发了领域提示词。结果显示，LLM能从语音中提取语义线索，在80%的数据上达到最高0.8的Spearman相关性。研究还通过统计分析解释预测变异性和偏差，并用词云突出驱动预测的语言特征。

论文 LLM 心理幸福感语音分析零样本预测临床心理学

推荐理由：这项研究为心理健康评估提供了非侵入式新方法——用几分钟语音就能预测幸福感，做临床心理学或语音分析的团队值得关注，零样本方案降低了部署门槛。

19:12

arXiv cs.AI@ Gunjan, Sidahmed Benabderrahmane, Talal Rahwan

精选65

该研究从计算社会科学视角，构建了包含178万条帖子的配对语料库，覆盖新冠疫情、国会山骚乱、美国大选等9次危机事件。通过比较真实社交媒体话语与LLM生成的合成话语，发现合成话语在情绪、结构、词汇和事件依赖四个维度上表现出“群体级不真实”：情绪更负面且分散度低、结构更规则、词汇更抽象。这种差异在快速演变的去中心化危机中尤为明显，而在制度性事件中较小。研究提出了“漫画差距”指标，认为合成政治话语的主要问题不是语法或流畅度，而是缺乏群体层面的社会真实性。

论文 LLM 政治话语虚假信息计算社会科学群体审计

推荐理由：做AI安全、虚假信息检测或计算社会科学的研究者值得关注——这篇论文把LLM生成文本的检测从句子级提升到群体级，提供了可量化的审计框架，建议做内容审核或舆情分析的团队点开看看。

19:12

arXiv: DeepSeek@Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu

精选65

论文发现GRPO算法存在两个效率问题：固定KL系数限制模型探索，均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法，包含两个轻量组件：基于准确率的自适应KL缩放（AKL）动态调整约束强度，以及高斯课程采样（GCS）聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试，AIME 2025 pass@32从63.33%提升至76.67%，8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。

论文 GRPO 强化学习数学推理课程学习自适应KL

推荐理由：做LLM数学推理RL训练的团队，GRPO的KL系数和采样策略可以照搬这个改进，AIME 2025上13个点的提升值得一试。

19:12

arXiv: DeepSeek@Pruthvinath Jeripity Venkata

精选70

该研究提出一个三机制框架，解释大语言模型在处理训练知识与上下文文档冲突时的矛盾现象。先前研究结果不一：有的发现模型顽固保留训练答案，有的则发现模型几乎完全遵循上下文。研究者认为这是因为未区分三种不同的处理情境：机制1（单源更新，主导因素为证据连贯性）、机制2（竞争整合，主导因素为参数确定性）、机制3（任务适配选择，主导因素为任务知识需求）。通过 9970 次 API 调用，在 Claude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick 和 DeepSeek V3 上验证了该框架，确认了机制2的确定性梯度，并发现任务框架能将上下文遵循率从近100%翻转至6-71%。

论文 LLM行为知识冲突上下文学习评测框架 Claude/GPT/Llama/DeepSeek

推荐理由：这个框架解决了 LLM 行为研究中一个长期矛盾的谜题——为什么有的实验说模型死记硬背，有的说模型灵活跟随。做 LLM 评测或 prompt 工程的人，看完能更精准地预测模型在知识冲突场景下的行为，建议直接读原文的机制划分部分。

19:12

arXiv: DeepSeek@Wenkai Li, Fan Yang, Ananya Hazarika, Shaunak A. Mehta, Koichi Onoue

精选75

一项新研究系统性地检验了思维链（CoT）推理过程与最终答案形成时间之间的对齐程度。研究者提出了一个步骤级的检测-分类-比较框架，使用答案承诺代理、Patchscopes、调谐透镜探针和因果方向消融等方法，对九个模型和七个推理基准进行了分析。结果显示，潜在承诺与显式答案到达仅在平均 61.9% 的步骤上对齐，其中 58% 的不匹配事件表现为“虚构延续”——模型在答案已稳定后继续生成看似深思熟虑的文本。在架构匹配的 Qwen2.5 与 DeepSeek-R1-Distill 对比中，推理管线改变了失败组成而非整体对齐度。研究还发现，步骤级对齐度越低，CoT 的实用性反而越大，表明最受益于 CoT 的场景往往时间忠实性最差。截断实验和捐赠-破坏测试进一步表明，大量承诺后的文本对最终答案并非关键。

论文思维链可解释性 AI安全推理模型忠实性

推荐理由：这项研究戳破了 CoT 推理过程忠实反映模型思考过程的假设，做 AI 安全、可解释性研究或依赖 CoT 审计的团队值得关注——它提醒我们，看起来合理的推理链条可能只是事后编造的故事。

19:12

arXiv cs.AI@Mannam Veera Narayana, Rohit Singh, Deepa M. R, Radha Krishna Ganti

精选45

该研究发布了一个从商用5G网络收集的真实数据集，涵盖步行、自行车、汽车、公交和火车等多种移动模式及不同速度。数据集聚焦切换场景，包含定时提前测量等关键信号事件，旨在减少切换中断时间并维持连续吞吐量。现有研究多依赖仿真数据，无法反映真实部署行为，该数据集填补了这一空白。论文详细描述了数据采集设置、提取过程，并进行了探索性分析，特别关注移动性、波束管理和定时提前。该数据集可用于训练和评估AI/ML模型，例如定时提前预测，为6G原生AI移动性研究提供基础。

论文 6G 5G AI/ML 移动性数据集

推荐理由：做6G/5G移动性优化或AI-Native网络研究的团队，终于有了真实部署数据来训练模型，比仿真数据靠谱得多，建议直接下载使用。

19:12

arXiv cs.LG@Sagi Ahrac, Noya Hochwald, Mor Geva

精选65

稀疏混合专家模型（SMoE）在扩展语言模型时面临路由崩溃和负载均衡损失导致专业化下降的问题。本文揭示了路由器与其对应专家之间的几何耦合机制：对于给定token，所选专家的路由器权重和专家权重沿相同输入方向接收梯度，仅标量系数不同，因此匹配的路由器-专家方向累积相同的路由历史。实验表明，从零训练的1B SMoE中，更高的路由器分数预测更强的专家神经元激活，路由决策在所选专家内部被镜像。辅助负载均衡损失会破坏这种几何结构，使不同路由器方向相似度增加近三倍。最后，作者提出无参数在线K-Means路由器，通过维护专家隐藏状态运行平均值并基于余弦相似度分配token，在最低负载不平衡和适度困惑度增加下验证了几何耦合对有效路由的核心作用。

论文稀疏MoE 路由机制几何耦合负载均衡在线K-Means

推荐理由：做MoE模型训练或路由优化的研究者，这篇论文解释了路由崩溃和负载均衡损失的底层机制，看完会对如何设计更有效的路由策略有直接启发。

19:12

arXiv cs.AI@Jose E. Aguilar Escamilla, Lingdong Zhou, Xiangqi Zhu, Huazheng Wang

精选40

极端天气和波动的电力批发市场给居民用户带来巨大财务风险，但配电网级别的需求响应尚未被充分利用。DR-Gym 是一个开源、兼容 Gymnasium 的在线环境，从电力公司视角训练和评估需求响应策略。它通过状态切换的批发价格模型（校准自真实极端事件）和基于物理的建筑需求曲线，模拟定价信号与用户接受度之间的动态反馈。该环境支持可配置的多目标奖励函数，并已通过基线策略验证其可学习性。

论文强化学习需求响应电网优化开源/仓库能源AI

推荐理由：电力公司终于有了一个能模拟用户行为反馈的强化学习训练场，做电网调度或能源 AI 的团队可以直接用这个开源环境来优化需求响应策略，减少居民电费风险。