全部 AI 动态 · AI 热点

5月26日

12:22

arXiv cs.LG@Namrata Nadagouda, Nauman Ahad, Maegan Tucker, Mark A. Davenport

精选

该论文提出了一种名为 Info-Synth 的主动查询合成框架，用于高效学习用户偏好。传统主动学习方法依赖池评估，计算成本高，且忽略了查询反馈的可靠性差异（如相似或完全不同物品的比较会产生模糊反馈）。Info-Synth 通过连续空间中的互信息最大化目标生成最优查询，并引入置信度感知响应模型处理模糊比较。此外，论文还提出了 Pair M-dist 和 Pair Opt-dist 两种策略，用于在有限查询池中高效选择查询。实验在合成偏好学习、文本摘要和机器人控制器调优等任务中验证了该方法的有效性。

论文主动学习偏好学习查询合成互信息置信度建模

推荐理由：偏好学习是许多决策系统的核心，但标注成本高。Info-Synth 解决了传统主动学习计算昂贵和反馈不可靠的问题，做推荐系统、人机交互或机器人调优的团队可以直接参考该方法来降低数据成本。

原文

12:22

arXiv cs.LG@Zhaoyu Zhu, Rui Gao, Shuang Li

精选

该论文首次为Wasserstein策略梯度（WPG）方法在熵正则化强化学习中的全局收敛性提供了严格理论证明。WPG利用动作分布的最优传输几何，通过软Q函数的动作梯度与Langevin扩散更新策略，但标准Langevin分析因RL目标通过Bellman递归依赖策略而失效。研究者通过Bellman残差的KL表示、Bellman收缩与Bellman预解恒等式，建立了分布Polyak-Łojasiewicz条件，并利用对数Sobolev不等式控制离散化误差，最终证明WPG以几何速率收敛至全局最优（存在离散化偏差）。该工作揭示了熵正则化RL虽非传统凸优化，但Bellman递归诱导了有利的PL几何结构。

论文强化学习 Wasserstein策略梯度全局收敛熵正则化 Bellman递归

推荐理由：做连续控制RL的理论研究者会感兴趣——这篇论文用Bellman结构替代凸性假设，为WPG的全局收敛提供了首个完整证明，建议做策略梯度理论的团队仔细读。

原文

12:21

arXiv cs.LG@Matt L. Wiemann, Lindsay M. Smith, Peter Melchior, Siddharth Mishra-Sharma, Andrew Gordon Wilson, Pavel Izmailov, Carolina Cuesta-Lázaro

精选72°

研究人员推出了DiscoverPhysics基准，通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律，来评估其科学推理能力。每个世界由N体模拟器按需生成，代理需设计多轮实验、观察原始轨迹数据，并提交自然语言解释和Python实现。测试发现，最强模型仅能通过一半世界，尤其在需要发现隐藏结构时失败；开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距，强调假设修正和实验设计对概念理解的重要性。

论文科学推理 LLM评估物理模拟实验设计基准测试

推荐理由：这个基准直击LLM科学推理的软肋——从数据中归纳规律而非回忆知识，做AI评估或科学模拟的团队值得关注，它暴露了当前模型在长程推理和实验设计上的真实短板。

原文

12:21

arXiv cs.LG@Jinwoo Go, Xiaoning Qian, Byung-Jun Yoon

精选

传统贝叶斯最优实验设计（BOED）以最大化参数信息增益为目标，但在决策关键场景中，减少参数不确定性并不总能改善下游决策。研究者提出GoBOED框架，直接针对指定决策目标优化实验设计，结合摊销变分后验代理与可微凸决策层，实现梯度驱动的设计优化。理论证明GoBOED梯度对决策无关参数方向不敏感，从而在更广泛的实验设计空间内达到同等决策质量。在源定位、疫情管理和药代动力学控制等任务中，GoBOED找到的设计更贴合下游决策目标，且近优设计窗口远宽于传统方法。

论文贝叶斯优化实验设计决策优化 GoBOED 机器学习

推荐理由：做实验设计或决策优化的研究者终于有了一个直接对齐目标的方法——GoBOED 让实验设计不再浪费在无关参数上，做贝叶斯优化或主动学习的团队值得关注。

原文

12:20

arXiv cs.LG@Martin Marek, Dongkyu Cho, Shikai Qiu, Rumi Chunara, Pavel Izmailov, Andrew Gordon Wilson

精选

该论文研究了语言模型在新任务训练时遗忘旧知识的问题，并提出利用模型自身生成的样本作为回放数据，几乎可以消除遗忘。研究发现，当模型容量接近饱和时，遗忘仍会发生，因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下，低学习率可以减少遗忘但需要更多训练步骤，而自生成回放打破了这一权衡，允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性，为持续学习提供了实用方案。

论文语言模型遗忘持续学习自生成回放容量

推荐理由：这篇论文解决了语言模型持续学习中的核心痛点——遗忘问题，做模型微调或持续训练的团队可以直接用自生成回放方法，省去存储旧样本的麻烦，值得关注。

原文

12:20

arXiv cs.LG@Sanghyun Lee, Chunsan Hong, Seungryong Kim, Jonghyun Lee, Jongho Park, Dongmin Park

精选

本文提出 LoopMDM（Looped Masked Diffusion Model），通过在掩码扩散模型的早期-中间层选择性循环，显著提升训练效率和模型性能。训练时循环层产生深度缩放效果而不增加参数，推理时可变循环次数实现灵活计算缩放。在多个预训练语料上，LoopMDM 匹配同尺寸 MDM 性能但节省高达 3.3 倍训练 FLOPs，在 GSM8K 等推理基准上提升最多 8.5 分，甚至超越更深层非循环模型。注意力分析表明，循环促进了掩码位置间的交互。代码和权重将开源。

论文掩码扩散模型 Transformer架构训练效率推理缩放开源/仓库

推荐理由：做扩散语言模型或高效 Transformer 架构的开发者值得关注——LoopMDM 用简单循环层技巧同时省训练算力、提推理性能，直接可复现。

原文

12:20

arXiv cs.LG@Jun-Tao Tang, Yu-Cheng Shi, Zhen-Hao Xie, Da-Wei Zhou

精选

多模态大语言模型（MLLMs）通过指令调优将多样任务统一为指令遵循框架，但实际部署需要持续适应新任务，这催生了多模态持续指令调优（MCIT）。然而，当前MCIT研究受限于工程瓶颈：现有方法通常直接修改基础MLLM代码库，导致实现开销大、架构特定、代码复用和公平比较困难。为此，研究者提出Prism，一个插件式可复现代码库，通过轻量级插件注册机制将算法开发与骨干实现分离，无需修改底层MLLM代码即可集成新策略。Prism原生支持大规模训练流水线，确保可复现和可扩展的MCIT实验。代码已开源。

论文多模态大语言模型持续学习指令调优开源/仓库 Prism

推荐理由：Prism解决了MCIT研究中代码碎片化和复现难的问题，做多模态持续学习的团队可以直接用这个插件式框架加速实验，省去大量工程重复劳动。

原文

12:13

arXiv: OpenAI@Roberto Cruz, David Rey-Blanco

精选

研究者提出MDIA，一个由7个专科路由节点组成的多智能体临床推理图，在HealthBench Professional基准（525个病例）上，使用未微调的GPT-5.4-2026-03-05模型达到0.6272分，比OpenAI的ChatGPT for Clinicians高出3.72个百分点。性能提升主要来自系统架构设计，包括专科路由、多轮上下文保持、药物状态安全门控、站点过滤搜索、长度感知合成和引擎级可靠性。实验还发现，使用不同模型作为评分者时结果差异显著，例如Gemini 2.5 Pro评分时MDIA得分0.6585，表明评估需要多个独立评分模型。该研究证明，智能体临床基准性能既取决于基础模型，也取决于编排架构。

论文多智能体临床推理 HealthBench GPT-5.4 架构设计

推荐理由：医疗AI开发者注意了：MDIA用架构设计而非提示工程就超越了专业临床模型，做临床决策系统的团队值得研究其7节点路由和药物安全门控设计。

原文

12:12

arXiv: OpenAI@Lingyao Li, Deyi Li, Chen Chen, Renkai Ma, Runlong Yu, Mingquan Lin, Rui Yin, Lizhou Fan, Cathy Shyr, Siyuan Ma, Mei Liu, Steven Bethard

精选

这篇综述系统分析了 LLM-as-a-Judge 在医疗领域的应用现状，涵盖临床决策支持、自然语言处理、医学问答和医疗沟通等场景。研究检索了 2023 年 1 月至 2026 年 2 月的 541 篇文献，最终纳入 134 项研究。OpenAI 模型是最常用的评判者，提示工程几乎出现在所有研究中，集成、多智能体和检索增强设计是常见扩展。在报告人类验证的研究中，LLM 评判者与专家判断呈现中等到强对齐，但可靠性因任务而异。该综述认为 LLM-as-a-Judge 是可扩展的医疗 AI 评估框架，但其临床价值取决于模型设计和严格验证。

论文 LLM-as-a-Judge 医疗AI 评估框架临床决策支持人类对齐

推荐理由：医疗 AI 评估一直缺乏规模化手段，这篇综述系统梳理了 LLM-as-a-Judge 在临床场景的落地情况，做医疗 AI 开发或评估的团队可以快速了解当前方法的有效性和局限。

原文

12:12

arXiv: OpenAI@Jiwon Kim, Claire Wang, Taeung Yoon, Sabelle Huang, Koustuv Saha

精选

大型语言模型（LLM）越来越多地被用于情感支持和正式治疗场景，但像ChatGPT或Llama等模型内置的内容审核机制会阻止它们讨论敏感话题，这可能影响其作为治疗师的能力。本研究对OpenAI、Meta和Google的三种先进审核系统进行了算法审计，评估它们对真实治疗对话内容的标记程度。结果显示，这些系统过度标记了治疗中必要的敏感内容，揭示了LLM在扮演治疗师角色时面临的限制。这对设计用于心理健康的AI系统具有重要启示，表明当前审核机制可能阻碍有效的治疗对话。

论文 LLM 内容审核心理健康治疗对话算法审计

推荐理由：这项研究戳穿了AI治疗应用的核心矛盾——安全审核反而成了障碍，做心理健康AI产品、设计对话系统的团队值得细读，看完会对审核策略有新的思考。

原文

12:12

arXiv: OpenAI@Aoxi Liu, Yupeng Chen, James Oldfield, Guanzhe Hong, Junchi Yu, Baoyuan Wu, Philip Torr, Adel Bibi

精选

扩散大语言模型（D-LLMs）通过多步去噪生成文本，其中间隐藏状态包含安全相关信息，但安全监控研究尚属空白。本文发现，中间隐藏状态反复接近分类器决策边界的“安全犹豫”信号能有效预测轻量级探针的失败。基于此，提出$D^2$-Monitor，采用轻量探针持续监控并估计犹豫程度，当犹豫超过阈值时激活更强但更重的探针，实现测试时资源动态分配。在WildguardMix、ToxicChat、OpenAI-Moderation三个数据集上，对四种D-LLMs评估，$D^2$-Monitor以≤0.85M参数取得最优性能，并在效果与效率间达到最佳平衡。

论文扩散大语言模型安全监控动态路由轻量探针犹豫感知

推荐理由：做LLM安全对齐的团队终于有了针对扩散模型的专用监控方案——$D^2$-Monitor用轻量探针+动态路由解决了资源效率问题，做模型部署和红队测试的可以直接参考论文中的实现思路。

原文

11:50

arXiv: Anthropic@Alfredo Pesoli, Herman Errico, Lorenzo Cavallaro

精选

本文从“漏洞经济学”视角分析LLM驱动的漏洞发现对攻防格局的影响。传统上，高端零日漏洞是政府、经纪商和攻击性厂商的昂贵专业产出，而LLM辅助系统降低了候选漏洞生成、代码理解、验证报告等环节的成本。这导致瓶颈从“发现更多漏洞”转向“吸收、验证、分类、修补和发布大量报告”。基于Anthropic Mythos Preview与Mozilla Firefox合作数据，论文指出近期变化不是更多零日漏洞，而是防御者修复吞吐量的提升：低信号候选漏洞变便宜，证据丰富的修复更重要，稀缺能力转向维护者审查和发布。开源项目受影响最严重，因为LLM辅助发现可增加报告量，但维护者验证、分类、资金和发布能力可能无法同步扩展。

论文 LLM 漏洞发现安全经济学零日漏洞修复吞吐量

推荐理由：这篇论文戳破了“AI将颠覆安全攻防”的简单叙事，用经济学框架解释了为什么防御者才是LLM漏洞发现的真正受益方。做安全运营、开源维护或漏洞奖励计划的人，看完会重新理解自己的瓶颈在哪。

原文

11:49

arXiv cs.AI@Zixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić

精选

SKILD 是一种新型扩散模型，通过利用图像和物理系统的尺度不变性，将图像生成和连续超分辨率统一在一个无条件的框架中。其前向过程从粗到细衰减图像内容并注入匹配频谱的高斯噪声，使尺度成为扩散的显式坐标。训练后的反向过程仅通过改变起始时间步即可同时执行生成和任意倍数的超分辨率，无需任务特定架构、条件分支或无分类器引导。在 CIFAR-10 上达到 FID 2.65 和 Inception Score 9.63，在 ImageNet 上实现 2 倍到 8 倍超分辨率，性能超越条件模型，并能重建关键伊辛模型的相关函数。

论文扩散模型超分辨率尺度不变性无条件生成 SKILD

推荐理由：SKILD 用一个模型同时搞定生成和超分，省去了为不同尺度重复训练的麻烦，做图像生成或物理模拟的团队值得关注，直接省掉条件分支和重训练。

原文

11:49

arXiv cs.AI@Junyuan Liu, Xinglei Wang, Zichao Zeng, Jiazhuang Feng, Quan Qin, Ilya Ilyankou, Guangsheng Dong, Tao Cheng

精选

城市表示学习将复杂城市环境编码为通用嵌入，但现有评估多局限于少数城市和任务，且随机划分导致空间泄漏，高估性能。CityRep 提出统一基准，包含空间单元无关的评估框架、基于区块的空间划分协议，以及覆盖 8 城市 8 任务的可扩展套件。评估 11 个模型发现，随机划分会扭曲性能排名，且模型表现因城市和任务差异显著。该基准提供数据集、评估管道和诊断工具，旨在推动城市表示学习的公平比较和泛化能力研究。

论文城市表示学习基准测试空间划分泛化评估多模态

推荐理由：城市表示学习领域终于有了一个靠谱的评估标准——CityRep 解决了空间泄漏和跨城市泛化评估的痛点，做城市计算或地理空间 AI 的研究者可以直接用这个基准来检验自己的模型，避免被随机划分的虚假高分误导。

原文

11:49

arXiv cs.AI@Xinrui Shi, Kai Liu, Ziqing Zhang, Jianze Li, Anqi Li, Yulun Zhang

精选

轻量级视觉语言模型在标准基准上表现不错，但在需要多步推理的密集场景中（如多个物体、属性、关系）系统性地失败。为此，研究者首先构建了DRBench基准，包含14,573个问题、2,943张图像，覆盖5类任务和3个推理层次。然后提出DRScaffold框架，通过将监督目标分解为四个因果有序阶段，在不改动模型架构的情况下强制进行有依据的推理。实验表明，使用DRScaffold训练的Qwen2.5-VL-3B在DRBench上超越了冻结的Qwen2.5-VL-32B，证明结构化监督可以替代大量模型规模。代码和模型已开源。

论文视觉语言模型密集场景推理 DRBench DRScaffold Qwen2.5-VL

推荐理由：轻量级VLM在复杂场景中经常胡编乱造，DRScaffold用结构化监督解决了这个痛点，做视觉推理或部署小模型的团队可以直接用它的框架和基准来提升可靠性。

原文

11:48

arXiv cs.AI@Jinsheng Guo, Zhenhao Weng, Yibo Liu, Yan Qiao, Meng Li

精选

图欺诈检测中，欺诈者常通过与正常用户伪造大量连接来稀释欺诈信号，导致GNN检测失效。现有方法虽引入LLM提供语义线索，但未深入挖掘可疑连接背后的真实意图。L2IR框架通过LLM从用户行为和可疑连接中提取意图感知表示，区分支持性连接与误导性连接，并采用自适应自训练增强鲁棒性。在两个真实数据集上，L2IR将AUPRC提升高达8.27%，可作为GNN检测器的即插即用增强模块。

论文图神经网络欺诈检测大语言模型意图推理自训练

推荐理由：图欺诈检测从业者终于有了对抗伪装连接的新武器——L2IR用LLM拆穿欺诈意图，直接提升检测精度，做反欺诈系统的团队值得一试。

原文

11:48

arXiv cs.AI@Federico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech

精选

该研究针对激活预言机（activation oracles）的自然语言输出，探索了6种不确定性量化方法。实验基于6000个样本，发现bootstrap模式频率在Qwen3-8B和Qwen3.6-27B上校准误差最低（ECE 5.7% vs 25.5%），而log-prob基线可作为低成本快速筛选信号。这项工作填补了激活预言机置信度评估的空白，对依赖模型内部解释的AI安全研究有直接意义。

论文激活预言机置信度校准不确定性量化模型可解释性 Qwen

推荐理由：做模型可解释性研究的团队终于有了可靠的置信度评估方法——bootstrap模式频率比传统log-prob校准误差低近5倍，建议做LLM内部机制分析的开发者直接参考论文代码。

原文

11:48

arXiv cs.AI@Parth Darshan, Abhishek Divekar

精选

该论文研究了在多评估标准下同时优化LLM裁判提示时出现的失败模式。由于文本梯度方法产生自然语言评论而非数值向量，多任务学习中的冲突解决工具（如PCGrad、MGDA）无法直接应用。实验测试了五种文本梯度优化器的分解模式，发现在10种配置中有6种优化效果未超过初始提示。当梯度LLM联合处理多个标准时，梯度特异性下降59%（从9.0降至3.7）。此外，简单合并各任务指令会导致斯皮尔曼相关系数下降5.3%。研究识别出两种可分离的失败模式：优化时的梯度稀释和推理时的指令干扰，这限制了多目标裁判定制的设计空间。

论文 LLM裁判多目标优化文本梯度提示优化失效模式

推荐理由：做LLM评估或裁判定制的团队，这篇论文点出了多目标优化时容易踩的坑——梯度稀释和指令干扰，看完能帮你避开无效的提示优化策略。

原文

11:47

arXiv cs.AI@James Lucassen, Adam Kaufman

精选

这篇论文研究了AI编程脚手架（如Claude Code、Codex）中两种安全策略：重试（retrying）和重采样（resampling）。研究发现，重试虽然能降低可疑分数，但不可信模型可利用监控器的理由构建更隐蔽的攻击，抵消安全收益。相比之下，重采样不会泄露可利用信息。在BashArena实验中，使用Claude Opus 4.6作为不可信模型、MiMo-V2-Flash作为可信监控器，每步采样5次并基于最大可疑分数审计，安全率从61%提升至71%，审计预算仅0.3%，且不影响实用性。选择性重采样（仅对首次采样可疑的步骤）可恢复6.2个百分点的收益，同时仅需10%的额外样本。研究还发现两个与先前工作（Ctrl-Z）矛盾的结论：基于最大可疑分数审计优于最小，且执行最不可疑样本的安全增益很小。

论文 AI安全重试策略重采样 Claude Code Codex

推荐理由：这篇论文揭示了AI编程工具中重试策略的安全隐患，并给出了更优的重采样方案。做AI安全或使用Claude Code/Codex的开发者，建议看看具体实验数据和结论，避免踩坑。

原文

11:47

arXiv cs.AI@Waleed Razzaq, Yun-Bo Zhao

精选

论文提出了一种名为 Neuronal Stochastic Attention Circuit (NSAC) 的新型连续时间注意力架构，受线虫神经回路启发，将注意力 logit 计算建模为 Ornstein-Uhlenbeck 随机微分方程的解。该方法通过引入高斯分布到 logits，并利用 logistic-normal 分布传播随机性，实现了对注意力权重的概率化输出。NSAC 结合了高斯负对数似然和认知分离正则化器，能够联合量化偶然不确定性和认知不确定性。实验表明，NSAC 在连续时间函数逼近、多变量回归、长程预测、工业4.0和自动驾驶车道保持等任务中，在保持准确性的同时，提供了校准良好的不确定性估计，并具有神经元级别的可解释性。

论文注意力机制不确定性量化生物启发模型连续时间建模可解释性

推荐理由：这篇论文为需要可靠不确定性估计的连续时间序列建模场景提供了新思路，做概率机器学习或自动驾驶感知的团队可以关注其神经元级可解释性带来的调试优势。

原文

11:47

arXiv cs.AI@Rustem Takhanov, Zhenisbek Assylbekov

精选

本文研究条件核岭回归（conditional KRR）的统计性质。该方法将经典线性回归（由函数类F指定特征）与标准KRR应用于残差部分相结合，可视为一种混合学习策略。理论结果表明，条件KRR可简化为使用残差核的标准KRR，代价是测试风险增加O(1/√N)项。当核K正定且F由前k个主特征函数或随机特征构成时，条件KRR优于标准KRR，尤其在回归函数的F分量比残差部分更显著时。实验验证了理论结论。

论文核方法条件KRR 核岭回归特征选择统计学习理论

推荐理由：这篇论文为核方法注入可解释的线性特征提供了理论保障，做高维数据建模或核方法研究的团队值得关注，尤其适合处理特征显著但残差噪声小的场景。

原文

11:46

arXiv cs.AI@Xu Yao, Siyuan Zhou, Wu Zhenbo, Chaochuan Hou, Shuang Liang, Shiping wang, Hailiang Huang, Songqiao Han, Minqi Jiang

精选

弱监督异常检测（WSAD）长期分为不完整、不精确和不准确三种监督方向，但缺乏统一评估框架。该论文提出WSADBench，首个跨场景统一基准，系统评估了36种算法在4种模态下的表现，基于超过70万次实验。研究发现：弱监督场景间存在强相关性，挑战了当前研究方向的孤立性；专用WSAD算法仅在极端标签稀缺时占优，随监督增强或面对分布外数据时，表格基础模型和通用分类方法迅速超越；无标签数据在不同设置下效用不一致，相比标签精炼收益有限；模型对不同类型标签噪声的敏感性不对称。该基准已开源，旨在推动WSAD研究。

论文弱监督学习异常检测基准/评估表格基础模型 WSADBench

推荐理由：做异常检测或弱监督学习的团队终于有了统一评估工具——WSADBench用70万次实验戳破了三个方向各自为战的假象，看完你会重新思考该用专用算法还是通用模型。

原文

11:46

arXiv cs.AI@Yunhua Pei, Jingyu Hu, Yiwei Shi, Hongnan Ma, Weiru Liu, John Cartlidge

精选

StakeBench 是一个新的金融 NLP 评估框架，它通过分析 Polymarket 和 Manifold 预测市场上 2,261 个已结算市场的 560,876 条评论，将语言理解与市场承诺（如持仓方向、交易行为、赔率轨迹）挂钩，而非传统的人工标注情感。该框架包含四个诊断任务：检测市场承诺、识别持仓方向、预测未来交易行为以及集体赔率预测。实验发现，15 个 LLM 在方向识别上表现参差不齐（准确率 0.506-0.599），但在未来行动预测和赔率预测上普遍失败，且模型规模与性能无关，金融领域微调也无帮助。StakeBench 的代码和数据集以 CC-BY 4.0 协议开源。

论文金融NLP 市场承诺评估基准预测市场 LLM

推荐理由：金融 NLP 从业者终于有了一个基于真实市场行为的评估基准，比传统情感分析更贴近交易决策，做金融 AI 的团队值得关注。

原文

11:46

arXiv cs.AI@Haolang Zhao, Yunbo Long, Lukas Beckenbauer, Alexandra Brintrup

精选72°

深度研究智能体在处理复杂信息时，现有系统依赖大模型隐式推理来演化中间表征，导致信息污染和错误传播。VeriTrace 提出通过显式反馈循环（解释更新、偏差反馈、模式修正）来持续对齐任务理解与现实，并基于认知图谱框架实现。在 Qwen3.5-27B 基座上，VeriTrace 在 DeepResearch Bench 洞察力指标上提升 4.22 个百分点，在 DeepConsult 上胜率提升 5.9 个百分点。与 Config-DeepSeek 结合，它取得了 DRB 上最强的可复现开源结果。

论文深度研究智能体认知图谱显式反馈推理模型开源/仓库

推荐理由：做深度研究或复杂推理系统的开发者，VeriTrace 用显式反馈替代隐式推理，解决了信息污染和错误传播的痛点，值得在开源项目中尝试。

原文

11:45

arXiv cs.AI@Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

精选

Claw-Anything 是一个新基准，旨在评估大型语言模型代理作为始终在线个人助手的能力。现有系统仅能访问用户数字世界的狭窄部分，限制了上下文感知推理和有效协助。该基准通过三个维度扩展代理上下文：长期活动历史、相互依赖的后端服务以及跨多设备的 GUI 和 CLI 交互。实验显示，GPT-5.5 仅达到 34.5% 的 pass@1，远低于先前基准，突显了当前代理能力与始终在线个人助手需求之间的差距。同时，研究团队发布了自动化数据生成管道，可生成 2000 个训练环境，并将基础模型性能提升 23.7%。

论文智能体基准测试个人助手 GPT-5.5 上下文推理

推荐理由：这个基准测试揭示了当前 AI 代理在理解用户完整数字生活方面的巨大短板，做个人助手或智能体开发的团队值得关注——它直接指出了现有系统为何不够智能，并提供了改进方向。

原文

11:45

arXiv cs.AI@Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

精选

本文提出通道级向量量化（CVQ），一种全新的图像标记化范式，将传统基于空间分块的标记方式改为对特征图每个通道进行量化。基于CVQ，作者构建了通道级自回归（CAR）模型，采用“下一通道预测”策略，模拟人类艺术家先画轮廓再细化细节的创作流程。实验表明，CVQ在16K+码本大小下实现100%码本利用率，显著提升重建质量；CAR在DPG和GenEval指标上分别达到86.7和0.79，在文本到图像生成任务中表现强劲。这一工作为视觉自回归模型提供了新思路，有望推动图像生成效率与质量的双重提升。

论文图像生成向量量化自回归模型文本到图像视觉细节

推荐理由：CVQ解决了传统VQ码本利用率低、细节丢失的痛点，做图像生成和视觉自回归研究的开发者值得关注——它让模型像人类一样先画轮廓再细化，生成质量更高。

原文

11:45

arXiv cs.AI@Maoyang Xiang, Bo Wang, Tao Luo

精选

OrpQuant提出了一种名为正交残差投影（ORP）的算法-硬件协同设计框架，用于解决低比特Power-of-Two（PoT）量化中的低角度分辨率问题。该方法通过双基几何投影自适应合成更高分辨率的残差格点，仅使用移位和加法操作，避免了乘法器。在LLaMA-2-7B上，3比特量化（W3/A16）下困惑度达到6.10，与AWQ等MAC密集型方法相当，且全模型校准仅需约15分钟。在28nm工艺下，RTL综合表明ORP有效缓解了密集乘法器树的时序瓶颈。该工作适用于LLM和ViT的边缘部署。

论文量化边缘部署 LLM ViT 硬件效率

推荐理由：OrpQuant解决了低比特量化中特征流形退化的问题，做边缘部署的开发者可以直接用这个15分钟校准的方案替代传统MAC密集型方法，硬件效率显著提升。

原文

11:44

arXiv cs.AI@Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

精选

论文提出一种类似睡眠的记忆巩固机制，让 Transformer 模型在长上下文任务中表现更好。模型在推理过程中定期将近期上下文转换为持久化的快速权重，并清除键值缓存，类似生物体的睡眠过程。在睡眠阶段，模型对积累的上下文进行多次离线循环处理，通过局部学习规则更新状态空间模型（SSM）块中的快速权重。在合成任务（如元胞自动机、多跳图检索）和数学推理任务上，该方法显著优于普通 Transformer 和 SSM-注意力混合模型。增加睡眠时长 N 能持续提升性能，尤其在需要深层推理的样本上效果最明显。

论文 Transformer 长上下文记忆巩固推理模型状态空间模型

推荐理由：这项研究给长上下文推理带来了新思路——用类似睡眠的离线巩固机制解决注意力瓶颈，做长链推理或复杂数学问题的开发者值得关注，尤其适合处理超长上下文的场景。

原文

11:44

arXiv cs.AI@Bar Weiss, Antonio Abu-Nassar, Adi Sosnovich, Karen Yorav

本文提出了一种基于大语言模型的两阶段流水线，用于对代码补丁中的变更进行结构化标签标注（如重命名、移动、逻辑修改等），以提升代码审查效率。该方法先对diff块进行标签分配，再精炼以捕捉结构关系和语义属性，采用少样本提示实现语言无关和可定制的标签，无需传统静态分析管线的工程开销。在人工标注的基准上，最佳配置达到了84%的召回率和81%的精确度。研究表明，LLM标签标注能有效补充静态分析，支持灵活、多语言、可自动化的代码审查工作流。

论文代码审查大语言模型结构化标签少样本提示软件工程

推荐理由：代码审查团队终于有了更智能的辅助——LLM自动标注变更类型（重命名/移动/逻辑修改），比人工逐行看diff高效太多，做代码审查或CI/CD集成的开发者可以直接参考。

原文

11:44

arXiv cs.AI@Shuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski

主体驱动图像生成旨在根据文本指令生成保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像，限制了跨模态推理能力并导致复制粘贴伪影。本文提出了一种新框架，通过将扩散模型与多模态大语言模型（MLLM）结合，并引入基于VAE的身份条件，实现了文本指令与身份保留的平衡。其中，双层级聚合（DLA）模块用于融合MLLM的多层特征，多阶段去噪策略在推理时逐步平衡语义信息与细节身份。实验表明，该方法在主体驱动图像生成中优于现有方法，有效缓解了复制粘贴问题，并更符合人类偏好。

论文多模态大语言模型主体驱动生成扩散模型身份保留图像生成

推荐理由：做图像生成或AI绘画的开发者，这篇论文解决了主体身份保留与文本指令跟随的长期矛盾，提出的DLA模块和多阶段去噪策略可以直接参考，值得点开看看具体实现。

原文

11:43

arXiv cs.AI@Shangding Gu

76°

本文提出 Agentic AI 的下一个瓶颈是系统缩放（system scaling），而非仅模型缩放。作者主张将基础模型周围的结构化执行层（即 harness）作为一等设计对象，包括记忆、检索、工具使用、编排、验证和治理等组件。研究识别出三大核心瓶颈：上下文治理、可信记忆和动态技能路由，并提出了超越单次任务成功率的基准测试框架。为验证观点，团队开发了 Python 原生参考实现 CheetahClaws，并与 Claude Code 和 OpenClaw 进行了对比。核心结论是：未来 Agentic AI 的进步将同样依赖于系统设计，而不仅仅是更强的模型。

论文智能体系统缩放 Harness设计上下文治理可信记忆

推荐理由：做 Agent 系统架构的开发者会看到，当前只关注模型能力而忽视执行层设计的做法正在成为瓶颈——CheetahClaws 提供了一个可参考的系统级设计思路，值得研究。

原文

11:43

arXiv cs.AI@Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang

精选72°

MobileGym 是一个轻量级、浏览器托管的移动GUI仿真环境，通过结构化JSON状态实现确定性结果验证，并支持低成本并行rollout，使在线强化学习在移动应用场景中变得可行。该平台单服务器可运行数百个并行实例，每个实例仅需约400MB内存和3秒冷启动，并提供了416个参数化任务模板（256测试+160训练），覆盖28个应用。在Sim-to-Real案例中，使用GRPO在Qwen3-VL-4B-Instruct上训练，测试集准确率提升12.8个百分点，且真实设备执行保留了95.1%的仿真训练收益。MobileGym 解决了移动GUI Agent研究中环境保真度、可扩展性和评估一致性的核心痛点。

论文移动GUI Agent 仿真平台强化学习并行训练开源/仓库

推荐理由：做移动端GUI Agent或强化学习的团队终于有了一个可验证、高并发的仿真平台，不用再依赖私有后端或模糊匹配评估，建议直接看项目页和论文。

原文

10:17

Pandaily@contact@pandaily.com (Pandaily)

精选

北航与MIT联合开发的可穿戴机器人仅重0.96公斤，帮助6名肌营养不良儿童首次实现独立坐-站转换。该研究登上Nature封面故事，展示了轻量化外骨骼在医疗康复中的潜力。研究团队通过优化驱动与结构设计，使机器人适合儿童体型并提供稳定支撑。

论文 Beihang MIT 可穿戴机器人肌营养不良 Nature

推荐理由：0.96公斤登上Nature封面

原文

06:36

rohanpaul_ai@rohanpaul_ai

72°

Google 新论文指出，大语言模型的幻觉问题根源不在于回答错误，而在于错误时仍显得过于自信。论文提出应将目标从追求完美事实性转向让模型诚实表达自身不确定性，即“忠实的不确定性”。作者认为，模型缺乏的不是知识，而是对自身认知的元认知能力。对于智能体而言，不确定性感知能决定何时搜索、何时信任来源、何时停止，比工具本身更重要。

论文 LLM 幻觉不确定性元认知 Google

推荐理由：这篇论文点破了 LLM 幻觉的核心矛盾——不是知识不够，而是不知道什么时候该说“不确定”。做 AI 产品、智能体或对话系统的团队，看完会对“诚实比正确更重要”有更深理解，建议直接读原文。

原文

04:52

rohanpaul_ai@rohanpaul_ai

72°

Meta、斯坦福和伊利诺伊大学联合发表了一篇综述论文，核心观点是：当代码成为AI智能体的主要工作层时，智能体表现更优。论文指出，仅靠LLM做文本预测，长任务容易丢失状态、隐藏错误，将计划转化为行动的方式也很脆弱。真正的进步不是“AI写代码”，而是“AI把代码当作它思考的环境”。作者将围绕模型构建的工具、记忆、沙箱、检查和反馈循环称为“智能体马具”，而代码应处于这个马具的中心，因为代码可以被运行、检查、保存、编辑和共享。论文总结了一个跨领域的模式：代码帮助智能体通过可执行步骤推理、通过工具调用或控制程序行动、通过测试、追踪、日志、仓库和模拟器建模环境。

论文智能体代码即环境 Meta 斯坦福论文

推荐理由：这篇论文为AI智能体架构提供了一个清晰的设计原则——用代码作为核心工作层，做智能体系统或工具链的开发者值得一读，能帮你理解为什么代码比纯文本更适合作为智能体的“思考环境”。

原文

01:28

elvis@omarsar0

精选76°

微软研究院提出 SkillOpt，一种将智能体技能文档视为可训练外部状态的新方法。该方法通过一个优化器模型对技能文件进行验证门控的增删改编辑，并引入文本学习率控制改写强度，而智能体本身保持不变。在 52 个（模型、基准、工具）组合上，SkillOpt 均达到最佳或并列最佳，在 GPT-5.5 上直接聊天提升 23.5 点，与 Codex 配合提升 24.8 点，与 Claude Code 配合提升 19.1 点，且零额外推理成本。学到的技能可跨模型和工具迁移，效果优于人工编写技能、TextGrad、GEPA 和 EvoSkill。

论文智能体技能优化微软 SkillOpt 推理模型

推荐理由：做智能体开发的工程师别再手写技能文档了——SkillOpt 证明自动优化技能文件能带来显著性能提升，且零推理开销，值得在你的 Agent 工作流中尝试。

原文

00:52

Milvus@milvusio

精选

RAG 管道常犯一个错误：把语义相似度当成相关性，导致返回主题相近但实际不匹配的结果。CRAG（Corrective RAG）通过引入评估步骤，在检索后对文档进行相关性评分，并分三条路径处理：正确则精炼使用，模糊则补充网络搜索，错误则丢弃并回退搜索。评估器使用微调后的 T5-Large 模型，比通用 LLM 更快更精准。CRAG 能有效拦截 Apache 指南回答 Nginx 配置这类错误，确保生成只基于真正相关的内容。

论文 RAG CRAG 检索增强生成相关性评估 Milvus

推荐理由：做 RAG 系统的团队终于有了解决检索错配的实用方案——CRAG 在检索后加一道评估关卡，直接过滤掉相似但不相关的文档。做知识库问答或搜索增强应用的开发者，值得看看这个改进管道的方法。

原文

5月25日

15:37

Decoder@Jonathan Kemper

精选

北京大学研究人员发现，GPT、Gemini等主流AI模型在文档分析中经常给出正确答案，但引用的文本段落并不支持其结论。这种现象被称为“归因幻觉”，在法律、医学等需要严格引用来源的领域存在风险。为系统检测这一问题，团队推出了首个专门基准测试CiteVQA。该研究揭示了AI在推理与引用之间的不一致性，对依赖AI进行事实核查的用户具有警示意义。

论文归因幻觉 CiteVQA GPT Gemini 事实核查

推荐理由：做文档分析或事实核查的开发者要注意了——AI可能答对了但引用了错误来源，北大这个新基准能帮你识别这类风险，建议点开了解如何防范。

原文

12:05

AI Will@FinanceYF5

精选

ZEDA是一种针对混合专家模型（MoE）的后训练方法，通过自蒸馏技术让模型学会在推理时跳过半数专家，从而大幅降低计算成本。与传统的剪枝不同，ZEDA赋予模型“算力预算意识”，使其能根据每个token的重要性动态决定是否投入计算资源。该方法在保持性能的同时显著提升效率，为大规模MoE模型的部署提供了新思路。论文已发布在arXiv上。

论文 MoE/混合专家模型压缩/加速自蒸馏算力优化 ZEDA

推荐理由：做MoE模型部署或推理优化的团队，ZEDA直接解决了算力浪费问题——跳过一半专家还能保持效果，值得一试。

原文

12:04

AI Will@FinanceYF5

精选72°

论文 MoE 专家计算推理优化 ZEDA 大模型效率

推荐理由：做 MoE 模型推理优化的开发者终于有了新思路——ZEDA 直接砍掉一半专家计算，省成本又提速，值得在自家模型上试试。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。