全部 AI 动态 · AI 热点

6月15日

11:10

arXiv cs.LG@Kai S. Yun, Zeyang Li, Navid Azizan

PS2-RL是一种两阶段安全强化学习框架，第一阶段通过safe-arrival价值函数训练备份策略，隐含构建控制不变集。第二阶段利用可微投影层对RL策略进行端到端训练，严格保证安全约束。该方法在最高10维状态的机器人控制任务上评估，较此前可证明安全方法更可扩展且性能更优。PS2-RL不限制底层RL算法，可插入现有训练流程。

论文 PS2-RL 安全强化学习可证明安全备份策略控制不变集

推荐理由：安全RL扩展新解法

原文

11:10

arXiv cs.AI@Sicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu

ClinHallu是一个用于诊断医疗多模态大模型(MLLM)推理中分阶段幻觉的基准，包含7031个验证实例。每个实例的推理轨迹被分解为视觉识别、知识回忆和推理整合三个阶段。通过阶段替换干预，可测量纠正特定阶段对最终答案的影响。轨迹监督微调能有效减少阶段幻觉。该基准为诊断和缓解医疗MLLM推理错误提供了细粒度测试平台。

AI模型 ClinHallu MLLM 多模态幻觉诊断医疗AI

推荐理由：诊断医疗AI幻觉的利器

原文

11:10

arXiv cs.LG@Liou Tang, James Joshi, Ashish Kundu

该论文针对机器遗忘（Machine Unlearning）的审计问题，给出信息论证明：对于凸ML模型，任何仅依赖行为信号（如模型输出）的审计方案，都无法在不泄露保留集成员信息的情况下识别未经充分遗忘的模型。实验在凸模型上强有力地支持该结论，并在非凸模型上也观察到类似的隐私-审计权衡。研究结果呼吁在现实审计者威胁模型下更谨慎地考虑隐私与审计的冲突，并为设计隐私保护的审计方案提供基础。代码已开源。

论文 Machine Unlearning 隐私审计凸模型隐私保护

推荐理由：论文证明行为审计会泄露隐私，给审计方案敲警钟

原文

11:10

arXiv cs.LG@Jai Bhagat, Sara Molas-Medina, Giorgi Giglemiani, Stefan Heimersheim

论文研究Braun等人2025年提出的压缩计算（CC）玩具模型。该模型用50个神经元计算100个ReLU函数，但作者发现性能提升来自输入混合而非叠加计算。训练目标分为ReLU项和混合项，增益随混合矩阵幅度增大而消失。学习到的神经元方向集中在混合矩阵前50个特征值对应的子空间。基于混合矩阵的SNMF基线能复现损失轮廓，但未完全匹配训练模型。

论文 CC Superposition SNMF 叠加计算可解释性

推荐理由：质疑CC模型的叠加假设

原文

11:10

arXiv cs.LG@Christoph Bauschmann, Setareh Maghsudi

该论文针对图结构组合半赌博机问题，开发了基于图因果奖励建模、解析再生核方法和泰勒近似的自适应策略。理论证明在时间上具有次线性性能保证，数据量上线性扩展。实验使用合成和真实交通数据集验证了框架的有效性。

论文组合赌博机图结构非线性关联可分离信号理论分析

推荐理由：新策略搞定图结构非线性关联

原文

11:10

arXiv cs.AI@Shikun Liu, Mufei Li, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li

Parallel-Synthesis框架使合成器直接消费并行工作线程的KV缓存，避免文本拼接冗余。它通过缓存映射器校准独立分支缓存，并微调合成适配器以支持非顺序缓存接口。在9个数据集（数学、科学问答、代码生成、GAIA、多智能体数据库诊断）上，7个超越或持平文本合成基线，首token延迟降低2.5-11倍。该工作为并行智能体分支的高效合成提供了新接口。

论文 Parallel-Synthesis LLM Agent 智能体推理模型

推荐理由：并行合成提速2.5-11倍

原文

11:10

arXiv cs.LG@Anthony Pineci, Yunzong Xu

该论文提出一种隐藏目标学习方法用于在线库存优化（OIO），其中基础学习器使用在线梯度下降（OGD）。该方法将已知的遗憾保证从对公共需求概率的逆依赖提升为逆平方根依赖，并证明了匹配下界。对于强凸损失，该方法首次给出poly对数遗憾保证；对于一般凸集，该方法实现了第一个适应欧几里得路径变化的动态遗憾保证。实验在合成和真实库存数据上验证了理论结果。

论文 OIO 在线梯度下降库存优化凸集在线凸优化

推荐理由：用隐藏目标解决库存优化，有理论保证

原文

11:10

arXiv cs.AI@Hugo Daumain, Driss Matrouf, Khaled Khelif, Mickael Rouvier

语音生成技术的进步使合成语音越来越自然，导致欺骗检测更加困难。本研究将自监督语音表示模型转换为混合专家（MoE）架构，替换编码器层的前馈块为多个专家网络，并通过层间门控机制控制专家激活。专家网络能捕获互补的声学模式，同时保留自监督预训练学到的表示。在14个欺骗数据集上的评估显示，宏等错误率（EER）从5.46%降至4.81%，相对提升11.9%。

论文 Self-Supervised Speech Model Mixture-of-Experts Anti-Spoofing AI安全

推荐理由：MoE让反欺骗更强，EER降11.9%

原文

6月12日

13:55

arXiv cs.AI@Mahmoud Abujadallah, Ali Arabat, Mohammed Sayagh

一项基于AIDev数据集的研究发现，Copilot、Devin、Cursor和Claude等AI编程助手生成的代码修复PR中，46.41%被开发者拒绝。研究者对306个未合并PR进行定性和定量分析，归纳出14个拒绝原因，分为四类：实现不正确（如不完整、错误方法）、未通过CI测试、代理无法完成实现（如未生成代码、会话丢失）、以及优先级低。研究建议，应通过提供修复方法提示、明确约束限制、指导CI验证流程来提升AI代理的有效性，并强调任务优先级管理以减少资源浪费。

论文 AI编程助手代码修复 PR拒绝 Copilot Devin

推荐理由：AI编程助手生成的代码修复近一半被拒，浪费大量人力审查和计算资源——做AI辅助开发的团队和工具开发者，建议看看这14个失败原因，能帮你避免踩坑。

原文

13:55

arXiv cs.AI@Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong Baotian Hu, Min Zhang

传统ASR纠错仅关注孤立语句或短上下文，但在长文本与语音交错的对话中，需要对话级上下文证据。现有方法依赖当前假设或拼接原始对话历史，难以在冗余噪声中定位稀疏纠错证据。本文提出本体记忆增强的ASR纠错框架，将交互历史组织为动态更新的本体记忆，存储实体、术语、表面变体、潜在ASR混淆及语义关系作为可检索节点。基于MAGIC-RAMC构建的RAMC-Corr数据集实验显示，该方法在10个配对骨干设置组合中9个优于直接纠错，促进更选择性、基于证据的上下文相关ASR错误纠正。

论文 ASR纠错本体记忆长对话上下文增强语音识别

推荐理由：做语音识别或对话系统的团队，这个框架解决了长对话中ASR纠错缺乏上下文的问题，直接提升纠错准确率，值得在长交互场景中尝试。

原文

13:48

arXiv cs.LG@William Smits

CRAFTIIF 提出了一种完全无监督的多变量时间序列异常检测框架，能同时处理点异常、分布异常、时间异常和集体异常四种结构类型，无需针对数据集调参。它通过 500 个随机解析小波特征（Morlet、DOG、Haar、Coiflet 四族）分别喂给五个隔离森林（每类一个加一个元森林），并利用自适应 Otsu/MAD 阈值自动校准。在 mTSBench 基准的 19 个数据集上，CRAFTIIF 平均 F1=0.228，VUS-PR 达 0.463，比此前最佳方法提升 40.7%。消融实验表明自适应阈值、四分支结构和元森林分别贡献了 +38%、+20% 和 +23% 的 F1 提升。代码已开源。

论文异常检测多变量时间序列隔离森林小波特征无监督学习

推荐理由：CRAFTIIF 解决了多变量时间序列异常检测中四种异常类型难以统一检测的痛点，做运维监控、工业故障诊断或金融风控的团队可以直接用这个无监督框架，无需手动调参就能获得可解释的异常类型归属。

原文

13:48

arXiv cs.LG@Tianyi Ma, Yijun Ma, Zehong Wang, Weixiang Sun, Ziming Li, Connor R. Schmidt, Chuxu Zhang, Matthew J. Webber, Yanfang Ye

超分子化学研究非共价主客体组装，但设计过程耗时且需要大量干实验验证。尽管LLM在分子结合任务上表现优异，但缺乏系统评估其超分子化学推理能力的基准。为此，研究团队与领域专家合作发布了SupraBench，包含结合亲和力预测、最佳结合物选择、溶剂识别和主客体描述四个核心任务，以及一个基于视觉的分子识别辅助任务。同时发布了SupraPMC语料库（1600万token），用于领域适应预训练。实验表明，LLM在所有任务上仍有显著提升空间，领域适应预训练在分布内回归任务上表现良好，但会牺牲严格的格式输出。

论文基准测试超分子化学 LLM评估分子结合开源/仓库

推荐理由：做计算化学或药物设计的团队终于有了评估LLM超分子推理能力的标准测试——SupraBench覆盖了结合亲和力预测等关键任务，想验证LLM在化学领域实用性的研究者可以直接用。

原文

13:47

arXiv cs.LG@Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng

73°

MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架，由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力，并整合为单一模型。在测试时，MaxProof 将模型作为生成器、验证器、优化器和排序器，对候选证明群体进行搜索，并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上，M3 模型分别达到 35/42 和 36/42，超过了人类金牌阈值。

论文数学证明强化学习验证器测试时扩展 MiniMax-M3

推荐理由：数学证明是 AI 推理的硬核测试，MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈，做数学 AI 或推理系统的研究者值得关注其方法。

原文

13:47

arXiv cs.LG@Shaivi Malik

该论文提出一个探索性框架，将神经网络模型编辑形式化为强化学习问题，代理通过奖励反馈修改模型参数。框架包含两个环境：MaskWorld（乘法缩放权重）和 ShiftWorld（加法更新权重），奖励函数结合效用保持和任务特定编辑目标。在文本分类的偏见缓解和图像分类的机器遗忘任务上，学习到的策略在遗忘任务中将遗忘集准确率降至接近 0%，同时保留集准确率超过 90%；在偏见缓解中，偏见相关性能提升超 5% 且保持分类效用。结果表明，模型编辑可通过 RL 学习策略，无需为每个任务手动设计专用算法。

论文强化学习模型编辑偏见缓解机器遗忘 arXiv

推荐理由：这个框架让做模型微调或安全对齐的团队省去手动设计编辑算法的时间，直接用 RL 学习策略就能完成偏见缓解或遗忘任务，值得关注。

原文

13:46

arXiv cs.LG@Dimitri Vanden Abeele, Daniele Veraldi, Davide Pierangeli, Claudio Conti, Serge Massar

研究人员利用空间光子伊辛机（SPIM）实现了平衡传播（EP）算法的混合光学-数字实现。该方案通过空间光调制器以相位调制方式光学编码连续神经元状态和秩1二进制可训练模式，并用有限差分法完成推理。实验在Wine分类数据集上验证了系统可行性，数值模拟进一步展示了连续耦合和结构化耦合矩阵在MNIST数据集上的潜力。这项工作为低能耗的物理实现平衡传播提供了具体路径。

论文光子计算平衡传播伊辛机低能耗训练物理实现

推荐理由：光子计算与机器学习交叉领域的研究者值得关注——SPIM实现EP算法为低功耗训练开辟了新方向，尤其适合对能效敏感的硬件部署场景。

原文

13:46

arXiv cs.LG@Paul Seij, Christian A. Naesseth, Stephan Mandt, Metod Jazbec

扩散模型在3D分子生成中广泛应用，但缺乏对生成分子质量的可靠信号。研究者提出一种后处理方法，基于拉普拉斯近似对预训练分子扩散模型进行逐样本不确定性估计。该方法通过测量生成轨迹中噪声预测的变异性来评估不确定性，实验表明该分数与样本质量负相关。利用该分数过滤生成样本，可在测试时提升模型性能。

论文扩散模型分子生成不确定性估计拉普拉斯近似测试时缩放

推荐理由：做分子生成或药物设计的团队，终于有了一个能判断生成分子质量好坏的信号，建议试试这个后处理方法，能直接提升模型输出质量。

原文

13:45

arXiv cs.LG@Rodrigo de Sapienza Luna, Daniel Ratton Figueiredo

该研究提出了一种基于图神经网络（GNN）和自学习框架的无监督图聚类方法。方法通过多轮自学习迭代，每轮使用GNN生成节点表示并进行聚类，聚类结果影响下一轮的图结构。同时，每轮利用原始图构建上下文图来生成节点表示。实验表明，该方法能同时利用网络边和节点属性信息，在合成数据上优于仅依赖网络或属性的算法。多轮学习持续提升性能，且优于单轮长训练。在真实数据集上，当簇大小平衡时，该方法与现有最优方法竞争力相当。

论文图神经网络图聚类自学习节点属性网络无监督学习

推荐理由：图聚类是网络分析的基础问题，这项研究解决了同时利用网络结构和节点属性的难题。做社交网络分析、生物网络或推荐系统的研究者，可以关注这个自学习框架带来的性能提升。

原文

13:44

arXiv cs.LG@Mohammed Bouri, Mohammed Erradi, Adnane Saoud

自然语言处理模型易受词替换攻击，现有防御主要关注一阶敏感性（梯度），但忽略了曲率（梯度变化率）的影响。本文提出S-GBT（平滑增长界张量），一种二阶方法，通过逐元素约束Hessian矩阵并加入正则化项，在训练中最小化这些界，从而获得更紧的认证鲁棒性。该方法适用于LSTM和CNN架构，在多个基准数据集上，结合一阶和二阶正则化使认证鲁棒准确率提升高达23.4%，同时保持干净准确率竞争力。研究表明，同时控制梯度及其变化是构建更鲁棒模型的有前景方向。

论文词替换攻击认证鲁棒性二阶优化 LSTM CNN

推荐理由：NLP安全研究者终于有了兼顾梯度与曲率的防御方法——S-GBT在词替换攻击下将认证鲁棒准确率提升23.4%，做文本对抗防御的团队值得关注。

原文

11:42

arXiv cs.AI@Zilin Xiao, Qi Ma, Chun-cheng Jason Chen, Xintao Chen, Avinash Atreya, Hanjie Chen, Vicente Ordonez

传统RAG基于语义相似度检索，不适合复杂推理任务：语义相似的问题可能解法不同，而表面不同的问题可能共享相同推理模式。RA-RFT提出一种后训练框架，通过黄金相关性蒸馏训练检索器，按预期推理收益而非语义重叠排序上下文，再用强化微调方法结合检索到的类比示例微调策略模型，使其学会利用推理轨迹。在数学推理基准上，RA-RFT持续优于标准强化微调方法，例如在AIME 2025上，对Qwen3-1.7B和Qwen3-4B分别提升7.1和2.8个点。这表明推理感知检索是独立于奖励设计或训练课程的改进维度。

论文检索增强生成类比推理强化微调数学推理 RA-RFT

推荐理由：做复杂推理的AI研究者终于有了一个不依赖语义相似度的检索框架——RA-RFT让模型学会类比推理，数学基准提升显著，做RAG或强化微调的团队值得关注。

原文

11:26

arXiv cs.LG@Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye

该论文分析了在线策略蒸馏（OPD）在语言和多模态模型中的参数更新特性，发现OPD更新具有稀疏性，主要集中在FFN层，且仅训练这些子网络即可接近完整OPD的性能。更新在几何上是满秩但谱集中的，主要落在源权重接近零的坐标上。研究还发现，密集教师监督下SGD优化器不如AdamW，因为AdamW的自适应缩放对保持异构梯度尺度更有效。这些结果表明，OPD并非简单的密集参数重写，而是保留了策略后训练的几何特征。

论文模型蒸馏稀疏更新优化器对比几何分析 OPD

推荐理由：这篇论文揭示了OPD更新的稀疏性和几何特性，对做模型蒸馏和微调的团队有直接参考价值——你可以只训练关键子网络来节省计算，同时理解为什么AdamW比SGD更优。建议点开看看实验细节。

原文

11:25

arXiv cs.LG@Nathaniel Bottman, Yinhong Liu, Kyle Richardson

精选

论文提出一种名为Operadic Consistency（OC）的新方法，用于在无真实标签的情况下检测大语言模型的推理失败。OC基于操作理论，通过比较模型对组合问题的直接回答与分解后组合回答的一致性，生成每个问题的置信度信号。在12个指令微调模型（4B到671B参数）和4个多跳QA数据集上，OC与准确率的皮尔逊相关系数达0.86-0.94，且在所有数据集上均优于链式思维自一致性（CoT-SC）和语义熵等基线。在选择性预测任务中，OC在固定覆盖率下显著提升准确率，AUARC提升0.086-0.096，AUROC提升0.092-0.164。该方法无需标注数据，为LLM推理可靠性提供了一种高效、通用的诊断工具。

论文推理模型组合推理置信度评估无标签检测操作理论

推荐理由：做LLM推理评估的团队终于有了一个无需标签就能检测组合推理失败的新工具——Operadic Consistency在多个数据集上表现稳定，比CoT-SC更可靠，建议关注这个方向。

原文

11:23

arXiv cs.LG@Ayushman Trivedi, Bhavika Melwani

该论文挑战了持续学习中“灾难性遗忘即信息破坏”的传统观点，提出遗忘知识其实仍以紧凑形式存在于模型表征中。研究者在Split CIFAR-100上训练ResNet-18，通过引入“恢复子空间维度”指标发现，尽管表征漂移显著，但恢复遗忘知识所需的子空间维度在整个训练过程中保持稳定（均值8.0）。主角度漂移与可恢复性高度相关（r=-0.862），一个简单几何模型能解释82.2%的可恢复性方差。这些结果支持“稳定恢复流形”假说，表明灾难性遗忘本质上是可访问性和流形对齐问题，而非信息丢失。

论文持续学习灾难性遗忘表征几何可恢复性 ResNet-18

推荐理由：这篇论文用几何视角重新定义了灾难性遗忘，做持续学习或模型遗忘研究的开发者会看到新方向——遗忘不是删除，而是藏起来了。建议关注其恢复子空间维度的测量方法，可能启发新的抗遗忘算法。

原文

11:22

arXiv cs.LG@Ion Matei, Maksym Zhenirovskyy, Takuya Kurihana, Rohit Vupala, Anthony Wong

该研究提出了一种结合混合神经网络-元胞自动机火灾模型与梯度优化方法的空中灭火规划框架。模型利用地形、燃料和风数据预测火灾蔓延，并通过连续参数优化确定空中投放位置和方向。水和阻燃剂分别模拟即时灭火和持久抑制效果。基于2020年Bear Fire的案例验证表明，该框架能生成有效的空中灭火计划，减少火灾影响面积，并支持不确定性分析。

论文 CNN 元胞自动机火灾预测空中灭火不确定性量化

推荐理由：做火灾应急规划或AI优化决策的团队值得关注——这套框架把预测和干预统一优化，比传统分步方法更高效，且能处理环境不确定性。

原文

11:19

arXiv cs.LG@Kyuil Lee, Dezhi Yu, Yongkang Huang

该研究系统比较了三种生成模型在巴赫风格钢琴音乐生成上的表现：带注意力的自回归LSTM、潜变量模型（包括循环VAE和向量量化VAE）以及生成对抗网络。实验表明，带注意力的自回归LSTM生成的音乐连贯性最佳；向量量化有助于缓解后验崩溃问题，生成的结构化输出优于传统循环VAE；对抗方法能捕捉局部音高模式，但训练困难且风格泛化不稳定。研究揭示了不同方法在符号音乐生成中的优势与局限。

论文音乐生成自回归模型潜变量模型生成对抗网络巴赫风格

推荐理由：做音乐AI或生成式模型的研究者，这篇论文直接对比了三大主流方法在巴赫风格音乐上的效果，结论清晰，适合作为技术选型参考。

原文

11:12

arXiv cs.LG@Yashdeep Chaudhary, Roberto Armellin, Harry Holt, Marco Sagliano

本文提出一种分布无关的鲁棒轨迹优化框架，基于机会约束强化学习。不确定性通过初始条件和过程噪声表示，仅需可采样。先离线计算确定性标称轨迹，再通过强化学习鲁棒化基线，采用结构化仿射闭环修正律（前馈调整+时变反馈增益）。概率可行性通过基于rollout的上尾分位数经验保证，终端散布通过协方差可行性惩罚调节。在地球-火星转移和大气定点火箭着陆两个案例中验证，表明该方法在保持概率可行性的同时，燃料成本竞争力强，且核心随机控制结构可跨异构航天器轨迹规划问题复用。

论文鲁棒轨迹优化机会约束强化学习航天器规划分布无关

推荐理由：航天器轨迹规划团队终于有了一个分布无关的鲁棒优化方案——无需假设不确定性分布，仅需可采样，且能跨问题复用核心结构。做深空任务或火箭着陆控制的开发者可以直接参考其强化学习鲁棒化方法。

原文

10:57

arXiv cs.LG@Meher Sai Preetam, Meher Bhaskar

本文提出 Simplex-Constrained Sparse Bagging (SCSB)，一种用于后训练压缩和概率校准的数学框架。标准 Bagging 集成（如随机森林、Bagged SVM 等）对所有基估计器赋予均匀投票权重，忽略了它们在不同区域的局部能力差异，导致模型过度自信。SCSB 通过在概率单纯形上最小化袋外损失，将集成剪枝和校准联合优化，并引入凹二次惩罚解决 L1 单纯形悖论（L1 范数在单纯形上为常数，无法直接剪枝）。该方法与模型无关，可实现高达 96% 的集成压缩，带来线性推理加速，同时降低期望校准误差，保持或提升泛化精度。

论文集成学习模型压缩概率校准 Bagging SCSB

推荐理由：做集成学习或模型部署的团队，SCSB 能帮你把随机森林等 Bagging 模型压缩 96% 且校准更好，直接省推理成本。

原文

10:53

arXiv cs.AI@Zhao-Heng Yin, Guanya Shi, Pieter Abbeel, C. Karen Liu

Mana 提出了一种将灵巧操作视为动画问题的 sim-to-real 框架，解决了铰接工具操作中协调内部自由度与接触交互的难题。该框架通过粗到细的流水线，将程序化生成的关键帧转化为操作轨迹，结合运动规划与强化学习实现零样本迁移。数据生成几乎全自动，每个工具仅需不到一分钟的鼠标点击指定功能属性。在四种不同铰接工具上，Mana 实现了零样本的 sim-to-real 抓取与手内操作，展示了可扩展的灵巧操作方案。

论文灵巧操作铰接工具 sim-to-real 强化学习机器人

推荐理由：铰接工具操作是机器人灵巧操作的硬骨头，Mana 用动画思路解决了数据生成和迁移难题，做机器人操作或 sim-to-real 的团队可以直接参考其零样本迁移方法。

原文

10:51

arXiv cs.AI@Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen

SpatialClaw 提出了一种无需训练的空间推理框架，通过将代码作为动作接口，让 VLM 智能体能够逐步执行并观察中间结果，从而灵活组合感知和几何操作。现有空间智能体要么单次执行代码（无法中途调整），要么依赖结构化工具调用（灵活性不足），限制了复杂 3D/4D 推理。SpatialClaw 维护一个状态化 Python 内核，预加载输入帧和感知原语，智能体每步写一个可执行单元，基于之前输出调整策略。在 20 个空间推理基准上，SpatialClaw 平均准确率 59.9%，比最新空间智能体高 11.2 个百分点，且跨 6 个 VLM 骨干网络表现一致。

论文空间推理 VLM/视觉语言模型代码接口智能体 3D/4D

推荐理由：做 3D 视觉或机器人空间推理的团队，终于有了一个无需微调就能显著提升 VLM 空间理解能力的框架——SpatialClaw 用代码接口解决了灵活性和中间反馈的痛点，值得在现有模型上直接试试。

原文

10:50

arXiv cs.AI@Tobias Holtdirk, Pietro Marcolongo, Anna Steinberg Schulten, Felix Henninger, Stefan Rose, Sarah Ball, Bolei Ma, Frauke Kreuter, Markus Weinmann, Stefan Feuerriegel

社会科学和行为科学中的可重复性评估通常依赖独立研究人员重新分析原始数据，成本高且难以规模化。本研究使用 76 篇已发表研究，让 LLM 自动生成分析并与原始结果及人工再分析对比。结果显示，LLM 在 41% 的研究中恢复了原始效应量（Cohen's d 容忍度 ±0.05），而人工再分析仅为 34%；在定性结论一致性上，LLM 达到 96%，人工为 74%。这表明 LLM 可作为可扩展的自动化可重复性评估工具，为系统审计实证结果奠定基础。

论文 LLM 可重复性社会科学自动化评估实证研究

推荐理由：社会科学研究者终于有了低成本的重复性验证工具——LLM 比人工更高效且更一致，做元分析或期刊审稿的团队可以直接用这套方法。

原文

10:49

arXiv cs.AI@Zongsheng Cao, Bihao Zhan, Jinxin Shi, Jiong Wang, Fangchen Yu, Zhijie Zhong, Zijie Guo, Tianshuo Peng, Zhuo Liu, Yi Xie, Xiang Zhuang, Yue Fan, Runmin Ma, Shiyang Feng, Xiangchao Yan, Anran Liu, Peng Ye, Wenlong Zhang, Shufei Zhang, Chunfeng Song, Fenghua Ling, Jie Zhou, Liang He, Bo Zhang, Lei Bai

Agents-K1 是一个端到端的科学知识编排管线，能将原始论文转化为智能体可用的科学知识图谱。它包含多模态解析器、基于 GRPO 训练的 4B 信息提取模型和统一接口 CLI，覆盖实体、多模态证据、引用和关系。团队用该管线处理了 246 万篇论文，构建了 Scholar-KG 数据集，并开源了其中 100 万篇子集。实验表明，Agents-K1 在科学信息提取、知识图谱构建和多跳推理上表现优异。

论文知识图谱科学信息提取 Agents-K1 Scholar-KG 多模态

推荐理由：做科学知识图谱或文献挖掘的团队可以直接用这个开源管线，省去自己设计抽取流程的麻烦，尤其适合需要跨论文推理的科研场景。

原文

10:48

arXiv cs.AI@Amy Xin, Jiening Siow, Junjie Wang, Zijun Yao, Fanjin Zhang, Jian Song, Lei Hou, Juanzi Li

EurekAgent 提出了一种新的自主科学发现框架，认为瓶颈在于设计智能体的执行环境而非工作流程。该框架通过权限、工件、预算和人机交互四个维度的环境工程，实现了高效探索和协作。在数学、内核工程和机器学习任务上取得了新突破，例如以不到11美元的API成本发现了新的26圆填充方案。研究团队开源了代码和结果，呼吁将环境工程作为自主研究智能体的核心研究方向。

论文自主科学发现环境工程智能体开源/仓库 EurekAgent

推荐理由：EurekAgent 用环境工程解决了自主科学发现中智能体行为失控和效率低下的痛点，做AI研究自动化的团队可以直接借鉴其四维设计思路，成本极低且效果显著。

原文

10:47

arXiv cs.AI@Marianna Bergamaschi Ganapini, Massimo Chiriatti, Enrico Panai, Giuseppe Riva

这篇论文分析了三种理解AI认知与认识论后果的框架：三系统理论、思维框架和System 0。作者认为System 0具有独特的理论地位，无法被前两者完全替代。论文提出了“认知殖民”概念，指AI系统能将外部利益嵌入用户自我架构中，且用户难以察觉。由于这类系统已广泛部署，理解这些无形的影响成为紧迫的哲学和实践任务。

论文认知科学 AI伦理 System 0 认知殖民人机交互

推荐理由：这篇论文揭示了AI对个体认知的深层影响，做AI伦理、认知科学或人机交互的研究者值得一读，能帮你理解AI如何潜移默化地改变你的思维方式。

原文

10:41

arXiv: Anthropic@Elias Lumer, Sahil Sen, Kevin Paul, Vamse Kumar Subbiah

精选

本文提出 Recursive Agent Harness (RAH) 概念，将递归从模型调用扩展到完整智能体框架，包含文件系统、代码执行和规划能力。在长上下文推理任务上，RAH 在 GPT-5 骨干上比 Codex 基线提升近 10 个百分点（71.75% → 81.36%），使用 Claude Sonnet 4.5 时达到 89.77%。该方法通过父智能体生成可执行脚本并行启动子智能体，结合结构化函数调用处理细粒度任务，为生产级编码智能体提供了新范式。

论文递归智能体长上下文推理智能体框架编码智能体 GPT-5

推荐理由：RAH 解决了长上下文推理中智能体扩展性的核心瓶颈，做复杂编码任务或智能体系统的开发者可以直接参考其设计思路，效果提升显著。

原文

10:28

arXiv cs.AI@Marek Šuppa, Andrej Ridzik, Daniel Hládek, Natália Kňažeková, Viktória Ondrejová

研究团队发布了SkMTEB，这是斯洛伐克语首个全面的MTEB风格文本嵌入基准，包含31个数据集和7种任务类型，覆盖深度是现有多语言基准的近4倍。评估31个嵌入模型后发现，大型指令微调多语言模型表现最佳，而斯洛伐克语专用NLU模型在嵌入任务上迁移效果差。为满足高效本地部署需求，团队通过词汇修剪和微调Multilingual E5模型，开发了e5-sk-small（45M参数）和e5-sk-large（365M）模型，体积最多减少62%，性能却与商业API相当。所有基准、模型、数据集和代码均已开源，为其他低资源语言提供了可复现的路径。

论文文本嵌入低资源语言斯洛伐克语 MTEB基准开源/仓库

推荐理由：低资源语言NLP开发者终于有了可本地部署的高效嵌入方案——e5-sk系列在体积缩减62%后仍能匹敌商业API，做斯洛伐克语语义搜索或RAG的团队可以直接用开源模型替代付费服务。

原文

10:27

arXiv cs.AI@Lezhi Tan, Tijana Zrnic

该论文提出了一种名为“任务可交换性”的统计条件，允许研究人员在合成数据存在偏差和噪声的情况下，仍能进行具有可证明有效性的推断。核心思想是：如果当前研究任务与某些已有真实数据的“历史任务”在数学上可交换，那么就可以利用合成数据来扩展研究，同时保证统计结论的可靠性。作者在公众舆论调查（使用“硅样本”）和AI评估（使用自动评分器）两个场景中验证了该框架。这项工作为社会科学、AI评测等领域安全使用合成数据提供了理论基础。

论文合成数据统计推断任务可交换性 AI评估社会科学

推荐理由：合成数据在科研中越来越常见，但偏差问题一直让人头疼。这篇论文给出了一个可操作的统计框架，让做社会科学调查或AI评估的研究者可以放心地用合成数据做推断，值得关注。

原文

10:26

arXiv cs.AI@Achraf Hsain, Sultan Almuhammadi

本文提出盾牌强化学习（shielded reinforcement learning）不应仅作为运行时安全机制，而应作为设计阶段的分析工具。作者通过一个受约束的双人安全博弈实例，将规范编译、乘积博弈构建、吸引子计算和获胜区域提取等自动机理论方法，用于生成系统的结构性洞察，而非对部署智能体的运行时限制。该方法输出一个“可防御性判定”——一个形式化证书，表明拓扑-规范对是否可防御，并附带获胜区域和盾牌。结合吸引子结构的拓扑级度量和盾牌约束下的对抗多智能体强化学习行为，形成“可防御性指纹”，同时捕捉形式安全属性和自适应博弈下的操作行为。通过假设分析发现，形式可防御性与操作有效性捕捉了安全的不同方面：小的架构变化可导致操作结果的巨大变化，而形式安全裕度几乎不变。因此，盾牌合成最有价值之处不在于作为安全智能体的部署机制，而在于回答系统是否、何处以及如何可防御的架构问题。

论文盾牌强化学习形式化验证网络安全博弈论设计分析

推荐理由：这篇论文把盾牌合成从运行时约束工具重新定义为设计阶段的分析框架，做网络安全架构和形式化验证的团队值得一读——它提供了一种新思路，用形式化方法回答“系统到底能不能防住”这个根本问题。

原文

10:25

arXiv cs.AI@Minghao Luo, Liang Chen

搜索增强型大语言模型（LLM）在实时检索网页内容进行消费推荐时，面临被虚假评论和促销页面误导的风险。研究者提出了FORGE基准，通过将真实产品信息替换为虚假信息，测试12种商业和开源LLM的脆弱性。结果显示，单个污染页面即可导致最高27%的虚假推荐率，而替换前3个检索结果后，虚假推荐率升至73.8%。推理能力不仅无法缓解此问题，反而会生成虚假的社会证明来合理化错误推荐。研究还评估了三种防御策略，发现怀疑提示可能加剧漏洞，而共识过滤则可能误伤合法产品。

论文搜索增强LLM 虚假推荐安全漏洞基准测试防御策略

推荐理由：做搜索增强推荐系统的开发者需要警惕——你的模型可能被一篇虚假评论带偏，FORGE基准提供了测试和防御思路，值得点开看看。

原文

10:22

arXiv: OpenAI@Guojun Liao

本文提出AI在科学发现中的三层框架：第一层是LLM的搜索与检索，第二层是通过定性推理形成模型（核心创新），第三层是执行、优化与细化。作者认为第二层最为重要但发展最不充分，它要求AI能识别当前框架的结构性不足，并在更广泛的表征空间中理解问题。通过陈省身对Gauss-Bonnet定理的内在证明、Nesterov加速梯度收敛问题的Lyapunov函数解法、以及OpenAI 2026年自动推翻Erdos单位距离猜想三个案例，展示了第二层推理的结构特征。该框架为AI驱动的科学发现提供了更清晰的路径，尤其强调了超越现有框架的模型创新能力。

论文科学发现 AI框架模型形成定性推理 OpenAI

推荐理由：这篇论文给AI科学发现领域划出了真正的瓶颈——不是搜索或执行，而是模型形成能力。做AI for Science的研究者、科学哲学爱好者、以及关心AI能否真正创新的开发者，都值得一读。

原文

10:21

arXiv: OpenAI@Antonio J. Costa, Caterina Doglioni, Christian Gütschow, Andrew D. Pilkington, Sukanya Sinha

粒子物理对撞机实验依赖Rivet例程来比较新理论模型与测量数据，但目前仅有39%的测量有公开例程。AgentRivet是一个基于大语言模型的自动化工作流，能从期刊论文中提取物理分析信息并生成缺失的Rivet例程。系统包含多步骤流程，中间有代码和物理审查作为质量控制。测试使用OpenAI、Anthropic和Google的商业模型，针对ATLAS和CMS实验的两项最新测量，生成了语法错误少、物理保真度合理的例程。主要问题源于论文中模糊的定义，部分模型在实现复杂观测量时仍有困难。

论文粒子物理 Rivet例程大语言模型自动化工作流 AgentRivet

推荐理由：粒子物理学家和蒙特卡洛生成器开发者终于有了自动化工具来填补Rivet例程缺口，建议做高能物理分析或模型验证的团队关注，能大幅节省手动编写例程的时间。

原文

10:20

arXiv cs.AI@Xiaoyuan Liu, Jianhong Tu, Yuqi Chen, Siyuan Xie, Sihan Ren, Tianneng Shi, Gal Gantar, Evan Sandoval, Donghyun Lee, Daniel Miao, Peter J. Gilbert, Nick Hynes, Mauro Staver, Warren He, David Marn, Andrew Low, Xi Zhang, Elron Bandel, Michal Shmueli-Scheuer, Siva Reddy, Alexandre Drouin, Alexandre Lacoste, Ramayya Krishnan, Elham Tabassi, Yu Su, Victor Barres, Chenguang Wang, Wenbo Guo, Dawn Song

AgentBeats 提出了一种全新的智能体评估框架 AAA（Agentified Agent Assessment），由智能体担任裁判，通过 A2A 和 MCP 标准化协议与待测智能体交互，取代传统依赖 LLM 的固定测试框架。该方法统一了评估接口，解决了现有基准测试集成成本高、测试与生产环境不匹配、跨设计公平比较难的问题。研究通过五个月开放竞赛（298 个裁判智能体、467 个参赛智能体）和编程智能体案例验证，证明 AAA 在覆盖度、实用性和保真度上均表现优异。AgentBeats 为智能体评估提供了开放、标准化、可复现的路径。

论文智能体评估 A2A/MCP协议标准化框架可复现性 AgentBeats

推荐理由：做智能体评测或基准测试的团队终于有了一个通用框架——AgentBeats 用智能体评估智能体，解决了传统测试碎片化、难复现的痛点，建议做 Agent 平台或竞赛的开发者点开看看。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。