全部 AI 动态 · AI 热点

5月12日

19:11

arXiv cs.LG@Albert Alcalde, Leon Bungert, Konstantin Riedl, Tim Roith

本文从理论角度研究深度编码器型Transformer在推理时token演化的浓度现象。作者利用多粒子系统的收敛分析思想，证明token分布会在低温极限下迅速集中到由key、query、value矩阵诱导的投影映射的初始分布前推上，并在中等时间内保持亚稳态。具体地，Wasserstein距离以温度参数和推理时间的函数形式缩放，表明对于对数时间尺度，分布会集中到极限分布。数值实验验证了理论，并揭示了有限温度下后期由value矩阵谱支配的不同终端阶段。该工作为理解Transformer的注意力机制提供了数学基础。

论文 Transformer理论平均场浓度现象注意力机制数学分析

推荐理由：该论文为Transformer推断阶段的token分布行为提供了严格的数学分析，有助于解释大模型训练和推理中的稳定性现象，对理论研究和模型设计有参考价值。

原文

19:11

arXiv cs.LG@Usman A. Khan, Joseph W. Durham

该研究将匿名多智能体路径规划（MAPF）问题建模为多边缘最优传输（MMOT）的一个特例，利用马尔可夫结构将指数级复杂度的MMOT简化为规模多项式的线性规划（LP）。在匿名设置下，证明了LP的可行性、全单模性以及解的空间-时间无重叠性质。为适应大规模问题，进一步引入薛定谔桥概率框架，通过熵正则化得到迭代Sinkhorn解，并基于其分数解构建简化LP，实现接近最优的整数解，显著降低计算复杂度。实验验证了该方法的最优性和可扩展性。

论文多智能体路径规划最优传输薛定谔桥线性规划

推荐理由：该工作从理论上建立了MAPF与最优传输之间的形式化联系，并提出了可扩展的求解框架，对机器人集群调度、仓储物流等实际应用具有重要参考价值。

原文

19:11

arXiv cs.LG@Junhao Shen, Teng Zhang, Xiaoyan Zhao, Hong Cheng

本文提出SLIM框架，针对大语言模型智能体在复杂任务中依赖外部技能的问题，将主动外部技能集视作动态优化变量，与策略学习联合更新。SLIM通过留一技能验证评估边际贡献，实施保留高价值技能、退休低贡献技能及扩展技能库三种生命周期操作。在ALFWorld和SearchQA基准测试中，SLIM平均比最佳基线高7.1个百分点，表明策略学习与外部技能保留并非互斥。该工作为基于技能的智能体强化学习提供了更通用的范式。

论文智能体强化学习技能管理动态优化

推荐理由：该方法突破了传统假设中技能集单调积累的限制，为智能体在资源受限下动态调整技能提供了理论框架，对提升AI智能体在复杂任务中的效率有重要参考价值。

原文

19:11

arXiv cs.LG@Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao, Yingfa Chen, Zhiyuan Liu

DECO是一种针对端侧设备设计的稀疏MoE架构，旨在相同参数预算和训练Token数下达到稠密Transformer的性能。它采用可微分灵活的ReLU路由和可学习专家缩放，结合新激活函数NormSiLU，提高了路由专家激活比率的稳定性和内在稀疏性。实验显示，仅激活20%专家即可匹配稠密模型性能，专用加速核在真实硬件上相比稠密推理加速3倍。这一工作对推动MoE在资源受限设备上的实际部署具有重要意义。

论文稀疏MoE 端侧部署推理加速激活函数模型架构

推荐理由：DECO在保持性能和降低计算开销方面取得了良好平衡，其3倍加速和严格的稀疏性控制对端侧AI部署具有实际参考价值。

原文

19:11

arXiv: Anthropic@Michael A. Riegler, Inga Strümke

75°

研究者开发了开源对抗测试框架swarm-attack，利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%，产生49个严重漏洞，而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞，表明此前需限制发布的能力可在零成本下复现，关键因素是系统框架本身补偿了小模型的推理限制。

论文 AI安全多智能体/协同越狱攻击漏洞发现开源/仓库

推荐理由：该研究揭示了AI安全政策应聚焦系统而非模型本身，因为小模型通过协调框架即可实现高危险能力，这对当前以模型为中心的安全管控思路提出了重要挑战。

原文

19:11

arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao

随着AI工程从单智能体转向多智能体协调工程，如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范，将多智能体工作流（包括角色、流程、执行边界和自进化语义结构）变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分，自动从成功执行轨迹中提炼新技能并修补现有技能，无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例，展示了零适配器的跨智能体可移植性，避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。

论文智能体多智能体系统协调工程自进化开源/仓库

推荐理由：解决了多智能体协作无法跨系统共享和自主改进的核心问题，为协调工程提供标准化的可移植规范和自进化机制，对构建灵活、自适应的多智能体系统具有实际指导意义。

原文

19:11

arXiv: Google DeepMind@Jiamin He, Samuel Neumann, Jincheng Mei, Adam White, Martha White

本文探讨了在连续动作强化学习中混合策略相对于单峰策略的优势及其实用性。作者指出，尽管混合策略在理论上更灵活，但标准算法如SAC未能充分利用这一优势，主要原因是缺乏低方差的重新参数化技巧。为此，他们提出了边际化重新参数化（MRP）估计器，证明了其比标准似然比方法方差更低。实验表明，MRP混合策略显著优于似然比方法，在某些任务上甚至达到或超越高斯策略。该研究将MRP混合策略从理论好奇转化为实用工具，为强化学习中的策略设计提供了新思路。

论文强化学习混合策略连续控制重新参数化 MRP

推荐理由：该论文提出了MRP估计器，解决了混合策略在强化学习中的方差问题，实验验证了其有效性，对从事连续控制任务的研究者和工程师具有参考价值。

原文

19:11

arXiv cs.AI@Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz

现有AI渗透测试智能体评估多基于简化场景和预定义任务（如夺旗、远程代码执行），难以反映真实渗透测试的复杂性和开放性。本文提出新评估协议，从任务完成转向已验证漏洞发现，结合结构化真实数据与LLM语义匹配、二分图消歧等方法，支持多攻击面、多漏洞类别的复杂目标评估。该协议还包含效率指标、随机智能体重复评估及可持续实验缩减套件，旨在提供更贴近实战的智能体性能比较。为保障可复现性，已开源专家标注数据和代码。

论文 AI安全渗透测试智能体评估安全自动化

推荐理由：该协议填补了AI渗透测试智能体从受限benchmark到真实场景评估的空白，为红队工具选型和研发提供更可靠的参考标准。

原文

19:11

arXiv cs.AI@Yixuan Yang, Mehak Arora, Ryan Zhang, Baraa Abed, Junseob Kim, Tilendra Choudhary, Md Hassanuzzaman, Kevin Zhu, Ayman Ali, Chengkun Yang, Alasdair Edward Gent, Victor Moas, Rishikesan Kamaleswaran

Clin-JEPA 提出了一种多阶段联合训练框架，将 JEPA（联合嵌入预测）范式扩展到电子健康记录（EHR）数据。该框架通过五阶段预训练课程（预测器预热、联合精调、EMA目标对齐、硬同步和预测器最终化），稳定地共同训练 Qwen3-8B 编码器和 92M 参数潜在轨迹预测器。在 MIMIC-IV ICU 数据上，Clin-JEPA 实现了潜在ℓ₁展开漂移在 48 小时范围内收敛（-15.7%），而基线方法发散（+3% 到 +4951%）。编码器学习到临床可分辨的潜在几何结构（病情恶化患者与稳定患者的潜在距离比基线高 4.83 倍 vs ≤2.62 倍）。单一骨干网络在多任务下游评估中优于强基线，平均 AUROC 在 ICareFM EEP 上达到 0.851，8 个二元风险任务上达到 0.883（分别比基线平均高 0.038 和 0.041）。

论文医疗AI 预训练模型 EHR JEPA 时序预测

推荐理由：该工作首次将 JEPA 范式成功应用于 EHR 轨迹建模，解决了联合训练不稳定和表示坍缩的关键问题，为医疗领域预训练大模型提供了一种高效且无需任务微调的方案。

原文

19:11

arXiv cs.AI@Huynh Trung Kiet, Dao Sy Duy Minh, Tuan Nguyen, Chi-Nguyen Tran, Phu-Hoa Pham, Nguyen Lam Phu Quy, The Anh Han, Long Tran-Thanh

研究发现大语言模型在道德判断上并非文化中立。现有方法需特定国家偏好数据或模型白盒访问。本文提出DISCA方法，利用世界价值观调查数据构建国家化人格智能体面板，在推理时将内部观点分歧转化为无偏、损失规避的logit校正来引导模型输出。在20个国家和7个开源模型上，DISCA减少了10-24%的文化对齐错误，提升了推理时文化校准的可扩展性。该方法无需微调、公开数据可用，为服务全球多元道德偏好的长期需求提供了可行方案。

论文大语言模型文化对齐推理时校准人格智能体 World Values Survey

推荐理由：该工作首次在推理阶段解决多国文化对齐问题，面向API黑盒场景，且仅依赖公开调查数据，对AI产品的全球化部署具有实用参考价值。

原文

19:11

arXiv cs.AI@Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin

本研究探讨了在构建深度研究系统时，是否仅需词汇检索器BM25配合更强的大型语言模型即可实现高效结果。研究者提出了Pi-Serini搜索智能体，它具备检索、浏览和阅读文档三个工具。在测试集B-Plus上，Pi-Serini搭配gpt-5.5达到了83.1%的答案准确率和94.7%的证据召回率，超过了使用稠密检索的代理。通过调整BM25参数和增加检索深度，答案准确率提升了18.0%，证据召回率提升了11.1%和25.3%。这表明在推理能力更强的LLM辅助下，传统词汇检索仍能发挥重要作用。代码已开源。

论文搜索代理检索增强 BM25 大型语言模型开源/仓库

推荐理由：该研究挑战了稠密检索在深度搜索中不可或缺的假设，为构建轻量、高效、不依赖外挂向量库的搜索代理提供了新思路，值得关注推理模型与经典检索技术的结合。

原文

19:11

arXiv cs.AI@Daniel Mitropolsky, Susan S. Hong, Riccardo Neumarker, Emanuele Rimoldi, Tomaso Poggio

arXiv论文提出广义图灵测试，通过不可区分性构建代理间智能比较形式化框架。该框架无需预设数据集或任务，可对任意两个智能体进行能力排序。研究分析了传递性条件并定义多类变体，在当代模型上的实验验证了其与传统排名的一致性。

论文图灵测试智能评估 AI安全 AI理论

推荐理由：这项工作为智能评估提供了统一理论基础，可能影响未来模型训练与评测标准的设计方向。

原文

19:11

arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen

研究者推出BenchCAD，一个统一的基准测试，用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序，涵盖106个工业零件系列，如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务，BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示，当前前沿模型能恢复大致几何形状，但在精确参数和工业设计操作上常失败，如用简单拉伸替代扫掠、放样等关键操作。

论文代码生成多模态模型 CAD/设计基准测试工业自动化

推荐理由：该基准揭示了现有模型在工业级CAD生成上的显著不足，为模型优化和工业自动化提供了明确的评估标准。

原文

19:11

arXiv cs.AI@Timothy Oladunni, Farouk Ganiyu Adewumi

70°

本研究提出了吸引子-血管耦合理论（AVCT），该数学框架证明心脏吸引子几何结构包含足够用于AAMI标准血压估计的信息。通过在46名受试者（29,684个窗口）上的严格留一受试者交叉验证，基于LightGBM的模型实现了收缩压MAE为2.05 mmHg、舒张压MAE为1.67 mmHg，相关度r≥0.99，满足AAMI/IEEE SP10要求。仅使用智能手机相机提取的9个吸引子特征就匹配了ECG+PPG模型，表明仅用手机摄像头即可实现临床级血压追踪。该工作为无袖带血压监测提供了形式化的数学基础。

论文健康监测血压估计 PPG 可穿戴设备数学理论

推荐理由：AVCT为无袖带血压估计提供了严格的数学基础，并验证了仅用智能手机摄像头即可达到AAMI标准，对健康监测和可穿戴设备领域具有重要影响。这意味着更便捷、低成本的血压监测方案有望普及，但需在更大规模人群上验证。

原文

19:11

arXiv cs.AI@Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

本文发布了BEACON（Behavioral Engine for Authentication & Continuous Monitoring），一个大型多模态行为数据集，包含28名玩家79次《Valorant》游戏会话的430GB同步数据，涵盖鼠标动力学、键盘事件、网络包、屏幕录制、硬件元数据和游戏配置。该数据集旨在填补现有行为认证基准在规模、模态和上下文同步方面的不足，适用于连续认证、行为画像、用户漂移和多模态表示学习研究。数据集和代码已在Hugging Face和GitHub上开源，为下一代行为指纹和网络安全模型提供可复现的基准。

论文多模态行为认证数据集 AI安全

推荐理由：该数据集以高精度、高认知负担的战术射击游戏为测试场景，为行为生物特征研究提供了真实且严苛的基准，对AI安全和连续认证领域具有重要参考价值。

原文

19:11

arXiv cs.AI@Mingxi Zou, Zhihan Guo, Langzhang Liang, Zhuo Wang, Qifan Wang, Qingsong Wen, Irwin King, Lizhen Qu, Zenglin Xu

该论文提出了一个基于率失真理论的决策中心记忆框架，将智能体记忆优化定义为决策质量损失最小化问题，而非传统描述性标准。作者推导了遗忘边界和记忆-失真前沿，并开发了在线记忆学习器DeMem，仅在数据证明共享状态会导致决策冲突时更新分区。在合成诊断和长程对话基准测试中，DeMem在相同运行预算下带来持续性能提升，验证了“记忆应保存决策所需的区分，而非描述”的核心理念。

论文智能体记忆压缩率失真理论长程对话

推荐理由：这项工作为智能体记忆管理提供了一个理论基础，将记忆效率与最终决策质量直接挂钩，对于构建长周期自主智能体具有重要指导意义。

原文

19:11

arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

CADBench 是一个统一的多模态基准测试，用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本，涵盖六个基准家族（基于DeepCAD、Fusion 360等）、五种输入模态（如网格、渲染图）和六项指标（几何保真度、可执行性等）。评估了11个CAD专用及通用视觉语言系统，生成超过140万CAD程序。结果显示，在理想输入下专用模型优于通用模型，但模型在几何复杂度和模态变化下表现脆弱，且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。

论文 CAD程序生成多模态基准测试 3D重建工程自动化

推荐理由：为学界和工业界提供了一个标准化的评估框架，有助于澄清现有CAD程序生成方法的优劣及失败模式，尤其对工程设计自动化领域具有直接参考价值。

原文

19:11

arXiv cs.AI@Edward De Brouwer, Carl Edwards, Alexander Wu, Jenna Collier, Graham Heimberg, Xiner Li, Meena Subramaniam, Ehsan Hajiramezanali, David Richmond, Jan-Christian Hütter, Sara Mostafavi, Gabriele Scalia

AssayBench是一个面向LLM和智能体的表型筛选基准，基于1920个公开CRISPR筛选数据构建，覆盖5类细胞表型。它将任务转化为基因排名预测，并引入adjusted nDCG指标来评估不同实验间的性能。评估显示现有方法距离理论上限较远，且零样本通用LLM优于生物专用LLM和可训练基线。该基准为虚拟细胞模型和药物发现提供了标准化测试平台。

论文 LLM评估生物信息学虚拟细胞 CRISPR筛选表型筛选

推荐理由：为LLM在生物表型筛选任务中的能力评估提供了首个标准化基准，揭示了当前方法的不足和通用LLM的潜力，对药物研发自动化有实际参考价值。

原文

19:11

arXiv: OpenAI@Sietse Schelpe

70°

本预印本实证分析了检索增强生成管道中字节级块去重的效果，涵盖三种不同模式：干净学术检索（22.2M BeIR段落字节减少0.16%）、构造企业模式（24.03%减少）和多轮对话AI（80.34%减少）。通过跨供应商5评委校准面板评估，使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API，应用五类别人工噪声去除协议，证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明，无需牺牲评估级模型质量即可实现大量推理计算节省。

论文 RAG 去重/优化推理效率质量评估开源/仓库

推荐理由：该研究为RAG系统提供了一种确定性、无质量折损的优化方法，直接减少了推理计算成本，对实际部署具有明确指导意义。

原文

19:11

arXiv cs.AI@Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang

LoKA（低精度内核应用）框架解决了FP8低精度计算在大型推荐模型（LRM）中的困境。由于LRM对数值敏感且包含大量小矩阵乘法和归一化操作，直接应用FP8会降低模型质量并增加训练时间。LoKA通过系统-模型协同设计，包含三个核心组件：LoKA Probe在线评估每层精度误差，LoKA Mods提供提升数值稳定性的模型修改，LoKA Dispatch动态选择最快且安全的FP8内核。该方法使FP8在推荐模型中实用化，同时保障精度和训练效率。

论文低精度训练 FP8 推荐模型系统-模型协同设计

推荐理由：该研究为推荐系统领域提供了实用的低精度训练方案，解决了FP8在数值敏感场景下的适配难题，对工业级推荐模型的训练加速具有实际参考价值。

原文

19:11

arXiv: OpenAI@Gabriela Dobrita, Simona-Vasilica Oprea, Adela Bara

CHAINTRIX提出了一种端到端的智能合约审计框架，核心设计是确保每个LLM生成的声明都能通过确定性结构合约表示进行验证。该框架引入跨合约交互模型（CCIM），将Solidity代码解析为函数级操作的结构化映射，支持12个确定性信号引擎和并行LLM审计管道。此外，通过引入结构判决引擎（SVE）执行确定性结构检查，并结合符号执行和模糊测试来过滤低置信度发现。在EVMbench基准测试中，CHAINTRIX达到了71.7%的高危漏洞召回率，超越最强前沿模型26个百分点，部分审计实现100%召回，显著提升了审计的准确性和可靠性。

论文智能合约 LLM/增强安全审计确定性分析审计框架

推荐理由：该工作为智能合约安全审计提供了一种结合LLM与确定性分析的有效方案，解决了LLM幻觉和传统静态误报问题，对DeFi安全领域具有实际参考价值。

原文

19:11

arXiv cs.AI@Linus Heck, Filip Macák, Roman Andriushchenko, Milan Češka, Sebastian Junges

该论文提出将经典Shields模型扩展到概率安全场景的新框架。传统Shields确保绝对安全，但概率安全（允许以一定概率发生不良事件）更复杂。论文证明了强安全和最大允许性无法同时保证，提出了两种弱化保证的自然Shields，以及一种保持强安全保证的离线/在线构造方法。实验表明这些新Shields在计算可行性和实用性上具有优势，为自主智能体安全提供新工具。

论文 AI安全 Shields MDP 概率安全验证

推荐理由：该研究为安全关键型AI系统（如自动驾驶、机器人）的概率安全验证提供了理论框架和实用工具，弥补了现有Shields方法在概率场景中的不足。

原文

19:11

arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar

该研究提出了一种无需训练的诊断框架，通过分析每token、每问题、每教师的梯度对齐度，揭示了on-policy蒸馏的有效条件。研究发现：在模型错误回答时蒸馏信号更有效，正确回答时信号噪声大；最优蒸馏配置依赖于学生模型能力和任务类型，不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术，为优化蒸馏策略提供了理论依据。

论文推理模型蒸馏/训练自蒸馏

推荐理由：该研究通过细粒度分析挑战了蒸馏实践中默认假设，为选择教师模型和蒸馏配置提供了理论指导，对大规模推理模型训练具有实际参考价值。

原文

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。

原文

19:11

arXiv cs.AI@Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu, Zixing Lei, Zimeng Chen, Fenyi Liu, Haotian Wu, Yuzhu Cai, Zexi Liu, Xinyu Zhu, WenHao Wang, Linfeng Zhang, Chen Qian, Siheng Chen

DataMaster 提出了一种自主数据工程框架，旨在通过优化数据侧（包括外部数据发现、选择、清洗和转换）来提升固定学习算法的性能，而无需改变算法本身。该框架集成了树状搜索结构、共享数据池和全局记忆模块，以应对数据工程中开放式的搜索空间、分支依赖优化和延迟验证等挑战。在 MLE-Bench Lite 基准上，DataMaster 将奖牌率提升了32.27%；在 PostTrainBench 上，其在 GPQA 上的表现（31.02%）超过了指导模型（30.35%）。这表明自主数据工程有望成为提升机器学习系统性能的有效手段。

论文数据工程自主智能体机器学习搜索优化 arxiv

推荐理由：DataMaster 展示了自主数据工程的潜力，特别是在模型架构和训练策略标准化后，数据优化成为关键瓶颈。对于机器学习从业者而言，该框架提供了一种系统化的数据自动化方案，可减少人工试错成本，值得关注其在数据发现与组合方面的实际应用效果。

原文

19:11

arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney

GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型，专门用于识别42种个人身份信息（PII）实体类型，支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题，研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中，该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源，旨在促进PII检测的研究和实际部署。

论文个人信息提取多语言开源/仓库合成数据隐私安全

推荐理由：该模型以较小参数量在PII提取任务上达到领先性能，并采用合成数据方法规避隐私风险，为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。

原文

19:11

arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang

该论文指出当前AI智能体普遍采用的“即时合成”范式（on-the-fly loop）缺乏严谨的软件工程流程，如迭代设计、严格测试、对抗性评估和分阶段部署，导致实际输出如同“临时原型”，在高风险场景下不可靠。作者提出将软件工程引入智能体循环，打造经过硬化、有确定性约束的生产级agent workflow，并通过复用分摊成本。为此，他们构想了一个“AI Workflow Store”，即存放硬化且可复用的工作流库，智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。

论文智能体 AI安全软件工程工作流存储

推荐理由：该研究直击当前AI智能体可靠性不足的痛点，提出以工程化工作流复用替代即时合成，为构建生产级智能体系统提供了重要思路，对Agent落地高风险场景具有参考价值。

原文

19:10

arXiv: OpenAI@Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei Zhou

RadThinking是一个用于放射学纵向临床推理的视觉问答数据集，覆盖20362次CT扫描、9131名患者和2077名健康对照。数据集按推理深度分为三级：基础感知问题、单步规则推理问题和需要多步链式思维推理的组合问题。每个组合问题都附带基于临床报告标准的链式思维路径。该数据集首次将癌症筛查临床推理分层标注，支持训练和评估AI系统的推理能力而不仅仅是检测能力。

论文医学影像推理模型视觉问答临床报告标准癌症筛查

推荐理由：该数据集为训练AI进行符合临床指南的多步推理提供了标准化基准，对医学影像AI从感知向认知升级有重要价值。

原文

19:10

arXiv: OpenAI@David F. Ramirez, Tim L. Overman, Kristen Jaskie, Marv Kleine, Andreas Spanias

该研究探索将大型语言-视觉模型（LLVM）应用于遥感SAR图像的自动目标识别（ATR）。基于MSTAR公共数据集，研究者构建了包含描述性文本和问答对的训练基准，并利用CLIP和LLaVA等模型进行参数高效微调。实验在识别军事车辆类型等细微特征上达到98%的准确率，显著提升了机器辅助遥感ATR在复杂环境下的能力。这项工作展示了LLVM在合成孔径雷达分析中的潜力，为军事和情报领域的自动化目标识别提供了新途径。

论文多模态 SAR图像自动目标识别 LLaVA CLIP 军事/遥感

推荐理由：该研究首次将LLVM迁移至SAR图像分析，并基于MSTAR数据集建立带标注的ATR基准，为多模态模型在遥感军事应用中的落地提供了可复现的方法论与评估框架。

原文

19:10

arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi

Shepherd提出了一种函数式编程模型，将元Agent对目标Agent的操作形式化为函数，并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件，形成类似Git的执行轨迹，支持分叉和重放任意历史状态。实验表明，Shepherd的分叉速度比Docker快5倍，重放时提示缓存复用率超过95%。在运行时干预中，实时监督将配对编码通过率从28.8%提升至54.7%；在反事实元优化中，分支探索在四个基准上提升最多11个百分点，同时减少高达58%的壁钟时间；在树强化学习中，选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施，并已开源。

论文智能体元Agent 形式化验证运行时追踪开源/仓库

推荐理由：该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案，尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。

原文

19:10

arXiv cs.AI@Yaman Kindap, Manfred Opper, Benjamin Dupuis, Umut Simsekli, Tolga Birdal

本文提出了一种基于神经指数倾斜的变分推断方法，用于Lévy过程驱动的随机微分方程（SDEs）。该方法通过神经网络指数地重新加权Lévy测度，构建灵活的变分族，既保留了跳跃过程的动态特性，又具备计算可行性。研究者发展了二次神经参数化以实现倾斜测度的闭式归一化，以及稳定过程的条件高斯表示和对称性感知蒙特卡洛估计器。实验表明，该方法在合成和真实数据上能准确捕捉跳跃动态，优于高斯假设的变分方法。这对于金融、气候科学和AI安全等需要建模极端事件的领域具有重要意义。

论文变分推断 Lévy过程随机微分方程重尾建模极端事件

推荐理由：该工作解决了Lévy驱动SDE贝叶斯推断中可扩展性与精确性的矛盾，为处理重尾和跳跃过程提供了实用工具，对金融风控、气候极端事件预测等应用有直接价值。

原文

19:10

arXiv cs.AI@Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

研究者提出ELF（Embedded Language Flows）模型，将连续流匹配应用于语言建模。与现有主要在离散词元上操作的扩散语言模型不同，ELF在连续嵌入空间中运行，仅在最后一步通过共享权重网络映射为离散词元。该方法可简单适配图像扩散领域的成熟技术（如无分类器引导）。实验显示，ELF在生成质量和采样步数上均显著优于当前领先的离散和连续扩散语言模型，为高效连续语言模型提供了新方向。

论文流匹配扩散模型语言建模连续嵌入 ELF

推荐理由：ELF展示了连续扩散模型在语言建模中的有效性，简化了技术迁移路径，可能降低语言生成模型的设计复杂度。其较少的采样步数有利于实际应用效率，值得关注。

原文

19:10

arXiv cs.AI@Md. Sultan Al Rayhan, Maheen Islam

本文提出一种基于自信度引导的扩散增强框架，用于改善低分辨率孟加拉手写复合字符识别。该框架结合类别条件扩散建模与分类器引导，合成高质量手写样本。在U-Net结构中加入Squeeze-and-Excitation残差块提升生成质量，并采用自信度过滤机制保留高一致性样本。在AIBangla数据集上，ResNet50、DenseNet121、VGG16和Vision Transformer均取得一致提升，最佳模型准确率达89.2%，大幅超越此前基准。这表明质量感知的扩散增强能有效提升低资源语种文字识别性能。

论文低资源语种手写识别扩散模型数据增强孟加拉语

推荐理由：该研究为低资源语种手写识别提供了一种实用的数据增强思路，结合扩散模型与自信度过滤，方法通用且效果显著，对同类任务有参考价值。

原文

5月11日

19:03

19:03arXiv: OpenAI（学术论文）

该研究通过分析五款AI编码工具（OpenAI, Copilot, Devin, Cursor, Claude Code）在29,585个Pull Request生命周期中的行为，提出了“发起者×批准者”分类法，将工具分为协作型（Cursor, Devin, Copilot）和辅助型（OpenAI, Claude）。协作型工具中，AI代理发起并推进PR工作，但合并权限几乎完全由人类保留；辅助型工具则更多由人类主导工作流程。研究揭示了代理操作与治理权限的脱节——自动化可执行合并，但日志仅记录执行者而非决策者。该工作为AI编码自动化中的监督与治理设计提供了分类工具和可复现分析框架。

论文编码助手 AI安全智能体协作/辅助 Pull Request

推荐理由：该研究系统量化了当前AI编码工具在PR工作流中的角色分工，揭示了代理发起与人类审批的解耦现象，对理解自动化治理边界和改进开发者工具设计具有实际参考价值。

原文

19:03

19:03arXiv: DeepSeek（学术论文）

意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型，采用16B参数MoE架构（3B活跃参数）。在国际基准测试（ARC-Challenge、GSM8K、MMLU等）中，该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比，EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B，但落后于GPT-OSS-20B。在意大利语数据集ITALIC上，模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。

论文大语言模型 MoE 意大利语 EngGPT2 基准测试

推荐理由：该评测展示了意大利本土LLM的最新进展，对关注多语言模型（尤其是意大利语）的研究者和开发者具有参考价值，也反映了MoE架构在中等参数规模下的实际性能水平。

原文

19:03

19:03arXiv: DeepSeek（学术论文）

70°

该研究揭示了共享输出Token预算时，长思维链会挤占答案空间，导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中，非思维链模式在≤2048 Token下表现更优，且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点，并通过拆分预算生成方法（如IRIS）将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。

论文思维链 Token预算推理模型 Qwen3 DeepSeek-R1

推荐理由：该工作对当前LLM推理优化具有实际指导意义，提醒研究者在固定输出长度场景中平衡推理链与答案空间，避免盲目延长思维链。

原文

19:03

19:03arXiv: OpenAI（学术论文）

华东师范大学推出ECNUClaw开源框架，通过构建包含认知、行为、情感、元认知和情境的五维学习者画像，实现K-12个性化学习。系统从学生与学伴的每一轮对话中提取信号，更新画像，并实时调整指导强度、鼓励频率和布鲁姆认知分类脚手架。该框架参考了国内教育技术理论（如张氏数字肖像三层框架、教育脑模型、人机协同智商概念），适配七种中文大模型提供商，代码已开源。

论文个性化教育学习者画像自适应学习 K-12 开源/仓库

推荐理由：该框架将学习者画像与自适应策略引擎深度耦合，为K-12教育中利用LLM实现个性化辅导提供了可复用的技术路线，值得关注其在真实课堂场景中的效果验证。

原文

11:45

11:45arXiv cs.AI（学术论文）

本研究通过押韵对联完成任务，测试语言模型在生成过程中是否存在对结构约束的未来标记的内部规划。使用线性探针和激活补丁方法，在Qwen3、Gemma-3和Llama-3三个系列超过十个规模的模型上进行实验。探针显示所有模型在行边界处都能线性解码未来押韵信息，且信号随规模增强。然而，激活补丁表明只有Gemma-3-27B在因果上依赖此编码，出现从押韵词到行边界的因果驱动转移（约第30层）。其他模型在整个生成过程中持续依赖押韵词，尽管行边界有强探针信号，但因果影响近乎为零。通过两阶段路径补丁，研究成功定位了Gemma-3-27B中负责转移的五个注意力头，恢复了约90%的押韵路由能力。

论文语言模型机制理解因果干预线性探针押韵规划

推荐理由：该工作揭示了不同语言模型在规划能力上的根本差异：仅部分模型（如Gemma-3-27B）真正依赖内部的前瞻性计划，而其他模型则依赖逐词条件。这对理解模型内部机制和未来设计更可控的生成系统有参考价值。

原文

11:45

11:45arXiv cs.LG（学术论文）

因果推断依赖不可验证的假设，现有敏感性分析框架多关注最坏情况下的结论变化，但往往不切实际。本研究将s-value框架泛化至三种常见因果假设，并提出贝叶斯敏感性价值(BSV)指标。BSV通过蒙特卡洛近似，基于真实世界证据构建先验分布，计算假设违背的期望敏感性。实证表明，最坏情况分析可能依赖违背先验知识的极端假设，而BSV能提供更可信的结论。该框架在糖尿病治疗对体重影响的观察性研究中得到验证，为研究者提供了更稳健的因果推断工具。

论文因果推断贝叶斯方法敏感性分析观测研究机器学习

推荐理由：提出贝叶斯敏感性价值(BSV)方法，解决了传统最坏情况敏感性分析不切实际的问题，为因果推断实践者提供了更符合先验知识的稳健性评估标准。

原文

11:45

11:45arXiv cs.AI（学术论文）

Dooly是一种新型LLM推理模拟器，解决了传统模拟器因硬编码配置而需重新分析所有操作的高成本问题。它通过单次推理过程，利用污点传播标记输入维度来源，仅分析数据库中缺失的操作，并复用服务引擎初始化代码隔离有状态操作（如注意力机制）。在两种GPU平台、三种注意力后端和多种模型架构上，Dooly实现了TTFT 5%以内、TPOT 8%以内的模拟准确性，同时将12个模型的分析GPU小时数减少56.4%。这项工作降低了探索最优推理配置的计算成本，对部署效率提升有重要意义。

论文推理模拟 LLM推理性能优化配置搜索 GPU分析

推荐理由：Dooly通过结构感知的冗余消除，显著降低了LLM推理配置探索的开销，对需要评估多种硬件、引擎和模型组合的从业者具有实用价值。

原文