全部 AI 动态 · AI 热点

5月25日

09:56

arXiv cs.LG@Hamed Shirzad, Frederik Wenkel, Dominique Beaini, Danica J. Sutherland, Emmanuel Noutahi

精选

知识图谱结构不规则，传统检索方法在组合查询上表现不佳。SeedER 提出一种两阶段检索框架：先用轻量级检索选取核心节点作为种子，再通过强化学习训练的策略进行选择性扩展。该方法将全局推理分解为可复用的局部决策，在控制成本的同时显著提升召回率。实验表明，SeedER 在组合泛化和图约束子模优化方面优于强基线，适合作为知识密集型推理系统的第一阶段检索器。

论文知识图谱检索框架强化学习组合查询 SeedER

推荐理由：做知识图谱检索或知识密集型推理的团队，SeedER 提供了一种低成本高召回的新思路，值得关注其强化学习驱动的扩展策略。

原文

09:55

arXiv cs.LG@Marius Tacke, Matthias Busch, Kian Abdolazizi, Jonas Eichinger, Kevin Linka, Roland Aydin, Christian Cyron

精选

传统本构模型开发需要多年连续介质力学和编程经验，LLM虽能自动生成模型，但单智能体管道缺乏物理一致性检查。研究者提出双智能体框架：Creator智能体根据数据生成模型，Inspector智能体审计模型是否违反9项物理约束，违规则退回修改。在脑组织、实验橡胶和合成橡胶数据集上，使用Claude Opus 4.7和Kimi K2.5测试，Inspector将Opus的物理约束满足率从91%提升至100%，Kimi从37%提升至56%，同时保持高精度和强泛化能力。该框架技术无关，可随LLM能力提升自动扩展，为自动化、物理感知的模型发现开辟新路径。

论文本构模型多智能体物理约束 LLM 材料科学

推荐理由：做材料本构建模的团队终于有了靠谱的AI助手——双智能体框架自动生成物理有效的模型，省去手动校验的繁琐，建议做固体力学或生物力学仿真的开发者点开看看。

原文

09:55

arXiv cs.LG@George Craig, Tobias Selz, Matthias Beylich, Kirsten I. Tempest

精选

这篇论文探讨了AI天气模型是否隐含地求解了物理方程，尽管这些方程可能不同于传统数值天气预报（NWP）模型所用的方程。通过计算预报技能与中心核对齐的相关性，作者发现不同架构和容量的AI天气模型以相似方式表征大气。他们提出，AI模型的架构和训练约束了其可能模拟的物理定律形式，具体而言，模型实现了一种粒子描述，其中每个网格点的潜变量对应高维潜空间中粒子的位置，粒子运动遵循梯度流，趋向于学习到的自由能泛函的最小值。对GraphCast和Aurora模型的分析支持了这一假说：早期处理层在大空间尺度上做出改变，随着层数加深逐渐转向小尺度。

论文 AI天气模型物理方程梯度流假说 GraphCast Aurora

推荐理由：这篇论文揭示了AI天气模型可能隐含的物理机制，对气象AI研究者、数值天气预报开发者以及关注AI可解释性的学者来说，是理解模型内在工作原理的关键进展，值得深入阅读。

原文

09:54

arXiv cs.LG@Bo Peng, Jie Lu, Guangquan Zhang, Zhen Fang

本文提出一种去偏负样本挖掘方法，用于改进基于预训练视觉语言模型（VLM）的分布外（OOD）检测。现有方法依赖启发式规则从无标签语料中挖掘负标签，但存在严重的假负样本问题。作者通过理论框架校正负标签的采样偏差，将其转化为基于 ID 标签和无标签语料的蒙特卡洛采样。实验表明，该方法在多种 OOD 检测设置下达到新的最优性能。代码已开源。

论文 OOD 检测视觉语言模型负样本挖掘蒙特卡洛采样开源/仓库

推荐理由：做 OOD 检测或 VLM 应用的开发者，这篇解决了负样本挖掘的假负问题，理论扎实且效果显著，值得直接参考代码复现。

原文

09:54

arXiv cs.LG@Seyed Bagher Hashemi Natanzi, Pranshav Gajja, Bo Tang, Vijay K. Shah

精选

O-RAN 架构允许通过模块化的 xApps 和 rApps 将 AI 直接嵌入到无线接入网中，但创建这些应用（数据收集、模型训练、代码编写和安全部署）仍然缓慢且主要依赖人工。大型语言模型（LLM）具备强大的推理和代码生成能力，但不适合实时 RAN 控制所需的快速、确定性推理。本文提出了一种概念验证的“双脑”架构，结合了两种优势：基于 LLM 的编排器将运营商意图转化为数据收集策略和部署代码，而自动化 ML 引擎 NeuralSmith 通过 API 按需训练轻量级分类器。文章描述了架构和部署工作流，分享了来自容器化 O-RAN 5G SA 测试床的实践见解，并讨论了开放的研究方向。

论文 O-RAN LLM AI服务部署双脑架构 NeuralSmith

推荐理由：O-RAN 开发者终于有了将 LLM 的灵活性与实时推理效率结合起来的可行方案——双脑架构直接解决了 AI 应用部署慢、手动操作多的问题，做 RAN 智能化的团队值得关注这个原型和测试床经验。

原文

09:52

arXiv: Anthropic@Max Prior, Andreas Schultz, Matthias Grabmair

精选

大型语言模型在静态知识截止日期与动态法律条文之间存在根本矛盾，导致两种时间失效模式：一是模型在立法修订后仍使用旧规则（后截止日期失效），二是模型偏好新条款而忽略历史版本（近因偏差）。研究者构建了包含312个专家验证的德语法律问答基准，涵盖三类时间敏感问题，并评估了OpenAI、Anthropic和DeepSeek的五种模型。实验发现，在无辅助的推理设置下，模型在后截止日期场景中表现严重下降；检索增强生成（RAG）方法通过提取事实日期和版本过滤显著提升所有问题类型的准确性，而网络搜索则不稳定且加剧近因偏差。研究结论指出，可靠的法律问答必须将时间有效性作为硬约束。

论文法律问答时间失效检索增强生成 LLM评估法律AI

推荐理由：法律从业者和AI开发者会关心：LLM 在法律场景中的时间失效问题直接关系到合规风险，RAG 方案已被证明能有效缓解，值得在实务中尝试。

原文

09:32

09:32IT之家（博客/媒体）

精选

瑞士EPFL团队在5月19日《Light: Science & Applications》发表论文，首次将相位光调制器MEMS器件引入体积打印系统。光能利用效率达到传统振幅调制的70倍，仅用150毫瓦激光二极管即可打印。最大打印尺寸达3x3x4 cm³，人耳模型打印用时2分12秒。该技术支持从几十微米到厘米级的多尺度多材料打印。

论文 EPFL 全息3D打印 MEMS 体积打印相位光调制器

推荐理由：EPFL新方法让3D打印快70倍，2分钟打出耳朵模型

原文

04:37

rohanpaul_ai@rohanpaul_ai

精选72°

阿里巴巴与南京大学联合发表论文，提出RTPurbo方法，通过轻量级适配将百万token预填充速度提升9.36倍（对比FlashAttention-2）。该方法发现训练好的全注意力模型已存在隐藏稀疏结构，无需重新训练。RTPurbo识别出少数需要远距离token的注意力头，其余头聚焦邻近文本，并使用16维索引器快速定位关键token。在长上下文基准和推理任务中，RTPurbo保持接近全注意力的精度，同时实现高达9.36倍加速。这证明长上下文推理中的浪费比表面看起来更有结构性。

论文长上下文注意力稀疏化推理加速 RTPurbo Alibaba

推荐理由：长上下文推理的算力瓶颈是AI应用落地的关键障碍，做LLM推理优化或长文档处理的团队可以直接参考RTPurbo的稀疏化思路，无需从头训练模型。

原文

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

原文

5月24日

21:43

Decoder@Jonathan Kemper

精选72°

字节跳动Seed团队研究发现，通过提问方式训练7B参数的多模态大模型（LMM），在处理长文档（尤其是图像密集型文档）时，其可靠性甚至超过更大规模的模型。该模型能处理比训练时见过的文档长四倍的内容，且无需逐页转录文本，而是通过自主寻找相关段落来回答问题。这一方法显著提升了长文档问答的效率与准确性，为多模态模型在复杂文档理解任务中的应用提供了新思路。

论文字节跳动多模态模型长文档理解训练方法问答

推荐理由：做文档理解或长文本AI应用的团队值得关注——字节跳动用提问替代转录，让7B模型在长文档任务上超越大模型，直接降低了计算成本，建议点开看看具体方法。

原文

19:22

19:22IT之家（博客/媒体）

一项提交至《天体物理学杂志》的研究指出，银河系中数量最多的亚海王星和超级地球内部构造可能不同于地球。当行星捕获的氢质量占比超过1%时，内部铁、硅酸盐与氢在4000开尔文以上高温下会融合成单一流体，而非形成独立金属内核。该理论可解释半径空隙现象，即超级地球与亚海王星之间行星数量稀少，以及行星半径与公转周期的关联。詹姆斯·韦伯太空望远镜和开普勒太空望远镜的观测数据支持这一模型，但模型基于极端环境下的性质推演，存在局限性。

论文大模型天体物理学系外行星亚海王星

推荐理由：颠覆你对行星构造的认知

原文

19:04

rohanpaul_ai@rohanpaul_ai

精选

一篇论文重新定义AGI为在计算、内存和能量限制下的适应能力。它提出AGI系统应能像人类科学家一样规划实验、学习因果关系、平衡探索与行动并自主运作。论文将这种AGI称为“人工科学家”，评判标准是其跨任务发现和适应的能力，而非仅通过类人测试。该论文预印本编号为2503.23923。

论文 AGI 人工科学家适应能力论文

推荐理由：重新定义AGI，聚焦适应力

原文

16:28

rohanpaul_ai@rohanpaul_ai

前谷歌高管Mo Gawdat在播客中提出，智能不是物理属性，因此无论由碳基（人类）、硅基（当前AI硬件）还是量子基（未来）结构产生，本质相同。他认为，当人类停止将自己的智能强加于机器时，机器才能产生真正的智能。该观点来自《The Diary Of A CEO》与Mo Gawdat的对话。

论文智能体大模型 Mo Gawdat AI哲学

推荐理由：重新思考AI的本质定义

原文

16:28

rohanpaul_ai@rohanpaul_ai

李飞飞在a16z视频中定义机器人不是按人形或汽车等形态，而是按功能：任何必须在物理3D空间中感知、理解并行动的“具身机器”。她提出“空间智能”是机器人的统一原则，使机器人能执行任务并与人类协作。她指出人类一直局限于单一物理地球3D世界，但结合3D生成与重建的新技术正在打破这一限制，创造出无限数字宇宙，可用于训练机器人、激发创造力、旅行和叙事。

论文机器人空间智能 3D生成具身智能 a16z

推荐理由：李飞飞讲机器人本质，清晰又启发

原文

16:25

Decoder@Jonathan Kemper

精选75°

来自马里兰大学、Google、Meta等机构的研究者使用AutoTTS框架，让Claude Code自主发现AI推理控制算法。该算法相比标准自一致性方法，在保持相同准确率的同时，计算量减少约70%。整个搜索过程仅花费40美元，耗时160分钟。

论文智能体推理模型大模型 AutoTTS Claude Code

推荐理由：AI自己设计算法，省钱又高效

原文

13:04

Gary Marcus@GaryMarcus

70°

普林斯顿大学一位年轻教授在OpenAI发起的Erdos游戏挑战中，仅用3天就超越了OpenAI的表现。该游戏测试AI在数学推理上的能力，涉及Erdos数等概念。这位教授的方法基于arxiv.org/abs/2605.20579论文，展示了更高效的推理策略。

论文推理模型大模型 OpenAI Erdos游戏数学推理

推荐理由：普林斯顿教授3天反超OpenAI

原文

00:03

elvis@omarsar0

精选

一篇新论文提出一种不修改模型、只调整运行时接口（Harness）的方法，将重复交互失败转化为可复用的干预措施。在 7 个确定性环境、126 个模型-环境设置和 18 个基座模型上，该方法平均相对提升 88.5%。从一个模型轨迹学到的 Harness 可泛化到其他 17 个基座模型，说明它捕获的是环境结构而非模型特定模式。这对生产环境中部署智能体的团队有直接参考价值。

论文智能体 Harness/接口泛化性生产部署论文

推荐理由：做智能体工程化的团队会发现，你的 Harness 工作比想象中更可迁移——不用反复调模型，改接口就能显著提升性能，值得点开看具体实现。

原文

5月23日

23:09

rohanpaul_ai@rohanpaul_ai

精选76°

论文 Meta 编码智能体测试时扩展摘要复用 SWE-Bench

推荐理由：这篇论文戳中了编码智能体效率低下的核心痛点——不是试得不够多，而是记不住经验。做 AI 编程工具或智能体开发的团队，可以直接借鉴其摘要复用和锦标赛选择方法，值得点开看看。

原文

22:17

rohanpaul_ai@rohanpaul_ai

精选72°

论文智能体控制层自然语言 SWE-bench 论文

推荐理由：这篇论文戳中了AI智能体工程化的核心痛点——控制层设计比模型选择更关键，做智能体框架或复杂任务自动化的开发者值得一读。

原文

18:38

marktechpost@Asif Razzaq

精选72°

Nous Research 推出了 Contrastive Neuron Attribution (CNA)，一种无需稀疏自编码器训练或权重修改即可识别并消融稀疏 MLP 神经元电路的方法，用于操控大语言模型的行为。CNA 通过对比分析激活模式，定位影响特定行为的神经元子集，然后直接抑制这些神经元，从而改变模型输出，且不降低通用能力基准。该方法解决了现有电路操控技术依赖复杂训练或权重修改的问题，为模型行为调控提供了更轻量、高效的方案。

论文 CNA 稀疏 MLP 电路模型操控可解释性 Nous Research

推荐理由：CNA 让 AI 研究者无需训练 SAE 或修改权重就能精准操控模型行为，做模型对齐和可解释性的团队可以大幅降低实验成本，值得一试。

原文

17:52

marktechpost@Sana Hassan

本文是一篇教程，介绍如何使用 OpenMythos 框架构建循环深度 Transformer 模型，并在 Google Colab 中端到端运行。教程涵盖了多头潜在注意力（MLA）、分组查询注意力（GQA）、稀疏混合专家（MoE）和循环缩放推理等高级特性。作者通过构建 MLA 和 GQA 两种变体，对比了它们的参数量，并通过谱半径检查了循环注入矩阵的稳定性。该教程为研究人员和开发者提供了在有限资源下探索循环深度 Transformer 的实用指南。

论文循环深度 Transformer OpenMythos MLA GQA 稀疏 MoE

推荐理由：想低成本在 Colab 里跑循环深度 Transformer 的研究者可以直接上手——OpenMythos 把 MLA、GQA、稀疏 MoE 这些前沿结构打包成了可复现的教程，做注意力机制或推理效率优化的团队值得点开。

原文

14:06

14:06IT之家（博客/媒体）

83°

西蒙斯基金会弗拉蒂龙研究所与波士顿大学在《科学》发表研究，用传统计算机成功模拟了此前被认为只有量子计算机才能解决的量子动力学问题。该研究使用张量网络、3D张量网络和信念传播算法，在笔记本电脑上即可完成部分初始计算，精度达到当前先进水平。此前，加拿大D-Wave公司曾宣称其量子退火处理器在数分钟内解决该问题，而经典超算需数百万年。新方法将量子模拟比作“压缩文件”，大幅降低了计算资源需求。这项突破不仅推翻了“量子霸权”论断，还为材料科学等领域的研究开辟了新方向。

论文量子计算张量网络算法突破经典计算材料模拟

推荐理由：量子计算研究者会惊讶于经典算法竟能反超量子退火——用笔记本跑出高精度结果，值得点开看方法细节。

原文

08:27

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发表新论文，提出 SensorFM，一个基于 500 万人超过 1 万亿分钟未标记穿戴传感器数据训练的基础模型。该模型旨在学习人类生理活动的通用模式，而非仅处理孤立事件。SensorFM 在 35 项预测任务中的 34 项上超越了传统特征工程方法，涵盖心血管、代谢、心理健康、睡眠和生活方式等领域。研究表明，穿戴数据的价值在于先学习其内在结构，而非过早压缩为粗略摘要。

论文基础模型穿戴设备生理信号 Google SensorFM

推荐理由：穿戴设备厂商和健康 AI 研究者终于有了一个通用基础模型，不用再为每个健康任务单独设计特征工程。做可穿戴健康分析的团队可以直接参考 SensorFM 的预训练思路，大幅降低模型开发成本。

原文

06:43

rohanpaul_ai@rohanpaul_ai

76°

Google DeepMind 发表新论文，展示 AI 系统 AlphaProof Nexus 能在形式化数学证明中进行搜索，但仅限于精心约束的世界。该系统使用 Lean 证明检查器，让 LLM 不断编辑形式化证明、读取编译器错误并重试，同时维护共享的局部证明池来指导搜索。在测试中，该系统解决了 9 个 Erdős 问题和 44 个序列猜想，并协助优化、图论、代数几何和量子光学领域的问题。失败案例同样有启示性，揭示了 LLM 在数学推理中隐藏错误的方式。该工作并非实现完全数学自主，而是建立了人机协作的新分工：人类选择问题，模型提出路径，证明助手严格验证。

论文形式化证明 Lean AlphaProof Nexus 数学推理 AI 验证

推荐理由：这篇论文展示了 AI 在数学证明中的实际进展，做形式化验证或数学研究的团队值得关注——它把 LLM 从“讲故事”变成“可验证的候选生成器”，直接解决了幻觉问题。

原文

5月22日

11:46

arXiv: Google DeepMind@Mohammadreza Narimani, Alireza Pourreza, Parastoo Farajpoor

精选

加州大学团队利用Google DeepMind的AlphaEarth地理空间嵌入，结合U-Net深度学习模型，实现了加州加工番茄田的像素级精准识别。研究基于LandIQ 2018年作物多边形构建了平衡参考数据集，在独立测试集上达到99.19%像素精度和99.04% F1分数。该方法无需手工特征工程，且通过蒙特卡洛dropout提供了不确定性估计，边缘区域不确定性最高。结果表明AlphaEarth嵌入可作为分析就绪的替代方案，支持跨年稳健的作物制图。

论文 AlphaEarth 深度学习作物制图遥感 U-Net

推荐理由：农业遥感团队终于有了无需手工特征工程的端到端方案——AlphaEarth嵌入+U-Net直接输出高精度作物图，做供应链预测和政策分析的可以直接复现。

原文

11:44

arXiv: Anthropic@Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri

精选72°

RefusalBench是一个新的基准测试，包含141个提示（47组），通过保持任务框架不变、仅改变生物风险等级（良性、边缘、双重用途），来评估前沿大语言模型在合法生物研究提示上的拒绝行为。在2026年5月的19个前沿模型快照中，严格拒绝率从0.1%到94.6%不等，且拒绝率不能准确反映安全校准水平。例如，Grok 4.20在风险区分度上表现最佳（Youden's J = 0.787），但整体拒绝率仅排第七；Claude Opus 4.7的区分度较之前版本下降65%。该研究还发现，18个模型中有9个在双重用途提示上表现出“回避但帮助”的部分合规模式，而二元拒绝指标无法检测到这一点。

论文安全评估基准测试生物研究拒绝行为前沿模型

推荐理由：做AI安全评估或生物研究合规的团队，这个基准能帮你避开“拒绝率越高越安全”的误区——Grok 4.20的案例值得点开看看。

原文

11:41

arXiv: OpenAI@Alexander Smirnov

精选

论文 AI文本检测预训练模型典型性假说 RoBERTa 检测器评估

推荐理由：这项研究戳破了AI文本检测的底层假设——检测器可能只是在放大预训练模型的偏见而非真正学习区分。做AI安全、内容审核或学术诚信检测的团队，看完会重新评估现有检测方案的有效性。

原文

11:40

arXiv: OpenAI@Simon Dennis, Rivaan Patil, Kevin Shabahang, Hao Guo

精选76°

当前智能体编排框架（如LangGraph、CrewAI等）已超过29万GitHub星标，但都依赖外部编排器，每次交互都需注入指令和路由决策，消耗上下文窗口且依赖前沿模型。最新研究提出将工作流直接编译进小模型权重，创建“地下智能体”，在旅行预订、Zoom支持、保险理赔三个任务上，以不到前沿模型1%的成本达到接近前沿模型的质量。该方法解决了程序化任务中编排架构的三大痛点：上下文窗口消耗、必须使用前沿模型、专有流程暴露给第三方。研究团队通过实证表明，小模型微调后能完全内化复杂工作流，无需外部编排。

论文智能体工作流编译模型微调编排框架成本优化

推荐理由：做智能体编排的团队终于有了低成本替代方案——把工作流写进模型权重而非上下文，成本降两个数量级，质量不掉。做客服、保险、旅行预订自动化的开发者可以直接看论文里的14节点和55节点案例。

原文

11:39

arXiv: OpenAI@Sid-ali Temkit

精选72°

研究发现，LLM在连续对话中会受先前评价的极性（正面或负面）影响，对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用，发现模型在不确定时偏差更大（高熵项d=-0.34），负面历史影响是正面的1.62倍。偏差不随上下文长度增加，但模型规模增大可减轻（如Haiku -0.22 vs Opus -0.17）。最简单的修复是每个项目使用新上下文，或平衡历史极性。

论文 LLM评估对话偏差上下文影响自动化裁判研究

推荐理由：做AI评估、内容审核或自动化打分的团队，这条研究直接告诉你为什么你的LLM裁判可能不靠谱——负面历史会让它更苛刻，建议每个测试项都开新对话。

原文

11:38

arXiv: OpenAI@Andrii Kryshtal

精选72°

一项新研究测试了 OpenAI、Anthropic、DeepSeek、xAI 的九款模型在 90 个多轮冲突场景中的表现，发现模型在涉及战争罪行、种族灭绝否认、种族歧视等敏感话题时，输出可能加剧社会分裂。失败率从 6% 到 47% 不等，当用户要求“平衡”报道时，五款模型在 80%-100% 的情况下失败。研究首次提出针对冲突场景的评估框架，呼吁将此类测试纳入模型安全评估体系。

论文 AI安全冲突场景模型评估 OpenAI Anthropic DeepSeek xAI

推荐理由：做 AI 安全评估或部署在敏感地区的团队，这篇论文给出了第一个可复用的冲突场景测试框架，能直接用来检查模型是否会在关键议题上“和稀泥”——看完你会重新审视“中立”输出的代价。

原文

11:36

arXiv cs.LG@William Smits

精选

传统决策树使用硬二值阈值划分特征空间，导致远离决策边界与恰好在边界上的样本被赋予相同置信度。本文提出三元决策树，在每个分裂节点上引入以最优阈值为中心的半宽 delta 的不确定区域，落入该区域的样本通过加权混合两个子树的预测结果，并被标记为边界不确定，提示下游应用可区别对待。delta 基于标准 CART 分裂过程中已有的统计量局部计算，无需额外噪声参数。在 72 个 OpenML-CC18 数据集上的 5 折交叉验证中，所有五种 delta 估计方法（质量平台、类重叠、增益比、节点自助法、间隔法）结合概率路由均在决定准确率上显著优于标准 CART（Wilcoxon 符号秩检验，p < 0.001），其中间隔法效率最高（每单位边界不确定标记率带来 0.104 准确率增益），在 42 个数据集上胜出，且无需额外超参数。在医学和金融数据集上，节点自助法在乳腺 X 光检查中通过标记 10.8% 的筛查病例为边界不确定，实现了 +0.71% 的决定准确率提升。

论文决策树不确定性建模分类算法 CART 局部自适应

推荐理由：做分类模型的团队终于有了一个不增加额外参数就能处理边界不确定性的方法——三元决策树在 72 个数据集上显著优于 CART，做医疗或金融风控的开发者可以直接在现有 CART 框架上实现，值得一试。

原文

11:35

arXiv cs.LG@Javad Parsa, Enis Simsar, Amir Joudaki, Thomas Hofmann, André M. H. Teixeira

精选

SeqLoRA 是一种针对文本到图像扩散模型的高效微调方法，解决了多概念组合生成中的表示干扰问题。现有模块化方法要么依赖昂贵的后处理融合，要么冻结适配子空间，限制了表达力和概念保真度。SeqLoRA 通过双层优化联合优化两个 LoRA 因子，并建立强收敛保证，从理论上证明学习 LoRA 基比固定基方法更有效减少干扰。实验显示，SeqLoRA 在多达 101 个概念上提升了身份保持和可扩展性，无需昂贵融合，减少了属性干扰。

论文 LoRA 多概念生成扩散模型持续学习双层优化

推荐理由：做多概念图像生成的团队终于有了一个兼顾保真度和可扩展性的方案——SeqLoRA 用双层优化解决了 LoRA 的干扰问题，支持上百个概念组合，做个性化扩散模型的开发者值得一试。

原文

11:34

arXiv cs.LG@Berk Hayta, Hannah Laus, Simon Mittermaier, Felix Krahmer

精选

证据深度学习（EDL）通过狄利克雷分布实现单次前向传播的不确定性估计，但其损失函数复杂，难以分析和实现。本文提出一种插件损失（plug-in loss），在狄利克雷均值处评估标准损失（如交叉熵），并证明在温和假设下近似误差随证据增长而衰减。该框架将标准 Softmax 分类器纳入不确定性估计，简化了实现。在 Google Speech Commands 数据集上，该方法在预测准确率和选择性预测性能上与经典 EDL 相当，且更易集成到现有训练流程。这是首次在语音识别任务中通过 EDL 获得覆盖-准确率权衡的实证分析。

论文不确定性估计证据深度学习 Softmax 语音识别简化框架

推荐理由：做不确定性估计的团队终于有了更简单的实现路径——用标准 Softmax 损失就能获得 EDL 效果，语音识别研究者可以直接替换现有训练流程试试。

原文

11:31

arXiv cs.LG@Christian Janos Lebeda, David Erb, Tudor Cebere, Aurélien Bellet

精选

Lumberjack 是一种新的差分隐私随机森林算法，通过构建大型随机决策树并应用激进的隐私保护剪枝，显著提升了模型效用。其核心创新是一种针对层次数据的重击检测算法，误差随树高对数增长，支持使用更深的树。在基准数据集上的实验表明，Lumberjack 在隐私预算实用时大幅优于现有方法，建立了新的最优水平。这项工作表明精心设计的差分隐私随机森林可以缩小效用差距，为隐私保护机器学习提供了有前景的新方向。

论文差分隐私随机森林重击检测隐私保护机器学习 Lumberjack

推荐理由：处理敏感表格数据的团队终于有了实用的差分隐私方案——Lumberjack 在隐私预算下显著提升随机森林效用，做隐私保护机器学习的开发者可以直接参考其方法。

原文

11:30

arXiv cs.LG@Samson Gourevitch, Yazid Janati, Dario Shariatian, Umut Simsekli, Eric Moulines, Eric P. Xing, Alain Durmus

精选

本文重新审视了均匀扩散模型（UDM）的训练与推理。研究发现，UDM 的标准参数化并未优化去噪后验，而是优化了一种留一法后验，即预测每个干净 token 时不使用其自身的噪声观测。作者推导了去噪器、留一法后验与分数之间的精确转换，从而分离了参数化与训练目标。基于留一法预测器，他们提出了无需额外训练即可改进推理的预测-校正采样器和温度采样方法。此外，还引入了一种吸收态重构，将 UDM 分解为类似掩码扩散的采样操作，简化了去噪后验。实验表明，留一法参数化持续提升 UDM 生成质量，吸收态构造则匹配或超越掩码扩散，暗示掩码与均匀扩散之间的经验差距更多源于参数化和采样设计，而非边际分布本身。

论文扩散模型 Uniform Diffusion 留一法去噪参数化改进吸收态重构

推荐理由：这篇论文揭示了均匀扩散模型长期被忽视的参数化问题，做离散扩散模型研究的开发者可以直接用留一法改进推理，无需重新训练。看完会对掩码 vs 均匀扩散的差距有全新理解。

原文

11:28

11:28IT之家（博客/媒体）

精选

中国科学技术大学与南方科技大学团队在RP相双层镍氧化物高温超导薄膜中，首次直接观测到无节点超导能隙，排除了d波对称性，与s波（s±）超导能隙吻合。研究还发现费米能级以下约70 meV处的能带扭折，证实电子-玻色子耦合存在。成果于北京时间5月22日在线发表于《科学》杂志，由薛其坤、何俊峰、陈卓昱担任通信作者。该发现为理解镍基高温超导配对机制提供了关键实验证据。

论文镍基超导 Science 超导能隙电子-玻色子耦合高温超导机理

推荐理由：镍基超导机制获实验突破

原文

11:26

arXiv cs.LG@Huanchi Wang, Zihang Huang, Yifang Tian, Kristina Dzeparoska, Hans-Arno Jacobsen, Alberto Leon-Garcia

精选

FAME 提出了一种标签高效的混合专家框架，用于消息级日志异常检测。传统方法在会话或窗口级别检测异常，粒度粗糙，迫使运维人员检查大量常规日志行。FAME 通过离线使用一次大语言模型，为每个模板标注最多 K 行，生成正常/异常指示符和代表性示例，并自动将模板划分为故障域。训练后的轻量路由器和领域专家可在本地运行，输出异常预测和故障域标签。在 BGL 数据集上，FAME 在 K=100 时达到 F1=98.16，标注量减少 76 倍，并检测出 86.3% 的未见 EventID 异常；在 Thunderbird 上达到 F1=99.95 且召回率完美。

论文日志异常检测混合专家模型 LLM 标签高效故障域

推荐理由：运维团队终于有了兼顾精度和效率的日志异常检测方案——FAME 用一次 LLM 离线标注就解决了消息级检测的痛点，标注量减少 76 倍还能发现未知故障，做日志分析或运维自动化的开发者值得关注。

原文

11:21

arXiv cs.LG@Lily Goli, Justin Kerr, Daniele Reda, Alec Jacobson, Andrea Tagliasacchi, Angjoo Kanazawa

精选

该研究提出了一种名为 Recuriosity 的强化学习方法，解决好奇心驱动探索在3D环境中容易陷入局部循环的问题。核心创新在于使用在线3D重建作为持久的世界模型，并让智能体通过序列模型维护情景轨迹历史，从而避免重复访问已遗忘状态。仅基于好奇心训练，智能体在 HM3D 数据集上超越了基于强化学习的主动建图基线，并零样本泛化到 Gibson 和 AI 生成的世界。该方法还能高效适配下游任务，如摘苹果和图像目标导航，优于从头训练的基线。

论文好奇心驱动 3D探索强化学习持久世界模型情景记忆

推荐理由：做3D视觉和机器人探索的团队终于有了一个能跳出局部循环的解决方案——持久世界模型加情景记忆的组合直接解决了好奇心驱动的核心痛点，值得在复杂环境中一试。

原文

11:19

arXiv cs.LG@Carlos Heredia, Daniel Roncel

精选

研究人员提出了一种名为ICDN（可积分上下文依赖需求网络）的神经网络模型，用于多产品零售需求预测。该模型将对数需求作为对数价格的平滑、上下文条件函数进行学习，从而能够精确推导出弹性。在Dominick's啤酒数据集上，ICDN相比传统的对数-对数基准模型，在样本外泛化上表现更优，并生成了更稳定、经济上更合理的弹性估计，尤其对于弱识别的交叉价格效应。

论文需求预测定价优化神经网络弹性估计零售

推荐理由：零售定价和需求预测的从业者终于有了一个能稳定估计交叉价格弹性的工具——ICDN直接解决了传统模型在弱识别场景下的不稳定问题，做品类管理和定价优化的团队值得关注。

原文

11:18

arXiv cs.LG@Jan Tempus, Philip Whittington, Craig W. Schmidt, Dennis Komm, Tiago Pimentel

精选

当前主流分词算法（如BPE、Unigram）本质上是贪心算法，只做局部最优决策，无法保证整体词汇表质量。研究者将分词器构建形式化为线性规划问题，利用凸优化工具求解，提出新算法ConvexTok。实验表明，ConvexTok在内在分词指标和语言模型的bits-per-byte（BpB）上持续优于现有方法，下游任务性能也有提升但不够稳定。更重要的是，ConvexTok能给出一个下界，证明其分词器在常见词汇表大小下距离最优解不超过1%。

论文分词凸优化 NLP 线性规划 ConvexTok

推荐理由：分词是NLP的基础环节，贪心算法长期占据主流——ConvexTok用凸优化给出了可证明接近最优的方案，做分词器优化或语言模型预训练的团队值得关注。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。