全部 AI 动态 · AI 热点

6月4日

01:24

elvis@omarsar0

微软的SkillOpt论文提出了一种让AI智能体技能自我进化的方法。一位开发者将其集成到自己的智能体编排器中，发现所有技能都获得了有效的测试框架和自进化能力。在论文图表提取技能上，应用SkillOpt后质量从0.73提升到0.93，提高了20分。作者认为这是当前智能体自我改进能力的明确例证，并指出该思路可扩展到优化智能体模式、工具使用、上下文工程等多个领域。

论文智能体自我进化微软 SkillOpt 技能优化

推荐理由：做智能体开发的团队终于有了让技能自动优化的实用框架——SkillOpt不仅提升了20%的质量，还提供了测试和自进化机制，建议直接集成到你的智能体编排器中试试。

原文

6月3日

23:54

elvis@omarsar0

76°

Google 发布新研究 LEAP（Lean-Enhanced Agentic Programming），通过将通用大语言模型封装在智能体框架中，每一步都基于 Lean 编译器进行验证，并迭代利用验证器反馈。该框架使同一个通用模型解决了全部 12 道 Putnam 2025 数学竞赛题，并将 Lean-IMO-Bench 的一次性求解率从不到 10% 提升至 70%，超越了得分为 48% 的专用金牌系统。这项研究展示了定制智能体框架在数学推理任务上的巨大潜力，论文已发布在 arXiv 上。

论文智能体数学推理 Lean Google LEAP

推荐理由：做数学推理或智能体开发的团队值得关注——LEAP 用通用模型+验证反馈循环就超越了专用系统，说明智能体框架设计比模型本身更关键，建议点开论文看具体架构。

原文

23:35

23:35IT之家（博客/媒体）

精选

中国科学院许操团队历经八年发现小肽基因 RGF，仅编码 13 个氨基酸，在正常温度下几乎不表达。该基因在低温胁迫下于花药绒毡层快速激活，通过钙离子信号调控花粉正常发育。田间试验显示，RGF 改良番茄可挽回 33.9%-52.2% 冷害产量损失，改良水稻结实率提升 10%-25%。相关成果 6 月 3 日在线发表于《自然》期刊。

论文 RGF 中国科学院 Nature 作物抗冷基因编辑

推荐理由：中科院发现抗冷害基因RGF，能保产不降产

原文

23:28

23:28IT之家（博客/媒体）

精选

中国科学院分子植物科学卓越创新中心巫永睿团队等从野生玉米中克隆出第二个高蛋白主效基因 THP3-T，成果于6月3日在线发表于《自然》。THP3-T编码谷氨酸-草酰乙酸转氨酶1，通过增强氮同化能力提升玉米籽粒及全株蛋白含量。将THP3-T与之前发现的THP9-T聚合，自交系玉米籽粒蛋白含量从10%提升至15%。导入“郑单958”后，籽粒蛋白从8.5%提升至12%-13%，产量稳定。团队已利用分子标记辅助育种技术改良80余个国内玉米主栽品种亲本，蛋白含量可提升至14%以上。

论文 THP3-T THP9-T 郑单958 高蛋白玉米野生玉米

推荐理由：野生玉米高蛋白基因克隆成功，可减少大豆进口依赖

原文

21:15

LangChain@LangChainAI

精选

LangChain 与法律 AI 公司 Harvey 联合发布了一项研究，聚焦于为法律智能体（legal agents）设计和测量高效验证器（verifiers）。该研究评估了不同验证方法的性能，旨在提升法律领域 AI 系统的可靠性和准确性，为法律 AI 应用提供新的评估框架。

论文 LangChain Harvey 法律AI 智能体验证器

推荐理由：LangChain和Harvey最新的法律AI验证器研究

原文

20:06

Pandaily@contact@pandaily.com (Pandaily)

华中科技大学和上海交通大学的研究团队在玻璃内部直接写入可编程三维光子神经网络，实现了光子计算的新范式。该技术利用飞秒激光在玻璃中刻写光波导和可调谐节点，构建出能在光域内执行神经网络运算的3D结构。相比传统电子芯片，光子神经网络具有低功耗、高带宽和并行处理优势，有望在人工智能推理、边缘计算等领域突破现有硬件瓶颈。这项成果展示了玻璃作为光子计算基板的潜力，为未来集成光子AI芯片提供了新路径。

论文光子计算神经网络 3D集成飞秒激光华中科技大学

推荐理由：光子计算是突破AI算力瓶颈的关键方向，做硬件加速或边缘计算的团队值得关注——玻璃内写神经网络的方法比传统硅基方案更灵活，功耗更低，建议点开了解技术细节。

原文

12:49

rohanpaul_ai@rohanpaul_ai

一篇新论文提出Self-Pruned Key-Value Attention方法，让大语言模型在长文本生成时只保留对后续token有用的历史键值对，从而大幅压缩KV缓存。该方法通过一个小型预测器为每个键值对打分，只保留高分项，同时确保最近token始终保留。模型在训练时通过正常的next-token预测学习剪枝策略，无需手工规则。实验表明，模型通常只保留10%到33.7%的旧键值对，性能接近全注意力，解码速度在长上下文场景下提升2.1到4.6倍。

论文 KV缓存长上下文注意力机制模型压缩 Self-Pruned Key-Value Attention

推荐理由：KV缓存是长上下文推理的瓶颈，这篇论文用自学习剪枝解决了内存爆炸问题，做LLM推理优化或长文本应用的开发者可以直接参考其方法。

原文

11:54

向阳乔木@vista8

精选72°

斯坦福大学研究团队发现，当模型规模足够大时，使用未过滤的Common Crawl数据训练效果反而优于经过清洗的数据。在15M小模型上，过滤数据全面领先；但在330M和1B模型上，未过滤数据在充分训练后超越了所有过滤版本。这表明大模型有足够参数空间将噪声与有用信息分离，颠覆了数据清洗越干净越好的传统认知。

论文大模型数据清洗 Common Crawl 斯坦福训练策略

推荐理由：这项研究挑战了数据清洗的行业惯例，做大模型训练的团队值得关注——或许可以省下大量清洗成本，直接喂原始数据。

原文

11:12

arXiv: OpenAI@Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze

精选

Entropy Gate 提出了一种基于熵淬火（entropy quenching）的令牌压缩框架，通过为每个令牌计算多因素信息能量，并模拟热力学过程逐步“冻结”低能量令牌，实现近无损压缩。该框架在五种提示类别上达到40-60%的压缩率，同时保持语义保真度（S_E > 0.80）。上下文去重可额外节省50-70%的重复块开销，输出端压缩进一步减少响应冗余。结合外部存储时，代理工作负载的压缩率可达88-96%。该方案无状态、模型无关，可作为兼容OpenAI的HTTP代理部署。

论文令牌压缩熵淬火语义保真度 LLM管道开源/仓库

推荐理由：LLM 开发者常被冗长上下文和重复输出浪费大量令牌预算——Entropy Gate 用热力学思路解决了这个痛点，做长上下文推理或代理应用的团队可以直接集成，省令牌就是省成本。

原文

11:08

arXiv: Anthropic@Linwu Zhu, Liqiang Gao, Yan Chen, Dan Zhu, Jian Huang

精选72°

自主科学正从演示走向基础设施，但每个系统都需从头构建推理智能体与物理仪器间的连接，面临碎片化SDK和面向确定性客户端而非概率性智能体的标准。现有协议如MCP（智能体-工具）和A2A（智能体-智能体）未覆盖智能体-仪器边缘，该边缘涉及状态化、安全关键、独占、物理实体操作及带单位、校准和不确定性的测量结果。本文提出实验室智能体协议（LAP），填补这一空白。LAP保留A2A的点对点、发现优先、任务生命周期结构，并新增四个物理世界原语：仪器卡（能力与物理限制描述）、预留（独占锁定）、安全围栏握手（操作员确认令牌绑定任务参数）和测量结果模式（物理类型化、校准锚定、带不确定性）。LAP与A2A/MCP生态传输兼容，封装而非替代现有设备标准如SiLA 2和OPC-UA。

论文自主科学智能体-仪器协议 LAP MCP A2A

推荐理由：做自主科学实验或自驱动实验室的团队，终于有了一个标准化的智能体-仪器接口，不用再重复造轮子。LAP直接解决了安全关键操作和测量结果可复现的痛点，做自动化实验的开发者值得关注。

原文

11:07

arXiv: Anthropic@Matthew Stone, Una Stojnić

本文探讨AI聊天机器人（如Claude）输出的语言是否具有意义。尽管普通用户和工程师通常认为答案是肯定的，但许多认知科学家和语言哲学家基于意向性理论持相反观点。作者提出，不需要假设AI具有心理状态或意图，现有的人类语言理论已足以解释LLM输出的意义。然而，承认输出有意义并不等同于认可其内容或技术价值，这对批判性使用AI生成文本有重要启示。

论文 AI哲学语言模型意义理论 Claude LLM输出

推荐理由：这篇论文为AI语言哲学提供了新视角，做AI伦理、语言模型研究的学者或开发者值得一读，能帮你跳出“AI是否有意识”的争论，重新理解输出文本的本质。

原文

10:58

arXiv cs.AI@Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna

多模态语言模型在空间推理任务中常因无法直接观察关键信息而表现不佳。研究者提出 Imaginative Perception Tokens (IPT)，一种中间感知表征，让模型能推断未观察到的空间结构，如从不可见视角看物体、追踪遮挡路径等。在 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务上，IPT 监督显著提升空间推理准确率，在 MVC 上提升 3.4%，且优于文本思维链训练。研究发现文本思维链在空间计算中可能因模态不匹配而降低性能，而 IPT 提供了更有效的监督信号。该方法无需在推理时生成图像，即可产生可解释的中间表征，提升泛化能力。

论文空间推理多模态模型 Imaginative Perception Tokens 视觉语言模型思维链

推荐理由：空间推理是多模态模型的短板，IPT 提供了一种不依赖文本思维链的监督方式，做视觉推理或空间理解的团队可以直接参考论文方法。

原文

10:57

arXiv cs.AI@Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi

精选

研究团队提出 Humanoid-GPT，一种基于 GPT 风格的因果注意力 Transformer，在 20 亿帧的运动数据上预训练，用于全身控制。与以往受限于数据稀缺和敏捷性-泛化权衡的浅层 MLP 追踪器不同，Humanoid-GPT 统一了所有主要动作捕捉数据集和大量内部录制数据。通过扩展数据和模型容量，该模型能够追踪高度动态的行为，并在未见过的动作和控制任务上实现前所未有的零样本泛化。实验表明，Humanoid-GPT 在零样本泛化和动态复杂运动追踪方面均达到了新的性能水平。

论文 Humanoid-GPT 运动追踪零样本泛化 Transformer 全身控制

推荐理由：做机器人全身控制和运动追踪的团队终于有了一个能零样本泛化的基础模型——Humanoid-GPT 用 20 亿帧数据训练，直接解决了以往模型在动态场景下泛化差的问题，做仿人机器人或动画生成的开发者值得关注。

原文

10:47

arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan

精选

该研究提出一个系统框架，用于量化大型推理模型（LRM）在输出长链思维时，其内在置信度与语言表达置信度之间的对齐程度（即忠实校准FC）。研究发现，LRM的推理行为并不会自动提升FC，且针对非推理模型的提示干预在推理场景中无效。不同置信度估计器对同一推理轨迹给出分歧评估，暴露了现有评估方法的脆弱性。这项工作将FC确立为LRM在高风险部署场景下的关键可靠性与对齐目标。

论文推理模型置信度校准模型对齐可靠性评估方法

推荐理由：LRM的推理链常被用户视为深思熟虑的证据，但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注，尤其是那些在医疗、金融等高风险场景部署LRM的开发者，看完会重新审视你的置信度校准策略。

原文

10:47

arXiv cs.AI@Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang, Qingyu Yin, Xin Liu, Zixuan Zhang, Priyanka Nigam, Bing Yin, Tuo Zhao, Chao Zhang

精选

现有基于评分标准的强化学习（RL）方法将查询分布视为固定，导致开放查询产生模糊评分标准，而狭窄查询又引入无法验证的参考，使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题，并利用对比评分生成和可学习性过滤，保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上，QUBRIC相比SFT基线提升5.5分，且仅用指令跟随数据训练后，在三个未见基准（法律、道德、叙事推理）上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。

论文强化学习评分标准查询设计 GRPO 推理模型

推荐理由：QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配，做RL训练或AI对齐的团队可以直接参考其方法，提升模型在开放推理任务上的表现。

原文

10:46

arXiv cs.LG@Amil Dravid, Yasaman Bahri, Alexei A. Efros, Yossi Gandelsman

精选

该研究探讨了神经网络中神经元群体是否随模型规模可预测地演化，扩展了缩放定律至损失等宏观可观测指标之外。通过分析高达30B参数的语言模型和5B参数的视觉模型，发现Rosetta神经元（跨独立训练模型激活模式相似的神经元）数量随规模呈亚线性幂律增长，但占总神经元比例缩小。研究还观察到“神经元极化效应”：Rosetta神经元随规模增加变得更选择性、更单语义，而非Rosetta神经元则保持较低选择性。一个平衡特征效用与有限神经元容量的分析模型解释了这种亚线性缩放和极化效应。结果表明存在可解释的、共享的神经元级结构缩放定律，将模型大小与神经元普遍性、选择性和专门化的系统性变化联系起来。

论文缩放定律神经元可解释性 Rosetta神经元模型规模单语义性

推荐理由：这项研究揭示了模型规模如何影响神经元的可解释性和专门化，对理解大模型内部机制和设计更高效架构的AI研究者有直接参考价值，建议关注其缩放定律的实践意义。

原文

10:45

arXiv cs.LG@Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang

精选

当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准，缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程，通过智能体动态选择和聚合证据，实现一致且透明的评估。在奖励基准和下游任务（如 Best-of-N 选择和强化学习）中，Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案，并通过策略性证据编排取得更优性能。代码已开源。

论文奖励模型智能体 LLM后训练强化学习开源/仓库

推荐理由：做 LLM 后训练（RFT/RL）的团队终于有了统一的奖励评估框架，不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据，效果还更好，做对齐和强化学习的建议直接看代码。

原文

10:45

arXiv cs.LG@Ali Behrouz, Farnoosh Hashemi, Vahab Mirrokni

精选

受人类学习过程启发，研究者提出了一种名为“睡眠”的范式，让大语言模型能够持续学习，将短期脆弱记忆蒸馏为稳定的长期知识。该范式包含两个阶段：记忆巩固（通过知识播种将小模型记忆蒸馏到大模型）和梦境（模型通过强化学习生成合成数据自我改进）。实验证明，该方法在长时任务、持续学习、知识整合和少样本泛化上效果显著。这项工作解决了LLM无法持续更新长期参数的核心痛点，为模型终身学习提供了新思路。

论文持续学习记忆巩固蒸馏强化学习 LLM

推荐理由：做持续学习和模型终身优化的研究者值得关注——它用“睡眠”机制解决了LLM记忆遗忘问题，比传统微调更接近人类学习方式，看完会有启发。

原文

10:44

arXiv cs.LG@Lianghuan Huang, Yihao Li, Saeed Salehi, Yingshan Chang, Ansh Soni, Konrad P. Kording

精选

该论文从信息论角度形式化了视觉中的“绑定问题”，即系统如何知道哪些特征（如颜色、形状）属于同一个物体。研究者提出了一种探测方法，用于测量深度学习模型（尤其是Vision Transformers）内部表示中的绑定信息。实验发现，ViT的不同组件（如[CLS]标记和空间标记）包含不同程度的绑定信息，且在特征共享、遮挡等挑战性场景中表现差异显著。这项工作表明，绑定信息是强视觉识别与推理的关键要素，但目前模型仍存在特征误归因的常见失败。

论文绑定问题 Vision Transformer 信息论视觉推理特征归因

推荐理由：做视觉AI的开发者会关心：你的ViT模型真的理解“蓝色圆形”是一个整体吗？这篇论文给出了量化绑定信息的方法，值得点开看看如何诊断模型的结构性盲点。

原文

10:43

arXiv cs.LG@Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo, Alexander Robey, Na Li, Yebin Wang, Changliu Liu

精选

VLESA 是一个面向具身 AI 的安全框架，通过分析第一人称视频实时预测危险动作并触发干预。它解决了“意图依赖的安全”问题——相同动作在不同情境下可能安全或危险。研究团队引入了配对第一人称帧与目标条件安全标注的数据集，并训练了基于 GRPO 的目标条件安全 Q 过滤器，无需重新训练即可评估动作安全性。在 ASIMOV-2.0 基准上，VLESA 在精确帧上实现了更高的干预准确率，GRPO 训练的 Q 过滤器通过目标条件约束解码将动作安全性提升了超过 41 个百分点。代码已开源。

论文具身智能安全监控视觉语言模型 GRPO 开源/仓库

推荐理由：做具身 AI 安全或人机协作的团队，VLESA 提供了一个可落地的实时安全监控方案，能根据上下文判断危险动作，建议直接看论文和代码。

原文

10:42

arXiv cs.LG@Mihail Stoian, Mark Gerarts, Pascal Ginter, Andreas Zimmerer, Jan Van den Bussche, Andreas Kipf

精选

数据库厂商最近发布了可在过滤谓词中使用的AI函数，但这些函数依赖昂贵且黑盒的ML模型，带来了新的数据管理挑战。传统的数据跳过技术（如针对整数和字符串的）无法适用于这种新过滤器类型，因为没有已知机制能在读取blob存储文件时剪枝不符合条件的行组。本文首次研究ML过滤器的数据跳过技术，证明Parquet默认的min-max元数据足以实现剪枝，并借鉴了ML模型查询语言和神经网络验证两个研究方向。在ReLU架构上的初步实验表明，对于选择性低于0.1%的过滤器，平均剪枝效果达27.4%。此外，受空间连接研究启发，作者提出了一种增强元数据结构——有大小限制的2D凸包，使剪枝效果提升至38.31%，且每行组和列对仅占用最多45字节，在DuckDB中实现了相对于PyTorch的1.07倍端到端加速。

论文数据跳过 ML过滤器元数据剪枝 Parquet

推荐理由：数据库团队终于有了处理ML过滤器的数据跳过方案——用轻量元数据就能剪枝，做大数据分析或数据库内核开发的建议看看，能直接提升查询性能。

原文

10:41

arXiv cs.LG@Dan Jacobellis, Neeraja J. Yadwadkar

机器人系统常面临高分辨率视觉数据带宽和计算资源受限的问题，传统JPEG/MPEG编码器效率低，而AV1/AVIF等新编码器编码成本高且需专用硬件。SEAOTTER提出一种结合传感器嵌入式自编码器与一次性转码的压缩框架，在保持与JPEG基础设施兼容的同时，实现200:1压缩比下比AVIF快7倍编码、3.5倍解码，ImageNet top-1准确率提升8%。该方法通过可学习的JPEG颜色和量化变换，支持通用和任务感知的转码管道，适用于云机器人场景。代码已开源。

论文图像压缩自编码器 JPEG兼容云机器人开源/仓库

推荐理由：机器人视觉数据压缩的痛点终于有了兼顾效率与兼容性的方案——SEAOTTER在200:1压缩比下比AVIF更快更准，做云机器人或边缘计算的团队可以直接用开源代码试试。

原文

10:40

arXiv cs.LG@Niccolò Perrone, Fanny Lehmann, Stefania Fresca, Filippo Gatti

神经算子代理（NO）能比数值求解器快数个数量级地近似偏微分方程解，但存在谱偏差：高频成分被系统性地衰减，限制了其在需要精细尺度结构场景下的可靠性。稀疏传感器测量虽能提供无谱畸变的逐点精度，但仅覆盖小部分区域。本文提出FreqNO-DPS框架，将NO预测作为扩散后验采样中的辅助观测，结合基于分数的扩散先验和稀疏观测条件，并通过闭式谱整形引导分数避免重新引入偏差。在3D弹性波场预测中，5%和2%传感器覆盖率下，该方法在所有频带达到近零谱偏差，而单独使用代理或传感器均显示高频衰减。该框架仅需成对代理/参考数据，无需问题特定结构。

论文神经算子谱偏差扩散后验采样 PDE求解稀疏观测

推荐理由：做物理模拟或PDE求解的团队终于有了解决高频细节丢失的实用方案——FreqNO-DPS用扩散模型校正神经算子的谱偏差，在稀疏观测下也能恢复全频带精度，建议做科学计算或工程仿真的直接试。

原文

10:39

arXiv cs.LG@Carlo Wenig, Raoul-Martin Memmesheimer, Christian Klos

脉冲神经网络（SNN）训练中广泛使用的LIF神经元存在参数微小变化导致脉冲消失/出现、损失景观碎片化的问题。最新研究发现，二次整合-发放（QIF）神经元能避免这些不连续性，实现连续平滑的梯度下降。在Spiking Heidelberg Digits数据集上，QIF网络通过超参数搜索后性能显著优于LIF网络。可视化显示LIF的损失景观更碎片化、梯度更不稳定，而QIF则更平滑。研究建议用QIF等连续脉冲动力学模型替代LIF进行梯度下降训练。

论文脉冲神经网络 LIF神经元 QIF神经元梯度下降神经形态计算

推荐理由：做SNN训练或神经形态计算的团队，LIF的脉冲不连续问题可能让你头疼——QIF神经元直接解决了这个痛点，性能更好且训练更稳定，值得在项目中试试替换。

原文

10:38

arXiv cs.LG@Ting-Yun Chang, Harvey Yiyun Fu, Deqing Fu, Chenghao Yang, Jesse Thomason, Robin Jia

精选

推理模型通过长思维链提升准确性，但长输出导致内存和计算瓶颈。现有KV缓存淘汰方法在压缩缓存时会丢失关键信息，导致模型陷入重复推理循环。研究发现，少量值状态具有异常大的幅度，淘汰它们会引发灾难性失败；引入随机性可提高缓存多样性。基于此，研究者提出VaSE方法，无需训练即可保护大幅度值状态并促进多样化淘汰决策。在6个推理任务上，Qwen3模型使用VaSE实现4倍KV缓存压缩，准确率超过最强淘汰方法4%以上，弥合了效率与准确性之间的差距。

论文 KV缓存推理模型内存优化随机淘汰 Qwen3

推荐理由：推理模型的长输出让内存和计算成本飙升，VaSE用随机淘汰策略在4倍压缩下保持高准确率，做推理模型优化的开发者可以直接参考论文实现。

原文

10:36

arXiv cs.LG@Mengdi Chu, Jiaxin Yang, Angus G. Forbes, Nathan Debardeleben, Earl Lawrence, Ayan Biswas, Han-Wei Shen

科学数据分析中，现有机器学习方法多提供确定性前向预测，忽略多种可能结果且不支持反向推理。该研究提出 DiffUNet^2，一种条件扩散模型，支持时间维度上的双向任意生成，捕捉系统演化的概率分布。结合交互式可视化系统，科学家可探索分支时间线、编辑状态并导航概率空间，主动验证假设。在5个跨学科数据集上验证了预测准确性和概率集成质量。该框架将生成模型转化为假设驱动的科学分析工具。

论文扩散模型科学数据时序建模交互式可视化概率生成

推荐理由：做科学数据分析和时序建模的团队，终于有了能双向推理、探索多种可能性的工具，比传统确定性预测灵活太多，建议做地球科学或生物物理的开发者点开看看。

原文

10:35

arXiv cs.LG@Thomas Maillart, Thibaut Chataing, David Dosu, Paul Bagourd, Julian Jang-Jaccard, Alain Mermoud

该研究利用 OpenAlex 中量子计算子领域的概念共现网络，构建了时间分辨的概念对关系，并追踪每个概念对的上游引用谱系和下游扩散。研究者训练 LightGBM 模型，基于分布和多样性特征预测四个结果：内源强化、外源扩散、两者比率和扩散熵。在控制整体出版增长后，内源强化在量子计算基准中几乎不可预测，而外源扩散和熵的预测性很强（R² 高达 0.78），且由上游异质性、引用广度和分布离散度驱动。在机器人、先进材料和神经植入物领域的复现验证了外源扩散是跨领域的最可预测目标（R²_test 约 0.60-0.87），而神经植入物中内源预测性显著上升（R²_test=0.83），表明量子计算的不对称性并非普遍适用。案例研究显示，熵的急剧增加对应新概念前沿的开启，而熵的崩溃则标志技术收敛或范式更替。

论文概念扩散量子计算预测模型科学计量学 LightGBM

推荐理由：这项研究为科学预测提供了可量化的新工具，做科技政策分析、创新管理或科研方向判断的团队，可以直接用其方法识别跨领域概念扩散的早期信号。

原文

10:33

arXiv: DeepSeek@Malia Barker, Bishal Lakha, Edoardo Serra, Francesco Gullo

研究者提出了一种自动算法，通过生成数值重映射攻击来测试大语言模型在算术推理中的泛化能力。该方法自动推导问题的符号表示，生成约束数值映射并重新计算答案，通过确定性编辑实现问题变换。在GSM8K、MAWPS和MultiArith数据集上测试DeepSeek-R1、Gemma4和GPT-OSS模型，发现GSM8K上条件准确率下降12.16至25.82个百分点，而MAWPS和MultiArith更稳定。结果表明数值重映射鲁棒性强烈依赖于数据集结构，GSM8K即使保留推理程序仍敏感，而较短更规则的数据集更鲁棒。

论文 LLM 算术推理鲁棒性数值重映射 GSM8K

推荐理由：做LLM评估和推理优化的团队会关心——GSM8K的脆弱性说明基准测试可能高估了模型的真实推理能力，建议关注数值变化对模型泛化的影响。

原文

10:32

arXiv: DeepSeek@Ziyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen

72°

大型推理模型（LRM）在链式思维（CoT）上通过可验证奖励强化学习（RLVR）取得了显著进展，但长CoT中固有的试错和冗余探索被强化，导致过度思考问题。现有方法主要偏向较短轨迹，但学习信号仍基于结果，无法减少长CoT中的冗余记忆。为此，研究者提出ThoughtFold框架，通过细粒度偏好学习来缓解冗余探索，实现高效推理。它采用内省策略识别正确轨迹中的冗余，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索，鼓励模型直接连接关键推理段，从而折叠推理链。实验表明，ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%，同时保持最先进的准确性。

论文推理模型链式思维偏好学习效率优化 DeepSeek-R1

推荐理由：ThoughtFold解决了LRM过度思考的痛点，做推理模型优化的团队可以直接参考其内省偏好学习方法，能大幅降低计算成本而不牺牲精度。

原文

10:31

arXiv: DeepSeek@Sidi Yang, Chaofan Tao, Jierun Chen, Tiezheng Yu, Ruoyu Wang, Yuxin Jiang, Yiming Du, Wendong Xu, Jing Xiong, Taiqiang Wu, Lifeng Shang, Xiaohui Li, Ngai Wong, Haoli Bai

72°

一篇新论文挑战了“更强代码智能体更适合训练学生”的常见假设。研究者构建了Terminal-Lego流水线，将多领域真实问题转化为可验证的智能体任务。实验发现，尽管Claude Opus 4.6在基准测试中得分更高，但用DeepSeek-V3.2（得分较低）的轨迹微调的学生模型，泛化能力反而更强。这种“教学悖论”归因于环境监督（EGS）：暴露“检查-行动-验证”行为的轨迹，能让学生学到稳健的问题解决模式。仅用1.53万条轨迹，Qwen3-32B就达到了此前需要30倍数据量的SOTA水平，表明智能体后训练的关键在于“环境交互结构设计”。

论文智能体终端智能体训练数据环境监督泛化能力

推荐理由：这篇论文推翻了“老师越强，学生越好”的直觉，做智能体微调的团队会发现数据质量和交互结构比模型能力更重要，值得仔细读实验设计。

原文

10:31

arXiv: DeepSeek@Ruihui Hou, Siyi Zhu, Ziyue Huai, Guangya Yu, Yongqi Fan, Chunming Wang, Tong Ruan

现有基准主要评估大模型在单疗程场景中的表现，缺乏对多疗程（患者病情随时间演变）的系统评估。为此，研究者提出了ClinicalMC基准，包含1275个中文和5804个英文样本，覆盖从入院到出院的四个阶段（分诊、首诊检查/诊断/治疗、后续多疗程检查/评估/治疗、最终诊断）。英文数据集患者平均经历5.11个疗程，中文数据集为3.42个。他们构建了包含患者、考官和医生智能体的多智能体评估框架，并设计了单轮静态和多轮动态两种实验设置，评估了闭源模型（如GPT5-mini）、开源模型（如DeepSeek-V3.2）和医疗模型（如HuatuoGPT-o1）。该工作旨在更好地理解大模型在医疗领域的表现，支持其有效部署。

论文临床决策多疗程基准测试医疗AI 多智能体评估

推荐理由：医疗AI开发者终于有了评估模型在多疗程动态决策中的基准——ClinicalMC覆盖从分诊到出院的完整流程，做临床决策系统的团队可以直接拿来测模型。

原文

10:30

arXiv: DeepSeek@Baijun Ji, Zixuan Zhou, Xiangyu Duan, Yu Liu, Longbo Sun, Rupu Wei, Bohong Zhao

文档级机器翻译需要捕捉长距离的篇章依赖关系，现有方法缺乏对结构化篇章依赖的显式建模。本文提出 G^2C-MT，将上下文选择视为轻量级篇章图上的结构化路径发现问题，通过将段落表示为节点并建模语义相似度、邻接和关键词重叠关系，再使用深度偏置随机游走采样上下文路径，引导大模型翻译。该方法支持多路径采样，能聚合多样候选翻译以提升鲁棒性。实验表明，G^2C-MT 在 DeepSeek-V3、Gemini-2.5-Flash-lite 和 Qwen-2.5/3 系列等多个大模型上均优于强基线。

论文文档级翻译图引导上下文篇章建模大模型机器翻译

推荐理由：做文档翻译或长文本处理的团队终于有了不依赖昂贵 LLM 的上下文建模方案——G^2C-MT 用图结构替代暴力检索，翻译质量提升且成本可控，做 NLP 应用的建议点开看看方法细节。

原文

10:28

arXiv cs.LG@Xianliang Li, Zihan Zhang, Weiyang Liu, Han Bao

Muon优化器在大语言模型训练中表现出色，但其动量机制的理论作用一直不明确。本文通过将动量视为一种频谱滤波器，证明了在信号加扰动的梯度模型下，动量能有效抑制扰动并保留主导信号，从而扩大两者间的频谱间隙。这种间隙的扩大稳定了传递给Muon正交化步骤的矩阵的奇异子空间，使更新更可靠。实验表明，先应用动量再进行正交化比反向顺序或移除动量能更好地对齐梯度信号。该理论为理解其他基于矩阵的优化器中动量的作用提供了起点。

论文 Muon 动量频谱滤波优化器大语言模型训练

推荐理由：做LLM训练或优化器研究的团队，这篇论文把Muon动量从玄学变成了可解释的频谱滤波机制，看完能直接指导你调参——先降噪再正交化，效果更稳。

原文

10:27

arXiv cs.AI@Quentin Fuxa, Dominik Macháček

AlignAtt4LLM 是 IWSLT 2026 同声传译任务的参赛系统，支持英语到德语、意大利语和中文的实时翻译。它采用同步级联架构：Qwen3-ASR 通过强制对齐生成逐步更新的源文本，Gemma-4 E4B-it 在 MT 侧使用 AlignAtt 策略进行翻译。这是首次将 AlignAtt 应用于纯解码器 LLM，解决了缺少编码器-解码器交叉注意力的问题，通过显式源跨度提示、离线选择翻译专用注意力头、选择性 qk-fast replay 和运行时查询/键捕获实现。在 IWSLT 2026 开发集上，该系统在低延迟（约2秒）和高延迟（低于4秒）场景下，对欧洲目标语言（英译德、英译意）均优于基线，对英译中结果较复杂，但方法不限于 Gemma-4，可复用于更强的翻译解码器 LLM。

论文同声传译 AlignAtt 纯解码器LLM 实时翻译 Gemma-4

推荐理由：做同声传译或实时翻译系统的团队，终于有了一个在纯解码器 LLM 上跑 AlignAtt 的可行方案，低延迟场景下效果显著，值得参考实现。

原文

10:27

arXiv cs.AI@Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley

精选72°

ACTS提出了一种新方法，通过智能体控制器自适应地引导冻结的推理模型，在推理过程中动态调整思考策略和预算，从而在保持生成连续性的同时大幅节省token。该方法将推理引导建模为马尔可夫决策过程，控制器根据推理轨迹和剩余预算发出策略动作。实验表明，ACTS在全思考性能下实现了显著的token节省，并支持不同推理器和任务间的可控精度-效率权衡。代码已开源。

论文推理模型 token节省智能体可控推理开源/仓库

推荐理由：ACTS解决了LLM推理中token浪费和缺乏控制的问题，做推理优化或部署大模型的开发者可以直接用开源代码尝试，实现更经济的推理。

原文

10:26

arXiv cs.AI@Roohan Ahmed Khan, Yasheerah Yaqoot, Muhammad Ahsan Mustafa, Dzmitry Tsetserukou

AgenticRL 是一种结合多模态 GPT 智能体的强化学习框架，专为无人机视觉导航任务设计。它通过 GPT 智能体自动生成奖励函数、训练策略并自我评估，形成闭环自优化流程。在多种导航任务（如穿越门、避障、轨迹跟踪）中，闭环优化使策略性能提升71%。该框架还支持从仿真到真实环境的迁移，真实世界成功率达91%，仿真到真实准确率94%。这大幅减少了传统强化学习中对人工设计奖励和反复调参的依赖。

论文强化学习无人机导航多模态GPT 奖励函数设计仿真到真实迁移

推荐理由：做无人机导航或机器人强化学习的团队，终于有了能自动设计奖励函数并自我优化的框架，省去大量手动调参时间，建议直接看实验部分。

原文

10:25

arXiv cs.AI@Anthony GX-Chen, Ankit Anand, Gheorghe Comanici, Zaheer Abbas, Eser Aygün, David Smalling, Shibl Mourad, Doina Precup, André Barreto, Mark Rowland

经典强化学习追求确定性策略以最大化标量奖励期望，但在语言模型微调或科学发现等现代应用中，多样性至关重要。现有方法如熵正则化或多样性奖励常需脆弱权衡，牺牲性能换取随机性。本文提出将奖励函数视为分布而非标量，通过非线性的动作集目标函数，使校准的行为多样性自然涌现，且不牺牲期望奖励。在上下文赌博机设定下，推导了原则性的梯度估计器，证明该框架泛化了策略梯度与动作集方法。实验表明，该方法为需要行为广度的复杂RL任务提供了稳健的理论替代方案。

论文强化学习多样性奖励不确定性策略梯度上下文赌博机

推荐理由：做RL研究或语言模型微调的团队，如果正为多样性-性能权衡头疼，这篇论文给出了一个理论干净的新框架——把奖励不确定性当作多样性来源，不用额外调参。值得细读。

原文

10:25