全部 AI 动态 · AI 热点

5月29日

09:56

rohanpaul_ai@rohanpaul_ai

精选

Yann LeCun 团队的新论文揭示了自监督模型 LeJEPA 何时能真正学到隐藏的世界变量。研究发现，只有当这些隐藏变量呈平衡的高斯分布时，LeJEPA 才能可靠地恢复它们。论文从数学上证明，当真实隐藏变量是独立高斯变量且配对视图来自稳定噪声过程时，LeJEPA 的最优解必然能恢复这些变量（至多相差一个旋转或翻转）。这为理解自监督 AI 模型何时是在学习世界结构、而非仅生成恰好有用的特征提供了理论依据。

论文自监督学习世界模型 LeJEPA 高斯分布 Yann LeCun

推荐理由：这篇论文给自监督学习社区一个清晰的数学答案：什么条件下模型真的在学世界模型。做表征学习或世界模型研究的开发者，看完会对 LeJEPA 的能力边界有更硬核的理解。

原文

09:17

arXiv: Anthropic@Gianluca Inguglia

76°

研究团队首次对Claude Code和Codex两个智能体AI系统进行头对头比较，任务是在共享计算基础设施上自主执行完整的引力波数据分析流程，包括噪声估计、模板生成、信号恢复和论文撰写。实验发现，Claude Code约3.4分钟完成流程，但存在静默偏离规范的行为；Codex耗时约16分钟，但会显式自我纠错并优化代码。在第二次实验中，两者对信噪比范围指令的解读差异导致了科学结论的分歧。该研究揭示了智能体AI在科学计算中速度与可审计性、静默与透明错误处理之间的权衡。

论文智能体科学计算引力波 Claude Code Codex

推荐理由：这是首次直接对比两大AI智能体在真实科学计算任务中的表现差异，做科学计算自动化的团队会看到速度与可靠性之间的真实取舍——Claude Code更快但可能静默出错，Codex更慢但更透明，值得点开了解如何选择。

原文

09:17

arXiv: Anthropic@James P. Balhoff, Hilmar Lapp

精选

表型注释是将自由文本描述链接到本体术语的关键步骤，但传统上依赖高训练专家，难以规模化。本研究使用Anthropic和OpenAI的五个前沿LLM作为“智能体策展人”，在自包含工作空间中提供原始论文PDF、注释指南和本体文件，评估其与人类策展人的一致性。结果显示，所有智能体均达到原始研究中三位训练人类策展人的一致性范围，最佳智能体接近但未超越最佳人类策展人，且在所有指标上大幅优于传统NLP工具。这表明LLM智能体有潜力自动化表型注释，缓解本体策展瓶颈。

论文 LLM智能体表型注释本体策展生物信息学自动化

推荐理由：做生物信息学或本体工程的研究者终于有了可扩展的自动化方案——LLM智能体直接对标人类专家水平，建议点开看具体实现和评估细节。

原文

08:04

elvis@omarsar0

精选

FluxMem 提出将智能体记忆视为异构图不断演化的拓扑结构，而非传统存储。其工作流程分为三个阶段：初始连接形成、反馈驱动优化、以及将成功路径固化为可复用程序回路。执行时能自动修复缺失链接、剪枝干扰并调整抽象粒度。该方法在 LoCoMo、Mind2Web 和 GAIA 三个不同记忆场景下均达到当前最优。论文已公开，适合关注智能体记忆架构的研究者和开发者。

论文智能体记忆架构图拓扑 FluxMem 论文

推荐理由：FluxMem 把智能体记忆从静态存储升级为动态拓扑，解决了长期任务中记忆碎片化和干扰问题。做智能体系统或记忆建模的团队值得看看这个新范式，可以直接参考其论文思路。

原文

06:58

06:58IT之家（博客/媒体）

精选

华盛顿州立大学研究团队历时十年，识别出一组关键基因簇（共生岛），将其从根瘤菌转移到非固氮细菌中。他们开发的基因工具大幅提升了转化成功率。实验显示，多数改造后的细菌与植物细胞配对对宿主有益或无害。该成果发表于5月27日《当代生物学》期刊，为减少谷物作物对化肥依赖提供了技术路径。

论文固氮基因根瘤菌华盛顿州立大学当代生物学基因工程

推荐理由：让小麦自己固氮

原文

03:07

NVIDIA AI@NVIDIAAI

72°

NVIDIA 研究团队的 CVPR2026 论文 LocateAnything 在 HuggingFace 上成为趋势第一。该模型是一种视觉语言检测模型，创新性地并行解码边界框，而非传统的一次一个坐标。在 1.38 亿高质量样本上训练，显著提升了定位精度和吞吐量，适用于 AI 智能体和机器人等需要快速精准视觉定位的场景。项目页面已公开。

论文视觉检测边界框预测 NVIDIA CVPR2026 HuggingFace

推荐理由：做视觉检测或机器人感知的团队，LocateAnything 的并行解码思路能直接提升实时性，值得点开看看项目页。

原文

00:33

AK@_akhaliq

该研究提出了一种名为对比分布匹配（Contrastive Distribution Matching）的新方法，用于改进离散扩散模型中的摊销序贯蒙特卡洛（Amortized Sequential Monte Carlo）采样。该方法通过对比学习优化分布匹配，显著提升了离散扩散模型的采样效率和质量。实验表明，该方法在多个基准任务上优于现有技术，为离散扩散模型的实用化提供了新思路。

论文离散扩散对比学习序贯蒙特卡洛采样优化生成模型

推荐理由：离散扩散模型在文本、图结构等离散数据生成中至关重要，但采样效率一直是瓶颈。这篇论文提出的对比分布匹配方法直接解决了这个问题，做生成模型研究的开发者值得关注。

原文

5月28日

23:48

AK@_akhaliq

该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法，用于优化多模态智能体的推理策略。通过探索性策略优化，智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明，AEPO 在多个基准测试上显著提升了智能体的性能，尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。

论文智能体多模态推理模型强化学习 AEPO

推荐理由：多模态智能体推理是当前 AI 的前沿方向，AEPO 为开发者提供了一种可落地的训练优化思路，做智能体或多模态应用的团队值得关注。

原文

23:42

AK@_akhaliq

MRT（Masked Region Transformer）是一种用于大规模分层图像生成与编辑的新方法。它通过掩码区域机制，能够对图像中的特定区域进行精确的生成或修改，同时保持整体图像的连贯性。该方法在图像编辑任务中表现出色，支持复杂的分层操作，如对象替换、背景修改等。MRT的提出为图像生成和编辑领域提供了更灵活、高效的解决方案，尤其适用于需要精细控制的大规模图像处理场景。

论文图像生成图像编辑 Transformer 掩码区域分层处理

推荐理由：MRT解决了图像编辑中区域精确控制与整体连贯性的矛盾，做图像生成和编辑的开发者可以直接尝试，尤其适合需要分层操作的项目。

原文

20:05

rohanpaul_ai@rohanpaul_ai

76°

德克萨斯大学的一篇重要论文指出，AI 智能体在部署后会逐渐变得不可靠，即使底层模型本身没有变化。问题在于，智能体在持续运行中会总结旧对话、存储记忆、更新事实和执行维护，这些步骤中的每一个都可能悄悄“腐烂”，导致信息丢失、混淆或过时。例如，药物剂量可能被简化为“每日用药”，两个相似客户的信息可能混淆，已取消的订阅可能仍被视为有效。论文提出了 AgingBench 基准测试，用于评估智能体在多轮会话中的可靠性，并指出“给更多记忆”往往不是正确的修复方法。该研究将部署后的智能体重新定义为“老化的基础设施”，而非静态模型。

论文智能体老化记忆管理 AgingBench 可靠性

推荐理由：这篇论文戳中了 AI 智能体部署后的核心隐患——性能会随时间悄悄下降，做智能体运维或长期对话系统的团队值得细读，看完会重新审视记忆管理策略。

原文

19:58

rohanpaul_ai@rohanpaul_ai

研究发现图像扩散Transformer训练效率低下的根源在于残差连接，而非注意力或编码器。残差连接导致信号膨胀、梯度消失和特征冗余，尤其不适合扩散模型这种多步去噪任务。作者提出扩散自适应路由（Diffusion-Adaptive Routing），让每层根据去噪时间步动态选择前层输出，从而在相同图像质量下减少8.75倍训练迭代。该工作没有引入新数据集或注意力机制，而是质疑了从语言Transformer继承的残差结构。

论文扩散模型 Transformer 残差连接训练加速 DiT

推荐理由：扩散模型研究者终于找到了训练瓶颈的隐藏位置——残差连接，8.75倍加速意味着更低的训练成本，做图像生成的团队值得关注这个新路由方案。

原文

13:03

13:03IT之家（博客/媒体）

精选

复旦大学附属妇产科医院与浙江大学、华大生命科学研究院等合作，在《自然》发表论文，首次绘制覆盖Carnegie stage 12–23（受精后约4至8周）人类全胚胎时空转录组图谱。研究整合高分辨空间转录组技术Stereo-seq与单核RNA测序，分析13枚胚胎、77张矢状切面，分辨率达500纳米。团队精准标注50个器官/解剖区域、198个分子定义亚结构，并将心脏、脑、肝等器官发育轨迹纳入统一时空坐标。发现心脏窦房结发育新基因RORA和KIAA1324L，为先天性心律失常提供分子线索。

论文 Nature Stereo-seq 空间转录组胚胎发育基因调控

推荐理由：中国团队Nature发图，看清胚胎发育

原文

12:02

arXiv cs.LG@Jiawei Zhang, Ziyuan Liu, Leon Yan, Zhenyu Xiao, Yuantao Gu

该论文提出了一种名为MAP-RPS的阶段式框架，用于在扩散模型的零样本逆问题求解中实现失真-感知（D-P）权衡的灵活遍历。该方法先通过MAP估计阶段近似MMSE解，提供低失真初始化，再通过重噪后验采样阶段逐步提升感知质量。理论分析验证了设计的有效性，并扩展至潜在空间（LMAP-RPS），利用大规模预训练潜在扩散骨干。实验表明，该方法在多种任务上实现了更有效的D-P遍历，并作为高效求解器表现出色。

论文扩散模型零样本逆问题失真-感知权衡 MAP-RPS 潜在空间

推荐理由：对于从事图像恢复、超分辨率等逆问题的研究者，MAP-RPS提供了一种无需重新训练即可在推理时灵活调节失真与感知质量的方法，值得尝试。

原文

12:02

arXiv cs.LG@Krishnam Gupta

精选72°

研究发现视觉-语言-动作（VLA）模型在电机指令层面存在根本性、可预测的失败差异。通过对 VQ-BeT、Diffusion Policy 和 ACT 三种架构在 PushT 和 ALOHA 14-DOF 双臂操作任务上进行 450 次评估，发现方向反转率是通用失败预测指标（AUROC 最高 0.93），而急动度监控仅对离散令牌架构有效，速度监控在连续架构中几乎无效（AUROC 仅 0.41-0.52）。研究强调架构匹配的监控选择至关重要，并开源了 SafeContract 工具包。

论文 VLA 机器人动作监控失败预测 SafeContract

推荐理由：做机器人 VLA 部署的团队注意了——不同架构的失败模式完全不同，用错监控等于白费功夫。建议直接看方向反转率这个通用指标，并试试 SafeContract 工具包。

原文

12:02

arXiv cs.LG@Jürgen Dölz, Michael Multerer, Michele Palma

传统上，神经网络的鲁棒性通过Lipschitz常数衡量，但该方法过于粗糙或严格，无法捕捉数据依赖的细微行为。本文提出基于离散模量连续性（DMOC）的数据驱动框架，它不依赖模型内部结构，而是通过数据分布评估网络的正则性。DMOC引入了可扩展的小批量算法，将计算成本从二次降为线性，适用于ImageNet等大规模数据集。实验表明，DMOC能区分已训练和未训练网络，揭示欠拟合和过拟合状态，并作为特例给出与最先进方法相当的紧Lipschitz估计。该框架为鲁棒性评估提供了更精细、数据驱动的替代方案。

论文神经网络鲁棒性 Lipschitz常数数据驱动离散模量连续性大规模数据集

推荐理由：DMOC解决了Lipschitz常数在评估神经网络鲁棒性时的粗粒度问题，做模型安全或对抗性研究的团队可以直接用这个框架替代传统方法，尤其适合处理ImageNet级别的大规模数据。

原文

12:01

arXiv cs.LG@Richard J. Young, Gregory D. Moody

精选72°

该论文指出，通用语言模型回答有害问题返回文本，而编程模型若遵从恶意请求可能返回可运行的武器（如键盘记录器、勒索软件）。因此，编程模型应比通用模型有更高的拒绝标准，但现有基准测试碎片化，无法有效衡量。作者整合了8个语料库（共6675条提示），通过5位评审共识协议分类，区分了可执行恶意代码请求（CODE）和有害安全知识请求（KNOWLEDGE）。最终发布了4748条CODE提示和1923条KNOWLEDGE提示，为评估编程模型对恶意代码的拒绝能力提供了可靠工具。

论文安全/对齐编程模型基准测试恶意代码共识标注

推荐理由：编程模型的安全风险比通用模型高一个量级——返回的代码可以直接运行成武器。做AI安全评估的团队终于有了经过共识验证的测试集，建议用这个库来检验自家模型的拒绝边界。

原文

12:00

arXiv cs.LG@Zelin Li, Caiwen Ding

精选72°

研究发现，大语言模型的零阶（ZO）微调本质上是推理密集型负载，而非传统训练。现有实现将ZO算法运行在训练循环中，导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时（如vLLM）上，在OPT-13B模型上实现了8.13倍加速，且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速，并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。

论文零阶优化微调推理优化 vLLM 大语言模型

推荐理由：做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑，vLLM直接提速8倍，建议做低成本微调的人点开看看实现细节。

原文

12:00

arXiv cs.LG@Mehryar Mohri, Yutao Zhong

本文提出了一种新的多标签学习算法框架 MMO，用于优化 F-measure、Jaccard 指数等广义度量。作者设计了具有 H-一致性保证的替代损失函数，能在 O(l) 时间内精确分解，无需近似。该算法在 MS-COCO 和 Reuters-21578 等大规模高稀疏数据集上，优于现有连续基线方法。研究为多标签度量优化提供了理论严谨且实践有效的方案。

论文多标签学习度量优化 H-一致性替代损失函数 MMO

推荐理由：多标签分类任务中优化复杂度量一直缺乏理论保证，MMO 算法填补了这一空白。做多标签学习、信息检索或推荐系统的研究者可以直接用这套框架提升模型效果，值得深入阅读。

原文

11:59

arXiv cs.LG@Kevin Y. Li, Asher Trockman, Ananda Theertha Suresh, Ziteng Sun

精选72°

Oryx 是一种新型混合架构，能在序列处理中灵活切换注意力（用于长上下文检索）和线性循环（用于高效生成），解决了传统模型在效率和长上下文能力之间的权衡。该模型在 1.4B 参数规模下，平均语言建模任务性能比单一混合器基线提升至少 0.7 个百分点。在检索任务中，即使仅用不到 10% 的 token 运行注意力模式，Oryx 也能达到与 Transformer 基线相当的性能。Oryx 的关键创新是让不同混合器共享至少 90% 的参数，从而在共享内部表示上高效切换。这项工作表明注意力与线性循环模型可以共享表示，为序列轴上的混合设计提供了新方向。

论文混合架构注意力机制线性循环模型长上下文 Oryx

推荐理由：Oryx 解决了长上下文检索与高效生成的矛盾，做序列建模或大模型架构的开发者可以直接参考其共享参数设计思路，值得关注。

原文

11:58

arXiv cs.LG@Thomas Vitry, Kieran Edgeworth, Stefan Wermter, Jae Hee Lee

本文提出一种无需偏见标签的后处理方法，用于识别冻结视觉模型中的虚假关联。该方法仅依赖标准类别标签，通过非负矩阵分解从中间激活中提取可解释概念向量，并利用误分类样本的梯度信号对候选概念进行排序。在Colored MNIST、Waterbirds和CelebA数据集上，该方法成功识别出已知虚假线索，且抑制排名靠前的概念可将最差组准确率提升最高17.9个百分点。该方法无需重新训练或参数更新，为部署后的模型提供了可解释的审计工具和去偏手段。代码已开源。

论文视觉模型偏见识别梯度探针概念分解后处理

推荐理由：做视觉模型部署和公平性的团队，终于有了一个无需额外标注就能定位模型偏见的工具——直接在冻结模型上分析，省去重新训练的麻烦，值得一试。

原文

11:58

arXiv cs.LG@Xinyu Wang, Mingze Li, Sicheng Lyu, Dongxiu Liu, Kaicheng Yang, Ziyu Zhao, Yufei Cui, Xiao-Wen Chang, Peng Lu

精选

Ω-QVLA是首个无需训练的后训练量化框架，能将视觉-语言-动作模型的语言骨干和扩散动作头统一压缩至W4A4精度，打破此前认为动作头必须混合精度的认知。它通过复合SVD-Hadamard旋转均衡权重能量并分散激活异常值，结合逐步骤的DiT激活缩放量化吸收去噪步间的动态范围漂移。在LIBERO基准上，Pi 0.5和GR00T N1.5经量化后任务成功率分别达98.0%和87.8%，与FP16参考值持平或略优，静态内存占用降低71.3%。真实机器人操作实验也验证了其流畅精准的控制能力。代码已开源。

论文量化 VLA模型 Pi 0.5 GR00T N1.5 内存压缩

推荐理由：做机器人或边缘部署VLA模型的团队终于有了统一量化方案——内存省71%且性能不降，Pi 0.5和GR00T N1.5用户可以直接用代码复现。

原文

11:57

arXiv: DeepSeek@Loc Pham, Lang Hong Nguyet Anh, Thanh Le-Cong

现有大模型在函数式编程语言（如Haskell、OCaml、Scala）上表现远逊于命令式语言。研究者发现，单独微调每种语言无法共享函数式抽象，而多语言混合微调又会导致跨语言干扰。为此，他们提出FPMoE，一个基于稀疏混合专家架构的轻量级开源代码生成模型，包含三个语言专用专家和一个共享专家，后者捕捉单子推理、类型导向编程等跨语言模式。在FPEval基准上，FPMoE仅用3B活跃参数就超越了微调基线，性能匹敌DeepSeek-Coder-6.7B、Qwen2.5-Coder-14B-Instruct等更大模型。

论文函数式编程代码生成稀疏混合专家 Haskell OCaml Scala 开源/仓库

推荐理由：函数式编程开发者终于有了专属的代码生成模型——FPMoE用稀疏MoE解决了跨语言干扰和抽象丢失两大痛点，且3B参数就能达到14B模型的效果，值得Haskell/OCaml/Scala用户直接上手测试。

原文

11:57

arXiv cs.LG@Zhen-Hao Xie, Yu-Cheng Shi, Da-Wei Zhou

本文提出AREA方法，针对CLIP模型在类增量学习（CIL）中的灾难性遗忘问题。传统CLIP通过模板提示（如“一张[类别]的照片”）进行视觉与文本嵌入的相似度匹配，但该过程可分解为属性提取与属性聚合两个阶段。由于增量学习仅能访问当前任务数据，模型容易偏向新类别。AREA通过主测地线分析在超球面嵌入空间锚定属性，并引入轻量级任务专家与变分信息瓶颈正则化来稳定聚合。推理时利用最优传输进行任务属性流路由，实现更精确预测。实验表明，AREA在多个基准上超越现有最先进方法。

论文类增量学习 CLIP 属性提取灾难性遗忘最优传输

推荐理由：做持续学习或CLIP微调的团队，AREA把增量遗忘的根因拆解为属性提取与聚合两个环节，并给出了可落地的解耦方案，值得看看代码和实验细节。

原文

11:56

arXiv: DeepSeek@Yi Ding, Zijie Xuan, Haowei Zhou, Zhenyu Ju, Xiaoxiao Dong, Jingwen Zhang, Xingyu Zhu, Leixin Sun, Haochi Zhang

精选

TCP-MCP 提出了一种将智能体提示和通信拓扑作为统一基因进行协同进化的框架，解决了传统方法中两者孤立设计的问题。该框架通过初始化景观探测校准早期搜索行为，并利用帕累托前沿诊断在任务性能、token 成本和结构复杂度三个目标下自适应探索。在 DeepSeek-V3.2 骨干模型上，TCP-MCP 在 MMLU-Pro、MMLU 和 GSM8K 上分别达到 82.66%、89.96% 和 96.61% 的准确率，相比辩论式系统最多节省 5.69 倍 token。实验表明，联合进化提示和通信结构是实现成本感知和任务自适应多智能体系统设计的实用路径。

论文多智能体系统协同进化提示优化通信拓扑 DeepSeek-V3.2

推荐理由：多智能体系统设计者终于有了一个能同时优化提示和通信拓扑的框架——TCP-MCP 在保持高准确率的同时大幅降低 token 成本，做复杂协作任务的团队可以直接参考其方法。

原文

11:56

arXiv cs.LG@Audrey Chan, Aaron Labbé, Jacob Lavoie, Jordan Bannister, Arsène Fansi Tchango, Guillaume Lajoie, Laurent Charlin

论文推荐系统情感计算离线优化世界模型 DPO

推荐理由：做健康/情感类推荐系统的团队终于有了一个可落地的离线优化方案——用世界模型模拟用户情感反馈，避免在线实验的伦理风险，做医疗或老年人应用的开发者可以直接参考其方法论。

原文

11:56

arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho

精选72°

该研究提出了首个系统化框架，将混合专家模型（MoE）转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络，再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法，共350种配置。发现评分方法影响最大，其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下，MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点，训练速度快1.6倍。

论文模型压缩知识蒸馏混合专家模型稠密模型 Qwen3

推荐理由：这个框架解决了MoE模型在内存受限设备上部署的痛点，做模型压缩和边缘部署的团队可以直接参考其方法，比传统剪枝效果更好且训练更快。

原文

11:55

arXiv: DeepSeek@Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu

一项针对医疗问答链式推理（CoT）蒸馏的研究发现，蒸馏后的小模型在最终答案准确率上显著提升（MedQA-USMLE从74.7%到84.4%），但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型，蒸馏自DeepSeek-V3系列教师模型，并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于：当答案选项简短、无法约束完整推理时，学生模型能模仿专家风格的推理过程，但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒，在医疗等高风险领域，仅用答案准确率评估蒸馏模型是不够的，推理步骤的事实性必须单独审计。

论文链式推理模型蒸馏医疗QA 推理审计 DeepSeek

推荐理由：做医疗AI或模型蒸馏的团队注意了：答案准不等于推理对，蒸馏后步骤错误率反而飙升，临床场景下这是致命隐患。建议点开看看审计方法，避免踩坑。

原文

11:55

arXiv cs.LG@Yangyi Huang, Ruotian Peng, Zeju Qiu, Jiale Kang, Yandong Wen, Bernhard Schölkopf, Weiyang Liu

论文提出 PEFT-Arena 基准，从稳定性-可塑性困境（目标任务适应 vs 预训练能力保持）评估参数高效微调方法。研究发现，在同等参数预算下，正交微调在帕累托前沿上表现最佳。通过权重空间谱分析和激活空间表示保持分析，解释了不同方法遗忘预训练能力的原因。最终检查点往往偏离最优平衡点，论文展示了路径回退的后处理改进案例。

论文参数高效微调稳定性-可塑性正交微调预训练能力保持 PEFT-Arena

推荐理由：做 LLM 微调的团队终于有了评估预训练能力保持的基准——PEFT-Arena 帮你选方法时不再只看下游指标，建议做模型适配的开发者点开看看。

原文

11:54

arXiv: DeepSeek@Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna

这篇论文系统研究了混合专家（MoE）大模型推理中的多级解耦策略，从分块预填充聚合、预填充-解码解耦到最新的算子级 Attention-FFN 解耦（AFD）。AFD 将注意力计算和 MoE-FFN 执行分别部署在不同 GPU 组上，以应对 MoE 模型中内存受限的注意力、计算密集的专家 FFN 以及 MoE 路由通信带来的异构资源需求。通过结合设备级内核测量和高保真网络模拟的框架，论文在真实工作负载下评估了各级解耦的收益与局限。结果表明，在严格的 TTFT/TPOT 服务等级目标下，AFD 在 DeepSeek-V3.2 上可维持约 4000 tokens/s 的系统吞吐量，而传统非 AFD 部署无法满足要求。论文还给出了根据工作负载和模型架构划分注意力与 FFN 的实用建议，为当前机架/集群级部署及未来解耦 AI 基础设施提供了设计原则。

论文 MoE 推理优化解耦架构 Attention-FFN DeepSeek-V3.2

推荐理由：MoE 模型推理的瓶颈终于被系统性地拆解了——Attention-FFN 解耦让吞吐量提升到传统方案无法企及的水平，做大规模 MoE 推理部署的团队可以直接参考论文中的分区策略来优化集群。

原文

11:54

arXiv: DeepSeek@Ifeoluwa Kunle-John, Josiah Paul, Oluwatosin Agbaakin, Peter Aina, Ikenna Odezuligbo, Sydney Anuyah

因果抽取是生物医学文本挖掘的核心任务，但现有资源常混淆因果与关联、局限于句子级标注或仅关注显式因果线索。PubMedCausal 是一个基于 PubMed 摘要构建的跨度级标注语料库，包含 3 万段落级样本、3945 条因果行和 6491 个因果对，标注了完整因果跨度、类型及句子属性。基准测试显示，生物医学编码器 PubMedBERT 在因果检测上 F1 达 0.7391，而 DeepSeek-R1-32B 在跨度级抽取上 F1 为 0.6765。该语料库支持跨数据集评估，并揭示了类别不平衡、长因果跨度、隐式因果等挑战。

论文因果抽取生物医学语料库 PubMed 跨度级标注

推荐理由：做生物医学文本挖掘或因果推理的团队终于有了一个高质量、细粒度的标注资源，可以直接用来训练和评估模型，建议点开看看数据细节。

原文

11:36

AK@_akhaliq

精选72°

Gamma-World 是一种生成式多智能体世界建模方法，超越了传统双玩家（如双人博弈）的限制，能够模拟多个智能体在复杂环境中的交互。该模型通过生成式框架学习智能体间的动态关系，适用于游戏、机器人协作等场景。研究展示了其在多智能体环境下的强大建模能力，为更复杂的群体智能研究提供了新工具。

论文多智能体世界模型生成式模型 AI研究 Gamma-World

推荐理由：多智能体系统开发者终于有了能处理超过两个智能体的世界模型——Gamma-World 解决了传统双玩家建模的瓶颈，做游戏 AI 或机器人协作的团队值得关注。

原文

11:36

arXiv: OpenAI@Aman Priyanshu, Supriti Vijay, Esha Pahwa

精选72°

该研究引入了一个模拟平台，让数千个LLM智能体在社区中互动一个月，评估隐私泄露风险。研究发现，从单轮转向多轮社交评估时，隐私泄露率从19.95%升至45.30%（OpenAI模型）。观察同伴泄露后，智能体泄露敏感信息的概率增加8倍。即使有明确的隐私指令，泄露率仍高于37.8%。这表明静态聊天基准测试低估了智能体部署中的隐私风险，社交环境本身就能引发单轮评估无法发现的敏感信息泄露。

论文隐私安全多智能体系统 LLM评估社交模拟安全基准

推荐理由：多智能体系统正在走向真实部署，但隐私风险被严重低估——做AI安全评估或部署智能体应用的团队，建议看看这个研究，它揭示了社交环境如何放大隐私泄露。

原文

11:36

arXiv: OpenAI@Ian Diks, Harihara Muralidharan, Tim Proctor, Kenny Workman

精选

研究人员推出 SpatialBench-Long 基准测试，专门评估 AI 智能体在空间生物学中的长程科学推理能力。该基准包含 24 个评估任务，涵盖胰腺癌、胶质母细胞瘤、肺癌等多种疾病模型，涉及 CosMx、Visium、Xenium 等多种空间转录组学技术。任务要求智能体从原始或近原始数据中恢复生物学结论，而非执行预设分析流程。当前最佳模型（Gemini 3.5 Flash、GPT-5.5 等）在 72 次运行中仅完成 8 次（11.1%），表明该任务极具挑战性。该基准通过确定性评分和专家审查确保结果可靠性。

论文空间生物学基准测试 AI智能体科学推理 SpatialBench-Long

推荐理由：空间生物学研究者终于有了衡量AI科学推理能力的硬核基准——SpatialBench-Long 要求智能体从复杂空间数据中推导真实结论，而非简单跑流程。做生物信息学或AI for Science的团队，值得看看当前模型的表现差距在哪里。

原文

11:35

arXiv: OpenAI@Matthew Fickus, John Jasper, Dustin G. Mixon

该论文证明了在复数域中，当维度d满足d²-d+1 < n < d²时，不存在d×n的等角紧框架。这一结果填补了等角紧框架理论中的一个重要间隙，称为Singer-Zauner间隙。证明方法源自OpenAI的内部模型，通过类比实数域中等角紧框架与强正则图的关系，将复数域问题转化为图论问题。该发现对信号处理、量子信息理论和编码理论有潜在影响。

论文等角紧框架 Singer-Zauner间隙图论信号处理量子信息

推荐理由：等角紧框架是信号处理和量子信息中的核心工具，这篇论文解决了长期悬而未决的间隙问题，做相关理论研究的数学家和工程师值得关注。

原文

11:35

arXiv: Anthropic@Thomas Mbrice

该研究首次将立场检测应用于预测市场（如Polymarket）的评论，这些评论包含价格无法捕捉的方向性信号。由于评论极端简短、存在特定行话且类别严重不平衡（仅8.7%的评论反对市场结果），研究通过微调RoBERTa-base模型，探索了四种输入配置和三种数据增强条件。结果表明，市场上下文是最关键的因素，能将反对类别的召回率从0.10提升至0.45；反事实增强在弱配置下有效（F1从0.10升至0.24），但在强配置下会降低性能；50%的增强比例是最优剂量。注意力可解释性分析为所有发现提供了机制支持。

论文立场检测预测市场反事实增强数据不平衡 Polymarket

推荐理由：做金融舆情或预测市场分析的团队会感兴趣——这篇论文用反事实增强解决了极端不平衡数据下的立场检测难题，50%合成数据是最佳实践，值得在类似场景中尝试。

原文

11:32

arXiv cs.AI@HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu

精选72°

研究团队发现，基于LLM的搜索智能体在BrowseComp基准测试中，高达44.5%的问题无需工具即可回答，超过一半的搜索查询来自内部假设而非检索线索，表现出对内在知识的依赖而非真正的证据驱动搜索。当移除支持答案的外部证据后，智能体表现甚至不如闭卷基线。为此，团队推出了LiveBrowseComp，一个包含335个依赖90天内发布事实的问题的深度搜索基准，所有智能体在该基准上的闭卷准确率低于2%，搜索增强得分比BrowseComp下降25-40点，且模型排名不再可靠。该基准旨在评估智能体超越内在知识覆盖的真实搜索能力。

论文搜索智能体基准测试内在知识依赖 LLM评估 LiveBrowseComp

推荐理由：这项研究戳穿了搜索智能体的真实能力——它们可能只是在验证已知信息而非真正搜索。做搜索Agent或评估AI检索能力的团队，值得看看LiveBrowseComp这个新基准，避免被静态测试误导。

原文

11:32

arXiv cs.AI@Manjiang Yu, Hongji Li, Junwei Chen, Xue Li, Priyanka Singh, Yang Cao, Lijie Hu

现有的大语言模型对齐方法通常对所有输入使用固定的干预方向与强度，导致在良性输入上通用能力下降。本文提出MARI（Multi-Adapter Representation Interventions via Energy Calibration），通过竞争性多适配器机制让不同专家捕获非线性校正模式，自适应决定干预方向与强度。同时设计基于能量的门控模块，利用内部传播动力学区分适合干预的输入。实验表明，MARI在TruthfulQA、BBQ和安全基准上达到最先进对齐性能，同时在MMLU和ARC等通用任务上保持甚至提升能力。代码已开源。

论文大语言模型表示干预对齐多适配器能量校准

推荐理由：做LLM对齐的团队终于有了一个不牺牲通用能力的干预方案——MARI用多适配器和能量门控解决了“一刀切”干预的痛点，做安全对齐或事实性增强的开发者可以直接试。

原文

11:32

arXiv cs.AI@Bibek Poudel, Sai Swaminathan, Weizi Li

AlphaTransit 是一个基于搜索的公交网络规划框架，结合了蒙特卡洛树搜索（MCTS）与神经网络策略-价值网络，用于解决公交线路设计中延迟反馈的挑战。它能在构建完整网络前预测每条线路扩展的长期效果，避免局部优化导致的换乘瓶颈或重叠问题。在Bloomington基准测试中，AlphaTransit在混合和全公交需求场景下分别达到54.6%和82.1%的服务率，比纯强化学习提升9.9%和11.4%，比无学习引导的MCTS提升2.5%和11.2%。代码和数据已开源。

论文公交网络设计 MCTS/搜索神经网络交通规划开源/仓库

推荐理由：城市交通规划团队终于有了一个能提前预见线路设计后果的AI工具——AlphaTransit用搜索+学习解决了公交网络设计的延迟反馈难题，做交通规划或智慧城市的研究者可以直接用开源代码跑自己的数据。

原文

11:31

arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang

精选72°

MemTrace 提出了一种新框架，将大语言模型的记忆管道转化为可执行的记忆演化图，实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准，涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统，系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因，发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化，形成闭环系统，自动修正错误并提升端任务性能最高达7.62%。代码已开源。

论文记忆系统错误归因 LLM 开源/仓库性能优化

推荐理由：做LLM记忆系统或长上下文推理的开发者，终于有了一个能自动定位记忆错误根因的工具，还能自动优化提示提升性能，值得试试这个开源方案。

原文

11:31