全部 AI 动态 · AI 热点

6月19日

11:40

11:40

arXiv cs.AI@Gina Wong, Drew Prinster, Suchi Saria, Rama Chellappa, Anqi Liu

该论文研究混合专家模型在分布偏移下的校准问题。先前工作表明专家级校准可提升MoE模型的准确率和校准度。本文发现硬路由模型中专家校准足以保证整体校准，但软路由模型则不足。对此提出对抗性重新加权方法，惩罚分布偏移下路由聚合的校准误差。实验证明该方法能改善平均及困难子集上的准确率-校准权衡。

论文 MoE 分布偏移校准对抗性重加权

推荐理由：这篇论文把MoE的校准问题研究透了，告诉你硬路由和软路由有什么区别，还给了一个对抗性重加权的解法。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:07

11:07

arXiv cs.LG@Ardianto Wibowo, Paulo E Santos, Amer Baghdadi, Matthew Stephenson, Karl Sammut, Jean-Philippe Diguet

该论文提出一种基于因果起源的统一分类法，用于描述强化学习（RL）中的分布偏移。作者将监督学习中的经典数据集偏移原则迁移到RL，通过部分可观测马尔可夫决策过程（POMDP）将交互分解为状态分布、观测过程、策略、奖励和转移动力学等结构组件。分类法区分了内部（智能体驱动）和外部（环境驱动）两种分布偏移，并从偏移时间边界角度定义了显式、隐式和混合偏移。该方法统一了分布内/分布外（ID/OOD）泛化与非平稳性，并引入性能退化与恢复指标来评估偏移影响和适应性。

论文强化学习分布偏移 POMDP 泛化因果分类

推荐理由：这篇论文把RL里训练和测试环境不一致的问题，用因果原因做了系统分类，还统一了OOD泛化和非平稳性的视角，搞清楚偏移根源才能更好做鲁棒性分析。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月26日

12:37

12:37

arXiv: DeepSeek@Pingfan Su, Kai Ye, Shijin Gong, Erhan Xu, Jin Zhu, Giulia Livieri, Chengchun Shi

精选

READER是一种新型AI文本检测方法，通过让模型在检测前生成结构化推理（rationale）来提升准确性和可解释性。它基于一个名为READ的监督数据集进行微调，该数据集包含人工标注的推理过程和判定结果。尽管只有1.5B参数，READER在分布内和分布外场景下均优于现有检测器，甚至超过GPT-5.2、Gemini-3-Pro和DeepSeek-V3.2等千倍规模的大模型。这项研究解决了AI文本检测中可解释性差和分布偏移下性能下降的关键问题。

论文 AI文本检测推理增强可解释性小模型分布偏移

推荐理由：AI文本检测的可解释性和鲁棒性一直是痛点，READER用1.5B参数就超越了千倍大模型，做内容安全或反作弊的团队值得关注这个新思路。

5月19日

11:37

11:37

arXiv cs.AI@Jiayi Zhang, Fanqi Kong, Guibin Zhang, Maojia Song, Zhaoyang Yu, Jianhao Ruan, Jinyu Xiang, Bang Liu, Chenglin Wu, Yuyu Luo

精选

这篇立场论文提出，通用智能体需要环境缩放（environment scaling）来适应训练分布之外的多样任务和未见环境。当前缩放实践主要关注在固定交互规则下收集更多经验或任务，导致智能体在底层接口、动态、观测或反馈信号变化时表现脆弱。作者将轨迹缩放、任务缩放和环境缩放区分开来，并提出了统一分类法。论文对比了程序化生成器（可控、可验证）和生成式世界模型（覆盖广、开放）两种构建可扩展环境的范式。最后，论文认为可扩展环境是实现鲁棒通用智能体的关键基础。

论文通用智能体环境缩放分布偏移可扩展环境泛化

推荐理由：做通用智能体研究的团队会发现，当前缩放策略的盲点被戳中了——环境规则集的分布偏移才是泛化瓶颈，值得重新审视自己的实验设计。

5月14日

13:27

13:27

arXiv cs.AI@Tyler Alvarez, Ali Baheri

精选

该论文提出了一种新的幻觉检测方法，将多步推理中的幻觉视为隐藏状态轨迹的几何特性，而非传统对整个输出打分。作者通过对比PCA构建标签条件教师模型，提取七个几何过渡特征，并蒸馏出BiLSTM学生模型，仅需单次前向传播即可定位首个错误步骤。在ProcessBench、PRM800K等基准测试中，该方法优于基于熵、探针和注意力的基线，教师模型跨语言模型和数据集稳定迁移，但学生模型在分布偏移下失效。研究将步骤级幻觉检测重新定义为轨迹动力学问题，并指出分布偏移下保持对比传输裕度是部署的关键障碍。

论文幻觉检测推理模型隐藏状态轨迹对比PCA 分布偏移

推荐理由：这篇论文把幻觉检测从“整体打分”推进到“单步定位”，做推理模型调试和可解释性研究的团队值得关注——它用几何视角揭示了错误发生的精确位置，比传统方法更细粒度。

5月11日

11:44

11:44arXiv cs.LG（学术论文）

论文提出STEPS方法，解决时序预测在分布偏移下测试时自适应（TTA）中的弱可识别性、误差累积和不稳定长时修正问题。该方法将TTA重新定义为时间流形上的狄利克雷边界值问题，利用局部求解器传播前缀误差的时序平滑性，全局求解器获取跨窗口误差记忆，并通过时空流形融合（SMF）整合两者进行最终矫正。在六个标准基准和四个冻结骨干网络上，STEPS相比零样本骨干平均相对MSE降低26.82%，超过最强TTA基线12.77%。额外稀疏前缀和污染测试验证了该方法在有限和噪声前缀下的鲁棒性。

论文时序预测测试时自适应分布偏移流形学习

推荐理由：该工作首次将时序预测TTA严格建模为微分方程问题，提供了理论清晰的优化视角，并在稀疏噪声数据下表现显著优于现有方法，对实际部署中的低质量观测场景具有重要参考价值。