全部 AI 动态 · AI 热点

5月21日

12:27

arXiv cs.LG@Elle Miller, Jayaram Reddy, Ayush Deshmukh, Trevor McInroe, David Abel, Oisin Mac Aodha, Sethu Vijayakumar

精选72°

机器人触觉强化学习（RL）研究因碎片化和过度关注饱和的定向任务而受阻。roto 2.0 是一个 GPU 并行化的基准测试，覆盖四种不同机器人形态（16-24 自由度），专注于仅依赖本体感觉和触觉的“盲”操作，无需状态信息或知识蒸馏。其盲代理在 10 秒内完成 13 次 Baoding 球旋转，速度比当前最先进水平快一个数量级。通过开源环境和调优基线，该工作降低了入门门槛，让研究者能聚焦核心算法挑战。

论文触觉感知强化学习机器人操作基准测试 GPU并行

推荐理由：触觉 RL 终于有了标准化的 GPU 并行基准，做机器人操作和强化学习的团队可以直接用 roto 2.0 测试算法，不用再花时间调环境——盲操速度提升 10 倍的结果值得点开看看。

原文

12:25

arXiv cs.LG@André Ribeiro, Ana Luiza Tenório, Tiago da Silva, Diego Mesquita

精选

传统图神经网络（GNN）处理节点特征时，通常假设特征是实数向量，但许多场景下节点特征更适合用概率分布（如高斯分布）表示。直接拼接均值和协方差矩阵会丢失几何与代数结构。研究者提出高斯层神经网络（GSNN），基于细胞层理论推导出新的拉普拉斯算子，保留关键数学性质，并在合成和真实数据上验证了有效性。这项工作为处理不确定性或噪声数据的图学习提供了新思路。

论文图神经网络高斯分布细胞层理论拉普拉斯算子概率建模

推荐理由：做图学习或处理带噪声/不确定性数据的团队，GSNN 提供了一种保留概率结构的新方法，值得关注其理论推导和实验效果。

原文

12:23

arXiv cs.LG@Alim Igilik

精选

传统地震预测模型假设泊松分布且全局离散度一致，但中亚地震数据（2010-2024）强烈拒绝该假设（p<10^{-179}）。本研究提出 EarthquakeNet 架构，通过神经网络（空间嵌入+MLP）内生估计每个网格的过离散参数 alpha，无需显式空间协方差设定。相比传统负二项回归假设全局 alpha，该模型能识别地震聚集的空间异质性，并通过预测分布分位数构建概率风险警报。2018-2023 年滚动评估显示，平均引脚偏差（MPD）比负二项 GLM 基线降低 8.6%，在极端事件（Y>=5）的连续排名概率分数（CRPS）降低 12.5%。

论文地震预测神经网络负二项回归尾部风险 EarthquakeNet

推荐理由：地震预测领域终于有了能捕捉空间异质性的神经网络方法，做灾害风险评估的团队可以直接用分位数构建警报，比传统全局假设模型更准。

原文

12:17

arXiv cs.LG@Calvin Isley, Johann D. Gaebler, Sharad Goel

精选

在招聘、大学录取等难以获得真实标签的领域，模型常依赖历史人工评估训练，但历史评估可能包含对特定群体的偏见。本文提出用专家定义的标准（评分嵌入）替代传统黑盒嵌入作为预测基础，使模型锚定在语义有意义的维度上，从而避免继承偏见。理论和实验证明，该方法在合理条件下能有效缓解标签偏差。在大型硕士项目申请数据集上，基于评分嵌入的模型减少了群体差异，同时提升了录取群体的整体质量。

论文标签偏差可解释性公平性评分嵌入决策算法

推荐理由：做公平性AI或高利害决策系统的团队，这篇给出了一个可落地的方案——用专家评分嵌入替代黑盒特征，既减少偏见又提升质量，值得细读。

原文

12:13

arXiv cs.LG@Pin-Hsun Lee, Harry Leib

精选

该研究提出一种基于激活函数的机器学习框架，用于改进加权最小二乘（WLS）GNSS定位算法。在城市峡谷等复杂环境中，多径效应和非视距信号会导致定位误差，该框架通过集成学习算法评估信号质量，并利用激活函数（如sigmoid）将预测分数转化为权重，从而提升定位精度。在香港和东京的真实数据集测试中，sigmoid函数在不同算法和星座配置下均表现最佳，显著降低了单星座和多星座场景的定位误差。该方法还展现出良好的地理迁移性，在类似城市化程度的区域训练后性能保持稳定。

论文 GNSS定位加权最小二乘激活函数机器学习城市峡谷

推荐理由：这项研究解决了城市环境中GNSS定位精度差的痛点，做导航定位、自动驾驶或智能交通的开发者可以直接参考其激活函数加权方法，值得关注。

原文

12:11

arXiv cs.LG@Kaiyi Zhang, Wei Wu, Yankai Lin

精选

DelTA提出了一种新方法，解决强化学习从可验证奖励（RLVR）中训练大语言模型时，token级信用分配不准确的问题。研究发现，标准RLVR更新中，高频格式token会主导梯度方向，掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数，放大判别性方向、抑制共享模式，使更新更聚焦于推理关键步骤。在7个数学基准上，DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分，代码生成和跨领域任务也验证了其泛化能力。

论文强化学习 Token信用分配推理模型 RLVR 数学推理

推荐理由：做RLHF或推理模型训练的团队，终于有了一个能精准分配token级信用的方法——DelTA解决了高频格式token淹没关键信号的问题，数学和代码任务上效果显著，值得在自家模型上试试。

原文

12:09

arXiv cs.LG@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

精选76°

研究发现强化学习（RLVR）训练中模型权重的变化轨迹是低秩且高度可预测的，大部分性能提升来自秩-1近似。基于此，研究者提出RELEX方法，仅需观察少量训练步数（如50步），通过线性回归外推未来检查点（如1000步），即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证，RELEX仅需15%的训练步数即可达到同等效果，且能外推至10-20倍于观察窗口。该方法无需额外学习模型，通过丢弃随机优化噪声实现去噪效果，从而提升外推性能。

论文强化学习推理模型低秩近似参数外推 Qwen

推荐理由：RLVR训练成本高昂，RELEX用极低成本实现同等推理提升，做LLM推理优化的团队可以直接用代码复现，值得一试。

原文

12:05

arXiv cs.LG@Yi Huang, Qingyun Sun, Jia Li, Xingcheng Fu, Jianxin Li

精选

关系深度学习（RDL）通过将关系数据库建模为图并应用图神经网络（GNN）进行端到端学习，但现有方法多依赖固定图结构，限制了表达能力。本文提出FROG框架，将关系结构学习转化为可学习的表角色建模问题，允许表作为节点和边参与消息传递，并设计角色驱动消息传递机制以捕捉关系语义。FROG还引入函数依赖约束，确保表与实体级别的表示一致性。实验表明，FROG在多个任务上超越现有方法，并揭示了表角色对下游任务的影响，为RDL的图构建提供了新见解。

论文关系深度学习图神经网络图结构学习关系数据库 FROG

推荐理由：FROG解决了RDL中固定图结构无法优化的问题，做关系数据库和图神经网络结合的研究者可以直接用这个框架提升模型效果，值得深入阅读。

原文

12:01

arXiv cs.LG@Tilman Tröster, David Mirkovic, Veronika Oehl, Arne Thomsen

精选

Velocityformer是一种等变图Transformer架构，专门用于从光谱巡天数据中重建星系速度，以提升运动学SZ效应的测量信噪比。该模型通过匹配观测数据中因视线方向导致的破缺对称性，在归纳偏置上优于标准线性理论基线，将速度重建相关系数r提升35%。Velocityformer在仅4个低保真模拟上即可训练到高精度，并能零样本泛化到不同输入几何、宇宙学参数和星系样本。在高保真模拟星系目录上，该模型将r提升30%，直接转化为观测数据上相同的信噪比增益。

论文等变图Transformer 宇宙速度重建 kSZ效应破缺对称性零样本泛化

推荐理由：宇宙学研究者终于有了一个能处理观测数据破缺对称性的AI工具——Velocityformer在速度重建上比线性理论提升35%，且数据效率极高，做kSZ效应测量的团队可以直接用。

原文

11:59

arXiv cs.LG@Mansoor Ahmed, Sujin Lee, Umar Khayaz, Murray Patterson

精选

现有基于等变图神经网络（GNN）的抗体CDR设计方法虽然序列恢复率高，但存在严重的词汇坍塌问题，即过度预测少数氨基酸（如酪氨酸和甘氨酸），忽略功能重要的残基。EvoStruct通过交叉注意力适配器将冻结的蛋白质语言模型（PLM）与E(3)-等变GNN的3D结构上下文结合，并采用渐进式PLM解冻和R-Drop一致性正则化，专门解决CDR设计的词汇坍塌问题。在CHIMERA-Bench数据集上，EvoStruct相比最佳GNN基线，序列恢复率提升16%，困惑度降低43%，氨基酸多样性恢复提升2.3倍，且与真实结合对相关性最高。该方法为抗体设计提供了更准确、更多样化的序列生成能力。

论文蛋白质设计抗体CDR 等变图神经网络蛋白质语言模型词汇坍塌

推荐理由：做抗体设计或蛋白质工程的团队，EvoStruct解决了GNN方法词汇坍塌的痛点，序列恢复和多样性双双提升，值得直接参考方法或复现实验。

原文

11:55

arXiv cs.LG@Benhao Huang, Zhengyang Geng, Zico Kolter

精选

Equilibrium Reasoners (EqR) 是一种新的推理框架，通过将推理过程建模为学习任务条件吸引子（latent dynamical systems）来实现可扩展的测试时计算。该框架无需外部验证器或任务特定先验，通过增加迭代深度（更多步数）和广度（聚合多个随机轨迹）来提升性能。实验表明，测试时计算的增益与向解对齐吸引子的收敛程度紧密相关。在 Sudoku-Extreme 任务上，EqR 通过展开多达 40,000 层，将前馈模型的准确率从 2.6% 提升至超过 99%。这一视角为理解迭代潜在模型中的可扩展推理提供了机制性解释。

论文推理模型测试时计算吸引子可扩展性 EqR

推荐理由：EqR 用吸引子理论解释了为什么迭代推理能泛化，做推理模型或可扩展计算的团队值得关注——它可能改变你对测试时计算分配的理解。

原文

11:35

arXiv cs.AI@Peng Ding, Rick Stevens

精选

一项实证研究通过zerodep项目，用LLM辅助开发了40多个仅依赖Python标准库的模块，替代流行的第三方库。基准测试显示，大多数情况下stdlib实现性能与第三方库持平（2倍以内），但在C扩展支持的计算任务（如图像处理、二进制序列化）中性能差距明显。有趣的是，许多第三方库因架构开销反而比stdlib实现慢5-115倍。该研究揭示了stdlib的能力边界，并探讨了LLM在严格约束下生成正确、高效代码的可行性。

论文 Python 标准库第三方库 LLM辅助开发性能基准

推荐理由：Python开发者面临依赖管理痛点，这项研究用数据告诉你哪些第三方库可以用stdlib替代，哪些不行。做轻量级部署或减少供应链风险的团队，值得参考zerodep的实践。

原文

11:33

arXiv cs.AI@Haiyang Shen, Jiuzheng Wang, Taian Guo, Mugeng Liu, Wenchun Jing, Chongyang Pan, Siqi Zhong, Zhiyang Chen, Weichen Bi, Yudong Han, Xiaoying Bai, Yun Ma

精选

北京大学团队提出一种新的AI教育方法：让学生通过构建基准测试来学习AI，而非仅将其作为效率工具。学生将学科知识转化为可验证的专家级问题，互相审查设计中的歧义和捷径，并评估AI系统。由此产生的QuestBench包含256个问题，覆盖14个人文社科领域。评估显示，13个AI系统的平均通过率仅16.85%，最佳系统GPT-5.5也仅达57.58%，暴露了当前深度研究系统的隐藏失败。学生反馈表明，这种实践帮助他们将专业知识视为判断AI输出的基础，而非AI可检索的内容。

论文 AI教育基准测试深度研究系统人文社科开源/仓库

推荐理由：想让学生真正理解AI局限性的教育者，可以用QuestBench的方法把课堂变成AI测试场——学生自己设计问题来考AI，比单纯教提示词更有深度。

原文

11:31

arXiv cs.AI@Junghyun Lee, Hyunseo Kim, Hanna Jang, Junhyug Noh

精选

本文提出了一种基于排序感知的选择性融合框架，用于解决混合情感识别中多模态线索重叠的挑战。该方法通过注意力门控模块估计每个编码器的重要性，仅融合最有效的 top-n 编码器，并解耦预测为存在性和显著性两个头部。在 BlEmoRE 挑战中，该框架超越了强个体编码器和朴素多编码器融合基线，最终获得第二名。这项工作展示了排序感知融合在细粒度混合情感识别中的有效性。

论文混合情感识别多模态融合排序感知注意力门控 BlEmoRE

推荐理由：混合情感识别是多模态 AI 的难点，这个排序感知融合框架解决了编码器选择问题，做情感计算或多模态融合的团队可以直接参考其方法。

原文

11:29

arXiv cs.AI@Amin Farajzadeh, Melike Erol-Kantarci

精选

针对6G超密集网络中同频干扰严重的问题，研究者提出了一种名为FedCritic的无服务器联邦多智能体演员-评论家框架，用于联合子载波调度和功率分配。该框架通过虚拟队列赤字权重强制执行长期服务质量约束，并利用基于干扰图的轻量级八卦参数平均来联邦化评论家网络，无需中央协调器即可实现稳定价值估计。仿真表明，在干扰密集的复用-1场景下，FedCritic相比非协调和集中式训练分散执行基线，显著提升了平均信干噪比、小区边缘速率、网络总速率和公平性，同时训练更稳定且协调开销更低。这项工作为6G分布式资源管理提供了一种高效、可扩展的解决方案。

论文 6G 资源分配联邦学习多智能体强化学习 OFDMA

推荐理由：6G超密集组网中的干扰管理是业界难题，FedCritic用无服务器联邦学习解决了集中式训练的高开销问题，做无线资源调度和网络优化的研究者可以直接参考其轻量级协调方案。

原文

11:27

arXiv cs.AI@Shreyas Vinaya Sathyanarayana, Raja Sekhar Pappala, Deepak Warrier

精选

论文反应条件推荐检索增强可解释性图编码器 USPTO-Condition

推荐理由：做有机合成路线规划的化学家终于有了一个既能给出准确条件推荐、又能展示具体先例的系统——HiRes 让你不再盲目信任黑箱模型，建议点开看看它是如何平衡精度与可解释性的。

原文

11:25

arXiv cs.AI@Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun

精选

PALS是一个针对大语言模型推理的功耗感知运行时系统，将GPU功耗上限作为可调控制参数，与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器，在满足吞吐量目标的同时最大化能效。在vLLM框架中实现，无需模型重训练或API更改。在多GPU系统上，针对稠密和混合专家模型，PALS能效提升最高26.3%，功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力，可实现能效比例和电网交互式AI系统。

论文 LLM推理功耗优化混合专家模型 vLLM 能效

推荐理由：数据中心GPU能耗是AI部署的隐形杀手，PALS把功耗从硬约束变成可调参数，做LLM服务部署的团队可以直接在vLLM上集成，省电又保性能，值得一试。

原文

11:23

arXiv cs.AI@Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco

精选72°

torchtune 是一个 PyTorch 原生的后训练库，旨在简化大语言模型（LLM）的微调、实验和部署流程。与 Axolotl、Unsloth 等框架相比，torchtune 强调模块化、可定制性和对底层 PyTorch 组件的直接访问，而非牺牲透明度和可扩展性。论文展示了其模型构建器、训练配方和分布式训练栈的设计，并在多种后训练场景中评估了性能。结果表明，torchtune 在保持强性能和内存效率的同时，足够灵活以支持快速研究迭代。该库为可复现的 LLM 后训练研究提供了实用基础。

AI模型 torchtune PyTorch LLM 微调后训练开源/仓库

推荐理由：做 LLM 微调的研究者或工程师，如果受够了黑盒框架的调试痛苦，torchtune 的模块化设计和 PyTorch 原生体验值得一试，能让你在保持性能的同时自由定制训练流程。

原文

11:21

arXiv cs.AI@Yakun Yu, Ashley Wiens, Adrián Barahona-Ríos, Benedict Wilkins, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer

精选

现有视觉语言模型（VLM）在游戏故障检测评估中，大多将故障视为静态视觉异常，忽略了时间性故障——这类故障需通过帧间变化才能识别。研究者提出TempGlitch基准，包含五种时间性故障类型及配对的无故障视频，用于系统评估。对12个开源和闭源VLM的测试显示，当前模型在TempGlitch上表现接近随机，要么过于保守漏检，要么过于敏感误报。增加帧采样密度或模型规模并不能可靠解决这些问题。该基准为时间推理、游戏理解和自动化故障检测提供了聚焦测试平台。

论文视觉语言模型游戏QA 故障检测时间推理基准测试

推荐理由：游戏QA团队和VLM研究者终于有了专门测试时间性故障的基准——当前模型表现接近随机，说明这是个硬骨头，做自动化测试的值得关注。

原文

11:19

arXiv cs.AI@Abhinaw Priyadershi, Jelena Frtunikj

精选

该研究系统评估了自动驾驶视觉-语言-动作模型（VLA）在传感器退化下的鲁棒性，对Alpamayo R1（10B参数）在1996个场景中施加8种扰动（高斯噪声、光照极端、雾霾），进行约18000次推理测试。结果发现，因果链（CoC）解释的一致性高精度指示轨迹可靠性：扰动后CoC变化时，轨迹偏差飙升5.3倍（21.8米 vs 4.1米），相关系数达0.99。启用CoC生成平均提升轨迹精度11.8%（p<0.0001）。研究建议将推理一致性作为规划安全定量代理，推动基于推理的运行时监控。

论文自动驾驶 VLA 推理鲁棒性因果链传感器扰动

推荐理由：自动驾驶安全团队终于有了可量化的推理可靠性指标——CoC一致性比直接测轨迹更早暴露风险，做VLA部署或安全验证的开发者值得关注这个监控思路。

原文

11:15

arXiv cs.AI@Mohamed Almukhtar, Anwar Ghammam, Hua Ming

精选

一项针对 AI 代理生成的 Python 重构 Pull Request 的实证研究发现，平均 22.5% 的变更提升了代码质量属性，其中可用性提升最频繁（36.5%）。但 24.17% 的修改文件引入了新的 Pylint 问题（主要是约定违规如长行），4.7% 引入了新的 Bandit 安全发现。尽管存在这些问题，73.5% 的 PR 被合并，包括那些引入新问题但同时也移除了旧问题的案例。研究还归纳了 24 种常见变更操作及其与 lint/安全发现的关系，强调了在 AI 驱动开发中加强质量与安全门控的必要性。

论文 AI 编程代码质量安全重构 Python

推荐理由：AI 写代码到底靠不靠谱？这篇论文用数据说话——重构 PR 质量有提升也有隐患，做 AI 编程工具或代码审查的团队值得看看，能帮你设计更好的质量门控。

原文

11:13

arXiv cs.AI@Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky

精选

这篇论文研究了在模拟器与真实实验之间如何权衡的问题。模拟器成本低但存在校准偏差，真实实验无偏但成本高。作者提出了一个扩展的模拟引理，将模拟器的价值误差分解为可识别的校准-部署偏移和不可减少的参数残差。他们还分析了模拟器最优策略与真实最优策略之间的价值差距，分为局部和可达性两部分。最后，提出了Fisher-SEP算法，通过最小化目标策略价值的后验预测方差来指导实验设计，并在自动售货机供应链和HIV移动测试两个案例中验证了其有效性。

论文模拟到真实迁移强化学习实验设计 Fisher-SEP 价值差距

推荐理由：这篇论文为做强化学习或机器人部署的团队提供了一个严谨的框架，帮你判断什么时候该相信模拟器、什么时候该做真实实验。做仿真到真实迁移的开发者可以直接参考其Fisher-SEP算法来优化实验预算。

原文

11:11

arXiv cs.AI@Riley Zilka, Sergey Khlynovskiy, Allie Wang, Martin Jagersand

精选

HITL-D 是一种结合人类操作与扩散模型的新型共享控制框架，专门针对多步骤、插入和精细操作任务。它通过场景点云和末端执行器笛卡尔位置，自主更新末端执行器方向，减少操纵杆控制轴数，降低操作者认知负荷。12 人用户研究表明，相比传统遥操作，HITL-D 将任务完成时间平均缩短 40%，感知工作负荷降低 37%，并在独立性、直观性和信心等主观评分上显著提升。该工作首次将扩散策略引入人机共享控制，为复杂操作任务的人机协作提供了新范式。

论文扩散模型人机协同共享控制遥操作机器人操作

推荐理由：做机器人遥操作或人机协作研究的团队，HITL-D 用扩散模型把操作者的认知负担砍掉近四成，值得在精细操作场景里试试。

原文

11:09

arXiv cs.AI@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian

精选

Mem-π 是一种新型自适应记忆框架，它让大语言模型智能体在需要时动态生成指导，而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型，基于当前上下文决定是否生成以及生成什么指导，并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中，Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优，在网页导航任务上实现了超过30%的相对提升。

论文智能体记忆增强强化学习网页导航工具使用

推荐理由：做AI智能体开发的团队终于有了解决记忆错配问题的方案——Mem-π 让智能体学会“按需生成”而非“死板检索”，在复杂任务中效果显著，建议研究记忆增强的开发者点开看看。

原文

11:07

arXiv cs.AI@Caleb Winston, Ron Yifeng Wang, Azalia Mirhoseini, Christos Kozyrakis

76°

现有网页操作智能体（如 Browser-Use、OpenAI CUA）采用顺序的“抓取-截图-执行”循环，每次迭代都需要调用 LLM，导致高延迟和频繁错误。研究者提出 Agent JIT 编译方法，将任务描述直接编译为可执行代码，包含 LLM 调用、工具调用和并行化。该方法包含三个组件：JIT-Planner 生成多个代码计划并选择最低成本方案；JIT-Scheduler 通过蒙特卡洛成本估计探索并行策略；不变式工具协议减少错误工具使用。在 5 个网页应用上，JIT-Planner 相比 Browser-Use 实现 10.4 倍加速和 28% 准确率提升，JIT-Scheduler 相比 OpenAI CUA 实现 2.4 倍加速和 9% 准确率提升。

论文智能体网页自动化 JIT编译延迟优化工具使用

推荐理由：网页自动化开发者终于有了降低延迟的实用方案——Agent JIT 编译直接解决了顺序执行的高延迟痛点，做 RPA 或浏览器智能体的团队值得一试。

原文

11:05

arXiv cs.AI@Basel Shbita, Pengyuan Li, Anna Lisa Gentile

精选

WikiVQABench 是一个人工策划的知识驱动视觉问答（VQA）基准，通过系统结合 Wikipedia 图像、文章标题和 Wikidata 结构化知识构建。它使用大语言模型生成候选多项选择题，再由人工审核确保事实正确性和视觉-文本一致性，要求每个问题必须依赖外部知识才能正确回答。评估了 15 个视觉语言模型（256M-90B 参数），准确率范围从 24.7% 到 75.6%，表明该基准能有效区分模型在知识密集型推理上的能力。数据集和代码已公开。

论文视觉问答知识驱动基准测试 Wikipedia Wikidata

推荐理由：做 VQA 或视觉语言模型评测的团队终于有了一个真正需要外部知识的基准，不再是纯视觉感知题——想测试模型知识推理能力的可以直接用这个数据集。

原文

11:03

arXiv cs.AI@Junshu Pan, Panzhong Lu, Yixuan Weng, Qiyao Sun, Fang Guo, Zijie Yang, Qiji Zhou, Yue Zhang

精选

AiraXiv 是一个由AI驱动的开放获取平台，旨在解决传统学术出版系统在AI时代面临的投稿量激增、审稿压力大等问题。该平台支持人类科学家通过交互式UI参与，也允许AI科学家通过MCP协议进行交互。论文以开放预印本为基础，结合AI增强分析和读者反馈，实现持续迭代。AiraXiv 已在ICAIS 2025会议上作为投稿平台实际部署，验证了其作为快速、包容、可扩展的研究基础设施的潜力。

论文开放获取学术出版 AI科学家 MCP/工具预印本

推荐理由：学术出版系统正被AI生成论文淹没，AiraXiv 提供了一个让人类和AI科学家平等参与、论文持续演进的解决方案。做学术出版、科研管理或AI研究的人值得关注，它可能改变未来论文的发表和评审方式。

原文

11:01

arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma

精选72°

DeepWeb-Bench 是一个新的深度研究基准，旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同，该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理，难度显著提升。研究对九个前沿模型进行了评估，发现检索并非主要瓶颈（仅占12-14%错误），而推导和校准失败占70%以上。强模型和弱模型的失败模式不同：强模型主要因推导不完整出错，弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异，跨模型一致性仅为0.61。

论文基准测试深度研究推理模型评估方法 DeepWeb-Bench

推荐理由：做 AI 评估或研究基准的团队会发现，DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计，这对理解模型真实研究能力很有帮助。

原文

10:59

arXiv cs.AI@Dayal Singh Kalra, Maissam Barkeshli

精选

本文提出一个框架，通过三个指标量化超参数迁移效果：缩放律拟合质量、外推鲁棒性、参数化导致的渐近损失惩罚。研究发现，μP 相比标准参数化（SP）在 AdamW 训练中的优势，主要源于嵌入层学习率的最大化。SP 中嵌入层学习率是瓶颈，导致训练不稳定；将其按宽度因子放大以匹配 μP 可显著平滑训练并改善迁移。此外，权重衰减改善缩放律拟合，但在固定 token-per-parameter 设置下会损害外推鲁棒性。

论文超参数迁移嵌入层学习率 μP AdamW 训练稳定性

推荐理由：做 LLM 训练调参的团队会关心——嵌入层学习率是 μP 优势的关键，直接放大 SP 的嵌入层学习率就能获得类似效果，值得在实验中验证。

原文

10:57

arXiv cs.AI@Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, Jonathan Lorraine

精选

预训练扩散模型常作为冻结教师模型用于下游任务（如文本到 3D、单步蒸馏、数据归因），但这些任务依赖蒙特卡洛期望估计梯度，方差大且计算成本高。本文提出 CARV 框架，通过分层蒙特卡洛估计器，在扩散噪声重采样上摊销昂贵上游计算，结合时间步重要性采样和分层逆 CDF 构造，有效降低方差。在文本到 3D 蒸馏和归因实验中，CARV 实现 2-3 倍有效计算加速，且不改变目标函数；在单步蒸馏中方差降低一个数量级，但下游 FID 无改善，表明此时方差已非瓶颈。该工作为扩散模型下游应用提供了高效方差缩减方案。

论文扩散模型方差缩减蒙特卡洛估计文本到 3D 蒸馏

推荐理由：做扩散模型下游应用（如文本到 3D、蒸馏）的团队，如果被梯度方差和计算成本困扰，CARV 的 2-3 倍加速值得直接尝试。

原文

10:22

arXiv cs.LG@Nassim Ait Ali Braham, Aaron Banze, Conrad M. Albrecht, Julien Mairal, Jocelyn Chanussot, Xiao Xiang Zhu

精选

地球观测基础模型通常基于多光谱、SAR等多传感器数据训练，但高光谱影像（HSI）一直未被充分整合。SpectralEarth-FM 提出一种层次化Transformer架构，通过光谱标记化、传感器专用编码器和跨传感器融合模块，实现HSI与低通道观测数据的联合处理。研究团队构建了包含EnMAP、EMIT、DESIS等星载HSI数据与Sentinel-2、Landsat-8/9、Sentinel-1等数据的SpectralEarth-MM数据集，覆盖约200万个全球位置、2500万地理参考图块，数据量超40TB。模型采用JEPA风格预训练目标，在HSI下游任务和标准地球观测基准上均达到最先进水平。这项工作填补了高光谱与多模态遥感联合预训练的空白，为环境监测、农业、地质勘探等领域提供了更丰富的数据基础。

论文高光谱影像多模态预训练地球观测遥感基础模型 JEPA

推荐理由：高光谱数据终于不再被孤立——SpectralEarth-FM 让遥感团队能用上更全面的传感器信息，做土地覆盖分类或环境监测的开发者可以直接参考其开源架构和数据集。

原文

10:22

arXiv cs.LG@Donggyu Lee, Taekyung Lee, Jaewoong Choi

精选

UOTIP 提出了一种基于非平衡最优传输（UOT）的新方法，用于解决无配对图像逆问题。该方法通过引入基于似然的代价函数，学习从噪声测量分布到干净信号分布的传输映射，无需配对训练数据。UOT 框架通过放松精确边际约束，使模型对多级观测噪声、类别不平衡和多种噪声类型具有鲁棒性。理论分析表明，加入二次代价项可确保传输映射的存在性和唯一性。实验结果显示，UOTIP 在线性和非线性逆问题基准上均达到最先进性能。

论文图像逆问题最优传输无配对学习鲁棒性 UOTIP

推荐理由：无配对图像逆问题是实际应用中的常见难题，UOTIP 用非平衡最优传输优雅地解决了数据不配对和噪声鲁棒性问题，做医学成像或遥感图像恢复的团队值得关注。

原文

10:22

arXiv cs.LG@Omar Coser, Loredana Zollo, Paolo Soda, Antonio Orvieto

精选

Amos等人(2024)发现，Transformer模型在序列分类任务中，先通过掩码标记预测目标进行自预训练(SPT)，无需外部数据或增强，即可显著提升准确率。本研究复现并系统消融了该发现，指出瓶颈不在于深度或泛化，而在于标签监督从随机初始化学习有用查询-键注意力模式的能力。通过最小化设置，识别出学习邻近交互——将绝对位置编码转化为邻近偏置注意力分数——是SPT改进的关键来源。在简化理论框架中，证明标签监督对某些注意力分数方向局部不可见，而掩码重建可检测这些方向。

论文自预训练 Transformer 序列分类注意力机制消融研究

推荐理由：这篇论文揭示了自预训练提升Transformer序列分类的核心机制——学习邻近交互注意力模式，做序列建模或注意力机制研究的开发者值得深入理解，尤其对改进长序列分类有启发。

原文

10:22

arXiv cs.LG@Kesong Li, Yixuan Xu, Kuo-kun Tseng, Weiyi Lu, Kan Liu, Tao Lan

精选

Linear-DPO 提出了一种新的直接偏好优化（DPO）方法，解决了现有 DPO 在文本到图像生成中的两大问题：仅适用于扩散模型而忽略流匹配，以及离散 NLP 的 DPO 目标与回归生成任务不匹配。论文通过统一的逆向 SDE 框架推导出覆盖扩散和流匹配的广义 DPO 目标，并从梯度角度指出标准 DPO 目标次优。Linear-DPO 用持续线性效用函数替代激进的 sigmoid 函数，并引入 EMA 更新的参考模型。在扩散模型（SD1.5、SDXL）和流匹配模型（SD3-Medium）上的实验表明，该方法优于现有基线。

论文 DPO 扩散模型流匹配文本到图像生成偏好优化

推荐理由：做文本到图像生成的团队终于有了更稳定的对齐方法——Linear-DPO 统一了扩散和流匹配，解决了 DPO 在生成任务中的目标不匹配问题，做图像生成微调的建议试试。

原文

10:22

arXiv cs.LG@Theofilos Mailis, Kalliopi-Christina Despotidou, Konstantinos Filippopolitis, Yannis Foufoulas, Thanasis-Michail Karampatsis, Andreas Ktenidis, Evdokia Mailli, Theodore Papamarkou, Yannis Ioannidis

精选

本文提出了一种类型化张量语言，用于形式化联邦学习与联邦分析中常见的计算结构。该语言区分了客户端分区的联邦张量和全局可用的共享张量，并通过与虚拟全局张量的对比定义语义。核心成果是共享状态分解理论：证明类型化单轮程序可通过固定维度的共享状态分解，且该状态大小与客户端和记录数量无关。此外，还证明了可表示性的逆定理，并将对应关系扩展到跨轮状态共享的迭代程序。最后，开发了可微分的学习片段，支持服务器端梯度下降和二阶更新，形式化了一类通信仅通过固定维度共享状态的联邦学习计算。

论文联邦学习类型化张量语言共享状态分解形式化方法分布式计算

推荐理由：联邦学习领域终于有了形式化的计算模型——这篇论文用类型化张量语言统一了分散的协议，做联邦学习系统设计和理论研究的团队值得细读，能帮你理清通信与共享状态的数学本质。

原文

10:22

arXiv cs.LG@D. -M. Mei, K. Acharya, C. M. Adhikari, M. Adhikari, S. Aryal, B. V. Benson, K. Bhatta, S. Bhattarai, N. Budhathoki, A. M. Castillo, D. Chakraborty, S. Chhetri, S. Choudhury, T. A. Chowdhury, R. D. Cruz, B. Cui, S. Dhital, K. -M. Dong, R. Gapuz, A. Ghasemi, E. Z. Gnimpieba, B. D. S. Gurung, H. A. Hashim, R. I. Harry, K. -E. Hasin, M. K. Hassanzadeh, M. K. Jha, D. Kim, K. -C. Kong, B. Lama, A. Mahat, N. Maharjan, A. Majeed, J. Mammo, M. M. Masud, K. S. Moore, A. Nawaz, H. Oli, S. A. Panamaldeniya, L. Pandey, R. Pandey, Z. Peng, A. Prem, M. M. Rana, K. Rana Magar, R. Rizk, C. S. Tadi, L. -W. Wang, Y. Yang, G. -L. Yin, C. -X. Yu, D. Zeng, M. Zhou, Q. Zhou

精选

AIMBio-Mat 是一个概念框架，旨在将材料科学和生物医学数据整合到一个AI原生的、符合FAIR原则（可查找、可访问、可互操作、可重用）且具备治理意识的决策层中。该框架通过知识图谱、不确定性感知机器学习和人机协同主动学习，将生物医学材料发现建模为不确定性下的约束多目标优化问题。它提出了元数据、模型文档、风险分级治理和评估指标等实用要求，并包含最小可行原型规范和用于药物递送的纳米材料AI引导发现试点。该平台定位为探索性和临床前发现基础设施，而非临床决策支持软件，其核心贡献是将碎片化的材料和生物医学记录转化为可审计、可实验操作且负责任的发现工作流蓝图。

论文材料发现生物医学 FAIR原则知识图谱主动学习

推荐理由：做材料发现和生物医学交叉研究的团队终于有了一个可落地的AI原生平台蓝图——它解决了数据碎片化和治理缺失的痛点，做纳米药物递送或生物材料设计的可以直接参考其试点方案。

原文

10:22