AITOP

5月21日

15:51

Milvus@milvusio

精选67

Milvus团队指出，传统RAG在智能体工作流中表现不佳，存在单次检索遗漏上下文、相似性不等于相关性、缺乏检索质量检查、单一策略不适用所有查询等问题。但RAG并未死亡，而是进化成了Agentic RAG，通过查询路由、混合检索、检索评估（如Corrective RAG）和多步检索来解决上述问题。生产中的教训是：检索层必须匹配工作负载，架构越复杂越难维护。文章提供了更深入的架构建议。

AI模型 RAG Agentic RAG 检索增强生成智能体工作流 Milvus

推荐理由：做智能体应用的团队会发现传统RAG的痛点被精准戳中，Agentic RAG的改进方案直接可用，建议点开看看具体架构设计。

15:49

rohanpaul_ai@rohanpaul_ai

精选72

一种名为GRAM（生成式递归推理）的新模型，仅用1000万参数，通过同时探索多条推理路径，在硬数独谜题上达到97%准确率，超越此前最佳递归模型（87.4%）。传统递归模型是确定性的，容易陷入错误轨迹，而GRAM在每个推理步骤注入随机性，生成多样化的推理路径，并在测试时并行运行并选择最佳结果。在N皇后等多解任务中，GRAM保持近乎完美的准确率，而确定性模型随解数量增加而崩溃。此外，GRAM还能作为生成器，用16步生成有效数独谜题，成功率99%，远超扩散模型。

论文推理模型并行推理随机性数独 GRAM

推荐理由：GRAM用随机性打破了递归模型的确定性瓶颈，做推理模型或搜索算法的研究者可以直接复现，做数独或组合优化应用的团队值得关注。

15:34

IT之家（博客/媒体）

精选52

AMD 宣布第六代霄龙处理器“Venice”在台积电进入量产爬坡阶段，这是业界首款采用台积电 2nm 工艺的高性能计算产品。该处理器面向云计算、AI 和 HPC 场景，后续型号“Verano”将优化每美元/每瓦性能，并支持 LPDDR 内存。AMD 计划将 2nm 工艺引入数据中心 CPU 产品线，并与台积电在 SoIC-X、CoWoS-L 封装技术深度合作。此举将推动高集成大规模计算平台落地，巩固 AMD 在服务器市场的增长势头。

AI产品 AMD 霄龙台积电 2nm 服务器芯片高性能计算

推荐理由：AMD 率先将 2nm 工艺引入服务器 CPU，做数据中心和 AI 基础设施的团队值得关注——这直接关系到未来算力成本和功耗效率。

15:07

IT之家（博客/媒体）

精选67

北京航空航天大学联合麻省理工与北京大学第三医院，在Nature发表研究，开发出仅0.96kg的便携式等速抗阻训练机器人，用于逆转脊髓性肌萎缩症（SMA）II型患儿的肌肉萎缩。传统辅助机器人提供助力，反而可能阻碍神经肌肉发育；而该机器人通过主动增加阻力，激发肌肉最大张力。临床试验显示，6周高强度训练后，患儿下肢运动能力显著提升，肌肉体积增加19%，神经传导改善，且停止训练后效果仍能维持。该成果为神经肌肉疾病的精准康复提供了新范式，有望替代传统庞大昂贵的抗阻设备。

论文可穿戴机器人肌肉萎缩脊髓性肌萎缩症康复训练 Nature

推荐理由：这项研究颠覆了传统康复机器人的“助力”思路，用主动增阻激发肌肉再生，做康复医学或机器人开发的团队值得关注，尤其对罕见病患儿家庭是重大利好。

12:39

rohanpaul_ai@rohanpaul_ai

精选76

atomic.chat 展示了 Multi-Token Prediction（MTP）技术，让本地运行的 Qwen 27B 密集模型从 51 tokens/s 提升到 117 tokens/s，MoE 35B-A3B 模型在 2x RTX 5090 上从 218 提升到 267 tokens/s。MTP 通过一次生成并验证多个未来 token，减少 GPU 重复读取模型权重的次数，从而突破内存带宽瓶颈。测试中约 80% 的 draft token 被接受，且零精度损失，仅额外占用约 1GB VRAM。该项目完全开源，对本地大模型部署者是个重大利好。

AI模型本地大模型 MTP/多 token 预测推理加速 Qwen 开源/仓库

推荐理由：本地大模型用户终于可以突破内存带宽瓶颈了——MTP 让 Qwen 27B 速度翻倍还零精度损失，跑本地模型的开发者建议直接去 GitHub 试。

12:31

arXiv cs.LG@Qishi Zhan, Ziheng Chen, Minxuan Hu

精选37

针对一次性幅度剪枝导致的高稀疏度下精度崩溃问题，本文提出了一种无需训练的通道级修复方法——自适应信号复苏（ASR）。该方法通过为每个输出通道估计方差匹配校正，并利用数据驱动的收缩规则稳定校正值，避免了对受损通道的过度放大。在ResNet-50 90%稀疏度下，ASR在CIFAR-10上恢复了55.6%的top-1准确率，远超逐层修复的41.0%和仅BatchNorm重校准的28.0%。实验表明，ASR在多种卷积架构和稀疏设置下均优于现有方法，尤其在高稀疏度场景下效果显著。

论文模型压缩剪枝稀疏网络通道级修复视觉网络

推荐理由：做模型压缩和边缘部署的团队终于有了一个无需重训的通道级修复方案——ASR在高稀疏度下能显著挽回精度损失，建议做剪枝优化的开发者直接试。

12:29

arXiv cs.LG@Ilias Diakonikolas, Giannis Iakovidis, Mingchen Ma

精选37

该研究解决了高斯分布下多类线性分类的鲁棒学习问题。对于k≥3类的情况，此前算法在精度上存在指数级依赖。研究者发现标准多类感知器算法在k≥3时所需样本和更新次数超多项式，揭示了二元分类与多类分类的根本差异。他们提出了一种成对非恰当学习框架，实现了误差O(k^{3/2}√opt)+ε的多项式时间算法。对于k=3，进一步开发了基于定位的框架，达到误差O(opt)+ε。这些结果首次为多类线性分类提供了维度无关的误差保证和高效算法。

论文多类分类鲁棒学习高斯分布多项式时间算法线性分类器

推荐理由：该研究解决了多类线性分类在k≥3时长期存在的计算瓶颈，做机器学习理论或分类算法开发的团队值得关注，其成对框架可直接用于改进实际多类分类器的鲁棒性。

12:27

arXiv cs.LG@Elle Miller, Jayaram Reddy, Ayush Deshmukh, Trevor McInroe, David Abel, Oisin Mac Aodha, Sethu Vijayakumar

精选72

机器人触觉强化学习（RL）研究因碎片化和过度关注饱和的定向任务而受阻。roto 2.0 是一个 GPU 并行化的基准测试，覆盖四种不同机器人形态（16-24 自由度），专注于仅依赖本体感觉和触觉的“盲”操作，无需状态信息或知识蒸馏。其盲代理在 10 秒内完成 13 次 Baoding 球旋转，速度比当前最先进水平快一个数量级。通过开源环境和调优基线，该工作降低了入门门槛，让研究者能聚焦核心算法挑战。

论文触觉感知强化学习机器人操作基准测试 GPU并行

推荐理由：触觉 RL 终于有了标准化的 GPU 并行基准，做机器人操作和强化学习的团队可以直接用 roto 2.0 测试算法，不用再花时间调环境——盲操速度提升 10 倍的结果值得点开看看。

12:25

arXiv cs.LG@André Ribeiro, Ana Luiza Tenório, Tiago da Silva, Diego Mesquita

精选37

传统图神经网络（GNN）处理节点特征时，通常假设特征是实数向量，但许多场景下节点特征更适合用概率分布（如高斯分布）表示。直接拼接均值和协方差矩阵会丢失几何与代数结构。研究者提出高斯层神经网络（GSNN），基于细胞层理论推导出新的拉普拉斯算子，保留关键数学性质，并在合成和真实数据上验证了有效性。这项工作为处理不确定性或噪声数据的图学习提供了新思路。

论文图神经网络高斯分布细胞层理论拉普拉斯算子概率建模

推荐理由：做图学习或处理带噪声/不确定性数据的团队，GSNN 提供了一种保留概率结构的新方法，值得关注其理论推导和实验效果。

12:23

arXiv cs.LG@Alim Igilik

精选37

传统地震预测模型假设泊松分布且全局离散度一致，但中亚地震数据（2010-2024）强烈拒绝该假设（p<10^{-179}）。本研究提出 EarthquakeNet 架构，通过神经网络（空间嵌入+MLP）内生估计每个网格的过离散参数 alpha，无需显式空间协方差设定。相比传统负二项回归假设全局 alpha，该模型能识别地震聚集的空间异质性，并通过预测分布分位数构建概率风险警报。2018-2023 年滚动评估显示，平均引脚偏差（MPD）比负二项 GLM 基线降低 8.6%，在极端事件（Y>=5）的连续排名概率分数（CRPS）降低 12.5%。

论文地震预测神经网络负二项回归尾部风险 EarthquakeNet

推荐理由：地震预测领域终于有了能捕捉空间异质性的神经网络方法，做灾害风险评估的团队可以直接用分位数构建警报，比传统全局假设模型更准。

12:17

arXiv cs.LG@Calvin Isley, Johann D. Gaebler, Sharad Goel

精选37

在招聘、大学录取等难以获得真实标签的领域，模型常依赖历史人工评估训练，但历史评估可能包含对特定群体的偏见。本文提出用专家定义的标准（评分嵌入）替代传统黑盒嵌入作为预测基础，使模型锚定在语义有意义的维度上，从而避免继承偏见。理论和实验证明，该方法在合理条件下能有效缓解标签偏差。在大型硕士项目申请数据集上，基于评分嵌入的模型减少了群体差异，同时提升了录取群体的整体质量。

论文标签偏差可解释性公平性评分嵌入决策算法

推荐理由：做公平性AI或高利害决策系统的团队，这篇给出了一个可落地的方案——用专家评分嵌入替代黑盒特征，既减少偏见又提升质量，值得细读。

12:13

arXiv cs.LG@Pin-Hsun Lee, Harry Leib

精选23

该研究提出一种基于激活函数的机器学习框架，用于改进加权最小二乘（WLS）GNSS定位算法。在城市峡谷等复杂环境中，多径效应和非视距信号会导致定位误差，该框架通过集成学习算法评估信号质量，并利用激活函数（如sigmoid）将预测分数转化为权重，从而提升定位精度。在香港和东京的真实数据集测试中，sigmoid函数在不同算法和星座配置下均表现最佳，显著降低了单星座和多星座场景的定位误差。该方法还展现出良好的地理迁移性，在类似城市化程度的区域训练后性能保持稳定。

论文 GNSS定位加权最小二乘激活函数机器学习城市峡谷

推荐理由：这项研究解决了城市环境中GNSS定位精度差的痛点，做导航定位、自动驾驶或智能交通的开发者可以直接参考其激活函数加权方法，值得关注。

12:11

arXiv cs.LG@Kaiyi Zhang, Wei Wu, Yankai Lin

精选58

DelTA提出了一种新方法，解决强化学习从可验证奖励（RLVR）中训练大语言模型时，token级信用分配不准确的问题。研究发现，标准RLVR更新中，高频格式token会主导梯度方向，掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数，放大判别性方向、抑制共享模式，使更新更聚焦于推理关键步骤。在7个数学基准上，DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分，代码生成和跨领域任务也验证了其泛化能力。

论文强化学习 Token信用分配推理模型 RLVR 数学推理

推荐理由：做RLHF或推理模型训练的团队，终于有了一个能精准分配token级信用的方法——DelTA解决了高频格式token淹没关键信号的问题，数学和代码任务上效果显著，值得在自家模型上试试。

12:09

arXiv cs.LG@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

精选76

研究发现强化学习（RLVR）训练中模型权重的变化轨迹是低秩且高度可预测的，大部分性能提升来自秩-1近似。基于此，研究者提出RELEX方法，仅需观察少量训练步数（如50步），通过线性回归外推未来检查点（如1000步），即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证，RELEX仅需15%的训练步数即可达到同等效果，且能外推至10-20倍于观察窗口。该方法无需额外学习模型，通过丢弃随机优化噪声实现去噪效果，从而提升外推性能。

论文强化学习推理模型低秩近似参数外推 Qwen

推荐理由：RLVR训练成本高昂，RELEX用极低成本实现同等推理提升，做LLM推理优化的团队可以直接用代码复现，值得一试。

12:05

arXiv cs.LG@Yi Huang, Qingyun Sun, Jia Li, Xingcheng Fu, Jianxin Li

精选37

关系深度学习（RDL）通过将关系数据库建模为图并应用图神经网络（GNN）进行端到端学习，但现有方法多依赖固定图结构，限制了表达能力。本文提出FROG框架，将关系结构学习转化为可学习的表角色建模问题，允许表作为节点和边参与消息传递，并设计角色驱动消息传递机制以捕捉关系语义。FROG还引入函数依赖约束，确保表与实体级别的表示一致性。实验表明，FROG在多个任务上超越现有方法，并揭示了表角色对下游任务的影响，为RDL的图构建提供了新见解。

论文关系深度学习图神经网络图结构学习关系数据库 FROG

推荐理由：FROG解决了RDL中固定图结构无法优化的问题，做关系数据库和图神经网络结合的研究者可以直接用这个框架提升模型效果，值得深入阅读。

12:01

arXiv cs.LG@Tilman Tröster, David Mirkovic, Veronika Oehl, Arne Thomsen

精选37

Velocityformer是一种等变图Transformer架构，专门用于从光谱巡天数据中重建星系速度，以提升运动学SZ效应的测量信噪比。该模型通过匹配观测数据中因视线方向导致的破缺对称性，在归纳偏置上优于标准线性理论基线，将速度重建相关系数r提升35%。Velocityformer在仅4个低保真模拟上即可训练到高精度，并能零样本泛化到不同输入几何、宇宙学参数和星系样本。在高保真模拟星系目录上，该模型将r提升30%，直接转化为观测数据上相同的信噪比增益。

论文等变图Transformer 宇宙速度重建 kSZ效应破缺对称性零样本泛化

推荐理由：宇宙学研究者终于有了一个能处理观测数据破缺对称性的AI工具——Velocityformer在速度重建上比线性理论提升35%，且数据效率极高，做kSZ效应测量的团队可以直接用。

11:59

arXiv cs.LG@Mansoor Ahmed, Sujin Lee, Umar Khayaz, Murray Patterson

精选37

现有基于等变图神经网络（GNN）的抗体CDR设计方法虽然序列恢复率高，但存在严重的词汇坍塌问题，即过度预测少数氨基酸（如酪氨酸和甘氨酸），忽略功能重要的残基。EvoStruct通过交叉注意力适配器将冻结的蛋白质语言模型（PLM）与E(3)-等变GNN的3D结构上下文结合，并采用渐进式PLM解冻和R-Drop一致性正则化，专门解决CDR设计的词汇坍塌问题。在CHIMERA-Bench数据集上，EvoStruct相比最佳GNN基线，序列恢复率提升16%，困惑度降低43%，氨基酸多样性恢复提升2.3倍，且与真实结合对相关性最高。该方法为抗体设计提供了更准确、更多样化的序列生成能力。

论文蛋白质设计抗体CDR 等变图神经网络蛋白质语言模型词汇坍塌

推荐理由：做抗体设计或蛋白质工程的团队，EvoStruct解决了GNN方法词汇坍塌的痛点，序列恢复和多样性双双提升，值得直接参考方法或复现实验。

11:55

arXiv cs.LG@Benhao Huang, Zhengyang Geng, Zico Kolter

精选58

Equilibrium Reasoners (EqR) 是一种新的推理框架，通过将推理过程建模为学习任务条件吸引子（latent dynamical systems）来实现可扩展的测试时计算。该框架无需外部验证器或任务特定先验，通过增加迭代深度（更多步数）和广度（聚合多个随机轨迹）来提升性能。实验表明，测试时计算的增益与向解对齐吸引子的收敛程度紧密相关。在 Sudoku-Extreme 任务上，EqR 通过展开多达 40,000 层，将前馈模型的准确率从 2.6% 提升至超过 99%。这一视角为理解迭代潜在模型中的可扩展推理提供了机制性解释。

论文推理模型测试时计算吸引子可扩展性 EqR

推荐理由：EqR 用吸引子理论解释了为什么迭代推理能泛化，做推理模型或可扩展计算的团队值得关注——它可能改变你对测试时计算分配的理解。

11:39

Tw93@HiTw93

精选67

Kaku 终端发布 V0.11.0 版本，这是一款为 AI 编程设计的快速、开箱即用的终端。新版本增加了对 DeepSeek、GLM、Kimi、Fireworks 等模型的隐藏推理支持，改进了会话恢复和初始化设置体验。同时修复了全屏标签、标题栏拖拽、光标渲染、低 DPI 文本和彩色 emoji 大小等细节问题。AI 流式传输、输入法输入、代理处理和多提供商传输也更加稳定。

AI产品 AI 编程终端 Kaku DeepSeek GLM

推荐理由：Kaku 把 AI 作为终端的一等公民，做 AI 编程的开发者可以直接用它替代传统终端，体验更流畅的 AI 交互。

11:37

IT之家（博客/媒体）

精选58

加州大学圣迭戈分校团队研发出新型电源转换芯片，采用压电谐振器替代传统磁性元件，实现 48 伏到 4.8 伏的降压转换，峰值效率达 96.2%。该设计解决了数据中心向 GPU 供电时电压差大、能量损耗高的关键难题。相比此前压电转换器，输出电流提高约 5 倍，芯片尺寸仅略有增加。研究已发表于《Nature Communications》，但离商用还有距离，后续需优化材料与封装。

论文供电芯片数据中心 GPU 压电谐振器 Nature Communications

推荐理由：数据中心供电效率每提升 1% 都能省下巨额电费，做数据中心基础设施或 GPU 供电设计的工程师值得关注这项突破，它可能改变下一代电源架构的走向。

11:35

arXiv cs.AI@Peng Ding, Rick Stevens

精选67

一项实证研究通过zerodep项目，用LLM辅助开发了40多个仅依赖Python标准库的模块，替代流行的第三方库。基准测试显示，大多数情况下stdlib实现性能与第三方库持平（2倍以内），但在C扩展支持的计算任务（如图像处理、二进制序列化）中性能差距明显。有趣的是，许多第三方库因架构开销反而比stdlib实现慢5-115倍。该研究揭示了stdlib的能力边界，并探讨了LLM在严格约束下生成正确、高效代码的可行性。

论文 Python 标准库第三方库 LLM辅助开发性能基准

推荐理由：Python开发者面临依赖管理痛点，这项研究用数据告诉你哪些第三方库可以用stdlib替代，哪些不行。做轻量级部署或减少供应链风险的团队，值得参考zerodep的实践。

11:33

arXiv cs.AI@Haiyang Shen, Jiuzheng Wang, Taian Guo, Mugeng Liu, Wenchun Jing, Chongyang Pan, Siqi Zhong, Zhiyang Chen, Weichen Bi, Yudong Han, Xiaoying Bai, Yun Ma

精选44

北京大学团队提出一种新的AI教育方法：让学生通过构建基准测试来学习AI，而非仅将其作为效率工具。学生将学科知识转化为可验证的专家级问题，互相审查设计中的歧义和捷径，并评估AI系统。由此产生的QuestBench包含256个问题，覆盖14个人文社科领域。评估显示，13个AI系统的平均通过率仅16.85%，最佳系统GPT-5.5也仅达57.58%，暴露了当前深度研究系统的隐藏失败。学生反馈表明，这种实践帮助他们将专业知识视为判断AI输出的基础，而非AI可检索的内容。

论文 AI教育基准测试深度研究系统人文社科开源/仓库

推荐理由：想让学生真正理解AI局限性的教育者，可以用QuestBench的方法把课堂变成AI测试场——学生自己设计问题来考AI，比单纯教提示词更有深度。

11:31

arXiv cs.AI@Junghyun Lee, Hyunseo Kim, Hanna Jang, Junhyug Noh

精选23

本文提出了一种基于排序感知的选择性融合框架，用于解决混合情感识别中多模态线索重叠的挑战。该方法通过注意力门控模块估计每个编码器的重要性，仅融合最有效的 top-n 编码器，并解耦预测为存在性和显著性两个头部。在 BlEmoRE 挑战中，该框架超越了强个体编码器和朴素多编码器融合基线，最终获得第二名。这项工作展示了排序感知融合在细粒度混合情感识别中的有效性。

论文混合情感识别多模态融合排序感知注意力门控 BlEmoRE

推荐理由：混合情感识别是多模态 AI 的难点，这个排序感知融合框架解决了编码器选择问题，做情感计算或多模态融合的团队可以直接参考其方法。

11:29

arXiv cs.AI@Amin Farajzadeh, Melike Erol-Kantarci

精选17

针对6G超密集网络中同频干扰严重的问题，研究者提出了一种名为FedCritic的无服务器联邦多智能体演员-评论家框架，用于联合子载波调度和功率分配。该框架通过虚拟队列赤字权重强制执行长期服务质量约束，并利用基于干扰图的轻量级八卦参数平均来联邦化评论家网络，无需中央协调器即可实现稳定价值估计。仿真表明，在干扰密集的复用-1场景下，FedCritic相比非协调和集中式训练分散执行基线，显著提升了平均信干噪比、小区边缘速率、网络总速率和公平性，同时训练更稳定且协调开销更低。这项工作为6G分布式资源管理提供了一种高效、可扩展的解决方案。

论文 6G 资源分配联邦学习多智能体强化学习 OFDMA

推荐理由：6G超密集组网中的干扰管理是业界难题，FedCritic用无服务器联邦学习解决了集中式训练的高开销问题，做无线资源调度和网络优化的研究者可以直接参考其轻量级协调方案。

11:27

arXiv cs.AI@Shreyas Vinaya Sathyanarayana, Raja Sekhar Pappala, Deepak Warrier

精选37

论文反应条件推荐检索增强可解释性图编码器 USPTO-Condition

推荐理由：做有机合成路线规划的化学家终于有了一个既能给出准确条件推荐、又能展示具体先例的系统——HiRes 让你不再盲目信任黑箱模型，建议点开看看它是如何平衡精度与可解释性的。

11:25

arXiv cs.AI@Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun

精选58

PALS是一个针对大语言模型推理的功耗感知运行时系统，将GPU功耗上限作为可调控制参数，与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器，在满足吞吐量目标的同时最大化能效。在vLLM框架中实现，无需模型重训练或API更改。在多GPU系统上，针对稠密和混合专家模型，PALS能效提升最高26.3%，功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力，可实现能效比例和电网交互式AI系统。

论文 LLM推理功耗优化混合专家模型 vLLM 能效

推荐理由：数据中心GPU能耗是AI部署的隐形杀手，PALS把功耗从硬约束变成可调参数，做LLM服务部署的团队可以直接在vLLM上集成，省电又保性能，值得一试。

11:23

arXiv cs.AI@Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco

精选72

torchtune 是一个 PyTorch 原生的后训练库，旨在简化大语言模型（LLM）的微调、实验和部署流程。与 Axolotl、Unsloth 等框架相比，torchtune 强调模块化、可定制性和对底层 PyTorch 组件的直接访问，而非牺牲透明度和可扩展性。论文展示了其模型构建器、训练配方和分布式训练栈的设计，并在多种后训练场景中评估了性能。结果表明，torchtune 在保持强性能和内存效率的同时，足够灵活以支持快速研究迭代。该库为可复现的 LLM 后训练研究提供了实用基础。

AI模型 torchtune PyTorch LLM 微调后训练开源/仓库

推荐理由：做 LLM 微调的研究者或工程师，如果受够了黑盒框架的调试痛苦，torchtune 的模块化设计和 PyTorch 原生体验值得一试，能让你在保持性能的同时自由定制训练流程。

11:21