全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:48

arXiv cs.LG@Tianyi Ma, Yijun Ma, Zehong Wang, Weixiang Sun, Ziming Li, Connor R. Schmidt, Chuxu Zhang, Matthew J. Webber, Yanfang Ye

超分子化学研究非共价主客体组装，但设计过程耗时且需要大量干实验验证。尽管LLM在分子结合任务上表现优异，但缺乏系统评估其超分子化学推理能力的基准。为此，研究团队与领域专家合作发布了SupraBench，包含结合亲和力预测、最佳结合物选择、溶剂识别和主客体描述四个核心任务，以及一个基于视觉的分子识别辅助任务。同时发布了SupraPMC语料库（1600万token），用于领域适应预训练。实验表明，LLM在所有任务上仍有显著提升空间，领域适应预训练在分布内回归任务上表现良好，但会牺牲严格的格式输出。

论文基准测试超分子化学 LLM评估分子结合开源/仓库

推荐理由：做计算化学或药物设计的团队终于有了评估LLM超分子推理能力的标准测试——SupraBench覆盖了结合亲和力预测等关键任务，想验证LLM在化学领域实用性的研究者可以直接用。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:48

arXiv cs.AI@Amy Xin, Jiening Siow, Junjie Wang, Zijun Yao, Fanjin Zhang, Jian Song, Lei Hou, Juanzi Li

EurekAgent 提出了一种新的自主科学发现框架，认为瓶颈在于设计智能体的执行环境而非工作流程。该框架通过权限、工件、预算和人机交互四个维度的环境工程，实现了高效探索和协作。在数学、内核工程和机器学习任务上取得了新突破，例如以不到11美元的API成本发现了新的26圆填充方案。研究团队开源了代码和结果，呼吁将环境工程作为自主研究智能体的核心研究方向。

论文自主科学发现环境工程智能体开源/仓库 EurekAgent

推荐理由：EurekAgent 用环境工程解决了自主科学发现中智能体行为失控和效率低下的痛点，做AI研究自动化的团队可以直接借鉴其四维设计思路，成本极低且效果显著。

原文

10:28

arXiv cs.AI@Marek Šuppa, Andrej Ridzik, Daniel Hládek, Natália Kňažeková, Viktória Ondrejová

研究团队发布了SkMTEB，这是斯洛伐克语首个全面的MTEB风格文本嵌入基准，包含31个数据集和7种任务类型，覆盖深度是现有多语言基准的近4倍。评估31个嵌入模型后发现，大型指令微调多语言模型表现最佳，而斯洛伐克语专用NLU模型在嵌入任务上迁移效果差。为满足高效本地部署需求，团队通过词汇修剪和微调Multilingual E5模型，开发了e5-sk-small（45M参数）和e5-sk-large（365M）模型，体积最多减少62%，性能却与商业API相当。所有基准、模型、数据集和代码均已开源，为其他低资源语言提供了可复现的路径。

论文文本嵌入低资源语言斯洛伐克语 MTEB基准开源/仓库

推荐理由：低资源语言NLP开发者终于有了可本地部署的高效嵌入方案——e5-sk系列在体积缩减62%后仍能匹敌商业API，做斯洛伐克语语义搜索或RAG的团队可以直接用开源模型替代付费服务。

原文

10:14

arXiv cs.AI@King Yeung Tsang, Zihao Zhao, Vishal Venkataramani, Haizhou Shi, Zixuan Ke, Semih Yavuz, Shafiq Joty, Hao Wang

多智能体系统（MAS）依赖大语言模型（LLM）进行有效编排，但训练编排器面临监督信号稀缺和计算成本高的问题。本文提出OrchRM，一种自监督框架，通过多智能体执行过程中的中间产物构建胜负对，训练Bradley-Terry奖励模型，无需人工标注。相比依赖昂贵子智能体回滚的现有方法，OrchRM直接在编排层面操作，将训练效率提升10倍（以token使用量计），并将测试时扩展的准确率提升8%。该方法在数学推理、网页问答和多跳推理等多个领域均有效，代码已开源。

论文多智能体系统奖励建模编排优化自监督学习开源/仓库

推荐理由：做多智能体系统编排的团队终于有了一个低成本、高回报的训练方案——OrchRM 省去了人工标注和子智能体回滚，直接提升 8% 准确率，建议做 MAS 的开发者试试这个开源框架。

原文

10:11

arXiv cs.AI@Dachun Kai, Jiayao Lu, Yueyi Zhang, Xiaoyan Sun

EvTexture++ 是首个专注于视频超分辨率（VSR）中纹理增强的事件驱动框架，利用事件相机的高频时空细节提升纹理恢复质量。该框架包含定制纹理增强分支和迭代纹理增强模块，逐步利用高时间分辨率事件信息进行纹理修复，生成更精确的高分辨率输出。针对大运动导致的纹理闪烁问题，EvTexture++ 引入时间纹理对齐模块，利用事件连续时间运动线索实现精确帧间纹理对齐。该框架设计为即插即用工具，可灵活提升现有 VSR 模型性能，在纹理丰富的 Vid4 数据集上 PSNR 提升高达 1.55 dB。实验表明 EvTexture++ 在五个数据集上达到最先进水平，代码已开源。

论文视频超分辨率事件相机纹理增强即插即用开源/仓库

推荐理由：做视频超分或事件视觉的团队，EvTexture++ 的即插即用设计可以直接集成到现有模型提升纹理细节，值得在纹理密集场景试试。

原文

09:45

arXiv: DeepSeek@Gabriel Diaz-Ireland, Diego Prieto-Herráez, Mario García Peces, Javier Velázquez, Devika Jain

GeoNatureAgent Benchmark 是首个针对环境分析智能体的基准测试，要求智能体通过结构化工具调用真实地理空间 API 完成任务。该基准包含 93 个任务，覆盖 18 个类别，如市政分析、多轮对话、空间推理、错误处理等，基于西班牙和葡萄牙的三个环境指标和 16 个工具进行评估。测试了 7 个 LLM（Claude Sonnet 4、DeepSeek V3.2 等），Claude Sonnet 4 以 60.8% 准确率领先，DeepSeek V3.2 以 56.3% 紧随其后，且成本仅为 Claude 的 1/11。比较类任务（如接近值比较）所有模型均为 0%，暴露了系统推理局限。该基准比通用 GIS 基准更具区分度，准确率低 25-35 个百分点。基准、测试工具和 API 均已开源。

论文智能体地理空间分析基准测试环境科学开源/仓库

推荐理由：做环境数据分析或地理空间智能体的开发者，这个基准能帮你快速验证模型在真实 API 调用场景下的能力，DeepSeek V3.2 的性价比值得一试。

原文

09:22

arXiv cs.AI@Jianming Ma, Qiyue Yang, Yang Zhang, Liyun Yan, Zhanxiang Cao, Yazhou Zhang, Yue Gao

PolyFlow 提出了一种新的约束流匹配框架，专门解决在安全关键物理系统中部署生成模型时的约束问题。传统方法通过事后修正来保证安全性，但计算开销大且可能扭曲数据分布。PolyFlow 将约束直接嵌入模型和流动力学中，采用离散时间流公式和无投影架构，无需昂贵的迭代求解器即可严格满足任意多面体约束。实验表明，PolyFlow 在规划和控制任务中实现零约束违规，同时保持高分布保真度，推理延迟显著低于现有方法。代码已开源，适合需要安全生成的应用场景。

论文约束生成流匹配安全关键系统无投影更新开源/仓库

推荐理由：做安全关键系统（如机器人规划、控制）的团队终于有了一个既能严格满足约束又不牺牲生成质量的方案，PolyFlow 的零违规和低延迟特性值得直接试试。

原文

09:13

arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao

精选

MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制，旨在解决大语言模型在超长上下文（百万级 token）下的计算瓶颈。MSA 基于分组查询注意力（GQA），通过轻量级索引分支对键值块进行评分，并为每个 GQA 组独立选择 Top-k 子集，实现高效的组级稀疏检索。在 109B 参数的多模态模型上，MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍，并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源，同时发布了基于 MSA 的生产级多模态模型。

论文稀疏注意力长上下文推理加速 MiniMax 开源/仓库

推荐理由：做长上下文推理或 agent 工作流的开发者，终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减，且内核已开源，值得立刻试跑。

原文

09:12

arXiv cs.AI@Zihao Wang, Yiming Li, Yutong Wu, Zheyu Liu, Kangjie Chen, Fok Kar Wai, Pin-Yu Chen, Vrizlynn L. L. Thing, Bo Li, Dacheng Tao, Tianwei Zhang

StakeBench 是一个新的安全基准，用于评估 LLM 驱动的 Web 智能体在面对提示注入攻击时的风险。与现有仅关注攻击可行性的基准不同，StakeBench 采用利益相关者中心视角，区分攻击对用户、卖家、平台等不同实体的影响。研究发现，当前智能体无法可靠抵御任何攻击目标，且失败模式多样，包括“隐蔽寄生”（攻击成功但不干扰用户任务）、“错位破坏”（任务中断但攻击失败）和“复合失败”（攻击和任务均失败）。该基准揭示了传统评估忽略的漏洞分布，强调了在真实部署中需要利益相关者感知的评估。代码已开源。

论文提示注入 Web智能体安全基准利益相关者开源/仓库

推荐理由：做 Web 智能体安全评估的团队会发现 StakeBench 补上了现有基准的盲区——它不只看攻击是否成功，还看谁承担了后果，建议安全研究人员和智能体开发者点开看看。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:30

arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu

精选

视觉语言模型（VLM）将图像投影为数百到数千个视觉令牌，导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式，永久丢弃低分令牌。但研究发现，视觉令牌的重要性会随解码器深度变化，早期低分令牌可能在后续层变得重要。为此，研究者提出Reroute，一种无需训练的插件，将移除改为可恢复路由：被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上，在LLaVA-1.5和Qwen骨干上，在激进令牌缩减下提升了接地性能，同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由，而非不可逆修剪。代码已开源。

论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库

推荐理由：VLM推理成本高是实际部署的痛点，Reroute用零训练代价解决了令牌缩减中信息丢失的问题，做多模态模型优化或部署的团队可以直接集成到现有方案中，值得一试。

原文

10:56

arXiv cs.AI@Ripon Chandra Malo, Tong Qiu

72°

AI 编程助手目前每次新会话都需要重新读取项目文件、重新推导之前的决策，甚至重复失败的调试尝试，消耗大量 token。PROJECTMEM 是一个开源、本地优先的记忆与判断层，通过不可变的事件日志记录开发过程（问题、尝试、修复、决策、笔记），并通过 MCP 协议生成紧凑的 AI 可读摘要。它还能在代理执行前发出警告，防止重复失败修复或编辑脆弱文件，实现“记忆即治理”。该系统完全离线运行，无遥测，日志可作为可审计的溯源链。项目包含 14 个 MCP 工具、19 个 CLI 命令，并在 10 个项目、207 个事件的自我研究中得到验证。

AI产品 AI 编程助手记忆层 MCP/工具开源/仓库事件溯源

推荐理由：AI 编程助手每次会话浪费大量 token 重读上下文的问题终于有了解决方案——PROJECTMEM 用本地事件日志让代理记住历史，做复杂项目开发的团队可以直接集成，减少重复调试成本。

原文

10:00

arXiv cs.AI@Wanting Wang, Xiye Ma, Yuyang He, Minghui Cheng, Ran Cao

精选

该研究提出了一种基于AutoGen的多智能体框架，用于钢筋混凝土公路护栏的自动化设计。该框架采用“生成-评估-优化”闭环流程，严格遵循AASHTO-LRFD桥梁设计规范。实验表明，该框架设计准确率超过98%，远超通用大语言模型。关键发现是，设计性能与模型规模无必然关联，一个8B参数的轻量模型甚至优于未约束的631B旗舰模型。这显著降低了计算成本，提升了AI辅助工程工具的可及性。代码已在GitHub开源。

论文多智能体 AutoGen 结构工程混凝土护栏设计开源/仓库

推荐理由：土木工程师和结构设计团队终于有了一个靠谱的AI自动化方案——AutoGen多智能体框架让混凝土护栏设计准确率超98%，且8B小模型就能干翻631B大模型，做工程自动化的开发者可以直接用开源代码试试。

原文

09:53

arXiv cs.AI@Quankai Wang, Yulin Xie, Tongfei Yang, Minghui Cheng, Ran Cao

精选

本文提出Human-Enhanced Loop Modeling (HELM)框架，通过将长序列有限元建模分解为离散、可视觉验证的检查点，实现人机协作自动化。在20个钢筋混凝土桥梁护栏案例中，HELM将基线自主建模成功率从20%提升至75%，几何和边界条件任务的通过率翻倍。错误分析显示空间推理和代数逻辑限制是主要失败模式。框架已开源，支持ANSYS和LS-PrePost软件。

论文有限元建模人机协作桥梁护栏开源/仓库 ANSYS

推荐理由：做桥梁护栏等安全关键基础设施有限元分析的工程师，HELM把建模成功率从20%拉到75%，省下大量手动调试时间，建议直接试开源代码。

原文

6月10日

11:37

arXiv cs.AI@Andrew Kang, Priya Narasimhan

精选

该研究将足球传球评估重新定义为蒙特卡洛树搜索（MCTS）问题，利用已有的价值模型、世界模型和反事实动作策略。基于德甲首个公开高保真3D球轨迹数据集，提出Monte Carlo Pass Search（MCPS），为每个观察到的传球推断踢球参数，采样执行变体和选项变体，用球条件世界模型滚动预测至下一次触球，并通过学习到的价值模型评分获得价值分布。该分布支持两种互补的执行盈余分数（基于均值和百分位数）用于分析和排名。为在有限公开数据下提高世界模型样本效率，改编了自动驾驶领域的离散令牌自回归轨迹生成器（SMART），在最佳20次预测准确率上优于基线，并支持完全假设性滚动用于下游评估。已发布模型检查点和代码。

论文蒙特卡洛树搜索足球分析 3D轨迹反事实评估开源/仓库

推荐理由：足球数据分析团队终于有了可落地的3D传球评估工具——MCPS用MCTS框架量化每次传球的执行盈余，做战术分析或球员评估的可以直接用开源代码和模型。

原文

10:31

arXiv: OpenAI@Michele Lucente, Silvia Pascoli, Filippo Sala, Matteo Zandi

DarkAgents 是一个利用大语言模型推理和代码生成能力，结合确定性人类编写代码的多智能体系统，用于构建理论天体粒子物理研究的自动化管线。该系统针对该领域的特定挑战，如模型构建、复杂管道计算、多重约束和假设审计。它支持多种命令行工具，包括 Mistral、Anthropic、OpenAI 以及通过 Ollama 运行的本地模型。首次应用是研究宇宙学一级相变，从经典尺度不变粒子物理模型开始，最终拟合 NANOGrav 纳赫兹引力波谱。测试运行发现了文献中一些拟合的不一致性，并基于耗散体流引力波模板产生了新的拟合结果。代码已在 GitHub 上开源。

AI产品多智能体系统天体粒子物理引力波模型构建开源/仓库

推荐理由：天体粒子物理研究者终于有了一个能自动完成模型构建、约束审计和引力波谱拟合的 AI 系统，DarkAgents 直接解决了该领域计算管线复杂、假设审计繁琐的痛点，做相关理论研究的团队值得一试。

原文

09:10

arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

精选76°

快手发布Keye-VL-2.0-30B-A3B，一个基于MoE架构的开源多模态基础模型，专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构，实现无损256K上下文处理，能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏（MOPD）和上下文/视频强化学习，解决了多任务对齐中的灾难性遗忘问题，仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中，Keye-VL-2.0在相似规模模型中达到最优性能，尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。

AI模型开源/仓库 MoE 长视频理解智能体多模态

推荐理由：长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文，做视频分析或智能体应用的团队可以直接下载权重试试。

原文

09:06

arXiv: DeepSeek@Jinghua Wang, Lily Jiaxin Wan, Sanjana Pingali, Scott Smith, Manvi Jha, Shalini Sivakumar, Xing Zhao, Kaiwen Cao, Deming Chen

精选

OpenRTLSet 发布了目前最大的全开源硬件设计数据集，包含超过 131,000 个多样化的 Verilog 代码样本。数据集整合了来自 GitHub 的 102k 模块、VHDL 翻译的 5k 模块以及可综合 C/C++ 翻译的 24k 模块，全部免费开放且无专有限制。研究团队利用推理模型 DeepSeek-R1 为每个代码样本生成了对应的自然语言描述，可用于微调 Qwen、Granite 等语言模型以生成 Verilog 代码。实验还探索了 Verilator 生成的 C++ 文件作为额外上下文、INT4 与 BF16 量化技术以及 7B-32B 参数模型间的性能差异。结果表明，开源方法在硬件设计任务上能达到甚至超越专有方案，为可访问的研究和商业应用奠定了新基础。

论文硬件设计 Verilog 数据集开源/仓库 DeepSeek-R1

推荐理由：硬件设计领域终于有了大规模开源数据集，做芯片验证或 RTL 生成的团队可以直接用这 13 万样本微调模型，省去自己爬取和标注的麻烦。建议做 EDA 工具或 AI for Hardware 的开发者点开看看。

原文

09:05

arXiv: DeepSeek@Bharath Sivaram Narasimhan, Karthik R Narasimhan

精选

论文推荐系统智能体评估基准可靠性开源/仓库

推荐理由：做推荐系统或对话智能体评估的团队，终于有了一个可复现、低成本的客观基准，直接拿来测自己的模型会看到真实差距。

原文

6月9日

12:55

arXiv cs.AI@Arsalan Shahid, Gordon Suttie, Philip Black

72°

随着基础模型从生成回复转向执行操作任务，多人类、多智能体的协作场景日益普遍，但当前缺乏统一协议来记录人类判断、任务交接和审核决策。CHAP（Collaborative Human-Agent Protocol）协议应运而生，它定义了一个共享工作空间，通过核心组件（工作区、参与者、任务、工件和仅追加的证据日志）以及可组合的配置文件（如审核、路由、交接、签名等），将原本散落在聊天记录和代码中的关键信号（如人类编辑、审批、交接）转化为结构化、可追溯的事件。该协议旨在解决当前多智能体部署中人类监督信号丢失、责任归属不清的问题，为跨团队、跨时区的协作提供标准化基础。

论文智能体协议/标准人机协作可追溯性开源/仓库

推荐理由：CHAP 解决了多智能体协作中人类监督信号丢失的痛点，做 AI 部署和智能体系统的团队可以直接参考其协议和开源实现，避免重复造轮子。

原文

12:50

arXiv cs.AI@Pu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou

72°

SearchSwarm 提出了一种新范式，让主智能体通过分解任务并委托给子智能体来应对无限增长的上下文需求，从而解决长时深度研究任务。该团队设计了一个引导框架，生成高质量的任务分解和委托轨迹，并用这些数据微调模型，将委托智能内化到模型权重中。SearchSwarm-30B-A3B 在 BrowseComp 和 BrowseComp-ZH 上分别取得 68.1 和 73.3 的成绩，是同等规模模型中的最佳结果。这项工作填补了开源社区在委托智能训练数据合成方面的空白，并计划开源相关资源。

论文委托智能长时任务深度研究 SearchSwarm 开源/仓库

推荐理由：做长时深度研究或复杂任务自动化的开发者，终于有了一个能高效委托子任务的模型——SearchSwarm 用30B参数就超越了更大模型，值得直接试试它的开源实现。

原文

12:35

arXiv cs.LG@Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

精选72°

苹果智能体需要理解用户身份、历史与偏好，但现有基准缺乏个性化。研究团队推出iOSWorld，首个基于原生iOS模拟器的交互式基准，包含26个新应用、133个任务，覆盖单应用、多应用及记忆与个性化三类。最佳模型（GPT-4o）整体准确率52%，多应用任务仅37%；加入XML辅助后大模型提升26个百分点，小模型无增益。该基准已开源，旨在推动真正个性化的手机智能体发展。

论文智能体基准测试 iOS 个性化开源/仓库

推荐理由：手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史，而非仅执行孤立指令，做移动端AI Agent的团队值得关注。

原文

12:29

arXiv cs.LG@Rishabh Sabharwal, Hongru Wang, Amos Storkey, Jeff Z. Pan

精选

现有深度研究智能体（DRA）基准仅评估单次输出，忽略了反馈改进能力。研究者设计了多轮评估框架，对比自我反思和过程级反馈两种场景。过程级反馈通过研究缺口推断（RGI）方法，分析评分标准满足模式来指导改进。实验发现：自我反思几乎无净改进；单轮过程级反馈可提升8-15分，但多轮改进效果不叠加，因为重写时可能丢失已满足标准。这表明即使有针对性指导，DRA的可靠多轮改进仍具挑战。代码和结果已开源。

论文深度研究智能体多轮评估过程级反馈 RGI方法开源/仓库

推荐理由：做AI研究助手或智能体评估的团队，这篇论文揭示了当前DRA在多轮反馈下的真实瓶颈——单轮有效但多轮难持续，值得点开看具体实验设计和RGI方法。

原文

09:47

arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan

精选72°

GEAR-VLA 是一种新型视觉-语言-动作（VLA）框架，旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化，学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能，在 AgileX 上成功率 85.9%，在未见本体 LDT-01 上达 81.0%，在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。

论文机器人操作 VLA模型泛化 3D视觉开源/仓库

推荐理由：GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点，做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法，值得关注其开源代码。

原文

09:27

arXiv: DeepSeek@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo

精选

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架，它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据，维护每个技能的特征条件分类后验，并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上，增量修复将 SOP-Bench 从 80% 提升至 95%，Lifelong AgentBench 从 90% 提升至 100%，RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端，表明 Agent 技能进化应视为后验引导的优化，而非未校准的提示积累。代码已开源。

论文 LLM Agent 技能进化后验引导开源/仓库推理模型

推荐理由：做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法，不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化，效果显著且可审计，建议直接看论文和代码。

原文

6月8日

11:05

arXiv: OpenAI@Aravind Sundaresan

72°

串行LLM推理后端（如Ollama）在混合工作负载下因FCFS调度导致队头阻塞（HOLB），短查询可能被长生成任务延迟数分钟。Clairvoyant是一个即插即用的侧车代理，通过19个轻量级词汇特征用ONNX导出的XGBoost分类器预测响应长度，单请求延迟仅0.029毫秒。它优化排序保真度，在自然对话数据集上达到62-96%分布内和52-66%跨分布准确率。在RTX 4090上，短请求的P50延迟在最大队列压力下降低70-76%，稳态泊松到达下降低17%。Clairvoyant开源且无需修改推理后端。

AI产品 LLM推理调度优化队头阻塞开源/仓库边缘部署

推荐理由：本地部署LLM的开发者终于有办法解决队头阻塞了——Clairvoyant用极低开销预测请求长度，短查询不再被长任务堵死，Ollama/llama.cpp用户可以直接集成试试。

原文

11:03

arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

ThinkBooster 是一个统一的测试时计算（TTC）扩展框架，旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试，以及兼容OpenAI的代理服务，支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡，并展示了实际增益。代码以MIT许可证开源。

论文推理模型测试时计算扩展开源/仓库性能评估编程助手

推荐理由：做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益，不用再自己拼凑评估流程，建议直接试。

原文

6月5日

12:57

arXiv: DeepSeek@Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani-Tur, Julia Hockenmaier

精选72°

大型推理模型（LRM）产生的推理轨迹具有非线性结构（如回溯和自我修正），增加了评估和监控的难度。ReasoningFlow 框架将这些轨迹转化为细粒度的有向无环图（DAG），通过人工标注31条轨迹（2100步）验证了标注方案，并自动标注了1260条轨迹（247,700步），涵盖数学、科学和论证三个任务及五种模型。分析发现：不同LRM的推理结构相似；错误步骤大多不用于推导最终答案；机制性因果依赖与语言层面的话语结构不一致。该框架提升了推理过程的可监控性，数据集和代码已开源。

论文推理模型话语结构可解释性开源/仓库有向无环图

推荐理由：ReasoningFlow 解决了LRM推理轨迹难以评估和监控的痛点，做模型可解释性、推理质量分析的团队可以直接用开源工具和数据集来深入分析模型行为。

原文

12:19

arXiv cs.AI@Liliana Hotsko, Yinxi Li, Yuntian Deng, Pengyu Nie

精选72°

Code2LoRA 提出一种超网络框架，为代码语言模型生成仓库专属的 LoRA 适配器，无需在推理时增加 token 开销。它支持两种模式：Code2LoRA-Static 用于稳定代码库的静态快照适配，Code2LoRA-Evo 则通过 GRU 隐藏状态逐 diff 更新适配器，适应代码演化。作者构建了 RepoPeftBench 基准，包含 604 个 Python 仓库的静态和演化任务。静态任务上，Code2LoRA-Static 达到 63.8% 跨仓库和 66.2% 仓库内精确匹配，与逐仓库 LoRA 上限持平；演化任务上，Code2LoRA-Evo 跨仓库精确匹配达 60.3%，比单个共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

论文代码模型 LoRA/适配器超网络仓库级上下文开源/仓库

推荐理由：做代码仓库级上下文注入的团队终于有了一个轻量方案——Code2LoRA 用超网络生成适配器，省去逐仓库微调的成本，还支持代码演化场景。做代码补全或仓库级 AI 工具的开发者值得试试这个零推理开销的思路。

原文

6月4日

10:56

arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi

AgentMob 提出了一种无需训练的 LLM 驱动智能体框架，用于个体级移动预测。它通过快速路径处理常规出行，对模糊情况则触发迭代工具调用，结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上，AgentMob 在无需训练的 LLM 方法中表现最佳，GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性，并提供了决策透明度。代码已开源。

论文移动预测 LLM智能体可解释性工具调用开源/仓库

推荐理由：做城市模拟、交通规划或政策分析的团队，终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%，建议直接试一下开源代码。

原文

10:35

arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen

精选76°

AutoLab 是一个新基准，用于评估 AI 模型在超长周期闭环优化任务中的表现，涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始，要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现，成功的关键不是初始尝试的质量，而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出，但多数模型过早终止或进展有限。该基准开源，旨在推动长周期自主智能体的研究。

论文基准测试长周期优化智能体 Claude Opus 4.6 开源/仓库

推荐理由：AutoLab 填补了现有基准只测短周期任务的空白，做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力，值得关注。

原文

10:23

arXiv: Anthropic@Arquimedes Canedo, Grama Chethan

精选

当AI Agent调用API遇到验证错误时，传统做法返回自然语言错误描述，但Agent往往无法有效修复。该论文提出Self-Reflective API，在验证失败时返回机器可读的结构化恢复建议（recovery_feedback.suggestions[]），使Agent能直接修复请求并重试，无需外部推理。在30个样本、3个LLM、10个对抗任务的实验中，结构化建议在Anthropic模型上将任务完成率提升36.7-40个百分点，且每个成功token效率提升1.8-2.2倍。在gpt-4o-mini上效果不显著，但计费API的二次验证确认了模式。研究还发现了LLM基准测试中两类未记录的答案泄露问题，并开源了审计工具。

论文 Agent API设计错误恢复结构化反馈开源/仓库

推荐理由：做Agent系统或API设计的开发者，这个方案直接解决了Agent调用API时频繁失败、需要人工介入的痛点——用结构化建议代替自然语言错误，让Agent自己就能修复重试，实测效果显著，建议直接参考其设计思路。

原文

6月3日

11:12

arXiv: OpenAI@Justice Owusu Agyemang, Jerry John Kponyo, Kwame Opuni-Boachie Obour Agyekum, Francisca Adoma Acheampong, Kwame Agyeman-Prempeh Agyekum, James Dzisi Gadze

精选

Entropy Gate 提出了一种基于熵淬火（entropy quenching）的令牌压缩框架，通过为每个令牌计算多因素信息能量，并模拟热力学过程逐步“冻结”低能量令牌，实现近无损压缩。该框架在五种提示类别上达到40-60%的压缩率，同时保持语义保真度（S_E > 0.80）。上下文去重可额外节省50-70%的重复块开销，输出端压缩进一步减少响应冗余。结合外部存储时，代理工作负载的压缩率可达88-96%。该方案无状态、模型无关，可作为兼容OpenAI的HTTP代理部署。

论文令牌压缩熵淬火语义保真度 LLM管道开源/仓库

推荐理由：LLM 开发者常被冗长上下文和重复输出浪费大量令牌预算——Entropy Gate 用热力学思路解决了这个痛点，做长上下文推理或代理应用的团队可以直接集成，省令牌就是省成本。

原文

10:45

arXiv cs.LG@Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang

精选

当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准，缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程，通过智能体动态选择和聚合证据，实现一致且透明的评估。在奖励基准和下游任务（如 Best-of-N 选择和强化学习）中，Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案，并通过策略性证据编排取得更优性能。代码已开源。

论文奖励模型智能体 LLM后训练强化学习开源/仓库

推荐理由：做 LLM 后训练（RFT/RL）的团队终于有了统一的奖励评估框架，不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据，效果还更好，做对齐和强化学习的建议直接看代码。

原文

10:43