全部 AI 动态 · AI 热点

6月25日

10:40

10:40

arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao

该论文通过实验发现，多步工具使用强化学习（RL）训练中，模型可出现灾难性崩溃，性能骤降且工具调用结构失效。根本原因是特定控制token概率突增，但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，并比较了同步与交错训练方案。结果表明，将监督微调（SFT）与RL交错进行可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。该工作揭示了RL失败机理，并展示了多样化监督信号对鲁棒训练的价值。

论文 LLM 强化学习工具使用 SFT 监督信号

推荐理由：这篇论文分析了多步工具RL训练容易崩溃的原因，并实验证明交错SFT与RL能有效提升稳定性，对做智能体RL的人很有参考价值。

6月18日

09:20

09:20

arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

精选

PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试，评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理，发现纯求解器评估不足以区分智能体性能，验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。

论文 PowerAgentBench-SS 智能体电力系统基准工具使用

推荐理由：搞电力系统智能体评估的可以看看这个，用IEEE 39节点系统测试大模型能不能真干活，不只看结果还看过程，挺实在的。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月21日

11:09

11:09

arXiv cs.AI@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian

精选

Mem-π 是一种新型自适应记忆框架，它让大语言模型智能体在需要时动态生成指导，而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型，基于当前上下文决定是否生成以及生成什么指导，并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中，Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优，在网页导航任务上实现了超过30%的相对提升。

论文智能体记忆增强强化学习网页导航工具使用

推荐理由：做AI智能体开发的团队终于有了解决记忆错配问题的方案——Mem-π 让智能体学会“按需生成”而非“死板检索”，在复杂任务中效果显著，建议研究记忆增强的开发者点开看看。

11:07

11:07

arXiv cs.AI@Caleb Winston, Ron Yifeng Wang, Azalia Mirhoseini, Christos Kozyrakis

76°

现有网页操作智能体（如 Browser-Use、OpenAI CUA）采用顺序的“抓取-截图-执行”循环，每次迭代都需要调用 LLM，导致高延迟和频繁错误。研究者提出 Agent JIT 编译方法，将任务描述直接编译为可执行代码，包含 LLM 调用、工具调用和并行化。该方法包含三个组件：JIT-Planner 生成多个代码计划并选择最低成本方案；JIT-Scheduler 通过蒙特卡洛成本估计探索并行策略；不变式工具协议减少错误工具使用。在 5 个网页应用上，JIT-Planner 相比 Browser-Use 实现 10.4 倍加速和 28% 准确率提升，JIT-Scheduler 相比 OpenAI CUA 实现 2.4 倍加速和 9% 准确率提升。

论文智能体网页自动化 JIT编译延迟优化工具使用

推荐理由：网页自动化开发者终于有了降低延迟的实用方案——Agent JIT 编译直接解决了顺序执行的高延迟痛点，做 RPA 或浏览器智能体的团队值得一试。

5月19日

14:46

14:46

arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo

精选72°

EnvFactory是一个全自动框架，解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境，通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐式意图的查询。仅用85个已验证环境（远少于此前工作的5倍以上），EnvFactory就生成了2575条SFT和RL轨迹，并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成，为Agentic RL提供了可扩展、可扩展且鲁棒的基础。

论文 Agentic RL 工具使用环境合成 Qwen3 自动化框架

推荐理由：做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法，想省掉手动造环境成本的开发者可以直接用。