全部 AI 动态 · AI 热点

6月26日

23:01

23:01

AWS Machine Learning Blog@Christopher Phillippi

精选

Stripe采用ReAct代理框架构建金融合规系统，通过任务分解将复杂流程拆解为92个原子步骤。系统使用提示缓存技术将推理成本降低40%，同时保持人工监督机制确保审计可追溯性。该设计在Stripe的支付处理场景中覆盖了98%的合规审核任务，漏报率低于0.5%。

技巧 Stripe ReAct 金融合规智能体提示词工程

推荐理由：Stripe分享了他们怎么用AI代理处理金融合规的真实案例，包括ReAct框架和提示缓存省钱技巧，适合做合规系统的人参考。

6月17日

09:44

09:44

arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino

光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动（ReAct）循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比，token消耗节省了三倍。

论文 T-API ReAct 光网络智能体

推荐理由：这篇论文首次把ReAct循环和T-API结合到光网络管理里，领域专用工具准确率更高还省token，值得一看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

10:37

10:37

arXiv cs.LG@Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji

TRACE 提出了一种针对多轮智能体强化学习（RLVR）的 rollout 预算分配框架，解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源，忽略了同一 rollout 中不同回合（turn）前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点，形成树状结构，并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明，在相同采样成本下，TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比，显著提升了多轮智能体任务的训练效率。

论文强化学习智能体预算分配奖励对比 ReAct

推荐理由：做智能体强化学习或 RLVR 的团队，TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点，直接用树状分配提升采样效率，值得在自家 agent 训练流程中试试。