23:01AWS Machine Learning Blog@Christopher Phillippi精选Stripe采用ReAct代理框架构建金融合规系统,通过任务分解将复杂流程拆解为92个原子步骤。系统使用提示缓存技术将推理成本降低40%,同时保持人工监督机制确保审计可追溯性。该设计在Stripe的支付处理场景中覆盖了98%的合规审核任务,漏报率低于0.5%。技巧StripeReAct金融合规智能体提示词工程推荐理由:Stripe分享了他们怎么用AI代理处理金融合规的真实案例,包括ReAct框架和提示缓存省钱技巧,适合做合规系统的人参考。原文
09:44arXiv cs.AI@Seyed Morteza Ahmadian, Paolo Monti, Carlos Natalino光网络需要意图驱动的闭环智能体管理以提升自主性。该论文首次提出T-API兼容的推理与行动(ReAct)循环。实验使用领域特定复合工具实现了90%的oracle验证正确率。与通用工具相比,token消耗节省了三倍。论文T-APIReAct光网络智能体推荐理由:这篇论文首次把ReAct循环和T-API结合到光网络管理里,领域专用工具准确率更高还省token,值得一看。原文
10:37arXiv cs.LG@Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang JiTRACE 提出了一种针对多轮智能体强化学习(RLVR)的 rollout 预算分配框架,解决了因奖励对比不足导致的策略优化效率低问题。传统方法仅在 prompt 层面分配资源,忽略了同一 rollout 中不同回合(turn)前缀的信息量差异。TRACE 将每个 ReAct 风格的思考-行动-观察回合建模为语义节点,形成树状结构,并动态分配预算到最可能产生混合奖励的 prompt 根节点和中间前缀。实验表明,在相同采样成本下,TRACE 在 Multi-Hop QA 等基准上将 Qwen3-14B 的平均准确率提升了 2.8 个百分点。该框架通过增强奖励对比,显著提升了多轮智能体任务的训练效率。论文强化学习智能体预算分配奖励对比ReAct推荐理由:做智能体强化学习或 RLVR 的团队,TRACE 解决了多轮 rollout 中奖励信号稀疏的痛点,直接用树状分配提升采样效率,值得在自家 agent 训练流程中试试。原文