01:33AWS Machine Learning Blog@Joshua Lacy精选本文介绍如何使用Amazon Bedrock AgentCore的内置可观测性功能调试生产环境中的智能体故障。文章涵盖常见的故障模式,如无限循环和工具调用失败。通过追踪和指标分析智能体行为,并提供结构化工作流来解决问题。本文是两部分系列的第一部分,第二部分将讨论性能优化和内存管理。技巧Amazon BedrockAgentCore可观测性智能体工具调用推荐理由:AWS博客教你用Bedrock AgentCore内置观察功能排查生产智能体故障,比如无限循环和工具调用失败,省去自己搭建监控的麻烦。原文
15:15marktechpost@Sana Hassan精选本教程基于 Hugging Face 的 Fable 5 Traces 数据集,在 Colab 中构建稳定工作流。手动解析合并的 JSONL 文件避免依赖问题,检查仓库文件并标准化工具调用。通过审计结构、脱敏密钥和可视化分布,导出安全的无 CoT 聊天数据集。最后使用纯 Python 的朴素贝叶斯模型在 traces 上训练基线,无需复杂框架。技巧Fable 5 TracesColab工具调用数据审计基线模型推荐理由:手把手教你用 Colab 搞定 Fable 5 Traces 数据,从解析到审计再到训练基线,全流程避坑实战。原文
22:46LangChain@LangChainAI精选Jeff Barg在Interrupt会议上透露,Clay每月运行3.5亿个GTM智能体。他指出,缓存可将LLM调用成本降低高达70%。限制工具调用范围不仅能节省成本,还能提升输出质量。在多租户负载下,引入公平队列机制至关重要。技巧ClayGTM agentsLLM成本缓存工具调用推荐理由:做AI智能体上线的小伙伴必看,Clay的AI负责人亲自讲了怎么降本70%和优化队列,干货12分钟。原文
00:33Philipp Schmid@_philschmid精选71°这篇指南由 Google AI Studio 发布,帮助开发者上手 Gemini Interactions API。它通过 `previous_interaction_id` 实现对话链式衔接,演示了如何启用和处理 streaming 响应。指南还展示了执行本地函数调用的完整循环,并介绍了在远程沙箱中运行 Antigravity Agent 的方法。技巧Gemini Interactions APIGoogle智能体工具调用推荐理由:Google 官方出的 Gemini 交互 API 教程,从 streaming 到 agent 沙箱都有代码示例,想写多轮工具调用可以看这个。原文
05:06LangChain@LangChainAI精选Deep Agents v0.6 新增代码解释器,代理可在运行时调用工具。中间结果保留在模型上下文之外,仅传回相关输出。这减少了往返次数和 token 浪费。该版本由 LangChain 发布。AI产品Deep AgentsLangChain代码解释器智能体工具调用推荐理由:Deep Agents v0.6 出代码解释器了!运行时调工具,中间结果不占上下文,省 token 还少跑几趟。看详情。原文
12:59@atomic_chat_hq@atomic_chat_hq精选Liquid 的 LFM2.5-8B-A1B(8B总参、1B激活)在 MacBook Pro M5 Max 上本地运行,与 OpenAI 的 gpt-oss-20b 对比工具调用能力。面对需执行7个工具调用的旅行规划任务,LFM2.5-8B-A1B 全部成功,而 gpt-oss-20b 仅完成 3 个。内存方面,LFM2.5-8B-A1B 仅用 4.8 GB,远低于对手的 11 GB。速度上,LFM2.5-8B-A1B 达到 266 tok/s,总耗时 6.9 s,而 gpt-oss-20b 为 146 tok/s 和 15.0 s。该模型利用 38T 训练 token 的 MoE 架构,实现了小参数下的高效工具调用。AI模型LiquidLFM2.5-8B-A1Bgpt-oss-20b工具调用MoE10 个信源在谈推荐理由:Liquid 这个 8B MoE 模型只用 4.8GB 内存就比 OpenAI 20B 模型多调用了一倍工具,速度还快两倍,本地跑 agent 任务很实用。原文
11:09arXiv cs.AI@Xucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu精选72°APPO(Agentic Procedural Policy Optimization)是一种新的强化学习方法,旨在改进大语言模型智能体的多轮工具使用能力。传统方法在粗粒度的交互单元(如工具调用边界)上分配信用,难以识别影响最终结果的关键中间决策。APPO通过分支评分(Branching Score)在序列中细粒度地选择分支点,并结合程序级优势缩放(procedure-level advantage scaling)更精确地分配信用。实验表明,APPO在13个基准测试上平均提升近4个百分点,同时保持高效的工具调用和可解释性。这项研究解决了智能体强化学习中信用分配不精确的问题,对开发更可靠、高效的AI智能体具有重要意义。论文强化学习智能体工具调用信用分配APPO推荐理由:做AI智能体强化学习的团队终于有了更精细的信用分配方法——APPO在13个基准上稳定提升4个点,且不牺牲效率,做多轮工具调用优化的开发者值得一试。原文
03:04LangChain@LangChainAI精选LangChain 推出了 Deep Agents,一个开源智能体框架,旨在构建能够规划、使用工具、委托子代理、写入文件并长时间工作的智能体。该框架提供了一个可管理的环境,并集成到 LangSmith 中,为开发者提供持久化的智能体运行和监控能力。这一发布降低了构建复杂、长周期智能体的门槛,适合需要自动化多步骤任务的团队。AI产品智能体开源/仓库LangChainLangSmith工具调用推荐理由:LangChain 的 Deep Agents 解决了构建长周期、多步骤智能体的痛点,做自动化流程或复杂任务编排的开发者可以直接上手试试。原文
20:34Hugging Face: Blog(博客/媒体)精选ServiceNow AI 发布了 EVA-Bench Data 2.0,一个面向企业级 AI 智能体的评估基准数据集。该数据集覆盖 3 个领域(IT、HR、客户服务),包含 121 种工具和 213 个场景,旨在测试 AI 智能体在复杂企业环境中的工具调用和任务执行能力。相比第一版,新版本增加了更多真实世界的交互场景和工具多样性,为开发者提供了更全面的评估标准。这对于希望在企业场景中部署 AI 智能体的团队来说,是一个重要的参考资源。AI产品智能体评估基准企业AI工具调用ServiceNow1 个信源在谈推荐理由:企业 AI 智能体评估终于有了更贴近真实场景的基准——3 领域 121 工具覆盖 IT、HR、客服,做企业级 AI 落地的团队可以直接用这个数据集来测试自己的智能体。原文
05:10rohanpaul_ai@rohanpaul_ai精选72°atomic.chat 在 MacBook Pro M5 Max 64GB 上对比了本地 AI 智能体的工具调用能力。Liquid 的 LFM2.5-8B-A1B 模型(8B 参数,MoE 架构)在规划旅行任务中,成功完成所有 7 次外部工具调用(天气查询、货币转换、邮件和提醒),而 gpt-oss-20b 仅完成 3/7 次。LFM2.5-8B-A1B 运行速度达 266 tok/s,内存占用仅 4.8GB,而 gpt-oss-20b 为 146 tok/s 和 11GB。这表明工具调用本质上是控制问题而非语言问题,更小但训练更聚焦的模型可以胜过更大但泛化的模型。AI模型本地模型工具调用智能体LFM2.5-8B-A1Bgpt-oss-20b1 个信源在谈推荐理由:做本地 AI 智能体或工具调用开发的团队,这个对比直接告诉你:模型大小不是关键,控制能力才是。LFM2.5-8B-A1B 的性价比碾压,值得在本地部署试试。原文
11:15Geek@geekbb精选Nous Research 为其 Hermes Agent 引入了 Tool Search 功能,使智能体能够按需加载所需工具,而非一次性加载全部。这一改进提升了资源利用效率和响应速度,尤其适合复杂任务场景。该功能通过动态工具选择机制,减少了不必要的计算开销。对于构建高效智能体的开发者而言,这是一项实用的优化。AI产品智能体工具调用Nous ResearchHermes Agent效率优化推荐理由:Hermes Agent 的 Tool Search 解决了智能体工具冗余加载的痛点,做 Agent 开发的团队可以直接参考实现,提升任务执行效率。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
13:13IT之家(博客/媒体)精选昆仑万维天工 AI 推出 SkyClaw-v1.0 及轻量版 SkyClaw-v1.0-lite,支持百万 token 上下文,专为真实智能体工作流设计。模型在复杂工具调用、多轮任务、代码生成等场景表现优异,全面超越 Minimax 2.7、DeepSeek V4 Flash 等开源模型,性能接近更大规模顶级模型。定价低于同类一半,已接入天工 Skywork 平台,即日起开放 2-4 周免费试用。AI模型Agent 模型百万上下文开源/仓库工具调用昆仑万维推荐理由:做 Agent 开发或自动化工作流的团队终于有了性价比之选——SkyClaw 百万上下文且定价低于同类一半,建议直接免费试用看看能否替代现有方案。原文
11:51elvis@omarsar0精选一篇关于工具使用智能体的可解释性论文揭示了模型在认知与行动之间的脱节:模型内部状态显示它知道应该调用工具,但在实际输出中却未能执行。这种不匹配率在26%到54%之间,且完全集中在认知到行动的转换阶段,而非认知本身。研究发现,模型内部的方向是可解码的,但后层最后一个token的表示几乎与产生的行动正交,导致信号丢失。该工作试图预测哪些干预措施有效,哪些无效。对于在工具调用提示上做A/B测试却遇到奇怪上限的开发者,这篇论文可能提供了很好的解释。论文可解释性工具调用智能体认知-行动脱节arxiv推荐理由:做工具调用智能体开发的团队,如果遇到模型明明知道该用工具却就是不调用的怪现象,这篇论文直接点出了后层几何结构的根本原因,值得一读。原文
21:35Anthropic: Engineering(资讯)精选75°Anthropic 在 Claude Developer Platform 上推出了高级工具调用功能,允许开发者更灵活地让 Claude 调用外部 API、数据库和自定义工具。该功能支持多步骤工具编排、错误重试和结果缓存,显著提升了复杂工作流的可靠性。这是继 MCP 协议后,Anthropic 在工具生态上的又一重要更新,旨在让 AI Agent 更稳定地执行实际业务任务。AI产品Claude工具调用开发者平台AI AgentAnthropic10 个信源在谈推荐理由:做 AI Agent 或自动化工作流的开发者终于有了更可靠的工具调用方案——多步骤编排和错误重试直接解决生产环境痛点,建议用 Claude 的团队立即体验。原文
19:12arXiv cs.AI@Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye精选75°计算机使用智能体(CUA)在同时使用原子GUI操作(如点击、输入)和高级工具调用(如API文件操作)时,常因无法判断何时切换而导致执行路径次优。为解决这一问题,研究者提出ToolCUA,一种端到端智能体,通过分阶段训练范式学习最优GUI-工具路径选择。其核心包括:利用静态GUI轨迹合成工具库的轨迹缩放流水线、结合单步强化学习的工具引导GUI RFT,以及在线智能体强化学习优化。在OSWorld-MCP基准上,ToolCUA达到46.85%准确率,相比基线提升约66%,并比纯GUI设置提升3.9%,证明了混合动作空间训练的有效性。项目已开源。论文计算机使用智能体GUI自动化工具调用强化学习开源/仓库推荐理由:做GUI自动化或智能体开发的团队,这个工作解决了混合动作空间路径选择的痛点——不用手动收集真实工具轨迹也能训练出高效智能体,建议点开看看方法细节。原文