01:37OpenAI@OpenAI (@OpenAI)OpenAI 在官方博客发布“How agents work”指南,详细拆解 Agent 的核心组成:模型调用(以 GPT-4o 为例)、工具集成(代码解释器、函数调用等)、持久化记忆(向量数据库)以及编排模式(链式与多步)。指南对比了简单查询与复杂多步骤 Agent 的设计差异,并给出基于 Assistants API 的代码示例。文章未公布新的基准分数,但提供了可立即实现的架构建议。技巧AgentOpenAIGPT-4o工具使用指南10 个信源在谈推荐理由:OpenAI 手把手教你做智能体,从原理到代码都有,适合想自己搭 Agent 的同学。原文
10:40arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao该论文通过实验发现,多步工具使用强化学习(RL)训练中,模型可出现灾难性崩溃,性能骤降且工具调用结构失效。根本原因是特定控制token概率突增,但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,并比较了同步与交错训练方案。结果表明,将监督微调(SFT)与RL交错进行可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。该工作揭示了RL失败机理,并展示了多样化监督信号对鲁棒训练的价值。论文LLM强化学习工具使用SFT监督信号推荐理由:这篇论文分析了多步工具RL训练容易崩溃的原因,并实验证明交错SFT与RL能有效提升稳定性,对做智能体RL的人很有参考价值。原文
04:24elvis@omarsar0谷歌推出了Gemini 3.5 Flash模型,专注于计算机使用场景的智能体循环和长任务。该模型旨在满足对更强大计算机使用模型的需求,同时保持低成本。用户表示对Gemini 3.5 Flash的效率尚不确定,但赞赏其作为替代选项的出现。AI模型Gemini 3.5 FlashGoogle智能体工具使用推荐理由:谷歌新出了一个Gemini 3.5 Flash,专门优化了计算机使用场景,做长任务和智能体循环可能更划算,值得试试。原文
03:15marktechpost@Sana Hassan本文手把手教你从零搭建一个OpenHarness风格的智能体运行时,包含工具调用、类型化工具模式、权限控制、生命周期钩子、记忆模块、技能系统、上下文压缩、重试逻辑、成本追踪以及多智能体协调共10个核心组件。所有代码均可直接运行,无需API密钥或额外基础设施。通过暴露完整控制流,你将理解框架内部机制而非将其当作黑盒。技巧OpenHarness智能体工具使用多智能体内存管理推荐理由:想自己搭一个能记东西、会用工具、还能多智能体协作的Agent框架?这篇教程从零拆开所有模块,代码直接跑,比看黑盒框架实在多了。原文
00:57AK@_akhaliqPlanBench-XL是一个新基准,专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链,要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中,GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%,暴露了当前模型在规划深度和工具协调上的局限。AI模型PlanBench-XLLLM智能体工具使用长程规划推荐理由:想看看你用的LLM在多工具长流程场景下到底多靠谱?PlanBench-XL用上千个工具设计了真实任务链,测出来主流模型成功率不到40%,值得一测。原文
09:20arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos精选PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试,评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理,发现纯求解器评估不足以区分智能体性能,验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。论文PowerAgentBench-SS智能体电力系统基准工具使用10 个信源在谈推荐理由:搞电力系统智能体评估的可以看看这个,用IEEE 39节点系统测试大模型能不能真干活,不只看结果还看过程,挺实在的。原文
09:52berryxia@berryxia观点认为,AI Agent 并不会像很多人期待的那样缩小人与人之间的能力差距,反而会放大这种差距。头部用户已经在搭建完整的 Agent 系统(文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱),而普通用户仍停留在聊天框层面。目标清晰、品味强的人会被 Agent 放大优势,目标混乱、没有文档的人则会被放大混乱。AI 时代并非完全平权,善于使用 AI 工具的人能力可能被放大数百倍,与不善于使用的人差距从几倍扩大到数百倍。行业Agent能力差距AI平权工具使用效率提升推荐理由:这篇文章戳破了 AI 平权的幻想,做 Agent 开发的团队和重度用户看完会重新思考自己的策略——你是在搭系统还是只问聊天框?值得点开反思。原文
15:46rohanpaul_ai@rohanpaul_aiNVIDIA CEO 黄仁勋在 GTC 台北 2026 上表示,AI Agent 不会取代软件,而是会创造前所未有的软件需求。他认为,未来人机交互将从“点击和输入”转变为“向 AI 解释意图”,AI 自动生成代码或使用工具输出结果。黄仁勋强调,Agentic AI 的到来意味着世界不再受限于人力数量,大量 Agent 将使用更多工具,这对软件公司是巨大机遇。他同时指出,软件必须以 Agent 可用的方式呈现,这是关键突破。行业黄仁勋Agentic AI软件行业GTC 2026工具使用8 个信源在谈推荐理由:黄仁勋的观点直接回应了 AI 会消灭软件公司的焦虑,做软件产品、工具或平台的团队值得认真看——Agent 经济下,你的软件准备好了吗?原文
11:49Gary Marcus@GaryMarcus精选Gary Marcus指出当前LLM无法可靠地与数据库、知识图谱等基本工具协作。用户flowersslop补充LLM是被动反应式,通过添加循环和心跳(如openclaw)等补丁来解决根本问题。这种创可贴式方案掩盖了基础架构的缺陷。Marcus认为需要更坚实的AI基础。行业Gary MarcusLLMopenclaw工具使用AI基础1 个信源在谈推荐理由:AI基础架构的批评原文
21:41Skywork@Skywork_ai精选Skywork 发布了自研智能体模型 SkyClaw-v1.0,专为工具使用和多轮执行场景设计。该模型在推理能力和任务执行流畅度上有所提升,旨在更好地服务于云端工作流。SkyClaw-v1.0 的推出标志着 Skywork 在智能体领域的重要进展,为自动化任务处理提供了新的选择。AI模型智能体SkyworkSkyClaw-v1.0工具使用多轮执行推荐理由:做自动化工作流和云端任务编排的团队,SkyClaw-v1.0 在工具调用和多轮执行上更顺手,值得关注。原文
21:07Skywork@Skywork_ai精选72°Skywork团队发布了基于自建OpenClaw环境训练的新模型,该环境从真实用户模式中合成了工具和任务。新模型在PinchBench、Claw-Eval和Skywork-Claw-Bench三个基准测试上超越了前沿开源模型。提供了两个版本:v1.0(完整版)和v1.0-lite(更快、成本更低)。这一进展展示了通过定制化训练环境提升模型在特定任务上性能的潜力。AI模型SkyworkOpenClaw工具使用开源/仓库模型评测3 个信源在谈推荐理由:做工具使用和任务自动化开发的团队可以关注——Skywork用自建环境训练出了超越开源前沿的模型,而且提供了轻量版降低使用成本,值得试试。原文
11:09arXiv cs.AI@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian精选Mem-π 是一种新型自适应记忆框架,它让大语言模型智能体在需要时动态生成指导,而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型,基于当前上下文决定是否生成以及生成什么指导,并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中,Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优,在网页导航任务上实现了超过30%的相对提升。论文智能体记忆增强强化学习网页导航工具使用推荐理由:做AI智能体开发的团队终于有了解决记忆错配问题的方案——Mem-π 让智能体学会“按需生成”而非“死板检索”,在复杂任务中效果显著,建议研究记忆增强的开发者点开看看。原文
11:07arXiv cs.AI@Caleb Winston, Ron Yifeng Wang, Azalia Mirhoseini, Christos Kozyrakis76°现有网页操作智能体(如 Browser-Use、OpenAI CUA)采用顺序的“抓取-截图-执行”循环,每次迭代都需要调用 LLM,导致高延迟和频繁错误。研究者提出 Agent JIT 编译方法,将任务描述直接编译为可执行代码,包含 LLM 调用、工具调用和并行化。该方法包含三个组件:JIT-Planner 生成多个代码计划并选择最低成本方案;JIT-Scheduler 通过蒙特卡洛成本估计探索并行策略;不变式工具协议减少错误工具使用。在 5 个网页应用上,JIT-Planner 相比 Browser-Use 实现 10.4 倍加速和 28% 准确率提升,JIT-Scheduler 相比 OpenAI CUA 实现 2.4 倍加速和 9% 准确率提升。论文智能体网页自动化JIT编译延迟优化工具使用10 个信源在谈推荐理由:网页自动化开发者终于有了降低延迟的实用方案——Agent JIT 编译直接解决了顺序执行的高延迟痛点,做 RPA 或浏览器智能体的团队值得一试。原文
07:59LangChain@LangChainAI精选LangChain 团队的 Hunter Lovell 在 X 上发布了一篇关于解释器(interpreter)的详细解释。他深入探讨了解释器在 AI 应用中的角色,特别是如何通过解释器让语言模型执行代码、处理数据。这篇内容对理解 LangChain 生态中的工具使用和智能体设计很有帮助。AI产品LangChain解释器智能体工具使用代码执行推荐理由:LangChain 团队核心成员亲自拆解解释器机制,做 AI 智能体或工具链开发的开发者值得一看,能帮你更清楚如何让模型安全地执行代码。原文
14:46arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo精选72°EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。论文Agentic RL工具使用环境合成Qwen3自动化框架推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。原文
20:00Gary Marcus@GaryMarcus精选Gary Marcus 在 X 上发文,宣布他多年来关于“纯 LLM 是否足够”的争论已经失去意义,因为他赢了——现在所有部署的 AI 系统都不是纯语言模型,而是神经符号混合体。他引用 2022 年论文《深度学习撞墙》的核心观点,指出实际产品是语言模型嵌入工具执行栈:检索、代码、记忆、验证器、API、智能体、符号约束、工作流权限和外部系统。Marcus 认为,问题不再是“自动补全能否产生智能”,而是“自动补全成为能行动、检查、搜索、写代码、调用工具、路由任务并在机构工作流中运行的系统接口层时会发生什么”。他强调,模型不是文明级单元,整个技术栈才是。行业纯LLM神经符号混合AI系统架构智能体工具使用推荐理由:Gary Marcus 的这篇推文为持续多年的“纯 LLM 能否通向 AGI”争论画上了句号,做 AI 系统架构、智能体开发或关注 AI 落地的读者值得一看——它点出了当前 AI 工程化的核心现实:真正起作用的是混合栈,不是单一模型。原文
22:46berryxia@berryxiaGoogle 最新模型 Gemini Spark 的内部截图被泄露,显示其同时支持 Agent 模式和 Chat 模式,重点强化了高级工具使用和 Skills 创建流程。目前 Skills 只能通过复制粘贴 MD 文件创建,缺乏直接导入选项,且尚未集成 Browser 或 Computer Use 功能,无法直接控制用户电脑。这标志着 Google 在 Agent 落地策略上选择先打磨核心流程,再逐步开放激进功能,而非一步到位。AI产品Gemini SparkAgent 模式工具使用Skills 创建Google推荐理由:做 Agent 开发或工具链集成的团队值得关注——Google 在工具使用上的谨慎节奏可能影响你的技术选型,看完截图能提前判断是否值得跟进。原文
06:33Anthropic: Engineering(资讯)精选Anthropic为Claude推出think工具,允许模型在复杂工具调用前暂停并生成内部推理步骤。该工具作为虚拟工具加入工具列表,Claude通过调用它来分解任务、避免过早行动。在内部测试中,think工具帮助Claude在涉及多步工具使用的任务中减少了错误。该功能旨在提升模型在需要规划的场景下的可靠性。AI产品Claudethink toolAnthropic工具使用10 个信源在谈推荐理由:Claude学会先想后做原文
18:09Simon Willison@simonw开发者Simon Willison发现可以用LLM CLI工具在Shebang行中直接运行脚本,支持用自然语言编写可执行脚本,或结合YAML模板实现更复杂的任务。该方法通过将LLM命令作为解释器,允许用户用英文指令编写脚本并直接执行,简化了AI助手的命令行集成。这一技巧展示了如何将大型语言模型无缝嵌入Unix工作流,降低AI辅助编程的门槛。技巧LLM CLIShebang脚本工具使用YAML推荐理由:该发现为开发者提供了一种将LLM嵌入shell脚本的实用方法,对构建AI协作工具链有参考价值。原文