09:20arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos精选PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试,评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理,发现纯求解器评估不足以区分智能体性能,验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。论文PowerAgentBench-SS智能体电力系统基准工具使用10 个信源在谈推荐理由:搞电力系统智能体评估的可以看看这个,用IEEE 39节点系统测试大模型能不能真干活,不只看结果还看过程,挺实在的。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
21:41Skywork@Skywork_ai精选Skywork 发布了自研智能体模型 SkyClaw-v1.0,专为工具使用和多轮执行场景设计。该模型在推理能力和任务执行流畅度上有所提升,旨在更好地服务于云端工作流。SkyClaw-v1.0 的推出标志着 Skywork 在智能体领域的重要进展,为自动化任务处理提供了新的选择。AI模型智能体SkyworkSkyClaw-v1.0工具使用多轮执行推荐理由:做自动化工作流和云端任务编排的团队,SkyClaw-v1.0 在工具调用和多轮执行上更顺手,值得关注。原文
21:07Skywork@Skywork_ai精选72°Skywork团队发布了基于自建OpenClaw环境训练的新模型,该环境从真实用户模式中合成了工具和任务。新模型在PinchBench、Claw-Eval和Skywork-Claw-Bench三个基准测试上超越了前沿开源模型。提供了两个版本:v1.0(完整版)和v1.0-lite(更快、成本更低)。这一进展展示了通过定制化训练环境提升模型在特定任务上性能的潜力。AI模型SkyworkOpenClaw工具使用开源/仓库模型评测3 个信源在谈推荐理由:做工具使用和任务自动化开发的团队可以关注——Skywork用自建环境训练出了超越开源前沿的模型,而且提供了轻量版降低使用成本,值得试试。原文
11:09arXiv cs.AI@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian精选Mem-π 是一种新型自适应记忆框架,它让大语言模型智能体在需要时动态生成指导,而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型,基于当前上下文决定是否生成以及生成什么指导,并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中,Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优,在网页导航任务上实现了超过30%的相对提升。论文智能体记忆增强强化学习网页导航工具使用推荐理由:做AI智能体开发的团队终于有了解决记忆错配问题的方案——Mem-π 让智能体学会“按需生成”而非“死板检索”,在复杂任务中效果显著,建议研究记忆增强的开发者点开看看。原文
07:59LangChain@LangChainAI精选LangChain 团队的 Hunter Lovell 在 X 上发布了一篇关于解释器(interpreter)的详细解释。他深入探讨了解释器在 AI 应用中的角色,特别是如何通过解释器让语言模型执行代码、处理数据。这篇内容对理解 LangChain 生态中的工具使用和智能体设计很有帮助。AI产品LangChain解释器智能体工具使用代码执行推荐理由:LangChain 团队核心成员亲自拆解解释器机制,做 AI 智能体或工具链开发的开发者值得一看,能帮你更清楚如何让模型安全地执行代码。原文
14:46arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo精选72°EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。论文Agentic RL工具使用环境合成Qwen3自动化框架推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。原文
20:00Gary Marcus@GaryMarcus精选Gary Marcus 在 X 上发文,宣布他多年来关于“纯 LLM 是否足够”的争论已经失去意义,因为他赢了——现在所有部署的 AI 系统都不是纯语言模型,而是神经符号混合体。他引用 2022 年论文《深度学习撞墙》的核心观点,指出实际产品是语言模型嵌入工具执行栈:检索、代码、记忆、验证器、API、智能体、符号约束、工作流权限和外部系统。Marcus 认为,问题不再是“自动补全能否产生智能”,而是“自动补全成为能行动、检查、搜索、写代码、调用工具、路由任务并在机构工作流中运行的系统接口层时会发生什么”。他强调,模型不是文明级单元,整个技术栈才是。行业纯LLM神经符号混合AI系统架构智能体工具使用推荐理由:Gary Marcus 的这篇推文为持续多年的“纯 LLM 能否通向 AGI”争论画上了句号,做 AI 系统架构、智能体开发或关注 AI 落地的读者值得一看——它点出了当前 AI 工程化的核心现实:真正起作用的是混合栈,不是单一模型。原文