AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:工具使用×
6月25日
04:24
04:24elvis@omarsar0
谷歌推出了Gemini 3.5 Flash模型,专注于计算机使用场景的智能体循环和长任务。该模型旨在满足对更强大计算机使用模型的需求,同时保持低成本。用户表示对Gemini 3.5 Flash的效率尚不确定,但赞赏其作为替代选项的出现。
AI模型Gemini 3.5 FlashGoogle智能体工具使用

推荐理由:谷歌新出了一个Gemini 3.5 Flash,专门优化了计算机使用场景,做长任务和智能体循环可能更划算,值得试试。
原文
6月24日
00:57
00:57AK@_akhaliq
PlanBench-XL是一个新基准,专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链,要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中,GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%,暴露了当前模型在规划深度和工具协调上的局限。
AI模型PlanBench-XLLLM智能体工具使用长程规划

推荐理由:想看看你用的LLM在多工具长流程场景下到底多靠谱?PlanBench-XL用上千个工具设计了真实任务链,测出来主流模型成功率不到40%,值得一测。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
09:52
09:52berryxia@berryxia
观点认为,AI Agent 并不会像很多人期待的那样缩小人与人之间的能力差距,反而会放大这种差距。头部用户已经在搭建完整的 Agent 系统(文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱),而普通用户仍停留在聊天框层面。目标清晰、品味强的人会被 Agent 放大优势,目标混乱、没有文档的人则会被放大混乱。AI 时代并非完全平权,善于使用 AI 工具的人能力可能被放大数百倍,与不善于使用的人差距从几倍扩大到数百倍。
行业Agent能力差距AI平权工具使用效率提升

推荐理由:这篇文章戳破了 AI 平权的幻想,做 Agent 开发的团队和重度用户看完会重新思考自己的策略——你是在搭系统还是只问聊天框?值得点开反思。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
15:46
15:46rohanpaul_ai@rohanpaul_ai
NVIDIA CEO 黄仁勋在 GTC 台北 2026 上表示,AI Agent 不会取代软件,而是会创造前所未有的软件需求。他认为,未来人机交互将从“点击和输入”转变为“向 AI 解释意图”,AI 自动生成代码或使用工具输出结果。黄仁勋强调,Agentic AI 的到来意味着世界不再受限于人力数量,大量 Agent 将使用更多工具,这对软件公司是巨大机遇。他同时指出,软件必须以 Agent 可用的方式呈现,这是关键突破。
行业黄仁勋Agentic AI软件行业GTC 2026工具使用

推荐理由:黄仁勋的观点直接回应了 AI 会消灭软件公司的焦虑,做软件产品、工具或平台的团队值得认真看——Agent 经济下,你的软件准备好了吗?
原文
11:49
11:49Gary Marcus@GaryMarcus
精选
Gary Marcus指出当前LLM无法可靠地与数据库、知识图谱等基本工具协作。用户flowersslop补充LLM是被动反应式,通过添加循环和心跳(如openclaw)等补丁来解决根本问题。这种创可贴式方案掩盖了基础架构的缺陷。Marcus认为需要更坚实的AI基础。
行业Gary MarcusLLMopenclaw工具使用AI基础

推荐理由:AI基础架构的批评
原文
5月25日
21:41
21:41Skywork@Skywork_ai
精选
Skywork 发布了自研智能体模型 SkyClaw-v1.0,专为工具使用和多轮执行场景设计。该模型在推理能力和任务执行流畅度上有所提升,旨在更好地服务于云端工作流。SkyClaw-v1.0 的推出标志着 Skywork 在智能体领域的重要进展,为自动化任务处理提供了新的选择。
AI模型智能体SkyworkSkyClaw-v1.0工具使用多轮执行

推荐理由:做自动化工作流和云端任务编排的团队,SkyClaw-v1.0 在工具调用和多轮执行上更顺手,值得关注。
原文
21:07
21:07Skywork@Skywork_ai
精选72°
Skywork团队发布了基于自建OpenClaw环境训练的新模型,该环境从真实用户模式中合成了工具和任务。新模型在PinchBench、Claw-Eval和Skywork-Claw-Bench三个基准测试上超越了前沿开源模型。提供了两个版本:v1.0(完整版)和v1.0-lite(更快、成本更低)。这一进展展示了通过定制化训练环境提升模型在特定任务上性能的潜力。
AI模型SkyworkOpenClaw工具使用开源/仓库模型评测

推荐理由:做工具使用和任务自动化开发的团队可以关注——Skywork用自建环境训练出了超越开源前沿的模型,而且提供了轻量版降低使用成本,值得试试。
原文
5月21日
07:59
07:59LangChain@LangChainAI
精选
LangChain 团队的 Hunter Lovell 在 X 上发布了一篇关于解释器(interpreter)的详细解释。他深入探讨了解释器在 AI 应用中的角色,特别是如何通过解释器让语言模型执行代码、处理数据。这篇内容对理解 LangChain 生态中的工具使用和智能体设计很有帮助。
AI产品LangChain解释器智能体工具使用代码执行

推荐理由:LangChain 团队核心成员亲自拆解解释器机制,做 AI 智能体或工具链开发的开发者值得一看,能帮你更清楚如何让模型安全地执行代码。
原文
5月18日
20:00
20:00Gary Marcus@GaryMarcus
精选
Gary Marcus 在 X 上发文,宣布他多年来关于“纯 LLM 是否足够”的争论已经失去意义,因为他赢了——现在所有部署的 AI 系统都不是纯语言模型,而是神经符号混合体。他引用 2022 年论文《深度学习撞墙》的核心观点,指出实际产品是语言模型嵌入工具执行栈:检索、代码、记忆、验证器、API、智能体、符号约束、工作流权限和外部系统。Marcus 认为,问题不再是“自动补全能否产生智能”,而是“自动补全成为能行动、检查、搜索、写代码、调用工具、路由任务并在机构工作流中运行的系统接口层时会发生什么”。他强调,模型不是文明级单元,整个技术栈才是。
行业纯LLM神经符号混合AI系统架构智能体工具使用

推荐理由:Gary Marcus 的这篇推文为持续多年的“纯 LLM 能否通向 AGI”争论画上了句号,做 AI 系统架构、智能体开发或关注 AI 落地的读者值得一看——它点出了当前 AI 工程化的核心现实:真正起作用的是混合栈,不是单一模型。
原文
5月15日
22:46
22:46berryxia@berryxia
Google 最新模型 Gemini Spark 的内部截图被泄露,显示其同时支持 Agent 模式和 Chat 模式,重点强化了高级工具使用和 Skills 创建流程。目前 Skills 只能通过复制粘贴 MD 文件创建,缺乏直接导入选项,且尚未集成 Browser 或 Computer Use 功能,无法直接控制用户电脑。这标志着 Google 在 Agent 落地策略上选择先打磨核心流程,再逐步开放激进功能,而非一步到位。
AI产品Gemini SparkAgent 模式工具使用Skills 创建Google

推荐理由:做 Agent 开发或工具链集成的团队值得关注——Google 在工具使用上的谨慎节奏可能影响你的技术选型,看完截图能提前判断是否值得跟进。
原文
5月12日
18:09
18:09Simon Willison@simonw
开发者Simon Willison发现可以用LLM CLI工具在Shebang行中直接运行脚本,支持用自然语言编写可执行脚本,或结合YAML模板实现更复杂的任务。该方法通过将LLM命令作为解释器,允许用户用英文指令编写脚本并直接执行,简化了AI助手的命令行集成。这一技巧展示了如何将大型语言模型无缝嵌入Unix工作流,降低AI辅助编程的门槛。
技巧LLM CLIShebang脚本工具使用YAML

推荐理由:该发现为开发者提供了一种将LLM嵌入shell脚本的实用方法,对构建AI协作工具链有参考价值。
原文
精选全部日报登录