全部 AI 动态 · AI 热点

6月16日

14:11

Harrison Chase@hwchase17

精选

开发者 Saurabh 强调，Agent 必须有可观测性。他用 LangGraph 做编排，LangSmith 做追踪、评估和回归测试。如果无法解释 Agent 为何给出某个回答，那就只是 demo 而非架构。他建议通过 tracing 捕获 prompt 和工具调用的全部上下文。

技巧 LangGraph LangSmith Agent 可观测性智能体

推荐理由：如果你在用 LangGraph 做 agent，这招能帮你从 demo 变成可交付的系统——关键是 LangSmith 的 trace 和 eval。

原文

13:51

@hebbia@hebbia

Hebbia上个月在Chat和Matrix平台新增金融数据集成功能，支持更高效的金融数据处理。Agent能力得到改进，可执行更复杂任务。工作流升级增强了自动化流程，平台整体性能提升。

AI产品 Hebbia 金融数据 Agent Chat Matrix

推荐理由：Hebbia刚更新了金融数据集成和Agent功能，做金融分析更顺手了。

原文

12:08

shao__meng@shao__meng

精选

Cua与Snorkel AI联合发布Cua-Bench基准，首个公开数据集聚焦KiCad电子设计自动化工具，包含25道专家编写的任务。测试显示最强模型GPT-5.5仅完全通过6道（24%），Claude Sonnet 4.5和Haiku 4.5各通过5道。关键发现：模型在编辑已有原理图方面表现尚可，但16道从零搭建任务全部失败。失败原因包括导航开销大（约84%）、操作粒度过细（约84%）和布线未完成（约72%），同时自我校验不可靠。

AI模型 Cua-Bench KiCad GPT-5.5 Claude Sonnet 4.5 Agent

推荐理由：想看看AI Agent在专业软件上到底行不行？Cua-Bench用KiCad的25道真实任务给模型打分，最强的也只过了6道，从零建电路全挂。看完你就知道瓶颈在哪了。

原文

12:07

LangChain@LangChainAI

LangChain 推出 LangSmith Sandboxes，允许 AI Agent 访问所需外部系统，同时将凭证与网络策略置于平台控制之下。该功能解决了 Agent 实际部署中凭证泄露与网络权限暴露的风险。开发者可在不泄露敏感信息的前提下，让 Agent 安全调用 API 或其他服务。LangSmith Sandboxes 通过统一的策略引擎管理访问权限。

AI产品 LangSmith Sandboxes Agent 访问控制安全

推荐理由：LangChain 搞了个 Sandboxes，让 AI Agent 安全调用外部系统，凭证和网络策略全由平台管，不用自己操心泄露风险。

原文

09:09

09:09IT之家（博客/媒体）

招商银行推出运通工程师信用卡，新用户达标后可每月获18亿Token MiniMax M3用量，支持4-5个Agent并发运行。另有6亿Token方案和MaxClaw云端部署方案可选。该卡面向开发者提供专属AI权益，此前Kimi智能助手也已预告推出Kimi信用卡。

行业招商银行运通工程师信用卡 MiniMax Token Agent

推荐理由：招行这张卡直接送MiniMax的18亿Token用量，比Kimi信用卡更早落地，开发者办卡就能用M3模型和Agent并发，省一笔算力钱。

原文

6月15日

15:28

小互@imxiaohu

该平台允许任何开发者注册账号，将自研AI Agent接入。开发者需填写Agent名称、能力描述及所用模型，并配置Webhook地址作为任务接收接口。通过能力测试审核后，Agent即可自动接单。

技巧 Agent Webhook 开发者平台接单审核

推荐理由：想把自己的AI Agent放到平台上赚钱？这篇讲清楚了注册、配Webhook、过审核的全流程。

原文

14:28

量子位@梦晨

华为云发布Agent基础设施，提供分布式算力调度和存储方案，支持百万级Agent协同工作。新架构基于自研昇腾芯片，推理延迟降低40%。同时推出Agent开发平台，集成模型部署和调试功能。该基础设施已用于金融、制造等行业场景。

行业华为云 Agent 昇腾基础设施

推荐理由：华为云给Agent铺路了

原文

12:32

AI Will@FinanceYF5

Pietro Schirano分享了一个工作流技巧：他不再亲手为每个任务写/goal，而是让Codex自动生成它自己的goal以及每个子agent的goal。该方法通过一次简单的提示让Codex执行自描述和子目标分配，减少了手动编写提示词的时间。这个技巧适用于Codex驱动的多agent场景，可以提升效率。

技巧 Codex 提示词技巧 Agent 工作流智能体

推荐理由：学Codex新玩法，省写goal时间

原文

11:12

elvis@omarsar0

作者用6个月自建了一套Agent编排器，包含路由、动态工作流、验证器、MCP工具等功能。他通过挖掘Agent会话记录递归构建和测试新想法，涵盖自主循环和持续学习系统。他认为锁定特定工具或模型供应商风险过高，必须自己控制成本、决策和上下文管理。这为应对本周Fable事件提供了最佳防御。

技巧编排器智能体 MCP/工具 Agent

推荐理由：自己动手做编排器，比依赖供应商强

原文

11:10

arXiv cs.AI@Shikun Liu, Mufei Li, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li

Parallel-Synthesis框架使合成器直接消费并行工作线程的KV缓存，避免文本拼接冗余。它通过缓存映射器校准独立分支缓存，并微调合成适配器以支持非顺序缓存接口。在9个数据集（数学、科学问答、代码生成、GAIA、多智能体数据库诊断）上，7个超越或持平文本合成基线，首token延迟降低2.5-11倍。该工作为并行智能体分支的高效合成提供了新接口。

论文 Parallel-Synthesis LLM Agent 智能体推理模型

推荐理由：并行合成提速2.5-11倍

原文

6月14日

08:53

宝玉@dotey

黄赟分享了一个与AI Agent交互的习惯：先让Agent写出coding plan，反复确认后汇总task列表，最后再编程并标记已完成。核心原则是交代任务时明确验证标准，之后无需关注中间过程。这种方法能提升Agent任务执行的效率和准确性。

技巧 Agent 提示词工程编程助手

推荐理由：Agent交互技巧，省心省力

原文

6月13日

13:29

Replit@Replit

Replit 发布新视频，展示其并行 Agent 功能。用户现在可以在一个项目中同时运行多个 Agent，构建网站、移动应用、视频和演示文稿。该功能还允许向现有项目添加多个工件。

AI产品 Replit Agent 并行开发编程助手

推荐理由：Replit 让你同时做多个项目

原文

13:11

Replit@Replit

Replit 在直播中宣布为其 Agent 添加 Skills 和 Custom Instructions 两项新功能。Skills 允许用户为 Agent 预置特定编程技能，如 Python 或 React 开发。Custom Instructions 让用户自定义 Agent 的行为和输出格式。这两项功能旨在提升 Agent 在代码生成和项目开发中的精准度与可控性。

AI产品 Replit Agent 编程助手自定义指令

推荐理由：Replit 让 Agent 更听话了

原文

11:11

orange.ai@oran_ge

作者与藏师傅讨论AI带来的K型分化，头部用户已默认理解Agent的组成包括文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill，而普通用户仅知Agent能写代码。作者认为将技能做好是跨越鸿沟的唯一解法，并正与藏师傅合作通过Cola帮助大众跨越鸿沟。

行业 Agent MCP/工具智能体 Cola 藏师傅

推荐理由：聊聊AI带来的K型分化

原文

10:25

shao__meng@shao__meng

精选

Cursor 团队为训练 Composer 模型构建了始终运行的 Agent 舰队系统，本质是一个 Loop。主 Agent（Fleet Manager）运行在大型远程机器上，通过 SSH 连接数百台子 Agent 机器，收集状态并写入共享 inbox 文件。子 Agent 并行执行具体研究任务，主 Agent 每轮循环检查舰队健康状况，可主动控制进程。该系统基于 Cursor 此前公开的长运行 Agent 研究，使用 Cursor 自身产品实现状态共享和协调。

AI模型 Cursor Composer Agent 智能体编程助手

推荐理由：Cursor 用自家产品造了数千 Agent 舰队

原文

6月12日

20:13

shao__meng@shao__meng

73°

AI模型 Kimi K2.7-Code 编码模型 Agent MCP/工具开源/仓库

推荐理由：K2.7-Code 在 MCP 场景下超过 Opus 4.8，且推理 token 减少 30%，做编程 Agent 的团队可以直接用开源模型跑长任务，成本更低、成功率更高。

原文

12:47

Jerry Liu@jerryjliu0

精选

LlamaIndex创始人Jerry Liu指出，当前Agent通过MCP进行联邦搜索存在检索相关性差、速度慢、数据权重分配难、查询接口不统一等问题。他认为数据摄取、索引和检索层需要重大进步才能支撑Agent的复杂上下文获取。John Suh则提出公司应重建以统一时间线为基础的数据系统，整合可观测性、产品指标和文件变更，以实现AI驱动的100倍效率提升。

行业 Agent MCP/工具数据检索企业AI LlamaIndex

推荐理由：做Agent和RAG系统的开发者会看到当前架构的瓶颈在哪——MCP联邦搜索的检索相关性和速度问题亟待解决，而John Suh的“统一时间线”构想给企业数据基建提供了新方向，值得关注。

原文

11:03

歸藏(guizang.ai)@op7418

精选

作者归藏基于自己制作多个爆款 Skills 的真实经验，系统复盘了对 Skills 的理解。文章指出 Agent 不是聊天框，会放大人的能力差距，而 Skill 是普通用户用好 Agent 的关键中间层。详细阐述了如何设计、维护和分发一个好 Skill，以及 Skill 生态不能只是仓库列表，需要内容、产品、案例、反馈形成迭代飞轮。这不是概念科普，而是实践沉淀的判断，适合做 Agent、AI 工具、插件生态或想将专业经验可复用的读者。

行业 Skills Agent 插件生态产品设计归藏

推荐理由：做 Agent 或插件生态的团队，这篇实战复盘能帮你避开 Skill 设计的坑——作者用真实案例告诉你为什么 Skill 不是仓库列表，而是用户能力放大器，值得点开对照自己的产品思路。

原文

09:52

berryxia@berryxia

观点认为，AI Agent 并不会像很多人期待的那样缩小人与人之间的能力差距，反而会放大这种差距。头部用户已经在搭建完整的 Agent 系统（文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱），而普通用户仍停留在聊天框层面。目标清晰、品味强的人会被 Agent 放大优势，目标混乱、没有文档的人则会被放大混乱。AI 时代并非完全平权，善于使用 AI 工具的人能力可能被放大数百倍，与不善于使用的人差距从几倍扩大到数百倍。

行业 Agent 能力差距 AI平权工具使用效率提升

推荐理由：这篇文章戳破了 AI 平权的幻想，做 Agent 开发的团队和重度用户看完会重新思考自己的策略——你是在搭系统还是只问聊天框？值得点开反思。

原文

07:05

Replit@Replit

Replit 发布了一条推文，教用户如何更有效地向 AI 编程助手（Agent）写提示词。模糊的提示词会导致需要反复重写，而清晰的提示词能让 Agent 一次性构建出正确的结果。推文以线程形式展开，分享了具体的提示技巧。这对于使用 Replit 进行 AI 辅助编程的开发者来说，是提升效率的关键。

AI产品 Replit 提示词工程 AI 编程助手效率提升 Agent

推荐理由：Replit 官方分享的提示词技巧，能直接减少 AI 编程中的返工次数，用 Replit Agent 做项目的开发者建议收藏。

原文

6月11日

12:23

berryxia@berryxia

一位开发者提出 Agent 互相学习的新方法，不再通过语言描述技能，而是直接读取对方的内部状态或“脑子”。这种方法可能比传统技能传授更高效，能快速复制能力。该思路源于实际项目经验，引发对 Agent 间知识传递方式的重新思考。

AI产品智能体知识传递多智能体系统学习机制 Agent

推荐理由：做多智能体系统的开发者可以换个思路——与其教 Agent 说话，不如让它直接读对方内存，效率可能翻倍。

原文

6月10日

16:16

16:16IT之家（博客/媒体）

阿里巴巴宣布千问上线国内首个全周期高考志愿填报Agent，基于千问高考志愿大模型和夸克8年数据打造，免费为全国考生提供志愿填报和咨询服务。该Agent具备“志愿日历”、“志愿报告”、“志愿问答”三项核心能力，能模拟人类专家思维，结合历年数据提供个性化建议。中国每年超1000万考生中，仅不到5%能聘请专业填报师，该工具旨在帮助剩余95%的家庭。志愿报告支持动态调整和自我检查，并针对乡村和弱网环境做了优化。

AI产品阿里千问高考志愿填报 Agent 免费服务教育AI

推荐理由：95%的考生家庭靠摸索填志愿，这个免费Agent直接复刻了人类专家的填报方法，做教育或关心高考的家长考生值得试试。

原文

03:42

lmarena.ai@lmarena_ai

Claude Fable 5 模型现已加入 LMSYS Chatbot Arena 的多个评测赛道，包括文本、视觉、文档和代码前端竞技场。用户可以通过对战模式投票，为排行榜贡献数据。该模型在 agent 场景下的表现也值得关注。评测入口已开放，开发者可前往 arena.ai/agent 体验。

AI模型 Claude Fable 5 LMSYS 竞技场模型评测多模态 Agent

推荐理由：Claude Fable 5 进入主流评测平台，做模型选型或 Agent 开发的团队可以直接在真实场景中对比它的表现，建议去 arena 投几票。

原文

01:15

Yangyi@Yangyixxxx

作者认为当前AI Agent只是用新技术解决旧问题，缺乏真正的创新。他指出，从2023年到2026年，行业一直在降本增效，但并未产生新的价值场景。真正的变革需要“世界模型”改变内容模态，从而催生全新场景。作者预测世界模型可能在2027年落地，带来颠覆性变化。目前AI应用多为微创新，本质是旧世界套利，而非创造新物种。

行业 Agent 世界模型行业观察创新降本增效

推荐理由：这篇观点戳中了AI行业“降本增效”的痛点，做产品、投资的读者会反思当前Agent的局限性，值得一读。

原文

6月9日

07:59

berryxia@berryxia

72°

Google NotebookLM 迎来重大升级，从笔记助手进化为能独立完成复杂多步研究的Agent。新版本内置Agentic能力、更强推理逻辑和多种输出格式，可自动拆解任务、推理并输出结果。它还能从网络获取新资料，但最终生成答案时严格依赖用户选定的来源，有效减少幻觉。这标志着AI从“人机对话”转向“人机搭档”，提升了研究、生产和学习的效率。

AI产品 NotebookLM Agent 研究工具减少幻觉 Google

推荐理由：NotebookLM 解决了AI研究工具常见的幻觉问题，做深度研究、写报告或学习的用户可以直接体验，感受Agent级生产力与可靠性的结合。

原文

04:53

rohanpaul_ai@rohanpaul_ai

精选

一篇新论文提出 AdaCoM，通过一个独立的小模型来清理和组织 Agent 的上下文，从而提升其在长任务中的表现，无需重新训练 Agent 本身。AdaCoM 在 Agent 每一步行动前，对任务历史进行重写、合并、剪枝或保留，然后让原始 Agent 基于清理后的上下文行动。与简单摘要不同，AdaCoM 能学习不同 Agent 需要何种上下文——强 Agent 可保留更多原始历史，弱 Agent 则需要更简洁的笔记。在网页搜索和深度研究任务上，AdaCoM 将平均搜索性能提升了 39%。

论文 AdaCoM 上下文管理长任务 Agent 性能提升

推荐理由：做长任务 Agent 开发的团队终于有了一个不碰模型权重就能提升性能的方案——AdaCoM 用一个小模型当上下文管家，实测搜索任务提升 39%，值得在项目里试试。

原文

02:42

宝玉@dotey

微博博主 dotey 认为，当前 AI Agent 的进化路径是从效率场景（编程、办公）逐步扩展到生活场景。微信的主要场景是生活类，但这类场景的 Agent 能力目前还很有限，即使接入小程序也难以处理订机票、酒店等复杂任务。等到效率场景被其他 Agent 抢占用户心智后，用户会自然倾向于使用同一 Agent 处理生活场景，届时微信 AI 可能失去机会。

行业 Agent 效率场景微信AI 生活场景产品策略

推荐理由：做 AI 产品经理或关注 Agent 赛道的开发者，这篇观点点出了微信 AI 在生活场景的潜在短板，值得思考自己的产品如何抢占效率场景先机。

原文

6月8日

18:16

shao__meng@shao__meng

作者开源了一个名为 Brand to DESIGN.md 的 Skill，旨在让 AI Agent 学习优秀设计并沉淀到 DESIGN.md 文件中，从而复刻生成新网站。然而作者指出，这种复刻方式虽然避免了 AI 生成的粗糙设计（AI Slop），但本质上仍只是模仿皮毛，缺乏真正的设计精髓和品味。该工具已在 GitHub 开源，但作者对当前基于模板的设计复刻方法表示反思。

AI产品开源/仓库设计品味 AI Slop Agent 设计复刻

推荐理由：做 AI 设计工具或 Agent 开发的人值得一看——作者点出了当前设计复刻方法的局限，提醒我们避免陷入新的「AI Slop」循环，建议点开原文看看他的反思。

原文

10:54

宝玉@dotey

精选

Boris Cherny 分享了使用 Claude Opus 进行长时间自主运行的 5 条建议，强调 Agent 自行验证工作成果是避免浪费 Token 的关键。建议包括使用自动模式、动态工作流、/goal 或 /loop 指令、云端运行以及端到端自验证机制。这些技巧能帮助开发者让 AI Agent 持续工作数小时甚至数天，而无需人工干预。

AI产品 Claude Agent 长时间运行自验证 Token 优化

推荐理由：长时间运行 Agent 的开发者常被 Token 浪费困扰，Boris 的 5 条建议直击痛点，尤其是自验证机制能大幅提升效率，做自动化工作流的团队值得一试。

原文

10:49

宝玉@dotey

本文对比了 Chat 时代和 Agent 时代在代码调试上的差异。在 Chat 时代，由于缺乏运行环境，开发者追求一次通过。而在 Agent 时代，只要有明确的错误反馈，修正速度会非常快。React 代码中的 JS 错误容易调试修复，CSS 错误只要定位到具体组件也很好修。但一个大的 HTML 中的样式细节错误，虽然不会明显报错，调试起来却非常困难。

AI产品 Agent 调试前端开发 React CSS

推荐理由：这篇文章点出了 Agent 时代开发效率提升的关键——明确的错误反馈让调试不再是噩梦。做前端开发、用 AI 写代码的团队，看完会对 Agent 的工作方式有更深理解。

原文

08:46

berryxia@berryxia

76°

CJ Zafir 团队推出 Mac-1，一个仅 6.6B 参数的小模型，能在 Mac 本地以 7GB 内存运行，速度达 65 tok/s。它直接集成了 487 个 Mac 原生工具，支持链式调用、自动推理，可自动发邮件、订会议等。该模型挑战了“模型越大越强”的行业共识，将 Agent 能力从云端拉回本地，且 UI 保持纯 Mac 风格，用户体验流畅。这标志着本地小模型+原生工具的组合可能终结云端 SaaS Agent 时代。

AI产品 Mac-1 Agent 本地模型小模型原生工具

推荐理由：Mac 用户和 Agent 开发者注意了——这个 6.6B 的本地模型用 7GB 内存就实现了云端大模型的 Agent 能力，还自带 487 个原生工具，建议直接下载试试，看能否替代你现在的 Siri 或云端方案。

原文

03:03

宝玉@dotey

78°

OpenAI 计划对 ChatGPT 进行自 2022 年上线以来最大规模的改版，核心方向是从聊天机器人转向超级应用。新版本将整合编程工具 Codex、AI agent、图像生成及第三方应用（如 Canva、Booking），并统一界面。首席产品官表示目标是打造跨平台的个人 AI 助手，未来甚至省去用户输入 prompt 的步骤。此举背后有商业压力：ChatGPT 虽拥有 9 亿周活用户和 20 亿美元月收入，但尚未盈利，且面临 Anthropic 和 Google 的竞争。改版预计未来几周内从网页端和手机端开始上线，旨在引导用户从免费聊天转向高利润的企业工具和编程产品，为 IPO 铺路。

AI产品 ChatGPT Agent OpenAI Codex 超级应用

推荐理由：OpenAI 把 ChatGPT 从聊天工具升级成 Agent 平台，直接回应了 Anthropic 和 Google 的竞争压力。做 AI 应用开发或企业采购的团队值得关注——Codex 和 agent 能力整合后，很多工作可以在 ChatGPT 内完成，不用跳转其他工具。

原文

02:43

Jerry Liu@jerryjliu0

Jerry Liu指出，AI原生应用的第一波浪潮正在封装Token并提供内置Agent。随着Agent使用向核心应用（如Claude Code、Codex）集中，出现了构建无需自带AI、但极易接入主流AI应用的软件的新趋势。这引发了一个开放问题：哪种模式会胜出？Ankur Goyal补充说，仍有大量“AI软件”需要围绕Agent范式从头重构。

行业 AI原生应用 Agent Token封装 Claude Code Codex

推荐理由：AI应用开发者需要理解这一范式转变——从自建AI转向嵌入主流Agent生态，做工具链或插件的团队值得关注。

原文

6月7日

08:46

AI Will@FinanceYF5

一位AI从业者在SuperAI峰会开幕前分享真实押注：今年赢家不是模型最强的团队，而是能在真实企业环境中存活的产品。大多数AI项目无法落地。他预测“Agent”一词将不再等同于聊天机器人，演示和部署将真正分开。最好的交易发生在饭桌上，而非舞台上。这些观点反映了行业从技术炫耀转向务实落地的趋势。

行业 AI落地 Agent 企业应用行业趋势 SuperAI峰会

推荐理由：从业者的真实押注戳中了AI落地的核心痛点——做AI产品的人、企业决策者、投资人，看完会重新思考自己的策略。

原文

08:25

AI Will@FinanceYF5

88°

NVIDIA 近日发布 Nemotron 3 Ultra，这是一款专为长期运行的 AI Agent 设计的旗舰开源模型。该模型采用 550B 参数的 MoE 架构，激活参数仅 55B，推理速度比同级开源模型快 5 倍，Agent 任务成本降低 30%。Nemotron 3 Ultra 旨在解决复杂、长时间运行的 Agent 任务中的效率与成本问题，为开发者提供高性能且经济的选择。该模型的开源特性有望推动 Agent 应用生态的发展。

AI模型 NVIDIA Nemotron 3 Ultra 开源模型 Agent MoE

推荐理由：做 Agent 开发的团队终于有了一个高性能且成本可控的开源选择——Nemotron 3 Ultra 推理快 5 倍、成本降 30%，值得直接上手试试。

原文

6月5日

16:14

16:14IT之家（博客/媒体）

NBA 中国与阿里巴巴合作，基于阿里千问大模型打造了首个官方大模型“NBA Chat”，已在“NBA 中国”App 上线。该模型结合篮球历史数据和球员深度分析进行微调，能为球迷提供智能问答服务，包括解读球员位置、得分等核心数据。后续还将升级 Agent 能力，支持战术拆解和赛后复盘。这是阿里巴巴成为 NBA 中国官方云计算与 AI 合作伙伴后的首个落地产品，展示了 AI 在体育领域的应用潜力。

AI产品阿里千问 NBA Chat 体育AI 智能问答 Agent

推荐理由：NBA 球迷终于有了官方 AI 助手，可以直接在 App 里问球员数据和战术分析，看球时遇到不懂的随时查，建议篮球迷点开体验。

原文

05:43

LangChain@LangChainAI

LangSmith Engine 推出新功能，将 Agent 团队手动改进循环（Trace → 找失败模式 → 修复提示/代码 → 创建评估 → 测试 → 部署 → 重复）自动化。它能将生产 Trace 转化为命名问题、根因分析、建议修复和更强的评估覆盖。这解决了 Agent 开发中调试和迭代效率低下的痛点，让团队更快定位并修复问题。

AI产品 Agent LangSmith 调试工具自动化评估覆盖

推荐理由：做 Agent 开发的团队终于可以告别手动 Trace 和找失败模式的苦活——LangSmith Engine 自动帮你做根因分析和修复建议，建议直接集成到工作流中试试。

原文

6月4日

20:43

orange.ai@oran_ge

ListenHub 今日正式上线 AI 视频生成功能，人类用户和 Agent 均可调用其服务。目前支持 HappyHorse、Seedance 2.0 等视频模型，用户输入想法或使用参考图、参考视频即可一键生成视频。人类用户可通过 ListenHub 官网使用，Agent 开发者可通过 CLI、skills 和 OpenAPI 集成。这标志着 AI 视频生成能力向多模态 Agent 生态开放，降低了视频创作门槛。

AI产品 AI视频生成 Agent 多模态 HappyHorse Seedance 2.0

推荐理由：AI 视频生成能力首次以 Agent 可调用的方式开放，做多模态应用或自动化工作流的开发者可以直接集成，省去自己对接多个模型的麻烦。

原文

10:23

arXiv: Anthropic@Arquimedes Canedo, Grama Chethan

精选

当AI Agent调用API遇到验证错误时，传统做法返回自然语言错误描述，但Agent往往无法有效修复。该论文提出Self-Reflective API，在验证失败时返回机器可读的结构化恢复建议（recovery_feedback.suggestions[]），使Agent能直接修复请求并重试，无需外部推理。在30个样本、3个LLM、10个对抗任务的实验中，结构化建议在Anthropic模型上将任务完成率提升36.7-40个百分点，且每个成功token效率提升1.8-2.2倍。在gpt-4o-mini上效果不显著，但计费API的二次验证确认了模式。研究还发现了LLM基准测试中两类未记录的答案泄露问题，并开源了审计工具。

论文 Agent API设计错误恢复结构化反馈开源/仓库

推荐理由：做Agent系统或API设计的开发者，这个方案直接解决了Agent调用API时频繁失败、需要人工介入的痛点——用结构化建议代替自然语言错误，让Agent自己就能修复重试，实测效果显著，建议直接参考其设计思路。

原文

6月3日

21:30

idoubi@idoubicc

有用户吐槽 Harmes Agent 预装 100 多个 skills 导致上下文污染、工具调用命中率下降。FastClaw 反其道而行，只预装 3 个核心 skills：find-skills（自动搜索安装）、skill-creator（动态创建并沉淀）、camoufox-cli（浏览器操作）。设计思路是让 Agent 自主发现不足、动态补充技能，并通过自我迭代适应复杂任务。作者认为模型之外都是 Harnes，预装 skills 应适应模型进步，少即是多。在 deepseek-v4-flash 上测试效果良好。

AI产品 Agent FastClaw skills 预装 Harnes 工程少即是多

推荐理由：做 Agent 开发的团队常纠结预装多少 skills 合适——这篇用 FastClaw 的 3 个 skills 方案给出了极简答案，直接解决上下文污染和工具调用命中率问题，值得参考实践。

原文