全部 AI 动态 · AI 热点

AITOP

6月13日

23:22

lmarena.ai@lmarena_ai

GLM-5.2 模型已在 Text Arena 和 Code Arena: Frontend 中可用。用户可以通过 arena.ai/agent 平台测试该模型在真实世界任务上的表现。该平台旨在评估 AI 性能的前沿。

AI模型 GLM-5.2 Text Arena Code Arena arena.ai 智能体

推荐理由：试试 GLM-5.2 在真实任务中的表现

原文

22:57

lmarena.ai@lmarena_ai

AI模型 GLM-5.2 Zai_org Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看GLM-5.2在Agent Arena能排第几

原文

22:21

Geek@geekbb

精选

智谱AI宣布GLM-5.2完全开源，这是其最强开源模型。该模型支持1M上下文窗口，在长周期任务独立完成方面保持领先，为复杂智能体应用提供基础支持。GLM-5.2也是智谱最强国产编程模型的核心引擎。今晚5:21起，所有GLM编程计划用户（Lite/Pro/Max）均可使用，API下周上线。

AI模型 GLM-5.2 智谱AI 开源模型智能体编程助手

推荐理由：智谱开源最强模型GLM-5.2，1M上下文免费可用

原文

16:53

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 为 Qwen 模型新增长时智能体循环功能，支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时，生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文，支持按请求切换思考/非思考模式，以及原生图像和文本输入。默认启用 262k 上下文和提示缓存，缓存输入价格为每百万 token 0.10 美元。

AI产品 Fireworks Qwen 智能体 MCP/工具推理模型

推荐理由：Fireworks 让 Qwen 跑 11 小时智能体循环

原文

16:38

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 指出，在长代理循环中，推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度，在不牺牲质量的前提下减少下游上下文大小，从而提升生成速度并降低重试次数，最终降低每个完成任务的真实成本。

AI模型 K2.7 Code Fireworks AI 推理模型智能体

推荐理由：K2.7 Code 省 token 省成本

原文

13:30

Jerry Liu@jerryjliu0

Jerry Liu 在推文中提出 Loopcraft 概念，将组织构建类比为递归循环：个体是递归循环，团队在个体上循环实现团队级 OKR，公司在团队上循环实现公司级 OKR。他设想构建整合人类与智能体的组织，其中外层智能体循环管理子智能体和其他人类，进行任务分派与审查。swyx 补充认为，未来竞争在于有效堆叠循环的能力：早期需知道在出错时向下深入循环以提升可靠性，而随着模型进步，向上提升循环以获得杠杆将更为关键。

技巧智能体组织设计 Loopcraft 递归循环 AI协作

推荐理由：用递归循环重新理解组织与AI协作

原文

13:19

LangChain@LangChainAI

LangSmith Fleet 提供四种创建技能的方式：通过 AI 聊天描述需求自动生成、在创建 agent 时自动生成相关技能、从模板开始、以及手动编写。用户可通过 LangChain 博客获取详细指南。

技巧 LangSmith Fleet LangChain 智能体技能创建

推荐理由：四种方法，快速上手

原文

13:19

LangChain@LangChainAI

Box Agent 基于 Deep Agents 构建，提供跨库搜索、多文档合成和结构化报告功能。该智能体在 Box 现有的安全与权限模型内运行，无需额外配置。目前该推文获得 1006 次浏览和 10 个点赞。

AI产品 Box Agent Deep Agents 智能体多文档合成

推荐理由：Box 出了个能跨库搜文档的智能体

原文

13:16

LangChain@LangChainAI

LangChain 的 Managed Deep Agents 现已集成 LangSmith Sandboxes，允许智能体安全执行代码。该功能通过沙箱环境隔离代码运行，防止对系统造成损害。开发者可以在 LangSmith 平台上直接测试和调试代理行为。

AI产品 Managed Deep Agents LangSmith LangChain 智能体代码执行

推荐理由：LangChain 让智能体安全跑代码

原文

13:10

GitHub@github

GitHub宣布Copilot代码审查功能新增自定义Agent技能和MCP服务器连接支持，现已进入公开预览阶段。该功能适用于Copilot Pro、Pro+、Business和Enterprise用户。开发者可将组织上下文和标准直接整合到代码差异审查中，提升审查效率与一致性。

AI产品 GitHub Copilot MCP/工具代码审查智能体

推荐理由：GitHub给Copilot加了自定义审查规则

原文

13:10

rohanpaul_ai@rohanpaul_ai

精选

AGENTCL 提出一个评估语言智能体持续学习能力的新基准，通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流（后续任务可复用前序任务的代码函数、研究证据或工作流）与“朴素”任务流（任务同领域但无明确复用关系）。研究发现，当前记忆方法在任务连接明显时能复用过往经验，但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。

论文 AGENTCL 智能体持续学习记忆基准

推荐理由：看智能体记忆到底行不行

原文

13:09

elvis@omarsar0

精选

Omar Sanseviero分享运行自主长时编码智能体的经验，建议用Opus 4.8做规划、GPT-5.5执行，并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强，能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen Kimi MiniMax 智能体

推荐理由：Opus 4.8+GPT-5.5分工跑长任务

原文

13:07

Alex Albert@alexalbert__

Fable在长时间智能体对话中表现出超人类能力，有时用户甚至跟不上其输出。一个提示词片段被证明是让Fable写作更清晰、去除行话的最佳方法。该提示词片段在X上获得310个赞和94次分享。

技巧 Fable 提示词工程智能体写作

推荐理由：Fable对话太强，用这个提示词让它更清晰

原文

13:05

Ate-a-Pi@svpino

Apify actors 让 Claude Code 能解析全球任意网站，被开发者称为“超能力”。Apify 刚为 Claude Code 添加了 MCP 连接器支持，扩展了更多应用场景。一个示例演示了如何通过 Apify 让 Claude Code 抓取并理解网页内容。

技巧 Claude Code Apify MCP/工具智能体

推荐理由：让 Claude Code 能读任何网站

原文

13:02

rohanpaul_ai@rohanpaul_ai

创新工场创始人李开复指出，单个AI智能体如同前互联网时代的PC，功能强大但孤立。连接多个智能体后，它们能共享上下文、拆分任务并即时协调。他认为多智能体系统是AI发展的未来方向，将带来更高效和智能的协作。

行业多智能体 Sinovation Ventures 李开复智能体协作

推荐理由：李开复谈多智能体未来

原文

13:00

lmarena.ai@lmarena_ai

Peter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现，包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩，超越了前代模型。

AI模型 Claude Fable 5 Anthropic Agent Arena 智能体推理模型

推荐理由：看看Claude Fable 5在Agent Arena的表现

原文

12:59

lmarena.ai@lmarena_ai

83°

Arena 宣布已移除 Claude Fable 5，原因是 Anthropic 的最新公告和美国政府指令要求暂停访问。Fable 5 在 Agent、Text 和 Code Arena 三项基准中均排名第一，是 Arena 测试过的最强模型，在 Agent Arena 上以最大领先幅度超过 Opus-4.8 和 GPT-5.5。该模型在确认任务成功率和好评/投诉比两项关键信号上表现突出，但可操控性较弱。Arena 表示将在可能时恢复访问并重启社区测试。

行业 Claude Fable 5 Anthropic Arena AI安全智能体

推荐理由：最强模型被下架，原因值得关注

原文

12:58

lmarena.ai@lmarena_ai

Claude Fable-5 在 Agent Arena 排行榜上展示了其技术细节，该模型在多个基准测试中表现突出。具体数据显示，Fable-5 在任务完成率上达到 92.3%，相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。

AI模型 Claude Fable-5 Agent Arena 基准测试智能体

推荐理由：看 Fable-5 在 Agent Arena 上的具体数据

原文

11:11

orange.ai@oran_ge

作者与藏师傅讨论AI带来的K型分化，头部用户已默认理解Agent的组成包括文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill，而普通用户仅知Agent能写代码。作者认为将技能做好是跨越鸿沟的唯一解法，并正与藏师傅合作通过Cola帮助大众跨越鸿沟。

行业 Agent MCP/工具智能体 Cola 藏师傅

推荐理由：聊聊AI带来的K型分化

原文

11:06

LangChain@LangChainAI

LangChain 在博客中详细介绍了构建 AI 应用的内部架构，包括如何使用 LangGraph 和 LangSmith 等工具。文章展示了从原型到生产的完整流程，涉及多个组件如代理、工具和状态管理。该架构支持多种模型集成，并提供了实际案例。

AI产品 LangChain LangGraph LangSmith 智能体编程助手

推荐理由：LangChain 教你搭 AI 应用架构

原文

11:05

lmarena.ai@lmarena_ai

精选

NVIDIA 的 Nemotron 3 Ultra 在 Agent Arena 排行榜上位列第20名，在开源模型中排第5。该模型在用户表扬与投诉的净差值和工具幻觉率方面表现突出，但在可操控性和 bash 恢复能力上存在短板。排行榜基于30万+任务、200万+工具调用和4000万行代码的评测数据。当前分数置信区间较宽，排名仍在稳定中。

AI模型 Nemotron 3 Ultra NVIDIA Agent Arena 开源模型智能体

推荐理由：NVIDIA 开源模型在智能体评测中排第5

原文

10:56

lmarena.ai@lmarena_ai

Agent Arena 团队发布博客，详细介绍了其用于评估智能体性能的因果追踪方法论。该方法通过分析模型内部因果链，量化不同组件对最终输出的贡献。博客中展示了在多个基准测试上的实验结果，并提供了开源代码供研究者复现。

论文 Agent Arena 因果追踪智能体评估方法

推荐理由：搞懂Agent评估新方法

原文

10:55

MiniMax_AI@MiniMax_AI

精选

MiniMax 发布 M3 模型，总参数量约 428B，激活参数约 23B。该模型在编码、长周期智能体和原生多模态（文本、图像、视频）任务上表现优异，支持 1M token 上下文长度。M3 以开源权重形式发布，在 Baseten 平台可运行。

AI模型 MiniMax M3 开源模型多模态智能体

推荐理由：开源模型能打编码和多模态

原文

10:43

AI Will@FinanceYF5

本文提出与其写更长的 prompt，不如设计循环（loop）让 Fable 5 自己迭代，或赋予它持久 memory 使知识跨 session 复用。作者认为架构变化后，用法也需要相应调整。

技巧 Fable 5 智能体提示词工程

推荐理由：教你用Fable 5省力迭代

原文

10:42

AI Will@FinanceYF5

CMA Outcomes 框架内置了独立 judge 机制，通过在新 context 中运行的 grader 子 agent 对主 agent 输出进行评分，避免自我批评时模型打分偏高的问题。主 agent 根据 grader 的反馈进行修正，从而提升输出质量。该机制利用了独立上下文的子 agent 评分更客观的特点。

技巧 CMA Outcomes 智能体评分机制反馈修正

推荐理由：CMA 用独立 judge 打分更准

原文

10:40

AI Will@FinanceYF5

Fable模型在测试中成功生成等时线旅行地图，需查询数千条路线并综合飞机、火车、驾车、步行多种交通方式。此前所有模型均无法完成此复杂任务。Fable仅需一个提示即可开始处理。该测试展示了Fable在复杂规划任务上的能力。

AI模型 Fable 等时线地图智能体多模态

推荐理由：Fable能搞定别人做不了的地图

原文

10:39

AI Will@FinanceYF5

Loop方法通过反馈循环让模型迭代改进，Claude Code的/goal机制在目标未达成时自动进入下一轮循环。Managed Agents Outcomes则使用独立grader子agent对输出评分，根据评分修正后再评估。两种方式均能提升模型输出质量，但实现路径不同。

技巧 Claude Code Managed Agents 智能体反馈循环

推荐理由：两种Agent循环机制对比

原文

10:38

AI Will@FinanceYF5

Anthropic工程师通过两个实验验证，设计让模型自我纠错的环境比直接提示更有效。实验一显示，在特定架构下，Claude 3.5 Sonnet的任务成功率从52%提升至78%。实验二表明，通过环境反馈机制，模型在复杂推理任务中的错误率降低了34%。这种架构方法不依赖更强大的模型，而是优化了Agent的交互流程。

AI模型 Claude 3.5 Sonnet Anthropic 智能体推理模型架构设计

推荐理由：Anthropic教你用环境设计提升Agent

原文

10:35

AI Will@FinanceYF5

Wharton教授Ethan Mollick测试了Anthropic的Claude 5 Fable模型，发现其能力远超前代。Mollick指出，用户不再需要像向导一样引导AI，而是转变为甲方角色，直接提出需求即可。这一变化标志着人机协作模式的根本性转变，Claude 5 Fable在复杂任务中表现出更强的自主性和理解力。

AI模型 Claude 5 Fable Anthropic Ethan Mollick 智能体人机协作

推荐理由：教授实测，AI变甲方了

原文

10:29

OpenRouter@OpenRouterAI

OpenRouter 推出 Subagent 服务器工具，允许 GPT-4 等强大模型在生成过程中将子任务委托给更小、更便宜的模型（如 Claude 3 Haiku）。主模型负责编排，子代理执行具体任务，且子代理可使用 OpenRouter 上任意模型。该工具旨在降低推理成本并提升速度，目前已有 634 次查看。

AI产品 OpenRouter Subagent 智能体推理模型 MCP/工具

推荐理由：大模型自动调用便宜模型干活

原文

10:28

OpenRouter@OpenRouterAI

OpenRouter 发布新工具 Subagent，允许大模型在生成过程中将子任务委托给更小、更便宜、更快的模型。大模型负责编排，子代理执行具体任务，且子代理可使用 OpenRouter 上的任意模型。该工具旨在优化成本和效率，适用于复杂工作流分解。

AI产品 OpenRouter Subagent 智能体 MCP/工具

推荐理由：大模型派小模型干活，省成本

原文

10:25

shao__meng@shao__meng

精选

Cursor 团队为训练 Composer 模型构建了始终运行的 Agent 舰队系统，本质是一个 Loop。主 Agent（Fleet Manager）运行在大型远程机器上，通过 SSH 连接数百台子 Agent 机器，收集状态并写入共享 inbox 文件。子 Agent 并行执行具体研究任务，主 Agent 每轮循环检查舰队健康状况，可主动控制进程。该系统基于 Cursor 此前公开的长运行 Agent 研究，使用 Cursor 自身产品实现状态共享和协调。

AI模型 Cursor Composer Agent 智能体编程助手

推荐理由：Cursor 用自家产品造了数千 Agent 舰队

原文

10:19

berryxia@berryxia

Fable 5 是首个 Mythos 级模型（2026年6月9日发布），支持数天级自主会话和内置自我验证。文章指出90%用户仅用其几分钟提问，而它设计用于连续运行数天。作者提出14步构建自我改进系统，包括四层架构（原语、编排、记忆、自我改进）和5阶段记忆进化。Fable 5 能完成全流程，而 Sonnet 4.6 止步于第1阶段，Opus 4.7 止步于第3阶段。

技巧 Fable 5 Claude 智能体自我改进 Mythos级模型

推荐理由：教你用Fable 5跑数天级Agent系统

原文

09:55

rohanpaul_ai@rohanpaul_ai

精选73°

NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出，测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体，而 H200 仅为 2.6K，性能提升约 23.6 倍。测试模拟了真实编码智能体路径，涵盖 12 种以上编程语言，请求长度从 5K 到 131K token 不等，平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统，以及优化 MoE 专家分配、通信与计算重叠等软件技术。

AI模型 NVIDIA GB300 NVL72 H200 AgentPerf 智能体

推荐理由：NVIDIA 首个智能体基准，GB300 比 H200 强 23 倍

原文

09:46

lmarena.ai@lmarena_ai

MiniMax M3 是一款开放权重的模型，现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现，涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建，当前排名第一的是 OpenAI 的 GPT-5.5 (High)，第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。

AI模型 MiniMax M3 Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看 MiniMax M3 在 Agent 任务中能排第几

原文

01:57

LangChain@LangChainAI

精选

LangChain 与 Focused.io 于 6 月 22 日在芝加哥联合举办线下 Meetup。活动中将展示 Pollen Robotics 的 Reachy 机器人实时追踪 LangChain 调用并解释深度智能体行为。LangChain 创始人 Harrison Chase 与 Focused.io CEO Austin Vance 将分享关于深度智能体与企业 AI 的见解。活动需通过 Luma 平台 RSVP 参加。

行业 LangChain Focused.io Pollen Robotics Reachy 智能体

推荐理由：芝加哥线下交流深度智能体

原文

00:18

Amjad Masad@amasad

Replit CEO Amjad Masad 分享其 AI 编程实践：不再使用传统提示词工程，而是通过“循环”模式，用一句话表达目标，让编排器并行调用多个智能体（如安全、生产、SEO 智能体），再由计算机使用验证器提供反馈。他认为行业普遍落后于 Replit 当前实践 3-6 个月。这种模式将 AI 从单次对话升级为持续协作系统，显著提升开发效率。

AI产品智能体 AI编程 Replit 循环式提示多智能体协作

推荐理由：Replit CEO 直接展示了 AI 编程的下一代范式——循环式多智能体协作，做 AI 开发或自动化工具的团队值得参考，一句话就能驱动复杂工作流。

原文

6月12日

23:55

LangChain@LangChainAI

LangChain 引用 Simon Willison 提出的智能体致命三要素：访问敏感数据、暴露于不可信内容、具备外部通信能力。当智能体同时满足这三项时，必须使用沙箱隔离。该观点强调了 AI 智能体安全设计的核心风险点，提醒开发者在构建智能体时需优先考虑安全防护。LangChain 提供了相关实现指南。

AI产品智能体安全/沙箱 LangChain Simon Willison 风险模型

推荐理由：做智能体开发的团队必须警惕这三个风险叠加——Simon Willison 的框架帮你快速判断是否需要沙箱，建议直接对照检查自己的智能体架构。

原文

21:33

kimi_moonshot@kimi_moonshot

AI模型编程模型开源/仓库推理效率智能体 Kimi

推荐理由：Kimi-K2.7-Code 在编程和智能体任务上显著超越前代，且推理更高效，做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用，值得关注。

原文

18:17

Latent.Space@latentspacepod

本文提出了针对智能体的“咸味教训”，与Richard Sutton的“苦涩教训”相呼应。核心观点是：不要试图手动修复每个问题，而应构建能够随更多智能体扩展的系统，例如通过目标和编排机制。这种思路转变对于开发可扩展的AI系统至关重要。文章鼓励开发者放弃传统的手动调试方法，转而关注系统级的设计。

AI产品智能体系统设计编排扩展性 AI教训

推荐理由：智能体开发者常陷入手动修复的陷阱，这篇文章点出了规模化系统的关键——用目标和编排代替人工干预，做多智能体架构的团队值得一读。

原文