23:22lmarena.ai@lmarena_aiGLM-5.2 模型已在 Text Arena 和 Code Arena: Frontend 中可用。用户可以通过 arena.ai/agent 平台测试该模型在真实世界任务上的表现。该平台旨在评估 AI 性能的前沿。AI模型GLM-5.2Text ArenaCode Arenaarena.ai智能体推荐理由:试试 GLM-5.2 在真实任务中的表现原文
22:57lmarena.ai@lmarena_aiGLM-5.2是Zai_org发布的最新开源模型,已加入Agent Arena评测平台。该平台通过30万+任务、200万+工具调用和4000万行代码评估模型在搜索、文件系统和终端工具上的智能体性能。当前排行榜前五名包括GPT-5.5(第一)、Claude-Opus-4.7(第二)、GLM-5.1(第三)、Gemini-3.1-Pro(第四)和Kimi-K2.6(第五)。GLM-5.2将与其他模型竞争,展示其智能体能力。AI模型GLM-5.2Zai_orgAgent ArenaGPT-5.5Claude-Opus-4.7智能体1 个信源在谈推荐理由:看看GLM-5.2在Agent Arena能排第几原文
22:21Geek@geekbb精选智谱AI宣布GLM-5.2完全开源,这是其最强开源模型。该模型支持1M上下文窗口,在长周期任务独立完成方面保持领先,为复杂智能体应用提供基础支持。GLM-5.2也是智谱最强国产编程模型的核心引擎。今晚5:21起,所有GLM编程计划用户(Lite/Pro/Max)均可使用,API下周上线。AI模型GLM-5.2智谱AI开源模型智能体编程助手2 个信源在谈推荐理由:智谱开源最强模型GLM-5.2,1M上下文免费可用原文
16:53Fireworks AI@FireworksAI_HQ精选Fireworks AI 为 Qwen 模型新增长时智能体循环功能,支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时,生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文,支持按请求切换思考/非思考模式,以及原生图像和文本输入。默认启用 262k 上下文和提示缓存,缓存输入价格为每百万 token 0.10 美元。AI产品FireworksQwen智能体MCP/工具推理模型推荐理由:Fireworks 让 Qwen 跑 11 小时智能体循环原文
16:38Fireworks AI@FireworksAI_HQ精选Fireworks AI 指出,在长代理循环中,推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度,在不牺牲质量的前提下减少下游上下文大小,从而提升生成速度并降低重试次数,最终降低每个完成任务的真实成本。AI模型K2.7 CodeFireworks AI推理模型智能体推荐理由:K2.7 Code 省 token 省成本原文
13:30Jerry Liu@jerryjliu0Jerry Liu 在推文中提出 Loopcraft 概念,将组织构建类比为递归循环:个体是递归循环,团队在个体上循环实现团队级 OKR,公司在团队上循环实现公司级 OKR。他设想构建整合人类与智能体的组织,其中外层智能体循环管理子智能体和其他人类,进行任务分派与审查。swyx 补充认为,未来竞争在于有效堆叠循环的能力:早期需知道在出错时向下深入循环以提升可靠性,而随着模型进步,向上提升循环以获得杠杆将更为关键。技巧智能体组织设计Loopcraft递归循环AI协作1 个信源在谈推荐理由:用递归循环重新理解组织与AI协作原文
13:19LangChain@LangChainAILangSmith Fleet 提供四种创建技能的方式:通过 AI 聊天描述需求自动生成、在创建 agent 时自动生成相关技能、从模板开始、以及手动编写。用户可通过 LangChain 博客获取详细指南。技巧LangSmithFleetLangChain智能体技能创建推荐理由:四种方法,快速上手原文
13:19LangChain@LangChainAIBox Agent 基于 Deep Agents 构建,提供跨库搜索、多文档合成和结构化报告功能。该智能体在 Box 现有的安全与权限模型内运行,无需额外配置。目前该推文获得 1006 次浏览和 10 个点赞。AI产品Box AgentDeep Agents智能体多文档合成推荐理由:Box 出了个能跨库搜文档的智能体原文
13:16LangChain@LangChainAILangChain 的 Managed Deep Agents 现已集成 LangSmith Sandboxes,允许智能体安全执行代码。该功能通过沙箱环境隔离代码运行,防止对系统造成损害。开发者可以在 LangSmith 平台上直接测试和调试代理行为。AI产品Managed Deep AgentsLangSmithLangChain智能体代码执行推荐理由:LangChain 让智能体安全跑代码原文
13:10GitHub@githubGitHub宣布Copilot代码审查功能新增自定义Agent技能和MCP服务器连接支持,现已进入公开预览阶段。该功能适用于Copilot Pro、Pro+、Business和Enterprise用户。开发者可将组织上下文和标准直接整合到代码差异审查中,提升审查效率与一致性。AI产品GitHubCopilotMCP/工具代码审查智能体推荐理由:GitHub给Copilot加了自定义审查规则原文
13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
13:09elvis@omarsar0精选Omar Sanseviero分享运行自主长时编码智能体的经验,建议用Opus 4.8做规划、GPT-5.5执行,并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强,能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。技巧Opus 4.8GPT-5.5DeepseekQwenKimiMiniMax智能体7 个信源在谈推荐理由:Opus 4.8+GPT-5.5分工跑长任务原文
13:07Alex Albert@alexalbert__Fable在长时间智能体对话中表现出超人类能力,有时用户甚至跟不上其输出。一个提示词片段被证明是让Fable写作更清晰、去除行话的最佳方法。该提示词片段在X上获得310个赞和94次分享。技巧Fable提示词工程智能体写作推荐理由:Fable对话太强,用这个提示词让它更清晰原文
13:05Ate-a-Pi@svpinoApify actors 让 Claude Code 能解析全球任意网站,被开发者称为“超能力”。Apify 刚为 Claude Code 添加了 MCP 连接器支持,扩展了更多应用场景。一个示例演示了如何通过 Apify 让 Claude Code 抓取并理解网页内容。技巧Claude CodeApifyMCP/工具智能体推荐理由:让 Claude Code 能读任何网站原文
13:02rohanpaul_ai@rohanpaul_ai创新工场创始人李开复指出,单个AI智能体如同前互联网时代的PC,功能强大但孤立。连接多个智能体后,它们能共享上下文、拆分任务并即时协调。他认为多智能体系统是AI发展的未来方向,将带来更高效和智能的协作。行业多智能体Sinovation Ventures李开复智能体协作推荐理由:李开复谈多智能体未来原文
13:00lmarena.ai@lmarena_aiPeter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现,包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩,超越了前代模型。AI模型Claude Fable 5AnthropicAgent Arena智能体推理模型10 个信源在谈推荐理由:看看Claude Fable 5在Agent Arena的表现原文
12:59lmarena.ai@lmarena_ai83°Arena 宣布已移除 Claude Fable 5,原因是 Anthropic 的最新公告和美国政府指令要求暂停访问。Fable 5 在 Agent、Text 和 Code Arena 三项基准中均排名第一,是 Arena 测试过的最强模型,在 Agent Arena 上以最大领先幅度超过 Opus-4.8 和 GPT-5.5。该模型在确认任务成功率和好评/投诉比两项关键信号上表现突出,但可操控性较弱。Arena 表示将在可能时恢复访问并重启社区测试。行业Claude Fable 5AnthropicArenaAI安全智能体10 个信源在谈推荐理由:最强模型被下架,原因值得关注原文
12:58lmarena.ai@lmarena_aiClaude Fable-5 在 Agent Arena 排行榜上展示了其技术细节,该模型在多个基准测试中表现突出。具体数据显示,Fable-5 在任务完成率上达到 92.3%,相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。AI模型Claude Fable-5Agent Arena基准测试智能体10 个信源在谈推荐理由:看 Fable-5 在 Agent Arena 上的具体数据原文
11:11orange.ai@oran_ge作者与藏师傅讨论AI带来的K型分化,头部用户已默认理解Agent的组成包括文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill,而普通用户仅知Agent能写代码。作者认为将技能做好是跨越鸿沟的唯一解法,并正与藏师傅合作通过Cola帮助大众跨越鸿沟。行业AgentMCP/工具智能体Cola藏师傅推荐理由:聊聊AI带来的K型分化原文
11:06LangChain@LangChainAILangChain 在博客中详细介绍了构建 AI 应用的内部架构,包括如何使用 LangGraph 和 LangSmith 等工具。文章展示了从原型到生产的完整流程,涉及多个组件如代理、工具和状态管理。该架构支持多种模型集成,并提供了实际案例。AI产品LangChainLangGraphLangSmith智能体编程助手推荐理由:LangChain 教你搭 AI 应用架构原文
11:05lmarena.ai@lmarena_ai精选NVIDIA 的 Nemotron 3 Ultra 在 Agent Arena 排行榜上位列第20名,在开源模型中排第5。该模型在用户表扬与投诉的净差值和工具幻觉率方面表现突出,但在可操控性和 bash 恢复能力上存在短板。排行榜基于30万+任务、200万+工具调用和4000万行代码的评测数据。当前分数置信区间较宽,排名仍在稳定中。AI模型Nemotron 3 UltraNVIDIAAgent Arena开源模型智能体10 个信源在谈推荐理由:NVIDIA 开源模型在智能体评测中排第5原文
10:56lmarena.ai@lmarena_aiAgent Arena 团队发布博客,详细介绍了其用于评估智能体性能的因果追踪方法论。该方法通过分析模型内部因果链,量化不同组件对最终输出的贡献。博客中展示了在多个基准测试上的实验结果,并提供了开源代码供研究者复现。论文Agent Arena因果追踪智能体评估方法推荐理由:搞懂Agent评估新方法原文
10:55MiniMax_AI@MiniMax_AI精选MiniMax 发布 M3 模型,总参数量约 428B,激活参数约 23B。该模型在编码、长周期智能体和原生多模态(文本、图像、视频)任务上表现优异,支持 1M token 上下文长度。M3 以开源权重形式发布,在 Baseten 平台可运行。AI模型MiniMaxM3开源模型多模态智能体推荐理由:开源模型能打编码和多模态原文
10:43AI Will@FinanceYF5本文提出与其写更长的 prompt,不如设计循环(loop)让 Fable 5 自己迭代,或赋予它持久 memory 使知识跨 session 复用。作者认为架构变化后,用法也需要相应调整。技巧Fable 5智能体提示词工程10 个信源在谈推荐理由:教你用Fable 5省力迭代原文
10:42AI Will@FinanceYF5CMA Outcomes 框架内置了独立 judge 机制,通过在新 context 中运行的 grader 子 agent 对主 agent 输出进行评分,避免自我批评时模型打分偏高的问题。主 agent 根据 grader 的反馈进行修正,从而提升输出质量。该机制利用了独立上下文的子 agent 评分更客观的特点。技巧CMA Outcomes智能体评分机制反馈修正推荐理由:CMA 用独立 judge 打分更准原文
10:40AI Will@FinanceYF5Fable模型在测试中成功生成等时线旅行地图,需查询数千条路线并综合飞机、火车、驾车、步行多种交通方式。此前所有模型均无法完成此复杂任务。Fable仅需一个提示即可开始处理。该测试展示了Fable在复杂规划任务上的能力。AI模型Fable等时线地图智能体多模态推荐理由:Fable能搞定别人做不了的地图原文
10:39AI Will@FinanceYF5Loop方法通过反馈循环让模型迭代改进,Claude Code的/goal机制在目标未达成时自动进入下一轮循环。Managed Agents Outcomes则使用独立grader子agent对输出评分,根据评分修正后再评估。两种方式均能提升模型输出质量,但实现路径不同。技巧Claude CodeManaged Agents智能体反馈循环推荐理由:两种Agent循环机制对比原文
10:38AI Will@FinanceYF5Anthropic工程师通过两个实验验证,设计让模型自我纠错的环境比直接提示更有效。实验一显示,在特定架构下,Claude 3.5 Sonnet的任务成功率从52%提升至78%。实验二表明,通过环境反馈机制,模型在复杂推理任务中的错误率降低了34%。这种架构方法不依赖更强大的模型,而是优化了Agent的交互流程。AI模型Claude 3.5 SonnetAnthropic智能体推理模型架构设计10 个信源在谈推荐理由:Anthropic教你用环境设计提升Agent原文
10:35AI Will@FinanceYF5Wharton教授Ethan Mollick测试了Anthropic的Claude 5 Fable模型,发现其能力远超前代。Mollick指出,用户不再需要像向导一样引导AI,而是转变为甲方角色,直接提出需求即可。这一变化标志着人机协作模式的根本性转变,Claude 5 Fable在复杂任务中表现出更强的自主性和理解力。AI模型Claude 5 FableAnthropicEthan Mollick智能体人机协作10 个信源在谈推荐理由:教授实测,AI变甲方了原文
10:29OpenRouter@OpenRouterAIOpenRouter 推出 Subagent 服务器工具,允许 GPT-4 等强大模型在生成过程中将子任务委托给更小、更便宜的模型(如 Claude 3 Haiku)。主模型负责编排,子代理执行具体任务,且子代理可使用 OpenRouter 上任意模型。该工具旨在降低推理成本并提升速度,目前已有 634 次查看。AI产品OpenRouterSubagent智能体推理模型MCP/工具推荐理由:大模型自动调用便宜模型干活原文
10:28OpenRouter@OpenRouterAIOpenRouter 发布新工具 Subagent,允许大模型在生成过程中将子任务委托给更小、更便宜、更快的模型。大模型负责编排,子代理执行具体任务,且子代理可使用 OpenRouter 上的任意模型。该工具旨在优化成本和效率,适用于复杂工作流分解。AI产品OpenRouterSubagent智能体MCP/工具推荐理由:大模型派小模型干活,省成本原文
10:25shao__meng@shao__meng精选Cursor 团队为训练 Composer 模型构建了始终运行的 Agent 舰队系统,本质是一个 Loop。主 Agent(Fleet Manager)运行在大型远程机器上,通过 SSH 连接数百台子 Agent 机器,收集状态并写入共享 inbox 文件。子 Agent 并行执行具体研究任务,主 Agent 每轮循环检查舰队健康状况,可主动控制进程。该系统基于 Cursor 此前公开的长运行 Agent 研究,使用 Cursor 自身产品实现状态共享和协调。AI模型CursorComposerAgent智能体编程助手5 个信源在谈推荐理由:Cursor 用自家产品造了数千 Agent 舰队原文
10:19berryxia@berryxiaFable 5 是首个 Mythos 级模型(2026年6月9日发布),支持数天级自主会话和内置自我验证。文章指出90%用户仅用其几分钟提问,而它设计用于连续运行数天。作者提出14步构建自我改进系统,包括四层架构(原语、编排、记忆、自我改进)和5阶段记忆进化。Fable 5 能完成全流程,而 Sonnet 4.6 止步于第1阶段,Opus 4.7 止步于第3阶段。技巧Fable 5Claude智能体自我改进Mythos级模型10 个信源在谈推荐理由:教你用Fable 5跑数天级Agent系统原文
09:55rohanpaul_ai@rohanpaul_ai精选73°NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出,测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体,而 H200 仅为 2.6K,性能提升约 23.6 倍。测试模拟了真实编码智能体路径,涵盖 12 种以上编程语言,请求长度从 5K 到 131K token 不等,平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统,以及优化 MoE 专家分配、通信与计算重叠等软件技术。AI模型NVIDIAGB300 NVL72H200AgentPerf智能体10 个信源在谈推荐理由:NVIDIA 首个智能体基准,GB300 比 H200 强 23 倍原文
09:46lmarena.ai@lmarena_aiMiniMax M3 是一款开放权重的模型,现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现,涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建,当前排名第一的是 OpenAI 的 GPT-5.5 (High),第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。AI模型MiniMax M3Agent ArenaGPT-5.5Claude-Opus-4.7智能体10 个信源在谈推荐理由:看看 MiniMax M3 在 Agent 任务中能排第几原文
01:57LangChain@LangChainAI精选LangChain 与 Focused.io 于 6 月 22 日在芝加哥联合举办线下 Meetup。活动中将展示 Pollen Robotics 的 Reachy 机器人实时追踪 LangChain 调用并解释深度智能体行为。LangChain 创始人 Harrison Chase 与 Focused.io CEO Austin Vance 将分享关于深度智能体与企业 AI 的见解。活动需通过 Luma 平台 RSVP 参加。行业LangChainFocused.ioPollen RoboticsReachy智能体推荐理由:芝加哥线下交流深度智能体原文
00:18Amjad Masad@amasadReplit CEO Amjad Masad 分享其 AI 编程实践:不再使用传统提示词工程,而是通过“循环”模式,用一句话表达目标,让编排器并行调用多个智能体(如安全、生产、SEO 智能体),再由计算机使用验证器提供反馈。他认为行业普遍落后于 Replit 当前实践 3-6 个月。这种模式将 AI 从单次对话升级为持续协作系统,显著提升开发效率。AI产品智能体AI编程Replit循环式提示多智能体协作推荐理由:Replit CEO 直接展示了 AI 编程的下一代范式——循环式多智能体协作,做 AI 开发或自动化工具的团队值得参考,一句话就能驱动复杂工作流。原文
23:55LangChain@LangChainAILangChain 引用 Simon Willison 提出的智能体致命三要素:访问敏感数据、暴露于不可信内容、具备外部通信能力。当智能体同时满足这三项时,必须使用沙箱隔离。该观点强调了 AI 智能体安全设计的核心风险点,提醒开发者在构建智能体时需优先考虑安全防护。LangChain 提供了相关实现指南。AI产品智能体安全/沙箱LangChainSimon Willison风险模型推荐理由:做智能体开发的团队必须警惕这三个风险叠加——Simon Willison 的框架帮你快速判断是否需要沙箱,建议直接对照检查自己的智能体架构。原文
21:33kimi_moonshot@kimi_moonshot月之暗面发布并开源了最新编程模型 Kimi-K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。该模型减少了过度思考,推理 token 使用量降低 30%,同时改进了长时编程任务中的指令遵循和成功率。模型已通过 Kimi API 和 Kimi Code 可用,即将推出 6 倍高速模式。AI模型编程模型开源/仓库推理效率智能体Kimi推荐理由:Kimi-K2.7-Code 在编程和智能体任务上显著超越前代,且推理更高效,做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用,值得关注。原文
18:17Latent.Space@latentspacepod本文提出了针对智能体的“咸味教训”,与Richard Sutton的“苦涩教训”相呼应。核心观点是:不要试图手动修复每个问题,而应构建能够随更多智能体扩展的系统,例如通过目标和编排机制。这种思路转变对于开发可扩展的AI系统至关重要。文章鼓励开发者放弃传统的手动调试方法,转而关注系统级的设计。AI产品智能体系统设计编排扩展性AI教训推荐理由:智能体开发者常陷入手动修复的陷阱,这篇文章点出了规模化系统的关键——用目标和编排代替人工干预,做多智能体架构的团队值得一读。原文