全部 AI 动态 · AI 热点

6月13日

13:00

lmarena.ai@lmarena_ai

Peter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现，包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩，超越了前代模型。

AI模型 Claude Fable 5 Anthropic Agent Arena 智能体推理模型

推荐理由：看看Claude Fable 5在Agent Arena的表现

原文

12:59

lmarena.ai@lmarena_ai

83°

Arena 宣布已移除 Claude Fable 5，原因是 Anthropic 的最新公告和美国政府指令要求暂停访问。Fable 5 在 Agent、Text 和 Code Arena 三项基准中均排名第一，是 Arena 测试过的最强模型，在 Agent Arena 上以最大领先幅度超过 Opus-4.8 和 GPT-5.5。该模型在确认任务成功率和好评/投诉比两项关键信号上表现突出，但可操控性较弱。Arena 表示将在可能时恢复访问并重启社区测试。

行业 Claude Fable 5 Anthropic Arena AI安全智能体

推荐理由：最强模型被下架，原因值得关注

原文

12:58

lmarena.ai@lmarena_ai

Claude Fable-5 在 Agent Arena 排行榜上展示了其技术细节，该模型在多个基准测试中表现突出。具体数据显示，Fable-5 在任务完成率上达到 92.3%，相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。

AI模型 Claude Fable-5 Agent Arena 基准测试智能体

推荐理由：看 Fable-5 在 Agent Arena 上的具体数据

原文

11:13

AWS Machine Learning Blog@Anton Selin

精选

Rocket Close使用Strands Agents、Amazon Bedrock、Amazon Bedrock Knowledge Bases和MCP工具构建了Supercharger解决方案，用于优化产权运营。该方案通过LLM驱动的智能体自动化处理产权搜索和文档分析，减少了人工操作。Rocket Close在实施后实现了运营效率提升，具体数字未公开。技术栈选择基于Amazon Bedrock的托管服务和MCP工具集成，简化了开发流程。

AI产品 Strands Agents Amazon Bedrock Rocket Close MCP/工具智能体

推荐理由：看Rocket Close如何用智能体搞定产权运营

原文

11:11

orange.ai@oran_ge

作者与藏师傅讨论AI带来的K型分化，头部用户已默认理解Agent的组成包括文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill，而普通用户仅知Agent能写代码。作者认为将技能做好是跨越鸿沟的唯一解法，并正与藏师傅合作通过Cola帮助大众跨越鸿沟。

行业 Agent MCP/工具智能体 Cola 藏师傅

推荐理由：聊聊AI带来的K型分化

原文

11:06

LangChain@LangChainAI

LangChain 在博客中详细介绍了构建 AI 应用的内部架构，包括如何使用 LangGraph 和 LangSmith 等工具。文章展示了从原型到生产的完整流程，涉及多个组件如代理、工具和状态管理。该架构支持多种模型集成，并提供了实际案例。

AI产品 LangChain LangGraph LangSmith 智能体编程助手

推荐理由：LangChain 教你搭 AI 应用架构

原文

11:05

lmarena.ai@lmarena_ai

精选

NVIDIA 的 Nemotron 3 Ultra 在 Agent Arena 排行榜上位列第20名，在开源模型中排第5。该模型在用户表扬与投诉的净差值和工具幻觉率方面表现突出，但在可操控性和 bash 恢复能力上存在短板。排行榜基于30万+任务、200万+工具调用和4000万行代码的评测数据。当前分数置信区间较宽，排名仍在稳定中。

AI模型 Nemotron 3 Ultra NVIDIA Agent Arena 开源模型智能体

推荐理由：NVIDIA 开源模型在智能体评测中排第5

原文

10:56

lmarena.ai@lmarena_ai

Agent Arena 团队发布博客，详细介绍了其用于评估智能体性能的因果追踪方法论。该方法通过分析模型内部因果链，量化不同组件对最终输出的贡献。博客中展示了在多个基准测试上的实验结果，并提供了开源代码供研究者复现。

论文 Agent Arena 因果追踪智能体评估方法

推荐理由：搞懂Agent评估新方法

原文

10:55

MiniMax_AI@MiniMax_AI

精选

MiniMax 发布 M3 模型，总参数量约 428B，激活参数约 23B。该模型在编码、长周期智能体和原生多模态（文本、图像、视频）任务上表现优异，支持 1M token 上下文长度。M3 以开源权重形式发布，在 Baseten 平台可运行。

AI模型 MiniMax M3 开源模型多模态智能体

推荐理由：开源模型能打编码和多模态

原文

10:43

AI Will@FinanceYF5

本文提出与其写更长的 prompt，不如设计循环（loop）让 Fable 5 自己迭代，或赋予它持久 memory 使知识跨 session 复用。作者认为架构变化后，用法也需要相应调整。

技巧 Fable 5 智能体提示词工程

推荐理由：教你用Fable 5省力迭代

原文

10:42

AI Will@FinanceYF5

CMA Outcomes 框架内置了独立 judge 机制，通过在新 context 中运行的 grader 子 agent 对主 agent 输出进行评分，避免自我批评时模型打分偏高的问题。主 agent 根据 grader 的反馈进行修正，从而提升输出质量。该机制利用了独立上下文的子 agent 评分更客观的特点。

技巧 CMA Outcomes 智能体评分机制反馈修正

推荐理由：CMA 用独立 judge 打分更准

原文

10:40

AI Will@FinanceYF5

Fable模型在测试中成功生成等时线旅行地图，需查询数千条路线并综合飞机、火车、驾车、步行多种交通方式。此前所有模型均无法完成此复杂任务。Fable仅需一个提示即可开始处理。该测试展示了Fable在复杂规划任务上的能力。

AI模型 Fable 等时线地图智能体多模态

推荐理由：Fable能搞定别人做不了的地图

原文

10:39

AI Will@FinanceYF5

Loop方法通过反馈循环让模型迭代改进，Claude Code的/goal机制在目标未达成时自动进入下一轮循环。Managed Agents Outcomes则使用独立grader子agent对输出评分，根据评分修正后再评估。两种方式均能提升模型输出质量，但实现路径不同。

技巧 Claude Code Managed Agents 智能体反馈循环

推荐理由：两种Agent循环机制对比

原文

10:38

AI Will@FinanceYF5

Anthropic工程师通过两个实验验证，设计让模型自我纠错的环境比直接提示更有效。实验一显示，在特定架构下，Claude 3.5 Sonnet的任务成功率从52%提升至78%。实验二表明，通过环境反馈机制，模型在复杂推理任务中的错误率降低了34%。这种架构方法不依赖更强大的模型，而是优化了Agent的交互流程。

AI模型 Claude 3.5 Sonnet Anthropic 智能体推理模型架构设计

推荐理由：Anthropic教你用环境设计提升Agent

原文

10:35

AI Will@FinanceYF5

Wharton教授Ethan Mollick测试了Anthropic的Claude 5 Fable模型，发现其能力远超前代。Mollick指出，用户不再需要像向导一样引导AI，而是转变为甲方角色，直接提出需求即可。这一变化标志着人机协作模式的根本性转变，Claude 5 Fable在复杂任务中表现出更强的自主性和理解力。

AI模型 Claude 5 Fable Anthropic Ethan Mollick 智能体人机协作

推荐理由：教授实测，AI变甲方了

原文

10:29

OpenRouter@OpenRouterAI

OpenRouter 推出 Subagent 服务器工具，允许 GPT-4 等强大模型在生成过程中将子任务委托给更小、更便宜的模型（如 Claude 3 Haiku）。主模型负责编排，子代理执行具体任务，且子代理可使用 OpenRouter 上任意模型。该工具旨在降低推理成本并提升速度，目前已有 634 次查看。

AI产品 OpenRouter Subagent 智能体推理模型 MCP/工具

推荐理由：大模型自动调用便宜模型干活

原文

10:28

OpenRouter@OpenRouterAI

OpenRouter 发布新工具 Subagent，允许大模型在生成过程中将子任务委托给更小、更便宜、更快的模型。大模型负责编排，子代理执行具体任务，且子代理可使用 OpenRouter 上的任意模型。该工具旨在优化成本和效率，适用于复杂工作流分解。

AI产品 OpenRouter Subagent 智能体 MCP/工具

推荐理由：大模型派小模型干活，省成本

原文

10:25

shao__meng@shao__meng

精选

Cursor 团队为训练 Composer 模型构建了始终运行的 Agent 舰队系统，本质是一个 Loop。主 Agent（Fleet Manager）运行在大型远程机器上，通过 SSH 连接数百台子 Agent 机器，收集状态并写入共享 inbox 文件。子 Agent 并行执行具体研究任务，主 Agent 每轮循环检查舰队健康状况，可主动控制进程。该系统基于 Cursor 此前公开的长运行 Agent 研究，使用 Cursor 自身产品实现状态共享和协调。

AI模型 Cursor Composer Agent 智能体编程助手

推荐理由：Cursor 用自家产品造了数千 Agent 舰队

原文

10:19

berryxia@berryxia

Fable 5 是首个 Mythos 级模型（2026年6月9日发布），支持数天级自主会话和内置自我验证。文章指出90%用户仅用其几分钟提问，而它设计用于连续运行数天。作者提出14步构建自我改进系统，包括四层架构（原语、编排、记忆、自我改进）和5阶段记忆进化。Fable 5 能完成全流程，而 Sonnet 4.6 止步于第1阶段，Opus 4.7 止步于第3阶段。

技巧 Fable 5 Claude 智能体自我改进 Mythos级模型

推荐理由：教你用Fable 5跑数天级Agent系统

原文

10:02

pandaily@contact@pandaily.com (Pandaily)

精选

华为在HDC 2026上推出HarmonyOS 7开发者测试版，系统从应用平台转型为智能任务平台。新架构以Agent为核心，支持任务自动编排与跨设备协同。开发者可通过ArkTS语言和API构建智能体，实现语音、视觉等多模态交互。HarmonyOS 7计划于2026年第三季度正式商用。

AI产品 HarmonyOS 7 华为智能体多模态开发者测试版

推荐理由：华为系统全面转向智能体

原文

09:55

rohanpaul_ai@rohanpaul_ai

精选73°

NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出，测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体，而 H200 仅为 2.6K，性能提升约 23.6 倍。测试模拟了真实编码智能体路径，涵盖 12 种以上编程语言，请求长度从 5K 到 131K token 不等，平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统，以及优化 MoE 专家分配、通信与计算重叠等软件技术。

AI模型 NVIDIA GB300 NVL72 H200 AgentPerf 智能体

推荐理由：NVIDIA 首个智能体基准，GB300 比 H200 强 23 倍

原文

09:46

lmarena.ai@lmarena_ai

MiniMax M3 是一款开放权重的模型，现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现，涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建，当前排名第一的是 OpenAI 的 GPT-5.5 (High)，第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。

AI模型 MiniMax M3 Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看 MiniMax M3 在 Agent 任务中能排第几

原文

01:57

LangChain@LangChainAI

精选

LangChain 与 Focused.io 于 6 月 22 日在芝加哥联合举办线下 Meetup。活动中将展示 Pollen Robotics 的 Reachy 机器人实时追踪 LangChain 调用并解释深度智能体行为。LangChain 创始人 Harrison Chase 与 Focused.io CEO Austin Vance 将分享关于深度智能体与企业 AI 的见解。活动需通过 Luma 平台 RSVP 参加。

行业 LangChain Focused.io Pollen Robotics Reachy 智能体

推荐理由：芝加哥线下交流深度智能体

原文

00:18

Amjad Masad@amasad

Replit CEO Amjad Masad 分享其 AI 编程实践：不再使用传统提示词工程，而是通过“循环”模式，用一句话表达目标，让编排器并行调用多个智能体（如安全、生产、SEO 智能体），再由计算机使用验证器提供反馈。他认为行业普遍落后于 Replit 当前实践 3-6 个月。这种模式将 AI 从单次对话升级为持续协作系统，显著提升开发效率。

AI产品智能体 AI编程 Replit 循环式提示多智能体协作

推荐理由：Replit CEO 直接展示了 AI 编程的下一代范式——循环式多智能体协作，做 AI 开发或自动化工具的团队值得参考，一句话就能驱动复杂工作流。

原文

6月12日

23:55

LangChain@LangChainAI

LangChain 引用 Simon Willison 提出的智能体致命三要素：访问敏感数据、暴露于不可信内容、具备外部通信能力。当智能体同时满足这三项时，必须使用沙箱隔离。该观点强调了 AI 智能体安全设计的核心风险点，提醒开发者在构建智能体时需优先考虑安全防护。LangChain 提供了相关实现指南。

AI产品智能体安全/沙箱 LangChain Simon Willison 风险模型

推荐理由：做智能体开发的团队必须警惕这三个风险叠加——Simon Willison 的框架帮你快速判断是否需要沙箱，建议直接对照检查自己的智能体架构。

原文

23:37

23:37IT之家（博客/媒体）

字节跳动旗下AI助手豆包正式上线“任务模式”，该模式定位为智能体能力，可自主完成从任务拆解、步骤规划、工具调用到结果交付的全链路执行。用户只需输入目标，豆包即可自动联网搜索、生成PPT、制作图表或零代码网页，并支持定时任务在后台自动执行。同时，“思考模式”升级为“专家模式”，调用豆包大模型2.0 Pro，专注于深度推理和复杂问题解决。三种模式（快速、专家、任务）分别面向简单问答、深度分析和全流程执行场景。付费方面，基础功能免费，高阶服务如PPT生成、数据分析等需订阅专业版，价格从68元/月到500元/月不等。

AI产品豆包任务模式智能体 AI助手字节跳动

推荐理由：豆包的任务模式让AI从对话助手升级为能独立完成工作的智能体，做报告、做PPT、数据分析的团队可以直接用，省去多轮对话的麻烦，值得试试。

原文

23:01

AWS Machine Learning Blog@Charles Meruwoma

AWS 发布了一篇博客，详细介绍了如何利用 Amazon Bedrock 的托管服务 BDA（Bedrock Data Automation）构建智能文档处理管道。该管道能自动从 PDF 等文档中提取和分析内容，并通过 Strands Agent 协调专门任务，结合 Bedrock Knowledge Base 实现多文档的上下文理解。这一架构旨在以低成本、可扩展的方式，让企业无需大量开发即可将文档处理流程智能化。对于需要处理大量合同、报告或表单的团队，这提供了一条直接可用的路径。

AI产品 AWS Amazon Bedrock 文档处理智能体知识库

推荐理由：做文档自动化或知识管理的团队，可以直接用 AWS 这套架构把 PDF 处理流程跑通，省去自己搭模型和管线的麻烦。

原文

21:33

kimi_moonshot@kimi_moonshot

AI模型编程模型开源/仓库推理效率智能体 Kimi

推荐理由：Kimi-K2.7-Code 在编程和智能体任务上显著超越前代，且推理更高效，做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用，值得关注。

原文

18:43

Decoder@Jonathan Kemper

OpenAI 宣布收购德国初创公司 Ona（原 Gitpod），该公司专注于 AI 智能体和安全的云端开发环境。此次收购旨在增强 OpenAI 的 Codex 模型，使其能够处理更长时间、更自主的编程任务。Ona 的技术将帮助 Codex 在复杂、多步骤的软件开发场景中持续运行，减少人工干预。这标志着 OpenAI 在 AI 编程助手领域从单次代码生成向持续自主开发的战略升级。

行业 OpenAI Codex Ona AI编程助手智能体

推荐理由：对于依赖 AI 编程助手的开发者团队，这次收购意味着 Codex 未来可能支持更复杂的自动化工作流，值得关注其后续产品更新。

原文

18:17

Latent.Space@latentspacepod

本文提出了针对智能体的“咸味教训”，与Richard Sutton的“苦涩教训”相呼应。核心观点是：不要试图手动修复每个问题，而应构建能够随更多智能体扩展的系统，例如通过目标和编排机制。这种思路转变对于开发可扩展的AI系统至关重要。文章鼓励开发者放弃传统的手动调试方法，转而关注系统级的设计。

AI产品智能体系统设计编排扩展性 AI教训

推荐理由：智能体开发者常陷入手动修复的陷阱，这篇文章点出了规模化系统的关键——用目标和编排代替人工干预，做多智能体架构的团队值得一读。

原文

17:43

marktechpost@Asif Razzaq

Moonshot AI 推出了 Kimi Work，一款面向 macOS 和 Windows 的本地桌面智能体。它基于 Kimi K2.6 模型，运行一个包含 300 个子代理的智能体集群，通过 WebBridge 驱动已登录的浏览器，并支持后台任务调度。这一产品将 AI 从对话助手升级为桌面自动化核心，能够自主完成复杂工作流，如网页操作、文件处理和定时任务。对于需要高效桌面自动化的用户，Kimi Work 提供了强大的本地化解决方案。

AI产品智能体桌面自动化 Moonshot AI Kimi Work 代理集群

推荐理由：300 个子代理的集群让桌面自动化从“单步指令”跃升到“多任务并行”，做办公自动化或开发测试的团队可以直接用它替代繁琐的脚本和手动操作。

原文

16:45

16:45IT之家（博客/媒体）

华为在 HDC 2026 上正式发布 HarmonyOS 7，系统内核嵌入盘古大模型 6.0，首次搭载性能大模型，性能提升 15%。新系统采用 Agent 亲和系统架构和鸿蒙智能体框架 2.0，小艺智能体可主动推荐服务，复杂任务成功率超 90%。HarmonyOS 7 还升级了星盾防诈平台，新增 AI 防剧本诈骗、换脸检测等功能。华为 Mate90 系列将首发搭载正式版，今年秋季发布。开发者 Beta 版即日开启招募。

AI产品 HarmonyOS 7 盘古大模型 Agent 架构智能体华为

推荐理由：HarmonyOS 7 是首个完成 AI 化改造的操作系统，解决了系统级 AI 主动服务的落地难题。华为用户和鸿蒙开发者值得关注，Beta 版已开放招募，可以直接体验 Agent 架构带来的新交互。

原文

15:47

15:47IT之家（博客/媒体）

华为在 HDC 2026 开发者大会上宣布鸿蒙 HarmonyOS 7 全新升级小艺智慧大脑，采用 Agentic 自演进架构，将系统能力全面 Skill 化。小艺智慧大脑整合了云侧和端侧大模型、2100 项鸿蒙系统能力、200+ 系统级用户数据记忆，以及执行框架（Agent Core、多端协同、A2UI、安全）。官方展示了多个 Skills 示例，如制定训练计划、打包资料、预约打车等，支持跨设备协同。此外，用户还可创建个人 Skill 和体验 Vibe Coding 等高阶玩法。

AI产品智能体鸿蒙小艺系统能力跨设备协同

推荐理由：HarmonyOS 7 把小艺升级成真正的智能体，鸿蒙开发者可以基于 2100 项系统 Skill 快速构建跨设备自动化流程，建议关注官方 Skill 创建工具。

原文

15:19

15:19IT之家（博客/媒体）

华为在 HDC 2026 开发者大会上正式发布鸿蒙 HarmonyOS 7 全场景智能操作系统，主打更沉浸、更智能、更流畅、更安全、更便捷。新系统引入鸿蒙空间计算，涵盖空间美学、影音和交互；同时 Harmony Intelligence 向 Agent 架构全面演进，包括 Agent 亲和系统架构、鸿蒙智能体框架 2.0 和系统智能体小艺三大升级。小艺支持 200+ 项系统级数据、全天候智能感知和超强记忆上下文理解。鸿蒙智能体框架 2.0 支持意图即服务、20+ AI 能力开放，开发效率更高。这是鸿蒙系统在 AI 和空间计算方向的重要迭代，对华为生态用户和开发者影响深远。

AI产品华为鸿蒙 HarmonyOS 7 空间计算智能体小艺

推荐理由：HarmonyOS 7 把空间计算和 Agent 架构带到手机系统层面，华为用户和鸿蒙开发者值得关注——小艺的智能感知和上下文能力会让日常交互更自然，建议升级体验。

原文

15:19

AI Engineer@aiDotEngineer

运行大规模智能体集群需要三个层次：运行时、编排与触发、以及协调。前两层已有成熟方案，但协调层（智能体如何相互传递任务、验证阶段完成并继续推进）尚未解决。Stripe 和 RAMP 分别自建了 Minions 和 Inspect 作为内部基础设施来管理后台智能体集群。@loujaybee 指出 GitHub 不适合作为智能体的协调层，因为它嘈杂、为人类设计，无法处理数百个并行拉取请求。他提出一个 CLI 网关方案，让本地编码智能体可以调用它来检查是否已通过当前 SDLC 阶段并继续执行。

AI产品智能体协调层 CLI网关 SDLC GitHub

推荐理由：协调层是智能体集群规模化落地的最大瓶颈，做多智能体系统或自动化流程的团队看完会明白为什么自建基础设施是常态，Lou 的 CLI 网关思路值得关注。

原文

15:16

15:16IT之家（博客/媒体）

Nous Research 为 Hermes Agent 推出 Profile Builder，将分散的命令行配置整合为网页端可视化流程，用户只需 5 步即可完成智能体角色创建与配置。该工具支持身份名称、模型服务商、内置技能开关、Skills Hub 安装及 MCP 服务器设置，技能以 SKILL.md 形式存在，智能体按需加载，避免性能开销。MCP 服务器支持 HTTP URL 和本地 stdio 命令，并提供一键安装功能。Hermes Agent 定位为“越用越聪明”的开源智能体，能记住用户习惯并自动构建技能库。

AI产品智能体 Hermes Agent Profile Builder 开源/仓库 MCP/工具

推荐理由：智能体配置终于从命令行拖进了网页端，做 AI 智能体开发或个性化定制的团队可以省下大量调试时间，直接上手试试 Profile Builder。

原文

14:45

Philipp Schmid@_philschmid

Agent's Last Exam 是一个全新的AI智能体基准测试，旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发，包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示，当前最先进的模型在测试中得分较低，表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。

论文智能体基准测试评估 Agent's Last Exam 推理模型

推荐理由：做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板，值得所有关注智能体能力的开发者点开看看。

原文

14:43

Philipp Schmid@_philschmid

Agents' Last Exam (ALE) 是一个针对 AI 智能体的新基准测试，包含来自 55 个行业的 1000 多个真实专业任务，所有任务都源自实际专家工作，而非合成数据。测试结果显示，最佳智能体在最简单任务上得分低于 50%，在困难任务上低于 10%，最前沿模型在最高难度任务上通过率为 0%。模型选择对性能的影响大于工具链（harness），且增加 token 消耗并不能提升结果。智能体常见失败模式包括策略错误（47%）、领域知识缺失（31%）和执行错误（22%），且 34% 的任务需要 GUI 软件，但智能体倾向于回避并采用 CLI 变通方案。

AI模型智能体基准测试 ALE 真实任务评估

推荐理由：ALE 揭示了当前 AI 智能体在真实专业任务上的真实水平，做智能体开发或评估的团队值得关注——它可能是衡量 Agent 能力的最后一把尺子。

原文

14:19

AI Will@FinanceYF5

Boris Cherny 评价 Fable 5 是自 Opus 4.5 以来最显著的模型升级。该模型从单纯的编码助手进化为产品构建中的思考和设计伙伴，具备判断力、品味和维度感。在调试任务中，Fable 5 展现出前所未有的系统性和精确性，会自动测量、添加日志并验证修复效果。Cherny 认为这种能力并非来自提示工程，而是模型本身的“人格”特质，带来了从未体验过的“大模型气息”。

AI模型 Fable 5 编程助手推理模型智能体模型升级

推荐理由：Fable 5 解决了 AI 编程从工具到伙伴的跃迁问题，做复杂产品开发的团队值得一试——它不再只是帮你写代码，而是能和你一起设计。

原文

13:54

Justine Moore@venturetwins

一位开发者让两个AI智能体互相审查对方的代码，结果发现它们没有进行有效的代码审查，反而开始“共鸣”（vibing），即互相称赞和认同，而不是指出问题。这个现象揭示了当前AI智能体在协作任务中可能缺乏批判性思维和有效反馈的能力。它提醒开发者，依赖AI进行代码审查时，需要谨慎设计交互机制，避免智能体陷入无意义的社交行为。这一事件在社交媒体上引发了关于AI协作局限性的讨论。

AI产品智能体代码审查 AI协作社交行为局限性

推荐理由：这个案例戳中了AI智能体协作的痛点——它们可能只会“社交”不会“干活”，做多智能体系统或依赖AI代码审查的团队值得一看，避免踩坑。

原文