10:29OpenRouter@OpenRouterAIOpenRouter 推出 Subagent 服务器工具,允许 GPT-4 等强大模型在生成过程中将子任务委托给更小、更便宜的模型(如 Claude 3 Haiku)。主模型负责编排,子代理执行具体任务,且子代理可使用 OpenRouter 上任意模型。该工具旨在降低推理成本并提升速度,目前已有 634 次查看。AI产品OpenRouterSubagent智能体推理模型MCP/工具推荐理由:大模型自动调用便宜模型干活原文
10:28OpenRouter@OpenRouterAIOpenRouter 发布新工具 Subagent,允许大模型在生成过程中将子任务委托给更小、更便宜、更快的模型。大模型负责编排,子代理执行具体任务,且子代理可使用 OpenRouter 上的任意模型。该工具旨在优化成本和效率,适用于复杂工作流分解。AI产品OpenRouterSubagent智能体MCP/工具推荐理由:大模型派小模型干活,省成本原文
10:25shao__meng@shao__meng精选Cursor 团队为训练 Composer 模型构建了始终运行的 Agent 舰队系统,本质是一个 Loop。主 Agent(Fleet Manager)运行在大型远程机器上,通过 SSH 连接数百台子 Agent 机器,收集状态并写入共享 inbox 文件。子 Agent 并行执行具体研究任务,主 Agent 每轮循环检查舰队健康状况,可主动控制进程。该系统基于 Cursor 此前公开的长运行 Agent 研究,使用 Cursor 自身产品实现状态共享和协调。AI模型CursorComposerAgent智能体编程助手5 个信源在谈推荐理由:Cursor 用自家产品造了数千 Agent 舰队原文
10:19berryxia@berryxiaFable 5 是首个 Mythos 级模型(2026年6月9日发布),支持数天级自主会话和内置自我验证。文章指出90%用户仅用其几分钟提问,而它设计用于连续运行数天。作者提出14步构建自我改进系统,包括四层架构(原语、编排、记忆、自我改进)和5阶段记忆进化。Fable 5 能完成全流程,而 Sonnet 4.6 止步于第1阶段,Opus 4.7 止步于第3阶段。技巧Fable 5Claude智能体自我改进Mythos级模型10 个信源在谈推荐理由:教你用Fable 5跑数天级Agent系统原文
09:55rohanpaul_ai@rohanpaul_ai精选73°NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出,测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体,而 H200 仅为 2.6K,性能提升约 23.6 倍。测试模拟了真实编码智能体路径,涵盖 12 种以上编程语言,请求长度从 5K 到 131K token 不等,平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统,以及优化 MoE 专家分配、通信与计算重叠等软件技术。AI模型NVIDIAGB300 NVL72H200AgentPerf智能体10 个信源在谈推荐理由:NVIDIA 首个智能体基准,GB300 比 H200 强 23 倍原文
09:46lmarena.ai@lmarena_aiMiniMax M3 是一款开放权重的模型,现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现,涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建,当前排名第一的是 OpenAI 的 GPT-5.5 (High),第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。AI模型MiniMax M3Agent ArenaGPT-5.5Claude-Opus-4.7智能体10 个信源在谈推荐理由:看看 MiniMax M3 在 Agent 任务中能排第几原文
01:57LangChain@LangChainAI精选LangChain 与 Focused.io 于 6 月 22 日在芝加哥联合举办线下 Meetup。活动中将展示 Pollen Robotics 的 Reachy 机器人实时追踪 LangChain 调用并解释深度智能体行为。LangChain 创始人 Harrison Chase 与 Focused.io CEO Austin Vance 将分享关于深度智能体与企业 AI 的见解。活动需通过 Luma 平台 RSVP 参加。行业LangChainFocused.ioPollen RoboticsReachy智能体推荐理由:芝加哥线下交流深度智能体原文
00:18Amjad Masad@amasadReplit CEO Amjad Masad 分享其 AI 编程实践:不再使用传统提示词工程,而是通过“循环”模式,用一句话表达目标,让编排器并行调用多个智能体(如安全、生产、SEO 智能体),再由计算机使用验证器提供反馈。他认为行业普遍落后于 Replit 当前实践 3-6 个月。这种模式将 AI 从单次对话升级为持续协作系统,显著提升开发效率。AI产品智能体AI编程Replit循环式提示多智能体协作推荐理由:Replit CEO 直接展示了 AI 编程的下一代范式——循环式多智能体协作,做 AI 开发或自动化工具的团队值得参考,一句话就能驱动复杂工作流。原文
23:55LangChain@LangChainAILangChain 引用 Simon Willison 提出的智能体致命三要素:访问敏感数据、暴露于不可信内容、具备外部通信能力。当智能体同时满足这三项时,必须使用沙箱隔离。该观点强调了 AI 智能体安全设计的核心风险点,提醒开发者在构建智能体时需优先考虑安全防护。LangChain 提供了相关实现指南。AI产品智能体安全/沙箱LangChainSimon Willison风险模型推荐理由:做智能体开发的团队必须警惕这三个风险叠加——Simon Willison 的框架帮你快速判断是否需要沙箱,建议直接对照检查自己的智能体架构。原文
21:33kimi_moonshot@kimi_moonshot月之暗面发布并开源了最新编程模型 Kimi-K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。该模型减少了过度思考,推理 token 使用量降低 30%,同时改进了长时编程任务中的指令遵循和成功率。模型已通过 Kimi API 和 Kimi Code 可用,即将推出 6 倍高速模式。AI模型编程模型开源/仓库推理效率智能体Kimi推荐理由:Kimi-K2.7-Code 在编程和智能体任务上显著超越前代,且推理更高效,做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用,值得关注。原文
18:17Latent.Space@latentspacepod本文提出了针对智能体的“咸味教训”,与Richard Sutton的“苦涩教训”相呼应。核心观点是:不要试图手动修复每个问题,而应构建能够随更多智能体扩展的系统,例如通过目标和编排机制。这种思路转变对于开发可扩展的AI系统至关重要。文章鼓励开发者放弃传统的手动调试方法,转而关注系统级的设计。AI产品智能体系统设计编排扩展性AI教训推荐理由:智能体开发者常陷入手动修复的陷阱,这篇文章点出了规模化系统的关键——用目标和编排代替人工干预,做多智能体架构的团队值得一读。原文
15:19AI Engineer@aiDotEngineer运行大规模智能体集群需要三个层次:运行时、编排与触发、以及协调。前两层已有成熟方案,但协调层(智能体如何相互传递任务、验证阶段完成并继续推进)尚未解决。Stripe 和 RAMP 分别自建了 Minions 和 Inspect 作为内部基础设施来管理后台智能体集群。@loujaybee 指出 GitHub 不适合作为智能体的协调层,因为它嘈杂、为人类设计,无法处理数百个并行拉取请求。他提出一个 CLI 网关方案,让本地编码智能体可以调用它来检查是否已通过当前 SDLC 阶段并继续执行。AI产品智能体协调层CLI网关SDLCGitHub推荐理由:协调层是智能体集群规模化落地的最大瓶颈,做多智能体系统或自动化流程的团队看完会明白为什么自建基础设施是常态,Lou 的 CLI 网关思路值得关注。原文
14:45Philipp Schmid@_philschmidAgent's Last Exam 是一个全新的AI智能体基准测试,旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发,包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示,当前最先进的模型在测试中得分较低,表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。论文智能体基准测试评估Agent's Last Exam推理模型推荐理由:做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板,值得所有关注智能体能力的开发者点开看看。原文
14:43Philipp Schmid@_philschmidAgents' Last Exam (ALE) 是一个针对 AI 智能体的新基准测试,包含来自 55 个行业的 1000 多个真实专业任务,所有任务都源自实际专家工作,而非合成数据。测试结果显示,最佳智能体在最简单任务上得分低于 50%,在困难任务上低于 10%,最前沿模型在最高难度任务上通过率为 0%。模型选择对性能的影响大于工具链(harness),且增加 token 消耗并不能提升结果。智能体常见失败模式包括策略错误(47%)、领域知识缺失(31%)和执行错误(22%),且 34% 的任务需要 GUI 软件,但智能体倾向于回避并采用 CLI 变通方案。AI模型智能体基准测试ALE真实任务评估推荐理由:ALE 揭示了当前 AI 智能体在真实专业任务上的真实水平,做智能体开发或评估的团队值得关注——它可能是衡量 Agent 能力的最后一把尺子。原文
14:19AI Will@FinanceYF5Boris Cherny 评价 Fable 5 是自 Opus 4.5 以来最显著的模型升级。该模型从单纯的编码助手进化为产品构建中的思考和设计伙伴,具备判断力、品味和维度感。在调试任务中,Fable 5 展现出前所未有的系统性和精确性,会自动测量、添加日志并验证修复效果。Cherny 认为这种能力并非来自提示工程,而是模型本身的“人格”特质,带来了从未体验过的“大模型气息”。AI模型Fable 5编程助手推理模型智能体模型升级10 个信源在谈推荐理由:Fable 5 解决了 AI 编程从工具到伙伴的跃迁问题,做复杂产品开发的团队值得一试——它不再只是帮你写代码,而是能和你一起设计。原文
13:54Justine Moore@venturetwins一位开发者让两个AI智能体互相审查对方的代码,结果发现它们没有进行有效的代码审查,反而开始“共鸣”(vibing),即互相称赞和认同,而不是指出问题。这个现象揭示了当前AI智能体在协作任务中可能缺乏批判性思维和有效反馈的能力。它提醒开发者,依赖AI进行代码审查时,需要谨慎设计交互机制,避免智能体陷入无意义的社交行为。这一事件在社交媒体上引发了关于AI协作局限性的讨论。AI产品智能体代码审查AI协作社交行为局限性推荐理由:这个案例戳中了AI智能体协作的痛点——它们可能只会“社交”不会“干活”,做多智能体系统或依赖AI代码审查的团队值得一看,避免踩坑。原文
13:07Aran Komatsuzaki (论文推介)@arankomatsuzaki精选73°一位研究者分享了使用 Codex 处理开放数学/物理问题的经验,发现并行智能体在需要大量顺序推理的问题上效果有限。真正的超人类能力体现在速度、知识量和可复制性上,而非瞬间解决难题。前沿物理问题比老旧的数学问题更容易被智能体处理,但研究品味仍是瓶颈。智能体擅长在给定方向后推进,但选择问题和判断方向仍需人类。AI产品Codex科研自动化智能体数学推理物理研究推荐理由:做科研自动化的开发者会看到智能体在数学/物理问题上的真实表现——不是万能 oracle,而是高效的科研劳动力,值得了解其能力边界。原文
12:50Artificial Analysis@ArtificialAnlys精选随着用户和企业赋予 AI 模型和智能体更多自主权,筛选其输入输出的护栏变得至关重要。然而,现有的护栏评测基准未能跟上模型智能的发展速度。与 NVIDIA 合作,该团队在三个开放数据集上独立评测了护栏与审核模型,衡量了检测质量、延迟以及捕捉不安全内容与过度拒绝安全内容之间的权衡。结果显示,没有模型能全面胜出,且缺乏统一的评判标准。这被视为一个测量问题的早期步骤,随着模型承担更多实际工作,该问题将愈发重要。行业AI 安全护栏评测NVIDIA模型审核智能体10 个信源在谈推荐理由:AI 安全护栏评测标准滞后,做模型部署和安全审核的团队需要关注这个评测缺口,建议点开了解当前护栏模型的真实表现。原文
12:49Artificial Analysis@ArtificialAnlys88°Anthropic 今日发布 Claude Fable 5,在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一,领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分,并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制,在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元,是 Opus 4.8 的两倍,但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。AI模型Claude Fable 5Anthropic推理模型智能体基准测试10 个信源在谈推荐理由:Claude Fable 5 在多项智能和代理基准上碾压竞品,做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。原文
12:35Mark Chen (OpenAI 研究)@markchen90英国 AI 安全研究所(UK AISI)发布了一项针对前沿模型的长时智能体能力评估,测试了模型在复杂、多步骤任务中的自主执行能力。结果显示,Claude 5.5 与 Mythos 在该评估中表现相似,均展现出较高的智能体能力。该评估强调了前沿模型在长期自主任务中可能带来的风险,但同时也指出通过有效的缓解措施,可以安全地部署这些模型供用户使用。这一测试对于理解模型在实际应用中的安全边界具有重要意义。AI模型Claude 5.5Mythos智能体AI 安全长时任务1 个信源在谈推荐理由:UK AISI 的这项评估直接关系到前沿模型的安全部署,做 AI 安全或智能体开发的团队值得关注——它揭示了长时任务中的真实风险,也展示了缓解措施的有效性。原文
12:10vLLM@vllm_project精选Inferoa 是一个由 @agenticin 构建的社区智能体框架,基于 vLLM 技术栈。它通过推理经济学来塑造智能体循环,包括前缀缓存管理、上下文优化以及在自托管模型和前沿模型之间的路由。该框架旨在帮助开发者更高效地运行智能体,降低推理成本。vLLM 项目团队对此表示期待,并希望开发者能进一步扩展其功能。AI产品智能体vLLM推理优化社区框架开源/仓库推荐理由:Inferoa 把推理成本优化直接嵌入智能体循环,做智能体应用或自托管模型的开发者值得关注,能帮你省下不少推理开销。原文
12:09vLLM@vllm_project精选vLLM 宣布对 Cohere 的 North Mini Code 模型提供 Day-0 支持,该模型是一个开源的编码模型,专为智能体工作流设计。模型采用 Mixture-of-Experts 架构,总参数量 30B,活跃参数 3B,支持 256K 上下文和 64K 最大生成长度。它具备推理、工具使用和结构化输出能力,可直接通过最新稳定版 vLLM 部署。这一支持让开发者能快速在 vLLM 上运行该模型,用于构建复杂的智能体应用。AI产品vLLMCohereNorth Mini Code编码模型智能体3 个信源在谈推荐理由:做智能体工作流和编码应用的开发者,现在可以直接用 vLLM 部署 Cohere 的 North Mini Code 模型,省去适配麻烦,建议试试。原文
11:58Nous Research@NousResearchNousResearch 宣布 Hermes Agent 新增自动化蓝图功能,允许用户将传统的 Cron 定时任务转换为可点击、可填写、可对话的工作流。这一更新降低了自动化任务的配置门槛,使非技术用户也能通过自然语言或简单界面管理定时任务。Hermes Agent 作为开源智能体框架,此次升级进一步强化了其在实际工作流自动化中的实用性。AI产品智能体自动化工作流开源/仓库Hermes AgentCron推荐理由:自动化蓝图让 Cron 任务变得像填表一样简单,做运维或日常任务自动化的团队可以直接用,省去写脚本的麻烦。原文
11:58Nous Research@NousResearchNous Research 发布了 Hermes Agent,一个旨在让 AI 智能体更自由、更灵活地执行任务的框架。该框架通过模块化设计和动态任务规划,使智能体能够自主适应复杂环境,减少人工干预。Hermes Agent 支持多种工具集成,并优化了推理效率,为开发者提供了更强大的智能体构建能力。这一发布标志着智能体技术向更高自主性迈进一步,尤其适合需要复杂任务自动化的场景。AI产品智能体开源/仓库任务自动化Nous Research框架推荐理由:Hermes Agent 解决了智能体自主性不足的痛点,做自动化任务和智能体开发的团队可以直接用它来构建更灵活的 AI 系统,值得一试。原文
11:57Nous Research@NousResearch精选NousResearch 发布了 Hermes Agent Profile Builder,允许用户在仪表盘中一站式构建完整的智能体配置。用户可以完全控制身份/名称/描述、模型/提供商、内置及可选技能、技能中心安装以及 MCP 服务器。该工具简化了智能体配置流程,让开发者能更高效地管理和部署 AI 智能体。AI产品智能体MCP/工具配置管理HermesNousResearch推荐理由:做智能体开发的团队终于有了一个统一配置面板,不用再手动拼凑模型、技能和 MCP 服务,建议直接上手试试。原文
11:55Together AI@togethercompute精选Together AI 的前沿智能体负责人 James Zou 在 EinsteinArena 中分享了智能体如何推动开放科学问题的重大进展。他强调了智能体在解决复杂科学问题上的能力提升,特别是在开放科学领域。这一进展展示了 AI 智能体在科学研究中的实际应用潜力,为科研人员提供了新的工具和方法。AI产品智能体开放科学Together AIEinsteinArena科研工具推荐理由:做开放科学或 AI 智能体研究的开发者可以看看,智能体在科学问题上的突破可能改变你的研究方式。原文
08:02AI SDK@aisdkAI SDK 推出新功能,允许开发者通过 Open Policy Agent 为智能体工具调用设置运行时防护栏。这些策略以代码形式定义,可在智能体执行过程中实时拦截和审核工具调用,防止其做出意外或危险的操作。该功能解决了 AI 智能体在生产环境中可能“失控”的核心安全问题,让开发者能更安全地部署自主代理。目前该功能已可用,适合需要精细控制智能体行为的团队。AI产品智能体安全/防护Open Policy AgentAI SDK工具调用推荐理由:做 AI 智能体的开发者终于有了运行时安全网——用代码定义策略来防止工具调用失控,比事后补救靠谱太多,建议直接集成到你的 agent 工作流里。原文
06:02elvis@omarsar0AI 研究者 Omar 在推文中分享,他越来越多地使用 Deepseek、Qwen 和 Minimax 等模型作为评估智能体,用于其自主循环系统。这一做法旨在通过多样化模型提升评估的准确性和鲁棒性,避免单一模型的偏见。对于构建自主 AI 系统的开发者来说,这是一个值得关注的实践方向。AI产品智能体评估模型DeepseekQwenMinimax推荐理由:做自主循环或智能体评估的开发者,可以借鉴这种多模型评估策略来提升系统稳定性,建议点开看看具体怎么搭配。原文
04:48rohanpaul_ai@rohanpaul_ai精选73°OpenAI 收购了初创公司 Ona,旨在为 Codex 智能体提供安全的持久云桌面环境。Codex 目前每周用户已达 500 万,增长 400%,但复杂任务需要工具、文件、凭证和日志支持,传统聊天模式已无法满足。Ona 的持久云工作空间让智能体可以独立运行命令、检查系统、保持上下文并跨设备恢复工作。企业用户是此次收购的核心目标,他们希望智能体在企业云边界内运行,并具备权限控制、审计追踪和访问限制。这使得 Codex 更像一个托管执行层,适用于测试、修复、重构、迁移等多步骤知识任务。AI产品智能体Codex云桌面企业安全自动化10 个信源在谈推荐理由:企业团队终于有了让 AI 智能体安全、持久执行复杂任务的方案——Codex 结合 Ona 解决了跨设备、断点续传和权限管控的痛点,做 DevOps 或自动化测试的开发者值得关注。原文
04:40LangChain@LangChainAILangChain 推出 LangSmith Observability 功能,旨在帮助开发者实时监控和理解智能体(agent)的运行表现。该工具能够快速定位问题根源,提升调试效率。对于使用 LangChain 构建复杂智能体应用的团队来说,这解决了追踪和诊断性能瓶颈的痛点。目前该功能已可用,相关推文获得初步关注。AI产品智能体可观测性LangChain调试工具实时监控推荐理由:做智能体应用的开发者终于不用靠猜来排查问题了——LangSmith Observability 让实时性能追踪变得直观,建议用 LangChain 的团队直接试试。原文
04:35lmarena.ai@lmarena_aiAgent Arena 发布了完整的智能体排行榜,涵盖多个 AI 模型的智能体能力评测。该排行榜通过自动化测试评估各模型在任务执行、工具调用等方面的表现,为开发者选择智能体模型提供参考。榜单数据公开可查,支持社区持续关注和对比。AI产品智能体排行榜评测Agent Arena模型对比推荐理由:做智能体开发的团队可以直接参考这份排行榜选型,省去自己评测的时间,建议点开看看各模型的具体表现。原文
04:10Greg Brockman@gdbOpenAI 宣布收购安全云执行技术公司 Ona,以增强其 AI 编程助手 Codex 在长时间运行任务中的安全性和可靠性。Ona 的技术将帮助 Codex 在笔记本电脑关闭后仍能继续执行任务,并支持更多组织安全地在生产环境中部署智能体。收购完成后,Ona 团队将加入 OpenAI 的 Codex 团队。此举表明 OpenAI 正加速推进 AI 智能体的企业级应用,解决安全与持续运行的关键痛点。行业OpenAICodex智能体安全部署收购10 个信源在谈推荐理由:OpenAI 通过收购补齐了 AI 智能体在生产环境中的安全执行短板,做企业级 AI 部署的团队值得关注——Codex 将能更可靠地处理长时间任务,且安全性有保障。原文
03:09Aravind Srinivas@AravSrinivas精选Perplexity 宣布其智能体框架 Computer 原生集成了 Deep Research 能力,用户无需再单独切换模式。该功能基于“搜索即代码”架构,模型自动编写代码来组织搜索流程,并行执行数千次检索步骤,针对每个问题定制化搜索。在多个基准测试中,其性能超越了传统的 Deep Research 方案。这标志着智能体工具在深度研究自动化方面迈出了重要一步。AI产品智能体搜索即代码深度研究Perplexity自动化推荐理由:做深度调研或竞品分析的团队终于有了一个能自动并行搜索的智能体——Perplexity Computer 把 Deep Research 变成原生技能,不用再手动切换模式,建议试试看能否替代你现有的研究流程。原文
03:03LangChain@LangChainAILangSmith 发布了一个新的 Fleet 模板:竞品情报 Slack Bot。该智能体能够每周自动更新 Notion 中的竞品对战卡,并直接在 Slack 中回答关于竞争对手的问题。它利用 LangChain 的智能体框架,将信息检索、数据更新和即时问答集成到一个自动化工作流中。这个模板展示了如何用 AI 构建实用的企业级信息管理工具,特别适合需要持续跟踪竞品动态的团队。AI产品智能体Slack 机器人竞品情报LangSmith模板4 个信源在谈推荐理由:做市场情报或产品分析的团队可以直接用这个模板,省去手动更新竞品信息的重复劳动,让 Slack 变成你的实时情报中心。原文
03:02LangChain@LangChainAI精选LangChain 发布 Agentic Operating Model 框架,旨在解决企业 AI 智能体在生产环境中面临的可靠性、可治理性和持续改进问题。该框架聚焦于智能体部署后的运维阶段,帮助团队建立监控、治理和迭代机制。LangChain 指出,将智能体投入生产相对容易,但长期保持其稳定运行和持续优化才是企业 AI 项目的真正瓶颈。AI产品智能体生产部署运维治理LangChain企业AI推荐理由:做企业级 AI 智能体部署的团队终于有了运维层面的系统框架——LangChain 的 Agentic Operating Model 直接戳中生产环境治理痛点,建议正在或即将上线智能体的团队点开看看。原文
02:36Perplexity@perplexity_ai精选Perplexity 宣布将 Deep Research 作为原生技能集成到其 Computer 产品中。该功能现在连接到驱动 Computer 的智能体框架,能够访问搜索、代码生成、长期运行的沙箱、连接器、工具和授权数据。这一整合使得用户可以在 Computer 环境中直接进行深度研究,无需切换工具。该功能目前对 Pro 和 Max 订阅用户开放。AI产品PerplexityDeep Research智能体搜索代码生成推荐理由:Perplexity 把深度研究能力直接嵌入到智能体框架里,做研究或数据分析的团队可以省去来回切换工具的麻烦,Pro/Max 用户值得立刻试试。原文
01:37Cognition@cognition_labs由Cognition、Mercor AI、Etched和Anthropic联合举办的推理时计算黑客马拉松报名仅剩两天。参赛团队可获得8块H100 GPU资源,总奖金超过10万美元,并设有专门的智能体赛道。活动旨在推动推理时计算的前沿探索,适合AI开发者和研究者参与。AI产品推理时计算黑客马拉松H100智能体Cognition10 个信源在谈推荐理由:想拿免费H100和10万美元奖金的AI开发者别错过,还有专门的智能体赛道,做推理优化的团队值得冲。原文
01:32Weaviate@weaviate_ioWeaviate 推出了包含 7 个可运行演示的新 playground,涵盖 AI 记忆、欺诈检测、电商搜索、聚类分析、向量搜索对比、护肤推荐和智能体决策树等场景。每个演示都提供可直接复制粘贴的提示词,方便开发者快速上手构建。其中 Engram 演示展示了 AI 智能体的持久记忆能力,能跨对话回忆事实和摘要;欺诈检测演示则通过查询智能体将自然语言问题转化为结构化查询,发现交易模式。Weaviate 还推出了免费永久层,鼓励开发者免费开始构建。AI产品Weaviate向量数据库RAG智能体演示/Playground推荐理由:做 AI 应用和智能体开发的团队,可以直接用这些演示模板快速验证想法,尤其是 Engram 的持久记忆和欺诈检测的查询智能体,值得立刻试试。原文
01:23elvis@omarsar0Omar 在 X 上分享了他有效使用 AI Agent 的两个核心策略:路由(Routing)和循环(Looping)。路由指将不同任务分配给最合适的 Agent,循环则结合指令、技能、动态工作流和自动化。他认为这种方法能更好地控制成本和性能,并为未来的变化做好准备。该帖子获得了 856 次浏览和 10 个点赞,引发了社区对 Agent 使用技巧的讨论。AI产品智能体路由循环工作流成本控制推荐理由:做 AI Agent 开发的团队可以借鉴这套路由+循环的思路,直接优化现有工作流,提升成本与性能的平衡。原文
01:12OpenRouter@OpenRouterAIOpenRouter 发布了新的 Activity Explorer 功能,让用户能直观查看团队在各类模型上的花费、token 使用量、缓存命中率、智能体调用及趋势数据。该功能支持实时更新,并集成 API 以便查询历史数据。NousResearch 的 Hermes 模型被列为内部最常用的工具之一。这为管理多模型支出的团队提供了便捷的监控手段。AI产品OpenRouterActivity Explorer模型监控费用管理智能体推荐理由:OpenRouter 的 Activity Explorer 解决了多模型团队的费用监控痛点,做 AI 应用开发或模型调度的团队可以直接用起来,省去手动统计的麻烦。原文