13:19LangChain@LangChainAIBox Agent 基于 Deep Agents 构建,提供跨库搜索、多文档合成和结构化报告功能。该智能体在 Box 现有的安全与权限模型内运行,无需额外配置。目前该推文获得 1006 次浏览和 10 个点赞。AI产品Box AgentDeep Agents智能体多文档合成推荐理由:Box 出了个能跨库搜文档的智能体原文
13:16LangChain@LangChainAILangChain 的 Managed Deep Agents 现已集成 LangSmith Sandboxes,允许智能体安全执行代码。该功能通过沙箱环境隔离代码运行,防止对系统造成损害。开发者可以在 LangSmith 平台上直接测试和调试代理行为。AI产品Managed Deep AgentsLangSmithLangChain智能体代码执行推荐理由:LangChain 让智能体安全跑代码原文
13:13LlamaIndex@llama_indexLlamaIndex 联合创始人兼 CEO Jerry Liu 将在 6 月 15-18 日于旧金山举行的 Databricks Data+AI Summit 上发表两场演讲:一场关于使用长周期 AI 智能体自动化文档处理,另一场参与智能体栈创始人圆桌讨论(与 LangChain、CrewAI、Agno 及 Databricks)。团队还将在 #137 展位演示 LlamaParse 文档解析工具。AI产品LlamaIndexLlamaParseDatabricksData+AI Summit文档解析1 个信源在谈推荐理由:LlamaIndex 展示文档解析新方案原文
13:12MiniMax_AI@MiniMax_AIMiniMax 宣布其 M3 模型端点获得 NVIDIA 官方认可,并已上线免费 GPU 加速版本。用户现在可以免费体验基于 NVIDIA GPU 加速的 M3 模型推理服务。该端点支持高性能计算,适用于多种 AI 任务。AI产品MiniMaxM3NVIDIAGPU加速3 个信源在谈推荐理由:MiniMax 的 M3 模型免费加速了原文
13:12@OpenAIDevs@OpenAIDevsOpenAI在Codex中新增自定义指南功能,用户描述正在构建的项目后,智能体会自动生成包含定制提示和相关资源的指南。该指南可直接在Codex中打开,或复制为Markdown格式供其他编程助手使用。该功能旨在简化开发者的工作流程,提供更精准的上下文支持。AI产品OpenAICodex编程助手提示词工程10 个信源在谈推荐理由:描述项目就能生成定制提示原文
13:11Replit@ReplitReplit 在直播中宣布为其 Agent 添加 Skills 和 Custom Instructions 两项新功能。Skills 允许用户为 Agent 预置特定编程技能,如 Python 或 React 开发。Custom Instructions 让用户自定义 Agent 的行为和输出格式。这两项功能旨在提升 Agent 在代码生成和项目开发中的精准度与可控性。AI产品ReplitAgent编程助手自定义指令推荐理由:Replit 让 Agent 更听话了原文
13:10GitHub@githubGitHub宣布Copilot代码审查功能新增自定义Agent技能和MCP服务器连接支持,现已进入公开预览阶段。该功能适用于Copilot Pro、Pro+、Business和Enterprise用户。开发者可将组织上下文和标准直接整合到代码差异审查中,提升审查效率与一致性。AI产品GitHubCopilotMCP/工具代码审查智能体推荐理由:GitHub给Copilot加了自定义审查规则原文
13:07Browser Use@browser_useBrowser Use 推出 0.13.0 测试版,专为 SOTA 模型设计,支持长时间运行任务。新版本包含自定义 LLM 和浏览器 harness,基于 Rust 构建。新增 Browser Use Terminal 功能,一条命令即可启动。旧版基于 GPT-4,新版面向更先进的模型。AI产品Browser UseGPT-4SOTA模型Rust浏览器自动化推荐理由:让 AI 替你跑长任务,一条命令搞定原文
13:01elvis@omarsar0Thorsten Ball在Day 3测试中,用Fable和deep^2实现跨CLI、Web服务器和另一服务器的功能。deep^2在去健身房前完成,花费20美元,但第一次运行未成功。Fable运行1小时40分钟,花费350美元,第一次尝试即成功。后续追问后Fable总花费升至457美元。两者都理解任务并构建了相同功能。AI产品Fabledeep^2编程助手代码生成Amp推荐理由:Fable贵17倍但一次成功,deep^2便宜需调试原文
13:00Poe@poe_platformPoe 平台上线了 Moonshot AI 的 Kimi K2.7 Code 和 MiniMax 的 M3 两个开放权重模型。Kimi K2.7 Code 是 Moonshot AI 最强的编码模型,支持更智能的多步工具调用,推理效率提升 30%。MiniMax M3 拥有 100 万 token 上下文窗口,支持原生图像和视频输入,专为智能体编码设计。AI产品Kimi K2.7 CodeMiniMax M3PoeMoonshot AI编程助手10 个信源在谈推荐理由:两个开放权重编码模型上线 Poe原文
12:38Fireworks AI@FireworksAI_HQ精选Fireworks 宣布 Kimi K2 模型现已在 serverless 平台上可用。标准层按 token 计费,输入 $0.95/1M token,输出 $4/1M token,缓存命中 $0.19/1M token。上下文窗口达 256K。优先层面向关键工作负载,快速路径即将推出。AI产品FireworksKimi K2serverless推理模型定价推荐理由:Fireworks上线Kimi K2,价格超低原文
11:09Simon Willison@simonw开发者Simon Willison因不满OpenAI迟迟未将gpt-realtime-2语音模型集成到ChatGPT,自行升级了OpenAI-WebRTC playground工具。新工具支持gpt-realtime-2实时语音对话,并允许用户粘贴文档进行讨论。该工具在GitHub上开源,已获得2次转发和3次点赞。AI产品gpt-realtime-2OpenAIWebRTC语音对话开源工具10 个信源在谈推荐理由:自己动手用gpt-realtime-2做语音对话原文
11:06LangChain@LangChainAILangChain 在博客中详细介绍了构建 AI 应用的内部架构,包括如何使用 LangGraph 和 LangSmith 等工具。文章展示了从原型到生产的完整流程,涉及多个组件如代理、工具和状态管理。该架构支持多种模型集成,并提供了实际案例。AI产品LangChainLangGraphLangSmith智能体编程助手推荐理由:LangChain 教你搭 AI 应用架构原文
11:02MiniMax_AI@MiniMax_AIMiniMax 的 M3 模型已上线 Fireworks AI 平台,提供快速推理服务。M3 支持长时智能体、全仓库理解和多模态编程功能。用户现可在 Fireworks AI 上直接尝试 M3 模型。AI产品MiniMaxM3Fireworks AI多模态编程助手推荐理由:MiniMax M3 上线 Fireworks,推理快原文
10:59Browser Use@browser_useBrowser Use 现已集成到 Claude Managed Agents 中,使 Claude 能够浏览实时网页。该工具包通过 browser-harness 提供最先进的浏览器工具,在 BrowserBench 上达到 84.8% 的分数,排名第一。它具备极难检测的隐身能力,并支持云浏览器,冷启动时间低于 1 秒,每小时成本仅 0.02 美元。AI产品Browser UseClaudeManaged Agents浏览器工具隐身推荐理由:让 Claude 能实时上网,便宜又快原文
10:58MiniMax_AI@MiniMax_AIMiniMax 的 M3 模型已集成至 FactoryAI 的 droid 平台。M3 是 MiniMax 于 2025 年 1 月发布的混合专家模型,拥有 4560 亿参数,支持 400 万 token 上下文窗口。该模型在多个基准测试中表现优异,例如在 MMLU 上达到 90.8% 准确率。此次上线意味着开发者可通过 FactoryAI 的机器人平台直接调用 M3 进行推理任务。AI产品MiniMaxM3FactoryAIdroid多模态推荐理由:M3 模型上线机器人平台原文
10:33shao__meng@shao__meng精选Claude Fable 5 和 Mythos 5 模型被全球紧急下线后,Claude 官方宣布为所有用户重置了 5 小时和周使用额度。该措施旨在补偿因模型下线导致的可用性中断。官方推特 @ClaudeDevs 确认了此次重置。AI产品ClaudeFable 5Mythos 5使用额度紧急下线10 个信源在谈推荐理由:Claude 给你补额度了原文
10:29OpenRouter@OpenRouterAIOpenRouter 推出 Subagent 服务器工具,允许 GPT-4 等强大模型在生成过程中将子任务委托给更小、更便宜的模型(如 Claude 3 Haiku)。主模型负责编排,子代理执行具体任务,且子代理可使用 OpenRouter 上任意模型。该工具旨在降低推理成本并提升速度,目前已有 634 次查看。AI产品OpenRouterSubagent智能体推理模型MCP/工具推荐理由:大模型自动调用便宜模型干活原文
10:28OpenRouter@OpenRouterAIOpenRouter 发布新工具 Subagent,允许大模型在生成过程中将子任务委托给更小、更便宜、更快的模型。大模型负责编排,子代理执行具体任务,且子代理可使用 OpenRouter 上的任意模型。该工具旨在优化成本和效率,适用于复杂工作流分解。AI产品OpenRouterSubagent智能体MCP/工具推荐理由:大模型派小模型干活,省成本原文
10:26AI Will@FinanceYF5Claude Fable 5 允许用户通过单一提示词生成完整应用,案例包括一个提示词构建的3D游戏、实时数据仪表盘和交互式教育工具。这些应用原本需要工程师数月或数年开发,现在由Claude Fable 5在几分钟内完成。案例展示了模型在代码生成和UI设计上的能力,引发开发者社区热议。AI产品ClaudeFable 5提示词工程编程助手10 个信源在谈推荐理由:一个提示词搞定工程师几年的活原文
10:24OpenRouter@OpenRouterAIOpenRouter 宣布 Workers 功能支持以 agent 模式运行,自带 web_search 等服务器端工具。委托任务可在执行时自动搜索最新来源,无需客户端额外配置。只需一次工具定义即可实现零客户端集成的 grounding 能力。AI产品OpenRouterWorkersagentweb_searchMCP/工具推荐理由:OpenRouter 让 agent 自带搜索工具原文
09:42Guillermo Rauch@rauchg精选Vercel 在 AI SDK 中推出 HarnessAgent,这是一个统一抽象层,用于编排和集成任何智能体的“大脑”到应用中。它支持 Claude Code、Codex 和 Pi 等智能体框架,并提供沙箱会话和 AI SDK 兼容流。开发者可通过 npm i ai@canary 获取。该工具旨在消除模型和智能体锁定,提升开发体验。AI产品HarnessAgentVercelAI SDKClaude CodeCodex推荐理由:Vercel 帮你摆脱模型和智能体锁定原文
05:36Google AI Developers@googleaidevs精选Google 通过 Gemini Live API 推出 Gemini 3.5 Live Translate 功能,可为应用添加近乎实时的语音翻译。该功能采用语音到语音流式传输(S2ST),支持连续翻译广播音频并同步生成转录文本。演示中用户能用母语收听全球广播节目,实现无缝的跨语言直播体验。AI产品Gemini 3.5Gemini Live APIGoogle语音翻译实时翻译推荐理由:谷歌 API 上新实时语音翻译原文
02:01LangChain@LangChainAI精选LangChain 宣布 IRL LangSmith 引擎推出。推文显示有 1 条评论、2 次转发、15 个喜欢和 1061 次查看。未提供具体功能细节。AI产品LangChainLangSmith推荐理由:关注 LangChain 引擎更新原文
00:46Nous Research@NousResearchNousResearch 宣布 Hermes Agent 现已支持生产级 WhatsApp Business Cloud 集成。用户可将 Hermes 配置为私人 WhatsApp 机器人、团队协作工具或面向客户的客服支持。集成支持连接现有 WhatsApp Business Cloud 号码或通过 Meta Business Manager 创建新号码,运行 'hermes whatsapp-cloud' 命令即可通过引导式设置完成接入。功能包括安全 webhook、媒体/语音消息、已读回执、输入状态指示器和交互式审批按钮。这一更新让 Hermes Agent 从开发工具扩展为可直接落地的商业通信助手。AI产品Hermes AgentWhatsApp Business Cloud客服机器人团队协作集成/部署推荐理由:做客服自动化或团队协作的开发者,现在可以用 Hermes 直接对接 WhatsApp 商业版,省去自己搭 webhook 和消息处理的麻烦,值得一试。原文
00:22Allen AI (Ai2)@allen_aiAllen AI 发布了 olmo-eval,一个专为大型语言模型迭代开发设计的评估工作台。在训练 LLM 时,每次调整超参数或扩展模型规模,都需要重新进行基准测试,这个过程重复且耗时。olmo-eval 旨在简化这一循环,让开发者能更高效地评估模型变化。该工具面向模型开发团队,帮助他们快速迭代并验证模型性能。AI产品LLM评估工具迭代开发Allen AIolmo-eval推荐理由:做 LLM 训练的团队终于有了专门的评估工具,能省去重复跑基准的麻烦,建议模型开发者直接试试。原文
00:19OpenRouter@OpenRouterAIOpenRouter 宣布本月为“成本削减月”,将每周至少推出一次重大功能更新,帮助用户降低推理成本。他们基于过去三年的数据发现,每次重大技术突破后,用户都会面临成本压力。首批策略包括多种优化方法,已在客户中广泛使用。这些措施旨在让开发者更经济地使用 AI 模型。AI产品推理成本OpenRouter成本优化AI 产品开发者工具推荐理由:OpenRouter 直接瞄准 AI 推理成本痛点,做模型调用的团队可以每周关注其新功能,能省下真金白银。原文
00:18Amjad Masad@amasadReplit CEO Amjad Masad 分享其 AI 编程实践:不再使用传统提示词工程,而是通过“循环”模式,用一句话表达目标,让编排器并行调用多个智能体(如安全、生产、SEO 智能体),再由计算机使用验证器提供反馈。他认为行业普遍落后于 Replit 当前实践 3-6 个月。这种模式将 AI 从单次对话升级为持续协作系统,显著提升开发效率。AI产品智能体AI编程Replit循环式提示多智能体协作推荐理由:Replit CEO 直接展示了 AI 编程的下一代范式——循环式多智能体协作,做 AI 开发或自动化工具的团队值得参考,一句话就能驱动复杂工作流。原文
23:55LangChain@LangChainAILangChain 引用 Simon Willison 提出的智能体致命三要素:访问敏感数据、暴露于不可信内容、具备外部通信能力。当智能体同时满足这三项时,必须使用沙箱隔离。该观点强调了 AI 智能体安全设计的核心风险点,提醒开发者在构建智能体时需优先考虑安全防护。LangChain 提供了相关实现指南。AI产品智能体安全/沙箱LangChainSimon Willison风险模型推荐理由:做智能体开发的团队必须警惕这三个风险叠加——Simon Willison 的框架帮你快速判断是否需要沙箱,建议直接对照检查自己的智能体架构。原文
22:21LangChain@LangChainAILangChain 的 Sydney Runkle 在 X 上分享了关于 AI 循环的 5 种类型:Token 循环(模型生成)、Agent 循环(模型+工具+重复)、深度验证循环(Agent+验证+重复)、部署元循环(事件触发 Agent 运行)以及待完善的引擎循环(通过分析追踪优化系统)。这些循环覆盖了从单次推理到系统级优化的不同抽象层次,帮助开发者理解如何用 LangChain 构建更复杂的 AI 工作流。AI产品LangChainAgent 循环工作流元循环AI 架构推荐理由:LangChain 把 AI 循环分成了 5 个清晰的层次,做 Agent 开发或工作流编排的团队可以对照自己的场景找到合适的抽象级别,建议收藏作为架构参考。原文
21:52LangChain@LangChainAILangChain 团队展示了如何用 LangChain 和 DeepAgents 构建多种循环结构,从基础的 Token 循环到复杂的元循环。Token 循环由模型支持,create_agent 提供智能体循环(模型+工具+重复直到完成),DeepAgents 引入自我验证循环(智能体循环+验证+重复直到满意),部署则实现元循环(根据事件触发智能体运行以改进系统)。团队还提到正在探索“引擎”循环,用于分析每次追踪并调整提示、工具等,使元循环更高效。这为开发者提供了从简单到复杂的循环构建路径,适合需要自动化迭代和系统优化的场景。AI产品LangChainDeepAgents智能体循环自动化系统优化推荐理由:做智能体自动化和系统优化的开发者,LangChain 这套循环体系从基础到元循环都覆盖了,直接拿来用就能提升迭代效率,值得点开看看。原文
21:51Qdrant@qdrant_engine本文介绍如何使用 Qdrant 和 Evret 构建检索系统评估流程,涵盖构建基准、衡量检索质量、评估相关性和排序性能,以及超越“看起来有效”的测试。随着 RAG 和检索系统在生产 AI 应用中日益关键,评估变得与检索本身同等重要。AI产品RAG检索系统评估QdrantEvret推荐理由:做 RAG 或检索系统的开发者终于有了可落地的评估方法论——Qdrant + Evret 的组合让你从“感觉还行”到“数据说话”,建议直接跟着指南搭建你的评估流水线。原文
21:48Geek@geekbb微信官方发布了一套 AI 开发模式辅助工具集,能够将小程序源码自动转换为微信 AI 开发模式所需的 SKILL 格式,并附带校验和评测功能。该工具集旨在降低开发者接入微信 AI 生态的门槛,提升开发效率。对于正在或计划使用微信 AI 开发模式的团队,这是一个值得关注的官方工具。AI产品微信AI 开发模式SKILL 格式小程序工具集推荐理由:微信官方出手降低 AI 开发门槛,做微信小程序的团队可以直接用这套工具自动转换源码,省去手动适配 SKILL 格式的麻烦,建议试试。原文
20:47Julien Chaumond@julien_coMLX 项目现已支持 Hugging Face 标准缓存模型目录,这意味着用户可以直接使用本地已下载的模型,无需额外配置。该更新由开发者 @jundotkim 实现,旨在简化 MLX 框架下的本地 AI 部署流程。对于使用 Apple Silicon 设备运行本地大模型的用户来说,这一改进显著降低了使用门槛。社区对此反响积极,认为这是提升 MLX 生态易用性的重要一步。AI产品oMLXMLX本地AIHugging Face模型部署推荐理由:对于在 Apple Silicon 上跑本地模型的开发者,oMLX 支持 HF 缓存目录意味着省去模型重复下载和路径配置的麻烦,建议直接更新体验。原文
19:43berryxia@berryxiaYouMind 1.0 正式版本发布,该产品从0.x版本开始迭代,不断打磨更新。用户反馈YouMind在图像生成和Agent优化方面表现出色,尤其擅长生图调优。产品一路成长,获得了用户认可。AI产品YouMind图像生成Agent优化产品迭代生图调优推荐理由:YouMind 1.0 解决了生图调优的痛点,做图像生成和Agent优化的团队可以直接体验,看看它如何帮你提升效率。原文
18:17Latent.Space@latentspacepod本文提出了针对智能体的“咸味教训”,与Richard Sutton的“苦涩教训”相呼应。核心观点是:不要试图手动修复每个问题,而应构建能够随更多智能体扩展的系统,例如通过目标和编排机制。这种思路转变对于开发可扩展的AI系统至关重要。文章鼓励开发者放弃传统的手动调试方法,转而关注系统级的设计。AI产品智能体系统设计编排扩展性AI教训推荐理由:智能体开发者常陷入手动修复的陷阱,这篇文章点出了规模化系统的关键——用目标和编排代替人工干预,做多智能体架构的团队值得一读。原文
15:45Hailuo AI@Hailuo_AIMiniMax 发布了 Hub,一个本地 AI Agent 创意工作站,支持从研究、脚本、图像、音乐到最终剪辑的全流程自动化。用户可以通过 Agent 处理繁琐任务,自己掌控创意方向。Hub 提供无限画布、并行项目和批量生成功能,集成顶级模型和自定义技能工具包,并支持本地资产和应用的即时导入导出。7月1日前登录可获3000奖励积分。AI产品MiniMaxAI Agent创意工作站多模态本地部署推荐理由:MiniMax Hub 把 AI Agent 从编码转向创意生产,做内容创作、视频制作、多模态项目的团队可以直接用上全流程自动化,省去手动切换工具的麻烦,值得一试。原文
15:19AI Engineer@aiDotEngineer运行大规模智能体集群需要三个层次:运行时、编排与触发、以及协调。前两层已有成熟方案,但协调层(智能体如何相互传递任务、验证阶段完成并继续推进)尚未解决。Stripe 和 RAMP 分别自建了 Minions 和 Inspect 作为内部基础设施来管理后台智能体集群。@loujaybee 指出 GitHub 不适合作为智能体的协调层,因为它嘈杂、为人类设计,无法处理数百个并行拉取请求。他提出一个 CLI 网关方案,让本地编码智能体可以调用它来检查是否已通过当前 SDLC 阶段并继续执行。AI产品智能体协调层CLI网关SDLCGitHub推荐理由:协调层是智能体集群规模化落地的最大瓶颈,做多智能体系统或自动化流程的团队看完会明白为什么自建基础设施是常态,Lou 的 CLI 网关思路值得关注。原文
15:09Artificial Analysis@ArtificialAnlys73°Artificial Analysis 更新了其编程智能体指数,用 Datacurve 的 DeepSWE 基准测试取代了 SWE-Bench Pro。DeepSWE 从零编写任务,避免模型从公开 GitHub 问题或 PR 中记忆答案,解决了原基准可被游戏化的问题。更新后,Codex with GPT-5.5 (xhigh) 得分从 65 升至 76,超越 Claude Code with Opus 4.8 (max) 的 73 分;新发布的 Claude Fable 5 (max) 在 Claude Code 中以 77 分位居榜首。这一变化揭示了原基准对某些模型组合的偏差。AI产品编程智能体基准测试Claude Fable 5GPT-5.5DeepSWE10 个信源在谈推荐理由:基准测试更新直接影响了主流编程智能体的排名,做 AI 编程工具选型或评估模型能力的开发者值得关注——Claude Fable 5 新登顶,Codex 也大幅提升,建议点开看具体得分和对比。原文
14:50AI Will@FinanceYF5Todd Saunders在客户电话会议中使用Claude进行实时转录,当客户描述所需功能时,Claude立即开始构建这些功能。会议结束时,Saunders展示了一个完全可用的产品,其工作流程与客户15分钟前描述的完全一致。这一案例展示了AI在自动化开发中的巨大潜力,能够从客户对话中直接生成可运行的产品。AI产品Claude实时转录自动化开发客户需求产品构建推荐理由:这个案例展示了AI从客户需求到产品实现的实时闭环,做产品开发和客户支持的团队值得看看——Claude能直接把对话变成可运行的功能。原文