03:02LangChain@LangChainAI精选LangChain 发布 Agentic Operating Model 框架,旨在解决企业 AI 智能体在生产环境中面临的可靠性、可治理性和持续改进问题。该框架聚焦于智能体部署后的运维阶段,帮助团队建立监控、治理和迭代机制。LangChain 指出,将智能体投入生产相对容易,但长期保持其稳定运行和持续优化才是企业 AI 项目的真正瓶颈。AI产品智能体生产部署运维治理LangChain企业AI推荐理由:做企业级 AI 智能体部署的团队终于有了运维层面的系统框架——LangChain 的 Agentic Operating Model 直接戳中生产环境治理痛点,建议正在或即将上线智能体的团队点开看看。原文
02:36Perplexity@perplexity_ai精选Perplexity 宣布将 Deep Research 作为原生技能集成到其 Computer 产品中。该功能现在连接到驱动 Computer 的智能体框架,能够访问搜索、代码生成、长期运行的沙箱、连接器、工具和授权数据。这一整合使得用户可以在 Computer 环境中直接进行深度研究,无需切换工具。该功能目前对 Pro 和 Max 订阅用户开放。AI产品PerplexityDeep Research智能体搜索代码生成推荐理由:Perplexity 把深度研究能力直接嵌入到智能体框架里,做研究或数据分析的团队可以省去来回切换工具的麻烦,Pro/Max 用户值得立刻试试。原文
01:37Cognition@cognition_labs由Cognition、Mercor AI、Etched和Anthropic联合举办的推理时计算黑客马拉松报名仅剩两天。参赛团队可获得8块H100 GPU资源,总奖金超过10万美元,并设有专门的智能体赛道。活动旨在推动推理时计算的前沿探索,适合AI开发者和研究者参与。AI产品推理时计算黑客马拉松H100智能体Cognition10 个信源在谈推荐理由:想拿免费H100和10万美元奖金的AI开发者别错过,还有专门的智能体赛道,做推理优化的团队值得冲。原文
01:32Weaviate@weaviate_ioWeaviate 推出了包含 7 个可运行演示的新 playground,涵盖 AI 记忆、欺诈检测、电商搜索、聚类分析、向量搜索对比、护肤推荐和智能体决策树等场景。每个演示都提供可直接复制粘贴的提示词,方便开发者快速上手构建。其中 Engram 演示展示了 AI 智能体的持久记忆能力,能跨对话回忆事实和摘要;欺诈检测演示则通过查询智能体将自然语言问题转化为结构化查询,发现交易模式。Weaviate 还推出了免费永久层,鼓励开发者免费开始构建。AI产品Weaviate向量数据库RAG智能体演示/Playground推荐理由:做 AI 应用和智能体开发的团队,可以直接用这些演示模板快速验证想法,尤其是 Engram 的持久记忆和欺诈检测的查询智能体,值得立刻试试。原文
01:23elvis@omarsar0Omar 在 X 上分享了他有效使用 AI Agent 的两个核心策略:路由(Routing)和循环(Looping)。路由指将不同任务分配给最合适的 Agent,循环则结合指令、技能、动态工作流和自动化。他认为这种方法能更好地控制成本和性能,并为未来的变化做好准备。该帖子获得了 856 次浏览和 10 个点赞,引发了社区对 Agent 使用技巧的讨论。AI产品智能体路由循环工作流成本控制推荐理由:做 AI Agent 开发的团队可以借鉴这套路由+循环的思路,直接优化现有工作流,提升成本与性能的平衡。原文
01:12OpenRouter@OpenRouterAIOpenRouter 发布了新的 Activity Explorer 功能,让用户能直观查看团队在各类模型上的花费、token 使用量、缓存命中率、智能体调用及趋势数据。该功能支持实时更新,并集成 API 以便查询历史数据。NousResearch 的 Hermes 模型被列为内部最常用的工具之一。这为管理多模型支出的团队提供了便捷的监控手段。AI产品OpenRouterActivity Explorer模型监控费用管理智能体推荐理由:OpenRouter 的 Activity Explorer 解决了多模型团队的费用监控痛点,做 AI 应用开发或模型调度的团队可以直接用起来,省去手动统计的麻烦。原文
00:53Philipp Schmid@_philschmidGoogle 重写了 Gemini Interactions API 的入门指南,从首次 API 调用到运行自主智能体共 11 步。指南涵盖文本、多模态理解、图像生成(如 Nano Banana)、流式响应、有状态/无状态多轮对话。内置工具包括搜索、代码执行、地图、电脑使用。还涉及函数调用、托管智能体和后台执行。适合想快速上手 Gemini 开发能力的开发者。AI产品GeminiAPI智能体多模态入门指南推荐理由:这份指南把 Gemini 从基础调用到自主智能体的路径讲清楚了,做 AI 应用开发的团队可以直接照着 11 步上手,省去自己摸索的时间。原文
00:26SiliconFlowAI@siliconflowai精选NousResearch 推出了 Hermes Agent Desktop,这是一款桌面端智能体工具,允许用户通过 SiliconFlow 平台一键切换多种前沿开源模型,包括 DeepSeek-V4、GLM-5.1、Kimi-K2.6 和 MiniMax-M3 等。该工具旨在降低使用开源模型的复杂度,让开发者无需手动配置即可快速体验不同模型的能力。SiliconFlow 作为底层推理平台,提供了统一的 API 和模型管理功能,进一步简化了部署流程。这一发布意味着开源模型生态在易用性上迈出了重要一步,尤其适合需要频繁对比或切换模型的 AI 应用开发者。AI产品智能体开源模型模型切换NousResearchSiliconFlow7 个信源在谈推荐理由:做 AI 应用或智能体开发的团队终于可以像换 App 一样切换开源模型了——Hermes Agent Desktop 把模型切换成本降到零,建议直接上手试试。原文
00:24SiliconFlowAI@siliconflowai精选Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线,支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构,视觉和音频输入直接进入 LLM 主干,降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能,接近 Google 26B 模型的表现,在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元,性价比突出。AI模型Gemma 4智能体多模态长上下文SiliconFlow7 个信源在谈推荐理由:做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民,建议直接上手试试。原文
23:32PolymarketMoney@PolymarketMoney精选73°OpenAI 宣布收购云初创公司 Ona,该公司专注于构建支持 AI 智能体持续运行的基础设施。此次收购旨在增强 OpenAI 在智能体领域的长期部署能力,解决智能体在复杂任务中需要持久运行的问题。Ona 的技术将帮助 OpenAI 的智能体更稳定地处理长时间工作流,提升可靠性和效率。这一举措标志着 OpenAI 在智能体基础设施上的战略布局,可能加速其产品在企业级场景中的应用。行业OpenAI智能体基础设施收购云服务10 个信源在谈推荐理由:OpenAI 收购 Ona 补齐了智能体持久运行的短板,做 AI 智能体开发或部署的团队值得关注——这直接关系到你的智能体能否稳定跑完长任务。原文
22:44rohanpaul_ai@rohanpaul_aiParloa 发布 Agent Skills,一个基于 MCP(模型上下文协议)的层,旨在替代传统 API 集成中的脆弱胶水代码。该方案通过自愈代理工作流,将首次集成时间缩短至一天,第二次集成仅需一小时,后续用例只需配置。一家顶级旅游公司使用后,平均处理时间减少超过一分钟。这标志着从手动 API 编排向智能代理自动化的重大转变。AI产品MCP/工具智能体API 集成客服自动化Parloa推荐理由:做 API 集成或客服系统的团队,终于可以告别文档、中间件、认证、重试等繁琐的胶水代码了——Parloa 的 Agent Skills 用 MCP 实现自愈工作流,首次集成一天搞定,后续用例只需配置,建议直接看他们的成功案例。原文
22:40LangChain@LangChainAILangChain 发布了 Managed Deep Agents 运行时,支持持久线程、流式运行、检查点和人机协作工作流。开发者可通过 API 创建和配置智能体、管理线程,并直接从自己的产品中流式运行。该运行时旨在简化复杂智能体的部署与管理,提升开发效率。AI产品LangChain智能体运行时持久线程流式运行推荐理由:做智能体应用的开发者终于有了一个开箱即用的运行时,省去自己搭建持久化和流式处理的麻烦,建议直接集成试试。原文
16:42AI Will@FinanceYF5Claude Fable 模型限时可用,用户 ShaDcn 展示了如何利用其 /improve 指令高效审计代码库。该指令使用最强模型分析代码,排查 bug、性能问题、技术债务、缺失测试和待开发功能,并为低成本模型生成后续执行计划。这一方法能显著提升代码审查效率,适合开发团队快速定位问题并制定修复方案。由于 Fable 仅限几天使用,开发者应抓紧时间体验。AI产品Claude Fable代码审计开发工具智能体技术债务1 个信源在谈推荐理由:做代码审查和项目维护的开发者,可以用 /improve 指令快速获得专业审计报告和可执行计划,省去手动排查的繁琐,建议趁 Fable 限时赶紧试试。原文
16:39AI Will@FinanceYF5shadcn 推出 /improve 功能,允许用户用 Claude Fable 等最强模型审计代码库,发现 bug、性能问题、技术债务和缺失测试,并生成可被任何智能体执行的计划。该功能旨在让用户充分利用 Claude Fable 的短暂可用期,将高成本的分析任务交给最强模型,而将执行任务交给更便宜的模型,从而优化成本与效率。对于需要深度代码审查和自动化重构的开发者来说,这是一个实用的工具。AI产品代码审计智能体shadcnClaude Fable自动化重构1 个信源在谈推荐理由:shadcn 的 /improve 解决了代码审计成本高、执行效率低的问题,做代码质量管理和自动化重构的开发者可以直接用最强模型分析、便宜模型执行,建议试试。原文
16:35AI Will@FinanceYF5shadcn 发布了一个名为 improve 的新工具,核心思路是让最强模型(如 GPT-4)负责智能决策和规划,而低成本模型负责具体执行。该工具可以在整个代码库或当前工作分支上运行,自动生成包含审计、调研、范围界定、执行、测试及终止条件的完整计划。这解决了大型代码库自动化重构中成本与质量平衡的痛点,让开发者能以更低成本获得高质量代码优化。项目已在 GitHub 开源,值得关注。AI产品代码优化shadcn/improve开源/仓库智能体成本优化1 个信源在谈推荐理由:做代码库重构或自动化优化的开发者,终于有了一个兼顾成本与质量的方案——用强模型定方向、弱模型干苦活,直接开源可试。原文
13:15宝玉@dotey精选DeepSeek 发布全球首个“Agent Harness 研究员”岗位,旨在将前沿模型能力转化为领先的 Agent 产品。该岗位负责 Harness 领域的前沿创新,包括上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等。团队使命是“Model + Harness = Agent”,除模型本身外所有工作都属于 Harness 范畴。任职要求包括科研背景、全栈开发能力、Agent 重度使用经验,以及对 LLM 和 Agent 机制的深入理解。这一招聘标志着 Agent 基础设施研究正式成为独立岗位,对 Agent 开发者和研究者意义重大。行业DeepSeekAgent Harness招聘智能体基础设施推荐理由:DeepSeek 把 Agent 基础设施研究独立成岗,做 Agent 开发的团队可以直接参考其职责定义,想入行 Agent 研究的也可以看看门槛和方向。原文
12:23berryxia@berryxia一位开发者提出 Agent 互相学习的新方法,不再通过语言描述技能,而是直接读取对方的内部状态或“脑子”。这种方法可能比传统技能传授更高效,能快速复制能力。该思路源于实际项目经验,引发对 Agent 间知识传递方式的重新思考。AI产品智能体知识传递多智能体系统学习机制Agent推荐理由:做多智能体系统的开发者可以换个思路——与其教 Agent 说话,不如让它直接读对方内存,效率可能翻倍。原文
11:51Latent.Space@latentspacepod精选Sarah Guo 在最新一期 AINews 中提出了一个关键框架,区分了“模型实验室”和“智能体实验室”的不同发展方向,并探讨了开放模型的重要性。她认为,理解什么是“不可训练”的——即那些无法通过更多数据或算力解决的问题——对于决定投入方向至关重要。这一观点被视为当前 AI 领域最有价值的思考之一,帮助从业者明确哪些工作真正值得投入。行业开放模型智能体模型实验室不可训练性Sarah Guo推荐理由:Sarah Guo 的框架帮你分清“模型”和“智能体”两条路,做 AI 战略或投资的团队值得一读,看完能少走弯路。原文
11:43mem0@mem0aiMem0 的 CEO 兼联合创始人 Taranjeet Singh 将于明天上午 10 点在 Qdrant 举办的 Vector Space Day SF 活动上发表演讲。演讲主题聚焦于为什么智能体的持续学习始于记忆。该活动旨在探讨向量数据库与 AI 智能体的结合,Mem0 作为专注于智能体记忆管理的公司,其观点对关注 AI 智能体发展的开发者具有参考价值。行业智能体记忆管理向量数据库QdrantMem0推荐理由:做智能体开发的团队值得关注——Mem0 的 CEO 将揭示记忆如何成为智能体持续学习的关键,这直接关系到智能体长期记忆和上下文管理的实现路径。原文
11:39AI Will@FinanceYF5Sierra联合创始人Bret Taylor预测,未来3-4年内,没有AI客服的商家会被消费者主动抛弃,就像现在订餐厅没有OpenTable一样。他认为当前AI agent与三年前的语音机器人差距巨大,相当于马车与飞行汽车的对比。这一观点强调了AI客服将成为商业标配,消费者对等待人工服务的容忍度将急剧下降。行业AI客服智能体客户体验商业趋势Sierra推荐理由:Bret Taylor的预测点明了AI客服从加分项变成生存项的转折点,做客户服务或电商的团队值得思考:你的用户还能忍多久人工等待?原文
09:22Viking@vikingmuteSenseNova Skills 是一套基于 SenseNova 智能体模型的开源办公技能套件,已在 GitHub 获得 4.1k Stars。它专注于真实办公场景,支持自动生成高质量 PPT、信息图、Excel 数据分析、深度研究报告等。用户将英伟达财报数据输入后,几分钟即可得到结构清晰、图表自动生成的 PPTX。该套件可集成到 Codex、OpenClaw Hermes 等 Agent 工作流中,实现办公任务全自动化。AI产品智能体办公自动化开源/仓库PPT生成SenseNova1 个信源在谈推荐理由:做办公自动化的开发者终于有了现成的 Agent 技能包——PPT 和信息图生成质量高,集成简单,建议直接加到工作流里试试。原文
09:01lmarena.ai@lmarena_ai88°Claude Fable 5 在 Code Arena 前端榜单中排名第一,全面领先 Opus-4.8。它在所有子榜单(HTML、React)和所有子类别(品牌营销、参考设计、数据分析、消费产品、游戏、模拟、内容创作工具)中均位列第一。同时,Fable 5 在 Agent Arena 中也以最大优势领先 Opus-4.8 和 GPT-5.5,在任务成功率和用户评价上表现突出,尽管可操控性稍弱。该模型在数百万真实世界长期代理任务中测试,涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析。Anthropic 的这一里程碑标志着前端开发与智能体领域的重要进步。AI模型Claude Fable 5前端开发智能体代码生成Anthropic10 个信源在谈推荐理由:前端开发者可以直接用 Fable 5 提升 HTML/React 项目效率,智能体任务执行能力也远超竞品,做复杂自动化流程的团队值得关注。原文
08:53rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出“Agents' Last Exam”基准测试,要求AI智能体完成来自55个数字工作领域的真实专家任务,包括工程、金融、医学、法律、媒体和科学。测试发现,当前最强的智能体系统在最难任务上的平均完全通过率仅为2.6%,远低于其基准分数所暗示的水平。该基准强调从“能否回答难题”转向“能否完成人们付费做的工作”,使用自动检查或严格评分标准而非主观评判。结果表明,基准测试的成功尚未转化为广泛的工作场所能力,智能体在真实自动化中仍不可靠。论文智能体基准测试真实工作自动化评估标准推荐理由:这篇论文戳破了AI基准测试的泡沫——高分不等于能干实事。做AI自动化部署的团队、评估智能体能力的开发者,看完会重新审视自己的测试标准,建议点开看看真实工作场景的差距。原文
08:15Scott Wu@ScottWu46精选Scott Wu 引用 Walden 的观点,指出工程团队必须像提升智能体编排一样提升人类自身的编排能力。AI 已能修复复杂 bug、进行 UI 测试、编写优质代码,应作为第一道防线处理 bug 和反馈,人类只需在 AI 审核后查看 PR。团队应建立云软件工厂,让智能体自动管理工单、生成屏幕录制,并利用更小、更便宜的模型降低成本。Walden 强调,组织若想跟上 AI 的指数级增长,必须重新思考人类时间分配,避免手动处理本可由 AI 完成的任务。行业AI编排工程团队智能体DevOps成本优化推荐理由:工程团队的组织效率正在成为 AI 落地的瓶颈——Walden 的实操建议(如 AI 先审 PR、自动生成工单)能直接帮团队提效,做软件工程管理的建议点开看看怎么落地。原文
06:30Aravind Srinivas@AravSrinivas83°Perplexity 宣布 Claude Fable 5 现可作为 Computer 内的编排模型使用,仅限 Pro 和 Max 订阅用户。该模型专为长时间、复杂的智能体工作流设计,能显著提升任务执行的稳定性和效率。这一更新让高级用户能在 Computer 中利用 Anthropic 最先进的模型进行多步骤自动化操作。AI产品Claude Fable 5编排模型智能体PerplexityComputer10 个信源在谈推荐理由:做复杂智能体工作流的开发者终于有了更可靠的编排模型——Claude Fable 5 在长任务场景下表现突出,Perplexity Pro/Max 用户可以直接在 Computer 里切换使用,值得一试。原文
06:19LangChain@LangChainAINebius 发布了 Agent Blueprint,这是一个开源参考架构,旨在解决 AI 智能体在生产环境中因基础设施问题而失败的问题。该架构连接了智能体栈各层的成熟组件,包括 Deep Agents 和 LangSmith。它提供了构建、运营和持续改进生产级智能体的标准化方案,帮助开发者避免常见陷阱。对于正在构建或计划部署 AI 智能体的团队来说,这是一个值得关注的参考框架。行业智能体开源/仓库生产部署NebiusLangSmith推荐理由:智能体部署失败往往出在基础设施而非模型本身,Nebius 的开源架构直接给出了生产级参考方案,做智能体开发的团队可以拿来就用,省去自己踩坑的时间。原文
05:44Harrison Chase@hwchase17LangChain 创始人 Harrison Chase 在 X 上发帖,邀请芝加哥地区的开发者参加 6 月 22 日的线下 meetup,主题是 deepagents。活动由 LangChain 与 focused_dot_io 联合举办,报名链接已公开。这为关注智能体开发的社区成员提供了面对面交流的机会,尤其适合对 LangChain 生态和深度智能体技术感兴趣的人。行业智能体LangChainmeetup社区活动deepagents推荐理由:做智能体开发的芝加哥开发者别错过——LangChain 创始人亲自下场聊 deepagents,现场交流比看文档高效十倍,建议直接报名。原文
05:43Notion@NotionHQNotion CEO Ivan Zhao 在 X 上发文指出,当前 AI 带来的时间节省和技巧提升只是表面,真正的生产力飞跃需要重新设计包含人类和 AI 智能体在内的工作场所结构。这一观点引发广泛讨论,获得 21 个点赞和 1617 次浏览。Zhao 强调,单纯衡量 AI 带来的时间节约和“黑客技巧”是不够的,组织架构的变革才是关键。行业AI 生产力工作结构Notion智能体组织变革1 个信源在谈推荐理由:Notion CEO 点破了 AI 落地的核心瓶颈——不是工具不够强,而是工作流程没跟上。做企业数字化转型或团队管理的读者,看完会重新思考 AI 部署策略。原文
05:23Lovable@lovable_devLovable 宣布与 Mastercard 合作,成为其早期生态系统合作伙伴,共同推出 Mastercard Agent Pay for Machines。该服务旨在让 AI 智能体能够安全、快速地为其构建的内容支付,将支付流程自动化、规模化,并引入结构、治理和信任。这标志着一种新的商业运营模式,首批已有 30 多个合作伙伴加入。AI产品智能体支付LovableMastercard合作伙伴推荐理由:AI 智能体自主支付是自动化商业的关键一环,做 AI 应用或智能体开发的团队值得关注这一基础设施,可以直接了解如何集成。原文
05:03GitHub@github72°GitHub 宣布其 Copilot 桌面应用的技术预览版已不再需要等待列表,所有 Copilot Pro、Pro+、Max、Business 和 Enterprise 用户均可直接使用。该应用提供原生的智能体体验,允许用户决定智能体处理哪些任务、如何工作以及最终交付什么。用户可以在一个界面内完成从问题到合并的完整工作流。这标志着 GitHub Copilot 从代码补全工具向全流程开发助手的重大转变。AI产品GitHub Copilot智能体桌面应用开发者工具技术预览推荐理由:GitHub Copilot 桌面应用让开发者从代码补全升级到全流程智能体协作,做项目管理的团队可以直接在桌面端完成从 issue 到 merge 的闭环,建议所有 Copilot 订阅用户立即体验。原文
04:47HeyGen@HeyGen_OfficialHeyGen 与 Google DeepMind 将于明天在洛杉矶联合举办一场面向构建者、创始人、研究人员和开发者的活动。活动聚焦智能体、创意工具和多模态应用领域。主办方在 X 平台发布消息,提醒有意者尽快通过 Luma 平台 RSVP。这是两家 AI 领域重要公司的一次线下交流机会,适合关注前沿 AI 应用和生态合作的从业者。行业智能体多模态创意工具HeyGenGoogle DeepMind推荐理由:HeyGen 和 Google DeepMind 的联合活动聚焦智能体与多模态应用,做 AI 产品和工具的团队值得关注,明天就开始了,现在报名还来得及。原文
03:44LangChain@LangChainAILangChain 宣布正在构建 SmithDB,旨在解决智能体可观测性带来的系统性问题。SmithDB 专注于处理智能体运行时的数据追踪、调试和监控需求,为开发者提供更可靠的底层基础设施。该项目目前处于早期阶段,LangChain 正在招聘相关工程师。对于构建复杂智能体系统的团队来说,SmithDB 有望填补智能体可观测性领域的空白。AI产品智能体可观测性LangChainSmithDB基础设施推荐理由:智能体可观测性是当前 AI 工程化的核心痛点,做智能体应用开发的团队值得关注——SmithDB 可能解决你调试和监控智能体行为的头疼问题。原文
03:21xAI@xaieToro 推出了名为 Tori 的 AI 智能体,利用 SpaceXAI 的模型和实时数据帮助用户分析市场情绪。Tori 能够结合实时数据流,提供更精准的市场洞察,让普通消费者也能像专业分析师一样快速把握市场动态。这一合作展示了 AI 在金融领域的实际应用,降低了投资分析的门槛。AI产品智能体金融分析市场情绪eToroSpaceXAI推荐理由:金融领域终于有了接地气的 AI 用例——Tori 让普通投资者也能实时分析市场情绪,做投资决策的可以试试这个智能体。原文
03:18Clement Delangue@ClementDelangueGoogle、Hugging Face 与开源 AI 社区联合发起 Gemma 挑战赛,旨在通过数十个智能体协作,让 Gemma 4 E4B 模型运行更快。Hugging Face 的 Hub 正从人类协作平台演变为智能体协作平台,这一赛事展示了 AI 智能体在模型优化中的潜力。挑战赛鼓励开发者参与,推动开源 AI 生态发展。AI产品智能体开源/仓库GemmaHugging Face模型优化推荐理由:这是 AI 智能体协作的实战案例,做模型优化或智能体开发的团队值得关注——看看智能体如何像人类一样在 Hub 上合作提速模型。原文
02:14Claude@claudeai76°Claude 在东京 Code with Claude 活动中宣布,Managed Agents 新增定时部署和保险库环境变量功能,现已进入公开测试阶段。同时,Claude Code 的动态工作流功能已全面可用。这些更新让 AI 智能体能够按计划自动运行、安全使用工具并处理更复杂的任务,提升了自动化部署和运维的效率。AI产品智能体Claude定时部署环境变量自动化推荐理由:做自动化部署和运维的团队终于有了更安全的工具——环境变量加密存储,定时任务自动执行,建议 DevOps 和 AI 应用开发者直接试用。原文
01:59rohanpaul_ai@rohanpaul_ai72°Apodex-1.0-H 是一个用于深度研究的重型智能体团队,通过将网络研究任务分配给多个智能体,并在生成答案前审计每条证据链,声称达到 SOTA 结果。它将深度研究视为 AI 智能体的分布式系统问题:一个编排器分配子智能体不同的上下文和工具,然后事实核查、冲突审查和草稿审查智能体测试薄弱声明。真正的亮点在于,Apodex 展示了一条可能的“推理时扩展”路径,即更好的答案不是来自更大的模型,而是来自多个协调的搜索智能体、持久追踪和独立的验证层。AI产品智能体深度研究推理时扩展分布式系统Apodex推荐理由:做深度研究或复杂信息检索的开发者,值得关注 Apodex 的分布式智能体思路——它可能改变“大模型=好答案”的惯性认知,用多智能体协作+验证层来提升结果可信度。原文
01:34elvis@omarsar0Cohere 发布了其首个开源编程模型 North Mini Code,专为智能体性能设计,小巧高效。该模型旨在本地运行,满足开发者对本地编程代理的需求。社区对此反应积极,认为距离实现本地运行的编程代理已不远。Cohere 团队鼓励社区参与和反馈,推动模型进一步优化。AI模型开源/仓库编程助手智能体CohereNorth Mini Code3 个信源在谈推荐理由:Cohere 开源编程模型 North Mini Code 解决了本地运行编程代理的痛点,适合追求高效、本地化开发的程序员和 AI 智能体开发者,建议立即体验。原文
01:29LangChain@LangChainAILangChain 在 Deep Agents 中新增了 RubricMiddleware 功能,用于定义任务完成的明确标准。该中间件能让智能体持续执行直到达到预设的完成条件,解决了智能体任务执行中缺乏明确终止判断的问题。这对于需要精确控制任务完成状态的自动化场景非常有用。AI产品智能体LangChainDeep Agents任务完成中间件推荐理由:做智能体开发的团队终于有了明确的「完成」定义工具——RubricMiddleware 让智能体不再盲目执行,而是按标准持续优化直到达标,建议做自动化流程的开发者试试。原文
01:21Notion@NotionHQNotion 展示了如何用 Custom Agents 功能构建市场情报智能体,自动抓取最新新闻、生成周报并推送到 Slack。该功能让个人或小团队也能像大公司一样拥有专业市场情报团队。视频教程详细演示了从配置到自动化的完整流程。AI产品Notion智能体市场情报自动化Slack6 个信源在谈推荐理由:市场分析人员或小团队终于能用 AI 自动化情报收集,省去手动搜索和整理的时间,建议直接跟着教程搭建一个试试。原文
00:52lmarena.ai@lmarena_ai72°Agent Arena 团队指出,传统依赖人类偏好的评测方式无法扩展至智能体场景,因为人类难以判断30分钟轨迹中的数百次工具调用。他们构建了基于真实使用轨迹的客观信号评测方法,包括Bash错误、工具幻觉和“疯狂信号”等指标。这种方法能更准确地评估智能体在复杂任务中的表现,避免人类主观判断的局限性。该评测方法已应用于Agent Arena排行榜,为开发者提供更可靠的模型性能参考。AI模型智能体评测方法Agent Arena工具调用客观信号推荐理由:智能体评测一直是个难题,Agent Arena 用真实轨迹信号替代人类偏好,做智能体开发的团队可以直接参考这套方法论来改进自己的评测体系。原文