13:05marktechpost@Asif RazzaqDatabricks 开源了 Omnigent,一个位于 Claude Code、Codex 和 Pi 等编码智能体之上的元编排框架。它提供统一的终端、网页、桌面和移动端界面,支持智能体组合、上下文策略管理和实时会话共享。该项目采用 Apache 2.0 许可,目前处于 alpha 阶段。AI产品DatabricksOmnigentClaude CodeCodexPi智能体推荐理由:Databricks 开源了跨智能体编排工具原文
10:14pandaily@contact@pandaily.com (Pandaily)精选腾讯正在测试微信内置的AI Agent功能,引发行业讨论。分析师认为这可能是平台防御策略而非真正创新。与用户侧AI Agent相比,微信的Agent可能更倾向于服务平台利益。真正的用户侧AI Agent被认为能提供更具变革性的体验。该功能预计在2026年6月前推出。行业微信TencentAI Agent智能体平台防御推荐理由:微信AI Agent来了,但可能不是为你原文
10:10Pandaily@contact@pandaily.com (Pandaily)华为在HDC 2026上推出HarmonyOS 7,将小艺助手升级为系统级AI智能体,开放超过2100项系统能力和2000+技能。新系统从以应用为中心转向以意图驱动交互,小艺成为操作系统的智能核心。HarmonyOS 7旨在通过AI智能体重塑用户体验,实现更自然的设备控制。AI产品HarmonyOS 7华为小艺智能体AI操作系统2 个信源在谈推荐理由:华为把AI智能体塞进系统底层原文
07:52IT之家(博客/媒体)谷歌在AI模式中推出搜索智能体功能,将传统搜索引擎转为后台静默运行的主动式助手。首批信息智能体全天候监测博客、新闻平台、社交媒体等数据源,覆盖金融行情、商品库存等。用户输入“持续关注”等指令即可设置,如筛选房源或监测球鞋上架。该功能仅向谷歌AI Ultra订阅用户开放,月费99.99美元或199.99美元,计划夏季下放至AI Pro档位。AI产品谷歌搜索智能体AI模式智能体信息监测推荐理由:谷歌让搜索变主动,帮你24小时盯全网原文
07:44MiniMax_AI@MiniMax_AIMiniMax的M3模型在NousResearch的Hermes Agent上运行。Hermes Agent是一个开源智能体框架,M3模型为其提供推理能力。该组合展示了M3在智能体任务中的表现。AI模型MiniMaxM3Hermes AgentNousResearch智能体推荐理由:看看M3模型在智能体上的表现原文
06:09rohanpaul_ai@rohanpaul_ai精选一项新研究提出了HLL基准测试,要求AI智能体完成10种CAPTCHA任务,包括识别页面元素、正确点击或拖动、跟踪状态变化并提交答案。测试发现,即使强大的智能体在静态任务中表现良好,但在页面杂乱、任务复杂或系统验证操作有效性时仍会失败。该基准旨在评估智能体在真实人机验证场景中的能力,结果显示当前AI智能体难以通过此类验证。论文HLLCAPTCHA智能体基准测试AI安全推荐理由:看看AI怎么被CAPTCHA难倒的原文
05:52elvis@omarsar0Omar Sanseviero 提出 LLM Council 概念,认为其与 LLM 路由相关但更强调集成多个智能体的智能与知识。该想法尚未被充分探索,但在当前 AI 发展状态下有巨大应用潜力。帖子获得 18 个点赞和 1360 次浏览,引发对多智能体协作的讨论。论文LLM Council智能体多智能体Omar Sanseviero推荐理由:探索多智能体协作新思路原文
04:51宝玉@dotey精选Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型,点哪都有反应,状态保持完整。作者拆解了 Agent 的 Harness 层和模型层,指出 Harness 层技术不复杂,但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构,开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足,无法一次性交付完整可交互原型。AI模型Claude DesignClaude Opus 4.8GPT-5.5Codex智能体10 个信源在谈推荐理由:拆解 Claude Design 为何比 Codex 强原文
04:21elvis@omarsar0精选Elvis 在讨论中分享了运行自主长期编码智能体的经验,指出大多数模型难以协调长期任务,容易过早暂停或出现奖励黑客行为。他建议使用 Opus 4.8 进行规划,GPT-5.5 执行任务,并用 Deepseek、Qwen、Kimi 等模型作为评估器。强调多模态目标比纯文本目标更有效,能帮助智能体保持方向。技巧Opus 4.8GPT-5.5DeepseekQwen智能体5 个信源在谈推荐理由:Opus 4.8 规划 + GPT-5.5 执行,长期智能体实战配方原文
04:21elvis@omarsar0Omar Sanseviero 在 X 上分享了关于自主长时编码智能体的笔记,涵盖目标设定、循环工程、验证器和动态工作流等主题。笔记使用其 writer agent 快速总结,并附有引用推文链接。该内容涉及如何构建能长时间自主运行的编码智能体,包括关键组件如验证器和动态工作流。技巧编码智能体智能体工作流验证器Omar Sanseviero推荐理由:Omar 分享的编码智能体实战笔记原文
02:22elvis@omarsar0Matei Zaharia 开源了 Omnigent,一个用于 AI 智能体的元框架。它允许用户组合 Claude Code、Codex、Pi 和 agent SDK 等多个智能体,构建多智能体编码和自定义智能体。Omnigent 还增加了实时协作和丰富的控制策略。该项目旨在解决模型锁定问题,但路由功能仍待完善。AI产品OmnigentMatei ZahariaClaude CodeCodex智能体推荐理由:开源多智能体编排框架,可组合多个工具原文
01:51marktechpost@Sana Hassan精选本教程演示如何使用QwenPaw搭建智能体工作区。首先安装并初始化QwenPaw,配置工作目录和认证。通过Colab secrets连接可选模型提供商(如OpenAI、Anthropic)。创建包含自定义技能和本地知识文件的结构化工作区。最后启动控制台并测试流式API。技巧QwenPaw智能体流式APIColab自定义技能10 个信源在谈推荐理由:手把手教你搭QwenPaw智能体工作区原文
00:57rohanpaul_ai@rohanpaul_ai精选Adaline 发布了一个自我改进层,能将 AI 智能体的生产痕迹转化为新的评估、合成边缘案例和更好的候选智能体。该工具读取生产流量和用户反馈,将混乱的对话聚类为可识别的智能体行为,无需人工逐一检查。它还能生成人类从未考虑过的评估,帮助提升智能体性能。AI产品Adaline智能体评估生产流量自我改进推荐理由:自动从生产数据生成评估,省去人工排查原文
00:57rohanpaul_ai@rohanpaul_ai精选一篇综述论文系统梳理了面向大语言模型的智能体强化学习方法,覆盖 500 余篇相关工作。论文将现有研究分为能力与应用两大部分:能力部分涵盖记忆、规划、工具使用、推理、多模态感知和自我改进;应用部分展示这些方法在复杂任务中的落地。核心观点是传统 LLM 训练只奖励单次回答,而真实任务需要多步决策与延迟反馈,强化学习恰好能解决这一时序学习问题。论文agentic reinforcement learningLLMsurvey智能体强化学习推荐理由:500篇论文的智能体RL地图原文
23:22lmarena.ai@lmarena_aiGLM-5.2 模型已在 Text Arena 和 Code Arena: Frontend 中可用。用户可以通过 arena.ai/agent 平台测试该模型在真实世界任务上的表现。该平台旨在评估 AI 性能的前沿。AI模型GLM-5.2Text ArenaCode Arenaarena.ai智能体推荐理由:试试 GLM-5.2 在真实任务中的表现原文
22:57lmarena.ai@lmarena_aiGLM-5.2是Zai_org发布的最新开源模型,已加入Agent Arena评测平台。该平台通过30万+任务、200万+工具调用和4000万行代码评估模型在搜索、文件系统和终端工具上的智能体性能。当前排行榜前五名包括GPT-5.5(第一)、Claude-Opus-4.7(第二)、GLM-5.1(第三)、Gemini-3.1-Pro(第四)和Kimi-K2.6(第五)。GLM-5.2将与其他模型竞争,展示其智能体能力。AI模型GLM-5.2Zai_orgAgent ArenaGPT-5.5Claude-Opus-4.7智能体1 个信源在谈推荐理由:看看GLM-5.2在Agent Arena能排第几原文
22:21Geek@geekbb精选智谱AI宣布GLM-5.2完全开源,这是其最强开源模型。该模型支持1M上下文窗口,在长周期任务独立完成方面保持领先,为复杂智能体应用提供基础支持。GLM-5.2也是智谱最强国产编程模型的核心引擎。今晚5:21起,所有GLM编程计划用户(Lite/Pro/Max)均可使用,API下周上线。AI模型GLM-5.2智谱AI开源模型智能体编程助手2 个信源在谈推荐理由:智谱开源最强模型GLM-5.2,1M上下文免费可用原文
20:47Decoder@Jonathan Kemper精选微软与三所中国大学联合开发了SkillOpt方法,通过优化AI智能体的指令文档来提升性能。该方法仅需一个经过训练的Markdown文件,就能让GPT-5.5在程序性任务上提升约23个基准点。该文件还能跨模型和智能体环境迁移,如Codex和Claude Code。AI模型SkillOptGPT-5.5微软智能体Codex推荐理由:微软用Markdown文件让GPT-5.5涨23分原文
20:42IT之家(博客/媒体)华为在 HDC 2026 期间推出 DevEco Code,这是一款面向 HarmonyOS 的 AI Agent 工具,支持代码编写、编译构建、设备运行等能力。该工具基于开源项目 OpenCode 扩展开发,集成了 DevEco Studio、Hvigor、HDC 等 HarmonyOS 开发工具。DevEco Code 提供 build_project、start_app、hdc_log 等 8 种常用场景功能,包括从零创建工程、增量开发页面、修复编译报错和真机调试。AI产品DevEco CodeHarmonyOS华为编程助手智能体推荐理由:华为发布鸿蒙开发AI助手原文
17:22量子位@一水精选Jiuwen Symbiosis是一个将AI Agent与物理实体结合的框架,通过整合传感器、执行器和实时控制,使Agent能直接与环境交互。该框架在工业机器人测试中实现了90%的任务完成率,相比传统方案提升30%。它支持多模态感知(视觉、触觉、力觉)和动态规划,已在仓储物流场景中部署。实践表明,这种具身智能系统能有效处理非结构化环境中的复杂操作。AI模型Jiuwen Symbiosis智能体具身智能多模态工业机器人推荐理由:让AI Agent动起来干活原文
16:53Fireworks AI@FireworksAI_HQ精选Fireworks AI 为 Qwen 模型新增长时智能体循环功能,支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时,生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文,支持按请求切换思考/非思考模式,以及原生图像和文本输入。默认启用 262k 上下文和提示缓存,缓存输入价格为每百万 token 0.10 美元。AI产品FireworksQwen智能体MCP/工具推理模型推荐理由:Fireworks 让 Qwen 跑 11 小时智能体循环原文
16:38Fireworks AI@FireworksAI_HQ精选Fireworks AI 指出,在长代理循环中,推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度,在不牺牲质量的前提下减少下游上下文大小,从而提升生成速度并降低重试次数,最终降低每个完成任务的真实成本。AI模型K2.7 CodeFireworks AI推理模型智能体推荐理由:K2.7 Code 省 token 省成本原文
13:30Jerry Liu@jerryjliu0Jerry Liu 在推文中提出 Loopcraft 概念,将组织构建类比为递归循环:个体是递归循环,团队在个体上循环实现团队级 OKR,公司在团队上循环实现公司级 OKR。他设想构建整合人类与智能体的组织,其中外层智能体循环管理子智能体和其他人类,进行任务分派与审查。swyx 补充认为,未来竞争在于有效堆叠循环的能力:早期需知道在出错时向下深入循环以提升可靠性,而随着模型进步,向上提升循环以获得杠杆将更为关键。技巧智能体组织设计Loopcraft递归循环AI协作1 个信源在谈推荐理由:用递归循环重新理解组织与AI协作原文
13:26爱范儿@爱范儿视频vivo 与 AI 行动派用户探讨了 AI 在折叠屏手机上的实际应用,如贴发票和写日报等日常任务。手机被视为调度多个 Agent 的入口,折叠屏因其展开特性能同时处理多件小事。文章强调 AI 不必急于颠覆,而是先解决具体问题。vivo 的折叠屏设备在 AI 时代扮演了关键角色。AI产品vivo折叠屏AI Agent智能体手机推荐理由:vivo 折叠屏如何让 AI 搞定日常琐事原文
13:19LangChain@LangChainAILangSmith Fleet 提供四种创建技能的方式:通过 AI 聊天描述需求自动生成、在创建 agent 时自动生成相关技能、从模板开始、以及手动编写。用户可通过 LangChain 博客获取详细指南。技巧LangSmithFleetLangChain智能体技能创建推荐理由:四种方法,快速上手原文
13:19LangChain@LangChainAIBox Agent 基于 Deep Agents 构建,提供跨库搜索、多文档合成和结构化报告功能。该智能体在 Box 现有的安全与权限模型内运行,无需额外配置。目前该推文获得 1006 次浏览和 10 个点赞。AI产品Box AgentDeep Agents智能体多文档合成推荐理由:Box 出了个能跨库搜文档的智能体原文
13:16LangChain@LangChainAILangChain 的 Managed Deep Agents 现已集成 LangSmith Sandboxes,允许智能体安全执行代码。该功能通过沙箱环境隔离代码运行,防止对系统造成损害。开发者可以在 LangSmith 平台上直接测试和调试代理行为。AI产品Managed Deep AgentsLangSmithLangChain智能体代码执行推荐理由:LangChain 让智能体安全跑代码原文
13:10GitHub@githubGitHub宣布Copilot代码审查功能新增自定义Agent技能和MCP服务器连接支持,现已进入公开预览阶段。该功能适用于Copilot Pro、Pro+、Business和Enterprise用户。开发者可将组织上下文和标准直接整合到代码差异审查中,提升审查效率与一致性。AI产品GitHubCopilotMCP/工具代码审查智能体推荐理由:GitHub给Copilot加了自定义审查规则原文
13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
13:09elvis@omarsar0精选Omar Sanseviero分享运行自主长时编码智能体的经验,建议用Opus 4.8做规划、GPT-5.5执行,并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强,能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。技巧Opus 4.8GPT-5.5DeepseekQwenKimiMiniMax智能体7 个信源在谈推荐理由:Opus 4.8+GPT-5.5分工跑长任务原文
13:07Alex Albert@alexalbert__Fable在长时间智能体对话中表现出超人类能力,有时用户甚至跟不上其输出。一个提示词片段被证明是让Fable写作更清晰、去除行话的最佳方法。该提示词片段在X上获得310个赞和94次分享。技巧Fable提示词工程智能体写作推荐理由:Fable对话太强,用这个提示词让它更清晰原文
13:05Ate-a-Pi@svpinoApify actors 让 Claude Code 能解析全球任意网站,被开发者称为“超能力”。Apify 刚为 Claude Code 添加了 MCP 连接器支持,扩展了更多应用场景。一个示例演示了如何通过 Apify 让 Claude Code 抓取并理解网页内容。技巧Claude CodeApifyMCP/工具智能体推荐理由:让 Claude Code 能读任何网站原文
13:03marktechpost@Asif RazzaqMoonshot AI 开源了 Kimi K2.7-Code,这是一个基于 Kimi K2.6 构建的编程智能体模型,采用 Modified MIT 许可证。该模型拥有 256K 上下文窗口,推理 token 使用量降低约 30%。在 Kimi Code Bench v2 上,K2.7-Code 相比 K2.6 提升了 21.8%,并在其他五个基准上也有增长。模型已通过 Kimi API 和 Kimi Code 提供。AI模型Kimi K2.7-CodeMoonshot AI编程助手开源模型智能体6 个信源在谈推荐理由:编程模型开源,性能提升明显原文
13:02rohanpaul_ai@rohanpaul_ai创新工场创始人李开复指出,单个AI智能体如同前互联网时代的PC,功能强大但孤立。连接多个智能体后,它们能共享上下文、拆分任务并即时协调。他认为多智能体系统是AI发展的未来方向,将带来更高效和智能的协作。行业多智能体Sinovation Ventures李开复智能体协作推荐理由:李开复谈多智能体未来原文
13:00lmarena.ai@lmarena_aiPeter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现,包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩,超越了前代模型。AI模型Claude Fable 5AnthropicAgent Arena智能体推理模型10 个信源在谈推荐理由:看看Claude Fable 5在Agent Arena的表现原文
12:59lmarena.ai@lmarena_ai83°Arena 宣布已移除 Claude Fable 5,原因是 Anthropic 的最新公告和美国政府指令要求暂停访问。Fable 5 在 Agent、Text 和 Code Arena 三项基准中均排名第一,是 Arena 测试过的最强模型,在 Agent Arena 上以最大领先幅度超过 Opus-4.8 和 GPT-5.5。该模型在确认任务成功率和好评/投诉比两项关键信号上表现突出,但可操控性较弱。Arena 表示将在可能时恢复访问并重启社区测试。行业Claude Fable 5AnthropicArenaAI安全智能体10 个信源在谈推荐理由:最强模型被下架,原因值得关注原文
12:58lmarena.ai@lmarena_aiClaude Fable-5 在 Agent Arena 排行榜上展示了其技术细节,该模型在多个基准测试中表现突出。具体数据显示,Fable-5 在任务完成率上达到 92.3%,相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。AI模型Claude Fable-5Agent Arena基准测试智能体10 个信源在谈推荐理由:看 Fable-5 在 Agent Arena 上的具体数据原文
11:13AWS Machine Learning Blog@Anton Selin精选Rocket Close使用Strands Agents、Amazon Bedrock、Amazon Bedrock Knowledge Bases和MCP工具构建了Supercharger解决方案,用于优化产权运营。该方案通过LLM驱动的智能体自动化处理产权搜索和文档分析,减少了人工操作。Rocket Close在实施后实现了运营效率提升,具体数字未公开。技术栈选择基于Amazon Bedrock的托管服务和MCP工具集成,简化了开发流程。AI产品Strands AgentsAmazon BedrockRocket CloseMCP/工具智能体2 个信源在谈推荐理由:看Rocket Close如何用智能体搞定产权运营原文
11:11orange.ai@oran_ge作者与藏师傅讨论AI带来的K型分化,头部用户已默认理解Agent的组成包括文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill,而普通用户仅知Agent能写代码。作者认为将技能做好是跨越鸿沟的唯一解法,并正与藏师傅合作通过Cola帮助大众跨越鸿沟。行业AgentMCP/工具智能体Cola藏师傅推荐理由:聊聊AI带来的K型分化原文
11:06LangChain@LangChainAILangChain 在博客中详细介绍了构建 AI 应用的内部架构,包括如何使用 LangGraph 和 LangSmith 等工具。文章展示了从原型到生产的完整流程,涉及多个组件如代理、工具和状态管理。该架构支持多种模型集成,并提供了实际案例。AI产品LangChainLangGraphLangSmith智能体编程助手推荐理由:LangChain 教你搭 AI 应用架构原文