全部 AI 动态 · AI 热点

6月14日

13:05

marktechpost@Asif Razzaq

Databricks 开源了 Omnigent，一个位于 Claude Code、Codex 和 Pi 等编码智能体之上的元编排框架。它提供统一的终端、网页、桌面和移动端界面，支持智能体组合、上下文策略管理和实时会话共享。该项目采用 Apache 2.0 许可，目前处于 alpha 阶段。

AI产品 Databricks Omnigent Claude Code Codex Pi 智能体

推荐理由：Databricks 开源了跨智能体编排工具

原文

10:14

pandaily@contact@pandaily.com (Pandaily)

精选

腾讯正在测试微信内置的AI Agent功能，引发行业讨论。分析师认为这可能是平台防御策略而非真正创新。与用户侧AI Agent相比，微信的Agent可能更倾向于服务平台利益。真正的用户侧AI Agent被认为能提供更具变革性的体验。该功能预计在2026年6月前推出。

行业微信 Tencent AI Agent 智能体平台防御

推荐理由：微信AI Agent来了，但可能不是为你

原文

10:10

Pandaily@contact@pandaily.com (Pandaily)

华为在HDC 2026上推出HarmonyOS 7，将小艺助手升级为系统级AI智能体，开放超过2100项系统能力和2000+技能。新系统从以应用为中心转向以意图驱动交互，小艺成为操作系统的智能核心。HarmonyOS 7旨在通过AI智能体重塑用户体验，实现更自然的设备控制。

AI产品 HarmonyOS 7 华为小艺智能体 AI操作系统

推荐理由：华为把AI智能体塞进系统底层

原文

07:52

07:52IT之家（博客/媒体）

谷歌在AI模式中推出搜索智能体功能，将传统搜索引擎转为后台静默运行的主动式助手。首批信息智能体全天候监测博客、新闻平台、社交媒体等数据源，覆盖金融行情、商品库存等。用户输入“持续关注”等指令即可设置，如筛选房源或监测球鞋上架。该功能仅向谷歌AI Ultra订阅用户开放，月费99.99美元或199.99美元，计划夏季下放至AI Pro档位。

AI产品谷歌搜索智能体 AI模式智能体信息监测

推荐理由：谷歌让搜索变主动，帮你24小时盯全网

原文

07:44

MiniMax_AI@MiniMax_AI

MiniMax的M3模型在NousResearch的Hermes Agent上运行。Hermes Agent是一个开源智能体框架，M3模型为其提供推理能力。该组合展示了M3在智能体任务中的表现。

AI模型 MiniMax M3 Hermes Agent NousResearch 智能体

推荐理由：看看M3模型在智能体上的表现

原文

06:09

rohanpaul_ai@rohanpaul_ai

精选

一项新研究提出了HLL基准测试，要求AI智能体完成10种CAPTCHA任务，包括识别页面元素、正确点击或拖动、跟踪状态变化并提交答案。测试发现，即使强大的智能体在静态任务中表现良好，但在页面杂乱、任务复杂或系统验证操作有效性时仍会失败。该基准旨在评估智能体在真实人机验证场景中的能力，结果显示当前AI智能体难以通过此类验证。

论文 HLL CAPTCHA 智能体基准测试 AI安全

推荐理由：看看AI怎么被CAPTCHA难倒的

原文

05:52

elvis@omarsar0

Omar Sanseviero 提出 LLM Council 概念，认为其与 LLM 路由相关但更强调集成多个智能体的智能与知识。该想法尚未被充分探索，但在当前 AI 发展状态下有巨大应用潜力。帖子获得 18 个点赞和 1360 次浏览，引发对多智能体协作的讨论。

论文 LLM Council 智能体多智能体 Omar Sanseviero

推荐理由：探索多智能体协作新思路

原文

04:51

宝玉@dotey

精选

Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型，点哪都有反应，状态保持完整。作者拆解了 Agent 的 Harness 层和模型层，指出 Harness 层技术不复杂，但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构，开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足，无法一次性交付完整可交互原型。

AI模型 Claude Design Claude Opus 4.8 GPT-5.5 Codex 智能体

推荐理由：拆解 Claude Design 为何比 Codex 强

原文

04:21

elvis@omarsar0

精选

Elvis 在讨论中分享了运行自主长期编码智能体的经验，指出大多数模型难以协调长期任务，容易过早暂停或出现奖励黑客行为。他建议使用 Opus 4.8 进行规划，GPT-5.5 执行任务，并用 Deepseek、Qwen、Kimi 等模型作为评估器。强调多模态目标比纯文本目标更有效，能帮助智能体保持方向。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen 智能体

推荐理由：Opus 4.8 规划 + GPT-5.5 执行，长期智能体实战配方

原文

04:21

elvis@omarsar0

Omar Sanseviero 在 X 上分享了关于自主长时编码智能体的笔记，涵盖目标设定、循环工程、验证器和动态工作流等主题。笔记使用其 writer agent 快速总结，并附有引用推文链接。该内容涉及如何构建能长时间自主运行的编码智能体，包括关键组件如验证器和动态工作流。

技巧编码智能体智能体工作流验证器 Omar Sanseviero

推荐理由：Omar 分享的编码智能体实战笔记

原文

02:22

elvis@omarsar0

Matei Zaharia 开源了 Omnigent，一个用于 AI 智能体的元框架。它允许用户组合 Claude Code、Codex、Pi 和 agent SDK 等多个智能体，构建多智能体编码和自定义智能体。Omnigent 还增加了实时协作和丰富的控制策略。该项目旨在解决模型锁定问题，但路由功能仍待完善。

AI产品 Omnigent Matei Zaharia Claude Code Codex 智能体

推荐理由：开源多智能体编排框架，可组合多个工具

原文

01:51

marktechpost@Sana Hassan

精选

本教程演示如何使用QwenPaw搭建智能体工作区。首先安装并初始化QwenPaw，配置工作目录和认证。通过Colab secrets连接可选模型提供商（如OpenAI、Anthropic）。创建包含自定义技能和本地知识文件的结构化工作区。最后启动控制台并测试流式API。

技巧 QwenPaw 智能体流式API Colab 自定义技能

推荐理由：手把手教你搭QwenPaw智能体工作区

原文

00:57

rohanpaul_ai@rohanpaul_ai

精选

Adaline 发布了一个自我改进层，能将 AI 智能体的生产痕迹转化为新的评估、合成边缘案例和更好的候选智能体。该工具读取生产流量和用户反馈，将混乱的对话聚类为可识别的智能体行为，无需人工逐一检查。它还能生成人类从未考虑过的评估，帮助提升智能体性能。

AI产品 Adaline 智能体评估生产流量自我改进

推荐理由：自动从生产数据生成评估，省去人工排查

原文

00:57

rohanpaul_ai@rohanpaul_ai

精选

一篇综述论文系统梳理了面向大语言模型的智能体强化学习方法，覆盖 500 余篇相关工作。论文将现有研究分为能力与应用两大部分：能力部分涵盖记忆、规划、工具使用、推理、多模态感知和自我改进；应用部分展示这些方法在复杂任务中的落地。核心观点是传统 LLM 训练只奖励单次回答，而真实任务需要多步决策与延迟反馈，强化学习恰好能解决这一时序学习问题。

论文 agentic reinforcement learning LLM survey 智能体强化学习

推荐理由：500篇论文的智能体RL地图

原文

6月13日

23:22

lmarena.ai@lmarena_ai

GLM-5.2 模型已在 Text Arena 和 Code Arena: Frontend 中可用。用户可以通过 arena.ai/agent 平台测试该模型在真实世界任务上的表现。该平台旨在评估 AI 性能的前沿。

AI模型 GLM-5.2 Text Arena Code Arena arena.ai 智能体

推荐理由：试试 GLM-5.2 在真实任务中的表现

原文

22:57

lmarena.ai@lmarena_ai

AI模型 GLM-5.2 Zai_org Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看GLM-5.2在Agent Arena能排第几

原文

22:21

Geek@geekbb

精选

智谱AI宣布GLM-5.2完全开源，这是其最强开源模型。该模型支持1M上下文窗口，在长周期任务独立完成方面保持领先，为复杂智能体应用提供基础支持。GLM-5.2也是智谱最强国产编程模型的核心引擎。今晚5:21起，所有GLM编程计划用户（Lite/Pro/Max）均可使用，API下周上线。

AI模型 GLM-5.2 智谱AI 开源模型智能体编程助手

推荐理由：智谱开源最强模型GLM-5.2，1M上下文免费可用

原文

20:47

Decoder@Jonathan Kemper

精选

微软与三所中国大学联合开发了SkillOpt方法，通过优化AI智能体的指令文档来提升性能。该方法仅需一个经过训练的Markdown文件，就能让GPT-5.5在程序性任务上提升约23个基准点。该文件还能跨模型和智能体环境迁移，如Codex和Claude Code。

AI模型 SkillOpt GPT-5.5 微软智能体 Codex

推荐理由：微软用Markdown文件让GPT-5.5涨23分

原文

20:42

20:42IT之家（博客/媒体）

华为在 HDC 2026 期间推出 DevEco Code，这是一款面向 HarmonyOS 的 AI Agent 工具，支持代码编写、编译构建、设备运行等能力。该工具基于开源项目 OpenCode 扩展开发，集成了 DevEco Studio、Hvigor、HDC 等 HarmonyOS 开发工具。DevEco Code 提供 build_project、start_app、hdc_log 等 8 种常用场景功能，包括从零创建工程、增量开发页面、修复编译报错和真机调试。

AI产品 DevEco Code HarmonyOS 华为编程助手智能体

推荐理由：华为发布鸿蒙开发AI助手

原文

17:22

量子位@一水

精选

Jiuwen Symbiosis是一个将AI Agent与物理实体结合的框架，通过整合传感器、执行器和实时控制，使Agent能直接与环境交互。该框架在工业机器人测试中实现了90%的任务完成率，相比传统方案提升30%。它支持多模态感知（视觉、触觉、力觉）和动态规划，已在仓储物流场景中部署。实践表明，这种具身智能系统能有效处理非结构化环境中的复杂操作。

AI模型 Jiuwen Symbiosis 智能体具身智能多模态工业机器人

推荐理由：让AI Agent动起来干活

原文

16:53

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 为 Qwen 模型新增长时智能体循环功能，支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时，生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文，支持按请求切换思考/非思考模式，以及原生图像和文本输入。默认启用 262k 上下文和提示缓存，缓存输入价格为每百万 token 0.10 美元。

AI产品 Fireworks Qwen 智能体 MCP/工具推理模型

推荐理由：Fireworks 让 Qwen 跑 11 小时智能体循环

原文

16:38

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 指出，在长代理循环中，推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度，在不牺牲质量的前提下减少下游上下文大小，从而提升生成速度并降低重试次数，最终降低每个完成任务的真实成本。

AI模型 K2.7 Code Fireworks AI 推理模型智能体

推荐理由：K2.7 Code 省 token 省成本

原文

13:30

Jerry Liu@jerryjliu0

Jerry Liu 在推文中提出 Loopcraft 概念，将组织构建类比为递归循环：个体是递归循环，团队在个体上循环实现团队级 OKR，公司在团队上循环实现公司级 OKR。他设想构建整合人类与智能体的组织，其中外层智能体循环管理子智能体和其他人类，进行任务分派与审查。swyx 补充认为，未来竞争在于有效堆叠循环的能力：早期需知道在出错时向下深入循环以提升可靠性，而随着模型进步，向上提升循环以获得杠杆将更为关键。

技巧智能体组织设计 Loopcraft 递归循环 AI协作

推荐理由：用递归循环重新理解组织与AI协作

原文

13:26

爱范儿@爱范儿视频

vivo 与 AI 行动派用户探讨了 AI 在折叠屏手机上的实际应用，如贴发票和写日报等日常任务。手机被视为调度多个 Agent 的入口，折叠屏因其展开特性能同时处理多件小事。文章强调 AI 不必急于颠覆，而是先解决具体问题。vivo 的折叠屏设备在 AI 时代扮演了关键角色。

AI产品 vivo 折叠屏 AI Agent 智能体手机

推荐理由：vivo 折叠屏如何让 AI 搞定日常琐事

原文

13:19

LangChain@LangChainAI

LangSmith Fleet 提供四种创建技能的方式：通过 AI 聊天描述需求自动生成、在创建 agent 时自动生成相关技能、从模板开始、以及手动编写。用户可通过 LangChain 博客获取详细指南。

技巧 LangSmith Fleet LangChain 智能体技能创建

推荐理由：四种方法，快速上手

原文

13:19

LangChain@LangChainAI

Box Agent 基于 Deep Agents 构建，提供跨库搜索、多文档合成和结构化报告功能。该智能体在 Box 现有的安全与权限模型内运行，无需额外配置。目前该推文获得 1006 次浏览和 10 个点赞。

AI产品 Box Agent Deep Agents 智能体多文档合成

推荐理由：Box 出了个能跨库搜文档的智能体

原文

13:16

LangChain@LangChainAI

LangChain 的 Managed Deep Agents 现已集成 LangSmith Sandboxes，允许智能体安全执行代码。该功能通过沙箱环境隔离代码运行，防止对系统造成损害。开发者可以在 LangSmith 平台上直接测试和调试代理行为。

AI产品 Managed Deep Agents LangSmith LangChain 智能体代码执行

推荐理由：LangChain 让智能体安全跑代码

原文

13:10

GitHub@github

GitHub宣布Copilot代码审查功能新增自定义Agent技能和MCP服务器连接支持，现已进入公开预览阶段。该功能适用于Copilot Pro、Pro+、Business和Enterprise用户。开发者可将组织上下文和标准直接整合到代码差异审查中，提升审查效率与一致性。

AI产品 GitHub Copilot MCP/工具代码审查智能体

推荐理由：GitHub给Copilot加了自定义审查规则

原文

13:10

rohanpaul_ai@rohanpaul_ai

精选

AGENTCL 提出一个评估语言智能体持续学习能力的新基准，通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流（后续任务可复用前序任务的代码函数、研究证据或工作流）与“朴素”任务流（任务同领域但无明确复用关系）。研究发现，当前记忆方法在任务连接明显时能复用过往经验，但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。

论文 AGENTCL 智能体持续学习记忆基准

推荐理由：看智能体记忆到底行不行

原文

13:09

elvis@omarsar0

精选

Omar Sanseviero分享运行自主长时编码智能体的经验，建议用Opus 4.8做规划、GPT-5.5执行，并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强，能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen Kimi MiniMax 智能体

推荐理由：Opus 4.8+GPT-5.5分工跑长任务

原文

13:07

Alex Albert@alexalbert__

Fable在长时间智能体对话中表现出超人类能力，有时用户甚至跟不上其输出。一个提示词片段被证明是让Fable写作更清晰、去除行话的最佳方法。该提示词片段在X上获得310个赞和94次分享。

技巧 Fable 提示词工程智能体写作

推荐理由：Fable对话太强，用这个提示词让它更清晰

原文

13:05

Ate-a-Pi@svpino

Apify actors 让 Claude Code 能解析全球任意网站，被开发者称为“超能力”。Apify 刚为 Claude Code 添加了 MCP 连接器支持，扩展了更多应用场景。一个示例演示了如何通过 Apify 让 Claude Code 抓取并理解网页内容。

技巧 Claude Code Apify MCP/工具智能体

推荐理由：让 Claude Code 能读任何网站

原文

13:03

marktechpost@Asif Razzaq

Moonshot AI 开源了 Kimi K2.7-Code，这是一个基于 Kimi K2.6 构建的编程智能体模型，采用 Modified MIT 许可证。该模型拥有 256K 上下文窗口，推理 token 使用量降低约 30%。在 Kimi Code Bench v2 上，K2.7-Code 相比 K2.6 提升了 21.8%，并在其他五个基准上也有增长。模型已通过 Kimi API 和 Kimi Code 提供。

AI模型 Kimi K2.7-Code Moonshot AI 编程助手开源模型智能体

推荐理由：编程模型开源，性能提升明显

原文

13:02

rohanpaul_ai@rohanpaul_ai

创新工场创始人李开复指出，单个AI智能体如同前互联网时代的PC，功能强大但孤立。连接多个智能体后，它们能共享上下文、拆分任务并即时协调。他认为多智能体系统是AI发展的未来方向，将带来更高效和智能的协作。

行业多智能体 Sinovation Ventures 李开复智能体协作

推荐理由：李开复谈多智能体未来

原文

13:00

lmarena.ai@lmarena_ai

Peter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现，包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩，超越了前代模型。

AI模型 Claude Fable 5 Anthropic Agent Arena 智能体推理模型

推荐理由：看看Claude Fable 5在Agent Arena的表现

原文

12:59

lmarena.ai@lmarena_ai

83°

Arena 宣布已移除 Claude Fable 5，原因是 Anthropic 的最新公告和美国政府指令要求暂停访问。Fable 5 在 Agent、Text 和 Code Arena 三项基准中均排名第一，是 Arena 测试过的最强模型，在 Agent Arena 上以最大领先幅度超过 Opus-4.8 和 GPT-5.5。该模型在确认任务成功率和好评/投诉比两项关键信号上表现突出，但可操控性较弱。Arena 表示将在可能时恢复访问并重启社区测试。

行业 Claude Fable 5 Anthropic Arena AI安全智能体

推荐理由：最强模型被下架，原因值得关注

原文

12:58

lmarena.ai@lmarena_ai

Claude Fable-5 在 Agent Arena 排行榜上展示了其技术细节，该模型在多个基准测试中表现突出。具体数据显示，Fable-5 在任务完成率上达到 92.3%，相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。

AI模型 Claude Fable-5 Agent Arena 基准测试智能体

推荐理由：看 Fable-5 在 Agent Arena 上的具体数据

原文

11:13

AWS Machine Learning Blog@Anton Selin

精选

Rocket Close使用Strands Agents、Amazon Bedrock、Amazon Bedrock Knowledge Bases和MCP工具构建了Supercharger解决方案，用于优化产权运营。该方案通过LLM驱动的智能体自动化处理产权搜索和文档分析，减少了人工操作。Rocket Close在实施后实现了运营效率提升，具体数字未公开。技术栈选择基于Amazon Bedrock的托管服务和MCP工具集成，简化了开发流程。

AI产品 Strands Agents Amazon Bedrock Rocket Close MCP/工具智能体

推荐理由：看Rocket Close如何用智能体搞定产权运营

原文

11:11

orange.ai@oran_ge

作者与藏师傅讨论AI带来的K型分化，头部用户已默认理解Agent的组成包括文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill，而普通用户仅知Agent能写代码。作者认为将技能做好是跨越鸿沟的唯一解法，并正与藏师傅合作通过Cola帮助大众跨越鸿沟。

行业 Agent MCP/工具智能体 Cola 藏师傅

推荐理由：聊聊AI带来的K型分化

原文

11:06

LangChain@LangChainAI

LangChain 在博客中详细介绍了构建 AI 应用的内部架构，包括如何使用 LangGraph 和 LangSmith 等工具。文章展示了从原型到生产的完整流程，涉及多个组件如代理、工具和状态管理。该架构支持多种模型集成，并提供了实际案例。

AI产品 LangChain LangGraph LangSmith 智能体编程助手

推荐理由：LangChain 教你搭 AI 应用架构

原文