全部 AI 动态 · AI 热点

5月27日

17:59

Philipp Schmid@_philschmid

72°

DeepSWE 是一个新的软件工程/智能体基准测试，包含 113 个任务，覆盖 91 个仓库和 5 种编程语言。其评估框架 mini-swe-agent 为每个模型提供单一的 bash 工具和相同的系统指令，没有厂商自定义原语。评估提示比 SWE-Bench Pro 更短，但平均需要修改 5.5 倍以上的代码和 7 个文件，旨在模拟开发者与智能体对话的真实方式。初步结果显示，Claude Opus 比 Claude Code 高 10 个百分点，Gemini 3.1 Pro 比 Gemini CLI 高 20 个百分点。该基准强调指令遵循能力，可能对探索型模型不利。

AI模型 SWE 基准智能体编程助手 Claude Opus Gemini Pro

推荐理由：做 SWE 智能体评估或开发 AI 编程助手的团队，这个新基准更贴近真实开发场景，值得关注其设计思路和模型表现差异。

原文

17:53

Harrison Chase@hwchase17

Harrison Chase（LangChain 创始人）在 X 上推荐了一个名为 Quarq 的开源智能体项目，其核心设计围绕记忆与持续学习能力。该智能体能够记住历史交互并从中学习，从而在长期任务中表现更稳定。这一方向解决了当前 AI 智能体缺乏长期记忆、难以持续优化的痛点。对于构建需要长期交互或个性化服务的 AI 应用的开发者来说，Quarq 提供了一个值得探索的开源方案。

AI产品开源/仓库智能体记忆持续学习 Quarq

推荐理由：做长期交互 AI 应用的开发者终于有了一个原生支持记忆和持续学习的开源智能体，LangChain 创始人亲自推荐，值得一试。

原文

13:42

阿里云 Alibaba Cloud@alibaba_cloud

阿里云在Omdia的智能体AI市场雷达报告中被评为领导者，这是首个以智能体范式重构整个平台的云服务商。报告强调阿里云在每一层的全栈能力，从基础设施到应用层均围绕智能体设计。这一认可表明阿里云在AI智能体领域的战略布局和技术实力获得国际权威认可。

行业阿里云智能体云服务市场报告 AI平台

推荐理由：做AI智能体开发的团队可以关注阿里云的全栈能力，它可能是目前最完整的智能体云平台，值得深入研究其技术架构。

原文

11:59

阿里云 Alibaba Cloud@alibaba_cloud

阿里云推出Agent Infra，旨在解决智能体开发与部署中的五大痛点。该方案包含AgentRun（一站式构建与部署）、AgentTeams（安全的多智能体治理）、AgentLoop（可观测性与优化循环）和STAROps（自主AI运维）四个核心组件。通过简化工程复杂度，让开发者更专注于业务结果而非底层基础设施。这对于正在构建或管理AI智能体团队的开发者来说是一个值得关注的新工具。

AI产品阿里云智能体多智能体治理 AI运维云服务

推荐理由：阿里云这套Agent Infra直击多智能体协作的工程痛点，做AI应用开发的团队可以直接拿来简化部署和治理流程，建议点开看看具体怎么落地。

原文

11:16

LangChain@LangChainAI

精选

LangChain 发布 LangSmith Engine，旨在加速软件和智能体的自优化循环。该系统通过观察自身输出、评估并利用信号持续改进，而 LLM 的可靠性使评估步骤终于可行。LangSmith Engine 集成了自动分类反馈、在线评估器防止回归、离线评估加入测试套件，以及根据用户偏好持续调优等功能。该工具已获得大量采用，并随着使用时间增加而效果更好。

AI产品 LangSmith Engine 自优化循环智能体评估/反馈 LangChain

推荐理由：做智能体或自动化流程的开发者，LangSmith Engine 解决了自优化循环的落地难题——反馈自动处理、评估不退化，值得直接集成到你的工作流中。

原文

11:08

LangChain@LangChainAI

LangChain 联合创始人 Harrison Chase 在 Day 2 主题演讲中展望了未来智能体的形态。他强调了“中断”（Interrupt）机制的重要性，认为智能体需要能够暂停、等待用户输入或外部事件，再继续执行任务。这一设计让智能体更可控、更可靠，适合复杂工作流。演讲还展示了 LangChain 平台对中断机制的支持，开发者可以按需调用。这对构建生产级 AI 应用的团队有直接参考价值。

AI产品智能体 LangChain 中断机制工作流生产级AI

推荐理由：Harrison Chase 点出了智能体从“自动执行”到“可控交互”的关键转变，做 AI 工作流和智能体应用的开发者值得看看这个方向。

原文

11:04

Y Combinator@ycombinator

精选

Superset 是一款开源 IDE，专为开发者设计，支持并行运行数百个 AI 智能体。过去四个月，其周增长率达 30%，帮助工程师将 PR 提交效率提升 10 倍。该项目由 Y Combinator 支持，近日正式发布，受到社区关注。

AI产品开源/仓库 IDE 智能体并行计算 Superset

推荐理由：对于需要大规模并行执行 AI 任务的开发者，Superset 提供了一个开源 IDE 解决方案，能显著提升代码审查和 PR 效率，值得尝试。

原文

11:03

LangChain@LangChainAI

LangChain Academy 发布了 LangSmith Fleet Essentials 课程，教用户如何无需编写代码即可构建、使用和管理自己的智能体舰队（Agent Fleet），用于处理复杂的日常任务。该快速入门课程以构建和优化邮件智能体为例，帮助用户快速上手。课程免费注册，适合希望利用 AI 智能体自动化工作流的非技术用户和开发者。

AI产品 LangChain LangSmith 智能体零代码自动化

推荐理由：零代码构建智能体舰队，让非技术人员也能用 AI 自动化复杂任务，想提升工作效率的团队或个人可以直接免费报名学习。

原文

08:37

berryxia@berryxia

76°

Google Gemma团队推出开源项目AIventure，一个复古地牢爬行游戏，核心玩法是将agentic workflow和vibe-coding融入游戏。玩家在游戏中通过自然语言指令，让本地模型Gemma 4实时理解、规划、调用工具，最终生成可运行的Web应用。该项目完全开源，旨在展示如何让AI执行复杂任务，而非仅停留在对话层面。开发者可通过游戏机制学习AI agent集成与任务自动化。

AI产品 Gemma 4 AIventure 开源/仓库智能体编程助手

推荐理由：想体验AI agent从聊天到落地的开发者，这个游戏让你边玩边学Gemma 4的实时任务执行，直接跑出真实应用，值得一试。

原文

06:20

DeepLearning.AI@DeepLearningAI

卡内基梅隆大学和斯坦福大学的研究人员发现，当前AI智能体基准测试主要聚焦于软件开发任务，而美国劳动力市场的工作种类更为多样。研究将智能体测试中的任务映射到美国劳工统计局的职业数据，结果显示测试内容与大多数人的实际工作存在显著不匹配。这意味着现有基准可能高估了AI在某些领域的表现，同时低估了其在其他经济价值任务中的潜力。该研究呼吁开发更全面的评估方法，以真实反映AI智能体的经济影响。

论文智能体基准测试劳动力市场 CMU 斯坦福

推荐理由：这项研究戳破了AI基准测试的盲区——如果你在评估智能体工具或做AI产品，会发现现有测试可能误导了你的判断，建议点开看看如何修正评估标准。

原文

04:08

elvis@omarsar0

精选

该论文提出一种睡眠压缩机制，让模型每N步进行离线递归处理将上下文写入持久快速权重，然后清除KV缓存。在细胞自动机、多跳图检索和数学推理任务上，该方法比纯Transformer和SSM-Attention混合模型效果更好，睡眠时间越长性能提升越大。这为长时智能体提供了替代方案，通过压缩和遗忘原始token来避免注意力二次计算开销。

论文 DAIR.AI 智能体长上下文推理模型状态空间模型

推荐理由：智能体睡一觉，推理更强

原文

03:26

Gary Marcus@GaryMarcus

Gary Marcus 引用了一个新术语“agent debt”（智能体债务），指在快速构建智能体工作流时，系统提示冲突、记忆污染、工具重叠等问题积累，导致几个月后智能体行为异常且难以调试。他认为这是 AI 驱动的技术债的必然体现，并推荐阅读 2014 年的经典文章《机器学习：技术债的高息信用卡》。这一概念提醒开发者，AI 系统的快速迭代若不及时清理，会带来严重的维护成本。

行业智能体技术债 AI 开发系统维护 Gary Marcus

推荐理由：做智能体开发或 AI 产品迭代的团队，这个新词能帮你提前识别隐性风险——快速上线后不清理，6 个月后可能连自己都看不懂。建议点开看看 Marcus 的警告和那篇经典文章。

原文

03:24

Anthropic@AnthropicAI

Anthropic 在工程博客中提出，随着 AI 智能体能力增强，其访问权限也应动态调整。他们通过沙箱机制限制潜在破坏性操作的范围，确保安全可控。这一思路对构建可靠 AI 系统的开发者具有重要参考价值。文章详细介绍了 Anthropic 产品中的权限管理实践。

AI产品智能体权限管理安全/沙箱 Anthropic 工程实践

推荐理由：做 AI 智能体安全与权限管理的团队值得一读——Anthropic 的沙箱实践直接解决了「能力越强风险越大」的痛点，建议点开看看他们的工程方案。

原文

00:47

Weaviate@weaviate_io

Booking.com 的 Başak Eskili 在 Weaviate Podcast 上分享了他们从关键词匹配到语义检索的 AI 进化之路，最终在 AWS 上使用 OpenSearch 并迁移到 Weaviate 以应对 1 亿+嵌入向量的生产级规模。他们构建的合作伙伴到客人的消息代理是真实的智能体 AI 案例：Weaviate 检索回复模板，API 获取上下文，智能体推荐或生成回复，必要时转人工。评估体系包括离线数据集、LLM 作为裁判、A/B 测试和实时反馈。他们还测试了过滤向量搜索、多线程并发、读写并发和成本优化，并展望了带记忆系统的个性化旅行代理。

AI产品向量搜索 Weaviate OpenSearch 智能体生产级部署

推荐理由：做向量搜索或 RAG 系统的团队，Booking.com 的 1 亿+嵌入生产实战比任何论文都实在，看完能避开不少坑。

原文

00:23

lmarena.ai@lmarena_ai

精选83°

Qwen3.7 Max 在 Code Arena 前端编程评测中排名第4，成为榜单上排名最高的中国实验室模型，超越了 GLM-5.1，并与 Claude Opus 4.6 持平。该模型专为智能体时代设计，支持端到端编码、前端原型、多文件重构和真实调试，还能通过 MCP 集成和多智能体编排完成办公任务。在长时自主任务中，它可连续运行 35 小时，执行超过 1000 次工具调用而无需人工干预。API 已在阿里云百炼平台上线，用户也可在 Qwen Studio 体验。

AI模型 Qwen3.7 Max Code Arena 前端编程智能体阿里云

推荐理由：Qwen3.7 Max 在智能体编程任务上追平了 Claude Opus 4.6，做前端开发或自动化智能体的团队值得一试，尤其是需要长时自主执行的场景。

原文

00:20

岚叔@lufzzliz

一位开发者分享了通过并发运行10个Agent，从YouTube多个TOP级视频中提取提示词、方法论和小技巧的经验。该项目去除了原项目中一些无聊的提示词，新增了生成美女的提示词和创意提示词。作者建议用户拉取最新主分支代码，并预告明天将掘金𝕏平台。开源地址已提供，鼓励用户star。

技巧智能体内容挖掘提示词开源/仓库 YouTube

推荐理由：做内容挖掘或提示词工程的开发者，可以用这套并发Agent方案高效榨取YouTube优质内容，直接拿来用或改造成自己的工具链。

原文

5月26日

23:58

berryxia@berryxia

精选88°

Anthropic黑客松冠军团队Affaan Mustafa和队友在纽约赛场用Claude Code仅8小时做出产品夺冠，奖品为1.5万美元API credits。赛后他们将积累的精华开源为ECC（Everything Claude Code）仓库，包含61个Agent、246个Skills、76个预设命令，以及Hook系统、规则引擎、安全扫描和MCP配置。ECC不是提示词合集，而是完整的AI编程工作台，支持Claude Code、Cursor、Codex等多平台。该项目让独立开发者和小团队能直接克隆一套工业级AI编程环境，持续更新。

AI产品 Claude Code 开源/仓库 AI编程助手智能体 MCP/工具

推荐理由：重度使用Claude Code、Cursor、Codex的开发者，这个开源仓库能让你直接获得一套61个Agent+246个Skills的完整工作台，省去自己搭建的麻烦，建议立刻clone试试。

原文

23:28

elvis@omarsar0

一位开发者构建了一个新的AI Agent技能，能够从YouTube视频中完美提取幻灯片，并自动生成笔记、图片、转录文本和幻灯片，直接写入Obsidian知识库。该技能还包含一个HTML交互界面，用户可以在收听视频时导航和添加更多笔记。这个技能解决了视频学习内容难以结构化整理的问题，尤其适合需要高效整理视频笔记的知识工作者。开发者正在征求社区意见是否公开发布。

AI产品智能体 Obsidian YouTube 知识管理笔记工具

推荐理由：这个技能解决了视频学习内容难以结构化整理的痛点，做知识管理或经常看YouTube教程的开发者可以直接用上，建议关注后续发布。

原文

23:00

Sahil Lavingia@shl

这是一条来自 shl 的推文，强调了人类与 AI 智能体之间的分工：人类负责制定目标和计划（议程），而智能体负责执行具体任务。这种分工模式反映了当前 AI 应用的核心趋势，即人类保持战略控制，AI 处理执行细节。推文获得了 38 个点赞和 3576 次浏览，表明该观点引起了广泛共鸣。

行业智能体人机协作自动化决策执行

推荐理由：这条推文点出了 AI 时代人机协作的本质——人类做决策，AI 做执行。做产品、带团队、搞自动化的读者看完会重新思考分工方式，建议直接收藏。

原文

22:24

LangChain@LangChainAI

LangChain 宣布将参加 5 月 27 日的 #TorontoTechWeek 活动，由部署工程师 Haider Zaidi 和 Questrade 高级首席 AI 工程师 Jasen Mackie 共同分享。他们将深入讲解部署长运行智能体的实际挑战，以及支撑这些智能体的运行时能力。活动提供 RSVP 链接，适合关注 AI 智能体落地的开发者。

行业 LangChain 智能体部署 AI工程化活动

推荐理由：LangChain 团队亲自拆解长运行智能体的部署难点，做 AI 工程化的开发者可以直接去现场或关注后续内容，了解运行时能力如何让智能体真正跑起来。

原文

22:21

Qdrant@qdrant_engine

Qdrant 举办的 Vector Space Day 活动邀请到 Neo4j 开发者关系副总裁 Stephen Chin，他将分享上下文图如何赋予智能体关系理解能力，使其不仅能检索，还能真正推理。活动将于 6 月 11 日在旧金山 The Midway 举行，聚焦智能体与内存的生产级应用、从云到边缘的检索以及多模态 AI。已有 300 多位 AI 构建者报名参加。

行业智能体向量检索知识图谱 Neo4j Qdrant

推荐理由：做智能体或 RAG 系统的开发者，如果发现向量检索经常答非所问，这场演讲会点出关键缺失——关系理解。建议关注活动内容或后续回放。

原文

16:37

Dify@dify_ai

Dify与ArklexAI集成，通过轻量Chat API适配器将ArkSim（开源Agent测试框架）接入Dify应用。ArkSim能模拟多轮真实对话的合成用户，在Dify应用上线前自动检测幻觉、上下文丢失、矛盾和工作流失败。该方案支持有用性、忠实度、连贯性和目标完成度等评估指标，可用于CI质量门禁和知识库回归测试。团队可借此在生产环境暴露问题前修复Agent行为，提升应用可靠性。

AI产品智能体测试框架 Dify Arklex 开源/仓库

推荐理由：做AI Agent应用开发的团队终于有了上线前的自动化测试方案——ArkSim模拟真实用户对话，能提前发现幻觉和流程断裂，建议做Dify应用的开发者直接集成试试。

原文

16:35

阿里云 Alibaba Cloud@alibaba_cloud

阿里巴巴云发布 AI Key Frames 系列，首期邀请 Nous Research 战略主管 Tommy Eastman 探讨 AI 智能体的本质。Eastman 指出当前多数“AI 智能体”只是带额外步骤的聊天机器人，真正的智能体应具备自主决策能力。他强调开源模型在持续超越闭源实验室，并预测 AI 将成为一切的操作层。该系列旨在推动 AI 原生发展，值得关注。

AI产品智能体开源/仓库 Qwen AI 原生行业趋势

推荐理由：Tommy Eastman 对 AI 智能体的犀利定义直击行业痛点，做智能体开发的团队和关注开源 vs 闭源趋势的读者，看完会对 AI 的未来方向有更清晰判断。

原文

16:32

AI Will@FinanceYF5

Google 发布了 Antigravity CLI，让用户可以在终端中直接使用 Antigravity agent。该 CLI 版本轻量、功能完整且完全可定制，满足了部分开发者希望在命令行环境中使用 agent 的需求。在 AI 工具普遍转向 GUI 的趋势下，Google 反其道推出 CLI 版本，为偏好终端操作的开发者提供了新选择。

AI产品 Antigravity CLI 终端智能体 Google

推荐理由：终端党终于等到了官方 CLI 版 Antigravity agent，做自动化脚本或习惯命令行的开发者可以直接上手，省去 GUI 的繁琐。

原文

16:32

AI Will@FinanceYF5

精选

Antigravity 宣布推出 CLI 工具，允许用户在终端中直接启动与网页版相同的智能体。该 CLI 提供完全相同的模型和框架，但针对命令行体验进行了优化，支持用户自定义键绑定、主题和工作流。这意味着开发者无需离开终端即可使用 Antigravity 的智能体能力，提升了开发效率和集成便利性。目前该工具已发布，并附有完整的使用演示视频。

AI产品 Antigravity CLI 智能体终端工具开发者工具

推荐理由：对于习惯终端操作的开发者，Antigravity CLI 让你无需切换环境就能调用智能体，直接融入现有工作流，建议试试。

原文

16:27

Tw93@HiTw93

精选

Waza 是一个将开发者日常工程习惯转化为 AI 智能体可执行技能的工具，吸收了真实项目经验。它支持 Mac 原生应用、CLI 工具和 Rust 项目，兼容 Claude Code、Codex、Cursor 和 Pi 等智能体运行时。Waza 提供 8 项技能，包括 CLI 审查、调试“源码能跑但安装后报错”、修复后自动清理同类实例、强制验证运行时证据后才确认修复等。它还内置 25 种反模式检测、破坏性命令安全保护，并将获取的内容视为不可信数据。该项目无框架依赖、无遥测，轻量可卸载。

AI产品智能体 CLI 工具开源/仓库代码审查 Rust

推荐理由：Waza 把开发者熟悉的工程习惯打包成 AI 智能体可直接运行的技能，做 CLI 工具、Rust 或 Mac 原生应用的团队，能直接用它提升代码审查和调试效率，值得一试。

原文

15:36

阿里云 Alibaba Cloud@alibaba_cloud

在2026年Qwen大会上，阿里云CTO兼国际业务总裁李飞飞博士宣布公司战略从云原生转向智能体原生。为普及AI，阿里云构建了四大基石：模型、智能体云、工具与服务、规模化。这一转变标志着阿里云将AI智能体作为核心基础设施，推动AI的民主化应用。

行业阿里云智能体云原生 AI民主化 Qwen

推荐理由：阿里云的战略转向Agent-native，做云服务和AI应用的团队值得关注——这直接决定了未来云架构和开发范式的走向。

原文

14:24

宝玉@dotey

Agent 应用与传统 App+AI 的核心区别在于执行主体：传统 App+AI 中，人操作 App，AI 仅辅助；Agent 应用中，人指挥 Agent 自主操作 App/CLI 完成任务。以微软 Copilot 早期版本与 Codex 对比为例，前者只能回答问题，后者能直接写 Slides 或修改 PPTx 文件，无需用户手动操作。这一差异定义了 Agent 的自主性，也引发了对 Agent 应用是否会退化为传统 App+AI 的讨论。

AI产品智能体 Agent 应用传统 App+AI 自主执行产品设计

推荐理由：这篇文章点破了 Agent 和传统 AI 辅助的本质区别，做 AI 产品设计或开发 Agent 应用的团队值得一读，能帮你避免把 Agent 做成“高级问答机器人”。

原文

07:40

AI Engineer@aiDotEngineer

Neo4j 的 Steve 在视频中解释了为什么基于图的上下文是智能体系统的下一个突破。传统 RAG 只能检索文档，而上下文图可以检索关系，为智能体提供更丰富的结构化信息。这种方法有望提升智能体在复杂任务中的推理和决策能力。视频展示了图数据库在 AI 系统中的实际应用价值。

AI产品 RAG 图数据库智能体 Neo4j 上下文检索

推荐理由：做智能体或 RAG 系统的开发者，图上下文能解决关系理解瓶颈，值得看看 Neo4j 的实战思路。

原文

04:52

rohanpaul_ai@rohanpaul_ai

72°

Meta、斯坦福和伊利诺伊大学联合发表了一篇综述论文，核心观点是：当代码成为AI智能体的主要工作层时，智能体表现更优。论文指出，仅靠LLM做文本预测，长任务容易丢失状态、隐藏错误，将计划转化为行动的方式也很脆弱。真正的进步不是“AI写代码”，而是“AI把代码当作它思考的环境”。作者将围绕模型构建的工具、记忆、沙箱、检查和反馈循环称为“智能体马具”，而代码应处于这个马具的中心，因为代码可以被运行、检查、保存、编辑和共享。论文总结了一个跨领域的模式：代码帮助智能体通过可执行步骤推理、通过工具调用或控制程序行动、通过测试、追踪、日志、仓库和模拟器建模环境。

论文智能体代码即环境 Meta 斯坦福论文

推荐理由：这篇论文为AI智能体架构提供了一个清晰的设计原则——用代码作为核心工作层，做智能体系统或工具链的开发者值得一读，能帮你理解为什么代码比纯文本更适合作为智能体的“思考环境”。

原文

04:00

rohanpaul_ai@rohanpaul_ai

88°

Grok Build beta 是一款终端内的智能体编程助手，现已向所有 SuperGrok 和 X Premium+ 用户开放，此前仅限 SuperGrok Heavy 用户。用户通过一条命令安装后，可用自然语言指令如“制作一个过山车模拟器”来启动项目。Grok Build 支持计划模式（Plan Mode），先生成步骤计划供用户审核后再执行；可并行运行子智能体处理复杂任务；能编辑多个文件、使用 git、运行测试、搜索网络，并在工作流中调用 Imagine 生成图像和视频。此外，用户可将会话转化为可复用的“技能”或连接多个智能体，构建自动化流程或完整编排器。

AI产品编程助手智能体终端工具 Grok 自动化

推荐理由：Grok Build 把终端编程智能体开放给更多用户，做自动化或快速原型开发的团队可以直接用自然语言描述需求，省去手动写代码的繁琐，值得一试。

原文

01:28

elvis@omarsar0

精选76°

微软研究院提出 SkillOpt，一种将智能体技能文档视为可训练外部状态的新方法。该方法通过一个优化器模型对技能文件进行验证门控的增删改编辑，并引入文本学习率控制改写强度，而智能体本身保持不变。在 52 个（模型、基准、工具）组合上，SkillOpt 均达到最佳或并列最佳，在 GPT-5.5 上直接聊天提升 23.5 点，与 Codex 配合提升 24.8 点，与 Claude Code 配合提升 19.1 点，且零额外推理成本。学到的技能可跨模型和工具迁移，效果优于人工编写技能、TextGrad、GEPA 和 EvoSkill。

论文智能体技能优化微软 SkillOpt 推理模型

推荐理由：做智能体开发的工程师别再手写技能文档了——SkillOpt 证明自动优化技能文件能带来显著性能提升，且零推理开销，值得在你的 Agent 工作流中尝试。

原文

01:10

Jerry Liu@jerryjliu0

精选

LlamaIndex创始人Jerry Liu分享了@hexapode在新加坡AI工程师大会上的90分钟工作坊内容，包含116页幻灯片，系统梳理了RAG、检索、智能体循环、文档理解等AI模式在过去3年的演变。内容涵盖朴素RAG的12个痛点、重排序与查询重写的重要性、智能体循环如何简化检索层、文档解析的持续挑战，以及现代智能体形态如工作流和深度研究。对于关注AI技术演进的开发者，这是一份宝贵的历史脉络和实战经验总结。

AI产品 RAG 智能体文档解析检索增强 LlamaIndex

推荐理由：想理解RAG和AI智能体从2023到2026的完整进化路径？这份116页幻灯片是绝佳教材，做检索增强生成或智能体开发的团队值得收藏。

原文

00:19

宝玉@dotey

博主认为，直接开发 Agent Harness（智能体框架）价值不大，因为模型公司会不断升级，导致大量工作白费。相反，基于成熟的 Harness 做垂直领域方案才是机会。MCP 解决了连接问题，Skills 解决了领域知识，但垂直领域仍需重新设计 AI Native 工作流、Human In Loop 的 UI/UX、整理高质量数据等。这些是模型公司做不到的，需要共建。Agent 被视为未来操作系统，模型公司提供 Harness，其他人构建应用。

行业智能体 Agent Harness MCP/工具垂直领域 AI Native

推荐理由：做 Agent 应用的开发者别再重复造框架了——模型公司会替你干，不如聚焦垂直场景的 AI Native 工作流和交互设计，这才是护城河。

原文

5月25日

23:22

berryxia@berryxia

78°

一个开源团队发现，传统深度研究系统中调度器拥有搜索权限会导致浅尝辄止，因此他们设计了一个反直觉的架构：调度器只能分解任务和评估报告，不能上网搜索。这个名为Onyx的系统在DeepResearch Bench上登顶，超越Claude和ChatGPT。Onyx采用两层架构，上层纯策略调度器，下层最多6个独立研究agent，三阶段流水线确保高质量输出。它还能接入企业内部知识库，完全开源，任何人都可以复现。

AI产品深度研究开源/仓库智能体 Onyx 反直觉设计

推荐理由：这个反直觉的设计戳穿了AI Agent的常见毛病，做深度研究或自动化任务的开发者可以直接跑起来试试，效果比大厂方案还强。

原文

21:41

Skywork@Skywork_ai

精选

Skywork 发布了自研智能体模型 SkyClaw-v1.0，专为工具使用和多轮执行场景设计。该模型在推理能力和任务执行流畅度上有所提升，旨在更好地服务于云端工作流。SkyClaw-v1.0 的推出标志着 Skywork 在智能体领域的重要进展，为自动化任务处理提供了新的选择。

AI模型智能体 Skywork SkyClaw-v1.0 工具使用多轮执行

推荐理由：做自动化工作流和云端任务编排的团队，SkyClaw-v1.0 在工具调用和多轮执行上更顺手，值得关注。

原文

21:38

Qdrant@qdrant_engine

精选

Google DeepMind 的 Paige Bailey 在 Vector Space Day 活动前提出一个尖锐问题：为什么开发者还在用静态 Markdown 文件（如 SKILLS.md）来定义 Agent 的能力边界？她认为这是一种过渡方案，并将在活动中讨论替代方案。该活动将于 6 月 11 日在旧金山 Midway 举行，面向构建生产级 Agent 的开发者。

AI产品智能体 Agent 开发 Google DeepMind Vector Space Day 静态配置

推荐理由：Paige Bailey 点出了当前 Agent 开发中的关键痛点——静态配置文件的局限性，做 Agent 的团队值得关注她提出的替代方案，或许能大幅提升 Agent 的灵活性和可维护性。

原文

20:23

阿里云 Alibaba Cloud@alibaba_cloud

在Qwen Conference 2026上，阿里云数据库解决方案架构师Minglei Feng与YTL AI Lab CEO Foong Chee Mun在Agent-Native Cloud论坛发表演讲，主题为“以AI原生数据基础激活企业AI行动”。该演讲聚焦如何通过AI原生数据架构赋能企业级AI应用，强调数据基础设施对智能体（Agent）落地的关键作用。这标志着云服务商与AI实验室在Agent-Native生态上的深度合作，为企业部署AI提供了更坚实的数据底座。

行业 AI原生数据智能体阿里云 YTL AI Lab 企业AI

推荐理由：企业AI落地常卡在数据层，阿里云和YTL AI Lab的这次合作直接给出了AI原生数据方案，做企业级AI架构的团队值得关注。

原文

19:14

阿里云 Alibaba Cloud@alibaba_cloud

在 Qwen Conference 2026 上，通义实验室研究科学家 Yue Cui 在 Agent 应用论坛展示了 QwenPaw，一款能即时加载个人 AI 助手的工具。该工具旨在解决 AI 助手部署和个性化配置的延迟问题，让用户能快速获得定制化 AI 体验。QwenPaw 的推出标志着阿里云在智能体应用领域的最新进展，可能推动个人 AI 助手的普及。

AI产品 QwenPaw 个人AI助手智能体阿里云即时加载

推荐理由：QwenPaw 解决了 AI 助手加载慢、配置繁琐的痛点，做智能体应用或个性化 AI 工具的开发者值得关注，可以直接体验其即时加载能力。

原文

18:40

阿里云 Alibaba Cloud@alibaba_cloud

在 Qwen Conference 2026 的 Agent 应用论坛上，Qoder 技术布道师 Larry Fang 发表了题为《遇见你的 AI 双胞胎：用 Qoder 重新定义工作》的演讲。该演讲聚焦于 AI 原生工作流，展示了如何通过 AI 双胞胎概念提升工作效率。活动旨在推动 AI 代理在真实场景中的应用，吸引开发者和企业关注。

AI产品 Qoder AI 双胞胎智能体工作流 Qwen Conference

推荐理由：Qoder 的 AI 双胞胎概念为工作流自动化提供了新思路，做 AI 代理或效率工具的开发者值得关注，看看如何将 AI 融入日常任务。

原文