全部 AI 动态 · AI 热点

6月28日

20:54

Decoder@Jonathan Kemper

精选

腾讯与多所中国大学联合发表的一篇综述论文指出，当前AI局限于生成答案，无法成为可靠的同事。研究者认为关键在于让AI在持久工作环境中完成整个任务，而非仅输出回答。论文强调结合持久工作空间与可复用技能，是实现从聊天机器人到“数字同事”转变的核心。该研究系统梳理了现有AI系统在任务完成方面的不足。

论文 Tencent 智能体数字同事

推荐理由：这篇论文点出了AI的下一个进化方向——从聊天变成真正干活。腾讯学者说要结合持久空间和可复用技能，才能让AI成为数字同事。

原文

20:39

berryxia@berryxia

Agent-Reach是一个开源CLI工具，允许AI Agent零API费用、本地运行地获取Twitter、Reddit、YouTube、GitHub、B站、小红书等平台内容。它通过智能选择稳定开源后端并自动健康检查和故障切换，避免手动编写爬虫。安装后Agent可执行“查看YouTube视频字幕”“搜索Twitter评价”等任务，将碎片化能力封装成skill并支持多后端路由与自动降级。该项目在GitHub上已收获3.5K Star，专注于补齐Agent低成本、可靠的内容获取短板。

AI产品 Agent-Reach 开源项目多平台内容获取智能体 CLI工具

推荐理由：这个Agent-Reach项目开源免费，让AI Agent能直接搜Twitter、YouTube、B站等平台内容，不用写爬虫，自动切换稳定后端，适合做自媒体搜集信息的兄弟们。

原文

18:27

Decoder@Maximilian Schreiner

精选

普林斯顿大学研究团队创建了CEO-Bench基准测试，要求AI代理在模拟环境中经营一家软件公司500天。测试结果显示，大多数参与模型最终破产，仅三个AI模型的资本高于初始资金。令人意外的是，一个简单的、不依赖AI的规则启发式方法几乎击败了所有AI模型。该测试揭示了当前AI在长期决策与资源管理方面的局限性。

AI模型 CEO-Bench Princeton 智能体基准测试 AI代理

推荐理由：普林斯顿大学用500天模拟测试AI经营公司，结果大部分亏钱，一个非AI规则反而更稳。看看哪三个模型赚钱了。

原文

16:18

Geek@geekbb

精选

网友分享的 Gentle-AI 配置串联 11 个不同职能的智能体，使用低成本 Flash 模型处理大部分上下文，仅在设计（Qwen）和编码（Kimi Code）等关键环节调用高性能模型。每日成本控制在 4~7 美元，并通过多智能体对齐审查显著降低幻觉率。该 per-phase model routing 策略可适配 15 种 AI 编程工具。

技巧 Gentle-AI Qwen Kimi Code 智能体模型路由

推荐理由：挺实用的配置：11个智能体分工，Flash模型省成本，Qwen和Kimi Code干重活，每天才4-7美元，还降幻觉。

原文

15:45

Jerry Liu@jerryjliu0

Jerry Liu（LlamaIndex创始人）在推特上讨论AI Agent与SaaS的关系。他认为Agent像人类一样有核心通信接口，如chat、voice、slack。SaaS软件则需要根据具体用途定制接口，例如ticket tracking、CRM。目前SaaS公司都在构建Agent以捕捉工作自动化价值，但两者接口会随时间解绑。

行业 Jerry Liu LlamaIndex AI Agent SaaS 智能体

推荐理由：Jerry Liu说Agent和SaaS会分家，不是SaaS死了而是接口不同。看看他的观点。

原文

11:25

11:25IT之家（博客/媒体）

深圳开鸿数字产业发展有限公司将 M-Robots OS 完整捐献至开放原子开源基金会，该系统是全国首个开源鸿蒙机器人操作系统。1.0 版本于 2025 年 4 月发布，2.0 版本于 2025 年 5 月发布。系统支持 20KB~XGB 灵活部署，中断响应时延≤1μs，本体间音视频时延低至 4ms，相比 Fast-DDS 降低 42%。同时兼容 ROS1/ROS2 等中间件，应用迁移成本降低 80%。

AI产品 M-Robots OS 开源鸿蒙机器人操作系统智能体

推荐理由：开鸿数字把 M-Robots OS 捐给开源基金会了，国内首个开源鸿蒙机器人系统，时延比 Fast-DDS 低 42%，迁移成本降 80%，很实用。

原文

11:19

AI产品黄叔@PMbackttfuture

黄叔总结了自己重度使用flomo Agent的10点理解，核心是降低记录前0.5秒的摩擦。他认为flomo Agent对手不是Notion或Obsidian，而是微信文件传输助手。该工具通过接入flomo MCP与Hermes，将对话长期记忆同步保存到flomo，并即时触发增强功能，从记忆中提取相关笔记辅助思考。黄叔还指出，DeepSeek V4和王登科推动了flomo发展，Agent功能少反而更可信，付费理由是“一个可信的记忆容器”。

技巧 flomo 智能体 Hermes MCP 知识管理

推荐理由：黄叔分享了10条实际使用flomo Agent的心得，比如对手是微信文件传输助手、AI洞察是卡片结构的迟到红利，挺有启发。

原文

10:58

AI Will@FinanceYF5

83°

微软CEO Satya Nadella讨论了如何构建支持2000万个AI Agent与人类员工协同工作的基础设施。该基础设施旨在使Agent能自动执行任务、访问企业数据并参与工作流。这一规模部署标志着微软在企业级Agent应用上的重大推进。Nadella强调了底层架构需具备弹性、安全性和可管理性。

行业 Microsoft Agent 智能体基础设施

推荐理由：微软要为2000万个Agent搭基础设施，听听CEO怎么说，这是企业AI落地的实打实案例。

原文

08:58

08:58IT之家（博客/媒体）

Naver 于 6 月 26 日上线 AI 对话搜索服务 AI Tab，整合旗下电商平台、地图、Cafe 社区、博客及本地生活服务。该服务被定位为“AI 智能体搜索”，目标是在 Naver 内部完成从搜索到购买预约的全流程，对标谷歌的 AI 模式。与 ChatGPT 和 Gemini 相比，AI Tab 在复杂写作、长文档分析及逻辑推理方面存在明显局限；但在韩国当地餐厅推荐、商品发现及基于 Naver 自家搜索结果的整理上，体验优于传统搜索。后续 Naver 计划推出个性化房地产推荐及“健康智能体”服务，可分析用户上传的体检报告。

AI产品 Naver AI Tab ChatGPT 智能体搜索

推荐理由：Naver 新出的 AI Tab 能帮你一站式搜韩国本地商品和服务，整合电商和地图，比传统搜索顺手，不过复杂推理别指望它。

原文

07:07

Suhail@Suhail

精选

Hamish Ivison等人发布了Tmax，一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下，Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts，方便复现和进一步研究。

AI模型 Tmax RL terminal agent 开源模型智能体

推荐理由：Tmax把终端智能体的RL训练配方全开源了，65k token里就跑赢之前的工作，想自己训智能体的可以抄作业。

原文

04:49

OpenRouter@OpenRouterAI

行业 OpenRouter 智能体开源模型

推荐理由：OpenRouter 发博说四个开源模型已经能跑真实 agent 流程了，搞智能体的朋友可以看看为什么公司选它们。

原文

04:31

Harrison Chase@hwchase17

社区成员推出3小时深度课程，系统讲解Deep Agents构建。课程覆盖任务规划模块、文件系统用于上下文管理、子代理生成机制以及长期记忆实现。适合想深入掌握Agent开发流程的学习者。

技巧 Deep Agents 智能体任务规划上下文管理子代理

推荐理由：想学Deep Agents实战吗？3小时从任务规划讲到长期记忆，社区大神亲自带，比硬啃文档快多了。

原文

01:49

Jerry Liu@jerryjliu0

Jerry Liu（LlamaIndex创始人）在推文中指出，手动构建工作流（代码、拖拽或提示）的需求正在减少，更优方式是指定目标让模型智能规划步骤。对于重复性任务，可收集带真实标签的数据集进行爬山优化，以平衡成本与准确率。他认为行业正从提示工程迈向目标和评估工程。拥有642次浏览、5个点赞。

技巧 Jerry Liu LlamaIndex 工作流智能体提示词工程

推荐理由：Jerry Liu说的这个趋势很实在：别再手动搭工作流了，直接给目标让模型自己想办法。重复任务还能录数据集优化，省心省钱。

原文

00:56

berryxia@berryxia

76°

Anthropic的Lamis在2026年AI DevCon上分享了上下文工程实践，从Claude MD文件起步，发现其效果出奇地好（unreasonably effective）。第二步引入记忆工具，让Agent自主读写，效果优于人类。第三步Skills采用渐进式披露，类似书架取书。第四步文件系统用bash和grep搜索，不需要向量数据库。生产环境面临多Agent并发写入等问题，Anthropic提出版本控制、并发控制等四个原则。最后介绍“做梦”机制：异步批量分析会话记录，识别模式并调整上下文，已在生产中运行，降低token成本。

技巧 Anthropic Claude 上下文工程智能体记忆管理

推荐理由：Anthropic工程师手把手教你上下文管理套路，从最基础的文件到高级的“做梦”架构，半小时就能上手实操。

原文

00:56

berryxia@berryxia

精选

Anthropic应用AI负责人Lamis在2026年AI DevCon上分享了Agent记忆系统的四层架构。起点是CLAUDE.md文件，效果超过复杂Prompt工程。第二层是记忆工具，让Agent自主读写更新，判断力比人强。第三层Skills实现渐进式披露，类似从书架抽词典。第四层把记忆建模为文件系统，用bash/grep，无需向量数据库。还引入"做梦"（带外异步处理）分析跨会话模式，已在生产中提升任务效率并降低成本。

技巧 Claude Code 记忆管理智能体 Anthropic 提示词工程

推荐理由：Anthropic官方分享了他们怎么让Agent记住东西：从Markdown文件到做梦机制，很实用的四层方法论，看完可以少走弯路。

原文

00:19

elvis@omarsar0

Eve 是一款专注于快速构建智能体的工具，主打直观和可定制。用户反馈其界面简单易用，无需复杂编程即可上手。经过一周实际使用，早期体验者认为它确实能稳定运行。

AI产品 Eve 智能体工具 No-Code

推荐理由：想玩智能体又怕麻烦？试试Eve，特直观，随便拖拽就能搭起来，真心好用。

原文

6月27日

21:24

AI产品黄叔@PMbackttfuture

flomo Agent通过减少记录前0.5秒的摩擦，让普通人更容易坚持记录。它并非简单AI化，而是回归笔记核心。作者认为其真正对手不是Notion或Obsidian，而是微信文件传输助手。DeepSeek V4和王登科推动了产品进展，Agent功能虽少但更可信。flomo Agent结合Codex/Hermes可形成“记忆-行动”双系统。

AI产品 flomo Agent 微信文件传输助手 DeepSeek V4 智能体

推荐理由：flomo产品经理分享Agent真实使用体验，讲清它为什么不是跟Notion打架，而是跟微信文件传输助手抢用户。

原文

21:03

量子位@一水

BrowserBC通过一次人类录制，即可让AI Agent精确模拟点击、输入等浏览器交互动作。该工具无需大量标注数据，仅需一次示范就能泛化到不同网页场景。它支持将单次操作克隆给多个Agent，实现大规模自动化执行。

AI产品 BrowserBC 浏览器自动化智能体网页操作克隆

推荐理由：BrowserBC让你只示范一次，所有Agent就自动学会在网页上怎么点怎么填，省去挨个配置的麻烦。

原文

17:24

idoubi@idoubicc

Expert Orchestration Agent 产品封装了半导体分析师 Peter（aleabitoreddit）的 serenity-skill，其分析框架基于 5,892 条推文和 4 篇长文蒸馏而成。agent runtime 采用前 WXG 高级工程师 idoubicc 的 FastClaw，与 OpenClaw 相比使用了更稳定的云原生架构设计。该产品旨在将专业分析师的经验转化为可复用的工具。

AI产品 Expert Orchestration Agent FastClaw OpenClaw 半导体分析智能体

推荐理由：这个工具把半导体分析师 Peter 的几千条推文和分析文章做成了可复用的 Agent，底层用 FastClaw 云原生架构，比 OpenClaw 更稳，适合做行业分析。

原文

15:30

15:30IT之家（博客/媒体）

72°

高通计划将数据中心的高带宽计算架构引入手机SoC，该架构通过垂直堆叠芯片让内存与计算芯片物理距离缩短。第一代产品预计2025年在数据中心推出，2028年投入商用。移动设备引入后，用户可在本地运行更多AI模型并全天使用AI智能体，且对耗电量影响不大。

AI产品高通垂直堆叠端侧AI 智能体芯片架构

推荐理由：高通要把数据中心的黑科技搬到手机上，以后手机本地跑AI更流畅还不费电，值得关注。

原文

13:26

lmarena.ai@lmarena_ai

Agent Arena的因果追踪方法论博客已发布。该方法论用于分析智能体在Agent Arena中的因果链。读者可通过博客深入了解Agent Arena的评估设计。

论文 Agent Arena 因果追踪智能体

推荐理由：想搞懂Agent Arena怎么分析智能体因果链的？这篇博客讲得明明白白。

原文

13:23

Jerry Liu@jerryjliu0

精选

LlamaParse现已成为n8n的官方验证社区节点，提供Parse、Extract、Classify、Split、Retrieve五大核心功能。用户可在n8n工作流中构建文档提取流程（如贷款处理）或索引文档知识库并接入AI Agent。该节点支持将每个资源作为可调用工具，让AI Agent自主决定何时检索上下文、解析文件或提取结构化数据。

AI产品 LlamaParse n8n LlamaIndex 文档解析智能体

推荐理由：LlamaIndex的文档解析工具正式入驻n8n，能处理复杂文档的提取、分类和检索，还能让AI Agent自主调用，搭建工作流超方便。

原文

13:21

LangChain@LangChainAI

LangChain与Chime合作发布指南，指导金融服务团队如何利用更强的监督机制构建生产级AI智能体。该指南涵盖LangChain框架的使用，强调可观测性、合规性和风险控制。指南提供具体步骤，帮助团队实现更可靠的AI部署。

技巧 LangChain Chime 智能体 AI安全

推荐理由：LangChain出了个新指南，专门讲金融服务怎么搞生产级智能体，还加了更强监督。做金融AI的可以看看，省了自己踩坑。

原文

13:17

HeyGen@HeyGen_Official

HeyGen发布了新一代HyperFrames技能，包含9种可自动路由的视频工作流。智能体能够从上下文理解用户意图，自动匹配到启动视频、音乐视频、字幕和叠加等任务。用户无需手动切换，直接输入指令即可触发对应功能。该更新显著提升了AI视频制作的自动化程度。

AI产品 HeyGen HyperFrames 视频生成智能体

推荐理由：HeyGen的HyperFrames升级后，智能体能听懂你让它做哪种视频，直接开搞，不用自己选模板了，省事多了。

原文

13:14

OpenRouter@OpenRouterAI

推文展示了如何使用OpenRouter的MCP功能构建一个模型委员会（Model Council），并针对用户的代码库和用例进行调优。该工作流由用户Lennox Saint验证，确认效果出色。示例提供了可操作的步骤，帮助开发者利用多个模型协作解决问题。

技巧 OpenRouter MCP 模型委员会智能体提示词工程

推荐理由：OpenRouter官方示范，手把手教你用MCP搭模型委员会，实测好用。

原文

13:01

LangChain@LangChainAI

精选

SierraPlatform的ZackRW在Max Agency播客中分享了一个关键洞察：在真实对话中，决定何时说话所需的脑力与决定说什么相当。传统语音代理并未以此方式构建。Sierra的突破是并行处理思考、倾听和说话，模拟人类对话的自然方式。这一理念来自Sierra的语音代理产品设计。

行业 LangChain SierraPlatform 语音代理智能体

推荐理由：Sierra的语音代理模仿人类并行处理对话，不是简单轮流说话，值得做语音产品的朋友看看。

原文

12:53

lmarena.ai@lmarena_ai

AI模型 Agent Arena 智能体评测基准开源模型实验室

推荐理由：想看看谁家的智能体最强？Agent Arena排行榜刚上线，可以按开源模型和实验室筛选，挺方便。

原文

12:36

OpenRouter@OpenRouterAI

精选

OpenRouter 发布了新的 MCP（Model Context Protocol），使智能体能够实时获取最新模型信息。该功能允许 agent 根据当前任务自动挑选、定价并测试最适合的模型，不再依赖六个月前的训练数据。用户可通过视频演示看到 agent 如何动态执行模型选择流程。这一更新解决了智能体在模型调用时信息滞后的问题。

AI产品 OpenRouter MCP 智能体模型选择推理模型

推荐理由：OpenRouter 出了个 MCP，让你的智能体能自己挑最合适的模型，还能实时定价测试，不用瞎猜了。

原文

12:26

AI Engineer@aiDotEngineer

精选

Paul Bakaus 将在 AI Engineer World's Fair 发表两场演讲，涵盖智能体技能工程与设计工具控制。他基于构建 24+ 技能、跨越 9 种 harness/模型组合的实战经验，揭示平行子智能体、混合专家路由、技能记忆、自动钩子与环境变量等技巧。此外还介绍开源设计工具 Impeccable AI 的 24 个形容词级命令（如 /bolder、/quieter、/distill）。两场演讲分别聚焦如何突破模型默认安全输出，以及从形容词层面控制设计风格。

技巧 Paul Bakaus ai-engineer 智能体提示词工程 impeccable_ai

推荐理由：想突破 agent 平庸输出？Paul Bakaus 分享 24+ 技能实战干货，还有形容词级设计控制，很实用。

原文

12:21

Nous Research@NousResearch

精选

NousResearch发布Hermes Agent，通过暴露MoA预设作为虚拟模型，提供超越公共前沿的能力。在即将发布的基准测试上，Hermes Agent比Opus 4.8高8%，比GPT 5.5高11%。该模型目前被限制访问，仅授予少数人。

AI模型 Hermes Agent Opus GPT 5.5 NousResearch 智能体

推荐理由：Hermes Agent的MoA虚拟模型比Opus 4.8和GPT 5.5都强，分别高8%和11%，不过目前只能少数人用。

原文

12:09

NVIDIA AI@NVIDIAAI

ArtificialAnlys发布新基准AA-Briefcase，用于评估复杂项目中的现实任务。Nemotron 3 Ultra在该基准开放模型中排名靠前。该模型在多种长时间运行的智能体任务上表现强劲，即使首次面对这些任务也能保持性能。该基准旨在测试模型的长期执行与泛化能力。

AI模型 AA-Briefcase Nemotron 3 Ultra ArtificialAnlys 智能体基准

推荐理由：新出的AA-Briefcase基准可以看看，Nemotron 3 Ultra在开放模型里排前面，适合对比它处理复杂任务的能力。

原文

12:06

LangChain@LangChainAI

LangChain的Brace Sproul和Jake Broekhuizen在视频中比较了构建agent时使用MCP（Model Context Protocol）与CLI（命令行接口）的优缺点。MCP提供了标准化上下文传递，适合多步骤复杂agent任务；CLI更轻量直接，适合简单工具调用。视频通过实际案例演示了两种方式的适用场景和取舍。

技巧智能体 MCP CLI LangChain agent

推荐理由：LangChain的两位专家亲讲MCP和CLI在agent开发中的实战对比，帮你选对工具写代码。

原文

12:03

Harrison Chase@hwchase17

Manus AI CEO Alex Olsen在推特上表示，KV-cache命中率是生产级AI代理唯一最重要的指标。Manus AI通过深度代理技术优化提示缓存，以提升缓存命中率。该指标直接影响推理成本和响应速度，目前已有669次浏览与2次点赞。Olsen强调，没有高KV-cache命中率的代理系统无法真正扩展。

行业 Manus AI KV-cache 智能体缓存优化

推荐理由：Manus AI的CEO说KV-cache命中率最关键，他们用深度代理优化缓存，搞AI基建的该看看。

原文

12:01

宝玉@dotey

89°

OpenAI于6月26日发布GPT-5.6，包括旗舰Sol、日常Terra和经济Luna。Sol在Terminal-Bench 2.1上，Ultra模式得分91.9%，Sol模式88.8%，高于Claude Mythos 5的88%和Gemini 3.1 Pro Preview的70.7%。API定价：Sol每百万token输入5美元输出30美元，Terra分别为2.5和15美元，Luna为1和6美元。模型经过超过70万A100等效GPU小时的红队测试，内置拒绝机制和实时分类器。Sol的网络安全能力被OpenAI自评为“高”级，未达到“关键”级。

AI模型 GPT-5.6 Sol OpenAI 推理模型智能体

推荐理由：这次GPT-5.6发布最特别的是只给20家合作伙伴用。Sol的Ultra模式能自己拆任务干活，性能碾压Claude和Gemini。Terra性价比超高，性能接近上一代但价格减半。

原文

11:58

elvis@omarsar0

动态工作流（即时生成测试框架）被视为一种新的测试时计算形式。然而LLM在自主构建复杂工作流方面表现不佳，作者经常需要手动引导代理生成复杂模式。推文对Mythos/GPT-5.6在动态生成复杂工作流上的效果表示好奇。该推文获得9条评论、4次转发、22个喜欢和3179次浏览。

AI模型 Mythos GPT-5.6 动态工作流测试时计算智能体

推荐理由：聊动态工作流和LLM的短板，还点名Mythos/GPT-5.6，看它能不能搞定复杂模式生成。

原文

11:53

Pika Labs@pika_labs

PantryAgent 是一款 AI 工具，帮助用户将食品储藏室、餐食计划和购物清单整合为统一系统，确保食物在过期前被使用。团队使用 Pika MCP 生成了整个演示视频。该产品旨在减少家庭食物浪费，提升日常效率。

AI产品 PantryAgent Pika MCP 智能体视频生成

推荐理由：PantryAgent 帮你用 AI 管好冰箱和购物清单，减少浪费。视频全是 Pika MCP 生成的，很酷。

原文

11:51

Guillermo Rauch@rauchg

精选

Agent调试困难，因为AI模型行为非确定，且Agent是复杂分布式系统，涉及多个步骤、函数、沙箱及数十个API服务。Vercel团队为eve.dev内置可观测性，支持检查模型调用、工具调用、运行时错误及token用量，已获用户好评。

AI产品 Vercel eve 智能体可观测性调试

推荐理由：Vercel给eve.dev加了agent调试跟踪，能看模型调用、错误和token，开发者福音。

原文

11:45

Stanford AI Lab@StanfordAILab

斯坦福AI实验室发布了Auto-psych系统，让AI智能体自主提出心理学理论、设计实验、在线招募真实人类参与者，并根据实验结果迭代改进。该系统实现了从理论到验证的闭环自动化，无需人工介入实验设计和数据收集环节。这是将大语言模型智能体应用于社会科学实证研究的一次实践。

AI模型 Auto-psych Stanford 智能体自动化科研心理学研究

推荐理由：斯坦福AI实验室搞了个Auto-psych，AI智能体自己就能跑通心理学研究整个流程，从提理论到找人做实验再到改进，省掉了人工操作。

原文

11:42

11:42IT之家（博客/媒体）

市场监管总局正加快制定智能体、具身智能、世界模型、本体模型等前沿技术国家标准，同时推进算力基础设施、高质量数据集、仿真测试平台等底座类标准。目前已发布《人工智能智能体互联》系列国家标准，共7个部分，旨在解决通信接口不统一、身份管理缺失及协同交互规则混乱等问题。该系列标准将推动智能体互联互通全流程规范统一，并提前划定技术合规边界。

行业智能体具身智能国家标准市场监管总局 AI安全

推荐理由：国家在定智能体和具身智能的标准了，解决接口不统一的问题，搞AI开发的可以关注一下。

原文

11:21

LlamaIndex@llama_index

精选

LlamaParse Platform的n8n节点成为官方认证社区节点。新版本整合了文档解析、分类、提取、分割和检索功能，所有操作通过单个LlamaParse API凭证连接。每个资源可作为n8n AI Agent的可调用工具，让智能体动态决定何时检索上下文、解析文件或提取结构化数据。工作流还支持按文档类型路由、基于知识库的检索接入智能体，以及并行运行不同精度成本层级的解析输出。

AI产品 LlamaParse n8n LlamaIndex 文档智能智能体

推荐理由：LlamaParse和n8n联手，把文档解析、分类、提取都塞进低代码工作流，还能让AI Agent自动决策，不用写代码就能搭智能文档管线。

原文