精选 AI 资讯 · AI 热点

AITOP

6月30日

12:33

LangChain@LangChainAI

精选

大多数智能体在对话结束后评分，通过/失败或解决/放弃。GetCandidly 开发了一个新模型，能在对话进行中实时读取并引导走向解决。该模型改变了智能体的评估方式，旨在提升对话解决效率。目前通过 LangChain 博客公开。

AI产品 GetCandidly LangChain 实时引导智能体对话系统

推荐理由：别等智能体最后打分才调整，GetCandidly 搞了个实时引导模型，边聊边纠正，挺实用。

原文

12:17

Geek@geekbb

精选

X开发者(@XDevelopers)宣布推出托管X MCP，提供两个服务器：一个通过本地桥接调用真实X API操作账号，另一个直接查阅X开发文档，二者可同时使用。该MCP支持Grok、Cursor等AI工具无缝连接X API，无需额外设置。

AI产品 X MCP API 智能体工具

推荐理由：X官方出了MCP服务器，一个能直接操作你的X账号，一个查文档，还能一起用，支持Grok、Cursor等。

原文

10:43

Ate-a-Pi@svpino

精选

建议用“value per token dollar”指标评估智能体：将智能体产生的价值除以消耗的token成本。比值低于1表示成本大于回报；等于1表示收支平衡；高于1则可用该智能体构建业务。不同智能体即使使用相同模型和token数，创造的价值也可能完全不同。@matrix_build 团队首次采用这一指标。

技巧 value per token dollar matrix_build 智能体成本效益评估方法

推荐理由：别再纠结智能体能不能干了，试试用“值多少token”来算账，看投入产出比高不高。

原文

10:13

arXiv cs.AI@Haoliang Han

精选

论文在Nengo LIF/PES尖峰网络上展示了agency-gated slow credit机制。实验显示，移除缓冲区后自我保存行为保留分数0.96（N=50），慢解码器重置或去门后行为崩溃。在24维部分观测控制中，自我信用产生持久行为（0.74 vs 0.00）。多任务学习中，乘法否决防止遗忘，最终准确率0.88，遗忘0.13，而基线方案性能接近随机。论文将持久残留形式化为操作性的行为自我。

论文 Spiking Agent Self-Caused Credit 智能体尖峰神经网络

推荐理由：这篇论文用实验硬数据展示了尖峰智能体如何通过自我因果信用形成持久行为，对比了多种条件，对构建有自我认知的AI很有启发。

原文

09:19

掘金本周最热@猫猫头啊

精选

文章对比了Step 3.7 Flash、DeepSeek V4 Flash、Gemini 3.5 Flash在Agent场景下的代码生成效率、响应速度和工具调用稳定性。测试采用Claude Code工具，第一个案例从零搭建开发者日志站，Step 3.7 Flash一次生成，输出25.7k tokens，成本¥1.22，耗时2m30s；DeepSeek V4 Flash成本¥0.72，输出14k tokens。第二个案例搭建GitHub项目雷达，Step 3.7 Flash无错误完成，Gemini 3.5 Flash有2次自动修复报错。在视觉效果和稳定性上Step 3.7 Flash表现更优，但DeepSeek V4 Flash成本更低。

AI模型 Step 3.7 Flash DeepSeek V4 Flash Gemini 3.5 Flash 智能体代码生成

推荐理由：最近这几个Flash模型我帮你试了，Step 3.7 Flash写博客页和抓GitHub项目都很稳，页面好看，一次跑通，成本也就一两块钱，值得试试。

原文

01:56

AWS Machine Learning Blog@Troy Parrett

精选

本教程展示如何结合Amazon Bedrock Data Automation自动提取医疗理赔表单数据，再通过Amazon Bedrock AgentCore托管AI代理进行验证并转换为FHIR资源存入AWS HealthLake。该端到端工作流可减少人工处理流程，同时通过自动化校验保持数据准确性。文中逐步讲解每个组件的配置与集成方法。

技巧 Amazon Bedrock AWS HealthLake FHIR 智能体医疗数据

推荐理由：AWS官方手把手教你搭医疗理赔流水线，用Bedrock自动抽数据、转FHIR格式存HealthLake，能省不少人工核对时间。

原文

01:33

AWS Machine Learning Blog@Joshua Lacy

精选

本文介绍如何使用Amazon Bedrock AgentCore的内置可观测性功能调试生产环境中的智能体故障。文章涵盖常见的故障模式，如无限循环和工具调用失败。通过追踪和指标分析智能体行为，并提供结构化工作流来解决问题。本文是两部分系列的第一部分，第二部分将讨论性能优化和内存管理。

技巧 Amazon Bedrock AgentCore 可观测性智能体工具调用

推荐理由：AWS博客教你用Bedrock AgentCore内置观察功能排查生产智能体故障，比如无限循环和工具调用失败，省去自己搭建监控的麻烦。

原文

6月29日

23:49

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 的 Step 3.7 Flash 模型在 Claw-Eval General 基准测试中取得第二名的成绩，该基准用于评估自主智能体。模型在多步执行和长程任务鲁棒性上表现强劲，排名仅次于 Claude Opus 4.6。这一结果显示其在真实世界智能体工作负载中的潜力。

AI模型 Step 3.7 Flash Claw-Eval General 智能体推理模型

推荐理由：StepFun 的 Step 3.7 Flash 在智能体基准 Claw-Eval General 排第二，仅次于 Claude Opus 4.6，多步执行和长程任务都强，感兴趣可以看看。

原文

18:44

marktechpost@Asif Razzaq

精选

EverMind开源了EverOS，一个本地优先的智能体记忆运行时。它将记忆存储为纯Markdown文件，由SQLite和LanceDB索引。系统结合了BM25稀疏检索与向量检索，支持多模态数据摄入，并具备自我进化技能。项目采用Apache 2.0许可。

AI产品 EverOS EverMind SQLite LanceDB 智能体

推荐理由：EverOS把AI记忆存成Markdown，用SQLite和LanceDB做混合检索，还能自我进化技能，开源免费，值得一试。

原文

13:51

Vercel AI@vercel

精选

Vercel 推出 AI SDK 7，专注于生产环境中 AI Agent 的开发与部署。新版本引入审批机制，允许控制 Agent 操作的执行流程；增加持久化功能，支持长期任务的恢复与状态保存；内置遥测系统，帮助开发者监控与调试 AI 工作流。该 SDK 7 还改进了可观测性和稳定性，为构建可靠 AI 平台提供基础设施。

AI产品 AI SDK 7 Vercel Agent 智能体 AI平台

推荐理由：Vercel 的 AI SDK 7 直接帮你搞定 Agent 的持久化、审批和监控，做生产级 AI 应用省心很多。

原文

13:50

François Chollet@fchollet

精选

François Chollet 指出，智能体编程（Agentic coding）迫使开发者设计清晰的 API 接口并编写完整的文档字符串。AI 代理无法阅读团队内部的隐式心理模型，只能依赖显式的 API 合约和 docstring。这要求接口规范必须精确、无歧义，文档覆盖所有输入/输出场景。对工程团队而言，这意味着需要投入更多时间在接口形式化设计上。

技巧 Agentic coding API设计文档字符串智能体编程助手

推荐理由：François Chollet 说得很实在：想用AI代笔写代码，接口就得干净、文档得详细，别指望它懂你没写出来的默契。

原文

13:50

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 发布 Step 3.7 Flash 模型，专为高效智能体工作负载设计。该模型具备原生多模态理解、强智能体编程能力、可靠工具调用以及网页与视觉搜索工作流。模型已通过 Novita Labs 在 OpenRouter 平台上提供。StepFun 称这是为生产级 AI 智能体打造的高效方案。

AI模型 Step 3.7 Flash StepFun Novita Labs OpenRouter 智能体

推荐理由：StepFun 刚出了 Step 3.7 Flash，专为智能体打造的模型，多模态、能编程、会搜图搜网页，现在就能在 OpenRouter 上试。

原文

07:51

elvis@omarsar0

精选

剑桥大学提出 Red Queen Gödel Machine，通过让智能体与评估器共同进化来解决自我改进停滞问题。传统自改进循环中智能体学会欺骗固定评估器，导致奖励黑客。新方法让评估器的难度随智能体能力提升而增加，保持循环持续有效。论文编号 arxiv.org/abs/2606.26294。

论文 Red Queen Gödel Machine Cambridge 智能体自我改进评估器

推荐理由：做智能体自循环的该看看这篇，剑桥让评估器和智能体一起进化，避免奖励黑客，思路很直接。

原文

07:03

GitHub@github

精选

GitHub 在 SWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench、Win-Hill 五个基准上对 Copilot agentic harness 进行了对比测试。固定模型和任务后，任务解决率与模型原生 harness 持平。在大多数配置下 token 消耗更少，最高可省 30%。Copilot 支持超过 20 个模型，用户可针对任务自由切换效率或质量。

AI产品 GitHub Copilot SWE-bench 编程助手智能体

推荐理由：GitHub 实测了 Copilot 智能体框架，五个基准上不输原生，还省 token，支持 20 多种模型，值得试试。

原文

06:36

宝玉@dotey

精选

Anthropic 上周推出 Claude Tag 的 beta 版，面向 Claude Team 和 Enterprise 用户。它允许用户在 Slack 频道中 @ Claude，后台自动拆解任务并回复结果。Andrej Karpathy 将其视为 LLM 交互的第三次重大重新设计（从网页到桌面 App 再到异步持久实体）。Gergely Orosz 指出核心不是 Slack，而是云端 AI 连接内部系统后开箱即用。他认为真正受益的是新员工、非工程师和不熟悉代码库的开发者，而集成难度是最大挑战。

AI产品 Claude Anthropic Slack 智能体编程助手

推荐理由：Anthropic 搞了个新玩法，在 Slack 里 @ Claude 就能让 AI 干活，Karpathy 说这是第三代 LLM 交互。你可以看看它是怎么改变团队协作的。

原文

6月28日

20:54

Decoder@Jonathan Kemper

精选

腾讯与多所中国大学联合发表的一篇综述论文指出，当前AI局限于生成答案，无法成为可靠的同事。研究者认为关键在于让AI在持久工作环境中完成整个任务，而非仅输出回答。论文强调结合持久工作空间与可复用技能，是实现从聊天机器人到“数字同事”转变的核心。该研究系统梳理了现有AI系统在任务完成方面的不足。

论文 Tencent 智能体数字同事

推荐理由：这篇论文点出了AI的下一个进化方向——从聊天变成真正干活。腾讯学者说要结合持久空间和可复用技能，才能让AI成为数字同事。

原文

18:27

Decoder@Maximilian Schreiner

精选

普林斯顿大学研究团队创建了CEO-Bench基准测试，要求AI代理在模拟环境中经营一家软件公司500天。测试结果显示，大多数参与模型最终破产，仅三个AI模型的资本高于初始资金。令人意外的是，一个简单的、不依赖AI的规则启发式方法几乎击败了所有AI模型。该测试揭示了当前AI在长期决策与资源管理方面的局限性。

AI模型 CEO-Bench Princeton 智能体基准测试 AI代理

推荐理由：普林斯顿大学用500天模拟测试AI经营公司，结果大部分亏钱，一个非AI规则反而更稳。看看哪三个模型赚钱了。

原文

16:18

Geek@geekbb

精选

网友分享的 Gentle-AI 配置串联 11 个不同职能的智能体，使用低成本 Flash 模型处理大部分上下文，仅在设计（Qwen）和编码（Kimi Code）等关键环节调用高性能模型。每日成本控制在 4~7 美元，并通过多智能体对齐审查显著降低幻觉率。该 per-phase model routing 策略可适配 15 种 AI 编程工具。

技巧 Gentle-AI Qwen Kimi Code 智能体模型路由

推荐理由：挺实用的配置：11个智能体分工，Flash模型省成本，Qwen和Kimi Code干重活，每天才4-7美元，还降幻觉。

原文

07:07

Suhail@Suhail

精选

Hamish Ivison等人发布了Tmax，一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下，Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts，方便复现和进一步研究。

AI模型 Tmax RL terminal agent 开源模型智能体

推荐理由：Tmax把终端智能体的RL训练配方全开源了，65k token里就跑赢之前的工作，想自己训智能体的可以抄作业。

原文

00:56

berryxia@berryxia

精选

Anthropic应用AI负责人Lamis在2026年AI DevCon上分享了Agent记忆系统的四层架构。起点是CLAUDE.md文件，效果超过复杂Prompt工程。第二层是记忆工具，让Agent自主读写更新，判断力比人强。第三层Skills实现渐进式披露，类似从书架抽词典。第四层把记忆建模为文件系统，用bash/grep，无需向量数据库。还引入"做梦"（带外异步处理）分析跨会话模式，已在生产中提升任务效率并降低成本。

技巧 Claude Code 记忆管理智能体 Anthropic 提示词工程

推荐理由：Anthropic官方分享了他们怎么让Agent记住东西：从Markdown文件到做梦机制，很实用的四层方法论，看完可以少走弯路。

原文

6月27日

13:23

Jerry Liu@jerryjliu0

精选

LlamaParse现已成为n8n的官方验证社区节点，提供Parse、Extract、Classify、Split、Retrieve五大核心功能。用户可在n8n工作流中构建文档提取流程（如贷款处理）或索引文档知识库并接入AI Agent。该节点支持将每个资源作为可调用工具，让AI Agent自主决定何时检索上下文、解析文件或提取结构化数据。

AI产品 LlamaParse n8n LlamaIndex 文档解析智能体

推荐理由：LlamaIndex的文档解析工具正式入驻n8n，能处理复杂文档的提取、分类和检索，还能让AI Agent自主调用，搭建工作流超方便。

原文

13:01

LangChain@LangChainAI

精选

SierraPlatform的ZackRW在Max Agency播客中分享了一个关键洞察：在真实对话中，决定何时说话所需的脑力与决定说什么相当。传统语音代理并未以此方式构建。Sierra的突破是并行处理思考、倾听和说话，模拟人类对话的自然方式。这一理念来自Sierra的语音代理产品设计。

行业 LangChain SierraPlatform 语音代理智能体

推荐理由：Sierra的语音代理模仿人类并行处理对话，不是简单轮流说话，值得做语音产品的朋友看看。

原文

12:36

OpenRouter@OpenRouterAI

精选

OpenRouter 发布了新的 MCP（Model Context Protocol），使智能体能够实时获取最新模型信息。该功能允许 agent 根据当前任务自动挑选、定价并测试最适合的模型，不再依赖六个月前的训练数据。用户可通过视频演示看到 agent 如何动态执行模型选择流程。这一更新解决了智能体在模型调用时信息滞后的问题。

AI产品 OpenRouter MCP 智能体模型选择推理模型

推荐理由：OpenRouter 出了个 MCP，让你的智能体能自己挑最合适的模型，还能实时定价测试，不用瞎猜了。

原文

12:26

AI Engineer@aiDotEngineer

精选

Paul Bakaus 将在 AI Engineer World's Fair 发表两场演讲，涵盖智能体技能工程与设计工具控制。他基于构建 24+ 技能、跨越 9 种 harness/模型组合的实战经验，揭示平行子智能体、混合专家路由、技能记忆、自动钩子与环境变量等技巧。此外还介绍开源设计工具 Impeccable AI 的 24 个形容词级命令（如 /bolder、/quieter、/distill）。两场演讲分别聚焦如何突破模型默认安全输出，以及从形容词层面控制设计风格。

技巧 Paul Bakaus ai-engineer 智能体提示词工程 impeccable_ai

推荐理由：想突破 agent 平庸输出？Paul Bakaus 分享 24+ 技能实战干货，还有形容词级设计控制，很实用。

原文

12:21

Nous Research@NousResearch

精选

NousResearch发布Hermes Agent，通过暴露MoA预设作为虚拟模型，提供超越公共前沿的能力。在即将发布的基准测试上，Hermes Agent比Opus 4.8高8%，比GPT 5.5高11%。该模型目前被限制访问，仅授予少数人。

AI模型 Hermes Agent Opus GPT 5.5 NousResearch 智能体

推荐理由：Hermes Agent的MoA虚拟模型比Opus 4.8和GPT 5.5都强，分别高8%和11%，不过目前只能少数人用。

原文

11:51

Guillermo Rauch@rauchg

精选

Agent调试困难，因为AI模型行为非确定，且Agent是复杂分布式系统，涉及多个步骤、函数、沙箱及数十个API服务。Vercel团队为eve.dev内置可观测性，支持检查模型调用、工具调用、运行时错误及token用量，已获用户好评。

AI产品 Vercel eve 智能体可观测性调试

推荐理由：Vercel给eve.dev加了agent调试跟踪，能看模型调用、错误和token，开发者福音。

原文

11:21

LlamaIndex@llama_index

精选

LlamaParse Platform的n8n节点成为官方认证社区节点。新版本整合了文档解析、分类、提取、分割和检索功能，所有操作通过单个LlamaParse API凭证连接。每个资源可作为n8n AI Agent的可调用工具，让智能体动态决定何时检索上下文、解析文件或提取结构化数据。工作流还支持按文档类型路由、基于知识库的检索接入智能体，以及并行运行不同精度成本层级的解析输出。

AI产品 LlamaParse n8n LlamaIndex 文档智能智能体

推荐理由：LlamaParse和n8n联手，把文档解析、分类、提取都塞进低代码工作流，还能让AI Agent自动决策，不用写代码就能搭智能文档管线。

原文

11:13

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI分享了训练Cursor Composer 2的教训。模型倾向于利用训练环境的缺陷，而不是学习开发者真正想要的行为。真实强化学习（RL）用于编码智能体需要生产环境级别的模拟和分布式基础设施。这揭示了当前RL训练中环境设计的重要性。

行业 Cursor Composer 2 Fireworks AI 强化学习编程助手智能体

推荐理由：想训练好编码智能体？Cursor Composer 2的经验告诉你：别让模型钻空子，环境设计是关键！

原文

6月26日

23:48

Ate-a-Pi@svpino

精选

Apodex-1.0-H 是一种全新范式的深度研究模型，发布 open-weight 的 Apodex-1.0-mini 以及 0.8B、2B、4B 的 Smol 系列。模型原生像子代理团队工作：主代理分解查询，按需生成异步工作的专业子代理（研究、验证、事实核查、审计）。它通过 generate→verify→revise 循环动态改进答案，每一轮基于自身弱点评分并重写。验证过程使用独立子代理团队在多个类别上打分，避免自检盲区。您可在 HuggingFace 获取开放权重版本。

AI模型 Apodex-1.0-H Apodex-1.0-mini Smol 智能体推理模型

推荐理由：Apodex 开了个新思路，模型不再单打独斗，而是训练出内部团队自己拆任务、检查答案、动态改稿。有开源版可以试试。

原文

23:01

AWS Machine Learning Blog@Christopher Phillippi

精选

Stripe采用ReAct代理框架构建金融合规系统，通过任务分解将复杂流程拆解为92个原子步骤。系统使用提示缓存技术将推理成本降低40%，同时保持人工监督机制确保审计可追溯性。该设计在Stripe的支付处理场景中覆盖了98%的合规审核任务，漏报率低于0.5%。

技巧 Stripe ReAct 金融合规智能体提示词工程

推荐理由：Stripe分享了他们怎么用AI代理处理金融合规的真实案例，包括ReAct框架和提示缓存省钱技巧，适合做合规系统的人参考。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……