精选 AI 资讯 · AI 热点

6月30日

10:43

Ate-a-Pi@svpino

精选

建议用“value per token dollar”指标评估智能体：将智能体产生的价值除以消耗的token成本。比值低于1表示成本大于回报；等于1表示收支平衡；高于1则可用该智能体构建业务。不同智能体即使使用相同模型和token数，创造的价值也可能完全不同。@matrix_build 团队首次采用这一指标。

推荐理由：别再纠结智能体能不能干了，试试用“值多少token”来算账，看投入产出比高不高。

原文

02:47

AWS Machine Learning Blog@Enrique Salgado Hernández

精选

本文介绍了Amazon QuickSight中BI资产的备份最佳实践。首先讲解如何选择需要备份的资产（如仪表板、数据集等）。然后说明可用的API（如ListDashboards、CreateDashboard）用于备份操作。最后提供示例代码帮助快速实现备份流程。

技巧 Amazon QuickSight AWS 备份策略 BI资产教程

推荐理由：AWS教你备份QuickSight资产，有代码示例，照着做就能避免数据丢失。

原文

01:58

AWS Machine Learning Blog@Anuranjan Mondal

精选

PAR 在 AWS 上构建了一个生产级多租户 LLM 分析系统，通过三层架构强制执行行级安全：使用 AWS SigV4 进行加密请求签名、在 Amazon Bedrock 上进行语义验证、以及通过 Split-Plane SQL 实现程序化数据隔离。每层独立运行以降低跨租户数据暴露风险，即使 LLM 本身被攻破或操纵也能保护数据。

技巧 AWS Amazon Bedrock 多租户行级安全 AI安全

推荐理由：AWS 这篇教程手把手教你用 Bedrock 和 Split-Plane SQL 搭建多租户 LLM 分析系统，三层隔离防止数据泄露，值得做企业级 AI 安全的开发者看看。

原文

01:57

AWS Machine Learning Blog@Sanghwa Na

精选

AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道，用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取（检测照片、提取姓名坐标、返回页面元数据）。Claude Sonnet 4.6 根据版面布局进行空间推理，将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行，通过分工降低总处理成本。

技巧 Amazon Nova 2 Lite Claude Sonnet 4.6 Amazon Bedrock 文档数字化多模态

推荐理由：用 Nova 2 Lite 做粗提取，Claude Sonnet 4.6 做精准匹配，文档数字化省心又省钱。

原文

01:56

AWS Machine Learning Blog@Troy Parrett

精选

本教程展示如何结合Amazon Bedrock Data Automation自动提取医疗理赔表单数据，再通过Amazon Bedrock AgentCore托管AI代理进行验证并转换为FHIR资源存入AWS HealthLake。该端到端工作流可减少人工处理流程，同时通过自动化校验保持数据准确性。文中逐步讲解每个组件的配置与集成方法。

技巧 Amazon Bedrock AWS HealthLake FHIR 智能体医疗数据

推荐理由：AWS官方手把手教你搭医疗理赔流水线，用Bedrock自动抽数据、转FHIR格式存HealthLake，能省不少人工核对时间。

原文

01:33

AWS Machine Learning Blog@Joshua Lacy

精选

本文介绍如何使用Amazon Bedrock AgentCore的内置可观测性功能调试生产环境中的智能体故障。文章涵盖常见的故障模式，如无限循环和工具调用失败。通过追踪和指标分析智能体行为，并提供结构化工作流来解决问题。本文是两部分系列的第一部分，第二部分将讨论性能优化和内存管理。

技巧 Amazon Bedrock AgentCore 可观测性智能体工具调用

推荐理由：AWS博客教你用Bedrock AgentCore内置观察功能排查生产智能体故障，比如无限循环和工具调用失败，省去自己搭建监控的麻烦。

原文

6月29日

23:10

berryxia@berryxia

精选

Anthropic工程师Margot Van Laar在Code with Claude分享提示词工程最佳实践，强调通过评估（Eval）而非直接修改提示词来优化。她用客服机器人和零售排班两个案例演示：使用XML标签结构化提示词、移除旧模型遗留的禁止列表（如Claude 3 Opus）、用工具替代指令处理计算任务。拆解复杂任务为生成-评估-修复循环，并建议用更强推理模型（如Opus）加自适应思考替代小模型复杂提示词。

技巧提示词工程 Claude 评估 Claude Opus 工作流

推荐理由：Anthropic工程师手把手教你怎么调客服提示词和搭Agent，用Opus加循环拆解比堆复杂指令更管用，核心就一句话：先搞评估

原文

18:57

vLLM@vllm_project

精选

NVIDIA 与 vLLM 合作发布 step-by-step 指南，教你用四台 DGX Spark 盒子组建私有集群，自托管 550B 参数的 Nemotron-3-Ultra 模型。指南基于 vLLM 官方容器，可提供兼容 OpenAI 的端点。无需数据中心，适合构建私有 agent 工作流。

技巧 Nemotron-3-Ultra NVIDIA DGX Spark vLLM 自托管

推荐理由：想不依赖数据中心自己跑 550B 模型？NVIDIA 出了详细教程，四台 DGX Spark 就能拼出 OpenAI 兼容的端点。

原文

13:50

François Chollet@fchollet

精选

François Chollet 指出，智能体编程（Agentic coding）迫使开发者设计清晰的 API 接口并编写完整的文档字符串。AI 代理无法阅读团队内部的隐式心理模型，只能依赖显式的 API 合约和 docstring。这要求接口规范必须精确、无歧义，文档覆盖所有输入/输出场景。对工程团队而言，这意味着需要投入更多时间在接口形式化设计上。

技巧 Agentic coding API设计文档字符串智能体编程助手

推荐理由：François Chollet 说得很实在：想用AI代笔写代码，接口就得干净、文档得详细，别指望它懂你没写出来的默契。

原文

13:48

岚叔@lufzzliz

精选

LufzzLiz基于Andrej Karpathy的LLM Wiki gist衍生出两套模板：个人知识库schema（五层目录）和代码仓库wiki schema（三层目录+双层导览）。附带实践案例Hermes-wiki和wiki-web，后者支持关系图和脑图。模板可直接用于构建结构化个人知识库或项目文档。

技巧 Karpathy 知识库模板笔记技巧工作流

推荐理由：如果你嫌搭建知识库太麻烦，试试这套基于Karpathy思路的模板，五层目录帮你把笔记理得清清楚楚，还有实际案例参考。

原文

00:54

marktechpost@Sana Hassan

精选

本教程使用 Python 构建完整的 OCRmyPDF 流水线。先生成合成图像 PDF 以测试 OCR，再将其转换为可搜索 PDF 和 PDF/A 格式。通过提取侧边文本、计算单词召回率（word-recall）并比较文件大小来验证效果。还能调整 Tesseract 参数、清理噪点、纠正方向、在内存中运行 OCR 以及批量处理整个文件夹。

技巧 OCRmyPDF PDF/A Tesseract Python 文档扫描

推荐理由：手把手教你用 Python 调 OCRmyPDF，从生成测试图片到批量转 PDF/A，还带召回率比较，适合文档处理需求的人。

原文

6月28日

16:18

Geek@geekbb

精选

网友分享的 Gentle-AI 配置串联 11 个不同职能的智能体，使用低成本 Flash 模型处理大部分上下文，仅在设计（Qwen）和编码（Kimi Code）等关键环节调用高性能模型。每日成本控制在 4~7 美元，并通过多智能体对齐审查显著降低幻觉率。该 per-phase model routing 策略可适配 15 种 AI 编程工具。

技巧 Gentle-AI Qwen Kimi Code 智能体模型路由

推荐理由：挺实用的配置：11个智能体分工，Flash模型省成本，Qwen和Kimi Code干重活，每天才4-7美元，还降幻觉。

原文

15:15

marktechpost@Sana Hassan

精选

本教程基于 Hugging Face 的 Fable 5 Traces 数据集，在 Colab 中构建稳定工作流。手动解析合并的 JSONL 文件避免依赖问题，检查仓库文件并标准化工具调用。通过审计结构、脱敏密钥和可视化分布，导出安全的无 CoT 聊天数据集。最后使用纯 Python 的朴素贝叶斯模型在 traces 上训练基线，无需复杂框架。

技巧 Fable 5 Traces Colab 工具调用数据审计基线模型

推荐理由：手把手教你用 Colab 搞定 Fable 5 Traces 数据，从解析到审计再到训练基线，全流程避坑实战。

原文

11:19

AI产品黄叔@PMbackttfuture

精选

黄叔分享了flomo Agent的10点使用心得，核心是降低记录前0.5秒的摩擦。他通过微信入口和Hermes Agent，并接入flomo MCP，将Hermes长期记忆同步到flomo。同时手动触发“保存到flomo”的内容，即时使用增强功能从flomo/Hermes记忆里检索相关笔记以帮助思考。他认为DeepSeek V4和王登科推动了flomo的发展，且Agent功能少反而更可信。最后提出flomo Agent+Codex/Hermes可形成“记忆-行动”双系统。

技巧 flomo Agent 知识管理 MCP/工具 Hermes

推荐理由：黄叔总结了flomo Agent的10条理解，比如用微信入口降低摩擦、打通记忆和行动，还提到了DeepSeek V4的作用。想用好flomo的可以看看。

原文

01:25

宝玉@dotey

精选

Codex 和 Claude Code 的上下文压缩功能结合 Prompt Caching，使得在单个 Session 内持续对话的成本压力显著降低。用户可以通过 fork 功能从对话的某个位置创建分支，只保留之前的历史记录，使上下文更纯粹。/btw 或 /side 命令允许在不影响当前任务上下文的情况下提问，例如在 plan 模式下用 /btw 详细解释选项含义。VB 提到自 GPT 5.3 Codex 以来，他不再担心上下文问题，且 Codex 的支线线程功能非常出色。

技巧 Codex Claude Code Prompt Caching 上下文压缩编程助手

推荐理由：如果你用 Codex 或 Claude Code 做长任务，这个技巧能省下不少 token 费用，fork 和 /btw 命令特别实用。

原文

00:56

berryxia@berryxia

精选

Anthropic应用AI负责人Lamis在2026年AI DevCon上分享了Agent记忆系统的四层架构。起点是CLAUDE.md文件，效果超过复杂Prompt工程。第二层是记忆工具，让Agent自主读写更新，判断力比人强。第三层Skills实现渐进式披露，类似从书架抽词典。第四层把记忆建模为文件系统，用bash/grep，无需向量数据库。还引入"做梦"（带外异步处理）分析跨会话模式，已在生产中提升任务效率并降低成本。

技巧 Claude Code 记忆管理智能体 Anthropic 提示词工程

推荐理由：Anthropic官方分享了他们怎么让Agent记住东西：从Markdown文件到做梦机制，很实用的四层方法论，看完可以少走弯路。

原文

6月27日

19:36

Sebastian Raschka: Ahead of AI@Sebastian Raschka, PhD

精选

本文介绍如何用aider和Continue等本地编码代理工具替代Claude Code与GitHub Codex订阅。这些工具可搭配Ollama部署的Llama 3和DeepSeek Coder等开源模型。本地运行能保护代码隐私，并节省每月订阅费用。作者给出了从安装Ollama到连接模型的完整配置步骤。

技巧 Claude Code Codex aider 编程助手开源模型

推荐理由：想省掉Claude Code的月费？Sebastian手把手教你用本地开源模型加aider和Continue自己搭编码代理，便宜又安全。

原文

13:25

Philipp Schmid@_philschmid

精选

Interactions API 引入了 background=True 参数，用于处理超过标准 HTTP 超时限制的长时间运行异步代理任务。官方发布使用指南，说明如何配置请求、在任务完成后重新连接以及流式传输结果。该参数允许客户端在提交任务后立即返回，而无需保持连接直到任务完成。

技巧 Interactions API background=True 异步任务教程

推荐理由：写异步 agent 任务总超时？试试 Interactions API 新加的 background=True，可以断开等结果再重连，还支持流式。

原文

12:57

OpenRouter@OpenRouterAI

精选

OpenRouter发布了一个MCP演示，展示agent如何通过MCP从DesignArena拉取实时设计模型排行。演示中，agent同时启动GLM-5.2、Opus 4.7和Kimi 2.6三个子模型，各自生成自画像网页并排展示。用户可以直接对比三个模型的输出，选择最喜欢的设计。这种方式省去了手动注册多个平台、重复输入提示词的繁琐流程。

技巧 OpenRouter MCP/工具 GLM-5.2 Opus 4.7 Kimi 2.6

推荐理由：OpenRouter演示了怎么用MCP让agent自动调用GLM-5.2、Opus 4.7、Kimi 2.6三个模型并排出设计图，再也不用一个个手动试了。

原文

12:26

AI Engineer@aiDotEngineer

精选

Paul Bakaus 将在 AI Engineer World's Fair 发表两场演讲，涵盖智能体技能工程与设计工具控制。他基于构建 24+ 技能、跨越 9 种 harness/模型组合的实战经验，揭示平行子智能体、混合专家路由、技能记忆、自动钩子与环境变量等技巧。此外还介绍开源设计工具 Impeccable AI 的 24 个形容词级命令（如 /bolder、/quieter、/distill）。两场演讲分别聚焦如何突破模型默认安全输出，以及从形容词层面控制设计风格。

技巧 Paul Bakaus ai-engineer 智能体提示词工程 impeccable_ai

推荐理由：想突破 agent 平庸输出？Paul Bakaus 分享 24+ 技能实战干货，还有形容词级设计控制，很实用。

原文

11:39

marktechpost@Sana Hassan

精选

本教程演示如何从Hugging Face流式加载NVIDIA Open-SWE-Traces数据集，无需本地下载即可在Google Colab中高效处理。内容涵盖多轮智能体对话标准化、代码补丁解析、构建包含轨迹长度、工具使用次数、补丁大小、语言分布及解决结果的分析DataFrame。最后基于成功标签、Token限制、语言过滤和补丁可用性筛选出监督微调子集。

技巧 NVIDIA Open-SWE-Traces Hugging Face 微调编程助手

推荐理由：想自己动手做代码智能体微调数据？这教程手把手教你解析NVIDIA开源的Open-SWE-Traces，连Token预算和工具使用指标都算好了。

原文

6月26日

23:01

AWS Machine Learning Blog@Christopher Phillippi

精选

Stripe采用ReAct代理框架构建金融合规系统，通过任务分解将复杂流程拆解为92个原子步骤。系统使用提示缓存技术将推理成本降低40%，同时保持人工监督机制确保审计可追溯性。该设计在Stripe的支付处理场景中覆盖了98%的合规审核任务，漏报率低于0.5%。

技巧 Stripe ReAct 金融合规智能体提示词工程

推荐理由：Stripe分享了他们怎么用AI代理处理金融合规的真实案例，包括ReAct框架和提示缓存省钱技巧，适合做合规系统的人参考。

原文

20:34

berryxia@berryxia

精选

岚叔发布了一个开源skill，先让模型将文章或架构内容压缩为结构化JSON spec，再通过本地Python + Pillow渲染出黑底手绘风格的PNG和GIF，同时输出可编辑的Excalidraw JSON。该skill可直接供agent调用，解决了复杂内容可视化效率低、观感差的问题，风格克制且便于扩展。

技巧岚叔 Excalidraw Python Pillow 手绘风格

推荐理由：你还在手动画架构图？岚叔这个skill帮你一步生成手绘动态图，还能用Excalidraw编辑，效率拉满。

原文

20:05

vLLM@vllm_project

精选

Cohere 开源了他们使用 AI 编码智能体维护 vLLM fork 的方法。该方法将维护视为控制循环：每次上游发布后 rebase，运行测试，诊断错误，修复，重复直到通过。原本数周的工作缩短到数天。技能库已开源（cohere-ai/vllm-skills），且修复已回馈上游。

技巧 Cohere vLLM 编码智能体开源

推荐理由：Cohere 开源了用 AI agent 维护 vLLM fork 的实践，把几周工作缩到几天，修复还回馈了上游。

原文

10:45

OpenRouter@OpenRouterAI

精选

OpenRouter 宣布 GLM-5.2 提供商正在优化推理速度。新增 wafter_ai 和 FireworksAI_HQ 两个快速变体。设置模型为 "z-ai/glm-5.2:nitro" 可根据实时流量自动切换到最快提供商。该功能无需手动切换，持续使用最佳性能。

技巧 GLM-5.2 OpenRouter wafer_ai FireworksAI_HQ 推理模型

推荐理由：OpenRouter 出的省心用法：设成 nitro 模式，GLM-5.2 自动走最快的推理服务商，不用自己选。

原文

08:52

08:52Hugging Face: Blog（博客/媒体）

精选

HuggingFace推出新功能：只需一条命令即可在HF Jobs上启动vLLM推理引擎。vLLM是一个高性能、低延迟的推理框架，支持多种GPU和自定义模型。该功能简化了从模型托管到服务部署的流程，无需手动配置容器或基础设施。用户可以快速部署LLaMA、Mistral等开源模型。

技巧 vLLM HuggingFace HF Jobs 推理模型部署

推荐理由：HuggingFace出了新招：一行命令就能跑vLLM服务器，省去了手动配置的麻烦，适合快速部署自己的模型。

原文

06:56

06:56Meta Engineering Blog（博客/媒体）

精选

Meta在博客中分享了构建隐私感知基础设施时，资产分类面临的挑战。隐私控制（如保留、访问、用途限制）需要对数据有准确理解，但相同名称可能在不同上下文有不同含义，例如字段“age”在不同场景代表不同数据。Meta通过案例研究说明了如何设计分类系统来识别这些差异。

技巧 Meta 隐私控制资产分类 AI安全

推荐理由：Meta用实际案例讲隐私控制的难点，一个‘age’字段在不同场景含义不同，搞错了会出大问题。

原文

04:59

elvis@omarsar0

精选

推文讨论动态工作流适用于少数用例，被视为测试时计算（TTC）的新范式。作者指出动态工作流在爬山式研究实验中表现强劲，且通过精心规划和提高推理水平可获更好结果。文章强调验证器/评审器对结果至关重要，组合不同的编码代理可取得更优效果。当需要从不同代理（如LLM委员会）获取多元视角时，动态工作流非常有用，但前沿模型尚不擅长优化地即时生成测试平台。提到了Mythos等新型模型可能更善于代理编排，且需要更多TTC基准来评估动态工作流的有效性。

技巧动态工作流测试时计算推理模型智能体 Mythos

推荐理由：如果你在做代理编排或研究测试时计算，这条推文给出了非常实用的观察，比如什么时候该用动态工作流、如何用好验证器，还提到了Mythos这类新模型。

原文

04:03

Harrison Chase@hwchase17

精选

LangChain 发布了一个面向 JS 框架的 Agent 部署 cookbook，提供完整的全栈示例代码。内容覆盖 streaming UI、子 agent（subagents）、线程历史（thread history）以及生产环境持久化注意事项。该 cookbook 旨在帮助开发者将本地演示的 agent 快速部署到真实应用中。

技巧 LangChain JavaScript agent 部署教程

推荐理由：想把 LangChain agent 从本地搬到线上？这份 cookbook 手把手教你用 JS 做全栈，连 streaming UI 和子 agent 都配好了。

原文

03:11

LangChain@LangChainAI

精选

LangChain JS 团队发布了 Agent 部署 Cookbook，包含全栈示例代码。这些示例展示了流式 UI、子代理、线程历史等功能，并附带生产环境持久化笔记。Cookbook 覆盖了多种常见 JS 框架，帮助开发者将本地 demo 的 Agent 真正部署到实际应用中。

技巧 LangChain Agent JavaScript 全栈开发部署教程

推荐理由：LangChain 出了个部署指南，教你用 JS 框架把 Agent 做成全栈应用，带流式 UI 和子代理，直接抄作业。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……