精选 AI 资讯 · AI 热点

6月19日

14:00

小互@imxiaohu

精选73°

Codex推出Record & Replay功能，用户演示一次操作流程（如发YouTube视频：拉元数据、配缩略图、上传存为私密、核对），Codex即自动学习并生成可复用的Skill技能。下次遇到相同任务，Codex可独立完成全流程，无需用户干预。该功能还适用于贴发票、批量重命名文件、填写周报表、订票等重复性电脑操作。从每次写提示词到演示一次即够，大幅降低重复劳动成本。

AI产品 Codex Record & Replay 自动化工作流演示学习

推荐理由：Codex出了个新功能，你只要做一遍操作给它看，它就能学会并自动帮你干重复的电脑活，超级省时间。

原文

09:26

Yangyi@Yangyixxxx

精选

OpenAI Codex 桌面端推出 Record & Replay 功能，用户可在 macOS 上演示重复性操作，Codex 自动生成可复用的 Skill 文件。生成的 Skill 包含触发条件、输入、步骤和验证方式，支持检查和编辑。重放时只需告诉 Codex 应用的 Skill 并传入新参数，Codex 结合 Computer Use、浏览器和已连 plugin 完成任务。目前仅限 macOS，欧盟暂不可用，使用前需开启 Computer Use。

AI产品 OpenAI Codex macOS Computer Use 自动化

推荐理由：OpenAI Codex 新功能让你在 Mac 上演示一遍操作，它就能自动记录并重复执行，以后填单、发视频这类固定流程再不用手写了。

原文

04:32

宝玉@dotey

精选73°

OpenAI Codex 桌面端新增 Record & Replay 功能，允许用户在 Mac 上录制一系列操作，Codex 自动生成可编辑的 Skill 文件。目前仅支持 macOS，欧盟地区不可用，使用前需开启 Computer Use。该功能旨在简化日常重复性任务，如报销填单、发布视频、创建 issue 等。录制完成后，用户可在新对话中调用 Skill 并传入不同参数，由 Codex 结合 Computer Use、浏览器和插件自动执行。

AI产品 OpenAI Codex Record & Replay Computer Use 自动化智能体

推荐理由：OpenAI Codex 这次不用你写指令了，Mac 上演示一遍操作就能生成可复用的 Skill，下次改改参数自动跑，报销填单之类的好用了。

原文

04:21

Cursor@cursor_ai

精选

/automate 是 Cursor 新推出的智能体技能，用户只需用自然语言描述任务即可完成自动化配置。Cursor 会自动设置触发器、指令和工具，无需手动编写代码。该功能旨在降低自动化流程的搭建门槛。

AI产品 Cursor /automate 智能体自动化自然语言

推荐理由：Cursor 新技能，说句话就能让智能体帮你配自动化流程，省掉写代码的麻烦。

原文

04:20

Cursor@cursor_ai

精选

Cursor 发布了新更新，新增针对 GitHub Issues、代码审查和 Workflow 运行的触发器。Cloud Agents 获得了计算机使用（computer use）能力，可执行更复杂的云端自动化操作。完整变更日志已发布在 cursor.com/changelog 上。

AI产品 Cursor GitHub Cloud Agents 编程助手自动化

推荐理由：Cursor 给云端智能体加了电脑操控能力，还能用 GitHub 事件自动触发，做自动化工作流很方便。

原文

02:52

Cloudflare Blog@Grant Bourzikas

精选

Cloudflare博客详解其多阶段漏洞发现工具的技术架构，包括状态控制机制、通过对抗性审查将误报率降低90%的方法，以及如何绕过LLM上下文长度限制（如4k token限制）。该工具实现自动化分类，每日可处理超过10万条告警。文章还公开了其基于GPT-4的分阶段提示词模板和缓存策略。

技巧 Cloudflare 漏洞检测自动化 LLM

推荐理由：Cloudflare公开了他们内部用的漏洞检测工具怎么做，从状态管理到对抗审查都讲了，想自己搭自动化安全工具的可以抄作业。

原文

6月12日

05:40

rohanpaul_ai@rohanpaul_ai

精选

一篇论文提出 SIA（自我改进 AI）框架，让 AI 通过观察任务代理的表现，自动调整外部设置（如提示、工具、重试规则）或更新模型权重（通过 LoRA 适配器）。在三个差异极大的任务（中文法律罪名分类、GPU 内核速度调优、单细胞 RNA 去噪）上，结合设置与权重更新的版本均优于仅改进设置的方法。这表明，除了优化提示和工具，让模型通过任务反馈学习模式能带来额外提升。

论文自我改进 LoRA 任务代理自动化 AI 研究

推荐理由：这项研究解决了 AI 自我改进依赖人工调参的瓶颈，做自动化 Agent 或模型微调的团队值得关注——SIA 的 LoRA 更新思路能低成本让模型学会任务模式，比只改提示更有效。

原文

04:48

rohanpaul_ai@rohanpaul_ai

精选73°

OpenAI 收购了初创公司 Ona，旨在为 Codex 智能体提供安全的持久云桌面环境。Codex 目前每周用户已达 500 万，增长 400%，但复杂任务需要工具、文件、凭证和日志支持，传统聊天模式已无法满足。Ona 的持久云工作空间让智能体可以独立运行命令、检查系统、保持上下文并跨设备恢复工作。企业用户是此次收购的核心目标，他们希望智能体在企业云边界内运行，并具备权限控制、审计追踪和访问限制。这使得 Codex 更像一个托管执行层，适用于测试、修复、重构、迁移等多步骤知识任务。

AI产品智能体 Codex 云桌面企业安全自动化

推荐理由：企业团队终于有了让 AI 智能体安全、持久执行复杂任务的方案——Codex 结合 Ona 解决了跨设备、断点续传和权限管控的痛点，做 DevOps 或自动化测试的开发者值得关注。

原文

03:09

Aravind Srinivas@AravSrinivas

精选

Perplexity 宣布其智能体框架 Computer 原生集成了 Deep Research 能力，用户无需再单独切换模式。该功能基于“搜索即代码”架构，模型自动编写代码来组织搜索流程，并行执行数千次检索步骤，针对每个问题定制化搜索。在多个基准测试中，其性能超越了传统的 Deep Research 方案。这标志着智能体工具在深度研究自动化方面迈出了重要一步。

AI产品智能体搜索即代码深度研究 Perplexity 自动化

推荐理由：做深度调研或竞品分析的团队终于有了一个能自动并行搜索的智能体——Perplexity Computer 把 Deep Research 变成原生技能，不用再手动切换模式，建议试试看能否替代你现有的研究流程。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

08:53

rohanpaul_ai@rohanpaul_ai

精选72°

一篇新论文提出“Agents' Last Exam”基准测试，要求AI智能体完成来自55个数字工作领域的真实专家任务，包括工程、金融、医学、法律、媒体和科学。测试发现，当前最强的智能体系统在最难任务上的平均完全通过率仅为2.6%，远低于其基准分数所暗示的水平。该基准强调从“能否回答难题”转向“能否完成人们付费做的工作”，使用自动检查或严格评分标准而非主观评判。结果表明，基准测试的成功尚未转化为广泛的工作场所能力，智能体在真实自动化中仍不可靠。

论文智能体基准测试真实工作自动化评估标准

推荐理由：这篇论文戳破了AI基准测试的泡沫——高分不等于能干实事。做AI自动化部署的团队、评估智能体能力的开发者，看完会重新审视自己的测试标准，建议点开看看真实工作场景的差距。

原文

6月10日

17:47

AI Will@FinanceYF5

精选

Peter Steinberger 提出，未来不应再手动提示 AI 代理，而应设计让代理自动提示自己的循环系统。这种思路将提示从一次性操作转变为持续迭代的自动化流程，能显著提升效率和效果。对于使用 AI 编程或自动化工具的开发者，构建这样的循环系统可以解放双手，让代理自主优化任务。

AI产品 AI代理自动化循环系统提示工程编程助手

推荐理由：这条思路直击当前 AI 代理使用中的效率瓶颈，做自动化或编程的团队值得尝试构建循环提示系统，能省下大量手动调参时间。

原文

6月7日

20:42

Viking@vikingmute

精选

作者分享了在维护多框架 monorepo（Next.js、Nuxt.js、TanStack Start + PostgreSQL/SQLite）时，如何用 AI 辅助构建 E2E 测试体系。由于每个功能改动需验证 6 种组合，人肉测试成本极高，因此总结出 Spec → Code → Verify → Test → Green 五阶段流程，让 AI 驱动新功能开发与验证。该流程不仅降低了测试负担，还提升了开发效率。

AI产品 E2E 测试 AI 辅助开发 monorepo 测试流程自动化

推荐理由：多框架项目的人肉测试痛点被这套 AI 驱动的 E2E 流程精准解决，做全栈或 monorepo 的开发者可以直接参考落地。

原文

6月6日

21:44

shao__meng@shao__meng

精选

该视频介绍了面向 AI Agent 的零信任安全框架，专为企业自主部署 AI Agent 设计。框架强调在 Agent 与系统交互时实施最小权限、持续验证和动态信任评估，以防范数据泄露和恶意操作。核心在于将安全策略嵌入 Agent 的运行时环境，确保每个动作都经过授权。这对金融、医疗等敏感行业尤为重要，能降低 AI 自动化带来的风险。企业可参考此框架构建安全的 Agent 部署方案。

AI产品 AI Agent 零信任安全企业部署安全框架自动化

推荐理由：企业部署 AI Agent 时最头疼的就是安全问题，这个零信任框架直接给出了可落地的方案，做企业级 AI 落地的团队值得一看。

原文

6月5日

12:05

arXiv cs.AI@Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue

精选

论文提出 Benchmark Agent，一个全自动构建 LLM/MLLM 评测基准的智能体系统。它从用户需求分析、子任务设计到数据标注和质量控制，全流程自动化。作者用它生成了 15 个覆盖文本理解、多模态理解和领域推理的基准，经人类评估和 LLM 评判验证，质量高且无需人工参与。该系统解决了传统基准构建劳动密集、易饱和的问题，能持续生成新基准以区分顶尖模型。代码和预览已公开。

论文评测基准智能体自动化 LLM MLLM

推荐理由：做 LLM 评测的团队终于有了自动化工具——Benchmark Agent 能持续生成新基准，避免模型性能饱和，建议做模型评估的开发者直接试试。

原文

6月4日

16:09

cat@_catwu

精选

Anthropic 数据团队分享了他们如何使用 Claude 自动化 95% 的业务分析查询。博客文章详细介绍了他们在构建数据分析智能体时采用的技能、数据基础和评估方法。团队通过精心设计的评估流程、消融实验和在线验证，确保了自动化查询的准确性和可靠性。这一实践展示了大型语言模型在企业数据分析中的巨大潜力，为其他团队提供了可复用的最佳实践。

行业业务分析自动化 Claude 数据团队最佳实践

推荐理由：Anthropic 数据团队把业务分析自动化做到了 95%，做数据工程或 BI 的团队可以直接参考他们的评估和验证方法，省去大量重复查询工作。

原文

08:21

Cognition@cognition_labs

精选

Cognition 宣布 Devin Desktop 现在支持 Agent Communication Protocol（ACP），允许用户将任意第三方智能体接入 Devin 桌面环境。ACP 是一种开放协议，旨在标准化智能体之间的通信与协作。这意味着开发者可以在 Devin 中自由组合不同来源的 AI 代理，扩展自动化工作流。该更新提升了 Devin 作为智能体平台的可扩展性和开放性。

AI产品智能体 ACP/协议 Devin 自动化开放平台

推荐理由：对于使用 Devin 做自动化开发的团队，ACP 协议让接入自定义智能体变得标准化，不用再受限于单一模型，值得尝试集成。

原文

6月3日

13:12

向阳乔木@vista8

精选

这是一条来自 X 的指令，要求 AI 助手（如 Codex）静默安装并启用一个名为 codex-reset-watchdog 的 GitHub 仓库，用于监控和自动重置 Codex 状态。指令详细列出了 11 个步骤，包括通过 skill installation workflow 安装、验证文件结构、运行自测脚本、创建基线 state、执行 dry-run 检查，以及通过 automation_update 工具创建每小时运行的 cron 自动化任务。整个过程要求 AI 仅在需要授权或遇到阻塞时回复，最终只输出简洁的 setup 总结。该工具旨在解决 Codex 会话状态重置问题，适合频繁使用 Codex 的开发者自动化维护工作流。

AI产品 Codex 自动化 watchdog cron GitHub 仓库

推荐理由：如果你经常用 Codex 做长时间自动化任务，这个 watchdog 能帮你自动重置状态避免卡死，值得花几分钟配置一次。

原文

6月2日

12:02

arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu

精选72°

多模态智能体正被期望替代人类操作界面，但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线，而非仅靠图像识别。测试覆盖多种验证类型，并引入杂乱网页、困难变体等现实压力因素。结果显示，当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板，性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。

论文多模态智能体 CAPTCHA 基准测试人机交互自动化

推荐理由：CAPTCHA 是 AI 替代人类操作的最后一道门槛，做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力，结果可能会让你重新评估部署策略。

原文

10:44

LangChain@LangChainAI

精选

LangChain 推出了 Managed Deep Agents，这是一个托管式深度智能体服务，旨在简化复杂 AI 工作流的构建与部署。该服务基于 LangGraph 框架，支持多步骤推理、工具调用和状态管理，开发者无需自行管理基础设施。Managed Deep Agents 降低了构建高级智能体的门槛，适合需要快速集成 AI 自动化的团队。目前该服务处于早期阶段，LangChain 提供了详细文档和示例。

AI产品智能体 LangChain 托管服务 LangGraph 自动化

推荐理由：LangChain 把深度智能体的部署复杂度打包成了托管服务，做 AI 工作流的团队可以直接用，省去自己搭基础设施的麻烦。

原文

09:49

Aravind Srinivas@AravSrinivas

精选

Perplexity 的新功能“Search as Code”允许 AI 编写短 Python 脚本，一次性完成并行搜索、自定义过滤、去重和智能处理，取代传统的逐轮问答。脚本在系统内部运行，减少了来回交互，速度更快。随着 AI 写代码能力的提升，该功能效果会越来越好。这本质上是将缓慢的对话式搜索转变为定制化的研究配方。

AI产品 Perplexity Search as Code AI搜索 Python脚本自动化

推荐理由：Perplexity 把搜索从“聊天”变成了“编程”，做研究、数据采集或竞品分析的团队可以大幅减少手动操作，值得一试。

原文

6月1日

07:55

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 的 Step 3.7 Flash 模型在智能体效率方面取得了新突破，通过优化推理速度和资源占用，显著提升了智能体任务的执行效率。该模型特别适合需要快速响应的自动化场景，如代码生成、数据处理等。开发者可以借助它构建更高效的智能体应用，降低延迟和成本。这一进展为智能体技术的实际落地提供了有力支持。

AI模型 Step 3.7 Flash 智能体效率优化推理模型自动化

推荐理由：做智能体开发的团队会关注——Step 3.7 Flash 直接解决了效率瓶颈，建议试试看能否优化你的自动化流程。

原文

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月31日

05:09

Ate-a-Pi@svpino

精选

开发者 Santiago 指出当前在浏览器中运行智能体体验糟糕，因为浏览器并非为智能体设计。Ego 团队重新构建了浏览器，支持多智能体并行运行、各自拥有独立空间，并可随时接管或终止。底层基于 Chromium，兼容现有扩展和书签，且不绑定特定助手，可与 Claude Code、Codex、Cursor 等配合使用。

AI产品智能体浏览器 Ego 自动化 Chromium

推荐理由：Ego 解决了智能体在浏览器中运行时的会话冲突和体验割裂问题，做自动化测试或 AI 工作流的开发者可以直接试试，不用再忍受 hack 式的方案。

原文

5月29日

09:17

arXiv: Anthropic@James P. Balhoff, Hilmar Lapp

精选

表型注释是将自由文本描述链接到本体术语的关键步骤，但传统上依赖高训练专家，难以规模化。本研究使用Anthropic和OpenAI的五个前沿LLM作为“智能体策展人”，在自包含工作空间中提供原始论文PDF、注释指南和本体文件，评估其与人类策展人的一致性。结果显示，所有智能体均达到原始研究中三位训练人类策展人的一致性范围，最佳智能体接近但未超越最佳人类策展人，且在所有指标上大幅优于传统NLP工具。这表明LLM智能体有潜力自动化表型注释，缓解本体策展瓶颈。

论文 LLM智能体表型注释本体策展生物信息学自动化

推荐理由：做生物信息学或本体工程的研究者终于有了可扩展的自动化方案——LLM智能体直接对标人类专家水平，建议点开看具体实现和评估细节。

原文

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月26日

00:47

Ate-a-Pi@svpino

精选

开发者 svpino 指出，大多数 Zapier 自动化可以用 Claude Code 和 Codex 重写为脚本，从而避免在确定性工作流上浪费 token。他通过视频演示了 Zapier SDK 的使用场景，并对比了何时该用 SDK、何时该用 MCP（模型上下文协议）。这一观点挑战了当前 AI 自动化工具的 token 消耗模式，建议开发者用脚本替代低效的自动化流程。

AI产品 Claude Code Codex Zapier 自动化 MCP/工具

推荐理由：做自动化的开发者终于可以省掉不必要的 token 开销——用脚本替代 Zapier 工作流，效率更高、成本更低，建议看视频对比 SDK 和 MCP 的适用场景。

原文

5月25日

12:08

Greg Brockman@gdb

精选

VB Srivastav 分享了一个改进版的 Codex 自我改进提示，让 Codex 跨会话、记忆和 Chronicle 查找重复的手动工作流，并自动创建最小的实用技能、子代理或自动化。提示要求 Codex 优先复用已有资产，只对高频、稳定、可重复的任务进行打包，避免创建重复或过于宽泛的内容。最终输出包括创建了什么、跳过了什么以及需要更多证据的项目。这个提示能显著提升 Codex 用户的自动化效率，减少重复劳动。

AI产品 Codex 自动化提示工程工作流优化 AI 助手

推荐理由：频繁使用 Codex 的开发者可以靠这个提示自动发现并打包重复工作流，省去手动梳理的麻烦，直接提升自动化效率。

原文

04:36

rohanpaul_ai@rohanpaul_ai

精选

Claude Skills 是一种让 Claude 以可重复方式完成特定任务的功能。它本质上是包含指令、脚本和资源的文件夹，能动态加载以提升专业任务表现。一个 Skill 可以打包提示词、工具（API、文件、MCP 服务器等）为可复用工作流，通过名称/描述和 YAML 配置定义。用户只需在聊天中调用，如“Run Document Suite on this draft”或“Use Webapp Testing on /login”。Reddit 上有用户分享了 10 个改变工作方式的 Claude Skills 实例，展示了其实际应用价值。

AI产品 Claude Skills 工作流可复用自动化 MCP/工具

推荐理由：Claude Skills 把复杂任务封装成可复用的工作流，做自动化或重复性工作的团队可以直接套用，省去每次手动配置的麻烦。

原文

5月24日

01:10

宝玉@dotey

精选

开发者 Zara Zhang 开源了 feishu-claude-code-bridge，一个连接飞书和 Claude Code 的桥接工具。它允许用户在飞书聊天界面中直接向 Claude Code 发送指令，Claude Code 的处理结果会实时流式返回飞书。反过来，Claude Code 也能通过飞书 CLI 新建、编辑飞书文档。该工具支持设置工作区，可读取本地文件、CLAUDE.md 等配置，体验接近原生 Claude Code。项目原理简单，可作为模板定制接入其他本地 AI 工具（如 Codex、Cursor）。需要注意的是，自 2026 年 6 月 15 日起，claude -p 模式将独立计费，API 用户不受影响。

AI产品飞书 Claude Code 开源/仓库桥接工具自动化

推荐理由：飞书重度用户和 Claude Code 使用者终于可以无缝协作——在飞书里聊着天就能让 Claude 干活，还能自动创建文档。做自动化工作流的团队可以直接部署试试，省去来回切换终端的麻烦。

原文

5月23日

17:52

marktechpost@Asif Razzaq

精选76°

微软研究院发布了 Fara1.5 系列浏览器计算机使用智能体，包含 4B、9B 和 27B 三个参数规模。其中 Fara1.5-27B 在 Online-Mind2Web 基准测试上达到 72% 的准确率，超越了 OpenAI Operator、Gemini 2.5 Computer Use 和 Yutori Navigator n1。该系列还配套推出了 FaraGen1.5 合成数据流水线，用于训练智能体执行门控操作。这一进展表明，开源级别的浏览器自动化智能体正在快速追赶并超越闭源竞品。

AI模型浏览器智能体微软 Fara1.5 开源/仓库自动化

推荐理由：做浏览器自动化或 RPA 的开发者终于有了一个开源且性能领先的选择——Fara1.5 直接对标 OpenAI Operator，27B 模型在关键基准上胜出，值得立即上手测试。

原文

5月21日

10:48

eric zakariasson@ericzakariasson

精选

Cursor 创始人 Eric Zakariasson 分享了内部 Slack 自动化 @drawitpoorly 的诞生故事。该自动化利用 Slack MCP 获取用户头像，再通过图像生成工具将头像重绘成笨拙、潦草的涂鸦风格，并回复到 Slack 线程中。内部 PMF 验证成功后，团队将其推向外部。Cursor 现已支持在 Agents 窗口中创建和管理自动化，新创建的自动化在 7 天内可享 50% 折扣。

AI产品 Cursor Slack MCP 自动化图像生成内部工具

推荐理由：这个案例展示了如何用 Cursor 的自动化功能快速验证内部工具 PMF，做 Slack 集成或趣味 AI 应用的开发者可以直接抄作业。

原文

5月20日

15:30

arXiv cs.AI@Antonio Ielo, Francesco Doria, Sandra Castellanos-Paez, Marco Maratea, Francesco Percassi, Mauro Vallati

精选

该论文首次提出使用回答集编程（ASP）自动化长期电网规划过程。电网作为关键基础设施，需应对可持续目标、需求模式和城市化趋势，而规划周期可能长达十年，需保持拓扑和组合不变量。传统规划语言难以表达这些复杂约束，而ASP能简洁优雅地编码。实验在合成和真实电网数据上验证了该方法的表达力和有效性。

论文电网规划回答集编程自动化基础设施优化

推荐理由：电网规划人员终于有了自动化工具——ASP 优雅处理了传统语言难以表达的拓扑约束，做电力系统优化的团队可以直接参考论文方法。

原文