全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

05:34

xAI@xai

xAI 宣布 Grok Build 插件市场进入 Beta 阶段，首批集成 Sentry、MongoDB、Vercel、Cloudflare 和 Chrome DevTools 等插件。用户可直接在终端中安装 Sentry 插件，让 AI 代理自动查找并修复错误、分析堆栈跟踪以及分类告警。这标志着 Grok 从对话助手向开发工具生态的扩展，为开发者提供了更高效的调试和运维能力。

AI产品 Grok 插件市场 Sentry 开发者工具 AI 代理

推荐理由：Grok 终于有了插件生态，做调试和运维的开发者可以直接在终端里让 AI 帮你修 bug，省去手动翻日志的麻烦，值得一试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

00:19

HeyGen@HeyGen_Official

HeyGen 宣布其 AI 视频生成服务可通过 Stripe Projects 被 AI 代理自动发现、配置、存储凭证并支付，整个过程无需用户注册、粘贴 API 密钥或人工干预。这意味着开发者构建的 AI 代理现在能自主调用 HeyGen 生成视频，实现完全自动化的视频内容生产流水线。该集成降低了 AI 代理使用视频生成能力的门槛，为自动化营销、内容创作等场景提供了新可能。

AI产品 AI 代理 Stripe Projects HeyGen 自动化视频生成

推荐理由：做 AI 代理或自动化工作流的开发者终于可以省去手动配置 API 的麻烦——HeyGen 与 Stripe Projects 的集成让视频生成变成代理的自主能力，建议试试这个零人工介入的方案。

原文

6月8日

14:17

Gary Marcus@GaryMarcus

精选

Gary Marcus 针对 Anthropic 近期关于接近递归自我改进（RSI）的暗示提出质疑。他引用了一项名为 Meta-Agent Challenge（MAC）的基准测试，该测试要求 AI 代理在没有人类设计帮助的情况下，自主构建另一个能完成隐藏测试任务的代理。结果显示，当前 AI 代理在数学、科学问答、竞赛编程、软件修复等五个领域，通常无法超越人类设计的强代理方案，仅有少数闭源前沿模型（如 Claude）表现尚可。Marcus 指出，真正的自主不仅需要工具使用，还需预算意识、失败恢复、压力下的克制以及设计迭代的纪律，而当前代理只是强大的执行者，缺乏工程所需的可靠判断力。

AI模型 RSI Meta-Agent Challenge Anthropic AI 代理自主开发

推荐理由：Gary Marcus 用 Meta-Agent 挑战戳破了 Anthropic 的 RSI 叙事，关心 AI 自主性和工程可靠性的开发者值得一读，看完会对当前代理的局限性有清醒认识。

原文

6月6日

00:15

Decoder@Matthias Bastian

微软 CEO Satya Nadella 严厉批评了一份内部备忘录，该备忘录提议让用户对微软新 AI 代理 Scout 产生“成瘾”依赖。Nadella 在给约 50 名顶级工程师的邮件中写道：“不知道是谁在写并泄露这些废话。”他强调 AI 应赋能用户，Scout 应减少屏幕使用时间。这一事件凸显了科技巨头在 AI 产品设计伦理上的内部冲突。

行业微软 AI 代理产品伦理 Scout 成瘾设计

推荐理由：Nadella 的公开表态给 AI 产品设计划了红线——做 AI 产品的团队值得看看，避免掉入“成瘾设计”的坑。

原文

6月5日

02:05

rohanpaul_ai@rohanpaul_ai

Google DeepMind 发表论文，提出一个智能委派框架，将 AI 任务分配视为一系列动态选择，而非简单指令。框架引入智能合约、可验证数字证书和形式化信任模型，避免过度委派或委派不足。它支持 AI 代理间相互委派，并确保责任可追溯。该框架通过自适应机制处理任务失败，并设置验证规则确保输出可靠。这为企业安全使用 AI 提供了结构化方法。

论文委派框架智能合约信任模型 AI 代理 DeepMind

推荐理由：做 AI 工作流设计或企业级 AI 部署的团队，这篇论文给出了从委派决策到结果验证的完整框架，值得研究参考。

原文

6月4日

15:19

Geek@geekbb

精选

微软官方推出了 Windows Terminal 的实验分支，这是一款智能终端，原生集成了 ACP 兼容的 AI 代理，默认使用 GitHub Copilot CLI。用户只需按 Ctrl+Shift+. 即可呼出侧边代理面板，AI 能自动读取当前 Shell 的输出并给出建议，无需手动复制粘贴。这极大提升了终端操作的效率，尤其适合开发者日常使用。该功能目前处于实验阶段，值得关注。

AI产品微软 Windows Terminal GitHub Copilot CLI AI 代理智能终端

推荐理由：微软把 AI 代理直接塞进终端，省去手动复制粘贴的麻烦，做开发的团队可以试试这个实验分支，提升日常命令行效率。

原文

00:17

a16z@a16z

a16z 宣布领投 Lassie 的 Series A 轮融资，总额 4700 万美元。Lassie 致力于构建能自主运营小企业的 AI，首先从牙科诊所切入。创始人曾亲自在牙科诊所工作数月，手工处理支付流程以深入理解业务。Lassie 不是辅助工具，而是能独立完成保险理赔、支付对账、排班和现金流管理等后台工作的 AI。目前已有 700 多家诊所使用，每月为每家节省 30 小时人力。

AI产品 AI 代理小企业牙科诊所 a16z Lassie

推荐理由：a16z 押注的 AI 不再只是辅助，而是直接替代后台工作——做小企业 SaaS 或关注 AI 落地的投资人、创业者值得关注 Lassie 的实践路径。

原文

6月1日

21:51

rohanpaul_ai@rohanpaul_ai

LobeHub 发布了一个名为 Chief Agent Operator 的平台，用户只需描述需求，平台即可从 27.3 万种技能中自动找到并部署合适的 AI 代理，通过 Slack、Discord 等即时通讯工具汇报结果。该平台解决了当前多代理工作流中需要手动切换、重复上下文、分配任务和检查进度的问题。它作为操作层，调度不同代理在云端 24/7 运行，节省 50% 以上成本，无需自托管。用户只需分配一次任务，代理即可持续运行、更新进度并响应反馈。

AI产品 AI 代理自动化工作流 LobeHub 云端调度即时通讯集成

推荐理由：LobeHub 把 AI 代理从工具升级成了 24/7 的远程员工，做自动化流程的团队终于可以告别手动调度——直接说需求，它自己找人干活，值得试试。

原文

5月31日

04:11

AI Notkilleveryone@ai_zona

AI Zona 在 Telegram 上推出了新频道 @AIZonaNews，专注于提供 AI 代理、初创公司和市场动态的精选信息。该频道承诺内容经过多个来源交叉验证，无噪音，每天更新三次，永久免费。订阅者将获得 AI 代理生态系统信号、融资与并购提醒、开源模型发布以及加密宏观动态。

行业 AI 代理初创公司市场动态 Telegram 频道开源模型

推荐理由：对于关注 AI 行业动态的从业者和投资者，这个频道提供了经过验证的精选信息，省去筛选噪音的时间，值得订阅。

原文

5月29日

08:24

Figma@figma

Figma 在 X 上宣布推出 Agentation 工具，旨在超越传统提示词设计，提升设计效率。该工具由 @benjitaylor、@seldom 和 @alexvanderzon 共同开发，灵感来自多个团队和工具。Figma 已开放 beta 版注册，用户可通过链接申请。Agentation 可能代表 Figma 在 AI 辅助设计领域的新方向，强调从提示词到智能代理的转变。

AI产品 Figma Agentation 设计工具 AI 代理 beta 测试

推荐理由：Figma 的 Agentation 工具让设计师摆脱繁琐的提示词调优，直接通过智能代理完成设计任务，UI/UX 设计师和产品团队值得申请 beta 体验。

原文

05:36

rohanpaul_ai@rohanpaul_ai

WallStreetPrep 进行了一项针对真实金融场景的 AI 基准测试，任务要求 AI 构建苹果公司历史和预测财务报表，包括引用来源、链接假设、添加附表并确保工作簿可审计。Primer 作为 AI 金融建模工具胜出，其优势在于将 Excel 视为最终输出格式而非工作语言，先构建强健的三表模型再转换为可审计的电子表格。Primer 将工作簿表示为结构化记录（如收入、成本、现金、债务、假设、公式、来源链接、注释和依赖检查），使 AI 能直接查询和验证财务逻辑，例如“显示所有影响现金流的公式”或“查找资产负债表平衡项”，而非逐格编辑脆弱的单元格引用。这反映了专业 AI 代理的评判标准正从聊天质量转向产出物能否通过审计。

AI产品金融 AI Primer Excel 建模可审计性 AI 代理

推荐理由：金融从业者终于有了可审计的 AI 建模方案——Primer 解决了 Excel 模型难以验证的痛点，做财务分析或审计的团队值得关注这个方向。

原文

5月28日

10:20

Decoder@Matthias Bastian

72°

Robinhood 推出新功能，允许客户通过 MCP 协议将 Anthropic 的 Claude 等 AI 代理连接到独立投资账户，使其能够自主进行股票交易和信用卡支付。美国券商监管机构 FINRA 已将此类 AI 代理列为新的风险领域，警告其可能做出未经检查的决策。Robinhood 也承认该产品并非适合所有用户。这一举措标志着 AI 在金融领域的应用迈出了重要一步，但也引发了关于安全性和监管的讨论。

AI产品 AI 代理 MCP/工具金融科技 Robinhood Claude

推荐理由：Robinhood 让 AI 代理直接操作投资账户，做量化交易或自动化投资的用户值得关注——这可能是金融 AI 落地的关键一步，但风险也不小，建议点开了解监管和实操细节。

原文

5月26日

22:44

Philipp Schmid@_philschmid

Google 发布了 Gemini Managed Agents 开发指南，允许开发者通过一次 API 调用即可获得 Gemini 3.5 Flash 模型、反重力工具集和远程 Linux 沙箱环境，无需自行管理基础设施或编排流程。该指南涵盖了快速启动（代码/文件/浏览）、持久多轮对话与流式输出、自定义代理（通过 AGENTS.md 和挂载配置）以及运维功能（快照、白名单、出口凭证）。这大幅降低了构建和部署 AI 代理的门槛，尤其适合需要快速原型验证或生产级代理的团队。

AI产品 Gemini Managed Agents AI 代理沙箱开发指南

推荐理由：做 AI 代理开发的团队终于可以省去基础设施和编排的麻烦——一次 API 调用就能拿到模型+沙箱+工具，建议直接看指南里的快速启动部分。

原文

00:15

Geek@geekbb

精选

Clauge 是一款基于 Tauri（Rust + Svelte）构建的桌面应用，它将编程 AI 代理、API 客户端、SQL/NoSQL 编辑器、SSH 终端、远程文件浏览器和项目管理看板整合在一个界面中。开发者无需在多个应用之间切换，即可完成开发、调试、数据库管理和项目管理等任务。该项目已在 GitHub 开源，适合追求高效工作流的开发者。

AI产品桌面应用 AI 代理 API 客户端数据库编辑器开源/仓库

推荐理由：Clauge 解决了开发者频繁切换工具的痛点，将 AI 编程、API 调试、数据库操作和远程管理整合在一起，做全栈开发的团队可以直接试用，能大幅减少上下文切换成本。

原文

5月25日

18:40

阿里云 Alibaba Cloud@alibaba_cloud

在 Qwen 2026 大会上，AMD 大中华区销售副总裁 Junjie Zhou 在代理应用论坛发表演讲，主题为“推进 AI，引领未来”。他探讨了 AI 原生时代的趋势与机遇，强调 AMD 与阿里云在 AI 领域的合作。该演讲旨在展示如何利用 AI 代理技术推动企业创新。大会聚焦 AI 代理的实际应用，为开发者与企业提供前沿洞察。

行业 AI 代理 AMD Qwen 阿里云行业合作

推荐理由：AMD 高管亲自站台 Qwen 大会，说明 AI 代理在硬件-软件协同中的重要性，做 AI 应用或云服务的团队值得关注这一合作方向。

原文

12:49

12:49Simon Willison’s Weblog（博客/媒体）

精选

datasette-agent 0.1a4 版本发布，利用 Datasette 1.0a30 新增的 makeJumpSections() JavaScript 插件钩子，将“启动新代理聊天”界面集成到 Jump 菜单中。用户只需在任意页面按 / 键即可调出该菜单，快速启动 AI 代理对话。该功能通过 agent.datasette.io 提供试用，需使用 GitHub 账号登录。这一更新让 AI 代理功能更易触达，提升了 Datasette 平台的交互体验。

AI产品 datasette datasette-agent AI 代理插件钩子 Jump 菜单

推荐理由：Datasette 用户现在可以直接从 Jump 菜单启动 AI 代理聊天，省去额外操作步骤。做数据探索和自动化查询的团队值得试试这个新交互方式。

原文

5月22日

08:06

Simon Willison@simonw

精选

Simon Willison 发布了 Datasette Agent，这是一个基于 AI 的代理工具，允许用户通过自然语言查询 SQLite 数据库。该工具结合了 Datasette 的数据浏览能力和大语言模型的推理能力，用户只需用中文或英文描述需求，即可自动生成 SQL 查询并返回结果。Datasette Agent 旨在降低数据分析门槛，让非技术人员也能轻松探索数据库。项目已在 GitHub 开源，并提供了详细的博客文章和演示。

AI产品 Datasette Agent AI 代理 SQLite 自然语言查询开源/仓库

推荐理由：数据分析师和开发者终于可以用自然语言直接查询 SQLite 数据库了，Datasette Agent 让数据探索变得像聊天一样简单，值得所有 Datasette 用户和数据分析爱好者试试。

原文

5月21日

22:40

Jerry Liu@jerryjliu0

LlamaIndex 创始人 Jerry Liu 宣布，公司所有研究、工程和产品岗位的员工统一改为技术员工（Member of Technical Staff）。这一变化反映了 AI 和编程代理崛起后，工程、研究和产品角色正在融合的趋势。在 AI 时代，编程和项目管理被商品化，每个工程师需要端到端负责成果，并跨栈掌握更多知识。LlamaIndex 致力于为 AI 代理提供高质量文档处理平台，涉及核心模型和代理框架的研究。公司强调透明、扁平的组织结构，以及极度的自主权和协作文化。

行业组织变革 AI 代理角色融合 LlamaIndex 技术员工

推荐理由：LlamaIndex 的组织变革揭示了 AI 时代技术角色的新定义——做 AI 产品/平台的团队可以借鉴这种跨职能融合思路，看完会重新思考团队分工。

原文

08:00

Thomas Wolf@Thom_Wolf

精选

Terminal-Bench 是一个评估 AI 模型在计算机上使用工具（如命令行）达成目标能力的基准。现在它扩展到了科学领域，推出 T-Bench Science，专门评估 AI 在真实科研工作流中的表现。该基准面向生命科学、物理、地球科学、数学等领域的科学家，并开放任务贡献至 2026 年 8 月。贡献的科研工作流越多样，越能推动下一代 AI 模型更好地辅助日常研究工作。这不是训练数据集，而是用于评估前沿模型性能的基准。Anthropic、OpenAI 和 Google DeepMind 已使用 Terminal-Bench 评估 AI 编程能力，现在科学领域也加入其中。

AI产品基准测试 AI for Science Terminal-Bench 科研工作流 AI 代理

推荐理由：做科研的 AI 用户终于有了专门评估 AI 辅助科研能力的基准——T-Bench Science 直接面向真实工作流，科学家可以贡献自己的流程来推动模型进步，值得关注和参与。

原文

07:59

Logan Kilpatrick@OfficialLoganK

72°

Google 在 #GoogleIO 上发布了 Gemini Spark，一款 24/7 全天候个人 AI 代理。它运行在 Google Cloud 的专属虚拟机上，无需用户保持设备在线即可在后台执行长时间任务。Spark 基于 Gemini 3.5 和 Antigravity 构建，能无缝集成 Google 工具，并计划通过 MCP 支持第三方服务。全新 UI 在移动端和网页端同步更新，体验流畅。

AI产品 Gemini Spark AI 代理 Google Cloud MCP/工具 Gemini 3.5

推荐理由：Google 终于推出了真正意义上的 24/7 个人 AI 代理，做自动化工作流或重度 Google 用户可以直接用起来，后台跑任务不用再守着电脑。

原文

00:44

Philipp Schmid@_philschmid

76°

Google AI Studio 为 Gemini 推出了一个独立的 Linux 沙盒环境，允许模型在一个 API 调用中完成推理、运行代码、浏览网页和管理文件。用户可以通过 Markdown 定义自定义行为、添加技能、挂载仓库和提供凭证。目前处于早期预览阶段，沙盒计算资源免费。这一功能大幅简化了 AI 代理的构建流程，开发者无需再手动编排多个工具。

AI产品 Gemini 沙盒 API AI 代理 Google AI Studio

推荐理由：做 AI 代理和自动化流程的开发者终于可以一个 API 搞定推理+执行+文件管理，省去繁琐的工具链编排，建议直接去 AI Studio 体验免费沙盒。

原文

5月19日

12:19

AI Breakfast@AiBreakfast

用户试用 AI 工具 Accio Work，发现它能自动搜索供应商、提供定价和最小起订量、生成谈判脚本，甚至给出将产品转化为实体店的路径。该工具被形容为“在浏览器里有个采购团队”，能节省 10 小时而非 10 次点击。这展示了 AI 代理在供应链和电商领域的实际应用潜力。

AI产品 AI 代理供应链电商供应商搜索 Accio Work

推荐理由：做跨境电商或产品开发的团队，Accio Work 能帮你把供应商调研和谈判准备从半天压缩到几分钟，值得一试。

原文

5月17日

00:11

AI Will@FinanceYF5

OpenAI 发布了名为 Daybreak 的 AI 代理工具，专门用于网络安全领域。该工具能够自动发现漏洞、验证修复方案并清理安全积压问题。Daybreak 旨在将网络安全团队的工作效率提升 10 倍，通过自动化重复性任务来加速安全响应流程。这一发布标志着 AI 在网络安全自动化方面的重要进展，尤其适用于需要快速处理大量安全问题的团队。

AI产品 AI 代理网络安全漏洞检测自动化修复 OpenAI

推荐理由：Daybreak 解决了安全团队手动处理漏洞和修复验证的痛点，做安全运营的团队可以直接用上，效率提升立竿见影，值得关注。

原文

5月13日

19:12

arXiv cs.AI@Eilam Shapira, Moshe Tennenholtz, Roi Reichart

精选

该研究探讨了 AI 代理如何在有限交互中预测陌生对手的下一步决策，例如买家代理面对未知卖家或采购助理与供应商谈判。研究通过受控谈判游戏将问题建模为目标自适应文本表格预测，每个决策点结合结构化游戏状态、报价历史和对话。模型基于表格基础模型，并引入 LLM-as-Observer 作为额外表示层：冻结的小型 LLM 读取决策时刻状态和对话，其隐藏状态作为决策导向特征，而非直接预测。在 13 个前沿 LLM 代理上训练并测试 91 个保留代理，该模型在响应预测 AUC 上提升约 4 点，报价预测误差降低 14%，证明隐藏的 LLM 表示能暴露直接提示无法获取的决策信号。

论文 AI 代理对手建模谈判游戏文本表格预测 LLM-as-Observer

推荐理由：做多代理系统或谈判 AI 的开发者，这篇论文提供了一个实用的对手建模框架——用有限交互预测对方决策，比直接提示更准。建议点开看看他们的 LLM-as-Observer 方法，可能帮你省掉大量试错成本。

原文