全部 AI 动态 · AI 热点

AITOP

6月13日

15:25

AI Will@FinanceYF5

Meta 旗下 AI 应用近两个月用户规模增长1.5倍，有望成为全球第三大 AI 消费类应用，仅次于 Gemini 与 ChatGPT。但该增长被指为非自然流量驱动，其30天用户留存率仅为4.5%，大幅落后于同行。

行业 Meta AI应用用户留存 Gemini ChatGPT

推荐理由：Meta AI 用户涨得快但留不住

原文

15:24

Geek@geekbb

鲁班是一个专注于Agent Skill打磨的工具，它不直接润色文案，而是先评估Skill的价值。它通过联网查找同行对标，使用结构、实测、活体三把尺进行打分。根据评分，鲁班提供三个打磨方向供用户选择，然后才进行修改。每次改动都基于冻结基线并通过验证门，不通过则回退。该工具已开源在GitHub上。

技巧鲁班 Agent Skill 打磨工坊开源工具 GitHub

推荐理由：帮你判断Skill值不值得打磨

原文

15:24

Yangyi@Yangyixxxx

Anthropic于6月15日下架了Fable应用，疑似与API额度调整有关。该调整可能限制用户调用次数，影响使用体验。目前官方未明确说明下架原因，但社区猜测与防止过度调用有关。

行业 Anthropic Fable API额度下架

推荐理由：Anthropic突然下架Fable，原因成谜

原文

15:22

AI Will@FinanceYF5

研究人员通过模拟实验探索构建诚实AI模型，即使说谎能带来利益也保持真实。实验使用kradle.ai平台进行测试，涉及多个场景评估AI的诚实性。该研究旨在解决AI在利益驱动下可能产生欺骗行为的问题，为AI安全提供新方向。

论文 AI安全诚实AI 模拟实验 kradle.ai

推荐理由：看看AI如何抵抗说谎诱惑

原文

14:51

Gary Marcus@GaryMarcus

纽约州总检察长向 OpenAI 发出广泛传票，要求提供与广告、用户参与度、数据隐私、未成年人及老年人保护、深度学习模型、模型谄媚行为及公司政策相关的文件。该传票涵盖从用户数据到模型行为的多个方面，显示监管机构对 AI 公司运营的深入审查。OpenAI 需回应这些要求，可能影响其未来业务实践。

行业 OpenAI 纽约总检察长传票 AI安全监管

推荐理由：监管出手，OpenAI 被查

原文

13:51

Gary Marcus@GaryMarcus

纽约总检察长向OpenAI发出广泛传票，要求提供与广告、用户参与和留存、消费者数据和健康数据处理、未成年人和老年人相关活动、深度学习模型、模型谄媚及公司政策等文件。该传票由WSJ独家报道，涉及OpenAI对用户影响的多个方面。

行业 OpenAI 纽约总检察长传票 AI监管

推荐理由：纽约总检察长盯上OpenAI了

原文

13:31

Google AI@GoogleAI

Google 推出 Gemini 3.5 Live Translate，一款用于实时语音到语音翻译的音频模型。NotebookLM 获得重大升级，新增智能体聊天、高级推理和多种输出格式。Project Genie 向 Google AI Ultra 5x 订阅用户开放。Notebooks 在 Gemini App 中扩展至欧洲经济区、英国和瑞士。DiffusionGemma 作为实验性开源模型发布，探索文本扩散的快速生成方法。

AI产品 Gemini 3.5 Live Translate NotebookLM Project Genie DiffusionGemma Google

推荐理由：Google 连发五款新品，语音翻译和智能体最亮眼

原文

13:30

Jerry Liu@jerryjliu0

Jerry Liu 在推文中提出 Loopcraft 概念，将组织构建类比为递归循环：个体是递归循环，团队在个体上循环实现团队级 OKR，公司在团队上循环实现公司级 OKR。他设想构建整合人类与智能体的组织，其中外层智能体循环管理子智能体和其他人类，进行任务分派与审查。swyx 补充认为，未来竞争在于有效堆叠循环的能力：早期需知道在出错时向下深入循环以提升可靠性，而随着模型进步，向上提升循环以获得杠杆将更为关键。

技巧智能体组织设计 Loopcraft 递归循环 AI协作

推荐理由：用递归循环重新理解组织与AI协作

原文

13:29

Replit@Replit

Replit 发布新视频，展示其并行 Agent 功能。用户现在可以在一个项目中同时运行多个 Agent，构建网站、移动应用、视频和演示文稿。该功能还允许向现有项目添加多个工件。

AI产品 Replit Agent 并行开发编程助手

推荐理由：Replit 让你同时做多个项目

原文

13:29

@OpenAIDevs@OpenAIDevs

OpenAI 在开发者网站 developers.openai.com 上线了一个新的文档智能体。该智能体能够回答关于 OpenAI 产品的问题，并直接将用户引导至相关的文档页面。该功能旨在帮助开发者更高效地查找信息，减少搜索时间。

AI产品 OpenAI 文档智能体开发者工具

推荐理由：找文档不用再翻来翻去

原文

13:28

Together AI@togethercompute

精选

Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术，以及大规模推理的架构。他介绍了Megakernels，通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae，解释了循环Transformer的扩展问题及其修复方法，并提出了新的缩放定律，暗示现有方法可能未充分利用智能潜力。

论文 KV缓存 Megakernels Parcae 缩放定律推理优化

推荐理由：Dan Fu讲KV缓存和Parcae新缩放定律

原文

13:28

Milvus@milvusio

Milvus 和 Zilliz 生态系统推出 Zilliz Birdpedia，用鸟类比喻解释其组件：Milvus 是向量搜索引擎，可扫描千亿级高维向量；Cardinal 是 Zilliz Cloud 的高级向量搜索引擎，在 ANN 搜索、top-K、范围搜索和过滤密集型工作负载上表现优异；Woodpecker 是 Milvus 的云原生 WAL，无需 Kafka 或 Pulsar 即可实现连续写入和故障恢复；Loon 是 Milvus 3.0 和 Zilliz Vector Lakebase 的新存储引擎，支持数据湖中向量数据的版本化读取；Birdwatcher 是监控 Milvus 内部状态的工具。

AI产品 Milvus Zilliz Cardinal Woodpecker 向量搜索

推荐理由：用鸟比喻讲清 Milvus 各组件

原文

13:26

berryxia@berryxia

Aether AI创始人黄碧薇教授指出，当前视频生成模型仅学习“手靠近杯子时杯子会动”的相关性，而非因果机制。其团队benchmark显示，因果结构可使机器人任务成功率提升25-50%，样本需求降低5-10倍。在物理世界如机器人、自动驾驶中，相关性模型易产生危险幻觉，因果世界模型旨在让AI理解机制而非表象。

行业 Aether AI 因果模型机器人视频生成

推荐理由：黄碧薇讲透了AI在物理世界的短板

原文

13:24

Augment Code@augmentcode

83°

美国以国家安全为由发布出口管制指令，要求暂停所有外国国民（包括外国籍 Anthropic 员工）对 Fable 5 和 Mythos 5 的访问。Anthropic 已从模型选择器中移除 Fable 5，现有会话自动回退至 Opus 4.8（按 Opus 4.8 定价）。其他 Claude 模型不受影响。Anthropic 认为这是误解，正在争取恢复访问。

行业 Claude Fable 5 Mythos 5 Anthropic AI安全

推荐理由：美国禁令导致两款模型下线

原文

13:23

Gary Marcus@GaryMarcus

Gary Marcus指出，Anthropic的IPO可能受阻，OpenAI的IPO也因出口管制风险而前景不明。Nvidia同样面临潜在威胁，而SpaceX的最大客户之一近期遭受重创。这些评论反映了AI行业面临的监管不确定性。

行业 Anthropic OpenAI Nvidia SpaceX 出口管制

推荐理由：看看出口管制如何影响AI公司

原文

13:21

Geek@geekbb

精选

Ponytail 是一个针对 AI 编码代理的规则集/插件，通过六层检查（YAGNI、标准库、平台原生、已安装依赖、一行解决、最小可行方案）约束 LLM 生成膨胀代码。测试显示，相比无规则代理，代码量减少 80-94%，成本降低 47-77%，速度提升 3-6 倍。支持 Claude Code、Codex、Cursor、Windsurf、Cline、Copilot、Aider、Kiro、Pi 和 OpenCode 共 10 种代理/平台。

技巧 Ponytail Claude Code Cursor Copilot 编程助手

推荐理由：让 AI 写代码更精简，省成本提速度

原文

13:20

Greg Brockman@gdb

OpenAI 在开发者网站 developers.openai.com 上线了一个新的文档代理，帮助用户快速找到关于 OpenAI 产品的答案并直接跳转到相关文档。该代理通过自然语言交互，使网站导航更直观。目前该功能已可用，支持视频演示。

AI产品 OpenAI 文档代理开发者工具智能导航

推荐理由：找 OpenAI 文档更快了

原文

13:20

Cognition@cognition_labs

Cognition 宣布 AI Productivity Guarantee，承诺如果 Devin 在 30 天内未能提升工程效率，客户可获最高 1000 万美元退款。该保证基于 Devin 在 SWE-bench 上的表现和内部基准测试，覆盖代码生成、调试和部署等任务。Ryan Bai 详细解释了计算方法和验证流程，旨在降低企业采用风险。

行业 Devin Cognition AI生产力编程助手 SWE-bench

推荐理由：Devin 敢赌 1000 万保效率

原文

13:19

LangChain@LangChainAI

LangSmith Fleet 提供四种创建技能的方式：通过 AI 聊天描述需求自动生成、在创建 agent 时自动生成相关技能、从模板开始、以及手动编写。用户可通过 LangChain 博客获取详细指南。

技巧 LangSmith Fleet LangChain 智能体技能创建

推荐理由：四种方法，快速上手

原文

13:19

LangChain@LangChainAI

Box Agent 基于 Deep Agents 构建，提供跨库搜索、多文档合成和结构化报告功能。该智能体在 Box 现有的安全与权限模型内运行，无需额外配置。目前该推文获得 1006 次浏览和 10 个点赞。

AI产品 Box Agent Deep Agents 智能体多文档合成

推荐理由：Box 出了个能跨库搜文档的智能体

原文

13:18

Y Combinator@ycombinator

论文自博弈 AI生物学形式验证 Stream RAG Lean

推荐理由：YC 研究者分享自博弈和AI生物学新进展

原文

13:17

Amazon Science@AmazonScience

精选

Amazon 研究人员推出 Simple Strands Agent (SSA)，这是一个轻量级开源框架。SSA 在 SWE-Bench-Verified、SWE-Bench-Pro 和 Terminal-Bench2 三个基准上均达到当前最优 (SOTA)。该框架通过缩小模型意图与执行之间的差距来提升性能。SSA 的设计强调简洁与可复现性。

AI模型 Simple Strands Agent Amazon SWE-Bench 开源模型编程助手

推荐理由：轻量开源，三个基准登顶

原文

13:17

Epoch AI@EpochAIResearch

精选73°

Anthropic 的 Claude Fable 5 在 FrontierMath 基准测试 v2 版本中取得高分，Tier 1-3 达到 87%，Tier 4 达到 88%。这延续了 Anthropic 模型在数学能力上快速提升的趋势。

AI模型 Claude Fable 5 Anthropic FrontierMath 推理模型

推荐理由：Anthropic 新模型数学超强

原文

13:16

MiniMax_AI@MiniMax_AI

MiniMax 在 X 上感谢 SambaNovaAI 的合作，并表达了对 M3 模型在 SambaNova 的 RDU（可重构数据流单元）上运行的期待。M3 是 MiniMax 开发的多模态模型，SambaNovaAI 提供专用硬件加速。这一合作旨在提升 M3 的推理效率。

行业 MiniMax SambaNovaAI M3 RDU 多模态

推荐理由：MiniMax 的 M3 要上 SambaNova 的 RDU 了

原文

13:16

LangChain@LangChainAI

LangChain 的 Managed Deep Agents 现已集成 LangSmith Sandboxes，允许智能体安全执行代码。该功能通过沙箱环境隔离代码运行，防止对系统造成损害。开发者可以在 LangSmith 平台上直接测试和调试代理行为。

AI产品 Managed Deep Agents LangSmith LangChain 智能体代码执行

推荐理由：LangChain 让智能体安全跑代码

原文

13:13

LlamaIndex@llama_index

LlamaIndex 联合创始人兼 CEO Jerry Liu 将在 6 月 15-18 日于旧金山举行的 Databricks Data+AI Summit 上发表两场演讲：一场关于使用长周期 AI 智能体自动化文档处理，另一场参与智能体栈创始人圆桌讨论（与 LangChain、CrewAI、Agno 及 Databricks）。团队还将在 #137 展位演示 LlamaParse 文档解析工具。

AI产品 LlamaIndex LlamaParse Databricks Data+AI Summit 文档解析

推荐理由：LlamaIndex 展示文档解析新方案

原文

13:13

Together AI@togethercompute

精选

Together AI的Rish Bhargava在推文中指出，部署语音智能体时延迟超过500ms用户会注意到，超过1秒用户会挂断。他详细分析了整个管道，包括75ms网络延迟为何增加30%开销，以及通过共置所有组件可将延迟降至5ms。推文附有链接，可能提供更深入的技术细节。

技巧语音智能体延迟优化 Together AI 网络延迟共置部署

推荐理由：语音智能体延迟优化实战

原文

13:12

MiniMax_AI@MiniMax_AI

MiniMax 宣布其 M3 模型端点获得 NVIDIA 官方认可，并已上线免费 GPU 加速版本。用户现在可以免费体验基于 NVIDIA GPU 加速的 M3 模型推理服务。该端点支持高性能计算，适用于多种 AI 任务。

AI产品 MiniMax M3 NVIDIA GPU加速

推荐理由：MiniMax 的 M3 模型免费加速了

原文

13:12

@OpenAIDevs@OpenAIDevs

OpenAI在Codex中新增自定义指南功能，用户描述正在构建的项目后，智能体会自动生成包含定制提示和相关资源的指南。该指南可直接在Codex中打开，或复制为Markdown格式供其他编程助手使用。该功能旨在简化开发者的工作流程，提供更精准的上下文支持。

AI产品 OpenAI Codex 编程助手提示词工程

推荐理由：描述项目就能生成定制提示

原文

13:11

LMSYS Org (SGLang)@lmsysorg

精选73°

SGLang在NVIDIA GB300 NVL72平台上，针对DeepSeek V4 Pro 1.6T模型（FP4精度，8K/1K上下文）实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo（SGLang）和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试，该性能在整个交互性曲线上保持稳定。

AI模型 SGLang GB300 NVL72 DeepSeek V4 Pro NVIDIA Dynamo 推理模型

推荐理由：SGLang在GB300上跑DeepSeek V4 Pro，每GPU超1.2万token

原文

13:11

Replit@Replit

Replit 在直播中宣布为其 Agent 添加 Skills 和 Custom Instructions 两项新功能。Skills 允许用户为 Agent 预置特定编程技能，如 Python 或 React 开发。Custom Instructions 让用户自定义 Agent 的行为和输出格式。这两项功能旨在提升 Agent 在代码生成和项目开发中的精准度与可控性。

AI产品 Replit Agent 编程助手自定义指令

推荐理由：Replit 让 Agent 更听话了

原文

13:10

GitHub@github

GitHub宣布Copilot代码审查功能新增自定义Agent技能和MCP服务器连接支持，现已进入公开预览阶段。该功能适用于Copilot Pro、Pro+、Business和Enterprise用户。开发者可将组织上下文和标准直接整合到代码差异审查中，提升审查效率与一致性。

AI产品 GitHub Copilot MCP/工具代码审查智能体

推荐理由：GitHub给Copilot加了自定义审查规则

原文

13:10

rohanpaul_ai@rohanpaul_ai

精选

AGENTCL 提出一个评估语言智能体持续学习能力的新基准，通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流（后续任务可复用前序任务的代码函数、研究证据或工作流）与“朴素”任务流（任务同领域但无明确复用关系）。研究发现，当前记忆方法在任务连接明显时能复用过往经验，但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。

论文 AGENTCL 智能体持续学习记忆基准

推荐理由：看智能体记忆到底行不行

原文

13:09

PolymarketMoney@PolymarketMoney

SPCX在尝试将Colossus 1用于Grok训练后遇到困难，据报道已将其租赁给Anthropic。Colossus 1是一个大型计算集群，此前被用于Grok项目。Anthropic将利用该集群进行AI模型训练。

行业 SPCX Anthropic Colossus 1 Grok 算力租赁

推荐理由：Anthropic租下SPCX的算力

原文

13:09

elvis@omarsar0

精选

Omar Sanseviero分享运行自主长时编码智能体的经验，建议用Opus 4.8做规划、GPT-5.5执行，并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强，能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen Kimi MiniMax 智能体

推荐理由：Opus 4.8+GPT-5.5分工跑长任务

原文

13:08

Epoch AI@EpochAIResearch

精选72°

Epoch AI 发布 FrontierMath 基准测试 v2 版本，修复了 42% 的问题错误。新版本中，GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率，Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高，排名基本不变。

AI模型 FrontierMath GPT-5.5 Google Epoch AI 推理模型

推荐理由：数学基准更新，GPT-5.5和Google AI成绩亮眼

原文

13:08

rohanpaul_ai@rohanpaul_ai

精选73°

据 The Information 报道，Anthropic 正从租用云算力转向自建数据中心，计划在美国部署超 1GW 容量，Google 可能为其租赁付款提供担保。此前 Anthropic 已通过云服务商承诺超 10GW 服务器租赁，包括与 Google 的 2000 亿美元协议。该公司还锁定了与 Akamai、AWS、CoreWeave 和 Fluidstack 的大额云交易，涵盖 Amazon Trainium 硬件和 500 亿美元 Fluidstack 合作。此外，Anthropic 已签署 SpaceX/xAI 的 Colossus 1 数据中心整租协议，月费 12.5 亿美元，并预留 Colossus II 空间。

行业 Anthropic Google 数据中心算力云服务

推荐理由：Anthropic 自建数据中心，算力策略大转向

原文

13:07

Alex Albert@alexalbert__

Fable在长时间智能体对话中表现出超人类能力，有时用户甚至跟不上其输出。一个提示词片段被证明是让Fable写作更清晰、去除行话的最佳方法。该提示词片段在X上获得310个赞和94次分享。

技巧 Fable 提示词工程智能体写作

推荐理由：Fable对话太强，用这个提示词让它更清晰

原文

13:07

Browser Use@browser_use

Browser Use 推出 0.13.0 测试版，专为 SOTA 模型设计，支持长时间运行任务。新版本包含自定义 LLM 和浏览器 harness，基于 Rust 构建。新增 Browser Use Terminal 功能，一条命令即可启动。旧版基于 GPT-4，新版面向更先进的模型。

AI产品 Browser Use GPT-4 SOTA模型 Rust 浏览器自动化

推荐理由：让 AI 替你跑长任务，一条命令搞定

原文

13:06

rohanpaul_ai@rohanpaul_ai

SpaceX在SEC文件中指出，AI预计将占据其28.5万亿美元总可寻址市场（TAM）的绝大部分。该文件未提供具体AI细分市场数字，但强调了AI对SpaceX未来业务的核心作用。这一声明反映了AI技术在航天及通信领域的潜在商业价值。

行业 SpaceX SEC AI市场 28.5万亿美元

推荐理由：SpaceX押注AI市场

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。