15:25AI Will@FinanceYF5Meta 旗下 AI 应用近两个月用户规模增长1.5倍,有望成为全球第三大 AI 消费类应用,仅次于 Gemini 与 ChatGPT。但该增长被指为非自然流量驱动,其30天用户留存率仅为4.5%,大幅落后于同行。行业MetaAI应用用户留存GeminiChatGPT推荐理由:Meta AI 用户涨得快但留不住原文
15:24Geek@geekbb鲁班是一个专注于Agent Skill打磨的工具,它不直接润色文案,而是先评估Skill的价值。它通过联网查找同行对标,使用结构、实测、活体三把尺进行打分。根据评分,鲁班提供三个打磨方向供用户选择,然后才进行修改。每次改动都基于冻结基线并通过验证门,不通过则回退。该工具已开源在GitHub上。技巧鲁班Agent Skill打磨工坊开源工具GitHub推荐理由:帮你判断Skill值不值得打磨原文
15:24Yangyi@YangyixxxxAnthropic于6月15日下架了Fable应用,疑似与API额度调整有关。该调整可能限制用户调用次数,影响使用体验。目前官方未明确说明下架原因,但社区猜测与防止过度调用有关。行业AnthropicFableAPI额度下架10 个信源在谈推荐理由:Anthropic突然下架Fable,原因成谜原文
15:22AI Will@FinanceYF5研究人员通过模拟实验探索构建诚实AI模型,即使说谎能带来利益也保持真实。实验使用kradle.ai平台进行测试,涉及多个场景评估AI的诚实性。该研究旨在解决AI在利益驱动下可能产生欺骗行为的问题,为AI安全提供新方向。论文AI安全诚实AI模拟实验kradle.ai推荐理由:看看AI如何抵抗说谎诱惑原文
14:51Gary Marcus@GaryMarcus纽约州总检察长向 OpenAI 发出广泛传票,要求提供与广告、用户参与度、数据隐私、未成年人及老年人保护、深度学习模型、模型谄媚行为及公司政策相关的文件。该传票涵盖从用户数据到模型行为的多个方面,显示监管机构对 AI 公司运营的深入审查。OpenAI 需回应这些要求,可能影响其未来业务实践。行业OpenAI纽约总检察长传票AI安全监管10 个信源在谈推荐理由:监管出手,OpenAI 被查原文
13:51Gary Marcus@GaryMarcus纽约总检察长向OpenAI发出广泛传票,要求提供与广告、用户参与和留存、消费者数据和健康数据处理、未成年人和老年人相关活动、深度学习模型、模型谄媚及公司政策等文件。该传票由WSJ独家报道,涉及OpenAI对用户影响的多个方面。行业OpenAI纽约总检察长传票AI监管10 个信源在谈推荐理由:纽约总检察长盯上OpenAI了原文
13:31Google AI@GoogleAIGoogle 推出 Gemini 3.5 Live Translate,一款用于实时语音到语音翻译的音频模型。NotebookLM 获得重大升级,新增智能体聊天、高级推理和多种输出格式。Project Genie 向 Google AI Ultra 5x 订阅用户开放。Notebooks 在 Gemini App 中扩展至欧洲经济区、英国和瑞士。DiffusionGemma 作为实验性开源模型发布,探索文本扩散的快速生成方法。AI产品Gemini 3.5 Live TranslateNotebookLMProject GenieDiffusionGemmaGoogle推荐理由:Google 连发五款新品,语音翻译和智能体最亮眼原文
13:30Jerry Liu@jerryjliu0Jerry Liu 在推文中提出 Loopcraft 概念,将组织构建类比为递归循环:个体是递归循环,团队在个体上循环实现团队级 OKR,公司在团队上循环实现公司级 OKR。他设想构建整合人类与智能体的组织,其中外层智能体循环管理子智能体和其他人类,进行任务分派与审查。swyx 补充认为,未来竞争在于有效堆叠循环的能力:早期需知道在出错时向下深入循环以提升可靠性,而随着模型进步,向上提升循环以获得杠杆将更为关键。技巧智能体组织设计Loopcraft递归循环AI协作1 个信源在谈推荐理由:用递归循环重新理解组织与AI协作原文
13:29Replit@ReplitReplit 发布新视频,展示其并行 Agent 功能。用户现在可以在一个项目中同时运行多个 Agent,构建网站、移动应用、视频和演示文稿。该功能还允许向现有项目添加多个工件。AI产品ReplitAgent并行开发编程助手推荐理由:Replit 让你同时做多个项目原文
13:29@OpenAIDevs@OpenAIDevsOpenAI 在开发者网站 developers.openai.com 上线了一个新的文档智能体。该智能体能够回答关于 OpenAI 产品的问题,并直接将用户引导至相关的文档页面。该功能旨在帮助开发者更高效地查找信息,减少搜索时间。AI产品OpenAI文档智能体开发者工具10 个信源在谈推荐理由:找文档不用再翻来翻去原文
13:28Together AI@togethercompute精选Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术,以及大规模推理的架构。他介绍了Megakernels,通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae,解释了循环Transformer的扩展问题及其修复方法,并提出了新的缩放定律,暗示现有方法可能未充分利用智能潜力。论文KV缓存MegakernelsParcae缩放定律推理优化推荐理由:Dan Fu讲KV缓存和Parcae新缩放定律原文
13:28Milvus@milvusioMilvus 和 Zilliz 生态系统推出 Zilliz Birdpedia,用鸟类比喻解释其组件:Milvus 是向量搜索引擎,可扫描千亿级高维向量;Cardinal 是 Zilliz Cloud 的高级向量搜索引擎,在 ANN 搜索、top-K、范围搜索和过滤密集型工作负载上表现优异;Woodpecker 是 Milvus 的云原生 WAL,无需 Kafka 或 Pulsar 即可实现连续写入和故障恢复;Loon 是 Milvus 3.0 和 Zilliz Vector Lakebase 的新存储引擎,支持数据湖中向量数据的版本化读取;Birdwatcher 是监控 Milvus 内部状态的工具。AI产品MilvusZillizCardinalWoodpecker向量搜索推荐理由:用鸟比喻讲清 Milvus 各组件原文
13:26berryxia@berryxiaAether AI创始人黄碧薇教授指出,当前视频生成模型仅学习“手靠近杯子时杯子会动”的相关性,而非因果机制。其团队benchmark显示,因果结构可使机器人任务成功率提升25-50%,样本需求降低5-10倍。在物理世界如机器人、自动驾驶中,相关性模型易产生危险幻觉,因果世界模型旨在让AI理解机制而非表象。行业Aether AI因果模型机器人视频生成推荐理由:黄碧薇讲透了AI在物理世界的短板原文
13:24Augment Code@augmentcode83°美国以国家安全为由发布出口管制指令,要求暂停所有外国国民(包括外国籍 Anthropic 员工)对 Fable 5 和 Mythos 5 的访问。Anthropic 已从模型选择器中移除 Fable 5,现有会话自动回退至 Opus 4.8(按 Opus 4.8 定价)。其他 Claude 模型不受影响。Anthropic 认为这是误解,正在争取恢复访问。行业ClaudeFable 5Mythos 5AnthropicAI安全10 个信源在谈推荐理由:美国禁令导致两款模型下线原文
13:23Gary Marcus@GaryMarcusGary Marcus指出,Anthropic的IPO可能受阻,OpenAI的IPO也因出口管制风险而前景不明。Nvidia同样面临潜在威胁,而SpaceX的最大客户之一近期遭受重创。这些评论反映了AI行业面临的监管不确定性。行业AnthropicOpenAINvidiaSpaceX出口管制10 个信源在谈推荐理由:看看出口管制如何影响AI公司原文
13:21Geek@geekbb精选Ponytail 是一个针对 AI 编码代理的规则集/插件,通过六层检查(YAGNI、标准库、平台原生、已安装依赖、一行解决、最小可行方案)约束 LLM 生成膨胀代码。测试显示,相比无规则代理,代码量减少 80-94%,成本降低 47-77%,速度提升 3-6 倍。支持 Claude Code、Codex、Cursor、Windsurf、Cline、Copilot、Aider、Kiro、Pi 和 OpenCode 共 10 种代理/平台。技巧PonytailClaude CodeCursorCopilot编程助手7 个信源在谈推荐理由:让 AI 写代码更精简,省成本提速度原文
13:20Greg Brockman@gdbOpenAI 在开发者网站 developers.openai.com 上线了一个新的文档代理,帮助用户快速找到关于 OpenAI 产品的答案并直接跳转到相关文档。该代理通过自然语言交互,使网站导航更直观。目前该功能已可用,支持视频演示。AI产品OpenAI文档代理开发者工具智能导航10 个信源在谈推荐理由:找 OpenAI 文档更快了原文
13:20Cognition@cognition_labsCognition 宣布 AI Productivity Guarantee,承诺如果 Devin 在 30 天内未能提升工程效率,客户可获最高 1000 万美元退款。该保证基于 Devin 在 SWE-bench 上的表现和内部基准测试,覆盖代码生成、调试和部署等任务。Ryan Bai 详细解释了计算方法和验证流程,旨在降低企业采用风险。行业DevinCognitionAI生产力编程助手SWE-bench推荐理由:Devin 敢赌 1000 万保效率原文
13:19LangChain@LangChainAILangSmith Fleet 提供四种创建技能的方式:通过 AI 聊天描述需求自动生成、在创建 agent 时自动生成相关技能、从模板开始、以及手动编写。用户可通过 LangChain 博客获取详细指南。技巧LangSmithFleetLangChain智能体技能创建推荐理由:四种方法,快速上手原文
13:19LangChain@LangChainAIBox Agent 基于 Deep Agents 构建,提供跨库搜索、多文档合成和结构化报告功能。该智能体在 Box 现有的安全与权限模型内运行,无需额外配置。目前该推文获得 1006 次浏览和 10 个点赞。AI产品Box AgentDeep Agents智能体多文档合成推荐理由:Box 出了个能跨库搜文档的智能体原文
13:18Y Combinator@ycombinatorYC Paper Club 最新一期中,研究者介绍了自博弈方法 Scaling Self-Play with Self-Guidance,以及蛋白质生物学世界模型 A World Model of Protein Biology。还讨论了 Stream RAG 实现流式工具使用的口语对话系统,以及 Lean 形式验证在智能验证新时代的应用。此外,展示了 AI 辅助编程在生产中的实践。论文自博弈AI生物学形式验证Stream RAGLean推荐理由:YC 研究者分享自博弈和AI生物学新进展原文
13:17Amazon Science@AmazonScience精选Amazon 研究人员推出 Simple Strands Agent (SSA),这是一个轻量级开源框架。SSA 在 SWE-Bench-Verified、SWE-Bench-Pro 和 Terminal-Bench2 三个基准上均达到当前最优 (SOTA)。该框架通过缩小模型意图与执行之间的差距来提升性能。SSA 的设计强调简洁与可复现性。AI模型Simple Strands AgentAmazonSWE-Bench开源模型编程助手1 个信源在谈推荐理由:轻量开源,三个基准登顶原文
13:17Epoch AI@EpochAIResearch精选73°Anthropic 的 Claude Fable 5 在 FrontierMath 基准测试 v2 版本中取得高分,Tier 1-3 达到 87%,Tier 4 达到 88%。这延续了 Anthropic 模型在数学能力上快速提升的趋势。AI模型Claude Fable 5AnthropicFrontierMath推理模型10 个信源在谈推荐理由:Anthropic 新模型数学超强原文
13:16MiniMax_AI@MiniMax_AIMiniMax 在 X 上感谢 SambaNovaAI 的合作,并表达了对 M3 模型在 SambaNova 的 RDU(可重构数据流单元)上运行的期待。M3 是 MiniMax 开发的多模态模型,SambaNovaAI 提供专用硬件加速。这一合作旨在提升 M3 的推理效率。行业MiniMaxSambaNovaAIM3RDU多模态推荐理由:MiniMax 的 M3 要上 SambaNova 的 RDU 了原文
13:16LangChain@LangChainAILangChain 的 Managed Deep Agents 现已集成 LangSmith Sandboxes,允许智能体安全执行代码。该功能通过沙箱环境隔离代码运行,防止对系统造成损害。开发者可以在 LangSmith 平台上直接测试和调试代理行为。AI产品Managed Deep AgentsLangSmithLangChain智能体代码执行推荐理由:LangChain 让智能体安全跑代码原文
13:13LlamaIndex@llama_indexLlamaIndex 联合创始人兼 CEO Jerry Liu 将在 6 月 15-18 日于旧金山举行的 Databricks Data+AI Summit 上发表两场演讲:一场关于使用长周期 AI 智能体自动化文档处理,另一场参与智能体栈创始人圆桌讨论(与 LangChain、CrewAI、Agno 及 Databricks)。团队还将在 #137 展位演示 LlamaParse 文档解析工具。AI产品LlamaIndexLlamaParseDatabricksData+AI Summit文档解析1 个信源在谈推荐理由:LlamaIndex 展示文档解析新方案原文
13:13Together AI@togethercompute精选Together AI的Rish Bhargava在推文中指出,部署语音智能体时延迟超过500ms用户会注意到,超过1秒用户会挂断。他详细分析了整个管道,包括75ms网络延迟为何增加30%开销,以及通过共置所有组件可将延迟降至5ms。推文附有链接,可能提供更深入的技术细节。技巧语音智能体延迟优化Together AI网络延迟共置部署推荐理由:语音智能体延迟优化实战原文
13:12MiniMax_AI@MiniMax_AIMiniMax 宣布其 M3 模型端点获得 NVIDIA 官方认可,并已上线免费 GPU 加速版本。用户现在可以免费体验基于 NVIDIA GPU 加速的 M3 模型推理服务。该端点支持高性能计算,适用于多种 AI 任务。AI产品MiniMaxM3NVIDIAGPU加速3 个信源在谈推荐理由:MiniMax 的 M3 模型免费加速了原文
13:12@OpenAIDevs@OpenAIDevsOpenAI在Codex中新增自定义指南功能,用户描述正在构建的项目后,智能体会自动生成包含定制提示和相关资源的指南。该指南可直接在Codex中打开,或复制为Markdown格式供其他编程助手使用。该功能旨在简化开发者的工作流程,提供更精准的上下文支持。AI产品OpenAICodex编程助手提示词工程10 个信源在谈推荐理由:描述项目就能生成定制提示原文
13:11LMSYS Org (SGLang)@lmsysorg精选73°SGLang在NVIDIA GB300 NVL72平台上,针对DeepSeek V4 Pro 1.6T模型(FP4精度,8K/1K上下文)实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo(SGLang)和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试,该性能在整个交互性曲线上保持稳定。AI模型SGLangGB300 NVL72DeepSeek V4 ProNVIDIA Dynamo推理模型10 个信源在谈推荐理由:SGLang在GB300上跑DeepSeek V4 Pro,每GPU超1.2万token原文
13:11Replit@ReplitReplit 在直播中宣布为其 Agent 添加 Skills 和 Custom Instructions 两项新功能。Skills 允许用户为 Agent 预置特定编程技能,如 Python 或 React 开发。Custom Instructions 让用户自定义 Agent 的行为和输出格式。这两项功能旨在提升 Agent 在代码生成和项目开发中的精准度与可控性。AI产品ReplitAgent编程助手自定义指令推荐理由:Replit 让 Agent 更听话了原文
13:10GitHub@githubGitHub宣布Copilot代码审查功能新增自定义Agent技能和MCP服务器连接支持,现已进入公开预览阶段。该功能适用于Copilot Pro、Pro+、Business和Enterprise用户。开发者可将组织上下文和标准直接整合到代码差异审查中,提升审查效率与一致性。AI产品GitHubCopilotMCP/工具代码审查智能体推荐理由:GitHub给Copilot加了自定义审查规则原文
13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
13:09PolymarketMoney@PolymarketMoneySPCX在尝试将Colossus 1用于Grok训练后遇到困难,据报道已将其租赁给Anthropic。Colossus 1是一个大型计算集群,此前被用于Grok项目。Anthropic将利用该集群进行AI模型训练。行业SPCXAnthropicColossus 1Grok算力租赁10 个信源在谈推荐理由:Anthropic租下SPCX的算力原文
13:09elvis@omarsar0精选Omar Sanseviero分享运行自主长时编码智能体的经验,建议用Opus 4.8做规划、GPT-5.5执行,并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强,能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。技巧Opus 4.8GPT-5.5DeepseekQwenKimiMiniMax智能体7 个信源在谈推荐理由:Opus 4.8+GPT-5.5分工跑长任务原文
13:08Epoch AI@EpochAIResearch精选72°Epoch AI 发布 FrontierMath 基准测试 v2 版本,修复了 42% 的问题错误。新版本中,GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率,Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高,排名基本不变。AI模型FrontierMathGPT-5.5GoogleEpoch AI推理模型推荐理由:数学基准更新,GPT-5.5和Google AI成绩亮眼原文
13:08rohanpaul_ai@rohanpaul_ai精选73°据 The Information 报道,Anthropic 正从租用云算力转向自建数据中心,计划在美国部署超 1GW 容量,Google 可能为其租赁付款提供担保。此前 Anthropic 已通过云服务商承诺超 10GW 服务器租赁,包括与 Google 的 2000 亿美元协议。该公司还锁定了与 Akamai、AWS、CoreWeave 和 Fluidstack 的大额云交易,涵盖 Amazon Trainium 硬件和 500 亿美元 Fluidstack 合作。此外,Anthropic 已签署 SpaceX/xAI 的 Colossus 1 数据中心整租协议,月费 12.5 亿美元,并预留 Colossus II 空间。行业AnthropicGoogle数据中心算力云服务10 个信源在谈推荐理由:Anthropic 自建数据中心,算力策略大转向原文
13:07Alex Albert@alexalbert__Fable在长时间智能体对话中表现出超人类能力,有时用户甚至跟不上其输出。一个提示词片段被证明是让Fable写作更清晰、去除行话的最佳方法。该提示词片段在X上获得310个赞和94次分享。技巧Fable提示词工程智能体写作推荐理由:Fable对话太强,用这个提示词让它更清晰原文
13:07Browser Use@browser_useBrowser Use 推出 0.13.0 测试版,专为 SOTA 模型设计,支持长时间运行任务。新版本包含自定义 LLM 和浏览器 harness,基于 Rust 构建。新增 Browser Use Terminal 功能,一条命令即可启动。旧版基于 GPT-4,新版面向更先进的模型。AI产品Browser UseGPT-4SOTA模型Rust浏览器自动化推荐理由:让 AI 替你跑长任务,一条命令搞定原文
13:06rohanpaul_ai@rohanpaul_aiSpaceX在SEC文件中指出,AI预计将占据其28.5万亿美元总可寻址市场(TAM)的绝大部分。该文件未提供具体AI细分市场数字,但强调了AI对SpaceX未来业务的核心作用。这一声明反映了AI技术在航天及通信领域的潜在商业价值。行业SpaceXSECAI市场28.5万亿美元3 个信源在谈推荐理由:SpaceX押注AI市场原文