全部 AI 动态 · AI 热点

6月5日

08:13

lmarena.ai@lmarena_ai

精选76°

Arena.ai 宣布将 NVIDIA 的 Nemotron 3 Ultra 模型加入其新的 Agent Mode，用于评估 AI 智能体在真实世界中的多步骤任务能力。Agent Arena 通过数百万次真实用户会话，测量模型在编写代码、创建演示文稿、网络研究、构建应用和文档分析等复杂工作流中的表现。评估基于任务成功率、可操控性、错误恢复、用户反馈和工具幻觉五个信号。当前排行榜显示 OpenAI GPT-5.5 排名第一，Anthropic Claude-Opus-4.7 第二，Zai GLM-5.1 第三。该平台已积累超过 30 万任务、200 万次工具调用和 4000 万行代码数据。

AI产品智能体评估/基准 NVIDIA Nemotron 3 Ultra Agent Arena

推荐理由：Agent Arena 用真实任务数据解决了智能体评估难的问题，做 AI 智能体开发或选型的团队可以直接参考排行榜和会话信号，比纯基准测试更有说服力。

原文

07:49

Lenny Rachitsky@lennysan

Zeno Rocha 指出，OpenAI 的 Codex 周活跃用户从 60 万激增至 500 万，增长近 8 倍。主要原因是 ChatGPT 在回答中直接嵌入品牌链接，而非隐藏在引用中，这大幅提升了流量。更重要的是，AI 智能体（如 Claude Code）正在主动选择工具栈，Codex 成为首选。这一变化意味着开发者工具的市场格局正在被智能体重塑，选择正确的工具能带来巨大红利。

AI产品 Codex Claude Code 智能体开发者工具流量增长

推荐理由：智能体正在重新定义工具选择权，做 AI 应用或开发者工具的团队值得关注——选对平台可能带来指数级增长，建议点开看看具体数据。

原文

07:48

berryxia@berryxia

Firecrawl 在短短两年内抓取了超过 80 亿网页，拥有 125 万开发者用户和 15 万家公司客户，GitHub 星星超 12.5 万，进入全球前 100 仓库。其 API 提供干净、结构化的网页数据，解决了 AI agent 在实时数据获取上的痛点。这一里程碑表明，AI 竞争正从模型参数转向可靠、低成本的数据基础设施。Firecrawl 将网页抓取从老旧的工程活儿升级为 AI 时代的核心上下文层，加速了 agent 对真实世界数据的消费能力。

AI产品 Firecrawl 网页抓取 AI基础设施数据管道开发者工具

推荐理由：做 AI agent 或数据密集型应用的开发者，这个数据告诉你：模型再强也离不开稳定的数据管道，Firecrawl 的 API 值得直接集成试试。

原文

07:42

07:42IT之家（博客/媒体）

72°

苹果批准了首个接入 Apple Messages for Business 平台的第三方 AI 智能体 Poke，由加州初创公司 The Interaction Company of California 打造。用户可在 iMessage 中直接让 Poke 回复邮件、安排聚餐、创建提醒事项，还支持网页搜索、图片生成、航班值机、低价机票追踪、控制智能家居设备等。Poke 已接入 Oura 戒指、Outlook、Gmail、GitHub 等第三方服务，苹果将按用户向开发者收费。轻量操作免费，高强度请求需付费协商。这标志着 iMessage 从通信工具向 AI 任务入口的扩展。

AI产品 AI 智能体 iMessage 苹果 Poke 任务自动化

推荐理由：苹果开放 iMessage 给第三方 AI 智能体，意味着日常消息应用能直接处理邮件、订餐、设备控制等任务，iMessage 重度用户和 iOS 生态开发者值得关注这一新入口。

原文

07:23

Notion@NotionHQ

76°

开发者 @_Brian_Zhang 在不到48小时内，使用 Notion Custom Agents 构建了一个完整的《办公室》情景模拟，并因此获得第一名和超过1万积分奖励。他详细解释了实现原理，包括基于邻近度的智能体推理、长上下文窗口管理、通过反思循环保持角色一致性，以及计划模式与反应式决策的平衡。该项目展示了 Notion 智能体在复杂叙事模拟中的潜力，对构建交互式角色和自动化叙事系统的开发者有重要参考价值。

AI产品 Notion 智能体角色模拟叙事系统自动化

推荐理由：Notion 智能体不仅能做自动化，还能跑角色模拟——做叙事游戏或交互式角色的开发者，看完这个案例会想立刻动手试试。

原文

07:19

07:19IT之家（博客/媒体）

LM Studio 在 Mac 版应用中新增 LM Link 功能，允许 iPhone 等设备直接调用 Mac 上本地运行的大语言模型。用户需创建并登录同一账号，启用后设备间建立端到端加密的安全连接，请求由 Mac 处理并返回结果。该功能基于 Tailscale 网状 VPN，确保隐私安全，支持任意本地模型，包括 Apple Intelligence 基础模型。目前预览免费，未来将推出付费方案。这解决了移动设备无法直接使用本地大模型的痛点，尤其适合注重隐私的用户。

AI产品 LM Studio 本地模型跨设备隐私安全 iPhone

推荐理由：对于想在手机上体验本地 AI 又不想牺牲隐私的 Mac 用户，LM Link 直接打通了跨设备调用——不用联网、数据不出设备，建议有 Mac 和 iPhone 的开发者或隐私敏感用户试试。

原文

07:18

rohanpaul_ai@rohanpaul_ai

AI 工具分散在多个平台，用户需要在 ChatGPT、Claude、Gemini、Grok 等之间频繁切换，体验割裂。OverchatAI 发布了一款多模型 AI 应用，将聊天、图像生成和视频生成整合到统一界面中，旨在解决工具碎片化问题。该应用支持主流模型，让用户无需切换标签页即可完成多种任务。对于重度 AI 用户来说，这能显著提升工作效率，减少上下文切换成本。

AI产品多模型聚合应用 OverchatAI 聊天图像生成视频生成

推荐理由：OverchatAI 解决了 AI 工具碎片化的痛点，经常在多模型间切换的创作者和开发者可以直接在一个界面里完成聊天、绘图和视频生成，省去来回跳转的麻烦。

原文

07:12

07:12IT之家（博客/媒体）

78°

OpenAI 宣布升级 ChatGPT 记忆系统，基于 Dreaming V3 机制，重点解决记忆过时和准确性不足的问题。新系统能自动整合聊天历史中的关键信息，生成摘要式记忆，用户可查看、修改或追问细节。相比早期版本，新系统在保持个性化效果的同时，将服务免费用户所需算力降至原来的五分之一。美国 Plus 和 Pro 用户即日起可体验，记忆容量提升至两倍。

AI产品 ChatGPT 记忆系统 Dreaming V3 个性化算力优化

推荐理由：ChatGPT 重度用户终于不用反复交代背景了——新记忆系统自动更新、更准更省算力，Plus/Pro 用户今天就能体验，免费用户也快了。

原文

06:58

Sam Altman@sama

72°

OpenAI CEO Sam Altman 宣布，ChatGPT 的记忆功能今日迎来重大升级。新系统能更有效地在对话间携带上下文，并随时间保持有用性。这项改进基于 OpenAI 对记忆机制的深入研究，旨在让 ChatGPT 在长期交互中更连贯、更个性化。用户无需手动操作，升级将自动生效。

AI产品 ChatGPT 记忆上下文 OpenAI 产品升级

推荐理由：ChatGPT 记忆升级解决了跨对话上下文丢失的痛点，重度 ChatGPT 用户（尤其是用其做长期项目或日常助理的）可以直接体验更连贯的对话，值得立即试试。

原文

06:57

Sam Altman@sama

72°

OpenAI 宣布推出 Sites 功能，用户可通过 ChatGPT 将工作、想法和计划转化为交互式网站或应用，并生成 URL 供团队探索、使用和分享。该功能目前面向 Business 和 Enterprise 计划用户开放，后续将更广泛推广。OpenAI CEO Sam Altman 表示，构建应用从未如此简单，并感慨自己小时候就希望有这样的工具。此举进一步降低了应用开发门槛，让非技术人员也能快速创建和发布 Web 应用。

AI产品 ChatGPT Sites Web应用零代码 OpenAI

推荐理由：非技术团队终于能零代码把想法变成可分享的网页应用——做产品原型、内部工具或展示页面的团队，可以直接用 ChatGPT 生成并发布，值得立刻体验。

原文

06:51

ChatGPT@ChatGPTapp

ChatGPT 正在改进其记忆功能，能更好地记住用户的偏好、约束和上下文，帮助用户从上次中断处继续对话。新增的记忆摘要功能让用户可以查看和调整 ChatGPT 记住的内容。该功能将在未来几周内向所有用户推出，今天起美国地区的 Plus 和 Pro 用户可率先体验。

AI产品 ChatGPT 记忆功能上下文偏好用户体验

推荐理由：ChatGPT 记忆升级解决了对话中重复设置偏好和上下文的痛点，重度用户可以直接用记忆摘要管理 AI 的长期记忆，体验更连贯的对话。

原文

06:48

Scott Wu@ScottWu46

Cognition 公司创始人 Scott Wu 发文批评按 token 用量衡量 AI 生产力的做法，并宣布 Devin 推出 AI 生产力保障计划。该计划基于真实工程师时间估算数据集，衡量每个 Devin 任务对应的有效工程小时数。如果 Devin 交付的工程价值低于客户支付的费用，Cognition 将补足使用额度，最高 1000 万美元。此举旨在推动行业从衡量活动转向衡量产出，让 AI 公司真正为价值负责。

AI产品 Devin AI 生产力计费模式工程价值 Cognition

推荐理由：Cognition 把 AI 计费从 token 消耗转向工程价值，做 AI 采购或管理开发团队的决策者值得关注——这可能是行业计费模式的分水岭。

原文

06:44

NotebookLM@NotebookLM

Google 的 NotebookLM 今日推出备受期待的“来源归属”功能，用户现在可以查看每个生成内容（artifacts）所使用的具体提示词和来源公式。该功能解决了用户无法追溯生成内容来源的痛点，让创作过程更加透明。用户还可以通过“迭代”按钮直接调整提示词和来源，实现个性化定制。这一更新进一步提升了 NotebookLM 作为 AI 笔记和创作工具的实用性。

AI产品 NotebookLM 来源归属 AI笔记内容创作透明度

推荐理由：NotebookLM 的“来源归属”功能解决了 AI 生成内容不可追溯的痛点，做笔记和内容创作的团队可以直接看到生成逻辑并自由调整，建议试试。

原文

06:43

HeyGen@HeyGen_Official

76°

HeyGen 将一个 AI 化身部署在 Twitch 上，实现 24/7 不间断直播。观众可以在聊天中发送 GitHub 仓库链接，AI 化身会自动打开链接、审查代码、吐槽糟糕的设计决策，并实时自主操作浏览器。这一实验展示了 AI 在代码审查和实时交互方面的潜力，也引发了关于 AI 幽默感和开发者体验的讨论。

AI产品 AI 化身代码审查 Twitch 直播 HeyGen 实时交互

推荐理由：做开源项目或代码审查的开发者，可以围观 AI 如何实时吐槽你的代码——既有趣又能反思设计，建议去直播间看看。

原文

06:36

OpenAI@OpenAI (@OpenAI)

72°

OpenAI 宣布正在构建 ChatGPT 的记忆功能，使其能够记住用户的重要信息、偏好和约束，并随着时间变化自适应。例如，如果你告诉 ChatGPT 你计划在 7 月旅行，记忆会理解旅行即将到来、正在进行和已经结束的不同阶段，从而在上下文变化时持续给出相关回答。这一功能旨在提升 ChatGPT 的个性化体验，使其更智能地适应用户需求的变化。目前该功能仍在开发中，具体上线时间未公布。

AI产品 ChatGPT 记忆功能个性化上下文自适应 OpenAI

推荐理由：ChatGPT 终于要解决「记不住事」的痛点，经常用 ChatGPT 做长期规划或重复任务的用户值得关注，能省去反复交代上下文的麻烦。

原文

06:20

Amjad Masad@amasad

Replit 与 Shopify 合作，推出“Prompt to shop”功能。用户只需用自然语言描述想卖什么，Replit Agent 就能自动搭建自定义店面、创建 Shopify 商店并添加商品。整个过程只需几分钟，用户随后在 Shopify 中确认并设置支付即可开业。这大幅降低了电商建站门槛，让非技术用户也能快速启动在线业务。

AI产品 Replit Shopify AI Agent 电商建站自然语言

推荐理由：想做电商但不会写代码？Replit Agent 帮你从一句话到上线商店，几分钟搞定。建议有开店想法的朋友直接试试。

原文

06:16

lmarena.ai@lmarena_ai

88°

Arena 平台今日正式推出 Agent Mode，允许用户测试前沿模型在真实任务中的表现，包括深度研究、生成报告、创建网站、调试代码等。该模式通过工具调用（如网页搜索、沙箱 bash、图像生成、文件写入）完成复杂任务。首批支持的模型包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型。同时，Battle Mode 投票数已突破 5000 万。

AI产品 Arena Agent Mode 模型评测 GPT-5.5 Claude Opus 4.7

推荐理由：Arena 的 Agent Mode 让开发者可以直接对比前沿模型在真实任务中的表现，做 AI 评测或选型的团队值得一试。

原文

06:13

Varun Mohan@_mohansolo

Antigravity 观察到用户使用超过 100 个子智能体构建了令人印象深刻的项目，因此为所有付费计划启用了 /teamwork-preview 功能。该功能运行并行实现和验证智能体，以完成复杂任务。团队已使用该功能构建了一个可运行的操作系统。但需注意，该功能可能消耗大量令牌。

AI产品 Antigravity 智能体并行协作复杂任务付费功能

推荐理由：Antigravity 的 /teamwork-preview 解决了大规模智能体协作的并行执行问题，做复杂系统或大型项目的开发者可以直接尝试，但要注意令牌消耗。

原文

05:43

LangChain@LangChainAI

LangSmith Engine 推出新功能，将 Agent 团队手动改进循环（Trace → 找失败模式 → 修复提示/代码 → 创建评估 → 测试 → 部署 → 重复）自动化。它能将生产 Trace 转化为命名问题、根因分析、建议修复和更强的评估覆盖。这解决了 Agent 开发中调试和迭代效率低下的痛点，让团队更快定位并修复问题。

AI产品 Agent LangSmith 调试工具自动化评估覆盖

推荐理由：做 Agent 开发的团队终于可以告别手动 Trace 和找失败模式的苦活——LangSmith Engine 自动帮你做根因分析和修复建议，建议直接集成到工作流中试试。

原文

05:42

LangChain@LangChainAI

LangChain 将于6月11日举办一场直播，主题为“如何用LangSmith Engine缩短从Agent问题到PR的路径”。主讲人 @bentannyhill 将分享如何利用LangSmith Engine快速定位和解决Agent开发中的问题，并高效提交PR。该直播适合使用LangChain构建Agent的开发者，旨在提升开发效率和协作流程。注册链接已开放，感兴趣的用户可提前报名。

AI产品 LangChain Agent开发 LangSmith Engine 直播开发效率

推荐理由：LangChain 官方直播直接解决Agent开发中调试和协作的痛点，做Agent的团队可以学到如何用LangSmith Engine加速问题修复，建议开发者注册观看。

原文

05:21

Google AI Developers@googleaidevs

Google Magenta 项目发布了 Magenta RealTime 2 (MRT2)，一个开源的实时音乐生成模型。该模型支持通过 MIDI 键盘、实时文本提示甚至手势进行控制，延迟低于 200 毫秒，可在 MacBook 上原生运行。MRT2 提供了开源权重、开源推理引擎以及配套的应用和插件，让用户像演奏乐器一样与 AI 互动创作音乐。这标志着 AI 音乐生成从离线工具向实时交互乐器的重要转变。

AI产品 Google Magenta MRT2 音乐生成开源/仓库实时交互

推荐理由：音乐创作者和 AI 爱好者现在可以像弹奏乐器一样实时与模型互动，延迟低至 200ms，直接上手试试开源权重和插件。

原文

05:15

@OpenAIDevs@OpenAIDevs

OpenAI 宣布在 Responses API 和 Completions API 中新增内容审核分数功能。开发者现在可以在生成请求的同时获取审核信号，无需额外调用审核接口。这使得应用可以基于审核分数进行日志记录、路由、人工审核或直接拦截。该功能简化了内容安全流程，尤其适合需要实时内容过滤的 AI 应用。

AI产品 OpenAI 内容审核 API 安全过滤开发者工具

推荐理由：做 AI 内容审核或安全过滤的开发者终于可以少写一个 API 调用——在生成回复的同时拿到审核分数，直接决定是放行还是拦截，建议试试这个集成方案。

原文

05:14

Replit@Replit

Replit 在 X 上发布视频，强调其平台的核心差异化优势：所有开发工作都在一个地方完成。用户可以用自然语言描述想法，直接生成可运行的软件，包括 UI、认证、数据库，并一键部署。团队可以实时协作，还能并行运行多个 AI 智能体。这展示了 Replit 作为一体化 AI 开发平台的愿景，降低了从想法到产品的门槛。

AI产品 Replit 一体化开发 AI 编程实时协作快速原型

推荐理由：Replit 把从想法到部署的流程压缩到一个平台，做快速原型或小团队协作的开发者可以直接省掉环境配置和部署的麻烦，值得一试。

原文

05:12

Y Combinator@ycombinator

RASPIRE 是一家由 Y Combinator 孵化的初创公司，近日发布了其应用安全平台。该平台专注于在 AI 加速移动攻击的背景下，保护 Android 和 iOS 应用免受欺诈、逆向工程和 API 滥用。其核心优势在于无需修改代码即可集成，目前已在银行、金融科技和医疗保健领域保护超过 2000 万用户的应用。

AI产品应用安全移动安全 AI 攻击零代码 RASPIRE

推荐理由：移动应用安全正面临 AI 驱动的攻击新威胁，RASPIRE 的零代码方案让金融、医疗等领域的开发团队能快速加固应用，建议关注安全的技术负责人点开看看。

原文

05:06

Mustafa Suleyman@mustafasuleyman

76°

微软CEO Mustafa Suleyman在X上宣布发布MAI系列模型，包括MAI-Thinking-1推理模型、MAI-Transcribe-1.5转录模型、MAI-Voice-2语音生成模型、MAI-Code-1-Flash编程模型和MAI-Image-2.5图像模型。MAI-Thinking-1在SWE-Bench Pro上达到53%，与Opus 4.6并列最强编码基准。MAI-Transcribe-1.5在43种语言上超越Gemini和OpenAI，速度快5倍。MAI-Code-1-Flash仅5B激活参数，SWE-Bench Pro达51%。微软还发布了109页详细技术报告，强调前沿没有捷径，需要严谨、耐心和细节关注。

AI产品微软 MAI-Thinking-1 推理模型编程助手语音模型

推荐理由：微软一口气推出7款模型，覆盖推理、编码、语音、图像全场景，MAI-Thinking-1在编码基准上追平Opus 4.6，做AI应用开发或模型选型的团队值得关注这份109页技术报告。

原文

04:57

宝玉@dotey

OpenAI 为 Codex 推出 Build iOS Apps 插件，允许开发者在 Codex 的浏览器中直接查看、测试 iOS 应用，预览 SwiftUI 组件，并支持热重载。插件通过 npm serve-sim 将 iOS Simulator 画面实时流式传输到浏览器，并建立控制通道，将浏览器的点击、拖动等操作映射为模拟器的触摸事件。同时，插件利用 Accessibility 信息在浏览器上覆盖透明 HTML 按钮，使 Codex 能识别和操作原生 iOS 元素。SwiftUI Preview 和热重载功能通过动态库重编译实现快速更新，无需完整重装 App。这为 iOS 开发者提供了从代码编辑到 UI 调试的完整闭环体验。

AI产品 Codex iOS 开发 SwiftUI 热重载模拟器

推荐理由：iOS 开发者终于可以在 Codex 里完成从写代码到看 UI 的完整闭环，不用频繁切到 Xcode 和模拟器，调试效率大幅提升。做 SwiftUI 开发的团队建议直接试试这个插件。

原文

04:12

Y Combinator@ycombinator

Zenbu 是一款专为编程智能体设计的可扩展 IDE，支持并行运行多个智能体、管理工作流程，并通过插件进行个性化定制。该产品由 Y Combinator 支持，创始人 @robpruzan 宣布正式上线。Zenbu 旨在解决开发者在多智能体协作开发中的管理难题，提升编程效率。其插件系统允许用户根据需求扩展功能，适应不同开发场景。

AI产品智能体编程助手 IDE 插件系统并行计算

推荐理由：多智能体协作开发的管理痛点终于有了专用工具——Zenbu 让开发者可以并行运行智能体并灵活定制，做 AI 编程或智能体编排的团队值得一试。

原文

03:54

宝玉@dotey

76°

OpenAI 为 ChatGPT 推出全新记忆架构“Dreaming”，不再需要用户主动说“记住这个”，而是后台自动从聊天记录中提炼、整合、更新记忆。旧版记忆（2024年4月上线）像笔记本，只记录用户明确要求的内容，且不会过期更新，导致信息过时。新版 Dreaming 跨多轮对话综合提炼信息，并随时间自动更新，例如“七月去新加坡”到八月会变成“七月去过新加坡”。评测显示，事实记忆准确率从41.5%提升至82.8%，偏好遵循率从31.4%提升至71.3%，时效性准确率从9.4%提升至75.1%。用户可在“记忆摘要”页面查看、修正或删除记忆。目前 Plus 和 Pro 用户（美国）已开始推送，免费用户未来几周可用。值得注意的是，Anthropic 在5月6日也发布了同名“Dreaming”功能，但面向开发者，用于整理 agent 的会话记录。

AI产品 ChatGPT 记忆系统 Dreaming OpenAI AI助手

推荐理由：ChatGPT 终于能记住你是谁、你喜欢什么，而且会自动更新——不用再反复告诉它“我是素食主义者”了。经常用 ChatGPT 做推荐、规划、咨询的用户，这次升级会让体验明显变好，建议打开记忆摘要看看它记住了什么。

原文

03:50

rohanpaul_ai@rohanpaul_ai

Hyper 3D 发布了 Rodin Gen-2.5，一款图像转3D模型的新版本，最大改进是控制能力。它提供五种生成模式，4秒内可生成百万多边形模型，最高支持1000万多边形。原生支持3D PBR材质，模型开箱即用且效果精致。还支持并行批量生成、部件分离和局部编辑功能，覆盖3D创作全流程。

AI产品图像转3D Rodin Gen-2.5 Hyper 3D PBR材质 3D创作

推荐理由：3D 创作者终于有了一个既能快速出图又能精细控制的工具——4秒生成百万多边形模型还带 PBR 材质，做游戏资产或电商展示的团队可以直接用起来。

原文

03:42

LangChain@LangChainAI

LangChain 发布了 LLM Gateway，这是一个将治理功能直接集成到 LangSmith 平台中的工具。与传统的独立治理控制台不同，LLM Gateway 允许用户在 LangSmith 中直接查看被阻止的请求、被编辑的信息以及可追踪的事件。用户可以在同一界面中观察智能体的行为、更新系统提示或工具配置，并针对现有测试集重新评估。这简化了 AI 应用的治理流程，提高了开发者的效率。

AI产品 LangChain LLM Gateway 治理工具 LangSmith 智能体

推荐理由：做 AI 应用治理的团队终于不用在多个控制台间切换了——LLM Gateway 把监控、调试和配置都整合到 LangSmith 里，建议用 LangChain 的开发者直接试试。

原文

03:22

Augment Code@augmentcode

Augment 宣布将于6月5日（周五）上午10点（太平洋时间）首次展示其新统一智能体平台 Cosmos。该平台旨在解决团队中多个智能体协作效率低下的问题，通过让智能体共享上下文和记忆来提升整体生产力。活动将由工程副总裁 Vinay Perneti、创始工程师 Rich Hankins 和解决方案架构师 Sharath Rao 共同主持。用户可报名参加直播或获取录播。

AI产品智能体协作平台 Augment Cosmos 工程效率

推荐理由：如果你团队在用多个 AI 智能体但感觉效率没翻倍，Cosmos 的共享上下文方案可能正是你需要的——做工程管理的建议报名看看。

原文

03:20

AI Engineer@aiDotEngineer

Marc Klingen 在 Clickhouse 分享教编程代理使用 Langfuse 等新工具的经验，指出这本质上是一个“技能问题”。他发现让代理真正掌握工具的使用比预期更困难，需要系统性的训练和反复迭代。这一观点揭示了当前 AI 编程代理在工具适配上的核心瓶颈，对开发者和团队有重要参考价值。

AI产品编程代理工具适配 Langfuse Clickhouse 技能问题

推荐理由：做 AI 编程代理或工具集成的开发者会感同身受——教代理用新工具比写代码本身更费劲，Marc 的实战经验值得点开看看。

原文

03:16

Cognition@cognition_labs

Cognition 宣布为其 AI 编程助手 Devin 推出“AI 生产力保障”计划。如果 Devin 为企业带来的工程价值低于其支付费用，Cognition 将资助企业继续使用，直到达到预期效果，最高补贴 1000 万美元。此举旨在推动 AI 行业从追求 token 数量转向最大化实际产出。该计划直接回应了企业对 AI 投资回报的担忧，可能改变 AI 服务的商业模式。

AI产品 AI 编程助手 Devin 生产力保障企业服务 Cognition

推荐理由：Cognition 用真金白银为 AI 编程效率背书，做技术采购的团队值得关注——这可能是首个把 ROI 写进合同的 AI 产品。

原文

03:14

Y Combinator@ycombinator

Autostep 是一款新工具，能自动挖掘公司内部邮件、文档和报告中的重复性工作模式。它通过上下文分析理解团队工作流程，然后主动生成智能体来执行这些任务，避免重复劳动。该工具由 Y Combinator 支持，旨在提升企业效率。对于需要处理大量重复性工作的团队来说，这是一个值得关注的自动化解决方案。

AI产品智能体自动化企业效率 Y Combinator Autostep

推荐理由：做企业效率优化或流程自动化的团队，可以直接用 Autostep 挖掘并消除重复工作，建议试试看它如何自动生成智能体。

原文

02:46

Aravind Srinivas@AravSrinivas

Perplexity 宣布其 Computer 产品将集成所有启动和运营业务所需的连接器，支持 400 多种工具，包括 Intuit QuickBooks、Vercel、Shopify、Canva 等。这意味着任何有想法和一小群高效能团队的人，都能比以往更快地构建快速增长的有价值公司。Perplexity Computer 专为成长型企业设计，旨在简化业务流程，让用户从零开始快速搭建和运营公司。

AI产品 Perplexity 企业工具集成平台创业自动化

推荐理由：Perplexity Computer 把启动业务所需的所有工具连接器整合到一起，做创业或中小企业的团队可以直接用它快速搭建运营流程，省去手动对接多个工具的麻烦。

原文

02:44

Claude@claudeai

Claude AI 推出了名为《The Problem Solvers》的系列内容，旨在展示创始人如何利用 Claude 解决复杂问题。该系列通过 claude.com/problem-solvers 页面呈现，目前已获得初步关注。这标志着 Claude 在应用场景推广上的新尝试，强调其作为解决实际难题的工具价值。

AI产品 Claude 问题解决者创始人应用案例 AI工具

推荐理由：如果你是创业者或技术团队负责人，想了解 AI 如何解决真实世界的硬核问题，这个系列值得关注——看看其他创始人怎么用 Claude 搞定难题，或许能给你带来启发。

原文

02:42

Jerry Liu@jerryjliu0

LlamaIndex 团队开源了 Parse-Flow，一个可视化文档处理管道项目，旨在解决企业 AI 中从 PDF 等非结构化文档提取可靠结构化数据的难题。它集成了解析、分类、拆分和提取四个核心原语，用户可通过拖拽画布构建工作流，底层由 LlamaAgents 驱动，每一步都可观测且失败可处理。该项目已在 GitHub 开源，并附有详细架构博客。

AI产品 LlamaIndex 文档处理开源/仓库可视化工作流结构化数据

推荐理由：企业 AI 团队终于有了一个开箱即用的文档处理框架，做合同、发票、报告等非结构化数据提取的开发者可以直接上手，拖拽式设计降低了门槛，值得一试。

原文

02:33

Andrew Ng@AndrewYNg

Andrew Ng 联合 RedHat 推出新课程，教你如何高效服务大语言模型，以低延迟和合理成本处理大量并发用户。课程核心包括量化降低模型内存占用（如 70B 模型权重约 140GB）以及使用 vLLM 的智能内存管理（如 KV 缓存）来提升并发处理能力。学员将学会量化模型并权衡精度、用 vLLM 部署并观察并发效果、以及基准测试以在速度、成本和精度间做决策。课程适合想优化 LLM 部署的开发者，可直接在 deeplearning.ai 上学习。

AI产品 LLM 服务量化 vLLM RedHat Andrew Ng

推荐理由：做 LLM 部署的开发者终于有了系统课程——量化降内存 + vLLM 处理并发，直接上手就能优化成本，建议点开学。

原文

02:21

LangChain@LangChainAI

LangChain 团队在 Slack 中部署了一个名为 @docs_plz 的 Fleet 代理，用于自动化文档修改流程。该代理接收文档添加或修复请求后，自动创建工单并提交 PR。部署后，文档变更量显著飙升。LangChain 强调，代理不需要复杂设计也能产生巨大影响，从简单用例开始自动化往往是最高效的方式。

AI产品智能体自动化文档 LangChain Fleet

推荐理由：这个案例证明了简单代理也能带来显著效率提升，适合正在探索内部自动化工具的团队参考——从文档这类高频低复杂度任务入手，效果立竿见影。

原文

02:18

Marc Andreessen@pmarca

Lindy 创始人 Flo Crivello 宣布将公司全部流量从 Anthropic 模型切换至 DeepSeek v4，这一决定不仅节省了数百万美元成本，还在多个核心用例上观察到性能提升。此举表明 DeepSeek v4 在商业应用中已具备替代主流闭源模型的能力，尤其对成本敏感且追求性能的 AI 创业公司具有重大参考价值。Lindy 作为 AI 自动化平台，其全面迁移验证了 DeepSeek v4 在真实生产环境中的可靠性。

AI产品 DeepSeek v4 Anthropic Lindy 模型迁移成本优化

推荐理由：Lindy 的全面迁移验证了 DeepSeek v4 在成本与性能上的双重优势，做 AI 产品且被 Anthropic 账单困扰的团队可以直接参考这个真实案例。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。