全部 AI 动态 · AI 热点

6月26日

06:24

Character.AI@character_ai

Character.AI 发布 Creator Insights 仪表盘，展示角色在关键指标上的表现，帮助创作者了解用户共鸣并追踪成长趋势。同时改进移动端角色创建工具，用户可通过 ⊕ 按钮体验更简单的创建流程。仪表盘可通过 c.ai/creator-insights 访问，需登录美国区账号。该更新旨在降低创作门槛，提升创作者数据分析能力。

推荐理由：Character.AI 新推创作者仪表盘，能看角色互动数据和成长曲线，手机端创建工具也更好用了，做角色的可以试试。

原文

05:59

Gary Marcus@GaryMarcus

白宫要求OpenAI推迟GPT-5.6的发布，理由是网络安全担忧。特朗普政府将逐客户批准在预览期内访问该模型。此举反映了政府对先进AI系统潜在风险的关注。

行业 GPT-5.6 OpenAI 白宫监管 AI安全

推荐理由：白宫介入要求推迟GPT-5.6，逐客户审批访问，这波监管操作很罕见。

原文

05:57

Guillermo Rauch@rauchg

Next.js 在错误提示界面中加入了“Ways to fix this”功能，并配套“Copy prompt”按钮。用户点击后可直接将错误上下文和修复建议复制为结构化的提示词，方便粘贴到 Claude、ChatGPT 等 AI 编程助手中。该功能已在 Next.js 的开发者工具中上线，支持常见的编译和运行时错误。此举将调试流程从手动描述问题缩短为一次复制粘贴，提升了修复效率。

技巧 Next.js 提示词工程编程助手开发者体验

推荐理由：Next.js 这个新 UI 太实用了，点一下就能把错误和修复提示复制成 prompt，直接丢给 AI 就能修，省去打字时间。

原文

05:56

Gary Marcus@GaryMarcus

白宫要求OpenAI推迟发布GPT-5.6，此举源于对AI潜在风险的担忧。此前Marc Andreessen和David Sacks曾阻止严格监管，但近期白宫态度转变。专家Gary Marcus指出，当前监管缺乏透明度，给企业和投资者带来不确定性。他建议成立由独立科学家组成的两党委员会，制定透明标准。

行业 GPT-5.6 OpenAI White House Gary Marcus AI安全

推荐理由：白宫叫停GPT-5.6，AI监管风向变了。Marcus剖析了幕后的政治博弈，值得一读。

原文

05:54

elvis@omarsar0

Viktor 是一款运行在 Slack 和 Teams 上的 AI 员工工具。它支持调用任意模型，不会被锁定在单一模型上。该工具集成了 3200 多种外部应用，可帮助企业自动化工作流。

AI产品 Viktor Slack Teams AI员工工具集成

推荐理由：Viktor 让你在 Slack 里用 AI 员工，不绑死一个模型，还集成了 3200+ 工具，太方便了。

原文

05:30

LangChain@LangChainAI

LangChain 推出 LangSmith 平台多项更新，包括为 Deep Agents 设计的 Rubrics（评分规则）以及编程式定义子智能体（programmatic subagents）的能力。新版本还增强了 LangSmith 的追踪与评估功能，支持用户更精细地控制和调试多智能体系统。这些更新已在上线版本中可用，开发者可直接在 LangSmith 界面中配置。

AI产品 LangSmith LangChain Deep Agents 子智能体产品更新

推荐理由：LangChain 给 LangSmith 上了新活：Deep Agents 评分规则和可编程子智能体，调试多智能体更方便了，搞 Agent 开发的可以看看。

原文

05:06

Runway ML@runwayml

Runway 发布 Agent 2.0，用户可从简单提示直接生成完整的营销简报和活动资产。该工具还能分析性能数据以优化创意，并支持跨平台、格式和市场的扩展。Agent 2.0 定位为用于实际工作的最强自主代理。

AI产品 Runway Agent 2.0 营销自动化 AI代理内容生成

推荐理由：Runway 刚发了 Agent 2.0，能从一句话生成营销方案和素材，还能分析数据帮你优化，营销人员可以试试。

原文

04:59

elvis@omarsar0

精选

推文讨论动态工作流适用于少数用例，被视为测试时计算（TTC）的新范式。作者指出动态工作流在爬山式研究实验中表现强劲，且通过精心规划和提高推理水平可获更好结果。文章强调验证器/评审器对结果至关重要，组合不同的编码代理可取得更优效果。当需要从不同代理（如LLM委员会）获取多元视角时，动态工作流非常有用，但前沿模型尚不擅长优化地即时生成测试平台。提到了Mythos等新型模型可能更善于代理编排，且需要更多TTC基准来评估动态工作流的有效性。

技巧动态工作流测试时计算推理模型智能体 Mythos

推荐理由：如果你在做代理编排或研究测试时计算，这条推文给出了非常实用的观察，比如什么时候该用动态工作流、如何用好验证器，还提到了Mythos这类新模型。

原文

04:54

Guillermo Rauch@rauchg

Vercel 构建了一个包含技能、linter（ESLint 等）、评估和更新循环的系统，确保编码代理遵循设计标准。该系统的核心是一组自定义规则，可自动检测代码中的设计偏差（如布局、颜色主题）。他们使用 Vercel AI SDK 和 Claude 3.5 Sonnet 实现代理的实时反馈。博客详细描述了如何通过循环迭代（每次提交触发评估）持续改进代理行为。Vercel 还开源了部分组件，如 design-linter 工具包。

技巧 Vercel 设计规范编码代理 AI 代码生成自定义 linter

推荐理由：Vercel 分享了他们怎么让 AI 写代码时自动遵守设计规范——用 linter、评估循环和自定义规则。想给 AI 代码加设计约束的可以抄作业。

原文

04:52

LangChain@LangChainAI

LangChain与Fireworks AI合作，基于阿里巴巴Qwen模型微调了一个法官模型。该模型用于检测用户交互中的“感知错误”（Perceived Error）。具体微调方法和评估结果已在LangChain博客文章中发布。

AI模型 LangChain Fireworks AI Qwen 微调感知错误

推荐理由：LangChain和Fireworks用Qwen搞了个裁判模型，专门抓对话里的感知错误，挺实用的，去博客看具体数据吧。

原文

04:51

LangChain@LangChainAI

LangChain 与 FireworksAI 合作研究显示，微调后的阿里巴巴 Qwen 模型在所有规模上性能优于原版模型。与使用顶级前沿模型相比，微调模型在规模运行时可降低 10-100 倍成本，具体取决于追踪数量和模型选择。随着追踪量增长，微调模型的成本节约效果将更加显著。该结果基于对多个模型规模和基准的对比测试。

AI模型 Qwen FireworksAI 微调推理模型

推荐理由：微调 Qwen 能跑赢大模型，还省 10-100 倍成本，适合大批量任务。

原文

04:43

Stanford AI Lab@StanfordAILab

OpenJarvisAI是一个开源的个人AI代理框架，默认在本地设备上运行，仅在必要时才调用云端。它首次将能源消耗、成本和延迟作为一等指标进行优化。该项目由斯坦福大学AI实验室的Jon Saad-Falcon等人协作开发，并被Laude Institute的Slingshots // THREE项目选中。框架旨在让AI代理在保持隐私的同时实现高效推理。

AI产品 OpenJarvisAI Stanford AILab 代理框架本地AI 混合AI

推荐理由：斯坦福团队推的OpenJarvisAI，让AI代理先跑在本地、必要时才上云，还管能耗和延迟，挺实在的开源框架。

原文

04:42

Gary Marcus@GaryMarcus

精选

一项使用1720亿token的测试发现，LLM在文档问答中无法完全避免幻觉。最佳模型在32K上下文编造答案率为1.19%，强模型通常为5%-7%，中等模型约25%。当上下文扩展到200K时，所有模型编造率至少10%。研究表明幻觉不仅源于检索失败，模型在事实缺失时仍过度自信回答。

论文 LLM 幻觉文档问答上下文长度 RAG

推荐理由：别以为用文档就能让LLM老老实实回答，1.19%的幻觉率也是定时炸弹，尤其长上下文风险更高。

原文

04:03

Harrison Chase@hwchase17

精选

LangChain 发布了一个面向 JS 框架的 Agent 部署 cookbook，提供完整的全栈示例代码。内容覆盖 streaming UI、子 agent（subagents）、线程历史（thread history）以及生产环境持久化注意事项。该 cookbook 旨在帮助开发者将本地演示的 agent 快速部署到真实应用中。

技巧 LangChain JavaScript agent 部署教程

推荐理由：想把 LangChain agent 从本地搬到线上？这份 cookbook 手把手教你用 JS 做全栈，连 streaming UI 和子 agent 都配好了。

原文

03:55

Guillermo Rauch@rauchg

Grok Imagine Video 在 Vercel AI Gateway 中占比约50%，成为开发者使用最多的视频生成模型。Vercel AI Gateway 提供多种模型接口，Grok Imagine Video 凭借生成速度和画质获得领先。该数据来自 x.com 上 Vercel CEO 的推文。目前该推文获得28条评论、146个点赞和约1.4万次浏览。

AI产品 Grok Imagine Video Vercel AI Gateway 视频生成

推荐理由：Grok Imagine Video 在 Vercel 上占了一半视频生成量，效率很高，开发者可以多用用

原文

03:54

Mustafa Suleyman@mustafasuleyman

精选72°

Microsoft 发布 MAI-Image-2.5，在 Artificial Analysis Image Arena 文本到图像基准中排名第2，仅次于 OpenAI 的 GPT Image 2。其图像编辑能力排名第3，仅次于 OpenAI 模型，性能与 Google 的 Nano Banana 2 相当。MAI-Image-2.5 最大输出约 1MP 分辨率，支持灵活宽高比和 32K token 上下文。定价为每千张图 $48（Flash 变体 $20），可通过 Foundry API 和 MAI Playground 使用。

AI模型 MAI-Image-2.5 Microsoft 文本到图像图像编辑多模态

推荐理由：微软新出的 MAI-Image-2.5 图像生成和编辑都很强，排名只输给 OpenAI，价格也透明，值得试试看。

原文

03:42

Mustafa Suleyman@mustafasuleyman

72°

MAI-image-2.5 在 ArtificialAnalysis 基准中文本到图像排名第二，仅次 GPT 模型，图像编辑排名第三。MAI-Image-2.5-Flash 在质量/价格比上全球领先。该模型已通过 Foundry API 提供，正逐步在 OneDrive 和 PowerPoint 中推出。用户也可在 MAI Playground 直接体验。

AI模型 MAI-image-2.5 MAI-Image-2.5-Flash Microsoft 文生图图像编辑

推荐理由：微软新图像模型 MAI-image-2.5 文本到图像只输 GPT，性价比版全球第一，可以 OneDrive 和 PPT 里直接用。

原文

03:14

elvis@omarsar0

Google 在 Gemini App 中上线了 study notebooks（学习笔记本）功能，这是一个交互式学习空间，旨在将用户的好奇心转化为真正的理解。该功能免费提供，支持全球所有语言。用户可以用它来学习有机化学或准备标准化考试等。

AI产品 GeminiApp Google 学习笔记本免费

推荐理由：Google 在 Gemini 里加了个免费学习笔记本，支持所有语言，帮你把好奇变成真理解，学生党可以试试。

原文

03:11

LangChain@LangChainAI

精选

LangChain JS 团队发布了 Agent 部署 Cookbook，包含全栈示例代码。这些示例展示了流式 UI、子代理、线程历史等功能，并附带生产环境持久化笔记。Cookbook 覆盖了多种常见 JS 框架，帮助开发者将本地 demo 的 Agent 真正部署到实际应用中。

技巧 LangChain Agent JavaScript 全栈开发部署教程

推荐理由：LangChain 出了个部署指南，教你用 JS 框架把 Agent 做成全栈应用，带流式 UI 和子代理，直接抄作业。

原文

03:09

Greg Brockman@gdb

OpenAI官方X账号称，智能体（Agents）正在公司内部快速普及，每个部门都在使用Codex执行更复杂、更长时间且跨职能的任务。该声明引用了一篇推文，展示了内部工具如何改变工作方式。这些早期用例反映了Agent工具在能力提升和广泛可用后可能重塑工作的方向。

行业 OpenAI Codex Agents 智能体编程助手

推荐理由：OpenAI自己都在用Codex智能体干活，效率提升明显。看看大厂内部怎么用AI加速工作的。

原文

03:09

Cursor@cursor_ai

精选

Cursor AI 发布推文（获得74次点赞、6621次查看）介绍其约束评估环境的方法。该推文指向博客文章，详细解释了如何通过限制环境来使模型评估分数更准确反映智能水平。

技巧 Cursor AI 编程助手评估环境模型基准

推荐理由：Cursor AI 分享了他们约束评估环境的做法，让分数更准，比一般基准更可靠，适合做模型评估的看看。

原文

03:07

Ate-a-Pi@svpino

Santiago Valdarrama 分享智能体自我改进的三个途径：模型层（仅适用于代码和数学，由大实验室负责）、执行框架层（步骤、工具和安全检查，容易控制且回报大）、上下文层（纯文本记录学习内容，最易入手）。他还强调从用户纠正智能体决策的每个实例中学习，真实反馈无可替代。文章提供了明确的优先级和实操建议。

技巧智能体反馈学习 Agent系统设计上下文学习

推荐理由：想让你家智能体越用越聪明？这个线程给了三个可落地的改进方向，尤其是从用户操作中学习那块，不少人都忽略了。

原文

03:06

Ate-a-Pi@svpino

精选

Fetch.ai推出ASI:One个人代理，可访问Agentverse市场中的280万个专业代理。AgentRank算法类似Google PageRank，根据代理间调用关系动态排名。用户无需付费或注册即可通过网页免费试用。系统让个人代理自动选择最优专业代理完成任务，无需手动设置。

AI产品 Fetch.ai ASI:One Agentverse AgentRank 多代理协作

推荐理由：Fetch.ai搞了个AgentRank算法，像PageRank一样给代理排名，你的个人代理能从280万代理里挑最合适的干活，免费试用。

原文

03:05

Ate-a-Pi@svpino

新服务号称是 OpenClaw 的直接竞品，为用户提供一台 24/7 运行的专用云机器。该云代理内置浏览器访问和代码执行能力，可在本地电脑关闭时仍持续工作。它让远程用户无需配置即可完成本地同样的一切操作。

AI产品 OpenClaw 云端代理智能体远程执行

推荐理由：有人做了个 24 小时不关机的云代理，能跑浏览器和代码，出差也不用担心工作站关机了。

原文

03:04

Ate-a-Pi@svpino

作者认为，打造最强基础模型的公司未必也能做出最好的上层产品。他以AWS、Azure和GCP为例，指出最成功的云服务产品来自那些只专注核心产品的公司。在AI领域，真正的竞争优势来自不锁定单一模型并注重细节的企业。客户最终会选择那些'即开即用'的应用。

行业基础模型 AI产品行业观点云计算企业战略

推荐理由：基础模型强不等于产品强，别只盯着模型，多想想怎么让用户用得爽。

原文

03:03

Weaviate@weaviate_io

精选76°

Weaviate 1.38 正式发布，带来 HFresh（GA）磁盘向量索引，支持十亿级动态数据、低内存与可预测延迟，无需定期重建。MCP Server（GA）可让 LLM、IDE 和 AI 代理直接连接 Weaviate，并支持运行时开关写入权限。异步复制重构为单调度器集群执行，默认开启。Boost API（预览）允许查询时轻量调整结果排序，嵌套对象过滤（预览）支持 "cars.make" 路径过滤。此外新增 replica 迁移、服务端用量护栏、text2vec-digitalocean 模块等功能。

AI产品 Weaviate 向量数据库 MCP/工具开源产品版本更新

推荐理由：Weaviate 发新版本啦，HFresh 索引和大模型连接插件 MCP Server 都转正了，十亿级数据不用重建，还能运行时开关 MCP 写入，运维省心很多。

原文

03:02

腾讯混元 Tencent Hunyuan@TencentCloud

腾讯云 EdgeOne Makers 在 Product Hunt 上获得当日热门第一名。该平台允许用户像构建网页一样快速构建和部署 AI Agent，提供 3200+ 个全球边缘节点和 19 个模板，支持零厂商锁定。主打全球化部署、安全性和开发效率。

AI产品 Tencent EdgeOne Product Hunt EdgeOne Makers 腾讯云智能体

推荐理由：腾讯云新出 EdgeOne Makers，一键把 AI Agent 部署到全球 3200+ 节点，有 19 个模板起步，还零锁定，搞 Agent 的值得去看看。

原文

03:00

Allen AI (Ai2)@allen_ai

精选

Allen AI 发布了 Olmo 3（纯 Transformer）与 Olmo Hybrid（Transformer-RNN 混合）的对比研究。Hybrid 模型在长序列任务中展示了更高效的 token 处理，性能提升约15%。该研究揭示了混合架构在减少计算复杂度的同时保持了与 Transformer 相当的准确率。具体基准上，Hybrid 模型在 Long Range Arena 任务中得分高于 Olmo 3 约 8%。

AI模型 Olmo Allen AI 混合模型 Transformer-RNN 长序列

推荐理由：Allen AI 拿自家 Olmo 3 和 Hybrid 版做了实测对比，看混合模型到底比纯 Transformer 好在哪，结果挺有意思。

原文

02:58

Gary Marcus@GaryMarcus

Anthropic工程师在一场40分钟工作坊中展示了如何利用循环（loops）构建可运行数天的AI智能体。他们透露，Anthropic内部30%以上的代码已由循环编写，这极大加快了交付速度。工作坊拆解了智能体循环、工具调用、记忆管理和子智能体等核心组件。该方法被视为神经符号AI的典型应用，在持久任务执行上明显优于传统无循环生成式方法。

技巧 Anthropic 智能体 Agent循环工作流代码生成

推荐理由：Anthropic工程师手把手教你用循环搭建能跑好几天的智能体，内部30%代码都这么写，比大部分500美元的vibe编程课实在。

原文

02:57

Gary Marcus@GaryMarcus

神经符号代理（以Codex为例）的任务表现显著优于纯聊天机器人。Ethan Mollick引用的数据以OpenAI为风向标，展示了技术发展方向。聊天机器人时代已经结束，基于代理的系统正向工程以外的任务扩展。技能有望成为企业标准化AI使用的工具。

AI模型 Codex OpenAI 智能体神经符号

推荐理由：Codex这类神经符号代理比纯聊天机器人强得多，Ethan Mollick用OpenAI数据说明代理系统即将全面铺开，搞AI的不妨看看。

原文

02:56

AK@_akhaliq

开发者使用GLM 5.2模型在hf-claude环境下，为9B参数的Ornith-1.0-9B模型搭建了一个Gradio服务器应用。该推文获得3条回复和3197次浏览。应用通过Gradio界面提供交互式推理，可直接测试模型的文本生成能力。代码可能开源，用户可自行部署。

技巧 GLM 5.2 hf-claude Ornith-1.0-9B Gradio 模型部署

推荐理由：有人用GLM 5.2和hf-claude给Ornith-1.0-9B做了个Gradio界面，直接就能上手试，省了写前端代码的功夫。

原文

02:55

Replit@Replit

Replit 宣布其 Agent 现在支持超过 450 种集成，覆盖支付、消息、数据、CRM、设计工具和分析等类别。用户只需描述需求，Agent 即可自动配置连接，无需手动设置。该更新大幅扩展了 Replit 作为 AI 编程平台的应用场景。

AI产品 Replit Agent 集成编程助手

推荐理由：Replit Agent 能帮你自动连上支付、发消息、查数据等 450 多个工具，说句话就行，省去手动配置的麻烦。

原文

02:46

OpenRouter@OpenRouterAI

精选

OpenRouter 正式推出官方 MCP 服务，让 AI 代理能实时查询模型定价、基准成绩和流行度数据。该服务可避免代理在代码中硬编码错误的模型 slug。视频演示显示代理能够动态选择模型、获取价格并测试性能。这使代理不再依赖六个月前的训练数据猜测模型选择。

AI产品 OpenRouter MCP 模型定价基准测试代理工具

推荐理由：OpenRouter 出了个 MCP，你的代理能实时查模型价格和排名，再也不怕写错模型名了。

原文

02:45

a16z@a16z

11x的AI销售代理（revenue agents）已为其客户产生了数亿美元的销售管道（pipeline）。a16z与CEO Prabhav Jain访谈，详细披露了11x内部使用的全套AI代理栈，这些内部代理帮助公司高效运作，从而将更多时间用于为客户构建代理。内部AI栈包括多个专门化代理，覆盖销售、运营等环节，实现了自动化流程。

行业 11x AI代理销售管道企业AI a16z

推荐理由：11x用AI代理帮客户赚了数亿美元，还把自己内部的AI运营栈公开了。想看看企业怎么用AI跑销售管道的，这篇访谈别错过。

原文

02:36

Epoch AI@EpochAIResearch

EpochAIResearch团队爬取了六家中国主要AI公司的1600多份招聘信息，分析其战略方向。研究涉及百度、阿里巴巴、腾讯、华为、字节跳动和DeepSeek等企业。数据显示这些公司正加大在AI基础设施、基础模型和行业应用方面的投入。招聘职位集中在算法、工程和产品领域，反映出对全栈AI人才的争夺。

行业 EpochAIResearch 中国AI公司招聘信息行业分析人才竞争

推荐理由：EpochAIResearch用1600+招聘信息扒出中国六大AI公司的真实布局，不看报告不知道他们在抢什么人。

原文

02:25

Paul Graham@paulg

Paul Graham 在 X 平台发帖，将不使用LLM写作类比为有汽车和起重机却选择跑步和举重。该推文获得214次点赞、21次转发和36次引用。他认为逃避LLM写作是个人选择而非落后，这一类比引发关于AI写作工具的讨论。

行业 Paul Graham LLM AI写作观点

推荐理由：Paul Graham 用一个跑步举重的比喻，解释了为什么有人不用AI写作不是傻，而是个人选择。挺有意思的观点。

原文

02:24

Paul Graham@paulg

Paul Graham在推文中表示，未来不依赖LLM（如GPT-4o）写作将是不常见的选择，但不会是古怪的异类，而是所有关注思维质量的人会做的事。Joe Weisenthal回复称，这种做法将类似于在新城市拒绝用Google Maps导航——对绝大多数人而言完全不可理解。这条讨论聚焦LLM对写作和思考习惯的长期影响。

行业 Paul Graham LLM 写作 AI写作思考习惯

推荐理由：Paul Graham聊LLM写作潮流，说不用反而可能才是聪明人，和Google Maps类比很有意思。

原文

02:18

Fireworks AI@FireworksAI_HQ

Fireworks与Faros_AI联合对211个真实软件工程任务进行了评估。Claude Code搭配GLM-5.2的Judge得分0.568，每任务耗时321秒，成本0.92美元。对比组Claude Code + Opus 4.8得分为0.521、耗时775秒、成本1.76美元；Codex + GPT-5.5得分为0.466、耗时392秒、成本2.06美元。评测基于Faros自有代码库而非公开基准，更贴近实际开发场景。

AI模型 GLM-5.2 Claude Code Opus 4.8 GPT-5.5 编程助手

推荐理由：Fireworks和Faros拿真实工程任务实测GLM-5.2，结果比Opus 4.8和GPT-5.5都更便宜更快，得分还高。想为代码任务选模型可以看看这个。

原文

02:16

vLLM@vllm_project

精选

vLLM 宣布 Day-0 支持 Liquid AI 的 LFM2.5-230M 小模型。该模型仅 230M 参数，预训练于 19T tokens 且支持 32K 上下文。专为手机、机器人、家庭自动化和网络设备上的 agent 任务设计。可运行于 CPU、NPU 和 GPU 等硬件。

AI模型 LFM2.5-230M vLLM Liquid AI 智能体轻量模型

推荐理由：vLLM 第一时间给 Liquid AI 的 LFM2.5 小模型做了适配，230M 参数跑 agent 任务，手机、机器人上都能用。

原文

01:57

Google DeepMind@GoogleDeepMind

74°

Google DeepMind 宣布 Gemini 3.5 Flash 新增原生计算机使用能力。开发者可利用该内置工具构建能跨浏览器、移动端和桌面界面观察并执行操作的定制智能体。该功能无需额外适配即可直接操控 GUI 元素。

AI模型 Gemini 3.5 Flash Google DeepMind 智能体计算机使用

推荐理由：DeepMind 给 Gemini 3.5 Flash 加了个内置计算机操作工具，开发者能直接让模型看屏幕、点按钮，跨浏览器和桌面都行。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。