全部 AI 动态 · AI 热点

6月16日

21:34

LangChain@LangChainAI

LangChain 在推文中指出，agent 可能调用错误工具、跳过审批步骤、使用错误上下文或生成看似正确但实际错误的答案，即使返回“成功”响应任务也可能失败。因此生产环境中的 agent 团队不能只依赖 uptime、延迟和错误率指标。他们需要监控 agent 的完整执行轨迹，才能定位真正的问题。

技巧 LangChain agent 智能体监控生产环境

推荐理由：生产环境跑 agent 只看成功率不够，LangChain 提示要关注 agent 实际做了什么，推荐做完整轨迹追踪避免翻车。

原文

21:34

LangChain@LangChainAI

精选

LangChain 推出 Traces 功能，可记录 inputs、model calls、tool calls、outputs 和 final action。Evals 将这些学习转化为测试，用于验证下一版本是否更优。团队可借此从手动调试转向持续改进循环。LangChain 创始人 Harrison Chase 将于 6 月 24 日举办深入研讨会。

技巧 LangChain trace eval 智能体调试

推荐理由：想从手动调 bug 升级到自动化评估？LangChain 的 traces 和 evals 帮你把每次运行变成可测指标，持续优化 agent。

原文

21:33

@cb_doge@cb_doge

美国司法部表态支持xAI，要求法院驳回NAACP对其Colossus数据中心的诉讼。司法部称关闭xAI电力供应会威胁国家安全，因为Grok已被用于关键军事和国防行动。Grok是少数支持关键政府网络的AI系统之一。DOJ、xAI和密西西比州共同要求法院驳回此案。

行业 xAI Grok Colossus DOJ AI安全

推荐理由：司法部亲自下场保xAI的Colossus数据中心，称Grok已用于军方。这案子会影响AI行业格局。

原文

21:25

@cb_doge@cb_doge

美国司法部（DOJ）支持xAI，要求法院驳回NAACP针对xAI Colossus数据中心的诉讼。DOJ认为，关闭xAI的电力供应将威胁美国国家安全，因为其模型Grok已用于关键军事和国防行动。DOJ指出Grok是仅有的几个支撑政府任务关键网络的AI系统之一。DOJ、xAI和密西西比州共同请求法院撤销此案。

行业 xAI Colossus Grok DOJ 国家安全

推荐理由：DOJ出面站台，说Grok已在军队里用，切断电力会影响国家安全，这波xAI稳了。

原文

20:41

kimmonismus@kimmonismus

76°

SpaceX宣布以全股票交易收购编程助手Cursor，交易估值达600亿美元。该收购使xAI立即获得企业级编码产品，有望缩小与Anthropic的Claude Code和OpenAI的Codex的差距。然而，分析指出xAI似乎更倾向于出租数据中心作为超大规模提供商，而非追求SOTA模型。

行业 SpaceX Cursor xAI 编程助手企业收购

推荐理由：SpaceX砸600亿买下Cursor，xAI直接有了能和Claude Code、Codex竞争的编程工具，不过它好像更想当云房东。

原文

20:37

@cb_doge@cb_doge

英国铁路运营商Lumo宣布将为其整个车队安装SpaceX的Starlink卫星WiFi，计划从今年秋季开始部署。Lumo运营连接英格兰和苏格兰的东海岸主线，全线为电力列车。Starlink的低轨卫星网络旨在提供更稳定、高质量的网络连接，解决移动网络在部分路段的盲区问题。升级由Hitachi Rail、Icomera和Beacon Rail共同实施，目标提升乘客流媒体、远程办公和在线体验。

行业 Starlink Lumo 卫星互联网铁路WiFi 网络连接

推荐理由：英国铁路Lumo要给所有列车装Starlink卫星WiFi了，以后坐东海岸线看视频、远程办公不怕断网，今年秋天就开始。

原文

20:29

AlphaSignal@AlphaSignalAI

精选

MPMWorlds是一个包含95,000个2D仿真视频的基准，覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性，但无法从帧中读取位置，隐藏坐标后精度骤降。扩散模型可捕获短期几何，但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。

论文 MPMWorlds 物理模拟代码生成扩散模型视频理解

推荐理由：这篇论文用MPMWorlds测试了AI看视频写物理代码的能力，发现代码生成稳但缺位置感知，扩散模型短时准但长期漂移，混合模型效果最好。

原文

20:28

Tri Dao (FlashAttention)@tri_dao

精选

在运行大规模上下文智能体时，Qwen 3.5和Nemotron Ultra等混合模型面临Gated-DeltaNet/Mamba状态的瓶颈。一个简单洞察是加载状态并计算但不存储，可使速度提升2倍。该重计算技巧最终解锁了状态空间模型（SSM）的推测解码（spec decoding）功能。

技巧 Qwen 3.5 Nemotron Ultra Mamba SSM 推测解码

推荐理由：不用存状态，算完就扔，SSM推理直接快一倍，Qwen 3.5和Nemotron Ultra用户试试这个技巧。

原文

20:25

shao__meng@shao__meng

精选72°

LandingAI 将 Agentic Document Extraction 升级为两个 Agent Skills：document-extraction 提供 Markdown 结构化、JSON Schema 字段抽取、按文档类型拆分、按页分类等原子操作，document-workflows 则支持并行批处理、混合文档流水线、RAG 准备及 Snowflake 导出等功能。这些技能可被 Claude Code、Codex、Cursor 等编程智能体在对话中直接调用，无需手写脚本。其中大文件处理能力达约 1GB / 6000 页，并支持元素级坐标与置信度。

AI产品 LandingAI Agent Skills 文档处理 Claude Code 编程智能体

推荐理由：LandingAI 搞了两个 Agent Skills，装上后让 Claude Code 这类编程智能体直接对话里就能搭文档处理流水线，省掉你手写 API 脚本的功夫。

原文

20:16

vLLM@vllm_project

精选

Anyscale团队发布报告，介绍如何用Ray Serve和vLLM实现PD Disaggregation。该技术在AMD MI325X GPU上通过了压力测试，验证了实际性能提升。报告强调正确配置是发挥优势的关键。

技巧 vLLM Ray Serve Anyscale AMD MI325X 推理优化

推荐理由：vLLM推荐了Anyscale的这篇实战文章，讲清楚了PD Disagg在Ray Serve加vLLM上的做法，还在AMD MI325X上测过，值得搞推理部署的人看看。

原文

20:16

vLLM@vllm_project

精选73°

vLLM v0.23.0 包含 408 次提交，来自 200 位贡献者（63 位新贡献者）。主要亮点：DeepSeek-V4 在多个后端上成熟，引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified（无编码器）及 MTP 支持。还提供了多层级 KV 缓存卸载（含对象存储层）和统一的推理与工具调用解析器。

AI产品 vLLM DeepSeek-V4 Llama Gemma 4 推理引擎

推荐理由：vLLM v0.23.0 大更新，DeepSeek-V4 和 Llama 用户值得升级，新的 KV 缓存卸载能省显存，推理与工具调用解析也更顺了。

原文

19:02

kimmonismus@kimmonismus

VibeThinker-3B是仅3B参数的小模型，在AIME26上取得94.3分，在LiveCodeBench v6上Pass@1达80.2，在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder，结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明，部分可验证推理能力可被高效压缩到小密集模型中。

AI模型 VibeThinker-3B Qwen2.5-Coder 推理模型小模型代码生成

推荐理由：3B的小模型在数学和代码推理上快追上大模型了，适合部署在低算力场景，值得关注。

原文

19:01

@cb_doge@cb_doge

SpaceX 宣布以 600 亿美元全股票交易收购 AI 编程平台 Cursor。Cursor 被估值 600 亿美元，将成为 SpaceX 全资子公司。股东将获得 SpaceX A 类股票，兑换比例基于交易完成前 7 天平均股价。交易尚待监管批准，预计 2026 年第三季度完成。

行业 SpaceX Cursor 收购 AI编程

推荐理由：SpaceX 花 600 亿美元买下了 AI 编程工具 Cursor，相当于把顶级的代码生成能力纳入麾下。

原文

18:57

Patrick Loeber@patloeber

@SmithaKolan 发布了一个AI agents教程，并提供了配套的代码资源。教程内容涵盖如何构建和部署AI agents。代码资源支持实战学习，适合开发者快速上手。

技巧 SmithaKolan AI agents 智能体教程

推荐理由：SmithaKolan 的AI agents教程带代码，手把手教你搭建智能体，适合想实操的开发者。

原文

17:59

idoubi@idoubicc

作者用fastclaw和shipany-next搭建了WeClaw，一个多角色Agent产品，结合manus、character AI和openclaw特性。用户扫码接入微信ClawBot，可切换十多个角色对话，其中主打的拽姐角色由作者老婆个性化定制。她每天用拽姐聊天、八卦、安排学习计划，认为拽姐越来越懂她。产品定位工具+陪伴，尚未考虑盈利。

AI产品 WeClaw 拽姐 fastclaw shipany-next 多角色Agent

推荐理由：作者用fastclaw和shipany-next做了个微信里的多角色AI助手WeClaw，他老婆每天和自定义的拽姐聊天学习，挺有意思的。

原文

17:30

腾讯混元 Tencent Hunyuan@TencentCloud

精选

腾讯云推出AI驱动的全球体育流媒体解决方案，支持4K优化和亚秒级延迟直播。该方案提供20+语言的AI实时解说和自动集锦生成，降低制作成本。全球部署3200+节点，200 Tbps带宽覆盖70+地区，实现全天候无人值守检测和SSAI精准广告货币化。

AI产品 Tencent Cloud AI体育直播 4K流媒体视频生成低延迟

推荐理由：腾讯云这个体育流媒体方案挺强的，4K画质亚秒延迟，还能自动用20种语言解说比赛，全球覆盖也广，搞直播的可以看看。

原文

16:59

AI Will@FinanceYF5

有人让一个Fable 5智能体连续运行6天、无人干预，发现90%的用户只用了其10%的能力。Fable 5设计初衷是长时间持续运行，但多数人只把它当成快速聊天框。该实验揭示了Fable 5实际潜力远超常见用法。

技巧 Fable 5 智能体使用经验

推荐理由：别只把Fable 5当聊天框使！有人让它连续跑了6天，才发现它隐藏的本事，赶紧试试让Fable 5帮你跑长期任务。

原文

16:59

AI Will@FinanceYF5

一条推文列出了当前增长最快的五家AI公司，包括Mercor（创始人Brendan Foody、Suryamidha）、Cursor（Mntruell、Amanrsanger）、Midjourney（David Holz）、ElevenLabs（Mati Staniszewski、Piotr Dabkowski）和Wiz（Assaf Rappaport）。推文指出公司账号发布新闻，创始人账号则分享思考过程，后者对AI创业者和增长从业者是更早的信号。

行业 Mercor Cursor Midjourney ElevenLabs 创业公司

推荐理由：想知道哪些AI公司最近发展最快？这条推文直接列出了Top 5和他们的创始人，还教你从创始人账号找早期信号。

原文

16:58

AI Will@FinanceYF5

AI公司达500M ARR的速度比非AI公司快一个时代，如Mercor、Cursor、Midjourney、ElevenLabs和Wiz等。早期信号应关注创始人个人号（如BrendanFoody、Mntruell、DavidSHolz），而非公司官方账号。

行业 Mercor Cursor Midjourney ElevenLabs AI创业

推荐理由：想先人一步发现AI行业趋势？去看看Mercor、Cursor那些创始人的个人号，比公司官号更有料。

原文

16:55

ElevenLabs@elevenlabsio

PhysicsWallah为3600万印度学生提供备考服务，其AI答疑工具Ask AI发现52%学生偏好音频学习。集成ElevenLabs后，Ask AI支持Hinglish语音，更贴近学生日常表达。语音用户每次会话查询次数是非语音用户的3倍，第15天留存率2.4倍。

AI产品 PhysicsWallah ElevenLabs Ask AI Hinglish 教育科技

推荐理由：PhysicsWallah用ElevenLabs把文本答疑变成语音，支持印地英语混说，学生查询量翻3倍，留存翻2.4倍。

原文

16:40

coderabbitai@coderabbitai

CodeRabbit AI在推文中指出，AI代码审查的真正难点不在于检查PR #4306中改了哪些代码，而在于检查所有因为这次改动而间接受影响的部分。这种全局视角能发现隐藏的依赖问题和潜在回归。相比只关注变更本身，全面的影响分析更能保证代码质量。

技巧 CodeRabbit 代码审查 AI辅助开发 PR 连锁影响

推荐理由：CodeRabbit AI提了个很实在的点：别光看改了啥，还得看连带影响了啥，做代码审查的人会懂。

原文

16:34

AI Will@FinanceYF5

83°

NVIDIA 发布了 SANA-Streaming 模型，支持对长达一分钟的视频进行实时编辑。用户可以在视频播放过程中更改服装、背景、风格和场景。该模型无需等待渲染，即可直接看到修改结果。

AI模型 NVIDIA SANA-Streaming 视频生成实时编辑

推荐理由：NVIDIA 出了 SANA-Streaming，放视频时就能实时换衣服换背景，一分钟的长视频也能改

原文

16:28

Martin Fowler@martinfowler

Martin Fowler 在博客 Fragments 中分享了使用LLM编程的享受，并区分了四种LLM对话类型。他分析了AI爱好者和怀疑者之间的认知鸿沟，认为AI公司正在找到产品/市场契合。他还强调了去中心化的必要性。

行业编程助手智能体 LLM对话

推荐理由：Martin Fowler 把和LLM聊天的四种模式讲得很清楚，程序员必看，还能帮你理解AI圈里的观点分歧。

原文

16:28

宝玉@dotey

用户使用Claude Code的dynamic workflows功能完成一个简单任务，几分钟内生成了31个Agents，消耗了1.3M Tokens。该用户Pro套餐的周Token用量从11%跳升至20%（对应20倍倍率）。用户表示成本过高，希望恢复慢速但更经济的模式。

技巧 Claude Code dynamic workflows Agents Token消耗编程助手

推荐理由：Claude Code的dynamic workflows容易烧Token，一个简单任务就干掉1.3M Tokens，Pro用户周用量从11%涨到20%，用之前最好算算账。

原文

16:00

AI Will@FinanceYF5

一位行业观察者指出，当模型提供商（如OpenAI）和应用提供商分离时，消费者能获得更好的服务。如果同一家公司同时拥有两者，它会有动力最大化代币消耗而非优化效率。独立应用层会在模型之间产生竞争（如GPT-4o、Claude 3.5等），迫使模型更快、更便宜、更好，并减少客户对单一供应商的锁定。该观点引发了对AI行业垂直整合与分离的讨论。

行业模型提供商应用程序提供商垂直整合 AI生态

推荐理由：看一个有意思的行业观点：为什么模型和应用分开做对用户更有利？深入讨论垂直整合的激励问题。

原文

16:00

AI Will@FinanceYF5

Anthropic总裁Daniela Amodei在社交平台回应开发者提问，解释评估AI模型质量的核心维度。她提到模型的安全对齐能力与任务实用性是区分好坏的关键。该讨论未涉及具体基准或数字，聚焦于定性标准。

行业 Anthropic 模型评估 AI安全

推荐理由：想了解模型评估的行业视角？Anthropic高层直接聊好模型和坏模型的标准。

原文

15:58

AI Will@FinanceYF5

Anthropic总裁Daniela Amodei在社交媒体上分享了对模型质量的看法。她区分了好模型与差模型的特征。该讨论引发了行业对模型评估标准的关注。

行业 Anthropic Daniela Amodei 模型评估行业观点

推荐理由：Anthropic老大亲自聊好模型的标准，听听内部视角。

原文

15:57

Geek@geekbb

OCR Extractor 是一款 Obsidian 插件，现已支持本地 OCR 模型，无需联网即可运行。它能够从 PDF、图片等附件中提取文本，并自动保存为可搜索的 Markdown 文件。本地模型保障用户数据隐私，同时提升 Obsidian 中的文档管理效率。该插件已在 GitHub 上开源。

AI产品 Obsidian OCR OCR Extractor 本地模型插件

推荐理由：Obsidian 用户快看，OCR Extractor 现在支持本地模型了，不用联网就能把 PDF 和图片里的文字提取出来变成可搜索的笔记，隐私更好还免费。

原文

15:31

kimmonismus@kimmonismus

73°

Anthropic顶级安全团队飞往华盛顿，与特朗普政府就Claude Fable 5出口管制谈判，周一会议未达成协议。商务部长Howard Lutnick从G7峰会电话参与，Anthropic联合创始人Tom Brown和外部事务主管Sarah Heck主导讨论。核心分歧在于Fable 5的护栏能否被移除解锁更强大的Mythos能力，NSA认为可行，Anthropic认为风险被夸大。目前无下一步清晰计划。

行业 Anthropic Claude Fable 5 Mythos AI安全出口管制

推荐理由：Anthropic的Fable 5出口管制僵局，NSA和Anthropic对模型安全看法打架，局势微妙。

原文

15:02

Ate-a-Pi@svpino

一段与AI语音代理的对话显示，听者难以分辨对话对象是AI还是真人。该对话使用了Cartesia的模型，被其称为“目前世界第一”。这种自然度使得传统呼叫中心可能面临生存危机。

AI产品 Cartesia 语音合成 AI语音代理呼叫中心

推荐理由：Cartesia的AI语音模型太逼真了，和真人对话几乎没区别，呼叫中心真的要小心了。

原文

15:01

Ate-a-Pi@svpino

Google免费发布了一个完整的AI Agent示例，用于模拟新员工入职流程。该Agent支持长时间运行，可自主暂停与恢复，且不丢失上下文。示例中详细介绍了三种架构模式，帮助开发者构建持久化的AI Agent。

技巧 Google 智能体架构模式上下文保持

推荐理由：Google开了个好头，这个示例手把手教你做长时间运行的AI Agent，能暂停恢复不丢上下文，学三招架构模式，直接上手。

原文

14:57

Greg Brockman@gdb

ChatGPT 更新了照片附件功能，新附着菜单平滑过渡到相机界面，拍摄速度加快，选中图片直接进入编辑器，整个流程如单一连续动作。用户上传照片的体验显著提升。

AI产品 ChatGPT 照片附件功能更新用户体验

推荐理由：ChatGPT 刚优化了照片附件，拍照发图更流畅丝滑，快去试试

原文

14:33

AI Will@FinanceYF5

行业 YC Y Combinator 智能体垂直AI 实体经济AI

推荐理由：YC创始人总结的这6个趋势很实在，告诉你AI到底怎么在工厂、供应链里落地，以及为什么创始人都在往美国跑，值得做创业或投资的看看。

原文

14:28

AI Will@FinanceYF5

YC 2026春季批次共196家公司、395位创始人。其中95%使用AI技术，85%为AI-native（AI即产品），仅10家完全不涉及AI。本批核心关键词是“agents”（智能体），而非泛泛的AI。

行业 YC AI-native 智能体创业生态

推荐理由：有人把YC这一批196家公司全扒了一遍，数据很硬核：95%用AI，85%是AI原生，只有10家没碰AI。如果你想看AI创业最新风向，这篇别错过。

原文

14:23

AlphaSignal@AlphaSignalAI

精选

NVIDIA开源了AI技能安全扫描器SkillSpector。研究发现26.1%的已发布AI技能存在漏洞，36%包含提示注入向量。SkillSpector无需扫描恶意代码即可检测危险特性，帮助开发者避免在安装未扫描技能时的常见风险。该工具专为检查AI技能潜在安全问题设计，可集成到开发流程中。

AI产品 NVIDIA SkillSpector AI安全提示注入开源工具

推荐理由：NVIDIA开源了SkillSpector，专门扫描AI技能的漏洞和提示注入。别像99%的开发者那样不检查就直接装，先扫一下再安心用。

原文

14:22

AlphaSignal@AlphaSignalAI

精选

CUA-Gym是一个端到端流水线，通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本，包括Slack、Notion、Salesforce和Gmail克隆，并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组，覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%，与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。

AI模型 CUA-Gym Claude Sonnet OSWorld-Verified 智能体开源模型

推荐理由：CUA-Gym用三个AI智能体自动生成训练数据，省去人工标注。它克隆了94个常用软件，训练出的模型追平了Claude Sonnet 4.6，小模型3B参数达到17B效果，还完全开源。

原文

14:21

Fireworks AI@FireworksAI_HQ

Fireworks AI 与 LangChain 合作推出新方案，允许客户从应用 traces 中生成定制训练数据。该方案支持持续后训练（continuous post training），帮助企业利用自有数据建立数据护城河。研究由 LangChain Labs 与 Fireworks AI 联合开展，旨在降低 AI 定制门槛。

AI产品 FireworksAI LangChain 训练数据后训练数据护城河

推荐理由：Fireworks AI 和 LangChain 搞了个新路子：从你的 traces 里自动生成训练数据，然后持续后训练，让你真正掌控自己的 AI 和数据。

原文

14:20

AlphaSignal@AlphaSignalAI

73°

研究人员证明某些任务需要模型缩放而非数据缩放，小模型即使拥有无限数据也无法学会这些任务。原因在于神经元竞争：频繁任务优先抢占容量，稀有任务的梯度在下次更新前被覆盖，导致模型陷入学习后遗忘的循环。团队预训练了参数从4M到4B的OLMo模型，在训练中注入可控频率的新任务。只有最大的4B参数模型成功学会了稀有任务，干扰梯度几乎消失。

论文 OLMo 模型缩放梯度神经元竞争稀有任务学习

推荐理由：这项研究用OLMo模型从4M到4B参数实验，直观解释了为什么小模型学不会稀有任务——不是数据不够，是神经元竞争导致梯度被覆盖。

原文

14:18

Jeff Dean@JeffDean

Parth Asawa和Joey G发表了一篇论文，批评AI社区在安全与权力集中问题上日益走向极化。他们认为当前讨论存在虚假二分法，并提出需要改变对话方式。文章呼吁更细致地看待AI进步，避免非此即彼的立场。两位作者在X平台上分享了该论文，获得15个点赞和2152次浏览。

论文 Parth Asawa Joey G AI安全 AI治理 AI进步

推荐理由：两位研究者写文章戳破了AI安全讨论里的非黑即白。如果你也看腻了极端吵架，这篇值得翻一翻。

原文

14:18

AlphaSignal@AlphaSignalAI

微软开源了AI Engineer Coach，这是一个VS Code扩展，通过读取本地会话日志来分析AI编码习惯，所有数据完全在本地运行，不离开设备。它支持Copilot、Claude Code和Cursor等工具，将数据汇总到统一仪表盘。扩展采用45条反模式规则，覆盖提示质量与清晰度、会话卫生、代码审查、工具掌握和上下文管理5个领域。每个问题附带严重评级和具体修复建议。Skill Finder功能可识别重复提示并匹配社区技能，同时提供基于实际使用的个性化测验，从青铜到钻石等级。

AI产品 Microsoft VS Code AI Engineer Coach Copilot Claude Code Cursor 编程助手

推荐理由：想改掉AI编码坏习惯？微软开源了Coach插件，直接在VS Code里监控你的操作，找出重复的烂提示和低效操作，还能生成定制测验帮你升级。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。