21:34LangChain@LangChainAILangChain 在推文中指出,agent 可能调用错误工具、跳过审批步骤、使用错误上下文或生成看似正确但实际错误的答案,即使返回“成功”响应任务也可能失败。因此生产环境中的 agent 团队不能只依赖 uptime、延迟和错误率指标。他们需要监控 agent 的完整执行轨迹,才能定位真正的问题。技巧LangChainagent智能体监控生产环境推荐理由:生产环境跑 agent 只看成功率不够,LangChain 提示要关注 agent 实际做了什么,推荐做完整轨迹追踪避免翻车。原文
21:34LangChain@LangChainAI精选LangChain 推出 Traces 功能,可记录 inputs、model calls、tool calls、outputs 和 final action。Evals 将这些学习转化为测试,用于验证下一版本是否更优。团队可借此从手动调试转向持续改进循环。LangChain 创始人 Harrison Chase 将于 6 月 24 日举办深入研讨会。技巧LangChaintraceeval智能体调试2 个信源在谈推荐理由:想从手动调 bug 升级到自动化评估?LangChain 的 traces 和 evals 帮你把每次运行变成可测指标,持续优化 agent。原文
21:33@cb_doge@cb_doge美国司法部表态支持xAI,要求法院驳回NAACP对其Colossus数据中心的诉讼。司法部称关闭xAI电力供应会威胁国家安全,因为Grok已被用于关键军事和国防行动。Grok是少数支持关键政府网络的AI系统之一。DOJ、xAI和密西西比州共同要求法院驳回此案。行业xAIGrokColossusDOJAI安全1 个信源在谈推荐理由:司法部亲自下场保xAI的Colossus数据中心,称Grok已用于军方。这案子会影响AI行业格局。原文
21:25@cb_doge@cb_doge美国司法部(DOJ)支持xAI,要求法院驳回NAACP针对xAI Colossus数据中心的诉讼。DOJ认为,关闭xAI的电力供应将威胁美国国家安全,因为其模型Grok已用于关键军事和国防行动。DOJ指出Grok是仅有的几个支撑政府任务关键网络的AI系统之一。DOJ、xAI和密西西比州共同请求法院撤销此案。行业xAIColossusGrokDOJ国家安全1 个信源在谈推荐理由:DOJ出面站台,说Grok已在军队里用,切断电力会影响国家安全,这波xAI稳了。原文
20:41kimmonismus@kimmonismus76°SpaceX宣布以全股票交易收购编程助手Cursor,交易估值达600亿美元。该收购使xAI立即获得企业级编码产品,有望缩小与Anthropic的Claude Code和OpenAI的Codex的差距。然而,分析指出xAI似乎更倾向于出租数据中心作为超大规模提供商,而非追求SOTA模型。行业SpaceXCursorxAI编程助手企业收购10 个信源在谈推荐理由:SpaceX砸600亿买下Cursor,xAI直接有了能和Claude Code、Codex竞争的编程工具,不过它好像更想当云房东。原文
20:37@cb_doge@cb_doge英国铁路运营商Lumo宣布将为其整个车队安装SpaceX的Starlink卫星WiFi,计划从今年秋季开始部署。Lumo运营连接英格兰和苏格兰的东海岸主线,全线为电力列车。Starlink的低轨卫星网络旨在提供更稳定、高质量的网络连接,解决移动网络在部分路段的盲区问题。升级由Hitachi Rail、Icomera和Beacon Rail共同实施,目标提升乘客流媒体、远程办公和在线体验。行业StarlinkLumo卫星互联网铁路WiFi网络连接10 个信源在谈推荐理由:英国铁路Lumo要给所有列车装Starlink卫星WiFi了,以后坐东海岸线看视频、远程办公不怕断网,今年秋天就开始。原文
20:29AlphaSignal@AlphaSignalAI精选MPMWorlds是一个包含95,000个2D仿真视频的基准,覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性,但无法从帧中读取位置,隐藏坐标后精度骤降。扩散模型可捕获短期几何,但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。论文MPMWorlds物理模拟代码生成扩散模型视频理解推荐理由:这篇论文用MPMWorlds测试了AI看视频写物理代码的能力,发现代码生成稳但缺位置感知,扩散模型短时准但长期漂移,混合模型效果最好。原文
20:28Tri Dao (FlashAttention)@tri_dao精选在运行大规模上下文智能体时,Qwen 3.5和Nemotron Ultra等混合模型面临Gated-DeltaNet/Mamba状态的瓶颈。一个简单洞察是加载状态并计算但不存储,可使速度提升2倍。该重计算技巧最终解锁了状态空间模型(SSM)的推测解码(spec decoding)功能。技巧Qwen 3.5Nemotron UltraMambaSSM推测解码1 个信源在谈推荐理由:不用存状态,算完就扔,SSM推理直接快一倍,Qwen 3.5和Nemotron Ultra用户试试这个技巧。原文
20:25shao__meng@shao__meng精选72°LandingAI 将 Agentic Document Extraction 升级为两个 Agent Skills:document-extraction 提供 Markdown 结构化、JSON Schema 字段抽取、按文档类型拆分、按页分类等原子操作,document-workflows 则支持并行批处理、混合文档流水线、RAG 准备及 Snowflake 导出等功能。这些技能可被 Claude Code、Codex、Cursor 等编程智能体在对话中直接调用,无需手写脚本。其中大文件处理能力达约 1GB / 6000 页,并支持元素级坐标与置信度。AI产品LandingAIAgent Skills文档处理Claude Code编程智能体10 个信源在谈推荐理由:LandingAI 搞了两个 Agent Skills,装上后让 Claude Code 这类编程智能体直接对话里就能搭文档处理流水线,省掉你手写 API 脚本的功夫。原文
20:16vLLM@vllm_project精选Anyscale团队发布报告,介绍如何用Ray Serve和vLLM实现PD Disaggregation。该技术在AMD MI325X GPU上通过了压力测试,验证了实际性能提升。报告强调正确配置是发挥优势的关键。技巧vLLMRay ServeAnyscaleAMD MI325X推理优化推荐理由:vLLM推荐了Anyscale的这篇实战文章,讲清楚了PD Disagg在Ray Serve加vLLM上的做法,还在AMD MI325X上测过,值得搞推理部署的人看看。原文
20:16vLLM@vllm_project精选73°vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。AI产品vLLMDeepSeek-V4LlamaGemma 4推理引擎4 个信源在谈推荐理由:vLLM v0.23.0 大更新,DeepSeek-V4 和 Llama 用户值得升级,新的 KV 缓存卸载能省显存,推理与工具调用解析也更顺了。原文
19:02kimmonismus@kimmonismusVibeThinker-3B是仅3B参数的小模型,在AIME26上取得94.3分,在LiveCodeBench v6上Pass@1达80.2,在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder,结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明,部分可验证推理能力可被高效压缩到小密集模型中。AI模型VibeThinker-3BQwen2.5-Coder推理模型小模型代码生成推荐理由:3B的小模型在数学和代码推理上快追上大模型了,适合部署在低算力场景,值得关注。原文
19:01@cb_doge@cb_dogeSpaceX 宣布以 600 亿美元全股票交易收购 AI 编程平台 Cursor。Cursor 被估值 600 亿美元,将成为 SpaceX 全资子公司。股东将获得 SpaceX A 类股票,兑换比例基于交易完成前 7 天平均股价。交易尚待监管批准,预计 2026 年第三季度完成。行业SpaceXCursor收购AI编程10 个信源在谈推荐理由:SpaceX 花 600 亿美元买下了 AI 编程工具 Cursor,相当于把顶级的代码生成能力纳入麾下。原文
18:57Patrick Loeber@patloeber@SmithaKolan 发布了一个AI agents教程,并提供了配套的代码资源。教程内容涵盖如何构建和部署AI agents。代码资源支持实战学习,适合开发者快速上手。技巧SmithaKolanAI agents智能体教程推荐理由:SmithaKolan 的AI agents教程带代码,手把手教你搭建智能体,适合想实操的开发者。原文
17:59idoubi@idoubicc作者用fastclaw和shipany-next搭建了WeClaw,一个多角色Agent产品,结合manus、character AI和openclaw特性。用户扫码接入微信ClawBot,可切换十多个角色对话,其中主打的拽姐角色由作者老婆个性化定制。她每天用拽姐聊天、八卦、安排学习计划,认为拽姐越来越懂她。产品定位工具+陪伴,尚未考虑盈利。AI产品WeClaw拽姐fastclawshipany-next多角色Agent1 个信源在谈推荐理由:作者用fastclaw和shipany-next做了个微信里的多角色AI助手WeClaw,他老婆每天和自定义的拽姐聊天学习,挺有意思的。原文
17:30腾讯混元 Tencent Hunyuan@TencentCloud精选腾讯云推出AI驱动的全球体育流媒体解决方案,支持4K优化和亚秒级延迟直播。该方案提供20+语言的AI实时解说和自动集锦生成,降低制作成本。全球部署3200+节点,200 Tbps带宽覆盖70+地区,实现全天候无人值守检测和SSAI精准广告货币化。AI产品Tencent CloudAI体育直播4K流媒体视频生成低延迟推荐理由:腾讯云这个体育流媒体方案挺强的,4K画质亚秒延迟,还能自动用20种语言解说比赛,全球覆盖也广,搞直播的可以看看。原文
16:59AI Will@FinanceYF5有人让一个Fable 5智能体连续运行6天、无人干预,发现90%的用户只用了其10%的能力。Fable 5设计初衷是长时间持续运行,但多数人只把它当成快速聊天框。该实验揭示了Fable 5实际潜力远超常见用法。技巧Fable 5智能体使用经验10 个信源在谈推荐理由:别只把Fable 5当聊天框使!有人让它连续跑了6天,才发现它隐藏的本事,赶紧试试让Fable 5帮你跑长期任务。原文
16:59AI Will@FinanceYF5一条推文列出了当前增长最快的五家AI公司,包括Mercor(创始人Brendan Foody、Suryamidha)、Cursor(Mntruell、Amanrsanger)、Midjourney(David Holz)、ElevenLabs(Mati Staniszewski、Piotr Dabkowski)和Wiz(Assaf Rappaport)。推文指出公司账号发布新闻,创始人账号则分享思考过程,后者对AI创业者和增长从业者是更早的信号。行业MercorCursorMidjourneyElevenLabs创业公司10 个信源在谈推荐理由:想知道哪些AI公司最近发展最快?这条推文直接列出了Top 5和他们的创始人,还教你从创始人账号找早期信号。原文
16:58AI Will@FinanceYF5AI公司达500M ARR的速度比非AI公司快一个时代,如Mercor、Cursor、Midjourney、ElevenLabs和Wiz等。早期信号应关注创始人个人号(如BrendanFoody、Mntruell、DavidSHolz),而非公司官方账号。行业MercorCursorMidjourneyElevenLabsAI创业10 个信源在谈推荐理由:想先人一步发现AI行业趋势?去看看Mercor、Cursor那些创始人的个人号,比公司官号更有料。原文
16:55ElevenLabs@elevenlabsioPhysicsWallah为3600万印度学生提供备考服务,其AI答疑工具Ask AI发现52%学生偏好音频学习。集成ElevenLabs后,Ask AI支持Hinglish语音,更贴近学生日常表达。语音用户每次会话查询次数是非语音用户的3倍,第15天留存率2.4倍。AI产品PhysicsWallahElevenLabsAsk AIHinglish教育科技推荐理由:PhysicsWallah用ElevenLabs把文本答疑变成语音,支持印地英语混说,学生查询量翻3倍,留存翻2.4倍。原文
16:40coderabbitai@coderabbitaiCodeRabbit AI在推文中指出,AI代码审查的真正难点不在于检查PR #4306中改了哪些代码,而在于检查所有因为这次改动而间接受影响的部分。这种全局视角能发现隐藏的依赖问题和潜在回归。相比只关注变更本身,全面的影响分析更能保证代码质量。技巧CodeRabbit代码审查AI辅助开发PR连锁影响1 个信源在谈推荐理由:CodeRabbit AI提了个很实在的点:别光看改了啥,还得看连带影响了啥,做代码审查的人会懂。原文
16:34AI Will@FinanceYF583°NVIDIA 发布了 SANA-Streaming 模型,支持对长达一分钟的视频进行实时编辑。用户可以在视频播放过程中更改服装、背景、风格和场景。该模型无需等待渲染,即可直接看到修改结果。AI模型NVIDIASANA-Streaming视频生成实时编辑8 个信源在谈推荐理由:NVIDIA 出了 SANA-Streaming,放视频时就能实时换衣服换背景,一分钟的长视频也能改原文
16:28Martin Fowler@martinfowlerMartin Fowler 在博客 Fragments 中分享了使用LLM编程的享受,并区分了四种LLM对话类型。他分析了AI爱好者和怀疑者之间的认知鸿沟,认为AI公司正在找到产品/市场契合。他还强调了去中心化的必要性。行业编程助手智能体LLM对话推荐理由:Martin Fowler 把和LLM聊天的四种模式讲得很清楚,程序员必看,还能帮你理解AI圈里的观点分歧。原文
16:28宝玉@dotey用户使用Claude Code的dynamic workflows功能完成一个简单任务,几分钟内生成了31个Agents,消耗了1.3M Tokens。该用户Pro套餐的周Token用量从11%跳升至20%(对应20倍倍率)。用户表示成本过高,希望恢复慢速但更经济的模式。技巧Claude Codedynamic workflowsAgentsToken消耗编程助手推荐理由:Claude Code的dynamic workflows容易烧Token,一个简单任务就干掉1.3M Tokens,Pro用户周用量从11%涨到20%,用之前最好算算账。原文
16:00AI Will@FinanceYF5一位行业观察者指出,当模型提供商(如OpenAI)和应用提供商分离时,消费者能获得更好的服务。如果同一家公司同时拥有两者,它会有动力最大化代币消耗而非优化效率。独立应用层会在模型之间产生竞争(如GPT-4o、Claude 3.5等),迫使模型更快、更便宜、更好,并减少客户对单一供应商的锁定。该观点引发了对AI行业垂直整合与分离的讨论。行业模型提供商应用程序提供商垂直整合AI生态10 个信源在谈推荐理由:看一个有意思的行业观点:为什么模型和应用分开做对用户更有利?深入讨论垂直整合的激励问题。原文
16:00AI Will@FinanceYF5Anthropic总裁Daniela Amodei在社交平台回应开发者提问,解释评估AI模型质量的核心维度。她提到模型的安全对齐能力与任务实用性是区分好坏的关键。该讨论未涉及具体基准或数字,聚焦于定性标准。行业Anthropic模型评估AI安全10 个信源在谈推荐理由:想了解模型评估的行业视角?Anthropic高层直接聊好模型和坏模型的标准。原文
15:58AI Will@FinanceYF5Anthropic总裁Daniela Amodei在社交媒体上分享了对模型质量的看法。她区分了好模型与差模型的特征。该讨论引发了行业对模型评估标准的关注。行业AnthropicDaniela Amodei模型评估行业观点10 个信源在谈推荐理由:Anthropic老大亲自聊好模型的标准,听听内部视角。原文
15:57Geek@geekbbOCR Extractor 是一款 Obsidian 插件,现已支持本地 OCR 模型,无需联网即可运行。它能够从 PDF、图片等附件中提取文本,并自动保存为可搜索的 Markdown 文件。本地模型保障用户数据隐私,同时提升 Obsidian 中的文档管理效率。该插件已在 GitHub 上开源。AI产品ObsidianOCROCR Extractor本地模型插件推荐理由:Obsidian 用户快看,OCR Extractor 现在支持本地模型了,不用联网就能把 PDF 和图片里的文字提取出来变成可搜索的笔记,隐私更好还免费。原文
15:31kimmonismus@kimmonismus73°Anthropic顶级安全团队飞往华盛顿,与特朗普政府就Claude Fable 5出口管制谈判,周一会议未达成协议。商务部长Howard Lutnick从G7峰会电话参与,Anthropic联合创始人Tom Brown和外部事务主管Sarah Heck主导讨论。核心分歧在于Fable 5的护栏能否被移除解锁更强大的Mythos能力,NSA认为可行,Anthropic认为风险被夸大。目前无下一步清晰计划。行业AnthropicClaude Fable 5MythosAI安全出口管制10 个信源在谈推荐理由:Anthropic的Fable 5出口管制僵局,NSA和Anthropic对模型安全看法打架,局势微妙。原文
15:02Ate-a-Pi@svpino一段与AI语音代理的对话显示,听者难以分辨对话对象是AI还是真人。该对话使用了Cartesia的模型,被其称为“目前世界第一”。这种自然度使得传统呼叫中心可能面临生存危机。AI产品Cartesia语音合成AI语音代理呼叫中心推荐理由:Cartesia的AI语音模型太逼真了,和真人对话几乎没区别,呼叫中心真的要小心了。原文
15:01Ate-a-Pi@svpinoGoogle免费发布了一个完整的AI Agent示例,用于模拟新员工入职流程。该Agent支持长时间运行,可自主暂停与恢复,且不丢失上下文。示例中详细介绍了三种架构模式,帮助开发者构建持久化的AI Agent。技巧Google智能体架构模式上下文保持推荐理由:Google开了个好头,这个示例手把手教你做长时间运行的AI Agent,能暂停恢复不丢上下文,学三招架构模式,直接上手。原文
14:57Greg Brockman@gdbChatGPT 更新了照片附件功能,新附着菜单平滑过渡到相机界面,拍摄速度加快,选中图片直接进入编辑器,整个流程如单一连续动作。用户上传照片的体验显著提升。AI产品ChatGPT照片附件功能更新用户体验推荐理由:ChatGPT 刚优化了照片附件,拍照发图更流畅丝滑,快去试试原文
14:33AI Will@FinanceYF5YC最新一期创业公司中,AI在制造业、供应链、物流等“实体经济”领域落地,出现能在多平台可靠操作的智能体。传统中介业务正被改造为智能体运营的平台,创始人绕过官方API直接逆向工程前端来访问遗留系统。首批客户的平均合同价值(ACV)上升,创始人从第一天就瞄准企业级客户。大量国际团队在YC结束后数周内迁往美国,旧金山成为重心。还出现了由智能体“组织架构”运营、能自主改进产品的自我进化产品。行业YCY Combinator智能体垂直AI实体经济AI推荐理由:YC创始人总结的这6个趋势很实在,告诉你AI到底怎么在工厂、供应链里落地,以及为什么创始人都在往美国跑,值得做创业或投资的看看。原文
14:28AI Will@FinanceYF5YC 2026春季批次共196家公司、395位创始人。其中95%使用AI技术,85%为AI-native(AI即产品),仅10家完全不涉及AI。本批核心关键词是“agents”(智能体),而非泛泛的AI。行业YCAI-native智能体创业生态推荐理由:有人把YC这一批196家公司全扒了一遍,数据很硬核:95%用AI,85%是AI原生,只有10家没碰AI。如果你想看AI创业最新风向,这篇别错过。原文
14:23AlphaSignal@AlphaSignalAI精选NVIDIA开源了AI技能安全扫描器SkillSpector。研究发现26.1%的已发布AI技能存在漏洞,36%包含提示注入向量。SkillSpector无需扫描恶意代码即可检测危险特性,帮助开发者避免在安装未扫描技能时的常见风险。该工具专为检查AI技能潜在安全问题设计,可集成到开发流程中。AI产品NVIDIASkillSpectorAI安全提示注入开源工具7 个信源在谈推荐理由:NVIDIA开源了SkillSpector,专门扫描AI技能的漏洞和提示注入。别像99%的开发者那样不检查就直接装,先扫一下再安心用。原文
14:22AlphaSignal@AlphaSignalAI精选CUA-Gym是一个端到端流水线,通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本,包括Slack、Notion、Salesforce和Gmail克隆,并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组,覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%,与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。AI模型CUA-GymClaude SonnetOSWorld-Verified智能体开源模型5 个信源在谈推荐理由:CUA-Gym用三个AI智能体自动生成训练数据,省去人工标注。它克隆了94个常用软件,训练出的模型追平了Claude Sonnet 4.6,小模型3B参数达到17B效果,还完全开源。原文
14:21Fireworks AI@FireworksAI_HQFireworks AI 与 LangChain 合作推出新方案,允许客户从应用 traces 中生成定制训练数据。该方案支持持续后训练(continuous post training),帮助企业利用自有数据建立数据护城河。研究由 LangChain Labs 与 Fireworks AI 联合开展,旨在降低 AI 定制门槛。AI产品FireworksAILangChain训练数据后训练数据护城河推荐理由:Fireworks AI 和 LangChain 搞了个新路子:从你的 traces 里自动生成训练数据,然后持续后训练,让你真正掌控自己的 AI 和数据。原文
14:20AlphaSignal@AlphaSignalAI73°研究人员证明某些任务需要模型缩放而非数据缩放,小模型即使拥有无限数据也无法学会这些任务。原因在于神经元竞争:频繁任务优先抢占容量,稀有任务的梯度在下次更新前被覆盖,导致模型陷入学习后遗忘的循环。团队预训练了参数从4M到4B的OLMo模型,在训练中注入可控频率的新任务。只有最大的4B参数模型成功学会了稀有任务,干扰梯度几乎消失。论文OLMo模型缩放梯度神经元竞争稀有任务学习推荐理由:这项研究用OLMo模型从4M到4B参数实验,直观解释了为什么小模型学不会稀有任务——不是数据不够,是神经元竞争导致梯度被覆盖。原文
14:18Jeff Dean@JeffDeanParth Asawa和Joey G发表了一篇论文,批评AI社区在安全与权力集中问题上日益走向极化。他们认为当前讨论存在虚假二分法,并提出需要改变对话方式。文章呼吁更细致地看待AI进步,避免非此即彼的立场。两位作者在X平台上分享了该论文,获得15个点赞和2152次浏览。论文Parth AsawaJoey GAI安全AI治理AI进步推荐理由:两位研究者写文章戳破了AI安全讨论里的非黑即白。如果你也看腻了极端吵架,这篇值得翻一翻。原文
14:18AlphaSignal@AlphaSignalAI微软开源了AI Engineer Coach,这是一个VS Code扩展,通过读取本地会话日志来分析AI编码习惯,所有数据完全在本地运行,不离开设备。它支持Copilot、Claude Code和Cursor等工具,将数据汇总到统一仪表盘。扩展采用45条反模式规则,覆盖提示质量与清晰度、会话卫生、代码审查、工具掌握和上下文管理5个领域。每个问题附带严重评级和具体修复建议。Skill Finder功能可识别重复提示并匹配社区技能,同时提供基于实际使用的个性化测验,从青铜到钻石等级。AI产品MicrosoftVS CodeAI Engineer CoachCopilotClaude CodeCursor编程助手10 个信源在谈推荐理由:想改掉AI编码坏习惯?微软开源了Coach插件,直接在VS Code里监控你的操作,找出重复的烂提示和低效操作,还能生成定制测验帮你升级。原文