全部 AI 动态 · AI 热点

6月25日

15:18

Cursor@cursor_ai

Cursor 发布了 Notion 集成功能，基于 Cursor SDK 构建。每个云代理使用与 Cursor 相同的模型和运行时。用户可以在 Notion 中 @Cursor 并分配任务，它能自动打开一个 PR 供团队审查。该功能让开发者无需切换工具即可启动代码任务。

推荐理由：Cursor 的 Notion 插件能让你直接在项目管理里跑代码任务，自动开 PR，团队协作更方便。

原文

14:45

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 与 Harvey 合作研究发现，将前沿闭源模型（如 Opus 4.8）作为顾问代理，与微调的开源工作代理结合，在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8，该混合方案成本降低40-67%。该方法简单部署即可提升效果，为模型调用提供新思路。

AI模型 Fireworks AI Harvey Opus 4.8 开源模型推理模型

推荐理由：Fireworks AI 的实验证明，把闭源大模型当参谋、开源模型当打手，效果更好还省40%-67%的钱，值得关注。

原文

12:54

Naval@naval

Naval 在推文中提出核心原则：当 AI 承担写作任务时，也应承担阅读任务，以形成完整的信息处理闭环。这条推文获得了 86 条评论和 25 次转发，引发业界对 AI 角色分工的讨论。观点暗示当前 AI 写作常依赖人类过滤输入，而理想状态应是 AI 自主处理输入与输出。

行业 Naval AI写作 AI阅读自动化

推荐理由：Naval 说了句大实话：AI 写东西就该自己读，别老让人替它筛信息。

原文

12:03

Pika Labs@pika_labs

精选72°

Pika Labs发布Seedance 2.0版本，支持原生4K分辨率视频生成。新版本通过Pika MCP接口提供，无需额外插件。该功能面向所有用户开放，无需等待名单。

AI产品 Pika Seedance 2.0 视频生成 4K

推荐理由：Pika 出了 Seedance 2.0，直接生成原生4K视频，效果比之前更清晰，用 MCP 就能用，快去试试。

原文

12:00

Yangyi@Yangyixxxx

用户分享使用AI学习《说文解字》的经验，指出AI能清晰解释“读若”和“反切”等音韵概念。AI从上古声、中古声到平上去入四声的演变，以及清浊声母导致阴阳平声的演化过程，都讲得十分清楚。用户建议通过多追问保持独立思考，可规避AI的幻觉。

技巧说文解字读若反切音韵学古籍辅助

推荐理由：有人试了用AI学《说文解字》的音韵，从反切到声调演变，讲得比百度清楚多了，还能追问防幻觉，值得试试。

原文

11:59

shao__meng@shao__meng

Liblib 和 GenSpark 被认为是两个难以理解的 AI 应用团队，他们依靠极快的迭代速度在模型能力的夹缝中保持领先。这种策略要求团队全速前进，无法分心从事 side project 或研究，否则会与速度要求产生矛盾。观察者担忧，他们要么在夹缝中撞线成功，要么被模型本身的进化速度所碾压。

行业 Liblib GenSpark AI应用创业竞争策略

推荐理由：看看 Liblib 和 GenSpark 怎么在模型巨头夹缝里狂奔，速度就是一切，但能跑多远谁也不知道。

原文

11:54

Geek@geekbb

ChatHub项目推出融合模式，允许一组模型并行作答，再由评审模型综合生成更优答案。该模式支持16家LLM提供商的免费额度，合计约每月17亿Token。用户需要逐个添加API key，项目暂不支持批量导入。

技巧融合模式多模型并行免费额度 API key 评审模型

推荐理由：这个项目能同时调用多个模型并行答题，再由评审模型挑最优，还能把各厂商免费额度凑一起用，每月17亿Token呢。

原文

11:48

宝玉@dotey

88°

Anthropic 指控阿里巴巴旗下通义千问实验室在4月22日至6月5日期间，通过约25,000个虚假账号对 Claude 进行了超过2880万次交互，目标锁定 Claude 的软件工程和 Agent 推理能力。这一规模是今年2月 Anthropic 点名的 DeepSeek、MiniMax 和 Moonshot AI 三家总交互量（1600万次）的近两倍。所谓蒸馏攻击指利用对手模型输出训练自有模型，绕过独立研发成本。Anthropic 称这是系统性、工业化规模的能力收割。该事件恰逢美国商务部以国家安全为由限制 Anthropic 的 Fable 5 和 Mythos 5 模型访问，Anthropic 处境复杂。

行业 Anthropic Claude 通义千问阿里巴巴蒸馏攻击推理模型

推荐理由：Anthropic 跑出来告状了，说阿里用了两万多个假账号狂薅 Claude 的羊毛，次数比之前三家加起来还多一倍，还牵扯到美国商务部自己的限制令，挺拧巴。

原文

11:36

AI Will@FinanceYF5

Reflection 与 SpaceX 签署了一项价值 63 亿美元的算力协议。根据协议，Reflection 将立即获得 GB300 资源用于训练开源模型，并从 2026 年 7 月 1 日起至 2029 年每月向 SpaceX 支付 1.5 亿美元。该协议由 CNBC 首次披露，涉及 SpaceX 在 AI 算力领域的重大商业合作。

行业 SpaceX Reflection 算力协议 GB300 开源模型

推荐理由：SpaceX 和 Reflection 签了 63 亿美元的大单，提供 GB300 算力给训练开源模型，从 2026 年每月付 1.5 亿，挺大的动静。

原文

11:35

AI Will@FinanceYF5

91°

OpenAI 新语音模型 Bidi 1 首次曝光，支持双向语音交互：用户说话时模型同时监听，中途打断可立刻切换任务。实时翻译能力与上下文记忆均优于现有 Advanced Voice（高级语音模式）。该模型已小范围推送，ChatGPT 设置中可选，气泡变黄色即为 Bidi 1。后续将推出 Codex 版本。

AI模型 Bidi 1 OpenAI 语音模型实时翻译 ChatGPT

推荐理由：OpenAI 出了新语音模型 Bidi 1，你说它听，还能打断换话题，实时翻译也更强，快去 ChatGPT 设置里试试。

原文

11:34

AI Will@FinanceYF5

76°

据TestingCatalog爆料，OpenAI正在测试名为Bidi 1的双向语音模型。该模型支持用户在说话时同时说话并继续监听，可在句子中间来回切换任务。Bidi 1能更好地处理打断和停顿，并保持对话上下文记忆。模型有持续时间上限，但可连续计数到23不暂停。Bidi 1尚未可用，但预计很快登陆ChatGPT和Codex。

AI模型 Bidi 1 OpenAI ChatGPT Codex 语音模型

推荐理由：OpenAI的新语音模型Bidi 1能边听边插话，还能中途换任务，比现在强多了。

原文

11:34

AI Will@FinanceYF5

Higgsfield在2025年4月上线网页平台，围绕“镜头控制”重构产品。5月加入特效库，首月实现$10M ARR。这标志着AI视频从单纯生成转向更可控的方向。

AI产品 Higgsfield 视频生成镜头控制

推荐理由：Higgsfield这次聚焦镜头控制，网页平台加特效库，首月就做到1000万美元ARR，AI视频终于能精准操控画面了。

原文

11:33

AI Will@FinanceYF5

81°

Gemini 3.5 Flash 现在能直接看屏幕、理解内容，并跨浏览器、手机、桌面执行操作，无需额外接入其他模型。安全方面加入了 prompt injection 对抗训练，敏感操作需用户确认，检测到注入攻击时自动停止任务。企业可用它做自动化测试和跨平台知识工作。

AI模型 Gemini 3.5 Flash AI Agent 跨平台屏幕理解 AI安全

推荐理由：谷歌给 Gemini 3.5 Flash 加了个能直接操控电脑屏幕的智能体，跨平台执行任务，还自带防注入安全机制，挺实用。

原文

11:27

向阳乔木@vista8

谷歌在六月推出了Open Knowledge Format（OKF）规范。该规范使用Markdown加YAML frontmatter将知识组织成可版本控制的文件包。这种格式被设计为AI Agent可直接消费的格式。Codex将一篇文章中的项目整理成OKF格式并添加到系统记忆索引中。

AI产品 Google Open Knowledge Format Markdown YAML Codex

推荐理由：谷歌搞了个OKF规范，用Markdown加YAML打包知识，Agent直接就能用，Codex已经开始用它整理项目了。

原文

10:56

Geek@geekbb

名为 pi-atlas 的扩展从本地会话日志生成交互式仪表盘，展示成本、语言、模型、项目、工具调用和 Token 用量。支持今日、7天、30天和全部时间范围。用户可在 pi 终端内直接查看 AI 使用统计，无需离开命令行。

AI产品 pi pi-atlas AI 仪表盘 Token用量成本追踪

推荐理由：在终端里就能监控自己用了多少 AI Token 和花了多少钱，不用切网页，很方便。

原文

10:55

Geek@geekbb

一个开源项目整合了16家LLM提供商的免费额度，合计每月约17亿Token。其中Google AI Studio提供Gemini 2.5 Flash和Pro的免费API，速率限制高达1M tokens/min，无需信用卡。该工具可避免支付高额API费用，适合批量测试和轻量级应用。

技巧 Gemini 2.5 Flash Gemini 2.5 Pro Google AI Studio 开源项目免费API额度

推荐理由：把各大厂的免费额度集中起来用，尤其Google那1M tokens/min的免费API太香了，零成本搞推理。

原文

10:54

宝玉@dotey

decode-codex 是一个开源项目，包含两个 Skills：codex-app-ref-refresh 用于解包已安装的 Codex.app（app.asar）到 ./ref 目录；deobfuscate-javascript 用于将 ref/webview/assets 中的 JS 反混淆为可读代码并输出到 ./restored。使用时需先确保本地安装 Codex App，然后依次执行两个 Skills，其中 deobfuscate-javascript 步骤需配合 /goal 参数才能还原大部分文件。项目地址在 GitHub，建议 fork 后自己测试。

技巧 Codex decode-codex 反编译 JavaScript 反混淆编程助手

推荐理由：如果你 token 多到没处花，又想研究闭源 coding agent 的内部代码，这个项目让你亲自动手反编译 Codex App，把混淆的 JS 变成人能读懂的代码。

原文

10:48

AI Will@FinanceYF5

精选

LatentMAS提出让多智能体在隐空间直接传递推理状态，跳过文字编解码。该方法在多个基准上准确率提升13.3%，推理速度提高4.3倍，token用量减少83.7%。LatentMAS无需额外训练，可直接插入现有LLM使用，入选ICML 2026 Spotlight论文。

AI模型 LatentMAS 智能体 ICML 推理模型多智能体

推荐理由：这个新方法让多智能体能悄悄交换推理状态，不用写文字，又快又省token，直接插进现有LLM就能用。

原文

10:30

AI Will@FinanceYF5

精选73°

LatentMAS 论文已被 ICML 2026 接收为 spotlight 展示。该方法让 LLM 智能体直接通过隐藏嵌入进行推理和通信，无需文本解码或额外训练。在复杂推理任务上准确率提升最高达 14.6%，推理速度提高 4-4.6 倍，输出 token 使用减少 70.8%-83.7%。采用自回归潜在思维、KV-cache 传输等机制实现无训练协作。该技术可即插即用于现有 LLM，推动多智能体系统从文本交流转向潜在空间协同思考。

论文 LatentMAS ICML 多智能体系统潜在推理 LLM

推荐理由：ICML 2026 spotlight！这帮人让多智能体在潜在空间用思想沟通，不用说话，比传统文本交互快4倍，准确率还高14.6%。

原文

10:25

shao__meng@shao__meng

精选

Matt Pocock 在开源 Skills 系列中增加了新技能「loop-me」，目前处于 in-progress 阶段。该技能在多轮会话中利用当前目录作为有状态工作区，通过「拷问」方式将想法转化为可落地的 workflows/*.md 规格文件。loop-me 与已有的 grill-me 共享拷问纪律，但产出不同：grill-me 对齐任意计划，loop-me 只产出 workflows/*.md。其核心是识别用户生活中可预测的重复模式（职业节奏、早晨例行等），并主动发现用户未意识到的任务，从而委托给 AI agent。项目在 GitHub 上已有 165K star。

技巧 loop-me Skills 智能体工作流提示词工程

推荐理由：如果你总在做重复的杂事，这个新技能 loop-me 能帮你把流程写成规格，然后让 AI 接手，省下大把时间。

原文

10:09

berryxia@berryxia

PP-OCRv6已正式上架Hugging Face平台。本次更新新增transformers和ONNX Runtime两个推理后端，用户可以通过统一API在不同框架间无缝切换。相比PP-OCRv5，PP-OCRv6在字符识别精度上有进一步提升。该版本尤其适合希望在transformers生态中直接使用高性能OCR的开发者。

AI模型 PaddleOCR PP-OCRv6 Hugging Face transformers OCR

推荐理由：PaddleOCR的PP-OCRv6上HF了，支持transformers和ONNX Runtime双后端，切换框架不用改代码，超实用。

原文

10:07

berryxia@berryxia

71°

Anthropic向美国白宫提交申请，指控阿里巴巴通过创建近25,000个假账户与Claude进行了2880万次对话（2026年4月22日至6月5日），以蒸馏其模型。Anthropic已屏蔽中国访问，但阿里巴巴仍绕过限制。该事件涉及AI模型安全与跨国竞争问题。

行业 Anthropic Claude 阿里巴巴模型蒸馏 AI安全

推荐理由：Anthropic告状说阿里用两万五假账号和两千八百万次对话薅Claude羊毛，这官司有意思。

原文

09:54

Aravind Srinivas@AravSrinivas

Perplexity推出Computer for Counsel功能，将计算机与律师日常使用的法律研究数据库、文档工具和案件管理系统连接。该功能可从中立AI（midpageAI）、LegalZoom、Docusign、NetDocuments等平台拉取可引用来源。面向所有Pro和Max订阅用户开放。

AI产品 Perplexity Computer for Counsel 法律研究文档工具

推荐理由：Perplexity给律师做了个工具，直接连上多个法律数据库和文档平台，查资料不用来回切换了。

原文

09:42

shao__meng@shao__meng

精选73°

文章区分了内层 agent loop 与外层 harness loop，内层由模型判定“完成”结束，外层由 harness 续接任务。作者指出循环会放大 LLM 代码的过度防御倾向，当前 harness 产出的代码反而不如去年秋天。有效领域包括移植（如 Bun 从 Zig 到 Rust）、性能探索和安全扫描，共性是不产生需长期维护的代码。深层隐忧是认知依赖与判断力让渡，工程师可能丧失不借机器理解代码的能力。

行业 Loop Engineering LLM Claude Code 判断力认知依赖

推荐理由：Mitsuhiko 深入剖析了 Loop Engineering 的两层循环，指出循环会放大 LLM 代码的缺陷，并讨论了我们可能失去判断力的风险。对 AI 编程陷阱感兴趣的朋友值得一看。

原文

09:30

Jerry Liu@jerryjliu0

精选

Unlimited OCR是百度开源的OCR模型，总参数量3B，仅500M激活。它在表格解析和阅读顺序方面表现优秀，在OmniDocBench v1.5和v1.6上达到SOTA。核心创新是Reference Sliding Window Attention（R-SWA），能保持恒定KV缓存大小，单次前向传递处理40+页文档。与PaddleOCR-VL-1.6对比显示，它在语义格式和图表方面略有不足。

AI模型 Unlimited OCR Baidu PaddleOCR-VL-1.6 OCR 开源模型

推荐理由：百度开源了Unlimited OCR，3B参数却只有500M激活，表格解析超强，能一次性读完40页文档，比PaddleOCR-VL-1.6强在表格和阅读顺序上。试试看？

原文

09:27

AI Will@FinanceYF5

Google Flow 新功能接入 Google Street View，AI Agent 能直接调用 Google Maps 的实景数据。用户输入具体地点后，Flow 可将虚拟物体（如水母）或角色锚定到真实街景中生成图片或视频。目前该功能仅限美国地区的 Street View 数据。演示表明画面与现实场景融合度高。

AI产品 Google Flow Street View Google Maps 视频生成智能体

推荐理由：Google Flow 现在能让你把水母或角色直接放到家门口街道上，调用真实街景生成画面，玩法很新鲜。

原文

09:25

向阳乔木@vista8

推文将Agent定义为数字化、可随时调用、趋近免费的劳动力。作者提醒不要把人力和Agent的价差当成商业模式。上下文、注意力、信任和品牌不会因模型变便宜而贬值。AI时代人的技能不重要，积极好奇、灵活性和自驱力才是核心。

行业智能体 AI时代劳动力生产要素

推荐理由：Vista8说Agent是新劳动力，别只盯着人机价差，上下文和信任才是真资产。

原文

08:42

lmarena.ai@lmarena_ai

精选72°

Wan-2.7 I2V在视频生成竞技场中取得第5名，得分1,434。该排名来自与顶级模型的一对一对决，由全球用户在其创作任务中投票选出。它超越了Grok Imagine Video（720p）和所有Google Veo-3.1变体。该模型支持文本、图像、音频和视频的多模态控制，以及最多5个参考输入的角色自定义。阿里通义万相团队还提供了视频编辑、克隆、重风格化等全栈工具。

AI模型 Wan-2.7 Alibaba Video Arena 视频生成多模态

推荐理由：阿里通义万相出了个新视频模型Wan-2.7，在Video Arena排第5，干掉了Grok和Veo，视频创作能力挺强，可以试试。

原文

08:26

Jerry Liu@jerryjliu0

精选

Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5，仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀，在表格处理上表现一般，图表能力有限。这些结果展示了该价格区间内模型的竞争力。

AI模型 Mistral OCR GPT-5.5 Gemini 3.1 Pro ParseBench OCR

推荐理由：Mistral OCR 在 ParseBench 上打败了 GPT-5.5，离 Gemini 3.1 Pro 也不远，价格还便宜，做文档解析很值。

原文

08:24

AK@_akhaliq

用户使用 GLM 5.2 模型在 hf-claude 框架下，为图像生成模型 krea-2-turbo 构建了一个 Gradio 交互界面。该工作流允许通过 Gradio 直接调用 krea-2-turbo 进行图像生成，无需复杂命令行操作。演示视频显示界面支持实时参数调整，如步数、引导尺度等。目前该项目已在 GitHub 上开源，提供了完整的代码和部署说明。

技巧 GLM 5.2 hf-claude krea-2-turbo Gradio 工作流

推荐理由：教你用 GLM 5.2 + hf-claude 给 krea-2-turbo 搭个 Gradio 界面，省去命令行繁琐，上手即用。

原文

08:10

@hebbia@hebbia

行业 Nebius Group 云基础设施 AI商业化 $NBIS

推荐理由：Nebius Group的云基础设施收入暴涨33倍，说明AI公司正在疯狂砸钱建算力，想了解AI商业化到底多热可以看看。

原文

07:59

Fireworks AI@FireworksAI_HQ

Fireworks AI 与 Cursor 合作，让用户在 Cursor 中即可切换至最新的开源前沿模型 GLM 5.2，无需更换编程工具。该模型在多项评估中获得提升，具体基准成绩见原文链接。这意味着开发者可以轻松尝试 GLM 5.2 的代码能力，而无需离开日常使用的 AI 编程助手。

AI模型 GLM 5.2 Cursor Fireworks AI 开源模型编程助手

推荐理由：Fireworks 和 Cursor 联手，让你直接在 Cursor 里换用最新的 GLM 5.2 模型，省去切换工具的麻烦。

原文

07:54

宝玉@dotey

作者分享处理播客访谈整理时细节遗漏的技巧：同时让AI生成2-3份稿子，挑选一份质量最好的作为底稿，再把其他稿子内容合并进来。这样既能避免遗漏，也能防止单次生成糟糕时追问无法补救。另外，对于长达3小时的播客，连续追问3次左右“还有什么细节需要补充”也能改善质量，但不如多稿合并方法高效。

技巧提示词工程工作流 AI写作整理技巧

推荐理由：教你怎么用多稿合并法搞定AI整理长访谈，比单一追问更省心，写稿不漏细节。

原文

07:33

@koltregaskes@koltregaskes

72°

Gemini 3.5 Pro 发布推迟至7月，多个 Google DeepMind 关键研究人员已跳槽至 Anthropic 等竞争对手。在顶级模型排行榜上，Gemini 目前位列第三，与 Claude 和 ChatGPT/Codex 差距明显。Google 拥有远超对手的资源，但 Gemini 的表现和人才流失反映出内部问题。

AI模型 Gemini Google DeepMind Anthropic Claude 模型排行榜

推荐理由：谷歌的Gemini 3.5 Pro要拖到7月了，DeepMind的人还在往外跑，Anthropic趁机挖人。现在Gemini在排行榜上被Claude和ChatGPT甩开，看看这个局面多尴尬。

原文

07:30

ChatGPT@ChatGPTapp

88°

OpenAI 推出 GPT-5.5 Instant 模型，声称更智能、更直观、对话更有趣。模型首先面向 Pro 和 Plus 用户开放，免费用户预计明天可用。当前推文获得 141 条评论、115 次转发和 2149 个点赞。

AI模型 GPT-5.5 Instant OpenAI 智能对话推理模型

推荐理由：OpenAI 发了新的 GPT-5.5 Instant，对话更聪明更自然，Pro 和 Plus 用户现在就能用，免费用户明天也能体验到。

原文

07:27

Weaviate@weaviate_io

精选

Engram 是 Weaviate 的记忆系统，能主动协调冲突信息。当用户从机器学习工程师晋升为 CEO，Engram 不会简单叠加两条记忆，而是先用 LLM 工具调用判断行动：重写旧记忆为“用户曾是工程师，现升为 CEO”，并删除新重复记忆。这样避免了记忆冗余，保持历史连贯，防止智能体上下文被矛盾事实污染。

AI产品 Engram Weaviate 记忆协调智能体上下文管理

推荐理由：Weaviate 的 Engram 解决了 AI 记忆的一大致命伤——信息冲突。不是简单存两笔，而是主动合成新版本，对做多角色 Agent 的朋友很实用。

原文

07:25

AK@_akhaliq

开发者将GLM-5.2模型集成到hf-claude环境，并基于Gradio框架创建了面向Krea-2-Turbo的工作流。该工作流提供交互界面，简化了从模型调用到结果展示的流程。项目代码已在社交媒体分享，获得初步关注。

技巧 GLM-5.2 hf-claude Krea-2-Turbo Gradio 工作流

推荐理由：有人把GLM-5.2塞进hf-claude，做了个给Krea-2-Turbo用的Gradio界面，挺实用的。

原文

07:24

elvis@omarsar0

精选

Eric Xing 等人在 arXiv（编号 2606.23991）发表论文，尝试界定 agent 与 agency 的边界。论文基于笛卡尔哲学和科幻作品，提出分析 agent 架构的五个维度：目标、身份、决策、自我调节和学习。作者认为真正的自主性要求这些结构以特定方式整合。该研究为区分简单的工具调用循环与真正的智能体提供了概念框架。

论文 Eric Xing arXiv 2606.23991 智能体 Agent定义论文

推荐理由：想搞清楚什么才算智能体？这篇论文给出了五个硬指标，比瞎猜管用多了。

原文

06:56

orange.ai@oran_ge

程序员不愿为软件付费，但老板愿意为程序员购买 Claude 和 Codex。中国人不愿为软件付费，但老板愿意为抽卡员购买 Seedance。中国 2B 市场进入历史上最有趣的 2boss 时刻，老板买单意愿强烈甚至焦虑。独立开发者愿为 Codex 付费，自媒体和短剧 OPC 也愿为 SD 付费，因为他们自己就是老板。

行业 Claude Codex Seedance AI商业化 2B

推荐理由：Oran Ge 指出 AI 挣钱的关键不是让程序员掏钱，而是让老板给程序员买工具。Claude、Codex 和 Seedance 就是例子。

原文

06:29

Ate-a-Pi@svpino

作者指出大多数AI智能体在持久记忆方面表现不佳，包括ChatGPT和Claude，它们容易忘记重要细节或抓住无关信息。这种不可靠的持久记忆是这些智能体未能达到承诺效果的关键原因之一。如果Vida能解决记忆持久性问题，作者表示愿意关注。

行业 ChatGPT Claude Vida 智能体持久记忆

推荐理由：有人吐槽现在智能体记忆太拉胯，连ChatGPT和Claude都记不住重点，看看Vida能不能搞定。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。