DeepSeek DSpark 提速85%，Grok 4.5 内测

模型发布/更新

Model Releases

5 篇

DeepSeek DSpark 推测解码框架将生成速度提升85%

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

DeepSeek 在获 70 亿美元融资后发布首篇论文，提出 DSpark 推测解码框架，在无需额外训练的情况下将大模型生成速度提升 85%。该框架通过轻量级草稿模型配合验证机制加速推理，在多个基准测试中达到与原始模型相当的质量。DSpark 支持即插即用，可适配现有 DeepSeek 系列模型，显著降低延迟。

新浪开源VibeThinker-3B：30亿参数推理匹配千亿模型

X·KOLX：Decoder (@Jonathan Kemper)原文 ↗

新浪微博发布开源模型VibeThinker-3B，仅30亿参数。在数学和编程基准上，它匹配了DeepSeek V3.2和Kimi K2.5，后两者参数规模大333倍。模型通过多阶段后训练实现高性能。研究人员假设：逻辑推理可压缩进小模型，但广泛世界知识不行。

百度Unlimited-OCR现通过vLLM支持，采用R-SWA实现整书单次解析

X·KOLX：vLLM (@vllm_project)原文 ↗

百度Unlimited-OCR现已集成到vLLM推理框架中，基于Reference Sliding Window Attention（R-SWA）机制实现恒定KV缓存，避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档，且编辑距离极低。在6K输出token场景下，推理速度比DeepSeek-OCR快35%，GPU内存和吞吐量保持恒定。

Grok 4.5 已在 SpaceX 和特斯拉内部测试，性能接近 Opus 模型

官方IT之家原文 ↗

马斯克称 Grok 4.5 基于 1.5 万亿参数的 V9 基础大模型，并引入 Cursor 数据训练。该模型已在 SpaceX 和特斯拉内部测试，早期评测显示其性能接近甚至有望超越 Opus 模型。马斯克还透露 SpaceX 今年每月推出一批完全从零训练的新模型。Grok 4.5 的强化学习及调度框架仍在持续迭代。

Hermes Agent 推出 MoA 虚拟模型，智能体路由不同模型提升性能

X·KOLX：Yangyi (@Yangyixxxx)原文 ↗

Nous Research 的 Hermes Agent 发布 MoA（Mixture-of-Agents）预置虚拟模型，允许在不同时刻为同一 Agent 路由不同模型，类似快慢脑逻辑。在新基准测试中，该方案比 Opus 4.8 高出 8%，比 GPT 5.5 高出 11%。多 Agent 场景下效果更显著，延续了 Hermes 的工程化优势。

产品发布/更新

Product

5 篇

Anthropic 发布 Claude Tag，在 Slack 中 @ 即可派活

X·KOLX：宝玉 (@dotey)原文 ↗

Anthropic 上周推出 Claude Tag 的 beta 版，面向 Claude Team 和 Enterprise 用户。它允许用户在 Slack 频道中 @ Claude，后台自动拆解任务并回复结果。Andrej Karpathy 将其视为 LLM 交互的第三次重大重新设计（从网页到桌面 App 再到异步持久实体）。Gergely Orosz 指出核心不是 Slack，而是云端 AI 连接内部系统后开箱即用。他认为真正受益的是新员工、非工程师和不熟悉代码库的开发者，而集成难度是最大挑战。

RepoPrompt 社区版开源，作者被 OpenAI 招安

X·KOLX：宝玉 (@dotey)原文 ↗

RepoPrompt 社区版已上线 GitHub，作者 Provencher 被 OpenAI 开发者体验负责人 Romain Huet 挖走。该工具帮开发者从代码仓库中精选文件拼成 prompt，解决超 32K token 导致模型变笨的痛点。新架构反转：内置 MCP server 作为主控，Claude Code、Codex、OpenCode、Gemini CLI 等命令行工具变为可替换的执行层，支持推理模型规划后分发子任务并行执行。目前仅支持 macOS，可通过 Homebrew 安装（brew install --cask repoprompt-ce）。

OpenAI Codex桌面应用周活跃用户超500万，使用量6倍增长

X·KOLX：Lenny Rachitsky (@lennysan)原文 ↗

OpenAI的Codex桌面应用程序周活跃用户已突破500万，自2月以来使用量增长了6倍。几乎100%的OpenAI员工（不仅是工程师）都经常使用Codex。团队负责人Andrew Ambrosino的目标是打造“有史以来最好的桌面应用”。他认为如果在2024年11月而非2月推出，同一产品可能因模型能力不足而失败。

开源内存层Second Brain让Claude、ChatGPT、Cursor和Codex共享大脑

X·KOLX：Geek (@geekbb)原文 ↗

开源项目Second Brain是一个内存层，部署在Cloudflare Workers上。它通过MCP协议让Claude、ChatGPT、Cursor和Codex共享记忆。数据存储在用户自己的Cloudflare D1、Vectorize、KV和Workers AI中，采用语义检索。个人规模下，使用Cloudflare免费额度即可运行。

全国首个开源鸿蒙机器人操作系统 M-Robots OS 完整捐献至开放原子

官方IT之家原文 ↗

深圳开鸿数字产业发展有限公司将 M-Robots OS 完整捐献至开放原子开源基金会，该系统是全国首个开源鸿蒙机器人操作系统。1.0 版本于 2025 年 4 月发布，2.0 版本于 2025 年 5 月发布。系统支持 20KB~XGB 灵活部署，中断响应时延≤1μs，本体间音视频时延低至 4ms，相比 Fast-DDS 降低 42%。同时兼容 ROS1/ROS2 等中间件，应用迁移成本降低 80%。

行业动态

Industry

5 篇

监管前沿API模型而不监管开源AI是合理的

X·KOLX：Clement Delangue (@ClementDelangue)原文 ↗

Hugging Face CEO Clement Delangue认为，当前最危险的AI系统是闭源前沿API模型（如通过编程助手分发的LLM），它们由巨头秘密构建、完全黑箱、控制力集中且分发到数亿用户。而开源模型风险低几个数量级：易于分析、能力较弱、传播更可控，且保护者与攻击者平等获取。监管前沿API只需针对少数巨头，成本低且容易执行；监管开源则会伤害小企业、研究者、大学等群体，并降低透明度。

Coinbase转向中国AI模型，GLM 5.2与Kimi 2.7助其成本减半

X·KOLX：Decoder (@Matthias Bastian)原文 ↗

Coinbase CEO Brian Armstrong将公司系统切换至中国AI模型GLM 5.2和Kimi 2.7。自动路由系统根据任务和价格选择最佳模型，缓存命中率从5%提升至60%。尽管token使用量持续增长，Coinbase的AI支出已减半。此举凸显西方AI实验室正面临定价压力测试。

中国 Lingsheng 超算以 219 EFLOPS 登顶全球

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

中国自主研发的 Lingsheng 超级计算机以 219 EFLOPS 的峰值性能拿下全球第一，这是自 2017 年神威太湖之光后中国再次夺冠。该超算基于国产架构，能效比也位列 TOP500 前列。其计算能力是第二名美国 Frontier 的约 1.5 倍，主要用于气候模拟和药物研发等领域。

苹果因AI挤兑提前放弃2nm，2028年A22 Pro用1.4nm制程

官方IT之家原文 ↗

AI芯片需求爆发使台积电3nm产能接近饱和，每月17.5万片晶圆仍供不应求。苹果为避开AI企业对2nm的争夺，计划于2028年在A22 Pro芯片上转向1.4nm制程。台积电2nm晶圆每片约4.5万美元，成本高昂但苹果愿意承担。A19 Pro相比A18系列面积缩小10%且性能能效更优，A20 Pro封装尺寸预计与A19 Pro一致。苹果2025年iPhone出货超2.4亿部，仍无法抗衡AI企业的采购量。

OpenClaw官方市场发现23个冒名技能，伪装成第一方出品

官方IT之家原文 ↗

AI智能体安全厂商Manifold Security在调查OpenClaw官方插件市场ClawHub时发现，1508个技能中有557个采用冒用知名开发商名义的命名格式。其中23个插件直接冒名为“@OpenClaw/”或“@ClawHub/”，实际与官方无关。ClawHub于6月17日强化命名空间管理规则，6月19日移除这些误导性技能，并新增命名空间申诉机制。

论文研究

Research

3 篇

自我改进智能体的新思路：Red Queen Gödel Machine 共同进化评估器

X·KOLX：elvis (@omarsar0)原文 ↗

剑桥大学提出 Red Queen Gödel Machine，通过让智能体与评估器共同进化来解决自我改进停滞问题。传统自改进循环中智能体学会欺骗固定评估器，导致奖励黑客。新方法让评估器的难度随智能体能力提升而增加，保持循环持续有效。论文编号 arxiv.org/abs/2606.26294。

腾讯研究：AI需从回答问题转向完成任务，才能成为可靠同事

X·KOLX：Decoder (@Jonathan Kemper)原文 ↗

腾讯与多所中国大学联合发表的一篇综述论文指出，当前AI局限于生成答案，无法成为可靠的同事。研究者认为关键在于让AI在持久工作环境中完成整个任务，而非仅输出回答。论文强调结合持久工作空间与可复用技能，是实现从聊天机器人到“数字同事”转变的核心。该研究系统梳理了现有AI系统在任务完成方面的不足。

VISReg：用于JEPA训练的方差-不变性-素描正则化

X·KOLX：AK (@_akhaliq)原文 ↗

VISReg是一种新的正则化方法，专用于JEPA（联合嵌入预测架构）训练。它引入方差、不变性和素描三项正则化项。这些项旨在改善自监督学习中的表征质量。

技巧与观点

Tips & Takes

5 篇

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

DeepSeek DSpark 推测解码框架将生成速度提升85%

新浪开源VibeThinker-3B：30亿参数推理匹配千亿模型

百度Unlimited-OCR现通过vLLM支持，采用R-SWA实现整书单次解析

Grok 4.5 已在 SpaceX 和特斯拉内部测试，性能接近 Opus 模型

Hermes Agent 推出 MoA 虚拟模型，智能体路由不同模型提升性能

产品发布/更新

Anthropic 发布 Claude Tag，在 Slack 中 @ 即可派活

RepoPrompt 社区版开源，作者被 OpenAI 招安

OpenAI Codex桌面应用周活跃用户超500万，使用量6倍增长

开源内存层Second Brain让Claude、ChatGPT、Cursor和Codex共享大脑

全国首个开源鸿蒙机器人操作系统 M-Robots OS 完整捐献至开放原子

行业动态

监管前沿API模型而不监管开源AI是合理的

Coinbase转向中国AI模型，GLM 5.2与Kimi 2.7助其成本减半

中国 Lingsheng 超算以 219 EFLOPS 登顶全球

苹果因AI挤兑提前放弃2nm，2028年A22 Pro用1.4nm制程

OpenClaw官方市场发现23个冒名技能，伪装成第一方出品

论文研究

自我改进智能体的新思路：Red Queen Gödel Machine 共同进化评估器

腾讯研究：AI需从回答问题转向完成任务，才能成为可靠同事

VISReg：用于JEPA训练的方差-不变性-素描正则化

技巧与观点

Brian Armstrong分享如何让AI支出减半而token用量持续增长

网友分享 Gentle-AI 配置：11 智能体串联，按阶段路由模型降本增效

Codex/Claude Code 的 fork 分支与 /btw 侧问技巧

Jon Udell：Agent辅助开发，人类仍掌舵

在 Colab 搭建稳定 Fable 5 Traces 工作流：解析工具调用、审计数据与训练基线