DeepSeek DSpark 推测解码框架将生成速度提升85%
DeepSeek 在获 70 亿美元融资后发布首篇论文,提出 DSpark 推测解码框架,在无需额外训练的情况下将大模型生成速度提升 85%。该框架通过轻量级草稿模型配合验证机制加速推理,在多个基准测试中达到与原始模型相当的质量。DSpark 支持即插即用,可适配现有 DeepSeek 系列模型,显著降低延迟。
DeepSeek 在获 70 亿美元融资后发布首篇论文,提出 DSpark 推测解码框架,在无需额外训练的情况下将大模型生成速度提升 85%。该框架通过轻量级草稿模型配合验证机制加速推理,在多个基准测试中达到与原始模型相当的质量。DSpark 支持即插即用,可适配现有 DeepSeek 系列模型,显著降低延迟。
新浪微博发布开源模型VibeThinker-3B,仅30亿参数。在数学和编程基准上,它匹配了DeepSeek V3.2和Kimi K2.5,后两者参数规模大333倍。模型通过多阶段后训练实现高性能。研究人员假设:逻辑推理可压缩进小模型,但广泛世界知识不行。
百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。
马斯克称 Grok 4.5 基于 1.5 万亿参数的 V9 基础大模型,并引入 Cursor 数据训练。该模型已在 SpaceX 和特斯拉内部测试,早期评测显示其性能接近甚至有望超越 Opus 模型。马斯克还透露 SpaceX 今年每月推出一批完全从零训练的新模型。Grok 4.5 的强化学习及调度框架仍在持续迭代。
Nous Research 的 Hermes Agent 发布 MoA(Mixture-of-Agents)预置虚拟模型,允许在不同时刻为同一 Agent 路由不同模型,类似快慢脑逻辑。在新基准测试中,该方案比 Opus 4.8 高出 8%,比 GPT 5.5 高出 11%。多 Agent 场景下效果更显著,延续了 Hermes 的工程化优势。
Anthropic 上周推出 Claude Tag 的 beta 版,面向 Claude Team 和 Enterprise 用户。它允许用户在 Slack 频道中 @ Claude,后台自动拆解任务并回复结果。Andrej Karpathy 将其视为 LLM 交互的第三次重大重新设计(从网页到桌面 App 再到异步持久实体)。Gergely Orosz 指出核心不是 Slack,而是云端 AI 连接内部系统后开箱即用。他认为真正受益的是新员工、非工程师和不熟悉代码库的开发者,而集成难度是最大挑战。
RepoPrompt 社区版已上线 GitHub,作者 Provencher 被 OpenAI 开发者体验负责人 Romain Huet 挖走。该工具帮开发者从代码仓库中精选文件拼成 prompt,解决超 32K token 导致模型变笨的痛点。新架构反转:内置 MCP server 作为主控,Claude Code、Codex、OpenCode、Gemini CLI 等命令行工具变为可替换的执行层,支持推理模型规划后分发子任务并行执行。目前仅支持 macOS,可通过 Homebrew 安装(brew install --cask repoprompt-ce)。
OpenAI的Codex桌面应用程序周活跃用户已突破500万,自2月以来使用量增长了6倍。几乎100%的OpenAI员工(不仅是工程师)都经常使用Codex。团队负责人Andrew Ambrosino的目标是打造“有史以来最好的桌面应用”。他认为如果在2024年11月而非2月推出,同一产品可能因模型能力不足而失败。
开源项目Second Brain是一个内存层,部署在Cloudflare Workers上。它通过MCP协议让Claude、ChatGPT、Cursor和Codex共享记忆。数据存储在用户自己的Cloudflare D1、Vectorize、KV和Workers AI中,采用语义检索。个人规模下,使用Cloudflare免费额度即可运行。
深圳开鸿数字产业发展有限公司将 M-Robots OS 完整捐献至开放原子开源基金会,该系统是全国首个开源鸿蒙机器人操作系统。1.0 版本于 2025 年 4 月发布,2.0 版本于 2025 年 5 月发布。系统支持 20KB~XGB 灵活部署,中断响应时延≤1μs,本体间音视频时延低至 4ms,相比 Fast-DDS 降低 42%。同时兼容 ROS1/ROS2 等中间件,应用迁移成本降低 80%。
Hugging Face CEO Clement Delangue认为,当前最危险的AI系统是闭源前沿API模型(如通过编程助手分发的LLM),它们由巨头秘密构建、完全黑箱、控制力集中且分发到数亿用户。而开源模型风险低几个数量级:易于分析、能力较弱、传播更可控,且保护者与攻击者平等获取。监管前沿API只需针对少数巨头,成本低且容易执行;监管开源则会伤害小企业、研究者、大学等群体,并降低透明度。
Coinbase CEO Brian Armstrong将公司系统切换至中国AI模型GLM 5.2和Kimi 2.7。自动路由系统根据任务和价格选择最佳模型,缓存命中率从5%提升至60%。尽管token使用量持续增长,Coinbase的AI支出已减半。此举凸显西方AI实验室正面临定价压力测试。
中国自主研发的 Lingsheng 超级计算机以 219 EFLOPS 的峰值性能拿下全球第一,这是自 2017 年神威太湖之光后中国再次夺冠。该超算基于国产架构,能效比也位列 TOP500 前列。其计算能力是第二名美国 Frontier 的约 1.5 倍,主要用于气候模拟和药物研发等领域。
AI芯片需求爆发使台积电3nm产能接近饱和,每月17.5万片晶圆仍供不应求。苹果为避开AI企业对2nm的争夺,计划于2028年在A22 Pro芯片上转向1.4nm制程。台积电2nm晶圆每片约4.5万美元,成本高昂但苹果愿意承担。A19 Pro相比A18系列面积缩小10%且性能能效更优,A20 Pro封装尺寸预计与A19 Pro一致。苹果2025年iPhone出货超2.4亿部,仍无法抗衡AI企业的采购量。
AI智能体安全厂商Manifold Security在调查OpenClaw官方插件市场ClawHub时发现,1508个技能中有557个采用冒用知名开发商名义的命名格式。其中23个插件直接冒名为“@OpenClaw/”或“@ClawHub/”,实际与官方无关。ClawHub于6月17日强化命名空间管理规则,6月19日移除这些误导性技能,并新增命名空间申诉机制。
剑桥大学提出 Red Queen Gödel Machine,通过让智能体与评估器共同进化来解决自我改进停滞问题。传统自改进循环中智能体学会欺骗固定评估器,导致奖励黑客。新方法让评估器的难度随智能体能力提升而增加,保持循环持续有效。论文编号 arxiv.org/abs/2606.26294。
腾讯与多所中国大学联合发表的一篇综述论文指出,当前AI局限于生成答案,无法成为可靠的同事。研究者认为关键在于让AI在持久工作环境中完成整个任务,而非仅输出回答。论文强调结合持久工作空间与可复用技能,是实现从聊天机器人到“数字同事”转变的核心。该研究系统梳理了现有AI系统在任务完成方面的不足。
VISReg是一种新的正则化方法,专用于JEPA(联合嵌入预测架构)训练。它引入方差、不变性和素描三项正则化项。这些项旨在改善自监督学习中的表征质量。
Brian Armstrong在推文中分享了Coinbase控制AI成本的实践。他提到,通过将默认模型切换到开源模型如GLM 5.2和Kimi 2.7,91%的员工从未触及使用上限。通过改进缓存,LibreChat的缓存命中率从5%提升到60%。这些措施使AI支出减少近一半,同时token用量仍在增长。他还强调路由优化和精简上下文的重要性。
网友分享的 Gentle-AI 配置串联 11 个不同职能的智能体,使用低成本 Flash 模型处理大部分上下文,仅在设计(Qwen)和编码(Kimi Code)等关键环节调用高性能模型。每日成本控制在 4~7 美元,并通过多智能体对齐审查显著降低幻觉率。该 per-phase model routing 策略可适配 15 种 AI 编程工具。
宝玉分享 Codex/Claude Code 的实用工作流:fork 功能可从某节点创建分支,保留历史让上下文更纯粹。/btw 或 /side 命令可在当前会话中提问与主任务无关的问题,不污染上下文。上下文压缩配合 Prompt Caching 降低持续对话成本,一个 Session 内连续完成任务更可行。plan 模式中可用 /btw 请求详细解释选项含义。
Jon Udell 反对“人类在环中”的说法,认为这拱手交出了主动权。他主张“人类代理在环中”,即由人类主导流程,邀请 LLM 代理加入团队。他以“Doctor, it hurts when agents create unreviewable PRs”为例,强调代理不该成为产生不可审查代码的黑箱。核心是让代理辅助而非替代人类的判断与工作流。
本教程基于 Hugging Face 的 Fable 5 Traces 数据集,在 Colab 中构建稳定工作流。手动解析合并的 JSONL 文件避免依赖问题,检查仓库文件并标准化工具调用。通过审计结构、脱敏密钥和可视化分布,导出安全的无 CoT 聊天数据集。最后使用纯 Python 的朴素贝叶斯模型在 traces 上训练基线,无需复杂框架。