DFlash投机解码:并行起草整块token,在Blackwell上吞吐量提升15倍
UC San Diego推出DFlash,用轻量级块扩散模型替代自回归起草器,实现投机解码。该方法通过单次前向传播生成整块token,并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速,NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点,支持SGLang、vLLM和TensorRT-LLM。
UC San Diego推出DFlash,用轻量级块扩散模型替代自回归起草器,实现投机解码。该方法通过单次前向传播生成整块token,并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速,NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点,支持SGLang、vLLM和TensorRT-LLM。
RaDaR是一个32B参数的开源推理大模型,专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中,RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断,提前时间1.87个月。在随机医生辅助试验中,RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。
OpenAI 联合 Broadcom 和 Celestica 从零设计并成功流片了首款自研 LLM 推理加速器 Jalapeño,耗时 9 个月,宣称能效显著优于当前 SOTA。该芯片专为 ChatGPT、Codex 和 API 等工作负载优化,计划从 2026 年底起以吉瓦级规模部署。此举是 OpenAI 垂直整合战略的一部分,与 Google TPU、Amazon Trainium 等路径一致,旨在通过自研芯片提升推理效率、降低成本和改善用户体验。
Datalab发布了lift,一个9B参数的开源视觉模型。该模型能将PDF与图像转换为符合给定schema的JSON结构。它使用schema约束解码确保输出有效,并训练弃权机制避免幻觉,在225份文档的基准上达到90.2%的字段准确率。
与NVIDIA合作,在GB300上使用SGLang服务DeepSeek-V4,实现5倍吞吐量提升(~2,200→~11,200 tok/s/GPU,交互性~50 tok/s/user)。借助MTP,在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍,峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化(MXFP4)且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。
Nous Research 在 Hermes Agent 的技能系统中新增 /learn 命令。该命令可从本地目录、文档 URL、历史对话或粘贴的笔记中自动编写符合规范的 SKILL.md 文件。agent 会使用自身工具获取材料并撰写技能,无需手动编写或额外导入引擎。用户需审查输出结果以确保准确性。
Meta 的工程团队为 Ray-Ban Meta 和 Oakley Meta Vanguards 智能眼镜设计了超窄电池,使其能装入镜腿内。通过定制电池形状和优化封装工艺,电池在有限空间内提供了足够电力以驱动摄像头、扬声器和 AI 任务。该设计解决了传统智能眼镜续航短、体积大的痛点,实现了功能与外观的平衡。
Cloudflare 宣布自管理 OAuth 现已面向所有开发者开放,允许他们在 Cloudflare 应用生态系统中创建自定义身份验证流程。为了支撑该功能,团队对核心 OAuth 引擎进行了零停机迁移,确保原有用户不受影响。新方案支持开发者自行配置授权服务器、客户端 ID 和密钥,并与 Cloudflare Workers 等产品集成。
Hugging Face 的数据存储能力正在快速扩张,公共机器人数据集从 2025 年初的 1,000 个增长到了 60,000 个,私有数据集数量是公共的两倍。单个机器人以 140 MB/s 持续记录数据,全天不休。通过从 Hub 直接流式传输并使用预缓存,GPU 吞吐量可从闲置时的 0 MB/s 跃升至约 1,326 MB/s。LeRobot 配合 Hugging Face Storage Buckets 实现了这一优化方案。
LangChain团队发布博客,介绍Deep Agents中的解释器功能。该方法在智能体循环内嵌入小型运行时,允许智能体动态编写和运行代码。这增强了智能体的灵活性和自主执行能力。博客由团队成员Hunt Lovell撰写,详细解释了实现原理。
庆阳通过“算电协同”模式利用绿色电力驱动AI数据中心。该模式将算力调度与清洁能源生产协同优化。庆阳正成为中国AI数据中心新枢纽。
智谱AI、生数科技、Momenta等清华关联公司正聚焦世界模型,将其视为AI下一前沿。这些公司在视频生成、机器人控制、自动驾驶三个领域探索世界模型架构。世界模型旨在模拟物理世界规律,使AI具备环境理解和因果推理能力。智谱AI已发布GLM-4系列,未来计划将世界模型融入多模态系统。
Andrej Karpathy将Claude Tag定义为LLM交互的第三次范式迁移。第一代是网站访问模型,第二代是本地App,第三代是持久存在的团队成员,可异步工作并共享组织工具与上下文。Karpathy指出这一转变“需要一点时间理解,但确实有效且厉害”。该评论基于Claude Tag的实际功能体验。
三星电子已暂停8Hi HBM3E内存的生产,将每月15万片HBM前端DRAM晶圆产能转向12Hi HBM3E和HBM4。12Hi HBM3E当前为出货主力,HBM4则服务于已量产的NVIDIA Rubin GPU等AI芯片。三星在HBM3/HBM3E阶段受挫后,在HBM4上率先实现量产,而SK海力士和美光仍持有大额HBM3E订单。
GitHub与多个组织组成联盟,要求对加州AI透明度法案(CA AI Transparency Act)进行针对性修正,以避免与开源许可证冲突。该法案要求AI开发者披露训练数据来源,但可能对开源项目造成合规负担。联盟希望调整条款以与国际透明度框架(如欧盟AI法案)对齐,同时保留监管初衷。修正焦点包括明确开源豁免范围和简化披露义务。
Block-GTQ是一种针对RoPE注意力机制的KV缓存量化位分配方法,基于TurboQuant-MSE构建。它在每个层和注意力头上计算RoPE块的能量得分,通过贪心分配整数位宽。在2和3比特每维度仅量化键的实验中,Block-GTQ在10个模型上使每层平均绝对误差降低32-80%,并赢得全部367个层比较。在Llama-3.1-8B-Instruct上以K2V2配置,NIAH六任务平均从70.6提升至97.4,LongBench英文平均从36.87提升至53.31。在DeepSeek-R1-Distill-Qwen-7B上以K3V2配置,AIME 2024/2025得分51.7/37.5,接近fp16的54.2/37.9,而均匀量化降为0.0/0.0。在H800上对Qwen2.5-3B-Instruct实现3.24倍压缩,128K上下文比fp16 FlashAttention2快1.34倍,峰值内存从56.31GB降至19.85GB。
该论文提出Hartley Neural Operator (HNO),作为Fourier Neural Operator (FNO)的纯实数镜像,用实离散Hartley变换替代复FFT。HNO在每个保留谱模式上学习单个实权重,无复数运算。实验表明,对于自伴椭圆偏微分方程(如泊松、双调和方程),HNO表现更优,因为其实对称Green函数可被实数对角化;对于含相位的时间依赖方程(如波动、对流、Burgers、Navier-Stokes),FNO更优,且优势随相位含量增加而增强。研究给出了基于算子对称性选择谱基的预测规则。
论文提出FlowPipe,将数据预处理管道构建转化为有向无环图上的条件概率流生成问题。FlowPipe基于条件生成流网络(C-GFlowNets)与轨迹平衡目标,将终端验证奖励与早期决策联系。通过深度语义调制(FiLM)注入LLM提取的逻辑先验,并加入失败感知机制避免无效状态。在包含74个真实数据集的基准测试中,FlowPipe比Multi-DQN基线平均准确率提升11.96%,训练收敛速度提升12.5倍。
EG-VQA是一个开放式的视频问答基准,包含2,067个视频和11,838个QA对,每个问题都标注了精确的时间证据区间。提出EG-F1指标,统一衡量预测证据的时间对齐和语义一致性。实验发现即使最强模型(如专有模型)在证据定位上表现不佳,存在答案正确但定位偏差的问题。为此提出EG-Reasoner模型,通过显式证据监督训练,在开源模型中达到最优,并在反事实等推理密集型任务上表现突出。该研究证明仅靠扩展规模不足以实现鲁棒的视频理解,结构化证据监督是关键。
研究人员提出结构化概念演化(SCE)框架,将大语言模型与代数突变语法结合,自动探索提升积码家族(一类CSS qLDPC码)。SCE通过层级突变修改群代数、原图几何或基空间,无需从零设计。使用轻量模型GPT-5.4-mini和GPT-5.4-nano运行SCE,发现了从阿贝尔群到非阿贝尔群的多种竞争码家族,性能超越标准bivariate-bicycle码。所有结果在码容量退极化噪声下经BP+OSD解码验证。
本文介绍了使用Amazon Bedrock AgentCore实现生产级多租户系统的池模型模式。通过医疗AI代理示例,展示了为多个诊所和医院构建共享基础设施但隔离租户的架构。该方法可降低运营成本,同时保证每个租户的数据隔离与安全。读者将掌握具体实现步骤与最佳实践。
Codex官方博客发布了Remote工程实践指南,提出手机是控制面而非终端的核心心智模型。指南列出了10个高杠杆能力,包括Queue与Steer模式切换、Side Chat旁路对话、Plan与Goal两种任务模式。还介绍了5个典型工作流如Release Captain和Mobile Reviewer,强调权限粒度与上下文生命周期管理。该指南旨在帮助开发者在手机上高效启动、指挥、审批远程开发任务。
本教程演示如何用Graphify和NetworkX将多模块Python应用转为知识图谱。通过Graphify的tree-sitter解析器离线提取代码结构,生成graph.json。之后用NetworkX分析文件类型、关系类型、中心性分数、社区检测和最短路径。最终生成静态与交互式可视化,展示模块、类、函数和数据库对象的连接。
字节跳动发布豆包2.1系列模型,豆包2.1 Pro在Coding和Agent能力上有显著提升,VLM能力介于Claude Opus 4.6和4.8之间。作者使用TRAE Work测试其前端设计图还原能力,模型会先思考规划再分步骤实现,通过本地预览和视觉验证确保质量。最终输出包含自适应布局和实际配图,而非仅占位符,交互和细节还原到位。
Harrison Chase 指出,发布第一版只是构建智能体工作的一小部分,更关键的是建立可重复的改进生命周期。该流程包括 5 步:1)Build——搭配 agent、tools、context、prompts 和 workflows 构建可用原型;2)Test——使用 evals 评估 agent 行为是否正确,而非仅输出类似内容;3)Deploy——将 agent 部署到生产环境;4)Monitor——通过 traces 追踪 agent 实际调用的工具、使用的上下文和失败点;5)Improve——从真实使用中学习,优化 prompts、tools、evals 和 agent 本身。Chase 将在 6 月 24 日的“The Agent Development Lifecycle 101”网络研讨会中详细讲解。