VOL.2026.06.24·183 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月二十四日 星期三DAILY · 每早八时
01

模型发布/更新

Model Releases
5

DFlash投机解码:并行起草整块token,在Blackwell上吞吐量提升15倍

X·KOLX:marktechpost (@Asif Razzaq)原文 ↗

UC San Diego推出DFlash,用轻量级块扩散模型替代自回归起草器,实现投机解码。该方法通过单次前向传播生成整块token,并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速,NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点,支持SGLang、vLLM和TensorRT-LLM。

用于加速罕见病诊断的专用推理大语言模型:随机AI医生辅助试验

X·KOLX:arXiv: DeepSeek (@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong)原文 ↗

RaDaR是一个32B参数的开源推理大模型,专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中,RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断,提前时间1.87个月。在随机医生辅助试验中,RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。

OpenAI 发布首款自研推理芯片 Jalapeño

X·KOLX:shao__meng (@shao__meng)原文 ↗

OpenAI 联合 Broadcom 和 Celestica 从零设计并成功流片了首款自研 LLM 推理加速器 Jalapeño,耗时 9 个月,宣称能效显著优于当前 SOTA。该芯片专为 ChatGPT、Codex 和 API 等工作负载优化,计划从 2026 年底起以吉瓦级规模部署。此举是 OpenAI 垂直整合战略的一部分,与 Google TPU、Amazon Trainium 等路径一致,旨在通过自研芯片提升推理效率、降低成本和改善用户体验。

SGLang在GB300部署DeepSeek-V4:5倍吞吐量提升

X·KOLX:LMSYS Org (SGLang) (@lmsysorg)原文 ↗

与NVIDIA合作,在GB300上使用SGLang服务DeepSeek-V4,实现5倍吞吐量提升(~2,200→~11,200 tok/s/GPU,交互性~50 tok/s/user)。借助MTP,在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍,峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化(MXFP4)且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。

02

产品发布/更新

Product
5

Hugging Face 存储桶:机器人数据集激增至6万,GPU流式传输达1326 MB/s

X·KOLX:Clement Delangue (@ClementDelangue)原文 ↗

Hugging Face 的数据存储能力正在快速扩张,公共机器人数据集从 2025 年初的 1,000 个增长到了 60,000 个,私有数据集数量是公共的两倍。单个机器人以 140 MB/s 持续记录数据,全天不休。通过从 Hub 直接流式传输并使用预缓存,GPU 吞吐量可从闲置时的 0 MB/s 跃升至约 1,326 MB/s。LeRobot 配合 Hugging Face Storage Buckets 实现了这一优化方案。

03

行业动态

Industry
5

清华系公司瞄准世界模型,覆盖视频、机器人与自动驾驶

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))原文 ↗

智谱AI、生数科技、Momenta等清华关联公司正聚焦世界模型,将其视为AI下一前沿。这些公司在视频生成、机器人控制、自动驾驶三个领域探索世界模型架构。世界模型旨在模拟物理世界规律,使AI具备环境理解和因果推理能力。智谱AI已发布GLM-4系列,未来计划将世界模型融入多模态系统。

GitHub加入联盟呼吁修正加州AI透明度法案以保护开源

X·KOLX:GitHub Blog (@Natalie Guevara)原文 ↗

GitHub与多个组织组成联盟,要求对加州AI透明度法案(CA AI Transparency Act)进行针对性修正,以避免与开源许可证冲突。该法案要求AI开发者披露训练数据来源,但可能对开源项目造成合规负担。联盟希望调整条款以与国际透明度框架(如欧盟AI法案)对齐,同时保留监管初衷。修正焦点包括明确开源豁免范围和简化披露义务。

04

论文研究

Research
5

Block-GTQ: RoPE感知的KV缓存量化位分配方法

X·KOLX:arXiv: DeepSeek (@Fengfeng Liang, Yuechen Zhang, Jiaya Jia)原文 ↗

Block-GTQ是一种针对RoPE注意力机制的KV缓存量化位分配方法,基于TurboQuant-MSE构建。它在每个层和注意力头上计算RoPE块的能量得分,通过贪心分配整数位宽。在2和3比特每维度仅量化键的实验中,Block-GTQ在10个模型上使每层平均绝对误差降低32-80%,并赢得全部367个层比较。在Llama-3.1-8B-Instruct上以K2V2配置,NIAH六任务平均从70.6提升至97.4,LongBench英文平均从36.87提升至53.31。在DeepSeek-R1-Distill-Qwen-7B上以K3V2配置,AIME 2024/2025得分51.7/37.5,接近fp16的54.2/37.9,而均匀量化降为0.0/0.0。在H800上对Qwen2.5-3B-Instruct实现3.24倍压缩,128K上下文比fp16 FlashAttention2快1.34倍,峰值内存从56.31GB降至19.85GB。

Hartley Neural Operator: 用实谱替代复谱的神经算子方法

X·KOLX:arXiv cs.LG (@Jason Sulskis, Sathya Ravi)原文 ↗

该论文提出Hartley Neural Operator (HNO),作为Fourier Neural Operator (FNO)的纯实数镜像,用实离散Hartley变换替代复FFT。HNO在每个保留谱模式上学习单个实权重,无复数运算。实验表明,对于自伴椭圆偏微分方程(如泊松、双调和方程),HNO表现更优,因为其实对称Green函数可被实数对角化;对于含相位的时间依赖方程(如波动、对流、Burgers、Navier-Stokes),FNO更优,且优势随相位含量增加而增强。研究给出了基于算子对称性选择谱基的预测规则。

FlowPipe:LLM增强条件生成流网络构建数据管道

X·KOLX:arXiv cs.LG (@Kunyu Ni, Lei Cao, Jie He, Xiaotong Zhang, Jianfeng Jin, Junyu Dong, Yanwei Yu)原文 ↗

论文提出FlowPipe,将数据预处理管道构建转化为有向无环图上的条件概率流生成问题。FlowPipe基于条件生成流网络(C-GFlowNets)与轨迹平衡目标,将终端验证奖励与早期决策联系。通过深度语义调制(FiLM)注入LLM提取的逻辑先验,并加入失败感知机制避免无效状态。在包含74个真实数据集的基准测试中,FlowPipe比Multi-DQN基线平均准确率提升11.96%,训练收敛速度提升12.5倍。

EG-VQA:带时间证据的视频问答验证基准

X·KOLX:arXiv cs.AI (@Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu, Liang Lin)原文 ↗

EG-VQA是一个开放式的视频问答基准,包含2,067个视频和11,838个QA对,每个问题都标注了精确的时间证据区间。提出EG-F1指标,统一衡量预测证据的时间对齐和语义一致性。实验发现即使最强模型(如专有模型)在证据定位上表现不佳,存在答案正确但定位偏差的问题。为此提出EG-Reasoner模型,通过显式证据监督训练,在开源模型中达到最优,并在反事实等推理密集型任务上表现突出。该研究证明仅靠扩展规模不足以实现鲁棒的视频理解,结构化证据监督是关键。

结构化概念演化框架让LLM发现量子LDPC码

X·KOLX:arXiv cs.AI (@Zidu Liu, Florian Marquardt)原文 ↗

研究人员提出结构化概念演化(SCE)框架,将大语言模型与代数突变语法结合,自动探索提升积码家族(一类CSS qLDPC码)。SCE通过层级突变修改群代数、原图几何或基空间,无需从零设计。使用轻量模型GPT-5.4-mini和GPT-5.4-nano运行SCE,发现了从阿贝尔群到非阿贝尔群的多种竞争码家族,性能超越标准bivariate-bicycle码。所有结果在码容量退极化噪声下经BP+OSD解码验证。

05

技巧与观点

Tips & Takes
5

Codex Remote 工程实践指南:手机上远程协作的10个最佳实践

X·KOLX:shao__meng (@shao__meng)原文 ↗

Codex官方博客发布了Remote工程实践指南,提出手机是控制面而非终端的核心心智模型。指南列出了10个高杠杆能力,包括Queue与Steer模式切换、Side Chat旁路对话、Plan与Goal两种任务模式。还介绍了5个典型工作流如Release Captain和Mobile Reviewer,强调权限粒度与上下文生命周期管理。该指南旨在帮助开发者在手机上高效启动、指挥、审批远程开发任务。

使用Graphify和NetworkX映射Python代码库结构:上帝节点、社区与架构可视化

X·KOLX:marktechpost (@Sana Hassan)原文 ↗

本教程演示如何用Graphify和NetworkX将多模块Python应用转为知识图谱。通过Graphify的tree-sitter解析器离线提取代码结构,生成graph.json。之后用NetworkX分析文件类型、关系类型、中心性分数、社区检测和最短路径。最终生成静态与交互式可视化,展示模块、类、函数和数据库对象的连接。

豆包2.1 Pro实测:前端视觉还原与交互能力表现突出

X·KOLX:shao__meng (@shao__meng)原文 ↗

字节跳动发布豆包2.1系列模型,豆包2.1 Pro在Coding和Agent能力上有显著提升,VLM能力介于Claude Opus 4.6和4.8之间。作者使用TRAE Work测试其前端设计图还原能力,模型会先思考规划再分步骤实现,通过本地预览和视觉验证确保质量。最终输出包含自适应布局和实际配图,而非仅占位符,交互和细节还原到位。

构建可靠智能体的重复生命周期:LangChain 创始人分享 5 步流程

X·KOLX:Harrison Chase (@hwchase17)原文 ↗

Harrison Chase 指出,发布第一版只是构建智能体工作的一小部分,更关键的是建立可重复的改进生命周期。该流程包括 5 步:1)Build——搭配 agent、tools、context、prompts 和 workflows 构建可用原型;2)Test——使用 evals 评估 agent 行为是否正确,而非仅输出类似内容;3)Deploy——将 agent 部署到生产环境;4)Monitor——通过 traces 追踪 agent 实际调用的工具、使用的上下文和失败点;5)Improve——从真实使用中学习,优化 prompts、tools、evals 和 agent 本身。Chase 将在 6 月 24 日的“The Agent Development Lifecycle 101”网络研讨会中详细讲解。

183
今日事件
55
一手报道
35
新模型
60
信源
AITOP · 编辑系统自动生成