精选 AI 资讯 · AI 热点

6月18日

09:39

marktechpost@Sana Hassan

精选

本教程演示如何使用 NVIDIA SkillSpector 对 AI 技能进行安全风险预部署扫描。通过构建良性和故意含漏洞的技能语料库，利用 SkillSpector 的 LangGraph 工作流进行扫描，并用 pandas 整理风险评分与发现。结果导出为 SARIF 格式，支持自定义分析器和可选的 LLM 语义分析。该流程覆盖静态分析、风险分类可视化及报告生成。

技巧 NVIDIA SkillSpector SARIF AI安全静态分析

推荐理由：NVIDIA 教你用 SkillSpector 做 AI 技能安全扫描，从写语料到出 SARIF 报告，一步一步都有代码，适合想加固 AI 应用的开发者。

原文

6月17日

01:58

Jim Fan@jimfan

精选72°

ENPIRE赋予8个Codex智能体机器人集群和GPU资源，自主完成高精度物理任务。系统能独立绑扎带、整理细针、安装GPU。实验显示8台机器人并行探索比少量效率显著提升。NVIDIA GEAR实验室已实现机器人彻夜自主改进。团队计划开源全部代码。

AI产品 ENPIRE Codex NVIDIA 智能体机器人

推荐理由：NVIDIA让8个AI智能体自己控制机器人干活，还能绑扎带装显卡，而且要开源，你可以在家搭机器人实验室了！

原文

6月16日

14:23

AlphaSignal@AlphaSignalAI

精选

NVIDIA开源了AI技能安全扫描器SkillSpector。研究发现26.1%的已发布AI技能存在漏洞，36%包含提示注入向量。SkillSpector无需扫描恶意代码即可检测危险特性，帮助开发者避免在安装未扫描技能时的常见风险。该工具专为检查AI技能潜在安全问题设计，可集成到开发流程中。

AI产品 NVIDIA SkillSpector AI安全提示注入开源工具

推荐理由：NVIDIA开源了SkillSpector，专门扫描AI技能的漏洞和提示注入。别像99%的开发者那样不检查就直接装，先扫一下再安心用。

原文

6月13日

11:05

lmarena.ai@lmarena_ai

精选

NVIDIA 的 Nemotron 3 Ultra 在 Agent Arena 排行榜上位列第20名，在开源模型中排第5。该模型在用户表扬与投诉的净差值和工具幻觉率方面表现突出，但在可操控性和 bash 恢复能力上存在短板。排行榜基于30万+任务、200万+工具调用和4000万行代码的评测数据。当前分数置信区间较宽，排名仍在稳定中。

AI模型 Nemotron 3 Ultra NVIDIA Agent Arena 开源模型智能体

推荐理由：NVIDIA 开源模型在智能体评测中排第5

原文

09:55

rohanpaul_ai@rohanpaul_ai

精选73°

NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出，测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体，而 H200 仅为 2.6K，性能提升约 23.6 倍。测试模拟了真实编码智能体路径，涵盖 12 种以上编程语言，请求长度从 5K 到 131K token 不等，平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统，以及优化 MoE 专家分配、通信与计算重叠等软件技术。

AI模型 NVIDIA GB300 NVL72 H200 AgentPerf 智能体

推荐理由：NVIDIA 首个智能体基准，GB300 比 H200 强 23 倍

原文

6月12日

12:50

Artificial Analysis@ArtificialAnlys

精选

随着用户和企业赋予 AI 模型和智能体更多自主权，筛选其输入输出的护栏变得至关重要。然而，现有的护栏评测基准未能跟上模型智能的发展速度。与 NVIDIA 合作，该团队在三个开放数据集上独立评测了护栏与审核模型，衡量了检测质量、延迟以及捕捉不安全内容与过度拒绝安全内容之间的权衡。结果显示，没有模型能全面胜出，且缺乏统一的评判标准。这被视为一个测量问题的早期步骤，随着模型承担更多实际工作，该问题将愈发重要。

行业 AI 安全护栏评测 NVIDIA 模型审核智能体

推荐理由：AI 安全护栏评测标准滞后，做模型部署和安全审核的团队需要关注这个评测缺口，建议点开了解当前护栏模型的真实表现。

原文

12:42

Sebastian Raschka@rasbt

精选

Nemotron 3 Ultra 是 NVIDIA 发布的新一代开源权重模型，延续了前代 Super 变体的 Mamba-2 注意力混合架构和 LatentMoE 设计，但规模更大。该模型在能力与效率之间取得了极佳平衡，性能表现令人印象深刻。开源权重意味着开发者可以自由下载、微调和部署，适合资源受限但追求高性能的场景。这一发布进一步丰富了开源大模型生态，为研究者和工程师提供了新的选择。

AI模型 Nemotron 3 Ultra Mamba-2 LatentMoE 开源/仓库 NVIDIA

推荐理由：NVIDIA 把 Mamba-2 混合架构和 LatentMoE 做到更大更强，追求高性价比模型的团队可以直接拿来用，省去从头训练的昂贵成本。

原文

12:31

karminski-牙医 (AI工具)@karminski3

精选

Google发布了Gemma小模型的Diffusion版本，名为Diffusion Gemma，大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化，5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本，速度远快于传统逐字生成模型，但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平，在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

AI模型 Diffusion模型 Gemma Google NVIDIA 推理加速

推荐理由：Diffusion Gemma把文本生成速度拉到单卡700TPS，做实时对话或高吞吐推理的团队可以直接用，4bit量化16G显存就能跑，值得试试能否做投机解码的草稿模型。

原文

04:04

Together AI@togethercompute

精选

Trajectory Labs 在 Together Compute 和 NVIDIA 的支持下，仅用不到 24 小时就在一个开放模型上实现了前沿模型级别的性能。这展示了当优秀开源模型与合适的训练基础设施结合时，可以快速取得显著成果。Together Compute 为此提供了算力支持，凸显了开放模型生态的潜力。

AI模型开放模型后训练算力基础设施 Together Compute NVIDIA

推荐理由：对于关注开源模型训练效率的团队，这个案例证明了 24 小时内就能让开放模型达到前沿水平，值得研究其训练流程。

原文

00:35

NVIDIA AI@NVIDIAAI

精选

NVIDIA 发布了 Cosmos 3，这是一个专为机器人和物理 AI 设计的基础模型平台。该平台旨在加速机器人感知、规划和交互能力的开发，通过提供预训练模型和工具链，降低物理 AI 应用的门槛。Cosmos 3 支持多模态输入，能够生成高保真的物理世界模拟，帮助开发者更快地训练和部署机器人系统。这一发布标志着 NVIDIA 在物理 AI 领域的重要布局，有望推动机器人技术从实验室走向实际应用。

AI产品机器人物理AI NVIDIA 基础模型仿真

推荐理由：NVIDIA Cosmos 3 为机器人开发者提供了现成的物理 AI 基础模型，省去了从零训练的时间和成本，做机器人感知或仿真的团队可以直接上手试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:55

marktechpost@Sana Hassan

精选

本文教程展示了如何从 NVIDIA 的 Nemotron-Pretraining-Code-v3 数据集中构建代码数据集管道。通过流式处理而非下载整个数据集，检查其模式并构建可管理的样本。分析了语言、文件扩展名、仓库频率和目录深度等元数据索引结构。然后重构原始 GitHub URL，获取真实源文件，并使用 tiktoken 估算获取代码的 token 规模。该方法适用于大规模代码预训练研究的数据处理。

论文 NVIDIA Nemotron-Pretraining-Code-v3 代码数据集流式处理 tiktoken

推荐理由：做代码预训练或大规模数据处理的研究人员可以直接复用这套管道，省去下载和解析海量元数据的麻烦，值得一试。

原文

6月9日

08:05

NVIDIA AI@NVIDIAAI

精选72°

NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示，相比 FP8 精度，NVFP4 实现了 1.31 到 1.73 倍的训练速度提升，且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成，同时保持模型质量。对于需要大规模训练 AI 模型的团队来说，这能显著降低计算成本和等待时间。

AI模型 NVIDIA Blackwell NVFP4 Llama 3 训练加速

推荐理由：训练速度提升 1.3-1.7 倍且零精度损失，做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4，省时省成本。

原文

6月8日

09:00

rohanpaul_ai@rohanpaul_ai

精选76°

SK hynix 与 NVIDIA 宣布建立多年存储合作伙伴关系，共同开发用于下一代 AI 工厂的芯片。合作涵盖 NVIDIA Vera Rubin AI 超级计算机、Vera CPU、RTX Spark 驱动的 PC 和 Jetson Thor 平台的内存。SK hynix 将利用 NVIDIA 的 CUDA-X、PhysicsNeMo、Omniverse 等工具加速芯片设计、半导体仿真和工厂数字孪生。这一合作标志着存储芯片设计不再滞后于 GPU，而是需要提前数年进行协同设计和制造规划。同时，AI 技术也被引入芯片制造本身，用于加速半导体物理、光刻等工程流程。

行业 NVIDIA SK hynix AI 硬件存储芯片数字孪生

推荐理由：AI 硬件供应链正在重构，存储与计算芯片的协同设计成为关键。做 AI 基础设施、芯片设计或半导体制造的团队，值得关注这一合作如何改变未来 AI 工厂的构建方式。

原文

6月5日

08:13

lmarena.ai@lmarena_ai

精选76°

Arena.ai 宣布将 NVIDIA 的 Nemotron 3 Ultra 模型加入其新的 Agent Mode，用于评估 AI 智能体在真实世界中的多步骤任务能力。Agent Arena 通过数百万次真实用户会话，测量模型在编写代码、创建演示文稿、网络研究、构建应用和文档分析等复杂工作流中的表现。评估基于任务成功率、可操控性、错误恢复、用户反馈和工具幻觉五个信号。当前排行榜显示 OpenAI GPT-5.5 排名第一，Anthropic Claude-Opus-4.7 第二，Zai GLM-5.1 第三。该平台已积累超过 30 万任务、200 万次工具调用和 4000 万行代码数据。

AI产品智能体评估/基准 NVIDIA Nemotron 3 Ultra Agent Arena

推荐理由：Agent Arena 用真实任务数据解决了智能体评估难的问题，做 AI 智能体开发或选型的团队可以直接参考排行榜和会话信号，比纯基准测试更有说服力。

原文

08:12

lmarena.ai@lmarena_ai

精选83°

NVIDIA 今日正式发布 Nemotron 3 Ultra，这是一款 550B 参数的混合专家（MoE）开源模型，定位为前沿智能（frontier-intelligence）模型，专为长时间运行的智能体任务打造。相比其他开源前沿模型，Nemotron 3 Ultra 推理速度提升 5 倍，复杂智能体任务成本降低高达 30%。该模型旨在解决当前开源模型在长周期、高复杂度任务中推理慢、成本高的问题，为开发者提供更高效的智能体基础设施。

AI模型 NVIDIA Nemotron 3 Ultra MoE 开源模型智能体

推荐理由：做智能体开发和部署的团队终于有了一个开源的高效选择——Nemotron 3 Ultra 直接降低长任务推理成本 30%，建议关注并测试其在实际 agent 场景中的表现。

原文

6月4日

20:32

20:32Hugging Face: Blog（博客/媒体）

精选

NVIDIA 提出了一种名为 Task-Seeded Synthetic Q&A Generation 的方法，用于为 Nemotron 模型预训练生成高质量的合成问答数据。该方法通过任务种子（task seeds）引导生成多样化的问答对，解决了传统数据生成中覆盖不足和多样性低的问题。实验表明，使用该方法生成的合成数据训练的模型在多个基准测试上表现优异，甚至优于使用真实数据训练的模型。这项技术有望降低对人工标注数据的依赖，加速大语言模型的开发。

论文 NVIDIA Nemotron 合成数据预训练问答生成

推荐理由：NVIDIA 用任务种子生成合成数据，解决了预训练数据稀缺和多样性不足的问题，做 NLP 和模型训练的团队可以关注，能显著降低数据标注成本。

原文

08:57

08:57IT之家（博客/媒体）

精选

微软 Surface RTX Spark Dev Box 是一款面向本地 AI 开发的紧凑型桌面设备，专为模型微调、本地推理和智能体工作流设计。该设备搭载 NVIDIA Grace CPU 和 Blackwell RTX GPU，拥有 128GB 统一内存，AI 算力高达 1 Petaflop，可本地运行 120B 参数模型。其铝制外壳覆盖约 1000 个散热孔，兼顾散热与结构设计，整机功耗仅 100W。系统预装开发者优化版 Windows 11 Pro，并配置了 VS Code、GitHub Copilot、WSL 2 等开发工具，旨在减少环境搭建时间。该设备将于今年晚些时候发售。

AI产品微软 Surface RTX Spark Dev Box AI 开发机本地推理 NVIDIA

推荐理由：本地跑 120B 模型终于有正经硬件了——Surface RTX Spark Dev Box 把 AI 开发环境打包成 100W 的桌面盒子，做模型微调或智能体开发的团队可以直接关注，省去搭服务器和配环境的麻烦。

原文

6月3日

08:11

NVIDIA AI@NVIDIAAI

精选

NVIDIA 发布教程，展示如何让 AI 智能体学会一个工作流后，在每次重建后仍能记住。教程使用 NousResearch 的 Hermes Agent，结合 NVIDIA NemoClaw 和 OpenShell，将智能体连接到 Slack、Outlook、GitHub 和 NVIDIA 开发者论坛。用户可以通过对话纠正将新技能转化为可复用的技能，且私有数据受运行时策略保护。这意味着智能体可以跨部署持久化学习到的技能，无需每次重新训练。

AI产品智能体工作流持久化 NVIDIA Hermes Agent NemoClaw

推荐理由：做智能体开发和部署的团队终于可以解决「每次重建都要重新教」的痛点——NVIDIA 这套方案让技能跨部署持久化，直接连接 Slack、GitHub 等常用工具，值得一试。

原文

08:02

NVIDIA AI@NVIDIAAI

精选

NVIDIA 旗下 Nemotron Labs 发布了 Self-Evolving Hermes Agents，一种能够在使用中自我改进的企业级 AI 智能体。该智能体通过持续学习用户交互和反馈，自动优化自身行为，无需人工重新训练。这解决了传统企业 AI 部署后性能停滞的问题，显著降低了维护成本。Hermes Agents 基于 Nemotron 模型，专为复杂企业任务设计，如客户服务、流程自动化等。NVIDIA 在直播中展示了其在实际场景中的自适应能力，引发广泛关注。

AI产品智能体企业AI 自我进化 NVIDIA Nemotron

推荐理由：企业 AI 终于能自己变强了——Self-Evolving Hermes Agents 解决了部署后性能衰减的痛点，做企业级 AI 落地的团队值得关注，看看它如何通过使用自动进化。

原文

6月2日

08:44

NVIDIA AI@NVIDIAAI

精选

NVIDIA 推出 Factory Operations Blueprint (FOX)，这是一个用于构建工厂管理智能体的参考设计。该蓝图能够监控运营、实时推理数据并协调专业 AI 智能体，帮助大规模解决问题。早期采用者包括富士康、和硕、研华和纬创等，已在生产力、质量和效率方面取得显著提升。FOX 旨在为制造业提供统一的 AI 中枢，推动工业自动化进入新阶段。

AI产品 NVIDIA 工厂运营 AI 智能体工业自动化 FOX

推荐理由：制造业团队终于有了可落地的 AI 方案——FOX 直接解决工厂监控和协调的痛点，富士康等大厂已验证效果，做工业自动化的开发者值得关注。

原文

6月1日

15:07

NVIDIA AI@NVIDIAAI

精选

NVIDIA 宣布其 Cosmos 3 模型完全开源，包括模型权重和训练配方。该模型已在 Hugging Face 上发布，供开发者自由使用。此举延续了 NVIDIA 在 AI 领域开放生态的策略，旨在推动更多创新应用。Cosmos 3 的开放将加速研究者和工程师在视觉、语言等多模态任务上的探索。

AI模型开源/仓库多模态模型 NVIDIA Cosmos 3 Hugging Face

推荐理由：NVIDIA 把 Cosmos 3 的权重和训练配方全开源了，做多模态研究的团队可以直接下载使用，省去从头训练的算力成本，值得点开看看。

原文

15:06

NVIDIA AI@NVIDIAAI

精选

NVIDIA AI 发布了一个基于数十亿跨模态样本训练的多模态预训练模型，旨在为开发者提供强大的基础模型，用于构建物理AI系统。该模型能显著减少所需的数据量和训练成本，使开发者能够更高效地开发机器人、自动驾驶等物理AI应用。NVIDIA 在技术博客中详细介绍了该模型的架构和性能优势。

AI模型 NVIDIA 多模态模型预训练模型物理AI 机器人

推荐理由：做物理AI（如机器人、自动驾驶）的开发者终于有了一个强大的预训练基础，能大幅降低数据收集和训练成本，建议直接查看技术博客了解细节。

原文

14:08

Runway ML@runwayml

精选76°

Runway 宣布作为创始成员加入 Cosmos Coalition，这是一个由 NVIDIA 和多家顶级 AI 实验室发起的全球性倡议，旨在共同构建并开源面向物理 AI 的前沿世界模型。该联盟将通过一个通用的开放生态系统，加速世界模型的研究与开发，推动物理 AI 的进步。此举有望降低物理 AI 的门槛，促进跨机构协作，为机器人、自动驾驶等领域提供基础模型。

行业物理 AI 世界模型开源/仓库 NVIDIA Runway

推荐理由：物理 AI 开发者终于有了开放生态——Runway 和 NVIDIA 牵头开源世界模型，做机器人或自动驾驶的团队可以直接参与共建，值得关注。

原文

09:05

09:05IT之家（博客/媒体）

精选76°

戴尔向CoreWeave交付了全球首套可运行的NVIDIA Vera Rubin NVL72 AI超级计算机系统，并已通过所有测试。该系统基于戴尔PowerEdge XE9812液冷服务器，集成72个Rubin GPU和36颗Vera CPU，支持T级参数超大规模AI模型和MoE模型训练，同时在大规模AI推理中降低单位Token成本。CoreWeave计划从2026年下半年开始将基于Rubin的系统集成至其AI云平台。这标志着NVIDIA下一代AI计算架构首次落地实际部署，对超大规模AI训练和推理效率有重要影响。

AI产品 NVIDIA Vera Rubin 戴尔 AI超级计算机液冷服务器

推荐理由：这是NVIDIA Rubin架构首次实际落地，做超大规模AI训练和推理的团队可以关注其单位Token成本降低的潜力，建议点开了解具体配置和部署时间线。

原文

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

14:33

阶跃星辰 Stepfun@Stepfun_AI

精选

Step 3.7 Flash 模型在发布首日即获得 NVIDIA 的全面支持，包括 NIM 推理微服务、NeMo 框架以及 GPU 加速端点。这意味着开发者可以立即在 NVIDIA 的生态系统中部署和运行该模型，无需额外适配。NVIDIA 的首日支持通常意味着模型经过了优化，能充分利用 GPU 硬件性能，降低推理延迟和成本。这对于需要高性能推理的 AI 应用团队来说是一个重要信号，表明 Step 3.7 Flash 已具备企业级部署条件。

AI模型 Step 3.7 Flash NVIDIA NIM NeMo GPU加速

推荐理由：NVIDIA 首日支持意味着 Step 3.7 Flash 可直接用于生产环境，做推理部署的团队可以省去适配工作，直接使用 NIM 和 NeMo 加速。

原文

09:06

NVIDIA AI@NVIDIAAI

精选76°

NVIDIA 宣布推出 Step 3.7 Flash 模型，这是一个 198B 参数的混合专家（MoE）模型，但仅需 11B 活跃参数即可运行，大幅降低推理成本。该模型支持 256K 上下文长度，并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用，也可通过 NVIDIA NIM 微服务部署，并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展，尤其适合需要多模态理解和长上下文处理的应用场景。

AI模型 Step 3.7 Flash NVIDIA MoE 多模态长上下文

推荐理由：198B 参数但仅 11B 活跃，推理效率极高，做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用，省成本又省心。

原文

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

08:47

NVIDIA AI@NVIDIAAI

精选72°

NVIDIA 推出 Dynamo Snapshot，一种针对 Kubernetes 上推理工作负载的快速启动方案。该方案利用 GPU 内存快照（GMS）实现高速互连上的并发权重恢复，同时结合 Linux 原生 AIO 和并行 memfd 恢复技术，加速 CRIU 恢复性能。在推理部署中，需求波动导致冷启动耗时数分钟，造成 GPU 闲置。Dynamo Snapshot 将启动时间从分钟级缩短至 5 秒以内，显著提升 GPU 利用率和推理效率。

AI产品推理工作负载 Kubernetes GPU 利用率冷启动优化 NVIDIA

推荐理由：Kubernetes 上跑推理的团队终于不用忍受 GPU 空转几分钟了——Dynamo Snapshot 把冷启动压到 5 秒，做弹性扩缩容的 MLOps 工程师可以直接拿来用。

原文

5月25日

20:22

阿里云 Alibaba Cloud@alibaba_cloud

精选

在 2026 年 Qwen 大会上，NVIDIA 高级解决方案架构师 Jian Zhai 在基础模型论坛上深入解析了 Qwen 推理优化技术，展示了通过 NVIDIA 全栈加速实现的突破性性能提升。该演讲聚焦于如何利用 NVIDIA 的软硬件协同优化，显著降低 Qwen 模型的推理延迟并提高吞吐量，为 AI 应用落地提供关键支持。这一合作体现了 AI 原生生态的快速发展，对部署 Qwen 模型的开发者和企业具有重要参考价值。

AI模型 Qwen NVIDIA 推理优化全栈加速 AI 原生

推荐理由：NVIDIA 全栈加速让 Qwen 推理性能实现突破，做模型部署和推理优化的工程师可以直接参考其技术方案，值得关注。

原文

5月24日

15:43

marktechpost@Asif Razzaq

精选70°

NVIDIA 发布 Gated DeltaNet-2，一种线性注意力层，将 Delta 规则中的擦除和写入操作解耦为通道级擦除门 b_t 和写入门 w_t。在 1.3B 参数、100B FineWeb-Edu 令牌训练下，它在语言建模、常识推理和长上下文检索任务上超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER S-NIAH 和多键针检索基准上。

AI模型大模型推理模型 Mamba NVIDIA 线性注意力

推荐理由：NVIDIA 新线性注意力，解耦擦写门

原文

5月23日

09:53

09:53Hugging Face: Blog（博客/媒体）

精选

NVIDIA 发布了 Nemotron-Labs 扩散语言模型，该模型采用扩散机制替代传统的自回归生成方式，大幅提升文本生成速度，接近光速。与 GPT-4 等模型相比，Nemotron-Labs 在保持生成质量的同时，推理速度提升了一个数量级。该模型在多个基准测试中表现出色，尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式，让文本生成更接近实时交互。

AI模型扩散模型文本生成 NVIDIA 推理加速 Nemotron-Labs

推荐理由：NVIDIA 的扩散语言模型将文本生成速度推向新高度，做实时对话或低延迟应用的开发者可以直接关注，它可能改变你对大模型推理速度的认知。

原文