09:39marktechpost@Sana Hassan精选本教程演示如何使用 NVIDIA SkillSpector 对 AI 技能进行安全风险预部署扫描。通过构建良性和故意含漏洞的技能语料库,利用 SkillSpector 的 LangGraph 工作流进行扫描,并用 pandas 整理风险评分与发现。结果导出为 SARIF 格式,支持自定义分析器和可选的 LLM 语义分析。该流程覆盖静态分析、风险分类可视化及报告生成。技巧NVIDIASkillSpectorSARIFAI安全静态分析1 个信源在谈推荐理由:NVIDIA 教你用 SkillSpector 做 AI 技能安全扫描,从写语料到出 SARIF 报告,一步一步都有代码,适合想加固 AI 应用的开发者。原文
01:58Jim Fan@jimfan精选72°ENPIRE赋予8个Codex智能体机器人集群和GPU资源,自主完成高精度物理任务。系统能独立绑扎带、整理细针、安装GPU。实验显示8台机器人并行探索比少量效率显著提升。NVIDIA GEAR实验室已实现机器人彻夜自主改进。团队计划开源全部代码。AI产品ENPIRECodexNVIDIA智能体机器人10 个信源在谈推荐理由:NVIDIA让8个AI智能体自己控制机器人干活,还能绑扎带装显卡,而且要开源,你可以在家搭机器人实验室了!原文
14:23AlphaSignal@AlphaSignalAI精选NVIDIA开源了AI技能安全扫描器SkillSpector。研究发现26.1%的已发布AI技能存在漏洞,36%包含提示注入向量。SkillSpector无需扫描恶意代码即可检测危险特性,帮助开发者避免在安装未扫描技能时的常见风险。该工具专为检查AI技能潜在安全问题设计,可集成到开发流程中。AI产品NVIDIASkillSpectorAI安全提示注入开源工具7 个信源在谈推荐理由:NVIDIA开源了SkillSpector,专门扫描AI技能的漏洞和提示注入。别像99%的开发者那样不检查就直接装,先扫一下再安心用。原文
11:05lmarena.ai@lmarena_ai精选NVIDIA 的 Nemotron 3 Ultra 在 Agent Arena 排行榜上位列第20名,在开源模型中排第5。该模型在用户表扬与投诉的净差值和工具幻觉率方面表现突出,但在可操控性和 bash 恢复能力上存在短板。排行榜基于30万+任务、200万+工具调用和4000万行代码的评测数据。当前分数置信区间较宽,排名仍在稳定中。AI模型Nemotron 3 UltraNVIDIAAgent Arena开源模型智能体10 个信源在谈推荐理由:NVIDIA 开源模型在智能体评测中排第5原文
09:55rohanpaul_ai@rohanpaul_ai精选73°NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出,测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体,而 H200 仅为 2.6K,性能提升约 23.6 倍。测试模拟了真实编码智能体路径,涵盖 12 种以上编程语言,请求长度从 5K 到 131K token 不等,平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统,以及优化 MoE 专家分配、通信与计算重叠等软件技术。AI模型NVIDIAGB300 NVL72H200AgentPerf智能体10 个信源在谈推荐理由:NVIDIA 首个智能体基准,GB300 比 H200 强 23 倍原文
12:50Artificial Analysis@ArtificialAnlys精选随着用户和企业赋予 AI 模型和智能体更多自主权,筛选其输入输出的护栏变得至关重要。然而,现有的护栏评测基准未能跟上模型智能的发展速度。与 NVIDIA 合作,该团队在三个开放数据集上独立评测了护栏与审核模型,衡量了检测质量、延迟以及捕捉不安全内容与过度拒绝安全内容之间的权衡。结果显示,没有模型能全面胜出,且缺乏统一的评判标准。这被视为一个测量问题的早期步骤,随着模型承担更多实际工作,该问题将愈发重要。行业AI 安全护栏评测NVIDIA模型审核智能体10 个信源在谈推荐理由:AI 安全护栏评测标准滞后,做模型部署和安全审核的团队需要关注这个评测缺口,建议点开了解当前护栏模型的真实表现。原文
12:42Sebastian Raschka@rasbt精选Nemotron 3 Ultra 是 NVIDIA 发布的新一代开源权重模型,延续了前代 Super 变体的 Mamba-2 注意力混合架构和 LatentMoE 设计,但规模更大。该模型在能力与效率之间取得了极佳平衡,性能表现令人印象深刻。开源权重意味着开发者可以自由下载、微调和部署,适合资源受限但追求高性能的场景。这一发布进一步丰富了开源大模型生态,为研究者和工程师提供了新的选择。AI模型Nemotron 3 UltraMamba-2LatentMoE开源/仓库NVIDIA10 个信源在谈推荐理由:NVIDIA 把 Mamba-2 混合架构和 LatentMoE 做到更大更强,追求高性价比模型的团队可以直接拿来用,省去从头训练的昂贵成本。原文
12:31karminski-牙医 (AI工具)@karminski3精选Google发布了Gemma小模型的Diffusion版本,名为Diffusion Gemma,大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化,5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本,速度远快于传统逐字生成模型,但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平,在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。AI模型Diffusion模型GemmaGoogleNVIDIA推理加速10 个信源在谈推荐理由:Diffusion Gemma把文本生成速度拉到单卡700TPS,做实时对话或高吞吐推理的团队可以直接用,4bit量化16G显存就能跑,值得试试能否做投机解码的草稿模型。原文
04:04Together AI@togethercompute精选Trajectory Labs 在 Together Compute 和 NVIDIA 的支持下,仅用不到 24 小时就在一个开放模型上实现了前沿模型级别的性能。这展示了当优秀开源模型与合适的训练基础设施结合时,可以快速取得显著成果。Together Compute 为此提供了算力支持,凸显了开放模型生态的潜力。AI模型开放模型后训练算力基础设施Together ComputeNVIDIA10 个信源在谈推荐理由:对于关注开源模型训练效率的团队,这个案例证明了 24 小时内就能让开放模型达到前沿水平,值得研究其训练流程。原文
00:35NVIDIA AI@NVIDIAAI精选NVIDIA 发布了 Cosmos 3,这是一个专为机器人和物理 AI 设计的基础模型平台。该平台旨在加速机器人感知、规划和交互能力的开发,通过提供预训练模型和工具链,降低物理 AI 应用的门槛。Cosmos 3 支持多模态输入,能够生成高保真的物理世界模拟,帮助开发者更快地训练和部署机器人系统。这一发布标志着 NVIDIA 在物理 AI 领域的重要布局,有望推动机器人技术从实验室走向实际应用。AI产品机器人物理AINVIDIA基础模型仿真5 个信源在谈推荐理由:NVIDIA Cosmos 3 为机器人开发者提供了现成的物理 AI 基础模型,省去了从零训练的时间和成本,做机器人感知或仿真的团队可以直接上手试试。原文
12:55marktechpost@Sana Hassan精选本文教程展示了如何从 NVIDIA 的 Nemotron-Pretraining-Code-v3 数据集中构建代码数据集管道。通过流式处理而非下载整个数据集,检查其模式并构建可管理的样本。分析了语言、文件扩展名、仓库频率和目录深度等元数据索引结构。然后重构原始 GitHub URL,获取真实源文件,并使用 tiktoken 估算获取代码的 token 规模。该方法适用于大规模代码预训练研究的数据处理。论文NVIDIANemotron-Pretraining-Code-v3代码数据集流式处理tiktoken9 个信源在谈推荐理由:做代码预训练或大规模数据处理的研究人员可以直接复用这套管道,省去下载和解析海量元数据的麻烦,值得一试。原文
08:05NVIDIA AI@NVIDIAAI精选72°NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示,相比 FP8 精度,NVFP4 实现了 1.31 到 1.73 倍的训练速度提升,且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成,同时保持模型质量。对于需要大规模训练 AI 模型的团队来说,这能显著降低计算成本和等待时间。AI模型NVIDIABlackwellNVFP4Llama 3训练加速4 个信源在谈推荐理由:训练速度提升 1.3-1.7 倍且零精度损失,做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4,省时省成本。原文
09:00rohanpaul_ai@rohanpaul_ai精选76°SK hynix 与 NVIDIA 宣布建立多年存储合作伙伴关系,共同开发用于下一代 AI 工厂的芯片。合作涵盖 NVIDIA Vera Rubin AI 超级计算机、Vera CPU、RTX Spark 驱动的 PC 和 Jetson Thor 平台的内存。SK hynix 将利用 NVIDIA 的 CUDA-X、PhysicsNeMo、Omniverse 等工具加速芯片设计、半导体仿真和工厂数字孪生。这一合作标志着存储芯片设计不再滞后于 GPU,而是需要提前数年进行协同设计和制造规划。同时,AI 技术也被引入芯片制造本身,用于加速半导体物理、光刻等工程流程。行业NVIDIASK hynixAI 硬件存储芯片数字孪生7 个信源在谈推荐理由:AI 硬件供应链正在重构,存储与计算芯片的协同设计成为关键。做 AI 基础设施、芯片设计或半导体制造的团队,值得关注这一合作如何改变未来 AI 工厂的构建方式。原文
08:13lmarena.ai@lmarena_ai精选76°Arena.ai 宣布将 NVIDIA 的 Nemotron 3 Ultra 模型加入其新的 Agent Mode,用于评估 AI 智能体在真实世界中的多步骤任务能力。Agent Arena 通过数百万次真实用户会话,测量模型在编写代码、创建演示文稿、网络研究、构建应用和文档分析等复杂工作流中的表现。评估基于任务成功率、可操控性、错误恢复、用户反馈和工具幻觉五个信号。当前排行榜显示 OpenAI GPT-5.5 排名第一,Anthropic Claude-Opus-4.7 第二,Zai GLM-5.1 第三。该平台已积累超过 30 万任务、200 万次工具调用和 4000 万行代码数据。AI产品智能体评估/基准NVIDIANemotron 3 UltraAgent Arena10 个信源在谈推荐理由:Agent Arena 用真实任务数据解决了智能体评估难的问题,做 AI 智能体开发或选型的团队可以直接参考排行榜和会话信号,比纯基准测试更有说服力。原文
08:12lmarena.ai@lmarena_ai精选83°NVIDIA 今日正式发布 Nemotron 3 Ultra,这是一款 550B 参数的混合专家(MoE)开源模型,定位为前沿智能(frontier-intelligence)模型,专为长时间运行的智能体任务打造。相比其他开源前沿模型,Nemotron 3 Ultra 推理速度提升 5 倍,复杂智能体任务成本降低高达 30%。该模型旨在解决当前开源模型在长周期、高复杂度任务中推理慢、成本高的问题,为开发者提供更高效的智能体基础设施。AI模型NVIDIANemotron 3 UltraMoE开源模型智能体10 个信源在谈推荐理由:做智能体开发和部署的团队终于有了一个开源的高效选择——Nemotron 3 Ultra 直接降低长任务推理成本 30%,建议关注并测试其在实际 agent 场景中的表现。原文
20:32Hugging Face: Blog(博客/媒体)精选NVIDIA 提出了一种名为 Task-Seeded Synthetic Q&A Generation 的方法,用于为 Nemotron 模型预训练生成高质量的合成问答数据。该方法通过任务种子(task seeds)引导生成多样化的问答对,解决了传统数据生成中覆盖不足和多样性低的问题。实验表明,使用该方法生成的合成数据训练的模型在多个基准测试上表现优异,甚至优于使用真实数据训练的模型。这项技术有望降低对人工标注数据的依赖,加速大语言模型的开发。论文NVIDIANemotron合成数据预训练问答生成10 个信源在谈推荐理由:NVIDIA 用任务种子生成合成数据,解决了预训练数据稀缺和多样性不足的问题,做 NLP 和模型训练的团队可以关注,能显著降低数据标注成本。原文
08:57IT之家(博客/媒体)精选微软 Surface RTX Spark Dev Box 是一款面向本地 AI 开发的紧凑型桌面设备,专为模型微调、本地推理和智能体工作流设计。该设备搭载 NVIDIA Grace CPU 和 Blackwell RTX GPU,拥有 128GB 统一内存,AI 算力高达 1 Petaflop,可本地运行 120B 参数模型。其铝制外壳覆盖约 1000 个散热孔,兼顾散热与结构设计,整机功耗仅 100W。系统预装开发者优化版 Windows 11 Pro,并配置了 VS Code、GitHub Copilot、WSL 2 等开发工具,旨在减少环境搭建时间。该设备将于今年晚些时候发售。AI产品微软Surface RTX Spark Dev BoxAI 开发机本地推理NVIDIA10 个信源在谈推荐理由:本地跑 120B 模型终于有正经硬件了——Surface RTX Spark Dev Box 把 AI 开发环境打包成 100W 的桌面盒子,做模型微调或智能体开发的团队可以直接关注,省去搭服务器和配环境的麻烦。原文
08:11NVIDIA AI@NVIDIAAI精选NVIDIA 发布教程,展示如何让 AI 智能体学会一个工作流后,在每次重建后仍能记住。教程使用 NousResearch 的 Hermes Agent,结合 NVIDIA NemoClaw 和 OpenShell,将智能体连接到 Slack、Outlook、GitHub 和 NVIDIA 开发者论坛。用户可以通过对话纠正将新技能转化为可复用的技能,且私有数据受运行时策略保护。这意味着智能体可以跨部署持久化学习到的技能,无需每次重新训练。AI产品智能体工作流持久化NVIDIAHermes AgentNemoClaw10 个信源在谈推荐理由:做智能体开发和部署的团队终于可以解决「每次重建都要重新教」的痛点——NVIDIA 这套方案让技能跨部署持久化,直接连接 Slack、GitHub 等常用工具,值得一试。原文
08:02NVIDIA AI@NVIDIAAI精选NVIDIA 旗下 Nemotron Labs 发布了 Self-Evolving Hermes Agents,一种能够在使用中自我改进的企业级 AI 智能体。该智能体通过持续学习用户交互和反馈,自动优化自身行为,无需人工重新训练。这解决了传统企业 AI 部署后性能停滞的问题,显著降低了维护成本。Hermes Agents 基于 Nemotron 模型,专为复杂企业任务设计,如客户服务、流程自动化等。NVIDIA 在直播中展示了其在实际场景中的自适应能力,引发广泛关注。AI产品智能体企业AI自我进化NVIDIANemotron10 个信源在谈推荐理由:企业 AI 终于能自己变强了——Self-Evolving Hermes Agents 解决了部署后性能衰减的痛点,做企业级 AI 落地的团队值得关注,看看它如何通过使用自动进化。原文
08:44NVIDIA AI@NVIDIAAI精选NVIDIA 推出 Factory Operations Blueprint (FOX),这是一个用于构建工厂管理智能体的参考设计。该蓝图能够监控运营、实时推理数据并协调专业 AI 智能体,帮助大规模解决问题。早期采用者包括富士康、和硕、研华和纬创等,已在生产力、质量和效率方面取得显著提升。FOX 旨在为制造业提供统一的 AI 中枢,推动工业自动化进入新阶段。AI产品NVIDIA工厂运营AI 智能体工业自动化FOX10 个信源在谈推荐理由:制造业团队终于有了可落地的 AI 方案——FOX 直接解决工厂监控和协调的痛点,富士康等大厂已验证效果,做工业自动化的开发者值得关注。原文
15:07NVIDIA AI@NVIDIAAI精选NVIDIA 宣布其 Cosmos 3 模型完全开源,包括模型权重和训练配方。该模型已在 Hugging Face 上发布,供开发者自由使用。此举延续了 NVIDIA 在 AI 领域开放生态的策略,旨在推动更多创新应用。Cosmos 3 的开放将加速研究者和工程师在视觉、语言等多模态任务上的探索。AI模型开源/仓库多模态模型NVIDIACosmos 3Hugging Face9 个信源在谈推荐理由:NVIDIA 把 Cosmos 3 的权重和训练配方全开源了,做多模态研究的团队可以直接下载使用,省去从头训练的算力成本,值得点开看看。原文
15:06NVIDIA AI@NVIDIAAI精选NVIDIA AI 发布了一个基于数十亿跨模态样本训练的多模态预训练模型,旨在为开发者提供强大的基础模型,用于构建物理AI系统。该模型能显著减少所需的数据量和训练成本,使开发者能够更高效地开发机器人、自动驾驶等物理AI应用。NVIDIA 在技术博客中详细介绍了该模型的架构和性能优势。AI模型NVIDIA多模态模型预训练模型物理AI机器人8 个信源在谈推荐理由:做物理AI(如机器人、自动驾驶)的开发者终于有了一个强大的预训练基础,能大幅降低数据收集和训练成本,建议直接查看技术博客了解细节。原文
14:08Runway ML@runwayml精选76°Runway 宣布作为创始成员加入 Cosmos Coalition,这是一个由 NVIDIA 和多家顶级 AI 实验室发起的全球性倡议,旨在共同构建并开源面向物理 AI 的前沿世界模型。该联盟将通过一个通用的开放生态系统,加速世界模型的研究与开发,推动物理 AI 的进步。此举有望降低物理 AI 的门槛,促进跨机构协作,为机器人、自动驾驶等领域提供基础模型。行业物理 AI世界模型开源/仓库NVIDIARunway10 个信源在谈推荐理由:物理 AI 开发者终于有了开放生态——Runway 和 NVIDIA 牵头开源世界模型,做机器人或自动驾驶的团队可以直接参与共建,值得关注。原文
09:05IT之家(博客/媒体)精选76°戴尔向CoreWeave交付了全球首套可运行的NVIDIA Vera Rubin NVL72 AI超级计算机系统,并已通过所有测试。该系统基于戴尔PowerEdge XE9812液冷服务器,集成72个Rubin GPU和36颗Vera CPU,支持T级参数超大规模AI模型和MoE模型训练,同时在大规模AI推理中降低单位Token成本。CoreWeave计划从2026年下半年开始将基于Rubin的系统集成至其AI云平台。这标志着NVIDIA下一代AI计算架构首次落地实际部署,对超大规模AI训练和推理效率有重要影响。AI产品NVIDIAVera Rubin戴尔AI超级计算机液冷服务器10 个信源在谈推荐理由:这是NVIDIA Rubin架构首次实际落地,做超大规模AI训练和推理的团队可以关注其单位Token成本降低的潜力,建议点开了解具体配置和部署时间线。原文
14:33阶跃星辰 Stepfun@Stepfun_AI精选Step 3.7 Flash 模型在发布首日即获得 NVIDIA 的全面支持,包括 NIM 推理微服务、NeMo 框架以及 GPU 加速端点。这意味着开发者可以立即在 NVIDIA 的生态系统中部署和运行该模型,无需额外适配。NVIDIA 的首日支持通常意味着模型经过了优化,能充分利用 GPU 硬件性能,降低推理延迟和成本。这对于需要高性能推理的 AI 应用团队来说是一个重要信号,表明 Step 3.7 Flash 已具备企业级部署条件。AI模型Step 3.7 FlashNVIDIANIMNeMoGPU加速5 个信源在谈推荐理由:NVIDIA 首日支持意味着 Step 3.7 Flash 可直接用于生产环境,做推理部署的团队可以省去适配工作,直接使用 NIM 和 NeMo 加速。原文
09:06NVIDIA AI@NVIDIAAI精选76°NVIDIA 宣布推出 Step 3.7 Flash 模型,这是一个 198B 参数的混合专家(MoE)模型,但仅需 11B 活跃参数即可运行,大幅降低推理成本。该模型支持 256K 上下文长度,并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用,也可通过 NVIDIA NIM 微服务部署,并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展,尤其适合需要多模态理解和长上下文处理的应用场景。AI模型Step 3.7 FlashNVIDIAMoE多模态长上下文5 个信源在谈推荐理由:198B 参数但仅 11B 活跃,推理效率极高,做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用,省成本又省心。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
08:47NVIDIA AI@NVIDIAAI精选72°NVIDIA 推出 Dynamo Snapshot,一种针对 Kubernetes 上推理工作负载的快速启动方案。该方案利用 GPU 内存快照(GMS)实现高速互连上的并发权重恢复,同时结合 Linux 原生 AIO 和并行 memfd 恢复技术,加速 CRIU 恢复性能。在推理部署中,需求波动导致冷启动耗时数分钟,造成 GPU 闲置。Dynamo Snapshot 将启动时间从分钟级缩短至 5 秒以内,显著提升 GPU 利用率和推理效率。AI产品推理工作负载KubernetesGPU 利用率冷启动优化NVIDIA5 个信源在谈推荐理由:Kubernetes 上跑推理的团队终于不用忍受 GPU 空转几分钟了——Dynamo Snapshot 把冷启动压到 5 秒,做弹性扩缩容的 MLOps 工程师可以直接拿来用。原文
20:22阿里云 Alibaba Cloud@alibaba_cloud精选在 2026 年 Qwen 大会上,NVIDIA 高级解决方案架构师 Jian Zhai 在基础模型论坛上深入解析了 Qwen 推理优化技术,展示了通过 NVIDIA 全栈加速实现的突破性性能提升。该演讲聚焦于如何利用 NVIDIA 的软硬件协同优化,显著降低 Qwen 模型的推理延迟并提高吞吐量,为 AI 应用落地提供关键支持。这一合作体现了 AI 原生生态的快速发展,对部署 Qwen 模型的开发者和企业具有重要参考价值。AI模型QwenNVIDIA推理优化全栈加速AI 原生2 个信源在谈推荐理由:NVIDIA 全栈加速让 Qwen 推理性能实现突破,做模型部署和推理优化的工程师可以直接参考其技术方案,值得关注。原文
15:43marktechpost@Asif Razzaq精选70°NVIDIA 发布 Gated DeltaNet-2,一种线性注意力层,将 Delta 规则中的擦除和写入操作解耦为通道级擦除门 b_t 和写入门 w_t。在 1.3B 参数、100B FineWeb-Edu 令牌训练下,它在语言建模、常识推理和长上下文检索任务上超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER S-NIAH 和多键针检索基准上。AI模型大模型推理模型MambaNVIDIA线性注意力4 个信源在谈推荐理由:NVIDIA 新线性注意力,解耦擦写门原文
09:53Hugging Face: Blog(博客/媒体)精选NVIDIA 发布了 Nemotron-Labs 扩散语言模型,该模型采用扩散机制替代传统的自回归生成方式,大幅提升文本生成速度,接近光速。与 GPT-4 等模型相比,Nemotron-Labs 在保持生成质量的同时,推理速度提升了一个数量级。该模型在多个基准测试中表现出色,尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式,让文本生成更接近实时交互。AI模型扩散模型文本生成NVIDIA推理加速Nemotron-Labs2 个信源在谈推荐理由:NVIDIA 的扩散语言模型将文本生成速度推向新高度,做实时对话或低延迟应用的开发者可以直接关注,它可能改变你对大模型推理速度的认知。原文