AITOP 日报｜2026年6月4日｜Gemma 4 12B 开源，AI 智能体效率飙升

模型发布/更新

Model Releases

5 篇

Google DeepMind 发布 Gemma 4 12B：无编码器多模态模型，原生音频支持，16GB 笔记本可跑

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Google DeepMind 发布了 Gemma 4 12B，一款无编码器的多模态模型，直接将视觉和音频输入送入 LLM 主干，无需传统视觉或音频编码器。该模型原生支持音频理解，可在 16GB 内存的笔记本电脑上本地运行，并采用 Apache 2.0 开源许可。这降低了多模态 AI 的硬件门槛，让开发者能在消费级设备上部署视觉和音频处理能力。Gemma 4 12B 的发布标志着多模态模型向轻量化和本地化迈出重要一步。

NVIDIA 发布 Nemotron 3 Ultra：550B MoE 开源模型，专为长时智能体优化

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA 今日正式推出 Nemotron 3 Ultra，一款 550B 参数的 MoE（混合专家）开源模型，专为长时间运行的智能体任务设计。相比其他开源前沿模型，该模型推理速度提升 5 倍，复杂智能体任务成本降低高达 30%。Nemotron 3 Ultra 旨在解决长周期 AI 任务中的效率与成本瓶颈，为开发者提供更经济、更快速的智能体部署方案。NVIDIA 强调其“前沿智能”级别性能，并保持开源，进一步推动 AI 生态发展。

NVIDIA 开源 Nemotron 3 Ultra：权重、数据、训练配方全开放

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA 宣布完全开源 Nemotron 3 Ultra 模型，包括模型权重、合成数据和后训练配方。该模型已在 Hugging Face 上架，开发者可自由获取和使用。此举延续了 NVIDIA 在 AI 开源领域的承诺，为研究人员和开发者提供了完整的模型复现与定制能力。Nemotron 3 Ultra 的开放有助于推动大模型生态的透明度和可复现性。

Ideogram 发布最新 v4 图像模型，开放权重

X·KOLX：Hugging Face (@huggingface)原文 ↗

Ideogram 发布了其最新、最强的 v4 图像模型，并开放了模型权重。该模型号称是“世界上最好的开放图像模型”，用户可下载权重、在自己的数据上微调，并运行在自己的硬件上。目前已在所有 Ideogram 计划和 API 上可用。此举将最先进的图像生成能力与开放权重相结合，对 AI 图像生成社区意义重大。

Step 3.7 Flash：198B稀疏MoE视觉语言模型，推理效率优先

X·KOLX：Fireworks AI (@FireworksAI_HQ)原文 ↗

Step 3.7 Flash 是阶跃星辰（StepFun）发布的 198B 稀疏 MoE 视觉语言模型，专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器，支持原生多模态理解和行动，可靠工具使用，以及增强的网页和视觉搜索。在真实智能体工作负载下，推理速度可达 400 tok/sec，并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。

产品发布/更新

Product

5 篇

OpenJarvis：斯坦福开源本地优先 AI 智能体框架，成本仅为云端 1/800

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

斯坦福研究人员发布 OpenJarvis，一个完全在设备上运行的开源 AI 智能体框架，涵盖推理、智能体、记忆和学习。它将个人 AI 系统分解为五个可组合原语：智能、引擎、智能体、工具与记忆、学习。在性能上，OpenJarvis 仅比最佳云端模型低 3.2 个点，但边际 API 成本降低约 800 倍。该框架旨在实现隐私保护、低延迟和低成本，适合个人设备上的 AI 应用。

Wasmer 用 Codex 构建边缘 Node.js 运行时，开发提速 10-20 倍

官方OpenAI Blog原文 ↗

Wasmer 利用 OpenAI 的 Codex（基于 GPT-5.5）构建了一个专为边缘计算优化的 Node.js 运行时。通过 Codex 的代码生成能力，开发效率提升了 10 到 20 倍，原本需要数月的工作在几周内完成。这一成果展示了 AI 辅助编程在基础设施级项目中的实际价值，尤其适合需要快速迭代的边缘计算场景。

OpenClaw Skill Workshop：给Agent工作流加道人工审核闸门

X·KOLX：shao__meng (@shao__meng)原文 ↗

OpenClaw 推出 Skill Workshop，将可复用的 Agent 工作流从说明文档升级为需审核的提案。Skill 一旦生效会固化进系统，错误比单次回答更严重。Workshop 通过提案、审核、应用三阶段，让用户先审后生效，避免错误固化。提供 Board 视图（批量治理）和 Today 视图（快速过审），并支持微调（Tweak）和捆绑支持文件。路径规则严格限制，在功能与安全间取平衡。

Cursor Debug Mode：让AI Agent从“猜Bug”变成“查日志”

X·KOLX：shao__meng (@shao__meng)原文 ↗

Cursor 推出 Debug Mode，解决 AI Agent 修复 Bug 时依赖静态推理、常产生假修复的问题。其核心流程是：Agent 先添加临时日志，用户手动复现 Bug，Agent 读取运行时日志后基于真实数据定位根因并修复。该模式已用于概率性竞态条件、内存泄漏、C++ 原生崩溃、SSR 渲染 Bug 等真实场景，显著提升修复可靠性和透明度。

EVA-Bench Data 2.0：3领域121工具213场景

官方Hugging Face: Blog原文 ↗

ServiceNow AI 发布了 EVA-Bench Data 2.0，一个面向企业级 AI 智能体的评估基准数据集。该数据集覆盖 3 个领域（IT、HR、客户服务），包含 121 种工具和 213 个场景，旨在测试 AI 智能体在复杂企业环境中的工具调用和任务执行能力。相比第一版，新版本增加了更多真实世界的交互场景和工具多样性，为开发者提供了更全面的评估标准。这对于希望在企业场景中部署 AI 智能体的团队来说，是一个重要的参考资源。

行业动态

Industry

4 篇

中国具身智能公司登顶RoboArena，超越NVIDIA和Physical Intelligence

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

在NVIDIA GTC Taipei 2026上，一家中国具身智能公司宣布其模型在RoboArena基准测试中排名第一，超越了NVIDIA和Physical Intelligence等国际巨头。RoboArena是评估机器人自主决策和操作能力的权威基准，涵盖多种复杂任务。这一成就标志着中国在具身智能领域取得重大突破，展示了其技术实力和创新能力。该公司的模型在任务完成率、适应性和效率等关键指标上表现优异，为行业树立了新标杆。

三星展示HBM5 HPB散热结构，对标SK海力士iHBM

官方IT之家原文 ↗

三星在2026台北国际电脑展上展示了面向HBM5内存的HPB（热阻断路径）封装散热结构，旨在解决高密度、高速度HBM堆栈的散热压力。该技术在封装内部加入独立热柱，从堆叠内部带走热量并导向散热器，重点优化D2D PHY区域的热管理。HPB已在HBM4E上验证，首批12层样品已出货。三星还确认HBM5基底芯片将转向2nm工艺。与此同时，SK海力士采用iHBM方案，将冷却元件嵌入D2D PHY层，可降低超30%热阻，两者路线不同。

OpenAI 的 Sam Altman 谈扩展挑战：6 年百万倍增长，未来还需百万倍

X·KOLX：Latent.Space (@latentspacepod)原文 ↗

OpenAI 的 Sam Altman 在播客中分享了 AI 扩展的惊人数据：6 年前全球最高 token 使用量是每月 10 万，现在中位数已达到这个水平，而最高使用量超过每月 1000 亿，增长了 100 万倍。他认为未来还有 100 万倍的增长空间，全球平均使用量将达到每月 1000 亿 token。这引发了对所需基础设施的思考，对 AI 行业的发展方向有重要启示。

Anthropic 数据团队用 Claude 自动化 95% 业务分析查询

X·KOLX：cat (@_catwu)原文 ↗

Anthropic 数据团队分享了他们如何使用 Claude 自动化 95% 的业务分析查询。博客文章详细介绍了他们在构建数据分析智能体时采用的技能、数据基础和评估方法。团队通过精心设计的评估流程、消融实验和在线验证，确保了自动化查询的准确性和可靠性。这一实践展示了大型语言模型在企业数据分析中的巨大潜力，为其他团队提供了可复用的最佳实践。

论文研究

Research

3 篇

中科大开源智能体驱动长上下文训练范式：30B模型媲美Qwen3-235B

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

中国科学技术大学（USTC）研究人员开源了一种创新的智能体驱动长上下文训练范式，该范式通过智能体引导的数据生成和训练策略，显著提升了长上下文处理效率。实验表明，一个30亿参数的模型在长上下文任务上达到了与阿里巴巴Qwen3-235B模型相当的性能，而参数量仅为后者的八分之一。这一突破降低了长上下文模型训练的门槛，为资源有限的团队提供了高效方案。该范式已开源，有望推动长上下文AI应用的普及。

Self-Reflective APIs：结构化建议让AI Agent恢复率提升40个百分点

X·KOLX：arXiv: Anthropic (@Arquimedes Canedo, Grama Chethan)原文 ↗

当AI Agent调用API遇到验证错误时，传统做法返回自然语言错误描述，但Agent往往无法有效修复。该论文提出Self-Reflective API，在验证失败时返回机器可读的结构化恢复建议（recovery_feedback.suggestions[]），使Agent能直接修复请求并重试，无需外部推理。在30个样本、3个LLM、10个对抗任务的实验中，结构化建议在Anthropic模型上将任务完成率提升36.7-40个百分点，且每个成功token效率提升1.8-2.2倍。在gpt-4o-mini上效果不显著，但计费API的二次验证确认了模式。研究还发现了LLM基准测试中两类未记录的答案泄露问题，并开源了审计工具。

FlexNPU：为LLM动态Prefill-Decode共置的透明NPU虚拟化

X·KOLX：arXiv: DeepSeek (@Jiongjiong Gu, Jianfeng Wang, Zidong Han, Yongqiao Wang, Pengfei Xia, Mingjie Zhang, Hong Liu, Yuanyi Xia, Jiajia Chu, Yifeng Tang, Hui Zang, Xin Yao, Qijie Qiu, Yuzhao Wang, Chuanfei Xu, Lin Zhang, Zhuonan Lai, Hongming Huang, Jiawei Qiu, Gong Zhang, Zhong Ming, Weipeng Cao)原文 ↗

FlexNPU 提出了一种透明的用户空间虚拟化层，用于华为Ascend NPU，通过拦截AscendCL API并路由操作到设备守护进程，实现无需修改模型代码、AI框架或NPU驱动即可解耦应用与物理设备。该方案支持动态PD共置调度，根据prefill（计算密集）和decode（内存带宽受限）的互补资源特性灵活调整，解决了静态PD分离的资源不平衡和数据移动问题。在384卡Ascend 910C部署DeepSeek-R1时，相比静态PD分离，吞吐量提升5.15%和26.33%；在Qwen2.5-7B上，相比静态PD共置，TTFT降低超过92%且TPOT几乎不变。实验表明，透明NPU虚拟化是实现高效、响应式LLM服务的实用基础。

284

今日事件

一手报道

新模型

信源