Google 发布 Gemma 4 12B 开源模型,16GB 笔记本可跑全模态 AI

Google 发布 Gemma 4 12B 开源模型 16GB 笔记本跑全模态 AI Gemma 4 12B 采用了一种叫"Unified"的无编码器架构,让文字、图像、音频、视频四种输入直接进入...

精选理由

无编码器架构让多模态模型不再依赖专用编码器,16GB 笔记本就能跑全模态 AI,做本地 AI 应用或边缘计算的开发者可以直接试试。

AI 摘要

Google 发布了 Gemma 4 12B 开源模型,采用无编码器架构,能直接处理文字、图像、音频和视频四种输入,无需传统视觉或音频编码器。该模型可在 16GB 显存的笔记本上运行,4-bit 量化后仅需 8GB 显存。支持 256K Token 上下文窗口、140 多种语言,并内置逐步推理和原生函数调用功能。这一架构创新降低了多模态 AI 的硬件门槛,让普通用户也能在本地运行全模态模型。

AI 翻译 · 中文

Google 发布了 Gemma 4 12B 开源模型,采用无编码器架构,能直接处理文字、图像、音频和视频四种输入,无需传统视觉或音频编码器。该模型可在 16GB 显存的笔记本上运行,4-bit 量化后仅需 8GB 显存。支持 256K Token 上下文窗口、140 多种语言,并内置逐步推理和原生函数调用功能。这一架构创新降低了多模态 AI 的硬件门槛,让普通用户也能在本地运行全模态模型。

小互Google 发布 Gemma 4 12B 开源模型 16GB 笔记本跑全模态 AI Gemma 4 12B 采用了一种叫"Unified"的无编码器架构,让文字、图像、音频、视频四种输入直接进入同一个 Transformer 主干网络处理。 模型可直接处理原始的图像和声音 用一个类比讲清楚 传统多模态模型处理图片和音频的方式,类似于一个只会中文的老板配了两个翻译:一个英文翻译(视觉编码器),一个日文翻译(音频编码器