全部 AI 动态 · AI 热点

6月30日

01:17

01:17Simon Willison’s Weblog（博客/媒体）

精选

DeepReinforce 发布 Ornith-1.0，一款 MIT 许可的开源模型，基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本，能流畅运行代理工具调用并处理代码定位任务。

AI模型 Ornith-1.0 DeepReinforce Gemma 4 Qwen 3.5 开源模型

推荐理由：DeepReinforce 新出的开源编码模型，基于 Gemma 4 和 Qwen 3.5，在代理编码任务上表现不错，LM Studio 就能跑，值得试试。

原文

6月25日

21:45

Thomas Wolf@Thom_Wolf

实验让100多个智能体协作一周，优化vLLM中Gemma 4推理速度，最终实现5倍提升。智能体自发拒绝人类社交工程尝试，发现验证漏洞并请求社区裁决。四智能体接力构建int4-lm_head检查点，经诊断配置错误后达到118 TPS（2.68×）。GPU富/贫分工、跨智能体内核调试、配额池化等行为涌现。智能体还指出127 TPS“墙”是假象，并讨论了int4-Marlin floor的循环证明问题。

AI模型 Gemma 4 vLLM 多智能体推理优化智能体协作

推荐理由：这个实验展示了100多个AI智能体像人类社区一样自发协作、互相监督，甚至发现了验证漏洞。一周将Gemma 4推理速度优化5倍，很酷。

原文

6月19日

11:41

arXiv cs.AI@Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda

71°

论文分析 DiffusionGemma 的推理透明度，将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流，可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面，扩散模型因每步所有 token 可变化而更复杂，研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。

论文 DiffusionGemma Gemma 4 可解释性推理模型 Google

推荐理由：Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大，发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样，还发现了扩散模型特有的奇怪推理方式。

原文

6月18日

13:03

@atomic_chat_hq@atomic_chat_hq

精选

Diffusion Gemma 在单个H100（FP8）上速度达763 tok/s，比Gemma 4的218 tok/s快约4倍。但事实准确性测试中，Diffusion Gemma 33个事实正确、28个错误，而Gemma 4为45正确、5错误。话题越冷门错误越多：乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称，并将BeBox价格虚构为$9,999（实际$1,600）。

AI模型 Diffusion Gemma Gemma 4 Google 推理模型事实准确性

推荐理由：想用更快的推理速度就得接受更多幻觉，Google官方也为此打预防针了。

原文

13:00

@atomic_chat_hq@atomic_chat_hq

精选

Google Gemma 4 12B模型在RTX 4090上实测仅需9GB VRAM，生成8.9k tokens，速度80 tok/s，性能接近26B版本。其对比的Gemma 4 26B-A4B使用15GB VRAM，生成6.9k tokens，速度138 tok/s，所有场景胜出。但12B在近半VRAM下表现十分接近，成为16GB笔记本的理想选择。

AI模型 Gemma 4 12B 26B-A4B Google 推理模型

推荐理由：新Gemma 4 12B别看参数小，实测代码能力接近26B版，而且只需要9GB显存，16GB笔记本就能跑。

原文

6月17日

23:30

Philipp Schmid@_philschmid

精选

Phil Schmid 在推文中引用 Vicki Boykis 的教程，指出 Google 最新 Gemma 4 系列模型能在本地运行 agentic coding 循环，准确率和速度达到前沿模型的约 75%。该教程演示了如何使用本地模型进行编码任务。此前本地模型难以高效完成 agentic 工作流，Gemma 4 将这一差距缩小。

技巧 Gemma 4 Google 智能体编程助手本地模型

推荐理由：Vicki Boykis 教你用 Google Gemma 4 在本地跑 agentic coding，速度能到主流模型的 75%，不用联网也能用智能体写代码了。

原文

08:59

08:59SuperTechFans（博客/媒体）

精选76°

作者在 2022 年 M2 Mac（64GB RAM）上测试 Mistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MOE 等多种模型，使用 llama.cpp、Ollama、LM Studio 等工具。她发现自从 GPT-OSS 发布后，本地模型在编程任务上已足够好用，尤其 Google 的 Gemma 4 系列（如 gemma-4-26b-a4b 和 gemma-4-12b-qat）在 Python 代码重构、类型提示修复、写单元测试等 agentic 任务中准确率和速度约为前沿模型的 75%。她分享了本地 agentic 设置：用 Pi 作 agent 框架、LM Studio 作推理服务器，所有操作放在 Docker 容器中以限制权限。本地模型仍有推理速度慢、上下文窗口受硬件限制等问题，但隐私友好、可自由调整参数。

技巧 M2 Mac Gemma 4 Pi LM Studio 本地模型

推荐理由：想试本地模型？这篇有 M2 Mac 上跑 Gemma 4 的详细配置，还有 Pi+LM Studio 的 agentic 设置，比云端省心。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:16

vLLM@vllm_project

精选73°

vLLM v0.23.0 包含 408 次提交，来自 200 位贡献者（63 位新贡献者）。主要亮点：DeepSeek-V4 在多个后端上成熟，引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified（无编码器）及 MTP 支持。还提供了多层级 KV 缓存卸载（含对象存储层）和统一的推理与工具调用解析器。

AI产品 vLLM DeepSeek-V4 Llama Gemma 4 推理引擎

推荐理由：vLLM v0.23.0 大更新，DeepSeek-V4 和 Llama 用户值得升级，新的 KV 缓存卸载能省显存，推理与工具调用解析也更顺了。

原文

09:37

AWS Machine Learning Blog@Aris Tsakpinis

精选

Google DeepMind 发布的 Gemma 4 开源权重模型系列现已在 Amazon Bedrock 上可用。该系列包含三个指令调优变体：Gemma 4 31B（密集架构）、26B-A4B（MoE 架构，每次激活 4B 参数）和 E2B。所有变体均支持内置推理、原生函数调用以及文本和图像多模态输入。模型基于 Apache 2.0 许可发布，旨在多种部署场景下实现每参数智能最大化。

AI模型 Gemma 4 Amazon Bedrock Google DeepMind 开源模型多模态

推荐理由：Google DeepMind 把最新的 Gemma 4 放到 AWS 上了，三种规格可选，带推理和图文理解，正好拿来玩开源项目。

原文

6月15日

11:12

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

论文对DiffusionGemma 26B（基于Gemma 4的掩码离散扩散MoE模型）进行解码顺序测量，在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归，而是部分从左到右偏置。偏置强度随分析粒度平滑增强，块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌，批量内顺序多数未定义，行为依赖场景：结构化JSON提交顺序任意，数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发，任务准确率与自回归Gemma 4相当。核心贡献是方法论：正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。

论文 DiffusionGemma Gemma 4 掩码扩散模型解码顺序 MoE

推荐理由：解析扩散模型真实解码行为

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:04

LMSYS Org (SGLang)@lmsysorg

精选

SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型，这是 Gemma 4 的文本扩散变体（26B A4B MoE）。与传统逐 token 解码不同，DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入（文本、图像、视频）输出文本、稀疏 MoE 架构（8/128 专家）以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。

AI模型 SGLang DiffusionGemma Gemma 4 文本扩散 MoE

推荐理由：文本扩散模型大幅提升生成效率，适合需要低延迟批量推理的 AI 应用开发者，建议立即在 SGLang 中体验。

原文

00:24

SiliconFlowAI@siliconflowai

精选

Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线，支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构，视觉和音频输入直接进入 LLM 主干，降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能，接近 Google 26B 模型的表现，在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元，性价比突出。

AI模型 Gemma 4 智能体多模态长上下文 SiliconFlow

推荐理由：做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民，建议直接上手试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

06:13

Sundar Pichai@sundarpichai

78°

Google 发布了 DiffusionGemma，这是一个基于 Gemma 4 的实验性开放模型，采用文本扩散技术。与传统逐词预测不同，DiffusionGemma 能同时生成整段文本，实现高达 4 倍的推理加速。该模型目前以研究预览形式开放，旨在探索更高效的文本生成方式。这对于需要低延迟文本生成的场景（如实时对话、内容创作）具有重要意义。

AI模型文本扩散推理加速 Gemma 4 开放模型 Google

推荐理由：推理速度提升 4 倍意味着更低的延迟和更低的成本，做实时文本生成或大规模内容生产的团队值得关注这个新方向。

原文

01:49

Philipp Schmid@_philschmid

78°

DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型，推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式，实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM，且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈，为高效文本生成提供了新思路。

AI模型扩散模型 Gemma 4 MoE 高效推理开源/仓库

推荐理由：每秒 1000+ tokens 的生成速度让推理成本大幅降低，做大规模文本生成或实时应用的开发者值得关注，量化后 18GB VRAM 就能跑，门槛很低。

原文

6月10日

03:41

Patrick Loeber@patloeber

在 Google Cloud Summit 捷克站，Pat Loebe 介绍了 Google DeepMind AI 栈，涵盖 Gemini 3.5、GenMedia 与音频模型、AI Studio 等工具、Interactions API 与 Managed Agents 智能体、Gemma 4 以及机器人技术。这展示了 Google 在 AI 领域的全面布局，从模型到工具再到智能体，为开发者和企业提供了完整的解决方案。

AI产品 Gemini 3.5 智能体 Google Cloud Gemma 4 AI 工具

推荐理由：想了解 Google AI 最新全家桶的开发者，这篇总结帮你快速抓住 Gemini 3.5、智能体 API 和 Gemma 4 的核心亮点，值得收藏。

原文

6月8日

22:52

Philipp Schmid@_philschmid

精选72°

Google 发布了新的 Gemma 4 QAT（量化感知训练）检查点，在保持相似性能的同时，将内存占用降低约 4 倍。该版本引入了一种新的移动端量化格式，将 Gemma 4 E2B 的内存占用降至仅 1GB。QAT 通过在训练过程中模拟低精度运算，实现无损量化，从而得到更小、更快的模型。这些检查点已在 Hugging Face 上提供，可直接运行。

AI模型 Gemma 4 QAT 量化移动端部署 Hugging Face

推荐理由：做移动端或边缘部署的开发者终于可以跑 Gemma 4 了——内存降到 1GB 意味着手机和 IoT 设备也能用，建议直接去 Hugging Face 拉下来试试。

原文

6月6日

08:27

rohanpaul_ai@rohanpaul_ai

Anthropic 表示其 80% 的新生产代码由 Claude 编写，标志着 AI 编程在大型科技公司中的深度应用。Google 新论文显示通用 LLM 通过规划证明和逐步检查，在形式数学任务上从低于 10% 提升至 70% 的准确率。Google 开源 Gemma 4 12B 模型，支持音频和视频分析，可在消费级 16GB GPU 上完全本地运行。阿里巴巴发布 Qwen3.7-Plus，支持文本、视频和图像输入，价格低廉但保持闭源。Anthropic 的化学报告也展示了令人惊讶的结果。

行业 Anthropic Claude Google Gemma 4 Qwen3.7-Plus AI编程数学推理开源模型

推荐理由：AI 编程和数学推理的突破正在改变开发和研究方式，做 AI 应用或数学研究的团队值得关注这些进展，尤其是 Claude 的代码生成和 Gemma 4 的本地部署能力。

原文

08:26

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发布了 Gemma 4 的 QAT（量化感知训练）检查点，将最小模型从 11.4GB 压缩至 1.1GB，纯文本版本仅 0.84GB。与传统的 PTQ（训练后量化）不同，QAT 在训练过程中模拟压缩，让模型学会在权重被压缩时保持推理质量。Google 还构建了针对移动端的格式，包括静态激活、通道级量化、目标 2 位量化和 KV 缓存优化，减少手机计算负担，延长长对话的内存使用。这使得 Gemma 4 更容易在手机和笔记本上运行，降低了部署门槛。

AI模型 Gemma 4 量化移动端部署 QAT 模型压缩

推荐理由：QAT 解决了模型压缩后推理质量下降的痛点，做移动端 AI 部署的开发者可以直接用这些检查点，在手机上跑大模型不再吃内存。

原文

05:45

Google AI@GoogleAI

Google AI 本周密集发布多项产品更新：Nano Banana 2 和 Nano Banana Pro 正式 GA，可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 使用；Co-Scientist 是一个多智能体系统，用于结构化科学思维，能生成和优化新假设；dreambeans 可基于 Google 应用数据自动生成个性化每日话题；Gemma 4 12B 是统一无编码器模型，支持离线多模态智能；Gemma 4 模型及其 drafters 已通过量化感知训练优化，降低内存需求并提升端侧性能；RealTime 2 是开放权重的实时音乐模型，可通过 MIDI 键盘、文本提示和手势演奏。

AI产品智能体多模态模型开源/仓库 Gemma 4 Co-Scientist

推荐理由：Google 一周内连发 6 项更新，覆盖企业智能体、科学推理、端侧模型和创意工具，做 AI 应用开发或科学研究的团队值得逐一了解，尤其是 Co-Scientist 和 Gemma 4 12B 的离线能力值得一试。

原文

04:19

Paul Couvert@itsPaulAi

88°

Google 发布了 Gemma 4 QAT 模型，相比前代内存需求降低 3 倍，使得高性能模型能在本地设备上运行。其中 Gemma 4 E4B 模型性能优于 GPT-4o，仅需 2GB RAM 即可在手机上运行。而 Gemma 4 31B 模型（约 Opus 4 级别）现在可以在笔记本电脑上运行。这标志着本地 AI 部署的重大突破，让更多用户无需依赖云端即可使用强大模型。

AI模型 Google Gemma 4 本地 AI 模型压缩量化

推荐理由：本地 AI 爱好者终于等到了——Gemma 4 QAT 让旗舰级模型跑在手机和笔记本上，做边缘计算或隐私敏感应用的开发者可以直接试试。

原文

03:13

AI Breakfast@AiBreakfast

AI 领域最被低估的趋势是“足够好”的本地智能已经实现。Gemma 4 12B 模型可以在 16GB 内存的笔记本电脑上运行，覆盖普通用户的所有需求。它无限使用、永久免费且完全离线，无需联网或付费。这标志着本地 AI 的实用化里程碑，对隐私敏感或网络受限的用户尤其重要。

AI模型 Gemma 4 本地模型开源/仓库隐私轻量级

推荐理由：本地 AI 终于不再是玩具——Gemma 4 12B 在普通笔记本上就能跑，日常查询、写作、编程辅助都能搞定，隐私敏感或想省钱的用户可以直接上手试试。

原文

03:05

ollama@ollama

Ollama 宣布 Gemma 4 的量化感知训练（QAT）权重现已可用。这些权重在保持模型质量的同时，显著降低了内存需求。用户可以通过 Ollama 直接运行多个 Gemma 4 变体，包括 e2b、e4b、12B、26B 和 31B 等版本。Google Gemma 团队也在 Hugging Face 上发布了所有 Gemma 4 模型大小及其 drafters 的 QAT 检查点，旨在优化设备端性能。这为在资源受限环境中部署大型语言模型提供了更高效的方案。

AI模型 Gemma 4 量化感知训练 Ollama 模型优化 Hugging Face

推荐理由：QAT 权重让 Gemma 4 在更低内存下运行，适合在本地或边缘设备部署大模型的开发者，可以直接用 Ollama 命令体验。

原文

02:59

marktechpost@Asif Razzaq

精选

Google DeepMind 推出 Gemma 4 的 QAT（量化感知训练）检查点，包含 Q4_0 格式（4-bit 量化）和新开发的移动格式。与 BF16 版本相比，Q4_0 可将模型内存占用降低约 75%，而移动格式进一步优化至适合手机等设备。这些检查点面向边缘计算场景，平衡了精度和推理速度。

AI模型 Gemma 4 Google DeepMind QAT 量化模型移动端

推荐理由：Gemma 4 量化版来了，内存省 75%

原文

01:51

Google AI Developers@googleaidevs

72°

Google 发布了 Gemma 4 的量化感知训练（QAT）检查点，支持在消费级 GPU 和移动设备上本地运行模型，且质量损失极小。新特性包括 GGUF Q4_0 格式检查点，针对所有尺寸和 drafter 模型优化了本地性能；以及自定义移动端混合精度模式，将 Gemma 4 压缩至 1GB 以下，采用 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练时模拟压缩而非事后量化，大幅降低内存占用并加速解码，同时保持推理质量。这为开发者提供了在边缘设备上部署强大 AI 模型的新选择。

AI模型 Gemma 4 QAT 量化感知训练本地推理移动端部署

推荐理由：做本地 AI 部署或移动端推理的开发者，终于有了官方 QAT 方案——Gemma 4 压缩到 1GB 以下还能保持推理质量，建议直接下载检查点试试。

原文

6月5日

09:36

ollama@ollama

精选

Google 的 Gemma 4 12B 模型已更新至 Ollama，支持所有平台运行。该模型是统一的无编码器多模态模型，专为笔记本电脑设计，在边缘效率与高级推理之间取得平衡，并采用 Apache 2.0 许可。用户可通过 Ollama 在 Claude Code、Hermes Agent、OpenClaw、Codex 等工具中直接调用。

AI模型 Gemma 4 Ollama 多模态模型本地部署开源/仓库

推荐理由：本地运行多模态模型的门槛又降低了——Gemma 4 12B 在 Ollama 上即开即用，做本地 AI 应用或边缘推理的开发者可以直接上手试。

原文

6月4日

23:12

Philipp Schmid@_philschmid

72°

Google 昨日发布 Gemma 4 12B 模型，并附有详细架构图解。该模型创新性地移除了视觉和音频编码器，仅用一个 12B 参数模型即可处理文本、图像和音频，无需独立的编码器模块。图解展示了编码器通常如何连接模态与大语言模型，以及 Gemma 4 如何通过单一模型实现多模态理解。这一设计简化了模型结构，降低了部署复杂度，对多模态 AI 研究者和开发者具有重要参考价值。

AI模型 Gemma 4 多模态模型架构 Google 图解

推荐理由：多模态模型架构的一次简化尝试，做模型部署或边缘推理的团队值得看看图解，理解无编码器方案如何降低资源开销。

原文

12:18

小互@imxiaohu

78°

Google 发布了 Gemma 4 12B 开源模型，采用无编码器架构，能直接处理文字、图像、音频和视频四种输入，无需传统视觉或音频编码器。该模型可在 16GB 显存的笔记本上运行，4-bit 量化后仅需 8GB 显存。支持 256K Token 上下文窗口、140 多种语言，并内置逐步推理和原生函数调用功能。这一架构创新降低了多模态 AI 的硬件门槛，让普通用户也能在本地运行全模态模型。

AI模型 Gemma 4 开源模型多模态无编码器架构本地推理

推荐理由：无编码器架构让多模态模型不再依赖专用编码器，16GB 笔记本就能跑全模态 AI，做本地 AI 应用或边缘计算的开发者可以直接试试。

原文

12:14

小互@imxiaohu

83°

Google 将 AI Edge Gallery 从手机端扩展到 macOS 桌面，用户下载安装后即可本地运行 Gemma 4 12B 模型。该应用内置沙盒 Python 环境，支持在聊天中编写代码并执行画图等操作。此外，Eloquent 功能支持语音交互，用户可以直接对着电脑说话。这降低了本地运行大模型的门槛，适合开发者和 AI 爱好者快速体验。

AI产品 Google AI Edge Gallery Gemma 4 macOS 本地模型

推荐理由：本地跑大模型终于不用折腾环境了，做原型验证或离线使用的开发者直接下载就能用，还带 Python 沙盒和语音交互，值得一试。

原文

11:16

11:16IT之家（博客/媒体）

精选

谷歌 AI Edge Gallery 实验性应用现已登陆 macOS，让苹果 Mac 用户能在本地离线运行 Gemma AI 模型，无需联网即可进行聊天、图像处理和语义理解。该应用仅提供 5 个谷歌自家模型，其中最受关注的是 Gemma 4 12B，可在 16GB 内存 Mac 上处理文本、视觉和音频，并具备代码能力，适合设备端数据分析和信息提取。同时，谷歌还推出了 Mac 版 AI Edge Eloquent 听写应用，支持离线语音转文字和轻度润色。

AI产品谷歌 AI Edge Gallery Gemma 4 Mac 本地模型

推荐理由：Mac 用户终于有了谷歌官方的本地 AI 工具，16GB 内存就能跑多模态模型，做本地数据分析和隐私敏感任务的开发者可以直接试试。

原文

08:25

berryxia@berryxia

78°

Google 将 Gemma 4 12B 模型与 AI Edge 工具链深度整合，开发者可在笔记本上完全本地运行 Agentic 工作流。Mac 用户可通过 AI Edge Gallery 生成代码，AI Edge Eloquent 支持语音输入实时编辑文本。底层使用 LiteRT-LM 推理引擎，实现零网络、零延迟、数据全在本地。这标志着端侧 AI 从实验走向实用，让普通开发者能拥有私有的、可连续执行的本地 AI 队友。

AI产品端侧模型 Agentic 工作流 Gemma 4 Google AI Edge 本地推理

推荐理由：Google 把模型、推理引擎和开发工具链打包成一套方案，做端侧 AI 或隐私敏感应用的开发者可以直接在笔记本上跑 Agentic 工作流，建议试试 AI Edge Gallery 的代码生成功能。

原文

08:22

berryxia@berryxia

Google 昨晚发布了 Gemma 4 12B 多模态大模型，该模型支持文本和图像输入，最低只需 16GB 内存即可运行。这降低了多模态模型的本地部署门槛，适合个人开发者和资源受限的环境。与 Qwen 等同类模型的对比结果值得关注，可能影响开源多模态模型的竞争格局。

AI模型多模态模型 Gemma 4 Google 本地部署开源模型

推荐理由：多模态模型本地运行门槛进一步降低，做 AI 应用或本地部署的开发者可以关注 Gemma 4 与 Qwen 的对比，评估是否值得迁移或尝试。

原文

06:06

Sundar Pichai@sundarpichai

88°

Google CEO Sundar Pichai 宣布推出 Gemma 4 12B 模型，该模型在体积和性能之间取得平衡，可在配备 16GB VRAM 的笔记本电脑上本地运行。它支持多步推理和智能体工作流，采用 Apache 2.0 开源许可。同时，Gemma 4 系列下载量已超过 1.5 亿次。该模型为开发者提供了在本地设备上部署强大 AI 能力的新选择。

AI模型 Gemma 4 12B 本地运行开源推理模型

推荐理由：对于想在笔记本上跑本地 AI 的开发者，Gemma 4 12B 是难得的小体积高性能选择，16GB VRAM 就能运行，建议直接下载试试。

原文

05:12

ollama@ollama

GoogleDeepMind 的 Gemma 4-12B 模型现已可通过 Ollama 直接使用，支持 MLX 框架。用户可通过 `ollama run gemma4:12b-mlx` 命令快速启动聊天，还支持 Hermes Agent、Claude Code 等工具的集成。这为开发者提供了便捷的本地部署和实验途径，尤其适合在 Apple Silicon 设备上高效运行。

AI产品 Ollama Gemma 4 MLX 本地部署 GoogleDeepMind

推荐理由：Ollama 让 Gemma 4-12B 的本地部署门槛降到最低，做模型实验或本地 Agent 开发的团队可以直接跑起来，省去繁琐配置。

原文

04:27

Decoder@Matthias Bastian

78°

Google DeepMind 发布了 Gemma 4 12B 开源模型，原生支持文本、图像和音频处理，仅需 16GB 内存即可在笔记本上运行。该模型在基准测试中几乎与两倍大小的 26B 模型持平，并采用 Apache 2.0 许可证，允许商业使用。这标志着多模态 AI 在消费级硬件上的重大突破，降低了开发者和企业的使用门槛。

AI模型多模态开源/仓库 Gemma 4 Google DeepMind 本地推理

推荐理由：多模态模型终于能跑在普通笔记本上了，做本地 AI 应用或边缘计算的开发者可以直接下载试试，性能还接近两倍大的模型。

原文

02:36

Google AI Developers@googleaidevs

78°

Google 发布了 Gemma 4 12B，一款无编码器的多模态模型，可直接在笔记本电脑上运行。该模型去除了传统的视觉和音频编码器，让输入直接进入 LLM 主干，实现高效的多模态推理。在 16GB VRAM 下即可运行复杂智能体工作流，性能接近其 26B 的 MoE 模型。采用 Apache 2.0 许可，适合本地部署和开发。

AI模型 Gemma 4 多模态模型无编码器本地推理 Apache 2.0

推荐理由：无编码器架构让多模态模型更轻量、更高效，做本地 AI 应用或智能体开发的团队可以直接在笔记本上跑，值得一试。

原文

02:35

Demis Hassabis@demishassabis

精选

Google 发布 Gemma 4 12B 模型，庆祝其总下载量突破 1.5 亿次。该模型体积小巧，仅需 16GB VRAM 即可在笔记本上本地运行。采用 Apache 2.0 开源许可证，开发者可自由使用和修改。

AI模型 Gemma Gemma 4 Google 开源模型

推荐理由：小模型也能本地跑，性能强

原文

01:54

Patrick Loeber@patloeber

78°

Google 发布 Gemma 4 12B 模型，采用全新统一架构，去除了独立的多模态编码器，原生支持图像、音频、视频和文本输入。该模型还具备高级智能体推理能力，并首次推出基于 LiteRT 的 macOS 桌面应用。这一架构简化了多模态处理流程，降低了部署门槛，适合本地运行和边缘设备。开发者可立即在 macOS 上体验其多模态与推理能力。

AI模型 Gemma 4 多模态统一架构智能体推理 macOS

推荐理由：Gemma 4 12B 的统一架构让多模态模型更轻量、更易部署，做本地 AI 应用或智能体开发的团队可以直接在 macOS 上试跑，值得关注。

原文

00:33

Philipp Schmid@_philschmid

76°

Google 发布了 Gemma 4 12B，这是其首个支持原生音频输入的中型多模态模型。该模型采用无编码器架构，直接将视觉和音频信息融入大语言模型，仅需 16GB 内存即可运行。在基准测试中，其性能接近 26B 参数模型，且采用 Apache 2.0 开源许可。这标志着中小型模型在多模态能力上的重要突破，尤其适合资源受限的开发者。

AI模型 Gemma 4 多模态模型音频输入开源/仓库 Google

推荐理由：Gemma 4 12B 让中小团队也能用上原生音频多模态模型，16GB 内存门槛极低，做语音交互或视觉应用的开发者可以直接下载试试。

原文

5月27日

08:37

berryxia@berryxia

76°

Google Gemma团队推出开源项目AIventure，一个复古地牢爬行游戏，核心玩法是将agentic workflow和vibe-coding融入游戏。玩家在游戏中通过自然语言指令，让本地模型Gemma 4实时理解、规划、调用工具，最终生成可运行的Web应用。该项目完全开源，旨在展示如何让AI执行复杂任务，而非仅停留在对话层面。开发者可通过游戏机制学习AI agent集成与任务自动化。

AI产品 Gemma 4 AIventure 开源/仓库智能体编程助手

推荐理由：想体验AI agent从聊天到落地的开发者，这个游戏让你边玩边学Gemma 4的实时任务执行，直接跑出真实应用，值得一试。

原文

5月21日

03:22

小互@imxiaohu

精选

Open Duck机器人搭载了谷歌的Gemma 4模型，实现了视觉识别和自然语言对话。在演示中，它能识别书桌、水杯等物体并描述场景。机器人还能通过语音与用户进行多轮问答。该方案展示了40亿参数模型在边缘设备上的实时推理能力。

AI产品 Gemma 4 Open Duck 机器人多模态

推荐理由：Gemma 4让机器人会看会聊

原文