精选 AI 资讯 · AI 热点

AITOP

6月30日

14:52

Paul Couvert@itsPaulAi

精选

技巧 Qwen3.6-27B Gemma 4 Parakeet LM Studio 本地模型

推荐理由：Paul整理了5款能塞进笔记本的本地模型，从编程到语音全覆盖，帮你省掉高价工作站的钱。

原文

01:17

01:17Simon Willison’s Weblog（博客/媒体）

精选

DeepReinforce 发布 Ornith-1.0，一款 MIT 许可的开源模型，基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本，能流畅运行代理工具调用并处理代码定位任务。

AI模型 Ornith-1.0 DeepReinforce Gemma 4 Qwen 3.5 开源模型

推荐理由：DeepReinforce 新出的开源编码模型，基于 Gemma 4 和 Qwen 3.5，在代理编码任务上表现不错，LM Studio 就能跑，值得试试。

原文

6月18日

13:03

@atomic_chat_hq@atomic_chat_hq

精选

Diffusion Gemma 在单个H100（FP8）上速度达763 tok/s，比Gemma 4的218 tok/s快约4倍。但事实准确性测试中，Diffusion Gemma 33个事实正确、28个错误，而Gemma 4为45正确、5错误。话题越冷门错误越多：乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称，并将BeBox价格虚构为$9,999（实际$1,600）。

AI模型 Diffusion Gemma Gemma 4 Google 推理模型事实准确性

推荐理由：想用更快的推理速度就得接受更多幻觉，Google官方也为此打预防针了。

原文

13:00

@atomic_chat_hq@atomic_chat_hq

精选

Google Gemma 4 12B模型在RTX 4090上实测仅需9GB VRAM，生成8.9k tokens，速度80 tok/s，性能接近26B版本。其对比的Gemma 4 26B-A4B使用15GB VRAM，生成6.9k tokens，速度138 tok/s，所有场景胜出。但12B在近半VRAM下表现十分接近，成为16GB笔记本的理想选择。

AI模型 Gemma 4 12B 26B-A4B Google 推理模型

推荐理由：新Gemma 4 12B别看参数小，实测代码能力接近26B版，而且只需要9GB显存，16GB笔记本就能跑。

原文

6月17日

23:30

Philipp Schmid@_philschmid

精选

Phil Schmid 在推文中引用 Vicki Boykis 的教程，指出 Google 最新 Gemma 4 系列模型能在本地运行 agentic coding 循环，准确率和速度达到前沿模型的约 75%。该教程演示了如何使用本地模型进行编码任务。此前本地模型难以高效完成 agentic 工作流，Gemma 4 将这一差距缩小。

技巧 Gemma 4 Google 智能体编程助手本地模型

推荐理由：Vicki Boykis 教你用 Google Gemma 4 在本地跑 agentic coding，速度能到主流模型的 75%，不用联网也能用智能体写代码了。

原文

08:59

08:59SuperTechFans（博客/媒体）

精选76°

作者在 2022 年 M2 Mac（64GB RAM）上测试 Mistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MOE 等多种模型，使用 llama.cpp、Ollama、LM Studio 等工具。她发现自从 GPT-OSS 发布后，本地模型在编程任务上已足够好用，尤其 Google 的 Gemma 4 系列（如 gemma-4-26b-a4b 和 gemma-4-12b-qat）在 Python 代码重构、类型提示修复、写单元测试等 agentic 任务中准确率和速度约为前沿模型的 75%。她分享了本地 agentic 设置：用 Pi 作 agent 框架、LM Studio 作推理服务器，所有操作放在 Docker 容器中以限制权限。本地模型仍有推理速度慢、上下文窗口受硬件限制等问题，但隐私友好、可自由调整参数。

技巧 M2 Mac Gemma 4 Pi LM Studio 本地模型

推荐理由：想试本地模型？这篇有 M2 Mac 上跑 Gemma 4 的详细配置，还有 Pi+LM Studio 的 agentic 设置，比云端省心。

原文

6月16日

20:16

vLLM@vllm_project

精选73°

vLLM v0.23.0 包含 408 次提交，来自 200 位贡献者（63 位新贡献者）。主要亮点：DeepSeek-V4 在多个后端上成熟，引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified（无编码器）及 MTP 支持。还提供了多层级 KV 缓存卸载（含对象存储层）和统一的推理与工具调用解析器。

AI产品 vLLM DeepSeek-V4 Llama Gemma 4 推理引擎

推荐理由：vLLM v0.23.0 大更新，DeepSeek-V4 和 Llama 用户值得升级，新的 KV 缓存卸载能省显存，推理与工具调用解析也更顺了。

原文

09:37

AWS Machine Learning Blog@Aris Tsakpinis

精选

Google DeepMind 发布的 Gemma 4 开源权重模型系列现已在 Amazon Bedrock 上可用。该系列包含三个指令调优变体：Gemma 4 31B（密集架构）、26B-A4B（MoE 架构，每次激活 4B 参数）和 E2B。所有变体均支持内置推理、原生函数调用以及文本和图像多模态输入。模型基于 Apache 2.0 许可发布，旨在多种部署场景下实现每参数智能最大化。

AI模型 Gemma 4 Amazon Bedrock Google DeepMind 开源模型多模态

推荐理由：Google DeepMind 把最新的 Gemma 4 放到 AWS 上了，三种规格可选，带推理和图文理解，正好拿来玩开源项目。

原文

6月12日

12:04

LMSYS Org (SGLang)@lmsysorg

精选

SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型，这是 Gemma 4 的文本扩散变体（26B A4B MoE）。与传统逐 token 解码不同，DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入（文本、图像、视频）输出文本、稀疏 MoE 架构（8/128 专家）以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。

AI模型 SGLang DiffusionGemma Gemma 4 文本扩散 MoE

推荐理由：文本扩散模型大幅提升生成效率，适合需要低延迟批量推理的 AI 应用开发者，建议立即在 SGLang 中体验。

原文

00:24

SiliconFlowAI@siliconflowai

精选

Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线，支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构，视觉和音频输入直接进入 LLM 主干，降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能，接近 Google 26B 模型的表现，在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元，性价比突出。

AI模型 Gemma 4 智能体多模态长上下文 SiliconFlow

推荐理由：做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民，建议直接上手试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

22:52

Philipp Schmid@_philschmid

精选72°

Google 发布了新的 Gemma 4 QAT（量化感知训练）检查点，在保持相似性能的同时，将内存占用降低约 4 倍。该版本引入了一种新的移动端量化格式，将 Gemma 4 E2B 的内存占用降至仅 1GB。QAT 通过在训练过程中模拟低精度运算，实现无损量化，从而得到更小、更快的模型。这些检查点已在 Hugging Face 上提供，可直接运行。

AI模型 Gemma 4 QAT 量化移动端部署 Hugging Face

推荐理由：做移动端或边缘部署的开发者终于可以跑 Gemma 4 了——内存降到 1GB 意味着手机和 IoT 设备也能用，建议直接去 Hugging Face 拉下来试试。

原文

6月6日

08:26

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发布了 Gemma 4 的 QAT（量化感知训练）检查点，将最小模型从 11.4GB 压缩至 1.1GB，纯文本版本仅 0.84GB。与传统的 PTQ（训练后量化）不同，QAT 在训练过程中模拟压缩，让模型学会在权重被压缩时保持推理质量。Google 还构建了针对移动端的格式，包括静态激活、通道级量化、目标 2 位量化和 KV 缓存优化，减少手机计算负担，延长长对话的内存使用。这使得 Gemma 4 更容易在手机和笔记本上运行，降低了部署门槛。

AI模型 Gemma 4 量化移动端部署 QAT 模型压缩

推荐理由：QAT 解决了模型压缩后推理质量下降的痛点，做移动端 AI 部署的开发者可以直接用这些检查点，在手机上跑大模型不再吃内存。

原文

6月5日

09:36

ollama@ollama

精选

Google 的 Gemma 4 12B 模型已更新至 Ollama，支持所有平台运行。该模型是统一的无编码器多模态模型，专为笔记本电脑设计，在边缘效率与高级推理之间取得平衡，并采用 Apache 2.0 许可。用户可通过 Ollama 在 Claude Code、Hermes Agent、OpenClaw、Codex 等工具中直接调用。

AI模型 Gemma 4 Ollama 多模态模型本地部署开源/仓库

推荐理由：本地运行多模态模型的门槛又降低了——Gemma 4 12B 在 Ollama 上即开即用，做本地 AI 应用或边缘推理的开发者可以直接上手试。

原文

6月4日

11:16

11:16IT之家（博客/媒体）

精选

谷歌 AI Edge Gallery 实验性应用现已登陆 macOS，让苹果 Mac 用户能在本地离线运行 Gemma AI 模型，无需联网即可进行聊天、图像处理和语义理解。该应用仅提供 5 个谷歌自家模型，其中最受关注的是 Gemma 4 12B，可在 16GB 内存 Mac 上处理文本、视觉和音频，并具备代码能力，适合设备端数据分析和信息提取。同时，谷歌还推出了 Mac 版 AI Edge Eloquent 听写应用，支持离线语音转文字和轻度润色。

AI产品谷歌 AI Edge Gallery Gemma 4 Mac 本地模型

推荐理由：Mac 用户终于有了谷歌官方的本地 AI 工具，16GB 内存就能跑多模态模型，做本地数据分析和隐私敏感任务的开发者可以直接试试。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月20日

10:38

arXiv cs.AI@Isaac David, Arthur Gervais

精选

该研究通过构建包含30个本地漏洞分析任务的轨迹基准，比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示，Gemma模型的去对齐版本在安全任务上成功率显著提升（31B从0.7%升至14.0%，26B从0.0%升至10.7%），且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益，Qwen2.5-Coder去对齐版本成功率反而下降（2.0% vs 5.3%），去对齐的Llama变体则无法通过工具协议。研究强调，安全对齐效果应在系统层面测量，区分拒绝率、不安全动作、工具可靠性和证据基础，而非仅依赖拒绝率。

论文安全智能体安全对齐 Gemma 4 Qwen2.5-Coder Llama 3.1

推荐理由：安全智能体开发者需要了解：去对齐模型在漏洞分析任务上可能提升成功率，但效果因模型而异，且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类，避免盲目采用去对齐策略。

原文

5月17日

01:25

berryxia@berryxia

精选73°

Sebastian Raschka发布《Recent Developments in LLM Architectures》，用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”，这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队，这篇文章的视觉图和效率对比特别值得细读。

论文长上下文架构优化 Gemma 4 DeepSeek V4 效率对比

推荐理由：长上下文竞争已从堆token转向架构优化，做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。

原文