14:52Paul Couvert@itsPaulAi精选Paul推荐了5款可在笔记本上运行的本地模型,无需$10k Mac Studio。Qwen3.6-27B被认为是最佳编程智能体模型,Qwen3.6-35B-A3B是更快选项。Gemma 4 12B适合日常问答,Parakeet 0.6B v3是语音转文本最佳模型。Gemma 4 E4B可离线在手机运行,Gemma 4 26B diffusion在本地模型中Token/秒最高。建议使用Unsloth量化版搭配LM Studio或llama.cpp运行。技巧Qwen3.6-27BGemma 4ParakeetLM Studio本地模型1 个信源在谈推荐理由:Paul整理了5款能塞进笔记本的本地模型,从编程到语音全覆盖,帮你省掉高价工作站的钱。原文
01:17Simon Willison’s Weblog(博客/媒体)精选DeepReinforce 发布 Ornith-1.0,一款 MIT 许可的开源模型,基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本,能流畅运行代理工具调用并处理代码定位任务。AI模型Ornith-1.0DeepReinforceGemma 4Qwen 3.5开源模型2 个信源在谈推荐理由:DeepReinforce 新出的开源编码模型,基于 Gemma 4 和 Qwen 3.5,在代理编码任务上表现不错,LM Studio 就能跑,值得试试。原文
13:03@atomic_chat_hq@atomic_chat_hq精选Diffusion Gemma 在单个H100(FP8)上速度达763 tok/s,比Gemma 4的218 tok/s快约4倍。但事实准确性测试中,Diffusion Gemma 33个事实正确、28个错误,而Gemma 4为45正确、5错误。话题越冷门错误越多:乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称,并将BeBox价格虚构为$9,999(实际$1,600)。AI模型Diffusion GemmaGemma 4Google推理模型事实准确性4 个信源在谈推荐理由:想用更快的推理速度就得接受更多幻觉,Google官方也为此打预防针了。原文
13:00@atomic_chat_hq@atomic_chat_hq精选Google Gemma 4 12B模型在RTX 4090上实测仅需9GB VRAM,生成8.9k tokens,速度80 tok/s,性能接近26B版本。其对比的Gemma 4 26B-A4B使用15GB VRAM,生成6.9k tokens,速度138 tok/s,所有场景胜出。但12B在近半VRAM下表现十分接近,成为16GB笔记本的理想选择。AI模型Gemma 412B26B-A4BGoogle推理模型4 个信源在谈推荐理由:新Gemma 4 12B别看参数小,实测代码能力接近26B版,而且只需要9GB显存,16GB笔记本就能跑。原文
23:30Philipp Schmid@_philschmid精选Phil Schmid 在推文中引用 Vicki Boykis 的教程,指出 Google 最新 Gemma 4 系列模型能在本地运行 agentic coding 循环,准确率和速度达到前沿模型的约 75%。该教程演示了如何使用本地模型进行编码任务。此前本地模型难以高效完成 agentic 工作流,Gemma 4 将这一差距缩小。技巧Gemma 4Google智能体编程助手本地模型5 个信源在谈推荐理由:Vicki Boykis 教你用 Google Gemma 4 在本地跑 agentic coding,速度能到主流模型的 75%,不用联网也能用智能体写代码了。原文
08:59SuperTechFans(博客/媒体)精选76°作者在 2022 年 M2 Mac(64GB RAM)上测试 Mistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MOE 等多种模型,使用 llama.cpp、Ollama、LM Studio 等工具。她发现自从 GPT-OSS 发布后,本地模型在编程任务上已足够好用,尤其 Google 的 Gemma 4 系列(如 gemma-4-26b-a4b 和 gemma-4-12b-qat)在 Python 代码重构、类型提示修复、写单元测试等 agentic 任务中准确率和速度约为前沿模型的 75%。她分享了本地 agentic 设置:用 Pi 作 agent 框架、LM Studio 作推理服务器,所有操作放在 Docker 容器中以限制权限。本地模型仍有推理速度慢、上下文窗口受硬件限制等问题,但隐私友好、可自由调整参数。技巧M2 MacGemma 4PiLM Studio本地模型10 个信源在谈推荐理由:想试本地模型?这篇有 M2 Mac 上跑 Gemma 4 的详细配置,还有 Pi+LM Studio 的 agentic 设置,比云端省心。原文
20:16vLLM@vllm_project精选73°vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。AI产品vLLMDeepSeek-V4LlamaGemma 4推理引擎4 个信源在谈推荐理由:vLLM v0.23.0 大更新,DeepSeek-V4 和 Llama 用户值得升级,新的 KV 缓存卸载能省显存,推理与工具调用解析也更顺了。原文
09:37AWS Machine Learning Blog@Aris Tsakpinis精选Google DeepMind 发布的 Gemma 4 开源权重模型系列现已在 Amazon Bedrock 上可用。该系列包含三个指令调优变体:Gemma 4 31B(密集架构)、26B-A4B(MoE 架构,每次激活 4B 参数)和 E2B。所有变体均支持内置推理、原生函数调用以及文本和图像多模态输入。模型基于 Apache 2.0 许可发布,旨在多种部署场景下实现每参数智能最大化。AI模型Gemma 4Amazon BedrockGoogle DeepMind开源模型多模态4 个信源在谈推荐理由:Google DeepMind 把最新的 Gemma 4 放到 AWS 上了,三种规格可选,带推理和图文理解,正好拿来玩开源项目。原文
12:04LMSYS Org (SGLang)@lmsysorg精选SGLang 宣布 Day-0 支持 Google 的 DiffusionGemma 模型,这是 Gemma 4 的文本扩散变体(26B A4B MoE)。与传统逐 token 解码不同,DiffusionGemma 通过并行去噪 token 块实现极低批处理生成速度。该模型支持离散文本扩散、多模态输入(文本、图像、视频)输出文本、稀疏 MoE 架构(8/128 专家)以及可配置思考模式。开发者现在即可通过 SGLang 运行该模型。AI模型SGLangDiffusionGemmaGemma 4文本扩散MoE7 个信源在谈推荐理由:文本扩散模型大幅提升生成效率,适合需要低延迟批量推理的 AI 应用开发者,建议立即在 SGLang 中体验。原文
00:24SiliconFlowAI@siliconflowai精选Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线,支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构,视觉和音频输入直接进入 LLM 主干,降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能,接近 Google 26B 模型的表现,在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元,性价比突出。AI模型Gemma 4智能体多模态长上下文SiliconFlow7 个信源在谈推荐理由:做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民,建议直接上手试试。原文
22:52Philipp Schmid@_philschmid精选72°Google 发布了新的 Gemma 4 QAT(量化感知训练)检查点,在保持相似性能的同时,将内存占用降低约 4 倍。该版本引入了一种新的移动端量化格式,将 Gemma 4 E2B 的内存占用降至仅 1GB。QAT 通过在训练过程中模拟低精度运算,实现无损量化,从而得到更小、更快的模型。这些检查点已在 Hugging Face 上提供,可直接运行。AI模型Gemma 4QAT量化移动端部署Hugging Face1 个信源在谈推荐理由:做移动端或边缘部署的开发者终于可以跑 Gemma 4 了——内存降到 1GB 意味着手机和 IoT 设备也能用,建议直接去 Hugging Face 拉下来试试。原文
08:26rohanpaul_ai@rohanpaul_ai精选72°Google 发布了 Gemma 4 的 QAT(量化感知训练)检查点,将最小模型从 11.4GB 压缩至 1.1GB,纯文本版本仅 0.84GB。与传统的 PTQ(训练后量化)不同,QAT 在训练过程中模拟压缩,让模型学会在权重被压缩时保持推理质量。Google 还构建了针对移动端的格式,包括静态激活、通道级量化、目标 2 位量化和 KV 缓存优化,减少手机计算负担,延长长对话的内存使用。这使得 Gemma 4 更容易在手机和笔记本上运行,降低了部署门槛。AI模型Gemma 4量化移动端部署QAT模型压缩7 个信源在谈推荐理由:QAT 解决了模型压缩后推理质量下降的痛点,做移动端 AI 部署的开发者可以直接用这些检查点,在手机上跑大模型不再吃内存。原文
09:36ollama@ollama精选Google 的 Gemma 4 12B 模型已更新至 Ollama,支持所有平台运行。该模型是统一的无编码器多模态模型,专为笔记本电脑设计,在边缘效率与高级推理之间取得平衡,并采用 Apache 2.0 许可。用户可通过 Ollama 在 Claude Code、Hermes Agent、OpenClaw、Codex 等工具中直接调用。AI模型Gemma 4Ollama多模态模型本地部署开源/仓库10 个信源在谈推荐理由:本地运行多模态模型的门槛又降低了——Gemma 4 12B 在 Ollama 上即开即用,做本地 AI 应用或边缘推理的开发者可以直接上手试。原文
11:16IT之家(博客/媒体)精选谷歌 AI Edge Gallery 实验性应用现已登陆 macOS,让苹果 Mac 用户能在本地离线运行 Gemma AI 模型,无需联网即可进行聊天、图像处理和语义理解。该应用仅提供 5 个谷歌自家模型,其中最受关注的是 Gemma 4 12B,可在 16GB 内存 Mac 上处理文本、视觉和音频,并具备代码能力,适合设备端数据分析和信息提取。同时,谷歌还推出了 Mac 版 AI Edge Eloquent 听写应用,支持离线语音转文字和轻度润色。AI产品谷歌AI Edge GalleryGemma 4Mac本地模型10 个信源在谈推荐理由:Mac 用户终于有了谷歌官方的本地 AI 工具,16GB 内存就能跑多模态模型,做本地数据分析和隐私敏感任务的开发者可以直接试试。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:38arXiv cs.AI@Isaac David, Arthur Gervais精选该研究通过构建包含30个本地漏洞分析任务的轨迹基准,比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B等模型及其未审查/去对齐变体在自主安全智能体场景下的表现。结果显示,Gemma模型的去对齐版本在安全任务上成功率显著提升(31B从0.7%升至14.0%,26B从0.0%升至10.7%),且拒绝率、抑制动作率和危险动作率均为0。但非Gemma模型未呈现一致的去对齐增益,Qwen2.5-Coder去对齐版本成功率反而下降(2.0% vs 5.3%),去对齐的Llama变体则无法通过工具协议。研究强调,安全对齐效果应在系统层面测量,区分拒绝率、不安全动作、工具可靠性和证据基础,而非仅依赖拒绝率。论文安全智能体安全对齐Gemma 4Qwen2.5-CoderLlama 3.11 个信源在谈推荐理由:安全智能体开发者需要了解:去对齐模型在漏洞分析任务上可能提升成功率,但效果因模型而异,且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类,避免盲目采用去对齐策略。原文
01:25berryxia@berryxia精选73°Sebastian Raschka发布《Recent Developments in LLM Architectures》,用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”,这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队,这篇文章的视觉图和效率对比特别值得细读。论文长上下文架构优化Gemma 4DeepSeek V4效率对比1 个信源在谈推荐理由:长上下文竞争已从堆token转向架构优化,做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。原文