06:45Clement Delangue@ClementDelangueDeepSeek 推出加速模型集合,其中 Gemma-4-12B 可能包含视觉能力。该模型在其 12B 参数量级别中,本地运行性能显著优于同类竞品。该集合未包含 Qwen 3.5,推测因 DeepSeek 未采用线性注意力机制。AI模型DeepSeekGemma-4-12B加速模型本地模型视觉推荐理由:DeepSeek 把 Gemma-4-12B 加速了,还带视觉,本地跑起来应该是同尺寸里最强的之一。原文
05:23GitHub@githubGitHub Copilot 应用现在支持扩展的模型集合。用户可自带 provider key 连接自己选择的模型,也可使用本地模型或订阅内已包含的模型。每个 agent 会话都可以单独选择不同的模型。这一更新赋予了开发者更大的模型选择灵活性。AI产品GitHub Copilot模型选择自带provider key本地模型编程助手推荐理由:GitHub Copilot 现在让你自己挑模型了,带个key或用本地模型都行,每个会话还能换着用,挺自由的。原文
01:56Ate-a-Pi@svpino该博主从4月起在Mac Studio上运行gemma-4:26b处理私密文档,目前六成查询都使用该模型。它速度快且能力强,但复杂编程任务仍需专用模型。适合日常使用并避免向大型AI实验室上传数据。AI模型gemma-4:26b本地模型隐私文档Mac Studio推荐理由:gemma-4:26b 本地跑很香,处理私密文档不用传云端,日常六成查询够用。但写代码别指望它。原文
13:08@atomic_chat_hq@atomic_chat_hqAtomic Chat 宣布集成 Exa AI Search,让本地运行的语言模型能够实时搜索网络并获取最新信息。Exa AI Search 由 Exa Labs 提供,已被超过 40 万开发者使用,且完全免费开源。该功能打破了本地模型离线运作的限制,使其能访问实时网页数据。用户现在可以在 Atomic Chat 中直接调用联网搜索,无需外部 API 或复杂配置。AI产品Exa AI SearchAtomic ChatExa Labs联网搜索本地模型推荐理由:Atomic Chat 现在内置 Exa AI Search,本地模型也能实时联网搜东西了,免费开源,开发者和 AI 玩家都能直接上手试。原文
13:03@atomic_chat_hq@atomic_chat_hqAtomic Chat 正式在 Hugging Face 上线,成为该平台上的 Local App。用户可以直接在本地设备运行 Hugging Face 上的 200,000+ 个开放权重模型,所有处理都在设备端完成,保障隐私。该应用完全开源,无需联网即可使用多种模型。AI产品Atomic ChatHugging Face本地模型开源模型推荐理由:Atomic Chat 现在能在本地跑 Hugging Face 上 20 多万个模型,完全离线私密,还开源,搞 AI 的可以试试看。原文
12:57@atomic_chat_hq@atomic_chat_hqAtomic 宣布与开源 AI Agent Goose 合作。用户可以在本地设备上通过 Atomic 运行 Goose,使用本地模型完成代码编辑、功能构建和自动化工作流。全程数据保留在本地,无需联网。AI产品AtomicGoose本地模型智能体编程助手推荐理由:Atomic 和 Goose 合作了,你可以在自己电脑上本地跑 Agent 处理代码和自动化任务,数据不离开设备。原文
23:30Philipp Schmid@_philschmid精选Phil Schmid 在推文中引用 Vicki Boykis 的教程,指出 Google 最新 Gemma 4 系列模型能在本地运行 agentic coding 循环,准确率和速度达到前沿模型的约 75%。该教程演示了如何使用本地模型进行编码任务。此前本地模型难以高效完成 agentic 工作流,Gemma 4 将这一差距缩小。技巧Gemma 4Google智能体编程助手本地模型5 个信源在谈推荐理由:Vicki Boykis 教你用 Google Gemma 4 在本地跑 agentic coding,速度能到主流模型的 75%,不用联网也能用智能体写代码了。原文
08:59SuperTechFans(博客/媒体)精选76°作者在 2022 年 M2 Mac(64GB RAM)上测试 Mistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MOE 等多种模型,使用 llama.cpp、Ollama、LM Studio 等工具。她发现自从 GPT-OSS 发布后,本地模型在编程任务上已足够好用,尤其 Google 的 Gemma 4 系列(如 gemma-4-26b-a4b 和 gemma-4-12b-qat)在 Python 代码重构、类型提示修复、写单元测试等 agentic 任务中准确率和速度约为前沿模型的 75%。她分享了本地 agentic 设置:用 Pi 作 agent 框架、LM Studio 作推理服务器,所有操作放在 Docker 容器中以限制权限。本地模型仍有推理速度慢、上下文窗口受硬件限制等问题,但隐私友好、可自由调整参数。技巧M2 MacGemma 4PiLM Studio本地模型10 个信源在谈推荐理由:想试本地模型?这篇有 M2 Mac 上跑 Gemma 4 的详细配置,还有 Pi+LM Studio 的 agentic 设置,比云端省心。原文
00:25Simon Willison’s Weblog(博客/媒体)Georgi Gerganov 在 Hacker News 评论中分享,过去一个半月他几乎每天都用 Qwen3.6-27B 模型处理编码任务,运行在 M2 Ultra 或 RTX 5090 上。他使用轻量级 pi agent(pi -nc --offline)搭配简短系统提示来适配个人编程风格。虽然主要用于 ggml-org 的琐碎维护任务,但认为该模型是高效的辅助工具。技巧Qwen3.6-27BGeorgi Gerganovpi本地模型编程助手推荐理由:Georgi Gerganov 亲测 Qwen3.6-27B 配合 pi agent,日常编程完全够用,本地运行无压力。原文
15:57Geek@geekbbOCR Extractor 是一款 Obsidian 插件,现已支持本地 OCR 模型,无需联网即可运行。它能够从 PDF、图片等附件中提取文本,并自动保存为可搜索的 Markdown 文件。本地模型保障用户数据隐私,同时提升 Obsidian 中的文档管理效率。该插件已在 GitHub 上开源。AI产品ObsidianOCROCR Extractor本地模型插件推荐理由:Obsidian 用户快看,OCR Extractor 现在支持本地模型了,不用联网就能把 PDF 和图片里的文字提取出来变成可搜索的笔记,隐私更好还免费。原文
09:03berryxia@berryxia精选12B参数的Gemma 4 12B Coder GGUF模型基于Google的gemma-4-12B-it微调,专门针对代码生成和复杂推理。训练数据使用了Composer 2.5的真实通过案例,并由Fable 5辅助补全困难case,确保推理步骤导向可运行代码。模型采用GGUF格式,可在12GB显存的显卡甚至CPU上离线运行。下载量已突破6000,社区反馈在本地代码调试、补全、算法生成等场景表现出色。AI模型Gemma 4 12B Coder GGUFFable 5代码生成本地模型10 个信源在谈推荐理由:Gemma 4 12B Coder 把 Fable 5 的推理链蒸馏到本地,12GB 显卡就能跑顶级代码生成,再也不用担心 API 费用和限制原文
02:22Paul Couvert@itsPaulAiPaulAI在推文中强调AI不应被封闭组织垄断,建议使用闭源模型创建技能、工具、数据集和工作流,以改进本地模型。他指出本地AI模型现在易于使用且能力远超预期,可连接Codex、Claude Code等工具实现自动化。用户可根据需要微调这些模型。技巧开源模型本地模型CodexClaude Code微调推荐理由:教你用闭源模型养本地模型原文
13:39MiniMax_AI@MiniMax_AIMiniMax 在 AiOS 聚会上与多位开发者及专家共同探讨了本地模型这一热门话题。活动邀请了 @rudrank、@RayFernando1337、@ronaldmannak 等嘉宾,以及 @awnihannun 和 @peterfriese 参与讨论。本地模型成为现场最受关注的议题之一。MiniMax 表示很高兴能支持 iOS 开发者社区。该活动与 WWDC26 相关,聚焦 iOS 和 AI 开发。行业本地模型iOS开发者社区MiniMaxWWDC26推荐理由:本地模型是 iOS 开发者当前最关注的方向之一,MiniMax 的参与说明其正在积极布局移动端 AI。做 iOS AI 应用开发的团队可以关注其后续动作,或许会有新的工具或模型支持。原文
12:42Sebastian Raschka@rasbt精选Sebastian Raschka 分享了4个新加入开源权重、可在消费级硬件上运行的本地LLM模型。这些模型扩展了本地AI生态,让普通用户无需高端GPU即可运行大语言模型。具体模型包括一些轻量级但性能不错的选项,适合个人开发者和小团队。这一进展降低了AI应用的门槛,推动了去中心化AI的发展。AI模型开源/仓库本地模型消费级硬件LLMSebastian Raschka推荐理由:本地LLM生态又壮大了,做个人AI项目或隐私敏感应用的开发者可以直接关注,这些模型让消费级硬件跑大模型更现实了。原文
01:40Clement Delangue@ClementDelangue精选斯坦福大学研究显示,本地模型在真实世界聊天和推理查询中的准确率从2023年的23.2%提升至71.3%。该研究对比了本地模型与前沿API的成本和能耗,发现本地模型以极低代价实现了大部分任务。研究指出,多数工作负载无需依赖前沿模型,未来将是本地、开源、较小模型的天下。论文Stanford本地模型前沿API推理模型推荐理由:本地模型性价比超高原文
08:46berryxia@berryxia76°CJ Zafir 团队推出 Mac-1,一个仅 6.6B 参数的小模型,能在 Mac 本地以 7GB 内存运行,速度达 65 tok/s。它直接集成了 487 个 Mac 原生工具,支持链式调用、自动推理,可自动发邮件、订会议等。该模型挑战了“模型越大越强”的行业共识,将 Agent 能力从云端拉回本地,且 UI 保持纯 Mac 风格,用户体验流畅。这标志着本地小模型+原生工具的组合可能终结云端 SaaS Agent 时代。AI产品Mac-1Agent本地模型小模型原生工具推荐理由:Mac 用户和 Agent 开发者注意了——这个 6.6B 的本地模型用 7GB 内存就实现了云端大模型的 Agent 能力,还自带 487 个原生工具,建议直接下载试试,看能否替代你现在的 Siri 或云端方案。原文
05:42Aravind Srinivas@AravSrinivasPerplexity CEO Arav Srinivas 宣布与 Intel 合作,将本地模型和混合推理带到 Intel Ultra Series 3 笔记本电脑上。Intel CEO Lip-Bu Tan 在 Computex 2026 主题演讲中阐述了从硅到系统到软件的愿景,涵盖 PC、边缘设备、数据中心和智能中心。该合作旨在提升个人电脑的 AI 能力,实现更高效的本地推理。这是 Intel 转型过程中的重要一步,也标志着 AI 与 PC 的深度融合。AI产品PerplexityIntel本地模型混合推理笔记本推荐理由:本地 AI 推理终于要走进主流笔记本了——Perplexity 与 Intel 的合作让 Ultra 3 用户无需联网也能跑模型,做 AI 应用或本地推理的开发者值得关注。原文
03:13AI Breakfast@AiBreakfastAI 领域最被低估的趋势是“足够好”的本地智能已经实现。Gemma 4 12B 模型可以在 16GB 内存的笔记本电脑上运行,覆盖普通用户的所有需求。它无限使用、永久免费且完全离线,无需联网或付费。这标志着本地 AI 的实用化里程碑,对隐私敏感或网络受限的用户尤其重要。AI模型Gemma 4本地模型开源/仓库隐私轻量级10 个信源在谈推荐理由:本地 AI 终于不再是玩具——Gemma 4 12B 在普通笔记本上就能跑,日常查询、写作、编程辅助都能搞定,隐私敏感或想省钱的用户可以直接上手试试。原文
13:51IT之家(博客/媒体)76°谷歌 Magenta 团队发布 Magenta RealTime 2(MRT2),一款可在本地实时运行的 AI 音乐模型,支持与用户即兴合奏。MRT2 推出两种规模:24 亿参数的高质量模型 mrt2_base 和 2.3 亿参数的高速模型 mrt2_small,后者针对苹果 Apple Silicon 优化,可在 M1 及以上芯片的 Mac 上实时运行。相比前代,MRT2 将控制延迟从约 3 秒降至约 200 毫秒(降低至 1/15),采用逐帧生成(每帧 40 毫秒),更接近真实乐器演奏体验。模型支持文本、音频风格提示以及 MIDI 控制,并免费提供 Jam 应用和 DAW 插件。AI产品实时音乐生成Magenta RealTime 2本地模型苹果 Apple SiliconDAW 插件推荐理由:音乐创作者和 AI 爱好者终于有了能实时合奏的本地模型——延迟从 3 秒降到 200 毫秒,用 MacBook 就能跑,建议玩电子乐或编曲的人直接下载 Jam 试试。原文
07:19IT之家(博客/媒体)LM Studio 在 Mac 版应用中新增 LM Link 功能,允许 iPhone 等设备直接调用 Mac 上本地运行的大语言模型。用户需创建并登录同一账号,启用后设备间建立端到端加密的安全连接,请求由 Mac 处理并返回结果。该功能基于 Tailscale 网状 VPN,确保隐私安全,支持任意本地模型,包括 Apple Intelligence 基础模型。目前预览免费,未来将推出付费方案。这解决了移动设备无法直接使用本地大模型的痛点,尤其适合注重隐私的用户。AI产品LM Studio本地模型跨设备隐私安全iPhone2 个信源在谈推荐理由:对于想在手机上体验本地 AI 又不想牺牲隐私的 Mac 用户,LM Link 直接打通了跨设备调用——不用联网、数据不出设备,建议有 Mac 和 iPhone 的开发者或隐私敏感用户试试。原文
12:14小互@imxiaohu83°Google 将 AI Edge Gallery 从手机端扩展到 macOS 桌面,用户下载安装后即可本地运行 Gemma 4 12B 模型。该应用内置沙盒 Python 环境,支持在聊天中编写代码并执行画图等操作。此外,Eloquent 功能支持语音交互,用户可以直接对着电脑说话。这降低了本地运行大模型的门槛,适合开发者和 AI 爱好者快速体验。AI产品GoogleAI Edge GalleryGemma 4macOS本地模型10 个信源在谈推荐理由:本地跑大模型终于不用折腾环境了,做原型验证或离线使用的开发者直接下载就能用,还带 Python 沙盒和语音交互,值得一试。原文
11:16IT之家(博客/媒体)精选谷歌 AI Edge Gallery 实验性应用现已登陆 macOS,让苹果 Mac 用户能在本地离线运行 Gemma AI 模型,无需联网即可进行聊天、图像处理和语义理解。该应用仅提供 5 个谷歌自家模型,其中最受关注的是 Gemma 4 12B,可在 16GB 内存 Mac 上处理文本、视觉和音频,并具备代码能力,适合设备端数据分析和信息提取。同时,谷歌还推出了 Mac 版 AI Edge Eloquent 听写应用,支持离线语音转文字和轻度润色。AI产品谷歌AI Edge GalleryGemma 4Mac本地模型10 个信源在谈推荐理由:Mac 用户终于有了谷歌官方的本地 AI 工具,16GB 内存就能跑多模态模型,做本地数据分析和隐私敏感任务的开发者可以直接试试。原文
01:18Geek@geekbbGoogle 发布了 Gemma 4 12B 模型,这是一款统一的无编码器多模态模型,专为在笔记本电脑上高效运行而设计,采用 Apache 2.0 许可证。该模型在边缘效率与高级推理之间取得了平衡,适合本地部署。对于 Mac mini 用户来说,这可能是一个理想的本地 AI 模型选择,因为其轻量级设计和高性能推理能力。AI模型Gemma 4 12B本地模型多模态Mac mini开源2 个信源在谈推荐理由:Mac mini 用户终于有了一个高性能的本地多模态模型选择——Gemma 4 12B 在笔记本上就能跑,做本地 AI 开发或隐私敏感应用的团队可以直接试试。原文
14:17ollama@ollamaNous Research 发布了 Hermes Desktop,这是 Hermes Agent 的桌面原生版本,首次在 Jensen 的 GTC 主题演讲中演示,现已公开预览。该工具允许用户通过 Ollama 使用本地或云端模型,实现智能体功能。这意味着开发者可以在自己的机器上运行 Hermes,无需依赖远程服务器,降低了使用门槛。对于希望探索本地 AI 智能体的用户来说,这是一个值得关注的新选择。AI产品智能体Hermes DesktopOllama本地模型开源/仓库1 个信源在谈推荐理由:Hermes Desktop 让本地 AI 智能体落地更简单,做自动化或智能体开发的团队可以直接通过 Ollama 体验,无需复杂配置。原文
08:42Aravind Srinivas@AravSrinivasPerplexity 宣布其 AI 计算机 Perplexity Computer 将支持本地模型运行,实现混合智能推理。该功能允许任务在本地硬件与云端前沿模型之间智能拆分,既保护隐私数据又提升 token 效率。当需要更强算力时,系统可自动调用服务器端 GPU 上的前沿模型。该功能即将登陆 Windows 笔记本,具体上线时间待公布。AI产品Perplexity混合推理本地模型隐私保护Windows推荐理由:混合推理架构解决了隐私与性能的平衡难题,做本地 AI 部署或关注数据安全的开发者值得关注,Windows 用户很快就能直接体验。原文
05:10rohanpaul_ai@rohanpaul_ai精选72°atomic.chat 在 MacBook Pro M5 Max 64GB 上对比了本地 AI 智能体的工具调用能力。Liquid 的 LFM2.5-8B-A1B 模型(8B 参数,MoE 架构)在规划旅行任务中,成功完成所有 7 次外部工具调用(天气查询、货币转换、邮件和提醒),而 gpt-oss-20b 仅完成 3/7 次。LFM2.5-8B-A1B 运行速度达 266 tok/s,内存占用仅 4.8GB,而 gpt-oss-20b 为 146 tok/s 和 11GB。这表明工具调用本质上是控制问题而非语言问题,更小但训练更聚焦的模型可以胜过更大但泛化的模型。AI模型本地模型工具调用智能体LFM2.5-8B-A1Bgpt-oss-20b1 个信源在谈推荐理由:做本地 AI 智能体或工具调用开发的团队,这个对比直接告诉你:模型大小不是关键,控制能力才是。LFM2.5-8B-A1B 的性价比碾压,值得在本地部署试试。原文
10:38Ate-a-Pi@svpino精选开发者 Santiago 分享了一个名为 llm-checker 的 npm 工具,可以自动检测电脑硬件并推荐适合本地运行的 AI 模型。用户只需安装后运行 hw-detect 命令,再通过 recommend 命令指定类别(如 coding)即可获得推荐。该工具解决了本地部署模型时硬件兼容性不明确的痛点,让开发者快速找到适合自己设备的模型。AI产品llm-checker本地模型硬件检测推荐工具npm推荐理由:本地跑模型最烦的就是不知道哪款能跑得动——llm-checker 直接帮你检测硬件并推荐,省去试错时间。做本地 AI 开发或想玩开源模型的建议装一个试试。原文
08:49berryxia@berryxia本文总结了关于AI智能体的17个关键观察,涵盖智能体内存优势、本地模型对隐私的突破、企业流程重构、代理成本替代人力、以及智能体间的协作问题。作者指出,智能体将在12个月内能通过观察自动完成工作,而本地模型让医疗、法律等敏感行业成为可能。企业需将知识以智能体可读格式存储,否则将落后。此外,YAML配置文件正取代组织结构图,智能体响应速度成为客服关键,而老年人辅助系统是巨大未开发市场。行业AI智能体本地模型企业流程重构隐私合规智能体协作推荐理由:这17条洞察直击AI智能体落地的核心痛点与机遇,做AI产品、企业数字化转型或智能体开发的团队,看完会对未来12个月的技术方向有清晰判断,建议收藏反复看。原文