08:00Qdrant@qdrant_engineQdrant联合Kaivid Labs创始工程师Tarun演示如何构建完全离线的RAG系统,使用Qdrant EDGE进行轻量级设备端向量搜索,搭配Google LiteRT通过硬件加速运行语言模型,实现文档问答、个人助理和笔记搜索,无需任何云依赖。活动时间为7月7日,包含现场实操。技巧Qdrant EDGEGoogle LiteRTRAG本地推理向量搜索推荐理由:教你用Qdrant EDGE和Google LiteRT搭一个完全离线的RAG系统,文档问答、个人助理全在本地跑,再也不用担心隐私和联网了。原文
13:28Geek@geekbb精选介绍了一个工具,可在Apple Silicon Mac上通过MLX框架本地运行大语言模型。用户能从Hugging Face搜索并下载模型,用MLX进行离线推理,并启动一个OpenAI兼容的API服务。这样就能用curl或OpenAI客户端库调用本地模型。技巧MLXHugging FaceOpenAI兼容API本地推理教程3 个信源在谈推荐理由:想在Mac上本地跑大模型、不用联网?这个工具能从Hugging Face下模型,用MLX推理,还直接开个OpenAI API,当本地服务使。原文
09:59rohanpaul_ai@rohanpaul_ai精选atomic[.]chat 在单块 H100(FP8)上对比了 DiffusionGemma(扩散文本模型)与 Gemma4 26B A4B(自回归模型)。DiffusionGemma 速度是 Gemma4 的 4 倍,改变了错误分布模式。自回归模型逐 token 生成,速度慢但精度高;扩散模型批量生成 token 再迭代修正,因此响应更快。这一对比展示了扩散模型在本地推理中的速度优势,可能改变未来本地 LLM 的部署选择。AI模型DiffusionGemmaGemma4本地推理扩散模型速度对比10 个信源在谈推荐理由:本地运行 LLM 的开发者终于有了速度新选择——DiffusionGemma 的 4 倍加速意味着更流畅的交互体验,用 atomic[.]chat 的团队可以直接在单卡上体验,值得一试。原文
09:17berryxia@berryxia精选72°开发者 Prince Canuma 在 Google 发布 DiffusionGemma 和 Cohere North Mini Code 当天,就将这两个模型移植到了 Mac 的 MLX 框架中,实现零等待本地运行。DiffusionGemma 采用新架构,可生成 256 token 整块,支持双向注意力和迭代自纠错,26B MoE 仅激活 3.8B,量化后 18GB 内存即可运行。North Mini Code 30B MoE 只需 3B 激活参数,BF16 下推理速度达 66 tok/s。这得益于与 Google DeepMind 和 Cohere 的深度合作,实现了 Day-0 支持。用户可通过 mlx-vlm v0.6.3 一键安装体验。AI产品MLXDiffusionGemmaCohere North Mini Code本地推理开源/仓库推荐理由:Mac 开发者终于能在本地跑最新大模型了,DiffusionGemma 和 North Mini Code 都支持 Day-0 运行,做本地 AI 实验的可以直接装来玩。原文
01:51Google AI Developers@googleaidevs72°Google 发布了 Gemma 4 的量化感知训练(QAT)检查点,支持在消费级 GPU 和移动设备上本地运行模型,且质量损失极小。新特性包括 GGUF Q4_0 格式检查点,针对所有尺寸和 drafter 模型优化了本地性能;以及自定义移动端混合精度模式,将 Gemma 4 压缩至 1GB 以下,采用 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练时模拟压缩而非事后量化,大幅降低内存占用并加速解码,同时保持推理质量。这为开发者提供了在边缘设备上部署强大 AI 模型的新选择。AI模型Gemma 4QAT量化感知训练本地推理移动端部署10 个信源在谈推荐理由:做本地 AI 部署或移动端推理的开发者,终于有了官方 QAT 方案——Gemma 4 压缩到 1GB 以下还能保持推理质量,建议直接下载检查点试试。原文
09:02rohanpaul_ai@rohanpaul_ai精选在本地运行LLM的桌面应用atomic[.]chat上,Nemotron 3 Ultra与GPT-5.5进行了对比测试。在构建带真实物理效果的HTML5 Canvas任务中,Nemotron 3 Ultra以11.3k tokens、0.051美元的成本,给出了与GPT-5.5(11.0k tokens、0.57美元)几乎相同的结果,成本仅为后者的十分之一。Nemotron 3 Ultra是一个混合专家模型,拥有5500亿总参数,但每个token仅激活55亿参数,因此效率极高。这一对比展示了Nemotron 3 Ultra在性价比上的显著优势,尤其适合需要高推理质量但预算有限的场景。AI模型Nemotron 3 UltraGPT-5.5混合专家模型成本对比本地推理10 个信源在谈推荐理由:做AI应用或本地推理的开发者,这个测试直接告诉你Nemotron 3 Ultra能以十分之一成本达到GPT-5.5级别的效果,值得在项目里试试。原文
12:18小互@imxiaohu78°Google 发布了 Gemma 4 12B 开源模型,采用无编码器架构,能直接处理文字、图像、音频和视频四种输入,无需传统视觉或音频编码器。该模型可在 16GB 显存的笔记本上运行,4-bit 量化后仅需 8GB 显存。支持 256K Token 上下文窗口、140 多种语言,并内置逐步推理和原生函数调用功能。这一架构创新降低了多模态 AI 的硬件门槛,让普通用户也能在本地运行全模态模型。AI模型Gemma 4开源模型多模态无编码器架构本地推理10 个信源在谈推荐理由:无编码器架构让多模态模型不再依赖专用编码器,16GB 笔记本就能跑全模态 AI,做本地 AI 应用或边缘计算的开发者可以直接试试。原文
08:25berryxia@berryxia78°Google 将 Gemma 4 12B 模型与 AI Edge 工具链深度整合,开发者可在笔记本上完全本地运行 Agentic 工作流。Mac 用户可通过 AI Edge Gallery 生成代码,AI Edge Eloquent 支持语音输入实时编辑文本。底层使用 LiteRT-LM 推理引擎,实现零网络、零延迟、数据全在本地。这标志着端侧 AI 从实验走向实用,让普通开发者能拥有私有的、可连续执行的本地 AI 队友。AI产品端侧模型Agentic 工作流Gemma 4Google AI Edge本地推理10 个信源在谈推荐理由:Google 把模型、推理引擎和开发工具链打包成一套方案,做端侧 AI 或隐私敏感应用的开发者可以直接在笔记本上跑 Agentic 工作流,建议试试 AI Edge Gallery 的代码生成功能。原文
02:36Google AI Developers@googleaidevs78°Google 发布了 Gemma 4 12B,一款无编码器的多模态模型,可直接在笔记本电脑上运行。该模型去除了传统的视觉和音频编码器,让输入直接进入 LLM 主干,实现高效的多模态推理。在 16GB VRAM 下即可运行复杂智能体工作流,性能接近其 26B 的 MoE 模型。采用 Apache 2.0 许可,适合本地部署和开发。AI模型Gemma 4多模态模型无编码器本地推理Apache 2.010 个信源在谈推荐理由:无编码器架构让多模态模型更轻量、更高效,做本地 AI 应用或智能体开发的团队可以直接在笔记本上跑,值得一试。原文
14:19ollama@ollamaOllama 宣布与 NVIDIA 合作,为 NVIDIA RTX Spark 超级芯片提供本地 AI 推理支持。RTX Spark 是一款 1 petaflop 的超级芯片,拥有完整的 CUDA 和 RTX 生态系统,并支持 Windows 原生智能体。这一合作将使得个人电脑能够运行更强大的本地 AI 模型,标志着个人计算的新起点。Ollama 用户将能够直接在 RTX Spark 上部署和运行 AI 模型,无需依赖云端。AI产品OllamaNVIDIARTX Spark本地推理智能体10 个信源在谈推荐理由:Ollama 与 NVIDIA 联手,让本地 AI 推理性能跃升到 petaflop 级别,做本地模型部署的开发者可以直接在 RTX Spark 上跑模型,值得关注。原文
06:49Clement Delangue@ClementDelangue精选llama.cpp 新增 MTP(Multi-Token Prediction)支持,使本地模型推理速度大幅提升。在 A10G 上测试 Qwen3.6-27B 模型,生成速度从 25 tok/s 提升至 45 tok/s,增幅达 78%。这一优化让本地模型具备了作为日常驱动力的实用性,对本地部署和隐私敏感场景意义重大。开发者可直接在 llama.cpp 中启用 MTP 功能,体验更流畅的本地推理。AI模型llama.cppMTP/多令牌预测本地推理Qwen3.6-27B推理优化推荐理由:本地模型速度翻倍,做本地部署的开发者终于可以告别卡顿,建议直接试试 MTP 支持。原文
21:08Clement Delangue@ClementDelangue83°Hugging Face 发布了名为 Carbon 的开源 DNA 基础模型,包含开放权重、训练代码和数据管道。该模型专为下游生物学任务设计,可微调或持续预训练。Carbon 比同尺寸最佳模型快 275 倍,能在单 GPU 上不到 2 天处理整个人类基因组,甚至可在笔记本电脑上本地运行。其核心技术是 DNA 原生分词器,将序列分割为 6 碱基块以提升效率,同时保留单碱基分辨率。此举旨在推动生物学 AI 的透明化和本地化,避免个人健康数据依赖黑盒 API。AI模型Hugging FaceDNA 模型开源/仓库生物信息学本地推理推荐理由:Hugging Face 把 DNA 分析从黑盒 API 拉到了本地,做生物信息学或个性化健康研究的开发者可以直接在笔记本上跑基因组模型,值得试试。原文
17:12AlphaSignal@AlphaSignalAI76°本周(5月11日至17日)GitHub 热门仓库包括 DeepSeek 4 Flash 本地推理引擎(支持 Metal 和 CUDA)、更稀疏快速的 Transformer 语言模型、利用 WiFi 信号实现空间感知的 RuView、面向法律工作流的 Claude 插件套件,以及 X 平台开源的 feed 排序算法。这些项目覆盖了模型推理、架构优化、环境感知、行业应用和算法透明化等多个方向,值得开发者关注。AI产品DeepSeek本地推理TransformerWiFi感知开源推荐理由:做本地推理或模型优化的开发者可以看看 DeepSeek 4 Flash 和稀疏 Transformer 项目,前者直接提升 Metal/CUDA 部署效率,后者可能改变模型架构设计思路。法律从业者或对行业 AI 应用感兴趣的人,Claude 插件套件提供了现成的 workflow 参考。原文
16:33berryxia@berryxiaUnslothAI 创始人 Daniel Han 发布了 Qwen3.6 的实验性 MTP GGUF 版本,通过投机解码技术大幅提升推理速度。27B 模型在单 GPU 上达到 140 tokens/s,35B-A3B 版本更达 220 tokens/s,比原版 GGUF 快 1.4 倍且精度无损。最佳 draft tokens 设为 2,过高会导致接受率下降。这一突破显著提升了本地大模型的性能上限,让消费级显卡能更高效运行 30B+ 参数模型。AI模型Qwen3.6GGUF投机解码本地推理UnslothAI推荐理由:本地大模型性能天花板被再次抬高,玩 llama.cpp、跑本地 Agent 或日常 coding 的开发者可以直接用上,体验 30B+ 模型在消费级显卡上的流畅速度。原文
18:18berryxia@berryxiaoMLX 0.3.9.dev2 版本发布,针对 Apple Silicon 设备优化,集成了 Gemma 4 的 MTP 视觉路径、DFlash 引擎和 ParoQuant,显著提升图文解码速度。新增 ombx launch copilot 功能,可一键接入 Claude、Codex 等工具;oQ 自动代理解决显存不足问题,管理界面增加重启服务器按钮。作者认为苹果端侧 AI 在速度、集成度和易用性上已接近甚至超越云端大模型,真正将 AI 从云端拉回本地。AI产品端侧AIApple SiliconoMLXGemma 4本地推理1 个信源在谈推荐理由:oMLX 这次更新把 Gemma 4 的视觉路径和 DFlash 引擎塞进 Apple Silicon,图文解码速度明显提升,做本地 AI 开发的 Mac 用户可以直接体验,看看端侧能否替代云端。原文