Mac 开发者终于能在本地跑最新大模型了,DiffusionGemma 和 North Mini Code 都支持 Day-0 运行,做本地 AI 实验的可以直接装来玩。
开发者 Prince Canuma 在 Google 发布 DiffusionGemma 和 Cohere North Mini Code 当天,就将这两个模型移植到了 Mac 的 MLX 框架中,实现零等待本地运行。DiffusionGemma 采用新架构,可生成 256 token 整块,支持双向注意力和迭代自纠错,26B MoE 仅激活 3.8B,量化后 18GB 内存即可运行。North Mini Code 30B MoE 只需 3B 激活参数,BF16 下推理速度达 66 tok/s。这得益于与 Google DeepMind 和 Cohere 的深度合作,实现了 Day-0 支持。用户可通过 mlx-vlm v0.6.3 一键安装体验。
开发者 Prince Canuma 在 Google 发布 DiffusionGemma 和 Cohere North Mini Code 当天,就将这两个模型移植到了 Mac 的 MLX 框架中,实现零等待本地运行。DiffusionGemma 采用新架构,可生成 256 token 整块,支持双向注意力和迭代自纠错,26B MoE 仅激活 3.8B,量化后 18GB 内存即可运行。North Mini Code 30B MoE 只需 3B 激活参数,BF16 下推理速度达 66 tok/s。这得益于与 Google DeepMind 和 Cohere 的深度合作,实现了 Day-0 支持。用户可通过 mlx-vlm v0.6.3 一键安装体验。
Prince Canuma直接把Google刚发布的DiffusionGemma和Cohere North Mini Code当天塞进Mac本地MLX,零等待直接把玩咯! mlx-vlm v0.6.3刚上线,DiffusionGemma这个新架构直接生成256 token整块、双向注意力+迭代自纠错,26B MoE只激活3.8B,量化后18GB就能跑。 North Mini Code 30B MoE也只要3B active,BF16下6…