№本地推理·general

本地推理

别名

§ 01综述

本地推理技术正迎来突破性进展，硬件与软件的双重创新推动大模型在个人设备上高效运行成为现实。

硬件层面，AMD 确认三季度推出锐龙 AI Max PRO 400 升级版 AI Halo，可支持 300B 参数模型本地运行，定价 3999 美元并于 6 月接受预订。雷神、ACEMAGIC 等厂商也纷纷推出 AI 工作站，例如雷神 M7000 配备 128GB 内存（19999 元起），ACEMAGIC G3A 则支持半高双槽显卡，为本地推理提供高配置选择。
软件优化方面，llama.cpp 加入 MTP（Multi-Token Prediction）支持，使本地模型推理速度提升 78%。Qwen3.6 MTP GGUF 发布后，27B 模型在单 GPU 上可达 140 tokens/s，显示出显著效率提升。
此外，Hugging Face 发布开源 DNA 模型 Carbon，可在笔记本本地运行；摩尔线程推出 AICUBE 统一家庭 AI 中心，进一步扩展了本地推理的应用场景。

当前焦点集中在如何平衡模型规模与本地设备性能，以及降低高端硬件的成本门槛。未来观察点包括：更高效的推理引擎（如 DeepSeek 4 Flash、oMLX 0.3.9）、苹果侧端 AI 集成度提升，以及更多面向消费级市场的本地推理解决方案。

§ 02相关报道10 条在档

§ 03邻近话题