本地推理技术正迎来突破性进展,硬件与软件的双重创新推动大模型在个人设备上高效运行成为现实。
- 近期主要进展包括:
- 硬件层面,AMD 确认三季度推出锐龙 AI Max PRO 400 升级版 AI Halo,可支持 300B 参数模型本地运行,定价 3999 美元并于 6 月接受预订。雷神、ACEMAGIC 等厂商也纷纷推出 AI 工作站,例如雷神 M7000 配备 128GB 内存(19999 元起),ACEMAGIC G3A 则支持半高双槽显卡,为本地推理提供高配置选择。
- 软件优化方面,llama.cpp 加入 MTP(Multi-Token Prediction)支持,使本地模型推理速度提升 78%。Qwen3.6 MTP GGUF 发布后,27B 模型在单 GPU 上可达 140 tokens/s,显示出显著效率提升。
- 此外,Hugging Face 发布开源 DNA 模型 Carbon,可在笔记本本地运行;摩尔线程推出 AICUBE 统一家庭 AI 中心,进一步扩展了本地推理的应用场景。
当前焦点集中在如何平衡模型规模与本地设备性能,以及降低高端硬件的成本门槛。未来观察点包括:更高效的推理引擎(如 DeepSeek 4 Flash、oMLX 0.3.9)、苹果侧端 AI 集成度提升,以及更多面向消费级市场的本地推理解决方案。