LLaMA 系列作为 Meta 开源大模型的标杆,近期在技术演进和应用落地上呈现多条并行路径。一方面,Meta 自身持续迭代:Muse Spark 宣称预训练效率超 Llama 4 一个数量级,而 AIRA 双智能体架构在自主搜索任务中已超越 Llama 3.2;另一方面,社区围绕 LLaMA 的知识蒸馏、压缩与推理优化成为热点。
- 近期主要进展:
- NVIDIA X-Token 跨分词器蒸馏:该项目在 Llama-3.2-1B 上应用投影引导的跨分词器知识蒸馏,平均超越 GOLD 方法 3.82 分,为小模型继承大模型能力提供了新思路。(NVIDIA 推出 X-Token:跨分词器知识蒸馏)
- Liquid AI LFM2.5-8B-A1B 模型:以 1.5B 活跃参数在本地运行 Agent,性能接近 4 倍参数模型,展示了稀疏激活技术的潜力。(Liquid AI LFM2.5-8B-A1B:1.5B活跃参数跑本地Agent)
- LlamaParse 应用于贷款承销:LlamaIndex 展示了几行代码即可将 LlamaParse 集成到自动化贷款承销流水线,体现 LLaMA 生态在垂直场景的快速落地。(LlamaParse 自动化贷款承销流水线)
- Bridge-Garden 蒸馏理论:DeepSeek 提出的混合硬软标签方法从理论上优化了 LLM 蒸馏效果,与 LLaMA 系列的小型化目标高度相关。(Bridge-Garden 理论:混合硬软标签提升 LLM 蒸馏效果)
当前焦点 / 未来观察点:
当前焦点集中于如何在不显著牺牲性能的前提下将 LLaMA 级能力压缩到可部署规模,蒸馏和稀疏模型是主要路径。同时,LLaMA 生态正在向金融等具体行业渗透,安全和对齐问题(如 AI 内容审核局限性与自主安全智能体研究)也成为不可忽视的挑战。未来值得关注 Meta 是否会开源 Muse Spark 或类似高效预训练方案,以及蒸馏技术能否在更大参数量级上复现成功。