Llama-3 系列模型近期持续作为开源大语言模型的标杆,被广泛用于各类改进与评估研究中。其最新变体 Llama-3.2-1B 成为轻量级模型优化的热门基准,而 Llama-3.1-8B 则常被用于对比不同评估方法的一致性。
主要进展方面,NVIDIA 提出的 X-Token 方法通过投影引导的跨分词器知识蒸馏,在 Llama-3.2-1B 上平均得分超越 GOLD 方法 3.82 分,展示了蒸馏技术在小模型上的潜力。一项关于层等价性测试的研究发现,不同测试方法会导致对 Qwen3-8B 和 Llama-3.1-8B 的评估结果截然不同,强调了标准化评估协议的重要性。此外,A* 搜索后训练技术使 1B 模型在推理任务上超越 DeepSeek-V3.2,但该工作未直接基于 Llama 系列。
当前焦点集中于如何更有效地蒸馏知识到小模型、如何确保评估方法的可靠性,以及 Llama-3 作为基础模型在各类后训练和蒸馏研究中的持续适用性。未来需关注 Llama-4 是否会引入类似技术,以及开源社区是否会推出更标准化的评估基准。