Charon：大规模LLM训练与推理的统一细粒度模拟器

精选理由

做 LLM 部署优化的工程师终于有了一个高精度模拟器来验证“如果…会怎样”的假设，Charon 能帮你快速找到最佳配置，避免盲目调参，建议直接看论文实验部分。

AI 摘要

Charon 是一个用于大规模 LLM 训练和推理性能预测的统一、模块化、细粒度模拟器。它解决了因并行策略、系统优化和硬件配置复杂而难以优化部署的问题。实验表明，Charon 在不同模型和配置下预测误差始终低于 5.35%，在大型 GPU 集群训练场景下误差低于 3.74%。在实际推理部署中，Charon 发现了一种配置，将系统吞吐量提升至超过工程调优的基线，展示了其实际价值。

AI 翻译 · 中文

arXiv cs.AIDeploying large-scale LLM training and inference with optimal performance is exceptionally challenging due to a complex design space of parallelism strategies, system optimizations, and hardware configurations. Accurate …

阅读原文