Google Developers Blog(博客/媒体)60Google的MaxText框架现在支持在单主机TPU上进行监督微调(SFT)和强化学习(RL),利用JAX和Tunix库实现高效模型优化。开发者可通过GRPO和GSPO等算法轻松调整预训练模型以适应专业任务和复杂推理。该更新简化了从单主机到多主机配置的微调流程,为后训练工作流提供了可扩展路径。AI产品微调/RLTPUJAXMaxText推荐理由:这表明Google正在降低TPU上高级模型微调的门槛,让中小规模团队也能在单主机TPU上应用RL算法进行后训练,对AI开发实践有实用价值。