AITOP

5月13日

00:33

Google Developers Blog（博客/媒体）

60

Google的MaxText框架现在支持在单主机TPU上进行监督微调（SFT）和强化学习（RL），利用JAX和Tunix库实现高效模型优化。开发者可通过GRPO和GSPO等算法轻松调整预训练模型以适应专业任务和复杂推理。该更新简化了从单主机到多主机配置的微调流程，为后训练工作流提供了可扩展路径。

AI产品微调/RL TPU JAX MaxText

推荐理由：这表明Google正在降低TPU上高级模型微调的门槛，让中小规模团队也能在单主机TPU上应用RL算法进行后训练，对AI开发实践有实用价值。