Fireworks 训练平台扩展：GLM 5.1 LoRA RL 上线

精选理由

Fireworks 让 GLM 5.1 的强化学习训练变得简单且无上限，做模型微调或 RL 研究的团队可以直接上手，不用操心配额和积分。

AI 摘要

Fireworks 宣布其训练平台进一步扩展，即日起通过 Training API 支持 GLM 5.1 的 LoRA RL（强化学习），包括 SFT、DPO 和完整 RL 训练，上下文窗口达 200K。用户可使用自定义损失函数或智能默认设置，无使用上限，无需积分兑换，训练后的模型归用户所有并可用于推理。同时，从 6 月 15 日起，付费 Claude 计划用户可获得每月专用积分，用于 Claude Agent SDK、claude -p、Claude Code GitHub Actions 及基于 Agent SDK 的第三方应用。

AI 翻译 · 中文

Fireworks AIFireworks Training Platform continues to expand. Today GLM 5.1 LoRA RL is now live via Training API: SFT, DPO, and full RL on a 200K context window → custom loss functions or smart defaults. No usage ceilings. No credits…

查看原推