10:08arXiv cs.AI@Difan Jiao, Raghav Singhal, Robert West, Ashton AndersonTandem Reinforcement Learning (TRL) 将 tandem 训练范式引入带可验证奖励的强化学习(RLVR)。TRL 让一个较强的 senior 模型与一个冻结的 junior 模型随机交替协作生成推理过程,对最终结果给予奖励,并对 senior 应用标准 GRPO 损失。在 Qwen3-4B-Instruct 上使用竞赛数学训练,TRL 的 solo 推理能力与 vanilla GRPO 持平,但同时提升了 senior 与 junior 的交接鲁棒性、减少了 junior 侧分布漂移,并产出了对 junior 更易理解的思维链。该工作为多模型通信与人类兼容性提供了实际收益的路径。AI模型TRLQwen3-4BGRPO推理模型多模型协作推荐理由:他们提出了 TRL,让强模型和弱模型组队推理,强模型学会写弱模型能看懂的推理过程。训练 Qwen3-4B 后,单打能力不降,协作能力更强。原文
08:51marktechpost@Sana Hassan精选本教程详细介绍了在Google Colab上使用QLoRA和DPO微调LFM2模型的完整步骤。步骤包括使用TRL库进行监督微调(SFT),然后应用DPO算法优化,最后合并适配器。教程提供了可运行的代码和详细解释,适合有基础的用户实践。所有操作在免费的Colab环境下完成。技巧LFM2QLoRADPOGoogle ColabTRLPEFT微调推荐理由:手把手教你微调LFM2,用Colab免费跑原文
22:05Clement Delangue@ClementDelangue精选83°Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法,将每次同步的带宽成本降低约 100 倍。核心洞察是:在 RL 步骤之间,约 99% 的 bf16 权重是比特相同的,只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件,通过 Hugging Face Bucket 传输,而不是传输整个权重文件。以 Qwen3-0.6B 为例,每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL,只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。AI产品强化学习权重同步Hugging FaceTRL分布式训练推荐理由:做分布式 RL 训练的团队终于可以告别昂贵的带宽和复杂的基础设施——只需 HTTPS 和一个 Bucket,就能实现跨区域的推理集群同步,建议搞 RL 的开发者直接看原文。原文