精选 AI 资讯 · AI 热点

arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

精选

GoLongRL 是一个完全开源的长上下文强化学习训练方案，包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法，覆盖 9 种任务类型，每个任务配有自然评估指标，数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下，GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集，且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外，论文提出 TMN-Reweight 方法，通过任务级均值归一化和难度自适应加权，解决异构奖励优化问题，进一步提升平均性能并保持通用能力。

论文长上下文强化学习开源/仓库 RLVR 多任务对齐

推荐理由：长上下文 RL 训练的数据构建和奖励设计一直是个难题，GoLongRL 提供了开源数据集和优化方法，做长上下文模型训练的团队可以直接复用，省去大量数据构造工作。

原文

5月11日

11:42

11:42arXiv cs.AI（学术论文）

精选80°

Flow-OPD提出首个将在线策略蒸馏（OPD）集成到Flow Matching模型中的统一后训练框架，有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略：先通过单奖励GRPO微调培养领域专用教师模型，再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化（MAR），利用任务无关教师提供全数据监督，避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示，GenEval分数从63提升至92，OCR准确率从59%提升至94%，整体提升约10个百分点，且保持图像保真度和人类偏好对齐，并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。

论文图像生成 Flow Matching 在线策略蒸馏多任务对齐 Stable Diffusion 3.5

推荐理由：该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点，将LLM领域成熟的OPD方法成功迁移至图像生成领域，并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法，对业界构建高性能通用文生图模型具有直接参考价值。

原文