AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:多任务对齐×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月20日
10:44
10:44arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li
精选
GoLongRL 是一个完全开源的长上下文强化学习训练方案,包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法,覆盖 9 种任务类型,每个任务配有自然评估指标,数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下,GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集,且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外,论文提出 TMN-Reweight 方法,通过任务级均值归一化和难度自适应加权,解决异构奖励优化问题,进一步提升平均性能并保持通用能力。
论文长上下文强化学习开源/仓库RLVR多任务对齐

推荐理由:长上下文 RL 训练的数据构建和奖励设计一直是个难题,GoLongRL 提供了开源数据集和优化方法,做长上下文模型训练的团队可以直接复用,省去大量数据构造工作。
原文
5月11日
11:42
11:42arXiv cs.AI(学术论文)
精选80°
Flow-OPD提出首个将在线策略蒸馏(OPD)集成到Flow Matching模型中的统一后训练框架,有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略:先通过单奖励GRPO微调培养领域专用教师模型,再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化(MAR),利用任务无关教师提供全数据监督,避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示,GenEval分数从63提升至92,OCR准确率从59%提升至94%,整体提升约10个百分点,且保持图像保真度和人类偏好对齐,并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。
论文图像生成Flow Matching在线策略蒸馏多任务对齐Stable Diffusion 3.5

推荐理由:该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点,将LLM领域成熟的OPD方法成功迁移至图像生成领域,并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法,对业界构建高性能通用文生图模型具有直接参考价值。
原文
精选全部日报登录