11:43arXiv cs.AI(学术论文)本文提出SCOPE框架,将复杂的图像生成要求形式化为语义承诺,通过结构化规范持续追踪这些承诺的状态,并条件式调用检索、推理和修复技能以解决未满足的承诺。研究指出当前模型生成中存在的“概念鸿沟”问题,即承诺在生成生命周期中可能被局部解决但无法作为统一操作单元被追踪。为评估承诺级意图实现,作者引入人类标注基准Gen-Arena和实体级通过率指标EGIP,SCOPE在该基准上达到0.60 EGIP,显著优于所有基线,并在WISE-V(0.907)和MindBench(0.61)上表现优异,证明持续承诺追踪对复杂图像生成有效。论文图像生成语义承诺结构化解耦技能编排评估基准推荐理由:该工作首次系统定义了图像生成中的语义承诺概念及其生命周期断裂问题,并提供了可操作的框架和评估基准。对追求高可控性图像生成的从业者来说,SCOPE展示了结构化规范追踪如何提升复杂交互场景下的生成质量。原文
11:42arXiv cs.AI(学术论文)精选80°Flow-OPD提出首个将在线策略蒸馏(OPD)集成到Flow Matching模型中的统一后训练框架,有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略:先通过单奖励GRPO微调培养领域专用教师模型,再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化(MAR),利用任务无关教师提供全数据监督,避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示,GenEval分数从63提升至92,OCR准确率从59%提升至94%,整体提升约10个百分点,且保持图像保真度和人类偏好对齐,并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。论文图像生成Flow Matching在线策略蒸馏多任务对齐Stable Diffusion 3.5推荐理由:该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点,将LLM领域成熟的OPD方法成功迁移至图像生成领域,并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法,对业界构建高性能通用文生图模型具有直接参考价值。原文