SCORE

§ 01综述

近期，“SCORE”一词在人工智能领域多个子方向的研究中出现，分别对应强化学习的决策点评估、语言模型采样质量衡量以及图像生成中的尺度一致性。这些工作虽有不同侧重，但均试图通过引入新的评分或度量机制来优化模型行为。

APPO 提出了一个细粒度决策点的强化学习方法，通过改进对工具调用过程中的中间步骤进行评分，提升AI智能体在复杂任务中的工具使用能力和整体表现。该工作强调在决策链的每个点而非仅终点给予反馈，从而更有效地引导智能体学习。(APPO：细粒度决策点强化学习提升AI智能体工具调用能力)

WCS (Word Coverage Score) 指标则聚焦于大语言模型采样策略对词汇多样性的影响。研究发现，当前常用的采样算法（如top-k、top-p）会系统性压制低频词的生成长尾，而WSC能够量化这种多样性损失，有助于语言模型生成更丰富自然的文本。(WCS指标揭示LLM采样机制如何压制词汇多样性)

SKILD 提出一个尺度不变的扩散模型，统一了生成任务和连续超分辨率任务。通过设计尺度不变的评分网络，模型能在不同分辨率下保持图像结构的一致性，无需针对每个尺度单独训练。(SKILD：统一生成与连续超分辨率的尺度不变扩散模型)

当前焦点在于如何将这些评分机制更有效地融入现有模型训练与推理流程；未来值得观察的是，类似通用评分框架能否跨领域迁移，以及这些度量在模型对齐、可解释性等方面的潜在应用。

§ 02相关报道03 条在档

§ 03邻近话题