数据增强 · AI 话题观测

§ 01综述

数据增强是人工智能领域中通过合成或变换现有数据来扩充训练集规模、提升模型泛化能力的关键技术。近期该技术在机器人操作、低资源语言识别、多模态感知等方向取得突破，但也引发了对数据对称性与模型行为关联的深入思考。

数据增强近期进展

机器人指令跟随的数据增强：TREAD方法利用视觉语言模型（VLM）对机器人操作数据进行重新标注，通过生成多样化的指令变体来增强训练数据，从而提升机器人对自然语言指令的鲁棒性。该工作展示了将大模型知识转化为具体数据增强策略的潜力。TREAD：用VLM重标注机器人数据，提升指令跟随鲁棒性

低资源语言的合成对话数据增强：针对低资源语言的自动语音识别（ASR），研究者提出利用从未实际发生的合成对话进行训练，有效提升了识别准确率。这一方法绕过了真实数据采集的瓶颈，为数据稀缺场景提供了新的数据增强范式。用从未发生的对话训练ASR：合成对话提升低资源语言识别

多模态视觉定位的生成式增强：PGT框架通过程序化生成具有空间关系的任务样本，对多模态大模型（MLLM）的视觉定位能力进行数据增强，显著改善其在细粒度指令理解上的表现。PGT：程序化生成任务提升MLLM视觉定位能力

自信度引导的扩散模型增强：针对孟加拉复合字符识别难题，一种自信度引导的扩散增强方法被提出，通过生成更有判别性的训练样本，在低资源字符识别任务上达到新水平。自信度引导扩散增强：孟加拉复合字符识别新突破

当前焦点与观察点

当前数据增强的焦点正从简单的几何变换转向基于生成模型、大模型的智能增强策略，尤其是在合成数据质量与任务适配性上。同时，一项研究指出神经网络训练数据中的对称性并不必然导出守恒律，提示数据增强引入的假设可能与模型的行为特性之间存在非直接对应关系，这为设计更科学的数据增强方案提出了新思考。总体来看，数据增强正朝着更自动化、更任务特化的方向发展，但如何控制增强带来的潜在偏差仍是核心挑战。

§ 02相关报道05 条在档

§ 03邻近话题