全部 AI 动态 · AI 热点

6月24日

11:45

11:45

arXiv cs.LG@Parth Upman, Shreyank N Gowda

QC-SMOTE提出一种质量控制过采样框架，通过复合邻域信任度评分估计少数类样本可靠性。生成候选样本时采用IPQ引导的最佳K策略，评估中点纯度并考虑多数类清除。方法根据重叠-不平衡程度自适应调整插值范围和选择标准。在30个不平衡数据集上的重复分层交叉验证显示，QC-SMOTE在平均AUC-ROC和Macro F1上优于对比过采样方法，在中度和严重不平衡下提升尤为明显。

论文 QC-SMOTE SMOTE 不平衡分类过采样数据增强

推荐理由：这篇论文提出了QC-SMOTE，在30个数据集上比传统SMOTE获得更好的AUC和F1分数，特别适合处理中度到高度不平衡的数据。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:33

09:33

arXiv cs.LG@Artur Kuramshin, Özgür Aslan, Cyrus Neary, Glen Berseth

精选

机器人学习中的大规模策略在操作任务上表现优异，但指令跟随能力不足，主要原因是现有数据集缺乏语言和动作序列多样性。TREAD提出一种可扩展框架，利用大型视觉语言模型（VLM）对现有机器人数据集进行重标注，无需额外数据采集。该方法通过三个步骤：从原始指令生成语义子任务、基于子任务分割演示视频、生成包含物体属性的多样化指令，将长演示分解为语言-动作对。实验表明，在LIBERO基准上，使用TREAD增强数据训练的策略在未见任务和目标上表现更好，提升了规划泛化和语言条件策略泛化能力。

论文机器人学习数据增强 VLM 指令跟随泛化

推荐理由：做机器人数据增强和指令跟随的团队，TREAD用VLM低成本提升数据集质量，直接增强策略泛化，值得在LIBERO等基准上试试。

09:29

09:29

arXiv cs.LG@Jakob Galley, Vahid Shahverdi, Axel Flinth

精选

该研究探讨了训练数据的对称性是否会在神经网络的梯度流训练中产生守恒量。作者证明，在损失函数为解析且非多项式的一般情况下，数据对称性通常不会引入额外的运动积分。但对于均方误差（MSE）损失，数据增强有时会产生额外的守恒量。研究通过引入“可张量化网络”框架来描述这一现象，这类架构包括线性网络、多项式网络以及Lightning Attention。

论文神经网络对称性守恒律数据增强梯度流

推荐理由：这项研究澄清了数据对称性与神经网络训练动力学之间的深层关系，对理解数据增强的理论基础有重要意义。做理论研究的机器学习学者值得关注，它可能影响你对数据增强策略的设计思路。

6月3日

10:25

10:25

arXiv cs.AI@Máté Gedeon, Péter Mihajlik

低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线：先由LLM生成带参与者元数据的场景级对话，再将说话人属性映射到TTS语音配置，最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上，仅用67小时真实对话加636小时合成数据训练的模型，性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言，且LLM生成器选择和合成数据组成对效果影响显著。

论文语音识别数据增强低资源语言 TTS LLM

推荐理由：低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据，效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试，尤其适合匈牙利语等小语种场景。

5月25日

11:15

11:15

arXiv cs.AI@Rim Assouel, Amir Bar, Michal Drozdzal, Adriana Romero-Soriano

精选

多模态大语言模型在细粒度视觉理解上仍有不足。研究者提出PGT框架，通过在图像上叠加几何基元生成密集监督信号，分离视觉定位与语义先验。实验显示，在LLaVA-v1.5-Instruct上加入PGT数据后，What'sUp基准提升20%，CV-Bench-2D提升13.3%，且不影响通用感知能力。在先进MLLM上微调也带来最高8.3%的提升。结果表明，许多空间推理缺陷源于监督信号不足，而非架构或分辨率限制。

论文多模态大语言模型视觉定位数据增强细粒度理解 PGT

推荐理由：PGT用低成本数据生成解决了MLLM细粒度视觉理解的瓶颈，做多模态模型训练或评估的团队可以直接用这个框架提升定位能力，值得一试。

5月12日

19:10

19:10

arXiv cs.AI@Md. Sultan Al Rayhan, Maheen Islam

本文提出一种基于自信度引导的扩散增强框架，用于改善低分辨率孟加拉手写复合字符识别。该框架结合类别条件扩散建模与分类器引导，合成高质量手写样本。在U-Net结构中加入Squeeze-and-Excitation残差块提升生成质量，并采用自信度过滤机制保留高一致性样本。在AIBangla数据集上，ResNet50、DenseNet121、VGG16和Vision Transformer均取得一致提升，最佳模型准确率达89.2%，大幅超越此前基准。这表明质量感知的扩散增强能有效提升低资源语种文字识别性能。

论文低资源语种手写识别扩散模型数据增强孟加拉语

推荐理由：该研究为低资源语种手写识别提供了一种实用的数据增强思路，结合扩散模型与自信度过滤，方法通用且效果显著，对同类任务有参考价值。