首页 > 最新动态 > 联手数据库专委:“数据增强”术语发布 | CCF术语快线
最新动态
联手数据库专委:“数据增强”术语发布 | CCF术语快线
2025-05-175



本期发布术语新词:数据增强(Data Augmentation)



据增强(Data Augmentation)

作者:柴成亮



开篇导语

期新增术语新词:数据增强(Data Augmentation)。数据增强是一种通过对现有数据进行变换、组合或生成新样本的技术,旨在提升人工智能模型的泛化能力,广泛应用于图像处理、自然语言处理和表格数据分析等领域,能够有效缓解数据不足和分布不均等问题。


InfoBox:

中文名:数据增强

英文名:Data Augmentation

实质:通过对已有数据进行变换、组合或生成,扩充数据集的规模和多样性。

学科:计算机科学与技术

关键词: 数据增强;人工智能;泛化能力


背景:

人工智能领域,高质量且数量充足的训练数据是模型性能的关键。然而,许多实际应用场景面临数据稀缺或标注成本高的问题[1]。数据增强技术通过模拟现实世界中的数据变化,生成与原数据相似的样本,弥补数据不足的短板,同时帮助模型避免过拟合[2][3]。近年来,随着深度学习的发展,数据增强在计算机视觉、自然语言处理和表格数据分析等领域得到了广泛应用,成为提升模型性能的重要手段。


定义:

据增强是一种通过复制并修改现有数据来扩大训练数据集的技术。其核心思想是增加数据的多样性,填补训练数据集与现实世界应用之间的差距。数据增强技术已在多个领域(如图像分类、自然语言处理和推荐系统等)得到广泛应用,并在提高模型性能、增强泛化能力以及解决数据不平衡问题等方面展现出显著优势。


挑战:

管数据增强能提升模型性能,其应用仍面临若干挑战:(1)如何确保生成样本与原始数据分布一致,以避免引入噪声或偏差;(2)现有方法大多局限于特定数据模态(如图像、文本或音频),跨模态通用性不足;(3)不同领域和任务对数据增强的适配性差异较大,难以实现通用的解决方案。因此,设计有效的数据增强策略需综合考虑样本质量、模态适配性、分布一致性以及任务适用性等关键因素,以确保其在多样化场景中的有效性和鲁棒性。


发展:

据增强作为提升AI模型泛化能力的关键技术,其发展历程从简单操作逐步迈向复杂智能化方法。最早的雏形出现在1998年的LeNet [4],通过随机失真图像扩充数据集,验证了增加训练样本可显著降低测试误差,奠定了数据增强的理论基础。进入深度学习蓬勃发展的阶段,数据增强技术实现从简单的随机掩码方法[5][6]到复杂策略的快速迭代。2014年,生成对抗网络(GANs)[7]的引入开启了生成高质量人工样本的新篇章,广泛应用于图像、文本等领域。2018年,AutoAugment [8]利用强化学习自动搜索最优增强策略,大幅提升效率和性能。随后,扩散模型[9]和变分自编码器(VAEs)[10]等生成模型进一步增强了数据样本的真实性与多样性,适用于图数据、时序数据等复杂模态。近年来,大模型(LLMs)[11] 通过少样本生成高质量合成数据[12],同时结合隐私保护技术降低数据泄露风险[13],从而显著提升低资源场景下的模型泛化能力与安全性。

参考文献:


1. Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of big data, 2019, 6(1): 1-48.

2. Zha D, Bhat Z P, Lai K H, et al. Data-centric artificial intelligence: A survey[J]. ACM Computing Surveys, 2025, 57(5): 1-42.

3. Maharana K, Mondal S, Nemade B. A review: Data pre-processing and data augmentation techniques[J]. Global Transitions Proceedings, 2022, 3(1): 91-99.

4. LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

5. DeVries T, Taylor G W. Improved regularization of convolutional neural networks with cutout[J]. arXiv preprint arXiv:1708.04552, 2017.

6.Wei J, Zou K. EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 6382-6388.

7.Tran N T, Tran V H, Nguyen N B, et al. On data augmentation for GAN training[J]. IEEE Transactions on Image Processing, 2021, 30: 1882-1897.

8. Cubuk E D, Zoph B, Mane D, et al. Autoaugment: Learning augmentation strategies from data[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 113-123.

9. Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

10. Islam Z, Abdel-Aty M, Cai Q, et al. Crash data augmentation using variational autoencoder[J]. Accident Analysis & Prevention, 2021, 151: 105950.

11. Ding B, Qin C, Zhao R, et al. Data augmentation using llms: Data perspectives, learning paradigms and challenges[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 1679-1705.

12. Dunlap L, Umino A, Zhang H, et al. Diversify your vision datasets with automatic diffusion-based augmentation[J]. Advances in neural information processing systems, 2023, 36: 79024-79034.

13. Dhingra P, Agrawal S, Veerappan C S, et al. Enhancing Speech De-Identification with LLM-Based Data Augmentation[C]//2024 11th International Conference on Advanced Informatics: Concept, Theory and Application (ICAICTA). IEEE, 2024: 1-5.


作者介绍


柴成亮

副教授,北京理工大学

研究领域:多模态数据查询与分析

邮箱:ccl@bit.edu.cn


计算机术语审定委员会及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

计算机术语审定工作委员会:

主任:

李国良(清华大学)

副主任:

王昊奋(同济大学)

林俊宇(复旦大学)

主任助理:

李一斌(上海海乂知信息科技有限公司)

执行委员:

丁   军(上海海乂知信息科技有限公司)

兰艳艳(清华大学)

张伟男(哈尔滨工业大学)

彭   鑫(复旦大学)

李博涵(南京航空航天大学)

委员:

柴成亮(北京理工大学)

李晨亮(武汉大学)

张   鹏(天津大学)

王昌栋(中山大学)

张宁豫(浙江大学)

孔祥杰(浙江工业大学)

魏   巍(华中科技大学)


术语投稿热线:ccfpedia@ccf.org.cn




点击“阅读原文”,加入CCF。

点我访问原文链接