随着AI向通用智能演进,数据标注正经历从“基础服务”向“战略资源”的价值认知转变。需在标准、技术、产业生态三方面持续发力,推动数据标注成为人工智能高质量发展的“核心底座”,为数字中国建设注入持续动能。
数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。培育壮大数据标注产业对于提升数据供给质量、推动人工智能创新发展具有重要支撑作用。但目前,数据标注产业在标准、技术、生态等方面均面临挑战,亟待正视解决。
一、标准化筑基:从无序竞争到规范发展
标准缺失导致的数据复用率低、协作成本高等问题日益凸显。以自动驾驶领域为例,不同企业对障碍物标注的颗粒度差异可达30%,直接影响模型泛化能力。
针对这一问题,亟需建立统一的标准体系。例如,中国电子提出的数据元件技术路线,通过构建标准化表征体系对原始数据进行结构化重组,为数据通用性提升提供了可行路径。未来可由行业龙头央国企联合数据需求方,制定适配大模型、自动驾驶、医疗影像等场景的标注规范与质量评估体系,并通过政策引导将优质标准上升至国家标准,推动行业从分散化劳动外包向标准化产品生产转型,降低跨企业协作成本,提升数据通用性。
二、技术突围:破解效率与质量的双重困局
传统人工标注模式难以应对多模态数据处理的复杂性。以视频标注为例,需同步完成目标检测、语义关联等任务,人力成本占项目总成本比重仍超60%。为此,技术突破需聚焦三个方向:
一是智能预标注,利用大模型完成80%基础工作,人工专注复杂校验与知识注入;二是合成数据引擎,通过生成式AI创建罕见场景训练数据(如极端天气道路图像);三是多模态对齐技术,开发跨文本、图像、语音的联合标注系统。 通过技术创新,着力突破效率与质量的矛盾桎梏。
三、生态重构:打造协同创新的产业格局
目前部分地区数据标注园区同质化竞争问题严重,建议优化区域分工:中西部承接图片标注、方言标注等基础业务,发达地区聚焦多语言、多模态等高附加值场景。同时,通过国家标注基地与行业协会建立自律公约、技术共享机制,遏制低价恶性竞争,形成"各展所长、协同共进"的产业格局,最终实现产业链价值最大化。
随着AI向通用智能演进,数据标注正经历从“基础服务”向“战略资源”的价值认知转变。面向未来,需在三个维度持续发力:强化标准引领作用、深化技术创新突破、完善产业协同生态。唯有如此,数据标注才能真正从产业链的“幕后工序”转变为推动人工智能高质量发展的“核心底座”,为数字中国建设注入持续动能。
作者简介:
谭昶,安徽飞数信息科技有限公司常务副总经理,合肥市数据产业协会秘书长,CCF数据治理发展委员会执行委员
点击“阅读原文”,加入CCF。