首页 > 最新动态 > CCF数发委“数说中国”丨高质量医疗数据集推动医疗智能发展
最新动态
CCF数发委“数说中国”丨高质量医疗数据集推动医疗智能发展
2025-04-2929



在数字医疗时代,高质量医疗数据集是推动医疗智能发展的关键要素,需通过跨机构的数据汇聚、严格的数据治理、隐私保护下的协同训练以及专家精准标注,为医疗AI模型提供优质数据支撑,加速智慧医疗的发展。



在数字医疗时代,高质量医疗数据集是推动医疗智能发展的关键要素。医疗数据具有多样性、复杂性、敏感性等特点,对数据安全和隐私保护要求高,医疗数据集的质量直接关系到智能化诊疗的准确性和可靠性,关系到患者的生命健康,医疗数据的要素化治理和安全可信流通显得尤为重要。通过跨机构的数据汇聚、严格的数据治理、隐私保护下的协同训练以及专家精准标注,医疗行业能够打破数据孤岛,为AI模型提供丰富可信的训练基础。


数据汇聚:打破数据孤岛的多源整合


医疗数据分散在各医院和系统中,形成严重的“数据孤岛”。解决这一问题需要构建跨机构、跨模态的数据集成体系,将各类数据源汇聚在一起。通过建立集中式“数据湖”、分布式“数据联邦”、或将原始数据加工为安全脱敏的医疗数据元件后构建“安全可信医疗数据空间”,整合海量医疗数据,实现数据互联共享,并为AI模型提供丰富的训练资源,从而提升模型的泛化能力。


数据治理与标准化:确保数据高质量与互操作


数据汇聚后,格式不统一、质量参差不齐,必须通过数据治理确保其可用可信。先对数据进行清洗校验,剔除错误和冗余,确保准确完整;再采用统一的HL7 FHIR、SNOMED-CT等数据标准规范格式和术语,实现多机构数据一致互通;并建立持续的数据质量监控机制,不断评估改进数据质量。通过这些措施,可为AI模型提供可靠一致的高质量数据输入,保障训练效果。


多中心联邦学习:数据不出院的协同训练


在隐私保护前提下实现跨机构AI模型训练,联邦学习提供了有效方案。各机构本地训练模型,仅上传模型参数到中央服务器聚合为全局模型。这确保患者敏感数据不出院,最大程度保护了隐私,同时缓解了单一机构的数据不足和偏倚问题。采用联邦学习的模型精度可媲美集中式训练,且鲁棒性更强。该方法已应用于多家医院联合训练影像AI模型,提高了诊断准确率并减少了偏差。


高质量数据标注:专家赋能AI的精准学习


医疗AI离不开高质量的标注数据。医学数据标注复杂耗时,必须由临床专家执行以确保准确。由于大量高质量标注数据难以获得,行业建立了严格的专家标注与质控流程:每条数据由多名专家独立标记,差异由资深专家仲裁,并制定统一的标注指南确保一致性。尽管该过程成本高昂,但确保了训练数据的准确可靠,为模型提供高质量的学习样本。高质量标注数据集能显著提升AI模型性能,使诊断结果更可靠。


质量数据集建设是落实国家“人工智能+”战略部署的重要一步,国家数据局明确提出,要“以高质量数据促进人工智能发展”,通过基础制度供给、数据基础设施建设、生态协同等举措,构建“人工智能+”行动的坚实底座。高质量医疗数据集是医疗智能创新的基石。通过医疗机构、科研院所、国资央企、致力于医疗数据开发的科技企业共同携手,融合安全可信的数据要素化治理技术、高质量数据集加工处理技术和数据流通利用基础设施,医疗AI模型可以获得源源不断的优质数据支撑,更加智能可靠,并在疾病预测和诊断等领域发挥更大作用。高质量数据与智能算法的融合将加速智慧医疗的发展,惠及患者。



作者简介:

杨帆,山东大学教授博导、国家健康医疗大数据研究院副院长,CCF数据治理发展委员会常务委员。






点击“阅读原文”,加入CCF。

点我访问原文链接