首页 > 最新动态 > 黄铭钧院士:数据价值创造——从0到1,从1到无穷 | CCCF精选
最新动态
黄铭钧院士:数据价值创造——从0到1,从1到无穷 | CCCF精选
2025-01-13115

收录于话题

#CCCF2025



本报告将结合作者团队的研究工作,探讨面向数据要素流通与价值释放的新一代数据库系统。首先,将介绍如何通过数据库与人工智能技术的深度融合,实现数据要素的智能提取;阐述如何构建可信的数据要素溯源机制,以保障数据要素的完整性、准确性和透明度;并进一步探讨如何安全高效地进行数据要素的共享与协作,进而有效释放数据的价值。最后,我将分享我们在科研成果转化领域的数据要素流通方案。




数据价值创造:从0到1


近年来,中国数字经济蓬勃发展。中国信息通信研究院发布的《中国互联网发展报告 2023》蓝皮书中的数据显示,2022年,中国数字经济规模首次突破50万亿元,占GDP的比重高达41.5%。在数字经济高速增长的大背景下,数据被视为新的关键生产要素。国家数据局统计显示,2023年中国数据生产总量达到32.9泽字节(ZB),同比增长22.4%。在如此庞大的数据资源基础上,充分发掘数据要素潜力,加速创造数据要素价值,已成为推动新质生产力发展,促进数字经济高质量增长的关键任务。


最大化地创造数据价值,涵盖了数据管理、数据处理、数据分析和数据流通等多个方面。就数据价值创造的发展现状来看,我们已经建立起一个完善的三层框架,涵盖数据管理、数据处理和数据分析三个层面。我将这一框架的形成定义为数据价值创造从“0到1”的过程,它为从原始数据中提取价值提供了有效路径。首先,数据管理系统负责对数据进行存储、查询和基本处理,确保数据得到有效管理。然后,数据处理系统应用批处理、流处理、分布式计算和云计算等技术,实现对大规模数据的高效处理。最后,数据分析系统通过机器学习、深度学习等人工智能技术,从处理后的数据中有效地提取数据价值。


回顾数据管理的历史,自20世纪60年代第一个数据库管理系统诞生以来,数据库技术经历了三个重要发展里程碑(见图1)。(1)20世纪70年代,关系型数据库(如Oracle、PostgreSQL)问世,使数据库管理系统首次实现了商业化应用。关系型数据库提供了强大的事务支持,这对构建网上银行、电子商务等关键数字化应用至关重要。(2)随着数据规模的不断增长和数据类型的多样化,传统关系型数据库在可扩展性上的局限性凸显,促使21世纪第一个10年的中后期非关系型数据库(NoSQL)运动的兴起。NoSQL系统(如Apache HBase、MongoDB)专注于提供可扩展的数据管理,但往往牺牲了事务支持,难以满足关键应用的事务处理需求。(3)到21世纪第一个10年末期,NewSQL系统兼顾了NoSQL的可扩展性和关系数据库提供的事务支持,迅速成为主流商业数据库。最近,随着云计算的快速发展,NewSQL逐步向云端迁移,作为云数据库提供大规模数据管理服务。其中TiDB、 OceanBase、PolarDB等一系列代表性NewSQL系统均来自中国。


图1 数据库管理系统发展的三个里程碑


大数据处理系统的发展经历了三个主要阶段(见图2)。(1)21世纪第一个10年,批处理系统(如Google MapReduce、Apache Hadoop)兴起,通过分布式架构实现了对海量数据的大规模并行处理。(2)21世纪10年代,流处理系统(如Apache Storm、Apache Flink)出现,可以对数据持续、实时地进行处理,使实时数据分析成为可能。(3)2015年前后,批处理和流处理逐步融合,形成了批流一体的处理模型。Databricks和Google DataFlow等代表性批流一体系统,可以在同一平台上根据数据特性和需求,灵活地进行批处理和流处理。从批处理到实时处理,再到批流一体系统的演进,展示了数据处理技术逐步满足应用对实时洞察和复杂数据处理需求的发展过程。


图2 大数据处理系统发展的三个主要阶段


人工智能(AI)技术的发展也可以分为三个主要阶段:首先,早期的AI不依赖数据,产生了逻辑推理、符号表示和机器证明等技术。这些技术面临组合爆炸问题,即随着问题规模的增加,复杂性呈指数级增长。随后,基于小规模数据的AI技术兴起,包括统计方法和感知机等。然而,这类技术面临维度灾难问题,即当数据的特征维度非常高时,分析变得异常困难。最终,深度学习成为主流,其发展依赖大量高质量的数据和充足的计算资源。如今,随着数据资源和计算资源不断扩大,深度学习,尤其是大语言模型,得到十分迅速的发展。然而,现有AI技术大多集中于解决特定问题,通常被称为“窄人工智能”(narrow AI)。一些AI研究者已经开始向通用人工智能(AGI)迈进,期望让所有用户都能从AI的强大能力中受益。AGI是一个理论AI研究领域,致力于创建具有人类般智能和自我学习能力的模型,它能够在未经过训练的情况下完成一些任务。AGI的这一转变也被认为是AI发展的长期趋势。


尽管数据驱动的技术发展十分迅猛,但我们仍处于充分创造数据价值的初期阶段。当前,我们主要面临两大挑战:第一,数据价值创造门槛高。要从数据中有效提取价值需要大量资源、技术和专业知识。第二,数据要素流通难。跨系统和不同利益相关方之间实现安全、高效的数据共享与传输仍然存在重大障碍。我认为,有两条关键技术路线可以应对这两个挑战。(1)AI与数据系统的深度融合:通过将AI集成到数据系统中,可以降低数据管理成本,同时提高数据处理效率;(2)安全的数据流通技术:在确保数据安全的前提下,实现高效的数据协作,从而促进跨平台的数据共享。


从1到无穷:数据价值创造新范式


数据价值创造新范式的核心在于构建新型的数据基础设施,具体而言,需要实现数据要素的智能提取、可信溯源以及安全流通。这要求深度整合AI与数据系统,确保数据的完整性和可追溯性,并在数据跨系统和组织流通时保障隐私安全。


数据要素智能提取


实现数据要素智能提取的关键在于打破数据系统与AI系统之间的隔阂。当前,开发AI应用通常涉及两个独立的系统:一个是用于支持业务逻辑的数据系统,另一个是负责模型构建的AI系统。在这种架构下,数据科学家须从数据系统中提取数据,再通过AI系统生成模型,然后进行复杂的分析任务。然而,由于数据系统和AI系统相互隔离,而两个系统之间需要进行频繁交互,这不仅影响了性能和可扩展性,还会将数据暴露在数据系统外,数AlexNet据安全面临风险。


与近来在数据系统之上额外添加AI层不同,我们提出了一种数据系统新范式,即将AI深度集成到数据系统的各个功能和部件中,这将推动新一代数据系统的发展,实现AI与数据系统的深度融合,提升系统性能、可扩展性和安全性。


目前,许多团队都在从事AI和数据系统交叉的相关研究,我们团队在2010年就已正式进入这一领域。2012年,AlexNet在计算机视觉领域取得突破性进展,让我们关注到跨模态数据检索领域。我们也预见到“神经网络”的复兴,正是由于硬件(尤其是GPU)的进步、海量数据的可用性和强大的多层神经网络的出现,网络层数和准确性不断得到提升。2013年,我们在跨模态检索中使用深度学习取得了出色的表现,并于2014年在国际数据库学术会议VLDB上发表了相关论文。然而,在大规模数据集上训练深度学习模型既昂贵又耗时。因此,我们开始关注各种系统,但很少有系统专注于模型训练性能优化。基于上述观察,2014年我们与浙江大学、网易公司共同启动了SINGA的研发工作,目标是创建一个快速的分布式训练系统,用于深度学习模型的训练(SINGA发展过程见图3)。我们的理念是引入数据流、大规模数据处理和分布式架构设计原则,以加速深度学习模型的训练。2015年初,SINGA被Apache开源孵化器接受,成为Apache开源基金会第一个专注于分布式深度学习的项目,该系统的相关论文发表在2015年的国际多媒体会ACM International Conference on Multimedia上。随后,我们在2016年初的SIGMOD Record上发表了一篇论文,讨论深度学习与数据系统深度结合的益处。2015年10月,Apache SINGA v0.1发布,略早于Google TensorFlow等其他知名深度学习系统。随后,我们继续推进其开发,通过构建灵活的训练框架,进一步提升系统易用性。2019年10月,SINGA成为Apache顶级开源项目。经过多年的持续投入,Apache SINGA逐渐成长为一个面向AI的大规模数据分析系统。目前,Apache SINGA已经可以为数据库系统(如PostgreSQL和PolarDB等)提供数据库内的复杂分析扩展功能。2024年,Apache SINGA获得了ACM SIGMOD系统奖(ACM SIGMOD Systems Award,数据管理领域最具影响力的奖项之一)。


图3 面向AI的大规模数据分析系统SINGA


当前,我们团队正致力于研发下一代AI驱动的数据库NeurDB,以进一步深化AI与数据库系统的融合。首先,我们将提供易用且高效的AI驱动的数据分析功能,使用户可直接在NeurDB中处理预测或推荐等任务。其次,NeurDB被设计成一个自驱动的数据库系统,并将借助AI能力完成系统的自治化和智能化,以实现数据库的“自动驾驶”。最后,NeurDB将完全符合数据库的ACID(原子性-一致性-隔离性-持久性,Atomicity-Consistency-Isolation-Durability)标准,即支持可扩展的高性能事务处理。总的来说,我们希望将NeurDB打造成一个通用的AI驱动的数据库系统,广泛应用在医疗、电商、金融等数据密集型产业,帮助企事业单位完成数字化系统的智能化升级,降低开发和运营成本、提升系统效率,增强数据和服务的隐私性和安全性。


数据要素可信溯源


为了实现数据协作,须确保数据要素的可信溯源,用来保证数据的完整性、准确性和透明性。数据要素可信溯源的核心要求是对数据的全生命周期(即数据在各个系统中产生、流转和消费的全过程)进行追踪。区块链和账本数据库是实现数据要素可信溯源的两大主流技术。区块链作为一种去中心化系统,在保障数据安全方面具有优势,但由于依赖拜占庭共识协议,其性能开销较大。公共区块链(如比特币和以太坊)吞吐量有限,每秒仅能处理少量交易。尽管私有区块链在性能上有所提升,但往往难以满足工业应用对高吞吐量的需求。相比之下,账本数据库在提供强大的数据溯源能力的同时,实现了高吞吐量。虽然账本数据库通常由中心化机构管理,在一定程度上牺牲了去中心化,但它非常适合那些对性能和效率要求较高、且不愿牺牲数据可追溯性和完整性的应用场景。


我们团队研发了新型分布式账本数据库系统GlassDB,旨在实现高性能的数据溯源。它采用了优化的可验证数据结构,保证了数据的不可篡改性和提供高效的数据验证能力。作为分布式系统,GlassDB具备良好的可扩展性,并能高效支持事务处理和数据溯源需求。


数据要素安全流通


AI模型的性能通常随着数据量的增加而提升。然而,单一企业或机构拥有的数据量往往不足以支撑高质量模型的训练。进行数据协作,即从多方收集数据,可以显著提高机器学习模型的准确性、提升泛化能力、减少过拟合并增强模型的鲁棒性。然而,由于数据分布在多个企业或机构之间,作为一项宝贵的资产和新型生产要素,它们需要在确保安全不被泄露的同时保证完整性和可信度,这使数据的安全流通愈发重要。


为了应对数据流通过程面临的挑战,我们团队研发了联邦学习系统Falcon,它具备以下核心特性。(1)Falcon基于一种结合了同态加密、安全多方计算和差分隐私等多种隐私保护技术的混合框架构建,可确保数据在协作过程中的隐私得到充分保护。(2)我们设计了低成本的零知识证明技术,用概率完整性检查替代严格验证,大幅降低了证明生成和验证的成本,在确保数据完整性的同时提升了验证效率。(3)我们通过高效的数据并行策略对复杂的加密操作进行并行化处理,提升了模型协作训练和测试的效率。


数据价值创造的新应用


在过去两年里,我们创立了IP8Value,利用技术转化经验以及数据库和AI研究,帮助用户轻松管理其研究成果,在技术转化和创新中取得了成功。我们通过简化和优化知识产权的管理和商业化流程,加速释放知识产权的潜力以创造价值。


IP8Value为高校、研究机构和科技公司提供了一个数字技术经理人,专门用于管理和商业化技术披露书、论文研究和科技专利等最新科技成果。借助先进的管理、分析和营销工具,这位数字技术经理人大大缩短了科技成果市场化的时间成本,促进了合作和创新。现有的知识产权商业化率较低,主要原因在于大多数流程仍然严重依赖人工管理和对接。传统方法耗时长、成本高、劳动密集,包括归档、分析、管理和营销等多个步骤。一个技术经理人通常需要同时管理上百项发明,其中仅有10%有机会被商业化应用,更多的科技成果仍处于“沉睡”状态。此外,考虑到技术对比分析、营销文案撰写、客户需求对接等多个流程,整体商业化流程可能需要超过一年的时间,但是科技成果的价值往往会随着时间迅速衰减。为此,IP8Value提供了一站式知识产权商业化解决方案,支持高效的知识产权管理,提供深度的知识产权分析和智能的营销材料撰写,主动匹配并对接客户需求,从而加速帮助科技成果的商业化。


以下是我们在IP8Value平台上推动数据价值创造的方式:


1. 科技成果智能提取:我们的系统支持对科技成果的快速导入,包含学术论文、技术报告以及科技专利等文件。同时我们自研的基于大模型的数字技术经理人能够快速从这些文档中提取出有价值的见解,从而提供更优质的服务,如生成技术分析报告、撰写营销推文、定制营销策略、对接潜在客户等。这些基于人工智能的服务显著降低了市场营销的时间和成本,帮助技术专业人员更有效地推广和转化其技术。此外,我们基于系统数据信息帮助搭建私有数据库和智能系统帮助台,帮助客户更高效地管理和查询机构科技成果。


2. 科技成果可信管理:所有内容,包括技术披露、专利详情、交易、合同等,都通过区块链或账本数据库安全存储,确保它们的不可篡改性和可追溯性。每一次更新和生成的内容都会被记录,从而实现全面透明并保障数据完整性。此举确保了敏感信息和数据的安全。


3. 科技成果价值共创:我们的平台使高校、研究机构、实验室和企业能够在不公开数据的情况下实现无缝合作。我们提供基于联邦查询的跨组织匹配功能,将高校拥有的技术与工业需求对接,有助于更准确地将技术定位到适合的企业,从而加速转移流程。我们旨在通过保障数据安全和隐私促进企业和高校之间更深入的合作。同时,我们还推动多方数据协作,以激发数据价值创造。通过汇集来自不同高校和行业的技术披露、实验结果和技术转移信息,我们将训练一个综合智能模型,并结合行业趋势和需求分析技术的价值,从而帮助高校和企业聚焦于更高价值的技术,促进尖端技术商业化落地。


总结


数据价值的大小取决于我们如何使用数据。实现最大程度的数据价值创造,必须全面解决数据管理、数据处理、数据分析和数据流通等方面的问题。推动数据系统与人工智能的深度融合,开发具备可追溯性的数据流通技术,以及构建安全的数据协作机制,将成为实现数据价值“从0到1,从1到无穷”的关键。 



黄铭钧(OOI Beng Chin)

CCF会士、海外杰出贡献奖获得者。中国科学院外籍院士,新加坡科学院、工程院院士,新加坡国立大学讲席教授,ACM /IEEE Fellow。主要研究方向为数据库系统、区块链及分布式系统、机器学习和大规模分析。

ooibc@comp.nus.edu.sg


翻译&整理:


赵展浩

CCF专业会员。新加坡国立大学博士后研究员。主要研究方向为数据库系统。

zhanhao@nus.edu.sg


谢钟乐

CCF专业会员。浙江大学区块链与数据安全全国重点实验室研究员。

xiezl@zju.edu.cn  


扫码观看报告视频

https://dl.ccf.org.cn/video/videoDetail.html?id=7227251883231232



CCF推荐

【精品文章】





点击“阅读原文”,加入CCF。

点我访问原文链接