深圳计算科学研究院采用“理论+工程”双轨模式,借鉴贝尔实验室的研发范式,构建了全自研的崖山数据库系统,有效应对了AI时代的数据管理挑战。崖山数据库已在金融、能源、政务等关键领域核心系统落地应用,为AI时代提供了自主可控的核心数据底座。
1970年埃德加·弗兰克·科德(Edgar Frank Codd,1981年图灵奖获得者)提出关系模型,催生了以数据库事务的四大特性ACID,即原子性(atomicity)、一致性(consistency)、隔离性(isolation)、持久性(durability)和SQL语言为标志的Oracle经典系统;2009年MongoDB凭借文档模型的灵活性,在互联网海量非结构化数据处理中占据一席之地;2012年Snowflake公司开创云原生架构,用存算分离和弹性扩展重新定义大数据分析。近期,OpenAI收购了数据库系统RockSet,旨在令数据库系统与人工智能(artificial intelligence, AI)应用匹配。当生成式AI每天创造数十亿文本、图像、代码时,这场数据基础设施的深层变革将决定未来AI产业“天花板”的高度。
数据是人工智能赖以学习和进化的“核心资源”,AI系统通过分析海量数据中的规律模式,逐步掌握识别图像、理解语言、决策判断等能力。例如,人脸识别技术需要数百万张标注照片训练模型区分五官特征;ChatGPT这类大模型更是“消化”了万亿级文本数据才具备对话能力。数据的丰富度决定了AI的智能上限——更多元、更高质量的数据能让AI更精准、更全面。另一方面,数据处理性能也直接影响AI模型训练推理效率和算力的发挥。数据处理速度若跟不上计算核心,会造成训练周期延长、浪费算力资源。在AI推理场景中,数据采集、预处理的延迟更会成为响应瓶颈。因此,优化数据处理流程、确保其与计算硬件的速度和带宽匹配,是提升算力利用率、控制整体成本并加速AI落地的核心环节。此外,数据还承载着人类社会的价值标准,比如公平性、安全性等,确保AI发展不偏离正轨。
在人工智能生成内容(artificial intelligence generated content, AIGC)发展三要素“算力、算法、数据”中,优质数据的获取、处理与管理能力正成为AI应用落地成效的核心变量,也为数据管理带来新的需求和挑战。
AI产业化进程对传统大数据的体量(volume)、速度(velocity)、多样性(variety)以及数据安全提出了更高要求,这些挑战被赋予了全新的战略意义,共同构成了当前AI落地中亟待突破的现实壁垒。
数据爆发式增长
国际互联网数据中心(Internet Data Center, IDC)预测显示,2023年每秒产生4.2 PB的数据,这一数字在2028年将增长至12.5 PB。且到2028年全球数据总量将增长至393.8 ZB,相比于2018年增长9.8倍。2024—2028年5年间生成的数据量将至少是过去10年生成的数据总量的2.2倍,其中超过80%的数据都是处理难度较大的非结构化数据,如文档、图像、语音、视频等,这不仅导致存储成本激增,在转变为高维向量后更会带来计算复杂度的飙升。在此背景下,开发更高效的数据存储与计算架构以及先进的索引技术显得尤为重要。其中,优化存储效率和加速相似性计算将是应对超大规模数据集处理的关键技术策略。
数据实时变化
随着数据的快速更新和知识的频繁变更,金融、制造、医疗等多个领域均须关注智能数据的即时更新问题,这也对人工智能大模型提出了“既要博古通今,又要瞬息万变”的双重要求。如何应对知识实时更新已成为人工智能大模型的核心需求,例如OpenAI需要将外部知识库中的信息注入大模型,以解决大模型高效实时更新问题,而通过重新训练实现更新知识信息不可避免存在显著的滞后性,并且成本巨大。向量数据快速增长与实时变化对数据库系统的扩展能力、性能维护、资源利用等方面提出严峻挑战。
多模态数据的语义鸿沟
当文档、语音、图像、传感器等多模态数据共存于同一系统时,如何让AI理解它们之间的关联?这其实十分考验数据库对多模态数据的语义贯通与深度整合能力。当前技术瓶颈主要体现在两方面:一是现有研究聚焦于多模态表征对齐,如:对比语言?图像预训练(contrastive language-image pre-training, CLIP),由于缺乏统一的底层数据管理框架,仍难以解决语义割裂的问题;二是随着多模态数据的规模性与复杂性增长,进一步导致扩展效率下降,毫秒级响应能力更是一大挑战。传统数据库在语义对齐、扩展性及实时性方面的能力有限,亟须构建支持多模态统一管理和低延迟跨模查询系统。
数据安全的隐私困境
大模型训练往往需要喂入海量原始数据,但这也意味着敏感信息(如客户隐私、商业机密)存在泄露风险。尽管私有化部署能暂时缓解矛盾,但随着模型逐步走向公共应用,如何在开放环境中实现“数据可用不可见”仍是悬而未决的问题。此外,对于一些特殊数据,如监控数据,需要即时脱敏与权限控制,而传统批处理加密延迟高,无法满足实时性要求,亟须适配多模态特性且安全合规的数据管理系统,全方位保障数据安全。
随着AI新应用场景的涌现,基于传统计算模式开发的产品面临算力调度效率低下、跨模态数据处理割裂、海量非结构化数据管理成本激增等瓶颈,难以应对AI时代庞大的计算体量、解决计算复杂性等问题。面对这些难题该如何破局?
回顾数据管理技术的发展,其始终遵循这样的一条规律:由原创理论方法驱动产业技术革新。1970年,埃德加·弗兰克·科德提出数据关系模型,为关系数据库提供了理论基础;1976年,詹姆斯·尼古拉·格雷(James Nicholas Gray,1998年图灵奖获得者)提出共享数据库的一致性和锁的粒度,保障了数据库系统并发处理正确性,以理论为基石带动产业快速发展,催生了如Oracle、IBM DB2等业界领先的关系型数据库;如今到了AI时代,亟须新的理论突破进一步推动以数据为中心的新型数据管理技术发展。
这种“理论先行—技术突破—工程落地”的演进路径,在深圳计算科学研究院(以下简称深算院)的发展历程中得到了诠释。深算院长期致力于探索数据科学的前沿领域,研究工作不仅解决当前的实际问题,更注重于未来发展的基础理论研究。经过6年的深入研究与不懈努力,深算院开创了数据科学的系列理论方法,攻克了数据库核心技术的系列难题,为构建下一代基础数据软件系统奠定了坚实的基础。
“理论+技术+工程”的创新机制正在重塑中国基础软件的发展路径,然而,这一过程所面临的挑战显而易见。据行业统计,当前理论到产业的落地率不足10%,理论落地一直是一个业界难题。为打破一直以来存在的理论研究与工程转化之间的鸿沟,深算院借鉴贝尔实验室模式,设立了专门的基础研究团队与工程团队,将基础研究转化为有竞争力的商业产品。
在基础研究方面,深算院汇聚了全球顶级青年科学家团队,专注大数据领域的原始创新探索,不追随热点,而是发现新挑战或是给出经典问题的新思路,引领一个研究方向并持续突破。这些新思路刚开始可能只是一个猜想,但是经过大胆求证、深入研究以后,将会为未来技术奠定基础,甚至开辟出新的赛道。自2019年揭牌至今,深算院围绕大数据领域,发表了120篇论文,其中超过110篇发表在中国计算机学会(China Computer Federation, CCF)推荐的A类国际学术会议或期刊上。樊文飞院士提出的受限资源计算、多核并行计算、增量算法自动推导及跨模融合计算理论,历经多年的深入研究,获得国际学术界广泛认可,成为新一代基础软件系统的理论基石。更值得一提的是,这些研究成果不只是停留在论文层面,而是直接解决工业界在工程实施过程中遇到的问题,目前超过60%的研究成果已经在系统中实现应用。
在工程方面,作为一个“具备产品能力的基础研究机构”,深算院拥有可与硅谷相媲美的大数据系统工程团队,团队中包括数十位具备二十余年经验的数据库内核专家,具备从产品定义、代码实现到质量保障端到端的工程实现能力。如何将学术研究转化为产品呢?这实际上正是贝尔实验室的一个发展模式:通过原型设计论证学术课题的可行性,再进行系统性工程实现,之后再到市场中做具体场景的验证,当然市场也会给予“反馈”,帮助不断地完善理论、迭代产品。
深算院秉承“理论和系统并重”的初衷,目前已开发从理论到工程全自研的崖山数据库系统、采石矶数据质量系统、钓鱼城数据分析系统这3款战略性基础软件系统,并实现落地应用。其中,崖山数据库系统作为面向AI时代设计的核心数据底座,已应用于中国人民银行数字货币研究所底层数据库升级、头部证券公司核心资产估值系统数据库升级、深圳燃气集团核心业务迁移、深圳水务集团“深水云脑”等重点项目。
践行“理论+工程”的双轨研发路径,深算院自研的崖山数据库系统实现了从底层理论到系统工程的全链条基础软件研发。崖山数据库系统从零构建第一行代码,得益于自研的技术路线,不断引入新理论、新算法,开展更多的技术创新以及工程实践,例如,原创性地采用细粒度多版本并发管理机制、自适应异步事务调度方法、原创有界计算理论工程实践等。如图1所示,目前,崖山数据库系统已经在高效处理的数据规模、事务处理吞吐量和高可用能力等维度实现国际性的领先突破。
图1 AI时代数据管理系统新挑战
高并发事务处理性能
在并发事务处理方面,崖山数据库系统研究基于事务代价的运行时调度方法,将事务之间的静态冲突问题建模为基于时间片的多线程调度问题,使得原本冲突的事务在不同线程间并行,有效减少了传统方法的锁等待,并降低了重试成本。例如,事务TX1和TX2都需要访问特定记录,传统基于锁的方法在任一事务执行时对应记录需要加锁保护,导致与其冲突的事务在其他线程并发执行时也需要等待前一事务执行完毕。而运行时调度方式通过预估执行时间确保2个事务在不同线程错峰执行,使得原本冲突的事务在不同线程间可以并行执行,有效减少了传统方法的锁等待,并降低了乐观并发控制(optimistic concurrency control, OCC)重试成本。实验表明,该方法可提高吞吐量137%,最高可达321%;重试次数降低42.5%,最高可降低58.1%。相关技术在由国际计算机学会(Association for Computing Machinery, ACM)数据管理专业委员会(Special Interest Group on Management of Data, SIGMOD)发起的SIGMOD 2023上发布。
另一方面,针对数据库系统普遍使用的Append-only或In-place update行级多版本并发控制(multi-version concurrency control, MVCC)机制导致的空间膨胀严重、垃圾回收开销大、最新版本查询和更新代价大、一致性数据块无法共享等问题,崖山数据库系统结合多核并行计算,设计并实现了In-place update块级MVCC机制,有效提高了数据并发访问性能,并在Redo commit实现自适应异步提交,实现无锁访问,提升了事务处理效率。在Intel?Xeon? Platinum 8358P CPU@2.60 GHz 64核128线程处理器、503 GB内存、NVMe SSD 1.8 TB×10磁盘测试环境中,使用数据库国际标准测试模型TPC-C 1000仓数据,在300并发条件下进行内部测试,崖山数据库系统单机关键性能指标?C基准程序下每分钟实际处理的请求数(transactions per minute of TPC-C, tpmC)超过主流商业数据库40%,如图2所示。
图2 单机TPC-C 测试性能对比
数据尺度无关查询突破
针对海量数据复杂查询问题,基于提出的受限资源计算理论,结合崖山数据库系统原生列存向量化执行技术,实现了有限资源下的大数据分析。在16核虚拟机、Intel?Xeon? Gold 5320 CPU @ 2.20 GHz处理器、160 GB内存、SSD磁盘测试环境中,使用数据库国际标准测试模型TPC-H 100 GB数据集进行内部测试,采用双方均16并发查询,与主流商业数据库有关性能进行对比,结果如图3所示。对比结果显示崖山数据库系统针对TPC-H中22条查询语句的整体响应时间为42.74 s,较主流商业数据库的整体响应时间73.406 s快42%。
图3 单机TPC-H测试性能对比
海量数据查询的主要挑战来自数据规模导致的计算复杂度,崖山数据库系统基于提出的受限资源计算理论,将海量数据通过访问约束确定精确小数据集,实现数据尺度无关查询处理。以国内某互联网零售平台为例,其12个月的零售数据达到35亿条记录,约1.6 TB。当需要统计某特定区域内门店的月度销售的同比情况时,使用大数据解决方案Presto以8节点分布式部署仍无法满足性能要求。考虑到特定区域门店数量不超过100家,相对整体9000家门店已大大缩小搜索空间,再结合每个月不超过31天的销售记录,按每天交易记录1000笔计算,这类基于特定区域门店的查询可以在30万(100×31×1000)记录的小数据集上以秒级得到汇总结果,避免了大量无关记录扫描。
当数据量从100 GB增长到1 TB时,相对于实时并发写入场景(每秒写入2000条)下主流商业数据库的查询响应时间增长44倍,而崖山数据库系统的查询响应时间增长未超过1倍。其支撑有界计算理论发布于2014年ACM数据库系统原理会议(ACM SIGMOD Conference on Principles of Database Systems, PODS)、PODS 2015、2014年超大型数据库国际会议(International Conference on Very Large Databases, VLDB)和SIGMOD 2016,并获英国皇家学会Wolfson研究成果奖。
高性能复制与故障切换效率
在系统高可用方面,崖山数据库系统基于自适应并行日志回放及复制无关自动选主等差异化技术,减少了数据复制对于控制消息的同步等待,实现了可灵活配置的高性能复制和故障快速切换,达到了恢复点目标(recovery point objective, RPO)dRPO=0前提下的秒级故障恢复时间(recovery time objective, RTO)。
崖山数据库系统具备基于物理日志的高性能复制方案,并通过日志自适应并行回放大大降低了节点间等待开销。结合Raft算法与仲裁数(quorum)机制的优势,自主实现自动故障选主能力,使其在不影响复制的前提下提供灵活的主节点选举方法,整体在保证dRPO=0前提下,使得故障恢复时间tRTO≤10 s。同时,共享集群部署方式通过快速恢复和透明应用故障切换(transparent application failover, TAF)技术有效保证了服务端的透明接管和客户端的透明切换,使得任意实例的故障不会导致业务中断。
全球数据持续指数增长驱动数据技术将进一步向高效低耗发展。新型高性能数据处理架构、近数处理成为突破大数据处理系统性能瓶颈的重要途径。崖山数据库系统在受限资源计算、高并发事务处理性能等领域的突破,共同构建了其作为AI时代高性能大数据处理的核心基础能力。不仅能高效处理AI驱动的爆炸性数据增长、满足实时数据流转与更新需求、支撑关键AI业务不间断,更通过其强大的性能和可扩展性,为各类AI应用的高效运行和创新迭代提供了强大的底层支撑。
作为数据库的技术制高点,共享集群架构被广泛应用至金融、能源关键行业的A类核心系统。共享集群本身的难度在于它的存储组织会涉及数据的存储、事务处理等,是交易型系统的核心底层机制。如果在开源技术的基础上开发,受限于其架构和技术路线,很难实现共享集群这一形态。实现共享集群,需要对存储等底层机制和核心技术有完全的掌控。
崖山数据库系统在早期进行内核设计时,充分考虑了向高端共享集群形态的演进,其事务管理、MVCC机制等内核技术天然适合共享集群。崖山数据库系统基于自研内核引擎,通过引入自适应异步并行、细粒度多版本并发控制支持高吞吐并发数据读写;通过抽象全局缓存,提供统一、透明的数据快速访问,降低实例间的网络开销,提升访问效率;通过全局资源运行时调度降低多实例间并发冲突,在高端领域提供与国外系统相当的内核性能和高可用性保障。通过设置4台Intel?Xeon? Gold 6338 CPU @ 2.00 GHz 64核128线程处理器、384 GB内存的客户端和4台Intel?Xeon? Gold 6338 CPU @ 2.00GHz 64核128线程处理器、768 GB内存、Lenovo DE6600H 1×10 GB、4×1 TB NVMe SSD共享存储、25GE存储网络的服务器,在TPC-C 3000仓测试场景下进行共享集群TPC-C测试,其测试结果如图4所示。
图4 共享集群TPC-C性能测试数据
聚合内存技术实现跨实例数据缓存的透明并发访问
面向分布式并行计算,崖山数据库系统自研聚合内存(cohensive memory)核心技术,实现了实例间数据缓存的并行传输和透明访问。通过抽象全局缓存服务,对上提供统一、透明的数据缓存访问,对下提供当前版本数据页的传输与失效以及远程一致性读页面的生成与获取。并通过设计data-tx bundle机制,降低了实例间的网络开销,提升了访问效率。如图5所示,聚合内存通过下述关键组件完成全局资源的协同与访问:
图5 聚合内存组件关系
全局资源目录(global resource catalog, GRC) 提供全局资源元数据信息管理、访问能力,并通过全局请求排队机制管理数据块以及锁资源的请求,提供全局资源的并发访问控制。
全局缓存服务(global cache service, GCS) 负责完成数据块在多个实例间的传输与失效,提供强一致的并发访问、修改能力。
全局锁服务(global lock service, GLS) 提供集群下的全局并发控制的锁服务,主要包括数据字典锁、内存锁等。
内部通信服务(inter-connect serivce, ICS) 提供集群内部消息交互服务,是集群内部缓存融合的基础组件。
全局资源运行时调度降低多实例间并发冲突
崖山数据库系统将运行时调度原理扩展到共享集群全局资源运行时调度机制,如图6所示,由多个实例均衡管理全局资源,既保证任一资源元数据在集群内的唯一性,又能最大限度降低多实例间并发热点或冲突。基于事务代价的运行时调度方法,将事务之间的静态冲突问题建模为基于时间片的多线程调度问题,使得原本冲突的事务在不同线程间并行,有效减少了传统方法的锁等待,降低了重试成本。实验表明,方案平均可提高吞吐量137%,最高可达传统方法的321%;重试次数平均降低42.5%,最佳效果可降低58.1%。另一方面,结合多核并行计算,实现了数据页及索引的细粒度MVCC机制,并在Redo commit实现自适应异步提交,无锁访问,提升了事务处理效率。
图6 全局资源分配算法机制
去中心化事务管理实现跨实例并发访问的一致性与可扩展性
针对共享集群采用集中式协调的事务管理机制带来的性能瓶颈问题,崖山数据库系统在保障各实例事务ID的全局唯一性前提下,充分利用各实例本地事务管理能力,设计了去中心化的事务管理机制,其架构如图7所示,使得事务处理能力可随实例数扩展。同时采用基于时间戳的轻量级可见性判断机制(架构如图8所示)以及推拉结合的时间戳同步,有效确保了多实例之间并发访问的事务一致性。其采用的是去中心化的事务设计,特点如下:一是事务无中心节点,各实例事务ID具备全局唯一性,事务本地生命周期管理不受其他实例影响;二是所有实例完全对等,多节点扩展性好;三是通过广播系统变更号(system change number, SCN)以及语句查询同步SCN来实现多节点下的SCN同步,确保多实例间并发访问事务的一致性。
图7 去中心化事务技术架构
图8 基于时间戳的快照技术架构
分布式并行框架和分布式集群技术实现可扩展性突破
分布式并行执行采用统一的执行框架,优化器生成一份逻辑计划,通过优化器与执行器深度配合,选择合适的执行路径和运行时资源调度,包括预占线程资源、内存资源调度、传输窗口调度等。同时,崖山共享集群架构具备天然的在线扩容优势?不需要迁移数据、不侵占业务输入/输出(input/output, I/O)资源、扩容时间短。因为不产生数据迁移,即使业务压力比较大,扩容也不会对业务产生影响;且由于数据文件存储于共享磁阵,所有节点都可以访问数据,因此扩容过程中不会阻塞其他节点的数据访问,整个扩容过程耗时很短,默认Redo、Undo规格的扩容可以秒级完成。基于分布式集群创新架构,使得分布式系统的每个节点扩展为一个共享集群,将分布式并行能力叠加到共享集群之上,实现性能扩展性的突破。
崖山共享集群的技术突破,使其在性能指标、可用性、可靠性全面对标Oracle RAC。基于此,崖山数据库系统提出关键业务系统“1∶1替代方案”,其核心价值在于“三个不变,两个对等,一个更优”:通过Oracle语法兼容、全场景架构适配、自动化迁移工具实现“应用不变、架构不变、运维不变”;以自研内核的性能优化和多活容灾机制保障“性能对等、可用可靠性对等”;凭借全自主代码和内生安全体系达成“安全性更优”。
经40余家金融机构资深技术专家联合验证,崖山数据库系统在核心功能上与Oracle高度兼容,且崖山共享集群具备应对单节点故障、网络故障、关键进程故障、多链路故障等各类复杂故障场景的金融级高可用能力,充分证明其具备金融核心场景下1∶1替代能力。
崖山数据库系统已在金融、能源、政务等关键领域多个核心系统实际应用?在央行数研所关键系统成功投产,上线当天30 min完成数据库切换,系统资源使用比原系统降低50%;在某城商行客户关系管理(customer relationship management, CRM)系统替换升级中替换原Oracle数据库,3周内完成平滑迁移,兼容性达99%,支持4000+SQL对象和9.3万行存储过程;在某大型证券资产估值系统应用中,实现SQL语句100%兼容且应用代码零修改,达到tRTO<10 s、dRPO=0的金融级高可用,将1000只产品估值时间从24 min缩短至54 s,性能提升20倍,总体成本降低66%;在深圳燃气集团的国产化升级改造中,通过对Oracle系统的全栈式替代,实现业务系统性能6~7倍跃升,关键业务查询响应速度从30 s级压缩至百毫秒级,整体项目成本仅为国外方案的1/6,为智慧燃气服务体系建设提供了高性价比的技术实践范本;在深圳环境水务集团线上服务平台升级上线过程中,攻克国产信创多样性的软硬件环境下兼容适配和优化的技术难点,仅用8 h实现对Oracle的平滑完整替换及功能验证,实现查询性能提升40%以上、系统资源利用率减少50%,助力350万用户“智慧用水”。
崖山数据库系统提出关键业务系统“1∶1替代”的这一路径,相较于应用系统重构,为传统核心系统提供了更经济、更普适的规模化替代方案。更重要的是,这也为AI时代的数据库范式重构预留了技术弹性——保持平稳替换的前提下,在业务层面实现更高的性价比,进而释放业务创新价值。
面向新场景、新技术,深算院也在积极布局,将从基础设施层打破多模态数据壁垒,上层用户无须关心底层复杂的技术实现,仅须通过自然语言交互,就能轻松获得精准的数据服务。其首创的原创受限资源计算、跨模计算、近似计算及向量与关系混合查询等理论,在面向海量数据处理、异构混合查询等不同场景时具备领先优势,成为AI时代的核心“根技术”。
基于受限资源计算与近似计算,崖山数据库系统支持与数据尺度无关的查询方法,具有应对超大规模数据集支持向量数据检索能力,保证确定性误差精度。随着全球数据持续指数级增长,非结构化数据占比激增,导致存储成本飙升与计算复杂度剧增,而数据计算需求的增长速度远超算力供给能力,两者形成显著的“剪刀差”,这要求信息技术体系加速从“以计算为中心”向“以数据为中心”转型。面对这一严峻挑战,当前向量数据库可以提供高效的存储与检索,目前常用的向量搜索库包括FAISS和Annoy,同时一些索引结构如HNSW、ACORN、NHQ等相继被提出,但都难以兼顾性能和准确性。对于数据规模问题,崖山数据库系统基于受限资源计算理论的数据尺度无关查询,有效解决了关系数据的大数据规模挑战,已在电信详单管理和北美航空记录分析2个真实场景中完成验证,最大加速效果是不采用受限资源计算方法的10万倍以上。延伸到智能时代海量向量数据,崖山数据库系统提供海量向量数据统一管理框架,面向人工智能应用的关系向量混合查询加速方法,提出一种具有理论精度保证的索引方案,支持带有关系属性过滤的向量相似性搜索,实现查询性能与数据维度和规模的解耦。通过引入近似计算技术,在提升查询效率的同时,确保理论上的确定性近似界保证。
基于语义连接(semantic join),崖山数据库系统支持多模态异构数据的SQL跨模计算。当前海量跨模态数据已成为通用人工智能发展的重要基础,其管理与查询性能直接决定了大模型训练、推理和生成的效率。可以看到,随着AI发展不断深入,数据管理与处理技术架构正从传统单域模式向跨空间域、管辖域和信任域演进,大数据分析也从单模态转向多模态融合。面向AI模型的数据组织、汇聚与整理技术,成为“数据出智能”的关键支撑,大数据与深度学习相互促进、数据先行、数智共生的格局正加速形成。融合一体化存储、访问与互操作的数据管理技术,实现数据管理、处理与分析深度耦合,构建统一的数据组织模式与标准化操作访问协议,是未来数据管理技术架构的演进目标。因此,研发多源异构数据融合框架,支持文本、图像、视频、传感器等跨模态数据的实时对齐与联合建模,实现非结构化数据与结构化数据的深度关联是当前重点的技术突破方向。传统数据库在语义对齐、扩展性及实时性方面的能力有限,亟须构建支持多模态统一管理和低延迟跨模查询系统。跨模融合计算旨在解决同一实体利用不同模态数据实现联合计算的问题,通过基于数据内在结构的关联分析模型,实现多模态语义理解与对齐,并借助跨领域知识理解的自适应推理方法,完成跨领域数据的知识共享与迁移,最终实现跨领域、多态、异构数据的融合。崖山数据库系统验证了在SQL中融合关系数据与图数据的方法,将关系表中元组与图数据中节点对应,进一步突破跨模数据链接计算模型算法,在保证数据一致性的统一框架下,实现多模语义级的关联与一致。同时,以关系模型为基准,崖山数据库系统通过拓展传统SQL构建统一的查询语言,进行关系数据和图数据的统一查询。深算院于2023年数据工程国际会议(International Conference on Data Engineering, ICDE)上发布了相关理论研究成果。
基于自动增量化方法,崖山数据库系统支持并发事务处理、实时数据更新及查询,应对大数据实时计算挑战。增量计算主要用于解决海量数据分析及大数据动态性下的实时数据分析。对于海量数据分析场景,当前技术方向以面向在线分析处理(online analytical processing, OLAP)海量数据分析的列存向量化执行技术为主,是提升查询性能的前沿技术。深算院自研并发事务处理技术,将事务之间的静态冲突问题建模为基于时间片的多线程事务调度问题。深算院还提出增量算法自动推导理论,当数据或模型变化时,系统自动识别变更,并自动推导出只对受影响部分进行更新的算法,从而高效实现局部重计算,避免全量重构,相关成果也于SIGMOD发布。深算院还将进一步探索可扩展的实时数据更新及查询技术,兼顾更新/查询效率与数据的实时性;面向多核计算架构,研究冲突事务的时间片调度策略,有效降低锁等待和OCC重试成本,开发多核高并发事务处理系统。
面向多源数据的轻量化隐私增强技术。传统的信息系统安全防护技术和理念不再适配数据流通利用场景,急需从理念、架构上取得突破。以隐私保护计算为代表的新型数据安全技术将得到大范围部署,在基础性和应用性方面的研究均需要实现技术突破。如前文所述,AI大模型训练依赖海量原始数据,但这也带来了客户隐私与商业机密泄露的极高风险。传统单模态安全方案(如静态加密、基于角色的访问控制)难以适配多模态特性,多模态数据安全管理存在以下难点:一是模态差异,视频/文本需差异化加密(视频流实时脱敏/文本语义隐私保护),且跨模态关联可能暴露隐私(如通过知识图谱反推匿名化数据);二是具有合规复杂性,需同时满足《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》《通用数据保护条例》《健康保险携带和责任法案》等多区域法规,但跨模态数据溯源追踪困难,审计成本高;三是新兴技术风险较高,跨模态检索可能引入隐蔽泄露(如模型逆向攻击提取训练数据)。为了解决以上挑战,深算院提出多模态安全架构,包括分层加密策略和动态访问控制;支持可信执行环境的隐私保护跨模态计算,包括同态加密优化和自适应数据脱敏的轻量化隐私增强技术。针对数据中存在的个人身份信息、财务数据、健康记录、知识产权等敏感信息,通过规模化的敏感数据自动检测和分类分级管理技术,实现不同环境下各类敏感数据的精准识别、多种现行分类分级标准的映射互通;通过面向复杂场景的多模态数据多轮交换下脱敏控制技术,在保护频繁流转隐私信息的同时最大程度保留数据的统计特性与使用价值。针对数据的高效流动和价值释放与数据安全和隐私保护之间难以动态平衡的问题,从底层密码学技术、硬件加速网络拓扑优化、互联互通协议等方面突破核心瓶颈问题,大幅提升安全多方计算、同态加密、联邦学习、可信执行环境等主流隐私保护计算效率。
崖山数据库系统已具备混合事务/分析处理(hybrid transactional/analytical processing,HTAP)混合负载及结构化、半结构化、非结构化数据统一存储能力,支持轻量级的关系型和图数据跨模查询,在下一版本也将实现关系型与向量数据的高效混合查询。未来,将持续探索多模数据融合管理技术,打通数据孤岛;通过AI解析数据表结构、业务字段描述等信息,研究多模态数据差异化加密,设计多源数据安全架构及轻量化隐私增强等技术,构建数据库驱动人工智能(database for AI, DB4AI)核心能力。
崖山数据库系统的崛起,是中国基础软件突围国际垄断的缩影。从全自研的技术攻坚到共享集群的高端替代,再到AI时代的范式重构,深算院以“破局者”的姿态走出了一条差异化的自主创新之路。这不仅意味着国产数据库技术实力的跃升,更彰显了中国企业打破技术封锁、掌控技术主动权的底气。深算院“贝尔实验室”模式的实践,也为产学研协同创新提供了范本?唯有以理论突破驱动技术创新,以工程化能力夯实产业基础,才能实现从“跟跑”到“领跑”的跨越。
陈志标
深圳计算科学研究院首席技术官及崖山数据库系统YashanDB负责人。主要研究方向为数据库内核技术研发与管理。
chenzhibiao@sics.ac.cn
欧伟杰
CCF专业会员。深圳计算科学研究院崖山数据库系统YashanDB技术总监。主要研究方向为分布式优化和计算技术。
ouweijie@sics.ac.cn
孟凡彬
深圳计算科学研究院崖山数据库YashanDB集群首席架构师。主要研究方向为数据库事务、存储、集群技术。
mengfanbin@sics.ac.cn
其他作者:李伟超、王思涵
本文发表于2025年第7期《计算》。
点击“阅读原文”,加入CCF。
