首页 > 最新动态 > 联手数据库专业委员会:“神经符号数据库”术语发布 | CCF术语快线
最新动态
联手数据库专业委员会:“神经符号数据库”术语发布 | CCF术语快线
2025-02-2811

收录于话题

#CCF术语快线

 



本期发布术语新词:神经符号数据库(Neural-Symbolic Database)(nsDB)。



神经符号数据库(Neural-Symbolic Database)

作者:袁野  北京理工大学



开篇导语

神经符号数据库(Neural-Symbolic Database)是北京理工大学袁野教授团队于2023年提出的一个新概念。该数据库架构包含三个层次:表达层、计算层和存储层。表达层负责自动解析用户输入的多模指令,将复杂的多模态推理任务拆解为多个可执行的子任务;计算层通过调度异构计算资源(如CPU、GPU和TPU),实现神经计算与符号推理的深度融合;存储层则管理多模态数据与思维数据确保数据的一体化存储,并支持基于AI模型的交互更新。如今,高质量数据资源日益枯竭、算力成本日趋高涨,通过“堆数据、堆算力”的大模型Scaling Law面临瓶颈。神经符号数据库结合了擅长感知任务的神经系统和擅长推理任务的符号系统,是一类双系统数据库,能够高效支撑复杂的AI任务,如多模态逻辑推理和复杂场景智能规划。当前,DeepSeek-R1和OpenAI Deep Research等领先的推理模型均遵循神经符号双系统架构,展示了神经符号系统在推动通用认知智能演进方面的重要作用。



InfoBox:

中文名:神经符号数据库

外文名:Neural-Symbolic Database

学科:人工智能,数据库

实质:通过管理多模和思维数据,高效支撑双系统AI训练和推理的数据库系统


研究背景:

语言大模型(如ChatGPT)引领了自然语言处理的革命;多模态大模型(如GPT-4o)在文字、图像、语音、视频等多模态数据上展现了卓越的跨模态处理能力。然而,大模型的Scaling Law面临着高质量数据资源日益枯竭、算力成本日益增高的问题,想要继续通过“堆数据、堆算力”的方式取得提升已十分困难。推动人工智能的下一步突破,亟需开创具备更强感知与推理能力的新范式,以更高效的方式利用有限的数据和算力资源。神经符号系统结合神经系统的强大感知能力与符号系统的深度推理优势,正好满足人工智能新范式的需求。深度求索的DeepSeek-R1模型符合神经符号双系统范式,在深度推理任务取得卓越性能,通过异构计算架构优化、推理算法加速,开辟了高性能低成本的创新路径。同时,OpenAI的Deep Research通过整合多源数据和在线信息进行多步搜索和推理,支持完成复杂多阶段任务,推动通用认知智能的演进方向。图1展示了神经系统与符号系统的融合过程,包括多模态数据以及详细推理的思维数据,分别用于支撑大模型的感知训练和推理能力提升。通过思维数据实现多模态大模型与推理大模型的互相强化,并实现两类数据的交互更新。以DeepSeek-R1为例,图中的推理大模型就是符号系统的深度网络化实现。从多模态复杂推理问题出发,将其分解为一系列感知任务和推理任务的组合;这种组合任务需要通过两类大模型实现神经感知与符号推理的融合计算;而多模态数据和思维数据的存储与管理为融合计算提供必要支撑。神经符号系统这一表达、计算、存储的三个层次正好对应数据库的经典三层架构。因此,结合神经系统和符号系统各自优势、提供多模态数据一体化管理、神经与符号混合推理的数据库称为神经符号数据库(Neural-Symbolic Database),是支撑下一代人工智能发展的数据库新范式。


图1:新一代人工智能需要神经计算和符号推理的融合


另一方面,数据库技术历经从结构化数据管理到适配互联网的大数据处理,再到对机器学习支持的长期演进,逐步满足复杂应用需求。然而,随着数据分析复杂化和深度学习的快速发展,现有系统难以高效处理多模态数据和混合计算任务。如疾病辅助诊断、AI对科学研究的赋能,要求融合结构化、半结构化和非结构化数据,同时支持深度模型推理与符号推理的协同。为应对从单模态处理向全模态融合、从独立计算向神经与符号混合计算转型的需求,亟需研发能够高效管理异构数据并支持多类型计算的新一代数据库。神经符号数据库的提出,正是满足了这一需求,支撑既需强感知又需强认知的复杂任务,如多模态逻辑推理、案件要素识别、复杂情境下智能规划等。例如,在情报推理任务中,给定一张照片需确定其拍摄的真实位置。利用神经符号数据库,情报人员首先使用若干神经网络模型解析图像中关键信息,如天气、建筑、光照、植物等;然后以这些信息为条件去查询对应数据库,得到更详细的信息,如具体航班、纬度信息等;根据这些信息,采用逻辑推理和规则进一步地进行筛选,缩小备选范围确定所在城市;最后,对城市的3D数据进行AI分析,定位到该照片的精确位置。为完成这类强感知强认知任务,Deep Research通过链式推理动态拆解任务、整合多模态数据,并在自主调整中生成可验证输出,探索性呈现了神经感知与符号推理的结合。


基本简介:

神经符号数据库(Neural-Symbolic Database)由袁野教授团队于2023年中国计算机大会上提出。如图2所示,神经符号数据库包含表达层、计算层、存储层三个层次:表达层自动解析用户输入的多模指令;计算层以互动增强的模式完成神经计算和推理;存储层的多模态数据与思维数据为神经计算与符号推理提供支撑。具体而言,在表达层,神经符号数据库自适应地对指令进行解析,将复杂的多模态推理任务拆解为多个子任务并制定最优的感知、推理任务执行计划;在计算层,通过多种类型的神经或符号算子,按需调度异构计算资源(CPU、GPU和TPU等)并适配神经或符号算子,实现感知任务和推理任务的互动增强;在存储层,通过语义关联多模态数据与思维数据,确保数据的一体化存储,并支持基于AI模型的交叉更新。最终,实现神经符号数据库对于高感知、强推理复杂任务的支撑。


图2:神经符号数据库的三层架构


研究概况: 

自2000年起,人工智能与数据管理系统的结合成为研究热点,如将人工智能模型表示为UDF将其转化为SQL查询,以及构建以人工智能为核心的数据库等。然而,神经网络与符号模型难以融合计算,是阻碍数据库与人工智能模型深度整合的主要瓶颈[2]。近期,对思维数据的整合带来了大模型在复杂推理任务上的突破,促进了神经计算与符号推理的融合,包括基于思维数据的搜索强化[3]、自优化训练[4]、推理数据生成[5]等。DeepSeek-R1[6]基于高质量推理数据集构建,融合多阶段强化学习策略,显著优化复杂场景的认知推理效能;PRIME[7]通过思维隐式反馈建模与在线奖励动态更新机制,实现推理质量追踪与奖励欺骗预防的双重保障;Deep Research[8]借助思维数据增强知识覆盖度、语义理解深度及推理路径扩展性,推动多阶段推理能力突破。这些研究成果展示了神经符号数据库对大模型训练的关键支撑作用,可使模型获得更全面的思维模式和更强大的推理能力。


袁野教授团队在CCF-A类国际会议PVLDB 2024[1]上发表的关于神经符号数据库的愿景论文首次公开探讨,如何针对复杂多模态任务需求,构建一体数据存储、高效混合计算和均衡异构调度的数据管理平台。神经符号数据库由五大关键系统模块组成[1](见图3):用户界面、模型管理器、查询优化器、执行引擎和存储引擎。用户界面接收自然语言、图片和视频的输入,通过AI赋能的方式将任务分解为若干神经模型、SQL、SPARQL语言的组合;模型管理器提供大量神经模型,同时负责模型元数据管理以及模型训练、微调;查询优化器通过使用神经算子、模型元数据以及数据库的符号算子生成多模态任务的执行图;执行引擎按执行图采用异构调度策略按需地将算子分配到异构硬件执行,执行过程中访问存储引擎中的数据返回最终的计算结果。


图3:神经符号数据库系统功能模块划分(来自文献 [1])


未来展望:

神经符号数据库作为高效支撑双系统AI(神经和符号系统)训练和推理的下一代数据库系统,实现多模态数据与思维数据的一体化管理,并深度融合神经计算与符号推理。但仍面临诸多研究挑战,包括用户交互的挑战:如何将自然语言描述的多样任务等价地拆解为神经和符号任务的组合;系统架构的挑战:如何搭建适配的系统架构以满足多模存储、异构计算与智能调度的需求;数据管理的挑战:如何实现多模、思维数据基于AI模型的交叉更新与一体化存储。


随着神经符号数据库研究的不断推进和关键问题解决,有望为诸多领域提供高效、精准的支持:能够在大数据领域实现多模异构数据的高效关联,推动从原始感知数据到逻辑推理决策的全流程提炼;能够处理化学、物理等自然科学领域的复杂数据和知识发现,从而发现客观机理;能够为长视频内容的分析、检索和理解提供全新的解决方案;能够构建关于案情的人-事-物-时-地的逻辑关系,为刑侦人员提供决策;能够实现大模型和知识图谱的深度融合,支持神经生成与符号推理的实时协同优化。


参考文献

[1] Yuan, Y., Tang, B., Zhou, T., Zhang, Z., and Qin, J. nsDB: Architecting the Next Generation Database by Integrating Neural and Symbolic Systems. Proceedings of the VLDB Endowment, 2024, 17(11): 3283-3289.

[2] Yu D, Yang B, Liu D, et al. A survey on neural-symbolic learning systems. Neural Networks, 2023, 105-126.

[3] Wang, J., et al. OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models. arXiv preprint arXiv:2410.09671, 2024.

[4] Singh A, Co-Reyes J D, Agarwal R, et al. Beyond human data: Scaling self-training for problem-solving with language model. arXiv preprint arXiv:2312.06585, 2023.

[5] Li, Z., et al. Neuro-Symbolic Data Generation for Math Reasoning. Advances in Neural Information Processing Systems, 2024.

[6] Guo D, Yang D, Zhang H, et al. Deepseek-R1: Incentivizing reasoning capability in LLM via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[7] Cui G, Yuan L, Wang Z, et al. Process Reinforcement through Implicit Rewards. arXiv preprint arXiv:2502.01456, 2025.

[8] OpenAI. Introducing Deep Research. OpenAI, 2024. https://openai.com/index/introducing-deep-research/


作者介绍

北京理工大学

袁野

北京理工大学基础科研院院长,教授、博士生导师、国家杰青和优青基金获得者。主要研究方向为大数据管理与分析。

联系邮箱:yuan-ye@bit.edu.cn


计算机术语审定委员会及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。


计算机术语审定工作委员会:

主任:

李国良(清华大学)

副主任:

王昊奋(同济大学)

林俊宇(复旦大学)

主任助理:

李一斌(上海海乂知信息科技有限公司)

执行委员:

丁   军(上海海乂知信息科技有限公司)

兰艳艳(清华大学)

张伟男(哈尔滨工业大学)

彭   鑫(复旦大学)

李博涵(南京航空航天大学)

委员:

柴成亮(北京理工大学)

李晨亮(武汉大学)

张   鹏(天津大学)

王昌栋(中山大学)

张宁豫(浙江大学)

孔祥杰(浙江工业大学)

魏   巍(华中科技大学)


术语投稿热线:ccfpedia@ccf.org.cn




点击“阅读原文”,加入CCF。

点我访问原文链接