向量数据库——赋能AI的智能数据基石 | ChinaData_最新动态

首页 > 最新动态 > 向量数据库——赋能AI的智能数据基石 | ChinaData

最新动态

向量数据库——赋能AI的智能数据基石 | ChinaData

2025-11-28253

论坛简介：

【论坛涵盖的内容亮点及讨论的话题】

在大模型和生成式AI驱动的时代，向量数据库成为不可或缺的基础组件，向量数据库通过将非结构化数据转化为高维向量，并利用相似性搜索技术，实现了基于语义和相关性的智能检索。当前向量数据库发展仍面临多重挑战：高维数据检索的精度与效率难以平衡，万亿级向量场景下成本居高不下；混合查询中结构化属性与向量特征的协同优化技术尚不成熟；数据隐私保护与检索性能的矛盾突出。本论坛围绕向量数据库的关键要素展开讨论，探索核心算法、AI生态融合、工程实践、应用场景等多个技术领域的趋势和最新进展，提供学术和技术交流平台，促进产学研合作创新。论坛邀请近年来具有代表性成果的杰出学者和头部企业技术负责人进行分享，共同促向量数据库领域的发展和进步。

论坛安排

顺序	主题	主讲嘉宾	单位
1	向量数据库赋能大模型：进展与展望	高云君	浙江大学
2	面向大模型的向量数据管理技术	童咏昕	北京航空航天大学
3	AlayaDB: 大模型时代的数字基座	唐博	南方科技大学
4	多模态数据的统一融合检索技术	罗兆经	北京理工大学
5	向量数据库性能优化：内存、磁盘、分布式以及模型推理	晏潇	武汉大学
6	OceanBase seekdb：开源AI原生混合搜索数据库	徐泉清	蚂蚁集团

论坛主席

江佳伟

武汉大学教授

简介：江佳伟，武汉大学计算机学院教授、博士生导师，入选国家海外青年人才计划。共发表CCF A类论文50余篇，申请发明专利20余项；获得CCF优博、ACM中国新星提名等荣誉奖励；主持国家重点研发计划课题、国家自科基金面上项目、湖北省重点研发专项、CCF-蚂蚁科研基金等项目。

论坛共同主席

徐泉清

CCF杰出会员，蚂蚁集团研究员

简介：徐泉清，北京大学计算机系博士毕业、正高级工程师、蚂蚁技术研究院数据库实验室研究员、OceanBase技术总监，目前从事OceanBase分布式数据库前沿技术研究工作，浙江省省级海外高层次人才、杭州市全球引才“521”计划高层次人才，研究领域包括分布式数据管理、云数据管理等。先后在国际学术期刊和会议发表120多篇学术论文，提交、授权专利130多件，担任VLDB、ICDE等多个国际学术会议的程序委员会委员。

论坛讲者

高云君

浙江大学教授

简介：浙江大学求是特聘教授，博士生导师，国家杰出青年科学基金获得者（2020）、国家优秀青年科学基金获得者（2015）。研究方向为数据库、大数据管理与分析、DB与AI融合，已发表CCF A类论文180余篇，出版专著或教材6本，授权专利40余件，登记软著10余项，并获CCF A类论文VLDB、ICDE最佳或优秀论文等7次，省部级或全国性学会科技进步特等或一等奖3项。现为ACM SIGSPATIAL中国分会副主席，全省大数据智能计算重点实验室主任，浙江大学软件学院常务副院长。

报告题目：向量数据库赋能大模型：进展与展望

报告摘要：针对大模型的“幻觉”问题，现有的大模型系统通过检索增强手段引入外部知识，而外部知识又往往蕴含在多源异构大数据中，统一管理困难，亟需构建外部知识统一管理的基础设施。实现外部知识统一管理的有效途径是利用向量数据库对多源异构数据进行统一的向量化管理。本报告首先围绕向量数据的获取、存储、查询等介绍向量数据管理，并汇报报告人负责团队在这方面的探索；其次面向文本数据、单细胞RNA数据、多模态数据等展示向量数据管理赋能大模型推理，并汇报报告人负责团队在这方面的进展；最后展望可能的发展方向。

童咏昕

北京航空航天大学教授

简介：童咏昕，北京航空航天大学计算机学院教授，博士生导师，国家杰青、优青基金获得者。主要研究方向包括：联邦学习、大模型的数据基座、向量数据库系统、时空大数据挖掘与智能体等。近年先后主持国家自然基金杰青项目、优青项目、重点项目、国家重点研发计划课题等。共发表学术论文百余篇，谷歌学术引用1.6万余次。曾获国际基础科学大会前沿科学奖、ACM KDD China青年科学家奖和多个国际一流学术会议/竞赛的最佳论文与冠军等奖励。

报告题目：面向大模型的向量数据管理技术

报告摘要：随着大模型技术的飞速发展，如何有效地存储、查询和管理大模型中的高维向量数据已成为大模型的重要挑战之一。向量数据库在大模型训练和推理两个阶段均发挥关键作用：在训练阶段，支持训练数据的选取与配比，提升训练数据管理效率；在推理阶段，则用于引入外部知识，并支持长上下文管理，增强模型回答的准确性。本报告首先回顾向量数据管理技术的发展脉络，介绍向量数据库在大模型训练与推理中的核心应用。随后，结合产业需求与本团队的最新研究成果，重点展示向量检索的前沿技术进展，包括向量与关系型数据的混合查询、面向跨域知识源的联邦向量查询等关键方向。最后将介绍相关技术的应用示范，并对未来发展趋势进行展望。

唐博

南方科技大学研究员

简介：唐博，南方科技大学研究员，博士生导师，国家优青。研究方向为大数据和大模型，研究成果一贯发表于相关领域顶尖国际会议和期刊上（如SIGMOD，PVLDB，TODS等），研发技术广泛应用于一线IT企业中（如微软、腾讯、华为等）。

报告题目：AlayaDB: 大模型时代的数字基座

报告摘要：随着大模型时代的到来，向量作为大模型的元数据被应用于大模型的方方面面（如检索增强生成、稀疏注意力算法、KV Cache等）。我们团队以向量为切入点，构建“模型能力 = 记忆能力 * 推理能力”的研究路径。在此报告中，我将分享我们团队在记忆能力和推理能力的研究成果AlayaLite和AlayaJet，并简要分析构建大模型时代数字基座AlayaDB的关键挑战。

罗兆经

北京理工大学教授

简介：罗兆经，北京理工大学人工智能学院教授、博士生导师、国家级青年人才。2019年在新加坡国立大学获得博士学位，2023年加入北京理工大学，主要从事结构化数据分析理论方法与系统的研究。在CCF-A类会议和期刊发表了多篇论文。多次担任如VLDB、ICDE、TKDE等国际顶级会议程序委员会委员和期刊审稿人。获得SIGMOD Svstems Award (2024),ICDE Best Paper Runner-Up (2018),BDCAT Best Paper Award(2016)等奖项。参与开发的Apache SINGA分布式深度学习平台成为Apache顶级开源项目。

报告题目：多模态数据的统一融合检索技术

报告摘要：多模态数据及其潜在价值正日益受到企业的广泛关注。随着数据驱动的业务场景不断涌现，分析对象也从单一模态数据向多模态、复杂化方向演进。同时，随着大语言模型（LLM）的迅猛发展，检索增强生成（RAG）方法通过从外部知识库实时检索多模态数据，并将其作为动态上下文输入到大模型中进行处理，显著提升了生成内容的时效性与准确性。本次论坛，我们将介绍课题组在统一多模态数据融合检索技术方面的探究，旨在实现不同模态数据在同一框架下的高效、精准检索，通过实现多模态数据在同一语义空间下的统一表征，构建针对多模态数据的融合索引，提升多模态数据检索整体的精度和效率。

晏潇

武汉大学助理教授

简介：晏潇，武汉大学武汉数学与智能研究院助理教授，博士生导师。2020年于香港中文大学获博士学位，研究方向为大数据系统，专注于提高系统效率。已发表CCF-A类论文40余篇，其中SIGMOD、SOSP等数据库和系统旗舰会议论文近20篇，并担任VLDB、ICDE、VLDBJ、TKDE、ICML等多个顶级会议和期刊的审稿人。获得NeurIPS’21向量检索比赛Track2冠军和华为青年科学家支持。研发的系统和技术，在亚马逊云、华为和Zilliz等公司投入实用，并和阿里、美团、微软亚洲研究院等企业有稳定研究合作。

报告题目：向量数据库性能优化：内存、磁盘、分布式以及模型推理

报告摘要：随着机器学习尤其是大模型的发展，向量检索成为基础能力，支撑着内容检索、商品推荐、大模型检索增强生成等重要应用。然而，向量数据维度高规模大，向量查询要求短时延和高吞吐，实际应用布署要求降低成本，这些特性需要极致的性能优化才能满足。本次报告将分享我们近期在向量数据库性能优化方向的成果，从单机纯内存、单机磁盘、分布式、边缘设备等向量数据库典型布署场景出发，探讨向量量化、索引存储、并行执行等关键技术。同时，也将分享利用向量检索技术加速模型推理的工作，并展望向量和大模型的深度整合。

徐泉清

CCF杰出会员，蚂蚁集团研究员

报告题目：OceanBase seekdb：开源AI原生混合搜索数据库

报告摘要：OceanBase seekdb是一款开源的AI原生混合搜索数据库，在一个引擎内统一融合向量、文本、JSON、GIS等多模数据，并通过内置AI函数支持多模混合搜索与智能推理。作为向量数据库，seekdb最高支持16000维的Float类型稠密向量和稀疏向量，支持曼哈顿距离、欧式距离、内积、余弦距离等多种向量距离计算，提供基于HNSW/IVF的向量索引及量化算法（HNSW-SQ、HNSW-BQ、IVF-PQ），支持增量更新删除且不影响召回率。seekdb的核心优势在于混合搜索能力，可在单条SQL查询中同时完成基于向量的语义召回、基于关键字的全文检索和标量过滤，支持多路召回、RRF重排序和基于大模型的重排序，显著提升RAG场景的查询准确性。

点击“阅读原文”，加入CCF。

阅读原文

点我访问原文链接