2025年CCF-蚂蚁科研基金数据库专项即将于2025年5月8日 24:00(北京时间)截止申报,欢迎CCF会员积极申报。
“CCF-蚂蚁科研基金”于2020年由CCF与蚂蚁集团联合发起。基金面向全球高校学者搭建产学研合作及学术交流平台,连接产业实践问题与学术科研问题,支持学者开展与产业结合的前沿科研工作。蚂蚁科研基金自运作5年来,受到了全球学者的广泛关注,累计基金支持额度超过5000万,吸引近千位专家学者进行申报,支持超150个科学研究项目,在人工智能、隐私计算、体系结构、数据库、区块链等领域全面展开科研工作,多项研究成果在蚂蚁集团的业务场景得到应用。
本期基金申报共有6个课题,现予以详细介绍:
课题介绍
(一)基于CPU-GPU异构计算架构技术研究
项目背景描述
在金融、电信、互联网等领域,企业每天生成的数据量极为庞大,单日系统和业务日志数据量可达PB级别,这些数据是系统监控、性能分析、故障排查的核心依据,通常需长期存储并支持查询。当前大规模数据处理的其中一大挑战在于平衡存储效率与计算性能,以满足低存储成本与高吞吐量查询需求。以日志数据为例,传统压缩算法(如LZMA、GZip)虽具备高压缩率,但难以支持高效查询。为此,学术界提出基于日志结构化特征的压缩方法,在保证高压缩率的同时提升查询效率。然而,此类方法仍存在算法复杂度高、压缩速度低的问题,难以满足大规模数据场景下对要求严苛的业务需求。为了增大数据压缩的吞吐量,现有研究基于横向扩展技术(如MapReduce、Spark集群)的分布式方案已取得一定进展,但面向异构计算架构(如GPU、SIMD)的纵向扩展研究仍较为缺乏。GPU具有高带宽、高计算力等优势,具有大幅降低实现高压缩率压缩所需的时间的潜力。因此,本研究计划设计和实现一种新型GPU友好的数据压缩算法,并在此基础上提出一套基于CPU-GPU异构计算架构的数据压缩系统,提取数据潜在的模板特征,通过在CPU和GPU的任务异构分离和协作,克服异构架构上的常见性能瓶颈,充分利用GPU的性能优势,以实现高效的数据压缩。此外,数据库系统中的索引构建、查询优化、事务处理等其他技术方向同样存在性能瓶颈。本研究通过在压缩技术方面的优化手段,为CPU-GPU异构计算架构在数据库技术中各领域的突破提供基础与参考,助力大规模数据处理场景下存储、查询、计算等环节的性能提升。
项目价值描述:
技术价值
(1)大规模数据场景下现有数据压缩与查询方案的瓶颈评估。
(2) 针对数据潜在的模板特征数据压缩与查询算法的设计。
(3)基于CPU-GPU异构架构纵向扩展实现的高性能加速技术。
业务价值
(1)提高数据高压缩率入库(例如OceanBase)的速度,通过异构计算架构的协同优化,显著提升大规模数据场景下的压缩与查询吞吐量。
(2)降低数据的持久存储成本,减少存储资源占用。
(3)深入探讨CPU-GPU异构架构在数据库系统中的优化与应用,为相关领域研究提供理论支持。
预计产出
(1)基于CPU-GPU异构计算架构的数据处理原型系统。
(2)产出CCF-A类论文1篇。
(3) 申请专利1件以上。
(二)云原生多维效能感知的智能缓存技术
项目背景描述
缓存是数据库系统中的关键优化技术,在云环境中也被广泛应用于提升数据访问速度和减轻查询负载。然而,现有缓存算法在适应动态变化的工作负载上仍显不足,且在设计时未充分考虑数据传输延迟、存储分区、负载均衡等多维度效能因素,因此在大规模云环境下的优化效果受限。近年来,将机器学习技术引入缓存淘汰策略已成为数据库领域的热门研究方向,通过学习数据访问模式和负载特征,可以提高查询效率、优化系统性能,并提升资源利用率,这对Oceanbase等云数据库具有重要价值。本研究计划拟提出一种面向云数据库的学习型多维效能感知缓存框架,深度融合动态负载特征、存储层级差异及效能-资源弹性均衡机制,构建轻量级学习模型指导缓存策略执行,以实现稳定的实时查询响应,最终在OceanBase上实现高稳定、低延迟的动态缓存解决方案。
项目价值描述
技术价值
(1) 面向动态负载的多维效能感知模型。
(2) 分布式缓存调优技术。
(3) 基于轻量学习模型的动态缓存框架。
业务价值
(1) 提升OceanBase的查询性能和稳定性。
(2) 指导OceanBase的缓存架构优化。
预计产出
(1) 面向云原生数据库的智能缓存技术原型系统。
(2) 产出CCF-A类论文1篇。
(3) 申请专利1件以上。
(三)高效大容量向量数据库引擎的研究
项目背景描述
随着机器学习尤其是大模型的发展,基于相似性的向量检索支撑着搜索、推荐、大模型生成等众多高价值业务。以向量检索为基础功能,向量数据库受到业界广泛关注,也是OceanBase的研究焦点。向量数据库在规模、成本和性能三方面都需要良好的性能。规模上,向量数据维度高向量多,数据集大小可达TB量级甚至更大;成本方面,将大规模向量数据集保存在内存中,需要大内存服务器,价格昂贵,小内存+大磁盘的解决方案更加经济;性能方面,向量数据库需要达到良好的查询结果质量(即高Recall)和高查询吞吐(QPS)。此外,向量数据库还应该有良好的泛用性,纯内存部署和内存+磁盘混合部署,应尽量采用同一套方案和代码。因此研究高精度向量压缩算法和泛用向量索引。高精度向量压缩算法能对F32实现4-8倍的压缩而无明显的检索结果质量损失,提升向量数据库的规模,降低存储开销,同时利用压缩向量降低相似性计算的复杂度;泛用向量索引利用压缩向量,同时支持纯内存部署(对应中小规模数据集)和内存+磁盘混合部署,并且在混合部署条件下,需求较小的内存(如占数据集大小比例小于10%甚至5%,称为内存配比);最后通过高效的系统实现,达到高查询吞吐。
项目价值描述
技术价值
(1) 高精度大压缩比的向量数据压缩技术。
(2) 内存磁盘通用且支持小内存配比的向量索引。
业务价值
(1) 利用压缩向量加速相似性计算,从而提高检索吞吐。
(2) 降低大规模向量数据的存储开销,增强扩展性并减小内存使用,从而降低成本。
预计产出
(1) 支持高精度向量压缩和小内存配比的向量检索引擎原型系统。
(2) 产出CCF-A类论文1篇。
(3) 申请专利1件以上。
(四)数据库技术与视频多模态大模型深度融合技术研究
项目背景描述
在当今人工智能和大数据时代,视频多模态数据已成为推动智能系统发展的关键要素,为模型的视频理解和推理能力提供了丰富的表征。然而,由于多模态数据的复杂性和异构性,如何高效地存储、管理、检索和利用这些数据成为了重要的研究课题。视频多模态大模型,如GPT-4V 和Qwen2.5-VL,能够同时理解和处理多种模态信息,实现更强的感知和推理能力,广泛应用于医学、自动驾驶和教育等领域,助力智能诊断和场景理解。多模态数据通常是非结构化的,给数据管理带来了挑战。现代数据库系统逐步演进,支持高效存储和索引多模态数据,并提供优化的数据查询和分析能力,例如结合向量数据库和视频多模态检索技术,实现高效的跨模态检索。数据湖和图数据库等新型架构也被广泛应用,以处理大规模、多源异构数据。随着视频多模态大模型的发展,如何高效存储、管理和调度视频多模态数据成为关键问题。数据库系统可以为多模态大模型提供高效的数据存取支持,同时优化模型训练和推理过程。未来,数据库技术与视频多模态大模型的深度融合将进一步推动人工智能的发展,使大规模视频多模态数据的智能管理和应用成为可能,助力更加智能化的AI系统落地,解决有效管理大量多模态数据及建立复杂索引的问题。
项目价值描述
技术价值
(1) 基于数据库构建高效的视频多模态数据索引和特征提取框架,构建Benchmark 测试集,支持跨模态检索和高维特征存储,提升大模型数据检索效率
(2) 开发基于数据库的视频多模态数据选择算法,提升视频多模态大模型训练效果。
(3) 优化视频多模态大模型训练数据的利用效率,降低训练的计算资源消耗和时间成本。
业务价值
(1) 减少视频多模态大模型训练代价。
(2) 提升视频多模态大模型训练效果。
预计产出
(1) 基于向量数据库的视频多模态数据管理系统。
(2) 产出CCF-A类论文1篇。
(3) 申请专利1件以上。
(五)Text2SQL 复杂语义理解与推理研究
项目背景描述
随着自然语言处理技术的迅猛发展,Text2SQL技术在数据库查询自动化、智能客服和数据分析等领域的应用变得愈加广泛。然而,当前的Text2SQL系统在处理复杂语义理解和逻辑推理任务时仍面临许多挑战,如多表关联、嵌套查询、条件约束以及领域特定知识的理解等问题。为此,本课题将深入研究复杂语义理解与推理的核心技术,并探索如何运用知识图谱来提高Text2SQL系统的性能和泛化能力。具体研究内容包括: (1) 复杂语义解析:研究如何准确解析用户输入的自然语言问题,识别隐含语义、上下文依赖、多表关系,并利用知识图谱构建稳健的语义解析模型。 (2) 逻辑推理优化:针对嵌套查询、聚合操作和复杂条件约束等场景,设计高效的逻辑推理算法,确保生成的SQL语句在语法和语义上的正确性。 (3) 领域适配与迁移:探索跨领域的Text2SQL模型迁移学习方法,通过少量标注数据快速适应新领域,同时利用知识图谱降低对大规模标注数据的依赖。 4) 交互式纠错机制:研究基于用户反馈的交互式纠错技术,提高系统在处理模糊或歧义问题时的容错能力和用户体验。 通过这些研究,本课题将推动Text2SQL技术在复杂场景下的实际应用,为用户提供更智能、高效的数据查询解决方案,并借助知识图谱助力企业实现数据分析的智能化转型。
项目价值描述
技术价值
(1) 提高Text2SQL系统在生成SQL语句时的准确性和可靠性,有效地解决多表关联、嵌套查询和复杂条件约束等难题,增强系统在复杂场景下的适应能力。
(2) 探索跨领域的Text2SQL模型迁移学习方法,依托知识图谱的支持,能够减少标注数据需求。
(3) 提升Text2SQL系统在处理模糊或歧义问题时的容错能力。
业务价值
(1) 通过应用先进的Text2SQL技术,企业可以实现数据库查询的自动化,大幅减少人工干预。
(2) 通过利用知识图谱和跨领域适配能力,Text2SQL技术能够帮助企业迅速适应不同业务领域的数据查询需求,减少依赖大量标注数据的负担。
预计产出
(1) 面向OceanBase的Text2SQL原型系统。
(2) 产出CCF-A类论文1篇。
(3) 申请专利1件以上。
(六)基于数据库的检索增强生成研究
项目背景描述
随着机器学习领域的发展,尤其是大模型的崛起,检索增强生成(RAG)技术在越来越多的业务系统中得到了应用。这项技术通过将检索到的相关知识输入大语言模型进行优化,使生成的答案更加准确,并紧密结合上下文。这不仅提高了信息生成的准确性,还有效减少了误导性信息的产生。因此,如何高效、准确地 进行知识检索成为包括OceanBase在内的许多数据库面临的重要课题。OceanBase目前支持向量索引、全文索引、标量索引等多种基础索引能力,展现出强大的数据处理能力。其目标是利用这些现有能力,进一步研究和优化检索增强生成技术,以实现更高效的查询速度和更准确的结果生成。这需要不断优化现有的索引技术,使其能够更好地支持富文本和复杂知识的检索任务,实现数据库技术与人工智能的深度融合,从而在信息时代为用户提供更智能化的数据查询解决方案。
项目价值描述
技术价值
(1) 提升大模型生成结果优化的技术能力。
(2) 优化基于多种索引混合搜索的排序技术能力。
业务价值
(1) 利用OceanBase数据库的向量索引/全文索引/标量索引能力,结合检索增强生成(RAG)技术,为用户提供更精确的问题回答。
(2) 降低用户对大模型的使用门槛,让大模型产生更直接的业务效果。
预计产出
(1) 基于OceanBase数据库的检索增强生成原型系统。
(2) 产出CCF-A类论文1篇。
(3) 申请专利1件以上。
申报相关
(一)申报条件:
申请者必须是高校/科研院所在职的全职教师或研究人员(不包含博士后);
申请者必须是CCF数据库专委会执行委员或通讯委员;
申请者须具备博士或硕士招生指导资格;
能够独立进行研究工作,并带领团队共同参与课题研究与实践。
(二)课题解析回放:
针对本年度开放申报的基金课题,CCF已联合蚂蚁技术研究院于4月8日举行课题解析宣讲会,可关注CCF视频号查看课题解析回放。
(三)如何申报:
请于2025年5月8日24:00(北京时间)前通过蚂蚁技术研究院官网提交申报书:
扫描二维码,提交申报书
注:
1、申报书填写方式请点击阅读原文参考附件三的《2025年申请书模版》。
2、任何针对项目申报的问题,请联系蚂蚁集团学术合作部,电子邮箱:AntResearch@antgroup.com。
点击“阅读原文”,下载申报书。