DCAI:数据为中心的人工智能 | ChinaData
2025-12-0144

【论坛涵盖的内容亮点及讨论的话题】
人工智能正经历从“模型为中心”向“数据为中心”的关键范式跃迁。随着模型架构、算力体系与训练工具链持续成熟,数据逐渐成为影响模型性能、泛化能力与训练成本的核心驱动力。数据不再仅是训练材料,更是推动人工智能持续发展的战略性生产要素。
然而,DCAI的概念虽已出现多年,但未受到足够重视。究其根本原因,一是基础设施的缺失,二是发展阶段的使然。时至今日,无论是科学智能(AI for Science)的基座模型还是多模态原生的大模型都需要我们从DCAI的角度提出新的技术。
本论坛聚焦“数据为中心的人工智能(DCAI)”,重点探讨面向DCAI的研究方法与赋能路径,旨在推动人工智能研究从“模型为中心”向“数据为中心”转变。论坛还将设置Panel,围绕DCAI热点议题展开深入交流,为下一代人工智能发展开拓新思路。
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 基于度量空间的图数据通用表征 | 毛睿 | 深圳大学 |
2 | 易图:实现端到端智能图处理 | 张岩峰 | 东北大学 |
3 | Data-centric AI基础设施 | 张文涛 | 北京大学 |
4 | 以图为中心的关系数据库(RDB) | 张牧涵 | 北京大学 |
5 | 面向复杂图分析任务的图深度学习技术 | 刘钰 | 北京交通大学 |
6 | Panel环节 | 毛睿 | 深圳大学 |
邹磊 | 北京大学 |
张岩峰 | 东北大学 |
张牧涵 | 北京大学 |
张文涛 | 北京大学 |
刘钰 | 北京交通大学 |
洪亮,教授,博士生导师,CCF高级会员。现任武汉大学人工智能学院副院长,中国计算机学会大数据专家委员会、数据库专委会、数字金融分会执行委员。在国内外高水平学术期刊和会议上发表论文80余篇,获得高等教育国家级教学成果奖一等奖,教育部技术发明奖一等奖等奖项。先后承担国家重点研发计划课题,科技创新2030-新一代人工智能重大专项课题,国家自然科学基金等项目。
毛睿,CJ特岗学者,深圳大学特聘教授,主要领域通用大数据处理;中国科学技术大学计算机学士和硕士、美国得克萨斯大学奥斯汀分校统计硕士和计算机博士、曾任甲骨文美国公司高级工程师;现任大数据系统计算技术国家工程实验室副主任,深圳计算科学研究院执行院长;提出了应对多样性挑战的大数据泛构模式,建立了基于度量空间的通用大数据管理分析理论框架,获7个各形式论文荣誉和7项国家、省部级、权威行业组织教学/科研奖励。
题目:基于度量空间的图数据通用表征
摘要:一次表征多次使用的通用表征是预训练模型的研究核心之一。传统机器学习往往限定于欧几里得范数,与图(graph)天然的非欧几里得特性间存在鸿沟。度量空间不限制数据内部结构,仅须数据间距离满足正定、对称、三角不等性,可以表征很多图数据。我们提出先将图表征为度量空间再向量化,然后多范数下训练和融合模型的新范式,研究面向度量空间的表征学习理论框架,包括多范数下的通用近似性,模型参数优化机制,多模态/多任务训练融合机制等。本研究有望为图数据通用表征探索新的路径。
张岩峰,东北大学教授、博士生导师、计算机科学与工程学院副院长,国家级高层次青年人才,辽宁省杰青。承担国家重点研发计划课题、国家自然科学基金重点项目课题、辽宁省重点研发计划等多项国家和省部级科研项目,承担华为2012实验室、阿里巴巴达摩院、蚂蚁研究院等校企合作项目。在国际顶级会议期刊上发表论文50余篇。曾获中国计算机学会自然科学二等奖、云计算国际会议ACM SOCC杰出论文奖、华为年度优秀项目奖等奖励。
题目:易图:实现端到端智能图处理
摘要:当前图分析技术在金融风控、生物信息等领域的应用,因算法流程繁琐、执行调优复杂而高度依赖专家经验,导致其规模化应用与自动化处理能力严重匮乏。为此,本报告探索了一种基于分析增强生成(Analysis-Augmented Generation, AAG)的图智能体解决方案,介绍课题组研制的图智能体系统——易图。该系统以大语言模型为协调中枢,通过与图数据及分析算法的多轮交互,深度融合语义理解与图计算能力,最终实现从自然语言问题输入到分析报告生成的端到端智能图处理,为用户提供易用、高效、自驱动的图分析新范式。
简介:张文涛,北京大学助理教授、研究员、博导,曾任职于腾讯机器学习平台部、Apple AIML和加拿大Mila人工智能实验室。研究兴趣为大模型数据治理,主持国自然基金重大研究计划项目、科技部重点研发计划(课题)和教育部学科突破先导项目(Co-PI)。近5年发表CCF-A论文100余篇,获多个最佳论文奖,领导或参与开源多个机器学习系统。曾获世界互联网大会领先科技成果奖等荣誉。
报告题目: Data-centric AI基础设施
报告摘要:人工智能正从模型为中心(Model-centric AI)转向以数据为中心(Data-centric AI, DCAI),本次报告将探讨面向DCAI 的数据基础设施体系,包括支持多模态数据统一管理的AI数据库,DataFlow 数据准备与动态训练工具。该体系突破了传统数据湖和数据处理工具的局限,实现了数据与模型的高效协同。通过大模型预训练、企业知识库构建等创新应用验证,展示了DCAI 基础设施在提升模型性能、降低开发门槛方面的突破性价值,为人工智能向智能化计算新范式演进提供了系统解决方案。
张牧涵博士,北京大学人工智能研究院助理教授、研究员、博士生导师、院长助理。首届优青(海外)获得者,北京大学博雅青年学者、未名青年学者。Google Scholar总引用量超过11000次,其中两篇代表工作引用量分别达到2800+和2200+次,入选爱思唯尔全球前2%顶尖科学家。作为图神经网络早期开拓者,提出了链路预测的SEAL算法、图分类的DGCNN算法、以及多节点预测的labeling trick理论等。常年担任NeurIPS、ICML、ICLR、CVPR等人工智能顶级学术会议的领域主席。曾任Meta AI研究科学家。
报告题目:以图为中心的关系数据库(RDB)基础模型
摘要:关系数据库(Relational Database, RDB)在商业、科学、金融等领域具有重要应用。构建关系数据库的基础模型,将有利于实现数据的跨领域迁移、快速训练强大的下游模型、少样本甚至零样本泛化到数据稀少场景等,具备广阔的应用前景与商业价值。为了构建RDB基础模型,我们首先将RDB建模成图:其中,每一行为一个节点,不同列记录节点的不同属性(可以包含类别、数值、文本、ID等等多模态信息),节点与节点之间通过外键(foreign key)和主键(primary key)相连。例如,purchase table中的某一行记录了一条购买数据:“用户1,商品2,金额5”。其中,“用户1”又通过外键连接到user table中的主键“用户1”所对应的行,来查询更详细的用户信息。此时,这两行所对应的节点即形成了一条边。通过将RDB建模成图,我们利用图基础模型的相关技术,首次构建了一个RDB的基础模型Griffin。Griffin展现了优于或与单独训练模型相当的性能,在低数据场景下表现出色,并且在跨新数据集和任务的预训练中具有较高的相似性和多样性,突显了其作为关系数据库通用基础模型的潜力。
刘钰,现任北京交通大学计算机科学与技术学院副教授、博士生导师。在图相关方向发表国际顶级会议和期刊论文(CCF A类)多篇。主持国家级科技项目、国家自然科学青年基金、CCF-腾讯犀牛鸟科研基金、腾讯犀牛鸟专项研究计划、北京大学医信交叉种子基金等研究项目,作为课题骨干参与多项国家自然科学重点基金和多个高水平研究项目。参与编著《大规模图数据管理与分析》教材。
演讲题目:面向复杂图分析任务的图深度学习技术
摘要:近年来图深度学习主要关注节点分类、链接预测和图分类等分类任务。复杂图分析任务是图计算和图数据挖掘关注的经典问题,在图学习时代仍然有重要意义。现有图深度学习和基础模型的关键技术还不能直接适配于复杂图分析任务。本报告以图对齐和图聚类两个代表性任务为例,介绍当前学术进展和近期工作,并探讨存在的技术挑战和开放问题。
邹磊,北京大学王选计算机所教授,国家自然科学基金优秀青年基金项目获得者。已经发表了50余篇国内外学术论文,包括CCF-A类的数据库领域国际顶级期刊/会议论文30余篇;主持研发了面向知识图谱数据的图数据库系统gStore和知识图谱问答平台gAnswer。主持了包括国家自然基金重点项目、优青项目、国家重点研发计划课题,以及英国皇家学会高级访问学者项目,以及多项产业界公司的资助项目。


点击“阅读原文”,加入CCF。
点我访问原文链接