表格数据基础模型:结构化数据通用智能新范式|CNCC Tutorial
2025-08-141
CNCC2025 Tutorial是由领域内专家主讲,面向全体参会者开放的专题讲座或教学环节,旨在介绍研究领域的最新进展或基础知识,内容涵盖原理、挑战、方法等。可以帮助刚进入该方向的博士生、青年学者快速补齐知识短板,以便更好地参会后续的前沿报告理解与未来方向思辨。
今年Tutorial共设置9大主题板块:AI基础模型、机器学习理论与机理、强化学习与推理、视觉与多模态、AI安全与治理、面向AI的数据管理和治理、Agent与具身智能、新型计算与网络架构、AI4Science。
??Tutorial名称:
表格数据基础模型:结构化数据通用智能新范式
结构化表格数据是机器学习中最常见、应用最广泛的数据类型之一,广泛存在于医疗健康、AI4Science等核心领域。经典机器学习方法(如决策树、线性模型等)在该领域已被深入研究并取得了显著成果。近年来,深度学习方法凭借更强的表示能力与建模灵活性,尤其在引入模型预训练之后,展现出在表格数据建模上的巨大潜力,正推动表格数据学习从“特征工程 + 传统模型” 迈向 “表示学习 + 通用架构”的新阶段。
本Tutorial将系统梳理深度表格数据学习的发展脉络,从模型架构设计、特征处理机制、训练目标构建等方面,提炼不同方法的核心思想与适用场景。进一步地,我们将深入介绍表格数据基础模型(Tabular Foundation Model)的构建方法,展示如何通过这一结构化数据通用智能新范式支撑异构表格任务的统一建模,并探讨融合语言大模型(LLMs)将语义知识引入表格预测与理解的途径,应对复杂多变的实际应用需求。
Tutorial 第一部分:表格数据预测任务与深度表示学习方法
本部分将首先介绍表格数据的基本定义、常见特征处理流程、经典方法、主流评测基准和工具包。随后,我们将系统梳理深度学习在表格预测任务(如分类、回归)中的最新进展,包括特征编码与交互机制、样本关系建模,以及训练目标与正则化设计等。
Tutorial 第二部分:基于模型迁移复用的表格数据建模策略
本部分将重点聚焦如何高效复用已在不同分布、不同结构的表格数据上训练得到的模型。内容涵盖同构迁移(如面向跨域模型)、异构迁移(如面向差异特征空间的模型)、以及基于语言模型融合语义信息的多模态表格预测方法。
Tutorial 第三部分:表格数据基础模型构建与前沿展望
随着AI基础模型的兴起,表格数据也迎来了“预训练时代”。本部分将介绍表格数据基础模型的整体框架与关键技术,包括基于上下文学习、属性语义等方式的通用表格预测模型训练方法。最后,我们将总结当前的研究趋势、面临的挑战与未来方向。
模块 | 时长 | 内容 |
1. 表格数据预测任务与挑战 | 20min | 表格数据的定义与特性、经典方法、表格数据模型评估指标、工具包与Benchmark体系 |
2. 表格预测任务的深度表示学习方法 | 40min | 从特征、样本、学习目标层面介绍深度表示学习在表格预测任务中的基本思路和代表性方法 |
3. 基于模型迁移复用的表格预测方法 | 30min | 介绍复用同构、异构表格预测模型的策略;以及基于语言模型融合语义信息的多模态表格预测方法 |
4. 表格数据基础模型构建 | 90min | 介绍表格数据基础模型的整体框架与关键技术,包括基于上下文学习、属性语义等通用模型训练方法 |
5. 表格数据模型的应用 | 20min | 深度表格学习在异常检测、缺失值填补、表格多模态学习、表格理解等任务的应用 |
6. 总结与前沿趋势展望 | 10min | 总结当前研究进展与资源,讨论未来开放研究问题 |
7. 问答 | 20min | 听众提问与讲者交流 |
南京大学人工智能学院副教授、博导,在南京大学机器学习与数据挖掘研究所 (LAMDA)从事学术研究工作,研究方向包括结构化数据表示学习、预训练模型复用等领域。叶翰嘉在人工智能领域发表《IEEE Trans. PAMI》等学术论文60余篇,受邀担任国际重要会议ICML/NeurIPS/ICLR/CVPR领域主席、CCF高级会员、CCF人工智能与模式识别专委会执行委员,CCF大模型论坛执行委员;主持国家重点研发计划专项项目、国家自然科学基金面上项目,获中国人工智能学会吴文俊人工智能青年科技奖、CCF优秀博士学位论文奖。
香港科技大学(广州)人工智能学域助理教授、博导。2023年于浙江大学计算机科学与技术学院获得博士学位,随后赴美国伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机学院从事博士后研究工作。长期致力于医学人工智能与结构化数据分析研究,在Nature Communications、ICML、ICLR等国际顶级期刊和会议发表学术论文70余篇,含口头报告6次、聚光灯报告1次,最佳论文奖题名1次。研究成果曾荣获中国电子学会科技进步二等奖。现担任CCF数字医学分会执行委员、广东省呼吸与健康协会委员。
CCF理事、副秘书长、青工委主任
清华大学长聘副教授
清华大学计算机系长聘副教授,博导。研究兴趣聚焦于因果启发的稳定预测和决策、大规模网络表征学习等。将因果统计思想与机器学习框架进行融合性研究,自主提出并发展了因果启发的稳定学习理论方法体系,在医疗、工业等场景取得显著应用价值。在ICML、KDD等顶级国际会议及Nature Machine Intelligence等期刊发表论文100余篇,先后7次获得国际会议或期刊论文奖。担任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD、KAIS等国际期刊编委。获得国家杰青项目资助、两项国家自然科学二等奖、两项教育部自然科学一等奖、CCF-IEEE CS青年科学家奖、ACM杰出科学家。担任第九届科协全国委员会委员,CCF副秘书长兼青工委主任。
CNCC2025将于10月23-25日在哈尔滨举办。学术专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。Tutorial作为这一设计的起点,为参会者构建坚实的共同知识基础,能够深度参与后续的前沿报告理解与未来方向思辨。同时面向青年学者、行业新锐等人群,通过系统性教学,助力赋能青年人才发展。
点击“阅读原文”,加入CCF。
点我访问原文链接