2025年10月25日下午,由中国计算机学会主办的中国计算机大会(CNCC2025)“人文智能数据与模型建设”专题论坛?在哈尔滨华旗饭店举办,本次研讨会汇聚了来自人工智能、文学、历史学、信息管理等领域的专家学者与实践者,共同探讨人文智能数据处理新路径与模型建设。
论坛主席、北京大学袁晓如研究员在开幕致辞中指出,在中国悠久的历史进程中,丰富的历史文化资源积淀了大量的人文数据。有效开发和利用这些数据是推动文化传承创新的关键议题,同时也是增强国家文化自信、优化文化服务和创新文化产品供给的重要基础。在数字化时代的背景下,尤其在人工智能与大数据技术的飞速发展之下,以计算为切入点激活上述数据已成为可能。然而,如何构建坚实的理论基础、探索创新的研究范式,以实现海量、多源、异构人文数据的真正价值转化,仍面临诸多挑战。他期待此次论坛能明晰未来发展方向,为活化利用历史文化资源以及革新学术研究的范式贡献洞见与力量。
在专题报告阶段,华南理工大学金连文教授作了题为《古籍文化遗产的视觉-语言理解:从文字修复到大语言模型》的特邀报告。报告系统介绍了其团队在古籍数字化保护与智能理解领域的最新研究成果。金教授首先展示了团队构建的大规模古籍修复数据集HDR28K与FPHDR,并提出基于条件扩散模型的古籍文字修复新方法。随后,他介绍了融合视觉检测、OCR与大语言模型(LLM)的三阶段全自动古籍修复框架。报告还简要介绍了面向中国古典学的多模态大模型“通古”(TongGu)及其多模态版本TongGu-VL,该模型通过增量预训练、早期视觉语言融合对齐以及冗余感知微调技术,在古文理解、生成与多模态理解任务中表现卓越。此外,团队还构建了WenMind和MCS-Bench等评测基准,推动古籍智能处理领域的标准化评估。展望未来,金教授指出,AI大模型正成为数字人文研究的新范式,不仅能高效处理海量古籍文献,更可作为“AI科研伙伴”助力文化传承与创新。
金连文教授报告《古籍文化遗产的视觉-语言理解:从文字修复到大语言模型》
四川大学文科讲席教授,中南民族大学二级教授王兆鹏教授作了题为《唐诗智能评价思维链的构建》,他尝试以炼字、炼句、炼篇为评鉴顺序、以语言风格、情感境界、内容题材、章法格律、表现手法为评价维度来建构唐诗专业评价思维链,利用DeepSeek系列大模型对李白、杜甫、王维、孟浩然的千首诗作进行智能评鉴,自动生成相对全面、客观的评价文本和分值,使零散化、碎片化的诗学鉴赏评价跃升为更加聚合、多元的人机协同双向知识生成体系,从而为唐诗质性评价标准体系的构建提供切实可行的方案。
王兆鹏教授报告《唐诗智能评价思维链的构建》
中国人民大学梁继红教授作了《中国古文书学视野下的清代档案数据建模与文种分析》的报告。在演讲中梁继红指出“文种”的概念化是近代文书档案改革实践与学理探索的结果,但它的观念是自秦统一后建立皇帝制度开始的。在二千多年的官僚帝国体制中,文种的使用与演化是观察历代权力运作、礼仪秩序与行政效率等的重要维度。存世清代档案数量庞大,以文书形式分析为基础,构建清代档案数据模型并作可视化与智能化分析,是研究清代文书文种的性质与演化,并进而探讨清代国家内部控制力的有效方法。
梁继红教授报告《中国古文书学视野下的清代档案数据建模与文种分析》
北京大学袁晓如研究员作了《解构与再织:历史数据的时空知识重构与可视化》的报告。他从研究实践出发,针对历史文化数据的分析需求,围绕演变和关联两条主线,指出了多种人工智能和历史数据结合的可能性。例如通过强化学习的方法,学者有可能将人文学者的知识积累,融入到对于不同时代古籍目录的智能整理中,从而显著减轻工作负担;而针对在空间演变中的不确定性的挑战,以汉籍时空流传为例,可以设计特殊的抽象地图,对记录数据中无法完全确认空间位置的流传场所进行针对性编码,从而为学者提供精度相对应的表达手段;而复杂图像的计算方法,可以结合考古器物图案纹理、古代书法样式等演变场景,提供可计算的手段,支持深度分析。通过设计合理的方式,就有可能将原本分离独立的历史数据加以融合,提供高效的分析和理解手段,支持人文学者的研究和大众用户的需求。
袁晓如研究员报告《解构与再织:历史数据的时空知识重构与可视化》
专题报告由论坛主席北京大学袁晓如研究员与共同主席江西师范大学左家莉副教授主持。在圆桌论坛环节,与会的湖南大学岳麓书院戴彼得教授、哈尔滨工业大学建筑与设计学院张宇教授、武汉大学计算机学院许永超教授、中国人民大学信息管理学院梁继红教授、西北大学经济管理学院高原教授等嘉宾就人文数据的特殊性、交叉学科的研究范式等问题进行了热烈讨论。
圆桌论坛环节
张宇教授的发言探讨了人文智能为赋能文化遗产保护与更新提供的可持续发展、可有效实施的路径。她表示,我国当前面临大量的城市更新,其中文化遗产的保护与传承发展,需要综合考虑文化背景、地域特色、材料特性、现状条件、历史风貌、经济因素等等不同方面的因素,计算机信息技术的发展,可为遗产的诊断、更新提供科学决策工具。更深层次上,不仅仅是对于工程实践的指导,而是从文化传承的角度,真正将遗产保护与更新进行有科学性的分析,形成了“现状映射——多维度诊断——全寿期评价——全目标决策”的闭环,对我国城乡建设、文化传承提供了有力抓手。
许永超教授的观点是人文智能中数据基础是关键,尤其是在比如碎片缀合任务上,一方面基于深度学习的方法通常需要大量的有标注的训练样本,但有标注的训练样本本身就是繁琐的人工缀合任务,恰恰是人文智能需要解决的问题,因此,如何利用生成的方法产生大量的训练样本是非常值得探索的方向。此外,他还指出人文学科不同于自然科学,自然科学的数据标注通常可以客观量化的,而人文领域的由于个人理解存在差异,评价通常是主观的,比如一首诗,有人觉得很好,也有人不欣赏,如何让大模型输出多样化的评价结果可能也是一个挑战。
梁继红教授认为人文数据可以从三个维度观察。第一,从数据的一般价值属性出发,数据是获取信息、知识与智慧的基底。在数字文化转型中,文化多模态化必然引发人文数据的多模态化。随着大语言模型与多模态模型等人工智能的发展,就广义上的数据价值实现方面而言,人文数据与其他数据类型的差异应会逐渐缩小。第二,人文数据,尤其是结构化人文数据,具有面向人文学者研究需要的个性性化特点。这是由人文学术的基本特征决定的。第三,人文数据在普遍意义上,存在客观性一面。比如,文本文献的集成性数字化采集、语料库构建,文献来源、流传脉络以及文本形式特征等结构化数据;以及历史上客观存在且蕴含于文本内容之中的名物典章等具体事实数据,传统上有年表、人名、地名、书名、官制辞典等工具书的编纂。这些客观性人文数据基础设施需要规范化、协同化构建,是知识发现与人文阐释的基础,在新一代人工智能应用中更具有基础性地位。
高原教授表示人文数据是承载人类思想、文化与价值的复杂载体。其核心特点包括:1)语境依赖性:数据的意义随历史文化语境变化,导致人工智能在处理时面临严峻的“价值对齐”挑战。2)知识依赖性:正确理解数据需要历史、文化、哲学、社会学等多学科专业知识作为支撑,否则无法建立有效的关联。3)类型多样性:数据形态丰富,涵盖文本、图像、音视频、三维模型等,标准不一为其融合与统一处理带来技术难题。4)数据成熟度低:数据普遍缺少标准化,且在准确性、多样性和可复用性方面存在明显短板,影响其可用性与价值。
本次会议报告深入浅出,引领前沿学术;圆桌会议讨论激烈,观众参加踊跃,体现了人文智能这一新兴话题的吸引力。同时,也为后续12月在北京召开的首届人文智能大会预热。
点击“阅读原文”,加入CCF。
