首页 > 最新动态 > 大模型内容安全专题论坛 | ChinaData
最新动态
大模型内容安全专题论坛 | ChinaData
2025-12-0433


论坛简介:

随着生成式人工智能技术的快速发展,大模型在内容生成方面展现出强大能力,但同时也带来了行为失控、虚假信息传播、隐私泄漏等安全隐患。作为 AI 规模化应用的核心基石,大模型内容安全需覆盖训练、推理、部署全生命周期,融合自然语言处理、数据科学与安全技术等多学科能力,成为平衡创新与风险的关键支撑。

当前大模型内容安全面临多重挑战。大模型高质量训练数据濒临耗尽,规模定律边际效益递减;大模型训练数据中的敏感或隐私信息,可能被恶意诱导提取;大模型幻觉率居高不下,可能生成无事实依据的虚假信息;主流对齐方法存在瓶颈,大模型可能生成背离社会主义核心价值观等风险内容;这些问题严重制约了大模型的合规应用与信任构建。

本论坛汇聚数据科学、自然语言处理和安全领域的顶尖专家,围绕大模型全生命周期的内容安全问题,从多学科交叉视角分享最新研究成果并展开深度交流与研讨,包括大模型认知能力提升、价值对齐、幻觉现象、隐私保护等核心问题展开深度交流与研讨,为大模型及相关行业的健康发展提供理论支撑和实践路径。


论坛安排



顺序

主题

主讲嘉宾

单位

1

大模型的数据科学

肖仰华

复旦大学

2

基于数据治理的大模型内容安全

赵东岩

北京大学

3

大模型核心价值观对齐能力评测

熊德意

天津大学

4

数据遗忘之困:大模型遗忘机制安全风险初探

王志波

浙江大学


论坛主席



钱铁云


武汉大学计算机学院教授,博士生导师。主要研究领域为Web数据挖掘、自然语言处理。中国计算机学会数据库专委会执行委员,中国计算机学会自然语言处理专委会执行委员、中文信息学会社会媒体处理专委会常务委员、中文信息学会语言与知识计算专委会执行委员,在ACL、TKDE 等重要学术会议和期刊发表高水平论文100余篇,Google Scholar引用3500+ 次,连续多年担任ACL、EMNLP、IJCAI等国际顶级学术会议的领域主席或高级程序委员。主持和承担国家和省部级课题20余项,在基于语言风格的用户身份识别和低资源数据分析方向做出系列开创性工作,成果成功应用于电力、金融、国防等多个行业。


论坛讲者



肖仰华博士


讲者信息:肖仰华博士,复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、认知智能研究。发表 CCF-A 、B 类等论文 300 余篇。出版学术专著与教材三部。完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任Applied Intelligence 等多个国际期刊副主编或编委。


报告题目:大模型的数据科学


报告摘要:当前大模型发展遭遇的"数据墙",Scaling Law边际效益递减,本报告旨在讨论大模型数据科学理论框架的构建。首先,面向预训练、行业训练、指令微调及后训练等模型训练阶段的数据需求与数据特性,形成具有针对性和规范性的质量标准;其次,借鉴认知科学及教育学理论,建立语料-指令分级分类体系,揭示当前数据在高阶认知特别是元认知能力维度的结构性缺失;进而,探讨从任务导向到能力导向的评估范式转型,利用能力相关性分析实现跨能力迁移优化。最终推动大模型数据实践从经验驱动走向可解释、可量化的科学驱动,为突破当前数据瓶颈提供理论支撑与创新路径。

赵东岩


讲者信息:赵东岩,北京大学王选计算机研究所研究员,博士生导师,国务院特殊津贴专家。主要研究方向为自然语言处理、语义数据管理、智能服务技术。担任2030新一代人工智能重大项目负责人(首席专家);发表学术论文200余篇(包括ACL、ICML、AAAI,AI Journal等CCF A类会议和期刊100余篇);授权发明专利34项;先后七次获得国家和省部级奖励,包括 2006年度国家科技进步二等奖(排名第一);个人获第十届中国青年科技奖(2007年)等荣誉。中国计算机学会(CCF)杰出会员,中国新闻科技工作者联合会理事,中国印刷技术协会常务理事,全国中文新闻信息标准化技术委员会副秘书长。现任北京大学王选计算机研究所书记。担任电子出版新技术国家工程研究中心主任,跨媒体通用人工智能全国重点实验室副主任,北京大学人工智能研究院自然语言处理研究中心主任。新一代人工智能国家科技重大专项专家组成员。


报告题目:基于数据治理的大模型内容安全


报告摘要:随着大模型在各类应用场景中大规模部署,如何在保证能力发挥的同时实现内容安全,成为数据治理的重要课题。本报告将首先以真实、无害、可信、安全等维度阐述大模型内容安全的现状与挑战,从数据治理视角分析相关风险成因与技术研究路径,并重点探讨大模型对齐机制与失齐防控、训练与推理阶段的数据治理、大模型的幻觉评估与缓解,以及基于隐私保护的数据合成等提升内容安全性的最新进展,为构建可审计、可度量的大模型内容安全体系提供参考。

熊德意


讲者信息:熊德意,国家重点研发计划项目首席科学家,天津大学教授、博导,自然语言处理实验室负责人,天津市“一带一路”联合实验室语言智能与技术中外联合研究中心主任,天津师范大学计算机与信息工程学院(软件学院)执行院长。主要研究方向为自然语言处理,特别专注于大语言模型、机器翻译、AI对齐与安全、AI for Science等方向的研究。在IEEE TPAMI、AI、AAAI、ACL等国际著名期刊和会议上发表论文200余篇,出版中英文专著各一部,牵头和参与编制大模型相关标准多项。建立了省部级科技创新合作平台,承担国家级、省部级及社会委托科研项目30余项。担任NeurIPS、ACL、EMNLP、NAACL、COLING、AACL等多个知名国际会议的(高级)领域主席、赞助主席、演示主席等,TACL及CL执行主编,ACM TALLIP副主编等。


报告题目:大模型核心价值观对齐能力评测


报告摘要:价值观是人们基于历史性的社会生活实践而形成的对主客体之间特定价值关系的能动反映,是关于价值的总观点、总看法。核心价值观对社会、国家具有稳定器作用。本报告从社会主义核心价值观角度审视大模型的对齐能力,围绕国家层面价值目标、社会层面价值取向、个人层面价值准则,建立面向大模型的社会主义核心价值观层级体系,基于层级体系设计精细化的测试基准数据,并提出评测方法和指标。报告最后将汇报通用领域和教育场景下的大模型社会主义核心价值观对齐评测结果。

王志波


讲者信息:王志波,浙江大学教授,计算机学院院长助理,网络空间安全学院副院长,国家优青。现为CCF杰出会员、ACM/IEEE/电子学会高级会员、CCF物联网专委会常委、人工智能学会智能信息网络专委会常委、电子学会网络空间安全专家委员会副秘书长。研究方向包括智能物联网、人工智能安全、数据安全与隐私保护,发表CCF A类论文80余篇,入选全球前2%顶尖科学家榜单和爱思唯尔(Elsevier)中国高被引学者榜单。主持国家优青、联合基金重点项目、科技创新2030-新一代人工智能重大项目课题等多项国家级项目,研究成果服务于华为、阿里、蚂蚁金服、杭州城市大脑等企业。


报告题目:数据遗忘之困:大模型遗忘机制安全风险初探


报告摘要:大模型的成功离不开海量的训练数据,但也面临严峻的数据泄露风险。随着公众数据安全意识日益增强以及《数据安全法》等法规的相继出台,旨在高效擦除模型对特定数据记忆、保障数据“被遗忘权”的数据遗忘技术应运而生。然而,尽管出发点是好的,现有数据遗忘机制是否真的可靠且值得信赖?本报告深入探索现有大模型遗忘机制的有效性及其衍生风险,评估现有遗忘方法擦除能力,提出针对大模型遗忘的隐私攻击方案,揭示现有数据遗忘机制不仅无法彻底擦除目标数据,反而会泄露更多被遗忘数据的隐私。我们的发现表明现有遗忘算法存在擦除不彻底、擦后不安全的弊端,亟需开发更加高效、可信的数据遗忘新机制。






图片


图片
图片
图片

点击“阅读原文”,加入CCF。

点我访问原文链接