如今,大模型在通用和专用领域应用中都取得了显著进展。然而,其成功离不开高质量数据的“喂养”。本期SPP报告首先介绍大模型数据的"IaaS"概念,即高质量的大模型数据应具备四个关键特性:(1)包含性(Inclusiveness):确保数据覆盖广泛的领域和类型;(2)冗余性(Abundance):通过适度的数据重复增强模型的学习效果;(3)高质量(Articulation):保证数据的准确性、相关性和有用性;(4)无害化(Sanitization):确保数据经过伦理审查,不包含有害内容或隐私信息。这一框架贯穿于LLM的各个阶段,包括预训练、持续预训练、微调、强化学习、检索增强生成(RAG)、LLM代理和评估等。围绕“IaaS”框架,报告还将介绍LLM全生命周期中的数据处理技术,包括数据去重、数据过滤、数据混合与选择、数据成与标注等。欢迎关注本期SPP:6月25日(本周三)19:30—21:00。
本期直播你将收获哪些
演讲嘉宾
周煊赫
CCF专业会员,上海交通大学长聘轨助理教授
开课时间
2025年6月25日(本周三)19:30-21:00
如何报名
SPP为免费直播。点击“阅读原文”立即报名,报名可在活动当天15:00前邮件获取到腾讯直播间链接,可与老师线上即时交流,也可通过预约文末CCF视频号观看活动直播。希望能通过这样的方式和你一起进步、成长。呼朋唤友来参加吧!
点击“阅读原文”,立即报名。