首页 > 最新动态 > 大模型数据准备的“IaaS”原理|SPP第137期
最新动态
大模型数据准备的“IaaS”原理|SPP第137期
2025-06-238


如今,大模型在通用和专用领域应用中都取得了显著进展。然而,其成功离不开高质量数据的“喂养”。本期SPP报告首先介绍大模型数据的"IaaS"概念,即高质量的大模型数据应具备四个关键特性:(1)包含性(Inclusiveness):确保数据覆盖广泛的领域和类型;(2)冗余性(Abundance):通过适度的数据重复增强模型的学习效果;(3)高质量(Articulation):保证数据的准确性、相关性和有用性;(4)无害化(Sanitization):确保数据经过伦理审查,不包含有害内容或隐私信息。这一框架贯穿于LLM的各个阶段,包括预训练、持续预训练、微调、强化学习、检索增强生成(RAG)、LLM代理和评估等。围绕“IaaS”框架,报告还将介绍LLM全生命周期中的数据处理技术,包括数据去重、数据过滤、数据混合与选择、数据成与标注等。欢迎关注本期SPP:6月25日(本周三)19:30—21:00。



本期直播你将收获哪些


1、了解如何通过“IaaS”框架设计高质量大模型训练数据;
2、了解如何利用去重、过滤、混合、合成等技术优化大模型数据处理流程;
3、了解如何通过数据-模型双向循环,提升模型性能与数据质量。


演讲嘉宾


周煊赫

CCF专业会员,上海交通大学长聘轨助理教授

上海交通大学计算机学院长聘轨助理教授,博士生导师。主要研究智能数据分析、AI数据底座、自治数据库系统。在SIGMOD、VLDB、NIPS、TKDE等CCF A类会议和期刊上已发表论文数十篇,包括近五年VLDB、ICDE高被引论文,入选CMU、Cornell等高校课程。谷歌学术引用量两千余次。曾获通信学会科学技术一等奖、ACM SIGMOD Jim Gray提名奖(国内首次)、VLDB最佳工业论文亚军奖(第一作者)、CCF优博、微软学者、清华特奖等荣誉。曾主导或主要参与OpenMLDB(入选Gartner报告)、DB-GPT(BenchCouncil开源成就奖)、Bird-SQL(用于OpenAI微调服务推广)等多个高星标开源项目。


开课时间


2025年6月25日(本周三)19:30-21:00


如何报名


SPP为免费直播。点击“阅读原文”立即报名,报名可在活动当天15:00前邮件获取到腾讯直播间链接,可与老师线上即时交流,也可通过预约文末CCF视频号观看活动直播。希望能通过这样的方式和你一起进步、成长。呼朋唤友来参加吧!




相关阅读

学术论文的科研流程概述|SPP第131期

视觉领域自适应与分布外泛化前沿进展|SPP第132期

高质量就业的准备及选择|SPP第133期

第38次CCF CSP认证真题精讲|SPP第135期

未来已来:学生如何拥抱智能革命|SPP第136期




图片

点击“阅读原文”,立即报名。

点我访问原文链接