收录于话题
本文探讨了大模型的发展历程,介绍了作者团队研发的GLM-4大模型,并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。
关键词:
大模型 超级智能
超大规模预训练模型(也称基础模型、大模型,英文为Foundation Model、Big Model等)快速发展,成为国际人工智能领域研究和应用的前沿焦点。OpenAI ChatGPT和Sora的推出引发了社会和公众的广泛关注,并引起了大模型是否会引发新一轮行业变革甚至新一次工业革命的讨论。大模型作为ChatGPT和Sora等生成式人工智能技术产品的核心技术基座,正在快速改变产业格局,孕育出全新的用户交互模式,形成舆论引导、社会治理、信息服务等方面的不对称优势。大模型也被认为是通向通用人工智能(Artificial General Intelligence,AGI)的重要途径之一,成为各国人工智能发展的新方向,正在成为新一代人工智能的基础设施。人工智能大模型已成为国际科技“必争之地”,实现国产全自研、自主可控的人工智能基础模型迫在眉睫。
当前,我国人工智能基础模型研究、应用与产业化发展正处于从模仿追赶迈向创新引领的关键时期。大模型的快速发展给全球科技创新带来全新挑战:超大算力需求、超大规模数据需求、全新模型训练算法与框架、安全可信的软硬件系统,同时大模型的应用需求也更加动态多样,要求对大模型的不同层次进行深入研究。这是个全新的人工智能科学难题,也是我们赶超国际的机会。发展可媲美人类智能的人工智能系统已经成为人工智能领域研究的国际共识。
大模型发展回顾
从技术层面而言,ChatGPT的优异表现主要依托超大规模预训练基座模型GPT-3/3.5/4、有监督指令微调以及基于人类反馈的强化学习。回顾大模型的发展史,大致可分为四个阶段。
算法之战(2018—2020)。2017年谷歌提出了具有自注意力机制的Transformer机器学习模型架构,该架构迅速席卷了整个人工智能研究领域,成为自然语言处理等相关研究的主要方法。2018~2020年先后出现了基于Transformer的BERT、GPT/GPT-2/GPT-3、T5等基于大规模无标注数据自监督学习的大规模预训练算法。这些算法模型均在大数据支持下拥有较大规模模型参数,具备较强的通用能力,可完成多场景任务,显著降低学习成本、提高学习效率。尤其是BERT在十多个自然语言理解任务上的精度大大超过传统算法,掀起了BERTology的研究范式;2019年GPT-2实现了自然流畅的文本内容生成,彼时基于GPT-2的应用Talk2Transformer让人惊艳(当然现在和ChatGPT比起来算是粗糙的了),同时也使笔者坚定了投身生成式人工智能的决心;2020年谷歌的T5将自然语言的翻译、分类、回归、摘要生成等任务都统一转成文本到文本(text-to-text)任务。可以说2018~2020年是大模型的算法创新年,这段时间笔者团队研发了属于我们自己的算法GLM(General Language Model)。
模型之战(2020—2022)。这个时期基于各种预训练模型框架和算法,多种模型如雨后春笋般诞生。2020年的GPT-3(拥有1750亿参数)可以看作这一战的起点,它开启了基座模型的新时代,在语言生成、上下文学习和知识(常识)理解等方面展现出惊人的能力。很多人喜欢把这一年叫做大模型元年。随后全球范围内掀起了一股大模型研究的热潮,谷歌、Meta等公司开始不断发布百亿到千亿的大型语言模型,例如Gopher(2021年)、Chinchilla(2022年)、PaLM(2022年)、Claude(2022年)。但是这些模型都不开源,因此开源大语言模型也开始受到关注,比如Meta的OPT(2022年)、LLaMA(2023年)和HuggingFace的BLOOM(2022年)。国内一直缺少原创的开源千亿基座模型,更重要的是产学研各界对大模型的发展和产业化还没有形成共识,对于应该发展大模型还是转而发展小模型,大家还没有达成统一认识。2022年,清华大学和智谱AI开源了基于GLM算法训练的千亿基座模型GLM-130B,这一工作引起了全世界的关注,包括斯坦福大学、谷歌、OpenAI、Apple、Meta都对该模型进行了深入分析和对比。2022年11月斯坦福大学发布的大模型评测报告,对全球30余个开源模型进行了深入评测,GLM-130B是亚洲唯一入选的模型,在准确性和公平性指标上与GPT-3接近或持平,鲁棒性、校准误差和无偏性优于GPT-3。这一时期,国内外在大模型的研发上可以说是百花齐放。国内如清华大学、北京智源人工智能研究院、百度、华为、阿里、智谱AI等,都竞相追赶。
产业落地之战(2023)。2022年11月30日ChatGPT发布,唤醒了所有人对大模型的认知,大模型开始广为人知。一夜之间,似乎所有人对必须发展大模型达成了共识。大模型的发展不再仅限于模型技术的发展和模型训练本身,更重要的是如何实现模型的产业化应用。大模型开始在各个领域开花结果,在金融、互联网和教育等众多行业落地。得益于GLM-130B基座模型的能力,笔者团队仅用了2个多月,在2023年2月初就研发出了第一代ChatGLM,是国内最早可以线上测试使用的千亿级对话模型;同年8月基于ChatGLM开发的智谱清言通过国家第一批《生成式人工智能服务管理暂行办法》备案认证,正式面向公众上线使用。随后,全国多个产业纷纷投身大模型:短期的做AI升级,原来用分类算法、小模型实现的开始用大模型替代;中期的开始研究自己的定制化大模型。于是各种领域大模型(例如数学大模型、化学大模型、医疗大模型等)以及基于已有算法框架训练注入不同数据训练出的各种模型纷纷推出,一时间形成了“百模大战”的情形。仅此一年,据不完全统计,全国实现大模型初步应用的企业和部门有数千个。2023年是大模型产业落地元年。
一个插曲是2023年3月14日这天(大模型里程碑日),就像事先约好了一样,OpenAI发布了效果再次遥遥领先的GPT-4模型,Anthropic发布了对标ChatGPT的Claude,谷歌推出对抗OpenAI和微软组合的PaLM API服务(Bard),我们开源了ChatGLM-6B,斯坦福大学发布Alpaca,Midjourney发布V5。其中,ChatGLM-6B三个版本的全球下载量超过1300万,在GitHub上总计星标数达到6万,超过Meta的LLaMA两个版本总和;团队也是GitHub公布的星标数超过500、大模型开源项目数最多的五个科研机构之一(前四分别是:Open AI、微软、HuggingFace、谷歌)。2023年笔者团队也有幸获HuggingFace全球最受欢迎的开源机构第五名,超过OpenAI、谷歌、微软,也是国内唯一上榜的机构。更加值得高兴和欣慰的是,我们发现开发者在这些开源模型上,开发出了700多项优秀的大模型开源项目,这也坚定了我们要围绕开发者继续研发新一代大模型、建立大模型生态的决心。2023年3月14日这一天,所有大模型的研究者、产业工程师们都在社交媒体(Twitter等)上欢呼,大模型里程碑日来了。时至今日,那天发布出来的模型都是经典中的经典。
AGI元年(2024)。OpenAI在2024年初推出了文本到视频生成模型Sora,这应该是目前最好的视频生成模型。Sora能够生成一分钟的高精度视频。更重要的是,这让大家看到也许这是构建物理世界通用模型的可能路径。Sora的主要技术思路是用视觉块编码(Visual Patch)的方式,把不同格式的视频进行统一编码,然后用Transformer架构进行训练,并引入类似Diffusion的Unet方式在降维和升维的过程中做加噪和去噪。Sora技术报告提到是一个Diffusion Transformer架构,但笔者团队曾经测试发现该架构与Unet相比有一定差距,因此OpenAI可能在这方面做了较大的改进。此外,OpenAI极有可能在2024年推出下一代模型GPT-5,也许会有全新的代号,无论如何比较肯定的是其认知能力将带来通用人工智能的再一次变革。其下一代模型在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷,实现更精细的语义理解、多模态(文本、图像、语音、视频等)输入和输出,具备更强的个性化能力。此外人工智能的发展会更多瞄向通用人工智能,实现AI的自我解释、自我评测和自我监督,构建超过人类水平的超级认知智能(super intelligence),并且确保模型的表现符合人类的价值观和安全标准。2023年7月,OpenAI公布了由其首席科学家伊利亚·苏茨克维(Ilya Sutskever)和首席强化学习专家詹·雷克(Jan Leike)发起的超级对齐计划(Superalignment),目标就是实现机器自动对齐人类智能和人类价值观,实现模型的自我反思和自我监控。相信在2024年会有更多研究者加入到通用人工智能和超级认知智能的研究中。
GLM-4
大模型经过预训练后可以获得语言生成、世界知识、上下文学习(in-context learning)、代码理解/生成、复杂推理/思维链等能力。OpenAI的GPT系列模型历经三个主要阶段,形成了目前ChatGPT的对话能力。第一个阶段是2018~2020年,OpenAI每年发布一个基座模型版本,直到2020年的千亿基座模型GPT-3,其基础的语言生成能力和零样本泛化能力大大增强。第二个阶段是指令微调,旨在提升模型在各项任务上的泛化能力,要求指令种类足够多,每种指令的例子也要足够多。指令的指数级增长会带来跨域迁移能力的线性增长。单个指令下实例数的指数级增长也会带来该指令能力的线性增长,但也可能使其他指令的能力弱化,因此组合泛化能力尤为重要。例如,给定的指令同时包含摘要、问答、生成代码的指令,模型可以自动将这三项能力混合在一起,同时完成问答、摘要生成、代码生成的任务。可以将指令视为线性代数中的一组基,将不同能力混合在一起实际上就是对线性空间中的基做线性组合或凸组合。模型在没有见过指令时,只能在学到的空间内做插值,而很难外推到没有学习到的基上。第三个阶段是人类反馈的强化学习,这是根据用户反馈通过强化学习优化模型输出。在ChatGPT之后,OpenAI又增强了GPT-4的多模态能力,并通过增强智能体(agent)能力实现了应用商店GPTs。
笔者团队在2020年提出GLM算法框架,从那时起,我们就希望GLM能成为与OpenAI的GPT对标的技术体系。2022年我们发布了GLM-130B千亿基座模型,2023年连续发布了三个对话模型ChatGLM、ChatGLM2、ChatGLM3。2024年1月16日,我们公布了最新的GLM-4,将基座模型和对话模型统一了起来。相比ChatGLM3,GLM-4的性能大大提升,接近GPT-4;支持更长上下文(128 K);支持更强的多模态能力;支持更快的推理速度、更多的并发,大大降低推理成本;同时GLM-4增强了智能体能力。图1展示了GPT系列模型和GLM系列模型的演进历史。
图1 GPT系列模型与GLM系列模型对比
GLM基础能力
我们对GPT-4和GLM-4在若干数据集上进行了全面的测试分析。表1列出了在国际通用英文数据集上的评测结果。第一个数据集MMLU是大规模多任务语言理解的基准,主要评估模型的零样本(zero-shot)和少样本(few-shot)学习能力。该基准涵盖STEM(科学、技术、工程、数学)、人文科学、社会科学等57个科目。它的难度从初级到高级专业水平不等,考验模型掌握世界知识和解决问题的能力。科目范围涵盖从传统领域(如数学和历史)到更专业的领域(如法律和道德)。GSM8K是一个由8500个高质量的语言多样化的小学数学问题组成的数据集,这些问题都是由人类写手创造的。MATH数据集则包含初等代数、代数、数论、计数和概率、几何、中等代数和微积分等领域的多种数学问题,是用LaTeX写的,也就是说并不全是自然语言,而有点像代码阅读。BBH是谷歌推出的一个面向推理的基准测试套件,涵盖了各种AI复杂任务,可以评估语言模型在各种复杂任务上的性能。HellaSwag是一个用于评估自然语言处理模型在常识推理方面表现的基准测试集,由OpenAI团队开发,旨在测试模型解决具有误导性的场景推理问题的能力。它包含70000个多项选择问题,每个问题都涉及两个具体领域的场景。这些问题伪装成可能令人产生错觉的正确答案,目的是测试模型的常识推理能力。在这些数据集上,总体来说GLM-4接近GPT-4。
表1 基础能力评测(英文)
GLM中文对齐能力
在模型实际应用过程中,我们更注重中文的对齐能力。表2列出了GLM和GPT在中文对齐能力方面的评测对比。数据集使用的是AlignBench。在AlignBench上,GLM-4甚至超过了在2023年6月13日发布的GPT-4,逼近GPT-4 Turbo(GPT-4最新版本,2023年11月6日发布)的效果,尤其是在专业能力、中文理解、角色扮演方面甚至超过GPT-4 Turbo的精度,但在中文推理方面的能力还有待进一步提升。
表2 对齐能力(中文,数据集:AlignBench)
GLM长文本能力
GLM-4支持更长上下文窗口能力(128 K),表3对比了GLM-4和国际上效果最好的几个模型,包括OpenAI的GPT-4和Anthropic的Claude2.1。可以看出GLM-4的效果超过了GPT-4和Claude 2.1,接近GPT-4 Turbo。在大海捞针(Needle Test)测试中,在128 K文本长度内,GLM-4模型均可做到几乎百分之百的召回精度(见图2),基本解决了长上下文全局信息因为失焦而导致的精度下降问题。也就是说,单次提示词可以处理的文本可以达到300页,开发者再也不用担心文档太长而无法一次性处理完了。最重要的是,这个技术可以比较容易地扩展到1 M甚至无限长上下文,例如谷歌最近推出的无限长上下文Transformer。
表3 长上下文能力评测(中文,数据集:LongBench、Needle Test)
图2 Needle Test (128 K),全绿表示100%召回精度
GLM多模态能力
GLM-4内嵌了CogView3。CogView是我们从2021年开始研发的文生图系列模型,目前已经推出CogView、CogView2和CogView3三个版本,几乎是和DALL·E的系列模型同期推出。表4列出了CogView3和SDXL、DALL·E3的对比情况。可以看出,在各项指标上,CogView3都明显超过开源最佳的SDXL,与OpenAI最新发布的DALL·E3相当,在对齐、保真、安全、组合&布局等各个评测维度上,CogView3的效果能达到DALL·E3的90%以上。
表4 文生图性能评测(SDXL是开源最佳模型)
GLM智能体能力
GLM-4还有一个全新的功能——All Tools。传统的大模型系统只能用大模型的某一个功能,或者使用提示词激活某个方面的能力。All Tools基于GLM模型的智能体能力,实现根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、代码解释器(code interpreter)和多模态文生图大模型,以完成复杂任务。类似于OpenAI近期推出的GPTs的基础能力,只需一个指令,GLM-4就会自动分析指令,结合上下文选择要调用的合适工具。表5给出了GLM-4和GPT-4的All Tools性能对比:通过自动调用Python解释器进行复杂计算(复杂方程、微积分等),在GSM8K、MATH、Math23K三个数据集上,GLM-4均能取得与GPT-4相当的效果。其中Math23K是一个用于研究机器自动解数学应用题的数据集,包含23162道小学数学应用题及其解题公式,可被用来检验大模型对数字的理解能力。
表5 GLM-4和GPT-4的All Tools对比:代码解释器
表6给出了GLM-4和GPT-4在网页自动浏览以及函数自动调用方面的性能对比。网页自动浏览是指模型自行规划检索任务、自行选择信息源并自动与信息源进行交互。函数调用是根据用户提供的函数描述,模型自动选择所需函数并生成参数,以及根据函数的返回值生成回复。GLM-4支持针对一次输入进行多次函数调用,并支持包含中文及特殊符号的函数名字。
表6 GLM-4和GPT-4的All Tools对比:网页浏览(左)和函数调用(右)
图3展示了一个例子,问题是“查询一下全球近年的GDP。分析这些数据中哪些年份GDP下降了,画折线图并将下降的年份标红”。可以看到GLM-4首先自行决定调用搜索,从网页中找到全球GDP数据,然后选择编写程序实现GDP数据的曲线统计,通过解读“对下降年份标红”,在程序中设置了两种不同的标记方式并画出曲线图,最后给出了对曲线图的解读。可以看出GLM-4已经实现了自动将多个工具无缝整合使用。
图3 GLM-4 All Tools案例:“查询一下全球近年的GDP。分析这些数据中哪些年份GDP下降了,画折线图并将下降的年份标红”
在智能体能力和All Tools工具的支持下,GLM-4实现了GLMs模型应用商店。截至2024年4月20日,已经有20多万应用在GLMs登陆。访问量最高的智能体应用每天支持数万用户访问。GLM-4智能体使任何人都能够运用GLM-4模型并挖掘它的潜力,没有任何编程基础也能够实现大模型应用的开发。
关于AGI的一点思考
当前AGI的研究还面临很多挑战,很多基础理论问题尚未得到根本解决,包括:
1.未来AGI之路在哪里?是多模态预训练模型还是用大模型实现智能的操作系统?
结束语
唐 杰
CCF会士,CCF大模型论坛主席,CCCF前编委。清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任,ACM/AAAI/IEEE Fellow。主要研究方向为人工智能、认知图谱、数据挖掘、社交网络和机器学习。
jietang@tsinghua.edu.cn
CCF推荐
【精品文章】
点击“阅读原文”,查看更多CCCF文章。