随着航天任务愈加复杂,其对实时性和算力的需求增加,太空计算不断发展并向智能化方向发展。本文系统梳理了太空计算自1957年“斯普特尼克1号”卫星发射到当今构建天基大模型和太空超算的发展历程与愿景,讨论了太空计算机制程工艺、体系结构、核心算力等关键技术与指标的迭代,从需求与技术发展两方面分析了太空计算机的演进趋势。针对辐射与极端温变等严苛太空环境,介绍了保障系统稳健运行的冗余容错计算技术和热管理技术。最后,展望太空计算的发展趋势。本文作为CCF容错计算专委会成立四十周年特别纪念文章撰写,以期对我国容错计算研究的发展历程与未来方向加以回顾与展望。
太空计算技术的发展历程,反映了人类探索宇宙与利用太空资源能力的提升。1957年由苏联研制的第一颗人造地球卫星“斯普特尼克1号”,只能发送不同长度的脉冲信号,其等效信息传输量每秒不足4 bit。随着技术迭代,太空计算机正向着更高算力和更广泛的任务领域方向发展。在国内,2024年由武汉大学牵头研制的“东方·慧眼01星”搭载了中国科学院计算技术研究所(以下简称计算所)研制的“极光1000慧眼”星载智能计算机,通过远程上注部署了极光天基大模型JigonGPT;2025年由中国之江实验室提出的“三体星座”可实现主星744 TOPS、十二颗卫星组网可达5 POPS的在轨计算能力;计算所提出全尺寸GPU上天的愿景与关键技术进展;中科天算公司提出“天算计划”,目标是在太阳同步轨道部署由万卡集群组成的模块化、可扩展的太空超算中心。在国际层面,Starcloud提出了构建太空数据中心的构想,并于2025年11月发射搭载了NVIDIA H100的“Starcloud-1”演示卫星,该卫星单星算力达2 PFLOPS,已于12月完成了AI模型的训练和推理任务。
在此背景下,“算力星座”作为新一代太空信息基础设施的概念被提出。算力星座是以天基算力节点卫星为核心,通过星间高速互联形成星座,实现数据在轨计算的太空信息基础设施,代表空天信息处理从“地面依赖”向“太空自主”的跃升。算力星座类似的概念有计算星座等,卫星中很早就有计算部件,传统计算部件提供算力,主要用于控制,如姿态、轨道、遥测指令控制等,主要服务于航天器的基本生存需求,追求高可靠性。随着任务复杂度和数据规模的不断提升,卫星计算的任务领域逐步扩展至支撑遥感、通信等场景,其设计思路开始考虑可靠性与性能、成本的平衡。算力卫星和之前通信卫星、遥感卫星、导航卫星中的算力部分主要区别在于,算力卫星以算力载荷为主要载荷,算力载荷在功能上独立于其他载荷,通常表现出通用性,且具有丰富的软件支撑。算力星座的提出与天基AI、太空超算中心/数据中心等任务场景的出现,异构计算、分布式星座架构技术和先进的系统级容错技术的发展相呼应,太空计算机设计思路不断向追求高算力和智能化方向演进。
本文旨在对太空计算体系结构的演进历程进行综述,首先结合太空探索的发展历程,对早期简单的控制计算机到在轨的智能计算机进行深入剖析,总结了太空计算机核心架构的迭代路径;围绕制程工艺、核心算力、存储带宽、功耗与延迟等一系列关键技术指标,展开了对比分析;针对辐照严重和冷热交变的复杂太空环境,进一步探讨了容错计算与热管理关键技术;最终对大算力上天的未来应用愿景和技术突破路线进行展望。
目前太空计算领域呈现出快速发展的态势,随着大规模低地球轨道(LEO)卫星星座的逐步部署,许多新兴任务引发了数据在多个维度上的增长,正推动航天器向具备数据处理能力的移动边缘计算节点转变。遥感卫星的多光谱分辨率从Landsat-1的79米,提高至WorldView-3的1.2米;感知维度方面,波段数量从4增加到8,该过程带来了单位面积上近九千倍的空间维度数据倍增;合成孔径雷达(SAR)等主动遥感手段也引入了更为复杂的数据。数据量的增长给星地链路带来了极大传输压力,需要寻找更高效的数据处理方式。此外,卫星在突发自然灾害评估、边境和海域巡查等领域的应用对响应的实时性提出了迫切需求,对在轨计算提出了快速响应、高效处理的要求。因此,将计算能力迁移至卫星端,发展在轨执行云检测、目标识别以及天基大模型等技术,成为了应对数据量大幅增长和任务实时性要求提高的有效手段。
然而,将大算力部署于太空,必须克服太空强辐射和极端温度带来的严峻挑战,这需要在资源、性能、可靠性与成本之间进行系统权衡。太空环境中充斥着高能带电粒子,如高能质子、α粒子、重离子等,瞬时高能粒子撞击引发的单粒子效应(SEE),可能导致存储单元或逻辑状态发生瞬时的单粒子翻转(SEU),造成计算错误,也可能会触发单粒子闩锁(SEL),造成元器件大电流烧毁。航天器长期处于辐射环境,会受到总电离剂量效应(TID)的影响,引发半导体器件阈值电压漂移、漏电流增加,造成性能缓慢退化直至永久失效。在温度方面,航天器在轨运行中会经历剧烈的冷热交变,因此太空电子元器件通常需要在?55 °C至+125 °C的宽范围内保持高可靠性与稳定性能。为了对抗严苛的太空环境,传统的太空计算机采用宇航级器件,通过抗辐射加固工艺(RHBP)提高抗辐射性能,借助架构与电路冗余增强太空计算机可靠性。该类器件相对算力较低,热流密度一般不高于10 W/cm2,采用固体式热传导即可满足需求。太空计算体系结构的演进历程中,前期宇航级器件一直占主导地位,但由于航天认证流程的风险规避特性,以及RHBP对成熟、稳定制造节点的依赖,宇航级专用处理器需完成长周期的论证、设计、研制和在轨测试等流程,十年迭代一代,而地面商用处理器遵循摩尔定律,每18个月迭代一代,二者之间长期存在较大性能差异。
随着近年来太空计算对成本和性能需求的增加,采用先进制程的商用现货(COTS)器件成为设计太空大算力计算机的主流技术路线之一。但COTS器件对空间辐射环境高度敏感,其高算力密度也带来了高热流密度。因此,需要通过更有效的冗余设计提高COTS器件可靠性,探索更高效的液态介质热传导方案实现散热。
宇航级和工业级器件均向多核与异构计算发展,BAE Systems公司的宇航级RAD5545单板计算机集成了4个PowerPC架构核心以实现性能提升;工业级器件则更多引入GPU、FPGA等单元,使得系统能够在处理遥感图像分析等并行任务时,实现性能功耗比提升。冗余设计通过在不同层面引入备份以对抗SEE等瞬时故障。宇航级器件的冗余设计已从外部系统级内化到芯片架构内部,工业级器件则更多通过系统层面实现容错设计。2021年,计算所研制的极光1000系列星载计算机采用以CPU、FPGA和NPU为主体的异构架构方案,实现了32 TOPS(INT8)的人工智能(AI)算力,目前已稳定在轨运行超1000天,验证了工业级AI芯片上天的可能性。
在此背景下,太空计算体系结构正在经历技术变革。为了更好地认识这一演进趋势及背后的技术驱动力,本文将以航天发展的重大节点为索引,梳理太空计算体系结构的演进历程。
根据太空计算机核心任务的转变和架构的演进,本文将其发展历程分为萌芽期、探索期、发展期、成熟期、智能化期。作为航天器的核心在轨处理单元,太空计算系统从执行预定指令序列的简单控制器,逐步演进为能够支持自主导航、在轨数据处理与复杂任务决策的智能化计算平台。图1给出了美国、苏联(俄)、中国和欧洲在太空计算技术方面的典型成果,并通过颜色加以区分,以展示全球太空计算技术的整体演进过程。
图1 太空计算机发展历程
太空计算体系结构的演进轨迹以航天任务需求为导向,在太空极端环境与SWaP-C(尺寸、重量、功率和成本)约束下,不断化解算力供给与任务需求间的矛盾。太空计算芯片经历了从分立元件到高度集成的片上系统,从追求极致可靠性到兼顾高性能与高能效的变革。图2展示了从简单到复杂的太空计算机架构,呈现了其通过多节点协同提升系统容错能力与算力的分布式发展趋势。
图2 太空计算机架构演进示意图
萌芽期(1957~1970):早期集成电路技术奠基
这一时期,太空计算主要围绕航天器的导航与制导等基础控制功能展开。1957年,苏联发射第一颗卫星“斯普特尼克1号”,该卫星尚不具备在轨数字计算能力,轨道测算与航天器控制依赖地面计算系统完成。随着太空探索活动的进一步开展,太空数字计算机开始出现。1966年美国研制的阿波罗制导计算机(AGC)是第一台太空数字计算机,成功完成了从地球到月球的导航、制导与控制任务。苏联研制的Argon-11S计算机采用以最小化指令集为核心的专用架构设计,完成了在轨控制任务。同期,中国航天事业实现了自主起步。1970年“东方红一号”卫星成功发射,星上主要搭载信标与广播设备。计算所研制的717计算机在地面完成轨道计算。该时期的应用出现了以地面大型计算机为支撑进行计算和以太空计算机为核心实现自主控制两个技术方向。
表1列出了双子座号飞船数字计算机(GDC)和AGC的设计参数,二者分别是分立元件和小规模集成电路(SSI)应用的代表,都采用了具有非易失性和天然的抗辐照能力磁芯存储器作为可读写内存,因此没有做专门的抗辐照设计。从GDC到AGC实现了从分立元件到集成电路的跨越,使计算机的逻辑密度大幅提升,从而实现算力提升、功耗降低和业务能力的提升,GDC支持双子座飞船完成轨道机动、交会对接等任务,而AGC可以控制飞船完成离开地球轨道并登陆其他天体的任务。AGC还在容错方面做出初步探索,其16位字长中包含1位奇偶校验位,是早期芯片级错误检测的体现。
表1 早期太空计算机
探索期(1971~1990):抗辐射和容错技术的进步
随着人类航天活动从近地短期飞行向深空长期在轨运行拓展,太空计算面临着远距离通信时延、强辐射空间环境以及任务复杂度攀升等多重挑战,推动了太空计算机向高可靠、长寿命和在轨自主控制方向发展。半导体工业和容错技术的发展支持了这一时期的进步。1977年美国发射的“旅行者1号”探测器搭载了由计算机指令子系统、姿态调节控制子系统和飞行数据子系统共同构成的在轨计算系统,内嵌自动故障检测与恢复程序,成功执行了长达数十年的行星探测任务。为应对深空强辐射环境,1989年发射的“伽利略号”木星探测器采用了抗辐射的蓝宝石上硅技术,结合系统级冗余设计,保障了系统在强辐射环境下长期稳定运行。中国的返回式卫星系列搭载数字式控制系统,实现了自主轨道控制与姿态调整,验证了中国在卫星自主化和高可靠控制技术方面的积累。
表2选取了美国航天飞机、苏联“和平号”空间站所使用的代表性太空计算机进行对比。这一时期的工艺制程主要在微米级别,中规模集成电路(MSI)开始被使用,但由于太空应用对可靠性的极高要求,许多设计仍依赖于更成熟但功耗更高的晶体管-晶体管逻辑(TTL)技术。在芯片能力上,实现了字长扩展和主频提高,从而使算力实现大幅提高。性能的提升和复杂的冗余系统也带来了功耗急剧增加的新问题,对热管理提出了要求。太空计算机业务能力持续提升,AP-101B能管理航天飞机从发射、在轨机动、部署卫星到自主再入大气层并着陆的全过程,Argon-16支持空间站长期在轨的姿态控制、生命维持和科学实验管理,实现了航天器从短期任务向长期驻留的转变。
表2 冗余系统出现的太空计算机
发展期(1991~2010):任务驱动算力增长与抗辐照加固技术发展
进入20世纪90年代,遥感卫星发展迅速,以高分辨率成像、高光谱观测、SAR测绘为代表的数据密集型任务需求增大,使太空计算机面临高数据率、复杂数据流处理的压力。半导体工艺迈入超大规模集成电路(VLSI)时代,抗辐照设计技术出现并得到广泛应用。2002年发射的地球观测卫星“Envisat”配备了高级沿轨扫描辐射计、中分辨率成像频谱仪等九台观测仪器,利用多种测量原理收集地球信息,信道传输速率可达100 Mbps。同时期,美国BAE Systems公司开发的RAD750抗辐射处理器每秒可执行数百万条指令,让NASA成功完成深空探测任务。此外,中国的神舟系列载人飞船搭载了完全自主研发的实时操作系统(RTOS),实现了自主创新。
表3展示了发展期几个典型太空计算芯片的代表,CMOS工艺和RISC架构带来了功耗的大幅度降低;算力提升为在轨进行数据处理和图像识别提供基础;抗辐射加固设计(RHBD)技术提高了芯片对SEE的抵抗,降低了数据出错率;功耗降低和冗余结构的减少缓解了热管理压力。整机业务上,装配RAD750的火星车实现了基于立体视觉的障碍规避和路径规划;AT697F作为欧洲中大型卫星平台处理器,为多种遥感任务提供支持;BM3803及其后续改进型支撑了中国首次载人航天、出舱活动以及首次月球环绕探测等里程碑式任务。
表3 抗辐照太空计算芯片
成熟期(2011~2020):COTS器件普遍应用与异构计算兴起
该时期COTS器件凭借成熟生态带来的短开发周期、迭代迅速带来的高性能,以及易于构建异构架构的灵活性受到欢迎,其高集成度进一步优化了系统的SWaP-C指标。欧洲航天局的OPS-SAT以Zynq-7020商用系统级芯片(SoC)为核心,展示了CPU与FPGA在轨异构协同处理的能力。NASA在国际空间站部署的Spaceborne Computer-2,峰值算力超过2 TFLOPS,首次将地面数据中心级别的高性能计算能力引入太空,使实时处理海量科学数据成为可能。
表4列举了成熟期太空计算芯片的典型例子。多核架构使得任务可以被分解并在多个核心上并行执行,提升了处理吞吐量;高集成度的SoC架构提升了片内和片间的数据带宽,降低了系统时延。RAD5545 SBC算力提升至上一代产品的数十倍。SpaceCloud iX5100架构更为灵活,可通过mPCIe插槽扩展AI专用加速器,以适配不同应用场景。
表4 成熟期高性能太空计算芯片
智能化期(2021至今):天基AI与太空超算中心的发展
2021年以来,太空计算向智能化加速迈进。该时期AI算法在地面已被广泛应用,为了利用AI解决太空计算任务,卫星开始搭载GPU、AI加速器等单元,形成太空大算力平台。随着巨型星座的部署,卫星会成为“太空互联网”的一部分,向天基计算网络或太空超算中心/数据中心发展。天基大模型任务对算力要求大幅提升,多种算法层面的容错方案被提出,且辐射引发错误的后果通常是重算,不影响航天器基础控制,因此该阶段太空计算机设计向着更多考虑SWaP-C和寻找新的容错管理方案的方向发展。美国正在打造“芯片-算力-应用”的太空生态闭环,英伟达首次把H100 GPU送上太空,谷歌计划在2027年发射81颗搭载TPU的卫星。计算所使用国产AI芯片在极光1000上实现32 TOPS算力,自研断点续传技术在极光1000·慧眼实现天基大模型在轨部署,中国企业中科天算提出在太空建设超算中心,计划完成通导遥应用的全部在轨实现。表5列举了智能化期部署AI的智能太空计算机典型例子。
表5 部署AI的智能太空计算机
智能化时期太空计算机架构的异构性继续提高。极光1000展示了CPU+FPGA+NPU的异构架构,提供了均衡的通用计算能力和AI计算能力,还能在明确的功耗预算内高效执行复杂任务,实现了高性能与低功耗的平衡。智加G1星载计算机用于“三体星座”卫星,为构建太空网络提供极高算力。极光5000采用超异构计算体系结构,采用12 nm工艺主芯片,完成基于卡群全尺寸GPU的计算机体系结构设计,利用流体回路实现了不低于35 W/cm2的散热能力。
随着COTS器件的广泛使用和架构、算法领域的技术发展,太空计算机算力持续提高,然而,若要进一步发展,仍需突破一系列关键技术。一方面,相比宇航级器件,COTS器件没有电路设计层面的抗辐射设计,且太空计算机算力持续提高,因此需要开发低能耗的容错技术;另一方面,芯片尺寸不断缩小,热流密度增大,需要更高效的热管理技术。
容错计算技术
太空计算系统中,特别是部署在LEO的卫星,正在越来越多地利用COTS器件以实现低成本和高性能的统一。暴露在高辐射环境下,COTS器件面临SEE的威胁,需要通过在软件、架构和算法层面上引入冗余和恢复机制,实现系统的整体可靠性。冗余技术包含空间冗余、时间冗余和信息冗余。
空间冗余通过部署多个功能相同的备份组件,确保在主要组件发生故障时,冗余单元能够替代或纠正其错误,系统能够快速切换到备用组件继续运行。空间冗余技术主要分为模块级冗余和系统级冗余两大类。模块级冗余是在计算系统的功能模块层面引入冗余,例如对处理器核心、FPGA中的功能单元等进行复制,并通过即时表决或比较来屏蔽或检测故障。系统级冗余则通过部署一个或多个备用系统来应对主系统的严重故障。
时间冗余是利用时间维度上的重复执行来实现容错,其方法包括指令级时间冗余和看门狗机制。指令级时间冗余通过在微操作、单条指令、程序段或整个程序级别上重复操作来实现。看门狗机制则通过设置时间限制持续监测系统状态,在预设时间超时后触发强制重启或切换到备份模块的动作,以恢复系统正常运行。
信息冗余是指在原始数据或计算逻辑中添加额外信息,使系统无需重复计算,仅通过这些附加信息进行错误检测和纠正,主要包括数据校验码(ECC)和算法级容错(ABFT)。ECC通过在原始数据中附加校验位,以确保数据在存储、处理和通信过程中的完整性。ABFT利用算法来嵌入容错能力,适用于运行深度神经网络(DNN)等计算密集型任务的轨道边缘计算(OEC)平台。其分类与优缺点分析如表6所示。
表6 冗余技术分类与优缺点分析
热管理技术
随着太空计算系统算力的增加和芯片面积的缩小,处理器在执行计算密集型任务时会产生高密度的热量。以Starcloud-1中搭载的H100-PCIE为例,其芯片面积约为814 mm2,功耗以350 W计算,热流密度约43.0 W/cm2。在地面环境中,此类芯片依赖风扇散热;而太空环境中不存在空气介质,处理器无法依赖空气自然散热。另外,卫星向阳面受到太阳直射,温度会快速升高,背阳面则面向深空,温度可能接近绝对零度。因此,有效的热管理是确保太空计算系统高可靠性和持续高性能运行的必要条件之一,其核心任务是构建一条从热源(芯片)到最终冷源(深空)的高效、可控的热流路径。图3展示了热量从产生到传导、辐射的过程。
图3 太空计算机散热步骤示意图
太空计算系统的热管理分为热传导和热辐射两种方案。热传导是太空计算系统散热的首个环节,其第一步依赖于固体介质,如处理器封装、焊点、热界面材料(TIMs)和卫星结构面板。选用具有高导热系数的材料来构建热路径,减少热接触电阻,可以促使热量从芯片内部高效导出。当发热源与辐射器之间存在较长距离时,液态介质传热更为高效,主要分为被动式的热管技术和主动式的泵驱流体回路。热辐射通过电磁波将多余热量释放到外部空间,分为被动热辐射与主动热辐射两类。被动热辐射依靠固定结构的辐射散热器实现散热,其关键在于选择高发射率、低吸收率的表面材料,并通过合理设计辐射面的面积与朝向,使热量辐射效率最大化。主动热辐射通过电致变色材料等改变辐射面的发射率,在卫星处于地球阴影区时降低发射率以减少热量散失,在太阳直射时提高发射率增强散热,实现温度调控。或者通过调整辐射面的朝向,使辐射面始终朝向深空低温区域,提升散热效率。未来的热管理技术正朝着更高效的材料、更主动的控制方式和更灵活的系统架构发展,以应对下一代太空智能计算带来的散热挑战。表7展示了代表性热管理技术中的常用材料与参数指标。
表7 太空计算平台热流路径各阶段技术
随着太空任务数据量的指数级增长、实时响应需求的持续提升,天基遥感网、导航网、通信网的不断健壮,天数-天网-天算的基础设施不断演进,太空计算已成为天基大模型和太空各种应用的载体,是支撑太空经济的关键支点。
展望未来,太空计算有望在技术发展与任务驱动的共同影响下呈现新的演进范式。首先,在容错与热管理技术的支撑下,更多高性能COTS器件将被用于太空计算场景,结合异构计算架构的持续优化与算力资源调度能力的提升,将进一步提升单星可用算力水平,拓展在轨智能处理任务的复杂度与规模。其次,多卫星协同计算与星间资源分配有望在星间通信与系统调度能力提升的支撑下,实现更高效、精细的星座级算力协同。进一步地,随着在轨算力持续增强,可以构建覆盖全球的分布式在轨算力体系,地面与太空计算协同运行、灵活调度,推动天地一体化计算体系的实现。
作者:
付语萱(上海科技大学) 刘垚圻(中国科学院计算技术研究所) 赵益晟(国科大杭州高等研究院) 李泓辛(北京中科天算科技有限公司) 华更新(北京控制工程研究所) 赵灵峰(中国科学院微小卫星创新研究院) 谭海宁(中国科学院计算技术研究所) 孟范涛(北京中科天算科技有限公司) 许浩博(中国科学院计算技术研究所) 韩银和(中国科学院计算技术研究所)
点击“阅读原文”,加入CCF。
