付昊桓教授:超智融合赋能地球模拟,洞见未来气候轨迹丨GAIR 2025



超算性能的突破与人工智能的深度融合,让全球气象预报从「风云莫测」走向「变幻可测」。

作者丨张夏宁

编辑丨胡敏

12月12日,第八届 GAIR 全球人工智能与机器人大会于深圳正式拉开帷幕。

本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席。

作为 AI 产学研投界标杆盛会,GAIR自2016年创办以来,始终坚守 “传承+创新” 内核,是 AI 学界思想接力的阵地、技术交流的平台,更是中国 AI 四十年发展的精神家园。过去四年大模型驱动 AI 产业加速变革,岁末年初 GAIR 如约而至,以高质量观点碰撞,为行业与大众呈现AI时代的前沿洞见。

本次峰会之上,清华大学深圳国际研究生院长聘教授,国家超算深圳中心副主任付昊桓以“超智融合支撑下的地球系统模式研发”为主题,为参会者们带来了一场精彩纷呈的开场报告。

付昊桓教授在讲座上分享了超算在地球系统模式研发中的应用、发展历程、成果及面临的挑战,他认为超算与大模型开发具有很多相似之处,同时在地球系统模式的研发当中,超算还要面临如何应对时空分辨率提升所带来的算力需求指数级增长,以及如何利用AI进一步高效利用多源观测数据等挑战。

付昊桓教授介绍到,近些年来神威等国产超算系统的性能增长,支撑了地球系统模式时空分辨率的显著提高,实现在一公里层级左右达到一年每天的全球气候模拟速度。

他表示,地球系统模拟可以利用超算研究全球气候变化,以科学模型支撑防灾减灾,并期望在未来可以做到数值智能双驱动的大湾区百米级气象预报系统,以百米级的精度构建下一代大湾区气象模型。

最后,付昊桓教授总结道:“超算和智算思维类似,都是聚全力于一点,用最强算力形成技术的突破和创新,过程中工具需最大限度自动化,性能、效率、规模和稳定性缺一不可。”


讲座完整视频,详见链接:https://youtu.be/dw4tRbvoENY

以下是付昊桓的现场演讲内容,雷峰网作了不改变原意的编辑及整理:


01

为什么需要用超算模拟地球?

今天非常荣幸参加此次活动。众所周知,超算的传统使命是用整台机器的资源来解决单一核心问题,而地球系统模拟正是超算的经典应用之一。为什么要用超算来做地球模拟?因为科学家无法在真实的地球上进行实验。研究化学、物理等学科,可在实验室内便捷地开展实验,但如果研究当前备受关注的碳达峰、碳中和、气候变化,以及未来台风是否会增多等地球气候的问题,就必须借助超算构建地球的数字孪生模型来进行实验。因此,基于超算的地球系统模式对于研究全球气候变化、防灾减灾,乃至可持续发展都具有重要意义。

这也关联到近期备受关注的气候谈判。在各种国际场合,气候变化也已演变为一个政治议题,各国围绕未来的碳中和计划、如何减排、减排多少等议题进行磋商。此类谈判同样需要模型支撑。由此可见,地球系统模式在众多方面发挥着重要作用。


图中左上角展示的是全球的地球系统模式的比较,汇总了全球各国的不同模式在过去近百年气候变化曲线的模拟结果。可以看到,各模型的模拟结果之间存在差异。如何进一步降低模型的不确定性?首先,是提升模式的时空分辨率。例如,深圳的下一代气象模式,我们目标将其时空分辨率提升至100米。这样,在台风来临时,就能更精准地研判台风对整个城市的具体影响,但同时这会带来计算需求的指数级增长。

其次,是新的AI方法。我们对地观测正在产生海量科学数据,除了用传统的数据同化方法将数据引入模型外,如何利用AI方法是一大方向。

与此同时,超算架构也在发生巨大变化,特别是2010年以来,我们从同构多核转向了GPU。规模上,也从百万核发展到千万核。当前所有的超算,包括国产超算,除了提供传统的双精度、单精度浮点算力,也集成了强大的AI算力。如何有效利用AI性能变得非常重要,这些发展也带来了新的挑战。

02

挑战:指数级增长的算力需求与架构变革

第一个挑战是,计算机在向前发展,科学也在进步,我们如何解决越来越复杂的模型与机器之间的适配问题?另一个挑战是观测数据。太空中约有千余 颗卫星在进行科学观测,相当于地球每天在进行高精度“自拍”,如何融合这些数据,AI都可以发挥重要作用。


接下来,我简要介绍我们在地球系统模拟,或称数字孪生地球方面,于国产超算上开展的一些工作。首先介绍神威系列超级计算机。大家可能从新闻中有所了解,1998年的首代神威1,为国家气象局建造,服务于1999年50周年国庆阅兵的气象保障。当时它还是基于英特尔X86架构的机器,排名不高。而神威在国内外引起关注,始于济南的神威·蓝光。这是第一台完全采用国产处理器打造的超算,当时吸引了许多美、日专家前来考察。


而真正凭借全国产处理器获得世界第一的,是无锡的神威·太湖之光超算。其CPU内核完全自主研发,采用了全国产的众核片上融合异构架构,分为四个核组,每个核组由一个主核和一个8×8的从核阵列组成,集成了管理与高密度计算器件。连续四次获得世界第一的神威·太湖之光,也是全球首台峰值性能超过100 Pflops的机器,并行规模达一千万核。


这台机器问世之初曾面临一个挑战:由于采用了全新的国产架构,没有可直接在其上运行的大型复杂科学计算程序。因此,我们花了三到五年时间,在神威的国产生态上开发了200多个可扩展到百万核并行的应用。我们还发展了50余项可充分利用整机的新应用。对于程序员而言,使用一台一千万核的机器,如同现在用上万张显卡训练大模型,既是巨大挑战,也极富成就感。神威超算系列有10余项应用入围国际高性能计算应用最高奖“戈登·贝尔”奖,其中3项获奖。


这里列出了一些主要的全新应用领域,涵盖今天讲的地球系统模拟,以及工业仿真、当前备受关注的生物材料、图计算、生物医药数据分析、量子计算、高能物理、天文等,相关一系列生态正在神威平台上逐步建立起来。


这是我们2015年在神威上完成的第一个项目,即全系统地球系统模式的移植,包括大气、海洋、陆面、海冰及耦合器,将其整体迁移到新机器上运行。这项约百万行代码的移植工作,由清华和北师大组成的二十多人团队完成,并在该机器上实现了百万核规模的高效扩展。


如此复杂的地球系统模式移植本身是一个典型的复杂软件工程。因为程序本身复杂,涉及百万行代码,需在新机器上运行,且计算分布不均,需对整个代码进行优化与重构。而且该程序与新架构不适配,需进行全新设计。这类科学计算程序运行与大模型训练非常相似,需要在全机规模运行一个月甚至数月,对机器稳定性、I/O及整个系统都是巨大挑战。最后一个挑战是交叉型人才匮乏,难以找到既懂气象又懂HPC的人。近年来又面临一个新挑战:培养出的这类人才,很快便被从事大模型的公司挖走,因为能胜任这种规模系统调优的人,所面临的挑战与大模型领域高度相似。


在这个基于国产超算的模式研发项目中,我们的第一步是对整个程序进行重构与优化,针对这个复杂模型,我们分不同部分处理,例如其中的动力学部分、求解器部分,这些是相对程序员易懂的部分,我们进行了手动分析和优化。

另一部分是模型中的物理过程,包括云微物理过程、降水过程、辐射过程等。这对程序员是很大的挑战,因为他们不了解背后的物理机制。因此,我们主要借助自动化工具,对循环进行自动变换,以适配新架构。


经过初步重构优化后,我们基本实现了百万核规模的扩展,达到了每天模拟约三年气候的速度。


03

从“刻画现象”到“驱动未来”

在2017年,我们在此基础上进一步重新设计了整个模型。所谓重新设计,就是针对神威处理器架构的特点,对算法、数据排布、计算过程、并行过程进行全面优化。

由于受生态限制,气象领域代码大多用Fortran编写,所以我们第一步是将Fortran重写为C,因为当时我们底层编写的Athread没有Fortran接口。转换成C之后,再开展底层优化,从而能够控制DMA、向量化,并实现Register Communication。


通过这种方式,我们才能真正实现对这一新处理器架构的利用。我们的一个神威核组(64个从核),在计算密集任务中,可相当于数个至四十多个英特尔核的性能。


2017年,我们的这项工作也入围了“戈登·贝尔”奖,这副图片是我们当时对卡特里娜飓风的模拟,其中展示了热带气旋逐渐形成、逼近美国大陆及消散的过程。这是我们首次尝试利用气候模型对此类台风、飓风现象进行较准确的刻画。


之后,我们利用这个模型支持了清华大学的气候系统模式,参与前述的国际模式比较计划。这套数据显著提升了对热带气旋的模拟能力,我们也吸引了美国国家大气研究中心(NCAR)的科学家合作,在神威上开发了高分辨率地球系统模式,并利用该模式生产了全球首套约750年的高分辨率气候模拟数据,供国际使用。


第二步,基于神威·海洋之光,我们进一步向公里级的地球系统模拟探索。海洋之光是神威·太湖之光处理器架构的演进,仍采用核组结构,但核组数从4个增至6个,每个核组仍是一个主核带64个从核。因为数据的缓存和移动能力至关重要,每个从核内部的缓存架构都得到了提升,因此存储和整体计算性能也得到了进一步提升。


在此基础之上,我们致力于将全球气候模式的分辨率提升至5公里级。图片展示的是我们2023年的工作,相比2015年首次移植CESM时,科学家已对气候模拟做了大量改进,推出了新版本,这个新版本又需要移植到新的超算上。基于前期经验,我们采用了一种“非侵入式的代码并行化方案”,核心是基于OpenMP的O2ATH Thread方案,自动将代码转换为Athread接口,从而完成了整个代码主要的并行化工作。


我们在2023年完成了这项三周内的模式移植探索(a three week porting experiment),从CESM 1.3 到 2.0,代码约有30%到40%的变动。我们通过这种自动化方式,在三周内完成了这套代码在新超算系统上的重构与调优过程。

这次工作使性能从最初的每天约模拟5天,提升到最后每天可模拟半年,并且是在全球5公里大气、3公里海洋的分辨率下实现。2024年,我们进一步引入AI能力,实现了AI增强的全球1公里分辨率,称为无缝隙的天气气候模式。它既可进行短时天气研究,也可用于长期气候研究,这也是我们开展此项工作的初衷。


大家看到的这几张图,a图名为“Blue Marble”,是NASA宇航员在飞船内拍摄的第一张完整地球照片,细节丰富。右上方c图是1965年首位因气候模型获得诺贝尔物理学奖的真锅淑郎等科学家提出的模型,分辨率约数百公里,较为粗糙。最后一张图是我们2024年实现的公里级模型,可见其对气候过程的刻画已非常接近遥感卫星实时采集的图像,为HPC与AI进一步融合提供了良好基础。


该模型在极端降水的模拟方面效果显著。



在新神威上,模型在弱扩展和强扩展方面均取得了良好的scaling能力。特别在集成AI能力后,可以实现接近全机规模的扩展,同时达到一年每天以上的模拟速度。


这张图小结了我们多年来在地球系统模拟方面的进展,包括美国、日本和中国超算在该领域推进的工作。图中横轴代表模拟分辨率,纵轴代表模拟速度。分辨率的提升意味着计算量以四次方增长。我们希望在提升分辨率的同时,加快模拟速度,目标是向图右上角推进。目前,我们大致可以在约1公里分辨率下达到接近一年每天的模拟速度。


这是我们今年的最新工作,集成了之前在大气、海洋等方面的工作。在与崂山海洋实验室合作的这个工作中,联合团队实现了一个名为“AI驱动的高性能便携式地球系统模型”(AI-Powered Performance Portable Earth System Model),这项工作也入围了今年戈登·贝尔奖气候建模类别的最终提名。


04

展望:超算与智算的融合演进

接下来谈谈深圳超算二期。前面已部分提及,近期大模型发展如此迅速,其背后是AI的Scaling Law。其实在超算领域也是同样的核心逻辑,即通过高速互联将所有处理器连接成整体,形成庞大的计算资源,用以求解极其复杂的问题。这与用数万张卡训练大模型的本质相同,其背后需要高度并行可扩展的算法,以及能与算力增长匹配的模型复杂度。

另一个难点在于,超算上运行的多是科学与工程计算,其背后是科学和工程领域的数理方程。因此,算力、软件必须与科学发现协同发展。


我简单做了一个AI与科学计算领域的比较。在通用人工智能领域,过去这些年我们确实看到了近乎线性的有效扩展。其背后是Transformer这一目前业界近乎标准、非常适合并行的强力方法。它与GPU架构高度共生,形成了一套生态。数据方面,拥有大量公开数据集,并有良好的软件和人才生态。

现在所有AI会议几乎是计算机学术会议中参与人数最多、发文量最大的,自然吸引了大量研究人员。相比之下,科学计算的优势在于其背后是可解释的科学规律,是科学理解转化的方程和模型。但其缺点是代码复杂、并行难度高、演进缓慢。

培养一位能进行数理方程建模的研究者需时较长。算力主要依靠国产算力,大约从2013、2014年开始,我们主要基于神威·太湖之光等国产超算。此外,还存在公开数据集少、标注难、软件生态不完善,以及刚才提到的人才流动性大等问题——超算培养的人才常被大模型团队吸引。


回到国家超算深圳中心。在我们2010年一期系统基础上,二期系统即将上线。时隔15年,其效率将实现巨大提升,从原来的P级峰值双精度计算性能,提升至预期Linpack持续测试性能达到双精度2个E,单精度4个EFlops。

该处理器还支持INT 8计算,若换算为INT 8,整机可支持32 EFlops,理论峰值约40 EFlops。深圳超算二期将与鹏城云脑三期背靠背放置。深圳超算二期是传统超算,云脑三期是AI超算,两台机器间有高速光纤互联。如此大规模的传统超算与AI超算相连,在全世界可能也属首例,我们也很期待能探索其在计算上的全新应用。


国产先进CPU的双精度浮点算力较高,同时,它既可以做高精度的双精度浮点计算,又可以做 AI 的计算,当然这也是一个非常高密度集成的方案,最后是 2 万多节点可以提供持续大概2E以上的计算性能。


此图展示了初步的应用成果。在气象常用应用,如WRF或海浪预报中,均取得了显著的性能提升,尤其得益于芯片集成的片上内存带来的高带宽。


我们也准备这台机器上尝试HPC与AI融合的气象模型。例如,我本人主持的一个项目是在这台超算上尝试构建千万核可扩展的、公里级的我国区域海陆气候模式预测系统,核心目标是进行汛期预报,比如在3月份预测我国区域整个汛期(6、7、8月)的降水情况。这是一个非常困难的问题,包括当前的新型气象大模型也未能很好解决。我们已开始相关优化工作。非常期待高精度模拟与数据驱动大模型结合能产生何种效果。


在深圳我们希望推进的另一项工作,是构建“国产新一代数值智能双驱动大湾区百米级气象预报系统”,包括百米级高精度数值模拟、AI辅助的大样本集合预报与数据同化技术,以及数值模型与AI模型双驱动。


最后总结几点。从我作为一名超算研究者的角度看,超算与智算的思维非常相似,都是聚全力于一点,用我们最强算力的方式去形成技术的突破和创新。在这个过程中,我们所需的工具也需最大限度地自动化,如代码迁移、移植、生态运转等。在所有这些大型计算任务中,性能、效率、规模和稳定性缺一不可。如今,易用的生态愈发重要。重大问题的牵引始终是超算发展的核心驱动力,需要硬件与软件协同发展。最后,正如之前提到的,我们亟需跨领域复合型人才,并具备系统思维。

我今天的分享就到这里,谢谢大家。

05

对话付昊桓:数值计算与 AI 的深度共生

下面是在演讲之后,付昊桓教授的专访以及现场观众的问答环节:

雷峰网:您现在在超算这边,最核心想做的事情到底是什么?

付昊桓:其实如果从一个比较抽象的层面来总结,我们现在最核心想推动的一件事,就是数值计算和人工智能的深度融合

地球系统只是一个比较典型、也比较容易被大家理解的例子,但并不是唯一的应用场景。类似的问题,其实在很多科学计算领域都会遇到,比如具身智能、生物医药、材料科学等等。只不过地球系统的复杂性、跨尺度挑战和社会影响都非常突出,所以它经常被拿出来讨论。

我们并不是说要单独把 AI 拿出来做一个“更聪明的模型”,也不是简单地去提升某一个模型的精度,而是希望从根本上去思考:在科学计算这样一个长期以数值模拟为核心的方法体系中,AI 到底应该以什么样的方式介入,才能真正改变我们理解和预测复杂系统的能力。

雷峰网:那为什么地球系统会被您反复作为一个核心例子?

付昊桓:因为地球系统本身,几乎把科学计算中最难的几个问题都集中在了一起。首先,它是一个典型的混沌系统。我们常说的蝴蝶效应,本质上讲的是系统对初始条件的高度敏感性。哪怕是一个非常微小的扰动,在经过足够长的时间和足够复杂的相互作用之后,都可能对整体状态产生显著影响。

其次,它是一个极端多尺度的系统。比如说,台风这种现象,可能发生在几十公里的尺度上;而降水、对流,往往是公里甚至百米尺度;再往下,还有更微观的过程,发生在米级甚至更小的尺度上。

更重要的是,这些不同尺度的过程,并不是彼此独立的,而是相互耦合、彼此影响的。你不能只算大尺度而忽略小尺度,也不能只盯着局部而不看整体。正是这种“所有尺度连在一起”的特性,使得地球系统成为一个非常典型、但也极其困难的研究对象。

雷峰网:今年我们观察到市场关于算力讨论比较多,就像算力泡沫的这样声音一直存在,而国内一些上市公司的算力项目也出现延期或者终止的情况。但是另一方面,头部科技公司的资本支出一直在高速增长。所以想请教您怎么去判断当前整个算力市场的一个供需的情况?

付昊桓:其实我自己不是做算力的,但是我们超算培养的很多科研人员,现在确实在做算力。我觉得这里面有一个问题我觉得大家需要去关注,就是算力的投入,到底是不是投硬件就够了?特别是我们国产算力这一块。比如从超算的角度来讲,长期以来都是硬件的投入比较大,但是软件的投入相对比较少,我想国产的AI算力可能也面临这么一个问题。

刚才也提到了其实 GPU 的生态从大概从 CUDA 推出的 2008 年,到现在已经是十几年的发展才到现在这样,背后其实英伟达投了大量的资源来做这个生态,所以你说是不是应该大家都去投算力?还是说我们跟应用贴的更近的,应该多投一点资源来做相应算力的软件生态,特别是基础框架的软件?我感觉这块做的人可能相对还是比较少。

至于说这个算力到底够不够,我感觉对我们科研从业人员来讲可能还是不太够。至于说产业发展角度够不够,因为我不在这个行业里面,我也很难给出准确的判断。


nginx