解决方案概述

从技术的角度来看,WRF其实就是一个高性能计算平台,采用 Fortran90 语言开发,并开放源代码。同时具有的可移植,易维护,可扩充,高效率,方便等特点。 采用高度模块化,并行化和分层设计技术,在预报各种天气中都具有较好的性能。

WRF可以运行在AWS 的官方 HPC 框架AWS ParallelCluster (https://github.com/aws/aws-parallelcluster) 上,并能方便的是使用开源现代作业调度程序 Slurm (https://github.com/SchedMD/slurm)进行基本的集群操作。当然 ParallelCluster 也可以支持 sge, torque, aws batch等多种作业调度系统。Cloud HPC 正在快速增长, 然而,快速敏捷地在云中编排 HPC 集群也绝非易事,许多 WRF用户来自科学和工程领域,并且没有接受过 IT 和系统管理技能的培训。同时关于在云端建立HPC 集群的文档很少,在搭建集群时可能会面临非常陡峭的学习曲线。而借助ParallelCluster框架可以快速地启动 WRF HPC 集群。

由于ParallelCluster 可以地在AWS EC2多种实例类型和存储类型(例如EC2 c5n (https://aws.amazon.com/about-aws/whats-new/2018/11/introducing-amazon-ec2-c5n-instances/)、FSx for Lustre (https://aws.amazon.com/fsx/lustre/)以及即将推出的EFA) (https://aws.amazon.com/about-aws/whats-new/2018/11/introducing-elastic-fabric-adapter/)进行选择,为不同的使用场景提供了灵活的备选方案。例如HPC计算节点选择ARM CPU还是 Intel CPU?存储选择 EBS还是 FSx?

从成本的角度,借助于基于ARM系统的Gravition2实例,在获得巨大算力的情况下,也能缩减HPC集群的成本。另外,参考ARM 社区测试结果 https://community.arm.com/developer/tools-software/hpc/b/hpc-blog/posts/assessing-aws-graviton2-for-running-wrf, 最终 “如果WRF 选择c6g 实例类型,价格比同等配置的 c5 实例低 20%。就每次模拟的成本而言,意味着成本至少比 c5 实例低 45%。”