█唐伟(特约,中国气象局发展研究中心)译
█张定媛田晓阳审校
一、引言
1.人工神经网络
人工神经网络(ANN)是加权非线性函数的互联网络。实现多层连接和训练的人工神经网络可以表示任何非线性函数。它们也为深度学习方法提供了基础。自1980年代后期以来,人工神经网络在气象中得到了应用,包括云分类、龙卷监测预报、雷雨大风、冰雹谱、降水分类、风暴跟踪、雷达质量控制。
2.支持向量机
支持向量机(SVM)也被用于探测和预测龙卷。支持向量机通过核函数将数据转化为非线性空间然后学习这个非线性空间的线性模型。人工神经网络和支持向量机都是灵活和强大的,但想解释它们产生的模型所识别现象的潜在物理机制时通常会遇到困难。对于人工神经网络,通过非线性函数来解释权重是很困难的。对于支持向量机,由于做了数据转换,所以很难识别数据的最重要特征或模型识别的内容。
3.线性回归、岭回归、弹性网络
4.决策树
5.随机森林
6.梯度提升决策树
梯度提升决策树(GBRT)建立了一组使用提升(boosting)进行训练的决策树集合。在随机森林中每个决策树都由同等权重的案例进行同等加权和训练,而梯度提升决策树则在不同加权的数据子集上进行训练,权重由前一个训练步骤的误差残差决定。由于随机森林中每个树的权重相等,因此,随机森林将倾向于回归到预测平均值,因此预测不精确。梯度提升决策树可以解决这个问题,但有时也需要模式后校正。我们通常使用保序回归进行模型后校正。随机森林和梯度提升决策树都提供了度量数据集每个属性的重要性的功能,这被称为变量重要性。在对树进行训练之后,每个变量的数据都重新排列了,并且对排列后的数据和原始数据的性能都进行衡量。最重要的变量是导致性能下降最大的变量。这些重要性估计可以帮助对数学模型进行物理解释。
三、AI在高影响天气上的应用
2.灾害性大风
3.强冰雹
对冰雹的发生和大小的预测需要提前数天或数小时来指导对对流的趋势展望和监测。对流解析模型(CAM)集合可以提供有关风暴强度、位置和演化的信息,但不直接预测地表的最大冰雹大小。基于CAM输出的有关风暴及其环境的信息,利用机器学习模型可以预测冰雹发生的概率和预期的冰雹大小分布。基于机器学习的冰雹预报模型已经在两个CAM集合系统上实时运行,并在HAILCAST诊断和风暴替代变量(如上升气流螺旋性)中已验证。
4.降水分类
近地面气象现象识别计划(mPING)自2012年12月19日发起以来,已经收集了超过110万次观测数据。mPING计划收集的是通过智能手机应用(APP)匿名提交的“降水类型(ptype)”的众包观测数据,还有其他多种天气状况,如洪水、通视障碍、风害、冰雹和龙卷风。研究采用了每个NWP模式输出的湿球温度Tw廓线(从5000m高到地平面)的4种类型。类型1是湿球温度Tw都低于冰点(273.16K);类型2有一个冻结高度,在其表面上的Tw高于冰点;类型3有3个冻结高度,其中有一个抬升的暖层,一个抬升的冷层,以及一个Tw高于冰点的高度;而类型4是“经典”的抬升的暖层剖面,Tw低于冰点。为每个廓线类型计算多个预测因子,包括每一层零上和零下面积,各种冻结高度的高度,冷层和暖层以及整个廓线垂直高度的风切变(纬向和经向(分别为u和v)),每一层相对湿度高于0.8和低于0.8以及平均相对湿度的面积,冷层的最小Tw。每个廓线类型都有不同的预测因子集合,有些预测因子在所有廓线类型中都是通用的。总的来说,类型1的廓线有28个预测因子,类型2的廓线有23个,类型3的廓线有49个,类型4的廓线有38个。
因为每个廓线类型都有不同的预测因子集,所以每个预测因子集都有自己的随机森林。训练数据由随机抽取的80%的数据组成,剩下的20%用于测试。为了减少测试数据与训练数据的交叉,我们抽出了几个小时而非整个观测。这样,训练廓线和测试廓线不会来自同一时次。这些数据是不平衡的,因为雪和雨比冰球和冻雨多。抽样权值和最大树大小通过试错法进行了调整,这样每一个随机森林生成的四个类的偏差就接近1。没有其他的调整。
应用随机森林的方法可以显著改善NWP模式对降水类型的预测。图6是一个快速更新(RAP)模型有明显改进的例子。其中随机森林算法的得分根据较少的案例(测试数据)得到,而快速更新模型的得分基于整个可用的数据集。结果显示,随机森林算法对雨和雪的预测没有多大改善余地,但对冻雨和冰丸的改善相当明显。此外,随机森林算法输出是无偏的,这不同于快速更新模型的后处理输出。随机森林算法还可以提供降水类型的概率信息,这可能对业务预报人员和维护基础设施系统的人员有用。显然,如果有足够的数据,预测降水类型的随机森林方法可以显著改善最棘手的冬季降水类型的预报。
5.可再生能源
对可再生能源的预测是高影响天气预报的另一个例子。该预测可以帮助人们使用清洁的、局地可用的、多变的可再生资源来替代化石燃料能源。因为风能、水和太阳能资源都是变化很快的,因此通过预测可以提前部署可再生能源和其他能源的混合使用,确保可靠、高效和经济的能源使用。公用事业公司需要各种尺度的预测,本研究介绍其中两个较短尺度的预测:未来3-6小时短临预报,以及提前一天的预测(可以延伸到72小时来覆盖周末)。要将可再生能源混合到电网中,以实时满足电力负荷,短临预报是非常必要的。提前一天的预测被用于计划单位分配和与其他公用事业公司的交易能源。最近的一些研究试图通过隐式和显式的方法来识别流型和预测太阳辐照度的变化。隐式方法采用回归树方法,采用嵌入的最近邻方案来预测确定性的辐照度和它的可变性。使用k均值聚类和训练人工神经网络对每个集群进行显式的流型识别,比在整个训练数据集上训练一个单一的人工神经网络有所改进。这些统计预测方法的表现优于“智能持久性”方法。与其他临近预报产品相比,在第一个小时中,统计预测方法的表现优于其他所有产品,如图7所示。
提前一天的预测方法采用AI模型对NWP模式进行后期处理,并面向观测进行校正。常用的后处理方法包括人工神经网络和混合优化方法。动态综合预测(DICast)系统首先应用动态模型输出统计方法,然后优化混合。该系统对风能和太阳能的预测至少提高了15%。
对于真正的决策支持,只有风速或总辐射率预测对公用事业公司和电网运营商是不够的,他们实际上需要功率预测。尽管风力涡轮机和太阳能电池板的制造商提供了平均功率曲线,但由于地形高程、湍流和其他因素的变化,它们并不能完美地代表一个地点产生的实际电力。因此,训练AI方法将风或总辐射率转化为电力,可以为特定的地点提供更好的电力预测,并且不会像采用太阳辐照的替代方法那样还需要详细元数据。国家大气研究中心(NCAR)成功地将cubist回归树方法应用于风能和太阳能预测。
AI方法现在已直接为世界各地的公用事业公司和电网运营商提供决策支持,并增加了可再生能源资源的部署。本节中描述的所有方法都已被公用事业公司业务应用。通过这种方式,提高可再生能源的使用率,可以提高能源安全,减少能源生产用水,降低二氧化碳和其他污染物的排放,从而为全球提供清洁的可持续能源。
6.航空湍流
尽管人类所关心的恶劣天气大多发生在地表附近,但远离地表的地方也可能同样危险。商业航空受到各种灾害性天气的影响,包括超低温液态水导致的机身结冰、冰水含量高区域的发动机熄火、冰雹、闪电和大气湍流。从运行的角度来看,湍流是最主要的航空危险源之一。在湍急的涡流中飞行会导致飞机从一边到另一边上下颠簸,使乘客和机组人员感到不舒服,有时会使人员受伤或飞机损坏。湍流是由低稳定性地区的风切变造成的,这可能是由于急流和锋面、地形波或对流引致的重力波断裂,或雷暴的上升气流和下沉气流造成的。由于湍流通常是一种小尺度的、随机的现象,因此很难预测,甚至临近预报也难以预报出来。此外,NWP模型一般不能够准确预测航空尺度的湍流,而其输出变量如次网格湍流动能(TKE)在预测飞机的湍流方面也没有什么技巧。
四、讨论
现代AI技术在高影响天气预报中的应用,提高了我们筛选大量数据的能力,从而可以对预报员和决策者做出准确及时的指导。AI技术建立在传统的方法,例如模型输出统计方法上,通过提供更灵活和强大的模型,能够识别大量建模和观测到的天气特征或导出量之间的复杂关系。此外,AI方法可以很容易地直接预测高影响天气的影响,如太阳能或风能等可变资源产生的电能在某一地区的能源消耗,或机场到达能力。
本文提出了一个有趣的问题,即自动化指导在预报中的作用。虽然我们已经证明了AI/数据科学技术可以用来显著提高各种高影响天气领域的预测,但这不仅仅是将这些技术引入业务的问题。预报员必须能够相信这些技术所产生的预测,正如在灾害天气试验台-概率灾害信息实验中已经证明的那样。
对于常规天气变量(如温度和降水)的预测,NWS目前使用的是一种“人工介入”的模式,预报员主观上混合并调整多种数据资源。在局地效应对预测影响更大的情况下,地方气象台的预报员经验为预测提供了有用价值。NWS的天气预报中心对整个美国的气温和降水做预报,现在预报员的预报能力要比降尺度的、订正后的气温和降水集合预报差得多。NWS对飓风轨迹的官方预测,也比加权集合预报表现更差。在不同的气象机构之间的预测和警告之间也存在空间不连续的问题。包括WeatherCompany公司在内的私营气象公司,在一个“无人化”的模式下运行。在此模式下,由用户根据需要来自动生成一种最佳的模型输出误差订正融合预报,而预报员只需要添加过滤器和限定词来解释观测到的短期偏差或数据质量问题。这种方法很容易规模化应用,只需要一个由气象学家组成的小团队来监督一个高度自动化系统即可。这种高度自动化的方法的缺点是,预报员可能会脱离预测过程,并且在自动化预报失败时很难采取适当的纠正措施。
通过研究在高影响天气情况下不同机器学习方法的误差特征,研究人员和预报员可以确定何时应该信任自动指导,何时需要斟酌。本文提出的方法能够将物理知识与自动化校正相结合,在信息过载的时代发挥关键作用。