中国气象图书馆

█唐伟(特约,中国气象局发展研究中心)译

█张定媛田晓阳审校

一、引言

1.人工神经网络

人工神经网络(ANN)是加权非线性函数的互联网络。实现多层连接和训练的人工神经网络可以表示任何非线性函数。它们也为深度学习方法提供了基础。自1980年代后期以来,人工神经网络在气象中得到了应用,包括云分类、龙卷监测预报、雷雨大风、冰雹谱、降水分类、风暴跟踪、雷达质量控制。

2.支持向量机

支持向量机(SVM)也被用于探测和预测龙卷。支持向量机通过核函数将数据转化为非线性空间然后学习这个非线性空间的线性模型。人工神经网络和支持向量机都是灵活和强大的,但想解释它们产生的模型所识别现象的潜在物理机制时通常会遇到困难。对于人工神经网络,通过非线性函数来解释权重是很困难的。对于支持向量机,由于做了数据转换,所以很难识别数据的最重要特征或模型识别的内容。

3.线性回归、岭回归、弹性网络

4.决策树

5.随机森林

6.梯度提升决策树

梯度提升决策树(GBRT)建立了一组使用提升(boosting)进行训练的决策树集合。在随机森林中每个决策树都由同等权重的案例进行同等加权和训练,而梯度提升决策树则在不同加权的数据子集上进行训练,权重由前一个训练步骤的误差残差决定。由于随机森林中每个树的权重相等,因此,随机森林将倾向于回归到预测平均值,因此预测不精确。梯度提升决策树可以解决这个问题,但有时也需要模式后校正。我们通常使用保序回归进行模型后校正。随机森林和梯度提升决策树都提供了度量数据集每个属性的重要性的功能,这被称为变量重要性。在对树进行训练之后,每个变量的数据都重新排列了,并且对排列后的数据和原始数据的性能都进行衡量。最重要的变量是导致性能下降最大的变量。这些重要性估计可以帮助对数学模型进行物理解释。

三、AI在高影响天气上的应用

2.灾害性大风

3.强冰雹

对冰雹的发生和大小的预测需要提前数天或数小时来指导对对流的趋势展望和监测。对流解析模型(CAM)集合可以提供有关风暴强度、位置和演化的信息,但不直接预测地表的最大冰雹大小。基于CAM输出的有关风暴及其环境的信息,利用机器学习模型可以预测冰雹发生的概率和预期的冰雹大小分布。基于机器学习的冰雹预报模型已经在两个CAM集合系统上实时运行,并在HAILCAST诊断和风暴替代变量(如上升气流螺旋性)中已验证。

4.降水分类

近地面气象现象识别计划(mPING)自2012年12月19日发起以来,已经收集了超过110万次观测数据。mPING计划收集的是通过智能手机应用(APP)匿名提交的“降水类型(ptype)”的众包观测数据,还有其他多种天气状况,如洪水、通视障碍、风害、冰雹和龙卷风。研究采用了每个NWP模式输出的湿球温度Tw廓线(从5000m高到地平面)的4种类型。类型1是湿球温度Tw都低于冰点(273.16K);类型2有一个冻结高度,在其表面上的Tw高于冰点;类型3有3个冻结高度,其中有一个抬升的暖层,一个抬升的冷层,以及一个Tw高于冰点的高度;而类型4是“经典”的抬升的暖层剖面,Tw低于冰点。为每个廓线类型计算多个预测因子,包括每一层零上和零下面积,各种冻结高度的高度,冷层和暖层以及整个廓线垂直高度的风切变(纬向和经向(分别为u和v)),每一层相对湿度高于0.8和低于0.8以及平均相对湿度的面积,冷层的最小Tw。每个廓线类型都有不同的预测因子集合,有些预测因子在所有廓线类型中都是通用的。总的来说,类型1的廓线有28个预测因子,类型2的廓线有23个,类型3的廓线有49个,类型4的廓线有38个。

因为每个廓线类型都有不同的预测因子集,所以每个预测因子集都有自己的随机森林。训练数据由随机抽取的80%的数据组成,剩下的20%用于测试。为了减少测试数据与训练数据的交叉,我们抽出了几个小时而非整个观测。这样,训练廓线和测试廓线不会来自同一时次。这些数据是不平衡的,因为雪和雨比冰球和冻雨多。抽样权值和最大树大小通过试错法进行了调整,这样每一个随机森林生成的四个类的偏差就接近1。没有其他的调整。

应用随机森林的方法可以显著改善NWP模式对降水类型的预测。图6是一个快速更新(RAP)模型有明显改进的例子。其中随机森林算法的得分根据较少的案例(测试数据)得到,而快速更新模型的得分基于整个可用的数据集。结果显示,随机森林算法对雨和雪的预测没有多大改善余地,但对冻雨和冰丸的改善相当明显。此外,随机森林算法输出是无偏的,这不同于快速更新模型的后处理输出。随机森林算法还可以提供降水类型的概率信息,这可能对业务预报人员和维护基础设施系统的人员有用。显然,如果有足够的数据,预测降水类型的随机森林方法可以显著改善最棘手的冬季降水类型的预报。

5.可再生能源

对可再生能源的预测是高影响天气预报的另一个例子。该预测可以帮助人们使用清洁的、局地可用的、多变的可再生资源来替代化石燃料能源。因为风能、水和太阳能资源都是变化很快的,因此通过预测可以提前部署可再生能源和其他能源的混合使用,确保可靠、高效和经济的能源使用。公用事业公司需要各种尺度的预测,本研究介绍其中两个较短尺度的预测:未来3-6小时短临预报,以及提前一天的预测(可以延伸到72小时来覆盖周末)。要将可再生能源混合到电网中,以实时满足电力负荷,短临预报是非常必要的。提前一天的预测被用于计划单位分配和与其他公用事业公司的交易能源。最近的一些研究试图通过隐式和显式的方法来识别流型和预测太阳辐照度的变化。隐式方法采用回归树方法,采用嵌入的最近邻方案来预测确定性的辐照度和它的可变性。使用k均值聚类和训练人工神经网络对每个集群进行显式的流型识别,比在整个训练数据集上训练一个单一的人工神经网络有所改进。这些统计预测方法的表现优于“智能持久性”方法。与其他临近预报产品相比,在第一个小时中,统计预测方法的表现优于其他所有产品,如图7所示。

提前一天的预测方法采用AI模型对NWP模式进行后期处理,并面向观测进行校正。常用的后处理方法包括人工神经网络和混合优化方法。动态综合预测(DICast)系统首先应用动态模型输出统计方法,然后优化混合。该系统对风能和太阳能的预测至少提高了15%。

对于真正的决策支持,只有风速或总辐射率预测对公用事业公司和电网运营商是不够的,他们实际上需要功率预测。尽管风力涡轮机和太阳能电池板的制造商提供了平均功率曲线,但由于地形高程、湍流和其他因素的变化,它们并不能完美地代表一个地点产生的实际电力。因此,训练AI方法将风或总辐射率转化为电力,可以为特定的地点提供更好的电力预测,并且不会像采用太阳辐照的替代方法那样还需要详细元数据。国家大气研究中心(NCAR)成功地将cubist回归树方法应用于风能和太阳能预测。

AI方法现在已直接为世界各地的公用事业公司和电网运营商提供决策支持,并增加了可再生能源资源的部署。本节中描述的所有方法都已被公用事业公司业务应用。通过这种方式,提高可再生能源的使用率,可以提高能源安全,减少能源生产用水,降低二氧化碳和其他污染物的排放,从而为全球提供清洁的可持续能源。

6.航空湍流

尽管人类所关心的恶劣天气大多发生在地表附近,但远离地表的地方也可能同样危险。商业航空受到各种灾害性天气的影响,包括超低温液态水导致的机身结冰、冰水含量高区域的发动机熄火、冰雹、闪电和大气湍流。从运行的角度来看,湍流是最主要的航空危险源之一。在湍急的涡流中飞行会导致飞机从一边到另一边上下颠簸,使乘客和机组人员感到不舒服,有时会使人员受伤或飞机损坏。湍流是由低稳定性地区的风切变造成的,这可能是由于急流和锋面、地形波或对流引致的重力波断裂,或雷暴的上升气流和下沉气流造成的。由于湍流通常是一种小尺度的、随机的现象,因此很难预测,甚至临近预报也难以预报出来。此外,NWP模型一般不能够准确预测航空尺度的湍流,而其输出变量如次网格湍流动能(TKE)在预测飞机的湍流方面也没有什么技巧。

四、讨论

现代AI技术在高影响天气预报中的应用,提高了我们筛选大量数据的能力,从而可以对预报员和决策者做出准确及时的指导。AI技术建立在传统的方法,例如模型输出统计方法上,通过提供更灵活和强大的模型,能够识别大量建模和观测到的天气特征或导出量之间的复杂关系。此外,AI方法可以很容易地直接预测高影响天气的影响,如太阳能或风能等可变资源产生的电能在某一地区的能源消耗,或机场到达能力。

本文提出了一个有趣的问题,即自动化指导在预报中的作用。虽然我们已经证明了AI/数据科学技术可以用来显著提高各种高影响天气领域的预测,但这不仅仅是将这些技术引入业务的问题。预报员必须能够相信这些技术所产生的预测,正如在灾害天气试验台-概率灾害信息实验中已经证明的那样。

对于常规天气变量(如温度和降水)的预测,NWS目前使用的是一种“人工介入”的模式,预报员主观上混合并调整多种数据资源。在局地效应对预测影响更大的情况下,地方气象台的预报员经验为预测提供了有用价值。NWS的天气预报中心对整个美国的气温和降水做预报,现在预报员的预报能力要比降尺度的、订正后的气温和降水集合预报差得多。NWS对飓风轨迹的官方预测,也比加权集合预报表现更差。在不同的气象机构之间的预测和警告之间也存在空间不连续的问题。包括WeatherCompany公司在内的私营气象公司,在一个“无人化”的模式下运行。在此模式下,由用户根据需要来自动生成一种最佳的模型输出误差订正融合预报,而预报员只需要添加过滤器和限定词来解释观测到的短期偏差或数据质量问题。这种方法很容易规模化应用,只需要一个由气象学家组成的小团队来监督一个高度自动化系统即可。这种高度自动化的方法的缺点是,预报员可能会脱离预测过程,并且在自动化预报失败时很难采取适当的纠正措施。

通过研究在高影响天气情况下不同机器学习方法的误差特征,研究人员和预报员可以确定何时应该信任自动指导,何时需要斟酌。本文提出的方法能够将物理知识与自动化校正相结合,在信息过载的时代发挥关键作用。

THE END
1.数字图书馆行业调研:2023年全国各省市级图书馆的数字资源总量已从细分领域来看,网络文学已成为数字图书馆馆藏文献的重要组成部分。历经三十年的发展,网络文学的主流化程度显著提升,其综合影响力也达到了新的高度。越来越多的网络文学作品被国内外知名图书馆收藏,成为数字图书馆建设的强劲增长点。 四、未来趋势:数智化转型与技术创新 https://www.168report.com/news/7843/digital-library
2.向大数据知识服务:大数据时代图书馆服务模式创新2. 大数据时代对图书馆的影响和挑战 大数据是创新、竞争和生产力的下一个前沿领域,在大数据时代,信息行业深层次分析了数据,并挖掘了其价值,而且数据形态呈现多样性,也具有极高的利用价值,因此处理数据成为了新兴产业[3]。目前,图书馆数据对象、应用技术、价值流向等都和大数据具有一定共性,可见,大数据时代会对图书馆https://www.lunwendata.com/thesis/2015/30806.html
3.2013年度高校图书馆论文获奖名单1、文献检索课程对学生毕业论文的影响 (吉林化工学院图书馆 迟艺欣 曹禹) 2、借助新媒体提升我省高校图书馆服务功能之我见 (吉林大学图书馆 洪湛) 3、吉林大学图书馆《国内外化学专业课程体系与教材建设比较研究》系列成果之五:国内外化学教材比较分析及馆藏分析分析 (吉林大学图书馆 韩爽 刁云梅 位红) 4、外国http://tgw.jlu.edu.cn/info/1003/1248.htm
4.大数据时代下数字图书馆建设及发展摘要:近年来,随着信息基础设施的完善与互联网现代信息技术的发展,电商、社交网络等电子网络服务迅速普及,人类进入大数据时代。2008年,大数据概念正式提出,在政府管理、社会保障等多行业领域得到广泛应用。图书馆的建设受到严重冲击,大数据时代的新理念对图书馆资源建设及其生存发展产生重大影响。大数据时代下,建设数字图书馆已https://www.fx361.com/page/2019/0318/4980865.shtml
5.新时代背景下图书馆公共服务功能定位与服务价值提升作为公共文化服务的主阵地,随着经济社会发展和读者需求的多样化,智慧社会建设对图书馆知识信息服务能力提出了更高要求。图书馆须与时俱进,从传统服务向现代化服务转变,打造出更有影响力的服务品牌。因此,图书馆是现代信息技术的倡导者,也是技术进步的受益者。在馆藏建设上,不同的国家有着不同的规模,图书馆的数量在https://www.cacta.cn/DSJ/HTML/20221202084757.html
6.大数据与图书馆发展12篇(全文)1 大数据时代对图书馆发展的影响 1.1 对工作人员的影响 大数据时代的来临对于图书馆的发展最先作用于人,即图书馆的工作人员。因为他们是对信息进行收集、储存和整理、分析的主体,大数据时代下图书馆的服务结构发生的变化也最直接地影响到了图书馆工作人员的日常工作。众所周知,传统的图书馆对信息和资料的搜集、筛选和https://www.99xueshu.com/w/ikey9w8umvon.html
7.图书馆大数据分析系统能帮助图书馆完成哪些事,意义有多大?图书馆大数据分析系统能深入数据体系建设,关注借阅情况、图书价格和读者行为等关键指标,通过工具如Yonghong Z-Suite提升服务体验,并进行大屏展示。图书馆在选择工具时要考虑便捷性、易用性和服务商的解决方案能力。 摘要由CSDN通过智能技术生成 图书馆现在都已经数据化,电子化了,如果图书馆能够进一步的搭建大数据分析系统https://blog.csdn.net/qq_42097182/article/details/80167998
8.探究大数据在图书出版中的应用理论大数据在图书馆出版中应用的意义 随着互联网技术与其他行业的不断融合,这也给图书出版行业带来了一定的冲击,纸质版的图书销量也有了不同程度的下滑。而大数据技术可以结合消费者的行为对消费者的习惯和喜好进行分析,不仅能够扩大图书的涉及范围,而且有助于实现对消费者的精准定位和营销,降低图书推广成本的同时,也有助于https://www.workercn.cn/c/2023-05-23/7849562.shtml
9.大数据的发展背景和研究意义由于大数据隐含着巨大的深度价值,美国政府认为大数据是“未来的新石油”,对未来的科技与经济发展将带来深远影响。因此,在未来,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有、控制和运用也将成为国家间和企业间新的争夺焦点。http://www.360doc.com/content/14/0902/08/2088748_406426813.shtml
10.科学网—圕人堂周讯(总第396期20211210)(7)高校图书馆知识创造影响因素研究问卷 (8)闲话图书馆工作的价值 1.4圕人堂专题 (1)圕人堂周讯(总第395期 20211203)内容提要 (2)圕人堂加群二维码 (3)圕人堂微信公众号用户突破5000人! (4)世界艺术鉴赏库定制台历捐赠圕人堂 (5)圕人堂服务体系对《2020年中国高校图书馆基本统计数据报告》科学普及的“成绩https://wap.sciencenet.cn/blog-213646-1316014.html
11.关于公共图书馆论文范文资料与大数据环境下公共图书馆统计和评价《大数据环境下公共图书馆统计和评价》:这篇公共图书馆论文范文为免费优秀学术论文范文,可用于相关写作参考。 关键词:大数据环境;公共图书馆;统计和评价 摘要:大数据环境下的公共图书馆统计和评价有着不同于传统意义上统计和评价工作的特点.大数据的发展为公共图书馆的统计和评价工作带来了变革,也使公共图书馆的服务模式http://ntch50www.anydaily.com/zhichenglunwen/121411.html
12.图书情报硕士真不是你想的那样!9、云计算在图书馆中的应用? 10、企业竞争情报的作用? 11、图书馆在信息化时代面临的挑战? 12、公共图书馆和高校图书馆的异同? 13、大数据对图书馆的影响? 14、大数据对图书情报工作的挑战? 其实这些题目无非还是围绕图书情报的一些重要概念、热点来提问,你们可以多上网查查资料,多关注一下。比如:大数据、电子商务https://www.mbachina.com/html/mbachina/20240717/590631.html
13.图书馆大数据分析系统图书馆大数据统计相比2018年同期,读者的借阅总量略有下降。通过数据分析发现,随着数字时代的到来,选择数字阅读的读者越来越多,市图书馆数字资源访问证持有量和数字资源的使用量大幅增加,因此,对传统纸质文献的借阅数量造成了一定影响。 2019年图书借阅量最大的前三类依然为:文学、历史地理和工业技术。https://blog.51cto.com/u_16099324/7069984
14.王伟玲王宇霞高婴劢︱基于“新基建”情境的大数据中心:意义[2]首先,大数据中心是海量数据的“图书馆”,为“新基建”运行提供海量数据存储管理服务。其次,大数据中心是海量算力的“发动机”,为“新基建”运行提供数据计算处理服务。再次,大数据中心是海量服务的“发射器”,为“新基建”各类场景优化提供数据应用服务。一言以蔽之,大数据中心既是新一代信息基础设施的“粮仓”,https://www.ccps.gov.cn/bkjd/xzglgg/xgglgg2020_10/202010/t20201017_144050.shtml
15.建设基于新一代系统的智慧图书馆服务平台(NLSP)打造基于读者需求驱动的图书馆智慧化服务是图书馆的宗旨。新图书馆系统平台除了为读者提供资源发现、全文阅读的基础服务,还通过读者荐购服务(PDA) 满足读者个性化需求,实现精准服务。另外,大数据处理技术与机器学习等人工智能技术也逐渐运用到智慧图书馆的服务上,反馈给读者更智能的服务形式。 https://www.tuya.com/cn/industry-details/Kb719fxx89usa