为充分发挥调控全景数据资源优势,实现调控业务精益管理,本文结合调控云“资源虚拟化、数据标准化、应用服务化”的调度信息化支撑体系[17],从支撑调度智能分析、驱动业务发展的角度,对调控云中大数据平台的总体架构设计展开论述,并详细阐述了大数据平台关键技术,为后续大数据技术在电网调控领域的研究与发展提供了有益参考。
1系统总体架构1.1体系架构
1.2数据特点
1.3部署模式
在部署模式上,大数据平台遵循调控云总体架构设计,采用主导、协同节点两级部署方式,其部署结构如图2所示。其中主导节点(国分大数据平台)部署220kV以上主网模型数据及运行数据汇集处理,实现大数据汇集、处理及分析挖掘,并担负全网调控数据资产统一管理角色;协同节点(省级大数据平台)部署省调管辖范围内全网模型并实现对应运行数据汇集、处理及分析挖掘,并遵从调控数据资产管理要求。两级大数据平台通过资源高速同步网部署统一的运行数据服务以实现不同电压等级运行数据的透明共享,确保在主导节点和协同节点均能获取到全网全电压等级运行数据。
图2电网调控大数据平台部署示意图Fig.2Deploymentofregulatebigdataplatform
1.4软件架构
大数据平台主导与协同节点的技术路线一致,本文重点从国分大数据平台角度介绍。大数据平台软件体系架构如图3所示,按照“存、通、用”的设计思路,结合调控运行和管理业务数据特点及应用需求,在Hadoop等基础组件之上,从数据处理角度将大数据平台功能分为数据汇集、数据加工、数据服务3层,以及数据管理和数理方法等支撑功能。
图3电网调控大数据平台的体系架构Fig.3Technologyarchitectureoftheregulatebigdataplatform
数据汇集面向广域分布式业务系统,通过消息总线汇集来自SCADA、OMS、PMS、DMS、WAMS、TMR、GIS、调度计划、负荷预测、综合智能告警、现货市场技术支持系统、数值天气预报、二次设备监视等多种广域异构源系统的调控数据,通过数据交换方式汇集来自政府、气象、公共服务部门、商业机构、电力市场成员和互联网的调控中心外部数据,技术上通过流式采集或者ELT(抽取、加载、转换)工具完成数据同步。
2电网调控大数据平台关键技术
调控大数据平台的关键技术包括多源调控数据集成与融合技术、异构数据库分层统一存储技术、面向调控对象的调控数据资产管理技术和面向业务分析的数理方法引擎等。
2.1多源调控数据集成与融合技术
为实现电网调度信息的全局统一规划,实现跨专业、跨调度机构的数据共享,调控云建立了电力调度通用数据对象结构化设计机制[20],确立了对象ID编码规则、元数据建模规则。本文结合电力调度通用数据对象结构化设计方法,设计调控数据编码、多源数据汇集、多源数据质量和异构调控信息融合方法,解决海量调控数据标准化管理、数据全面汇集和数据共建共享问题。
2.1.1调控数据编码
典型的调控数据编码如表1所示。大数据平台处理的数据以电网一次设备运行数据为主,也包括设备的参数数据、环境数据、操作数据,以及交易数据、社会经济数据等等,调控数据编码可以精确表述上述调控数据更细粒度的物理含义,且调控数据编码在两级大数据平台之间充分共享,保证了两级大数据平台之间数据定义的一致性,为实现多级调控中心全域数据统一建模奠定了基础。调控数据编码按照上述四元组的规则编制和扩展,新增调控数据类别时,依据新增数据对象的对象类编码和数据对象编码进行扩充,即可形成新的数据编码,具有良好的可扩展性。随着业务发展存量调控数据不再汇集管理时,可将对应数据归档,同时该调控数据编码状态置为当前无效,该机制为调控数据的全生命周期管理提供支持。
2.1.2多源数据汇集技术
电力系统的海量数据集成技术已得到应用,例如电力营销系统数据集成、特高压电网调度自动化系统数据集成和配电网规划数据集成等[21-23]。
2.1.3多源数据质量管理技术
全网多源数据处理策略是根据运行数据关联的电力调度数据对象所属调度管辖权默认选取,并在默认数据源数据质量异常时,自动选择其他正常数据源的数据。例如省级调度机构调管对象的数据优先选择对应来自省级数据管理机构的数据序列,当省级数据管理机构数据异常时选择国调或网调数据源。
异常值处理针对由于人工错误、数据采集设备故障、通信信道故障或其他因素导致的和数据样本偏离正常值的问题进行修正。大数据平台设计监督式、非监督式和半监督式3类方式实现异常值处理。监督式由专家对异常数据进行标记训练,并在此基础上建立分类模型对其他数据进行判别;非监督式采用统计指标、距离指标等异常指标判断数据异常;半监督式基于部分专家标记异常数据样本,并与非监督式方法结合进行判定。异常值处理策略适用于典型连续型电气量,例如发电电力、受电电力等。
合理值处理基于电力系统本体特征,采用多个调控对象或者同一调控对象的多个属性进行综合分析识别数据质量异常,主要方法包括平衡分析、阈值分析、电力电量分析、潮流分析、状态估计等等。典型的例如通过变电站功率平衡分析,识别出线的有功数据异常;通过频率上下限阈值分析,识别频率值异常;通过电力数据的积分计算,识别电量数据异常;通过状态估计,辨识坏数据等等。合理值处理策略需要结合数据和业务特征开展,适用典型连续型电气量数据、气象数据和指标数据等等。
2.1.4异构调控数据信息融合
大数据平台管理了调控领域的海量异构数据,既包括来自监控系统的运行数据,也包括调度管理产生的业务数据,以及来自外部的环境、经济等关联数据。这些来自不同业务系统源的数据常常具有关联性或互补性,通过对多领域多源数据融合,可以挖掘出传统方法无法获得的知识。大数据平台的数据融合主要采用多视角数据融合和基于相似性的数据融合方法。
基于相似性的数据融合方法针对2个调控数据对象存在一定相似性的现象,将一个调控数据对象的数据用于对另一个类似调控数据对象的数据分析。以电网特性分析为例,在分析外送型电网运行特征时,当某一地区电网历史数据不足以支撑数据挖掘算法时,可以选择与之相似的另一个电网对象的数据进行分析加权,得出支持度较高的分析结果。为进一步强化相似性数据融合,大数据平台建立标签管理机制,形成例如创新高、极热无风、柔性电网、外送型电网、潮汐型电网等若干典型标签,利用业务应用提供的关键词进行信息组织,提高电网业务数据聚类效率。
2.2异构数据库分层统一存储技术
为实现存储在HBASE、MPP、RDB、GDB中调控数据的透明访问,在服务接口层实现统一数据服务,数据服务基于后端管理的数仓目录元数据实现在线、离线数据异构存储访问的统一。数仓目录从物理层模型、电网对象模型、数据对象类型等3个维度,对数据库、数据表、表结构信息和调控数据编码等元数据信息进行统一管理,如图5所示。
图5调控大数据多维存储模型示例Fig.5Anexampleofamulti-dimensionalstoragemodelforregulatingbigdata
2.3面向调控对象的调控数据资产管理技术
数据作为资源,伴随着大数据时代支撑数据交换共享和数据服务应用的技术发展,不断积淀的数据才可以逐步发挥数据的价值[33-35]。大数据平台引入数据资产管理机制,定义调控数据资产及分类原则,实现数据资产管理功能,以支持调控数据全域范围内准确规划、定义和共享。
2.3.1调控数据资产定义
2.3.2调控数据资产管理技术
大数据平台的数据资产管理位于分析应用层和基础平台层之间,处于承上启下的重要地位。对上支持以价值发现为导向的应用开发,对下实现数据全生命周期的管理,目标是整合调控数据架构、设计数据模型,提高数据存储与操作的交互性,注重数据使用的安全合规性,以及数据价值的管理。调控数据资产管理技术主要包括数据资产规划、数据资产目录以及数据资产价值评估等。
2.4面向业务分析的数理方法引擎2.4.1面向电网调控业务分析的主流算法
调控业务具有复杂程度高、准确性高、针对性强等需求,分析数据具有规模大、数据多样化、价值密度低等特点,本节综述了特征提取、关联分析、聚类分析、趋势预测、知识发现等主流算法特性及在电网规划、检修、建设、运行、监控等业务的适用性[38-39]。
1)特征提取。
特征提取是最大程度地删除特征数据中各种冗余属性,最终保留下有用的关键特征信息。特征提取算法常被用于电网稳定性评估、电力现货市场、电能质量分析、状态诊断等场景。目前,针对电力系统运行状态的分析,常用的特征提取方法主要有主成分分析、属性约简方法、混合互信息法等。
2)关联分析算法。
关联分析算法能够发现用传统的方法无法发现的项与项或属性与属性间的关系规律,当业务存在业务关联、因素属性较多及需要进行共性关联量化分析的时候,算法优势明显。因此关联分析算法可以被用于设备故障分析及诊断、电能消费分析、设备家族缺陷分析等场景,有助于实现数据价值挖掘。目前关联分析常用的算法有Apriori算法和FP-Growth算法。
3)聚类分析算法。
4)预测算法。
2.4.2数理方法引擎
数理分析算法引擎的功能包括数据源管理、组件管理、工程管理、模型管理、任务调度管理,通过数据库接口、离线文件方式获取待分析数据,通过拖拽组件的方式进行算法任务编排,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,通过任务调度实现数据源及算法工程的定时运行。
3工程应用
大数据平台已经在国调、天津、四川、冀北等调控云工程中示范应用,实现了上述关键技术的部署测试,已经开展并完成了35kV以上电网运行数据的汇集与融合,提升了海量运行数据的质量,提升了大数据分析加工能力,实现了运行数据共享服务。
1)建立了调控数据全面汇集的技术体系。
2)提升了全网运行数据质量。
3)提升了调控数据分析加工能力。
在标签算法方面,目前国分大数据平台已经形成电网负荷创新高、发电创新高、线路重载、线路越限等30余个标签,对快速进行电网和一次设备长周期特性分析提供支持。
在分析挖掘应用方面,实现了降温及采暖负荷分析、短期系统负荷预测、停电窗口期智能编排等应用。
4)实现了调控数据应用服务的共建共享。
大数据平台通过数据服务接口调用的形式将各类调控数据提供给上层应用。
4结论
电网调控大数据平台依托调控云平台构建,形成主导、协同节点两级的“物理分布、逻辑统一”部署模式。针对调控大数据兼具工业自动化数据、管理信息和金融数据特性,在模型数据平台实现电网模型统一管理的基础之上,引入数据资产管理的方法,建议全网唯一的数据编码,实现全网调控数据资产统一管理,明确数据标准、数据范围、数据治理方法等。针对海量数据的全息存储与计算分析需求,设计异构数据库混合存储模式,充分发挥各类数据库的技术优势,并在服务接口层通过统一数据服务实现数据透明访问,提升平台整体的数据服务效率。针对自动化运行数据周期采样和多源管理的特点,引入多源数据汇集、多源数据清洗和异构融合技术,解决多源调控数据集成与融合问题,提高了调控数据的完整性、一致性、规范性,为调控智能分析应用提供高质量的数据支撑。
目前该平台在国网省调控中心进行试点建设,在调控数据全面汇集、数据质量持续提升、数据分析手段持续丰富、数据应用全面共建共享等方面取得突出成效。以调控大数据平台为基础,积极探索大数据技术在提升调度业务智能化水平潜在能力,从大电网安全管控、市场化运行、清洁能源消纳、源网荷储调度等调控核心业务场景开展大数据技术的实践与应用,是下一步需要重点研究的内容。