基于数据挖掘与关联分析的工控设备异常运行状态自动化检测方法分析新闻中心

以准确、高效地检测工控设备异常为目的,研究基于数据挖掘与关联分析的工控设备异常运行状态自动化检测方法。以采集的某电厂DCS网络全流量数据形成的工控设备运行状态日志序列为输入,通过预处理、特征提取等方式获取待监测的工控设备运行状态数据的特征向量,通过凝聚型层次聚类算法聚类特征向量初步区分工控设备正常、异常运行状态数据,再利用基于矩阵的Apriori算法,挖掘工控设备正常运行状态构建正常行为模式库,以关联分析获取的工控设备正常运行状态规则集为参照,通过相似度对比输出工控设备异常运行状态的自动化检测结果。实验结果表明:该方法能够准确检测出工控设备异常运行状态,检测效率高、误差小。

内容目录:

1工控设备异常运行状态自动化检测

1.1DCS网络全流量数据分析

1.1.1DCS网络全流量综述

1.1.2DCS网络全流量数据统计

1.1.3DCS网络通信结构

1.2日志数据预处理

1.3日志特征提取

1.4日志分析

1.4.1日志聚类

1.4.2日志关联分析

1.5日志检测

2实验分析

3结论

当前针对电厂机组跳闸后的事件分析,主要依赖于汽轮机紧急跳闸系统(EmergencyTripSystem,ETS)的跳闸输出记录和分散控制系统(DistributedControlSystems,DCS)的事件顺序(SequenceofEvent,SOE)记录。因ETS系统及SOE记录采集数据受限,导致部分机组跳闸事件无法分析。针对这一情况,舒斐等人结合深度置信网络(DeepBeliefNetworks,DBN)算法和随机森林(RandomForest,RF)算法,对工控设备的异常进行识别;吴英友等人采用两阶段聚类的方法检测工控设备的异常状态。但是前者的适用性较弱,后者的精准程度较低。

为此,本文研究基于数据挖掘与关联分析的工控设备异常运行状态自动化检测方法,通过获取工控设备运行状态数据间的关联规则展开数据挖掘,准确、高效地实现工控设备异常运行状态自动化检测。

在分布式系统中,工控设备往往扮演着主机的角色,若由工控设备控制的整个系统因未能及时重启而停止工作,将造成事故或经济损失,因此,有必要根据DCS网络全流量数据和日志数据,逐一分析工业控制设备的异常运行状态。

某电厂在1月内连续2次出现过不明原因的非计划停机,严重影响电厂及电网安全运行,应电厂要求我司专业人员于8月7日到达现场开展机组异常跳闸检查分析。对电厂前期已进行的检查工作再次梳理,对机组进行模拟启动全仿真试验,通过超速保护控制单元(OverspeedProtectController,OPC)超速试验复现了机组异常停机,基于DCS网络全流量分析技术,真实还原机组跳闸的全过程,从而对电厂机组异常停机事件进行精准的定性分析。

表1流量总体情况

表2流量资产、协议情况

表3原始流量采集情况

(2)流量统计概况。IP-Top-ALL表是指通过统计原始流量得到的IP端点表,总计63个IP地址。IP会话表是指通过统计原始流量得到的,总计66个IP会话。协议流量统计是指通过统计原始流量得到使用的协议所占流量大小情况,具体如表4所示。用户数据报协议(UserDatagramProtocol,UDP)会话是通过统计原始流量得到的UDP会话表,总计188个UDP会话。主要资产信息是对采集流量进行整理,通过物理会话可以定位DCS主副控制器与操作站,其包含主控制器20个,副控制器20个,工程师站、操作员站、历史站11个。

表4协议流量统计情况

图1数据预处理流程

将原始工控设备运行状态数据的日志进行合并后,展开日志清理,根据挖掘任务处理日志文件,清理与挖掘关联性不强的对象之间的引用;对清理后的日志进行用户识别,以用户记录的形式来表示同一个用户的日志活动序列,得到一个点击流;通过会话识别从点击流数据中重构页面信息,以此获取用户浏览网页的实际行为序列;经路径补充能够将遗漏的请求填充在用户会话中优化识别出正确的用户会话,获取完整的用户会话序列;采用事务识别把访问的网页顺序分割为能够代表所有用户会话的逻辑单元,找到最有含义的会话访问路径,最终获取日志数据中需要应用的事务数据。

日志的特征挑选是工控设备运行状态自动化检测的关键,其特征的差异会严重影响后续结果。当日志分解为独立事件后,还需对其进行编码,获取一个数字特征向量,实现运行状态自动化检测模型的输入。日志的划分应用窗口机制包括固定、滑动和会话3种窗口。由于现实中事务日志具有差异,使得其运行状态自动化检测重要度也存在差异,所以需采用逆文档频率(InverseDocumentFrequency,IDF)对差异事务日志的权重展开计算,该技术是一种能够实现信息搜索的术语加权技术,能够获取某术语在某文档中的重要程度。把每个工控设备运行状态的事务日志当作一个术语,以各日志序列为一文档。若某事务日志多次出现于多个日志序列内,则该事务日志在工控设备运行状态自动化检测中的权重较低。IDF的计算公式表示为:

日志分析主要包括聚类分析和关联规则挖掘两个部分。其中,聚类分析是应用凝聚型层次聚类算法,通过聚类特征向量初步区分工控设备的正常、异常运行状态数据;关联规则挖掘是应用Apriori改进算法,关联规则挖掘工控设备正常运行产生的日志数据集,利用所挖掘的工控设备正常运行状态构建正常行为模式库。

通过聚类较为相似的日志数据来区分工控设备正常、异常运行状态。由于在目标工控设备内获取的日志数据无标签,所以一般采用凝聚型层次聚类算法过滤海量日志数据中的正常日志数据,获取工控设备异常运行状态数据候选集。凝聚型层次聚类算法内的距离度量利用欧氏距离,则日志序列Si与Sj的欧氏距离为:

聚类时,先把所有日志序列当作一个类簇,计算类簇之间的距离,合并距离最近的两个簇。为实现簇的合并,需要先对其距离度量展开定义,以各簇内日志序列间的最大距离为其距离度量,聚类结束的条件为距离阈值e,在簇间的最大距离大于e的情况下结束聚类。

工控设备运行状态自动化检测阶段,需要求取给定日志序列与目前簇的向量距离,若其与最近簇之间的欧氏距离低于阈值,则分割该日志序列特征向量至最近簇,反之则生成一个新簇。若距离最近的簇是正常的日志序列,则为正常,反之则为异常。

以日志聚类中获取的工控设备正常运行状态数据特征为输入,展开日志关联分析,输出表示工控设备正常运行状态的频繁集和关联规则信息,通过关联分析挖掘海量日志数据中的工控设备正常运行状态数据,构建工控设备正常运行的模式规则库。

(5)关联规则。定义关联规则形式为:

(8)连接和剪枝。当同长度的两个频繁集中仅有某一不同项时,连接获取候选频繁集为连接。当已知频繁集的每个子集都为频繁时,修剪候选频繁集的流程为剪枝。

在Apriori算法中,工控设备运行状态数据挖掘时不断形成候选频繁集,经其支持度计算形成频繁集,通过连接、剪枝获取新候选集,迭代至不能形成新的频繁集时算法结束。

由于Apriori算法在计算过程中存在形成的候选集多、运行效率低等问题,本文提出了基于矩阵的Apriori算法,以矩阵的形式描述事务数据库,提升Apriori算法的性能,基于矩阵的Apriori算法的定义域与实现步骤如下文所述。

定义2:D中所有项Ii的向量表示为:

算法具体步骤为:

步骤1:按照定义1,将D映射成相应布尔矩阵,其中行、列分别表示“项”“事务”;按照定义2求取完成转换的矩阵所有行的向量和,得出所有项的支持度计数,最小支持度的项为频繁集。

步骤2:按照所得K项集连接形成候选集,对候选集剪枝。

步骤3:结合定义3和定义4,重新扫描D相应矩阵的行向量内积获取对应支持度计数,若结果高于最小支持度计数,则为K项集。

以采集的DCS网络全流量数据形成的工控设备运行状态日志序列为输入,通过预处理、特征提取等方式获取待监测的工控设备运行状态数据的特征向量,通过基于矩阵的Apriori算法挖掘到待测数据的规则集,以关联分析获取的工控设备正常运行状态规则集为参照,对比两者的相似度,输出工控设备异常运行状态的自动化检测结果。

其中,运行状态规则集为:

此时设定一个异常判别阈值,若规则集相似度大于异常判别阈值,则工控设备运行状态为正常,反之则为异常。

日志自动化检测的流程如图2所示。

图2异常检测

日志自动化检测的目的是对工控设备运行状态进行分析与检测,为保证工控设备异常运行状态自动化检测的准确性与效率,可在匹配异常时加入专家库或人工进行判别。

分别采用3种方法对工控设备异常运行状态进行检测,得到3种方法的检测误差对比,结果如图5所示。

图5检测误差对比

分析图5可知,其他2种方法对工控设备异常运行状态进行检测的误差显著高于本文方法的误差,其他2种方法的平均误差分别约为0.3、0.2;而采用本文方法的平均误差约为0.05,说明本文方法对工控设备异常运行状态的检测精度较高。

分析本文方法检测工控设备异常运行状态的能力,结果如图6所示。

分析图6可知,本文方法可将数据集内异常运行的工控设备检测出来,不受维度和设备故障类型数量的影响。利用本文方法检测时,聚类的故障类型在三维空间内的距离较近,聚类的故障类型分布边缘清晰。综上所述,本文方法可有效检测工控设备异常运行状态,具备良好的应用性。

图6工控设备异常运行状态自动化检测结果

以检测故障类型的贴近度为衡量指标,设置其阈值小于1,统计本文方法检测工控设备异常运行状态的故障类型贴近度,结果如图7所示。

图7故障类型贴近度

分析图7可知,本文方法检测工控设备异常运行状态时的故障贴近度存在波动,但幅度较小。其中最大故障贴近度出现在由网络故障引起的设备异常运行状态检测中,贴近度数值接近1。最小故障贴近度出现在由工控机故障引起的设备异常运行状态监测中,其数值约为0.92。上述结果表明,本文方法在检测工控设备异常运行状态时的故障贴近度数值均小于1,具有较为准确的检测结果。

通过对某电厂DCS系统网络全流量数据采集,并对数据采集过程中发生的机组异常跳机事件进行全面分析,通过日志挖掘与关联分析,研究工控设备的异常运行状态,实现工控设备异常运行状态的自动化检测。分析结果表明,网络全流量数据“功在电网,利在电厂”,对电厂及电网的安全稳定运行有重要的指导意义和借鉴作用。

引用本文:赵明明,司红星,刘潮.基于数据挖掘与关联分析的工控设备异常运行状态自动化检测方法分析[J].信息安全与通信保密,2022(4):2-10.

15527777548/18696195380

联系地址:武汉市洪山区光谷大道70号现代光谷世贸中心F栋7楼(光谷校区)武汉市东湖新技术开发区武大园路5-1号国家地球空间信息产业基地二期南主楼2单元12层

THE END
1.招商银行申请测试数据生成专利,能够高效自动化地生成个性化测试数据本申请通过大模型以及向量数据库等将用户造数需求转化为测试数据集,从而能够高效、自动化地生成个性化测试数据,同时减少测试人员与相关部门的沟通成本,降低造数的复杂性,提高测试工作的效率和质量。 本文源自:金融界 作者:情报员https://www.163.com/dy/article/JJMTSIFD0519QIKK.html
2.数据挖掘过程自动化中的泛型性数据挖掘过程自动化中的泛型性 第一部分 通用算法识别与选择机制 2 第二部分 自动化数据预处理优化 4 第三部分 模型训练参数动态调整 http://m.doc88.com/mip-28739563848969.html
3.数据分析PowerBIpowerbi分析师数据计算机数据挖掘办公自动化Excel数据分析PowerBIpowerbi分析师数据计算机数据挖掘办公自动化Excel数据库 Power BI智能数据分析与可视化从入门到精通+商业智能:Power BI数据分析 Excel办公自动化数据挖掘 计算机数据分析师 powerbi教程 风格: 数据分析 Power BI powerbi 分析师 数据 计算机 数据挖掘 办公自动化 excel 图文详情 本店推荐 图文详情https://www.zhe2.com/note/607037517166
4.最好的十个自动化专业就业方向自动化专业毕业可以从事什么工作→近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,从其中获取的信息和知识能被广泛应用,包括科学探索、工程设计、生产控制、市场分析、商务管理等。数据挖掘简单解释,就是从大量的数据中通过算法搜索隐藏于其中信息的过程。自动化毕业生就业方向:一般来说能进入腾讯、百度、华为、京东、阿里等公司。https://www.maigoo.com/top/421962.html
5.如何用人工智能做数据挖掘帆软数字化转型知识库人工智能(AI)可以通过自动化数据处理、提高数据分析精度、发现数据中的隐藏模式和趋势来进行数据挖掘。其中,自动化数据处理是一个重要方面,它使得数据挖掘过程更加高效和精准。通过自动化数据处理,AI可以迅速处理大量数据,消除人为错误的可能性,并且能够在更短的时间内完成复杂的数据分析任务。这不仅提高了数据挖掘的效率https://www.fanruan.com/blog/article/603530/
6.ChaoWu吴超吴超西安交大 前沿院 材料物理中心 2009-2012 博士后 美国 圣母大学(导师William F. Schneider教授) 研究领域: 计算材料学/计算化学,即基于电子结构的多尺度模拟 研究方向: 1、分离材料(二维多孔材料和枝状材料); 2、多相反应(利用覆盖度效应与弹性应变工程调节); 3、计算的自动化,数据挖掘; 文章简介 共90篇SCIhttps://gr.xjtu.edu.cn/web/chaowu/chaowu
7.数据挖掘就业前景外脑科技2024年数据挖掘招聘工资1. 负责对用户行为数据进行分析和建模,构建基础性能模型、完成数据架构设计、数据标准定义、业务流、数据流梳理建模。包括但不限于人类行为量化统计模型构建数据的采集,清洗,预处理,存储,建模,分析挖掘,优化等; 2. 根据业务需要分析数据,挖掘用户群体行为和属性特征,为产品部门提供数据支持,实现对产品生命周期智能 https://www.zhipin.com/job_detail/02824f9588c5d5201nB93Ni9ElNZ.html
8.张学工清华大学自动化模式识别大数据生物信息数据挖掘信息当当荣桢图书专营店在线销售正版《【正版】模式识别 张学工 清华大学 自动化模式识别大数据生物信息数据挖掘信息处理》。最新《【正版】模式识别 张学工 清华大学 自动化模式识别大数据生物信息数据挖掘信息处理》简介、书评、试读、价格、图片等相关信息,尽在DangDang.comhttp://product.dangdang.com/11862640684.html
9.IBMSPSSStatistics操作进阶?偏智能化、自动化分析的数据挖掘应用方法论。 IBM SPSS Statistics作为全球最为出色的统计软件之一,在功能上完全支持上述3种方法论体系,并满足绝大多数情况下的统计分析需求,Modeler则倾向于数据挖掘方法论的具体实现需求。由于对方法论的理解比对分析方法体系的掌握更为重要,因此本章首先对此进行扼要介绍。用户在遇到实https://m.360docs.net/doc/info-ba014db4ac51f01dc281e53a580216fc700a5385.html
10.2020年最值得收藏的60个AI开源工具语言&开发李冬梅虽然GANs 自发明以来一直在稳步改进,但 StyleGAN 的进程仿佛更快些。开发人员提出了两种新的、自动化方法来量化这些图像的质量,同时也开放了大量高质量的人脸数据集。 关键资源如下: 项目地址:https://github.com/NVlabs/stylegan GPT-2(OpenAI 语言模型) https://www.infoq.cn/article/2uabiqaxicqifhqikeqw
11.人工智能数据挖掘管理系统人工智能数据挖掘管理系统是一种基于人工智能技术和数据挖掘算法的一体化数据管理系统。它可以对海量数据进行深度分析和挖掘,实现对数据的快速整合、查询、分析和处理。该系统采用先进的自动化算法和人工智能技术,可以帮助企业实现智能决策和高效管理。同时,该系统还可以提供实时数据更新和自动化数据颁布,为企业提供更加及时http://www.keyan360.com.cn/software-5549.html
12.专注人工智能与大语言模型,大数据数据分析与数据挖掘,企业Dataguru炼数成金是专注人工智能与大语言模型,大数据、数据分析与数据挖掘,企业数字化等产业链高端技术的专业社区及面向网络逆向培训服务机构,通过系列实战性培训课程,包括人工智能,大模型,专家机器人,AIGC,AIOPS,ChatGPT,数据分析,数据挖掘,商业智能,大数据,机器学http://bi.dataguru.cn/
13.数据挖掘VS机器学习,你了解多少?● 无监督学习利用使用未标记数据集开发的机器学习算法。 ● 强化学习有一种迭代改进并适应新情况的算法。 数据挖掘的主要特征 数据挖掘是一种简单的信息收集方法,其中所有相关数据都经过一个识别过程。以下是数据挖掘的一些基本特征: 自动化:模型通过使用算法对数据收集进行操作来进行数据挖掘。可以挖掘数据、挖掘模型所https://www.fromgeek.com/telecom/509859.html
14.数据采集自动化处理与数据挖掘毕业设计(论文)而我们的这个题目的目的就是在于帮助分析人员提供大量的基金数据使分析人员不用关心数据我们会提供给他们正确和完整的数据而这些数据的来源就是世界上各个金融机构提供给我们的文件中包括的数据我们采用自动化的数据采集保证了快速和准确的把数据收集起来然而再美国境内美国的机构提供的都是格式统一的文件这样我们很容易把https://wenku.baidu.com/view/92e4d2bc68ec0975f46527d3240c844769eaa081.html
15.OA自动化数据采集自动化处理与数据挖掘.pdfOA自动化数据采集自动化处理与数据挖掘.pdf,OA 自动化数据采集自动化处理与 数据挖掘 HUNANUNIVERSITY 毕业设计(论文) 设计(论文)题目:数据采集自动化处理与数据挖掘 学生姓名 : 武祥斌 学生学号 : 20041610326 专业班级 : 软件工程 2004 级开发 2 班 指导老师: 李 https://max.book118.com/html/2020/0903/8002001011002140.shtm
16.2024年(第12届)“泰迪杯”数据挖掘挑战赛资源浏览查阅175次。2024年(第12届)“泰迪杯”数据挖掘挑战赛——A题:生产线的故障自动识别与人员配置泰迪杯数据挖掘2024a题更多下载资源、学习资料请访问CSDN文库频道.https://download.csdn.net/download/huanghm88/89879699
17.129在线民宿UGC数据挖掘实战文本自动化标注和数据采样文本自动化标注和数据采样 数据准备 首先使用 Pandas 加载在线数据表格,并查看数据维度和第一行数据。 针对用户打分出现的问题进行处理,首先打印用户打分的去重数据 我们发https://www.jianshu.com/p/66c21b0116e7
18.Python机器学习自动化数据分析库dataprep51CTO博客dataprep是一个开源的Python第三方库,有助于数据科学者、数据挖掘/分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。 在本文中小编给大家详细介绍dataprep库的使用。 官网地址:https://dataprep.ai/ GitHub地址:https://github.com/sfu-db/dataprep https://blog.51cto.com/u_15671528/6251322