变压器异常数据检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及电力系统异常检测
技术领域
,特别是涉及一种变压器异常数据检测方法、装置、计算机设备和存储介质。背景技术
智能变电站作为智能电网的物理基础,同时作为高级调度中心的信息采集和命令执行单元,是智能电网的重要组成部分。智能变电站以变电站一、二次设备为数字化对象,以高速网络通信平台为基础,通过对数字化信息进行标准化,实现站内外信息共享和互操作,并以网络数据为基础,实现测量监视、控制保护、信息管理等自动化功能。作为智能变电站的重要组成部分,变压器的状态数据的质量会直接影响智能变电站状态评估和决策的准确性,因此有必要进行变压器异常数据检测。
传统的变压器异常数据检测方法,通过采集变压器运行状态数据,并基于预设阈值范围,对各状态数据与对应阈值范围分别进行对比,当状态数据不在对应阈值范围内,则判断为异常数据。也即,需要对所有状态数据一一进行对比分析,再根据对比结果进行异常判断。由于变压器运行状态数据的数据量大,因此,传统的变压器异常数据检测方法,具有工作效率低的缺点。
发明内容
基于此,有必要针对上述技术问题,提供一种工作效率高的变压器异常数据检测方法、装置、计算机设备和存储介质。
一种变压器异常数据检测方法,包括:
获取变压器的状态数据;
对所述状态数据进行筛选和特征提取,得到特征数据集;
对所述特征数据集进行聚类分析,得到聚类结果;
基于聚类结果,进行异常数据判断,得到变压器异常数据检测结果并输出。
在其中一个实施例中,所述对所述状态数据进行筛选和特征提取,得到特征数据集,包括:
运用互信息算法对所述状态数据进行筛选,得到数据矩阵;
基于主成分分析算法对所述数据矩阵进行特征提取,得到特征数据集。
在其中一个实施例中,所述基于主成分分析算法对所述数据矩阵进行特征提取,得到特征数据集,包括:
对所述数据矩阵进行标准化处理,并基于标准化处理结果得到样本协方差矩阵;
对所述协方差矩阵进行特征值分解,得到特征值;
计算各特征值的累积方差贡献率,并根据所述累积方差贡献率确定初始主成分,得到初始主成分矩阵;
计算所述数据矩阵中的原始特征与所述初始主成分矩阵的复相关系数,并根据所述复相关系数确定补充主成分;
根据所述初始主成分和所述补充主成分,得到特征数据集。
在其中一个实施例中,所述对所述特征数据集进行聚类分析,得到聚类结果,包括:
运用MapReduce并行化聚类算法对所述特征数据集进行聚类分析,得到聚类结果。
在其中一个实施例中,所述运用MapReduce并行化聚类算法对所述特征数据集进行聚类分析,得到聚类结果,包括:
对所述特征数据集进行物理分割,得到多个数据集;将所述数据集送入对应的Map函数节点上,进行键值对转化;
在Map阶段,基于聚类算法计算各数据集中的数据点与预设聚类中心的距离,并将各所述数据点标记到距离最近的聚类中,得到新聚类,送入Reduce阶段;
在Reduce阶段,基于所述聚类算法计算所述新聚类的聚类中心,直至目标函数收敛,得到聚类结果。
在其中一个实施例中,所述聚类算法为K-means算法。
在其中一个实施例中,所述基于聚类分析结果,进行异常数据判断,得到变压器异常数据检测结果并输出之后,还包括:
当存在异常数据时,输出预警信息。
一种变压器异常数据检测装置,包括:
获取模块,用于获取变压器的状态数据;
提取模块,用于对所述状态数据进行筛选和特征提取,得到特征数据集;
聚类模块,用于对所述特征数据集进行聚类分析,得到聚类结果;
判断模块,用于基于聚类结果,进行异常数据判断,得到变压器异常数据检测结果并输出。
在其中一个实施例中,提取模块包括:
筛选单元,用于运用互信息算法对所述状态数据进行筛选,得到数据矩阵;
特征提取单元,用于基于主成分分析算法对所述数据矩阵进行特征提取,得到特征数据集。
在其中一个实施例中,特征提取单元具体用于:
对所述数据矩阵进行标准化处理,并基于标准化处理结果得到样本协方差矩阵;
对所述协方差矩阵进行特征值分解,得到特征值;
计算各特征值的累积方差贡献率,并根据所述累积方差贡献率确定初始主成分,得到初始主成分矩阵;
计算所述数据矩阵中的原始特征与所述初始主成分矩阵的复相关系数,并根据所述复相关系数确定补充主成分;
根据所述初始主成分和所述补充主成分,得到特征数据集。
在其中一个实施例中,聚类模块具体用于:运用MapReduce并行化聚类算法对所述特征数据集进行聚类分析,得到聚类结果。
在其中一个实施例中,聚类模块包括:
分割单元,用于对所述特征数据集进行物理分割,得到多个数据集;将所述数据集送入对应的Map函数节点上,进行键值对转化;
数据点标记单元,用于在Map阶段,基于聚类算法计算各数据集中的数据点与预设聚类中心的距离,并将各所述数据点标记到距离最近的聚类中,得到新聚类,送入Reduce阶段;
聚类结果生成单元,用于在Reduce阶段,基于所述聚类算法计算所述新聚类的聚类中心,直至目标函数收敛,得到聚类结果。
在其中一个实施例中,所述聚类算法为K-means算法。
在其中一个实施例中,所述变压器异常数据检测装置还包括:
预警模块,用于当存在异常数据时,输出预警信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取变压器的状态数据;
对所述状态数据进行筛选和特征提取,得到特征数据集;
对所述特征数据集进行聚类分析,得到聚类结果;
基于聚类结果,进行异常数据判断,得到变压器异常数据检测结果并输出。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取变压器的状态数据;
对所述状态数据进行筛选和特征提取,得到特征数据集;
对所述特征数据集进行聚类分析,得到聚类结果;
基于聚类结果,进行异常数据判断,得到变压器异常数据检测结果并输出。
上述变压器异常数据检测方法、装置、计算机设备和存储介质,先对变压器的状态数据进行筛选和特征提取,得到特征数据集,相当于对状态数据进行了降维处理,可以减少后续处理过程的数据量,有利于提高工作效率。
附图说明
图1为一实施例中变压器异常数据检测方法的流程图;
图2为一实施例中数据异常情况的类别示意图;
图3为另一实施例中变压器异常数据检测方法的流程图;
图4为一实施例中对状态数据进行筛选和特征提取,得到特征数据集的流程图;
图5为一实施例中基于主成分分析算法对数据矩阵进行特征提取,得到特征数据集的流程图;
图6为一实施例中对特征数据集进行聚类分析,得到聚类结果的流程图;
图7为一实施例中变压器异常数据检测装置的组成框图;
图8为另一实施例中变压器异常数据检测装置的组成框图;
图9为一实施例中提取模块的组成框图;
图10为一实施例中聚类模块的组成框图;
图11为一实施例中计算机设备的组成框图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使本申请的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
随着智能变电站建设的不断完善,其产生和储存的数据不断增多。以变压器的运行状态数据为例,在数据采集、传输过程中,可能由于传感器失效、气路和电路故障、峰点偏移、装置老化以及一些人工失误等问题造成现有在线监测系统出现数据失真、数据突变和孤立噪声等异常。变压器数据异常不仅会扰乱数据的平稳性,影响系统状态评估的准确性和收敛速度,还会使得系统拓扑分析、安全分析以及无功优化等软件频繁运行,大大增加了能量消耗。并且,由于变电站运维人员需要根据变压器的状态数据进行网内调度,异常数据的存在,必然会影响运维人员的判断和决策的正确性,甚至有可能因运维人员无法对变压器的运行状况做出真实的判断而导致变电站火灾,引起重大安全事故。
基于此,本申请第一方面,提供了一种变压器异常数据检测方法。在一个实施例中,如图1所示,该变压器异常数据检测方法包括步骤S200至步骤S800。
步骤S200:获取变压器的状态数据。
其中,变压器的状态数据包括变压器的绕组温度、顶层油温、油中气体含量、局部放电等运行参数的采样数据。该状态数据,可以表示为各运行参数的时间序列采样值。
步骤S400:对状态数据进行筛选和特征提取,得到特征数据集。
其中,特征数据集是包含多个特征参数,以及各特征参数对应状态数据的数据集。具体的,对状态数据进行筛选和特征提取,可以得到变压器的特征参数,进而得到包含各特征参数对应状态数据的特征数据集。需要说明的是,根据筛选和特征提取算法的不同,得到的特征参数也不相同。例如,可以按照变压器各运行参数对变压器运行状态的影响程度,对各运行参数进行排序,再进行筛选,提取出排序靠前的N个运行参数作为特征参数,得到特征数据集;还可以将任一运行参数作为标签变量,其余运行参数作为比较变量,对比较变量和标签变量的时间序列采样值进行关联度挖掘,提取关联度高于预设阈值的运行参数作为特征参数。
步骤S600:对特征数据集进行聚类分析,得到聚类结果。
其中,聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是通过数据建模简化数据的一种方法。聚类分析的方法可以是系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
具体的,对特征数据集进行聚类分析,可以计算得到特征数据集中的各数据点与预设聚类中心的距离,进而进行新聚类的划分,并计算新聚类的聚类中心,得到聚类结果。需要说明的是,预设聚类中心可以根据变压器正常运行时采集的历史状态数据,基于预设聚类算法计算得到。而预设聚类中心的数量,则由历史状态数据聚类后形成的簇的数量决定。进一步的,该预设聚类算法,可以是K-means算法或K-medoids算法。
步骤S800:基于聚类结果,进行异常数据判断,得到变压器异常数据检测结果并输出。
具体的,基于聚类结果,可以判断特征数据集中各数据与新聚类的聚类中心的距离,是否大于预设距离阈值。当同一特征参数对应的各数据点中,出现了与同一簇的聚类中心的距离大于预设距离阈值的数据点,即聚类结果中出现了孤立点或离群点时,判断该数据点为异常数据,并输出相应的变压器异常数据检测结果。其中,预设距离阈值,可以根据变压器的数据特点及运行特征,结合专家意见确定。进一步的,变压器异常数据检测结果的内容并不唯一,例如可以仅包含是否存在异常数据的文字,也可以还包含异常数据的具体数值及其对应的特征参数。变压器异常数据检测结果的输出对象也不唯一,例如可以是存储器、显示器或终端。该终端,包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
此外,在一个实施例中,进行异常数据判断之后,还可以结合异常数据所对应的运行参数的状态数据,进行变压器数据异常情况分类,并将分类结果与异常数据监测结果一并输出。
具体的,变压器异常数据的产生的原因主要包括:对数据的采集未同时进行;数据测量或传输过程中,系统内部设备因意外而发生故障;数据测量或传输系统受到外部环境因素的干扰而意外失灵。基于此,可以基于异常数据对应的状态数据进行数据异常情况分类,如图2所示,一共划分有六类数据异常情况,包括数据缺失、数据不变、孤立噪声、短时有变、高噪声值和数据突变等。当状态数据出现空白值时,划分为数据缺失异常;当状态数据中数据变化几乎为零时,划分为数据不变异常;当状态数据中出现个别数据分离或突变时,划分为孤立噪声异常;当状态数据中出现短期内变化较大,后续回归正常时,划分为短时有变异常;当状态数据中出现多个测量数据未术语正常数据簇类时,划分为高噪声值异常;当多个特征参数对应的状态数据同时出现趋势异常时,划分为数据突变异常。进行变压器数据异常情况分类,并将分类结果与异常数据监测结果一并输出,可以便于变电站运维人员根据异常情况分类,进行针对性的复核和检修。
上述变压器异常数据检测方法,先对变压器的状态数据进行筛选和特征提取,得到特征数据集,相当于对状态数据进行了降维处理,可以减少后续处理过程的数据量,有利于提高工作效率。
在一个实施例中,如图3所示,步骤S800之后,还包括步骤S900:当存在异常数据时,输出预警信息。
其中,预警信息的内容和输出对象并不唯一。例如,预警信息可以是包含对异常数据进行描述的文字信息,也可以是声音、光线或者声光结合的提示信息。预警信息的输出对象,可以是存储器、显示器或终端。具体的,当存在异常数据时,输出预警信息,可以便于运维人员及时获取异常信息,进行相关处理,有利于进一步提高电力系统的安全性。
在一个实施例中,如图4所示,步骤S400包括步骤S420和步骤S440。
步骤S420:运用互信息算法对状态数据进行筛选,得到数据矩阵。
其中,互信息用于度量两个随机变量的关联程度,不同于相关系数仅能对两个随机变量的线性相关性进行捕捉,互信息可以捕捉两个变量之间的任何统计依赖性,互信息值越大,则两者共享的信息就越多,关联程度就越高。
运用互信息算法对状态数据进行筛选,得到数据矩阵的具体过程如下:
首先,根据变压器状态数据,生成变压器状态数据矩阵,并进行归一化处理,使得全部的数据都落到[0,1]的范围。归一化公式为:
式中,R为归一化处理前的采样值,R*为归一化处理后的采样值,Rmin为同一运行参数对应的各采样值的最小值,Rmax为同一运行参数对应的各采样值的最大值。
然后再从状态数据矩阵中,提取任意一个运行参数对应的状态数据作为标签变量,其余运行参数对应的状态数据作为判断变量,任选一组标签变量和判断变量作为随机变量,记为U和V,并计算U和V的互信息。具体的,当两个随机变量U、V为离散型随机变量时,则U和V的互信息为:
式中,互信息值I(U,V)的大小范围为[0,1],p(u,v)为U、V的联合概率分布,p(u)和p(v)为U、V的边缘概率分布函数。
当两个随机变量U、V为连续性随机变量时,则U和V的互信息为:
基于上述公式,计算所有判断变量与标签变量的互信息值。最后再根据互信息值与预设互信息阈值的大小关系,对状态数据进行运行参数筛选,得到对应的数据矩阵。其中,预设互信息阈值可以根据变压器的数据特点以及运行特征,并结合专家意见确定。
进一步的,该预设互信息阈值的数量,可以是一个,也可以是多个。例如,可以设置阈值δ,判断变量与标签变量的互信息值I(U,V)是否大于阈值δ,若I(U,V)<δ,则去除变量,反之,保留变量,将保留的变量构成一个数据矩阵Z;还可以通过设置多个预设互信息阈值,进行互信息阈值范围的划分,并根据互信息值所在的互信息阈值范围,得到判断变量和标签变量之间的相关程度,进行变量筛选。如设置互信息阈值为1/3和2/3,当I(U,V)∈[0,1/3]时为弱相关,I(U,V)∈[1/3,2/3]时为中等相关,I(U,V)∈[2/3,1]时为强相关,保留强相关的判断变量,去除弱相关的判断变量,并对中等相关的判断变量基于互信息算法进行二次筛选,直至无中等相关变量,得到最终的保留变量,将保留的变量构成一个数据矩阵Z。
步骤S440:基于主成分分析算法对数据矩阵进行特征提取,得到特征数据集。
其中,主成分分析是将原来众多的具有一定相关性的变量,重新组合成一组新的互相无关的综合变量来代替原来的变量的分析过程。具体的,基于主成分分析算法对数据矩阵进行特征提取,通过正交变换将数据矩阵Z中可能存在相关性的变量转换为一组线性不相关的变量,得到主成分,进而得到对应的特征数据集。
上述实施例中,先利用互信息算法对状态数据进行初步筛选,再使用主成分分析算法进行二次筛选,得到最终的特征数据集,可以先去除部分关联程度低的变量,减少后续聚类分析的数据量,有利于提高聚类分析的效率,进而提高整体检测速度。
在一个实施例中,如图5所示,步骤S440包括步骤S441至步骤S445。
步骤S441:对数据矩阵进行标准化处理,并基于标准化处理结果得到样本协方差矩阵。
具体的,设数据矩阵Z中共包含n个样本和m个特征,记为Z={Z1,Z2,…,Zn}T,其中Zi={zi1,zi2,…,zim},zij为第i个样本的第j个特征。将数据矩阵Z进行标准化处理,则标准化处理后,可以得到对应的标准数据矩阵X={X1,X2,…,Xn}T,其中Xi={xi1,xi2,…,xim},xij为标准化后第i个样本的第j个特征。标准化处理的相关公式如下:
其中,xij为标准化后第i个样本的第j个特征,表示原始样本中第j个特征的样本均值,sj表示原始样本中第j个特征的标准差。
则样本协方差矩阵可以根据标准数据矩阵X求得:
步骤S442:对协方差矩阵进行特征值分解,得到特征值。
协方差矩阵作为实对称矩阵,其主要性质之一就是可以正交对角化,因此就一定可以分解为特征向量和特征值。对于协方差矩阵进行特征向量和特征值的求解,就等价于拟合一条能保留最大方差的直线。其中,特征向量追踪到了特征值的方向,而最大方差和协方差的轴线表明了数据最容易改变的方向。基于此,协方差矩阵的特征值求解过程就等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将特征值按大小从上到下排列,具体过程如下。
设一组标准正交的基向量pi(i=1,2,…,k),当X通过这组正交基投影为新数据集T后,T的特征之间两两不相关,并且提取的这前k个主元应包含数据矩阵Z的绝大部分信息,即:
式中,pi(i=1,2,…,k)即是协方差矩阵S的特征值λi(i=1,2,…,k)对应的特征向量,且满足λ1>λ2>…>λk。而新数据集T中的特征ti(i=1,2,…,k)∈Rn为变换后得到的新特征,即为特征值。
步骤S443:计算各特征值的累积方差贡献率,并根据累积方差贡献率确定初始主成分,得到初始主成分矩阵。
其中,特征值的累积方差贡献率为:
式中,CPV为t1,t2,…,tl这l个特征值的累积贡献率,l≤k。
CPV值的大小表明t1,t2,…,tl综合m个原始变量的能力,反应了主元模型的精度。进一步的,取CPV≥85%时的l值作为初始主成分个数,得到初始主成分矩阵,从而保证主元模型的精度能达到主成分分析算法的标准。
步骤S444:计算数据矩阵中的原始特征与初始主成分矩阵的复相关系数,并根据复相关系数确定补充主成分。
其中,复相关系数是反应一个因变量和一组自变量直接相关程度,度量复相关程度的指标。复相关系数越大,表明要素或变量之间的线性相关程度越密切。
具体的,数据矩阵S中的原始特征s与t1,t2,…,tl的复相关系数MCC可以表示为:
式中,β0,β1,…,βl为线性回归系数。
计算数据矩阵S中特征序号为l至m时,每个原始特征s与初始主成分矩阵的复相关系数MCC,以及平均复相关系数,最终得到m-l维数组mcc;逐个验证数组mcc从第1到第m-l个数的大小,并选出复相关系数恰好大于预设值时的特征值个数,用h表示,得到补充主成分。进一步的,在一个实施例中,预设值设置为85%,以确保精度能达到主成分分析算法的标准。
步骤S445:根据初始主成分和补充主成分,得到特征数据集。
具体的,根据上述步骤中得到的初始主成分和补充主成分,确定最终主成分,再将数据矩阵Z投影到l+h维子空间,就可以得到包含l+h维的特征数据集。
上述实施例中,基于主成分分析算法,进行了改进,提出了一种改进型的主成分分析算法,既保证了原始数据与主元的强相关性,也保证了高的累积方差贡献率,有利于提高主成分分析的精度。
在一个实施例中,步骤S300包括:运用MapReduce并行化聚类算法对特征数据集进行聚类分析,得到聚类结果。
其中,MapReduce是分布式系统上的一种编程模型,用于大规模数据集的并行运算。MapReduce分布式计算框架主要包含两个处理过程:Map阶段和Reduce阶段。Map阶段的Map函数和Reduce阶段的Reduce函数都由用户根据需求进行自定义。Map函数主要处理输入数据集并产生中间输出,然后将这些中间输出通过Reduce函数组合在一起导出最终结果。具体的,MapReduce并行化聚类算法是指将聚类算法运行到MapReduce分布式计算框架上,以键值对(key/value)形式成对地输入和输出数据,这样既能保留聚类算法的优点,又可以解决大数据异常检测中计算内存不足的问题,不仅可以提高运算速度,还可以确保数据的安全性和可靠性。
在一个实施例中,聚类算法为K-means算法。
其中,K-means算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
具体的,设聚类样本集Y={y1,y2,…,yn},在给定分类组数q(q≤n)值的条件下,将原始数据分成q类别,用εi(i=1,2,…,q)表示,在n个数据对象中选出q个聚类中心δ1,δ2,…,δq,聚类中心是同一类别数据对象的算数平均值:
式中:Ni为类st的数据对象个数。
对于其它的数据对象,根据与聚类中心的相似度(距离)进行分配,例如可以利用欧氏距离公式进行计算:
将这些数据对象分配到与其距离最近的聚类中,计算新的聚类中心(聚类所有对象的均值),不断重复这一过程直至标准测度函数收敛为止。
在一个实施例中,标准测度函数J为:
式中,J为聚类样本集中所有数据对象的均方差之和。
上述实施例中,使用K-means算法,由于K-means算法简单,有利于提高聚类分析的效率,进而提升变压器异常数据检测方法的整体工作效率。
在一个实施例中,如图6所示,步骤S600包括步骤S610至步骤S630。
步骤S610:对特征数据集进行物理分割,得到多个数据集;将数据集送入对应的Map函数节点上,进行键值对转化。
具体的,可以按照预设的长度,对特征数据集进行物理分割,得到多个数据集,然后将各数据集随机分配到MAP的集群上,并进行键值对转化。
步骤S620:在Map阶段,基于聚类算法计算各数据集中的数据点与预设聚类中心的距离,并将各数据点标记到距离最近的聚类中,得到新聚类,送入Reduce阶段。
其中,预设聚类中心可以根据变压器正常运行时采集的历史状态数据,基于预设聚类算法计算得到。预设聚类算法可以是K-means算法或K-medoids算法。为确保算法的一致性,本步骤中的聚类算法需与预设聚类算法相同。以K-means算法为例,在Map阶段,基于K-means算法计算各数据集中数据点与预设聚类中心的欧式距离,并将各数据点标记到距离最近的聚类中,得到新聚类,送入Reduce阶段。
步骤S630:在Reduce阶段,基于聚类算法计算新聚类的聚类中心,直至目标函数收敛,得到聚类结果。
可以理解,步骤S630中的聚类算法,同样也与上文中涉及的预设聚类算法相同,以K-means算法为例,基于K-means算法计算新聚类中所有数据点的均值,得到新的聚类中心,直至目标函数收敛,得到聚类结果。
上述实施例中,给出了MapReduce并行化聚类算法对提取特征值进行聚类处理的具体过程,既能保留聚类算法的优点,又可以解决大数据异常检测中计算内存不足的问题,不仅可以提高运算速度,还可以确保数据的安全性和可靠性。
应该理解的是,虽然上述实施例中涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例中涉及的各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请第二方面,提供了一种变压器异常数据检测装置。如图7所示,该变压器异常数据检测装置包括:获取模块200,用于获取变压器的状态数据;提取模块400,用于对状态数据进行筛选和特征提取,得到特征数据集;聚类模块600,用于对特征数据集进行聚类分析,得到聚类结果;判断模块800,用于基于聚类结果,进行异常数据判断,得到变压器异常数据检测结果并输出。
在一个实施例中,如图8所示,变压器异常数据检测装置还包括:预警模块900,用于当存在异常数据时,输出预警信息。
在一个实施例中,如图9所示,提取模块400包括:筛选单元410,用于运用互信息算法对状态数据进行筛选,得到数据矩阵;特征提取单元420,用于基于主成分分析算法对数据矩阵进行特征提取,得到特征数据集。
在一个实施例中,特征提取单元420具体用于:对数据矩阵进行标准化处理,并基于标准化处理结果得到样本协方差矩阵;对协方差矩阵进行特征值分解,得到特征值;计算各特征值的累积方差贡献率,并根据累积方差贡献率确定初始主成分,得到初始主成分矩阵;计算数据矩阵中的原始特征与初始主成分矩阵的复相关系数,并根据复相关系数确定补充主成分;根据初始主成分和补充主成分,得到特征数据集。
在一个实施例中,聚类模块600具体用于:运用MapReduce并行化聚类算法对特征数据集进行聚类分析,得到聚类结果。
在一个实施例中,如图10所示,聚类模块600包括:分割单元610,用于对特征数据集进行物理分割,得到多个数据集;将数据集送入对应的Map函数节点上,进行键值对转化;数据点标记单元620,用于在Map阶段,基于聚类算法计算各数据集中的数据点与预设聚类中心的距离,并将各数据点标记到距离最近的聚类中,得到新聚类,送入Reduce阶段;聚类结果生成单元630,用于在Reduce阶段,基于聚类算法计算新聚类的聚类中心,直至目标函数收敛,得到聚类结果。
在其中一个实施例中,聚类算法为K-means算法。
关于变压器异常数据检测装置的具体限定可以参见上文中对于变压器异常数据检测方法的限定,在此不再赘述。上述变压器异常数据检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储变压器的状态数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种变压器异常数据检测方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如上述变压器异常数据检测方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述变压器异常数据检测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上该实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。