窃电行为检测方法、系统、终端设备及存储介质
技术领域
本发明涉及窃电行为检测
技术领域
,具体涉及一种窃电行为检测方法、系统、终端设备及存储介质。背景技术
窃电行为是指用户通过非法手段使得用电表计量的用电量低于实际用电量的行为,这种行为有助于用户少缴纳电费。通常,用户通过修改电能表、重新连接输电线路等来进行窃电,但这些操作极有可能造成电气设备故障、线路短路的现象,严重时甚至导致人员伤亡。显然,窃电行为已经给电力系统的正常运行带来了较大的安全隐患。
目前,针对电力企业窃电的检测方法主要依靠人工调查,不仅效率低且成本高。虽然,供电公司也尝试通过安装硬件来防止窃电行为。然而,额外的硬件不仅价格昂贵,且会占用一定空间;并且由于这些硬件来源于不同厂家,没有统一的安装方法,进一步会加大监测难度。此外,在监测时一旦出现一些电力数据的缺失,就无法准确有效的判断出用户是否存在窃电行为。
发明内容
本发明的目的在于提供一种窃电行为检测方法、系统、终端设备及存储介质,以解决现有窃电行为检测方法中存在的成本高、局限性强、准确度无法保障的技术问题。
为了克服上述现有技术中的缺陷,本发明提供了一种窃电行为检测方法,包括:
对原始数据集进行数据清洗,得到训练样本;
将所述训练样本输入至卷积神经网络模型,得到训练结果;
利用评价指标对当前训练结果进行评估,若当前训练结果不满足预设条件,则调整所述训练样本的权重比,并利用调整后的样本对所述卷积神经网络模型进行训练,直至训练结果满足所述预设条件,得到优化卷积神经网络模型;
将所述优化卷积神经网络模型按照预设权重比进行组合,得到目标检测模型;利用所述目标检测模型检测用户窃电行为。
进一步地,所述数据清洗包括去除重复值、补全缺失值及删除错误值操作。
进一步地,所述调整所述训练样本的权重比,包括:
根据训练结果,将分类错误的样本权重增加至第一预设值及将分类正确的样本权重减少至第二预设值。
进一步地,所述评价指标包括整体准确率、预测精确率、预测召回率及F1值。
本发明还提供了一种窃电行为检测系统,包括:
数据清洗单元,用于对原始数据集进行数据清洗,得到训练样本;
第一训练单元,用于将所述训练样本输入至卷积神经网络模型,得到训练结果;
第二训练单元,用于利用评价指标对当前训练结果进行评估,若当前训练结果不满足预设条件,则调整所述训练样本的权重比,并利用调整后的样本对所述卷积神经网络模型进行训练,直至训练结果满足所述预设条件,得到优化卷积神经网络模型;
检测单元,用于将所述优化卷积神经网络模型按照预设权重比进行组合,得到目标检测模型;利用所述目标检测模型检测用户窃电行为。
进一步地,所述数据清洗包括去除重复值、补全缺失值及删除错误值操作。
进一步地,所述第二训练单元,还用于:
根据训练结果,将分类错误的样本权重增加至第一预设值及将分类正确的样本权重减少至第二预设值。
进一步地,所述评价指标包括整体准确率、预测精确率、预测召回率及F1值。
本发明还提供了一种终端设备,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述的窃电行为检测方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行实现如上任一项所述的窃电行为检测方法。
相对于现有技术,本发明的有益效果在于:
本发明公开的一种窃电行为检测方法,包括对原始数据集进行数据清洗,得到训练样本;将训练样本输入至卷积神经网络模型,得到训练结果;利用评价指标对当前训练结果进行评估,若当前训练结果不满足预设条件,则调整训练样本的权重比,并利用调整后的样本对卷积神经网络模型进行训练,直至训练结果满足预设条件,得到优化卷积神经网络模型;将优化卷积神经网络模型按照预设权重比进行组合得到目标检测模型;利用该模型检测用户窃电行为。
本发明不仅检测精度高,且能在电力网络拓扑结构或网络参数缺失的情况下,根据电表计量数据进行用户窃电行为的判断,具有适用性强、成本低、准确度高的优点。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的窃电行为检测方法的流程示意图;
图2是本发明某一实施例提供的窃电行为检测系统的结构示意图;
图3是本发明某一实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
第一方面:
请参阅图1,本发明某一实施例提供了一种窃电行为检测方法,包括:
S10、对原始数据集进行数据清洗,得到训练样本。
可以理解的是,对于获取的原始数据集如果不进行数据预处理,会存在很多噪声干扰,从而影响训练结果的准确度。因此,在这一步中主要对原始数据集进行数据清洗,得到质量较高的训练样本。
在某一实施例中,数据清洗的主要步骤包括:去除重复值、补全缺失值及删除错误值操作。
S20、将所述训练样本输入至卷积神经网络模型,得到训练结果。
在这一步中主要进行样本的训练,采用的模型为卷积神经网络模型。
需要说明的是,卷积神经网络可以直接从用电数据中提取重要特征,同时它的权值共享和局部连接提高了窃电检测的准确性,降低了窃电检测的复杂度。具体地,卷积神经网络由输入层、卷积层、池化层、全连接层和输出层组成。用电量数据经过卷积神经网络后将分为窃电用户和正常用户。下面将对基本的卷积神经网络模型的结构进行详细说明:
2.1)输入层:
在训练样本中,用电量数据主要用二维矩阵来表示。
2.2)卷积层:
卷积层是由d个卷积核组成的,这些卷积核从用电数据中提取重要的特征,用电数据的尺寸是a×b,卷积核的尺寸是c×c,卷积操作之后,输入数据变为d个特征图,它的尺寸是:
式中,stride是指卷积操作的步长,a是指日期,b指的是智能电表记录的用电数据的数量。
2.3)池化层:
需要说明的是,池化层对特征图进行重采样并保留最重要的信息。池化方法包括平均池化、最大池化和随机池化。通常使用平均池化和最大池化进行计算。通过计算特征映射的平均值或最大值来提取关键特征。在本实施例中,采用最大池化,池化层的尺寸是e×f,池化层的输出是:
2.4)全连接层:
全连接层将d个池化层的输出连接在一起,它的尺寸是:
然后它将被发送到一个分类函数。通常在全连通层中使用SoftMax函数进行分类。SoftMax的输出为0或1。需要说明的是,这里0表示正常用户、1表示窃电用户。
2.5)输出层:
可以理解,输出层用于将SoftMax函数的分类结果进行输出。
本实施例中,为了兼顾训练速度及结果的精确度,采用的卷积神经网络模型,包含2个卷积层和2个池化层。其中,第一个卷积层的尺寸是3*3*32,第二个卷积层的尺寸是3*3*64,第一个池化层的尺寸是1*2,第二个池化层的尺寸是17*3,最大迭代次数设为500,学习率设为0.01。
S30、利用评价指标对当前训练结果进行评估,若当前训练结果不满足预设条件,则调整所述训练样本的权重比,并利用调整后的样本对所述卷积神经网络模型进行训练,直至训练结果满足所述预设条件,得到优化卷积神经网络模型。
本步骤中,主要是对迭代训练的结果进行评估,以保证训练结果满足预设条件,从而能够获得优化卷积神经网络模型。
在某一实施例中,评估指标包括整体准确率、预测精确率、预测召回率及F1值。当进行训练样本中的数据权重调整和迭代训练高达500次时,此时得到的优化卷积神经网络模型较其他方式更为理想。
具体地,本实施例中的卷积神经网络模型是二分类模型,该模型将所有用户分为正常用户和窃电用户,在此强调对窃电用户更感兴趣。因此,窃电用户被标记为1,正常用户被标记为0。其中,训练结果中得到的混淆矩阵如下表所示:
表1窃电检测模型中的混淆矩阵
由表1可知,混淆矩阵给出四个值:TP,TN,FP和FN。TP表示实际上表明窃电,预测结果也表明窃电,这表示窃电用户被抓住了。TN实际上是普通用户,并且预测结果还表明它是正常的。FP表示实际上是一个正常用户,但是该模型预测是错误的并且是窃电的。FN实际上是窃电用户,预测结果表明它是正常用户。用TP,TN,FP和FN这四个值计算准确率,精确率,召回率和F1值。
具体地,对几个指标作出以下说明:
3.1)准确率(AR)是模型分类对的窃电用户和正常用户的比率,并且是衡量模型分类有效性的最直观,最常见的标准。公式如下:
3.2)精确率(PR)是指模型判断为正例同时实际上是正例的样本数,占模型判断为正例的比例。公式如下:
3.3)召回率(RR)表示模型确定为正例的样本占所有实际为正例的样本数。公式如下:
3.4)F值是分类效果的综合指标,是准确率和召回率的统一平均值。公式如下:
其中,当参数α=1时,能够得到最具有代表性的F1值,公式如下:
可以看出,F1值是准确率和召回率相结合的结果,它全面反映了模型的分类水平,F1值越大,模型的分类效果越好。
在某一实施例中,根据评估指标判断训练结果未满足预设条件,因此根据训练结果,将分类错误的样本权重增加至第一预设值及将分类正确的样本权重减少至第二预设值。
具体地,设原始的数据集为D,弱分类器为f(·)。在训练过程中,每一个样本的权重将会根据训练结果改变,一些正常的用户被分为窃电用户,一些窃电用户被分为正常的用户,这些被错误分类的样本权重将会调整为更大,被正确分类的样本权重被调整为更小。下一个分类器将会根据被调整的数据集进行训练,即下一个分类器会更加关注被分类错误的样本,直到达到预设条件后,这个反复训练的过程才会停止。其中,每一个卷积神经网络f(·)都有自己的权重α。
进一步地,本实施例中训练的次数为m,训练的数据集是:
式中,n为样本数量,为第i个用户的用电量数据,yi为第i个用户的二进制标签数据,0代表是正常用户,1代表是窃电用户。
进一步地,当训练次数是k时,样本的权重是:
需要说明的是,本实施例中,每一个弱分类器(卷积神经网络)都有一个自己的权重α,α是基于εk计算的,定义如下:
如果第i个样本被第k个分类器正确分类,那么第i个样本的权重调整改:
如果分类错误,那么第i个样本的权重改为:
因此,通过不断调整训练样本的权重,可以使得分类器更加关注被分类错误的样本。其中,预设条件为当迭代次数达到500次时停止训练。
S40、将所述优化卷积神经网络模型按照预设权重比进行组合,得到目标检测模型;利用所述目标检测模型检测用户窃电行为。
需要说明的是,每个卷积神经网络都有自身的权重,在本步骤中,将训练好的卷积神经网络模型根据一定权重进行组合,合成最终检测窃电的模型。即k个弱分类器(卷积神经网络)根据自身的权重被组合成一个强分类器,表示为:
式中,F(·)是强分类器,f(·)是弱分类器。
本发明实施例提供的窃电行为检测方法,不仅检测精度高,且能在电力网络拓扑结构或网络参数缺失的情况下,根据电表计量数据进行用户窃电行为的判断,具有适用性强、成本低、准确度高的优点。
第二方面:
为了阐述本发明的效果,在某一实施例中,以爱尔兰的数据集作为原始数据集,使用本发明提供的方法进行仿真测试,并将仿真结果与其他方法进行对比。
具体地,爱尔兰数据集包含810名正常居民和270名窃电用户。因此,在爱尔兰的样本数据中,有810个正常居民样本和270个窃电样本,比例为3:1。以每个用户连续21天的数据为样本,每天有48个特征值(爱尔兰用电量信息采集系统每半小时采集一次用电量)。
下面将采用爱尔兰数据集,使用本发明方法进行仿真测试。将爱尔兰数据集按照7:3的比例分为训练集和测试集,训练集用来训练和纠正模型,测试集用来评价模型。使用本发明中提出的方法,分别与决策树、逻辑回归、卷积神经网络(三种独立的方法),基于决策树的自适应增强方法、基于逻辑回归的自适应增强方法(两种合成的方法)进行对比,对比结果如表2所示:
表2本发明与其他三种独立方法的窃电行为预测结果对比
由表2可知,本发明提供的窃电行为检测方法在整体准确率、预测精确率、预测召回率及F1值四个指标中均表现优异,比其他三种对比方法都高。可以看到,卷积神经网络的四个指标也是明显优于决策树、逻辑回归这两种方法的,但卷积神经网络这种独立的方法效果还是略逊于本发明的效果。
本实施例中,还将本发明的效果与其他两种合成方法:基于决策树的自适应增强方法以及基于逻辑回归的自适应增强方法进行对比,对比结果如表3所示:
表3本发明与其他两种合成方法的窃电行为预测结果对比
由表3的结果表明,在合成方法的对比中,本发明提供的窃电行为检测方法在整体准确率、预测精确率、预测召回率、F1值四个指标中是明显优于其他两种合成方法的,并且可以看出,决策树、逻辑回归与自适应增强合成后,也提高了窃电检测的准确率。
综上所述,不论是与独立的窃电检测算法比较,还是与合成的窃电检测算法做比较,都是本发明提供的窃电行为检测方法表现更为优异,在准确率、精确率、召回率和F1值这四个指标评价中都具有最高值。
第三方面:
请参阅图2,本发明某一实施例还提供了一种窃电行为检测系统,包括:
数据清洗单元01,用于对原始数据集进行数据清洗,得到训练样本;
第一训练单元02,用于将所述训练样本输入至卷积神经网络模型,得到训练结果;
第二训练单元03,用于利用评价指标对当前训练结果进行评估,若当前训练结果不满足预设条件,则调整所述训练样本的权重比,并利用调整后的样本对所述卷积神经网络模型进行训练,直至训练结果满足所述预设条件,得到优化卷积神经网络模型;
检测单元04,用于将所述优化卷积神经网络模型按照预设权重比进行组合,得到目标检测模型;利用所述目标检测模型检测用户窃电行为。
在某一实施例中,所述数据清洗包括去除重复值、补全缺失值及删除错误值操作。
在某一实施例中,所述第二训练单元03,还用于:
根据训练结果,将分类错误的样本权重增加至第一预设值及将分类正确的样本权重减少至第二预设值。
在某一实施例中,所述评价指标包括整体准确率、预测精确率、预测召回率及F1值。
需要说明的是,本发明实施例提供的窃电行为检测系统用于执行如第一方面所述的窃电行为检测方法,该方法不仅检测精度高,且能在电力网络拓扑结构或网络参数缺失的情况下,根据电表计量数据进行用户窃电行为的判断,具有适用性强、成本低、准确度高的优点。
第四方面:
请参阅图3,本发明某一实施例还提供了一种终端设备,该终端设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第一方面所示的窃电行为检测方法对应的操作。
在一个可选实施例中提供了一种终端设备,如图3所示,图3所示的终端设备包括:处理器001和存储器003。其中,处理器001和存储器003相连,如通过总线002相连。可选地,终端设备000还可以包括收发器004。需要说明的是,实际应用中收发器004不限于一个,该终端设备000的结构并不构成对本申请实施例的限定。
处理器001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线002可包括一通路,在上述组件之间传送信息。总线002可以是PCI总线或EISA总线等。总线002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器003用于存储执行本申请方案的应用程序代码,并由处理器001来控制执行。处理器001用于执行存储器003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,终端设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中的相应内容。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。