一种基于数据挖掘技术的自动化窃电识别方法

文档序号:8660 发布日期:2021-09-17 浏览:33次 英文

一种基于数据挖掘技术的自动化窃电识别方法

技术领域

本发明涉及窃电识别

技术领域

,尤其涉及一种基于数据挖掘技术的自动化窃电识别方法。

背景技术

目前,对于公变、专变窃电用户的窃电用户识别,主要依靠用电稽查人员的经验积累和业务知识,定期或非定期的现场稽查,效率低成本高,智能化程度低。与此同时,窃电技术呈现多样化、高科技化、隐蔽性强的发展趋势,依据专家经验进行反窃电的局限性日渐明显。

现阶段用电数据的采集种类、频度有限,在窃电智能分析方面,仍需配备专门的采集设备,获取更丰富的用电数据供专家算法和人工判定使用,达到识别窃电目的。此类智能识别技术必须搭配定制化的硬件设备,成本较高,推广周期长,而且,无法突破专家算法的局限性,缺乏对原有电力数据的深度挖掘,智能化程度较低。

发明内容

本发明的目的是为了解决现有技术中识别技术必须搭配定制化的硬件设备,成本较高,推广周期长,而且,无法突破专家算法的局限性,缺乏对原有电力数据的深度挖掘,智能化程度较低的缺点,而提出的一种基于数据挖掘技术的自动化窃电识别方法。

为了实现上述目的,本发明采用了如下技术方案:

一种基于数据挖掘技术的自动化窃电识别方法,包括以下步骤:

S1:获取档案、用电量数据;

S2:数据预处理:数据预处理对用户电能表日冻结示数中存在的缺失值、0值及明显错误数据这几种异常情况进行处理;

S2:数据预处理:第一、截取已查处窃电用户用电量异常波动时段数据,第二、按照时间序列将数据反转;

S4:构建窃电行为特征识别模型,模型构建采用:第一、时间分段法构建特征工程模型,第二、关联分析;

S5:使用监督机器学习模型、训练模型;

S6:模型验证与优化。

优选的,所述S2中,具体包括以下处理方式:

首先,计算异常值占比及连续出现异常值的长度、并进行采样;

如果异常值占比超过预设阈值或连续出现异常值的长度超过预设阈值,则舍弃该样本;如果异常值占比及连续异常值长度均未超过预设阈值,则针对每一段连续的异常值,在出现该异常值的区间附近对日冻结示数进行随机采样,

其次,对采样得到的结果进行线性拟合,通过拟合得到的日冻结示数曲线对异常值进行填充、替换;

最后,异常值处理结束后,对电能表日冻结示数做一阶差分,得到日用电量曲线。

优选的,所述S3中,对用电量异常波动,预测窃电用户用电异常点,以现场稽查已确认的窃电用户用电数据为学习对象,发现窃电用户在被查处前后,均会出现日用电量曲线异常波动的现象,包括但不限于日用电量明显上升,以此推断,窃电用户在开始窃电的某一日期或时刻应存在于此对应的日用电量异常波动现象。

优选的,所述S4中,时间分段法具体为时间分段分割方法切分被分析时段,由此推断出发,创新性的将已知窃电用户被查处日期前后一段时间内的日用电量曲线做时间反转处理,获得用电量呈下降趋势的异常波动曲线,并通过时间片分割方法,将被分析时段切分为n个时间窗口,构建特征工程,提取曲线波动数据特征。

优选的,所述S4中,按照时间分段法构建特征工程模型,具体包括:

第一、特征值提取:针对每一个时间窗口,选取均值、标准差、最大值、曲率、斜率等物理量作为特征指标,计算用电量曲线对应特征指标的指标值;

第二、特征值聚合:对整个分析时段内,对所有时间窗口的各个特征指标的值进行聚合,聚合算法包括计算被分析的整个时段内,每个特征值的一阶导数、标准差、熵,从特征指标的变化趋势、波动剧烈程度、混乱程度等方面综合识别用电量曲线的波动特征。

优选的,所述S4中,关联分析包括:

第一、台区线损关联分析:用电量骤降之后,会导致台区线损偏高,计算窃电用户所在台区的多天平均线损,分析窃电用户用电量异常与台区线损的相关性;

第二、节假日关联分析:与用电量相近用户对比,窃电用电量将明显偏小,分析用电量相近且地理位置相近的正常用电户节假日用电量变化特征,与窃电用户进行对比分析,进一步识别窃电用户的用电异常特征;

第三、温度关联分析:分析用电量相近且地理位置相近的正常用电户随温度变化的用电量变化特征,与窃电用户进行对比分析,进一步识别窃电用户的用电异常特征;

第四、异常事件关联关系分析:分析窃电用户对应的电能表开盖事件、开钮盖事件、异常停电事件等异常事件分布规律,识别窃电事件与异常时间的关联关系。

优选的,所述S4中,构建窃电行为特征识别模型在时间分段法构建特征工程模型的聚合结果基础上,分析窃电用户所在区域的正常用户随温度、节假日变化的用电量波动情况,综合考虑地域温度、节假日对用电的影响,进一步分析窃电用户的行为特征,构建窃电行为特征模型。

优选的,所述S5中,模型训练包括:

第一、窃电样本数据:截取已被查处的窃电用户被查处前后一段时间内的用电曲线,反转用电曲线之后作为窃电样本数据;

第二、正常样本数据:截取正常用户各时间段内的用电曲线,作为正常样本数据;

第三、标签:标记窃电样本为正例1,正常样本为反例0,将窃电样本数据和正常样本数据合并成为一个数据集,并采用留存法分成训练集和测试集。

优选的,所述S5中,学习模型:分别使用随机森林及支持向量机这两种有监督机器学习模型,使用上述训练集进行训练,并通过在测试集上的表现,迭代调整超参数来获得现有条件下的最优模型(通过评判精确率和召回率等指标),作为最终输出模型。

优选的,所述S6中,模型验证:获取上述数据集外的其他用户用电量数据,作为验证集,使用识别模型分析得到疑似窃电用户,通过现场稽查确认分析结果是否正确;模型迭代优化:根据窃电用户的确认结果,在验证集上继续训练窃电分析模型。通过反复多次,不断扩充训练集的数据,不断迭代,优化窃电行为特征识别模型,提升窃电用户识别准确率。

与现有技术相比,本发明的优点在于:

1、本发明以数据挖掘技术理论为基础,针对已查处的窃电用户,对其用电量数据采用分段分割法构建特征工程,提取用电量曲线特征,结合台区线损、节假日、地理区域等因素,进行关联分析,构建窃电用户行为识别模型,然后通过有监督的机器学习方法训练模型,提升识别准确率。

2、本发明将已知窃电用户被查处日期前后一段时间内的日用电量曲线做时间反转处理,将反转后的曲线作为学习对象进行特征提取,分析并习得窃电用户的用电行为特点,这一处理方式,明确了学习对象及其用电量波动特点,避免无目标的假设各种窃电行为特征,再从海量数据中探索数据特征这个过程,提高窃电行为特征的提取效率,提高机器学习效果。

3、本发明识别出窃电用户后,可根据窃电用户用电量波动特性,定位出现异常波动的日期或时刻,进而确定窃电用户的起始窃电日期,为后续窃电量追补提供依据。

4、本方案通过基于现有窃电分析技术领域的不足,将已查处的窃电用户作为样本,深入分析样本用户的用电量变化规律,考虑到发生窃电的用户都会具有某时刻用电量突然呈骤降趋势异常波动的特点,本发明给出一种基于数据挖掘技术,通过对用户历史用电量进行分段数值特征分析,结合有监督的机器学习方法,识别用电量出现特定异常波动的用户,进而实现窃电用户识别的方法。

5、本方法立足于用电信息采集系统的公变、专变用户用电数据采集现状,对于低压公变用户,只需基于历史日冻结用电量数据,对于低压专变用户,只需基于历史高频用电量采集数据,即可实现公变、专变窃电用户识别,无需增加额外的采集设备,经过实际验证表明了该模型具有较高的准确性;本发明智能化程度高,采用数据特征识别方式可涵盖各种窃电手段,可自动识别用电行为异常用户,定位窃电用户,节省防窃电的工作成本,提升防窃电稽查效率,提高窃电打击的精准性。

附图说明

图1为本发明提出的窃电用户被查处日期前后15天日用电量曲线图;

图2为本发明提出的对图1按时间反转得到日用电量异常波动曲线图;

图3为本发明提出的一种基于数据挖掘技术的自动化窃电识别方法的流程图;

图4为本发明提出电量分析时段图。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

实施例一

参照图1-4,一种基于数据挖掘技术的自动化窃电识别方法,包括以下步骤:

S1:获取档案、用电量数据;

S2:数据预处理:数据预处理对用户电能表日冻结示数中存在的缺失值、0值及明显错误数据这几种异常情况进行处理;

S2:数据预处理:第一、截取已查处窃电用户用电量异常波动时段数据,第二、按照时间序列将数据反转;

S4:构建窃电行为特征识别模型,模型构建采用:第一、时间分段法构建特征工程模型,第二、关联分析;

S5:使用监督机器学习模型、训练模型;

S6:模型验证与优化。

本实施例中,S2中,具体包括以下处理方式:

首先,计算异常值占比及连续出现异常值的长度、并进行采样;

如果异常值占比超过预设阈值或连续出现异常值的长度超过预设阈值,则舍弃该样本;如果异常值占比及连续异常值长度均未超过预设阈值,则针对每一段连续的异常值,在出现该异常值的区间附近对日冻结示数进行随机采样,

其次,对采样得到的结果进行线性拟合,通过拟合得到的日冻结示数曲线对异常值进行填充、替换;

最后,异常值处理结束后,对电能表日冻结示数做一阶差分,得到日用电量曲线。

本实施例中,S3中,对用电量异常波动,预测窃电用户用电异常点,以现场稽查已确认的窃电用户用电数据为学习对象,发现窃电用户在被查处前后,均会出现日用电量曲线异常波动的现象,包括但不限于日用电量明显上升,以此推断,窃电用户在开始窃电的某一日期或时刻应存在于此对应的日用电量异常波动现象。

本实施例中,S4中,时间分段法具体为时间分段分割方法切分被分析时段,由此推断出发,创新性的将已知窃电用户被查处日期前后一段时间内的日用电量曲线做时间反转处理,获得用电量呈下降趋势的异常波动曲线,并通过时间片分割方法,将被分析时段切分为n个时间窗口,构建特征工程,提取曲线波动数据特征:

默认选取连续7天为一个时间窗,可根据实际情况调整时间窗大小,如图4。

本实施例中,S4中,按照时间分段法构建特征工程模型,具体包括:

第一、特征值提取:针对每一个时间窗口,选取均值、标准差、最大值、曲率、斜率等物理量作为特征指标,计算用电量曲线对应特征指标的指标值;

第二、特征值聚合:对整个分析时段内,对所有时间窗口的各个特征指标的值进行聚合,聚合算法包括计算被分析的整个时段内,每个特征值的一阶导数、标准差、熵,从特征指标的变化趋势、波动剧烈程度、混乱程度等方面综合识别用电量曲线的波动特征。

本实施例中,S4中,关联分析包括:

第一、台区线损关联分析:用电量骤降之后,会导致台区线损偏高,计算窃电用户所在台区的多天平均线损,分析窃电用户用电量异常与台区线损的相关性;

第二、节假日关联分析:与用电量相近用户对比,窃电用电量将明显偏小,分析用电量相近且地理位置相近的正常用电户节假日用电量变化特征,与窃电用户进行对比分析,进一步识别窃电用户的用电异常特征;

第三、温度关联分析:分析用电量相近且地理位置相近的正常用电户随温度变化的用电量变化特征,与窃电用户进行对比分析,进一步识别窃电用户的用电异常特征;

第四、异常事件关联关系分析:分析窃电用户对应的电能表开盖事件、开钮盖事件、异常停电事件等异常事件分布规律,识别窃电事件与异常时间的关联关系。

本实施例中,S4中,构建窃电行为特征识别模型在时间分段法构建特征工程模型的聚合结果基础上,分析窃电用户所在区域的正常用户随温度、节假日变化的用电量波动情况,综合考虑地域温度、节假日对用电的影响,进一步分析窃电用户的行为特征,构建窃电行为特征模型。

本实施例中,S5中,模型训练包括:

第一、窃电样本数据:截取已被查处的窃电用户被查处前后一段时间内的用电曲线,反转用电曲线之后作为窃电样本数据;

第二、正常样本数据:截取正常用户各时间段内的用电曲线,作为正常样本数据;

第三、标签:标记窃电样本为正例1,正常样本为反例0,将窃电样本数据和正常样本数据合并成为一个数据集,并采用留存法分成训练集和测试集。

本实施例中,S5中,学习模型:分别使用随机森林及支持向量机这两种有监督机器学习模型,使用上述训练集进行训练,并通过在测试集上的表现,迭代调整超参数来获得现有条件下的最优模型(通过评判精确率和召回率等指标),作为最终输出模型。

本实施例中,S6中,模型验证:获取上述数据集外的其他用户用电量数据,作为验证集,使用识别模型分析得到疑似窃电用户,通过现场稽查确认分析结果是否正确;模型迭代优化:根据窃电用户的确认结果,在验证集上继续训练窃电分析模型。通过反复多次,不断扩充训练集的数据,不断迭代,优化窃电行为特征识别模型,提升窃电用户识别准确率。

实施例二

本实施例中,图1为某窃电用户被查日期前后15天的日用电量变化曲线,当窃电用户被查处后,日用电量会出现明显上升的异常波动;以此推断,当某窃电用户发生窃电是,应有与之对应的日用电量明显下降的异常波动。

本实施例中,对图1中的用电量变化曲线做按时间反转处理,用电量呈下降趋势的异常波动曲线,模拟窃电用户的用电行为,如图2所示;对图2中的曲线构建特征工程,进行曲线波动的数据特征提取,归纳窃电用户日用电力变化趋势,进一步分析窃电用户的用电行为。

本实施例中,基于现有窃电分析技术领域的不足,将已查处的窃电用户作为样本,深入分析样本用户的用电量变化规律,考虑到发生窃电的用户都会具有某时刻用电量突然呈骤降趋势异常波动的特点,本发明给出一种基于数据挖掘技术,通过对用户历史用电量进行分段数值特征分析,结合有监督的机器学习方法,识别用电量出现特定异常波动的用户,进而实现窃电用户识别的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种基于数据挖掘的建筑能耗集成分析方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!