基于大数据分析的危险区域设备数据压缩方法及系统

文档序号:8831 发布日期:2021-09-17 浏览:42次 英文

基于大数据分析的危险区域设备数据压缩方法及系统

技术领域

本发明涉及大数据、数据存储

技术领域

,具体涉及一种大数据分析的危险区域生产数据存储方法及系统。

背景技术

化工企业一般包括各种化学反应室、存储设备、高压高温装置等生产设备。在生产过程中,需要实时记录每个设备的各种状态数据,例如由传感器获得的化学反应室的反应温度、反应速率、反应物的消耗速率,存储设备的内部压力、温度、机械震动幅度等状态数据。每个设备的各种状态数据可以反映设备的实时状态,不仅可以用于分析企业生产的速率、产品产出、成本消耗等特征,还能反映生产过程是否安全,是否出现异常等特征。因此有必要对每个设备的状态数据进行存贮,用于大数据分析和数理统计,从而辅助企业的安全生产。

在化工企业中,由于生产流水线的复杂,参与生产的设备众多,产生的状态数据量也较大。在存贮状态数据时,由于数据量大导致了占用的存储空间大,为了节省存贮空间,往往需要对数据进行压缩。现有的压缩技术通常是将存储时间久的旧数据直接进行删除,或者是对数据进行下采样,减少数据量。但是,这些数据压缩存贮方法都只是针对单一的数据进行压缩,一方面没有考虑数据本身是否存在有用的特征信息,另一方面没有考虑不同数据之间的关联性或者说不同数据之间的相互依赖关系,导致数据压缩后失去过多的特征信息,无法恢复,从而不利于后续的大数据分析或数据可视化等操作。

发明内容

为了解决上述技术问题,本发明的目的在于提供一种基于大数据分析的危险区域设备数据压缩方法及系统,所采用的技术方案具体如下:

第一方面,本发明的一个实施例提供了一种基于大数据分析的危险区域设备数据压缩方法。

选取一段时间内危险区域设备若干状态的时序序列组成状态集合,对状态集合中的时序序列处理得到关联序列;

根据历史状态数据获取关联序列的预测序列,计算关联序列与其预测序列的差值得到预测误差序列;

获取状态集合中各时序序列的关联压缩程度,所述关联压缩程度的计算方法为:

其中,为状态集合中时序序列的关联压缩程度,为状态集合中时序序列的特征分布密度,exp()为以自然常数为底的指数函数,F为时序序列的特征片段的个数,为时序序列第f个特征片段的长度占比,为时序序列第f个特征片段在预测误差序列对应位置上元素的平方和;选取状态集合中关联压缩程度最大的时序序列作为状态集合对应的压缩序列;

根据不同状态集合对应压缩序列的关联压缩程度得到最优压缩方案。

优选的,所述对状态集合中的时序序列处理得到关联序列包括:对状态集合中的时序序列两两做差后得到多个差值序列,对所得差值序列相同元素位置的元素值求和,得到状态集合的关联序列。

优选的,所述根据历史状态数据获取关联序列的预测序列包括:当前分析时段为第一时间段,根据与第一时间段相邻的先时段的关联序列得到第一时间段关联序列的预测序列。

优选的,所述压缩序列的可压缩量根据压缩序列的长度与关联压缩程度得到。

优选的,所述状态集合对应压缩序列的压缩方法包括:获取压缩序列特征片段在预测误差序列对应位置上元素的平方和记为第一系数,获取压缩序列的特征片段在时序序列中的长度占比与第一系数的比值,作为特征片段的分布概率;按照分布概率的大小依次选取特征片段,删除特征片段中元素梯度绝对值最小的元素,直至被删除的元素数量达到可压缩量。

优选的,所述危险区域设备数据压缩方法的压缩结果可通过解压缩得到原状态数据的时序序列:根据与第一时间段相邻的先时段的关联序列得到第一时间段的关联序列的预测序列,对状态集合中时序序列两两作差得到被压缩序列的代数函数,根据代数函数与预测序列构建目标方程,得到初步解压缩的时序序列;结合压缩结果进行修正,得到时序序列的解压缩结果。

优选的,所述根据不同状态集合对应压缩序列的关联压缩程度得到最优压缩方案包括:若多个状态集合对应压缩序列相同,则选取关联压缩程度最大时对应的状态集合作为对该压缩序列进行压缩时的关联状态集合。

优选的,所述根据不同状态集合对应压缩序列的关联压缩程度得到最优压缩方案包括:组合不同状态集合得到若干组合,组合中状态集合对应的压缩序列即为备选压缩方案,其中,备选压缩方案对应的组合需满足:组合中各个状态集合对应的压缩序列各不相同,任一状态集合的压缩序列不被包含在该组合下其他状态集合中;根据备选压缩方案中各压缩序列的可压缩量选择最优压缩方案。

第二方面,本发明的另一个实施例提供了一种基于大数据分析的危险区域设备数据压缩系统。

一种基于大数据分析的危险区域设备数据压缩系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现基于大大数据分析的危险区域设备数据压缩方法。

本发明具有如下有益效果:

通过建立时序预测模型进行预测和分析序列的特征分布密度获得时序序列的可压缩程度,根据每个序列的可压缩程度获得不同状态组合下的关联序列,进而计算出不同状态组合的关联压缩程度,通过构建隐马尔可夫链并根据不同状态组合的关联压缩程度获取一种最佳的数据压缩方案,最后给出数据压缩和解压方法。使得压缩后的数据尽可能的保留重要特征,同时保留不同数据之间的关联关系,除此之外,还能准确地用压缩数据恢复时序序列被压缩前的数据,对后续的大数据分析或者数据可视化的准确性具有重要意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于大数据分析的危险区域设备数据压缩方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据分析的危险区域设备数据压缩方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

为解决危险生产区域中,生产设备产生需要存储的不同状态的大量数据,从而占用存储空间较大的问题,本发明根据关联压缩程度结合不同状态时序序列的特征分布密度获取每种状态集合的最优压缩方案和多种状态集合组合的最优压缩方案,目的是对危险区域设备产生的状态数据进行压缩,同时尽可能保留设备状态数据本身的特征信息以及数据之间的关联信息。下面结合附图具体的说明本发明所提供的一种基于大数据分析的危险区域设备数据压缩方法及系统的具体方案。

具体实施例1:

本实施例提供一种基于大数据分析的危险区域设备数据压缩方法。

本发明所针对的具体场景为:对存在数据库中一段时间的设备历史状态数据进行压缩。该状态数据为单个设备产生的所有状态数据,包括化学反应室的反应温度、反应速率、反应物的消耗速率等状态数据;本实施例的时间段T长度为24小时,即对任一状态,其状态时序序列长度为24小时,时序序列时间间隔为1分钟。

请参阅图1,其示出了本发明一个实施例提供的基于大数据分析的危险区域设备数据压缩方法流程图。基于大数据分析的危险区域设备数据压缩方法包括:

选取一段时间内危险区域设备若干状态的时序序列组成状态集合,对状态集合中的时序序列处理得到关联序列;

根据历史状态数据获取关联序列的预测序列,计算关联序列与其预测序列的差值得到预测误差序列;

获取状态集合中各时序序列的关联压缩程度,所述关联压缩程度的计算方法为:

其中,为状态集合中时序序列的关联压缩程度,为状态集合中时序序列的特征分布密度,exp()为以自然常数为底的指数函数,F为时序序列的特征片段的个数,为时序序列第f个特征片段的长度占比,为时序序列第f个特征片段在预测误差序列对应位置上元素的平方和;选取状态集合中关联压缩程度最大的时序序列作为状态集合对应的压缩序列;

根据不同状态集合对应压缩序列的关联压缩程度得到最优压缩方案。

具体实施步骤如下:

首先,获取危险区域设备的所有状态数据,并对其进行无量纲化。

具体地,获取危险区域内单个设备一段时间产生的所有状态数据;设有N种状态时序序列,记每种状态时序序列分别为。以为例,对状态时序序列的无量纲化过程为:

(1)获取超参数。统计一个季度内状态N在不同时间间隔下的状态数据,计算这些数据的平均值,该平均值就是超参数。该超参数用于表征危险区域内单个设备的一个状态N的期望值,时序序列中的每个元素都在附近波动变化。

(2)获取时序序列中任意一个元素,令,其中,是程序赋值符号表示原序列中每个元素减去,用于表征每个元素相对的大小差异;如果将该差异视为一个随机变量和真实值之间的误差,那么所构成的序列就视为一个随机过程,即不同时刻随机变量的取值;是为了去除量纲,目的是避免设备不同状态之间由于量纲或数量级的差异而影响后续的数据分析。后续的所有时序序列都按照以上方法进行无量纲化处理,本发明的压缩对象就是这些无量纲数据。

至此,获取设备待压缩的无量纲时序序列。

其次,获取时序序列的特征分布密度。

具体地,对每种状态的时序序列进行开运算和闭运算,除去孤立噪声数据,随后采用分水岭算法将时序序列分割成不同的片段,每个片段表示一种变化特征,这些片段称为特征片段;将特征片段的个数与序列的长度的比值称为特征分布密度,用于表示时序序列内单位长度上特征的个数。

至此,获得时序序列的特征分布密度。

再次,选取一段时间内危险区域设备若干状态的时序序列组成状态集合,对状态集合中的时序序列处理得到关联序列;根据历史状态数据获取关联序列的预测序列,计算关联序列与其预测序列的差值得到预测误差序列;根据状态集合中时序序列的特征分布密度、特征片段的长度和预测误差序列得到状态集合中各个序列的关联压缩程度;选取状态集合中关联压缩程度最大的时序序列作为状态集合对应的压缩序列。

特别地,压缩序列的可压缩量根据压缩序列的长度与关联压缩程度得到。获取压缩序列特征片段在预测误差序列对应位置上元素的平方和记为第一系数,获取压缩序列的特征片段在时序序列中的长度占比与第一系数的比值,作为特征片段的分布概率;按照分布概率的大小依次选取特征片段,删除特征片段中元素梯度绝对值最小的元素,直至被删除的元素数量达到可压缩量。

具体地,由于危险区域单个设备存在多个状态,对应多个状态时序序列,这些时序序列之间具有关联关系,一同决定设备的状态,因此数据压缩时不能只对单一的状态时序序列进行压缩,而要充分考虑不同状态之间的关联关系和相互作用。在时间段T内,要对设备产生的状态数据进行压缩,后续若无特殊说明,数据均是指时间段T内的数据。设备的N个状态构成多个状态集合S,表示不同状态的组合,S的取值个数为,即S的取值域为。集合是S的第k个取值,中包含一个或多个状态的时序序列。

获取状态集合中压缩序列的方法包括:

(1)对状态集合中的时序序列两两做差后得到多个差值序列,对所得差值序列相同元素位置的元素值求和,得到状态集合的关联序列。按设定规则对时序序列两两作差,所述设定规则包括:对时序序列编号,编号大的时序序列减去编号小的时序序列;对时序序列编号,编号小的时序序列减去编号大的时序序列。以状态集合为例:对于状态集合S的第k个取值集合,该集合包含有n个状态;在时间段T内,获取这n个状态对应的状态时序序列,分别为。这些序列中两两做差后对所有差值序列求和,获得一个关联序列。具体方法为:就是集合中所有状态的时序序列的关联序列。其中,表示两个序列对应元素计算差值,如果中只有一个时序序列,则表示从中任意取两个不同的序列;表示:每个状态时序序列都有一个全局的ID编号,在计算差值时编号大的减去编号小的。

特别地,对于状态集合中ID编号最小的时序序列表示为,ID编号最大的时序序列表示为,状态集合中ID编号为中间值的时序序列表示为。对于状态集合中的任意一个,获取所有的元组以及;其中,;如果能够满足前者元组的数量和后者元组的数量相等,那么序列称为无效序列,这种无效序列在参与计算时,对的结果不产生影响。获取所有满足条件的,进而获得中所有的无效序列。

(2)当前分析时段为第一时间段,根据与第一时间段相邻的先时段的关联序列得到第一时间段关联序列的预测序列。分析的平稳性,当其具备平稳性时,建立ARMA预测模型,获取预测值与真实值的预测误差序列。获取集合中的任意一个无效序列之外的时序序列,获取中的一个特征片段,获取该特征片段的长度占比,该比值越大说明这个特征也可以被压缩的量就大,如果比值越小说明这个特征判断被压缩的量就小;获取其中第f个特征片段,其长度占比为,这个片段对应的预测误差序列上的元素的平方和为。那么,时序序列的关联压缩程度为:

其中,为时序序列的特征片段的个数,为该序列的特征分布密度,为该序列的特征分布密度的指数函数形式。

由上式可知,时序序列的特征分布密度越低、特征片段占比越多、对应片段的误差越小,关联压缩程度就越大。若状态集合中的时序序列的关联压缩程度最大,那么时序序列即为状态集合的压缩序列。压缩序列对应的关联压缩程度越大说明状态集合中的所有时序序列关联在一起时是可以被预测的,说明可以被压缩;也说明集合中的每个序列都不能被压缩时,可以将中的一个时序序列进行关联压缩,所述的对集合中的时序序列进行关联压缩,是指对集合中被压缩程度最大的时序序列进行压缩,称为的压缩目标。当不具备平稳性时,集合的关联压缩程度为0,此时,没有对应的压缩目标。

(3)具体的关联压缩方法为:状态集合的关联压缩程度设为,对于中的目标压缩序列,获取可压缩量。其中,为超参数,本发明的长度。特别地,若可压缩量不为整数,需要对可压缩量向下取整。首先,获取时序序列的所有特征片段,计算第f个片段对应的误差序列上元素的平方和,获得第f个特征片段的长度对时序序列的长度占比的比值,其中,。对进行归一化处理,获得的结果是特征片段的概率分布,每一个概率对应一个特征片段。其次,以该概率分布从所有特征片段中采样一个特征片段a,随后从特征片段a中删除一个元素,该元素的梯度的绝对值在特征片段a中是最小的。最后,通过多次采样多个特征片段,从而删除时序序列中的个元素,即达到状态集合的可压缩量,最后获得的压缩结果为为对状态集合中的时序序列进行关联压缩的压缩结果。

特别地,危险区域设备数据压缩方法的压缩结果可通过解压缩得到原状态数据的时序序列:根据与第一时间段相邻的先时段的关联序列得到第一时间段的关联序列的预测序列,对状态集合中时序序列两两作差得到被压缩序列的代数函数,根据代数函数与预测序列构建目标方程,得到初步解压缩的时序序列;结合压缩结果进行修正,得到时序序列的解压缩结果。

具体地,本实施例还包括将压缩结果通过解压缩得到原始状态时序序列的过程,即可将压缩结果通过解压缩得到原始时序序列。在时间段T内,现假设对集合中的第k个序列进行了压缩,压缩结果为,解压缩的目的是根据中除去之外其他时序序列求解出。为了叙述方便,时间段T的状态集合表示,时序序列表示,表示。具体方法包括:

(1)通过数据库获取时间段T之前紧邻的一个时间段T1,时间段T1和时间段T的时间长度相同。在时间段T1内,获取状态集合,记为。根据中的所有时序序列,获得关联序列;当是平稳序列时,构建出ARMA模型,根据ARMA模型预测出时间段T内的时序序列

(2)构建目标方程:。其中,是关于位置序列的一个代数函数,视为已知序列。求解出。此时虽然已经求解出,但是为了让更接近真实值,需使用的压缩结果来修正。

(3)使用DTW算法获取之中元素之间的匹配关系,具体的:设中任意一个元素为e,利用DTW算法获取到中的一个元素集合E,元素集合E中的元素与元素e是匹配的,本发明需要用元素e来修正E中的元素,修正方法是:将E中所有元素乘以一个系数获得数据集合E1,使得数据集合E1的均值为e,然后将的元素集合E中的元素替换为E1中的元素。当e遍历所有的取值时,即可实现对的修正,修正后的就是的解压缩结果。

至此,获得每个状态集合的最优压缩与解压缩方案。

最后,根据不同状态集合的组合对应压缩序列的关联压缩程度得到最优压缩方案。

特别地,针对一个压缩序列的最优压缩方案为:若多个状态集合对应压缩序列相同,则选取关联压缩程度最大时对应的状态集合作为对该压缩序列进行压缩时的关联状态集合。针对设备所有状态数据的最优压缩方案为:组合不同状态集合得到若干组合,组合中状态集合对应的压缩序列即为备选压缩方案,其中,备选压缩方案对应的组合需满足:组合中各个状态集合对应的压缩序列各不相同,任一状态集合的压缩序列不被包含在该组合下其他状态集合中;根据备选压缩方案中各压缩序列的可压缩量选择最优压缩方案。

集合只是反映危险区域设备的所有状态中某几个状态的组合后的压缩方案,这个压缩方案可能不是最好的,也许还存在另外一种或几种状态组合可以获得更好的压缩方案,即数据压缩量最多的压缩方法。

具体地,针对设备所有状态数据的最优压缩方案,即多个状态集合组合在一起达到最大压缩量的压缩方案。本发明需要获取一种数据压缩量最大最好的一个压缩方案,具体方法是:

(1)获取一个隐马尔可夫链状数据结构。状态节点为;可观测节点为。本发明用状态节点表示状态集合S的一个取值,例如;用可观测节点表示待压缩的时序序列数据,例如。对于一个隐马尔可夫链,可以对时序序列数据进行压缩,并且在压缩时是利用所表示的状态集合的;一旦获得一个合适的隐马尔可夫链就获得了数据的压缩方法和解压方法。

(2)一个合适的隐马尔可夫链的生成过程为:假设第t个状态节点代表一个状态集合,节点的大小表示集合中数据的压缩程度,即;集合中可压缩的数据为,那么第t个状态节点对应的可观测节点代表待压缩的时序序列

(3)那么第t+1个节点表示的集合满足三个条件:第一,的值不能为0。目的是保证状态节点所表示的时序序列数据是可以压缩的。第二,所表示的集合不能包含中的任何一个数据。目的是在对可观测节点进行压缩时,使得参与压缩的状态集合中不存在能被压缩的时序序列。第三,可观测节点不被包含在中的任意一个状态集合中。目的是使得待压缩的数据不再参与其他数据的压缩。

(4)组合不同状态集合得到若干组合,组合中状态集合对应的压缩序列即为备选压缩方案。即随机从S中依次选择多个取值作为隐马尔可夫链的起始节点,可以获得多个隐马尔可夫链,每个隐马尔可夫量对应一种数据压缩方案。对于其中一个隐马尔可夫链,获取其上所有个状态节点大小之和,作为该种备选压缩方案的总压缩量。

(5)获取总压缩量最大的隐马尔可夫链,根据该隐马尔可夫链进行数据压缩,即对时序序列进行压缩,并且在压缩时利用所表示的状态集合。

由此可获得在时间段T内获得一种压缩量最大的压缩方案,需要说明的是,对时间段T内的数据进行压缩时,时间段T1的数据不能压缩,因为在对时间段T内压缩的数据进行解压缩时需要用到T1时间段的数据,因此T1时间段的数据不用压缩。因此本发明要求每两个一定长度的时间段进行一次数据压缩,实施者可以指定时间段的长度,进而控制危险区域设备产生的所有数据的压缩量。

至此,得到危险区域设备状态集合的组合关联压缩的最佳方案。

具体实施例2:

本实施例提供一种基于大数据分析的危险区域设备数据压缩系统。

本发明所针对的具体场景为:对存在数据库中一段时间的设备历史状态数据进行压缩。该状态数据为单个设备产生的所有状态数据,包括化学反应室的反应温度、反应速率、反应物的消耗速率等状态数据;本实施例的时间段长度为24小时,即对任一状态,其状态时序序列长度为24小时,时序序列时间间隔为1分钟。

基于大数据分析的危险区域设备数据压缩系统包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现基于大数据分析的危险区域设备数据压缩方法。

需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:基于ZigBee的精准化多维物资联动利用方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!