一种基于图自监督学习的pm2.5预测方法及存储介质

文档序号:8193 发布日期:2021-09-17 浏览:64次 英文

一种基于图自监督学习的PM2.5预测方法及存储介质

技术领域

本发明涉及空气质量监测

技术领域

,尤其是涉及一种基于图自监督学习的PM2.5多站点联合预测方法及存储介质。

背景技术

随着我国社会的不断发展和城市规模的不断扩大,近年来,城市的空气污染问题不断受到社会的关注。空气污染会产生许多问题,如引起人体呼吸道和心肺系统疾病,影响社会生产效率等。特别是PM2.5这类微小颗粒,一旦形成具有面积大,难以消解等特点更需要被重点关注。为了改善空气污染引起的社会问题,及时准确的了解PM2.5传播扩散趋势,建立准确的PM2.5浓度预测模型,能够帮助我们提前了解污染物浓度变化趋势,帮助管理部门提前做出决策。当前,空气污染物浓度预测涉及到多个部门,多种时空数据和多个区域,准确的预测往往面对海量的数据和复杂的非线性传播依赖关系。

国内外许多研究人员都提出了众多预测方法和技术,但大部分使用的仍然是传统的机器学习方法,只能提取浅层特征。此外,现有的大部分研究方法都没有考虑到污染物数据采集自监测站点这类非欧几里得空间。对于利用非欧几里得空间下的空间关联性研究较少,尽管现有技术中存在对PM2.5的预测方法,但是预测准确率和精度都较低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种预测效果好、实用性好的基于图自监督学习的PM2.5预测方法及存储介质。

本发明的目的可以通过以下技术方案来实现:

一种基于图自监督学习的PM2.5预测方法,所述的PM2.5预测方法包括:

步骤1:进行图构建;

步骤2:构建PM2.5预测模型;

步骤3:训练步骤2构建的预测模型;

步骤4:计算模型预测的准确率,若准确率超过预设阈值,则执行步骤5,否则,返回步骤3;

步骤5:将多站点数据输入训练好的预测模型,获得所有站点的PM2.5预测浓度值。

优选地,所述的步骤1具体为:

采集区域内多个站点的空气污染物和环境时空监测数据,对数据进行预处理后,将区域内的站点视为图中的节点,站点中采集到的环境时空数据作为节点特征向量,两个节点间距离小于预设阈值L,则视为两个节点间存在连边。

更加优选地,所述的环境时空监测数据包括污染物浓度值、气象监测值和时空条件值。

优选地,所述的步骤2具体为:

基于深度学习原理构建图自编码网络ST-GAE和长短期记忆网络LSTM建立时空联合预测模型,图自编码网络ST-GAE用于提取空间依赖关系,长短期记忆网络LSTM用于提取时间依赖关系,图自编码网络ST-GAE和长短期记忆网络LSTM相连。

更加优选地,所述的图自编码网络ST-GAE使用Encoder-Decoder架构,ST-GAE的Encoder部分使用GCN来融合多阶邻居信息得到新的特征矩阵,可以用以下公式对Encoder部分进行表示:

Z=GCN(X,A)

其中,为节点的特征矩阵;为图的邻接矩阵;为融合了邻居信息的图表示;

GCN的计算方法为:

其中,W0和W1为待学习的参数;D为图的度矩阵。

更加优选地,所述的所述的图自编码网络ST-GAE采用前馈神经网络作为Decoder来重构原始的图结构,具体方法为:

其中,为重构后的邻接矩阵;g为sigmod激活函数;Wd和bd为待学习的参数。

更加优选地,所述的步骤3具体为:

首先对ST-GAE部分进行自监督训练,训练过程中使用损失函数进行训练;

得到预训练模型后,将重构的特征矩阵输入到LSTM网络中,提取时序依赖关系,使用损失函数MSE进行训练,并对模型进行微调,完成模型的训练。

更加优选地,所述的损失函数为交叉熵,具体为:

其中,y表示邻接矩阵A中的某个元素值,为0或1;表示重构后的邻接矩阵中对应元素的值,为0或1;N为节点的数量。

更加优选地,所述的损失函数MSE为均方误差,具体为:

其中,yi表示PM2.5浓度的实际值;表示模型PM2.5浓度的预测值。

一种存储介质,所述的存储介质内存储有上述任一项所述的PM2.5预测方法。

与现有技术相比,本发明具有以下有益效果:

一、预测效果好:本发明中的PM2.5预测方法是建立在环境时空大数据和深度学习理论基础之上的,利用已经积累的大量空气和气象监测数据,使用图这种拓扑结构对这类非结构化数据进行组织,构成时空图序列数据;然后,使用本发明提出的新型的基于图自监督学习的深度学习模型,对PM2.5传播过程中的复杂非线性时空依赖进行深度提取,最终输出区域内多个站点的预测值,比传统方法取得更加优异的预测效果,因而具有实际的应用价值。

二、实用性好:本发明中的PM2.5预测方法可以直接对当前区域内所有站点的PM2.5进行预测,无需分别对各个站点进行数据处理,数据处理速度快,范围广,实用性好。

附图说明

图1为本发明中PM2.5预测方法的流程图。

图2为本发明实施例中所构建的时空图序列数据示意图。

图3为本发明实施例中基于图自监督学习的PM2.5浓度多站点联合预测模型结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

图神经网络以其强大的非欧式数据处理能力受到研究人员的关注,本发明利用图神经网络对非欧数据强大的学习能力,结合自编码器和自监督学习的思想,建立了多站点预测模型。该模型能够从空间和时间两个方面考虑污染物传播的非线性依赖关系,同时输出多个站点的预测值,下面提供一种具体实施方式:

一种基于图自监督学习的PM2.5预测方法,其流程如图1所示,包括:

步骤1:进行图构建;

采集区域内多个站点的空气污染物和环境时空监测数据,对数据进行预处理后,将区域内的站点视为图中的节点,站点中采集到的环境时空数据作为节点特征向量,两个节点间距离小于预设阈值L,则视为两个节点间存在连边;

所述的环境时空监测数据包括污染物浓度值、气象监测值和时空条件值,根据两个节点间的欧氏距离L作为边存在的依据;

本实施例采用的距离阈值L=200km,也即当两个站点间的距离小于等于200km时,两个节点间建立连边。

污染物包括:AQI、PM2.5、PM10、SO2、NO2、O3、CO;

气象监测值包括:气温、气压、风向、风速、降水量、云量;

时间条件值包括:年、月、日、时、周;

空间条件值包括:经度、维度。

最后构成20维特征向量,污染物和气象特征每小时采集一次,最终经过缺失值填充和异常值处理后得到时空图序列数据。也即在T时段内,得到时空图序列数据

步骤2:构建PM2.5预测模型,设置模型结构、超参数和损失函数,模型的具体结构如图2所示。该模型主要由两部分组成,其中图自编码器部分负责提取图中污染物传播扩散的空间依赖关系,通过Encoder-Decoder自编码器架构获得图的隐含图表示,最后将包含了多阶邻居节点信息的隐含图表示输入到长短期记忆网络中提取污染物传播扩散的时间依赖关系,输出区域内所有站点的PM2.5预测值;

图自编码网络ST-GAE用于提取空间依赖关系,长短期记忆网络LSTM用于提取时间依赖关系,两部分中间通过向量拉伸、填充等操作连接。

图自编码网络ST-GAE使用Encoder-Decoder架构,ST-GAE的Encoder部分使用GCN来融合多阶邻居信息得到新的特征矩阵,可以用以下公式对Encoder部分进行表示:

Z=GCN(X,A)

其中,为节点的特征矩阵;为图的邻接矩阵;为融合了邻居信息的图表示;

将GCN视为一个函数,输入图的特征矩阵X和邻接矩阵A,输出图的潜在表示,GCN的计算方法为:

其中,W0和W1为待学习的参数;D为图的度矩阵;

图自编码网络ST-GAE采用前馈神经网络作为Decoder来重构原始的图结构,重构的目标是重构出来的邻接矩阵和原始的邻接矩阵尽可能的相似,因为邻接矩阵决定了图的拓扑结构,Decoder部分的计算公式如下:

其中,为重构后的邻接矩阵;g为sigmod激活函数;Wd和bd为待学习的参数;

步骤3:训练步骤2构建的预测模型,针对所构建的模型,将污染物时空数据构建为拓扑图结构,构建训练集、测试集和验证集,利用训练集数据对模型进行初始化和训练,使用验证集和评价指标进行模型的参数的调整,使用测试集测试模型效果;

本实施例中训练数据集、验证数据集和测试数据集三个数据集上的占比依次为70%、10%和20%。

首先对ST-GAE部分进行自监督训练,让模型充分提取多阶邻居的特征,挖掘PM2.5传播过程中的空间依赖关系,训练过程中使用损失函数进行训练;

得到预训练模型后,将重构的特征矩阵输入到LSTM网络中,提取时序依赖关系,使用损失函数MSE进行训练,并对模型进行微调,完成模型的训练,最终输出整个拓扑图中所有站点未来一段时间的PM2.5浓度值。

损失函数采用交叉熵,具体为:

其中,y表示邻接矩阵A中的某个元素值,为0或1;表示重构后的邻接矩阵中对应元素的值,为0或1;N为节点的数量;

损失函数MSE为均方误差,具体为:

其中,yi表示PM2.5浓度的实际值;表示模型PM2.5浓度的预测值;

步骤4:计算模型预测的准确率,若准确率超过预设阈值,则执行步骤5,否则,返回步骤3;

步骤5:将多站点数据输入训练好的预测模型,获得所有站点在未来一段时间内的PM2.5预测浓度值。

本实施例还涉及一种存储介质,该介质内存储有上述任一项PM2.5预测方法。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:基于GA-FSVR的智能电表误差预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类