一种高维删失数据下预测癌症预后风险的系统和方法
技术领域
本发明涉及癌症预后生存分析领域,具体涉及一种高维删失数据下预测癌症预后风险的系统和方法。
背景技术
随着医学辅助技术的发展,研究者越来越多地尝试将其应用于癌症的辅助治疗。其中,癌症预后生存分析是一种关键的辅助技术,它能根据病人的各项生理指标去预测病人的潜在风险,从而帮助医生选择相应的治疗方案。
癌症生存分析的最大难点在于利用删失样本的信息,揭示高维组学数据对患者预后风险的复杂关联机制。现有技术包括:针对删失数据设计的一种数理统计方法:Cox比例风险模型(简称Cox模型)应用到深度学习中,将Cox比例风险的线性函数替换为用神经网络拟合的函数,建立了基于Cox比例风险的神经网络模型,并将该深度学习模型应用于样本数量较多的疾病预后生存分析;将基于Cox比例风险的神经网络模型应用于癌症患者的生存分析中,并且结合了正则化、Dropout等多项深度学习的优化技术,用于提升模型在小样本数据的预测精度。然而,此方法将对数据样本量要求较高的深度学习模型应用于小样本数据集中,也没有对删失数据做进一步的处理,因此让拟合能力强的神经网络对删失数据的预测具有偏向性,存在较强的过拟合问题。现有技术针对此问题,修改了Cox模型中的比例风险假设,向模型引入了时间信息,提升了基于Cox比例风险的神经网络模型在样本较多的数据集中的性能。该改良方法主要提升了基于Cox比例风险的神经网络模型在样本量较多,时间信息格式符合要求的数据集中的表现,没有解决基于Cox比例风险的神经网络模型在小样本数据集中的过拟合问题,方法的性能被限制。
中国发明专利公开号CN111312393A(公开日为2020-06-19),公开了一种结合主动学习的时序深度生存分析系统,该系统包括数据采集模块、主动学习模块、时序深度生存分析模块;数据采集模块用于获取待分析对象的生存数据;主动学习模块结合主动学习方法选择部分右删失数据标注生存时间;时序深度生存分析模块构建时序深度生存分析神经网络模型,将未删失数据和右删失数据作为模型输入,得到待分析对象的生存时间预测结果。该发明能够充分利用生存数据中的右删失数据及时序特征。较之以往传统的生存分析模型,该发明解决了高维度数据难处理的问题,以及生存分析中仅有少量未删失数据情况下模型表现不佳的问题;同时增加了数据时间维度特征的提取和利用,扩大了模型的应用范围,提高了模型的表现效果,但是存在时间复杂度高,算力开销大,普适性不够高的缺陷。
发明内容
本发明的目的是针对现有技术存在的缺陷,提供一种时间复杂度低、算力开销小、普适性高的高维删失数据下预测癌症预后风险的系统和方法。
为解决上述技术问题,本发明的技术方案如下:
一种高维删失数据下预测癌症预后风险的方法,包括以下步骤:
S1:构建Cox神经网络模型,获取目标数据库的训练数据集、验证数据集;
S2:根据贝叶斯先验知识约束对训练数据集进行随机采样扰动;
S3:根据随机采样扰动后的训练数据集合,定义Cox神经网络模型的风险函数并计算损失函数;
S4:通过损失函数对Cox神经网络模型进行训练,更新Cox神经网络模型的网络权重;
S5:利用验证数据集对更新后的网络权重进行验证,若验证通过,则得到深度贝叶斯扰动模型,执行步骤S6;否则,则返回步骤S2重新进行随机采样扰动;
S6:将目标癌症患者的数据输入深度贝叶斯扰动模型中,输出该患者的癌症预后风险的预测值。
其中,在所述步骤S2中,所述贝叶斯先验知识约束表示删失数据生存时间存在上界,且不会偏离非删失数据生存时间过多的约束;其中,删失数据和非删失数据存在于所述训练数据集中;训练数据集还包括生存时间;所述步骤S2具体过程为:
对训练数据集中的样本按照生存时间进行排序,并将生存时间转换为排序值,具体表示为:Ti'=Rank(Ti)=i,其中,下标i表示第i个样本;Ti'表示经过排序预处理后的新的生存时间;
将转换后的排序值作为高斯分布的均值,根据设置的常数α作为高斯分布的方差,从该分布中重新采用得到样本新的生存时间,具体表示为Ti pb~N(Ti',α);Ti pb表示经过扰动后的新的生存时间;从而完成随机采用扰动。
上述方案中,考虑到贝叶斯先验知识无法显示地写成积分表达式,因此采用了蒙特卡洛采样方法的思想,用通过采用的方法近似地引入先验信息,达到替换积分表达式的作用。
其中,在所述随机采样扰动过程中,对于拥有删失数据的删失样本,通过设置一个常数值γ,若该删失样本采样的结果处于高斯分布右侧比例为γ的面积中,那么该样本将被标记为非删失样本,具体表示为:
上述方案中,在每次需要对Cox神经网络模型进行训练时,均需要进行随机采用扰动操作,再将得到的样本输入到Cox神经网络模型中进行训练。
其中,在所述步骤S3中,定义Cox神经网络模型的生存函数S(t),具体表示为:S(t)=Pr,其中,Pr表示患者在时间t之前的存活率,t小于数据收集到患者最后一次观察的时间,即生存时间T;由此,t时刻的风险函数定义为:
其中,δ表示常数;根据风险函数的定义,得到Cox比例风险函数为:
λ(t|x)=λ0(t)*exph(x)
其中,x∈X,X表示训练数据集中所有患者的组学数据,x表示影响患者生存时间的协变量,风险函数h(x)=βXi,λ0(t)代表t时刻的基线风险函数,β为常数,表示风险函数是患者生存时间协变量的线性组合;因此Cox神经网络模型的优化目标,也即最大似然函数表示为:
其中,Ei表示样本i的删失标签,Ei=1表示非删失样本,Ei=0表示删失样本;R(Ti)表示在样本i死亡时,仍然存活的样本集合,j为该样本集合的个体;由此,基于Cox比例风险的神经网络的损失函数为:
其中,θ表示Cox神经网络模型的网络权重;接着对预测损失函数进行改写,得到通过扰动采样机制引入贝叶斯先验知识后的损失函数,具体表示为:
其中,Ti pb表示经过扰动后的新的生存时间;接着,结合深度学习优化技术,向损失函数中引入L2正则化项,损失函数最终表示为:
其中,在所述步骤S6中,首先获取目标癌症患者的组学数据X、生存时间T和删失标签E,将其作为深度贝叶斯扰动模型的输入,由深度贝叶斯扰动模型进行风险预测,最后输出目标癌症患者的风险预测值。
上述方案中,组学数据X就是病人的各项指标;Cox神经网络模型建立的过程就是找到组学数据X和对病人风险预测值H的对应关系。
本方案旨在解决现有的生存分析的深度学习方法应用到含有大量删失样本的高维小样本数据中存在预测偏差的问题,提高Cox神经网络模型对癌症生存分析的性能。本方案针对删失样本引入了贝叶斯先验知识约束,通过增加样本排序扰动和删失标签扰动的优化模块,提供一种适用于高维小样本癌症数据深度学习的Cox神经网络模型,用于解决现有预测方法在此类数据中表现不佳的问题。
一种高维删失数据下预测癌症预后风险的系统,用于实现一种高维删失数据下预测癌症预后风险的方法;包括模型构建模块、数据获取模块、随机采样扰动模块、损失函数计算模块、权重更新模块、验证模块、预测模块;其中:
所述模型构建模块用于构建Cox神经网络模型;
所述数据获取模块用于从目标数据库获取训练数据集、验证数据集;
所述随机采样扰动模块用于根据贝叶斯先验知识约束对训练数据集进行随机采样扰动;
所述损失函数计算模块用于根据随机采样扰动后的训练数据集合,定义Cox神经网络模型的风险函数并计算损失函数;
所述权重更新模块用于通过损失函数对Cox神经网络模型进行训练,更新Cox神经网络模型的网络权重;
所述验证模块用于利用验证数据集对更新后的网络权重进行验证;
所述预测模块用于将目标癌症患者的数据输入验证通过的深度贝叶斯扰动模型中,输出患者的癌症预后风险的预测值。
其中,在所述随机采样扰动模块中,所述贝叶斯先验知识约束表示删失数据生存时间存在上界,且不会偏离非删失数据生存时间过多的约束;其中,删失数据和非删失数据存在于所述训练数据集中;训练数据集还包括生存时间;随机采样扰动模块具体执行以下步骤:
对训练数据集中的样本按照生存时间进行排序,并将生存时间转换为排序值;
将转换后的排序值作为高斯分布的均值,根据设置的高斯分布的方差,从该分布中重新采用得到样本新的生存时间,完成随机采用扰动。
其中,所述随机采样扰动模块在随机采样扰动过程中,对于拥有删失数据的删失样本,通过设置一个常数值,若该删失样本采样的结果处于高斯分布右侧比例为设置的常数值的面积中,那么该样本将被标记为非删失样本。
其中,在所述损失函数计算模块中,具体执行以下步骤:
定义Cox神经网络模型的生存函数S(t),具体表示为:S(t)=Pr,其中,Pr表示患者在时间t之前的存活率,t小于数据收集到患者最后一次观察的时间,即生存时间T;由此,t时刻的风险函数定义为:
其中,δ表示常数;根据风险函数的定义,得到Cox比例风险函数为:
λ(t|x)=λ0(t)*exph(x)
其中,x∈X,X表示训练数据集中所有患者的组学数据,x表示影响患者生存时间的协变量,风险函数h(x)=βxi,λ0(t)代表t时刻的基线风险函数,β为常数,表示风险函数是患者生存时间协变量的线性组合;因此Cox神经网络模型的优化目标,也即最大似然函数表示为:
其中,Ei表示样本i的删失标签,Ei=1表示非删失样本,Ei=0表示删失样本;R(Ti)表示在样本i死亡时,仍然存活的样本集合,j为该样本集合的个体;由此,基于Cox比例风险的神经网络的损失函数为:
其中,θ表示Cox神经网络模型的网络权重;接着对预测损失函数进行改写,得到通过扰动采样机制引入贝叶斯先验知识后的损失函数,具体表示为:
其中,Ti pb表示经过扰动后的新的生存时间;接着,结合深度学习优化技术,向损失函数中引入L2正则化项,损失函数最终表示为:
其中,在所述预测模块中,具体执行以下步骤:
获取目标癌症患者的生存时间T和删失标签E,将其作为深度贝叶斯扰动模型的输入,由深度贝叶斯扰动模型进行风险预测,最后输出目标癌症患者的风险预测值。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种高维删失数据下预测癌症预后风险的系统和方法,引入贝叶斯先验知识约束,通过增加随机采样扰动的过程,使得构建的Cox神经网络模型适用于高维小样本癌症数据的比例风险预测,用于解决现有预测方法在此类数据中表现不佳的问题,提高癌症生存分析的深度学习方法的性能。
附图说明
图1为本发明所述方法的流程示意图;
图2为本发明一实施例中癌症患者预后风险的深度学习方法示意图;
图3为本发明一实施例中不同癌症生存分析方法在组学数据的性能比较图(比较指标为C-index指数);
图4为本发明一实施例中Cox神经网络模型使用DBP优化模块前后在模拟数据的性能比较图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种高维删失数据下预测癌症预后风险的方法,包括以下步骤:
S1:构建Cox神经网络模型,获取目标数据库的训练数据集、验证数据集;
S2:根据贝叶斯先验知识约束对训练数据集进行随机采样扰动;
S3:根据随机采样扰动后的训练数据集合,定义Cox神经网络模型的风险函数并计算损失函数;
S4:通过损失函数对Cox神经网络模型进行训练,更新Cox神经网络模型的网络权重;
S5:利用验证数据集对更新后的网络权重进行验证,若验证通过,则得到深度贝叶斯扰动模型,执行步骤S6;否则,则返回步骤S2重新进行随机采样扰动;
S6:将目标癌症患者的数据输入深度贝叶斯扰动模型中,输出该患者的癌症预后风险的预测值。
更具体的,在所述步骤S2中,所述贝叶斯先验知识约束表示删失数据生存时间存在上界,且不会偏离非删失数据生存时间过多的约束;其中,删失数据和非删失数据存在于所述训练数据集中;训练数据集还包括生存时间;所述步骤S2具体过程为:
对训练数据集中的样本按照生存时间进行排序,并将生存时间转换为排序值,具体表示为:Ti'=Rank(Ti)=i,其中,下标i表示第i个样本;Ti'表示经过排序预处理后的新的生存时间;
将转换后的排序值作为高斯分布的均值,根据设置的常数α作为高斯分布的方差,从该分布中重新采用得到样本新的生存时间,具体表示为Ti pb~N(Ti',α);Ti pb表示经过扰动后的新的生存时间;从而完成随机采用扰动。
在具体实施过程中,考虑到贝叶斯先验知识无法显示地写成积分表达式,因此采用了蒙特卡洛采样方法的思想,用通过采用的方法近似地引入先验信息,达到替换积分表达式的作用。
在具体实施过程中,本发明通过对删失样本引入贝叶斯先验知识,修正了现有的深度学习方法应用在小样本癌症数据集的预测偏差,提升了预测模型的稳定性和精确度,同时,参考了Dropout和蒙特卡洛采样的思想,通过随机采样扰动的方式向模型引入了关于删失数据的先验知识,能够更准确地利用小样本删失数据预测癌症患者的预后风险,且具有参考价值。
更具体的,在所述随机采样扰动过程中,对于拥有删失数据的删失样本,通过设置一个常数值γ,若该删失样本采样的结果处于高斯分布右侧比例为γ的面积中,那么该样本将被标记为非删失样本,具体表示为:
在具体实施过程中,在每次需要对Cox神经网络模型进行训练时,均需要进行随机采用扰动操作,再将得到的样本输入到Cox神经网络模型中进行训练。
更具体的,在所述步骤S3中,定义Cox神经网络模型的生存函数S(t),具体表示为:S(t)=Pr,其中,Pr表示患者在时间t之前的存活率,t小于数据收集到患者最后一次观察的时间,即生存时间T;由此,t时刻的风险函数定义为:
其中,δ表示常数;根据风险函数的定义,得到Cox比例风险函数为:
λ(t|x)=λ0(t)*exph(x)
其中,x∈X,X表示训练数据集中所有患者的组学数据,x表示影响患者生存时间的协变量,风险函数h(x)=βXi,λ0(t)代表t时刻的基线风险函数,β为常数,表示风险函数是患者生存时间协变量的线性组合;因此Cox神经网络模型的优化目标,也即最大似然函数表示为:
其中,Ei表示样本i的删失标签,Ei=1表示非删失样本,Ei=0表示删失样本;R(Ti)表示在样本i死亡时,仍然存活的样本集合,j为该样本集合的个体;由此,基于Cox比例风险的神经网络的损失函数为:
其中,θ表示Cox神经网络模型的网络权重;接着对预测损失函数进行改写,得到通过扰动采样机制引入贝叶斯先验知识后的损失函数,具体表示为:
其中,Ti pb表示经过扰动后的新的生存时间;接着,结合深度学习优化技术,向损失函数中引入L2正则化项,损失函数最终表示为:
更具体的,在所述步骤S6中,首先获取目标癌症患者的组学数据X、生存时间T和删失标签E,将其作为深度贝叶斯扰动模型的输入,由深度贝叶斯扰动模型进行风险预测,最后输出目标癌症患者的风险预测值。
本方案旨在解决现有的生存分析的深度学习方法应用到含有大量删失样本的高维小样本数据中存在预测偏差的问题,提高Cox神经网络模型对癌症生存分析的性能。本方案针对删失样本引入了贝叶斯先验知识约束,通过增加样本排序扰动和删失标签扰动的优化模块,提供一种适用于高维小样本癌症数据深度学习的Cox神经网络模型,用于解决现有预测方法在此类数据中表现不佳的问题。
实施例2
更具体的,在实施例1的基础上,提供一种高维删失数据下预测癌症预后风险的系统,用于实现一种高维删失数据下预测癌症预后风险的方法;包括模型构建模块、数据获取模块、随机采样扰动模块、损失函数计算模块、权重更新模块、验证模块、预测模块;其中:
所述模型构建模块用于构建Cox神经网络模型;
所述数据获取模块用于从目标数据库获取训练数据集、验证数据集;
所述随机采样扰动模块用于根据贝叶斯先验知识约束对训练数据集进行随机采样扰动;
所述损失函数计算模块用于根据随机采样扰动后的训练数据集合,定义Cox神经网络模型的风险函数并计算损失函数;
所述权重更新模块用于通过损失函数对Cox神经网络模型进行训练,更新Cox神经网络模型的网络权重;
所述验证模块用于利用验证数据集对更新后的网络权重进行验证;
所述预测模块用于将目标癌症患者的数据输入验证通过的深度贝叶斯扰动模型中,输出患者的癌症预后风险的预测值。
更具体的,在所述随机采样扰动模块中,所述贝叶斯先验知识约束表示删失数据生存时间存在上界,且不会偏离非删失数据生存时间过多的约束;其中,删失数据和非删失数据存在于所述训练数据集中;训练数据集还包括生存时间;随机采样扰动模块具体执行以下步骤:
对训练数据集中的样本按照生存时间进行排序,并将生存时间转换为排序值;
将转换后的排序值作为高斯分布的均值,根据设置的高斯分布的方差,从该分布中重新采用得到样本新的生存时间,完成随机采用扰动。
更具体的,所述随机采样扰动模块在随机采样扰动过程中,对于拥有删失数据的删失样本,通过设置一个常数值,若该删失样本采样的结果处于高斯分布右侧比例为设置的常数值的面积中,那么该样本将被标记为非删失样本。
更具体的,在所述损失函数计算模块中,具体执行以下步骤:
定义Cox神经网络模型的生存函数S(t),具体表示为:S(t)=Pr,其中,Pr表示患者在时间t之前的存活率,t小于数据收集到患者最后一次观察的时间,即生存时间T;由此,t时刻的风险函数定义为:
其中,δ表示常数;根据风险函数的定义,得到Cox比例风险函数为:
λ(t|x)=λ0(t)*exph(x)
其中,x∈X,X表示训练数据集中所有患者的组学数据,x表示影响患者生存时间的协变量,风险函数h(x)=βXi,λ0(t)代表t时刻的基线风险函数,β为常数,表示风险函数是患者生存时间协变量的线性组合;因此Cox神经网络模型的优化目标,也即最大似然函数表示为:
其中,Ei表示样本i的删失标签,Ei=1表示非删失样本,Ei=0表示删失样本;R(Ti)表示在样本i死亡时,仍然存活的样本集合,j为该样本集合的个体;由此,基于Cox比例风险的神经网络的损失函数为:
其中,θ表示Cox神经网络模型的网络权重;接着对预测损失函数进行改写,得到通过扰动采样机制引入贝叶斯先验知识后的损失函数,具体表示为:
其中,Ti pb表示经过扰动后的新的生存时间;接着,结合深度学习优化技术,向损失函数中引入L2正则化项,损失函数最终表示为:
更具体的,在所述预测模块中,具体执行以下步骤:
获取目标癌症患者的组学数据X、生存时间T和删失标签E,将其作为深度贝叶斯扰动模型的输入,由深度贝叶斯扰动模型进行风险预测,最后输出目标癌症患者的风险预测值。
实施例3
更具体的,为了进一步阐述本发明的技术方案及技术效果,本实施例将本发明的内容应用到识别影响乳腺癌预后的靶向基因上,具体过程为:
获取目标癌症患者的组学表达数据X,生存时间T,删失标签E,数据源于TCGA癌症公共数据集中的乳腺癌数据集(BRCA);
其中,组学数据为了乳腺癌患者的mRNA表达,该数据是由UNC Illumina HiSeq_RNASeq V2生成的RNA测序数据,且这些数据来自TCGA lv3级数据。删失标签E=1表示患者在观察记录的T时间内已经死亡,E=0表示患者在记录的时间T内尚未死亡,且之后的信息未被观察记录。
接着,对数据进行预处理,所有缺失值超过20%的基因和样本都被从数据中删除,之后其余缺失值用0值进行填补。如图2所示,输入样本的生存时间进行排序,并把生存时间转换为排序的值,Ti'=Rank(Ti)=i;
将转换后的生存时间值作为高斯分布的均值,根据手动设置的常数α作为高斯分布的方差,从该分布中重新采用得到样本新的生存时间,具体表示为Ti pb~N(Ti',α);
对于删失样本,设置一个常数γ,若该删失样本采样的结果处于高斯分布右侧比例为γ的面积中,那么该样本将被标记为非删失样本,具体表示为:
根据经过扰动后的数据,计算Cox神经网络模型的预测风险的损失函数为:
其中λ为正则项的常数系数;接着,通过随机梯度下降算法优化模型,更新Cox神经网络模型的网络权重θ,每次进行神经网络训练时,都重复上述步骤的采样扰动操作,再将信息输入到Cox神经网络模型中进行训练。
在具体实施过程中,Cox神经网络模型需要多次训练,每一次训练之前都对数据进行扰动,然后放入Cox神经网络模型训练,交替进行,直到训练结束。Cox神经网络模型就是一个拟合任意函数的工具,就训练好之后,它就相当于一个组学数据和风险值对应的函数。输入了组学数据X,Cox神经网络模型就能输出它对应着的风险预测值。
图2中的风险预测模块代表的是预测一个风险值的过程,以及对这个风险预测的效果进行评估。扰动只在Cox神经网络模型训练时其效果,图中扰动后指向风险预测是因为,Cox神经网络模型训练时有一个优化目标,它先对风险进行预测,然后这个优化目标会评判它的预测准不准确,让Cox神经网络模型自行进行调整。扰动影响了Cox神经网络模型的数据,所以就对模型的优化目标产生了影响。
基于上述模型,输入目标癌症患者的组学数据特征X,模型就能输出患者的风险系数,并将其划分到高风险组和低风险组。如图3所示,本发明中的模型(DBP)相比于先前的比例风险深度学习模型在BRCA数据的风险预测中,C-index10次独立重复预测均值从0.669提升到了0.718,且中位数和最高值最低值等各项C-index指标均优于CoxEN,随机生存森林(RSF),比例风险网络(Cox-network)等比较方法。其中,CoxEN方法是改良的Cox比例风险方法,RSF方法则是近年来被证明是传统方法中最优的方法之一。CoxNN是Cox NerualNetwork,也即Cox神经网络模型。
除此之外,在TCGA公共癌症数据集中选择了3个数据集(BRCA,CESC,COAD),GEO公共数据集中选择了3个数据集(GSE4922,GSE1456,GSE25006),在这6个公共数据集中,采用的方法相比于其余的最优方法提高了平均4%的C-index指数。并且在删失数据比例越高的模型中,方法带来的性能提升越显著,这些结果表明本方案确实能在一定程度上解决深度学习模型处理高维删失数据时存在预测偏差的问题,并且能有效地提高模型的预测性能。
如图4所示,在仿真实验中,通过对比本发明提出的DBP模型和现有的比例风险深度学习模型在含有不同比例的删失样本和不同样本量的数据集中的性能差异。结果表明,随着数据中删失样本所占比例的增加,DBP模型的性能提升愈发显著,最多能带来平均9%的C-index指数提升。这表明本方案提出的方法的性能提升主要在于对删失数据引入了贝叶斯先验信息的约束。同时,DBP模型在样本量较少的数据中均有显著的性能提升。综合图4的结果,能够说明本方法能在高维度、小样本、含有较多删失数据的数据集中对现存的方法有显著提升。
在表1中,为了探究本方案所述方法的性能提升是否依赖于某种特定的删失规则,在仿真数据中设计了指数删失,对数删失,均匀删失共3种不同的删失规则,并在这些数据上对比了本发明模型和先前的深度学习模型的性能。结果表明本方案模型在各类删失规则的数据集中均相比传统的比例风险神经网络有显著的性能提升,且在数据删失比例达到75%时,模型在三类数据中C-index指数平均提升了8.5%。这表明本方案所述模型的性能提升不依赖于特定的删失规则,而是通过修正模型对删失数据的预测偏差达到提升模型性能的效果,模型具有泛用性。
表1 DBP模型和现有神经网络模型在不同删失规则的模拟数据中的C-index值
在表2中,本实例还对删失扰动概率的参数γ进行了消融实验和参数敏感性实验,来探究删失扰动机制引入的贝叶斯先验知识对模型预测准确性的贡献。结果表明,删失扰动概率γ从0到10%的范围中,γ的增大对模型性能的提升有显著影响。而随着γ进一步增大,模型的性能略有提升,并在γ大于25%时,模型性能几乎不提升或者略有下降。由此能看出,模型性能的提升不依赖于对γ参数的精细设置,γ参数只要在10%到20%的范围中,模型性能就有显著提升,模型具有泛用性。同时,也能说明,删失扰动机制是通过引入随机性修正模型的预测偏差,如果模型偏差能得到修正,无论γ设置的偏大或者偏小,都不会对模型的性能有显著影响。
表2删失扰动概率参数γ对实验结果影响的探究实验
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。