一种基于统计学习的心电图数据处理方法
技术领域
本发明涉及图像处理、信号特征提取和机器学习的
技术领域
,特别涉及一种基于统计学习的心电图数据处理方法。背景技术
心电图(electrocardiogram,ECG)以其无创无损,操作简便,经验成熟等优势成为一种重要的心电信号分析手段,自发明以来,已延续发展百年。
然而,传统的心电图方法是一种图形分析技术,主要依赖人工判断,效率和准确度都较低,且因人而异,稳定性不佳。虽然近年来由于计算机技术的发展,实现了一部分的智能化分析技术,效率有所提高,但是能够表征的信息仍局限于图形本身,没有突破基础技术。
发明内容
针对现有技术中存在的不足之处,本发明的目的是提供一种基于统计学习的心电图数据处理方法,对心电图数据以统计学视角进行定量描述,实现超越传统心电图方法的可解释性精细分类。根据本发明方法,采用了统计特征提取、特征矩阵计算、特征距离分类等一系列分析方法,最大程度减小了以往近似算法的失真度,能够快速和准确的识别出心电图数据统计特征。同时,还具备强化学习的能力,随着样本库的丰富与扩充,分类精度和稳定性会越来越高,作为一种心电图数据分析的基础技术,具有广泛应用前途。
本发明提供了一种基于统计学习的心电图数据处理方法,包括:
S1、将心电图xml数据文件进行读取,转化成csv或txt格式数据;
S2、对所述步骤S1中的数据进行异常检测,检查文件转化是否成功;
S3、当所述步骤S2中判断转化成功时,对心电图数据进行特征提取,计算正交规范傅里叶基;
S4、当所述步骤S2中判断转化失败时,则是输入数据格式错误;
S5、根据统计学习,进行最小二乘法对样本库数据计算特征矩阵;
S6、对录入待分类的样本数据,计算其与特定样本库中样本数据的距离分类并分析获得不同人群心电信号特征的分析数据比对结果的数据量化指标值或指标值函数变化曲线。
优选的,所述步骤S1包括以下步骤:
S11、将特定人群1样本数据文件以xml格式读入;
S12、将特定人群2样本数据文件以xml格式读入;
S13、将步骤S11与步骤S12的每个xml数据文件转化为csv或txt格式,方法为提取xml,文件中每两个digits特征点中的数据,整理成12维数据后重新储存为csv或txt格式;
S14、判断csv或txt格式心电图数据中是否存在奇异点。
优选的,所述步骤S1还包括以下步骤:
S15、读取特定人群1样本的csv或txt数据,为20000*12的12维导联时间序列或20000*1的单导联时间序列;
S16、对于步骤S15所得的一维时间序列进行规范化处理,步骤如下:
S161、对序号2000至18000的数据求二阶差分,确定其最小值,定义阈值,取出所有二阶差分小于最小值乘以阈值的片段;
S162、针对S161中所得片段,求出对应心电信号的中位数,返回中位数对应单元,即具有代表意义的最大值单元;
S163、切割该具有代表意义的最大值单元后2000个单元作为规范化时间序列2000*1的向量;
S17、对规范化时间序列进行函数型数据转化,步骤如下:
S171、设置固定时间区间[0,1000],确定该区间上的300个正交规范傅里叶基;
S172、通过最小二乘法计算与规范化数据最为接近的傅里叶基的线性组合,输出组合的系数作为函数型数据的特征表示300*1的向量),公式如下:
其中s代表S163取的的待拟合序列,ei为S171中的第i个傅里叶基,v(s)即所需函数型数据特征表示;
S18、储存步骤S17函数型数据的系数,作为特定人群1特征数据库(300*n的矩阵),其中n为特定人群1样本数据总量;
S19、对于特定人群2的数据,重复上述步骤,获取特定人群2的特征数据库(300*m的矩阵),其中m为特定人群2的样本数据总量。
优选的,所述步骤S15还包括以下步骤:
S151、当输入为12导联的心电信号,则进行VCG线性变化,输出VCG的第一分量作为一维时间序列;
S152、当输入为单导联心电信号,则保留数据作为一维时间序列。
优选,还包括将新录入心电信号的分析,包括以下步骤:
S61、将待分析的心电数据文件以xml格式读入;
S62、将xml数据转化为csv或txt格式;
S63、录入上述csv或txt格式数据,进行数据文件规范化及函数型数据转化步骤中的S15、S16及S17,获取该心电信号的函数型特征表示300*1的向量;
S64、对上述函数型特征表示进行回归分析并输出结果,其中用于回归分析的算法包括KNN(k-nearest neighbor,K值近邻法)算法与SVM(Support Victor Machine,支持向量机)算法;
所述KNN算法:
S651、计算步骤S63取得的特征表示与数据文件规范化及函数型数据步骤中S18步骤特定人群1的特征数据的距离,即步骤S63中取得的特征表示与数据文件规范化及函数型数据步骤中S18步骤特定人群1的特征数据库矩阵的列向量的距离的最小值,该距离的计算方法包括:
S6511、欧氏距离;
S6512、最小K个欧式距离的调和平均数:
S652、计算步骤S63取得的特征表示与数据文件规范化及函数型数据步骤中S19步骤特定人群2的特征数据的距离,即步骤S63中取得的特征表示与数据文件规范化及函数型数据步骤中S19步骤特定人群2的特征数据库矩阵的列向量的距离的最小值,距离计算方法同S651;
S653、将步骤S651与步骤S652中的输出的最小值进行比较输出比对数据,输出分类结果;
所述SVM算法:
S66、使用Soft-margin的成本函数对上述数据文件规范化及函数型数据步骤中S18步骤与S19步骤取得的两个特征数据库库进行线性分离,优化公式如下(设特定人群1与特定人群2的对应标签分别为-1和1,其特征数据样本库大小分别为m0和m1):其中xi,yi分别为样本库中特征向量和标签,b和lambda为可调参数;
对于新录入数据x,计算wx-b,若其大于等于1则归类为特定人群2,小于等于-1则归类为特定人群1。
本发明与现有技术相比,其有益效果是:通过基于统计学习方法对全体样本数据库的搜索,样本数量的增多将会导致分析结果的更加精确。对于分类过程,无需进行样本库的重新规范与计算,待分类样本只需下载或更新样本库的特征函数矩阵,直接进行精细分类,并最大程度减小了以往近似算法的失真度,能够快速和准确的识别出心电图数据的统计特征。
附图说明
图1为根据本发明的一种基于统计学习的心电图数据处理方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,一种基于统计学习的心电图数据处理方法,包括:S1、将心电图xml数据文件进行读取,转化成csv或txt格式数据;
S2、对所述步骤S1中的数据进行异常检测,检查文件转化是否成功;
S3、当所述步骤S2中判断转化成功时,对心电图数据进行特征提取,计算正交规范傅里叶基;
S4、当所述步骤S2中判断转化失败时,则是输入数据格式错误;
S5、根据统计学习,进行最小二乘法对样本库数据计算特征矩阵;
S6、对录入待分类的样本数据,计算其与特定样本库中样本数据的距离分类并分析获得不同人群心电信号特征的分析数据比对结果的数据量化指标值或指标值函数变化曲线。
进一步的,所述步骤S1包括以下步骤:
S11、将特定人群1样本数据文件以xml格式读入;
S12、将特定人群2样本数据文件以xml格式读入;
S13、将步骤S11与步骤S12的每个xml数据文件转化为csv或txt格式,方法为提取xml,文件中每两个digits特征点中的数据,整理成12维数据后重新储存为csv或txt格式;
S14、判断csv或txt格式心电图数据中是否存在奇异点。
进一步的,所述步骤S1还包括以下步骤::
S15、读取特定人群1样本的csv或txt数据,为20000*12的12维导联时间序列或20000*1的单导联时间序列;
S16、对于步骤S15所得的一维时间序列进行规范化处理,步骤如下:
S161、对序号2000至18000的数据求二阶差分,确定其最小值,定义阈值,取出所有二阶差分小于最小值乘以阈值的片段;
S162、针对S161中所得片段,求出对应心电信号的中位数,返回中位数对应单元,即具有代表意义的最大值单元;
S163、切割该具有代表意义的最大值单元后2000个单元作为规范化时间序列2000*1的向量;
S17、对规范化时间序列进行函数型数据转化,步骤如下:
S171、设置固定时间区间[0,1000],确定该区间上的300个正交规范傅里叶基;
S172、通过最小二乘法计算与规范化数据最为接近的傅里叶基的线性组合,输出组合的系数作为函数型数据的特征表示300*1的向量,公式如下:
其中s代表S163取的的待拟合序列,ei为S171中的第i个傅里叶基,v(s)即所需函数型数据特征表示;
S18、储存步骤S17函数型数据的系数,作为特定人群1特征数据库300*n的矩阵,其中n为特定人群1样本数据总量;
S19、对于特定人群2的数据,重复上述步骤,获取特定人群2的特征数据库300*m的矩阵,其中m为特定人群2的样本数据总量。
进一步的,所述步骤S15还包括以下步骤:
S151、当输入为12导联的心电信号,则进行VCG线性变化,输出VCG的第一分量作为一维时间序列;
S152、当输入为单导联心电信号,则保留数据作为一维时间序列。
进一步的,还包括将新录入心电信号的分析,包括以下步骤:
S61、将待分类的心电数据文件以xml格式读入;
S62、将xml数据转化为csv或txt格式;
S63、录入上述csv或txt格式数据,进行数据文件规范化及函数型数据转化步骤中的S15、S16及S17,获取该心电信号的函数型特征表示300*1的向量;
S64、对上述函数型特征表示进行回归分析并输出结果,其中用于回归分析的算法包括KNN(k-nearest neighbor,K值近邻法)算法与SVM(Support Victor Machine,支持向量机)算法;
所述KNN算法:
S651、计算步骤S63取得的特征表示与数据文件规范化及函数型数据步骤中S18步骤特定人群1的特征数据的距离,即步骤S63中取得的特征表示与数据文件规范化及函数型数据步骤中S18步骤特定人群1的特征数据库矩阵的列向量的距离的最小值,该距离的计算方法包括:
S6511、欧氏距离;
S6512、最小K个欧式距离的调和平均数:
S652、计算步骤S63取得的特征表示与数据文件规范化及函数型数据步骤中S19步骤特定人群2的特征数据的距离,即步骤S63中取得的特征表示与数据文件规范化及函数型数据步骤中S19步骤特定人群2的特征数据库矩阵的列向量的距离的最小值,距离计算方法同S651;
S653、将步骤S651与步骤S652中的输出的最小值进行比较输出比对数据,输出分类结果;
所述SVM算法:
S66、使用Soft-margin的成本函数对上述数据文件规范化及函数型数据步骤中S18步骤与S19步骤取得的两个特征数据库库进行线性分离,优化公式如下(设特定人群1与特定人群2的对应标签分别为-1和1,其特征数据样本库大小分别为m0和m1):其中xi,yi分别为样本库中特征向量和标签,b和lambda为可调参数;
对于新录入数据x,计算wx-b,若其大于等于1则为特定人群2,小于等于-1则为特定人群1。
实施例1
下面对本发明作进一步描述;
将特定人群1样本数据文件以xml格式读入;
将特定人群2样本数据文件以xml格式读入;
对于上述每个xml数据文件,遍历所有特征点,找到所有digits对,提取digits对之间的所有数据,重新整理为多维并列数据,保存至新的csv或txt格式文件;
检测每个csv或txt格式心电图数据文件中是否存在NaN值,0值或者空白值;
判断输入的csv或txt心电图数据文件的数据维数,为20000*12的12维导联时间序列或20000*1的单导联时间序列(取决于测量仪器):
如果输入为12导联的心电信号,则进行VCG线性变化,特别地,输出VCG的第一分量作为一维时间序列;
Vx=0.38*I-0.07*II-0.13*V1+0.05*V2-0.01*V4+0.06*V5+0.54*V6;
Vy=-0.07*I+0.93*II+0.06*V1-0.02*V2-0.05*V3+0.06*V4-0.17*V5+0.13*V6;
Vz=0.11*I-0.23*II-0.43*V1-0.06*V2-0.14*V3-0.20*V4-0.11*V5+0.31*V6;
其中,I,II,V1,V2,V3,V4,V5,V6是标准12导联的心电图数据;
如果输入为单导联心电信号,则保留数据作为一维时间序列;
对于[0019-0024]所得的一维时间序列进行规范化处理:获取序号2000至18000之间的具有代表意义的最大值所在单元,切割该单元后2000个单元作为规范化时间序列2000*1的向量;
选取具有代表意义的最大值所在单元方法参照步骤S161 S162;
对规范化时间序列进行函数型数据转化:设置固定时间区间[0,1000],确定该区间上的300个正交规范傅里叶基;
通过最小二乘法计算与规范化数据最为接近的傅里叶基的线性组合,输出组合的系数作为函数型数据的特征表示300*1的向量;
储存上述函数型数据的系数为特征矩阵,作为特定人群1特征数据库(300*n的矩阵),其中n为特定人群1样本数据总量;
对于特定人群2数据,重复[0016-0029],获取特定人群2特征数据库(300*m的矩阵),其中m为特定人群2样本数据总量;
新录入心电信号的分析如下:
将待分析的心电数据文件以xml格式读入,重复上述步骤[0016-0024];
重复[0025-0028],计算该待分析数据的函数性特征表示(300*1的向量);
若使用KNN算法,计算该特征表示与[0029]所得特定人群1特征数据库矩阵的列向量的欧式距离的最小值;
计算该特征表示与[0030]所得特定人群2特征数据库矩阵的列向量的欧式距离的最小值;
若[0034]输出结果小于[0035]中输出结果,则归类该心电数据为特定人群1,反之,归类为特定人群2;
输出分类结果。
若使用SVM算法,其具体步骤参照步骤S66。
这里说明的设备数量和处理规模是用来简化本发明的说明的,对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种PCB生产线故障定位方法和设备