一种系统性红斑狼疮中医证型预测模型的建模方法及系统

文档序号:9940 发布日期:2021-09-17 浏览:152次 英文

一种系统性红斑狼疮中医证型预测模型的建模方法及系统

技术领域

本发明涉及系统性红斑狼疮中医证型预测

技术领域

,具体地,涉及一种系统性红斑狼疮中医证型预测模型的建模方法及系统。

背景技术

系统性红斑狼疮是一种累及全身多系统多脏器、病程迁延反复的慢性自身免疫性疾病,其临床表现复杂,以发热、面部蝶形红斑为主,除有皮肤、黏膜,及关节损害病变外,常累及内脏,尤以心、肺、肝、肾及血液系统损害较为多见,最终导致多系统损害。现代医学多采用糖皮质激素、非甾体类抗炎药、免疫抑制剂、抗疟药和生物制剂等治疗,但因本病病程长,长期用药不良反应较多,其毒副作用不可避免。

中医药对系统性红斑狼疮疗效确切,可明显减少毒副作用,使系统性红斑狼疮预后得到较大改观,提高系统性红斑狼疮患者的生存质量。辨证施治是中医药治疗的核心,“证”是遣方用药及治疗的依据,正确的辨证对中医治疗系统性红斑狼疮有着十分重要的意义。但中医辨证是一个复杂的过程,准确的辨证对目前大部分初入临床的医生来说比较困难。因此,为解决系统性红斑狼疮中医证型判别问题,提高中医药对系统性红斑狼疮临床诊疗效果,需要开发一种统性红斑狼疮中医证型模型预测系统,从而辅助临床医生对系统性红斑狼疮中医证型的诊断。另外,中医证型建模数据分布不平衡,数量较多的类别将获得充分训练,而少数类样本的分类性能得不到充分训练,因此在模型学习过程中更多地关注多数类样本的分类预测性能,从而影响模型对发生频次相对较少的分类预测效果。

发明内容

针对现有技术中的缺陷,本发明的目的在于提供一种可提高系统性红斑狼疮中医证型的诊断率的系统性红斑狼疮中医证型预测模型的建模方法及系统。

为解决上述问题,本发明的技术方案为:

一种系统性红斑狼疮中医证型预测模型的建模方法,所述方法包括以下步骤:

制定系统性红斑狼疮中医临床调查表,利用系统性红斑狼疮中医临床调查表对医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息进行整合;

对所述系统性红斑狼疮中医临床调查表中的中医四诊信息和对应的中医证型诊断结果信息进行预处理获得建模数据;

将所述建模数据的中医证型利用SPSS软件进行数据统计,计算出不同证型占全部证型的比例,利用非线性赋权函数计算各证型的权重;以及

使用所述建模数据对机器学习模型进行训练和测试,获得所述系统性红斑狼疮中医证型预测模型。

可选地,所述制定系统性红斑狼疮中医临床调查表,利用系统性红斑狼疮中医临床调查表对医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息进行整合的步骤中,所述系统性红斑狼疮中医临床调查表包括患者的面部鲜红蝶形红斑、高热、口渴、头晕、关节痛、肌肉痛、尿黄、尿少、疲乏、脱发、口舌生疮、口苦、眠差、纳差、红色皮疹等98个临床表现。

可选地,所述制定系统性红斑狼疮中医临床调查表,利用系统性红斑狼疮中医临床调查表对医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息进行整合的步骤具体包括:抽取医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息,将电子病历的中医四诊信息和系统性红斑狼疮中医临床调查表同义匹配,抽取电子病历中医四诊信息和中医证型诊断结果信息填入系统性红斑狼疮中医临床调查表中,并将唯一患者号与所述四诊信息和中医证型诊断结果信息一一对应。

可选地,所述对所述系统性红斑狼疮中医临床调查表中的中医四诊信息和对应的中医证型诊断结果信息进行预处理获得建模数据的步骤具体包括以下步骤:

将所述单个中医证型占总体中医证型比例小于3%的数据删除;

将所述中医四诊信息数据进行0-1标准化处理;

将所述中医证型诊断结果信息进行one-hot编码;

将所述中医四诊信息中舌象、脉象数据都缺失或中医证型one-hot编码数据中缺失的数据删除;以及

将缺失值处理后的数据利用Minitab软件剔除异常大于0.5%的值。

可选地,所述将所述系统性红斑狼疮中医临床调查表中的中医四诊信息和对应的中医证型诊断结果信息进行预处理获得建模数据的步骤还包括以下步骤:将所述中医四诊信息中舌象、脉象数据缺一项的样本,根据样本的中医证型,然后以该类证型中样本舌象、脉象平均值来插补缺失值。

可选地,所述使用所述建模数据对机器学习模型进行训练和测试,获得所述系统性红斑狼疮中医证型预测模型步骤具体包括:使用70%的所述建模数据对机器学习模型进行训练,使用剩下30%的所述建模数据对所述机器学习模型进行测试,获得所述系统性红斑狼疮中医证型预测模型,所述机器学习模型包括随机森林模型、支持向量机模型、XGBoost模型和基于非线性赋权XGBoost模型四种模型中的至少两种。

进一步地,本发明还提供一种系统性红斑狼疮中医证型预测模型的建模系统,所述系统包括:

数据采集模块,用于抽取医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息,并将所述中医四诊信息和对应的中医证型诊断结果信息整合进系统性红斑狼疮中医临床调查表中;

数据处理模块,用于对所述系统性红斑狼疮中医临床调查表中的中医四诊信息和对应的中医证型诊断结果信息进行预处理获得建模数据;

非线性赋权模块,用于将所述建模数据的中医证型利用SPSS软件进行数据统计,计算出不同证型占全部证型的比例,利用非线性赋权函数计算各证型的权重;以及

模型建立模块,通过使用所述建模数据对机器学习模型进行训练和测试,获得所述系统性红斑狼疮中医证型预测模型。

可选地,所述系统性红斑狼疮中医临床调查表包括患者的面部鲜红蝶形红斑、高热、口渴、头晕、关节痛、肌肉痛、尿黄、尿少、疲乏、脱发、口舌生疮、口苦、眠差、纳差、红色皮疹等98个临床表现。

可选地,所述数据处理模块的数据预处理包括:去除小于3%的中医证型、标准化、one-hot编码、删除缺失值和剔除异常值。

可选地,所述模型建立模块的机器学习模型包括随机森林模型、支持向量机模型、XGBoost模型和基于非线性赋权XGBoost模型四种模型中的至少两种。

与现有技术相比,本发明系统性红斑狼疮中医证型预测模型的建模方法及系统的优点在于:本发明通过使用大量现有的国内系统性红斑狼疮中医的电子病历数据建立系统性红斑狼疮中医证型预测模型,可提高系统性红斑狼疮中医证型的诊断率,将所述系统性红斑狼疮中医证型预测模型的建模方法应用于系统性红斑狼疮中医证型预测,可辅助临床教学和医生诊疗,提高学生和医生对系统性红斑狼疮患者的诊疗率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明实施例提供的系统性红斑狼疮中医证型预测模型的建模方法流程框图;

图2为本发明实施例提供的系统性红斑狼疮中医证型预测模型的建模方法另一流程框图;

图3为本发明实施例提供的系统性红斑狼疮中医证型预测模型的建模系统结构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

图1为本发明实施例提供的系统性红斑狼疮中医证型预测模型的建模方法流程框图,如图1所示,所述方法包括以下步骤:

S1:制定系统性红斑狼疮中医临床调查表,利用系统性红斑狼疮中医临床调查表对医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息进行整合;

具体地,通过各数据库临床文献分析、回顾性分析、《2002年中药新药临床研究指导原则》和专家问卷,共筛选出面部鲜红蝶形红斑、高热、口渴、头晕、关节痛、肌肉痛、尿黄、尿少、疲乏、脱发、口舌生疮、口苦、眠差、纳差、红色皮疹等98个系统红斑狼疮临床表现,制定系统性红斑狼疮中医临床调查表。

抽取医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息,整合后将唯一患者号与所述四诊信息和中医证型诊断结果信息一一对应。所述整合主要包括以下:将电子病历中医四诊信息和系统性红斑狼疮中医临床调查表同义匹配,例如电子病历中“饮食不香”、“不思饮食”、“不想吃饭”、“胃口差”、“胃口不好”等词,匹配系统性红斑狼疮中医临床调查表中的“纳差”;抽取电子病历中中医四诊信息和中医证型诊断结果信息填入系统性红斑狼疮中医临床调查表中。

S2:对所述系统性红斑狼疮中医临床调查表中的中医四诊信息和对应的中医证型诊断结果信息进行预处理获得建模数据;

具体地,由于所述系统性红斑狼疮临床调查表的每个表格都或多或少都有缺失值、异常值等噪声数据,因此为了控制数据的准确性与完整性,使结果的精度得到保证,需要对所述数据进行数据预处理,如图2所示,所述数据预处理包括以下步骤:

S21:将所述数据中的单个中医证型占总体中医证型比例小于3%的数据删除;

具体地,本实施例中将所述数据中的单个中医证型占总体中医证型比例小于3%的数据删除后,可以获得七个常见的系统性红斑狼疮中医证型,分别为:热毒炽盛证、肝肾阴虚证、脾肾阳虚证、阴虚内热证、风湿热痹证、气阴两虚证和气血两虚证。

S22:将所述中医四诊信息数据进行0-1标准化处理;

具体地,0代表无,1代表有,例如有耳鸣,则在预处理数据集填1,没有耳鸣,则填0。

S23:将所述中医证型诊断结果信息进行one-hot编码;

具体地,例如,本实施例中的七个系统性红斑狼疮中医证型,分别编码为热毒炽盛证(1000000)、肝肾阴虚证(0100000)、脾肾阳虚证(0010000)、阴虚内热证(0001000)、风湿热痹证(0000100)、气阴两虚证(0000010)和气血两虚证(0000001)。

S24:将所述中医四诊信息中舌象、脉象数据都缺失或中医证型one-hot编码数据中缺失的数据删除;

具体地,舌象脉象在中医证型诊断结果有比较大的权重,可以肯定的是每个患者都有舌象和脉象,但有些临床医生有时候在书写病历时候忘记书写舌象和脉象,因而有一定的遗漏率,而舌象脉象对中医证型的诊断具有重要的意义,如果舌象脉象数据都缺失的话,中医证型判断的结果势必不会很准确,因此删除舌象脉象都缺失的患者号。其次中医证型诊断结果,有些病历没有填写,这种数据是无法用于建模和预测的,也需要删除。

另外,针对所述舌象、脉象数据只缺一项的样本,我们可以根据样本的中医证型,然后以该类证型中样本舌象、脉象平均值来插补缺失值,例如有一个数据阴虚内热证,有舌象,但是没有脉象,可以根据样本中阴虚内热证舌红少苔的平均值0.95,填补该数据舌红少苔的一栏。

S25:将缺失值处理后的数据利用Minitab软件剔除异常大于0.5%的值。

S3:将所述建模数据的中医证型利用SPSS软件进行数据统计,计算出不同证型占全部证型的比例,利用非线性赋权函数计算各证型的权重;

具体地,采用启发式函数对不同类别样本进行非线性赋权,样本数量与样本权重呈负相关,权重计算方法如下:计算样本比例,如下式(1)所示,其中D为样本总数,dk为第k类样本数量,υk为第k类样本占总样本的比例。

计算非线性赋权函数,基于样本比例的非线性赋权函数为下式(2)所示:

根据式(2)可知函数的取值范围为[0.5+α/(1+e),0.5+α/2]0.5+α/(1+e),0.5+α/2]。在本实施例中,根据参数优化结果,将α值设为1,得到的热毒炽盛证、肝肾阴虚证、脾肾阳虚证、阴虚内热证、风湿热痹证、气阴两虚证和气血两虚证的权重分别为:0.984、1.036、1.106、0.982、1.023、0.994、1.215。

S4:使用所述建模数据对机器学习模型进行训练和测试,获得所述系统性红斑狼疮中医证型预测模型。

具体地,使用70%的所述建模数据对机器学习模型进行训练,使用剩下30%的所述建模数据对所述机器学习模型进行测试,获得所述系统性红斑狼疮中医证型预测模型,所述机器学习模型包括随机森林模型、支持向量机模型、XGBoost模型和基于非线性赋权XGBoost模型四种模型中的至少两种。在本实施例中,可以分别用四种机器学习模型代码依次读取数据,进行训练和测试,四种机器学习模型代码运行完各种数据后,为了评价不同模型的表现,可以基于混淆矩阵的相关统计指标和性能曲线比较不同机器学习模型的性能,其中评价指标包括:准确率(Accuracy,ACC)、平均准确率(Balanced Accuracy,BACC)、F1-score和Kappa系数,性能曲线包括:受试者工作特性(Receiver OperatingCharacteristic,ROC)曲线、精准率-召回率(Precision-Recall,PR)曲线。

下表1为四种机器学习模型分类器的评价指标对比。从表中可以看出RF模型中,ACC=79.36%,BACC=25.43,F1-score=0.25,Kappa=0.02,ROC曲线的AUC值=0.886,PR曲线的AUC值=0.745;SVM模型中,ACC=81.23%,BACC=25.27,F1-score=0.23,Kappa=0.01,ROC曲线的AUC值=0.873,PR曲线的AUC值=0.718;NW-XGBoost模型中,ACC=84.56%,BACC=28.56,F1-score=0.28,Kappa=0.08,ROC曲线的AUC值=0.928,PR曲线的AUC值=0.834,各项评价指标表现最好。XGBoost模型中,ACC=83.76%,BACC=27.42,F1-score=0.26,Kappa=0.07,ROC曲线的AUC值=0.919,PR曲线的AUC值=0.826,各项评价指标仅次于NW-XGBoost模型,SVM模型和RF模型各项评价指标表现类似,各有优势地方,但差于NW-XGBoost模型和XGBoost模型。

表1

图3为本发明实施例提供的系统性红斑狼疮中医证型预测模型的建模系统结构框图,如图3所示,所述系统性红斑狼疮中医证型预测模型的建模系统包括:

数据采集模块31:用于抽取医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息,并将所述中医四诊信息和对应的中医证型诊断结果信息整合进系统性红斑狼疮中医临床调查表中;

具体地,所述系统性红斑狼疮中医临床调查表包括患者的面部鲜红蝶形红斑、高热、口渴、头晕、关节痛、肌肉痛、尿黄、尿少、疲乏、脱发、口舌生疮、口苦、眠差、纳差、红色皮疹等98个临床表现。

抽取医院系统性红斑狼疮患者电子病历的中医四诊信息和对应的中医证型诊断结果信息,整合后将唯一患者号与所述四诊信息和中医证型诊断结果信息一一对应。所述整合主要包括以下:将电子病历中医四诊信息和系统性红斑狼疮中医临床调查表同义匹配,例如电子病历中“饮食不香”、“不思饮食”、“不想吃饭”、“胃口差”、“胃口不好”等词,匹配系统性红斑狼疮中医临床调查表中的“纳差”;抽取电子病历中中医四诊信息和中医证型诊断结果信息填入系统性红斑狼疮中医临床调查表中。

数据处理模块32:用于对所述系统性红斑狼疮中医临床调查表中的中医四诊信息和对应的中医证型诊断结果信息进行预处理获得建模数据;

具体地,所述数据处理模块32的数据预处理包括:去除小于3%的中医证型、标准化、one-hot编码、删除缺失值和剔除异常值。

非线性赋权模块33:用于将所述建模数据的中医证型利用SPSS软件进行数据统计,计算出不同证型占全部证型的比例,利用非线性赋权函数计算各证型的权重;以及

模型建立模块34:通过使用所述建模数据对机器学习模型进行训练和测试,获得所述系统性红斑狼疮中医证型预测模型。

具体地,使用70%的所述建模数据对机器学习模型进行训练,使用剩下的30%所述建模数据对所述机器学习模型进行测试,获得所述系统性红斑狼疮中医证型预测模型,所述机器学习模型包括随机森林模型、支持向量机模型、XGBoost模型和基于非线性赋权XGBoost模型四种模型中的至少两种。

与现有技术相比,本发明的系统性红斑狼疮中医证型预测模型的建模方法及系统,通过使用大量现有的国内系统性红斑狼疮中医的电子病历数据建立系统性红斑狼疮中医证型预测模型,可提高系统性红斑狼疮中医证型的诊断率,将所述系统性红斑狼疮中医证型预测模型的建模方法应用于系统性红斑狼疮中医证型预测,可辅助临床教学和医生诊疗,提高学生和医生对系统性红斑狼疮患者的诊疗率。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:COPD急性加重并发呼吸衰竭的预测系统及监测装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!