一种基于代谢组学的诊断宫颈癌血浆分子标志物的筛选方法

文档序号:6224 发布日期:2021-09-17 浏览:43次 英文

一种基于代谢组学的诊断宫颈癌血浆分子标志物的筛选方法

技术领域

本发明涉及医学领域,具体涉及一种基于代谢组学的诊断宫颈癌血浆分子标志物的筛选方法。

背景技术

宫颈癌(Cervical Carcinoma,CC)是一个重要的全球公共卫生问题。它是危害女性健康的最常见恶性肿瘤之一,其发病率在女性中居第二位,由其引起的死亡数约占女性癌症死亡总数的7.5%。中国国家癌症中心(National Central Cancer of China,NCCC)公布的最新全国癌症统计数据显示,宫颈癌的发病占前十位女性恶性肿瘤的6.25%,居第6位;在农村中更高为6.34%;而其死亡约占女性全部肿瘤的3.96%,居第8位。

宫颈癌的筛查和治疗方面都存在一定的缺陷,如HPV检测的特异性较低、液基薄层细胞检测的敏感性较低,因此为宫颈癌患者寻找新的诊断和治疗靶点,探索疗效确切的靶向治疗药物,对宫颈癌的早期诊断和改善预后意义巨大。

近十年来,代谢组学领域的进展证明了癌症是一种代谢疾病,并导致代谢组学作为癌症检测和治疗的新靶点被重新发现。早期的研究表明,宫颈癌患者在血清、肿瘤组织和粪便中含有一种独特的分子集合,范围从氨基酸到核酸不等。先前报道通过整合代谢组学和转录组学数据,筛选了5个诊断宫颈癌的候选代谢物。Khan等人挑选了7种代谢物作为早期检测宫颈上皮瘤变(CIN)和CC患者的生物标志物。然而,目前尚无关于CC动态监测的研究。

发明内容

本发明的目的在于,基于代谢组学,利用机器学习的方法筛选获得诊断和分型的宫颈癌血浆分子标志物,利用这些分子标志物,有利于医生进行疾病诊断和治疗。为实现上述目的,本发明采用如下技术方案:

一种基于代谢组学的诊断宫颈血浆分子标志物的筛选方法,包括如下步骤:

S1.选择样本

选择宫颈癌患者的空腹血液样本,并选用健康志愿者空腹血液样本进行对照;

S2.进行血浆代谢组学测序

取-80℃的血浆样品,在4℃时慢慢溶解;将100个原离子样品与400原离子预冷甲醇乙腈溶液以体积比1:1混合;涡旋60s,-20℃放置1h,4℃离心20min,上清冷冻干燥,然后进行液相色布分析;质量控制(QC)样品随机混合到需要检查的样品中,使用超高效液相色谱仪(UHPLC)分离后,使用质谱仪进行电喷雾电离正、负两种模式的质谱分析;

使用XCMS对液相色谱-质谱(LC-MS)原始数据进行处理,以校准峰,校正保留时间和提取峰面积;通过质量匹配(25ppm)和基于数据库的二次光谱匹配鉴定代谢物结构和注释峰,然后使用SIMCA通过帕雷托扩展进行规范化,利用MetaboAnalyst工具进行单变量统计分析、多变量统计分析、富集分析、联合路径分析;以p值小于0.05,差异倍数绝对值大于1.2为标准选择差异表达代谢物;用R包Hmisc和corrplot计算Spearman相关分析;

S3.转录组学分析

S3-1.使用GEO2R分析GEO数据库健康志愿者和宫颈癌患者转录数据的差异基因表达;

S3-2.采用R中的DESeq2包分析TCGA数据库健康志愿者和宫颈癌患者转录数据的差异基因表达;

S3-3.利用集群分析器(clusterProfiler)进行基因本体(GO)和京都基因和基因组百科全书(KEGG)的富集分析;

S4.回归分析和AUC计算

建立10倍交叉验证的Lasso回归模型,区分健康志愿者和宫颈癌患者,,建立三倍交叉验证的Lasso模型,区分≤ⅡA1患者和≥ⅡA2患者;将最佳拟合值分别与一种代谢物匹配,然后拟合到一般性模型(GLM);用glmnet对R进行回归分析,建立ROC曲线,用pROC对模型进行曲线AUC计算。

作为改进所述S3-1步骤中的表达基因的筛选标准为p<0.05,差异倍数的绝对值大于3/2。

作为改进,所述S3-2步骤中的表达基因的筛选标准为p<0.05,差异倍数的绝对值大于6/5。

作为改进,所述S1步骤中患者样本的纳入标准为:a,活检确诊为宫颈癌的患者;b,临床有明确病理结果和详细分期的患者;c,未接受任何放化疗与其他治疗的患者;

所述S1步骤中患者样本的排除标准为:d,基本临床信息不全的患者;e,年龄小于18岁或大于85岁的患者;f,无病理确认结果;g,患有代谢性疾病的患者。

本发明的优点在于:

本项发明以代谢组学为基础,筛选出可以区分宫颈癌与健康者的代谢分子标志物,以及可以区分早期和中晚期患者的分子标志物。与现有的宫颈癌诊断方法相比较,具有如下优势:

1.本发明筛选出的分子标志物容易采样,可以在无创条件下采集标本。可以简便、无创的监测并诊断宫颈癌。

2.本发明发现了新型的可以区分早期和中晚期宫颈癌患者的分子分型代谢标志物。

3.本发明筛选出的肿瘤标志物具有更高的性能,可以应用于宫颈癌分型上。

附图说明

图1为CC患者和健康志愿者代谢表达谱;PCA(A)和OPLS-DA(B)代谢组学数据评分图,椭圆显示95%置信区间;(C)利用标度峰强度绘制差异表达代谢物的热图;(D)SMPDB(小分子通路数据库)差异代谢物的富集分析(E)差异表达代谢物的相关图;

图2为通过LASSO回归分析代谢物筛选;(A)ln(mm)在x轴上,二项偏差在y轴上;(B)51种代谢物对应ln(λ)的LASSO系数曲线;(C-E)训练队列、测试队列和验证队列的ROC曲线,曲线下面积为0.795(95%CI:0.98-1),1(95%CI:1-1),AUC为1(95%CI:1-1),(F-J)5个代谢标志物的峰强度图,包括环己胺、左旋肉碱、Val-Thr、芥子苷、5.6.7.8四水-2萘酚;健康志愿者和CC患者采用学生t检验评价两组间差异的显著性;

图3为环己胺(AF),左旋肉碱,Val-Thr,芥子苷,5.6.7.8-四氢.2-萘酸(上)与标准化合物(下)匹配的MS/MS光谱;

图4为CC患者≤ⅡA1与≥ⅡA2两组的代谢表达谱;(A-B)用DEGs进行GO和KEGG富集分析;(C)差异表达代谢物KEGG富集分析;(D)差异表达代谢物和基因的KEGG富集分析;(E)DEGs和差异表达代谢物的网络分析;(F)差异表达代谢产物与临床指标的相关性;

图5为(A)TAMO的表达丰度。(B)TAMO在训练集中的ROC曲线。(C)TAMO在验证集中的ROC曲线。(D)TMAO表达高低组患者生存分析曲线。(E)TMAO表达风险分析。

具体实施方式

下面通过具体实施例对本发明进行详细和具体的介绍,以使更好的理解本发明,但是下述实施例并不限定本发明的保护范围。

实施例1

本实施例公开了一种基于代谢组学的诊断宫颈血浆分子标志物的筛选方法,包括如下步骤:

S1.选择样本

选择宫颈癌患者的空腹血液样本,并选用健康志愿者空腹血液样本进行对照。患者样本的纳入标准为:a,活检确诊为直肠癌的患者;b,临床有明确病理结果和详细分期的患者;c,未接受任何放化疗与其他治疗的患者;患者样本的排除标准为:d,基本临床信息不全的患者;e,年龄小于18岁或大于85岁的患者;f,无病理确认结果的患者;g,患有代谢性疾病的患者。

S2.进行血浆代谢组学测序

取-80℃的血浆样品,在4℃时慢慢溶解;将100个原离子样品与400原离子预冷甲醇乙腈溶液以体积比1:1混合;涡旋60s,-20℃放置1h,4℃离心20min,上清冷冻干燥,然后进行液相色布分析;质量控制(QC)样品随机混合到需要检查的样品中,使用超高效液相色谱仪(UHPLC)分离后,使用三联TOF5600质谱仪(ABSCIEX)进行电喷雾电离正、负两种模式的质谱分析。

使用XCMS对液相色谱-质谱(LC-MS)原始数据进行处理,以校准峰,校正保留时间和提取峰面积;通过质量匹配(25ppm)和基于数据库的二次光谱匹配鉴定代谢物结构;注释峰,然后使用SIMCA通过帕雷托扩展进行规范化,利用MetaboAnalyst工具进行单变量统计分析、多变量统计分析、富集分析、联合路径分析;以p值小于0.05,差异倍数绝对值大于1.2为标准选择差异表达代谢物;用Hmisc和corrplot计算R的Spearman相关分析。

S3.转录组学分析

S3-1.使用GEO2R分析GEO数据库健康志愿者和宫颈癌患者转录数据的差异基因表达;表达基因的筛选标准为p<0.05,差异倍数绝对值大于3/2。

S3-2.采用R中的DESeq2分析TCGA内健康志愿者和宫颈癌患者转录数据的差异基因表达;表达基因的筛选标准为p<0.05,差异倍数绝对值大于6/5。

S3-3.利用集群分析器(clusterProfiler)对基因本体(GO)和京都基因和基因组百科全书(KEGG)的富集进行了分析。

S4.回归分析和AUC计算

建立10倍交叉验证的Lasso回归模型,区分健康志愿者和宫颈癌患者,建立三倍交叉验证的Lasso模型,区分≤ⅡA1患者和≥ⅡA2患者;将最佳拟合值分别与一种代谢物匹配,然后拟合到一般性模型(GLM);用glmnet对R进行回归分析,建立ROC曲线,用pROC对模型进行曲线AUC计算。

本发明招募了87名CC患者和34名健康志愿者,进行实施例1中S1样本采集步骤,对血浆样本进行S2步骤进行血浆代谢组学测序。两组的临床详细信息见表1:

表1.纳入患者的基本临床特征

基于来自健康志愿者和CC患者的代谢组学数据进行主成分分析(PCA),其中组分1(PCI)占70.3%,组分2(PC2)占12.4%(图1A),表明显示两组间有明显的分离。预测分量(x轴)和正交分量(y轴)的OPLS-DA评分图分别为4.8%和13.5%(图1B),结果表明CC患者和健康志愿者之间代谢存在显著差异。差异代谢组学发现51个代谢物(图1C),差异表达的代谢物在肉碱代谢、脂质代谢和氨基酸代谢中富集(图1D)。多种氨基酸及其衍生物似乎相互协调(图1E)。

整合来自GEO数据集的转录组,包括24名正常人和28名CC患者的标本组织。差异代谢物和基因网络显示的代谢物来源可能是由肿瘤代谢异常引起的。

将所有样本随机以7:3的比例分为训练集和验证集,然后应用10倍交叉验证绝对收缩和选择算子(Lasso)进行模型建立,选择最优λ值(虚线,λ=0.136),1(SE)的最低标准误差λ(虚线,λ=0.049)(图2)。最终选择模型中贡献最大的五种代谢物(环己胺,左旋肉碱,Val-Thr,芥子苷,5.6.7.8.四氢、2.萘酚、酸)组合形成预测模型(图2B)。五种代谢物的结构被标准化合物确认(图3)。五个代谢物在训练队列、测试集队列和另一个独立验证队列(包括45名CC患者和7人)中表现同样好(图2C-2E)。两组间代谢物峰值强度变化显著(图2F-2J)。血浆中低浓度的左旋肉碱会增加癌症患者的疲劳和衰竭。然而,主要来自十字花科蔬菜的天然产物辛尼格林在CC患者的血浆中升高。辛尼格林具有抗癌治疗活性。我们推测,这是由于肠道微生物群的动态影响了新陈代谢。另外三种代谢物与癌症的关系有待进一步研究。

根据FIGO分期标准,ⅡA1和ⅡA2划分基于肿瘤大小的最大尺寸。生存分析的结果ⅡA1和ⅡA2的生存结局仍然存在争议。然而,由于肿瘤越小,手术更适合≤ⅡA1病人阶段。区分的分子分析病人ⅡA1和温和的阶段和病人在ⅡA2和强烈的阶段,可以有利于医生制定治疗策略,防止额外的化疗和放疗。我们将CC病人分为≤ⅡA1与≥ⅡA2两组,结合代谢组学和TCGA数据库转录组进行综合分析。差异表达基因(DEGs)的GO富集显示了与肿瘤进展相关的通路(图4A)。无论使用DEGs还是差异表达的代谢物,富集的途径都揭示了代谢异常,尤其是氨基酸和脂类代谢(图4B-4D)。DEGs与差异表达的代谢物围绕能促进肿瘤细胞增殖和迁移的鸟氨酸和棕榈酸核心组构建网络(图4E)。我们对临床指标的差异表达代谢物进行相关性分析,发现肿瘤体积与TMAO、肿瘤生物标志物CA125等几种代谢物相关(图4F)。这表明在≤ⅡA1与≥ⅡA2之间存在显著的代谢差异。

利用LASSO进一步建模筛选可以显著区分≤ⅡA1与≥ⅡA2两组的代谢物,将87名患者随机按照7:3分为训练集和测试集。最后筛选出氧化三甲胺(TMAO),其在≤ⅡA1与≥ⅡA2两组的表达丰度存在明显差异(图5A)。利用TMAO构建的模型在区分≤ⅡA1与≥ⅡA2两组时表现出优秀的性能,在训练集的AUC达到0.869,在测试集中达到了0.738(图5B-5C),利用模型的TMAO的截断值进行分组,结果表明TMAO高低表达两组的生存存在差异,低丰度的TMAO组预后结局更好(图5D)。风险也证明了TMAO是宫颈癌疾病进展的风险因素(图5E)。

本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并不等同于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,不脱离本发明的精神和范围下所做的均等变换和修改,都应涵盖在本发明的范围内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种黄氏响声含片中贝母素甲与贝母素乙含量测定方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!