一种基于非靶向代谢组学检测gist患者血浆中伊马替尼代谢物的方法
技术领域
本发明涉及生物医学领域,特别是涉及一种基于非靶向代谢组学检测GIST 患者血浆中伊马替尼代谢物的方法。
背景技术
胃肠间质瘤(Gastrointestinal Stromal Tumors,GIST)是消化道最常见的间叶源性肿瘤,约占胃肠道肿瘤0.3%-1%,且其发病率有年轻化趋势。甲磺酸伊马替尼(imatinib,IM)是一种酪氨酸酶(TKIs)抑制剂,具有良好的抑制c-Kit活性的作用,其作为靶向药物应用于GIST的临床治疗,对于完全切除的中高危以及不可切除、复发转移或晚期的GIST患者,取得了令人瞩目的成就。经研究发现,IM作为口服小分子靶向药物,存在约75%的个体内差异及60%的个体间差异,且约80%的患者在治疗1-3年后出现了继发性耐药。因此,筛选适合IM治疗的GIST患者以及预测IM治疗的疗效敏感性,是临床面临的挑战。
目前,应用于消化道肿瘤的血浆生物标志物包括癌CEA、AFP、CA199、CA125 及CA72-4等。上述血浆标志物主要用于GIST的辅助筛查、诊断,但确诊为GIST 后,用于IM治疗的生物学标志物研究尚属于空白阶段。肿瘤内的癌细胞基因组具有不稳定性的特点,易发生新的突变,与此同时,代谢产物的变化更接近反应生物体的表型。因此,以血浆特异性代谢物作为IM治疗GIST的生物学标志物的研究,对筛选出适合IM治疗的GIST患者有着重大的社会效益。
代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。非靶向代谢组学可无偏向地检测样本中所有能检测到的代谢物分子,能全面有效的反映出生物体的差异。其中,核磁共振波谱和质谱是用于表征代谢物最主要的手段,并且可与色谱联用以提高灵敏度和准确度。由于血浆代谢物的复杂性,传统的分析手段难以达到精确地分析结果。液相色谱-质谱/质谱联用可克服背景干扰,提高信噪比,对复杂样品仍可达到很高的灵敏度。
因此,使用非靶向代谢组学研究出适用于IM治疗的生物学标志物的方法,可为消化道肿瘤确诊后的药物治疗有效性、针对性及无创筛选、标志物表征奠定基础。
发明内容
针对上述问题,本发明提供了一种基于非靶向代谢组学检测GIST患者血浆中伊马替尼代谢物的方法,以代谢产物反应生物体的表型,识别代谢过程中生物标志物,为适用于IM治疗的GISI患者的有效性治疗提供技术支撑,可为消化道肿瘤确诊后的药物治疗有效性、针对性及无创筛选、标志物表征奠定基础。
本发明的技术方案是:
1、一种基于非靶向代谢组学检测GIST患者血浆中伊马替尼代谢物的方法,包括以下步骤:
S1、分别采集若干名未服用及长期规律服用IM的GIST患者的外周静脉血,并将采集的外周静脉血进行离心处理,然后低温保存,得到血浆样本;
S2、采用二维液相色谱法分析血浆样本中IM血药浓度,根据测出的血药浓度值,将所述的血浆样本分成至少两组;
S3、量取适量体积分组后的血浆样本分别转移到离心管中,加入大于离心管中血浆样本体积的甲醇进行涡旋,再进行低温孵育;将孵育后的样本涡旋后,离心收取上清液,静置;将静置后的上清液再次离心,转置进样瓶中,得到待测样本;
S4、对待测样本进行非靶向检测,得到血浆中的代谢物原始数据;
S5、对原始数据进行多变量分析,并以OPLS-DA模型的变量投影重要度值,即VIP值结合t检验的P值以及差异倍数分析的FC值,并以VIP≥1,P<0.05, FC≥2或≤0.5的条件寻找差异代谢物,检索数据库以定性出GIST代谢标志物;
S6、对代谢标志物进行KEGG通路分析,确定GISI患者的代谢过程。
上述技术方案的工作原理如下:
IM是KIs抑制剂,其作为靶向药物应用于GIST的临床治疗,但服用IM的患者存在巨大的个体间差异,且由于肿瘤内的癌细胞基因组不稳定,易发生新的突变,目前尚未有技术手段筛选出适合采取IM治疗的GIST患者。而代谢产物的变化接近生物体的表型,通过对代谢物质的表征,得出的差异代谢物可以反映人体内的病理变化。本申请发明人采取UPLC-QTOF/MS联用技术测试出不同患者的血液代谢物数据,通过血药浓度高低对患者进行分组,可以更清楚直观的了解血药浓度差异与代谢物表达量差异的关联,通过UPLC-QTOF/MS联用技术测试,对于未知的物质,可得出碎片信息,通过检索数据库对代谢物结构进行结构鉴定。最后经过统计学分析,基于OPLS-DA结果,从VIP值可以初步筛选出不同组间的差异代谢物,通常认为VIP≥1的代谢物为差异显著,同时结合单变量分析的t检验的P值和FC来进一步筛选得出GIST代谢标志物,设置代谢物的表达量在组间差异为2倍以上或0.5倍以下,即选取FC≥2或≤0.5的代谢物,认为t检验的P<0.05是有意义的,筛选得到的差异代谢物也越可靠。可为适用于IM治疗的GISI患者的有效性治疗提供技术支撑,可为消化道肿瘤确诊后的药物治疗有效性、针对性及无创筛选、标志物表征奠定基础。
在进一步的技术方案中,步骤S1中,将所述外周静脉血收集于离心管中,在室温下5000r/min离心5min,收取上清液转置EP管中,并在-80℃环境中保存,得到血浆样本。
设置转速为5000r/min,时间5min,在短时间即可彻底分离开小分子化合物。上清液收取完毕后立即转移至冰箱中-80℃低温保存,可防止蛋白聚集,保存时间更久。
在进一步的技术方案中,步骤S2中根据测出的血药浓度值,将IM血药浓度>2000ng/mL的设为A组、IM血药浓度1100-2000ng/mL的设为B组、IM血药浓度<1100ng/mL的设为C组和未服用IM的GIST患者设为D组。
通过将患者分组,可了解相同服药情况下,患者间血药浓度差异与代谢物表达量差异的关联,有利于直观分析并寻找生物标志物。
在进一步的技术方案中,步骤S3中所述甲醇含有1ppm的2-氯苯丙氨酸,进行涡旋后于-20℃下孵育0.5h;将孵育后的血浆样本,于4℃下12000r/min 离心处理10min,收取200uL上清液转置新的离心管中,于-20℃下静置0.5h;将静置后的上清液于4℃下12000r/min再次离心处理15min,取上清液转置进样瓶中,得到待测样本。
-20℃低温保存血浆样本,可抑制细胞代谢,稳定对温度选择性低的组分,从而避免冻融,保存时间久。由于离心过程中产热不利于分析物的稳定,因此本申请控制温度在4℃离心收集。因为血液被冻存,当测试时,再次离心,可防止物质干扰。
在进一步的技术方案中,步骤S4中所述UPLC-QTOF/MS联用技术的采集条件为:
UPLC:Waters T3 C18柱,柱温40℃,流速0.35mL/min,进样量2uL,流动相A(0.04%乙酸/水)和流动相B(0.04%乙酸/乙腈);
QTOF/MS:采用电喷雾离子源的正离子模式和负离子模式,正离子模式为电压250v,气体流量8L/min,碎裂电压135v,气体温度325℃,鞘气温度325℃,鞘流11L/min和喷雾器40psi;负离子模式为电压1500v,气体流量8L/min,碎裂电压135v,气体温度325℃,鞘气温度325℃,鞘流11L/min和喷雾器40psi;
其中UPLC表示超高效液相色谱,MS表示四级杆飞行时间质谱。
通过本申请发明人多次创造性劳动,发现设置UPLC-QTOF/MS为以上采集条件,可克服背景干扰,提高信噪比,对复杂样品仍可达到很高的灵敏度,定量效果好,对于未知的物质,得出的碎片信息峰形清晰,结果更准确。
在进一步的技术方案中,步骤S5中对原始数据进行多变量分析前,先将原始数据转换成mzML格式,再对原始数据的图谱进行峰对齐、保留时间校正和峰面积提取。
因为质谱文件格式固定,输出的格式不适用支持其他数据格式的分析软件,ProteoWizard格式转换,格式选择性广,且支持mzML格式,可直接用于XCMS软件处理,处理流程顺畅,普适性强。
在进一步的技术方案中,步骤S5中对原始数据进行多变量分析具体为:对原始数据的图谱进行峰对齐、保留时间校正和峰面积提取后,经过Autoscaling 软件处理,对数据进行无监督主成分分析、正交偏最小二乘法判别分析、 Student’s t-test和差异倍数分析。
无监督主成分分析(PCA)为一种基于变量协方差矩阵对数据进行压缩降维的有效方法,通过对样本进行PCA分析,初步了解各组样本之间的总体代谢差异和组内样本之间的变异度大小;对于组间差异小的样品,采用正交偏最小二乘法判别分析(OPLS-DA)建立回归模型,可以将数据集分为与实验目的相关和不相关的两个部分,采用滤噪技术正交信号过滤掉与实验目的不相关的因素所引起的代谢变化,所得OPLS-DA模型可更精确的获取组间差异信息,忽略组内的随机差异;差异倍数分析为计算服用与未服用IM的GISI患者之间代谢物表达量的差异,以差异倍数≥2或≤0.5分类差异代谢物,最后结合Student’s t-test确定具有统计学意义的差异代谢物。通过以上分析方法联合使用,得出的差异代谢物全面精确。
在进一步的技术方案中,对代谢标志物进行KEGG通路分析前,还进行生物信息学分析评价差异代谢物的合理性,所述生物信息学分析包括聚类分析、相关性分析和小提琴分析。
使用多变量分析筛选出差异代谢物后,还通过聚类分析、相关性分析和小提琴分析等不同的方法,从不同的维度评价差异代谢物的合理性,更直观全面地显示样本之间的关系,从而辅助我们准确地筛选标志代谢物,可保证筛选出的代谢标志物的准确度。最后再进行KEGG通路分析,得到标准、完整、精确的代谢通路图。
在进一步的技术方案中,步骤S5中数据库为metlin数据库、hmdb数据库、metabolites数据库或lmsd数据库的一种或多种。
通过检索数据库,可以知道差异代谢物的种类,以上数据库能够检测出来的物质数目丰富全面,可进行简单搜索与复杂搜索,可有效定性差异代谢物。
本发明的有益效果是:
1、本发明以非靶向代谢组学检测GIST患者血浆中代谢物,以代谢产物反应生物体的表型,识别代谢过程中生物标志物,为适用于IM治疗的GISI患者的有效性治疗提供技术支撑,可为消化道肿瘤确诊后的药物治疗有效性、针对性及无创筛选、标志物表征奠定基础;
2、本发明采用UPLC-QTOF/MS,相比较与传统的LC-MS、GC-MS及单一检测,可克服背景干扰,提高信噪比,对复杂样品仍可达到很高的灵敏度,定量效果好,对于未知的物质,得出的碎片信息峰形清晰,结果更准确;
3、本发明通过对患者血液样品进行检测并按血药浓度高低分组,可了解相同服药情况下,患者间血药浓度差异与代谢物表达量差异的关联,有利于直观分析并寻找生物标志物;
4、本发明数据处理模块,采用单变量分析结合多变量分析的方法,统计结果精确度更高、物质全面,操作简易,普适性强,有显著的社会进步意义;
5、本发明通过聚类分析、相关性分析和小提琴分析等不同的方法从不同的维度,评价差异代谢物的合理性,并更直观全面地显示样本之间的关系,从而辅助我们准确地筛选标志代谢物,可保证筛选出的代谢标志物的准确度。最后再进行KEGG通路分析,得到的代谢通路图标准、完整、精确。
附图说明
图1是本发明实施例所述QC样本质谱检测TIC重叠图
图2是本发明实施例所述PCA得分图
图3是本发明实施例所述OPLS-DA得分图及模型验证图
图4是本发明实施例所述差异代谢物火山图
图5是本发明实施例所述差异代谢物VIP值图
图6是本发明实施例所述差异代谢物的差异倍数前20物质柱形图
图7是本发明实施例所述差异代谢物聚类分析热图
图8是本发明实施例所述差异代谢物相关性热图
图9是本发明实施例所述差异代谢物整体小提琴图
图10是本发明实施例所述差异富集气泡图
图11是本发明实施例所述差异代谢物功能注释图。
具体实施方式
下面对本发明的具体实施方式说明。
本发明的技术方案是:
1、一种基于非靶向代谢组学检测GIST患者血浆中伊马替尼代谢物的方法,包括以下步骤:
S1、分别采集若干名未服用及长期规律服用IM的GIST患者的外周静脉血,并将采集的外周静脉血进行离心处理,然后低温保存,得到血浆样本;
S2、采用二维液相色谱法分析血浆样本中IM血药浓度,根据测出的血药浓度值,将所述的血浆样本分成至少两组;
S3、量取适量体积分组后的血浆样本分别转移到离心管中,加入大于离心管中血浆样本体积的甲醇进行涡旋,再进行低温孵育;将孵育后的样本涡旋后,离心收取上清液,静置;将静置后的上清液再次离心,转置进样瓶中,得到待测样本;
S4、对待测样本进行非靶向检测,得到血浆中的代谢物原始数据;
S5、对原始数据进行多变量分析,并以OPLS-DA模型的变量投影重要度值,即VIP值结合t检验的P值以及差异倍数分析的FC值,并以VIP≥1,P<0.05, FC≥2或≤0.5的条件寻找差异代谢物,检索数据库以定性出GIST代谢标志物;
S6、对代谢标志物进行KEGG通路分析,确定GISI患者的代谢过程。
上述技术方案的工作原理如下:
上述技术方案的工作原理如下:
IM是KIs抑制剂,其作为靶向药物应用于GIST的临床治疗,但服用IM的患者存在巨大的个体间差异,且由于肿瘤内的癌细胞基因组不稳定,易发生新的突变,目前尚未有技术手段筛选出适合采取IM治疗的GIST患者。而代谢产物的变化接近生物体的表型,通过对代谢物质的表征,得出的差异代谢物可以反映人体内的病理变化。本申请发明人采取UPLC-QTOF/MS联用技术测试出不同患者的血液代谢物数据,通过血药浓度高低对患者进行分组,可以更清楚直观的了解血药浓度差异与代谢物表达量差异的关联,通过UPLC-QTOF/MS联用技术测试,对于未知的物质,可得出碎片信息,通过检索数据库对代谢物结构进行结构鉴定。最后经过统计学分析,基于OPLS-DA结果,从VIP值可以初步筛选出不同组间的差异代谢物,通常认为VIP≥1的代谢物为差异显著,同时结合单变量分析的t检验的P值和FC来进一步筛选得出GIST代谢标志物,设置代谢物的表达量在组间差异为2倍以上或0.5倍以下,即选取FC≥2或≤0.5的代谢物,认为t检验的P<0.05是有意义的,筛选得到的差异代谢物也越可靠。可为适用于IM治疗的GISI患者的有效性治疗提供技术支撑,可为消化道肿瘤确诊后的药物治疗有效性、针对性及无创筛选、标志物表征奠定基础。
在另外一个实施例中,步骤S1中,将所述外周静脉血收集于离心管中,在室温下5000r/min离心5min,收取上清液转置EP管中,并在-80℃环境中保存,得到血浆样本。
在另外一个实施例中,步骤S2中根据测出的血药浓度值,将IM血药浓度>2000ng/mL的设为A组、IM血药浓度1100-2000ng/mL的设为B组、IM血药浓度<1100ng/mL的设为C组和未服用IM的GIST患者设为D组。
在另外一个实施例中,步骤S3中所述甲醇含有1ppm的2-氯苯丙氨酸,进行涡旋后于-20℃下孵育0.5h;将孵育后的血浆样本,于4℃下12000r/min离心处理10min,收取200uL上清液转置新的离心管中,于-20℃下静置0.5h;将静置后的上清液于4℃下12000r/min再次离心处理15min,取上清液转置进样瓶中,得到待测样本。
在另外一个实施例中,步骤S4中所述UPLC-QTOF/MS的采集条件为:
UPLC:Waters T3 C18柱,柱温40℃,流速0.35mL/min,进样量2uL,流动相A(0.04%乙酸/水)和流动相B(0.04%乙酸/乙腈);
QTOF/MS:采用电喷雾离子源的正离子模式和负离子模式,正离子模式为电压250v,气体流量8L/min,碎裂电压135v,气体温度325℃,鞘气温度325℃,鞘流11L/min和喷雾器40psi;负离子模式为电压1500v,气体流量8L/min,碎裂电压135v,气体温度325℃,鞘气温度325℃,鞘流11L/min和喷雾器40psi;
其中UPLC表示超高效液相色谱,QTOF/MS表示四级杆飞行时间质谱。
在另外一个实施例中,步骤S5中对原始数据进行多变量分析前,先利用ProteoWizard将原始数据转换成mzML格式,再通过XCMS软件对原始数据的图谱进行峰对齐、保留时间校正和峰面积提取。
在另外一个实施例中,步骤S5中对原始数据进行多变量分析具体为:XCMS 软件处理后,经过Auto scaling处理,对数据进行无监督主成分分析分析、正交偏最小二乘法判别分析、Student’s t-test和差异倍数分析。
在另外一个实施例中,对代谢标志物进行KEGG通路分析前,还进行生物信息学分析评价差异代谢物的合理性,所述生物信息学分析包括聚类分析、相关性分析和小提琴分析。
在另外一个实施例中,步骤S5中数据库为metlin数据库、hmdb数据库、metabolites数据库或lmsd数据库中的一种或多种。
下面结合附图对本发明的实施例作进一步说明。
实施例1:
一种基于非靶向代谢组学检测GIST患者血浆中伊马替尼代谢物的方法,包括以下步骤:
1.样本采集及分类
本研究包含未服用及长期规律服用IM的GIST患者共40名,其中未服用及长期规律服用IM的患者的数量占比分别为1:3,分别抽取5mL外周静脉血于抗凝管中,并立刻轻柔上下颠倒8次,使抗凝剂与血液均匀混合(动作轻柔,以避免产生溶血),平稳迅速转移至实验室,以5000r/min室温离心5min,取300uL 上清转至干净的EP管中,-80℃冰箱保存待测。
如表1所示,将血浆样本编号为1-40,采用二维液相色谱法依次分析已编号的血浆样本中IM血药浓度,根据测出的血药浓度值,将IM血药浓度> 2000ng/mL的设为A组、IM血药浓度1100-2000ng/mL的设为B组、IM血药浓度<1100ng/mL的设为C组和未服用IM的GIST患者设为D组。
表1为研究对象里血浆中IM血药浓度值分组情况:
表1:
2.测试表征
2.1仪器和试剂
仪器:质谱仪(QTOF/MS-6545,Aglient),超高效液相色谱仪(1290Infinity LC,Aglient),涡旋混合器(MIX-200,上海净信),离心机(5427R,德国艾本德),全自动多级二维液相色谱耦合仪(FLC-2701,MLC2420,湖南德米特仪器有限公司),超低温冰箱(Forma900series,Thermo scientific),四川优普超纯水机(ULUP,四川优普超纯科技有限公司)
试剂:甲醇(色谱纯,Merck),甲酸(色谱纯,Thermo Fisher),乙腈 (色谱纯,Merck),2-氯苯丙氨酸(Thermo Fisher)
2.2样本处理
分别量取100uL的A、B、C、D组的血浆样本转移到1.5mL离心管中,加入300uL含有1ppm的2-氯苯丙氨酸的甲醇中使用涡旋2min,于-20℃下冰箱孵育0.5h;取孵育后的样本涡旋2min,于4℃下12000r/min离心处理10min,收取200uL上清液转置新的1.5mL离心管中,于-20℃下静置0.5h;静置后的上清液于4℃下12000r/min再次离心15min,转置进样瓶中,得到待测样本,其中涡旋处理采用涡旋混合器,离心处理采用离心机,温度设置采用超低温冰箱。
2.3非靶向检测
采用UPLC-QTOF/MS联用技术对待测样本进行非靶向检测,依次取样,得到血浆样本中的代谢物原始数据。
2.3.1液相色谱条件
Waters T3 C18柱,i.d.2.1×100mm,1.8μm(C18 MWM-13),柱温40℃,流速0.35mL/min,进样量2uL,流动相A(0.04%乙酸/水),流动相B(0.04%乙酸/乙腈),从开始到10min,A泵的流动相比例从95%匀速减少为5%,同时B 泵的流动相比例从5%匀速增长为95%;从10min到11min保持上述比例;从11min 到11.1min A泵的流动相比例从5%匀速增长为95%,同时B泵的流动相比例从 95%匀速减少为5%;保持至14min。
2.3.2质谱条件
正离子模式下:电压(Voltage):250v;气体流量(Gas Flow):8L/min;碎裂电压(Fragmentor)135v;气体温度(Gas Temperature):325℃;鞘气温度(SheathTemperature):325℃;鞘流(Sheath Flow):11L/min;喷雾器(Nebulizer):40psi。
负离子模式下:电压(Voltage):1500v;气体流量(Gas Flow):8L/min;碎裂电压(Fragmentor)135v;气体温度(Gas Temperature):325℃;鞘气温度(SheathTemperature):325℃;鞘流(Sheath Flow):11L/min;喷雾器(Nebulizer):40psi。
2.3.3质控分析
(a)质控样本(QC)的制备:在正式样品上机前从每隔样本中取出15μL,混合均匀作为QC样本。
(b)对仪器及分析方法进行稳定性分析验证:在仪器分析的过程中,每15 个检测分析样本中插入一个QC样本,以检测分析过程的重复性。
3.数据多变量分析
首先利用ProteoWizard将原始数据转换成mzML格式,再通过XCMS软件对原始数据的图谱进行峰对齐、保留时间校正和峰面积提取。XCMS软件处理后,经过Auto scaling处理,对数据进行无监督主成分分析分析(PCA)、正交偏最小二乘法判别分析(OPLS-DA)、Student’s t-test和差异倍数分析(Fold Change),以OPLS-DA模型的变量投影重要度值,即VIP值(VIP≥1)结合FC 值,即FC≥2或≤0.5,以及t检验的P值(P<0.05)的条件寻找差异代谢物,检索数据库定性出GIST代谢标志物。其中差异倍数(fold change,FC)为计算服用与未服用IM的GISI患者之间代谢物表达量的差异,表示该代谢物给药前后含量比值,FC≥2表明给药后含量升高,FC≤0.5表明含量下降,故以FC≥2 或≤0.5分类差异代谢物。
最后同时对比metlin数据库和hmdb数据库,整理血浆中代谢标志物参与的代谢通路,经过聚类分析、相关性分析和小提琴分析评价差异代谢物的合理性后,采用KEGG通路分析,找到与GISI相关性的代谢标志物,并分析其代谢网络。
结果:
UPLC-QTOF/MS构造精密,在使用过程中有很多因素会造成样品采集的系统误差,例如,温度、湿度、仪器的清洁程度等。因此,仪器的高稳定性为数据的重复性和可靠性提供了重要的保障。总离子流图(Total ion chromatogram, TIC)是描述总离子流随时间变化的图谱,在TIC中,纵坐标表示收集存储离子的电流总强度,横坐标表示离子的生成时间。通过对不同QC样本TIC图进行谱图的重叠比较,可以判断代谢物提取和检测的重复性。图1中A和B分别表示正离子、负离子模式下QC样本质谱检测TIC重叠图,如图1所示(图1至图11 可参考随申请文件一并提交的彩色原图),ESI+与ESI-模式下各个色谱峰的响应强度和保留时间基本重叠,且从图2的PCA分析图上可以看到QC样本的分布聚集在一起,说明在整个实验过程中,仪器误差引起的变异较小。
图2展示了PCA二维打分图,绿色代表高浓度组(A组),橙色代表中浓度组(B组),蓝色代表低浓度组(C组),红色代表对照组(D组),MIX代表上述质控样本,图2中的A和B分别代表ESI+模式下和ESI-模式下各组样品与质控样品的PCA得分图、C和D分别代表ESI+模式下和ESI-模式下DvsA的PCA 得分图、E和F分别代表ESI+模式下和ESI-模式下DvsB的PCA得分图、G和H 分别代表ESI+模式下和ESI-模式下DvsC的PCA得分图。图中横坐标PC1代表第一主成分,纵坐标PC2代表第二主成分,从图中可以发现,ESI+模式下PCA 结果显示各组之间代谢组具有分离趋势,提示组间代谢组存在差异。ESI-模式下PCA得分图显示A、C、D组之间的代谢组存在一定的交汇,故接下来的分析只采用ESI+模式进行。
图3中的A和B分别为ESI+模式下DvsA的OPLS-DA得分图和OPLS-DA模型验证图、C和D分别为DvsB的OPLS-DA得分图和OPLS-DA模型验证图、E和F 分别为DvsC的OPLS-DA得分图、DvsC的OPLS-DA模型验证图。OPLS-DA得分图的横坐标表示正交信号校正(OSC)过程中的主要成分的得分值,因此,从横坐标的方向可以展示组间的差异,纵坐标代表OSC过程中的正交成分的得分值,从纵坐标的方向可以展示组内样本间的差异,图中每个点代表一个样本的代谢组降维处理后投射在二维平面上的位置,并以不同的颜色区分不同的分组,其中绿色代表对照组(D组),红色代表实验组,从图中可以看出各组均聚集在一个相对集中的范围内,组与组之间能明显的区分。OPLS-DA模型验证图的横坐标表示模型的准确率,纵坐标表示200次置换检验(permutation test)中200 个模型的准确率的频数,箭头表示OPLS-DA模型准确率所在的位置,其中R2X 于R2Y分别表示所建立模型对X和Y矩阵的解释率,Q2表示模型的预测能力, R2Y、Q2>0.5且越接近1说明模型拟合越好,从图中可以看出在ESI+模式下对照组VS各实验组的R2Y和Q2分别是0.979、0.874,0.977、0.858,0.971、0.820,均接近1且P<0.05,数据显示模型无过拟合现象,模型对分组有预测能力,可用于各组之间差异的比较。
图4中的A、B和C分别为ESI+模式下D vs A的火山图、D vs B的火山图和D vs C的火山图。在火山图中,每个点代表一个代谢物,其中红色代表显著上调代谢物,绿色代表显著下调代谢物,灰色代表非显著代谢物,散点的大小代表VIP值,散点越大表示VIP值越大,横坐标代表代谢物差异倍数做Log2转换后的数值,上调的代谢物的Log2(fold change)≥1,下调的代谢物的Log2 (fold change)≤-1,纵坐标代表单变量分析的t检验P value做-Log10转换后的数值,数值越大表示越显著。从图中可以看到,ESI+模式下各组间显著上调和下调的代谢物分别为125、168;113、168;84、195。
对原始数据进行多变量分析后,以OPLS-DA模型的变量投影重要度值,即 VIP值结合t检验的P值以及差异倍数分析的FC值,即VIP≥1,P<0.05,FC≥2 或≤0.5的条件寻找出的部分差异代谢物如表2所示。
表2为两组间差异代谢物筛选结果:
表2:
ESI+模式下DvsA的OPLS-DA模型中874个变量的VIP≥1,对于高IM血药浓度组与对照组分类具有明显贡献,经进一步对变量进行t检验和差异倍数分析,发现有150个代谢物满足上述筛选标准,其中上调、下调的代谢物分别为 64、86。针对未知代谢物,在确定其分子离子峰的基础上,采用高分辨质谱测定其精确分子量,分析其元素组成并参考二级质谱等信息,结合HMDB、METLIN 等网络数据库及实验室自建数据库查询可能鉴定结果,其中29个代谢物得到了鉴定,参与上调、下调的代谢物数量分别为8、21;同理ESI+模式下D vs B的OPLS-DA模型中863个变量的VIP≥1,满足筛选标准的代谢物为149,参与上调、下调的代谢物分别为56、93,其中34个代谢物得到鉴定,参与上调、下调的代谢物数量分别为9、25;ESI+模式下DvsC的OPLS-DA模型中848个变量的VIP ≥1,满足筛选标准的代谢物为148,参与上调、下调的代谢物分别为42、106,其中33个代谢物得到鉴定,参与上调、下调的代谢物数量分别为11、22。表2 对两组间二级定性的差异代谢物筛选结果按VIP值由大到小前20位进行了排列展示。
图5和图6分别从VIP值和log2FC值两个层面,由大到小对已知的差异代谢物进行排序,其中图5的A、B和C分别展示了ESI+模式下DvsA、DvsB、DvsC 已知差异代谢物VIP值图,横坐标代表VIP值,纵坐标代表差异代谢物。其中图6的A、B和C分别展示ESI+模式下DvsA、DvsB、DvsC已知差异代谢物FC柱形图(均展示最大的前20个差异代谢物),横坐标代表log2FC值,纵坐标代表差异代谢物。
图7的A、B和C分别展示了ESI+模式下DvsA、DvsB、DvsC已知的差异代谢物聚类分析热图,从图中可以看出组间的代谢物表达量具有较大的差异,组内的代谢物表达量差异较小。聚类分析常被用于判断代谢物在不同条件下的代谢模式,以不同条件下代谢物相对值为代谢水平做层次聚类分析(hierarchical clustering analysis),结果以热图表示,颜色梯度使数据间的差异实现可视化,通过数据缩放,保留较大的差异,同时也能突显出较小的差异。热图的横坐标代表样本信息,其中绿色代表对照组(D组),红色代表实验组,纵坐标代表本实验筛选出的差异代谢物,热图在纵轴方向可对代谢物进行聚类分析,用颜色深浅表示量的变化,红色代表高表达代谢物,颜色越深,含量越高,绿色代表低表达量代谢物,颜色越浅,含量越低。
图8的A、B和C分别展示了ESI+模式下DvsA、DvsB、DvsC鉴定差异代谢物相关性热图(均展示VIP值最大的前50个差异代谢物),横纵坐标代表代谢物,图右上方有关系系数标尺,当两个代谢物的线性关系增强时,关系系数趋于1或-1,红色代表正相关性较强,绿色代表负相关较强。相关性的结果将为缩小大量代谢物提供信息,以挖掘最潜在的差异代谢物。
图9的A、B和C分别展示了DvsA、DvsB、DvsC已知的差异代谢物整体小提琴图(只展示VIP值最大的前20个差异代谢物),小提琴图中的箱型表示四分之一位数到四分之三位数范围,中间黑色横线表示中位数,由箱型延伸出的细黑线代表95%置信区间,外部的形状表示数据的分布密度,理想情况下,小提琴图中箱型越扁平代表数据分布集中。如图9所示,各组间的差异代谢物表现出不同分布模式,这表明在没有使用IM的对照组和实验组可以通过代谢物进行区分。
如图10中A、B和C分别为正离子模式下DvsA、DvsB、DvsC已知差异代谢物KEGG差异富集气泡图。气泡图中左侧是代谢通路(Pathway)的名称,横轴则表示富集因子(Richfactor),是根据代谢通路富集结果中的in set除以 inbackground计算得出的,气泡的大小表示参与此通路的差异代谢物数目,用气泡的颜色表示该代谢通路的超几何检验P值。P值越低,通路中代谢物命中数越多,显著通路越匹配。受影响最大的代谢途径设定为影响临界值>0.1的途径,结果表明影响主要涉及到鞘脂代谢、P450代谢、咖啡因代谢、维生素消化吸收等重要通路,过滤不太重要的途径,得到最有可能的差异代谢物KEGG通路图。如图11所示,D-鞘氨醇、1-磷酸鞘氨醇、植物鞘氨醇、磷酸乙醇胺属于鞘脂的代谢途径,其中红色表示代谢物含量在实验组中显著上调,绿色表示代谢物含量在实验组中显著下调。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。