一种适用于质谱鉴定的毛干蛋白质提取方法及其应用
技术领域
本发明属于生物
技术领域
,涉及用于质谱检测的蛋白提取方法,具体涉及一种适用于质谱鉴定的毛干蛋白质提取方法及其在超高灵敏度蛋白质谱检测以及中的应用。背景技术
DNA是生物的遗传信息载体,随着目前分子生物学技术的快速发展,通过DNA信息分析在多个领域中用于物种鉴定或个体鉴定。单核苷酸多态性(single nucleotidepolymorphism,SNP)是指在基因组水平上由单个核苷酸变异引起的DNA序列多态性,是新一代的可用于鉴定的遗传标记。SNP可以作为个体身份识别的标志物,而用于SNP位点的检测方法通常依赖于DNA的提取。
毛发作为一种易于获取的无创、运输和储存方便的生物样本,已成为法医学、遗传学常用的检测材料之一,在侦破案件中发挥重要作用,为物种鉴定、个体鉴定、系统进化、刑侦法医等方面研究有着十分重要的意义。毛发易损伤脱落,常遗留于盗窃、抢劫等犯罪现场,在被害人或犯罪嫌疑人身上,犯罪工具上,衣物上等处常可获取到毛发样本,且毛发性质稳定、不易变质,性质稳定,因此常用于法医学鉴定等场合中。然而,对于脱落毛发的检验一直是DNA信息获取的难题,一方面由于毛发样本往往很难保证其包含毛囊部分,而毛干是毛发露出皮肤的部分,相对于毛囊,其DNA含量更少,主要成分为角蛋白,占毛干总重量的85%~90%,能够从毛干样本中获得的DNA含量很少,另一方面毛发中的DNA极易降解,因此,通过毛干DNA检测SNP位点,并进一步用于个体鉴定的可行性较低。
蛋白质序列是基因组DNA的外显子经过转录、翻译得到,因而部分DNA外显子中的单碱基突变会导致对应氨基酸的改变,这让从氨基酸位点突变反推SNP位点有可靠的理论依据。单个氨基酸多态性(Single amino acid polymorphism,SAP)通常是指单个氨基酸突变所造成的肽段的多态性,可遗传变异肽(genetically variant peptides,GVP)是指包括一个或多个氨基酸突变的特异性肽段,通常GVP包含了SAP的情形。得益于质谱技术的重大突破和蛋白质分离、富集方法的进步,基于质谱的蛋白质组学研究的灵敏性和准确性都得到了很大的提升,通过蛋白质来鉴定GVP变得可行,因此,在法医学研究中,可以通过毛干样本获取相应蛋白质组学数据,并进一步对该蛋白质组学数据进行处理和分析,以高效获得氨基酸突变位点,从而进行个体鉴定。
然而,现有技术中还未有关于如何高效提取毛干样本中的蛋白质,以用于高效质谱检测的报道。
现有的头发分析技术在进行鉴定时要经过多个步骤,而每进行一步都会损失一些蛋白质,所以需要大量的头干来提取分析所需的蛋白质。由于每个人的毛干的量各不相同,在特殊条件下,我们仅能获取有限的毛干,这时对其蛋白质进行提取也比较困难,如果提取方法、条件不合适,容易造成蛋白质大量损失,从而影响后续分析。
在场所能获取到的毛干量较少的情况下,毛干角蛋白分析的微量化和灵敏度是如何进行个体鉴定的难题。如何对毛干样本蛋白提取过程进行优化,寻求一种操作简便高效、稳定快速、杂质含量少、用于个体鉴定灵敏度高的方法,至今仍是一个技术难题,因此成为生物鉴定领域一项重要的研究课题。
发明内容
为了克服现有技术中的上述缺陷,缩短毛干蛋白提取时间,提高实验效率、准确性和灵敏度,节省人力和时间,建立毛干蛋白快速稳定的提取策略,本发明人经过长期的研究探索,提出了一种适用于质谱鉴定的毛干蛋白质提取方法,本发明的提取方法能够简便高效提取毛干样本中的蛋白质,具有稳定快速、杂质含量少的特点。通过本发明的提取方法对样本进行高效的蛋白质提取,然后采用质谱仪进行高灵敏度蛋白质组学检测,获得质谱数据,可以进一步用于SNP位点检测和个体鉴定等领域。
本发明的第一方面公开了一种适用于质谱鉴定的毛干蛋白质提取方法,包括步骤:
S101,毛干样本预处理。
对毛干样本进行漂洗、研磨。其中,所述漂洗可以采用自来水、去离子水、蒸馏水等进行。
优选地,采用去离子水进行漂洗以减少油脂,降低检测干扰。
优选地,使用研磨仪在低温条件对漂洗干净的毛干样本进行研磨,以得到粉末状的毛干样品。其中,所述低温条件为液氮或干冰环境下-70℃至-50℃。低温防止试管过热碎裂。
以往通常采用手工研磨,研磨费时费力,且研磨效果不彻底,样品残留和损失很严重。本发明优选地使用研磨仪在低温条件下进行研磨,不仅省时省力提高效率,而且研磨效果很好,可以将毛干样品研磨至粉末状,大大增加了样品的表面积,实验结果也表明低温研磨最后得到的蛋白量较之前的实验方法有了大幅度提升。
S102,超声处理。
在预处理后的毛干样本中加入增溶溶液,并进行超声处理,以得到样本蛋白质混合物。这一步骤的目的是最大程度地释放出蛋白质。
其中,增溶溶液含有缓冲液和表面活性剂。所述表面活性剂的作用为促进头发样品中蛋白质的释放。其中,所述缓冲液选自三乙胺-碳酸缓冲液(TEAB)。其中,所述缓冲液在增溶溶液中的浓度为50-150mM。其中,所述表面活性剂为十二烷基磺酸钠(SDS)。其中,所述表面活性剂在增溶溶液中的浓度为1-5%。其中,样本和增溶溶液的用量比体积比为1:(20-50),优选地为1:30。其中,所述增溶溶液的pH值为8-8.5。
优选地,本发明所采用的超声处理装置包括换能器以及超声发生器,所述换能器第一端连接所述超声发生器,所述换能器远离所述第一端的相对端包括一个或多个超声发生槽,将所述毛干样本与增溶溶液的混合物直接置入所述超声发生槽,以进行超声处理。
本发明所采用的超声处理装置区别于现有的水浴超声仪以及探针式超声破碎仪。
现有的水浴超声仪的超声强度较低,而毛干样品致密,需要高强度才能有效处理,水浴超声仪无法满足毛干样品的处理强度。探针式超声破碎仪需要将探针插入样品溶液中进行超声处理,然而毛干样品极易缠绕在超声探针上,样品易溅出造成的蛋白损失,处理效果十分不理想。
本发明超声处理装置直接将需进行超声处理的样品放置于换能器的超声发生槽中,避免了超声处理过程中样品溅出造成的大量蛋白损失,超声强度高,增加蛋白质提取量,提升效果,且效率较高。当采用多个超声发生槽时,同时能够进行多个样品的超声处理,进一步提高了效率。
其中超声处理的时间为20-30分钟。
同时,由于本发明的高强度超声波处理会产生热量,通过对超声的工作时间,以及间隔暂停时间控制即可控制反应温度,从而达到水浴的效果,无需再另外水浴或加热处理。
S103,萃取蛋白质。
这一步骤的目的是从S102步骤得到的样品蛋白质混合物中萃取得到蛋白质,去除步骤S102中的SDS,洗去蛋白质中的杂质。
通过向步骤S102的混合物中加入三氯乙酸(TCA)、磷钨酸(PTA)溶液(两者合称为PP溶液),以沉淀蛋白质。其中TCA的浓度为10-20%,PTA的浓度为0.1-1%。其中,在加入TCA、PTA溶液后室温振荡30min,静置后离心弃上清,以获取蛋白质沉淀。其中,本步骤中TCA、PTA溶液的与样品的体积比为(1.5-5):1。
优选地,本发明为了更好地洗去蛋白质中的杂质,在蛋白质沉淀中加入SDS以及pp液溶液,用水浴超声的方式得到沉淀,静置后离心,重复多次,洗去蛋白沉淀中的杂质。其中,SDS溶液的浓度为1-5%。通过本步骤可以使得提取的蛋白杂质少,避免对质谱检测的影响,提高结果的准确性
再次加入相同浓度的TCA、PTA溶液,超碎沉淀,静置后离心,重复多次,以洗去蛋白沉淀中的杂质,进一步提纯蛋白质,提高检测准确性。其中,本步骤中TCA、PTA溶液的用量为300-1000ul。
将去除杂质后的蛋白质沉淀中加入100ul 0.1%SDS以及100mM TEAB溶液,以复溶沉淀,超声震碎沉淀,并调PH至8-8.5。
S104,制备肽混合物。
向步骤S103得到的混合物中加入胰酶对蛋白质进行酶切。获得毛干样本的肽混合物。
其中,所述酶切的温度为37℃。其中,所述酶切的时间为4-8h。其中,所述酶切后加三(2-羧乙基)膦盐酸盐(TCEP)还原二硫键,再加入甲基硫代磺酸甲酯(MMTS)去除多余的TCEP,根据蛋白量确定是否需要补加胰酶。反应后得到肽混合物,加酸调PH至2-3终止酶切。
S105,除盐处理。
为了提高质谱识别的几率,提高对蛋白质谱分析精度,本发明对得到的样品的肽混合物进行除盐处理。根据不同的蛋白量选择合适规格的除盐板以对肽混合物进行除盐。
本发明的第二方面公开了一种超声处理装置,用于破碎生物样品,所述超声处理装置包括换能器以及超声发生器,所述换能器第一端连接所述超声发生器,所述换能器远离所述第一端的相对端包括一个或多个超声发生槽,所述超声发生槽用于容纳所述生物样品以进行超声处理。
换能器为发射换能器。优选地,本发明的换能器采用压电晶体振子,所述振子与所述超声发生器连接,超声发生器将产生高频率的电信号,然后产生的电信号加载到超声波换能器的振子,由振子自身的简谐振动并带动整个换能器共振,从而将电能转化为机械能,从而进行超声波振动。振子采用夹心式结构,由预应力螺栓把前后驱动块、压电晶片和电极片夹紧组成。当在压电晶片两极施加电压时,由于压电陶瓷材料的逆压电效应,压电晶片会在厚度方向(即换能器的轴向)产生形变,该形变在交变电流的作用下反复伸张压缩从而将电能转化为机械能。
优选地,本发明所述换能器还包括调幅器,振子在交变电流的作用下以谐振频率发生周期性的伸张压缩形变,同时也带动调幅器共振,这样振子和调幅器就各自变成了一个简谐振动单元,振子受电信号激励,再激励调幅器,两者共振。
所述振子以及换能器设置在所述换能器第一端。
优选地,超声发生器包括控制单元,所述控制单元用于控制超声发生强度,发生时间以及工作间隔暂停时间。
本发明的超声处理装置可在现有的超声破碎装置或超声焊接装置的基础上进行改装。例如,现有探针式超声破碎装置的换能器为探针状,在使用时将探针插入样品溶液以进行超声处理,本发明将探针状的换能器去除,替换为本发明所述换能器,并与现有的超声破碎装置的超声发生器以及控制器连接,从而能够高效、低成本地进行生物样品破碎。
本发明的超声处理装置,采用在换能器的相对端设置超声发生槽,从而将待处理样本混合物直接置于超声发生槽中进行超声处理,有效解决了现有的探针式超声破碎装置造成样品溅出、缠绕的问题,且超声强度高,功率可达3500w。本发明的超声处理装置处理毛发外,对于骨头、指甲、牙齿等较为坚硬的样品均有较佳的处理效果。
本发明还提供了所述的提取方法、超声处理装置在用于毛干蛋白提取、或进一步用于质谱分析、或进一步进行个体鉴定中的应用。
本发明的第三方面提供了一种超高灵敏度蛋白质谱检测方法,其特征在于使用上述的适用于质谱鉴定的毛干蛋白质的提取方法对样本进行处理以提取毛干蛋白质并用于质谱分析。
本发明的超高灵敏度蛋白质谱检测方法,使用适用于色谱-质谱联用系统的毛细管分析柱(毛细管色谱柱)。
所述分析柱包括柱管,毛细管整合发射尖端,填充在管腔中的填料,用于支撑填料的熔块。
本发明中,所述毛细管分析柱为填充毛细管柱(微填柱),所述分析柱可以是石英、玻璃、金属、尼龙等管材。优选地,本发明采用聚酰亚胺包被的石英毛细管(聚酰亚胺包被的SiO2毛细管),其具有弹性好、表面惰性、使用寿命长等优点(由于石英毛细管柱很脆,通常通过外涂一层聚酰亚胺保护材料以保证其良好的弹性)。
本发明中,所述毛细管分析柱的长度可以是任何合适作为LC-MS分析的长度,本领域技术人员根据实际需要可以确定合适的柱长。考虑到本发明所述分析柱的内径较小,为防止填料带来的传质阻力,因此,本发明所述分析柱的总长不能太长。优选地,所述分析柱的长度为5~20cm;进一步优选地,所述分析柱的长度为10~20cm;进一步优选地,所述分析柱的长度为10~17cm;更进一步优选地,所述分析柱的长度可以是10、11、12、13、14、15、15.5、16、16.5、17cm等中的一种。
本发明中,所述分析柱的外径可以是200~500μm;优选地,所述外径为300~400μm;进一步优选地,所述外径为300、310、320、330、340、350、360、370、380、390、400μm中的一种。
本发明中,为实现高效、超高灵敏度蛋白质谱检测,所述分析柱的内径≤30μm;进一步优选地;所述分析柱的内径≤25μm;进一步优选地;所述分析柱的内径为5~25μm;进一步优选地;所述分析柱的内径为10~25μm;进一步优选地,所述分析柱的内径为10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25μm等中的一种。
本发明中,所述毛细管整合发射尖端直径≤2μm;优选地,所述毛细管整合发射尖端直径≤1.5μm;进一步优选地,所述毛细管整合发射尖端直径≤1.2μm;更进一步优选地,所述毛细管整合发射尖端直径≤1μm。
本发明中,所述毛细管末端构建有熔块,本领域技术人员通过毛细管的总长度,可以合理确定所述熔块的厚度(沿毛细管长度方向);优选地,当毛细管分析柱的长度为5~20cm时,所述熔块的厚度为1~2.5mm;优选地,所述熔块的厚度为1.5~2.5mm;进一步优选地,所述熔块的厚度为1.5、1.6、1.7、1.8、1.9、2.0、2.1或2.2mm。
本发明中,所述本领域技术人员通过毛细管的总长度,可以合理确定熔块离毛细管整合发射尖端的距离;优选地,当毛细管分析柱的长度为5~20cm时,所述熔块近毛细管整合发射尖端的距离为1-4mm,优选为2~3mm(所述距离是指从熔块离毛细管整合发射尖端最近的一面开始计算的距离)。
本发明中,所述熔块是由通过毛细管的虹吸现象吸入的硅酸盐溶胶-凝胶体系在一定温度下自交联形成的高强度、三维孔塞状的聚合物或固体。其中,所述熔块具有高强度和高渗透性等特点,其作用是堵住固定相填料,防止填料的流失,同时具有良好的通透性以保持溶剂和待测物质通过,防止过高的阻力。其中,所述高强度是指所述熔块能够承受至少4000psi的压力,优选能承受2500psi及以上的压力。其中,所述孔塞状是指所述聚合物或固体具有孔状结构,所述孔状结构的孔径应小于填料的直径,例如可以是1μm、2μm、0.5μm。
其中,所述硅酸盐选自硅酸铝、硅酸铁、硅酸钙、硅酸镁、硅酸钾、硅酸钠、硅酸锰等中的一种或几种;优选地,所述硅酸盐为硅酸铝、硅酸钾、硅酸锰的混合物,其中硅酸铝、硅酸钾、硅酸锰的摩尔比为(9-10):(15-16):(1-1.5),优选为9:15.5:1。
其中,所述硅酸盐在促溶胶-凝胶形成的溶剂的条件下形成所述硅酸盐溶胶-凝胶体系,所述促溶胶-凝胶形成的溶剂为水、冰醋酸、碱、乙醇、异丙醇等中的一种或几种;优选地,为体积比为3:1的水和异丙醇,或体积比为3:1的冰醋酸和异丙醇。
对熔块的材料、通透性、机械强度、厚度等参数的调控是制备高质量颗粒填充毛细管柱的关键环节。本发明熔块的制备方法简单,便于操作,重复性好;通过所述方法制备得到的熔块具有良好的机械性能、机械稳定性和通透性,可以保证良好的柱效。
本发明中,所述填料可以采用任意能够实现高灵敏度蛋白质谱检测的物质,包括但不限于硅胶、有机聚合物、多糖(葡聚糖凝胶、琼脂糖凝胶)等。由于本发明所述毛细管内径很小,如果填料粒径、表面特性、均一性等性能不能有效控制时,则很难填充到所述毛细管柱的腔体内;因此,具有合适粒径、表面特性、均一性等性能的填料是成功制备毛细管分析柱的关键。因此,适用于本发明所述毛细管分析柱的填料为微米级颗粒,表面光滑,其粒径≤3μm。优选地,所述填料的粒径可以是2.9、2.8、2.7、2.6、2.5、2.4、2.3、2.2、2.1、2.0、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2、1.1、1.0μm,或小于1.0μm。
本发明中,优选地,本发明所述填料具体涉及一种改性硅基微球,即改性有机聚合物包裹的硅基微球,其表面光滑、粒径均一(2.0-4.0μm),表面具有微孔所述改性有机聚合物覆盖在硅球表面,能够降低硅基微球之间的摩擦力,能够提高该填料的光滑程度,利于毛细管制备过程中填料的填充。
本发明中,所述改性硅基微球的制备方法包括:以N,N-二甲基十六胺、NH4F作为改性剂,在冰醋酸、水、乙醇的存在下,聚合物单体发生聚合反应形成交联的聚合物,覆盖在硅基微球表面,即所述改性硅基微球。
其中,所述改性剂的质量占总反应体系质量的6-9%;优选地,为7.8%。
其中,所述聚合物单体的质量占总反应体系质量的10-12%;优选地,为11%。
其中,根据分析需要选择不同的单体进行聚合物合成,从而得到能够提高分析效果的改性硅基微球。优选地,所述聚合物单体包括三氯乙烯、二乙烯基苯、苯乙烯、乙烯基吡咯烷酮、乙烯基吡啶中的任意一种或几种。优选地,所述聚合物单体为苯乙烯、乙烯基吡咯烷酮、乙烯基吡啶的混合物,所述苯乙烯、乙烯基吡咯烷酮、乙烯基吡啶的摩尔比为(4-8):(2-5):(10-15),优选为5:3:12,采用该优选方法获得的改性硅基微球,其表面包裹的改性苯乙烯-乙烯基吡咯烷酮-乙烯基吡啶聚合物能够降低硅基微球之间的摩擦力,提高表面光滑度,粒径≤3μm,大小均一,表面微孔为
其中,所述聚合反应的温度为300-400℃;优选地,为380℃。
其中,所述聚合反应的时间为5-6h;优选地,为5.5h。
分离度是蛋白质分离程度的量化指标,通过上述方法制备得到的改性硅基微球为粒径≤3μm,大小均一,孔径为的改性有机聚合物包裹的硅基微球,其本身的表面特性、粒径、均一度、孔结构等使得其用作毛细管柱的填料,在进行色谱分析时可以得到良好的效果,能够满足有效分离蛋白,实现高灵敏度蛋白质谱分析的目的,进而决定了本发明的毛细管分析柱适用于蛋白尤其是复杂生物样本中低含量蛋白的分离检测。
在一实施方式中,所述填料的制备步骤包括:将聚合物单体溶解在冰醋酸、水、乙醇中,加入改性剂N,N-二甲基十六胺、NH4F,所述改性剂的质量为总反应体系质量的6-9%,所述聚合物单体的质量占总反应体系质量的10-12%,超声混合20min,进行聚合反应。
本发明的第四方面提供了一种基于毛干蛋白质组学测定SNP位点的方法,使用上述的适用于质谱鉴定的毛干蛋白质的提取方法对样本进行处理,并用质谱仪进行蛋白质组学检测,采集质谱数据,所述方法包括如下步骤:
S2、获取公共数据库中的SNP位点信息,对SNP位点进行筛选,得到导致编码氨基酸(Amino Acids,AA)改变的SNP位点列表。
进一步的,该步骤的具体操作包括以下步骤:
S201、获取公共数据库的SNP位点信息,下载对应的VCF文件和参考基因组。所述公共数据库可以包括表1中的一个或多个公共数据库。
表1
优选地,本发明选择使用1000Genome和dbSNP两个数据库的SNP位点信息。
1000Genome是千人基因组计划建立的数据库,该项目将来自世界各地研究所的多学科研究团队联合起来,包括中国,意大利,日本,肯尼亚,尼日利亚,秘鲁,英国和美国。每一个都将为庞大的序列数据集和精细的人类基因组图谱做出贡献,这些图谱通过公共数据库免费提供给科学界和公众,为人类遗传变异的研究提供了一个综合的资源。从中获取的SNP位点信息有很高的权威性,并且可以适用于多个人群。
dbSNP是NCBI中专门用于存储物种SNP位点信息的数据库,其中人的common_all.vcf.gz文件包含了至少一个主要人群中次要等位基因频率(Minor AlleleFrequency,MAF)的所有被研究过的突变位点。
因此,上述2个数据库具有数据权威性与准确性,且由于上述2个数据库中的数据可以供本发明在后续步骤中进行人群突变频率分析筛选,从而进一步提高了本法明检测查全率与查准率。
所述VCF文件的数据记录部分由以空格键分割的多列组成,前八列表示变异位点的相关信息,分别为:染色体名称、变异位点在染色体上的位置、变异位点在已有数据库中的ID号(当不存在时可以用“.”表示)、参考碱基、变异碱基、质量得分、是否通过过滤标准、相关信息(例如测序深度);其后每一列表示某个样本在该位点的信息(例如突变频率)。
S202、对公共数据库的SNP位点信息进行筛选,得到导致编码氨基酸改变的SNP位点列表。
将S201步骤中获取的VCF文件中的SNP位点信息和参考基因组比对分析,得到外显子区域的突变且突变后会导致编码氨基酸有所改变的SNP位点列表。
更进一步的,挑选VCF文件中SNP位点的具体操作为:
S2021、使用注释软件,对VCF文件基于参考基因组进行注释,以得到对应VCF文件中所有外显子区域的突变,输出每个SNP对应的所属氨基酸原始序列和突变后的序列。
S2022、对原始氨基酸序列和突变后对应的氨基酸序列两两比较,挑选出氨基酸序列有改变的SNP位点列表。
通过S202步骤从海量的SNP信息中筛选出来了与氨基酸序列改变有关的SNP位点,从而为后续步骤构建蛋白质数据库,以及进一步在蛋白质层面进行数据分析提供了基础。
更进一步的,在注释SNP时,为了保障数据的可靠性以及权威性,应当使用具有可靠来源的当前最新参考基因组。本发明中针对1000Genome的VCF文件使用hg19版本的参考基因组,针对dbSNP的VCF文件使用hg38版本的参考基因组。
优选地,为了在保障数据可靠性的前提下减少蛋白质数据库的冗余性而导致结果中的假阳性过高,本法发明还包括以下筛选步骤,即筛选出人群突变频率相对较高的高频突变。
优选地,本发明中筛选人群突变频率大于等于预设阈值的SNP位点,人群突变频率包括MAF或人群频率(allele frequency,AF),本发明的预设阈值为0.005至1中的任意数。
进一步优选地,本发明的预设阈值为0.01,即筛选MAF≥0.01或AF≥0.01的SNP位点。
具体而言,在S201获取公共数据库的SNP位点信息的步骤中,选择人群突变频率大于预设阈值的数据信息。例如本发明中,以人群突变频率大于等于0.01为标准,优选地选择用dbSNP的common_all_20180418.vcf.gz文件。dbSNP数据库中提供了common_all_20180418.vcf.gz文件和ALL_20180418.vcf.gz,其中commoncommon_all_20180418.vcf.gz文件包含的SNP范围是所有常见人的突变位点清单,即MAF≥0.01。经过实验比较,发现在对同一数据使用ALL_20180418.vcf.gz来建库搜索时一方面会造成数据库的过度冗余,另一方面因为ALL_20180418.vcf.gz中大部分SNP都是低频突变(MAF<0.01),在对搜出的肽段进行FDR筛选时会导致FDR=0.01时对应的谱图分数过高。dbSNP因为已经选用了common_all_20180418.vcf.gz文件,无需再对S202步骤筛选出的SNP位点列表进行频率的筛选。
或者,本发明在步骤S202筛选出的SNP位点列表中进一步筛选出人群突变频率相对较高的高频突变。具体而言,例如在选用的1000Genome数据库的数据中在VCF文件中添加对应的突变频率,并筛选出AF≥0.01的SNP,从而保证入选的每个SNP有较高的概率被检测到,避免因为一些较低频率的SNP导致数据库的过度冗余和假阳性过高。
筛选人群突变频率大于等于预设阈值的SNP位点使得能够从海量的数据信息中获取蛋白质突变频率较高的信息,这样的高丰度蛋白质信息使得后续建立的GVP参考蛋白质数据库的精度大大提高,从而提升了运行效率以及检索精度。
S3、根据样品的蛋白丰度筛选出表达量高的蛋白的SNP。
为了解决纳入过多的SNP位点可能会造成蛋白质数据库的高度冗余性,但随意去掉部分可能难以检测到的蛋白质序列又会导致在蛋白质数据库数据缺失的难点,本发明采用基于样品对SNP进行筛选的方式,即根据样品的蛋白丰度筛选出表达量高的蛋白的SNP。
具体而言,包括步骤:
S301、对样品质谱数据进行常规蛋白质组学分析得到蛋白定量信息。首先需要对样品的蛋白进分析。蛋白丰度的挑选依赖于样品的蛋白质组成,先通过对样品的常规蛋白质组学分析得到样品中包含的蛋白列表及其含量。
S302、根据蛋白定量信息,计算每个蛋白的总表达量,按表达量进行筛选,以得到基于样品的易被检测到的蛋白列表。筛选可以按蛋白丰度降序排序,挑选排序前n(n为正整数)的蛋白,或者预设蛋白丰度阈值,剔除低于阈值的蛋白质,从而得到基于样品的易被检测到的蛋白列表。具体的n或阈值需要根据实际样品决定。
S303、根据所述蛋白列表对SNP位点列表进行筛选,仅保留所述蛋白列表中对应蛋白的SNP位点信息。
由于本法明基于样品进行蛋白质丰度筛选,因此针对特定样品保障了结果可靠性,同时也避免了数据库的过度冗余和假阳性过高。
S4、生成挑选出的SNP位点列表对应的可遗传变异肽列表,根据公共蛋白质数据库生成基于样品的GVP参考蛋白质数据库。
进一步的,S4步骤包括以下步骤:
S401、对筛选出的SNP位点列表,利用对样品处理所用的酶,对SNP位点的原始蛋白质序列和突变后的蛋白质序列进行理论酶切,比较获得两者特异性的肽段,以生成可遗传变异肽(GVP)。
S402、下载公共蛋白质数据库的参考蛋白质序列,将不在参考蛋白质序列中的GVP添加到参考蛋白质序列中,以生成基于样品的GVP参考蛋白质数据库,所述GVP参考蛋白质数据库包括GVP列表中的所有GVP信息。
更进一步的,在判断GVP是否在公共蛋白质数据库中已经存在时,需要将异亮氨酸(氨基酸字母缩写I)替换为亮氨酸(氨基酸字母缩写L),因为两者分子量相等,搜库软件搜索时无法鉴别。
优选地,将所述可遗传变异肽汇集为可遗传变异肽列表,所述可遗传变异肽列表中包括所述可遗传变异肽对应的SNP位点。
需要注意的是本发明的上述步骤的执行顺序并非固定,其中筛选人群突变频率大于等于预设阈值的SNP位点的步骤以及步骤S3也可以在步骤S401后执行,即获得GVP列表,再基于GVP列表进行进一步筛选。
S5、将S1步骤获取的质谱数据在本发明第一方面得到的参考蛋白序列数据库中进行搜库,得到匹配的肽段图谱对应的样品肽段列表。
进一步的,S5步骤包括:将S4步骤得到的GVP参考蛋白质数据库添加到数据库搜索引擎中,设定参数并将S1得到的质谱文件在GVP参考蛋白质数据库中进行搜库,导出搜库结果,计算错误发现率FDR(False Discovery Rates,FDR),FDR被用以校正多重比较所致的误差,在拒绝多个零假设时,FDR校正程序能够控制错误拒绝零假设(假阳性)的可能性,来找到合适的结果组合。设置FDR=0.01时对应的谱图的肽段谱图匹配得分为得分阈值,保留得分高于得分阈值的谱图,得到这些谱图对应的肽段列表即为样品肽段列表。
更进一步的,在将GVP参考蛋白质数据库添加到数据库搜索引擎之前,先将所有的异亮氨酸(氨基酸字母缩写I)替换为亮氨酸(氨基酸字母缩写L),两者分子量相等,数据库搜索引擎无法鉴别。
S6、将样品肽段列表与S4步骤生成的GVP列表进行对比,以所述可遗传变异肽得到所述样品包含的SNP位点。
进一步的,S6步骤的具体操作为:将S5步骤得到样品肽段列表和S4步骤中的GVP列表进行对比,以得到样品的具体GVP信息,并通过GVP列表中对对应关系反推得到样品包含的SNP位点信息。
本发明的有益效果在于:
本发明提供的适用于质谱鉴定的毛干蛋白质提取方法,在提取过程中,只需要加入一次增溶溶液,即可高效提取毛干蛋白,操作简便。
本发明所述的提取方法能够高效提取毛干样本中的蛋白质,在30min内即可快速消化毛干样本,缩短蛋白提取时间,提高提取效率,减少人力和时间的消耗,降低成本。
通过本发明的提取方法对样本进行高效的蛋白质提取,提取的蛋白数量多、杂质少,可以避免对质谱检测的影响,提高结果的准确性,尤其对于毛干样品数量较少时,可以有效提高后续检测的成功率。
本发明提取方法具有快速、准确、高特异性、高灵敏度的特点,可以有效克服采用毛干作为样品进行个体鉴定的问题,可以作为毛干样本在个体识别中推广应用,具有广阔的应用前景。
本发明提取方法操作简便,可以同时处理多个样本,具有高通量的特点。
本发明提供的超声处理装置,采用在换能器的相对端设置超声发生槽,从而将待处理混合物直接置于超声发生槽中进行超声处理,有效解决了现有的探针式超声破碎装置样品溅出、缠绕的问题,且超声强度高。
本发明采用质谱仪进行高灵敏度蛋白质组学检测,使用适用于色谱-质谱联用系统的毛细管分析柱,从而在样品提取蛋白质数量较少时也能准确检测质谱数据,灵敏度高,从而可以进一步用于SNP位点检测和个体鉴定,提高检测准确性。
本发明提供的基于毛干蛋白质组学测定SNP位点的方法,使用蛋白质组学检测样品的GVP反推SNP位点的检测方法,可以适用于所有未经测序来基于蛋白质组学进行的SNP检测。在无需对样品先测序分析的前提下利用蛋白质组学鉴定人的SNP位点信息,节省了测序和分析成本,克服了部分场合中难以获取核酸做测序的情况,可以在个体鉴定、法医辅助物证分析鉴定等方面发挥作用。以蛋白质作为SNP位点的研究对象,具有灵敏度高、稳定性高、检测通量高的优点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面用附图对本发明的描述作简单地介绍。
图1.本发明实施例1提供的超声处理装置的换能器的俯视示意图;
图2.本发明实施例1提供的超声处理装置的换能器的侧视示意图;
图3.本发明提供的基于蛋白质组学测定SNP的方法流程示意图;
图4a,4b,4c.本发明实施例3中根据不同标准丰度蛋白进行筛选的SNP数量结果示意图;
图5.本发明提供毛细管分析柱构造图;
图6.本发明提供为自动进样LC/MS排气柱构造图。
具体实施方式
下面将结合说明书附图和具体实施例对本发明的技术方案进行更清楚、完整地描述。显然,此处所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非特别说明,具体实施例中提到的试剂、设备均为本领域的常规试剂和设备,均可通过市场购买得到。
实施例1超声处理装置
本实施例中的超声处理装置用于破碎生物样品。图1为超声处理装置的换能器的俯视示意图,图2为超声处理装置的换能器的侧视示意图,其中剖视示出超声发生槽以及连接孔。超声处理装置包括换能器1以及超声发生器(未示出)。本实施例中的换能器为发射换能器,换能器采用压电晶体振子以及调幅器,其中超声发生器还包括控制单元,控制单元用于控制超声发生强度,发生时间以及工作间隔暂停时间。如图1、图2所示,换能器1包括第一端12以及远离第一端的相对端11。第一端12包括连接孔121,用于连接超声发生器,第一端12内包括压电晶体振子以及调幅器。相对端11包括一个或多个超声发生槽111,超声发生槽111用于容纳样品以进行超声处理。本实施例中包括4个超声发生槽111,在其他实施例中也可以包括1个或其他数量个数的超声发生槽。
超声发生器的控制单元接收超声控制命令,并根据控制命令设定超声发生强度、每轮的超声发生时间,以及各轮之间的暂停时间。
实施例2适用于质谱鉴定的毛干蛋白质制备
毛干蛋白质制备包括下述步骤:
S101,毛干样本预处理。
使用电子秤称量一定量头发样品置于1.5ml EP管中,加入去离子水,涡旋瞬离,弃去上清,重复三次,洗去头发中的杂质,使用镊子在铝箔纸上将头发剪成1~8cm长度的片段,然后将剪短的头发样品置于1.5ml离心管(EP管)中。
使用研磨仪在液氮环境下-36℃至0℃环境下对洗干净的头发样品进行研磨。启动设置好的程序后,研磨完成后头发样品基本成粉末状,将样品粉末收集至新EP管中。
表2 不同研磨方式提取蛋白质量的比较
研磨方式
提取的蛋白质量(每毫克发干)
1
手工研磨
84微克
2
未研磨
23微克
3
研磨仪低温条件
139微克
S102,超声处理。
在预处理后的毛干样本中加入增溶溶液,本实施例中增溶溶液包括浓度为2%的十二烷基磺酸钠(SDS)以及浓度为100mM的三乙胺-碳酸缓冲液(TEAB)。使用增容溶液将原管洗3-5次,洗液转移至新EP管中等待超声。
将处理后的样品混合物直接置入实施例1中的超声处理装置的超声发生槽,超声30分钟,功率3500w,每轮工作1分钟,各轮间暂停5分钟。
S103,萃取蛋白质。S103包括步骤:
S1031,在超声处理后的混合物样品管中加入1ml三氯乙酸(TCA)、磷钨酸(PTA)溶液使蛋白沉淀,其中TCA浓度为15%,PTA浓度为0.5%,室温振荡30min将蛋白沉淀震碎,静置后离心弃上清。
S1032,向样品管内加入2%SDS/PP液溶液,超碎沉淀,静置后离心,重复三次,洗去蛋白沉淀中的杂质。
S1033,样品管内加入相同浓度的500ul三氯乙酸、磷钨酸溶液,超碎沉淀,静置后离心,重复三次,洗去蛋白沉淀中的杂质。
S1034,加入100ul复溶溶液以复溶蛋白质沉淀,超声震碎沉淀,调PH至8-8.5。其中,本实施例采用的复溶溶液为0.1%SDS以及100mM TEAB。其他实施例中也可以采用现有的其他能使蛋白质复溶的溶液。
取10ul样品置于新的EP管,可以用于BCA蛋白定量测定。
S104,制备肽混合物
根据蛋白定量结果确定需要的胰蛋白酶的量,本实施例中蛋白与胰酶的比例为50:1。假定最初蛋白量为1000ug,先加胰酶37℃酶切4-8h后,加入10ul三(2-羧乙基)膦盐酸盐(TCEP)还原剂在37℃温度下反应30分钟以解开二硫键,加入甲基硫代磺酸甲酯(MMTS)在37℃温度下去除多余三(2-羧乙基)膦盐酸盐,补加胰酶10ug酶切4-8h,获得肽混合物,加酸调PH至2-3终止酶切。
在其他实施例中,也可以采用现有的酶切蛋白质的方式。
S105,除盐处理。
根据不同的蛋白量选择合适规格的除盐板。本实施例中使用的是2mg/ml除盐板。具体而言,在肽混合物中加入1ml异丙醇(IPA)、乙腈(ACN)溶液后抽干,其中异丙醇比乙腈的比例为4:1,加入1ml buffer B溶液后抽干,加入1ml buffer A溶液后抽干。重复以上三步一次。
再次加入1ml buffer A后抽干,加入1ml buffer A后加入样品,抽干。加入1mlbuffer A抽干,并重复四次,以洗去杂质。
换用0.5ml EP管作为样品接收管进行样品洗脱,加入150ul的buffer B溶液后抽干,并重复三次。
将洗脱得到的溶液转移至1.5ml的EP管,拿去烘干,烘至全干后加1%TFA/bufferA或者纯TFA进行复溶,室温振荡30min左右,复溶后高速离心将样品转移至新EP管中,分装冻存于-80℃条件下。
实施例3蛋白质谱检测
使用如图5所示的适用于色谱-质谱联用系统的毛细管分析柱(毛细管色谱柱)对于实施例2中得到的毛干样品处理后的肽混合物进行质谱分析。其中毛细管分析柱的特性如上文所述。
在分析柱前端安装一个被动的分流装置。通过使用计算机控制的电喷雾定位装置,将发射尖端自动移动到清洗装置下,消除盐或其他残余物在发射尖端外表面的积聚。
使用附图5所示的排气柱平台进行肽的自动进样分析,自动进样器将实施例2制备的样本的肽段进样,并在分析柱前端通过一个分流装置使流速≤1nL/min。本示例中优选地以4μL/min的流速加载到预柱上。调整六通阀(附图2a),将流动相导入至预柱上,肽段吸附到预柱后流入废液管道。将样本加载至预柱后,如附图2b所示,切换六通阀,使废液管道关闭,用HPLC梯度洗脱液将肽段洗脱到质谱仪中,流动相A为0.2M乙酸,流动相B为70%乙腈/0.2M乙酸,流动相B梯度为:0-100%,50min内。使用混合线性离子阱-Orbitrap,在以下条件下进行质谱数据采集:MS扫描:300≤m/z≤2000;MS/MS排除列表、2Da分离窗口和25%相对碰撞能量:8个最丰富离子(5>z>1);ESI电压:1.5kV;毛细管温度:150℃。使用MascotDaemon数据库对MS/MS数据进行分析。
现有技术中,通过延长有机溶剂梯度或降低流出流速来增加总体肽的鉴定能力。本实施例中对采用降低流出流速的方式,因为该方法能提高电喷电离效率。但是,流速低于Van Deemter最小流速时,色谱分辨率会下降,而且,当毛细管内径小于50μm时,柱性能不太稳定,因此,本实施例中采用一种可靠耐用的尖端带有硅酸盐熔块的毛细管分析柱,以及基于该分析柱的电喷装置。
实施例4
一种基于毛干蛋白质组学测定SNP位点的方法,如图4所示,具体步骤如下:
首先如步骤S1,对样品按照实施例2中方式进行蛋白质提取,并用实施例3中的质谱检测方法对处理后的样本进行蛋白质组学检测,采集质谱数据。
执行步骤S2,获取公共数据库中的SNP位点信息,对SNP位点进行筛选,得到导致编码氨基酸改变的SNP位点列表。
具体而言,如步骤S201,从1000genome的官方网站上下载所有染色体的VCF文件,从NCBI的官方网站上下载人的基于hg38的common_all.vcf.gz文件。
本实施例中优选地考虑到数据可靠性、准确性,以及后续步骤对于SNP人群频率的筛选,以减少蛋白质数据库的冗余性,因此选择了1000Genome和dbSNP两个数据库。
更进一步的,dbSNP数据库中提供了基于hg38的common_all_20180418.vcf.gz文件和ALL_20180418.vcf.gz文件,本实施例中以人群突变频率大于等于0.01为标准,优选地选择用dbSNP的common_all_20180418.vcf.gz文件,common_all_20180418.vcf.gz文件包含的SNP范围是所有常见人的突变位点清单,即要求至少一个主要人群中次要等位基因频率(MAF)≥0.01。经过实验比较,发现在对同一数据使用ALL_20180418.vcf.gz来建立基于样品的GVP参考蛋白质数据库,并使用样品进行搜索时一方面会造成GVP参考蛋白质数据库的过度冗余,另一方面因为其中大部分SNP都是低频突变(MAF<0.01),在对搜出的肽段进行FDR筛选时会导致FDR=0.01时对应的谱图分数(Score)过高,所以本实施例优选地选择用dbSNP的common_all_20180418.vcf.gz。具体可参考表3。
表3 dbSNP选用不同人群突变频率文件搜索结果的比较
步骤S202,将VCF文件中的SNP位点信息和参考基因组比对分析,得到外显子区域的突变且突变后会导致编码氨基酸有所改变的SNP位点列表。
步骤S202具体包括如下步骤:
步骤S2021,使用注释软件,对VCF文件基于参考基因组进行注释,以得到对应VCF文件中所有外显子区域的突变,输出每个SNP对应的所属蛋白原始序列和突变后的序列。
本实施例中采用ANNOVAR注释软件对VCF文件进行注释,ANNOVAR是一个高效的注释工具,能够利用最新的数据来分析各种基因组中的遗传变异,由perl编写,支持包括VCF在内的多种输入和输出文件格式。首先先用convert2annovar.pl命令将VCF文件转换为avinput格式,接着用annotate_variation.pl命令基于参考基因组,对avinput格式的文件进行注释,得到exonic_variant_function文件,该文件包括对应VCF文件中所有外显子区域的突变。用coding_change.pl命令输出exonic_variant_function文件中每个SNP对应的所属蛋白原始氨基酸序列和突变后对应的氨基酸序列。
进一步的,在注释SNP时,针对1000Genome的VCF文件应该使用hg19版本的参考基因组,针对dbSNP的VCF文件使用hg38版本的参考基因组,本实施例中参考基因组的下载通过ANNOVAR的annotate_variation.pl命令实现。
在其他实施方式中,也可以使用snpEff或其他使用开源注释工具注释VCF文件,得到每个SNP对应的所属蛋白原始氨基酸序列和突变后对应的氨基酸序列。
步骤S2022,对原始氨基酸序列和突变后对应的氨基酸序列两两比较,挑选出导致氨基酸序列改变的SNP位点列表。本实施例中采用Python脚本对原始氨基酸序列和突变后对应的氨基酸序列两两比较,得到导致氨基酸序列改变的SNP位点列表。
在其他实施方式中,也可以使用其他编程语言或是程序对原始氨基酸序列和突变后对应的氨基酸序列进行比较,以得到导致氨基酸序列改变的SNP位点,并建立SNP位点列表。
优选地,本实施例为了在保障数据可靠性的前提下减少蛋白质数据库的冗余性而导致结果中的假阳性过高,还包括筛选步骤S203。
步骤S203,筛选出SNP位点列表中人群突变频率相对较高的高频突变。从1000genome的VCF文件中提取出每个SNP的人群频率,再按照EAS_AF(东亚人群中SNP的人群频率)≥预设阈值对步骤S202中得到的SNP位点列表进一步筛选。预设阈值的设置范围可以是0.005至1。本实施例中优选地设置预设阈值为0.01,根据实验,当阈值设置为0.01时既能保证纳入列表里的SNP有足够的概率被检测到,也能保障不会错误去除SNP导致漏检,同时具有较佳的搜索效果。由于dbSNP产生的数据的MAF≥0.01,因此不用再次进行筛选。
步骤S3,在SNP位点列表中根据样品的蛋白丰度筛选出表达量高的蛋白的SNP位点。具体而言,如图3所示步骤S3包括下述步骤:
首先如步骤S301,对实施例1中获取的样品质谱数据进行常规蛋白质组学分析得到蛋白定量信息,步骤S301具体包括下述操作步骤:
步骤S3011,下载公共蛋白质数据库。本实施例使用Swissprot数据库中人的参考蛋白数据库。Swissprot数据库是经过注释的蛋白质数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
在其他实施例中,还可以使用国际蛋白质数据库(PSD)、PROSITE数据库等公共蛋白数据库。
步骤S3012,对实施例1中的样品的质谱文件导入搜库软件中进行检索,获取搜库结果中的蛋白定量信息。本次实施例所用为搜库软件为MASCOT,根据需要可以将质谱文件的格式进行转换,例如将wiff文件转换为MGF文件,设定参数并将转换后的质谱文件导入MASCOT搜库软件中进行检索,检索使用的数据库为S3011步骤下载的公共蛋白质数据库。
接着如步骤S302,根据蛋白定量信息,计算每个蛋白的总表达量,按表达量进行筛选,以得到基于样品的易被检测到的蛋白列表。具体而言,根据搜库结果中的蛋白定量信息,计算每个蛋白的总表达量,按照降序排列,挑选排序前n(n为正整数)的蛋白,或者预设蛋白丰度阈值,剔除低于阈值的蛋白质,从而得到基于样品的易被检测到的蛋白列表(参考表4)。具体的n或阈值需要根据实际样品决定。
表4 样品蛋白列表及表达量示例
样品蛋白
相对表达量
KRT85
5133449
KRT33A
4730480
KRT33B
4631357
KRT31
2407475
KRT34
2192687
KRT32
897965.3
KRT35
495523.8
KRT39
212646.6
TRIM2
207460.8
KRT82
187223.1
如步骤S303,根据步骤S302中得到的蛋白列表对SNP位点列表再一次筛选,仅保留蛋白列表中对应蛋白的SNP位点信息。本实施例中,为了进行实验效果的比较,分别保留SNP所属蛋白在蛋白列表中的全部SNP位点和表达丰度前1000、前500、前100、前50的蛋白列表的SNP位点,即有五组对应的SNP位点集和,前者对于后者是包含关系。所纳入的SNP位点数量参考表5。
表5 各个筛选步骤得到的SNP位点数量
由于本发明基于样品进行蛋白质丰度筛选,因此针对特定样品保障了结果可靠性,同时也避免了数据库的过度冗余和假阳性过高。
继续参考图1,如步骤S4,生成筛选后的SNP位点列表对应的可遗传变异肽,根据公共蛋白质数据库生成基于样品的GVP参考蛋白质数据库。
具体而言如图4所示,如步骤S401,利用后续样品处理所用的酶对SNP列表中的原始蛋白质序列和突变后的蛋白质序列进行理论酶切,本实例中后续实验用的酶为Trypsin,所以这里理论酶切是以K/R作为酶切位点。比较得到的两个序列的肽段,挑选出其中不一样的且属于突变序列的肽段作为该SNP对应的GVP,也就是说该SNP出现会导致该肽段的出现。
优选地,本实施例中将所有的GVP汇集为GVP列表,所述GVP列表中包括GVP信息,GVP对应的SNP位点、蛋白质等信息,从而将GVP对应的SNP位点、蛋白质等信息联系起来。本实施例得到的GVP和对应蛋白质、SNP位点信息参考表6,根据表6所示,在蛋白丰度全部/前1000/前500/前100/前50共筛选出182/117/58/27/16个SNP位点。
表6 可遗传变异肽列表
如步骤S402,下载公共蛋白质数据库的参考蛋白质序列,将不在公共蛋白质数据库中的GVP添加到参考蛋白质序列中,以生成基于样品的GVP参考蛋白质数据库。本实施例的所述GVP参考蛋白质数据库包括GVP列表中的所有GVP信息。
本实施例中的公共蛋白质数据库选用Swissprot数据库中人的参考蛋白数据库。下载公共蛋白质数据库的参考蛋白质序列,本实施例中优选地将蛋白质序列中异亮氨酸(氨基酸字母缩写I)替换为亮氨酸(氨基酸字母缩写L),同样地,替换步骤S401中GVP列表中的I为L。
将S401中GVP列表中的GVP信息逐条在参考蛋白质序列遍历检索,将不在参考蛋白质序列中的GVP添加到参考蛋白质序列中,以生成基于样品的GVP参考蛋白质数据库。优选地,本实施例中参考蛋白质序列以蛋白编号来区分。
具体而言,在GVP信息逐条在参考蛋白质序列遍历检索时,首先判断该条GVP是否存在于参考蛋白质序列中,如否将该GVP添加到参考蛋白质序列中,如是则进一步判断该GVP对应的数据序列是否以理论酶切位点为结尾,如是则将该GVP添加到数据序列后,如否则新增该GVP的数据序列并以理论酶切位点为结尾。例如,一个GVP所属蛋白为KTR33,且数据库中尚未包含KRT33的GVP,则将该GVP添加入数据库中时,数据序列对应的数据头为‘KRT33.1’,如果数据库中已有KRT33对应的SAP,则看该数据序列是否已酶切位点K/R结尾,如果是K/R结尾,可以直接将该GVP添加到序列后,如果不是K/R结尾,则需要将数据头的编号加1,新增一个条目,因为直接添加在非K/R结尾的序列后,在后续步骤中搜库软件无法知道要在这里断开,从而导致检索失败。
本实施例公开了构建基于样品的GVP参考蛋白质数据库的方法,使得参考蛋白质数据库能够针对特定样品,从而在该GVP参考蛋白质数据库用于后续检索使用时,既避免了错误减少蛋白质范围而产生的误差,提高结果准确性,也不会导致纳入过多的遗传变异信息造成蛋白质数据库的高度冗余性,有效降低了结果假阳性。
本实施例也公开了基于上述方法得到的GVP参考蛋白质数据库以及GVP列表。
如步骤S5,将S1步骤获取的质谱数据在步骤S4得到的GVP参考蛋白序列数据库中进行搜库,得到匹配的肽段图谱对应的肽段列表。
具体而言,设定参数并将步骤S4得到的包含GVP数据的GVP参考蛋白序列数据库以及步骤S1得到的质谱数据导入到MASCOT搜库软件中进行搜库。
导出MASCOT搜库结果,计算FDR,通常认为FDR大于0.01的肽段是可信的,因此将FDR=0.01时对应的肽段谱图匹配得分作为得分阈值,取出得分高于得分阈值的谱图对应肽段。这些谱图对应的肽段列表即为样品肽段列表。
如步骤S6,将样品肽段列表和步骤S4中得到的GVP列表进行比较,匹配到某个GVP,就认为该样品包含该GVP对应的SNP位点,从而反推得到样品包含的SNP位点信息。
本实施例检测到的具体SNP位点信息参考表7,本实施例共检测到27个GVP,对应27个SNP。
表7 鉴定到的SNP位点信息
图4a,4b,4c为实施例3中根据不同标准丰度蛋白进行筛选的SNP数量结果示意图,其中4a,4b,4c的横坐标均分别表示了不进行筛选(即全部)或按照蛋白质丰度前1000或前500或前100或前50的蛋白进行筛选,图4a纵坐标表示步骤S303筛选后纳入的SNP位点数,图4b纵坐标表示步骤S6检测到的所有SNP位点数,图4c纵坐标表示步骤S6检测到的大于FDR=0.01时Score的对应的肽段的SNP的位点数。根据图4a,4b,4c所示,筛选纳入的蛋白质丰度前1000的SNP位点对于最终的检测结果数量没有影响,但却显著提高检索效率,而当筛选纳入的蛋白质丰度进一步降低至前50时,检测到的SNP数量会有轻微降低。
本实施例在尽量缩小蛋白质序列参考数据库保证非冗余性和结果准确性的同时尽量鉴定到更多的SNP位点,给出了不依赖于个性化测序的挑选SNP建库的方法,理论上可以针对每种样品类型自适应地构建最佳蛋白质数据库,为基于蛋白质组学的SNP鉴定提供了解决方案
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。