基于特征序列设计引物的方法及系统
技术领域
本发明涉及基于特征序列设计引物的方法及系统,属于引物设计领域。
背景技术
长期以来,人们对病人病因的诊断通常基于临床特征进行判断。通过临床特征选择治疗药物是有效的。但对于一些复杂的症状,仅靠临床特征进行判断是极其不准确的。上世纪八十年代的化学家发明了PCR,使得如今DNA扩增俨然已经成为了生物学研究的基础。为了能更好的判断病因,人们通过PCR设计了qPCR(定量PCR)、dPCR(数字PCR等);
如今,由加拿大的Premier公司开发的PrimerPremier是最常用、使用最广泛的引物设计软件,其开发的分析软件Primer-Blast,Primer3 Plus,Premier5等被大量的生信工作者用以实现引物设计。设计流程从获取目标序列开始,然后根据提供的目标序列以及选择好合适的引物设计参数,从而获得引物设计结果。
目前现有的分析技术存在以下缺陷:
1.需要手动去获取目标序列;
2.在获取目标序列的过程中容易引起位置信息误差;
3.无法实现批量化设计引物需求;
4.设计结果是碎片化的,做多个引物设计时费时费力;
5.得到的引物序列还需要手动去和NCBI中的数据库比对。
发明内容
本发明的目的是提供一种特征序列设计引物的方法,自动进行目标序列的获取,并记录目标序列和引物的位置,可以一步完成从基因组到目标序列和引物片段的引物设计。
本发明采取的技术方案为:一种基于特征序列设计引物的方法,其特征在于其步骤包括:
(1)从网上(NCBI官网上下载或通过其他途径)下载需要用到基因组序列,目标序列为阳性序列,同源的其他序列为阴性序列,将阳性序列合并到一起,制作成positives.fa的fasta文件,阴性序列合并到一起,制作成negatives.fa的fasta文件;
(2)将阳性序列分割成适合进行比对的片段,并记录分割的位置;
(3)使用blast对阴性序列进行建库,然后将片段化的阳性序列比对到阴性序列进行筛选,得到一致性较低的特异性序列,并分为两级,第一级为比对到的长度小于300bp,且比对区域一致性低于70%的特异性序列,第二级为虽然比对区域的一致性高于70%但比对到的长度小于200bp的特异性序列;
(4)使用primer3对步骤(3)得到的一二级特异性序列进行引物设计,得到上游引物、下游引物和探针的序列及位置;
(5)通过blast比对软件将步骤(4)得到的引物和探针比对到步骤(3)得到的阴性序列数据库,取没有比对上的引物和探针,然后将没有比对上的引物和探针与NCBI的nt数据库进行再次比对,获得具有特异性的引物和探针;
(6)对步骤(5)的结果进行整理,并输出上下游引物、探针与序列长度。
优选的,步骤(2)中阳性序列分割大小为300bp-1000bp,在同一次引物设计过程中,分割大小应当一致。
优选的,步骤(2)中阳性序列分割大小为500bp。
优选的,步骤(4)中上游引物、下游引物和探针的长度在18-25bp,GC含量控制在40%-60%之间,TM区间设置在57℃-60℃。
优选的,步骤(4)中上游引物、下游引物和探针的长度在20bp,TM值为60℃。
本发明还公开了一种基于特征序列设计引物的系统,包括存储器,与所述存储器连接的处理器,存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的设计引物的方法。
优选的,所述计算机程序基于python语言编写。
本发明具有以下有益效果:
1、本发明提供从同源性微生物中自动筛选出特异性序列的功能,解决了实际操作中目标序列不好获得的问题;
2、可以自动记录下引物片段在基因中的位置,提供批量设计引物序列的功能;
3、一次性实现引物设计的所有步骤,并获取所有符合规定的引物片段;
4、为使用者提供一个使用推荐排序,减少使用者挑选最终引物的烦恼。
附图说明
图1为阳性序列片段。
图2为第一级特异性序列。
图3为第二级特异性序列。
图4为上游引物序列。
图5为下游引物序列。
图6为探针序列。
图7为整理后输出的引物及探针序列。
图8为本发明的流程图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
实施例1
以新型隐球菌为例,基于特征序列设计引物的方法,其步骤包括:
(1)从NCBI官网上下载或通过其他途径下载隐球菌属的基因组序列,将阳性序列和阴性序列进行整合,将新型隐球菌制成positives.fa,,将其他隐球菌属的隐球菌制成negatives.fa;
(2)将阳性序列分割成适合进行比对的片段,并记录分割的位置,如图1所示,阳性序列通过窗口移动(间隔250bp)的方法被分成500bp长度的基因片段;
(3)使用blast对阴性序列进行建库,然后将片段化的阳性序列比对到阴性序列进行筛选,得到一致性较低的特异性序列,并分为两级,第一级为一致性低于70%且比对到的长度小于300bp的特异性序列(如图2),第二级为虽然一致性高于70%但比对到的长度小于200bp的特异性序列(如图3);
(4)使用primer3对步骤(3)得到的特异性序列进行引物设计,得到上游引物、下游引物和探针的序列及位置,引物设计时遵循以下原则:1、引物和探针长度设置在18-25bp,2、TM区间为57℃-60℃,3、GC含量为40%-60%之间,4、碱基在引物内尽量均匀分布,5、引物自身及引物之间不形成互补序列,6扩增产物的单链不能形成二级结构;
(5)通过blast比对软件将步骤(4)得到的引物和探针比对到步骤(3)得到的阴性序列数据库,取没有比对上的引物和探针,然后将没有比对上的引物和探针与NCBI的nt数据库进行再次比对,获得具有特异性的引物和探针,如图4-6所示;
(6)对步骤(5)的结果进行信息整理,并输出上下游引物、探针与序列长度,如图7所示。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。