一种hiv亚型分类系统及分类方法
技术领域
本发明涉及生物信息领域,尤其涉及一种HIV亚型分类系统及分类方法。
背景技术
HIV包括A、B、C、D、F、G、H、J、K等亚型,而且重组型的整体比例随时间也持续增加。HIV多样性是复杂的和不断演变的,是HIV疫苗开发的一大挑战。监测HIV型的全球分子流行病学对艾滋病毒疫苗的设计、检测和实施仍然至关重要。
HIV分型对感染者耐药检测结果的解释和个体化治疗方案的制定具有指导意义。由于亚型特异性遗传屏障能够在耐药突变的发生和发展中起作用,或者由于其他耐药位点对主要耐药位点产生的影响不同对不同亚型的进化方向和进化速度上产生了影响。不同亚型之间的耐药突变位点及其频率不同,新的耐药突变位点不断被报道,同时一些无法解释的药物敏感性也影响到了对基因型耐药检测结果的解释,因此评估耐药突变的亚型特异性,在耐药突变特征上的差别在为病人设计ART治疗方案时具有重要的参考价值。
虽然现有HIV生物信息数据库已经方便了研究人员和医疗人员开展相关工作,但是在具体使用这些数据库的过程中仍然存在一些困难和风险,具体如下:
1.现有的公共数据库信息来源分散,并且这些数据库的HIV序列信息绝大多数基于一代测序结果,序列质量也无法保证。
2.基于HIV二代测序结果的公共数据库基因型变异注释功能仍处于Beta测试阶段,如HIVDB的HGS-Beta。与此同时,只有少量数据库的二代测序注释工具拥有整合自有数据库的功能,另外,这些注释工具整合自有数据的灵活度和效率都不高。
3.现有的公共数据库注释工具大多采取单线程模式执行任务,难以胜任以计算机集群计算和大数据为基础的主流数据分析任务。
发明内容
考虑到以上问题,本发明的目的是提供一种HIV亚型分类系统。
本发明的再一目的是提供一种HIV亚型分类方法。
根据本发明的HIV亚型分类系统包括:
数据库池,所述数据库池包括来自开放公共数据库的HIV一代测序序列和HIV二代测序数据;
数据库管理模块,所述数据库管理模块包括数据库池构建与整合模块和数据更新模块,其中,
所述数据库池构建与整合模块将输入的二代测序BAM文件处理成一致性序列Reads.fasta;并且将经质量核查的HIV序列收录至所述数据库池;以及将开放公共数据库新增的序列收录至所述数据库池,
所述数据更新模块用于定期自动下载公共数据库序列;
分型模块,所述分型模块包括以下分型子模块:
HIV二代测序数据分型子模块,所述HIV二代测序数据分型子模块用于统计数据库池中的一致性序列对所有HIV亚型的断点覆盖情况,计算并对比不同HIV亚型对应的断点覆盖率,对比待分类样本的断点覆盖率,输出待检测样本的分型结果,
HIV一代测序数据分型子模块,用于将待分型样本的一致性序列直接blast比对数据库池中的HIV一代测序序列,输出序列相似度比对结果,
重组型和混合亚型HIV分型子模块,用于将待测样品的二代测序reads与数据库池中的HIV二代测序数据比对,统计比对到不同亚型的reads比例,辅助重组型和混合亚型的判断。
根据本发明的HIV亚型分类系统,其中,所述HIV二代测序数据分型子模块执行以下步骤进行分型:
S1.输入序列:输入构建的一致性序列;
S2.与现有HIV-1Subtype Database分型列表进行多序列比对得到初步的未矫正的差异值;
S3.将与已公布的耐药位点的监测情况相关的氨基酸屏蔽掉得到矫正后的差异值;
S4.结合矫正后差异值和断点覆盖率上限分型,其中,
S4.1当矫正后的差异值大于11%时,则待分型样品定义为未知亚型;
S4.2当矫正后的差异值小于或等于11%时,其中,
当样本匹配到简单亚型序列时,比较与简单亚型序列相比差异值和分型断点覆盖率上限,其中,如果与简单亚型序列相比差异值小于或等于分型断点覆盖率上限,则判断为简单亚型,如果与简单亚型序列相比差异值大于分型断点覆盖率上限,则判断为简单亚型,同时报出警告,
当最佳匹配为复杂亚型序列时,比较与复杂亚型序列比较差异值和分型断点覆盖率上限,其中,如果与复杂亚型序列相比差异值小于或等于分型断点覆盖率上限时,则判断为复杂亚型,如果与复杂亚型序列相比差异值大于分型断点覆盖率上限时,则判断最佳匹配的亲本打分,其中,如果样本最佳匹配的亲本打分与流行重组亚型差异值的差值≤1%,则报告亲本亚型,否则判断为独特重组亚型。
根据本发明的HIV亚型分类系统,其中,所述重组型和混合亚型HIV分型子模块执行以下步骤辅助重组型和混合亚型的判断:
将待测样品的二代测序reads与数据库池中的HIV二代测序数据比对,统计比对到不同亚型的reads比例,其中,
如果所述HIV二代测序数据分型子模块的分型结果为非URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型最优结果需要与HIV二代测序数据分型子模块结果相同,且比例不低于60%;
如果所述HIV二代测序数据分型子模块的分型结果为URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型排名前10的结果与所述HIV二代测序数据分型子模块的分型结果存在不同亲本亚型,且排名前10的所有结果比例均不高于60%;
如果所述重组型和混合亚型HIV分型子模块的分型结果为混合亚型,则重组型和混合亚型HIV分型子模块中reads比对分型前10的结果与所述HIV二代测序数据分型子模块的分型结果存在相同亲本亚型,且排名前10的所有结果比例均不高于60%。
根据本发明的HIV亚型分类方法包括以下步骤:
对待分型HIV样本的pol基因上跨PR和RT区的一段序列进行测序;
收集来自公共数据库的HIV序列以及新增的HIVpol区序列数据,收集HIV二代测序数据,构建数据库池;
数据处理,将数据库池中的二代测序文件处理成一致性序列Reads.fasta,将经质量核查的HIV序列收录至数据库池,将公共数据库新增的序列收录至数据库池;以及
统计数据库池中的HIV二代测序数据转化的一致性序列涵盖HIV亚型的断点覆盖情况,计算不同HIV亚型对应的断点覆盖率,对比待测样本与已知HIV亚型的断点覆盖率,确定待测样本的分型,输出待测样本的分型结果。
根据本发明的HIV亚型分类方法,其中,所述方法进一步包括步骤:将一致性序列直接blast比对数据库池中的HIV一代测序序列,输出序列相似度比对结果。
根据本发明的HIV亚型分类方法,其中,所述方法进一步包括判断重组型和混合亚型HIV的步骤,其中,将待测样品的二代测序reads与数据库池中的HIV二代测序数据比对,统计比对到不同亚型的reads比例,其中,
如果所述HIV二代测序数据分型子模块的分型结果为非URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型最优结果需要与HIV二代测序数据分型子模块结果相同,且比例不低于60%;
如果所述HIV二代测序数据分型子模块的分型结果为URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型排名前10的结果与所述HIV二代测序数据分型子模块的分型结果存在不同亲本亚型,且排名前10的所有结果比例均不高于60%;
如果所述重组型和混合亚型HIV分型子模块的分型结果为混合亚型,则重组型和混合亚型HIV分型子模块中reads比对分型前10的结果与所述HIV二代测序数据分型子模块的分型结果存在相同亲本亚型,且排名前10的所有结果比例均不高于60%。
根据本发明的HIV亚型分类方法,其中,在步骤S4中,通过以下步骤确定待测样本的分型:
S1.输入序列:输入构建的一致性序列;
S2.与现有HIV-1Subtype Database分型列表进行多序列比对得到初步的未矫正的差异值;
S3.将与已公布的耐药位点的监测情况相关的氨基酸屏蔽掉得到矫正后的差异值;
S4.结合矫正后差异值和断点覆盖率上限分型,其中,
S4.1当矫正后的差异值大于11%时,则待分型样品定义为未知亚型;
S4.2当矫正后的差异值小于或等于11%时,其中,
当样本匹配到简单亚型序列时,比较与简单亚型序列相比差异值和分型断点覆盖率上限,其中,如果与简单亚型序列相比差异值小于或等于分型断点覆盖率上限,则判断为简单亚型,如果与简单亚型序列相比差异值大于分型断点覆盖率上限,则判断为简单亚型,同时报出警告,
当最佳匹配为复杂亚型序列时,比较与复杂亚型序列比较差异值和分型断点覆盖率上限,其中,如果与复杂亚型序列相比差异值小于或等于分型断点覆盖率上限时,则判断为复杂亚型,如果与复杂亚型序列相比差异值大于分型断点覆盖率上限时,则判断最佳匹配的亲本打分,其中,如果样本最佳匹配的亲本打分与流行重组亚型差异值的差值≤1%,则报告亲本亚型,否则判断为独特重组亚型。
根据本发明的HIV亚型分类方法,其中,对待分型HIV样本的pol基因上跨PR和RT区的1kb序列进行测序。
根据本发明的HIV亚型分类方法,其中,输出待测样本的分型结果以及待检测样本和最优分型结果的核酸水平相似度。
根据本发明的HIV亚型分类方法,其中,输出待测样本的分型结果以及待检测样本和最优分型结果的氨基酸水平的相似度。
根据本发明的HIV亚型分类方法,还包括步骤:将待测样本的一致性序列直接进行blast比对数据库池中的Publicdatabase,获得序列相似度排名前十的序列比对结果,用于辅助分型判断。
根据本发明的HIV亚型分类方法,将公共数据库NCBI新增HIV序列定期补充到数据库池。
根据本发明的HIV亚型分类方法,待测样本被分型后,判断为新增亚型的,则,待测样本的数据被补充至数据库池。数据库构建脚本池在收集到序列数据后将序列按照来源存放至数据库池,从而完成数据库扩容,并生成数据库样本信息哈希表,供分型模块工作时调用。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
1.本发明构建的HIV亚型分类系统,包括数据库池、分型模块和数据管理模块,数据库池囊括了已知的所有基因型和基因亚型的HIV序列。数据库管理模块可以定期自动化完成公共数据库数据的下载工作,自动化完成比对数据库构建、扩容与数据库池整合工作。
2.通过引入数据库池和三个分型模块,大大提高对HIV分型工作的准确度和效率。另外,在分型模块通过使用R中的并行计算包来大大提高分型工具性能。
3.用户只需要输入HIV测序结果,数据库系统就可以自动完成数据标准化、序列分型工作,用户可以继续根据需要将新获得的标准化序列收录至数据库池。本发明数据库经过开发测试,基因分型功能相对公共数据库更加成熟完善。本发明数据库可以将用户每次上传到数据库进行分析的序列信息经过筛选整合收录到数据库内,实现数据库扩容。公共数据库要求用户上传的数据格式必须为其指定格式如.codfreq或.aavf格式文件。然而市场上现有的测序平台给出的二代测序数据格式大多为.bam或.fasta格式,用户需要自己利用第三方软件手动将数据格式进行转换才能利用这些公共数据库进行基因分型工作,大大限制了数据分析的效率。本发明数据库可以直接对用户提交的.bam或.fasta格式文件进行基因分型,无需用户手动预先处理数据,提高了数据分析工作的效率,具有较高灵活度。
4.现有的公共数据库收录的序列质量参差不齐,不少序列经常含有简并碱基。本发明采用的HIV分型参考序列经过筛选,序列内不含简并碱基。本发明采用的HIV分型参考序列来源于二代测序数据,测序深度在1000×以上,数据质量好。
5.现有大多数数据库的设立目的是服务于科学研究工作,受时空分布和网络条件的影响从而难以胜任海量数据的集中分析任务。这些数据库上的注释工具在执行数据分析任务时大多采取单线程运行模式,即先分析完成一个样本在分析下一个样本。本发明数据库的分型工具采取多线程模式执行分析任务,最多可以同时对10个样本时进行数据分析工作,在面对大量样本的数据分析任务时相较于现有数据库可以大大提高工作效率,节约工作时间。这是本发明数据库的优势之一。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为根据本申请的
具体实施方式
的HIV亚型分类方法的流程图;
图2为根据本申请的具体实施方式的HIV亚型分类系统架构示意图;
图3显示HIV二代测序数据分型子模块的分型原理;
图4为样本HIV-ZD-6i-2的分型结果的输出页面;
图5为样本HIV-ZD-6i-2的reads比对分型top10结果的输出页面;
图6为样本HIV-ZD-6i-2的reads比对分型top10结果统计分布的输出页面;
图7为样本65的reads比对分型top10结果的输出页面;
图8为样本65的分型结果的输出页面;
图9为样本65的reads比对分型top10结果统计分布的输出页面;
图10为样本分型最终结果的输出页面;
图11为检测样本和数据库中相似度最高的10个序列及其分型结果的输出页面;
图12为一致性序列比对Publicdatabase中,获得最优的10条比对结果的输出页面;
图13为将测序reads比对到HIVdb中统计比对到不同亚型的reads比例结果的输出页面。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本发明的HIV亚型分类系统包括:
数据库池,所述数据库池包括来自开放公共数据库的HIV一代测序序列和HIV二代测序数据;
数据库管理模块,所述数据库管理模块包括数据库池构建与整合模块和数据更新模块,其中,
所述数据库池构建与整合模块将输入的二代测序BAM文件处理成一致性序列Reads.fasta;并且将经质量核查的HIV序列收录至所述数据库池;以及将开放公共数据库新增的序列收录至所述数据库池,
所述数据更新模块用于定期自动下载公共数据库序列;
分型模块,所述分型模块包括以下分型子模块:
HIV二代测序数据分型子模块,所述HIV二代测序数据分型子模块用于统计数据库池中的一致性序列对所有HIV亚型的断点覆盖情况,计算并对比不同HIV亚型对应的断点覆盖率,对比待分类样本的断点覆盖率,输出待检测样本的分型结果,
HIV一代测序数据分型子模块,用于将待分型样本的一致性序列直接blast比对数据库池中的HIV一代测序序列,输出序列相似度比对结果,
重组型和混合亚型HIV分型子模块,用于将待测样品的二代测序reads与数据库池中的HIV二代测序数据比对,统计比对到不同亚型的reads比例,辅助重组型和混合亚型的判断。
根据本发明的HIV亚型分类系统,其中,所述HIV二代测序数据分型子模块执行以下步骤进行分型:
S1.输入序列:输入构建的一致性序列;
S2.与现有HIV-1Subtype Database分型列表进行多序列比对得到初步的未矫正的差异值;
S3.将与已公布的耐药位点的监测情况相关的氨基酸屏蔽掉得到矫正后的差异值;
S4.结合矫正后差异值和断点覆盖率上限分型,其中,
S4.1当矫正后的差异值大于11%时,则待分型样品定义为未知亚型;
S4.2当矫正后的差异值小于或等于11%时,其中,
当样本匹配到简单亚型序列时,比较与简单亚型序列相比差异值和分型断点覆盖率上限,其中,如果与简单亚型序列相比差异值小于或等于分型断点覆盖率上限,则判断为简单亚型,如果与简单亚型序列相比差异值大于分型断点覆盖率上限,则判断为简单亚型,同时报出警告,
当最佳匹配为复杂亚型序列时,比较与复杂亚型序列比较差异值和分型断点覆盖率上限,其中,如果与复杂亚型序列相比差异值小于或等于分型断点覆盖率上限时,则判断为复杂亚型,如果与复杂亚型序列相比差异值大于分型断点覆盖率上限时,则判断最佳匹配的亲本打分,其中,如果样本最佳匹配的亲本打分与流行重组亚型差异值的差值≤1%,则报告亲本亚型,否则判断为独特重组亚型。
根据本发明的HIV亚型分类系统,其中,所述重组型和混合亚型HIV分型子模块执行以下步骤辅助重组型和混合亚型的判断:
将待测样品的二代测序reads与数据库池中的HIV二代测序数据比对,统计比对到不同亚型的reads比例,其中,
如果所述HIV二代测序数据分型子模块的分型结果为非URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型最优结果需要与HIV二代测序数据分型子模块结果相同,且比例不低于60%;
如果所述HIV二代测序数据分型子模块的分型结果为URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型排名前10的结果与所述HIV二代测序数据分型子模块的分型结果存在不同亲本亚型,且排名前10的所有结果比例均不高于60%;
如果所述重组型和混合亚型HIV分型子模块的分型结果为混合亚型,则重组型和混合亚型HIV分型子模块中reads比对分型前10的结果与所述HIV二代测序数据分型子模块的分型结果存在相同亲本亚型,且排名前10的所有结果比例均不高于60%。
根据本发明的HIV亚型分类方法包括以下步骤:
对待分型HIV样本的pol基因上跨PR和RT区的一段序列进行测序;
收集来自公共数据库的HIV序列以及新增的HIVpol区序列数据,收集HIV二代测序数据,构建数据库池;
数据处理,将数据库池中的二代测序文件处理成一致性序列Reads.fasta,将经质量核查的HIV序列收录至数据库池,将公共数据库新增的序列收录至数据库池;以及
统计数据库池中的HIV二代测序数据转化的一致性序列涵盖HIV亚型的断点覆盖情况,计算不同HIV亚型对应的断点覆盖率,对比待测样本与已知HIV亚型的断点覆盖率,确定待测样本的分型,输出待测样本的分型结果。
根据本发明的HIV亚型分类方法,其中,所述方法进一步包括步骤:将一致性序列直接blast比对数据库池中的HIV一代测序序列,输出序列相似度比对结果。
根据本发明的HIV亚型分类方法,其中,所述方法进一步包括判断重组型和混合亚型HIV的步骤,其中,将待测样品的二代测序reads与数据库池中的HIV二代测序数据比对,统计比对到不同亚型的reads比例,其中,
如果所述HIV二代测序数据分型子模块的分型结果为非URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型最优结果需要与HIV二代测序数据分型子模块结果相同,且比例不低于60%;
如果所述HIV二代测序数据分型子模块的分型结果为URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型排名前10的结果与所述HIV二代测序数据分型子模块的分型结果存在不同亲本亚型,且排名前10的所有结果比例均不高于60%;
如果所述重组型和混合亚型HIV分型子模块的分型结果为混合亚型,则重组型和混合亚型HIV分型子模块中reads比对分型前10的结果与所述HIV二代测序数据分型子模块的分型结果存在相同亲本亚型,且排名前10的所有结果比例均不高于60%。
根据本发明的HIV亚型分类方法,其中,通过以下步骤确定待测样本的分型:
S1.输入序列:输入构建的一致性序列;
S2.与现有HIV-1Subtype Database分型列表进行多序列比对得到初步的未矫正的差异值;
S3.将与已公布的耐药位点的监测情况相关的氨基酸屏蔽掉得到矫正后的差异值;
S4.结合矫正后差异值和断点覆盖率上限分型,其中,
S4.1当矫正后的差异值大于11%时,则待分型样品定义为未知亚型;
S4.2当矫正后的差异值小于或等于11%时,其中,
当样本匹配到简单亚型序列时,比较与简单亚型序列相比差异值和分型断点覆盖率上限,其中,如果与简单亚型序列相比差异值小于或等于分型断点覆盖率上限,则判断为简单亚型,如果与简单亚型序列相比差异值大于分型断点覆盖率上限,则判断为简单亚型,同时报出警告,
当最佳匹配为复杂亚型序列时,比较与复杂亚型序列比较差异值和分型断点覆盖率上限,其中,如果与复杂亚型序列相比差异值小于或等于分型断点覆盖率上限时,则判断为复杂亚型,如果与复杂亚型序列相比差异值大于分型断点覆盖率上限时,则判断最佳匹配的亲本打分,其中,如果样本最佳匹配的亲本打分与流行重组亚型差异值的差值≤1%,则报告亲本亚型,否则判断为独特重组亚型。
一代测序:又称Sanger测序(多分子,单克隆),在1975年,由Sanger等人开创。其原理是:在4个DNA合成反应体系(含dNTP)中分别加入一定比例带有标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应。
二代测序:NGS技术(多分子,多克隆),一代Sanger测序虽读长较长、准确性高,但其测序成本高通量低等缺点,使得de novo测序、转录组测序等应用难以普及。经过数据不断的技术开发和改进,Thermo Fisher的Ion Torrent第二代测序技术诞生并进入二代测序市场。Ion Torrent的原理是:油包水PCR+4种dNTP车轮大战+微电极PH检测。主要步骤包括:①DNA文库制备;②乳液PCR;③微电极pH检测。
优势劣势:Ion Torrent与一代测序技术相比,主要差异在测序中,Ion Torrent不需要昂贵的物理成像设备,成本相对较低体积较小,同时操作更为简单,整个上机测序可在2-3.5小时内完成(文库构建时间除外)。
测序原理的不同使得二代测序相比一代测序大幅降低了测序的成本,保持了较高准确性,并且大幅降低了测序时间,在序列读长方面比起第一代测序技术则要短很多。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,根据本发明的HIV亚型分类方法包括以下步骤:
对待分型HIV样本的pol基因上跨PR和RT区的一段序列进行测序;
收集来自公共数据库的HIV序列以及新增的HIVpol区序列数据,收集HIV二代测序数据,构建数据库池;
数据处理,将数据库池中的二代测序文件处理成一致性序列Reads.fasta,将经质量核查的HIV序列收录至数据库池,将公共数据库新增的序列收录至数据库池;以及
统计数据库池中的HIV二代测序数据转化的一致性序列涵盖HIV亚型的断点覆盖情况,计算不同HIV亚型对应的断点覆盖率,对比待测样本与已知HIV亚型的断点覆盖率,确定待测样本的分型,输出待测样本的分型结果。
如图2所示,根据本发明的HIV亚型分类系统包括:
I.数据库池,所述数据库池包括来自开放公共数据库的HIV一代测序序列和HIV二代测序数据。
II.数据库管理模块,所述数据库管理模块包括数据库池构建与整合模块和数据更新模块,其中,
所述数据更新模块用于定期自动下载公共数据库序列,
所述数据库池构建与整合模块将收集的二代测序BAM文件处理成一致性序列Reads.fasta;并且将经质量核查的HIV序列收录至所述数据库池;以及将开放公共数据库新增的序列收录至所述数据库池。
III.分型模块,所述分型模块包括三个分型子模块:
(3-1)HIV二代测序数据分型子模块,参见图2中的分型模块1,所述HIV二代测序数据分型子模块用于统计数据库池中的一致性序列对所有涵盖HIV亚型的断点覆盖情况,计算并对比不同HIV亚型对应的断点覆盖率,对比待分类样本的断点覆盖率,输出待检测样本的分型结果。如图3所示,具体分型过程如下:
S1.输入序列:输入构建的一致性序列;
S2.与现有HIV-1Subtype Database分型列表进行多序列比对得到初步的未矫正的差异值,所述HIV-1Subtype Database分型列表如表1所示;
S3.将与已公布的耐药位点的监测情况SDRM(SDRM:Surveillance of DrugResistance Mutation)相关的氨基酸屏蔽掉得到矫正后的差异值;
S4.结合矫正后差异值和断点覆盖率上限(upper-limit ofbreakpoints),98个亚型的亲本亚型(ParentSubtype)和分型断点覆盖率上限(Distanceupper-limitofbreakpoints)如表2所示,其中,
S4.1当矫正后的差异值大于11%时,则待分型样品定义为未知亚型(Unknownsubtype);
S4.2当矫正后的差异值(此时的差异值称为Parent Distance)小于或等于11%时,其中,
当样本匹配到表2中简单亚型序列(即ParentSubtype=Name的序列)时,比较与简单亚型序列相比差异值和分型断点覆盖率上限,其中,如果与简单亚型序列相比差异值小于或等于分型断点覆盖率上限,则判断为简单亚型,如果与简单亚型序列相比差异值大于分型断点覆盖率上限,则判断为简单亚型并,同时报出警告,
当最佳匹配为复杂亚型序列(即ParentSubtype≠Name的序列)时,比较与复杂亚型序列比较差异值和分型断点覆盖率上限,其中,如果与复杂亚型序列相比差异值(此时的差异值称为CRF Distance)小于或等于分型断点覆盖率上限时,则判断为复杂亚型,如果与复杂亚型序列相比差异值大于分型断点覆盖率上限时,则判断最佳匹配的亲本打分(Parent Distance),其中,如果样本最佳匹配的亲本打分与流行重组亚型差异值的差值≤1%,则报告亲本亚型(Parent subtype),否则判断为独特重组亚型URF subtype,独特重组亚型指临床上已发现但未见报道的HIV-1亚型。
(3-2)HIV一代测序数据分型子模块,参见图2中的分型模块2,用于将代分型样本的一致性序列直接blast比对数据库池中的HIV一代测序序列,输出序列相似度比对结果。
(3-3)重组型和混合亚型HIV分型子模块,参见图2中的分型模块3,用于将待测样品的二代测序reads与数据库池中的HIV二代测序数据比对,统计比对到不同亚型的reads比例,用于辅助重组型和混合亚型的判断。
重组亚型都是纯种亚型,CRF subtype为流行重组亚型,指HIV-1流行过程中由于双(多)重感染导致病毒基因组重组而形成的HIV-1亚型内或亚型间重组体,其reads聚类到单独亚型的种类少,比例高,分型结果集中;混合亚型(例如B+C)包含多种病毒株的序列,其reads聚类到单独亚型的比例平均,分型结果离散。重组型和混合亚型HIV分型子模块的阈值需要结合前两个模块的结果。
如图4~图9所示,如果模块1(HIV二代测序数据分型子模块)的分型结果为非URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型最优结果需要与模块1(HIV二代测序数据分型子模块)结果相同,且比例不低于60%;如果模块1(HIV二代测序数据分型子模块)分型结果为URF纯种亚型,则重组型和混合亚型HIV分型子模块中reads比对分型top10结果与模块1的分型结果存在不同亲本亚型(parentsubtype),且top10所有结果比例均不高于60%;如果模块1分型结果为混合亚型,则重组型和混合亚型HIV分型子模块中reads比对分型top10结果与模块一的分型结果存在相同亲本亚型(parentsubtype),且top10所有结果比例均不高于60%。
根据本发明的HIV亚型分类方法包括以下步骤:
对分型HIV样本的pol基因上跨PR和RT区的一段序列(约1kb)进行测序。HIV的绝对分型需要测HIV序列全长(约9kb),然后构建系统发育树从而实现对HIV的分型;pol基因为HIV耐药检测的目标区域,根据本申请的技术方案,只需要测HIV pol基因上跨PR和RT区的一段序列(约1kb)即可进行分型,其中,HIV各亚型断点在pol基因的PR区和RT区均有分布。
构建包括来自公共数据库的HIV一代测序序列和由HIV二代测序数据的数据库池;
数据处理,将输入的二代测序文件处理成一致性序列Reads.fasta,将经质量核查的HIV序列收录至数据库池,将公共数据库新增的序列收录至数据库池;以及
统计数据库池中的HIV二代测序数据转化的一致性序列对涵盖HIV亚型的断点覆盖情况,计算不同HIV亚型对应的断点覆盖率,对比待测样本与已知HIV亚型的断点覆盖率,输出待检测样本的分型结果。
根据本发明的HIV亚型分类方法,进一步包括步骤:将一致性序列直接blast比对数据库池中的HIV一代测序序列,输出序列相似度比对结果。
根据本发明的HIV亚型分类方法,进一步包括步骤:将判断重组型和混合亚型HIV,将待测样品的二代测序reads与数据库池中的HIV二代测序数据比对,统计比对到不同亚型的reads比例,用于辅助重组型和混合亚型的判断。
如图10和11所示,根据本发明的HIV亚型分类方法,经比对后输出待测样本的分型结果以及待检测样本和最优分型结果的核酸水平相似度,0-1值越大,代表相似度越高。根据本发明的HIV亚型分类方法,经比对后输出待检测样本与该序列相比氨基酸水平的相似度;待检测样本与该序列相比核酸水平的相似度,用于分型的一致性序列的长度。
如图12所示,根据本发明的HIV亚型分类方法,对于大量样本的情况,数据库可以进行批量处理(单次处理上限为10个样本),并对每个样本单独出具分型结果报告。
如图13所示,根据本发明的HIV亚型分类方法,经比对后输出一致性序列比对公共数据库的结果,包括序列长度、列比对起始位置、序列比对终止位置、序列长度、序列比对起始位置、序列比对终止位置、错配碱基数目、比对相似度、比对打分等。
根据本发明的具体实施方式,待测样本HIV被分为B型,核酸水平相似度为98.1%,三种分型方案均显示该毒株与已知的B型HIV高度相似。
根据本发明的技术方案,可以对多达98种HIV亚型进行分类,包括11种HIV纯种病毒株和87种HIV流行重组株亚型,每一种亚型及其参考株见下表1,表1为HIV-1SubtypeDatabase分型列表,其中88-96为简单亚型,其余CRF为流行重组亚型。
表1 HIV-1Subtype Database分型列表
表2 98个亚型的亲本亚型和断点覆盖判断阈值(Distanceupper-limitofbreakpoints)
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种无细胞翻译体系、方法及产物