首页 / 专利库 / 生物防治 / 毒力 / 对宿主样本进行微生物分析的方法和装置

对宿主样本进行生物分析的方法和装置

阅读:459发布:2020-05-08

专利汇可以提供对宿主样本进行生物分析的方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 涉及 微 生物 检测领域,具体涉及一种对宿主样本进行微生物分析的方法和装置。该方法包括:(1)采用宿主基因组 数据库 ,对来自于所述宿主样本的测序数据集合进行第一过滤处理,以便从所述测序数据集合中去除能够与所述宿主基因组数据库比对上的测序数据;(2)采用同源数据库,对所述测序数据集合进行第二过滤处理,以便从所述测序数据集合中去除能够与所述同源数据库比对上的所述测序数据;(3)将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对,以便确定所述测序数据集合中来自于所述微生物的微生物测序数据。应用本发明的方法和装置可以实现宿主中微生物的快速准确分析和检测。,下面是对宿主样本进行生物分析的方法和装置专利的具体信息内容。

1.一种对宿主样本进行生物分析的方法,其特征在于,包括:
(1)采用宿主基因组数据库,对来自于所述宿主样本的测序数据集合进行第一过滤处理,以便从所述测序数据集合中去除能够与所述宿主基因组数据库比对上的测序数据,所述测序数据集合来自于对所述宿主样本进行宏基因组测序;
(2)采用同源数据库,对所述测序数据集合进行第二过滤处理,所述同源数据库包括已知的质粒序列、耐药性序列、细菌毒序列的至少一部分,以便从所述测序数据集合中去除能够与所述同源数据库比对上的所述测序数据;
(3)将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对,以便确定所述测序数据集合中来自于所述微生物的微生物测序数据;
任选地,所述宿主基因组数据库为人类基因组数据库;
任选地,所述人类基因组数据库包括人类参考基因组序列和炎黄基因组序列。
2.根据权利要求1所述的方法,其特征在于,所述微生物基因组数据库是通过下列步骤构建的:
(a)获取已知的微生物基因组序列,构建初步微生物基因组数据库,所述初步微生物基因组数据库中的微生物基因组序列包括全基因组序列信息、染色体序列信息、Scaffold序列信息、Contig序列信息的至少一部分;
(b)对所述初步微生物基因组数据库中的序列进行冗余去除,以便获得去冗余微生物基因组数据库,所述冗余去除指的是去除相似性在99%以上的序列;
(c)基于所述去冗余微生物基因组数据库中,针对存在多株基因组序列的物种,选择代表性菌株的所述微生物基因组序列,并从所述去冗余微生物基因组数据库中去除所述物种的其他菌株的所述微生物基因组序列,以便获得所述微生物基因组数据库。
3.根据权利要求2所述的方法,其特征在于,通过下列方法获得所述代表性菌株:
针对存在多株基因组序列的物种,确定每两个菌株的基因组序列之间的平均一致性;
基于所述每两个菌株的基因组序列之间的平均一致性,得到所述物种内多株基因组序列之间的相似性矩阵;
基于所述相似性矩阵,选择与其他各菌株序列平均相似性最大的菌株作为代表性菌株。
4.根据权利要求1~3中任一项所述的方法,其特征在于,在步骤(3)中进一步包括利用高频比对位点数据库对所述微生物测序数据进行第三过滤处理,以便去除比对到高频比对位点的测序数据,其中,所述高频比对位点数据库是通过下列步骤构建的:
将多个样本的宏基因组测序数据与所述微生物基因组数据库进行比对,其中所述微生物基因组被预先划分为多个预定的窗口,以便确定匹配所述窗口的所述宏基因组测序数据数目;
基于匹配所述窗口的所述宏基因组测序数据数目,确定构成所述高频比对位点数据库的多个高频比对位点;
任选地,所述多个样本与所述宿主样本属于相同的物种;
任选地,将比对频率大于5%的比对位点作为所述高频比对位点,所述比对频率为比对到比对位点的样本的数量占总样本数量的比值;
任选地,步骤(3)在将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与所述微生物基因组数据库进行比对时,进一步基于下列中的至少之一确定所述测序数据集合中来自于所述微生物的微生物测序数据:
保留所述测序数据集合中比对长度占比大于90%的序列;
保留所述测序数据集合中错配基数小于5%的序列;
保留比对特异性的序列,所述比对特异性的序列指的是统计序列比对到不同位置的比对分数,选择次优比对分数与最优比对分数的比值小于0.8的序列作为比对特异性的序列。
5.根据权利要求1~4中任一项所述的方法,其特征在于,进一步包括:
在进行步骤(1)之前,对来自于所述宿主样本的原始测序数据进行前处理,以便获得所述测序数据集合,所述前处理包括过滤去除下列序列中的至少之一:
与接头序列共有连续碱基数在10bp以上的序列;
读段长度低于预定阈值的序列;所述预定阈值优选为50~55bp;
序列中质量值小于5的碱基数与序列总碱基数的比值大于50%的序列;
任选地,所述方法进一步包括对所述微生物测序数据进行注释处理、可视化处理的至少之一;
任选地,所述注释处理选自下列至少之一:
比对序列数,所述比对序列数指在种平上指比对上该物种的序列数;
唯一比对序列数,所述唯一比对序列数指唯一比对到某物种或某属水平的序列数;
覆盖率,所述覆盖率指检测到的所述微生物核酸序列长度占所述微生物整个基因组序列长度的百分比;
覆盖深度,所述覆盖深度指基因组上覆盖范围内的碱基平均深度;
相对丰度,所述相对丰度指在种或属水平上检测到的微生物在整个样本中检测到的相同类型微生物中所占的比重;
以及分布随机性。
6.一种对宿主样本进行微生物分析的装置,其特征在于,包括:
宿主数据过滤模,所述宿主数据过滤模块采用宿主基因组数据库,对来自于所述宿主样本的测序数据集合进行第一过滤处理,以便从所述测序数据集合中去除能够与所述宿主基因组数据库比对上的测序数据,所述测序数据集合来自于对所述宿主样本进行宏基因组测序;
同源数据过滤模块,所述同源数据过滤模块与所述宿主数据过滤模块相连,所述同源数据过滤模块采用同源数据库,对所述测序数据集合进行第二过滤处理,所述同源数据库包括已知的质粒序列、耐药性序列、细菌毒力序列的至少一部分,以便从所述测序数据集合中去除能够与所述同源数据库比对上的所述测序数据;
微生物数据比对模块,所述微生物数据比对模块与所述宿主数据过滤模块或者与所述同源数据过滤模块相连,所述微生物数据比对模块将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对,以便确定所述测序数据集合中来自于所述微生物的微生物测序数据;
任选地,所述宿主基因组数据库为人类基因组数据库;
任选地,所述人类基因组数据库包括人类参考基因组序列和炎黄基因组序列。
7.根据权利要求6所述的装置,其特征在于,所述微生物基因组数据库是通过下列步骤构建的:
(a)获取已知的微生物基因组序列,构建初步微生物基因组数据库,所述初步微生物基因组数据库中的微生物基因组序列包括全基因组序列信息、染色体序列信息、Scaffold序列信息、Contig序列信息的至少一部分;
(b)对所述初步微生物基因组数据库中的序列进行冗余去除,以便获得一次处理微生物基因组数据库,所述冗余去除指的是去除相似性在99%以上的序列;
(c)基于所述一次处理微生物基因组数据库中,针对存在多株基因组序列的物种,选择代表性菌株的所述微生物基因组序列,并从所述一次处理微生物基因组数据库中去除所述物种的其他菌株的所述微生物基因组序列,以便获得所述微生物基因组数据库。
8.根据权利要求7所述的装置,其特征在于,通过下列方法获得所述代表性菌株:
针对存在多株基因组序列的物种,确定每两个菌株的基因组序列之间的平均一致性;
基于所述每两个菌株的基因组序列之间的平均一致性,得到所述物种内多株基因组序列之间的相似性矩阵;
基于所述相似性矩阵,选择与其他各菌株序列平均相似性最大的菌株作为代表性菌株。
9.根据权利要求6~8中任一项所述的装置,其特征在于,在微生物数据比对模块中进一步包括利用高频比对位点数据库对所述微生物测序数据进行第三过滤处理,以便去除比对到高频比对位点的测序数据,其中,所述高频比对位点数据库是通过下列步骤构建的:
将多个样本的宏基因组测序数据与所述微生物基因组数据库进行比对,其中所述微生物基因组被预先划分为多个预定的窗口,以便确定匹配所述窗口的所述宏基因组测序数据数目;
基于匹配所述窗口的所述宏基因组测序数据数目,确定构成所述高频比对位点数据库的多个高频比对位点;
任选地,所述多个样本与所述宿主样本属于相同的物种;
任选地,将比对频率大于5%的比对位点作为所述高频比对位点,所述比对频率为比对到比对位点的样本的数量占总样本数量的比值;
任选地,微生物数据比对模块中,在将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对时,进一步基于下列中的至少之一确定所述测序数据集合中来自于所述微生物的微生物测序数据:
保留所述测序数据集合中比对长度占比大于90%的序列;
保留所述测序数据集合中错配碱基数小于5%的序列;
保留比对特异性的序列,所述比对特异性的序列指的是统计序列比对到不同位置的比对分数,选择次优比对分数与最优比对分数的比值小于0.8的序列作为比对特异性的序列。
10.根据权利要求6~9中任一项所述的装置,其特征在于,进一步包括:
测序数据质控模块,所述测序数据质控模块与所述宿主序列过滤模块相连,所述测序数据质控模块对来自于所述宿主样本的原始测序数据进行前处理,以便获得所述测序数据集合,所述前处理包括过滤去除下列序列中的至少之一:
与接头序列共有连续碱基数在10bp以上的序列;
读段长度低于预定阈值的序列;所述预定阈值优选为50~55bp;
序列中质量值小于5的碱基数与序列总碱基数的比值大于50%的序列;
任选地,所述装置进一步包括:
数据输出模块,所述数据输出模块与所述微生物数据比对模块相连,所述数据输出模块对所述微生物测序数据进行注释处理、可视化处理的至少之一;
任选地,所述注释处理选自下列至少之一:
比对序列数,所述比对序列数指在种水平上指比对上该物种的序列数;
唯一比对序列数,所述唯一比对序列数指唯一比对到某物种或者某属水平的序列数;
覆盖率,所述覆盖率指检测到的所述微生物核酸序列长度占所述微生物整个基因组序列长度的百分比;
覆盖深度,所述覆盖深度指基因组上覆盖范围内的碱基平均深度;
相对丰度,所述相对丰度指在种或属水平上检测到的所述微生物在整个样本中检测到的相同类型微生物中所占的比重;
以及分布随机性。

说明书全文

对宿主样本进行生物分析的方法和装置

技术领域

[0001] 本发明涉及微生物检测领域,具体涉及一种对宿主样本进行微生物分析的方法和装置。

背景技术

[0002] 病原微生物在临床上的传统诊断方法对实验和技术条件要求较高、周期较长,漏检率较高,操作复杂、通量低、鉴定精度分辨率低等,这些短板,给病人造成严重的经济负担,同时也耽误了病人的最佳诊疗时间;而且滥用抗生物可能导致严重的耐药后果。
[0003] 而基于测序技术的发展,测序时间和测序成本逐渐降低,使得基于宏基因组NGS在临床上的应用成为可能。然而,基于宏基因组测序检测病原体的方法还有待进一步改进。

发明内容

[0004] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种能够快速准确对宿主样本进行微生物分析的方法,用来提高病原微生物检测的准确性。本发明通过构建高质量的参考序列库,有效提高宏基因组检测的精度。通过本发明提供的方法检测病原微生物,辅助报告解读。
[0005] 本发明是基于发明人的如下发现和研究的结果:
[0006] 本发明的发明人在研究过程中发现:基于宏基因组测序进行微生物检测的分析方法主要面向科研分析,缺乏临床针对性设计以及实践应用探索,在准确度、结果报告可读性、计算效率等方面无法满足临床应用需求,具体包含以下几方面:
[0007] A.数据库不适于临床应用。现有技术一般基于基因组公共数据库做简单收集整理,存在以下问题:1)分析计算资源要求高。如直接使用大型序列库(如nt库),导致比对或Kmer匹配时所需内存过大或计算时间过长。2)序列质量低。如未做序列质控、代表性分析、层级限定等,导致下游分析的假阳性。3)检测范围受限。如仅参考小型数据库或者针对关注病原类型(如仅针对病毒检测分析)进行收集整理,导致下游分析的假阴性。
[0008] B.检测算法准确度低:物种间共有、相似序列导致假阳性检出,如质粒、耐药基因、毒因子序列,并非是单个物种所特有,当病原数据库内的部分物种的基因组包含此类序列时,可能导致假阳性。另外,序列注释存在系统错误,包括以下原因:1)宿主序列去除不完全。由于人类基因组组装不完整性及人群多态性,过滤依然存在人源序列的残留,当病原基因组序列与人源序列相似时,会导致相应的假阳性检出;2)试剂、测序平台导致的测序错误及偏向;3)实验室污染如气溶胶导致的片段污染等。
[0009] C.结果报告可读性较差。现有技术分析结果一般为文本格式,内容及参数晦涩难懂,也难以对信息进行检索及横向比对,影响临床医生的解读准确性及效率。
[0010] 为此,本发明提供了一种对宿主样本进行微生物分析的方法,所述方法用于病原微生物的检测和确定。
[0011] 为此,根据本发明的一个方面,本发明提供了一种对宿主样本进行微生物分析的方法,包括:(1)采用宿主基因组数据库,对来自于所述宿主样本的测序数据集合进行第一过滤处理,以便从所述测序数据集合中去除能够与所述宿主基因组数据库比对上的测序数据,所述测序数据集合来自于对所述宿主样本进行宏基因组测序;(2)采用同源数据库,对所述测序数据集合进行第二过滤处理,所述同源数据库包括已知的质粒序列、耐药性序列、细菌毒力序列的至少一部分,以便从所述测序数据集合中去除能够与所述同源数据库比对上的所述测序数据;(3)将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对,以便确定所述测序数据集合中来自于所述微生物的微生物测序数据。
[0012] 通过对宿主样本进行宏基因组测序,得到测序数据集合,然后对所得到的测序数据集合进行第一过滤处理和第二过滤处理,以便将测序数据集合中的宿主基因组序列以及同源序列去除;将剩余的测序数据集合同微生物基因组数据库进行比对,从而确定来自于微生物的测序数据,用来分析确认微生物的类型。根据本发明的方法,可以快速准确用于宿主样本中微生物的分析和检测。
[0013] 在本文中,所称的“微生物”指的是肉眼难辨,有一定的形态结构,能在适宜环境中生长繁殖的细小生物的总称,不仅仅包括细菌、真菌、病毒等,还包括寄生虫。
[0014] 在本文中,所述“第一过滤处理”和“所述第二过滤处理”仅用来区分借助于不同的数据库,对测序数据集合进行过滤处理;不代表过滤处理的先后顺序。本领域技术人员可知,在来自于所述宿主样本的测序数据集合进行第一过滤处理和第二过滤处理时,可以先过滤掉宿主基因组序列,再过滤掉同源序列;也可以先过滤掉同源序列,再过滤掉宿主基因组序列;或者同时将宿主基因组序列和同源序列同时去除。
[0015] 由于质粒序列、耐药性序列、细菌毒力序列是非特异性的,即同样一条序列可能在多种微生物中同时存在,因此在鉴定微生物种类之前将这些序列去除,防止对后续微生物的鉴定造成干扰。利用同源数据库,去除掉已知的质粒序列、耐药性序列、细菌毒力序列中的一种或者几种,从而去除掉相应的重复序列,以免对于后续微生物的鉴定造成干扰。可以通过公共数据库下载质粒(例如从NCBI中下载)序列、耐药性序列(利用从CARD中下载)、以及细菌毒力序列(从VFDB中下载),并将信息不明确的基因序列删除得到所述同源数据库,所述同源数据库也可以称作同源序列库。其中CARD(The Comprehensive Antibiotic Resistance Database)是耐药性序列数据库,VFDB(The virulence factors database)是细菌毒力序列数据库。
[0016] 根据本发明的实施例,以上对宿主样本进行微生物分析的方法可以进一步附加如下技术特征:
[0017] 在本发明的一些实施例中,所述宿主基因组数据库为人类基因组数据库。利用本发明的方法可以对人体内的病原微生物进行分析和确定,以便快速准确获得微生物的信息。
[0018] 在本发明的一些实施例中,所述人类基因组数据库包括人类参考基因组序列和炎黄基因组序列。所述人类参考基因组序列可以在NCBI官方网站下载获得,例如可以是人类参考基因组hg38;所述炎黄基因组序列可以通过从炎黄基因组公共数据库官方网站下载获得。
[0019] 在本发明的一些实施例中,所述微生物基因组数据库是通过下列步骤构建的:(a)获取已知的微生物基因组序列,构建初步微生物基因组数据库,所述微生物基因组序列包括全基因组序列信息、染色体序列信息、Scaffold序列信息、Contig序列信息的至少一部分;(b)对所述初步微生物基因组数据库中的序列进行冗余去除,以便获得去冗余微生物基因组数据库,所述冗余去除指的是去除相似性在99%以上的序列;(c)基于所述去冗余微生物基因组数据库中,针对存在多株基因组序列的物种,选择代表性菌株的所述微生物基因组序列,并从所述去冗余微生物基因组数据库中去除所述物种的其他菌株的所述微生物基因组序列,以便获得所述微生物基因组数据库。从公共数据库中下载的基因组序列,可能存在冗余(即完全一样或者相似性在99%以上)的基因组,首先去除冗余,然后再利用剩余的数据库中的数据筛选代表性菌株。因为如果使用全部菌株序列,数据库会非常庞大,无法满足实际应用。而通过挑选一条代表性最优的菌株序列,能够有效压缩数据库且提高参考基因组的代表性,是计算资源、分析精度、分析时间等多方面考量、权衡后的有效方案。
[0020] 由于现有的微生物基因组数据库中记载的信息存在冗余,导致将测序数据比对到已有的微生物基因组数据库上时,会影响对比的效率和比对的精确度。为此,根据本发明的实施例,本发明利用已知的微生物基因组序列,通过筛选整理,对其中的非代表性菌株的序列以及冗余序列进行去除,构建得到适于微生物测序数据进行比对的微生物基因组数据库。
[0021] 在本发明的一些实施例中,通过下列方法获得所述代表性菌株:针对存在多株基因组序列的物种,确定每两个菌株的基因组序列之间的平均一致性;基于所述每两个菌株的基因组序列之间的平均一致性,得到所述物种内多株基因组序列之间的相似性矩阵;基于所述相似性矩阵,选择与其他各菌株序列平均相似性最大的菌株作为代表性菌株。
[0022] 在本发明的一些实施例中,在步骤(3)中进一步包括利用高频比对位点数据库对所述微生物测序数据进行第三过滤处理,以便去除比对到高频比对位点的测序数据,其中,所述高频比对位点数据库是通过下列步骤构建的:将多个样本的宏基因组测序数据与所述微生物基因组数据库进行比对,其中所述微生物基因组被预先划分为多个预定的窗口,以便确定匹配所述窗口的所述宏基因组测序数据数目;基于所述匹配所述窗口的所述宏基因组测序数据数目,确定构成所述高频比对位点数据库的多个高频比对位点。
[0023] 由于宿主基因组序列例如人类基因组数据库中通常存在一些未测定区域,同时,基因组中存在一定的个体差异(多态性),这些因素会导致即便将宏基因组测序数据中的宿主基因组序列去除后,仍然会残余一些特定的宿主序列,这些序列会保留到下游注释到微生物基因组中。如果微生物基因组序列与这些保留下来的序列相似,会导致假阳性检出,即实际为宿主核酸序列被错误注释成微生物。此外,在测序过程中一些系统错误例如试剂、测序平台导致的测序错误或者偏向,实验室的背景污染等,也会产生相同序列并且在实验中多次出现。因此,通过利用高频比对位点数据库可以将这些序列进行有效去除,获得精确的测定结果。
[0024] 在本发明的一些实施例中,所述多个样本与所述宿主样本属于相同的物种。以此来确定相同物种中存在的高频比对位点。
[0025] 在本发明的一些实施例中,将比对频率大于5%的比对位点作为所述高频比对位点,所述比对频率为比对到位点的样本的数量占总样本数量的比值。
[0026] 在本发明的一些实施例中,步骤(3)在将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对时,进一步基于下列中的至少之一确定所述测序数据集合中来自于所述微生物的微生物测序数据:
[0027] 保留所述测序数据集合中比对长度占比大于90%的序列;
[0028] 保留所述测序数据集合中错配基数小于5%的序列;
[0029] 保留比对特异性的序列,所述比对特异性的序列指的是统计序列比对到不同位置的比分,选择次优比对分数与最优比对分数的比值小于0.8的序列作为比对特异性的序列。在利用软件,例如bwa软件将一条序列比对到一个位置时,在比对的过程中,可以计算一条序列比对到某个位置的比对分数,选择最优比对分数以及次优比对分数(仅次于最优比对分数)的序列,最优比对分数与次优比对分数相差越大,表明序列的特异性越强;以次优比对分数与最优比对分数的比值小于0.8的序列作为比对特异性的序列。
[0030] 在本发明的一些实施例中,所述方法进一步包括:
[0031] 在进行步骤(1)之前,对来自于所述宿主样本的原始测序数据进行前处理,以便获得所述测序数据集合,所述前处理包括过滤去除下列序列中的至少之一:与接头序列共有连续碱基数在10bp以上的序列;读段长度低于预定阈值的序列;序列中质量值小于5的碱基数与序列总碱基数的比值大于50%的序列。
[0032] 在本发明的一些实施例中,所述预定阈值为50~55bp。
[0033] 在本发明的一些实施例中,所述方法进一步包括对所述微生物测序数据进行注释处理、可视化处理的至少之一。
[0034] 在本发明的一些实施例中,所述注释处理选自下列至少之一:比对序列数,所述比对序列数指在种平上指比对上该物种的序列数;唯一比对序列数,所述唯一比对序列数指唯一比对到某物种或某属水平的序列数;覆盖率,所述覆盖率指检测到的所述微生物核酸序列长度占所述微生物整个基因组序列长度的百分比;覆盖深度,所述覆盖深度指基因组上覆盖范围内的碱基平均深度;相对丰度,所述相对丰度指在种或属水平上检测到的微生物在整个样本中检测到的相同类型微生物中所占的比重;以及分布随机性。
[0035] 根据本发明的另一方面,本发明提供了一种对宿主样本进行微生物分析的装置,包括:
[0036] 宿主数据过滤模,所述宿主数据过滤模块采用宿主基因组数据库,对来自于所述宿主样本的测序数据集合进行第一过滤处理,以便从所述测序数据集合中去除能够与所述宿主基因组数据库比对上的测序数据,所述测序数据集合来自于对所述宿主样本进行宏基因组测序;
[0037] 同源数据过滤模块,所述同源数据过滤模块与所述宿主数据过滤模块相连,所述同源数据过滤模块采用同源数据库,对所述测序数据集合进行第二过滤处理,所述同源数据库包括已知的质粒序列、耐药性序列、细菌毒力序列的至少一部分,以便从所述测序数据集合中去除能够与所述同源数据库比对上的所述测序数据;
[0038] 微生物数据比对模块,所述微生物数据比对模块与所述宿主数据过滤模块或者与所述同源数据过滤模块相连,所述微生物数据比对模块将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对,以便确定所述测序数据集合中来自于所述微生物的微生物测序数据。
[0039] 根据本发明的实施例,以上对宿主样本进行微生物分析的装置可以进一步附加如下技术特征:
[0040] 在本发明的一些实施例中,所述宿主基因组数据库为人类基因组数据库。
[0041] 在本发明的一些实施例中,所述人类基因组数据库包括人类参考基因组序列和炎黄基因组序列。
[0042] 在本发明的一些实施例中,所述微生物基因组数据库是通过下列步骤构建的:(a)获取已知的微生物基因组序列,构建初步微生物基因组数据库,所述初步微生物基因组数据库中的微生物基因组序列包括全基因组序列信息、染色体序列信息、Scaffold序列信息、Contig序列信息的至少一部分;(b)对所述初步微生物基因组数据库中的序列进行冗余去除,以便获得去冗余微生物基因组数据库,所述冗余去除指的是去除相似性在99%以上的序列;(c)基于所述去冗余微生物基因组数据库中,针对存在多株基因组序列的物种,选择代表性菌株的所述微生物基因组序列,并从所述去冗余微生物基因组数据库中去除所述物种的其他菌株的所述微生物基因组序列,以便获得所述微生物基因组数据库;
[0043] 在本发明的一些实施例中,通过下列方法获得所述代表性菌株:针对存在多株基因组序列的物种,确定每两个菌株的基因组序列之间的平均一致性;基于所述每两个菌株的基因组序列之间的平均一致性,得到所述物种内多株基因组序列之间的相似性矩阵;基于所述相似性矩阵,选择与其他各菌株序列平均相似性最大的菌株作为代表性菌株。
[0044] 在本发明的一些实施例中,在微生物数据比对模块中进一步包括利用高频比对位点数据库对所述微生物测序数据进行第三过滤处理,以便去除比对到高频比对位点的测序数据,其中,所述高频比对位点数据库是通过下列步骤构建的:将多个样本的宏基因组测序数据与所述微生物基因组数据库进行比对,其中所述微生物基因组被预先划分为多个预定的窗口,以便确定匹配所述窗口的所述宏基因组测序数据数目;基于匹配所述窗口的所述宏基因组测序数据数目,确定构成所述高频比对位点数据库的多个高频比对位点。
[0045] 在本发明的一些实施例中,所述多个样本与所述宿主样本属于相同的物种。
[0046] 在本发明的一些实施例中,将比对频率大于5%的比对位点作为所述高频比对位点,所述比对频率为比对到所述比对位点的样本数占总样本数的比值。
[0047] 在本发明的一些实施例中,微生物数据比对模块中,在将所述经过第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对时,进一步基于下列中的至少之一确定所述测序数据集合中来自于所述微生物的微生物测序数据:保留所述测序数据集合中比对长度占比大于90%的序列;保留所述测序数据集合中错配碱基数小于5%的序列;保留比对特异性的序列,所述比对特异性的序列指的是统计序列比对到不同位置的比对分数,选择次优比对分数与最优比对分数的比值小于0.8的序列作为比对特异性的序列。
[0048] 在本发明的一些实施例中,所述装置进一步包括:测序数据质控模块,所述测序数据质控模块与所述宿主序列过滤模块相连,所述测序数据质控模块对来自于所述宿主样本的原始测序数据进行前处理,以便获得所述测序数据集合,所述前处理包括过滤去除下列序列中的至少之一:
[0049] 与接头序列共有连续碱基数在10bp以上的序列;
[0050] 读段长度低于预定阈值的序列;优选地,所述预定阈值为50~55bp;
[0051] 序列中质量值小于5的碱基数与序列总碱基数的比值大于50%的序列。
[0052] 在本发明的一些实施例中,所述装置进一步包括:数据输出模块,所述数据输出模块与所述微生物数据比对模块相连,所述数据输出模块对所述微生物测序数据进行注释处理、可视化处理的至少之一。
[0053] 在本发明的一些实施例中,所述注释处理选自下列至少之一:
[0054] 比对序列数,所述比对序列数指在种水平上指比对上该物种的序列数。
[0055] 唯一比对序列数,所述唯一比对序列数指唯一比对到某物种(属)的序列数。
[0056] 覆盖率,所述覆盖率指检测到的所述微生物核酸序列长度占所述微生物整个基因组序列长度的百分比。
[0057] 覆盖深度,所述覆盖深度指基因组上覆盖范围内的碱基平均深度。
[0058] 相对丰度,所述相对丰度指在种(属)水平上检测到的所述微生物在整个样本中检测到的相同类型微生物中所占的比重。
[0059] 以及分布随机性。
[0060] 本发明所取得的有益效果为:本发明所提供的对宿主样本进行微生物分析的方法和装置,其自动化程度高,降低了实验和技术条件要求,提高检测通量、范围及精度。尤其适用于利用宏基因组测序数据进行微生物高精度分析。
[0061] 而且本发明所提供的方法通过以下几方面提高了微生物检测的准确度、结果报告可读性、计算效率:
[0062] (1)构建高质量的基因组数据库。通过基因组序列平均相似性计算或聚类分析,挑选细菌、真菌、病毒、寄生虫四大类型微生物在种水平的典型代表性序列,扩大了检测范围的同时减少了序列库容量,提高了下游比对分析的计算效率及准确性。
[0063] (2)开发高精度检测算法:通过同源序列过滤、高频比对位点对照库过滤、使用信息熵值及深度比值的方法进行检出序列分布随机性分析等方法,降低系统错误及污染对检测的影响,提高分析准确度。
[0064] (3)结果报告综合图形化:实现单样本检测参数、全基因组分布、批内检出的图形化报告输出,提高解读准确性及缩短解读周期。附图说明
[0065] 图1是根据本发明的实施例提供的相似度网络图。
[0066] 图2是根据本发明的实施例提供的毛首鞭型虫全基因组比对频率分布图。
[0067] 图3是根据本发明的实施例提供的可视化展示图。
[0068] 图4是根据本发明的实施例提供的样本17S0270988部分检出物种的参数图形化结果图。
[0069] 图5是根据本发明的实施例提供的Nocardia_farcinica物种在批次内所有样本的检出结果图。
[0070] 图6是根据本发明的实施例提供的Nocardia_farcinica物种检出序列的基因组分布图。
[0071] 图7是根据本发明的实施例提供的对宿主样本进行微生物分析的装置的示意图。
[0072] 图8是根据本发明的实施例提供的对宿主样本进行微生物分析的装置的示意图。
[0073] 图9是根据本发明的实施例提供的对宿主样本进行微生物分析的装置的示意图。

具体实施方式

[0074] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0075] 构建微生物基因组数据库
[0076] 本发明提供了一种构建微生物基因组数据库的方法,包括:(a)获取已知的微生物基因组序列,构建初步微生物基因组数据库,所述初步微生物基因组数据库中的微生物基因组序列包括全基因组序列信息、染色体序列信息、Scaffold序列信息、Contig序列信息的至少一部分;(b)对所述初步微生物基因组数据库中的序列进行冗余去除,以便获得去冗余微生物基因组数据库,所述冗余去除指的是去除相似性在99%以上的序列;(c)基于所述去冗余微生物基因组数据库中,针对存在多株基因组序列的物种,选择代表性菌株的所述微生物基因组序列,并从所述去冗余微生物基因组数据库中去除所述物种的其他菌株的所述微生物基因组序列,以便获得所述微生物基因组数据库。
[0077] 在本发明的一种具体实施方式中,通过下列方法获得所述代表性菌株:针对存在多株基因组序列的物种,确定每两个菌株的基因组序列之间的平均一致性;基于所述每两个菌株的基因组序列之间的平均一致性,得到所述物种内多株基因组序列之间的相似性矩阵;基于所述相似性矩阵,选择与其他各菌株序列平均相似性最大的菌株作为代表性菌株。
[0078] 在本文中,所述“平均一致性”指的是两个菌株的基因组序列之间相似性的大小。将菌株A的基因组切割成多条短序列,比对到菌株B的基因组参考序列上,统计比对长度占比大于90%,且错配碱基数小于5%的所有序列,计所有序列总长度为RLS,总比对长度为MLS,总错配碱基数为ENS,那么A到B的平均一致性为:(MLS-ENS)/RLS。
[0079] 在本文中,所述“相似性矩阵”指的是将所有菌株按照矩阵排列,各行各列分别对应不同菌株的平均一致性大小。一种微生物有M个菌株,并按1,2,3,…M排序,计算两两菌株之间的平均一致性,得到二维M行M列的相似性矩阵。矩阵中第i行第j列的值,是第i个菌株到第j个菌株的平均一致性。根据相似性矩阵,第i行的平均值,代表第i个菌株与其他菌株的相似程度,相应的数值最大的菌株为相似性最大的菌株,数值最小的菌株对应相似性最小的菌株。
[0080] 将以上各值,做成相似性网络示意图,如图1所示。其中,每个圆球代表一各菌株,菌株间相似性如果大于95%则存在连接线,粗细代表相似性的高低(越粗代表相似性越大)。该图示意实心球所示菌株与其它菌株的平均相似性最高,作为数据库中最终的代表性菌株。
[0081] 根据本发明的实施例,所述已知的微生物基因组序列可以从NCBI、PATRIC、EuPathDB公共数据库下载获得。
[0082] 对宿主样本进行微生物分析的方法
[0083] 根据本发明的另一个方面,本发明提供了一种对宿主样本进行微生物分析的方法,包括:(1)采用宿主基因组数据库,对来自于所述宿主样本的测序数据集合进行第一过滤处理,以便从所述测序数据集合中去除能够与所述宿主基因组数据库比对上的测序数据,所述测序数据集合来自于对所述宿主样本进行宏基因组测序;(2)采用同源数据库,对所述测序数据集合进行第二过滤处理,所述同源数据库包括已知的质粒序列、耐药性序列、细菌毒力序列的至少一部分,以便从所述测序数据集合中去除能够与所述同源数据库比对上的所述测序数据;(3)将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对,以便确定所述测序数据集合中来自于所述微生物的微生物测序数据。
[0084] 根据本发明的实施例,所述宿主基因组数据库包含从NCBI官方网站下载人类参考基因组(hg38)以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。样本核酸主要组成部分为人核酸,为提高病原微生物检测精度及效率,一般先将测序数据比对人参考基因组序列并过滤后,再进行病原微生物序列的比对、注释。因此,将步骤(1)中过滤后的序列比对到宿主参考基因组文件上。当序列比对长度占比达到90%时将被过滤。
[0085] 根据本发明的实施例,所述同源序列文件由同样序列库整理获得。根据本发明的实施例,可以从从公共数据库下载质粒(NCBI)、耐药(CARD)及细菌毒力(VFDB)序列,并对信息不明确的基因序列进行删除,由此获得的同源序列库用做同源序列的过滤。当序列比对长度占比达到90%时将被过滤。
[0086] 根据本发明的实施例,在步骤(3)中去除高频比对位点数据。宿主序列过滤效果依赖于序列库的完整性,但由于人类基因组组装序列依然存在未测定区域,同时,基因组存在一定的个体差异(多态性),这些因素会导致去宿主模块会剩余特定的人源序列,保留到下游病原注释中。如果病原微生物基因组序列与这些为测定区域相似时,会导致假阳性检出,即实际是人源核酸序列被错误注释成病原微生物。此外,一些系统错误如试剂、测序平台导致的测序错误或者偏向、实验室的背景污染等,会产生相同序列并且在实验中多次出现。基于这个特点,过滤比对上(4)中的高频(>5%)比对位点序列以此降低检测假阳性。
[0087] 本文中“高频比对位点”是指在样本库(历史样本)中高频比对的物种基因组位置,主要由测序偏向性、比对系统错误、同源相似性等原因造成的比对系统错误。因此需要过滤掉。其中高频比对位点可以通过高频比对位点库整理得到。高频比对位点库具体构建方法:选择N个临床样本,将它们的原始测序数据,去除人源序列后,比对到微生物基因组数据库中。其中所述的微生物基因组数据库被划分为多个窗口(位点),统计每个窗口的频率:根据比对结果,如果有k个样本比对到这个窗口,那么这个窗口的频率就是k/N。相应地,高频比对位点库过滤具体方法为:对一个新的样本,在去除人源序列后,将剩余数据比对到微生物基因组数据库,如果一条序列的比对位置所在窗口频率大于5%,那么过滤掉这条序列的比对结果,不参与后续统计分析。使用比对软件将30例以上样本宏基因组测序数据比对到微生物基因组数据库,统计各微生物基因组上固定窗口在所有样本中存在比对序列的频率,并获得高频比对位点库用于下游过滤高频比对位点序列。如图2示出了毛首鞭型虫的全基因组的部分基因组位置,其比对频率分布如图2所示,从图2可以看出,部分基因组区域在历史样本中高频检出比对序列。
[0088] 根据本发明的实施例,步骤(3)中在将所述经过第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对时,基于下列的至少之一确定所述测序数据集合中来自与所述微生物的微生物测序数据:保留测序数据集合中比对长度占比大于90%的序列,即保留单条序列比对上参考序列的长度大于90%序列全长的序列;保留测序数据集合中错配碱基数小于5%的序列,即比对上部分,由于测序错误产生与参考序列不一致的碱基数比例小于5%的序列;保留比对特异性的序列,所述比对特异性的序列指的是统计序列比对到不同位置的比对分数,选择次优比对分数与最优比对分数的比值小于0.8的序列作为比对特异性的序列。由于基因组存在重复、高相似片段,不同物种间也存在同源相似序列,因此,这些区域测序产生的序列将产生多个比对分值相同或相近的结果。根据多比对结果的分值差比(即次优比对除以最优比对小于0.8)进行特异性比对序列筛选,获得“唯一”比对序列。例如在利用bwa软件进行比对的过程中,比对结果中,类似AS:i:50标记中(其中AS在bwa软件中代表最优比对分数,i表示指标类型为整数),50即最优比对分数;
类似XS:i:45标记中(其中XS即代表次优比对分数),45即次优比对分数。具体原理如下:如果一条序列能比对到数据库中多个位置,比对软件会给每个比对位置计算得分,再将排名最高的两个得分作为最优比对分数和次优比对分数,这两个分数是可以相等的。我们要求次优比对与最优比对的“比值”小于0.8来定义最优比对足够特异。
[0089] 根据本发明的实施例,所述方法进一步包括:在进行步骤(1)之前,对来自于所述宿主样本的原始测序数据进行前处理,以便获得所述测序数据集合,所述前处理包括过滤去除下列序列中的至少之一:
[0090] 与接头序列共有连续碱基数在10bp以上的序列;即如果一条序列中有大于10bp的连续碱基片段和接头序列的片段相同,则过滤掉该序列;
[0091] 读段长度低于预定阈值的序列;优选地,所述预定阈值为50~55bp;
[0092] 序列中质量值小于5的碱基数与序列总碱基数的比值大于50%的序列。测序获得的数据,每个碱基对应一个质量值,如果序列长度为N,质量值小于5的碱基的个数为K,那么如果k/N>50%,则过滤掉该序列。
[0093] 本文中,所称的原始测序数据通过对待测样品的核酸序列进行测序文库制备、上机测序获得。根据本发明的实施例,获取所述测序数据,包括:获取待测样本中的核酸,制备所述核酸的测序文库,对所述测序文库进行测序。测序文库的制备方法根据所选择的测序方法的要求进行,测序方法依据所选的测序平台的不同,可选择但不限于Illumina公司的Hisq2000/2500测序平台、Life Technologies公司的Ion Torrent平台、BGI的BGISEQ平台和单分子测序平台,测序方式可以选择单端测序,也可以选择双末端测序,获得的下机数据是测读出来的片段,称为读段(reads)。
[0094] 所称的“比对上”意同匹配。具体比对时,可以利用已知比对软件进行,例如SOAP、BWA和TeraMap等,本实施方式对此不作限制。在比对过程中,根据比对参数的设置,一对或一条读段最多允许有n个碱基错配(mismatch),例如设置n为1或2,若读段中有超过n个碱基发生错配,则视为该对读段无法比对到参考序列,或者,若错配的n个碱基全部位于读段对中的一个读段,则视为该读段对中的该读段无法比对到参考序列。
[0095] 根据本发明的具体实施方式,所述对宿主样本微生物进行分析的方法还可以进一步包括:对所述微生物测序数据进行注释分析或者可视化处理。其中,所述注释分析可以包括下列中的一种或者几种:
[0096] 比对序列数(MRN):在种水平指比对上该物种的序列数。
[0097] 唯一比对序列数(SMRN):唯一比对到某物种或某属水平的序列数。
[0098] 覆盖率(CovRate):指检测到的该微生物核酸序列长度占该微生物整个基因组序列长度的百分比。
[0099] 覆盖深度(CovDepth):指基因组上覆盖范围内的碱基平均深度。
[0100] 相对丰度(Re_Abu):在种(属)水平上检测到的该微生物在整个样本中检测到的相同类型微生物中所占的比重。
[0101] 分布随机性:宏基因组测序为枪法随机测序,真阳性病原微生物的测序深度符合泊松分布模型。本方法基于比对序列数量及全基因组的比对位置分布,计算检出病原的理论覆盖深度(公式一)与实际深度的比值Depth_ratio(即下文的深度比值),以及检出序列在全基因组上的分布信息熵Shannon_Index(公式二,即下文的信息熵值)来进行假阳性识别。
[0102] 公式一:理论深度:
[0103] 其中,公式一中,N代表该基因组的测序碱基数,L代表该基因组的长度,e表示自然常数。
[0104] 公式二:信息熵:
[0105] 其中公式二中,代表将基因组平均划分为n个区域,Pi为第i个区域的比对序列数占比。
[0106] 根据本发明的实施例,所述可视化处理也称可视化分析,可以包括以下几方面:方面一:将下机总数据量和处理之后各部分数据可视化展示,用于判别样本数据量是否符合标准;方面二:病原检查结果可视化,将病原检测结果中的各个参数展示在一张图上,用于判断假阳性检出;并统计同批次样本中共同检出的病原信息,判断是否存在批次内污染情况等。方面三:画出每个检出病原的reads分布图,通过分布随机性判断检出可信度。
[0107] 由此,通过利用本发明的方法对宿主样本进行微生物分析,获得宿主样本中病原微生物的数据,生成相应的报告。例如可以基于latex语言自动化生成tex格式报告并转换成pdf文档格式的检测分析报告,报告展示内容可以包括受检者基本信息,临床信息,样本信息,检测结果,结果说明,疑似背景微生物列表,参考文献等。其中受检者基本信息:可以包括姓名,型别,年龄,住院号,床号等。临床信息:包括临床表现,临床检测(WBC、淋巴细胞、中性粒细胞、CRP、PCT、培养结果、鉴定结果、镜检结果),临床诊断,重点关注病原,抗感染用药等情况。样本信息:送检单位,科室,送检医生,样品采集日期,收样日期,报告日期,样品编号,样品类型,样品体积等。检测结果:所列物种均是该样本本次检测中所检测到的微生物,以细菌、病毒、真菌、寄生虫、分支杆菌及非典型病原体进行分类,分别按照检出序列数由高到底进行排序,排名靠前者,其相对含量较高。结果说明:结合检测结果中列出的病原微生物提供解读数据库中的病原致病信息简介。疑似背景微生物列表:列出检测到的背景微生物并放于附录中作为参考,其中背景微生物就是在样本库(历史样本)中检测频率大于50%且致病性较低的微生物。参考文献:结果说明所参考的文献信息。
[0108] 对宿主样本进行微生物分析的装置
[0109] 根据本发明的另一方面,本发明提供了一种对宿主样本进行微生物分析的装置。根据本发明的具体实施例,所述装置包括宿主数据过滤模块、同源数据过滤模块、微生物数据比对模块,所述微生物数据比对模块与所述宿主数据过滤模块或者与所述同源数据过滤模块相连。如图7所示,同源数据过滤模块与宿主数据过滤模块相连,微生物数据比对模块与同源数据过滤模块相连。所述宿主数据过滤模块采用宿主基因组数据库,对来自于所述宿主样本的测序数据集合进行第一过滤处理,以便从所述测序数据集合中去除能够与所述宿主基因组数据库比对上的测序数据,所述测序数据集合来自于对所述宿主样本进行宏基因组测序;所述同源数据过滤模块采用同源数据库,对所述测序数据集合进行第二过滤处理,所述同源数据库包括已知的质粒序列、耐药性序列、细菌毒力序列的至少一部分,以便从所述测序数据集合中去除能够与所述同源数据库比对上的所述测序数据;微生物数据比对模块将经过所述第一过滤处理和所述第二过滤处理的所述测序数据集合与微生物基因组数据库进行比对,以便确定所述测序数据集合中来自于所述微生物的微生物测序数据。
[0110] 根据本发明的具体实施例,所述装置进一步包括测序数据质控模块,如图8所示,所述测序数据质控模块与所述宿主序列过滤模块相连,所述测序数据质控模块对来自于所述宿主样本的原始测序数据进行前处理,以便获得所述测序数据集合。
[0111] 根据本发明的具体实施例,所述装置进一步包括数据输出模块,如图9所示,所述数据输出模块与所述微生物数据比对模块相连,所述数据输出模块对所述微生物测序数据进行注释处理、可视化处理的至少之一。
[0112] 下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
[0113] 实施例1
[0114] 从医院获得103例临床感染样本,其中已知阳性病原63个。使用BGISEQ-50测序平台测序,获得原始测序数据,然后分别使用本发明方法及对照方法进行分析。
[0115] 一、实施本发明方法
[0116] 利用如下方法对原始测序数据进行分析:
[0117] (1)数据质控
[0118] 从三方面对原始测序数据进行过滤:
[0119] 方面一:过滤与接头序列共有连续碱基数在10bp以上的序列。
[0120] 方面二:过滤读长低于一定阈值(默认50bp)的序列。
[0121] 方面三:过滤掉质量值小于5的碱基数与序列总碱基数的比值大于50%的序列。
[0122] (2)宿主序列去除
[0123] 将步骤(1)中过滤后的序列比对到宿主参考基因组文件上,当序列比对长度占比达到90%时将被过滤。宿主基因组数据库包含从NCBI官方网站下载人类参考基因组(hg38)以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。
[0124] (3)同源序列去除
[0125] 将(2)中剩余序列比对到同源序列文件上,当序列比对上的长度占比达到90%时,该序列将被过滤。其中,同源序列文件由同样序列库整理获得。可以从从公共数据库下载质粒(NCBI)、耐药(CARD)及细菌毒力(VFDB)序列,并对信息不明确的基因序列进行删除。由此获得的同源序列库用做同源序列的过滤。
[0126] (4)病原库比对及质控
[0127] 首先按照如下方法获得微生物基因组数据库,备用。
[0128] 从NCBI、PATRIC、EuPathDB公共数据库下载病原微生物基因组序列,并从中筛选整理搭建起临床适用的病原微生物检测数据库。整理方法如下:
[0129] 方面一:按照完整度优先级,从高至低筛选基因组标签为Complete Genome/Chromosome/Scaffold/Contig序列;
[0130] 方面二:对序列完全一致或高度相似(指的是相似性在99%以上)的基因组序列进行冗余去除。
[0131] 方面三:对一个基因组进行序列分割得到模拟序列,通过比对软件快速比对到另一个基因组,根据比对结果得到两个基因组之间的平均一致性,得到同物种内多株基因组序列之间的相似性矩阵,最终选择与其它各株序列平均相似性最大的一株基因组作为代表序列。
[0132] 由此获得微生物基因组数据库。
[0133] 然后使用比对软件将30例以上样本宏基因组测序数据比对到所获得的微生物基因组数据库中,统计各微生物基因组上固定窗口在所有样本中存在比对序列的频率,并获得高频比对位点库用于下游过滤高频比对位点序列。
[0134] 使用比对软件将(3)中剩余序列比对到微生物基因组数据库(细菌、真菌、寄生虫、病毒),比对结果使用samtools进行比对结果排序以及PCR重复去除,去重后的比对结果进行质量控制,按照以下筛选原则获得高质量比对结果:
[0135] 原则一:保留比对长度占比大于90%的序列:即单条序列比对上参考序列的长度等于90%序列全长。
[0136] 原则二:保留错配碱基数小于5%的序列:即比对上部分,由于测序错误产生与参考序列不一致的碱基数比例小于5%。
[0137] 原则三:保留比对特异性的序列:由于基因组存在重复、高相似片段,不同物种间也存在同源相似序列,因此,这些区域测序产生的序列将产生多个比对分值相同或相近的结果。根据多比对结果的分值差比(即次优比对分数除以最优比对分数小于0.8)进行特异性比对序列筛选。
[0138] 由此,基于原则一、原则二和原则三所获得的序列即为唯一比对序列。
[0139] 原则四:过滤高频比对位点序列:过滤比对上(4)中的高频(>5%)比对位点序列以此降低检测假阳性。
[0140] 将本发明方法各步骤流程整合为一个软件包,命名为PMFISH,本软件的运行环境为Unix/Linux操作系统,通过Unix/Linux命令行运行。
[0141] 具体操作步骤如下:
[0142] 1.在LINUX操作系统计算机终端中输入以下命令:
[0143] PMFISH[0144] PMFISH命令行参数含义:
[0145] 指定的参数配置文件,文件中涵盖了所有的分析参数。
[0146] 样本信息,包含批次内所有样本的编号、类型、测序数据文件。
[0147] 结果的输出目录
[0148] 2.待分析数据:
[0149] 测序数据:103例样本的测序Fastq文件。
[0150] 数据库:Host.fa(宿主物种参考序列),Homo.fa(同源序列库),Bacteria.fa(细菌物种的代表序列),Virus.fa(病毒物种的代表序列),Fungi.fa(真菌物种的代表序列),Protozoa.fa(寄生虫物种的代表序列)、HighFreqMap.pos(各物种高频比对位点库)。
[0151] 样品初始信息(sample information):样本编号,样本类型,样本测序数据。
[0152] (5)病原注释分析
[0153] 根据(4)中的病原微生物参考基因组数据库的比对结果,对检出病原微生物统计以下指标:
[0154] 比对序列数(MRN):在种水平指比对上该物种的序列数。
[0155] 唯一比对序列数(SMRN):唯一比对到某物种(属)的序列数。
[0156] 覆盖率(CovRate):指检测到的该微生物核酸序列长度占该微生物整个基因组序列长度的百分比。
[0157] 覆盖深度(CovDepth):指基因组上覆盖范围内的碱基平均深度。
[0158] 相对丰度(Re_Abu):在种(属)水平上检测到的该微生物在整个样本中检测到的相同类型微生物中所占的比重。
[0159] 分布随机性:宏基因组测序为鸟枪法随机测序,真阳性病原微生物的测序深度符合泊松分布模型。本方法基于比对序列数量及全基因组的比对位置分布,计算检出病原的理论覆盖深度(公式一)与实际深度的比值Depth_ratio,以及检出序列在全基因组上的分布信息熵Shannon_Index(公式二)来进行假阳性识别。
[0160] 公式一:理论深度:
[0161] 公式二:信息熵:
[0162] (6)结果可视化
[0163] 包括以下几方面:
[0164] 方面一:将下机总数据量和处理之后各部分数据可视化展示,用于判别样本数据量是否符合标准。如下图3。
[0165] 方面二:病原检查结果可视化,将病原检测结果中的各个参数展示在一张图上,用于判断假阳性检出(如图4);并统计同批次样本中共同检出的病原信息,判断是否存在批次内污染情况(如图5)。
[0166] 方面三:画出每个检出病原的reads分布图,通过分布随机性判断检出可信度。(如图6)
[0167] (7)报告产生
[0168] 基于latex语言自动化生成tex格式报告并转换成pdf文档格式的检测分析报告,报告展示内容包含以下几方面:
[0169] 受检者基本信息:包括姓名,型别,年龄,住院号,床号等。
[0170] 临床信息:包括临床表现,临床检测(WBC、淋巴细胞、中性粒细胞、CRP、PCT、培养结果、鉴定结果、镜检结果),临床诊断,重点关注病原,抗感染用药等情况。
[0171] 样本信息:送检单位,科室,送检医生,样品采集日期,收样日期,报告日期,样品编号,样品类型,样品体积等。
[0172] 检测结果:所列物种均是该样本本次检测中所检测到的微生物,以细菌、病毒、真菌、寄生虫、分支杆菌及非典型病原体进行分类,分别按照检出序列数由高到底进行排序,排名靠前者,其相对含量较高。
[0173] 结果说明:结合检测结果中列出的病原微生物提供解读数据库中的病原致病信息简介。
[0174] 疑似背景微生物列表:列出检测到的背景微生物并放于附录中。
[0175] 参考文献:结果说明所参考的文献信息。
[0176] 二、对照方法实施
[0177] 为更好测评本发明关键技术效果,对照方法为ControlTest,定义如下:使用本发明构建的相同数据库及比对软件,在本发明基础上屏蔽以下关键技术:(1)同源序列过滤、(2)高频比对位点对照库过滤、(3)使用信息熵值及深度比值方法进行低随机性检出过滤。对照方法的运行环境为Unix/Linux操作系统,通过Unix/Linux命令行运行。
[0178] 具体操作步骤如下:
[0179] 在LINUX操作系统计算机终端中输入以下命令:
[0180] ControlTest
[0181] ControlTest命令行参数含义:
[0182] 指定的参数配置文件,文件中涵盖了所有的分析参数。
[0183] 样本信息,包含批次内所有样本的编号、类型、测序数据文件。
[0184] 结果的输出目录
[0185] 2.待分析数据:
[0186] 测序数据:103例样本的测序Fastq文件。
[0187] 数据库:Host.fa(宿主物种参考序列),Bacteria.fa(细菌物种的代表序列),Virus.fa(病毒物种的代表序列),Fungi.fa(真菌物种的代表序列),Protozoa.fa(寄生虫物种的代表序列)。
[0188] 样品初始信息(sample information):样本编号,样本类型,样本测序数据。
[0189] 三、分析结果
[0190] 对两方法的103例样本分析结果统计显示,本发明方法相对对照方法的假阳性检出总体降低36%(细菌-30%;病毒-18%;真菌-72%;寄生虫-95%)。以样本17S0270988的细菌检出为例,分别展示两种方法的输出结果:
[0191] 对照方法结果
[0192] 表1显示样本17S0270988的细菌检出结果,包括覆盖率、覆盖深度、唯一比对序列数三个参数,检出序列数大于10条的共检出33种细菌。
[0193] 表1对照方法检出结果
[0194]
[0195]
[0196] 本发明方法结果
[0197] 表2显示样本17S0270988使用本发明的检测结果,比对上某个物种参考基因组的序列数大于10,且深度比值(Depth_ratio)和熵值(Shannon_Index)大于0.75表示该样本包含该物种,共检出20种细菌,比对照方法减少约39%,显示假阳性被有效过滤。同时通过与临床检测数据进行比对,发现与临床检测结果一致。
[0198] 表2.本发明方法检测结果
[0199]
[0200]
[0201] 此外,本发明提供图形化结果,将下机总数据量和处理之后各部分数据可视化展示,用于判别样本数据量是否符合标准。如图3所示,其中图3中纵坐标是样本编号及样本类型(Sample ID),第一张柱状图为展示原始的读段数(Raw Reads),图中两条虚线分别是8M和12M,用于比较各样本下机数据量是否满足要求;第二张柱状图为展示质控的数据比例(Filter rate),横坐标数值的单位是%;第三张图为展示人源序列比例(Host rate),横坐标数值的单位是%。
[0202] 从图4可看出该样本未做过滤前的结果图形化展示结果。图4中纵坐标为样本检出的病原名称,包括拉丁文名和中文名称;第一张散点图中点的位置对应横坐标的覆盖率(Cover Rate),实圈大小代表覆盖长度范围,空心圈大小代表基因组长度范围,图例中圆的大小代表的梯度;第二张柱状图展示标准化比对序列数(SDMRN)与标准化唯一比对序列数(SDSMRN),图例中实心代表SDMRN,空心代表SDSMRN;第三张柱状图展示深度比值(Depth_ratio)和信息熵值(Shannon_Index)的大小,图例中实心代表深度比值,空心代表信息熵值。图5表示鼻疽诺卡菌在批次内样本的检出情况,图5可看出Nocardia_farcinica物种在批次内所有样本的检出结果,未在其它样本内检出,因此排除交叉污染,确认检出该物种。图5左侧纵坐标为样本编号及样本类型;第一张柱状图展示该病原在各样本的覆盖率(Cover Rate);第二张柱状图展示各样本的标准化比对序列数(SDMRN)与标准化唯一比对序列数(SDSMRN),图例中实心代表SDMRN,空心代表SDSMRN;第三张柱状图展示各样本深度比值(Depth_ratio)和信息熵值(Shannon_Index),图例中实心代表深度比值,空心代表信息熵值。图6示出了Nocardia_farcinica菌(鼻疽诺卡菌)的总基因组的1.08%的碱基序列分布图,横坐标是Nocardia_farcinica基因组的碱基位置,纵坐标是碱基数(reads数)。可以看出这个物种的检出序列在基因组上均匀分布,说明这个物种的检出可信度较高。图6可看出Nocardia_farcinica物种检出序列的全基因组分布情况,随机性良好,进一步确认检出该物种。
[0203] 在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接或彼此可通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0204] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0205] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0206] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈