首页 / 专利库 / 诊断设备和程序 / 血细胞计数 / 白细胞计数 / 人类白细胞抗原分型方法

人类白细胞抗原分型方法

阅读:896发布:2020-11-19

专利汇可以提供人类白细胞抗原分型方法专利检索,专利查询,专利分析的服务。并且本文描述了用于从核酸或 蛋白质 序列对个体进行HLA分型的方法、系统和介质。本文公开的方法代表对当前HLA分型方法的显著改进。,下面是人类白细胞抗原分型方法专利的具体信息内容。

1.一种确定个体的4位人类白细胞抗原(HLA)等位基因组成的方法,所述方法包括:
a)将来自所述个体的至少一个核酸序列读长映射到已知HLA等位基因参考序列,以确定第一组HLA等位基因,所述第一组HLA等位基因解释所述至少一个核酸序列读长;以及b)使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与所述第一组HLA等位基因同等良好地匹配所述至少一个核酸序列读长;
其中所述个体的4位HLA等位基因组成包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列具有与来自所述个体的所述至少一个核酸序列读长最接近的匹配。
2.根据权利要求1所述的方法,其中,核酸序列读长是DNA序列读长。
3.根据权利要求1或2所述的方法,其中,通过下一代测序技术获得所述至少一个核酸序列读长。
4.根据权利要求1或3中任一项所述的方法,其中,所述至少一个核酸序列读长少于300个核苷酸。
5.根据权利要求1至4中任一项所述的方法,其中,所述至少一个核酸序列读长是多个核酸序列读长。
6.根据权利要求1至5中任一项所述的方法,其中,所述多重序列比对包括所有已知HLA等位基因参考序列。
7.根据权利要求1至6中任一项所述的方法,其中,所述多重序列比对包括可从IMGT/HLA数据库获得的所有已知HLA等位基因参考序列。
8.根据权利要求1至7中任一项所述的方法,其中,所述第一组HLA等位基因包括与来自所述个体的所述至少一个核酸序列读长具有至少95%同一性的HLA等位基因。
9.根据权利要求1至8中任一项所述的方法,其中,所述一个或多个额外的HLA等位基因参考序列包括与来自所述个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。
10.根据权利要求1至9中任一项所述的方法,还包括生成解集和比较集,其中所述解集包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列基于核心外显子具有与来自所述个体的所述至少一个核酸序列读长最接近的匹配,并且所述比较集包括几乎与所述解集的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。
11.根据权利要求10所述的方法,其中,如果所述HLA等位基因参考序列是I类分子,所述核心外显子由外显子2和3组成。
12.根据权利要求10所述的方法,其中,如果所述HLA等位基因参考序列是II类分子,所述核心外显子由外显子2组成。
13.根据权利要求1至12中任一项所述的方法,还包括基于所有共享外显子对所述解集的所述HLA等位基因参考序列中的每个与所述比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自所述比较集的所述HLA等位基因参考序列中的一个或多个更好地解释来自所述个体的所述核酸序列读长,则用来自所述比较集的HLA等位基因参考序列更新所述解集。
14.根据权利要求13所述的方法,重复多于一次。
15.根据权利要求13所述的方法,重复直至来自所述解集的HLA等位基因参考序列不能被来自所述比较集的HLA等位基因替换为止。
16.根据权利要求13所述的方法,其中,将仅映射到所述解集的HLA参考序列或映射到所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。
17.根据权利要求16所述的方法,重复多于一次。
18.根据权利要求16所述的方法,重复直至来自所述解集的HLA等位基因参考序列不能被来自所述比较集的HLA等位基因替换为止。
19.根据权利要求1至18中任一项所述的方法,还包括检查接合性,其中检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。
20.根据权利要求19所述的方法,其中,检查接合性包括对映射到给定HLA基因的每个等位基因的所述至少一个核酸序列读长进行计数。
21.根据权利要求20所述的方法,其中,如果序列读长的量是下一个最强相关等位基因的至少2倍或更多倍,则确定所述个体是纯合的。
22.根据权利要求1至21中任一项所述的方法,还包括确定全分辨率HLA组成,其中确定所述全分辨率HLA组成包括提取明确地与个体的4位HLA等位基因组成对准的至少一个核酸序列读长,并将所述至少一个核酸序列读长与包含在所述4位HLA等位基因组内的所有HLA等位基因参考序列对准。
23.根据权利要求1至22中任一项所述的方法,其中,所述个体的4位HLA等位基因组成是主要组织相容性复合体(MHC)I类等位基因组成。
24.根据权利要求1至22中任一项所述的方法,其中,所述个体的4位HLA等位基因组成是主要组织相容性复合体(MHC)II类等位基因组成。
25.根据权利要求1至22中任一项所述的方法,其中,所述个体的4位HLA等位基因组成是主要组织相容性I类和主要组织相容性II类等位基因组成。
26.根据权利要求1至25中任一项所述的方法,其中,使用计算机执行所述方法,其中与运行Optitype方法的计算机相比,运行时间减少至少三倍。
27.根据权利要求1至26中任一项所述的方法,其中,所述个体患有自体免疫疾病
28.根据权利要求1至26中任一项所述的方法,其中,所述个体需要器官移植。
29.一种确定个体的4位人类白细胞抗原(HLA)等位基因组成的方法,所述方法包括:
a)将从来自所述个体的至少一个核酸序列读长翻译的至少一个基酸序列映射到已知HLA等位基因参考序列,以确定解释所述至少一个氨基酸序列的第一组HLA等位基因;以及
b)使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与所述第一组HLA等位基因同等良好地匹配所述至少一个氨基酸序列;
其中所述个体的4位HLA等位基因组成包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列具有与从来自所述个体的至少一个核酸序列读长翻译的所述至少一个氨基酸最接近的匹配。
30.根据权利要求29所述的方法,其中,核酸序列读长是DNA序列读长。
31.根据权利要求29或30所述的方法,其中,通过下一代测序技术获得所述至少一个核酸序列读长。
32.根据权利要求29或31中任一项所述的方法,其中,所述至少一个核酸序列读长少于
300个核苷酸。
33.根据权利要求29至32中任一项所述的方法,其中,所述至少一个核酸序列读长是多个核酸序列读长。
34.根据权利要求29至33中任一项所述的方法,其中,所述多重序列比对包括所有已知HLA等位基因参考序列。
35.根据权利要求29至34中任一项所述的方法,其中,所述多重序列比对包括可从IMGT/HLA数据库获得的所有已知HLA等位基因参考序列。
36.根据权利要求29至35中任一项所述的方法,其中,所述第一组HLA等位基因包括与从来自所述个体的至少一个核酸序列读长翻译的所述至少一个氨基酸序列具有至少95%同一性的HLA等位基因。
37.根据权利要求29至36中任一项所述的方法,其中,所述一个或多个额外的HLA等位基因参考序列包括与从来自所述个体的至少一个核酸序列读长翻译的所述至少一个氨基酸序列具有至少95%同一性的HLA等位基因。
38.根据权利要求29至37中任一项所述的方法,还包括生成解集和比较集,其中所述解集包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列基于核心外显子具有与所述至少一个氨基酸序列最接近的匹配,并且所述比较集包括几乎与所述解集的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。
39.根据权利要求38所述的方法,其中,如果所述HLA等位基因参考序列是I类分子,所述核心外显子由外显子2和3组成。
40.根据权利要求38所述的方法,其中,如果所述HLA等位基因参考序列是II类分子,所述核心外显子由外显子2组成。
41.根据权利要求29至40中任一项所述的方法,进一步包括基于所有共享外显子将所述解集的所述HLA等位基因参考序列中的每个与所述比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自所述比较集的所述HLA等位基因参考序列中的一个或多个更好地解释来自所述个体的序列数据,则用来自所述比较集的HLA等位基因参考序列更新所述解集。
42.根据权利要求41所述的方法,重复多于一次。
43.根据权利要求41所述的方法,重复直至来自所述解集的HLA等位基因参考序列不能被来自所述比较集的HLA等位基因替换为止。
44.根据权利要求41所述的方法,其中,将仅映射到所述解集的HLA参考序列或映射到所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的氨基酸序列用于评估假定的HLA等位基因是否应该被比较等位基因替代。
45.根据权利要求44所述的方法,重复多于一次。
46.根据权利要求44所述的方法,重复直至来自所述解集的HLA等位基因参考序列不能被来自所述比较集的HLA等位基因替换为止。
47.根据权利要求29至46中任一项所述的方法,还包括检查接合性,其中检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。
48.根据权利要求47所述的方法,其中,检查接合性包括对映射到给定HLA基因的每个等位基因的所述氨基酸序列进行计数。
49.根据权利要求47所述的方法,其中,如果氨基酸序列的量是下一个最强相关等位基因的至少2倍或更多倍,则确定所述个体是纯合的。
50.根据权利要求29至49中任一项所述的方法,还包括确定全分辨率HLA组成,其中确定所述全分辨率HLA组成包括提取明确地与个体的4位HLA等位基因组成对准的所述至少一个氨基酸序列读长,并将所述至少一个氨基酸序列读长与包含在所述4位HLA等位基因组内的所有HLA等位基因参考序列对准。
51.根据权利要求29至50中任一项所述的方法,其中,所述个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)I类等位基因组成。
52.根据权利要求29至50中任一项所述的方法,其中,所述个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)II类等位基因组成。
53.根据权利要求29至50中任一项所述的方法,其中,所述个体的4位HLA等位基因组成是主要组织相容性I类和主要组织相容性II类等位基因组成。
54.根据权利要求29至53中任一项所述的方法,其中,使用计算机执行所述方法,其中与运行Optitype方法的计算机相比,运行时间减少至少三倍。
55.根据权利要求29至54中任一项所述的方法,其中,所述个体患有自体免疫疾病。
56.根据权利要求29至54中任一项所述的方法,其中,所述个体需要器官移植。

说明书全文

人类白细胞抗原分型方法

[0001] 相关申请的交叉引用
[0002] 本申请要求于2016年5月27日提交的美国申请序列号No.62/342,817的权益,其全部内容通过引用并入本文。

背景技术

[0003] 在美国每年估计30000名患者接受器官移植,并且另外20000名患者接受骨髓移植。器官疾病是死亡的主要原因,并且每10分钟就有另一个体被添加到器官捐赠等待名单中。器官移植后失败的主要原因是个体免疫系统的排斥。为了最小化排斥的可能性,医生通常针对供体和受体的相应的人类白细胞抗原(HLA,有时被称为主要组织相容性复合物(MHC))等位基因上的匹配来测试供体和受体。由HLA位点编码的蛋白质是细胞表面跨膜蛋白,该细胞表面跨膜蛋白呈递(present)源自自体和外来抗原的肽。不同的HLA分子在自体和外来抗原的呈递方面不同。正是这些自体肽(self-peptides)指导受体的T细胞和B细胞库,并设置该库以耐受受体的自己的器官。当遇到来自供体的不是HLA“匹配”的器官时,受体自己的T细胞和B细胞会攻击该器官,好像该器官是导致排斥和不良结果的外来病原体。目前存在针对患者HLA分型的改进方法的长期需要。
发明内容
[0004] 本公开的方法、系统和介质代表了基于当前下一代DNA测序技术对当前HLA分型方法的实质性改进。使用当前DNA测序技术进行HLA分型的问题在于这些技术产生短序列读长(read),这极大地增加了确定高度多态性位点(例如HLA位点)的序列的难度。与现有方法相比,本文详述的改进体现在增加的准确性、效率和速度。如图1所示,与当前方法相比,在与其他方法相比时,本文所述的方法针对I类和II类HLA分型产生更准确的结果。由于为实现结果而实施的方法效率低以及一旦获得所述结果缺乏准确性,从个体的DNA进行HLA分型的当前方法用途有限。参考图1,为了结果,被称为HLA-VBSeq、SOAP HLA和HLA*PRG的方法需要大量的计算机处理资源和相当数量的等待时间。Optitype在更高效运行的同时牺牲了准确性和可用性。参见例如Szolek等人的《OptiType:从下一代测序数据中进行精确的HLA》(分型生物信息学(Bioinformatic),2014年第23期第30卷,第3310-3316页(,Bioinformatic,Vol.30no.23 2014,pages 3310–3316))。Optitype对其HLA参考序列数据库进行预过滤,从而损害准确性,因此,例如,错误地用稀有HLA等位基因对人进行分型(type),并且甚至不尝试对准(align)II类HLA参考序列,这限制了其在临床环境中的有用性。为了使基于DNA的HLA分型有助于临床治疗的进步,必须开发例如本文所述的新方法。在某些实施例中,本文描述的方法不预过滤HLA参考序列,或减少使用该算法测试的HLA等位基因的量。
[0005] 仍然参考图1,在某些情况下,与当前HLA分型方法相比,本文描述的方法、系统和介质导致运行时间减少。在某些实施例中,与HLA-VBSeq、SOAP HLA和HLA*PRG或Optitype方法中任一个相比,该应用程序运行时间减少2、3、4、5、6、7、8、9或10倍或更多倍。在某些情况下,与当前HLA分型方法相比,本文描述的方法、系统和介质导致处理器利用率降低。在某些实施例中,与HLA-VBSeq、SOAPHLA和HLA*PRG或Optitype方法中任一个相比,该应用程序导致处理器利用率减少2、3、4、5、6、7、8、9或10倍或更多倍。
[0006] 参考图2,HLA位点位于人类染色体6上。由于染色体6是常染色体,每个个体具有每个HLA基因的两个拷贝。对组织相容性重要的HLA I类位点的基因表示为A、B和C;对于组织相容性重要的II类位点的基因表示为DR、DQ和DP。参考图3,这些基因中的每一个具有数百或数千个总遗传等位基因。遗传等位基因可以进一步分为其4位(4-digit)类型。等位基因和4位等位基因之间的差异在于4位等位基因捕获导致蛋白质序列差异的DNA序列中的差异。例如,基于其DNA序列中的变异,等位基因可以是可区分的,但是如果该变异是同义变异,那么它将不会导致在表达的蛋白质中的基酸改变,使得它们在功能上和免疫上无法区分。仍然参考图3,每个HLA基因具有多个外显子,其中,外显子2和3用于I类基因,而用于II类基因的外显子2是核心外显子。核心外显子之所以如此命名是因为它们含有HLA分子的肽结合口袋(peptide binding pocket)或肽结合核心(peptide binding core)。IMGT参考数据库中的所有HLA基因都已经对其核心外显子进行了测序。
[0007] 图4示出了用于HLA命名的标准惯例。每个基因都有一个字母标记,后面跟一个星号。字段1表示等位基因组,而字段2表示特定HLA蛋白质。同时,字段1和字段2表示4位HLA等位基因。剩余的字段3和字段4用于显示DNA序列中的差异,其不转化为所得蛋白质的氨基酸序列中的变化。字段3表示位于编码区域中的同义变异,而字段4表示非编码区域中的变异。
[0008] 图5例示了在对HLA位点测序中的主要困难。首先,由于位点中存在的高度同源性,一个序列读长可以映射到许多不同的基因,尤其是在利用短读长技术时。更糟糕的是,来自HLA基因的读长可以映射到人类参考基因组上的错误基因,因为参考基因组只能代表任何HLA基因的一种类型。
[0009] 图6示出了对准矩阵,并且当存在多个DNA序列读长时使该问题突出。多个读长中的每一个可以映射到多个HLA等位基因,进一步混淆和减慢明确地将多个DNA序列读长映射到等位基因的任务。
[0010] 在某个实施例中,本公开提供了确定个体的4位人类白细胞抗原(HLA)等位基因组成的方法,该方法包括:将来自个体的至少一个核酸序列读长映射到已知HLA等位基因参考序列,以确定第一组HLA等位基因,所述第一组HLA等位基因解释所述至少一个核酸序列读长;以及使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与所述第一组HLA等位基因同等良好地匹配所述至少一个核酸序列读长;其中所述个体的4位HLA等位基因组成包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列具有与来自所述个体的所述至少一个核酸序列读长最接近的匹配。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可少于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述多重序列比对可包括所有已知HLA等位基因参考序列。所述多重序列比对可包括可从通过引用方式并入本文的IMGT/HLA数据库(www.ebi.ac.uk/imgt/hla/)获得的所有已知HLA等位基因参考序列。所述第一组HLA等位基因可包括与来自所述个体的所述至少一个核酸序列具有至少95%同一性(identity)的HLA等位基因。所述一个或多个额外的HLA等位基因参考序列可以包括与来自个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。在一些情况下,该方法还包括生成解集和比较集,其中解集包括一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列基于核心外显子具有与来自个体的至少一个核酸序列读长最接近的匹配,并且所述比较集包括几乎与所述解集的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果所述HLA等位基因参考序列是I类分子,则所述核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则所述核心外显子可以由外显子2组成。在一些情况下,该方法还包括基于所有共享外显子对所述解集的每个HLA等位基因参考序列与所述比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自所述比较集的一个或多个HLA等位基因参考序列更好地解释来自个体的核酸序列读长,则用来自所述比较集的HLA等位基因参考序列更新解集。该方法可以重复多次。可以重复该方法,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或映射到所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该方法可以重复多次。可以重复该方法,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,该方法还包括检查接合性,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。所述检查接合性可以包括对映射到给定HLA基因的每个等位基因的至少一个核酸序列读长进行计数。在某些情况下,如果序列读长的量是下一个最强相关等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,该方法还包括确定全分辨率HLA组成,其中确定全分辨率HLA组成包括提取明确地与个体的4位HLA等位基因组成对准的至少一个核酸序列读长,并将所述至少一个核酸序列读长与包含在所述4位HLA等位基因组内的所有HLA等位基因参考序列对准。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)I类等位基因组成。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)II类等位基因组成。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性I类和主要组织相容性II类等位基因组成。在某些情况下,使用计算机执行该方法,并且与运行Optitype方法的计算机相比,运行时间减少至少三倍。该方法可用于患有自体免疫疾病的个体。该方法对需要器官移植的个体有用。
[0011] 在另一实施例中,本公开提供了确定个体的4位人类白细胞抗原(HLA)等位基因组成的方法,该方法包括:将从来自个体的至少一个核酸序列读长翻译的至少一个氨基酸序列映射到已知的HLA等位基因参考序列,以确定解释所述至少一个氨基酸序列的第一组HLA等位基因;以及使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与所述第一组HLA等位基因同等良好地匹配所述至少一个氨基酸序列;其中所述个体的4位HLA等位基因组成包括一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与从来自所述个体的至少一个核酸序列读长翻译的至少一个氨基酸最接近地匹配。在某些实施例中,所述核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。
所述至少一个核酸序列读长可小于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述多重序列比对可包含所有已知的HLA等位基因参考序列。所述多重序列比对可包括可从IMGT/HLA数据库获得的所有已知HLA等位基因参考序列。所述第一组HLA等位基因可包括与从来自个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。一种或多种额外的HLA等位基因参考序列可以包括与从来自所述个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。在一些情况下,该方法还包括生成解集和比较集,其中解集包括一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列基于核心外显子具有与所述至少一个氨基酸序列最接近的匹配,并且所述比较集包括几乎与所述解集的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。在一些情况下,该方法还包括基于所有共享外显子将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自所比较集的一个或多个所述HLA等位基因参考序列更好地解释来自所述个体的序列数据,则用来自所述比较集的HLA等位基因参考序列更新所述解集。该方法可以重复多次。可以重复该方法,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或映射到所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的氨基酸序列用于评估假定的HLA等位基因是否应该被比较等位基因替代。该方法可以重复多次。可以重复该方法,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,该方法还包括检查接合性,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。检查接合性可以包括对映射到给定HLA基因的每个等位基因的至少一个氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,该方法还包括确定全分辨率HLA组成,其中确定全分辨率HLA组成包括提取明确地与个体的4位HLA等位基因组成对准的至少一个氨基酸序列,并将所述至少一个氨基酸序列与包含在所述4位HLA等位基因组内的所有HLA等位基因参考序列对准。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)I类等位基因组成。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)II类等位基因组成。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性I类和主要组织相容性II类等位基因组成。在某些情况下,使用计算机执行该方法,并且与运行Optitype方法的计算机相比,运行时间减少至少三倍。该方法可用于患有自体免疫疾病的个体。该方法对需要器官移植的个体有用。
[0012] 在另一实施例中,本文描述的是一种编码有计算机程序的非暂时性计算机可读存储介质,该计算机程序包括可由处理器执行的指令,以创建用于确定个体的4位人类白细胞抗原(HLA)等位基因组成的应用程序,该应用程序包括:软件,其将来自个体的至少一个核酸序列读长映射到已知HLA等位基因参考序列,以确定第一组HLA等位基因,所述第一组HLA等位基因解释所述至少一个核酸序列读长;以及软件模块,其使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与所述第一组HLA等位基因同等良好地匹配所述至少一个核酸序列读长;其中,所述个体的4位HLA等位基因组成包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列具有与来自所述个体的所述至少一个核酸序列读长最接近的匹配。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可少于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述多重序列比对可包括所有已知HLA等位基因参考序列。所述多重序列比对可包括可从IMGT/HLA数据库获得的所有已知HLA等位基因参考序列。所述第一组HLA等位基因可包括与来自所述个体的所述至少一个核酸序列读长具有至少95%同一性的HLA等位基因。所述一个或多个额外的HLA等位基因参考序列可包括与来自所述个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。该应用程序可以进一步包括软件模块,其生成解集和比较集,其中所述解集包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列基于核心外显子具有与来自个体的至少一个核酸序列读长最接近的匹配,并且所述比较集包括几乎与所述解集的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该应用程序可以进一步包括软件模块,其基于所有共享外显子对所述解集的每个HLA等位基因参考序列与所述比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自所述比较集的一个或多个HLA等位基因参考序列更好地解释来自所述个体的所述至少一个核酸序列读长,则用来自所述比较集的HLA等位基因参考序列更新解集。该应用程序可以重复多次。该应用程序可以重复运行,直到来自所述解集的HLA等位基因参考序列不能被来自所述比较集的HLA等位基因替换。在一些情况下,将仅映射到所述解集的HLA参考序列或映射到所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该应用程序可以重复多次。
该应用程序可以重复运行,直到来自所述解集的HLA等位基因参考序列不能被来自所述比较集的HLA等位基因替换。该申请可以进一步包括检查接合性的软件模块,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。所述检查接合性包括对映射到给定HLA基因的每个等位基因的所述至少一个核酸序列读长进行计数。在某些情况下,如果序列读长的量是下一个最强相关的等位基因的至少2倍或5倍,则确定个体是纯合的。该应用程序可以进一步包括确定全分辨率HLA组成的软件模块,其中所述确定全分辨率HLA组成包括提取明确地与个体的4位HLA等位基因组成对准的至少一个核酸序列读长,并将所述至少一个核酸序列读长与包含在所述4位HLA等位基因组内的所有HLA等位基因参考序列对准。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性复合体(MHC)I类等位基因组成。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性复合体(MHC)II类等位基因组成。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性I类和主要组织相容性II类等位基因组成。在某些情况下,与运行Optitype方法的应用程序相比,该应用程序至少减少三倍运行时间。该应用程序对患有自体免疫疾病的个体有用。该应用对需要器官移植的个体有用。
[0013] 在另一实施例中,本文描述的是一种编码有计算机程序的非暂时性计算机可读存储介质,该计算机程序包括可由处理器执行以创建用于确定个体的4位人类白细胞抗原(HLA)等位基因组成的应用程序的指令。该应用程序包括:软件模块,其将从来自所述个体的至少一个核酸序列读长翻译的至少一个氨基酸序列映射到已知的HLA等位基因参考序列,以确定解释所述至少一个氨基酸序列的第一组HLA等位基因;以及软件模块,其使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与所述第一组HLA等位基因同等良好地匹配所述至少一个氨基酸序列;其中所述个体的4位HLA等位基因组成包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列具有与从来自所述个体的至少一个核酸序列读长翻译的至少一个氨基酸最接近的匹配。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可少于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述多重序列比对可包含所有已知的HLA等位基因参考序列。所述多重序列比对可包括可从IMGT/HLA数据库获得的所有已知HLA等位基因参考序列。所述第一组HLA等位基因可包括与从来自个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。一种或多种额外的HLA等位基因参考序列可以包括与来自所述个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。该应用程序还包括软件模块,其生成解集和比较集,其中解集包括一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列基于核心外显子具有与所述至少一个氨基酸序列最接近的匹配,并且所述比较集包括几乎与所述解集的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该应用程序还包括软件模块,其用于基于所有共享外显子将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自所比较集的一个或多个所述HLA等位基因参考序列更好地解释至少一个氨基酸序列,则用来自所述比较集的HLA等位基因参考序列更新所述解集。该应用程序可以重复多次。该应用程序可以重复运行,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或映射到所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该应用程序可以重复多次。该应用程序可以重复运行,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。根据权利要求79至95中的任何一个的介质,其中,该应用程序还包括检查接合性的软件模块,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。检查接合性可以包括对映射到给定HLA基因的每个等位基因的至少一个氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍或5倍,则确定个体是纯合的。该应用程序还包括确定全分辨率HLA组成的软件模块,其中确定全分辨率HLA组成包括提取明确地与个体的4位HLA等位基因组成对准的至少一个核酸序列读长,并将所述至少一个核酸序列读长与包含在所述4位HLA等位基因组内的所有HLA等位基因参考序列对准。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)I类等位基因组成。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)II类等位基因组成。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性I类和主要组织相容性II类等位基因组成。在某些情况下,与运行Optitype方法的应用程序相比,该应用程序至少减少三倍运行时间。该应用程序可用于患有自体免疫疾病的个体。该应用程序对需要器官移植的个体有用。
[0014] 在另一个实施例中,本文描述的是一种计算机实现的系统,该系统包括:数字处理装置,所述数字处理装置包括至少一个处理器、被配置为执行可执行指令的操作系统存储器和包括可由所述数字处理装置执行的指令的计算机程序以创建用于确定个体的4位人类白细胞抗原(HLA)等位基因组成的应用程序,该应用程序包括:软件模块,其将来自个体的至少一个核酸序列读长映射到已知HLA等位基因参考序列,以确定第一组HLA等位基因,所述第一组HLA等位基因解释所述至少一个核酸序列读长;以及软件模块,其使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与所述第一组HLA等位基因同等良好地匹配所述至少一个核酸序列读长;其中,所述个体的4位HLA等位基因组成包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列具有与来自所述个体的所述至少一个核酸序列读长最接近的匹配。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可少于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述多重序列比对可包括所有已知HLA等位基因参考序列。所述多重序列比对可包括可从IMGT/HLA数据库获得的所有已知HLA等位基因参考序列。所述第一组HLA等位基因可包括与来自所述个体的所述至少一个核酸序列读长具有至少95%同一性的HLA等位基因。所述一个或多个额外的HLA等位基因参考序列可包括与来自所述个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。该应用程序可以进一步包括软件模块,其生成解集和比较集,其中所述解集包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列基于核心外显子具有与来自个体的至少一个核酸序列读长最接近的匹配,并且所述比较集包括几乎与所述解集的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该应用程序可以进一步包括软件模块,其基于所有共享外显子对所述解集的每个HLA等位基因参考序列与所述比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自所述比较集的一个或多个HLA等位基因参考序列更好地解释来自所述个体的所述至少一个核酸序列读长,则用来自所述比较集的HLA等位基因参考序列更新解集。该应用程序可以重复多次。该应用程序可以重复,直到来自所述解集的HLA等位基因参考序列不能被来自所述比较集的HLA等位基因替换。在一些情况下,将仅映射到所述解集的HLA参考序列或映射到所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的氨基酸序列用于评估假定的HLA等位基因是否应该被比较等位基因替代。该应用程序可以重复多次。该应用程序可以重复,直到来自所述解集的HLA等位基因参考序列不能被来自所述比较集的HLA等位基因替换。该应用程序可以进一步包括检查接合性,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。检查接合性可包括对映射到给定HLA基因的每个等位基因的至少一个氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,该应用程序进一步包括确定全分辨率HLA组成,其中所述确定全分辨率HLA组成包括提取明确地与个体的4位HLA等位基因组成对准的至少一个氨基酸序列读长,并将所述至少一个氨基酸序列读长与包含在所述4位HLA等位基因组内的所有HLA等位基因参考序列对准。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性复合体(MHC)I类等位基因组成。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性复合体(MHC)II类等位基因组成。在某些情况下,所述个体的4位HLA等位基因组成是主要组织相容性I类和主要组织相容性II类等位基因组成。在某些情况下,与运行Optitype方法的应用程序相比,该应用程序至少减少三倍运行时间。该应用程序对患有自体免疫疾病的个体有用。该应用对需要器官移植的个体有用。
[0015] 在另一个实施例中,本文描述的是一种计算机实现的系统,该系统包括:数字处理装置,所述数字处理装置包括至少一个处理器、被配置为执行可执行指令的操作系统、存储器和包括可由所述数字处理装置执行的指令的计算机程序以创建用于确定个体的4位人类白细胞抗原(HLA)等位基因组成的应用程序,该应用程序包括:软件模块,其将从来自所述个体的至少一个核酸序列读长翻译的至少一个氨基酸序列映射到已知的HLA等位基因参考序列,以确定解释所述至少一个氨基酸序列的第一组HLA等位基因;以及软件模块,其使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与所述第一组HLA等位基因同等良好地匹配所述至少一个氨基酸序列;其中所述个体的4位HLA等位基因组成包括所述一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列与从来自所述个体的至少一个核酸序列读长翻译的至少一个氨基酸最接近地匹配。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可少于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述多重序列比对可包含所有已知的HLA等位基因参考序列。所述多重序列比对可包括可从IMGT/HLA数据库获得的所有已知HLA等位基因参考序列。所述第一组HLA等位基因可包括与从来自个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。一种或多种额外的HLA等位基因参考序列可以包括与从来自所述个体的至少一个核酸序列读长具有至少95%同一性的HLA等位基因。该应用程序还能够包括软件模块,其生成解集和比较集,其中解集包括一个或多个额外的HLA等位基因参考序列,所述一个或多个额外的HLA等位基因参考序列基于核心外显子具有与所述至少一个氨基酸序列最接近的匹配,并且所述比较集包括几乎与所述解集的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该应用程序还包括软件模块,其用于基于所有共享外显子将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自所比较集的一个或多个所述HLA等位基因参考序列更好地解释至少一个氨基酸序列,则用来自所述比较集的HLA等位基因参考序列更新所述解集。该应用程序可以重复多次。该应用程序可以重复运行,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在一些情况下,将仅映射到所述解集的HLA参考序列或映射到所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该应用程序可以重复多次。该应用程序可以重复运行,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。根据权利要求79至95中的任何一个的介质,其中,该应用程序还包括检查接合性的软件模块,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。检查接合性可以包括对映射到给定HLA基因的每个等位基因的至少一个氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍,则确定个体是纯合的。该应用程序还能够包括确定全分辨率HLA组成的软件模块,其中确定全分辨率HLA组成包括提取明确地与个体的4位HLA等位基因组成对准的至少一个氨基酸序列读长,并将所述至少一个氨基酸序列读长与包含在所述4位HLA等位基因组内的所有HLA等位基因参考序列对准。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)I类等位基因组成。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性复合物(MHC)II类等位基因组成。在某些情况下,个体的4位HLA等位基因组成是主要组织相容性I类和主要组织相容性II类等位基因组成。在某些情况下,与运行Optitype方法的应用程序相比,该应用程序减少至少三倍运行时间。该应用程序可用于患有自体免疫疾病的个体。该应用程序对需要器官移植的个体有用。
[0016] 在另一实施例中,本文所描述的是改进来自个体的核酸序列的HLA等位基因组的方法,该方法包括:基于解集的HLA参考序列和比较集的HLA等位基因参考序列之间共享的所有外显子,将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自比较集的HLA等位基因参考序列更好地解释来自个体的核酸序列,则用来自比较集的HLA等位基因参考序列更新解集。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可小于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述解集可包括一个或多个额外的HLA等位基因参考序列,其基于核心外显子和比较集具有与来自个体的核酸序列最佳地匹配,并且比较集包括几乎与解集中的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子
2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该方法可以重复多次。该方法可以重复,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该方法可以进一步包括检查接合性,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。所述检查接合性可包括对映射到给定HLA基因的每个等位基因的所述至少一个核酸序列读长进行计数。在某些情况下,如果序列读长的量是下一个最强相关的等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,该方法使用计算机执行,并且与运行Optitype方法的计算机相比,运行时间减少至少三倍。该方法可用于患有自体免疫疾病的个体。该方法对需要器官移植的个体有用。
[0017] 在另一个实施例中,本文所描述的是改进来自从个体的核酸序列翻译的氨基酸序列的HLA等位基因组的方法,该方法包括基于在解集的HLA参考序列和比较集的HLA等位基因参考序列之间共享的所有外显子,将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因进行比较,其中如果来自比较集的HLA等位基因参考序列更好地解释来自个体的核酸序列读长,则用来自比较集的HLA等位基因参考序列更新解集。在某些实施方案中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可小于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述解集可包括一个或多个额外的HLA等位基因参考序列,其基于核心外显子和比较集具有与从来自个体的核酸序列翻译的氨基酸序列最佳地匹配,并且比较集包括几乎与解集中的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该方法可以重复多次。可以重复该方法,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该方法还可以包括检查接合性。检查接合性可以可包括对映射到给定HLA基因的每个等位基因的氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,该方法使用计算机执行,并且与运行Optitype方法的计算机相比,运行时间减少至少三倍。该方法可用于患有自体免疫疾病的个体。该方法对需要器官移植的个体有用。
[0018] 在另一个实施例中,本文描述的是用计算机程序编码的非暂时性计算机可读存储介质,所述计算机程序包括可由处理器执行以创建用于改进来自个体的核酸序列的HLA等位基因组的应用程序的指令,所述应用程序包括软件模块,其配置为基于在解集的HLA参考序列和比较集的HLA等位基因参考序列之间共享的所有外显子,将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自比较集的HLA等位基因参考序列更好地解释来自个体的核酸序列,则用来自比较集的HLA等位基因参考序列更新解集。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可小于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述解集可包括一个或多个额外的HLA等位基因参考序列,其基于核心外显子和比较集具有与来自个体的核酸序列最佳地匹配,并且比较集包括几乎与解集中的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该应用程序可以重复多次。该应用程序可以重复,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该应用程序可以进一步包括配置为检查接合性的软件模块,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。所述检查接合性可包括对映射到给定HLA基因的每个等位基因的氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,与运行Optitype方法的应用程序相比,该应用程序运行时间减少至少三倍。该应用程序对需要器官移植的个体有用。该应用程序对患有自体免疫疾病的个体有用。
[0019] 在另一个实施例中,本文所描述的是用计算机程序编码的非暂时性计算机可读存储介质,所述计算机程序包括可由处理器执行的指令,以创建用于改进来自从个体的核酸序列翻译的氨基酸序列的HLA等位基因组的应用程序,该应用程序包括软件模块,其配置为基于在解集的HLA参考序列和比较集的HLA等位基因参考序列之间共享的所有外显子,将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因进行比较,其中如果来自比较集的HLA等位基因参考序列更好地解释来自个体的核酸序列读长,则用来自比较集的HLA等位基因参考序列更新解集。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可小于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述解集可包括一个或多个额外的HLA等位基因参考序列,其基于核心外显子和比较集具有与从来自个体的核酸序列翻译的氨基酸序列最佳地匹配,并且比较集包括几乎与解集中的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该应用程序可以重复多次。可以重复该应用程序,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该应用程序还可以包括配置为检查接合性的软件模块,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。
检查接合性可以可包括对映射到给定HLA基因的每个等位基因的氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,与运行Optitype方法的应用程序相比,该应用程序导致运行时间减少至少三倍。该应用程序可用于患有自体免疫疾病的个体。该应用程序对需要器官移植的个体有用。
[0020] 在另一个实施例中,本文描述的是一种计算机实现的系统,该系统包括数字处理装置,该数字处理装置包括至少一个处理器、配置成执行可执行指令的操作系统、存储器以及包括可由所述数字处理装置执行的指令的计算机程序以创建用于改进来自个体的核酸序列的HLA等位基因组的应用程序,应用程序包括软件模块,其基于在解集的HLA参考序列和比较集的HLA等位基因参考序列之间共享的所有外显子,将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因参考序列进行比较,其中如果来自比较集的HLA等位基因参考序列更好地解释来自个体的核酸序列,则用来自比较集的HLA等位基因参考序列更新解集。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可小于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述解集可包括一个或多个额外的HLA等位基因参考序列,其基于核心外显子和比较集具有与来自个体的核酸序列最佳地匹配,并且比较集包括几乎与解集中的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该应用程序可以重复多次。该应用程序可以重复,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该应用程序可以进一步包括用于检查接合性的软件模块,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。所述检查接合性可包括对映射到给定HLA基因的每个等位基因的氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,与运行Optitype方法的应用程序相比,该应用程序运行时间减少至少三倍。该应用程序对患有自体免疫疾病的个体有用。该应用程序对需要器官移植的个体有用。
[0021] 在另一个实施例中,本文所描述的是一种计算机实现的系统,该系统包括数字处理装置,该数字处理装置包括至少一个处理器、配置成执行可执行指令的操作系统、存储器以及包括可由所述数字处理装置执行的指令的计算机程序以创建用于改进从来自个体的核酸序列翻译的氨基酸序列的HLA等位基因组的应用程序,应用程序包括软件模块,其基于在解集的HLA参考序列和比较集的HLA等位基因参考序列之间共享的所有外显子,将解集的每个HLA等位基因参考序列与比较集的一个或多个HLA等位基因进行比较,其中如果来自比较集的HLA等位基因参考序列更好地解释来自个体的核酸序列读长,则用来自比较集的HLA等位基因参考序列更新解集。在某些实施例中,核酸是DNA。可以通过下一代测序技术获得至少一个核酸序列读长。所述至少一个核酸序列读长可小于300个核苷酸。所述至少一个核酸序列读长可以是多个核酸序列读长。所述解集可包括一个或多个额外的HLA等位基因参考序列,其基于核心外显子和比较集具有与从来自个体的核酸序列翻译的氨基酸序列最佳地匹配,并且比较集包括几乎与解集中的HLA等位基因参考序列同样良好地执行的HLA等位基因参考序列。如果HLA等位基因参考序列是I类分子,核心外显子可以由外显子2和3组成。如果HLA等位基因参考序列是II类分子,则核心外显子可以由外显子2组成。该应用程序可以重复多次。可以重复该应用程序,直到来自解集的HLA等位基因参考序列不能被来自比较集的HLA等位基因替换。在某些情况下,将仅映射到所述解集的HLA参考序列或所述比较集的HLA参考序列、但不是映射到两者且不是映射到所述解集中的任何其他HLA等位基因参考序列的核酸序列读长用于评估假定的HLA等位基因是否应该被比较等位基因替代。该应用程序还可以包括用于检查接合性的软件模块,其中所述检查接合性针对所述个体的4位HLA等位基因组成的任何一个或多个HLA等位基因确定所述个体是杂合的还是纯合的。检查接合性可以可包括对映射到给定HLA基因的每个等位基因的氨基酸序列进行计数。在某些情况下,如果氨基酸序列的量是下一个最强相关的等位基因的至少2倍或更多倍,则确定个体是纯合的。在某些情况下,与运行Optitype方法的应用程序相比,该应用程序导致运行时间减少至少三倍。该应用程序可用于患有自体免疫疾病的个体。该应用程序对需要器官移植的个体有用。
附图说明
[0022] 通过参考阐述例示的实施例及其附图的以下详细描述,将获得对本文所描述的主题的特征和优点的更好理解,其中:
[0023] 图1例示利用本公开的方法、系统和介质实现的关于增加的速度、增加的准确度和降低所需的计算能的显著改进;
[0024] 图2示出HLA位点的示意图;
[0025] 图3例示用于IMGT数据库中每个HLA基因的等位基因的数目和外显子覆盖
[0026] 图4示出HLA等位基因命名法的标准惯例;
[0027] 图5例示HLA位点中不同HLA基因的高同源性,并且从位点获得的各个短读长可以映射到许多不同的HLA等位基因和位点;
[0028] 图6示出使用核心外显子(core exons)的假设对准矩阵(hypothetical alignment matrix);
[0029] 图7示出描述为确定全分辨率HLA类型而执行的步骤的流程图
[0030] 图8例示本文所公开的方法的新颖特征;即通过比较来自外显子的读长与用于两个等位基因的已知参考序列,并且可仅通过两个等位基因中的一个而不是当前解集中的其他等位基因来解释,评估假定的HLA等位基因是否比比较等位基因更好地解释测序数据;
[0031] 图9示出描绘涉及用比较集迭代地更新初始解集的步骤的流程图;
[0032] 图10示出描绘涉及用比较集迭代地更新解集的步骤的流程图;
[0033] 图11示出给定HLA基因如何被指定为特定等位基因的杂合子(heterozygous)或纯合子(homozygous)的示意图;
[0034] 图12示出描绘涉及确定全分辨率HLA类型的步骤的流程图;和
[0035] 图13示出数字处理装置的非限制性示例;在这种情况下,该设备具有一个或多个CPU、存储器、通信接口和显示器。设备和连接可用于传递由医疗保健专业人员可访问的报告。该报告可以通过本公开的任何方法生成。

具体实施方式

[0036] 除非另外定义,否则本文使用的所有技术术语具有与本发明所属领域的普通技术人员通常理解的含义相同的含义。如在本说明书和所附权利要求中所使用的,单数形式“一个(a、an)”和“该”包括复数指代,除非上下文另有明确说明。除非另有说明,否则本文对“或”的任何提及旨在涵盖“和/或”。
[0037] 如本文所用,“参考基因组”是指任何标准的公众可获得的参考基因组,例如GRCh38,基因组参考联盟(Genome Reference Consortium)人类基因组(构建体38(build 38))。替代地,参考基因组可以是从测序多个基因组重新构建的基因组。在某些实施例中,多个基因组大于10000个不同的基因组。在某些实施例中,多个基因组大于100000个不同的基因组。
[0038] 本公开的方法、系统和介质代表对当前HLA分型方法的实质性改进。本文描述的方法使用从个体的基因组产生的核酸序列读长。在某些实施例中,核酸序列是DNA。可以使用任何核酸测序技术产生核酸序列读长,但是使用短读长来实现该方法的全部功能(full power),短读长使用下一代测序技术产生。该技术可以是产生短读长的任何下一代技术,例如焦磷酸测序、合成测序、连接测序、离子半导体测序和/或测序阵列。该方法还与较旧的测序技术(例如,Sanger(桑格)测序)兼容。该读长可以是双末端读长。核酸序列读长的平均长度可小于500、400、300、200、150、100、75、50、40、35、32或30个基对。可以使用任何数量的读长,在一些情况下使用多个读长。在一些情况下,使用10、20、30、40、50、60、70、80、90、100、500、1000、2000或更多个读长,包括其中的增量。
[0039] 核酸读长可以源自从例如血液、血浆、血清、活组织检查、唾液、尿液或精液的生物样本分离的DNA或RNA。核酸读长也可以是来自从生物样本分离的核酸的逆转录的cDNA。在某个方面,核酸可以是不含循环细胞的DNA或RNA。在某些情况下,分析的DNA是核基因组DNA而不是线粒体DNA。来自个体的核酸序列可以通过第三方测序提供者或先前确定的序列获得,个体可以将先前确定的序列传递给执行本文方法的设备或个体。个体可以是接受移植或在移植名单上的患者,或者是预期器官供体。在某个实施例中,本文使用的测序方法可用于预测或诊断自体免疫疾病。
[0040] 图7示出具有描绘整体方法的流程的示意图。在第一步骤700中,将一个或多个独立的核酸序列读长与HLA位点对准/比对(aligned)以产生对准矩阵,该对准矩阵表示哪些序列读长映射到哪些已知的HLA等位基因。原始测序数据被过滤703。该过滤步骤从末端去除(修剪)低质量碱基对并拒绝具有总体低质量的序列读长。然后将读长与已知的HLA等位基因对准。在某些情况下,优选具有最少100个碱基对的读长。在某些情况下,可以使用具有最少50个碱基对的读长。在可选的实施例704中,在与已知HLA等位基因的氨基酸序列对准之前,将核酸翻译成氨基酸序列。该新颖步骤减少了与4位等位基因的整体匹配,且因此,仅与临床中对HLA分型最重要的基因匹配。它还允许更快的对准/比对(alignment),因为每个非同义SNP比10个同义SNP具有更大的影响。在过滤读长后,将读长对准到已知的HLA等位基因,以确定与序列读长共享共同序列的第一组HLA等位基因。由于每个HLA基因的大量相似但不同的等位基因,初始对准通常会遗漏一些与第一组HLA等位基因同等良好或几乎一样良好地匹配。因此,然后使用已知HLA等位基因的多序列对准(MSA)705扩充该第一组HLA等位基因,导致被确定出与序列读长共享共同序列的一个或多个附加的HLA等位基因。在某些情况下,基于MSA的扩展使用所有已知的HLA序列。该步骤的效果是创建可以通过读长解释的HLA等位基因的详尽列表。在一些情况下,第一组HLA等位基因包含与任何序列读长100%相同的等位基因。在一些情况下,第一组HLA等位基因包含与任何序列读长至少99%、98%、97%、96%或95%相同的等位基因。在一些情况下,HLA等位基因扩展的列表包括与第一组中的任何等位基因100%相同的等位基因。在一些情况下,HLA等位基因的扩展的列表包括与第一组中的任何等位基因至少99%、98%、97%、96%或95%相同的等位基因。
[0041] 通过确定每个基因的由扩展的HLA等位基因组706解释的前两个等位基因,可以分析由步骤700产生的对准矩阵以找到个体的4位HLA组成701。在某个实施例中,前两个等位基因基于排序或概率度量。可以通过使用核心外显子和整数线性编程方法来执行该步骤。这可以使用如图6所示的对准矩阵来完成。核心外显子针对I类是外显子2和3,或针对II类HLA是外显子2。另外,如在本公开中所述,可以进行接合性检查709以确定个体对于给定位点处的特定等位基因是杂合的还是纯合的。
[0042] 图8例示通过将分析从核心外显子扩展至来自扩展的等位基因组的所有可用共享外显子,可以进一步提高来自步骤701的结果的准确性。例如,两个等位基因801和802可以等同或几乎等同地能够包含在初始解集803中,该初始解集803包含多个HLA等位基因,该多个HLA等位基因最佳地解释个体的核酸或翻译的氨基酸序列读长。在这种情况下,将分析扩展到两个不同等位基因之间共享的外显子可以增加解集的整体置信度或解决模糊性。等位基因802可以被解集中的等位基因801代替,并且如果包含802产生更好地解释个体的序列读长的解集,则将802保留在该集中;否则,保留801。如果解集在对准中具有更高的置信度,则解集更好地解释个体的序列读长。这可以考虑测序质量、错误概率或两者。在某个实施例中,大于10%、20%、30%、40%、50%、60%、70%、80%、90%或更高的测序质量将导致更高的置信度。在某个实施例中,1.5倍(fold)、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍或更低的错误概率将导致更高的置信度。可选地,如果更多共享读长映射到等位基因802,则等位基因802可以包含在等位基因801上的解集中。在一些情况下,将仅通过被比较的两个等位基因之一但不是通过当前解集中的任何其他等位基因可说明的序列读长用于上述过程中。
[0043] 通过迭代地更新来自最佳解释读长708的扩展等位基因组的等位基因,可以进一步改进步骤701。在一些实施例中,迭代更新考虑所有成对共享外显子707。在一些实施例中,首先使用核心外显子进行迭代更新。然后,如果需要,除核心外显子外,可以使用共享外显子重复迭代过程。
[0044] 图9表示使用映射到核心外显子的序列读长生成初始解集903以及使用等位基因生成比较集904,所述等位基因相对于个体的序列读长的匹配与初始解集几乎一样地表现(perform)。在某些情况下,等位基因基于排序表现几乎相同。例如,排序最高的等位基因可以在初始集中,并且比较集包括排序为第2、第3、第4、第5、第6、第7、第8,第9、第10或更好的等位基因;或在排序结果的前1%、2%、3%、4%、5%或10%。除了迭代更新解集中的每个等位基因之外,与图8中的大部分一样,分析被扩展到共享外显子,这使得与比较集中的所有等位基因进行多个连续的成对比较。该迭代过程可以取决于读长的确切数量和覆盖。在某些情况下,迭代过程继续进行,直到找不到HLA等位基因的更好的匹配集。在某些情况下,该更新进行至少1、2、3、4、5、6、7、8、9、10或更多次迭代。在某些情况下,该更新进行至少10、20、30、40、50、60、70、80、90、100或更多次迭代,包括其中的增量。在某些情况下,该更新进行至少1000、2000、3000、4000、5000、6000、7000、8000、9000、10000或更多次迭代,包括其中的增量。在某些情况下,该更新进行至少10、20、30、40、50、60、70、80、90、100或更多次迭代,包括其中的增量。当针对解集中的第一等位基因901耗尽所有组合时,然后该方法移动到解集中的下一个等位基因905。重复该过程,直到解集中的所有等位基因已经与比较集中的所有等位基因进行了比较。
[0045] 图10例示选择单个最佳比较集以得到个体的4位HLA类型。这是通过整体上迭代地更新解集来实现的,尽管在图9中,其中,更新个体等位基因而不是整体上更新解集。
[0046] 由于HLA位点是在常染色体上,因此个体具有每个HLA基因的两个拷贝。在给定的HLA基因,个体可以是纯合的或杂合的。图11例示接合性检查之间的概念。由于初始解集针对每个基因将具有两个等位基因,因此最终解集1103针对每个基因将具有两个等位基因1101和1102。确定个体对于等位基因1101或1102中的任一个是杂合的还是纯合的,涉及对映射到每个等位基因的读长进行计数并取得来自一个等位基因的读长与来自另一个等位基因的读长的比。在某些情况下,仅使用只能通过两个等位基因的一个解释但不能通过解集中的任何其他等位基因解释的读长。如果映射到等位基因1101的读长1106的数量比映射到等位基因1102的读长1107的数量足够大,则个体针对等位基因1101是纯合的具有高确定性。确定纯合调用(call)的读长的比可以至少为2:1、3:1、4:1、5:1、6:1或更多。在某些情况下,相比于下一个最接近的等位基因,被称为纯合的等位基因具有2倍、3倍、4倍、5倍、6倍或更多倍的映射到其的读长。
[0047] 除了确定个体的4位HLA类型之外,本公开的方法还允许确定全分辨率HLA类型702。全分辨率HLA分型710是由每个等位基因表示的个体HLA组成,每个等位基因被识别为所有四个字段代码,如图4所示。
[0048] 图12例示用于确定个体的全分辨率HLA类型的示意图。在得到最终的4位HLA组成并且进行接合性检查之后,然后将明确地分配给解集的所有读长与落入每个4位类型的所有等位基因对准。例如,在图12中,对明确地映射到由其4位类型A*03:01指定的等位基因1201的读长进行抽取,并且针对相同4位类型A*03:01:01:01、A*03:01:01:02、A*03:01:02:
01、A*03:01:03:01、A*03:01:03:02以及A*03:01:03:03的所有其他等位基因对其进行测试。将单个最佳匹配添加到解集中,并对最终4位HLA组成集中的所有等位基因重复该过程。
[0049] 数字处理装置
[0050] 本文所描述的系统、介质和方法可以包括数字处理装置或其使用。数字处理装置包括执行设备功能的一个或多个硬件中央处理单元(CPU)或通用图形处理单元(GPGPU)。数字处理装置还包括被配置为执行可执行指令的操作系统。数字处理装置可以可逆地连接计算机网络。在各种实施例中,数字处理装置可选地且可逆地连接到:因特网,使得其访问万维网计算基础设施、内联网和/或数据存储设备。
[0051] 根据本文的描述,作为非限制性示例,合适的数字处理装置包括服务器计算机、台式计算机、便携式计算机、笔记本计算机、小型笔记本计算机、上网本计算机、网络计算机、手持计算机、互联网设备、移动智能手机和平板电脑。本领域技术人员将认识到,许多智能电话适用于本文所述的系统。合适的平板电脑包括具有本领域技术人员已知的菜单、平板和可转换配置的平板电脑。
[0052] 数字处理装置包括被配置为执行可执行指令的操作系统。操作系统例如是包括程序和数据的软件,其管理设备的硬件并提供用于执行应用程序的服务。本领域技术人员将认识到,作为非限制性示例,合适的服务器操作系统包括FreeBSD、OpenBSD、Linux、 Mac OS X Windows 和
本领域技术人员将认识到,作为非限制性示例,合适的个人计算机
操作系统包括 Mac OS 和类似UNIX的操作
系统,例如GNU/ 在一些实施例中,操作系统由云计算提供。本领域技术人员还将认识到,作为非限制性示例,合适的移动智能电话操作系统包括 OS、
Research In BlackBerry
Windows OS、 Windows
OS、 和
[0053] 数字处理装置包括存储和/或存储器设备。存储和/或存储器设备是用于以临时或永久基础存储数据或程序的一个或多个物理设备。在一些实施例中,该设备是易失性存储器并且需要电力来维护存储的信息。在一些情况下,存储器设备是非易失性存储器,并且在数字处理装置未通电时保留存储的信息。在各种实施例中,非易失性存储器包括:闪存、动态随机存取存储器(DRAM)、电随机存取存储器(FRAM)和/或相变随机存取存储器(PRAM)。在其他情况下,作为非限制性示例,存储器设备是存储设备,该存储设备包括CD-ROM、DVD、闪存设备、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储。存储和/或存储器设备可以是诸如本文公开的那些存储器设备的组合。
[0054] 数字处理装置可选地包括向用户发送视觉信息的显示器。许多类型的显示器是合适的,包括例如液晶显示器(LCD)、薄膜晶体管液晶显示器(TFT-LCD)、有机发光二极管(OLED)显示器(包括无源矩阵OLED(PMOLED)和/或有源矩阵OLED(AMOLED)显示器)和等离子显示器。在某些情况下,显示器是触摸屏或多点触摸屏显示器。其他合适的显示器包括视频投影仪和与数字处理装置通信的头戴式显示器,例如VR头戴式机。作为非限制性示例,合适的VR头戴式耳机包括HTC Vive、Oculus Rift、Samsung Gear VR、Microsoft HoloLens、Razer OSVR、FOVE VR、Zeiss VR One、Avegant Glyph、Freefly VR等。显示器可以是一个或多个显示器,并且包括诸如本文所公开的那些设备的组合。
[0055] 数字处理装置可选地包括从用户接收信息的输入设备。在各种实施例中,输入设备是:键盘、指向设备、触摸屏或多点触摸屏、捕获语音或其他声音输入的麦克和/或用于捕获运动或视觉输入的摄像机或其他传感器,作为非限制性示例,该指向包括鼠标跟踪球、跟踪板、操纵杆、游戏控制器触控笔。在特定实施例中,输入设备是Kinect、Leap Motion等。输入设备可以是诸如本文所公开的那些设备的组合。
[0056] 参考图13,在特定实施例中,示例性数字处理装置1301被编程或以其他方式配置为执行本文所描述的程序。在该实施例中,数字处理装置1301包括中央处理单元(CPU,这里也称为“处理器”和“计算机处理器”)1305,该中央处理单元1305可以是单核或多核处理器,或者是用于并行处理的多个处理器。数字处理装置1301还包括存储器或存储器单元1310(例如,随机存取存储器、只读存储器、闪存)、电子存储单元1315(例如,硬盘)、用于与一个或多个其他系统通信的通信接口1320(例如,网络适配器)以及外围设备1325,例如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器1310、存储单元1315、接口1320和外围设备1325通过诸如母板的通信总线(实线)与CPU 1305通信。存储单元1315可以是用于存储数据的数据存储单元(或数据储存库)。数字处理装置1301可以借助于通信接口1320可操作地耦合到计算机网络(“网络”)1330。网络1330可以是因特网、互联网和/或外联网、或与因特网通信的内联网和/或外联网。在一些情况下,网络1330是电信和/或数据网络。网络1330可以包括一个或多个计算机服务器,其可以实现分布式计算,例如云计算。在一些情况下借助于设备1301,网络1330可以实现对等网络,其可以使耦合到设备1301的设备能够充当客户端或服务器。
[0057] 继续参考图13,CPU 1305可以执行一系列机器可读指令,该机器可读指令可以体现在程序或软件中。指令可以存储在存储器单元中,例如存储器1310。指令可以指向CPU 1305,随后可以编程或以其他方式配置CPU 1305以实现本公开的方法。由CPU 1305执行的操作的示例可以包括获取、解码、执行和回写。CPU 1305可以是电路(如,集成电路)的一部分。设备1301的一个或多个其他组件可以包括在电路中。在某些情况下,该电路是专用集成电路(ASIC)或现场可编程阵列(FPGA)。
[0058] 继续参考图13,存储单元1315可以存储文件,例如驱动程序、库和保存的程序。存储单元1315可以存储用户数据,例如用户偏好和用户程序。在一些情况下,数字处理装置1301可以包括外部的一个或多个附加数据存储单元,例如位于通过内联网或因特网在通信中的远程服务器上。
[0059] 继续参考图13,数字处理装置1301可以通过网络1330与一个或多个远程计算机系统通信。例如,设备1301可以与用户的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式PC)、平板型或平板电脑(例如, iPad、 Galaxy Tab)、电话或智能电话(例如, iPhone、Android授权装置、 )。
[0060] 这里描述的方法可以通过存储在数字处理装置1301的电子存储单元(例如,在存储器1310或电子存储单元1315上)上的机器(例如,计算机处理器)可执行代码来实现。机器可执行代码或机器可读代码可以以软件的形式被提供。在使用期间,代码可以由处理器1305执行。在一些情况下,代码可以从存储单元1315检索并存储在存储器1310上以供处理器1305随时访问。在一些情况下,电子存储单元1315可以是排除的,并且机器可执行指令存储在存储器1310上。
[0061] 可以通过网络1330或者可选地通过邮件或诸如FTP站点的安全下载站点将报告从例如测序实验室递送到医疗服务提供者或消费者。
[0062] 短读长序列对准方法和软件
[0063] 任何合适的对准方法或软件可以用来对准本公开中所描述的短读长,包括以下中的一种或多种:BarraCUDA、BBMap、BFAST、BigBWA、BLASTN、BLAT、Bowtie、HIVE-hexagon、BWA、BWA-PSSM、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、CUSHAW3、drFAST、ELAND、ERNE、GASSST、GEM、Genalice MAP、Geneious Assembler、GensearchNGS、GMAP和GSNAP、GNUMAP、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOM、MOSAIK、MPscan、Novoalign和NovoalignCS、NextGENe、NextGenMap、Omixon Variant Toolkit、PALMapper、Partek Flow、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOAP3-dp、SOCS、SparkBWA、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、XpressAlign或ZOOM。
[0064] 非暂时性计算机可读存储介质
[0065] 本文公开的系统、介质和方法可以包括用程序编码的一个或多个非暂时性计算机可读存储介质,该程序包括可由可选联网的数字处理装置的操作系统执行的指令。计算机可读存储介质可以是数字处理装置的有形组件,其可以可选地从数字处理装置移除。许多类型的介质适合存储指令。在各种实施例中,作为非限制性示例,合适的计算机可读存储介质包括CD-ROM、DVD、闪存设备、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在某些情况下,程序和指令在介质上被永久地、基本上永久地、半永久地或非暂时地编码。
[0066] 计算机程序
[0067] 本文公开的系统、介质和方法可包括一个或多个计算机程序或其使用。计算机程序包括可在数字处理装置的CPU中执行的指令序列,该指令序列被编写以执行指定的任务。计算机可读指令可以实现为执行特定任务或实现特定抽象数据类型的程序模块,诸如功能、对象、应用程序编程接口(API)、数据结构等。根据本文提供的公开内容,本领域技术人员将认识到,计算机程序可以以各种语言的各种版本来编写。
[0068] 计算机可读指令的功能可以根据需要在各种环境中组合或分布。在某些情况下,计算机程序包括一个指令序列。在其他情况下,计算机程序包括多个指令序列。在某些情况下,从一个位置提供计算机程序。在其他情况下,从多个位置提供计算机程序。在各种实施例中,计算机程序部分地或全部地包括一个或多个软件模块、一个或多个web应用程序、一个或多个移动应用程序、一个或多个独立应用程序、一个或多个web浏览器插件、扩展、加载项或附加组件、或其组合。
[0069] 独立应用程序
[0070] 计算机程序可以包括独立应用程序,该独立应用程序是作为独立计算机进程运行的程序,而不是现有进程(例如,不是插件)的附加组件。本领域技术人员将认识到经常编译独立应用程序。编译器是(一个或多个)计算机程序,它将用编程语言编写的源代码转换为例如汇编语言或机器代码的二进制目标代码。作为非限制性示例,适当的编译的编程语言包括C、C++、Objective-C、COBOL、Delphi、Eiffel、JavaTM、Lisp、PythonTM、Visual Basic和VB.NET、或其组合。通常至少部分地执行编译以创建可执行程序。在某些情况下,计算机程序包括一个或多个可执行的编译应用程序。
[0071] 软件模块
[0072] 本文公开的系统、介质和方法可包括一个或多个软件、服务器和/或数据库模块、或其使用。根据本文提供的公开内容,使用本领域已知的机器、软件和语言,通过本领域技术人员已知的技术创建软件模块。这里公开的软件模块以多种方式实现。在各种实施例中,软件模块包括文件、代码段、编程对象、编程结构或其组合。在进一步的各种实施例中,软件模块包括多个文件、多个代码段、多个编程对象、多个编程结构或其组合。在各种实施例中,作为非限制性示例,一个或多个软件模块包括web应用程序、移动应用程序和独立应用程序。在一些实施例中,软件模块在一个计算机程序或应用程序中。在其他实施例中,软件模块在多于一个计算机程序或应用程序中。在一些实施例中,软件模块托管在一台机器上。在其他实施例中,软件模块托管在多于一台机器上。在进一步的实施例中,软件模块托管在云计算平台上。在一些实施例中,软件模块托管在一个位置中的一个或多个机器上。在其他实施例中,软件模块托管在一个以上位置中的一个或多个机器上。
[0073] 数据库
[0074] 本文公开的系统、介质和方法可包括一个或多个数据库或其使用。根据本文提供的公开内容,本领域技术人员将认识到许多数据库适合于存储和检索核酸和包括HLA等位基因参考序列的氨基酸序列。在各种实施例中,作为非限制性示例,合适的数据库包括关系数据库、非关系数据库、面向对象的数据库、对象数据库、实体关系模型数据库、关联数据库和XML数据库。进一步的非限制性示例包括SQL、PostgreSQL、MySQL、Oracle、DB2和Sybase。在一些实施例中,数据库是基于互联网的。在进一步的实施例中,数据库是基于网络的。在更进一步的实施例中,数据库是基于云计算的。在其他实施例中,数据库是基于一个或多个本地计算机存储设备的。
[0075] 示例
[0076] 以下说明性示例代表本文描述的软件应用程序、系统和方法的实施例,并不意味着以任何方式进行限制。
[0077] 示例1-预期器官移植受体的HLA分型
[0078] 在该示例中,被诊断患有晚期肾病的患者将使其4位HLA类型被确定,以便他可以与预期供体匹配。患者提供血液样本,该血液样本被发送到CLIA兼容设备,从中提取DNA并使用下一代测序技术(例如从Illumina公司购得的MiSeqTM或HiSeqTM系统)对其进行测序。将使用本公开的方法在设备中对测序结果进行分析并将4位HLA类型传送给医疗服务提供者。同时,可能是预期供体的个体(在这种情况下是患者的兄弟姐妹)将以相同的方式使其4位HLA类型被确定。可选地,可以将原始测序数据传输给医疗服务提供者以进行分析和HLA确定。
[0079] 示例2-HLA分型以确定1型糖尿病风险
[0080] 在该示例中,测试健康个体以确定发展1型糖尿病的风险。该个体提供唾液样本,该唾液样本被送至CLIA兼容设备,从中提取DNA并使用下一代测序技术(例如从Illumina公司购得的MiSeqTM或HiSeqTM系统)对其进行测序。测序结果将使用本公开的方法在该设备进行分析,并将4位HLA类型传送给医疗服务提供者。如果个体的HLA单倍型是与发展I型糖尿病的高风险特别相关的单倍型(例如,DRB1*03:01-DQA1*05:01-DQB1*02:01或DRB1*04:01/02/04/05/08-DQA1*03:01-DQB1*03:02/04),则将来会针对早期I型糖尿病更密切地监测个体。
[0081] 虽然本文已经显示和描述了本发明的优选实施例,但是对于本领域技术人员显而易见的是,这些实施方案仅以举例的方式提供。在不脱离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。应该理解的是,本文所述的本发明实施例的各种替代方案可用于实施本发明。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈