首页 / 专利库 / 畜牧业 / 家畜 / 反刍动物 / / 成年母牛 / 乳头 / 用于将遗传样本基因分型的方法和系统

用于将遗传样本基因分型的方法和系统

阅读:108发布:2020-05-11

专利汇可以提供用于将遗传样本基因分型的方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 提供使用表示基因组的每个基因座处的已知变异体的参考序列构建体,例如有向非循环图(DAG)在特定基因座处进行特定 碱 基调用的方法和系统。因为在比对期间将序列读数与该DAG进行比对,所以可以排除比较关于参考基因组的突变与已知突变的表的后续步骤。本发明的方法和系统在处理基因组内的结构变异或结构变异内的突变中特别有效。,下面是用于将遗传样本基因分型的方法和系统专利的具体信息内容。

1.一种将遗传样本基因分型的方法,其包括:
获得对应于遗传样本的多个序列读数,其中所述多个序列读数包含基因结构变异的部分;
将所述多个序列读数与参考有向非循环图进行比对,所述参考有向非循环图反映物种内的基因序列中的变异性,所述参考有向非循环图在所述参考有向非循环图中的位置包括对应于第一等位基因的第一路径及对应于第二等位基因的第二路径,其中所述第一等位基因包含所述基因结构变异,其中包含基因结构变异的部分的所述多个序列读数与所述参考有向非循环图恰当地比对;以及
基于与所述第一路径及第二路径比对的序列读数的数目调用所述多个序列读数作为第一等位基因或第二等位基因的相应者。
2.根据权利要求1所述的方法,其中所述方法不包含将所述序列读数与变异调用格式文件或单核苷酸多态性数据库进行比较。
3.根据权利要求1所述的方法,其中所述参考有向非循环图在所述参考有向非循环图中的所述位置进一步包括对应于第三等位基因的第三路径。
4.根据权利要求1所述的方法,其中使用两个或大于两个相关读数的比对将所述样本基因分型。
5.根据权利要求1所述的方法,其进一步包括基于与所述第一路径及第二路径比对的序列读数的数目确定所述样本的等位基因频率
6.根据权利要求1所述的方法,其进一步包括基于所述序列读数与所述第一路径及第二路径中的一个之间的重叠基对的数目确定所述基因型的置信度值,其中更多重叠与更大置信度相关。
7.根据权利要求1所述的方法,其中所述参考有向非循环图表示染色体。
8.根据权利要求1所述的方法,其中所述参考有向非循环图表示基因组。
9.根据权利要求1所述的方法,其中所述第一路径及第二路径基于碱基缺失、碱基插入或多态性不同于彼此。
10.根据权利要求1所述的方法,其中所述序列读数是通过用选自桑格测序、焦磷酸测序、离子半导体测序、合成测序、连接测序以及单分子实时测序的方法来测序受试者的遗传样本而获得。
11.根据权利要求1所述的方法,其中所述参考有向非循环图包括大于1,000个碱基对。
12.根据权利要求11所述的方法,其中所述参考有向非循环图包括大于1,000,000个符号。
13.根据权利要求1所述的方法,其中所述多个序列读数包括大于1000个序列读数。
14.根据权利要求1所述的方法,其中大多数所述多个序列读数的长度大于50个碱基对。
15.根据权利要求14所述的方法,其中大多数所述多个序列读数的长度大于100个碱基对。
16.根据权利要求1所述的方法,其中所述遗传样本起源于血液、尿液、唾液、痰液、粪便乳头吸液、汗液、毛囊、腮抹试或组织。
17.根据权利要求16所述的方法,其进一步包括从所述样本分离多个核酸。
18.根据权利要求1所述的方法,其进一步包括基于所述样本的所述基因型诊断疾病
19.一种计算机实施的将遗传样本基因分型的方法,其包括:
提供对应于遗传样本的多个序列读数,其中所述多个序列读数包含基因结构变异的部分;
使用计算机处理器将所述多个序列读数与参考有向非循环图进行比对,所述参考有向非循环图反映物种内的基因序列中的变异性,所述参考有向非循环图在所述有向非循环图中的位置包括对应于第一等位基因的第一路径及对应于第二等位基因的第二路径,其中所述第一等位基因包含所述基因结构变异,其中包含基因结构变异的部分的所述多个序列读数与所述参考有向非循环图恰当地比对;以及
基于与所述第一路径及第二路径比对的序列读数的数目调用所述多个序列读数作为第一等位基因或第二等位基因的相应者。
20.根据权利要求19所述的方法,其中所述多个序列读数提供于非暂时性计算机可读媒体中。
21.根据权利要求19所述的方法,其中所述参考有向非循环图提供于非暂时性计算机可读媒体中。
22.一种用于比对多个读数的系统,其包括处理器和存储器,其中所述存储器包括指令,所述指令在被执行时致使所述处理器如下操作:
获得对应于遗传样本的多个序列读数,其中所述多个序列读数包含基因结构变异的部分;
将所述多个序列读数与参考有向非循环图进行比对,所述参考有向非循环图反映物种内的基因序列中的变异性,所述参考在所述有向非循环图中的位置包括对应于第一等位基因的第一路径及对应于第二等位基因的第二路径,其中所述第一等位基因包含所述基因结构变异,其中包含基因结构变异的部分的所述多个序列读数与所述参考有向非循环图恰当地比对;以及
基于与所述第一路径及第二路径比对的序列读数的数目调用所述多个序列读数作为第一等位基因或第二等位基因的相应者。
23.根据权利要求22所述的系统,其中比对包括:
同时比较对应于序列读数的符号串与在所述位置的所述第一路径及第二路径,对所述符号串与所述第一路径及第二路径中的每一个之间的重叠评分,其中较高评分对应于较大重叠量;以及
把基因型识别为对应于所述序列读数的最高评分的重叠。
24.根据权利要求23所述的系统,其进一步包括将对应于所识别基因型的文件写入存储器中。
25.根据权利要求22所述的系统,其中所述多个序列读数提供于非暂时性计算机可读媒体中。
26.根据权利要求22所述的系统,其中所述参考有向非循环图提供于非暂时性计算机可读媒体中。
27.根据权利要求22所述的系统,其中所述系统包括多个处理器,并且其中每个处理器被配置成用于比对所述多个序列读数的一部分与所述参考有向非循环图体。
28.根据权利要求22所述的系统,其中所述指令另外致使所述处理器输出所述样本的基因型。

说明书全文

用于将遗传样本基因分型的方法和系统

[0001] 相关申请
[0002] 本申请主张2013年10月18日申请的美国专利申请第61/892,662号的优先权,其以全文引用的方式并入本文中。

技术领域

[0003] 本发明涉及用于将遗传样本基因分型的方法和系统。

背景技术

[0004] 测序技术的进步使得有可能在一周或更短时间内测序个体的基因组。通常,将遗TM传样本分离,断裂成片段,扩增并且随后在如Illumina 测序(加利福尼亚州圣地亚哥的亿明达公司(Illumina,Inc.,San Diego,CA))的高通量系统上测序。此过程产生大量序列读数,其随后必须组合产生序列。序列本身提供极少的有用信息,然而,这是因为信息的诊断和预测值取决于基因组中序列的相对位置。也就是说,当基因组内序列的相对位置是已知时,仅有可能确定例如疾病标记物存在。另外,当特定位置的序列是已知时,可以确定较高层次的信息,如表型、等位基因身份、基因型等。
[0005] 由于每个基因组内的大小和变异性,定位每个读数属于何处在下一代测序(N.G.S.)中是基因分型的实质性障碍。基于读数集确定基因型的问题自然地框以证据条款。每个读数提供一些基因型或基因型组的证据,并且合并所有读数的证据使得我们得出关于受试者的基因型的一些结论。然而,此解释什么是证明受试者的基因组的单个读数及聚集许多读数的证据的过程的两个部分都存在问题。此外,当处理实际遗传数据时,读数的绝对数目以及遗传数据中存在较大结构变异产生类似于具有数百万拼图零片且零片之间几乎没有变异的拼图的挑战。
[0006] 当前技术发展平的比对方法使用大规模计算能将重叠的读数与参考比对以产生可以探测用于重要遗传或结构信息(例如,疾病的生物标记)的组合序列。最终,序列比对的目标是组合由测序仪产生的核酸读数集以实现较长读数(即,重叠群)或甚至基于来自受试者的遗传样本的该受试者的全基因组。因为来自下一代测序仪的序列数据通常包括一起表示目标序列的总数的数百万较短序列,所以比对读数是复杂并且计算上昂贵的。另外,为了使由随机测序误差(即,不正确的测序机输出)引起的序列失真减到最少,对所探测的序列的每个部分多次(例如,2次到100次或更多次)测序,以使任何随机测序误差对所产生的最终比对和输出序列的影响减到最小。最后,在收集了对应于所有核酸读数的所有数据后,针对单个参考序列(例如,GRCh37)比对读数,以便确定所有(或一部分)受试者序列。在许多情况下,个别读数实际上不显示,但是实际上比对序列组合到取样序列中,并且取样序列是作为数据文件提供。
[0007] 通常,通过聚集两个线性串序列信息之间的成对比对来构建序列比对。作为比对的实例,可以将两个字符串S1(SEQ ID NO.20:AGCTACGTACACTACC)和S2(SEQ ID NO.21:AGCTATCGTACTAGC)针对彼此进行比对。S1通常对应于读数,并且S2对应于参考序列的一部分。S1和S2可以相对于彼此包含取代、缺失以及插入。通常,关于将字符串S1转化为字符串S2来定义术语:当S2中的字母或序列被不同字母或S1中相同长度的序列置换时发生取代,当S2中的字母或序列在S1的对应部分中“跳过”时发生缺失,并且当在S1中在S2中相邻的两个位置之间出现字母或序列时发生插入。举例来说,两个序列S1和S2可以如下比对。以下比对呈现十三处匹配,一处缺失长度一,一处插入长度二以及一处取代:
[0008] (S1)AGCTA-CGTACACTACC(SEQ ID NO.20)
[0009] (S2)AGCTATCGTAC--TAGC(SEQ ID NO.21)
[0010] 所属领域的技术人员将了解,存在序列比对的精确算法和近似算法。精确算法将找到最高评分的比对,但是在计算上会昂贵。两种最熟知的精确算法是尼德曼-翁施法(Needleman-Wunsch)(分子生物学杂志(J Mol Biol),48(3):443-453,1970)和史密斯-沃特曼法(Smith-Waterman)(分子生物学杂志,147(1):195-197,1981;数学进展(Adv.in Math.)20(3),367-387,1976)。后藤(Gotoh)(分子生物学杂志,162(3),705-708,1982)对史密斯-沃特曼法的进一步改进将计算时间从O(m2n)减少到O(mn),其中m和n是比较的序列大小,该改进更能改善并行处理。在生物信息学领域,正是后藤的改良算法通常被称作史密斯-沃特曼算法。史密斯-沃特曼方法用于比对较大序列集与较大参考序列,因为可更普遍并且更便宜地获得并行计算资源。参看例如,在http://aws.amazon.com可获得的Amazon.com的计算资源。所有上述期刊文章都以全文引用的方式并入本文中。
[0011] 史密斯-沃特曼(SW)算法通过奖励序列中的基之间的重叠并且处罚序列之间的空隙来比对线性序列。史密斯-沃特曼法还与尼德曼-翁施法不同,不同之处在于SW不要求短序列跨越描述长序列的字母字符串。也就是说,SW不假定一个序列是另一个序列的全部内容的读数。此外,因为SW并不一定找到横跨字符串的全长的比对,所以局部比对可以在两个序列内的任何地方开始和结束。
[0012] 根据以下方程式(1),对于表示长度n和m的两个字符串的n×m矩阵H,易于表示SW算法:
[0013] Hk0=H0l=0(对于0≤k≤n并且0≤l≤m)   (1)
[0014] Hij=max{Hi-1,j-1+s(ai,bj),Hi-1,j-Win,Hi,j-1-Wdel,0}
[0015] (对于1≤i≤n并且1≤j≤m)
[0016] 在上述方程式中,s(ai,bj)表示匹配奖分(当ai=bj时)或错配罚分(当ai≠bj时),并且对插入和缺失分别给出罚分Win和Wdel。在大多数情况下,所得矩阵具有为零的许多元素。此表示使得更容易在矩阵中从高到低、从右到左回溯,因此识别比对。
[0017] 在已经用分数完全填充矩阵后,SW算法执行回溯以确定比对。以矩阵中的最大值开始,算法将基于三个值中的哪个(Hi-1,j-1、Hi-1,j或Hi,j-1)曾用于计算每个单元格的最终最大值来进行回溯。当达到零时回溯停止。参看例如图3(B),其不表示现有技术,而是示出回溯的概念以及在读取回溯时的对应局部比对。因此,如通过算法确定的“最佳比对”可以含有超过最小可能数目的插入和缺失,但是将含有远少于最大可能数目的取代。
[0018] 当以SW或SW-后藤形式应用时,技术使用动态规划算法来执行分别具有大小m和n的两个字符串S和A的局部序列比对。此动态规划技术采用表或矩阵来保存匹配分数并且避免对于连续单元格的重新计算。可以相对于序列的字母为字符串的每个元素编索引,也就是说,如果S是字符串ATCGAA,那么S[1]=A、S[4]=G等。替代将最优比对表示为Hi,j(上文),可以将最优比对表示为下文方程式(2)中的B[j,k]:
[0019] B[j,k]=max(p[j,k],i[j,k],d[j,k],0)(对于0
[0020] 在以下方程式(3)到(5)中概述最大值函数B[j,k]的变量参数,其中MISMATCH_PENALTY、MATCH_BONUS、INSERTION_PENALTY、DELETION_PENALTY以及OPENING_PENALTY都是常数,并且除MATCH_BONUS以外都为负数。匹配变量参数p[j,k]是由以下方程式(3)给出:
[0021] 如果S[j]≠A[k],那么p[j,k]=max(p[j-1,k-1],i[j-1,k-1],d[j-1,k-1])+MISMATCH_PENALTY(3)
[0022] 如果S[j]=A[k],那么为=max(p[j-1,k-1],i[j-1,k-1],d[j-1,k-1])+MATCH_BONUS
[0023] 插入变量参数i[j,k]是由以下方程式(4)给出:
[0024] i[j,k]=max(p[j-1,k]+OPENING_PENALTY,i[j-1,k],d[j-1,k]+(4)
[0025] OPENING_PENALTY)+INSERTION_PENALTY
[0026] 并且缺失变量参数d[j,k]是由以下方程式(5)给出:
[0027] d[j,k]=max(p[j,k-1]+OPENING_PENALTY,i[j,k-1]+(5)
[0028] OPENING_PENALTY,d[j,k-1])+DELETION_PENALTY
[0029] 对于所有三个变量参数,将[0,0]元素设置为零以确保回溯完成,即,p[0,0]=i[0,0]=d[0,0]=0。
[0030] 评分参数在某种程度上是任意的,并且可以经调整以实现计算行为。关于DNA的评分参数设置的一个实例(黄(Huang),第3章:生物序列比较和比对(Bio-Sequence Comparison and Alignment),当前顶端比较分子生物学(Curr Top Comp Mol Biol.)丛书,萨诸塞州剑桥市(Cambridge,Mass.):麻省理工学院出版社(The MIT Press),2002)将是:
[0031] MATCH_BONUS:10
[0032] MISMATCH_PENALTY:-20
[0033] INSERTION_PENALTY:-40
[0034] OPENING_PENALTY:-10
[0035] DELETION_PENALTY:-5
[0036] 以上空隙罚分(INSERTION_PENALTY、OPENING_PENALTY)之间的关系有助于限制空隙开放的数目,即,促进通过设置高于空隙开放成本的空隙插入罚分来归并空隙。当然,MISMATCH_PENALTY、MATCH_BONUS、INSERTION_PENALTY、OPENING_PENALTY以及DELETION_PENALTY之间的替代关系是可能的。
[0037] 在完成比对后,可以组合比对后的序列以产生可以与参考(即,遗传标准)相比以识别变异体的序列。仅在组合读数与参考相比之后,有可能进行样本的基因型的确定。在比较组合序列与参考序列之后,编录差异并且随后与如变异调用格式(Variant call format;VCF)文件或单核苷酸多态性数据库(polymorphism database;dbSNP)的参考突变文件进行比较。然而,此标准基因分型方法是费时的,并且通常需要大规模读数范围复制以确保不会误认真实突变的测序/扩增误差。
[0038] 整个基因分型过程进一步通过遗传样本中存在结构变异,即插入“常规”基因组中或“常规”基因组所缺失的较长(250bp或更长,例如1000bp或更长)序列而复杂化。还可以存在复制、倒置或易位。在许多情况下,一种基因型“调用”样本实际上是因为存在此类结构变异、突变、倒置、易位等。在其它情况下,结构变异内的突变产生又一种不同基因型所“调用”的样本。在其它情况下,相关序列已经移动(相对于“正常”位置),因为其接近于结构变异。
[0039] 然而,结构变异并入当前技术发展水平的基因分型方法中是非常困难的,因为存在可能产生任何特定读数的许多已知变异体。对于每个N结构变异,存在必须与组合序列比较以便将序列基因分型的大约2N个不同参考。换句话说,为了容纳一个结构变异体,组合序列必须与至少2个独立参考序列比较以将样本基因分型,但是容纳20个可能的结构变异需要比较该序列与大约一百万个不同参考。即使在并行计算的情况下使用当前技术发展水平的方法,此是非常昂贵的提议。此外,此组合爆发使得不可能将包含数百个可能的结构变异的较长序列可行地进行基因分型。因此,以减少计算时间的名义进行接近。换句话说,当前方法不完全表示通常在许多基因组中可见的结构变异。

发明内容

[0040] 本发明提供用于将序列读数有效基因分型的方法和系统,其是通过直接比对读数与参考序列构建体来进行,参考序列构建体同时考虑生物体的基因组中多个基因座处的多个等位基因。此外,本发明的方法和系统使得有可能以有效方式处理结构变异,大大降低使用下一代测序(N.G.S.)将遗传样本基因分型所必需的计算能力。另外,由于参考序列构建体考虑构建体内的各种可能的等位基因,有可能仅通过比对样本与构建体的读数将样本直接基因分型。特定比对模式仅对于特定基因型是可能的,因此不必比较组合序列与参考序列并且随后比较与该参考相关联的变异与突变文件。
[0041] 本发明的方法和系统将线性局部序列比对方法(如史密斯-沃特曼-后藤法)转化为多维比对算法,多维比对算法提供增加的并行度、增加的速度、增加的精确度以及在全基因组中比对读数的能力。本发明的算法提供序列信息的“回顾”型分析(如在史密斯-沃特曼法中),然而,与已知线性方法相比,本发明的回顾是贯穿包含多个路径和多个节点的多维空间而进行,以便提供对复杂和冗长序列读数的更精确比对,同时实现更低的总错配率、缺失率以及插入率。在许多情况下,几个路径表示生物体的特定基因型。因此,通过比对读数与表示特定路径的一组等位基因,立即识别基因型。
[0042] 在实践中,本发明是通过比对序列读数与跨越分支点的一连串有向非循环序列来实施,有向非循环序列考虑比对中的所有或几乎所有可能的序列变异,包含插入、缺失、取代以及结构变异。通常表示为有向非循环图(DAG)的此类构建体可以易于从可用的序列数据库来组合,可用的序列数据库包含“接受”的参考序列和变异调用格式(VCF)条目。当与DAG或其它定向构建体组合时,本发明算法因此提供针对序列比对的多维方法,其大大改进比对精确度并且提供常规算法不可能实现的序列分辨率
[0043] 本发明另外包含用于构筑表示生物体序列内的位置处的已知变异体的有向非循环图数据结构(DAG)的方法。DAG可以包含数千个位置处的多个序列,并且可以包含每个位置处的多个变异体,包含缺失、插入、转译、倒置、单核苷酸多态性(SNP)以及结构变异。还有可能用基因型或其它相关诊断信息,如“乳癌”来标记DAG中的每个变异体,从而减少获得读数内的有价值的诊断信息所需的步骤。在一些实施例中,变异体与在基因型调用中提供较大置信度相关。在一些实施例中,将对变异体评分、加权或使其与其它变异体相关以反映该变异体作为疾病标记物的发生率。
[0044] 本发明另外包含用于执行本发明方法的系统。在一个实施例中,系统包括处理器和存储器的分布式网络,其能够将多个序列(即,核酸序列、基酸序列)与呈现基因组或基因组区域中观测到的变异的参考序列构建体(例如,DAG)进行比较。该系统另外能够使用有效比对算法来比对核酸读数以产生连续序列。因为参考序列构建体压缩大量冗余信息,并且因为比对算法如此有效,所以可以使用市售资源在全基因组上标记和组合读数。该系统包括多个处理器,处理器同时执行多个读数与参考序列构建体之间的多个比较。可以累计比较数据并且提供给医疗服务人员。因为这些比较是计算上易处理的,所以分析序列读数将不再呈现NGS测序与患者遗传险的有意义论述之间的瓶颈附图说明
[0045] 图1描绘表示参考序列中的遗传变异的有向非循环图(DAG)的构建体。图1(A)展示起始参考序列和缺失的添加。图1(B)展示插入和SNP的添加,因此达成用于比对的最终DAG;
[0046] 图2描绘表示为有向非循环图的三个变异调用格式(VCF)条目;
[0047] 图3(A)展示将核酸序列读数与考虑插入事件的构建体以及参考序列进行比对的图形表示;
[0048] 图3(B)展示用于识别核酸序列读数“ATCGAA”的适当位置的矩阵和回溯;
[0049] 图4描绘生物体的基因组中的一个位置处的两个替代等位基因以及并有两个等位基因的参考序列构建体。第二等位基因不同于第一,不同之处在于其包含较长插入,即结构变异体。贯穿参考序列构建体的一个路径表示第一等位基因,并且贯穿该构建体的第二路径表示第二等位基因;
[0050] 图5展示四个独立读数如何可以与参考序列构建体比对。在比对后,一些读数可以被识别为对应于仅等位基因#1或等位基因#2,因此不需要将组合读数与参考序列之间的差异与突变文件进行比较来确定特定等位基因的存在;
[0051] 图6描绘生物体的基因组中的一个位置处的三个替代等位基因以及并有所有三个等位基因的参考序列构建体。第二和第三等位基因不同于第一,不同之处在于其包含较长插入,即结构变异体。第二和第三等位基因的单核苷酸多态性不同。贯穿参考序列构建体的一个路径表示第一等位基因,贯穿该构建体的第二路径表示第二等位基因,并且贯穿该构建体的第三路径表示第三等位基因;
[0052] 图7展示三个独立读数如何可以与参考序列构建体比对。在比对后,一些读数可以被识别为对应于仅等位基因#1、等位基因#2或等位基因#3,因此不需要将组合读数与参考序列之间的差异与突变文件进行比较来确定特定等位基因的存在;
[0053] 图8描绘用于并行处理的关联计算模型;
[0054] 图9描绘用于并行计算的架构。

具体实施方式

[0055] 本发明包含用于比对核酸序列与参考序列构建体的方法,用于构建参考序列构建体的方法,以及使用该比对方法和构建体产生比对和集合的系统。参考序列构建体可以是如下文所描述的有向非循环图(DAG),然而,只要构建体被格式化用于比对,参考序列可以是反映物种内的不同生物体的序列中的遗传变异性的任何表示。一般来说,参考序列构建体将包括不同基因型之间相同的部分和不同的部分。因此,构建体考虑不同等位基因,即与不同基因型相关。本申请另外公开基于比对核酸读数与构建体中的不同位置来识别基因型或疾病风险的方法。
[0056] 本发明另外提供使用参考序列构建体(例如,表示基因组的每个基因座处的已知变异体的DAG)在特定基因座处进行特定碱基调用的方法。因为在比对期间将序列读数与DAG进行比对,所以可以排除比较关于参考基因组的突变与已知突变的表的后续步骤。使用所公开的方法,需要做的仅仅是将核酸读数识别为位于DAG上呈现的已知突变处并且调用该突变。或者,当突变不是已知(即,不呈现于参考序列构建体中)时,可以找到比对并且将变异体识别为新突变或基因型。该方法还使得有可能将如特定疾病风险或疾病进展的额外信息与并入参考序列构建体中的已知突变相关联。另外,参考序列构建体使得有可能在不需要大规模计算资源的情况下比对序列读数与潜在的结构变异。
[0057] 因为这些方法的有效性,快速比对多个序列读数与相同参考序列构建体是可行的。读数的长度通常是至少约20个碱基对(bp),例如长度是至少约50bp,例如长度是至少约80bp,例如长度是至少约100bp,例如长度是至少约150bp,例如长度是至少约200bp。在一些实施例中,多个将包含大于约1000个序列读数,例如大于约10,000个序列读数,例如大于约
100,000个序列读数,例如大于约1,000,000个序列读数。在一些实施例中,如下文所描述,使用并行处理将多个序列读数与参考序列构建体进行比对。在一些实施例中,两个或更多个序列读数可以是相关的,相关之处在于已知其来源于原始样本的相同区域。在一些实施例中,序列读数可以配对,读数之间具有可变长度的插入。已知制备配对的技术与多种下一代测序技术(如IlluminaTM测序)一起使用。
[0058] 参考序列构建体
[0059] 与使用用以比对的单个参考序列和基因型核酸读数的现有技术序列比对方法不同,本发明使用可以考虑物种、种群内或甚至单个生物体中不同细胞当中的遗传序列的变异性的构建体。遗传变异的表示可以呈现为有向非循环图(DAG)(上文所论述)或行列比对矩阵,并且只要比对算法的参数设置适当(下文论述),这些构建体就可以用于本发明的比对方法。
[0060] 在本发明的优选实施例中,构建体是有向非循环图(DAG),即具有方向且具有非循环路径。(也就是说,一条序列路径无法多次穿过参考构建体上的一个位置。)在DAG中,序列中的遗传变异表示为替代节点。节点可以是保守序列的一个部分或基因或简单地是核酸。贯穿构建体的不同可能路径表示已知的遗传变异。DAG可以被构筑用于生物体的全基因组,或DAG可以被构筑仅用于基因组的一部分,例如染色体或较小遗传信息片段。在一些实施例中,DAG呈现大于1000个核酸,例如大于10,000个核酸,例如大于100,000个核酸,例如大于
1,000,000个核酸。DAG可以呈现物种(例如,智人)或所选择的种群(例如,患有乳癌的女性),或甚至更小的亚群,如在同一个体中的不同肿瘤细胞当中的遗传变异。
[0061] 图1中展示DAG构建体的简单实例。如图1(A)中所展示,DAG以参考序列开始,该参考序列在图1(A)中展示为SEQ ID NO.1:CATAGTACCTAGGTCTTGGAGCTAGTC。在实践中,参考序列通常长得多,并且可以是全基因组。序列通常存储为FASTA或FASTQ文件。(FASTQ已经成为产生自下一代测序仪的序列数据的默认格式)。在一些实施例中,参考序列可以是标准参考,例如GRCh37。如所属领域的技术人员所认识到,序列中的每个字母(或符号)实际上对应于核苷酸(例如,脱核糖核苷酸或核糖核苷酸)或氨基酸(例如,组氨酸、亮氨酸、赖氨酸等)。
[0062] 在下一步骤,将变异体添加到参考序列中,如图1(A)的底部图像中所展示。如图1(A)中所展示,变异体是图中行间的参考序列种的序列“AG”缺失(即,SEQ ID NO.2)。以图形方式,此缺失是由在缺失之前及之后使参考序列断裂成节点并且连接节点与边缘并且还产生一个节点到“AG”并且随后到另一个节点的路径来表示。因此,节点之间的一个路径表示参考序列,而另一个路径表示缺失。
[0063] 在实践中,通过应用如可以在1000个基因组专题(1000 Genomes Project)网站找到的变异调用格式(VCF)文件中的条目将变异体调用到DAG。由于每个VCF文件与特定位置处的特定参考基因组键连,不难识别字符串应该位于何处。实际上,VCF文件中的每个条目可以被认为与参考组合创建离散图,如图2中所显示。应注意,图2中的VCF条目不与图1的VCF条目相对应。
[0064] 关于图1(B),添加对应于特定位置处的插入“GG”的第二VCF条目,产生扩展的DAG,即包含SEQ ID NO.3和SEQ ID NO.4。接着,可以添加第三VCF条目到扩展的DAG中以在参考序列中较早地考虑SNP,即包含SEQ ID NO.5到8。因此,在三个步骤中,已经创建DAG,可以针对该DAG比对核酸读数(如下文所论述)。
[0065] 在实践中,DAG在计算机存储器(硬盘、闪存、云存储器等)中呈现为节点集S,其中每个节点由字符串、父节点集以及位置界定。字符串是节点的“内容”,即序列;父节点界定节点相对于图中其它节点的位置;并且节点的位置与系统中的某种规范排序(例如参考基因组)有关。虽然并非绝对必需相对于参考序列界定该图,但是其确实使输出数据的操作更为简单。当然,对S的进一步约束是其不能包含环路。
[0066] 在许多实施例中,节点包括多个字符,如图1(A)和1(B)中所展示,然而,有可能节点可以是单个字符,例如表示单个碱基,如图2中所展示。在节点表示字符串的情况下,节点中的所有字符可以单个比较步骤进行比对,而不是逐字符计算,正如常规史密斯-沃特曼技术一样进行。因此,计算负担与当前技术发展水平的方法相比大大降低。计算负担降低允许更快并且在更少资源的情况下完成比对。当用于数百万的小读数需要比对和组合的下一代测序时,此计算负担降低在降低比对成本同时使得更快速获得有意义信息(即,基因型)方面具有有形益处。在将调整治疗以适应患者的基因型的情况下,速度增加可以允许患者比使用当前技术发展水平的方法较早几天开始治疗
[0067] 将此DAG方法外推到较大结构,有可能构建并有表示参考的既定区域的遗传序列的已知变异的数千个VCF条目的DAG。然而,由于DAG变得更庞大,因此计算确实花费更长时间,并且对于许多应用使用仅可以呈现序列的一部分(例如,染色体)的较小DAG。在其它实施例中,可以通过减小由DAG覆盖的种群的大小将DAG制作为更小,例如从呈现乳腺癌的变异的DAG变为呈现三阴性乳腺癌的变异的DAG。或者,可以使用基于易于识别的遗传标记物自定义的更长DAG,易于识别的遗传标记物通常将导致DAG的大部分在样本之间保持一致。举例来说,相比于考虑同一序列上已知的人类的所有变异的DAG,针对以来自非洲血统女性的VCF条目创建的DAG,比对来自非洲血统女性的核酸读数集将更快速。应该认识到,本发明的DAG是动态构建体,因为其可以随时间推移而改变以并有新识别的突变。另外,将比对结果以递归方式添加到DAG中的算法也是可能的。
[0068] 在字符串与DAG比对的情况下,可以调整空隙罚分以使空隙插入甚至更昂贵,因此更倾向于对序列的比对而不是在整体序列中开放新的空隙。当然,通过DAG的改进(上文所论述),因为在DAG中考虑突变,所以应该更进一步降低空隙的发生率。
[0069] 比对算法
[0070] 在一个实施例中,使用算法来比对序列读数与有向非循环图(DAG)。与背景技术中表达的算法相比,该比对算法通过识别关于在DAG(例如,参考序列构建体)上的位置处含有的每个序列的最大分数来识别Ci,j的最大值。实际上,通过在先前位置处“向后”看,有可能跨越多个可能的路径识别最优比对。
[0071] 本发明的算法是基于上文所论述的读数(也称为“字符串”)和有向非循环图(DAG)进行。出于定义该算法的目的,假设S是要比对的字符串,并且假设D是将与S比对的有向非循环图。以从1开始的索引对字符串S的元素加括号。因此,如果S是字符串ATCGAA,那么S[1]=A、S[4]=G等。
[0072] 对于DAG,节点的序列的每个字母将表示为独立元素d。d的前趋定义为:
[0073] (i)如果d不是其节点的序列的首字母,那么其节点中在d之前的字母是其(唯一)前趋;
[0074] (ii)如果d是其节点的序列的首字母,那么作为d的节点的父节点的任何节点的序列的最后一个字母是d的前趋。
[0075] 所有前趋集继而表示为P[d]。
[0076] 为了找到“最佳”比对,算法寻求M[j,d]的值,即S的前j个元素与在d之前(并且包含d)的DAG的部分的最优比对的分数。此步骤类似于在背景技术部分的方程式1中寻找Hi,j。具体来说,确定M[j,d]包括找到a、i、e以及0的最大值,如下文所定义:
[0077] M[j,d]=max{a,i,e,0}   (6)
[0078] 其中
[0079] 对于P[d]中的p*,e=max{M[j,p*]+DELETE_PENALTY}
[0080] i=M[j-1,d]+INSERT_PENALTY
[0081] 如果S[j]=d,那么对于P[d]中的p*,a=max{M[j-1,p*]+MATCH_SCORE};
[0082] 如果S[j]≠d,那么对于P[d]中的p*,为max{M[j-1,p*]+MISMATCH_PENALTY}[0083] 如上文所描述,e是S的前j个字符与直到但是不包含d的DAG的部分的比对的最高值,加上额外的DELETE_PENALTY。因此,如果d不是节点的序列的首字母,那么仅存在一个前趋P,并且S的前j个字符与DAG(直到并且包含p)的比对分数等效于M[j,p]+DELETE_PENALTY。在d是其节点的序列的首字母的情况下,可以存在多个可能的前趋,并且因为DELETE_PENALTY是恒定的,所以求[M[j,p*]+DELETE_PENALTY]的最大值等同于选择与S的前j个字符具有最高比对分数的前趋。
[0084] 在方程式(6)中,i是字符串S的前j-1个字符与直到并且包含d的DAG的比对,加上INSERT_PENALTY,其类似于SW中的插入变量参数的定义(参看方程式1)。
[0085] 另外,a是S的前j个字符与直到但是不包含d的DAG的部分的比对的最高值,加上MATCH_SCORE(如果S的第j个字符与字符d相同)或MISMATCH_PENALTY(如果S的第j个字符与字符d不同)。如同e一样,这意味着如果d不是其节点的序列的首字母,那么仅存在一个前趋,即p。这意味着a是S的前j-1个字符与DAG(直到并且包含p)的比对分数,即M[j-1,p],取决于d与S的第j个字符是否匹配,加上MISMATCH_PENALTY或MATCH_SCORE。在d是其节点的序列的首字母的情况下,可以存在多个可能的前趋。在此情况下,求{M[j,p*]+MISMATCH_PENALTY或MATCH_SCORE}的最大值等同于选择与S的前j-1个字符具有最高比对分数(即,候选M[j-1,p*]变量参数的最高值)的前趋并且取决于d与S的第j个字符是否匹配而加上MISMATCH_PENALTY或MATCH_SCORE。
[0086] 此外,如在背景技术中所论述的SW算法中一样,可以调整罚分,例如DELETE_PENALTY、INSERT_PENALTY、MATCH_SCORE以及MISMATCH_PENALTY,以促进与更少空隙等的比对。
[0087] 如以上方程式中所描述,该算法通过不仅计算该元素的插入、缺失以及匹配分数,而且向后看(逆着DAG的方向)到DAG上的任何先前节点以找到最大分数,来找到每个读数的最大值。因此,该算法能够详细研究贯穿DAG的含有已知突变的不同路径。因为图是有向的,所以逆着图的方向移动的回溯遵循朝向图的起点的优选变异序列,并且最大比对分数识别高度确定性的最可能比对。虽然以上方程式表示为“最大”值,但“最大”预期涵盖任何形式的优化,包含例如转换所有方程式上的正负号和求解最小值。
[0088] 在图3中示例本发明算法的实施方案,其中对序列“ATCGAA”与呈现参考序列SEQ ID NO.10:TTGGATATGGG和已知插入事件SEQ ID NO.11:TTGGATCGAATTATGGG的DAG进行比对,其中插入是带下划线的。图3(A)展示与DAG相比的读数的图形表示,而图3(B)展示对应于该比较的实际矩阵。类似于背景技术中所论述的史密斯-沃特曼技术,本发明的算法识别最高分数并且执行回溯以识别读数的适当位置。图3(A)和(B)还突出本发明产生字符串与构建体的实际匹配,而已知方法(例如,SW)将已经更可能对字符串与参考的错误部分进行比对,或由于未产生包含于比对中的足够高的比对分数而拒绝该字符串。在序列读数包含未包含在DAG中的变异体的情况下,将通过空隙、插入等报告经比对的序列。
[0089] 参考序列构建体的应用
[0090] 本发明的参考构建体和比对算法的一个益处是其能够将序列读数与参考序列构建体的某一位置处的第一序列或第二序列进行比对。也就是说,本发明的参考序列构建体允许将序列读数与某一位置处的至少两个不同序列路径之一进行比对,两个不同序列路径是例如遵循等效于参考序列的序列的路径和遵循等效于包含变异体(例如,突变、多态性、拷贝数变异、结构变异)的参考序列的已知序列的另一路径。因此,序列中的已知变异可以使用本发明的技术,通过将含有已知变异的读数与包含该变异的序列路径进行比对来可靠地考虑和识别。
[0091] 图4到7中展示使用有向非循环图(DAG)将读数基因分型的两个实例。图4展示生物体的基因组中的一个位置处的两个潜在的等位基因:
[0092] SEQ ID.NO.12:CCCAGAACGTTGCATCGTAGACGAGTTTCAGCATT
[0093] SEQ ID.NO.13:CCCAGAACGTTGCTATGCAACAAGGGACATCGTAGACGAGTTTCAGCATT
[0094] 在此实例中,两个等位基因相差15个碱基插入,即结构变异。如图4中所展示,两个等位基因可以在单个参考序列构建体中描绘,其中两个等位基因对应于贯穿构建体的不同路径。
[0095] 如图5中所展示,在比对读数与参考序列构建体时,读数可以立即与等位基因中的一个或两个相关。使用本发明的比对算法,读数与对应于等位基因#1的路径、对应于等位基因#2的路径比对,或读数可以与任一个比对,因为这些路径在与读数比对的区域中是共同的。基于与特定路径比对的读数的数目,有可能立即调用读数集作为对应于等位基因#1或等位基因#2,而无需组合比对读数和比较所组合读数与参考序列的额外步骤。另外,如图5中所展示,这些方法有效比对包括大多常见序列的读数,即如读数#4展示。使用当前技术发展水平的方法,即线性比对,读数#4将有可能与具有减少或假定为碱基转位的尾序列的第一等位基因比对。然而,使用本发明方法,显而易见读数#4实际上与等位基因#2相关。
[0096] 图5中不同读数的比对强调基于DAG的基因分型方法在与基于线性序列的方法,尤其仅使用单个参考序列并且分别处理错配的方法相比时更清洁和更精确的程度。一旦将序列与参考DAG进行比对,我们拥有关于读数位于基因组中何处的充分信息。另外有可能通过使特定分支序列加权或相关从此类构建体获得额外信息,因此允许即时辨识等位基因或携带该等位基因的潜在序列的稀有性。
[0097] 本发明方法允许在结构变异内存在重要遗传差异时甚至更具通用性,如图6和7中所展示。如图6中所说明,有可能在结构变异内并入具有SNP的第三等位基因的额外复杂度。因此,如图7中所展示,当比对读数与参考序列构建体#2时,这些读数可以与对应于等位基因#1的路径、对应于等位基因#2的路径、对应于等位基因#3的路径或所有三个等位基因共同的路径的一部分比对。基于与特定路径比对的读数的数目,有可能立即调用读数集作为对应于等位基因#1、等位基因#2或等位基因#3或其某一组合,而无需组合比对读数和比较所拼接读数与参考序列。
[0098] 然而,图4到7中所描绘的情况不应该被视为限制性的,因为参考序列构建体可以包含多个不同路径,并且该构建体可以包含对应于遗传变异性的位置的一系列不同的替代序列。在处理数千(或数百万)个读数时还可以使用统计分析和交叉相关来评估基因型调用的置信度,正如与当代测序的情况一样。
[0099] 重要的是,本发明方法有利地允许将包含结构变异的部分的序列读数进行比对并且因此基因分型。相比之下,使用一维参考序列比对(当前技术发展水平),可能由于比对分数较低而拒绝这些读数,并且忽略读数的部分内对应于结构变异的任何变异。在一些情况下,结构变异较大,大小通常是1Kb到3Mb。然而,出于本申请的目的,结构变异体可以包含序列读数内与参考偏离3个或更多个连续碱基对的任何变异。在某些实施例中,结构变异体的序列长度是约20bp、50bp、80bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、1Kb、1.1Kb、1.2Kb、1.3Kb、1.4Kb、1.5Kb、1.6Kb、1.7Kb、1.8Kb、1.9Kb、2.0Kb…2.0Mb、2.1Mb、
2.2Mb、2.3Mb、2.4Mb、2.5Mb、2.6Mb、2.7Mb、2.8Mb、2.9Mb、3.0Mb等。结构变异提供对受试者的重要的深刻理解,因为其有助于遗传多样性和疾病易感性。
[0100] 不同于本发明,传统比对方法(例如,线性参考序列)不大可能识别结构变异,并且甚至不大可能识别位于结构变异附近的罕见变异体。罕见变异体包含较小可能在既定种群中发现的任何突变(如插入缺失或多态性)。举例来说,罕见变异体的次要等位基因频率可以在例如25%或更小;20%或更小;15%或更小;10%或更小;或5%或更小的范围内。(次要等位基因频率(MAF)是指最少共同等位基因存在于既定种群中的频率。)在一些情况下,罕见变异体包含尚未被识别的变异体,即未在与读数比对的参考中呈现的变异体。在一些情况下,罕见变异体尚未在VCF文件中编目。从比对机制的度,此类变异体有效地在以前从未见过,不管其在一群样本中的实际频率如何。位于结构变异体附近的罕见变异体可以与结构变异体间隔大致读数的长度,即约100bp或更少。然而,本发明不限于此间距。在一些情况下,位于结构变异体附近的罕见变异体在罕见变异体与结构变异体之间的间隔可以在约1bp到约1Mbp,例如约10bp到约10,000bp,例如约100bp到约1000bp的范围内。因此,本发明另外允许基于结构变异附近的次要等位基因(例如,染色体或全基因组)来大规模地将样本基因分型。
[0101] 因为一些罕见变异体赋予巨大的疾病风险,至关重要的是使一者在序列组合期间检测罕见变异体并且随后将此类样本基因分型的能力达到最大。本发明的参考构建体使在比对过程期间结构变异体与罕见变异体的不比对减到最小,因为本发明的参考构建体可以考虑许多不同的已知结构变异体。通过在参考构建体中的某一位置处包含至少两个结构变异体,本发明允许将包含至少一个结构变异体的一部分的序列读数与参考构建体比对。也就是说,比对并且考虑包含已知结构变异体的一部分的序列读数,而相同结构变异体在线性参考结构中将无法比对。本发明的结果在于,包含结构变异体的读数能够以高度可靠性和准确性与DAG恰当地比对,因为读数被看作匹配而不是错配。
[0102] 在结构变异体被恰当地比对的情况下,作为具有结构变异体的序列读数的一部分的其它序列数据同样与参考构建体比对。举例来说,接近结构变异体(使得序列读数包含至少结构变异体和罕见变异体的部分)的罕见变异体将与参考构建体以及结构变异体比对。因此,紧挨着结构变异体的罕见变异体将存在于多个以其它方式良好比对并且可靠的读数中,这是因为序列读数中的结构变异体与DAG参考构建体的恰当比对。罕见变异体的一致存在导致其被辨别为合法遗传变异体而不是测序误差,即使该变异体不呈现于参考构建体中。
[0103] 并行化的可能性
[0104] 已经针对大规模并行化调适并且显著地修改了史密斯-沃特曼-后藤算法的序列版本。举例来说,美国专利公开第2012/0239706号中描述了被称作使用关联大规模并行化的史密斯-沃特曼法(SWAMP)的ASC模型,该公开以全文引用的方式并入本文中。SWAMP(和其它并行处理系统)的并行化的一部分源于沿任何反对角的值彼此独立的事实。因此,可以并行完成沿既定反对角的所有单元格以分配计算资源。以上递归方程式中所展示的数据依赖性限制了可达到的并行化的水平,但是使用波前方法仍将加速此适用算法。沃兹尼亚克(Wozniak)(生物科学中的计算应用(Comput Appl in the Biosciences,CABIOS),13(2):145-150,1997)对Sun Ultra SPARC实施的波前方法使用专用SIMD类视频指令。沃兹尼亚克使用SIMD寄存器来存储与次对角线并行的值,从而报告优于相同机器上的传统实施方案的双倍加速。根据沃兹尼亚克的实例,并行化代码的类似方式将使用流SIMD扩展(SSE)设置用于x86架构。由因特尔(Intel)设计,向量类操作一次对少量值(通常四个、八个或十六个)完成单一操作/指令。许多AMD和因特尔芯片支持各种型式的SSE,并且因特尔已经继续使用用于其现代芯片组的高级矢量扩展(AVX)来开发此技术。
[0105] 在其它实施方案中,罗盖(Rognes)和塞贝格(Seeberg)(生物信息学(Bioinformatics)(英格兰津(Oxford,England)),16(8):699-706,2000)使用具有SSE的旧版-MMX SIMD指令的因特尔奔腾(Pentium)处理器用于其实施方案。出于罗盖和塞贝格的研究(生物信息学,16(8):699-706,2000)而针对并行比对(ParAlign)开发的方法不使用波前方法(罗盖,核酸研究(Nuc Acids Res),29(7):1647-52,2001;塞伯(Saebo)等人,核酸研究,33(增刊2):W535-W539,2005)。替代地,其比对与查询序列并行的SIMD寄存器,从而使用预先计算出的查询专用分数矩阵一次计算八个值。此方法的额外细节可以在U.S.7,917,
302中找到,其以引用的方式并入本文中。罗盖和塞贝格布局SIMD寄存器的方式,北邻域依赖性能够去除达三分之一的由SSE并行“向量”计算获得的潜在加速。为了克服这点,其并入了SWAT类优化。使用较大仿射空隙罚分,北邻域大部分时间将为零。如果此是正确的,那么程序可以跳过计算北邻域的值,法勒(Farrar)(生物信息学,23(2):156-161,2007)称其为“惰性F评估”。罗盖和塞贝格能够减少方程式1的计算数目以通过在该值低于某一阈值时跳过该值来加速其算法。在(罗盖和塞贝格,生物信息学,16(8):699-706,2000)中经由MMX/SSE指令和SWAT类扩展使用8路向量报告了六倍加速。
[0106] 在法勒完成的SSE研究(生物信息学,23(2):156-161,2007)中,使用线条访问模式或交叉访问模式来排列与查询寄存器并行的SIMD寄存器。这样做避免了任何重叠依赖性。此外,并入SWAT类优化(法勒,生物信息学23(2):156-161,2007)实现的加速是沃兹尼亚克(CABIOS 13(2):145-150,1997)以及罗盖和塞贝格(生物信息学(英格兰牛津),16(8):699-
706,2000)SIMD实施方案的2-8倍。块取代矩阵和有效并且有独创性的内循环(具有移到内循环外的北(F)条件性)是重要的优化。用于处理的十六个8位单元的交叉存储器模式存取也改进了存储器存取时间,从而促进总体加速。
[0107] 法勒(序列分析(Sequence Analysis),2008)扩展了其对索尼(Sony)、东芝(Toshiba)以及IBM制造的Cell处理器(Cell Processor)的研究。此Cell处理器具有一个主要核心和八个次要核心。Cell宽带引擎是若干更多史密斯-沃特曼实施方案的开发平台,这些实施方案包含斯卡科夫斯基(Szalkowski)等人的SWPS3(BMC研究笔记(BMC Res Notes)1(107),2008)和韦拉万(Wirawan)等人的CBESW(BMC生物信息学(BMC Bioinformatics)9(377)2008),都使用法勒的分割法。鲁德尼茨基(Rudnicki)等人(基金信息(Fund Inform.)96,181-194,2009)使用PS3来开发对多个数据库序列使用并行化的方法。
[0108] 罗盖(BMC生物信息学12(221),2011)还开发了并行处理多个数据库序列的被称作SWIPE的多线程方法。焦点是在“普通CPU”上使用SEVID方法。并行使用多个数据库序列来使用粗粒并行度分解研究的此调查类似于刘(Liu)等人(BMC研究笔记2(73),2009)以及罗戈夫斯基(Ligowski)和鲁德尼茨基(高性能计算生物学八周年国际研讨会(Eight Annual International Workshop on High Performance Computational Biology),罗马(Rome),2009)在CUDASW中描述的基于图形处理器单元(GPU)的工具。已经存在使用刘等人(BMC研究笔记3(93),2010)和罗戈夫斯基等人(GPU计算宝典,Emerald版(GPU Computing Gems,Emerald Edition)摩尔根考夫曼(Morgan Kaufmann),155-157,2011)的CUDASW++2.0进行GPU研究的其它实施方案。
[0109] 在其它变化形式中,可以使用小规模的向量并行化(8路、16路或32路并行度)来经由并行比对多个序列的GPU实施方案实现可用计算。计算的理论峰值加速是m的因素,这是最优的。使用96个处理单元的ClearSpeed实施方案的96倍加速证实了该理论加速。
[0110] 并行计算模型
[0111] 用于开发和扩展史密斯-沃特曼序列比对的主要并行模型是关联计算(ASC)(波特(Potter)等人,计算机(Computer),27(11):19-25,1994)。本文中描述了史密斯-沃特曼算法的有效并行型式。此部分中详细描述此模型和另一个模型。
[0112] 这里定义一些相关词汇。来自计算机架构的费林分类法(Flynn's Taxonomy)的两个相关术语是MIMD和SIMD这两种不同的并行计算模型。将分类为多指令多数据(multiple-instruction,multiple-data;MIMD)模型的计算机集群用作概念证明以克服超大规模比对中的存储器限制。第8部分描述MIMD模型的使用。还描述被称为ASC的扩展的数据并行的、单指令多数据(single-instruction,multiple-data;SIMD)模型。
[0113] 多指令多数据(MIMD)
[0114] 多数据多指令模型或MIMD模型描述目前可用的大多数并行系统,并且包含目前流行的计算机集群。MIMD处理器具有完备的中央处理单元(CPU),每个CPU具有其自身的本地存储器(奎因(Quinn),并行计算:理论与实践(Parallel Computing:Theory and Practice),第2版,纽约:麦格劳-希尔出版社(McGraw-Hill),1994)。与SIMD模型对比,每一个MIMD处理器存储并且异步地执行其自身的程序。MIMD处理器经由允许其通信的网络连接,但是所使用的网络可以大不相同,范围是以太网、Myrinet和机器(集群节点)之间的InfiniBand连接。通信往往采用比SIMD宽松得多的通信结构,超出单个单元。沿着该网络通过个别处理器在处理器所执行的其个别程序的控制下异步地移动数据。通常,由支持消息传递的若干不同的并行语言之一来处理通信。用于此的非常普遍的库被称为消息传递接口(Message Passing Interface;MPI)。“SIMD类”型式的通信是可能的,但是数据的移动将是异步的。通过MIMD的并行计算通常需要大量的通信和频繁的同步,除非由处理器执行的各种任务是高度独立的(即,所谓的“易并行”或“乐于并行”的问题)。第8部分中提出的研究使用经由InfiniBand连接的AMD Opteron集群。
[0115] 不同于SIMD,消息传递所需的最坏情况下的时间难以预测或不可能预测。通常,使用通常由试验确定的平均情况下的估计,而不是通过对于SIMD来说为典型的最坏情况下的理论评估来确定MIMD软件的消息传递执行时间。由于对于MIMD软件最坏的情况通常是非常糟糕的并且很少发生,因此平均情况下的估计更加有用。因此,MIMD在特定问题上所需的通信时间会比SIMD更多并且通常比SIMD显著更多。此使得MIMD编程(尤其是在使用消息传递时)的重要目标是使所需的处理器间通信的数目减到最少并且使处理器通信之间的时间量增到最大。即使在单卡加速水平下(如使用图形处理器或GPU)也是如此。
[0116] 数据并行编程也是MIMD编程的重要技术,但是在这里,所有任务对不同数据执行相同操作,并且仅在各个关键点同步。MIMO系统的大部分算法以单程序多数据(SPMD)编程范例编写。每个处理器有其自身的相同程序的拷贝,执行特定于该处理器或其本地数据上的核心的代码部分。SPMD范例的普及源于这一事实:写入大量将同时跨不同处理器执行但仍然能够协作解决单个问题的不同程序是相当困难的。针对存储器密集型而不是计算密集型的问题所使用的另一种方法是使用在第8部分中提出的研究来创建如使用JumboMem完成的虚拟存储器服务器。此在其下面的实施方案中使用MPI。
[0117] 单指令多数据(SIMD)
[0118] SIMD模型由多个被称作PE的简单的算术处理单元(processing elements)构成。每个PE具有其自身的本地存储器,PE可以从该本地存储器获取和存储,但是PE并没有编译或执行程序的能力。如本文所使用,术语“并行存储器”是指在计算系统中统称的本地存储器。举例来说,并行存储器可以是SIMD计算机系统中本地存储器(例如,PE的本地存储器)的集合、MIMD计算机系统中处理器的本地存储器(例如,中央处理单元的本地存储器)的集合等。通过被称作控制单元(或前端)的处理器处理程序的编译和执行(奎因,并行计算:理论与实践,第2版,纽约:麦格劳-希尔出版社,1994)。控制单元通常通过总线连接到所有PE。
[0119] 所有有效PE步调一致地同步执行从控制单元接收到的程序指令。在第79页,“在任何时间单元中,单一操作与各自操作不同数据的多个处理单元上的执行状态相同”(奎因,并行计算:理论与实践,第2版,纽约:麦格劳-希尔出版社,1994)。虽然通过所有有效PE并行地同时执行相同指令,但是可以允许一些PE跳过任何特定指令(贝克(Baker),SIMD和MASC:CS 6/73301课程笔记:并行和分布式计算-power point幻灯片,(2004)2004)。此通常使用“如果-否则”分支结构来实现,其中一些PE执行如果指令,而其余的PE执行否则部分。此模型对于具有可同时出现的最多少量如果-否则分支结构(如图像处理和矩阵运算)的本质上“数据并行的”问题是理想的。
[0120] 数据可以通过控制单元广播到所有有效PE,并且控制单元还可以从使用控制单元与PE之间的连接(通常是总线)的特定PE获得数据值。另外,该组PE通过如线性阵列、2D网格或超立方体的互连网络连接,互连网络提供PE之间的并行数据移动。通过PE以同步并行型式贯穿此网络移动数据,这些PE步调一致地执行包含数据移动的指令。正是控制单元将指令广播到PE。具体来说,如今SIMD网络不使用由大多数并行计算机所使用的消息传递范例。如此的一个重要优点是,SIMD网络通信极其有效,并且可以通过控制该特定通信的算法的最坏情况下的时间来确定通信所需的最大时间。
[0121] 此部分的其余部分专描述扩展的SIMD ASC模型。对于此论述,ASC是算法设计和开发的中心内容。
[0122] 关联计算模型
[0123] 关联计算(ASC)模型是扩展的SIMD,基于由固特异航空航天(Goodyear Aerospace)的肯尼斯.巴彻(Kenneth Batcher)博士设计的STARAN关联SIMD计算机和其被海军舰船大量使用的后续ASPRO。
[0124] 由肯特州立大学(Kent State University)计算机科学学院(Department of Computer Science)开发,ASC是用于关联计算的算法模型(波特等人,计算机,27(11):19-25,1994)(波特,关联计算(Associative Computing):大规模并行计算机的编程范例(A Programming Paradigm for Massively Parallel Computers),普莱南出版公司(Plenum Publishing),1992)。ASC模型产生于由固特异航空航天构建的关联处理器STARAN和MPP的研究。虽然目前在硬件中不受支持,但是目前有效模拟和设计用于此模型的计算机都取得了一定研究成果。
[0125] 作为扩展的SIMD模型,ASC使用同步数据并行编程,从而避免了多任务和异步点对点通信路由两者。由于在任何时间仅执行一个任务,其中在所有有效处理单元(PE)上步调一致地执行此任务的多个实例,因此多任务是不必要的。如同SIMD编程器,ASC避免了包括负载均衡、同步以及动态任务调度的问题;必须在MPI和其它MIMD集群范例中明确处理的问题。
[0126] 图8展示ASC计算机的概念模型。存在又称为指令流(IS)的单个控制单元和各自具有其自身的本地存储器的多个处理单元(PE)。控制单元和PE阵列通过广播/简化网络连接,并且PE通过PE数据互连网络连接在一起。
[0127] 如图8中所见,PE可以利用位于其自身的本地存储器中的数据。数据保持在适当的位置,并且响应(有效)PE并行处理其本地数据。对词语关联的引用涉及使用搜索以通过内容而不是存储地址来定位数据。ASC模型不采用关联存储器,替代地,其是关联处理器,其中一般循环是搜索-处理-检索。在(波特等人,计算机,27(11):19-25,1994)中可获得该模型的概述。
[0128] 由于ASC数据结构的自然表格结构,该算法的表格性质适用于使用ASC的计算。SWAMP充分利用用于步调一致地转换北邻域和西北邻域的数据的跨PE互连网络的极为有效的通信,以及用于搜索和用于跨并行计算的最大值的快速恒定时间关联功能
[0129] 归因于ASC模型所需的额外硬件,在恒定时间执行关联操作(吉恩(Jin)等人,第15届国际并行与分布式处理会议(15th International Parallel and Distributed Processing Symposium,IPDPS'01)研讨会,旧金山(San Francisco),第193页,2001)。这些操作可以通过任何SIMD类机器有效地执行(但不太快速),并且已经成功调适以在若干SIMD硬件平台上有效地运行(袁(Yuan)等人,并行与分布式计算系统(Parallel  and Distributed Computing Systems,PDCS),马萨诸塞州剑桥(Cambridge,M A),2009;塔汉(Trahan)等人,并行与分布式计算杂志(J.of Parallel and Distributed Computing,JPDC),2009)。因此可以在与SIMD密切相关的其它系统(包括向量机)上有效地实施SWAMP和其它ASC算法,这是该模型用作范例的原因。
[0130] 控制单元提取和解码程序指令并且将控制信号广播到PE。PE在控制单元的指示下使用其自身的本地数据执行这些指令。所有PE以步调一致方式执行指令,其中指令之间隐式同步。ASC具有若干相关的高速全局操作:关联搜索、最大值/最小值搜索以及响应者选择/检测。这些在以下部分中进行描述。
[0131] 关联功能
[0132] 下文论述与SWAMP算法相关的功能。关联搜索
[0133] ASC算法中的基本操作是关联搜索。关联搜索同时定位其本地数据匹配既定搜索关键字的PE。具有匹配的数据的那些PE被称作响应者,并且具有非匹配的数据的那些PE被称作无响应者。在执行搜索之后,该算法随后可以限制进一步的处理以通过禁用无响应者而仅影响响应者(或反之亦然)。执行额外搜索可以进一步细化该组响应者。关联搜索由SWAMP+大量用于选择哪些PE在对角线内的并行行为中有效。
[0134] 最大值/最小值搜索
[0135] 除简单搜索之外,当每个PE使用标准比较运算符(等于、小于等)比较其本地数据与搜索关键字时,关联计算机还可以执行全局搜索,其中将来自整个PE阵列的数据组合在一起以确定该组响应者。最常见类型的全局搜索是最大值/最小值搜索,其中响应者是其数据是跨整个PE阵列的最大值或最小值的那些PE。最大值由SWAMP+用于其处理以追踪到目前为止所计算的最高值的每一对角线。最大值搜索的使用频繁出现,每个逻辑并行行为中一次,每个比对中m+n次。
[0136] 响应者选择/检测
[0137] 关联搜索可以产生多个响应者,并且关联算法可以三种不同模式之一处理那些响应者:并行选择、连续选择或单次选择。并行响应者处理同时对每个响应者执行同一组操作。连续响应者处理单独地选择每个响应者,允许每个响应者的一组不同的操作。单个响应者选择(又称为pickOne)选择一个任意的所选响应者来进行处理。除多个响应者之外,关联搜索还可能产生无响应者。为了处理此情况,ASC模型可以检测是否存在对搜索的任何响应者,并且在此情况下执行独立的一组行为(被称为任何响应者(anyResponder))。在SWAMP中,基于上述关联搜索,并行选择并且处理含有待比对的字符的多个响应者。如果使用最大值/最小值搜索时存在具有完全相同的最大值的多个值,且当存在这样的多个值时,出现单个响应者选择。
[0138] PE互连网络
[0139] 大多数关联处理器包含某种类型的PE互连网络以允许阵列内的并行数据移动。ASC模型本身并不指定任何特定的互连网络,并且实际上,许多适用的关联算法不要求任何特定的互连网络。通常,关联处理器实施简单的网络,如1D线性阵列或2D网格。这些网络易于实施并且允许以同步方式快速传送数据。举例来说,1D线性阵列足以在SWAMP算法中用于PE之间的明确通信。
[0140] 并行计算系统
[0141] 图9中展示通用的并行处理架构。虽然每个组件展示为具有直接连接,应理解,各个单元可以是地理上分离的但是经由例如因特网的网络连接。虽然混合配置是可能的,但并行计算机中的主存储器通常或在单个地址空间中的所有处理单元之间共享,或呈分布式,即每个处理单元具有其自身的本地地址空间。(分布式存储器是指这样的事实:存储器以逻辑方式分布,但是通常意味着其也以物理方式分布。)分布式共享存储器和存储器虚拟化结合这两种方法,其中处理单元具有其自身的本地存储器以及对非本地处理器上的存储器的存取权。对本地存储器的存取通常比对非本地存储器的存取更快。
[0142] 可以相等时延和带宽访问主存储器的每个单元的计算机体系架构被称为均匀存储器访问(UMA)系统。通常,只能通过共享的存储器系统来实现,其中该存储器并非以物理方式分布。不具有此性质的系统被称为非均匀存储器访问(NUMA)架构。分布式存储器系统具有非均匀存储器访问。
[0143] 可以多种方式在硬件中实施处理器-处理器和处理器-存储器通信,包括经由共享的(或多端口的或多路复用的)存储器、纵横开关、共享总线或无数拓扑的互连网络(包含星形、环形、树形、超立方体、充足超立方体(在一个节点处具有超过一个处理器的超立方体))或n维网格实施。
[0144] 基于互连网络的并行计算机必须合并路由以实现并非直接连接的节点之间的消息传递。用于处理器之间的通信的媒体很可能在大型多处理器机器中分层。此类资源在市面上可购买用于专用用途,或可以经由例如亚马逊的云计算的“云”访问这些资源。
[0145] 计算机一般包含经由总线耦合到存储器的处理器。存储器可以包含RAM或ROM,并且优选地包含至少一个有形的非暂时性媒体,其存储可执行以致使系统执行本文所描述的功能的指令。如所属领域的技术人员在必要时将认识到或最适合于本发明方法的性能,本发明的系统包含经由总线彼此通信的一个或多个处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)等)、计算机可读存储装置(例如,主存储器、静态存储器等)或其组合。
[0146] 处理器可以是所属领域中已知的任何合适的处理器,如由英特尔(加利福尼亚州圣克拉拉(Santa Clara,CA))以商标XEON E7出售的处理器,或由AMD(加利福尼亚州桑尼维尔(Sunnyvale,CA))以商标OPTERON6200出售的处理器。
[0147] 存储器可以指计算机可读存储装置并且可以包含任何机器可读媒体,在该机器可读媒体上面存储一个或多个指令集(例如,体现本文中发现的任何方法或函数的软件)、数据(例如,体现任何有形的物理对象,如在患者的染色体中发现的遗传序列)或两者。虽然在示例性实施例中计算机可读存储装置可以是单个媒体,但是术语“计算机可读存储装置”应被认为包含存储一个或多个指令集或数据集的单个媒体或多个媒体(例如,集中式或分布式数据库和/或相关联的高速缓冲存储器和服务器)。因此,术语“计算机可读存储装置”应被认为包含(但不限于)固态存储器(例如,订户身份模块(SIM)卡、安全数字卡(SD卡)、微型SD卡或固态驱动器(SSD))、光学和磁性媒体以及任何其它有形的存储媒体。优选地,计算机可读存储装置包含有形的非暂时性媒体。此类非暂时性媒体不包含例如暂时性波和信号。“非暂时性存储器”应被解释为本身不包含计算机可读传输媒体,如信号。
[0148] 根据本发明的输入/输出装置可以包含视频显示单元(例如,液晶显示器(LCD)或阴极射线管(CRT)监视器)、字母数字输入装置(例如,键盘)、光标控制装置(例如,鼠标或触控板)、磁盘驱动器单元、信号生成装置(例如,扬声器)、触摸屏、加速计、麦克风、蜂窝式无线电频率天线以及网络接口装置,网络接口装置可以是例如网络接口卡(NIC)、Wi-Fi卡或蜂窝式调制解调器
[0149] 样本采集和制备
[0150] 本发明包含用于产生对应于从生物样本回收的核酸的序列(例如,核酸序列、氨基酸序列)的方法。在一些实施例中,所得信息可以用于识别在从受试者获得的核酸材料中呈现的突变。在一些实施例中,从受试者获得样本,即核酸(例如,DNA或RNA),使用下文描述的方法处理(溶解、扩增和/或纯化)核酸并且对核酸测序。在许多实施例中,测序的结果不是线性核酸序列,而是数千或数百万个别短核酸读数的集合,其必须重新组合成针对受试者的序列。在比对读数以产生序列后,可以将已比对序列与参考序列相比较以识别可以例如指示疾病的突变。在其它实施例中,可以基于读数与参考序列构建体(即,如上文所描述的有向非循环图(“DAG”))的比对识别受试者的特定突变。
[0151] 出于任何上述目的,可以对生物样本应用各种方法。生物样本可以例如包括血液、全血血浆、泪液、乳头吸液、血清、粪便、尿液、唾液、循环细胞、组织、活检样本、毛囊的样本或含有患者的生物材料的其它样本。在基于此类样本进行测试时的一个问题是,在大多数情况下,仅微小量的含有相关突变的DNA或RNA可以存在于样本中。在如腮抹试或血液样本的非侵入性样本中尤其如此,其中突变核酸以极少量存在。在一些实施例中,核酸片段可以是天然的短,即样本中的相关核酸的随机剪切可以产生短的片段。在其它实施例中,为便于处理,或因为测序技术只能序列读取少于1000个碱基,例如少于500个碱基,例如少于200个碱基,例如少于100个碱基,例如少于50个碱基,核酸被特意分段。虽然本文所描述的方法可以用于比对不同长度的序列,但是在一些实施例中,大多数这些多个核酸读数将由测序方法产生,并且包括少于1000个碱基,例如少于500个碱基,例如少于200个碱基,例如少于100个碱基,例如少于50个碱基。
[0152] 可以通过所属领域中已知的方法获得核酸。一般来说,核酸可以通过多种技术从生物样本提取,这些技术如由马尼亚迪斯(Maniatis)等人,分子克隆实验指南(Molecular Cloning:A Laboratory Manual),纽约州冷泉港(Cold Spring Harbor,N.Y.),第280-281页,(1982)描述的技术,该文献的内容以全文引用的方式并入本文中。
[0153] 可能有必要首先制备样本的提取物,并且随后执行其它步骤,即示差沉淀、管柱色谱、用有机溶剂提取等,以便获得足够纯的核酸制备物。可以使用所属领域的标准技术通过例如细胞的化学或机械溶解来制备提取物。随后可以例如通过过滤和/或离心和/或用离液序列高的盐(如异硫氰酸胍或尿素)或用有机溶剂(如苯酚和/或HCCl3)进一步处理提取物以使任何污染和潜在的干扰蛋白质变性。在一些实施例中,样本可以包括从受试者样本(例如,血液样本)收集的RNA,例如mRNA。用于RNA提取的通用方法在所属领域中是众所周知的,并且在分子生物学的标准教科书(包含奥斯贝(Ausubel)等人,分子生物学实验室指南(Current Protocols of Molecular Biology),约翰·威利父子出版公司(John Wiley and Sons)(1997))中公开。举例来说,在鲁普(Rupp)和洛克(Locker),实验室投资(Lab Invest.)56:A67(1987)和德安德烈(De Andres)等人,生物技术(BioTechniques)18:42044(1995)中公开从石蜡包埋组织提取RNA的方法。这些参考文献中的每一个的内容以全文引用的方式并入本文中。具体来说,根据制造商的说明,可使用来自商业制造商(如凯杰公司(Qiagen))的纯化试剂盒、缓冲液组以及蛋白酶执行RNA分离。举例来说,可以使用凯杰的RNeasy微型柱来分离来自培养物中的细胞的全部RNA。其它市售RNA分离试剂盒包含MASTERPURE完整DNA和RNA纯化试剂盒(EPICENTRE,威斯康星州麦迪逊(Madison,Wis.))和石蜡块RNA分离试剂盒(安必逊公司(Ambion,Inc.))。可以使用RNA Stat-60(Tel-Test)从组织样本分离全部RNA。可以例如通过氯化铯密度梯度离心分离从肿瘤制备的RNA。
[0154] 分析测序
[0155] 可以通过所属领域中已知的任何方法测序。DNA测序技术包含使用标记的终止子或引物以及板或毛细管中的凝胶分离的传统双脱氧测序反应(桑格方法)、使用可逆终止标记的核苷酸的合成测序、焦磷酸测序、454测序、对标记的寡核苷酸探针的库的等位基因特异性杂交、对随后为连接的标记的克隆库使用等位基因特异性杂交的合成测序、在聚合步骤期间标记的核苷酸的并入的实时监视、聚合酶克隆测序以及SOLiD测序。分离的分子的测序最近已经通过使用聚合酶或连接酶的连续扩展或单次扩展反应以及通过使用探针库的单次或连续示差杂交得以证明。在测序之前,可能另外有益的是扩增样本中的一些或全部核酸。在一些实施例中,使用所属领域中已知的聚合酶链反应(PCR)技术扩增核酸。
[0156] 可以在所提供的本发明的方法中使用的测序技术的一个实例是Illumina测序(例如,MiSeqTM平台),其是基于聚合酶的合成测序,可被用来扩增DNA或RNA。用于DNA的Illumina测序是基于使用折回PCR和锚定引物扩增固体表面上的DNA。基因组DNA是分成片断的,并且在片段的5'和3'末端添加衔接子。连接到流动细胞通道的表面的DNA片段被扩展和桥式扩增。片段变为双链,并且双链分子变性。固相扩增随后变性的多个周期可以在流动细胞的每个通道中形成数百万簇的相同模板的单链DNA分子的大约1,000个拷贝。使用引物、DNA聚合酶以及四荧光团标记的可逆终止核苷酸来执行连续测序。在併入核苷酸之后,使用激光来激发荧光团,并且捕获图像以及记录第一碱基的身份。从每个并入的碱基中去除3'终止子和荧光团,并且重复并入、检测以及识别的步骤。当利用Illumina测序来检测RNA时,除分离并且扩增RNA片段以确定样本的RNA表达之外,应用相同的方法。在用测序仪询问序列之后,可以在如FASTQ文件的数据文件中输出序列,该数据文件是用于存储生物序列和质量分数的基于文本的格式(参看上文的论述)。
[0157] 可以在所提供的本发明的方法中使用的DNA测序技术的另一实例是生命技术公司(Life Technologies)提供的Ion TorrentTM测序。参看美国专利申请第2009/0026082号、第2009/0127589号、第2010/0035252号、第2010/0137143号、第2010/0188073号、第2010/
0197507号、第2010/0282617号、第2010/0300559号、第2010/0300895号、第2010/0301398号以及第2010/0304982号,其中每一个的内容以全文引用的方式并入本文中。在IonTorrentTM测序中,DNA被剪切成大约300-800个碱基对的片段,并且这些片段是钝端的。随后将寡核苷酸衔接子连接到片段的末端。衔接子充当用于片段的扩增和测序的引物。片段可以连接到表面,并且以使得这些片段可个别地分辨的分辨率连接。一个或多个核苷酸的添加释放了+
质子(H),在测序仪器中检测并且记录其信号。信号强度与并入的核苷酸的数目成正比。
Ion Torrent数据也可以作为FASTQ文件输出。
[0158] 可以在所提供的本发明的方法中使用的DNA和RNA测序技术的另一实例是454TM测序(罗氏公司(Roche))(马古利斯M(Margulies M)等人,2005,自然(Nature),437,376-TM TM380)。454 测序是合成测序技术,该技术还利用焦磷酸测序。DNA的454 测序包括两个步骤。在第一步骤中,DNA被剪切成大约300-800个碱基对的片段,并且这些片段是钝端的。随后将寡核苷酸衔接子连接到片段的末端。衔接子充当用于片段的扩增和测序的引物。可以使用例如含有5'生物素标记的衔接子B将这些片段连接到DNA捕获珠子,例如涂布抗生蛋白链菌素的珠子。连接到珠子的片段在油水乳液的液滴内PCR扩增。结果是在每个珠子上克隆扩增的DNA片段的多个拷贝。在第二步骤中,在孔(皮升大小)中捕获珠子。并行对每个DNA片段执行焦磷酸测序。一个或多个核苷酸的添加产生了光信号,该光信号通过测序仪器中的CCD相机记录。信号强度与并入的核苷酸的数目成正比。焦磷酸测序利用在核苷酸添加后释放的焦磷酸(PPi)。在腺苷5'磷酰硫酸存在下PPi通过ATP硫酸化酶转化为ATP。荧光素酶使用ATP将荧光素转化为氧化荧光素,并且此反应产生被检测和分析的光。在另一实施例中,使用焦磷酸测序来测量基因表达。RNA的焦磷酸测序类似于DNA的焦磷酸测序应用,并且通过将部分rRNA基因序列的应用连接到微观珠子,并且随后将连接物放置到个别孔中来实现。随后扩增连接的部分rRNA序列以便确定基因表达谱。莎伦·马尔希(Sharon Marsh),分子生物学方法中的 方案( Protocols in Methods 
in Molecular Biology),第373卷,15-23(2007)。
[0159] 可以在所提供的本发明的方法中使用的DNA和RNA检测技术的另一实例是SOLiDTM技术(应用生物系统公司(Applied Biosystems))。SOLiDTM技术系统是可以用来运行DNA和TMRNA两者的大规模并行下一代测序的基于连接的测序技术。在DNA的SOLiD 测序中,基因组DNA被剪切成片段,并且将衔接子连接到片段的5'和3'末端以产生片断库。或者,可以通过将衔接子连接到片段的5'和3'末端、使片段环化、消化环化的片段以产生内部衔接子以及将衔接子连接到所得片段的5'和3'末端以产生配对库来引入内部衔接子。接着,在含有珠子、引物、模板以及PCR组分的微反应器中制备克隆珠子群。在PCR之后,使模板变性并且使珠子富集以分离具有扩展的模板的珠子。所选珠子上的模板经历3'修饰以允许接合到玻璃载片。可以通过部分随机的寡核苷酸与由特定荧光团识别的确定中心的碱基(或碱基对)的连续杂交和连接来确定序列。在记录颜色之后,裂解并且去除连接的寡核苷酸,随后重复该过程。
[0160] 在其它实施例中,使用SOLiDTM基因表达系列分析(SAGE)来测量基因表达。基因表达系列分析(SAGE)是允许大量基因转录物的同步和定量分析而不需要为每个转录物提供个别杂交探针的方法。首先,产生含有足够的信息来唯一地识别转录物的短序列标记(约10-14bp),只要该标记从每个转录物内的唯一位置获得。随后,将许多转录物连接在一起以形成可以进行测序的长系列分子,同时显示多个标记的身份。可以通过确定个别标记的丰度并且识别对应于每个标记的基因来定量评估任何转录物群的表达模式。关于更多细节,参看例如威尔克斯库(Velculescu)等人,科学(Science)270:484 487(1995);和威尔克斯库等人,细胞(Cell)88:243 51(1997),其中每一个的内容以全文引用的方式并入本文中。
[0161] 可以在所提供的本发明的方法中使用的另一测序技术包含例如赫利克斯(Helicos)真实单分子测序(True Single Molecule Sequencing,tSMS)(哈里斯T.D.(Harris T.D.)等人(2008)科学320:106-109)。在tSMS技术中,将DNA样本裂解成大约100到
200个核苷酸链,并且将多聚腺苷酸序列添加到每个DNA链的3'末端。每条链通过添加荧光标记的腺苷核苷酸来标记。随后将DNA链与流动细胞杂交,其中含有数百万被固定到流动细
2
胞表面的寡-T捕获位点。模板可以具有约1亿个模板/cm的密度。随后将流动细胞载入仪器(例如,HeliScope.TM.测序仪)中,并且激光照射流动细胞的表面,从而显示每个模板的位置。CCD相机可以在流动细胞表面上映射模板的位置。随后将模板荧光标记裂解并且洗掉。
通过引入DNA聚合酶和荧光标记的核苷酸开始测序反应。寡-T的核酸用作引物。聚合酶以模板定向的方式将标记的核苷酸并入引物。去除聚合酶和未并入的核苷酸。通过对流动细胞表面成像来检测具有定向并入的荧光标记的核苷酸的模板。成像之后,裂解步骤去除荧光标记,并且用其它荧光标记的核苷酸重复该过程直到实现所要读取长度。在每个核苷酸添加步骤下收集序列信息。tSMS的进一步描述展示于例如拉皮迪(Lapidus)等人(美国专利第
7,169,560号)、拉皮迪等人(美国专利申请第2009/0191565号)、奎克等人(美国专利第6,
818,395号)、哈里斯(美国专利第7,282,337号)、奎克等人(美国专利申请第2002/0164629号)以及布拉斯拉维斯基(Braslavsky)等人,PNAS(USA),100:3960-3964(2003)中,这些参考文献中的每一个的内容以全文引用的方式并入本文中。
[0162] 可以在所提供的本发明的方法中使用的测序技术的另一实例包含用以对DNA和RNA两者进行测序的太平洋生物科学(Pacific Biosciences)的单分子实时(SMRT)技术。在SMRT中,四个DNA碱基中的每一个连接到四种不同荧光染料之一。这些染料是磷酸相连的。单个DNA聚合酶与模板单链DNA单分子一起固定在零模式波导(ZMW)底部。ZMW是能够相对于在ZMW外快速扩散(以微秒为单位)的荧光核苷酸背景观测单核苷酸通过DNA聚合酶并入的限制结构。核苷酸并入生长链中耗时若干毫秒。在此时间期间,荧光标记被激发并且产生荧光信号,并且荧光标记裂解开。检测染料的对应荧光指示并入了哪种碱基。重复该过程。为了对RNA测序,用ZMW中的逆转录酶置换DNA聚合酶,并且相应地遵循该过程。
[0163] 可以在所提供的本发明的方法中使用的测序技术的另一实例是纳米孔测序(索尼G V(Soni G V)和米勒(Meller),临床化学(AClin Chem)53:1996-2001)(2007)。纳米孔是直径约为1纳米的小孔。纳米孔浸入在导电流体中以及跨纳米孔施加电势会因离子传导通过纳米孔而产生轻微的电流。流动的电流量对纳米孔的大小敏感。随着DNA分子通过纳米孔,DNA分子上的每个核苷酸会不同程度地阻碍纳米孔。因此,随着DNA分子通过纳米孔而通过纳米孔的电流的变化呈现DNA序列的读数。
[0164] 可以在所提供的本发明的方法中使用的测序技术的另一实例包括使用化学敏感场效应晶体管(chemFET)阵列以对DNA测序(例如,如描述于美国专利申请公开第20090026082号中)。在该技术的一个实例中,DNA分子可以放入反应室中,并且模板分子可以与结合到聚合酶的测序引物杂交。通过chemFET,可以通过电流的变化检测到一个或多个三磷酸酯并入到测序引物的3'末端处的新核酸链中。阵列可以具有多个chemFET传感器。在另一实例中,可以将单个核酸连接到珠粒,可以在珠子上扩增核酸,并且可以将个别珠子转移到chemFET阵列上的个别反应室,其中每个室具有一个chemFET传感器,并且可以对核酸测序。
[0165] 可以在所提供的本发明的方法中使用的测序技术的另一实例包括使用电子显微镜(蒙德里安那基斯E.N.(Moudrianakis E.N.)和比尔M.(Beer M.)美国国家科学院院刊(Proc Natl Acad Sci USA)1965年3月;53:564-71)。在该技术的一个实例中,使用金属标记来标记个别DNA分子,这些金属标记是使用电子显微镜可辨别的。随后在平坦表面上拉伸这些分子并且使用电子显微镜成像以测量序列。
[0166] 另外的检测方法可以利用结合微阵列用于后续的荧光或无荧光检测、使用质谱方法的条码质量检测、发射的无线电波检测、已比对条码的散射光的检测、使用定量PCR或数字PCR方法的荧光检测。比较核酸杂交阵列是用于检测患者的样本DNA内的拷贝数变异的技术。样本DNA和参考DNA是使用例如不同的荧光团以不同方式标记,并且随后与众多探针杂交。随后测量样本和参考的荧光强度,并且随后使用荧光强度比来计算拷贝数变异。在希纳维M(Shinawi M),张SW(Cheung SW)阵列CGH和其临床应用(The array CGH and its clinical applications),今日药物发现(Drug Discovery Today)13(17-18):760-70中更详细论述了比较基因组杂交阵列的方法。微阵列检测可以不直接产生FASTQ文件,然而可使用程序将由微阵列测序仪产生的数据转化为FASTQ格式或类似的格式。
[0167] 检测DNA分子、RNA分子以及拷贝数的另一方法是荧光原位杂交(FISH)。原位杂交协议(伊恩达比(Ian Darby)编,2000)。FISH是一种分子细胞遗传学技术,其检测特定的染色体重排,如DNA序列的突变和拷贝数变异。DNA分子经过化学变性并且分离成两个链。随后将单链探针与该DNA的变性链一起培育。信号链探针取决于目标序列部分而选择,并且对互补序列部分具有高亲和性。探针可以包含重复序列探针、全染色体探针以及基因座特异性探针。在培育时,将合并的探针与DNA链杂交。随后在显微镜下将结果可视化并且进行定量以评估任何变异。
[0168] 在另一实施例中,使用基于MassARRAYTM的基因表达谱方法来测量基因表达。在西格诺公司(Sequenom,Inc.)(加利福尼亚州圣地亚哥)根据RNA和逆转录的分离所开发的基于MassARRAYTM的基因表达谱方法中,所得cDNA被外加合成DNA分子(竞争者),其匹配所有位置中的目标cDNA区(除单一碱基外)并且用作内标。cDNA/竞争者混合物经过PCR扩增并且经历后PCR虾碱性磷酸酶(SAP)的酶处理,使得其余的核苷酸去磷酸化。在碱性磷酸酶失活后,来自竞争者和cDNA的PCR产物经历引物延伸,产生针对竞争者和cDNA派生PCR产物的不同质量信号。纯化后,在芯片阵列上分配这些产物,该芯片阵列预负载有用基质辅助激光解吸电离飞行时间质谱(MALDI-TOF MS)分析进行分析所需的组分。随后通过分析所产生的质谱的峰面积比来定量反应中存在的cDNA。关于其它细节,参看例如丁(Ding)和坎托(Cantor),美国国家科学院院刊100:30593064(2003)。
[0169] 其它基于PCR的技术包含例如示差显示(梁(Liang)和帕迪(Pardee),科学257:967971(1992));扩增片段长度多态性(iAFLP)(川本(Kawamoto)等人,基因组研究(Genome Res.)12:13051312(1999));BeadArrayTM技术(加利福尼亚州圣地亚哥的亿明达公司(Illumina,San Diego,Calif.);奥利芬特(Oliphant)等人,疾病标记的发现(生物技术增刊)(Discovery of Markers for Disease(Supplement to Biotechniques)),2002年6月;
弗格森(Ferguson)等人,分析化学(Analytical Chemistry)72:5618(2000));用于检测基因表达的珠子阵列(BADGE),在用于基因表达的快速分析中使用市售的Luminex100LabMAP系统和多颜色编码的微球(得克萨斯州奥斯汀的路明克斯公司(Luminex Corp.,Austin,Tex.))(杨(Yang)等人,基因组研究11:1888 1898(2001));以及高覆盖率表达谱(HiCEP)分析(福村(Fukumura)等人,核酸研究(Nucl.Acids.Res.)31(16)e94(2003))。其中每一个的内容以全文引用的方式并入本文中。
[0170] 在某些实施例中,还可以识别或使用微阵列技术确认基因表达的变异,微阵列技术包含尼龙膜阵列、微芯片阵列以及玻璃载片阵列,这些阵列例如可从昂飞公司(Affymetrix)(加利福尼亚州圣克拉拉)购得。一般来说,RNA样本被分离,并且经由逆转录转化为标记的cDNA。标记的cDNA随后通过来自相关细胞或组织的特定DNA探针杂交到尼龙膜、微芯片或玻璃载片上。随后检测杂交的cDNA并且进行定量,可以将所得的基因表达数据与用于分析的对照进行比较。标记、杂交以及检测的方法取决于微阵列支撑物是尼龙膜、微芯片还是玻璃载片而不同。尼龙膜阵列通常用P-dNTP标记的探针进行杂交。玻璃载片阵列通常涉及用两个不同的荧光标记的核苷酸来标记。在耶特曼(Yeatman)等人(美国专利申请第2006/0195269号)中展示了制备微阵列和测定基因产物表达(例如,RNA或蛋白质)的方法,该申请的内容以全文引用的方式并入本文中。
[0171] 在一些实施例中,可以单独使用或结合其它方法(例如,免疫分析或RNA测量分析)使用质谱(MS)分析,以确定本文所公开的一个或多个生物标记在生物样本中的存在和/或数量。在一些实施例中,MS分析包含基质辅助激光解吸/电离(MALDI)飞行时间(TOF)MS分析,如直接点MALDI-TOF或液相色谱MALDI-TOF质谱分析。在一些实施例中,MS分析包括电喷雾电离(ESI)MS,如液相色谱(LC)ESI-MS。可以使用市售的光谱仪来完成质量分析。使用包含MALDI-TOF MS和ESI-MS的MS分析来检测生物样本中生物标记肽的存在和数量的方法是所属领域中已知的。关于进一步的指导,参看例如美国专利第6,925,389号、第6,989,100号以及第6,890,763号,其中每一个以全文引用的方式并入本文中。
[0172] 可以使用相关领域的技术人员已知的多种技术来测定在本发明的方法、序列构建体以及系统中使用的蛋白质序列。举例来说,可以通过以质谱分析蛋白质或蛋白质的一部分或使用埃德曼降解(Edman degradation)产生氨基酸序列和氨基酸序列读数。质谱可以包含例如基质辅助激光解吸/电离(MALDI)飞行时间(TOF)MS分析,如直接点MALDI-TOF或液相色谱MALDI-TOF质谱分析;电喷雾电离(ESI)MS,如液相色谱(LC)ESI-MS;或其它技术,如MS-MS。埃德曼降解分析可以使用商业仪器执行,如型号49X Procise蛋白质/肽测序仪(应用生物系统公司/生命技术公司)。测序后的氨基酸序列(即多肽,即蛋白质)的长度可以是至少10个氨基酸,例如长度是至少20个氨基酸,例如长度是至少50个氨基酸。
[0173] 以引用的方式并入
[0174] 在本发明通篇中已经参考并且引用了其它文档,如专利、专利申请、专利公开、杂志、书籍、论文、网络内容。所有此类文档在此出于所有目的以全文引用的方式并入本文中。
[0175] 等效物
[0176] 根据包含对本文引用的科学和专利文献的参考的本文档的完整内容,所属领域的技术人员将显而易见除本文展示和描述的那些之外的本发明的各种修改以及其许多其它实施例。本文中的标的物含有重要信息、范例和指南,其可适于本发明在其各种实施例和其等效物中的实践。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈