首页 / 专利库 / 生物工程 / 调控序列 / 分型和组装不连续基因组元件

分型和组装不连续基因组元件

阅读:407发布:2023-03-05

专利汇可以提供分型和组装不连续基因组元件专利检索,专利查询,专利分析的服务。并且本 发明 涉及用于分型和组装不连续基因组元件的方法和 试剂 盒 。,下面是分型和组装不连续基因组元件专利的具体信息内容。

1.一种用于分型和组装不连续基因组元件的方法,所述方法包括:
获得一条或多条染色体的多个基因组DNA片段或基因组序列数据;
获得来自所述基因组DNA片段或所述基因组序列数据的所述基因组元件的多个元件序列读出,以及
将所述多个元件序列读出组装以基因分型并构建所述一条或多条染色体的远程或染色体跨距单倍型。
2.根据权利要求1所述的方法,其中使用基于邻近连接(proximity-ligation)的技术获得所述多个基因组DNA片段。
3.根据权利要求1或2所述的方法,其中所述不连续基因组元件选自下组:基因、外显子、内含子、非翻译区、蛋白质结构域编码序列、基因融合、转录因子结合位点、启动子、增强子、沉默子、保守元件、miRNA编码序列、miRNA结合位点、剪接位点、剪接增强子、剪接沉默子、结构变体、常见SNP、UTR调控基序、翻译后修饰位点和共同元件。
4.根据权利要求2或3所述的方法,其中通过包括下述步骤的方法获得所述多个基因组DNA片段:
提供含有一组具有基因组DNA的染色体的细胞;
将所述细胞或其细胞核与固定剂孵育一段时间,以便在原位将所述基因组DNA交联以形成交联的基因组DNA;
将所述交联的基因组DNA片段化;
将所述交联的且片段化的基因组DNA连接以形成邻近连接复合体
将所述邻近连接复合体剪切以形成邻近连接DNA片段;以及
获得多个所述邻近连接DNA片段以形成文库,从而获得所述多个基因组DNA片段。
5.根据权利要求4所述的方法,其中通过使用一种或多种酶进行限制性酶消化进行所述片段化步骤。
6.根据权利要求5所述的方法,其中使用两种或多种不同的酶进行所述消化。
7.根据权利要求5或6所述的方法,其中所述酶的至少一种是4-切割剂(4-cutter)或6-切割剂(6-cutter)。
8.根据权利要求1-7中任意一项所述的方法,其中通过包括下述步骤的方法从所述基因组DNA片段获得所述多个元件序列读出:
将所述多个基因组DNA片段与一组探针杂交以形成杂交混合物;
将杂交的探针分开以分离所述基因组DNA片段的亚组,以及
将所述分离的基因组DNA片段测序以产生多个序列读出,从而获得所述多个元件序列读出,
其中所述探针包含与在所述一个或多个染色体中的所述不连续基因组元件的序列互补的序列。
9.根据权利要求8所述的方法,还包括在所述测序步骤之前将所述分离的基因组DNA片段扩增。
10.根据权利要求8-9中任意一项所述的方法,其中所述探针组在每个探针上包含亲和标签。
11.根据权利要求10所述的方法,其中所述亲和标签是生物素分子或半抗原
12.根据权利要求11所述的方法,其中所述分离步骤包括将所述杂交混合物与同所述亲和标签结合的试剂接触
13.根据权利要求12所述的方法,其中所述试剂是抗生物素蛋白分子,或者是与所述半抗原或其抗原结合片段结合的抗体
14.根据权利要求8-13中任意一项所述的方法,其中所述探针附接在支持物上。
15.根据权利要求14所述的方法,其中所述支持物是微阵列。
16.根据权利要求14或15所述的方法,其中所述支持物包括平面支持物,所述平面支持物包含一种或多种选自下述的基材:玻璃、、金属、特氟龙和聚合物材料。
17.根据权利要求14-16中任意一项所述的方法,其中所述支持物包含小珠的混合物,每个小珠具有一个或多个与其结合的探针。
18.根据权利要求17所述的方法,其中所述小珠的混合物包含一种或多种选自下组的基材:硝酸纤维素、玻璃、二氧化硅、特氟龙、金属和聚合物材料。
19.根据权利要求8-18中任意一项所述的方法,其中所述不连续基因组元件是外显子或蛋白结构域编码序列,以及所述探针是cDNA探针或RNA探针。
20.根据权利要求3-19中任意一项所述的方法,还包括在所述孵育步骤之前将所述细胞核从所述细胞分离。
21.根据权利要求3-20中任意一项所述的方法,还包括在所述片段化步骤之前纯化基因组DNA。
22.根据权利要求3-21中任意一项所述的方法,其中所述固定剂包括甲、戊二醛、福尔林或其组合。
23.根据权利要求8-22中任意一项所述的方法,其中使用新一代测序(NGS)进行所述测序步骤。
24.根据权利要求1所述的方法,其中所述基因组序列的数据包括多个针对下述各项的序列读出:基因、外显子、内含子、非翻译区、蛋白质结构域编码序列、基因融合、转录因子结合位点、启动子、增强子、沉默子、保守元件、miRNA编码序列、miRNA结合位点、剪接位点、剪接增强子、剪接沉默子、结构变体、常见SNP、UTR调控基序、翻译后修饰位点和共同元件。
25.根据权利要求1-24中任意一项所述的方法,其中所述染色体来自生物体的细胞。
26.根据权利要求25所述的方法,其中所述生物体是真核生物。
27.根据权利要求26所述的方法,其中所述生物体是真菌植物或动物。
28.根据权利要求27所述的方法,其中所述生物体是哺乳动物或哺乳动物胚胎。
29.根据权利要求28所述的方法,其中所述生物体是人。
30.根据权利要求28所述的方法,其中所述染色体来自人胚胎。
31.根据权利要求1-30中任意一项所述的方法,其中在具有或不具有基于群体的归属(imputation)的情况下使用maxcut算法进行所述组装。
32.根据权利要求1-31中任意一项所述的方法,还包括基因分型或变体识别(variant calling)。
33.一种用于进行权利要求1-32中任意一项所述的方法的试剂盒,包含:
固定剂;
一种或多种限制性内切酶;
连接酶;
一组探针,所述探针与在所述一条或多条染色体中的所述不连续基因组元件的序列互补,并且使用亲和标签标记,以及
能够与亲和标签结合的试剂。
34.根据权利要求33所述的试剂盒,还包含一种或多种选自下组的组分:细胞裂解缓冲液、一种或多种限制性酶反应缓冲液、杂交缓冲液、延伸核苷酸、DNA聚合酶、蛋白酶、衔接头(adaptor)、阻断寡核苷酸、RNA酶抑制剂和用于测序的试剂。
35.根据权利要求34所述的试剂盒,其中至少一个延伸核苷酸被亲和标签标记。

说明书全文

分型和组装不连续基因组元件

[0001] 相关申请的交叉引用
[0002] 本申请要求2015年9月29日提交的美国临时申请号62/234,329的优先权。该申请的全部内容通过引用并入本申请。

技术领域

[0003] 本发明一般地涉及遗传学、分子和细胞生物学领域,以及尤其涉及用于分型和组装不连续基因组元件和二倍体测序的方法和试剂盒。

背景技术

[0004] 目前的短读长测序(Short-read sequencing)产生具有较差连续性的基因组数据并因此限制了基因组的从头组装和二倍体单倍型的解卷积。在分型的背景下,每种生物体都具有含有其全部遗传信息的一组定义的染色体。例如,正常人的体细胞是二倍体并且具有两组染色体,即每个细胞核中有父本染色体组和母本染色体组。在每个个体中,这两组染色体在多个基因座具有不同的核苷酸序列。要了解个体的遗传基因组成需要对遗传物质的母本和父本拷贝或单倍型作图。需要对基因组中的各种基因组元件(例如,基因和外显子)进行分型或二倍体测序。虽然存在用于对整个二倍体基因组(Selvaraj等,NBT2013,Dec;31(12):1111-8)或目标基因座(Selvaraj等,BMC Genomics 2015Nov5;16:900)进行单倍型分型的方法,但是仍缺乏将不连续基因组元件单倍型分型成染色体跨距单倍型的方法。

发明内容

[0005] 本发明通过提供一种在整个染色体或基因组平上重构和分型不连续基因组元件的方法和试剂盒解决了上述未满足的需求。通过利用邻近连接实验捕获目标基因组元件的3D构造并且因为3D信息是基因组元件的远程信息,本申请所公开的方法和试剂盒能够对外显子进行基因分型并将所有外显子连接成单染色体跨距单倍型。
[0006] 在一个方面中,本发明提供了一种用于分型和组装不连续基因组元件的方法。该方法包括(i)获得一条或多条染色体的多个基因组DNA片段或基因组序列的数据;(ii)获得来自基因组DNA片段或基因组序列的数据的元件的多个元件序列读出(例如,外显子序列读出),以及(iii)组装多个元件序列读出(如外显子序列读出)以构建所述一个或多个染色体的远程或染色体跨距单倍型。如本申请所公开的,可以使用maxcut算法进行组装。
[0007] 在一些实施方式中,可以使用选自下组的技术获得多个基因组DNA片段:Hi-C、3C、4C、5C、TLA、TCC以及原位Hi-C。例如,可以通过使用包括下述步骤的方法获得多个基因组DNA片段(i)提供含有一组具有基因组DNA的染色体的细胞;(ii)将细胞或其细胞核与固定剂孵育一段时间,以便在原位将基因组DNA交联以形成交联的基因组DNA;(iii)将交联的基因组DNA片段化;(iv)将交联的和片段化的基因组DNA连接以形成邻近连接复合体;(v)将邻近连接复合体剪切以形成邻近连接DNA片段;以及(vi)获得多个邻近连接DNA片段以形成文库,从而获得多个基因组DNA片段不连续基因组元件的实例可以选自下组:基因、外显子、内含子、非翻译区、蛋白质结构域编码序列、基因融合、转录因子结合位点、启动子、增强子、沉默子、保守元件、miRNA编码序列、miRNA结合位点、剪接位点、剪接增强子、剪接沉默子、结构变体、常见SNP、UTR调控基序、翻译后修饰位点、共同元件以及任意其他目标元件。
[0008] 在上述方法中,可以通过使用一种或多种酶进行限制性酶消化进行片段化步骤。优选地,可以使用两种或多种不同的酶进行消化。酶可以是4-切割剂或6-切割剂。在一个实例中,至少一种酶可以选自下组:DpnII、MboI、HinfI、HindIII、NcoI、XbaI和BamHI。
[0009] 在上述方法中,可以通过包括下述步骤的方法从基因组DNA片段获得多个序列读出(如外显子序列读出):(i)将多个基因组DNA片段与一组探针杂交以形成杂交混合物;(ii)将杂交的探针分开以分离基因组DNA片段的亚组,以及(iii)将分离的基因组DNA片段测序以产生多个序列读出,从而获得多个序列读出(如外显子序列读出)。如果需要大量的捕获DNA,则在测序步骤之前,该方法还包括扩增分离的基因组DNA片段。
[0010] 在一些实例中,为了获得外显子序列,探针具有与在一个或多个染色体中的外显子序列互补的序列,以及其可以是cDNA探针或RNA探针。
[0011] 为了便于分离,每个探针可以含有亲和标签。亲和标签的实例包括生物素分子和半抗原。分离步骤包括将杂交混合物与同亲和标签结合的试剂接触。试剂的实例包括抗生物素蛋白分子,或者与半抗原或其抗原结合片段结合的抗体。在一些实施方式中,可以将探针附接在支持物(如微阵列)上。在那种情况下,支持物可以包括平面支持物,所述平面支持物具有一种或多种选自下述的基材:玻璃、、金属、特氟龙和聚合物材料。或者,支持物可以包括小珠的混合物,每个小珠具有一个或多个与其结合的探针,以及小珠的混合物可以包含一种或多种选自下述的基材:硝酸纤维素、玻璃、二氧化硅、特氟龙、金属和聚合物材料。
[0012] 上文所述的方法还可以包括在孵育步骤之前从细胞分离细胞核的步骤,或者在片段化步骤之前纯化基因组DNA的步骤。固定剂可以是甲、戊二醛、福尔林或其组合。可以使用NGS进行测序步骤。每条序列读出的长度可以是至少75bp(例如,100bp、150bp、200bp或250bp)以及对于每条染色体而言,文库含有至少10x(例如,20x、30x、40x或50x)序列覆盖
[0013] 可以将上文所述的方法用于分型来自生物体细胞的任何染色体的各种基因组元件(包括但不限于外显子组单倍型分型)以及二倍体测序。可以将其用于对任何真核细胞进行分型(例如,单倍型分型)或测序,包括真菌植物或动物,如哺乳动物或哺乳动物胚胎(例如,人或人胚胎)。
[0014] 在第二个方面中,本发明提供了一种用于实施上文所述的方法的试剂盒,所述方法包括但不限于对一条或多条染色体进行外显子组单倍型分型。该试剂盒含有固定剂、一种或多种限制性内切酶、连接酶、一组探针和能够与亲和标签结合的试剂,所述探针与在一个或多个染色体中的不连续基因组元件(如外显子序列)的序列互补,并且使用亲和标签标记。该试剂盒还可以含有一种或多种选自下述的组分:细胞裂解缓冲液、一种或多种限制性酶反应缓冲液、杂交缓冲液、延伸核苷酸、DNA聚合酶、蛋白酶、衔接头、阻断寡核苷酸、RNAse抑制剂和用于测序的试剂。可以使用亲和标签对至少一个延伸核苷酸进行标记。
[0015] 本发明的一个或多个实施方式的详细说明列于以下说明书中。本发明的其他特征、目的以及优势根据说明书和权利要求将是显而易见的。附图说明
[0016] 图1a和1b是两组显示(图1a)示例性全-外显子组单倍型分型实验设计和(图1b)将近端和远端外显子变体与近程和远程染色质相互作用数据帮助连接成单一的单倍型区的计算策略的图。
[0017] 图2a和2b是显示当与常规Hi-C数据集比较时原位Hi-C数据集产生更多可用数据的图:(图2a)远程(>20,000)和近程顺式(染色体内)片段的部分以及(图2b)反式片段的部分。
[0018] 图3a、3b、3c、3d和3e是一组显示能够在不同读出长度产生染色体跨距单倍型的全-外显子组邻近连接文库的图:(图3a)50bp、(图3b)75bp、(图3c)100bp、(图3d)150bp和(图3e)250bp。
[0019] 图4a、4b和4c:(图4a)是显示单酶或多酶全-外显子组HaploSeq的图,(图4b)是显示使用NcoI和XbaI的单酶或多酶全-外显子组HaploSeq的表,以及(图4c)是四张表,(c-i)显示了对使用NcoI和多酶的性能的比较,(c-ii)是使用NcoI的全基因组基因分型结果,(c-iii)是使用多酶的全基因组基因分型结果,(c-iv)是全基因组基因分析综合数据集的结果。
[0020] 图5a和5b是显示全-外显子组HaploSeq评价指标的两张表:(图5a)在所有单倍型区块中的定相结果和(图5b)在具有所定相的最大变体(MVP)区块中的定相结果。
[0021] 图6是显示限制性内切酶的选择对读出覆盖的影响的图。

具体实施方式

[0022] 本发明至少部分地基于一个意外地发现,即可以通过靶向染色体的亚区域(如一组或多组不连续基因组元件,包括但不限于外显子)并且通过利用其三维构造实现在染色体跨距水平上重构全基因组单倍型。
[0023] 以实用且可扩展的方式针对二倍体基因组产生高质量的单倍型定相是具有挑战性的。此前,开发了一种使用邻近连接的方法产生染色体水平单倍型的称为HaploSeq的方法(Selvaraj等,Nat Biotechnol 31,1111-8(2013)和WO2015010051)。然而,HaploSeq需要进行大量序列读出对人基因组进行定相,而使用当今的测序技术这是非常昂贵的。
[0024] 在一个实例中,本申请公开了一种新的定相方法,该方法通过特异性靶向基因组的小片段(小于2%)实现全基因组定相并产生染色体跨距的单倍型分型,例如,外显子(或者蛋白编码区或如本申请所述的其他不连续基因组元件)。特别地,发明人使用邻近连接和捕获测序能够对基因组的不连续元件进行分析。例如,对邻近连接文库的外显子组捕获使得具有若干应用的外显子组邻近连接数据集(外显子组PL)能够对外显子组进行分型和组装,所述应用为:外显子组的从头组装、外显子组基因分型、外显子组的染色体跨距单倍型分型、基因融合分析、外显子结构变体分析、了解外显子的三维(3D)构造等。与外显子组捕获类似,可以对其他类型的不连续元件(如基因组中的常见变体组、癌症或其他疾病特异性基因组等)进行捕获、分型和组装。
[0025] 在一些实施方式中,称为全-外显子组HaploSeq的外显子组聚焦方法仅占HaploSeq成本的10%以下,并且同时提供了外显子组的序列。将基因组所有外显子区域定相至单一单倍型结构在精准医疗中具有广泛应用,包括单不限于:非侵入性产前诊断检查(NIPT)和在复合杂合子病例中疾病基因的发现。参见,例如,Bianchi,D.W.Nat Med 18,
1041-51(2012),Browning等,Genetics 194,459-71(2013),Tewhey等,Nat Rev Genet 12,
215-23(2011),Kitzman等,Sci Transl Med 4,137ra76(2012)以及Browning等,Am J Hum Genet81,1084-97(2007)。
[0026] 尽管本申请公开的某些实施方式集中在全-外显子组HaploSeq上,但是可以将本申请所述的靶向方法用于靶向基因组的其他特征或元件。例如,可以设计靶向基因组中常见变体的探针并使用本申请所述的相同实验和计算原理实现常见变体HaploSeq。总之,通过靶向基因组的亚区域和通过利用其三维构造,能够获得针对这些变体的染色体跨距单倍型。
[0027] 单倍型分型和重构
[0028] 单倍型重构(也称为“单倍型定相”)是使用DNA测序数据将从同一亲本遗传的变体等位基因分组。将这种分组称为单倍型区块。参见Browning等,Am J Hum Genet 81,1084-97(2007)。获得个体中单倍型信息的效用可能是数倍的。首先,外显子的定相信息对预测基因中复合突变的疾病险至关重要(Tewhey等,Nat Rev Genet 12,215-23(2011))。其次,单倍型结构的知识在临床上对于产前无创胎儿测序是有用的(Kitzman等,Sci Transl Med 
4,137ra76(2012))。此外,单倍型还用于预测在器官移植中供体-宿主匹配(HLA/KIR)的结果以及用于理解移植物排斥耐受机制(Petersdorf等,PLoS Med 4,e8(2007))。而且,单倍型有助于理解在基因表达、DNA甲基化和蛋白-DNA相互作用中的“等位基因失衡”,已知其影响疾病的易感性(Kong,A.等,Nature462,868-74(2009),International Consortium for Systemic Lupus Erythematosus,G.等,Genome-wide association scan in women with systemic lupus erythematosus identifies susceptibility variants in ITGAM,PXK,KIAA1542and other loci.Nat Genet 40,204-10(2008)以及Hindorff等,Proc Natl Acad Sci U S A 106,9362-7(2009))。单倍型(特别是染色体跨距单倍型)还能够有助于构建祖先和划定人口迁移模式(International HapMap,C.等,Nature 449,851-61(2007),Genomes Project,C.等,A map of human genome variation from population-scale sequencing.Nature 467,1061-73(2010)以及Genomes Project,C.等,An integrated map of genetic variation from 1,092human genomes.Nature 491,56-65(2012))。总之,获得单倍型信息对人类遗传学的临床和生物医学发展是重要的。
[0029] 包括HaploSeq、染色体分选或分离、精子基因分型或亲子三重测序在内的几种方法能够产生染色体跨距单倍型。参见,例如,Selvaraj等,Nat Biotechnol 31,1111-8(2013),Genomes Project,C.等,A map of human genome variation from population-scale sequencing.Nature 467,1061-73(2010),Genomes Project,C.等,An integrated map of genetic variation from 1,092human genomes.Nature 491,56-65(2012),Ma等,Nat Methods 7,299-301(2010),Fan等,Nat Biotechnol 29,51-7(2011),Yang等,Proc Natl Acad Sci U S A 108,12-7(2011)以及Kirkness等,Genome Res 23,826-32(2013)。然而,产生染色体规模单倍型是昂贵的,因此对于实际目的的作用有限。
[0030] 在一个实例中,本申请公开了一种靶向基因组的所有基因(或外显子)并重构所定相的整个外显子组的染色体跨距单倍型的方法。该方法的一个重要的和令人吃惊的成就是仅通过分析外显子组就能够重构染色体跨距单倍型。因为外显子在染色体中是随机分布的,所以到目前为止在数学上将所有外显子连接成单一单倍型结构是非常困难的。特别地,外显子的不连续性使得为所有外显子分配单一单倍型定相非常具有挑战性。因此,不能处理外显子的这种不连续性的常规染色体跨距单倍型方法不能将其定相至单一的单倍型。
[0031] 如本申请所公开的,通过使用新的实验和计算策略解决了这个问题。图1中显示了本发明一个示例性方法的设计,其侧重于对基因分型和全-外显子组单倍型分型的开发。特别是,这些设计利用由邻近连接实验(图1a和1b-i)产生的远程片段连接空间上近端外显子形成单一单倍型结构(图1b)。利用敏感的外显子组捕获方法、足够的测序覆盖以及新的计算工具,可以将染色体中的所有外显子连接成单一单倍型。
[0032] 在一个实例中,可以首先使用甲醛或其他交联剂交联染色质。然后可以使用选定的一种酶或一组不同的限制性内切酶消化染色质并且可以将在空间上近端的染色质连接和超声,以产生邻近连接片段文库。然后可以将外显子组捕获用于靶向和捕获外显子邻近连接片段。图1b显示了这种全-外显子组邻近连接文库的插入尺寸分布。该文库由短程、中程和远程相互作用的混合物组成,这将有助于连接近端以及远端外显子变体(图1-b-i)。如图1b-ii中所示,外显子1和外显子2相距50-kb;每个外显子内的变体通过短程染色质相互作用连接,产生两个外显子区块(图1-b-ii)。由于在外显子1和外显子2中的变体在空间上接近但是线性距离相距-50kb,因而可以通过远程相互作用(图1-b-iii)将其连接,结果这两个外显子区块会聚成一个区块。有足够的数据时,就能够将这种较小的外显子区块连接成染色体跨距单一单倍型结构。
[0033] 如下述实例中所示,这种上文所述的全-外显子组HaploSeq能够有效地捕获外显子的三维构造。此外,通过使用创新的基于图形的计算机算法根据全-外显子组HaploSeq数据成功地将外显子连接,在该算法中将外显子认为是图形中的边缘。
[0034] 邻近连接
[0035] 在图1a所示的设计中,将基于邻近连接的方法用于DNA测序文库的制备,随后进行基于寡核苷酸的外显子组捕获和高通量DNA测序。可以使用Lieberman-Aiden等,Science 326,289-93(2009)所述方法中的Hi-C法进行邻近连接,其内容通过引用并入本申请。
[0036] 在一个实例中,初始步骤可以与如Selvaraj等,Nat Biotechnol 31,1111-8(2013)和WO2015010051中所述的HaploSeq法相同。更特别地,可以将细胞与交联剂交联以防止蛋白之间和DNA与蛋白之间的相互作用。可以在室温下使用1-2%的甲醛进行该反应10-30分钟。然后,可以通过离心收集细胞并且可以将其在-80℃下保存。可以在低渗细胞核裂解缓冲液中裂解细胞,然后使用所选择的限制性内切酶的1X浓度的缓冲液(例如,来自New England Biolabs)洗涤细胞。可以使用25U至400U的酶消化细胞1小时至过夜,其取决于所使用的酶。四基切割酶的优点是使用较少量的酶进行较短时间的消化(例如,使用
25U进行1小时),而六碱基切割酶可以使用更大量的酶进行更长时间的消化。可以在存在dNTP的条件下使用Klenow聚合酶对DNA末端进行修复,dNTP中的一个(例如,dATP)可以与生物素共价连接。然后,可以在存在T4DNA连接酶的条件下,将样品连接4小时。然后,可以在存在蛋白酶K以及65℃的条件下将样品消化过夜以逆转交联和降解蛋白。然后可以使用例如一系列苯酚-氯仿提取和乙醇沉淀分离DNA。在将纯化的DNA分离后,可以在Covaris或Bioruptor机器上将其超声。然后可以根据标准文库预制备方法对DNA进行末端修复和A尾化。之后可以将A尾化的DNA与包被了抗生物素蛋白链菌素的小珠结合,以分离生物素化的、连接的DNA片段。可以洗涤小珠以除去非特异性的、未生物素化的DNA片段。然后可以使用Quick DNA连接酶将衔接头连接至IlluminaTru-Seq衔接头组。随后,将1μL样品按照1:1000稀释并且可以使用针对已知标准品(KAPA)的qPCR测定其浓度。然后,利用PCR对样品进行扩增以获得足够的材料,这通常指在所有文库中将捕获总计750ng的样品。可以使用AMPure小珠对经PCR扩增的文库进行纯化,并且可以通过制备1:1000的稀释物以及利用qPCR针对已知标准品(KAPA)再次测定终浓度。
[0037] 尽管在附图中将Hi-C方案作为邻近连接的方案,但是也可以将其变化(如3C、4C、5C、TLA、TCC、原位Hi-C和其他方案)用于本申请所公开的方法(如全-外显子组HaploSeq)中。这些方案的详情可以参见Lieberman-Aiden等,Science 326,289-93(2009),Dekker等,Science 295,1306-11(2002),van de Werken等,Methods Enzymol 513,89-112(2012),Simonis等,Nat Methods 6,837-42(2009),Dostie等,Nat Protoc 2,988-1002(2007),Nora等,Nature 485,381-5(2012),Sanyal等,Nature 489,109-13(2012),de Vree,P.J.等,Nat Biotechnol 32,1019-25(2014),Kalhor等,Nat Biotechnol 30,90-8(2012)以及Rao等,Cell 159,1665-80(2014)。所有这些参考文献的全部内容通过引用并入本申请。例如,可以将原位Hi-C(Rao等,Cell 159,1665-80(2014))数据集用于HaploSeq,因为当与常规Hi-C(Lieberman-Aiden等,Science 326,289-93(2009))比较时,其产生更远程的片段(图2a)和更少的反式相互作用(或染色体间相互作用,HaploSeq对其利用率较低,图2b)。无论如何,通过使用Hi-C尽管其“噪音”数据是一个重要的证明原则,但是使用Hi-C对于这个目的可能是足够的。
[0038] 限制性内切酶消化
[0039] 上文所述的邻近连接方案包括在对染色质进行邻近连接之前的限制性内切酶消化。因为大部分测序读出分布在限制性内切酶酶切位点附近(~500bp),所以对所使用的酶的选择可能会对结果产生影响。例如,距离所选择的限制性内切酶酶切位点较远的元件(如外显子)不太可能被捕获并因此产生定相的单倍型。为了将所有元件或变体的定相最大化,可以使用多种酶对染色质进行消化。为此,任何单一的6-碱基切割限制性内切酶能够产生覆盖基因组5-10%的邻近连接数据,但是通过在相同实验中使用多个这种酶,能够覆盖基因组的80%以上(图4a)。此外,可以使用4-碱基切割酶或一组4-碱基切割代替6-碱基切割酶以进一步将基因组的覆盖最大化。
[0040] 可以使用任意数量的限制性内切酶进行本申请所公开的方法(如全-外显子组HaploSeq程序),只要其能够产生足够的初始HaploSeq文库即可。酶的选择问题确实对所覆盖和定相的碱基数具有影响。例如,6-碱基切割酶切割基因组中的每个~4kb,因此使得可以被定相的相对少数的多态性与将被定相的切割位点足够接近。而相比之下,4-碱基切割酶的切割频率更高,其数量级为每250bp(平均)切割一次。在这一点上,更大比例的多态性将接近酶切位点,从而使其具有被定相的可能。这对于定相稀有变体可能是重要的,因为HaploSeq法后面的步骤是基于根据群体的插补的,其不适用于稀有变体。
[0041] 如下述实施例2和3中所示的,利用4-碱基切割酶或不同酶的混合物导致了具有更小测序读出纵深的更大的覆盖。更特别地,尽管使用一种限制性内切酶能够成功进行HaploSeq,但是多酶HaploSeq能够产生更均匀的数据分布,从而使得HaploSeq具有更高的分辨率。见图4a。如图4b中所示,使用酶NcoI、XbaI和多酶(NcoI、HindIII和BamHI)产生了三个独立的全-外显子组HaploSeq数据集。因为可以将HaploSeq数据集用于基因分型,所以发明人使用这些数据集识别SNV。如图4c(i)中所示,发明人比较了NcoI、多酶以及综合数据集(NcoI、XbaI和多酶)的性能,并观察到这些数据集的每一个针对杂合和纯和的外显子变体均产生了高精确度的基因分型。值得注意的是,发明人对基因型识别结果与现有WGS数据(称为真数据集,International HapMap,C.等,Nature 449,851-61(2007)和Genomes Project,C.等,Amap of  human genome variation from population-scale sequencing.Nature 467,1061-73(2010))进行了比较。而且,外显子的基因分型具有高分辨率(在综合数据集中>85%的外显子SNV被基因分型)。因为这些数据集还能够跨越非外显子区域,所以发明人检查了对所有变体(外显子和非外显子)基因分型的能。因此,当与单酶数据集进行比较时,多酶数据可能更适于基因分型和可能的单倍型分型或从头组装应用。
[0042] 基因组元件的捕获
[0043] 在方案中的下一步是捕获经扩增的Hi-C文库。捕获探针的实例包括Agilent SureSelectXT2v5捕获文库的那些,但是可以使用覆盖外显子或其他不连续区域的任何文库(例如,靶向含有限制性内切酶位点的外显子,或靶向目标序列附近的限制性内切酶位点,如外显子或调节子区域)。可以根据生产厂商的说明书进行杂交。
[0044] 在通常情况下,用于捕获靶基因组DNA片段的方法可以如下所示:(1)可以从生物样品中获得DNA;(2)可以通过各种方法将DNA片段化,包括机械、超声或酶促方法;(3)可以通过将DNA片段与互补的DNA和/或RNA探针或诱饵杂交选择性捕获靶DNA片段;(4)可以先将未与杂交探针结合的DNA片段洗去,而在下一个步骤中在适当条件下可以将与杂交探针结合的
[0045] DNA片段洗脱;以及(5)可以将所捕获的DNA用于下游应用。
[0046] 如果需要更大量的捕获DNA,则可以使用通用引物对进行聚合酶链式反应(PCR)对所捕获的DNA片段进行扩增。可以在步骤(2)或步骤(4)之后,将针对特定设计序列(也称为衔接头或索引衔接头)的通用DNA引物连接至所有DNA片段的5’-和3’-末端。或者,当通过例如负载转座酶的衔接头对所提取的DNA进行片段化时,可以在步骤(2)过程中连接衔接头。详细的程序可以参见例如Agilent Technologies,Inc.上市销售的SureSelect Target Enrichment SystemTM和US 20100029498。
[0047] 为了捕获DNA片段,在固体支持材料或者在液体溶液中进行DNA片段与互补的诱饵/探针的杂交。该捕获步骤(上文所述方法中的步骤3)对整个方法是至关重要的。捕获的特异性由杂交诱饵/探针的DNA或RNA序列决定。这些DNA和/或RNA诱饵/探针必须具有与目标生物样品基因组DNA中的目标区域精确互补的序列。捕获能力由在杂交中可以使用的不同探针的数量和长度共同决定。较长的探针需要较少的探针以覆盖用于捕获的相同DNA区域。捕获的灵活性由探针在固体支持材料产生并位于其上或者在液体溶液中混合所决定。这些杂交DNA和/或RNA诱饵应具有总体能力和灵活性,以选择性捕获所有目标基因组元件(如外显子或任意外显子的子集),或者任意其他基因组的所需区域和来自任何生物物种的其他形式的DNA。
[0048] 在一个实例中,可以使用750ng测序文库并将其浓缩至总体积3.4μl。然后,可以将其与6.6μl封闭寡核苷酸结合。可以使用的封闭寡核苷酸包括Agilent Technologies Inc.上市销售的那些或IDT xGen封闭寡核苷酸(0.3uL p5,0.3uL p7,取决于所使用的IlluminaTruSeq衔接头的集合)。随后,可以将其与杂交缓冲液和捕获探针文库结合并在65℃下杂交过夜。次日,可以根据生产厂商的说明书对文库进行充分洗涤。之后,可以将1μL最终的小珠结合文库进行1:1000的稀释并针对已知的标准品使用qPCR进行检测,以确定获得用于测序的足量材料所需的循环数。然后,可以在Illumina测序平台上对文库进行测序。
[0049] 可以用于实施本申请所公开的方法的基因组元件的实例包括已知的基因、外显子、内含子、非翻译区、蛋白质结构域编码序列、转录因子结合位点、启动子、增强子、沉默子、保守元件、miRNA编码序列、miRNA结合位点、剪接位点、剪接增强子、剪接沉默子、常见SNP、UTR调控基序、翻译后修饰位点、共同元件和定制的目标元件。基因组元件可以在目标基因组中是连续的或不连续的。本申请所公开的方法可以用于分析连续的基因组元件和不连续的基因组元件。在一个实例中,其在针对二倍体测序、基因分型、单倍型分型或定相以及基因型-表型研究中分析一组或多组不连续基因组元件是特别有用的。在一些实施方式中,实例包括一组或多组常见变体、癌症相关基因、孟德尔基因、免疫基因、稀有变体等。癌症相关基因的实例包括美国临床肿瘤学会(ASCO)的网站(www.cancer.net/navigating-cancer-care/cancer-basics/genetics/genetics-cancer)上所列的那些。免疫基因的实例包括在免疫基因组计划(ImmGen)的网站(www.immgen.org)上保存和所列的那些。
[0050] 本申请所述的方法不仅能够在单基因座水平(例如,HLA基因座),还能够在多基因座水平(例如,2、3、4、5、6、7、8、9、10、15、20、50、100个或更多个基因座)、在单染色体水平、在多染色体水平和在全基因组水平上对基因组元件进行分型和测序。因此,在优选的实施方式中,本申请公开的方法可以用于多基因座、不连续的基因组元件。在这种情况下,将来自至少一个完整染色体或来自对象完整基因组的大部分或全部目标基因组元件分型或测序。为此,杂交诱饵/探针具有与这些多基因座、不连续的基因组元件杂交的序列。
[0051] 单倍型分型和重构
[0052] 本申请所述方法的计算算法方面遵循与全-基因组HaploSeq类似的原理,详情参见Selvaraj等,Nat Biotechnol 31,1111-8(2013)和WO 2015010051,其全部内容通过引用并入本申请。为此,当HaploSeq读出支持其时,可以考虑将杂合变体作为图中的节点并且绘制节点之间的边缘。当数据没有错误时,该图简单地将母本和父本单倍型解卷积。然而,HaploSeq数据通常引入伪边缘,因此可以使用基于Maxcut的算法根据给定的HaploSeq数据预测可能的单倍型结构。该算法更宽泛方面的详情请参见Bansal等,Bioinformatics.2008Aug 15;24(16):i153-9,其全部内容通过引用并入本申请。
[0053] 一旦该算法定义了个体最有可能的单倍型结构(初始单倍型),就可以使用基于群体的连不平衡(LD)信息(例如来自1000个基因组项目)填充通过初始单倍型预测未能分辨的变体定相信息。将该步骤定义为局部条件性定相(LCP),参见Selvaraj等,Nat Biotechnol 31,1111-8(2013)。
[0054] 全-基因组HaploSeq与全-外显子组HaploSeq之间一个重要的差异是,在全-外显子组的情况下,杂合变体主要属于基因组的外显子区域。由于外显子仅占基因组的约1-2%并且随机分布在其基因组位置中,因此令人吃惊的和意外的是仅利用外显子变体就能够构建染色体跨距单倍型图,其随后可通过LCP增强。因此,可以将初始图形限制为含有来自大部分外显子的变体,而不是利用离子全-基因组HaploSeq数据的所有杂合变体。这降低了全-外显子组HaploSeq的成本并仍能够将其用于单倍型应用(如非侵入性产前诊断)。
[0055] 如上文所述,除了其他以外可以通过包括元件捕获的方法获得不连续元件序列读出(例如,针对外显子单倍型分型的外显子序列读出),随后对数据使用基于Maxcut的算法以获得单倍型结构。还可以直接使用所获得的基因组序列数据,而不需要进行捕获,如使用如Selvaraj等,Nat Biotechnol 31,1111-8(2013)和WO2015010051中所述的全-基因组HaploSeq产生的数据。为此,可以使用全-基因组HaploSeq数据(由配对末端测序读出表示),并且仅提取和保留配对末端数据至少一个末端中跨越所关注的那些基因组元件(如外显子变体)的数据。这个新的数据现在反映了全-外显子组HaploSeq。
[0056] 还可以使用本领域公知的隐马尔可夫模型(HMM)进行上文所述的组装,以获得单倍型结构。参见,例如,Browning等,Nature Reviews Genetics 12,703-714October 2011,US20140045705和US 20130316915。这些参考文献的全部内容通过引用并入本申请。
[0057] 在上文所述的方法中,可以构建跨所关注的基因组元件(如外显子)的杂合变体的图并确定该图是否具有足够的边缘(或读出)以便将所有变体连接成单一染色体跨距单倍型。这是由度量“完整性”所定义的。另一个度量“分辨率”定义了染色体跨距完整图中的变体数量。这另个度量使得能够评估单倍型重构或单倍型定相的性能。
[0058] 如下述实施例中所述的,可以改变几个参数,如读出长度(图3a-e)和测序纵深。总的来说,随着读出长度的增加(图3a-e),越来越少量的测序读出将足够产生具有高分辨率(20-60%,取决于读出长度和测序纵深)的完整染色体跨距单倍型。
[0059] 本申请所述的新策略使得能够将所有目标基因组元件(如外显子)连接并将其一起定相至单一染色体跨距单倍型。例如,使用该方法进行染色体量级全-外显子组单倍型分型,与常规HaploSeq方法相比取得了一些进展。首先,在DNA测序分析应用(如HaploSeq方法)中的主要成本因素是测序本身的成本。因为本申请所述的方法仅靶向外显子(基因组的1-2%),所以获得染色体跨距单倍型的成本可以降低20-30倍以上。其次,全-外显子组HaploSeq方法提供了最易解释的变体的信息——基因组中编码“外显子”及其附近区域的变体。而且,这种计算方法不仅可以用于如下述实施例中所述的单核苷酸变体(SNV),还可以用于其他类型的变体,如小的插入和结构改变,如插入、缺失、倒位和易位。这些因素使得HaploSeq变体是更有实用价值和可负担的变体并且开启了对于其的若干应用。
[0060] 用途和应用
[0061] 本申请公开的方法和试剂盒具有很多应用。
[0062] 在一些实例中,可以将其用于目标基因组元件的二倍体测序。二倍体测序可以进行基因分型、远程或全程单倍型分型、基因组元件的3D基因组分析(例如,外显子的3D构造)以及其他应用,如区分假基因组元件(例如,假外显子)、识别基因组元件中的结构变体(例如,外显子融合或基因融合等)。
[0063] 在其他实例中,可以将该方法和试剂盒用于这些目标基因组元件的染色体跨距单倍型分型。出于多种原因,在个体中获得单倍型是有用的。首先,越来越多地将单倍型作为检测疾病相关性的手段。此外,其在临床上用于在器官移植中预测供体-宿主的匹配结果方面是有用的。其次,在显示复合杂合性的基因中,单倍型提供有关两个有害变体是否位于相同或不同等位基因上的信息,这极大地影响了对这些变体的遗传是否是有害的预测。在复杂基因组(如人)中,复合杂合性可能参与了远离其调控的基因的非编码顺式调控位点的遗传或表观遗传变异,这突显了获得染色体跨距单倍型的重要性。第三,来自个体群体的单倍型提供了人口结构信息以及人类的进化史。最后,基因表达中普遍存在的等位基因失衡表明等位基因之间的遗传或表观遗传差异可能导致表达的数量差异。因此,了解单倍型的结构对于描述导致这些等位基因失衡的变体的机制以及对于推进个体化医疗是至关重要的。
[0064] 外显子组是由外显子形成的基因组的一部分,当转录时这些序列仍保留在由RNA剪接除去内含子的成熟RNA内。其由所有类型的细胞中转录至成熟RNA的所有DNA组成。人类基因组的外显子组大约由180,000个外显子组成,约占总基因组的1%,或者由约30兆个NDA碱基组成(Ng等,2009,Nature461(7261):272–276)。尽管仅包含了基因组中非常小的一部分,但是认为外显子组中的突变占对疾病具有较大影响的突变的85%(Choi等,2009,ProcNatlAcadSci U S A106(45):19096–19101)。外显子组单倍型对于确定很多遗传病况和病症的遗传基础是重要的。
[0065] 可以将染色体跨距单倍型用于非侵入性产前诊断(NIPD)和构建祖先。产生染色体跨距单倍型的常规方法是昂贵的,因为其需要进行全-基因组DNA测序,这是非常昂贵且耗时的,并且涉及单倍型定相。本申请公开的方法提供了一种替代方法,该方法能够靶向外显子并仍可获得染色体跨距单倍型。因此,本发明能够以更便宜和更实用的方式获得和使用染色体跨距单倍型。
[0066] 首先,非侵入性胎儿基因组测序需要母本单倍型信息(Kitzman等,Sci Transl Med 4,137ra76(2012))。在这一点上,母本单倍型越长,使用母本血浆对胎儿的测序就越准确。在理想情况下,产生染色体跨距母本单倍型将使得能够使用母本血浆对胎儿进行最准确的测序。通过在合理成本下产生染色体跨距单倍型,本申请公开的方法因此能够使用母本血浆进行最准确的胎儿测序。特别地,可以产生母本单倍型结构(由母本血样或其他来源),随后对母本血浆进行全-基因组测序,以反映全-基因组胎儿信息。或者,可以使用靶向方法(如对母本血浆进行外显子组测序)以获得胎儿的外显子组测序信息。在这一点上,甚至可以靶向来自母本血浆的一组可行的胎儿基因或编码区。无论对胎儿采用靶向法还是全-基因组法,母本基因组的染色体跨距单倍型均是一个关键的成本。因此,本申请公开的方法为使用母本血浆进行的大量靶向和全-外显子组测序机会提供了经济实惠的解决方案。
[0067] 其次,已发现较长的单倍型信息能够揭示人类较近的祖先(Schiffels等,Nat Genet 46,919-25(2014))。因此,通过对人群中的许多个体进行全-外显子组HaploSeq或对其他目标基因组元件进行类似的分型,能够破译人口结构以及最近的人类祖先信息(或谱系)。此外,祖先信息或人口结构还能够在疾病关联分析、药物基因组学和药物发现中提供大量信息。参见,例如Tewhey等,Nat Rev Genet 12,215-23(2011)。
[0068] 第三,单倍型信息可以帮助鉴定个体中的新生突变,因此本申请公开的方法也能够在这种情况下使用。
[0069] 器官移植也将从MHC和KIR基因座的单倍型中获益。然而,由于该基因座以外的基因可能在移植生物学中发挥作用,因而全-外显子组HaploSeq和对其他目标基因组元件进行类似的分型可能是有用的。
[0070] 除了全-外显子组HaploSeq应用以外,可以将全-外显子组邻近连接数据集用于很多其他应用,包括测序或基因分型、鉴定基因融合、外显子的重头定位、鉴定外显子结构变体以及了解外显子组的3D结构。例如,可以将邻近连接数据集用于确定基因组的框架,从而对基因组中一些未定义的区域进行定位(Kaplan等,Nat Biotechnol 31,1143-7(2013)和Burton等,Nat Biotechnol31,1119-25(2013))。以类似的方式,可以使用全-外显子组邻近连接数据集对基因组中未定义和未鉴定的外显子进行从头定位。因此,可以鉴定基因组中的外显子结构变体、外显子融合和其他结构变体。使用外显子的3D结构,还能够描绘基因/外显子的空间定位与其表达模式之间的关系-这是理解基因组功能调节的关键生物学问题。
[0071] 除了使用全-外显子组Haploseq数据进行单倍型定相以外,还可以将该数据用于基于外显子组的变体识别和基因分型目的。例如,发明人使用BWA Mem软件将HaploSeq数据与对照基因组进行比对,随后通过GATK流水线获得变体识别和基因型信息。而且,已证明Hi-C/HaploSeq数据能够用于基因组组装和用于更好地理解基因组的重复结构。类似地,因为全-外显子组HaploSeq揭示了外显子的三维信息,所以可以将其用于从头组装外显子、结构变异鉴定(如基因融合和易位)、单倍型定相以及基因分型。总之,本申请公开的成本降低的方法以及一系列广泛应用使得本发明的方法在基因组市场空间中具有明确的竞争优势。
[0072] 试剂盒
[0073] 本发明还提供了试剂盒,该试剂盒中含有用于进行上文所述方法的试剂。可以将这种试剂盒用于下述应用,包括但不限于:基因分型、单倍型分型、基因融合、外显子组的3D分析。为此,本申请公开方法的一种或多种反应组分可以以试剂盒的形式提供以供使用。在一个实施方式中,试剂盒包含固定剂,一种或多种限制性内切酶,连接酶,一组探针,所述探针与在一个或多个染色体中的不连续目标基因组元件的序列(如外显子序列)互补,并且使用亲和标签标记,以及能够与亲和标签结合的试剂。在其他实施方式中,试剂盒可以包含一种或多种其他反应组分。在这种试剂盒中,在一个或多个容器中提供适量的一种或多种反应组分,或者将其保持在基材上。
[0074] 试剂盒的其他组分的实例包括,但不限于,选自下组的一种或多种组分:细胞裂解缓冲液、一种或多种限制性酶反应缓冲液、杂交缓冲液、延伸核苷酸、DNA聚合酶、蛋白酶、衔接头、阻断寡核苷酸、RNAse抑制剂、用于测序的试剂、一种或多种细胞、PCR引物。试剂盒还可以包含一种或多种下述组分:支持、终止、修饰或消化试剂,渗透剂和用于检测的装置。在一些实施方式中,可以使用亲和标签对延伸核苷酸进行标记。
[0075] 可以以各种形式提供所使用的反应组分。例如,可以将组分(例如,酶、探针和/或引物)混悬在水溶液中或者将其作为冷冻干燥或冻干的粉末、颗粒或小珠。在后一种情况下,组分在复溶时形成用于测定的组分的完全混合物。可以在任意适宜的温度下提供本发明的试剂盒。例如,对于保存在液体中含有蛋白组分或其复合物的试剂盒而言,优选将其提供并保持在0℃以下,优选处于或低于-20℃,或者以其他方式使其处于冷冻状态。
[0076] 试剂盒可以以足以进行至少一次测定的量含有本申请所述组分的任意组合。在一些应用中,可以以预先测量的单次用量在单独的、通常是一次性的管或等效容器中提供一种或多种反应组分。在这样的安排下,可以通过将目标核酸或者含有目标核酸的样品或细胞直接加入单独的管中进行邻近连接测定。试剂盒中提供的组分的量可以是任意适宜的量并且可能取决于产品所针对的目标市场。在其中提供组分的容器可以是能够容纳所提供形式的任意常规容器,例如微量离心管、微量酶标板、安瓿、瓶或整体检测设备,如流体设备、药筒、侧流或其他类似设备。
[0077] 试剂盒还可以包含用于保持容器或容器的组合的包装材料。用于这种试剂盒和系统的典型包装材料包括固体基质(例如,玻璃、塑料、纸、箔、微粒等),其在多种构造(例如,在药瓶、微量酶标板的孔、微阵列等中)的任意一种中保持反应组分或检测探针。试剂盒还可以包含以有形形式记录组分的用途的说明书。
[0078] 定义
[0079] 如本申请所公开的,提供了多个范围的值。应当理解的是,除非上下文另外清楚地指出,在该范围的上限和下限之间的每个中间值至下限单位的十分之一也被具体公开。在所述范围内的任何规定值或中间值与该规定范围内的任何其他规定值或中间值之间的每个较小范围都包含在本发明内。这些较小范围的上限和下限可以独立地包括在该范围内或排除在该范围外,并且其中任一个、两个都不或两个限度都包括在较小范围内的每个范围也包括在本发明内,但其受到在所规定范围内任何明确排除限度的限制。在所述范围包括一个或两个限度的情况下,排除那些所包括的限度中的任一个或两个的范围也包括在本发明中。
[0080] 术语“约”通常指所述数值的正负10%。例如,“约10%”可以表示9%至11%的范围,以及“约1”可以表示从0.9-1.1。“约”的其他含义可以从上下文中明显看出,如四舍五入,例如约“约1”还可以表示从0.5至1.4。
[0081] 术语“生物样品”指从生物体(例如,患者)或从生物体的组分(例如,细胞)获得的样品。样品可以是任意生物组织、细胞或流体。样品可以是“临床样品”,其是来自对象的样品,如人患者。这种样品包括但不限于唾液、痰液、血液、血细胞(例如,白细胞)、羊水、血浆、精液、骨髓、和组织或细针活检样品、尿液,腹膜液和胸膜液或来自其的细胞。生物样品还可以包括组织切片,如为了组织学目的而取得的冻切片。生物样品还可以包括基本上纯化或分离的蛋白、膜制品或细胞培养物。
[0082] “核酸”指DNA分子(例如,基因组DNA)、RNA分子(例如,mRNA)或者DNA或RNA类似物。可以从核苷酸类似物合成DNA或RNA类似物。核酸分子可以是单链的或双链的,但是优选是双链DNA。
[0083] 术语“标记的核苷酸”或“标记的碱基”指与标记物或标签连接的核苷酸碱基,其中标记或标签包含对配体具有独特亲和性的特定部分。或者,结合伴侣可以对标记物或标签具有亲和性。在一些实例中,标记物包括但不限于生物素、组酸标记物(即,6His)或FLAG标记物。例如,可以将dATP-生物素认为是标记的核苷酸。在一些实例中,片段化的核酸序列可以使用标记的核苷酸进行平端化(blunting),接着进行平端连接。如在本申请中所使用的,术语“标记”或“可检测的标记”指任意组合物,其可以通过光谱、光化学、生物化学、免疫化学、电学、光学或化学手段检测。这样的标记包括用于用标记的抗生素蛋白链菌素缀合物显色的生物素、磁珠(例如,DynabeadsTM)、荧光染料(例如,荧光素、德克萨斯红、罗丹明、绿色荧光蛋白等)、放射性标记(例如,3H、125I、35S、14C或32P)、酶(例如,辣根过氧化物酶、碱性磷酸酶以及其他通常用于ELISA中的酶)和量热标记,如胶体金或有色玻璃或塑料(例如,聚苯乙烯、聚丙烯、乳胶等)小珠。本发明中涉及的标记可以通过多种方法检测或分离。
[0084] 在本申请中“亲和结合分子”或“特异性结合对”指在称为结合条件的某些条件下彼此之间具有亲和性并结合的两个分子。生物素和抗生物素蛋白链菌素(或抗生物素蛋白)是“特异性结合对”的实例,但是本发明不限于使用该特定的特异性结合对。在本发明的多个实施方式中,将特定特异性结合对的一个成员称为“亲和标签分子”或“亲和标记”,将另一个称为“亲和-标签-结合分子”或“亲和标签结合分子”。各种各样其他的特异性结合对或亲和结合分子(包括亲和标签分子和亲和-标签-结合分子)是本领域公知的(例如,参见美国专利号6,562,575)并且可以在本发明中使用。例如,抗原和抗体(包括与抗原结合的单克隆抗体)是特异性的结合对。而且,可以将抗体和抗体结合蛋白(如金黄色葡萄球菌蛋白A)作为特异性结合对使用。特异性结合对的其他实例包括但不限于与凝集素特异性结合的水化合物部分和凝集素;激素和激素受体;以及酶和酶抑制剂。
[0085] 如在本申请中所使用的,术语“寡核苷酸”指短的多核苷酸,其长度通常小于或等于300个核苷酸(例如,长度在5至150个核苷酸的范围内,优选地在10至100个核苷酸的范围内,更优选地在15至50个核苷酸的范围内)。然而,如在本申请中所使用的,该术语还旨在包括更长或更短的多核苷酸链。“寡核苷酸”可以与其他多核苷酸杂交,从而作为用于多核苷酸检测的探针,或多核苷酸链延伸的引物。
[0086] “延伸核苷酸”指在扩增过程中能够掺入延伸产物的任意核苷酸,即DNA、RNA或衍生物(如果是DNA或RNA,可以包含标签)。
[0087] 如在本申请中所使用的术语“染色体”指天然存在的核酸序列,其包含一系列称为基因的功能区域,其通常编码蛋白。其他功能区域可以包括微RNA或长的非编码RNA,或者其他调控元件。这些蛋白可以具有生物功能或者其直接与相同的或其他染色体相互作用(即,例如,调控染色体)。
[0088] 术语“基因组元件”指目标基因组核酸序列。在通常情况下,这样的元件包括确定的序列或与确定的序列(例如,探针)基本上同源的序列,基本上同源的指在所使用的杂交条件下足以允许与目标元件杂交的程度。如在本申请中所使用的,序列“基本上同源的”指核酸序列是相同的或彼此之间具有非常高的同源性,例如至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或
99%的同源性,并且存在于相同的基因组中。
[0089] 术语“基因组”指具有其所包含的基因的任何一组染色体。例如,基因组可以包括但不限于真核生物基因组和原核生物基因组。术语“基因组区域”或“区域”指任意确定长度的基因组和/或染色体组。或者,基因组区域可以指完全染色体或部分染色体。此外,基因组区域可以指染色体上的特定核酸序列(即,例如,开放阅读框架和/或调控基因)。
[0090] 如在本申请中所使用的,术语“调控元件”指影响另一种基因组元件活性状态的任意核酸序列。实例包括但不限于启动子、增强子、阻遏物、绝缘子、边界元件、DNA复制起点、端粒和/或着丝粒。
[0091] 如在本申请中所使用的,术语“调控基因”指编码蛋白的任意核酸序列,其中蛋白与相同或不同的核酸序列结合,从而调节转录速率或以其他方式影响相同或不同核酸序列的表达水平。
[0092] 将核苷酸的“变体”定义为与对照核苷酸的不同之处在于具有缺失、插入和取代的核苷酸序列。可以使用多种方法(例如,测序、杂交测定等)对这些进行检测。
[0093] 术语“片段”指比衍生其的序列短的任意核酸序列。片段可以是任意尺寸,范围从几百万碱基和/或几千碱基到仅有几个核苷酸长。实验条件可以决定预期的片段尺寸,包括但不限于限制性内切酶消化、超声、酸孵育、碱孵育、微流化等。
[0094] 术语“片段化”指任意过程或方法,通过所述过程或方法化合物或组合物被分离成较小的单元。例如,分离可以包括但不限于酶促裂解(即,例如,转座酶介导的片段化,作用于核酸的限制性内切酶或作用于蛋白的蛋白酶)、碱水解、酸水解或热诱导的热脱稳定化。
[0095] 术语“固定”、“固定化”或“固定的”指固化任意和所有细胞过程的任意方法或过程。因此,固定的细胞在固定的时候准确保持了细胞内组分之间的空间关系。很多化学物质能够提供固定,包括但不限于甲醛、福尔马林或戊二醛。
[0096] 术语“交联”指两个化合物之间任何稳定的化学关联,以使得其作为一个单元被进一步处理。这种稳定性可以基于共价和/或非共价键合。例如,核酸和/或蛋白可以通过化学试剂(即,例如,固定剂)交联,以使得其在常规的实验程序(即,例如,提取、洗涤、离心等)中保持其空间关系。
[0097] 如在本申请中所使用的,术语“连接的”指两个核酸序列之间的任意连接,其通常包含磷酸二酯键。连接通常在辅因子试剂和能量来源(即,例如,三磷酸腺苷(ATP))的存在下,通过催化酶(即,例如,连接酶)的存在而促进。
[0098] 术语“限制性内切酶”指在特定的碱基对序列裂解核酸的任意蛋白。
[0099] 如在本申请中所使用的,“诱饵”或“探针”序列指与目标靶核酸互补的合成的长的寡核苷酸或来自(例如,使用其生产)合成的长的寡核苷酸的寡核苷酸。在某些实施方式中,诱饵序列组来自在微阵列中合成的以及由微阵列裂解或洗脱的寡核苷酸。在其他实施方式中,诱饵序列通过使用核酸扩增方法生产,例如使用人DNA或混合的人DNA样品作为模板。
[0100] 诱饵序列优选是长度为约70个核苷酸至1000个核苷酸之间的寡核苷酸,更优选地是长度约100个核苷酸至300个核苷酸之间,更优选地是长度约130个核苷酸至230个核苷酸之间以及甚至更优选地是长度约150个核苷酸至200个核苷酸之间。为了选择外显子和其他短靶点,优选的诱饵序列的长度可以是约40至1000个寡核苷酸,例如100至约300个核苷酸,更优选地约130至约230个核苷酸以及甚至更优选地约150至约200个核苷酸。为了选择比捕获诱饵的长度更长的靶点(如基因组区域),优选的诱饵序列长度通常与针对上文所述短靶点的诱饵具有相同的尺寸范围,但是不需要限制最大尺寸的诱饵序列仅用于靶向邻近序列的目的除外。制备用于诱饵序列的较长寡核苷酸的方法是本领域熟知的。
[0101] 在一些实施方式中,在诱饵序列组中的诱饵序列可以是RNA分子。优选地将RNA分子作为诱饵序列,因为RNA-DNA双螺旋比DNA-DNA双螺旋更加稳定,因此提供了潜在更好的捕获核酸。可以使用本领域公知的任意方法合成RNA诱饵序列,包括体外转录。如果使用生物素化的UTP合成RNA,则产生单链生物素标记的RNA诱饵分子。在优选的实施方式中,RNA诱饵仅对应于双链DNA靶点的一条链。本领域技术人员将意识到,这种RNA诱饵不会自身互补的,因此能够更有效地驱动杂交。在某些实施方式中,合成具有RNase抗性的RNA分子。这种分子及其合成是本领域熟知的。
[0102] 如在本申请中所使用的,术语“杂交”或“结合”指将多核苷酸链互补(包括部分互补)配对。杂交和杂交强度(例如,多核苷酸链之间的结合强度)受到本领域熟知的多种因素的影响,包括多核苷酸之间的互补程度、所涉及条件的严格程度(如盐浓度)、所形成杂交体的解链温度(Tm)、其他组分的存在情况、杂交链的摩尔浓度以及多核苷酸链的G:C含量。当提到一个多核苷酸与另一个多核苷酸“杂交”时,则意味着在两个多核苷酸之间存在一些互补或者两个多核苷酸在高严格条件下形成杂交体。当提到一个多核苷酸不与另一个多核苷酸杂交时,则意味着在两个核苷酸之间不具有序列互补或者两个多核苷酸在高严格条件下不形成杂交体。
[0103] 术语“抗体”指响应于免疫原(抗原)在动物中产生的免疫球蛋白。抗体对免疫原中所含的表位具有特异性是理想的。术语“多克隆抗体”指由一个以上克隆的浆细胞产生的免疫球蛋白;而相反的是,“单克隆抗体”指由单克隆的浆细胞产生的免疫球蛋白。
[0104] 当涉及任意化合物与核酸或肽的相互作用时使用术语“特异性结合”或“特异性地结合”,其中相互作用取决于所存在的特定结构(即,例如,抗原决定簇或表位)。例如,如果抗体针对抗原“A”是特异性的,则在含有标记的“A”的反应中存在含有表位A(或者游离的、未标记的A)的蛋白并且抗体将减少与抗体结合的标记的A的量。
[0105] 实施例
[0106] 实施例1
[0107] 在这个实施例中,考察了使用从模拟的基因组邻近连接测定(如TCC或Hi-C或原位Hi-C)获得的数据集是否能够实现全-外显子组单倍型定相。更特别地,为了显示全-外显子组单倍型定相是可行的,从对GM12878细胞的1号染色体进行Hi-C全-外显子组邻近连接实验获得数据。然后,保留在两条序列读出对的至少一条含有外显子区域的片段。因此,该数据集代表模拟的全-外显子组邻近连接数据集。
[0108] 然后使用上文所述的算法模拟数据并将模拟数据用于检验其将外显子SNV定相至单一单倍型结构的能力。为此,定义了两个度量标准——完整性和分辨率,将完整性定义为与染色体的长度相比单倍型区块的长度,将分辨率定义为在染色体中被定相的外显子变体的分数。发现无论所选择的读出长度如何,均能够获得完整的单倍型,更长的读出长度有助于产生分辨率更高的单倍型,例如250bp配对末端。
[0109] 如图3a-e中所示,无论所选择的测序读出长度如何,均能够成功产生染色体跨距完整单倍型(图3a-e)。这些模拟结果还表明读出长度越长产生的单倍型的分辨率越高(根据所定相的外显子变体分数所测量的),因此全-外显子组HaploSeq是更优选的(图3e)。这些结果表明可以将来自全-基因组邻近连接的数据用于使用本发明中公开的方法产生染色体跨距单倍型。
[0110] 实施例2
[0111] 在这个实施例中,考察了使用从外显子组捕获邻近连接获得的真实数据集是否能够实现全-外显子组单倍型定相。
[0112] 更特别地,使用来自GM12878细胞的邻近连接数据进行外显子组捕获,随后使用上文所述的方法进行测序。针对片段长度、阻断引物和寡核苷酸探针结合对外显子组捕获方案进行了内部优化。如图4中所示,产生了三个全-外显子组邻近连接文库。这些文库中的两个使用了单酶(NcoI或XbaI),而第三个使用6碱基切割酶混合物(HindIII、NcoI、XbaI和BamHI,标记为“多酶”)产生。捕获和测序后,发现这些文库具有明确的外显子序列富集作用(图4b)。然后对其进行测序,针对每个文库产生约5-7千万个读出对(图4b)。
[0113] 首先使用这些数据集显示全-外显子组邻近连接测定测序或基因分型的能力。为此,发明人能够单独地从这些数据集的每一个中鉴定出~60-65%的外显子变体。有趣的是,尽管仅具有测序读出纵深的一半,但是多酶数据集(图c-i)比NcoI数据集(图4c(i))基因分型产生了更多变体。图4c(ii)-(iv)显示了来自NcoI(ii)、多酶(iii)和综合数据集(iv)的全-基因组基因分型结果。这些结果表明当与单酶数据集比较时多酶数据对于基因分型和潜在的单倍型分型或从头组装应用可能更有用处。
[0114] 通过将这三个数据集合并在一起,鉴定了85%以上的变体(图4c-i)。为了检验所鉴定变体的准确度,将基因分型结果与此前对GM12878细胞鉴定的基因分型结果进行了比较(International HapMap,C.等,Nature 449,851-61(2007)和Genomes Project,C.等,A map of human genome variation from population-scale sequencing.Nature 467,1061-73(2010))。结果表明对于纯合子和杂合子变体识别而言,本发明方法的准确度是非常高的——对于杂合子>99%和对于纯合子>95%。尽管来自全-外显子组邻近连接文库的大部分数据趋向于占据外显子,但是有显著的比例可以靶向与外显子区域在空间上接近的非外显子区域。利用这一点,发明人将基因组中所有变体(外显子和非外显子)的52%进行了基因分型(图4c-ii-iv)。该结果表明全-外显子组HaploSeq数据集能够产生高准确度的外显子以及进行全-基因组基因分型或测序。
[0115] 接下来,使用综合数据集对全-外显子组邻近连接测定单倍型分型的能力进行了验证。为此,基于数据构建了将外显子作为边缘并连接外显子的图。然后,如通过数据中的外显子连接所预测的那样,使用基于maxcut的算法构建最佳可能的外显子定相。使用这种策略,定相成功分辨了50%以上的所有变体(SNV),更重要的是分辨率>65%的外显子变体(图5a)。尽管对>50%的变体(或65%的外显子变体)进行了定相,但是这些变体可能不属于相同的单倍型区块。特别地,可以在多个单倍体区块中对变体进行定向,这导致了“不完全”定相。为了验证产生完全染色体跨距单倍型的能力,仅考虑来自最长的单倍型——所定相的最大变体(MVP)区块的结果(图5b)。
[0116] 结果表明,针对大部分染色体(特别是较小的染色体,如15-22号染色体)能够成功产生染色体跨距单倍型。对于较小的染色体而言,该方法趋向于将大部分染色体(50-70%)的变体定相至单一单倍体区块。如果仅考虑外显子变体,则相同的结果仍然成立(图5b-橙色)。为此,尽管在任何单倍型区块中将65%的外显子变体进行了定相,但是平均~20%的外显子变体属于MVP区块。这表明对于很多染色体而言,染色体跨距完整单倍型能够以~20%的分辨率成功产生。而且,通过将单倍型鉴定结果与此前从GM12878细胞鉴定的单倍型识别(International HapMap,C.等,Nature 449,851-61(2007)和Genomes Project,C.等,Amap of human genome variation from population-scale sequencing.Nature 467,
1061-73(2010))进行比较发现,准确度平均~97%。
[0117] 尽管在图5a中所示的部分描述了在所有单倍型区块中的定相结果,但是最有用的一个是具有所定相的最大变体(即,MVP)的区块。在此前的HaploSeq中,MVP区块是染色体跨距以及定相了大部分变体(>80%)。在这里的全-外显子组HaploSeq,对于大部分染色体(特别是小染色体)而言,MVP区块(图5b)是染色体跨距单倍型。因为仅对于限制性内切酶的酶切位点匹配的外显子区域具有靶向性,所以在MVP区块的分辨率在更低的一侧。为此,达到了非常高的准确度。图5b(第2-4列)中的橙色部分描述了基于所有SNV的MVP度量,而绿色部分(第5-7列)描述了基于外显子SNV的MVP度量。与预期的一致,这两个定义的准确度和完整性是相似的,外显子SNV的分辨率更高。
[0118] 总之,上述结果表明使用全-外显子组邻近连接测定能够产生全面的和准确的基因型并且可以将这些数据集用于产生针对染色体的完整染色体跨距准确的单倍型。
[0119] 实施例3
[0120] 在这个实施例中,进行测定以考察根据所覆盖和定相的碱基数所选择的限制性内切酶的作用。简言之,使用上文所述的外显子组测序方案和全-外显子组Haploseq方法产生三个文库。为此,使用NcoI(6-碱基切割酶)和DpnI(4-碱基切割酶)。结果如图6中所示。结果表明,当测序的每个文库的平均覆盖为44x时,在全外显子组测序样品中在>10x时覆盖了96%的碱基。然而,如果使用6-碱基切割,在等于或大于10x时,仅覆盖了约30%的碱基。在使用4-碱基切割酶的情况下,其提高至50%。这些结果再次表明与单酶数据集相比多酶数据对于基因分型和潜在的单倍型分型或从头组装应用可能更有用处。
[0121] 应当认为前述实施例和对优选实施方式的描述是说明性的,而不是用于限制由权利要求所定义的本发明。将容易理解的是,在不脱离如权利要求中所示的本发明的前提下,可以利用上述特征的众多变化和组合。这些变化不被认为是脱离了本发明的范围,并且所有的此类变化均旨在包括在下述权利要求的范围内。本申请中引用的所有参考文献的全部内容均通过引用并入本申请。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈