首页 / 专利库 / 热处理 / 脱碳退火 / 构建核酸文库的方法和试剂盒

构建核酸文库的方法和试剂

阅读:183发布:2021-11-21

专利汇可以提供构建核酸文库的方法和试剂专利检索,专利查询,专利分析的服务。并且公开了一种用于构建 条形码 化的单链DNA文库的方法和 试剂 盒 。该方法包括制备单链DNA分子,它们每一个具有去磷 酸化 的5’末端;将第一衔接子连接至每个单链DNA分子的3’末端;以及合成连接至第一衔接子的第一链的每个单链DNA分子的互补链。该试剂盒包括具有第一链的第一衔接子,其从5’末端到3’末端包括 磷酸 基团、条形码序列和第一引物识别序列。该试剂盒还包括DNA连接酶,其用于在第一衔接子的第一链的5’末端与每个单链DNA分子之间进行连接,以及第一引物,其用于合成互补链的。该方法使得能够和从低 质量 和低数量的核酸样品中分析稀有突变。,下面是构建核酸文库的方法和试剂专利的具体信息内容。

1.一种从含多个核酸序列的生物样品中构建DNA文库的方法,包括:
由所述生物样品制备DNA样品,其中,所述DNA样品包括多个单链DNA分子,每个单链DNA分子具有去磷酸化的5’末端;
将第一衔接子的第一链与所述多个单链DNA分子中的每一个的3’末端连接,其中,所述第一衔接子的第一链沿自其5’末端至其3’末端的方向包括磷酸基团、条形码序列和第一引物识别序列;以及
针对连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个合成互补链以获得与其对应的条形码化的双链DNA分子。
2.根据权利要求1所述的方法,其中,在所述将第一衔接子的第一链与所述多个单链DNA分子中的每一个的3’末端连接中,所述条形码序列的长度为2-16nt。
3.根据权利要求1所述的方法,其中,所述生物样品中的所述多个核酸序列包括多个DNA序列,并且所述由所述生物样品制备DNA样品包括:
进行去磷酸化反应和解离反应以获得多个单链DNA分子,每个单链DNA分子具有去磷酸化的5’末端。
4.根据权利要求3所述的方法,其中,所述进行去磷酸反应和解离反应包括至少一个以下循环:
进行去磷酸反应;以及
进行解离反应。
5.根据权利要求3所述的方法,其中,所述进行去磷酸反应和解离反应包括至少一个以下循环:
进行解离反应;以及
进行去磷酸反应。
6.根据权利要求3所述的方法,其中,在所述进行去磷酸反应和解离反应之前,所述由所述生物样品制备DNA样品进一步包括:
将所述多个DNA序列剪切成多个DNA片段
7.根据权利要求6的方法,其中,所述多个DNA片段中的每一个大小为约100-300bp。
8.根据权利要求7所述的方法,其中,所述多个DNA片段中的每一个大小为约150bp。
9.根据权利要求1所述的方法,其中,所述生物样品中的所述多个核酸序列包括多个RNA序列,并且所述由所述生物样品制备DNA样品包括:
处理所述生物样品从而获得多个cDNA分子,每个cDNA分子对应于多个RNA分子之一。
10.根据权利要求9所述的方法,其中,所述处理所述生物样品从而获得多个cDNA分子包括:
使用oligo(dT)作为引物进行逆转录以获得对应于所述多个RNA分子中的每一个的cDNA序列。
11.根据权利要求10所述的方法,其中,在所述使用oligo(dT)作为引物进行逆转录以获得对应于所述多个RNA分子中的每一个的cDNA序列之前,所述处理所述生物样品从而获得多个cDNA分子进一步包括:
在所述多个RNA分子的每一个的3’末端进行聚腺苷酸化。
12.根据权利要求9所述的方法,其中,所述处理所述生物样品从而获得多个cDNA分子的步骤包括:
使用随机引物或序列特异性引物进行逆转录以获得对应于所述多个RNA分子中的每一个的cDNA序列。
13.根据权利要求1所述的方法,其中,所述第一衔接子在其第一链的5’末端包括单链段,并且所述将第一衔接子的第一链与所述多个单链DNA分子中的每一个的3’末端连接包括:
通过单链DNA连接酶进行连接反应,以便将所述多个单链DNA分子中的每一个的3’末端连接至所述第一衔接子的第一链的5’末端。
14.根据权利要求13所述的方法,其中,所述单链DNA连接酶包括CircLigase I或CircLigase II中的至少一种。
15.根据权利要求1所述的方法,其中,所述第一衔接子进一步包括第二链,所述第二链包括在其5’末端的第一部分和在其3’末端的第二部分,其中,所述第二链的第一部分长度为至少1nt并与所述第一链的5’末端形成双链成对物,而所述第二部分长度为至少1nt并在所述第一衔接子中形成单链突出端,并且将所述第一衔接子的第一链的5’末端与所述多个单链DNA分子中的每一个的3’末端连接包括:
通过绷带链促进的DNA连接酶进行连接反应,以便将所述多个单链DNA分子中的每一个的3’末端与所述第一衔接子的第一链的5’末端连接。
16.根据权利要求15所述的方法,其中,所述第二部分的长度为4-10nt。
17.根据权利要求16所述的方法,其中,所述第一衔接子包括一组衔接子,每个衔接子配置为使得其第二链的第二部分包含随机序列。
18.根据权利要求16所述的方法,其中,所述第一衔接子包括一个或更多个衔接子,每个衔接子配置为使得其第二链的第二部分包含特定序列。
19.根据权利要求15所述的方法,其中,所述第一部分的长度为8-18nt。
20.根据权利要求15所述的方法,其中,所述绷带链促进的DNA连接酶包括T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶或Taq DNA连接酶中的至少一种。
21.根据权利要求1所述的方法,其中,所述第一衔接子的第一链进一步包括索引序列,其中:
所述索引序列在所述磷酸基团与所述条形码序列之间,或在所述条形码序列与所述第一引物识别序列之间;并且
所述索引序列配置成为连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个提供索引信息。
22.根据权利要求21所述的方法,其中,所述索引序列的长度为1-8nt。
23.根据权利要求1所述的方法,其中,所述第一衔接子的第一链进一步包含分隔子序列,其中:
所述分隔子序列位于所述磷酸基团与所述条形码序列之间,并配置为用作所述条形码序列与连接至所述第一衔接子的第一链的多个单链DNA分子中的每一个之间的分隔标记物。
24.根据权利要求23所述的方法,其中,所述分隔子序列的长度为约2-16nt。
25.根据权利要求23所述的方法,其中,所述分隔子序列进一步配置成为连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个提供索引信息。
26.根据权利要求1所述的方法,其中,所述针对连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个合成互补链以获得与其对应的条形码化的双链DNA分子包括:
使第一引物与连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个退火,其中,所述第一引物包含与所述第一衔接子的第一链中的第一引物识别序列互补的序列;以及
进行单链延伸反应以针对连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个形成双链DNA分子。
27.根据权利要求26所述的方法,其中,所述使第一引物与连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个退火包括:
缓慢地将反应温度从原始温度改变为所述单链延伸反应的工作温度
28.根据权利要求27所述的方法,其中,所述第一引物的Tm为约30-35℃,并且所述缓慢地将反应温度从原始温度改变为单链延伸反应的工作温度包括:
以不超过每分钟~1℃的速率将温度从不超过15℃的原始温度提高到所述单链延伸反应的工作温度。
29.根据权利要求28所述的方法,其中,所述第一引物具有如SEQ ID NO:914所示的序列。
30.根据权利要求26所述的方法,其中,所述针对连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个合成互补链以获得与其对应的条形码化的双链DNA分子进一步包括:
对连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个对应的所述双链DNA分子进行平末端修复。
31.根据权利要求30所述的方法,其中,所述平末端修复是通过T4 DNA聚合酶、Klenow片段或T4多核苷酸激酶中的至少一种进行的。
32.根据权利要求1所述的方法,其中,所述第一衔接子的第一链在其3’末端进一步包括固定部分,所述固定部分配置为能够形成与固体载体的稳定偶联,并且所述方法在将第一衔接子的第一链与所述多个单链DNA分子中的每一个的3’末端连接,与针对连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个合成互补链以获得与其对应的条形码化的双链DNA分子之间,进一步包括:
通过所述固定部分与所述固体载体之间的所述稳定偶联,将连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个固定至固体载体。
33.根据权利要求32所述的方法,其中,所述固定部分包括第一偶联伴侣,所述第一偶联伴侣配置为能够稳定地结合至附着于所述固体载体的第二偶联伴侣。
34.根据权利要求33所述的方法,其中,所述第一偶联伴侣包括生物素部分,所述第二偶联伴侣包括链霉亲和素部分、亲和素部分或抗生物素抗体中的至少一种。
35.根据权利要求34所述的方法,其中,所述第二偶联伴侣包括链霉亲和素部分,并且所述固体载体包括磁珠过滤器树脂珠、纳米球、塑料表面、微量滴定板、玻璃表面、载玻片、膜或基质中的至少一种。
36.根据权利要求35所述的方法,其中,所述固体载体包括磁珠。
37.根据权利要求32所述的方法,在针对连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个合成互补链以获得与其对应的条形码化的双链DNA分子之后,进一步包括:
将第二衔接子连接至所述双链DNA分子的游离端,所述双链DNA分子对应于在其固定端固定至所述固体载体上的所述多个单链DNA分子中的每一个,其中,所述第二衔接子包含第三链和第四链,其中:
所述第四链包括:
第二引物识别序列,所述第二引物识别序列配置为提供用于扩增对应于所述多个单链DNA分子中的每一个的双链DNA分子的引物位点;和
在其5’末端的磷酸基团;
并且
所述第三链包括与所述第四链的5’-末端序列互补的序列,并配置为与所述第四链的
5’-末端序列形成成对物,从而确保其稳定性
38.根据权利要求37所述的方法,进一步包括:
进行PCR反应,从而扩增对应于所述多个单链DNA分子中的每一个的所述双链DNA分子。
39.根据权利要求38所述的方法,在将第二衔接子连接至所述双链DNA分子的游离端,所述双链DNA分子对应于在其固定端固定至所述固体载体上的所述多个单链DNA分子中的每一个,与对所述多个单链DNA分子中的每一个进行PCR扩增之间,进一步包括:
从所述固体载体洗脱所述双链DNA分子,所述双链DNA分子对应于所述多个单链DNA分子中的每一个。
40.一种用于利用权利要求1-33任一项中所述的方法从含多个核酸序列的生物样品中构建DNA文库的试剂盒,包括:
第一衔接子,所述第一衔接子具有第一链,所述第一链在从其5’末端至其3’末端的方向上包括磷酸基团、条形码序列和第一引物识别序列,其中,所述条形码序列配置成为连接至所述第一衔接子的第一链的多个单链DNA分子中的每一个提供条形码信息;
DNA连接酶,所述DNA连接酶配置为使得在所述第一衔接子的第一链的5’末端与所述多个单链DNA分子中的每一个的3’末端之间能够连接,其中,所述多个单链DNA分子中的每一个对应于所述生物样品中的多个核酸序列之一;和
第一引物,所述第一引物包括与所述第一衔接子的第一引物识别序列互补的序列,并配置为使得能够进行单链延伸反应,从而形成双链DNA分子,所述双链DNA分子对应于连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个。
41.根据权利要求40所述的试剂盒,其中,所述条形码序列的长度为约2-16nt。
42.根据权利要求40所述的试剂盒,其中,所述第一引物的Tm为约30-35℃。
43.根据权利要求42所述的试剂盒,其中,所述第一引物包含如SEQ ID NO:914所示的序列。
44.根据权利要求40所述的试剂盒,进一步包括固体载体,其中,所述第一衔接子的第一链在其3’末端进一步包括固定部分,所述固定部分配置为使得能够将所述多个单链DNA分子中的每一个至所述固体载体,所述多个单链DNA分子中的每一个在第一衔接子的第一链5’末端与所述第一衔接子的第一链连接。
45.根据权利要求44所述的试剂盒,其中,所述固定部分包括第一偶联伴侣,所述第一偶联伴侣配置为能够与附着至所述固体载体的第二偶联伴侣形成稳定偶联。
46.根据权利要求45所述的试剂盒,其中,所述第一偶联伴侣与所述第二偶联伴侣之间的稳定偶联是非共价结合。
47.根据权利要求46所述的试剂盒,其中,所述第一偶联伴侣和所述第二偶联伴侣分别是选自生物素-链霉亲和素对、生物素-亲和素对、生物素-抗生物素抗体对、化合物-凝集素对或抗原-抗体对中的偶联对的一个和另一个。
48.根据权利要求47所述的试剂盒,其中,所述第一偶联伴侣包括生物素部分,而所述第二偶联伴侣包括附着至磁珠的链霉亲和素部分。
49.根据权利要求44所述的试剂盒,其中,所述固定部分进一步包括在所述第一引物识别序列与所述第一偶联伴侣之间的间隔子。
50.根据权利要求49所述的试剂盒,其中,所述间隔子包括至少一个C3间隔子单元。
51.权利要求40的试剂盒,其中,所述第一衔接子的第一链进一步包括索引序列,其中:
所述索引序列在所述磷酸基团与所述条形码序列之间,或在所述条形码序列与所述第一引物识别序列之间;并且
所述索引序列配置成为连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个提供索引信息。
52.根据权利要求51所述的试剂盒,其中,所述索引序列的长度为1-8nt。
53.根据权利要求40所述的试剂盒,其中,所述第一衔接子的第一链进一步包括分隔子序列,其中:
所述分隔子序列位于所述磷酸基团与所述条形码序列之间,并配置为用作所述条形码序列与连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个之间的分隔标记物。
54.权利要求53的试剂盒,其中,所述分隔子序列的长度为约2-16nt。
55.权利要求53所述的试剂盒,其中,所述分隔子序列进一步配置成为连接至所述第一衔接子的第一链的所述多个单链DNA分子中的每一个提供索引信息。
56.权利要求40所述的试剂盒,其中,所述第一衔接子是单链的,并且所述DNA连接酶包括单链DNA连接酶。
57.权利要求56所述的试剂盒,其中,所述单链DNA连接酶包括CircLigase I或CircLigase II中的至少一种。
58.权利要求40所述的试剂盒,其中,所述第一衔接子是部分双链的。
59.权利要求58所述的试剂盒,其中:
所述第一衔接子在所述第一链的5’末端包括单链段;并且
所述DNA连接酶包括单链DNA连接酶。
60.权利要求58所述的试剂盒,其中:
所述第一衔接子进一步包括第二链,所述第二链包括在其5’末端的第一部分和在其3’末端的第二部分,其中,所述第二链的第一部分与所述第一链的5’末端形成双链成对物,并且所述第二部分在所述第一衔接子中形成单链突出端;并且
所述DNA连接酶包括绷带链促进的DNA连接酶。
61.权利要求60所述的试剂盒,其中,所述第二部分的长度为4-10nt。
62.权利要求61所述的试剂盒,其中,所述第一衔接子包括一组衔接子,每个衔接子配置为使得其第二链的第二部分包含随机序列。
63.权利要求61所述的试剂盒,其中,所述第一衔接子包括一个或更多个衔接子,每个衔接子配置为使得其第二链的第二部分包含特定序列。
64.权利要求60所述的试剂盒,其中,所述第一部分的长度为8-18nt。
65.权利要求60所述的试剂盒,其中,所述绷带链促进的DNA连接酶包括T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶或Taq连接酶中的至少一种。
66.权利要求44的试剂盒,进一步包括第二衔接子,所述第二衔接子配置为连接至所述双链DNA分子的游离端,所述双链DNA分子对应于在其固定端固定至所述固体载体上的所述多个单链DNA分子中的每一个,其中,所述第二衔接子包括第三链和第四链,其中:
所述第四链包括:
第二引物识别序列,所述第二引物识别序列配置为提供用于扩增对应于所述多个单链DNA分子中的每一个的双链DNA分子的引物位点;和
在其5’末端的磷酸基团;
并且
所述第三链包括与所述第四链的5’-末端序列互补的序列,并配置为与所述第四链的
5’-末端序列形成成对物,从而确保其稳定性。
67.权利要求66所述的试剂盒,其中,所述第四链在所述第二引物识别序列的5’末端进一步包括至少一种功能序列。
68.权利要求67所述的试剂盒,其中,所述至少一种功能序列包括第二索引序列,或第二条形码序列,或测序引物序列中的至少一种。
69.权利要求66所述的试剂盒,其中,所述第三链在其5’末端进一步包含以下项中至少一种:
帽结构,所述帽结构包括与所述第四链的3’-末端序列不匹配的序列,并配置为避免在连接反应中所述第二衔接子的连结;
突出端序列,所述突出端序列形成针对所述第二衔接子的单链段;或者
功能部分。
70.权利要求66所述的试剂盒,进一步包括引物对,所述引物对配置为经由其扩增对应于所述多个单链DNA分子中的每一个的双链DNA分子,其中:
所述引物对中的一个包括与所述第一衔接子的第一链中的所述第一引物的序列的至少一部分相对应的序列;以及
所述引物对中的另一个包括与所述第二衔接子的第四链中的所述第二引物识别序列的至少一部分相对应的序列。

说明书全文

构建核酸文库的方法和试剂

[0001] 相关文献的交叉引用
[0002] 本申请要求2017年04月26日提交的美国临时申请No.62/482,189的优先权,其内容通过全文引用并入本文。
[0003] 参考以电子方式提交的序列表
[0004] 随本文提交的电子提交序列表的内容,文件名为Library_SEQ_submit.txt,大小为192367字节和创建日期为2018年2月4日,通过全文引用并于本文。

技术领域

[0005] 本发明大体上涉及遗传分析领域,并且更具体地涉及用于构建核酸文库的方法和试剂盒。

背景技术

[0006] 近年来见证了下一代测序技术的快速发展和广泛应用。下一代测序通常涉及在测序之前从核酸样品构建核酸文库。
[0007] 当前构建DNA文库的方法通常包括在片段的3’末端和5’末端的每个衔接子连接之前,先对核酸序列进行切割以获得双链DNA片段,从而使得能够对每个单独的双链DNA片段进行测序。在此过程中,例如,由于样品制备过程中(诸如福尔林固定石蜡包埋(FFPE)样品,或长时间存储(例如化石样品))积累的DNA分子受到破坏,DNA分子中存在单链段,这会带来一个巨大的问题,因为这些受损的DNA段通常会导致基于当前构建DNA文库的技术进行DNA测序的巨大困难。
[0008] 核酸样品有时非常有限,其中仅有纳克或皮克的核酸可用于进一步分析。从如此超低量的核酸样品构建高质量文库是一项艰巨的任务。但是,这种困难在核酸分析的临床应用中(诸如临床NGS测序)经常遇到。此外,稀有突变或超稀有突变(如通常与癌症相关的突变),已被证明对当前测序平台而言是一项艰巨的任务。这主要是因为通常将正常组织与患病组织一起收集,这通常会大大降低临床样品中与疾病有关的突变的发生率,从而导致在使用当前测序技术寻找与疾病有关的稀有突变方面遇到很大的困难。
[0009] 因此,对于所有当前的测序平台和技术而言,低质量和/或低数量核酸材料的遗传分析尤其具有挑战性。

发明内容

[0010] 为了解决使用当前测序技术分析低质量和/或低数量核酸样品的上述挑战,本发明提供了用于构建核酸文库的方法和试剂盒。
[0011] 在第一方面,本发明提供了一种用于从包含多个核酸序列的生物样品中构建DNA文库的方法。该方法包括:
[0012] 从生物样品中制备DNA样品,其中,该DNA样品包括多个单链DNA分子,每个单链DNA分子具有一个去磷酸化的5’末端;
[0013] 将第一衔接子的第一链与多个单链DNA分子中的每一个的3’末端连接,其中,第一衔接子的第一链沿着从其5’末端至其3’末端的方向包括磷酸基团、条形码序列和第一引物识别序列;以及
[0014] 针对连接到第一衔接子的第一链的多个单链DNA分子中的每一个合成互补链以获得与之相对应的条形码化的双链DNA分子。
[0015] 在如上所述的方法中,将第一衔接子的第一链与多个单链DNA分子的每个的3’末端连接的步骤中,条形码序列可以具有任何长度,但是优选地可以具有2-16nt的长度。
[0016] 根据一些实施方案,所述生物样品中的多个核酸序列包含多个DNA序列,并且由所述生物样品制备DNA样品包括:进行去磷酸反应和解离反应以获得多个单链DNA分子,每个都有一个去磷酸化的5’末端。
[0017] 在本文中,进行去磷酸反应和解离反应能包括至少一种循环:进行去磷酸反应,以及进行解离反应,或可替代地,能包括至少一种循环:进行解离反应,以及进行去磷酸反应。
[0018] 在进行去磷酸化反应和解离反应之前,从生物样品制备DNA样品能进一步包括:将多个DNA序列剪切成多个DNA片段。本文中,多个DNA片段中的每一个大小为约100-300个基对,并且优选约150个碱基对。
[0019] 根据一些实施方案,生物样品中的多个核酸序列包括多个RNA序列,并且从生物样品制备DNA样品包括:处理生物样品,从而获得多个cDNA分子,每个cDNA分子对应于多个RNA分子中的一个。
[0020] 处理生物样品从而获得多个cDNA分子能包括:使用oligo(dT)为引物进行逆转录,以获得对应于多个RNA分子中每一个的cDNA序列。
[0021] 根据一些实施方案,在使用oligo(dT)作为引物进行逆转录以获得对应于多个RNA分子的每一个的cDNA序列之前,处理生物样品从而获得多个cDNA分子进一步包括:在多个RNA分子的每一个的3’末端进行聚腺苷酸化。
[0022] 根据一些实施方案,处理生物样品从而获得多个cDNA分子包括:使用随机引物或序列特异性引物进行逆转录以获得对应于多个RNA分子中的每一个的cDNA序列。
[0023] 在本文公开的方法中,第一衔接子可以在其第一链的5’末端包括一个单链段,并且将第一衔接子的第一链与多个单链DNA分子中的每一个的3’末端连接包括:通过单链DNA连接酶进行连接反应,使得多个单链DNA分子中的每一个的3’末端与第一衔接子的第一链的5’末端连接。本文中,单链DNA连接酶可包含CircLigase I或CircLigase II中的至少一种。
[0024] 根据该方法的一些实施方案,第一衔接子进一步包括第二链,其包括在其5’末端的第一部分和在其3’末端的第二部分。第二条链的第一部分的长度为至少1nt,并与第一条链的5’末端形成双链成对物(duplexes)。第二部分的长度为至少1nt,并在第一衔接子中形成单链突出端,并且将第一衔接子第一链的5’末端与多个单链DNA分子中每一个的3’末端连接包括:通过绷带链促进的DNA连接酶(a bandage strand-facilitated DNA ligase)进行连接反应,使得多个单链DNA分子中的每一个的3’末端与第一衔接子的第一链的5’末端连接。
[0025] 本文中,第二部分的长度可以为4-10nt。这样,第一衔接子能包括一组衔接子,每个衔接子配置为使得其第二链的第二部分包含随机序列。第一衔接子还可包括一个或更多个衔接子,每个衔接子配置为使得其第二链的第二部分包含特定序列。
[0026] 本文中,第一部分的长度可以为8-18nt。绷带链促进的DNA连接酶可以包括T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶或Taq连接酶中的至少一种。
[0027] 在本文公开的方法中,第一衔接子的第一链能进一步包括索引序列,其位于磷酸基团和条形码序列之间,或位于条形码序列和第一引物识别序列之间。索引序列配置成为为连接至第一衔接子的第一链的多个单链DNA分子中的每一个提供索引信息。本文中,索引序列的长度可以为1-8nt。
[0028] 第一衔接子的第一链能进一步包括位于磷酸基团和条形码序列之间的分隔子序列,其配置为用作条形码序列与多个单链DNA分子中的每一个之间的分隔标记物,所述多个单链DNA分子中的每一个连接至第一衔接子的第一链。本文中,分隔子序列的长度可以为约2-16nt。根据一些实施方案,所述分隔子序列能进一步配置为提供索引信息,其为连接到第一衔接子的第一链的多个单链DNA分子中的每一个提供索引信息。
[0029] 在本文公开的方法中,针对连接至第一衔接子的第一链的多个单链DNA分子中的每一个合成互补链以获得与其对应的条形码双链DNA分子能包括:
[0030] 将第一引物与连接至第一衔接子的第一链的多个单链DNA分子中的每一个退火,其中,第一引物包括与第一衔接子的第一链中的第一引物识别序列互补的序列;以及[0031] 进行单链延伸反应以针对连接至第一衔接子的第一链的多个单链DNA分子中的每一个形成双链DNA分子。
[0032] 本文中,将第一引物与连接至第一衔接子的第一链的多个单链DNA分子中的每一个退火能包括:缓慢地将反应温度从原始温度改变为单链延伸反应的工作温度。根据一些实施方案,第一引物的Tm为约30-35℃,并且将反应温度缓慢改变为单链延伸反应的工作温度包括:将温度从不超过~15℃的原始温度以每分钟不超过~1℃的速率升高至单链延伸反应的工作温度。在一个具体的实施方案中,第一引物识别序列具有序列:CCTCAGCAAG(即SEQ ID NO:913),并且相应地,第一引物包括序列:CTTGCTGAGG(即SEQ ID NO:914),其基本上是第一引物识别序列的互补序列。
[0033] 针对连接至第一衔接子的第一链的多个单链DNA分子中的每一个合成互补链以获得与其对应的条码化双链DNA分子能进一步包括:将对应于连接至第一衔接子的第一链的多个单链DNA分子中的每一个的双链DNA分子进行平末端修复。在本文中,平末端修复可以通过T4 DNA聚合酶、Klenow片段或T4多核苷酸激酶中的至少一种来进行。
[0034] 在本文公开的方法中,第一衔接子的第一链能在其3’末端进一步包括固定部分,其配置为能够与固体载体形成稳定的偶联。在将第一衔接子的第一链连接至多个单链DNA分子中的每一个的3’末端,与针对连接至第一衔接子的第一链的多个单链DNA分子中的每一个合成互补链以获得与其对应的条码化双链DNA分子之间,该方法进一步包括:通过固定部分和固体载体之间的稳定偶联将连接至第一衔接子的第一链的多个单链DNA分子中的每一个固定到固体载体上。
[0035] 本文中,固定部分可以包括第一偶联伴侣(coupling partner),其配置为能够稳定地偶联(即,共价连接,或非共价但牢固地结合等)至附着于固体载体的第二偶联伴侣。根据一些实施方案,第一偶联伴侣能包含生物素部分,第二偶联伴侣能包含链霉亲和素部分、亲和素部分或抗生物素抗体中的至少一种,并且固体载体可以包含磁珠过滤器树脂珠、纳米球、塑料表面、微量滴定板、玻璃表面、载玻片、膜或基质中的至少一种。
[0036] 在针对连接至第一衔接子的第一链的多个单链DNA分子中的每一个合成互补链以获得对应的条形码双链DNA分子之后,该方法能进一步包括:将第二衔接子连接至对应于多个单链DNA分子中的每一个的双链DNA分子的游离端,双链DNA分子在其固定端固定至固体载体上。
[0037] 本文中,第二衔接子能包括第三链和第四链。第四链包含在其5’末端的磷酸基团和第二引物识别序列(其配置为提供用于扩增对应于多个单链DNA分子中的每一个的双链DNA分子的引物位点)。第三链包括与第四链的5’-末端序列互补的序列,并配置为与第四链的5’-末端序列形成成对物,从而确保其稳定性
[0038] 这样,该方法进一步包括:进行PCR反应,从而扩增对应于多个单链DNA分子中的每一个的双链DNA分子。
[0039] 本文中,PCR反应能通过分别靶向双链DNA分子的两个末端部分的引物对进行。在一个具体的实施方案中,引物对中的一个能包含对应于已经用于单链延伸反应的第一引物的序列的至少一部分的序列,并且引物对中的另一个能包含对应于第二衔接子的第四链中序列的至少一部分的序列。本文中,序列的“至少一部分”可以包括序列的部分或全部。
[0040] 在第二衔接子连接至对应于多个单链DNA分子中的每一个的双链DNA分子的游离端(双链DNA分子在其固定端固定至固体载体上),与对多个单链DNA分子中的每一个进行PCR扩增之间,该方法能进一步包括:从固体载体中洗脱对应于多个单链DNA分子中的每一个的双链DNA分子。
[0041] 在第二方面,本发明进一步提供了一种试剂盒,用于利用根据如上所述的任何一个实施方案的方法从含多个核酸序列的生物样品中构建DNA文库。该试剂盒能包括第一衔接子、DNA连接酶和第一引物。
[0042] 第一衔接子能包括第一链,该第一链在从其5’末端至其3’末端的方向上包含磷酸基团、条形码序列和第一引物识别序列。本文中,条形码序列配置为向连接至第一衔接子的第一链的多个单链DNA分子中的每一个提供条形码信息。所述DNA连接酶配置为使得第一衔接子的第一链的5’末端与多个单链DNA分子中的每一个的3’末端之间能够连接。本文中,多个单链DNA分子中的每一个对应于生物样品中的多个核酸序列之一。第一引物包括与第一衔接子的第一引物识别序列互补的序列,并配置为使得能够进行单链延伸反应,从而形成对应于连接至第一衔接子的第一链的多个单链DNA分子中的每一个的双链DNA分子。
[0043] 在本文中,第一引物能具有约30-35℃的Tm,但是也可以具有约55-65℃的Tm。在一个具体的实施方案中,第一引物识别序列具有序列:CCTCAGCAAG(即SEQ ID NO:913),并且相应地,第一引物包括序列:CTTGCTGAGG(即SEQ ID NO:914),其基本上是第一引物识别序列的互补序列。条形码序列的长度为约2-16nt。
[0044] 本文公开的试剂盒能进一步包括固体载体,并且第一衔接子的第一链能在其3’末端进一步包括固定部分,其配置为使得能够将连接至第一衔接子的第一链的多个单链DNA分子中的每一个在其5’末端与固体载体固定。固定部分能包括第一偶联伴侣,该第一偶联伴侣配置为能够与附着于固体载体上的第二偶联伴侣形成稳定的偶联。本文中,第一偶联伴侣和第二偶联伴侣之间的稳定偶联可以是非共价结合或共价连接。
[0045] 根据一些实施方案,第一偶联伴侣与第二偶联伴侣之间的稳定偶联是非共价结合,并且第一偶联伴侣和第二偶联伴侣能分别是偶联对中的一个和另一个,其选自生物素-链霉亲和素对、生物素-亲和素对、生物素-抗生物素抗体对、化合物-凝集素对,或者抗原-抗体对中的一个。在一个特定的实施方案中,第一偶联伴侣包括生物素部分,并且第二偶联伴侣包括附着于磁珠的链霉亲和素部分。
[0046] 根据一些其他实施方案,第一偶联伴侣和第二偶联伴侣之间的稳定偶联是共价连接,并且第一偶联伴侣和第二偶联伴侣能分别是交联对中的一个和另一个。交联对的实例包括NHS酯-伯胺对、巯基反应性化学基团对(例如,半胱酸,或其他巯基(诸如马来酰亚胺、卤代乙酰基和吡啶基二硫化物))、化的糖-酰肼对,可光活化的硝基苯基叠氮化物的UV引发带有双键的加成反应,引起C-H和N-H位点的插入或随后的扩环以与亲核试剂(例如伯胺)或碳二亚胺活化的羧基反应成氨基(伯胺)等。
[0047] 固定部分能进一步在第一引物识别序列和第一偶联伴侣之间包括间隔子(spacer),并且间隔子能包括至少一个C3间隔子单元。
[0048] 根据试剂盒的一些实施方案,第一衔接子的第一链进一步包括在磷酸基团和条形码序列之间或在条形码序列和第一引物识别序列之间的索引序列,其配置为提供索引信息,其为连接到第一衔接子的第一链的多个单链DNA分子中的每一个提供索引信息。本文中,索引序列的长度可以为1-8nt。
[0049] 根据试剂盒的一些实施方案,第一衔接子的第一链能进一步包含位于磷酸基团和条形码序列之间的分隔子序列,其配置为用作条形码序列与多个单链DNA分子中的每一个之间的分隔标记物,所述多个单链DNA分子中的每一个连接至第一衔接子的第一链。本文中,分隔子序列的长度可以为约2-16nt。根据一些试剂盒的具体实施方案,所述分隔子序列能进一步配置为提供索引信息,其为连接至第一衔接子的第一链的多个单链DNA分子中的每一个提供索引信息。
[0050] 在试剂盒中,第一衔接子可以是单链的,以及DNA连接酶可以是单链DNA连接酶,其可以包括CircLigase I或CircLigase II中的至少一种。
[0051] 或者,第一衔接子可以是部分双链的。在第一衔接子在第一链的5’末端包含单链段的实施方案中,DNA连接酶能是单链DNA连接酶,其能包含CircLigase I或CircLigase II中的至少一种。
[0052] 在一些其他实施方案中,第一衔接子进一步包括第二链,其包括在其5’末端的第一部分和在其3’末端的第二部分。第二链的第一部分与第一链的5’末端形成双链成对物,并且第二部分在第一衔接子中形成单链突出端。这样,DNA连接酶可以是绷带链促进的DNA连接酶,其能包括T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶或Taq DNA连接酶中的至少一种。本文中,第一部分的长度可以为8-18nt,并且第二部分的长度可以为4-10nt。根据一些实施方案,第一衔接子能包括一组衔接子,每个衔接子配置为使得其第二链的第二部分包含随机序列。根据一些其他实施方案,第一衔接子可以包含一个或更多个衔接子,每个衔接子配置为使得其第二链的第二部分包含特定序列。
[0053] 本文公开的试剂盒能进一步包括第二衔接子,将第二衔接子连接至对应于多个单链DNA分子中的每一个的双链DNA分子的游离端,双链DNA分子在其固定末端固定至固体载体上。第二衔接子能包括第三链和第四链。第四链包括在其5’末端的磷酸基团和第二引物识别序列(其配置为提供用于扩增对应于多个单链DNA分子中的每一个的双链DNA分子的引物位点)。第三链包括与第四链的5’-末端序列互补的序列,并配置为与第四链的5’-末端序列形成成对物,从而确保其稳定性。本文中,第四链能进一步在第二引物识别序列的5’末端包括至少一种功能序列,其可包括第二索引序列,或第二条形码序列,或测序引物序列中的至少一种。
[0054] 在如上所述的试剂盒中,第三链能在其5’末端进一步包括以下至少一种:帽结构、突出端序列,或功能部分。帽结构能包括与第四链的3’-末端序列不匹配的序列,并且配置为避免在连接反应中第二衔接子的连结(concatenation)。突出端序列能形成第二衔接子的单链段。
[0055] 该试剂盒能进一步包括引物对,其配置为扩增经由对应于多个单链DNA分子中的每一个的双链DNA分子。
[0056] 本文中,该对引物能配置为分别靶向双链DNA分子的两个末端部分。在一个具体的实施方案中,引物对中的一个能包括对应于已经用于单链延伸反应的第一引物的序列的至少一部分,并且能例如包括对应于第一衔接子中的第一引物识别序列的序列。引物对中的另一个能包括对应于第二衔接子的第四链中的序列的至少一部分的序列。在此,序列的“至少一部分”可以包括序列的部分或全部。
[0057] 本文所公开的试剂盒可以进一步包括第三衔接子,其能被连接至第一衔接子的游离端,并且可以被工程化为与商业测序平台兼容,以与第二衔接子一起进行配对末端测序或从第一衔接子序列到对应于多个单链DNA分子中的每一个的DNA分子开始进行测序。
[0058] 对于本领域技术人员而言,在阅读说明书后向本领域提供用于评估、表征和检测遗传标志物(诸如癌症标志物)和遗传分析(诸如SNV鉴定)的方法的这些和其他实施方案将是显而易见的。特别是,其提供了将单链核酸构建为文库以进行所需分析的方法。
[0059] 在整个发明中,术语“约”或“大约”以及符号“~”通常是指所示数字的正负10%。例如,“约20”可以表示18到22的范围,“约1”可以表示0.9-1.1。从上下文中,“约”的其他含义也很明显(诸如四舍五入),因此,例如“约1”也可以表示0.5到1.4。
[0060] 如本文所用,术语“双链成对物”、“杂交”或“退火”是指互补的(包括部分互补)多核苷酸链的配对。杂交和杂交强度(例如,多核苷酸链之间的结合强度)受到本领域众所周知的许多因素(包括多核苷酸之间的互补程度、受诸如盐浓度、所形成的杂交体的解链温度(Tm)、杂交反应的温度、其他组分的存在、杂交链的摩尔浓度和多核苷酸链的G:C含量的条件影响的所涉及条件的严格性)的影响。当说一个多核苷酸“杂交”到另一个多核苷酸时,意味着这两个多核苷酸之间存在某种互补性,或者这两个多核苷酸在高严格条件下形成了杂交。当说一个多核苷酸不与另一多核苷酸杂交时,意味着这两个多核苷酸之间不存在序列互补性,或者在高严格条件下两个多核苷酸之间不形成杂交。
[0061] 如本文所用,术语“互补”是指两个多核苷酸链的区域之间(例如,双链结构)或同一多核苷酸链的两个区域之间(例如,“环”或“发卡”结构)的序列互补性的概念。已知,如果第二多核苷酸区域的碱基是胸腺嘧啶或尿嘧啶,第一多核苷酸区域的腺嘌呤碱基能够与和其反向平行的第二多核苷酸区域的该碱基形成特异性氢键(“碱基配对”)。类似地,已知第一多核苷酸链的胞嘧啶碱基能够与第二多核苷酸链的碱基配对,如果第二多核苷酸区域的碱基是嘌呤,则该第二多核苷酸链与第一链反平行。如果例如当两个区域以反平行方式排列时,该第一区域的至少一个核苷酸能够与第二区域的碱基进行碱基配对,则该多核苷酸的第一区域与相同或不同多核苷酸的第二区域互补。因此,不需要两个互补的多核苷酸在每个核苷酸位置均碱基配对。“互补”是指与第二多核苷酸100%或“完全”互补的第一多核苷酸,因此在每个核苷酸位置形成碱基对。“互补”也指不是100%互补的(例如90%或80%或70%互补)第一多核苷酸在一个或更多个核苷酸位置上包含错配的核苷酸。在一个实施方案中,两个互补多核苷酸能够在高严格性杂交条件下彼此杂交。
[0062] 在整个发明中,术语“绷带链促进的DNA连接酶”被称为DNA连接酶,其可以催化第一DNA链的5’末端和第二链的3’末端之间的连接,并通过第三链(即“绷带链”)的存在来促进,所述第三链的片段具有与第一DNA链的5’末端互补的一个段和与第二链的3’末端互补的另一个段。本文中,绷带链促进的DNA连接酶包括但不限于T4 DNA连接酶、T3 DNA连接酶,T7 DNA连接酶和Taq DNA连接酶等。在本发明中,术语“单链DNA连接酶”被称为作为DNA连接酶,其可以在不存在绷带链的情况下催化第一DNA链的5’末端与第二链的3’末端之间的连接。
[0063] 除非另有说明,否则本发明中的所有序列具有从5’末端至3’末端的方向。附图说明
[0064] 图1是从生物样品构建核酸文库的方法的流程图
[0065] 图2A、2B和2C分别是根据本发明的三个不同实施方案的图1所示方法中步骤S100的流程图;
[0066] 图3A、3B和3C分别是根据本发明的几个不同实施方案的步骤S109的流程图;
[0067] 图4示出了具有单链构型的第一衔接子;
[0068] 图5A示出了具有固定部分的第一衔接子;
[0069] 图5B示出了共价连接,通过该共价连接,第一衔接子的固定部分能偶联到固体载体上;
[0070] 图5C示出了非共价连接,通过该非共价连接,第一衔接子的固定部分能偶联到固体载体上;
[0071] 图5D图示了在第一衔接子的固定部分中形成间隔子的间隔子单元的分子结构;
[0072] 图6A和6B分别示出了根据本发明的两个实施方案的具有索引序列的第一衔接子;
[0073] 图6C示出了第一衔接子中的索引序列区分同时被分析的不同生物样品(#1、#2、…、#n)的机制;
[0074] 图7示出了具有分隔子序列的第一衔接子;
[0075] 图8A示出了根据本发明的又一实施方案的第一衔接子;
[0076] 图8B示出了图8A所示的第一衔接子的一个具体实例;
[0077] 图9A和9B分别示出了根据本发明的两个不同实施方案的具有部分双链构型的第一衔接子;
[0078] 图10是图1所示方法中步骤S300的流程图;
[0079] 图11是根据本发明的一些实施方案的用于构建核酸文库的方法的流程图,该方法包括用于PCR扩增的步骤;
[0080] 图12A、12B、12C、12D和12E各自示出了根据本发明的几个不同实施方案的第二衔接子;
[0081] 图13A和13B分别示出了扩增DNA文库中每个双链DNA序列的过程的两个实施方案;
[0082] 图14A、14B和14C提供了基于单链DNA的文库构建策略的示意图。加热双链DNA分子(带有或不带有受损链)以解离互补的DNA单链。条形码(12nt)化的单链衔接子被附加到单链DNA分子的3’末端,并且整个分子被固定在链霉亲和素珠上。添加与每个衔接子上的3'序列互补的PCR引物作为引物,以合成初始单链DNA分子和条形码的互补序列。Illumina PE测序衔接子附加到新合成的互补单链DNA的3’末端。PE引物I和单链衔接子引物–索引–PE引物II的联合引物用于扩增文库中的DNA片段。扩增后,该文库可用于直接NGS测序或用于靶向测序的亚基因组捕获。
[0083] 图15显示了条形码化的单链文库流水线(pipeline)中单链DNA的掺入率。绘制了从不同数量的起始DNA(500ng、20ng、1ng、100pg、20pg和10pg基因组DNA)掺入条形码化的单链文库构建中的DNA分子的分数。比例通过Qubit单位(ThermoFisher Scientific)上的ssDNA分析试剂盒测量。
[0084] 图16示出了人类染色体上298个癌症相关基因的基因组位置(由箭头指示)。
[0085] 图17A和17B显示了通过实时PCR分析计算的298个基因的六个ΔCt值,这些PCR测定检测到500ng原始基因组DNA输入和500ng从六种不同量(500ng、20ng、1ng、100pg、20pg和10pg)的输入基因组DNA生成的条形码化的单链文库最终产物之间的基因丰度差异。
[0086] 图18A和18B示出了基于WES(全外显子组测序)研究的条形码化的单链文库的SNV调用(calling)趋势和统计数据。(图18A)以增加的读长计数阈值检测到的SNV总数。随着读长计数的增加,灵敏度会提高,但读长超过8000万很快就会达到稳定状态。(图18B)通过三种方法测量的正常组织DNA的平均SNV频率:标准NGS方法(直接修剪条形码)、基于在两条DNA链上没有匹配变体的条形码化的单链文库NGS的基于超级读长的方法(没有4步程序的最后一步),以及基于在两条链上的SNV匹配的条形码化的单链文库的NGS的超级读长方法(执行4步程序中的所有步骤)。
[0087] 图19A、19B和19C示出了读长统计。(图19A)初始读长、匹配读长和过滤后保留读长的百分比的柱状图。从三个技术重复中获得了结果。每一柱下均显示读长,单位为100万次读长。(图19B)三次重复中的经过滤的读长的亚组的堆积柱状图。(图19C)覆盖效率与读长数量的关系。显示了具有500万至5000万读长的覆盖深度S≥10X、S≥20X、≥50X和≥100X的靶标碱基的百分比;
[0088] 图20A和20B示出了读长深度的密度图,以证明对于使用正常组织DNA的(图20A)条形码化的单链文库WES研究和(图20B)使用正常组织DNA的条形码化的单链文库(不富集全外显子组)的GC含量与归一化平均读长深度之间的关系;
[0089] 图21示出了在由添加顺序稀释的肿瘤DNA样品的正常DNA产生的文库中检测超稀有SNV。从顺序稀释的样品中重新检测到减少量的变体。从1:10000稀释组中未重新检测到变体。重测序的覆盖范围为~5000X。
[0090] 图22A-22N显示了298个基因小组实时PCR参数和对应的引物序列。
[0091] 图23示出了从条形码化的单链文库WES测序得到的数据产量。初始匹配读长代表包含12nt条形码并匹配到参考基因组的原始读长。唯一读长家族代表URF的数量。每个URF都有唯一的条形码,其序列是通过PCR扩增合并来自同一DNA分子的读长序列而获得的。通过请求URF中超过95%的读长的序列均一性来去除PCR错误。超级读长成对物代表两条链来自两个超级读长的DNA成对物的数量。
[0092] 图24A-24E示出了通过基于条形码化的单链文库的NGS进行的突变和超稀有突变检测的结果。通过基于条形码化的单链文库NGS检测的序列变体,Sanger测序的验证结果并且超稀有突变重检测结果均显示并通过MAF(突变体等位基因分数)进行排名。

具体实施方式

[0093] 本发明提供了一种用于从包含多个核酸序列的生物样品中构建核酸文库的方法。如图1所示,该方法包括S100-S300中阐述的以下步骤:
[0094] S100:从生物样品中制备DNA样品,其中,该DNA样品包括多个单链DNA分子,每个单链DNA分子具有去磷酸化的5’末端。
[0095] 根据该方法的一些实施方案,生物样品包括通常是双链的并且通常具有磷酸化的5’末端的多个DNA序列,并因此,如图2A所示,步骤S100能包括以下子步骤:
[0096] S110:将多个DNA序列剪切为DNA片段;
[0097] S120:对DNA片段进行去磷酸化反应,从而得到去磷酸化的DNA片段;以及[0098] S130:对去磷酸化的DNA片段进行解离反应,从而得到多个单链DNA分子。
[0099] 本文中的生物样品可以具有多个双链DNA序列,并且通常可以是来自组织的基因组DNA样品、线粒体DNA样品或来自血液或其他体液等的无细胞DNA样品等。这些不同类型的DNA样品可以基于本领域常规的不同测定法来制备,在此省略其描述。本文中,通过步骤S100,可以从生物样品中获得包括多个单链DNA分子的DNA样品。
[0100] 在子步骤S110中,每个DNA片段的长度能具有大约100-300bp(优选大约150bp)的范围,但是能根据不同的需求而变化。生物样品中的DNA分子可以通过常规的剪切方法剪切。在一个实例中,可以使用0.65ml Microtubes用Diagenode's Bioruptor以30秒ON/90秒OFF的7个循环程序将DNA样品剪切成约150bp的片段。注意,子步骤S110可以是可选的,并且可以根据生物样品的来源、性质和组成而变化。在一个实例中,长的核酸序列(诸如从常规制备方法获得的通常具有大的双链DNA片段的基因组DNA),可以被剪切成小片段。在另一个实例中,通常从人血浆中纯化的循环无细胞DNA(cfDNA)通常具有约140-170bp的大小,可能不需要剪切,或者只需要较小的剪切即可。
[0101] 子步骤S120配置为去除任何DNA片段的5’末端的磷酸基团,从而防止在随后的连接反应中来自样品的不同核酸片段之间形成连结体。本文中,子步骤S120可以在磷酸酶(诸如FastAP碱性磷酸酶)存在下于37℃进行5-10分钟。其他反应条件也是可能的。
[0102] 在子步骤S130中,多个去磷酸化的DNA片段可以从双链形式解离成单链形式,从而获得多个单链DNA分子。像这样,可以将样品在95℃加热3-15分钟,然后在上速冻。其他反应条件也是可能的。
[0103] 注意,关于子步骤S120和S130的顺序和循环,能存在步骤S100的其他实施方案。
[0104] 在一个具体实施方案中,如图2B所示,在S110之后,可以在去磷酸反应(即S120)之前进行解离反应(即S130)。这可能适用于某些双链DNA分子在一条或两条链中都有缺口或间隙的DNA样品。由于链中存在缺口或间隙,链在缺口/间隙处的5’末端通常具有磷酸基团,该磷酸基团通常对去磷酸化处理具有抗性。但是,如果将DNA片段解离成单链DNA分子,则磷酸基团能出现在序列的5’末端,并且可以通过去磷酸化处理除去。
[0105] 为了确保在缺口/间隙或DNA链末端尽可能多的磷酸基团被去除,在步骤S100的一些实施方案中,如图2C所示,在S110之后,子步骤S130和S120可以进行n个循环(n S≥2)。
[0106] 分别在图2A、2B或2C中示出的步骤S100的各个实施方案的实际选择,能取决于样品中DNA分子的性质和质量,并也能取决于实际需要。
[0107] 根据该方法的一些其他实施方案,该生物样品可以包含多个RNA序列,并且该方法用于从该生物样品中的多个RNA分子构建DNA文库。相应地,在子步骤S110之前,步骤S100包括以下子步骤:
[0108] S109:由所述生物样品制备包括多个cDNA分子的cDNA样品,其中,每个cDNA分子对应于所述多个RNA分子的一个。
[0109] 如果将生物学样品中的mRNA作为构建DNA文库的靶标核酸序列包括在内,因为通常每个mRNA在其3’末端都含有poly(A)尾巴,具体如图3A所示,子步骤S109包括:
[0110] S1091:使用oligo(dT)作为引物进行逆转录,从而获得对应于多个RNA分子中的每一个的cDNA序列。
[0111] 如果除mRNA以外的多个RNA分子中的RNA也作为构建DNA文库的靶标核酸序列而包括在内,因为它们通常在3’末端不具有poly(A)尾巴,因此具体如图3B所示,子步骤S109包括:
[0112] S1091’:在多个RNA分子的每一个的3’末端进行聚腺苷酸化;以及
[0113] S1092’:使用oligo(dT)作为引物进行逆转录,从而获得对应于多个RNA分子中的每一个的cDNA序列。
[0114] 本文中,可以通过poly(A)聚合酶对每个RNA分子进行S1091’,以相应地获得具有poly(A)尾巴的经处理的RNA分子。S1092’能包括:将寡核苷酸(dT)引物与每个经处理的RNA分子的多聚(A)尾退火,并在存在逆转录酶的情况下进行逆转录。S1091’和S1092’的实际过程是本领域普通技术人员众所周知的,因此在此省略其描述。
[0115] 或者,可以通过随机引物或序列特异性引物逆转录生物样品中的每个RNA序列。如图3C所示,子步骤S109能包括:
[0116] S1091”:通过一组随机引物或序列特异性引物进行逆转录,以获得对应于多个RNA分子中每个分子的cDNA。
[0117] 该方法的上述实施方案可以应用于仅包含RNA分子的生物样品,该样品例如通过本领域普通技术人员已知的RNA纯化方案制备。其也可以应用于同时含有DNA分子和RNA分子的生物样品。
[0118] 注意,通过如图3A和3B所示的子步骤S109的两个实施方案从RNA分子的逆转录获得的每个cDNA分子,在其5’末端具有oligo(dT)序列,可以作为其在生物样品中原始RNA来源的特异性标志物,并且可以与同一生物样品中的任何DNA分子区分开,该DNA分子通常不存在位于5’末端的oligo(dT)序列。
[0119] 进一步应注意,如果仅靶向生物样品中的RNA,则在RNA提取过程中,可通过本领域普通技术人员已知的RNA纯化方案去除基因组DNA。
[0120] S200:将第一衔接子的第一链与多个单链DNA分子中的每一个的3’末端连接,其中,所述第一衔接子的第一链分别在其5’末端和3’末端包含条形码序列和第一引物识别序列。
[0121] 图4示出了根据本发明的第一实施方案的第一衔接子的结构图。如图4所示,第一衔接子01基本上是单链衔接子(即,其仅包含第一链),其分别在其5’末端和3’末端包括条形码序列100和第一引物识别序列200。另外,第一衔接子01的第一链在其5’末端也具有磷酸基团,其配置为使得第一衔接子01的第一链与从步骤S100获得的多个单链DNA分子中的每一个的3’末端能够连接,所述连接能例如通过单链DNA连接酶(例如CircLigase I、CircLigase II等)进行。
[0122] 本文中,在第一衔接子01中,条形码序列100基本上使得每个单链DNA分子能够被唯一地标记。条形码序列可以具有任何长度,并且可以优选地具有2-16nt的长度。根据本发明的一些实施方案,条形码序列100具有12nt的长度,其可以将总共412个(或16,777,216个)不同的衔接子独特地施加于多个单链DNA分子。应当注意,条形码序列100的长度取决于实践中的不同需求(例如,取决于DNA样品中不同单链DNA分子的经估计的复杂性和丰度)能改变。
[0123] 第一衔接子01的第一链中的第一引物识别序列200基本上是跨不同DNA分子的通用引物识别序列,其使得每个唯一的经条形码标记的单链DNA分子能够方便地扩增以获得在随后的单循环PCR反应中双链DNA分子,单循环PCR反应通过具有与第一引物识别序列200互补的序列的第一引物200’进行(如下所述)。本文中第一引物200’因此可以被认为是通用引物。注意,为了避免在上述单循环PCR反应中序列的非特异性扩增,第一引物识别序列200可以配置为在不同基因之间以及在不同物种之间具有相对独特的序列。因此,第一引物识别序列200可以基于靶标核酸样品的性质和种类而变化。
[0124] 根据一些实施方案,第一引物识别序列200进一步配置为具有取决于不同的需求,使得能够对单循环PCR反应进行有效或特异性的扩增的Tm。第一引物识别序列200能可选地具有5-30nt的长度。
[0125] 根据一些优选的实施方案,第一引物识别序列200具有约30-35℃的Tm,和8-12nt的长度。例如,在一个特定的实施方案中,具有序列“CCTCAGCAAG”(即SEQ ID NO:913)的第一引物识别序列200的长度为10nt。另外,为了平衡长度和Tm,能选择第一引物识别序列200,使得其具有40%-70%之间的GC含量,并且没有任何重复序列。注意,上述构型特别适合直接从DNA样品中的原始DNA序列构建DNA文库,而无需任何事先扩增。在第一衔接子01中使用短的第一引物识别序列200使得每个单链DNA分子的互补链的后续合成(即用于单循环PCR反应的扩增反应)能够在Tm相对较低的短引物(即如下所述的第一引物200’,其具有与第一引物识别序列200互补的序列)的存在下有效地进行。
[0126] 根据一些其他实施方案,与常规PCR引物序列一样,第一引物识别序列200的长度为13-30nt,并且Tm为55-65℃。该配置使得单循环PCR反应能够进行相对更特异性的扩增,以满足某些实际需求。
[0127] 注意,除了如图4所示的基本上采用单链形式的第一衔接子01以外,第一衔接子01也可以采用部分双链形式,其将在下面详细描述。此后,除非明确提及,否则涉及第一衔接子01的所有描述都是基于第一衔接子01的第一实施方案(即,如图4所示的单链衔接子01)。
[0128] 除了如上所述的条形码序列100和第一引物识别序列200之外,第一衔接子01能可选地包括固定部分300,其设置在第一衔接子01的3’末端(即第一引物识别序列200的3’末端)并配置为使得将在第一衔接子01的5’末端与其附着的多个单链DNA分子能够固定在固体载体300s上,如图5A所示。
[0129] 本文中,固体载体300s可以是过滤器、珠子(诸如树脂,或磁珠等)、纳米球、塑料表面、微量滴定板、玻璃表面、载玻片、膜、基质(可以包装成筒或柱状结构)等,具体固体载体300s的选择取决于便利性、目的和情况。可以如本领域中已知的那样处理和衍生固体载体
300s。
[0130] 将多个单链DNA分子固定在固体载体300s上可以是直接的或间接的。根据如图5B所示的一些实施方案,固定部分300例如经由共价连接直接连接至固体载体300s,固体载体300s可依赖于能够在其间进行交联的一对偶联伴侣。根据如图5C所示的一些其他实施方案,例如通过一对偶联伴侣之间的非共价且稳定的结合,固定部分300间接地附着于固体载体300s。
[0131] 这样,在第一衔接子01的上述任何实施方案中,固定部分300能包括第一偶联伴侣300a,该第一偶联伴侣300a共价或非共价但稳定地附着于第一衔接子01的3’末端(即第一衔接子01的第一链的3’末端)。第一偶联伴侣300a配置成与固定(或共价附着)到固体载体
300s上的第二偶联伴侣300a’形成稳定的偶联或附着,而不会干扰其他事件。
[0132] 本文中,第一偶联伴侣300a和第二偶联伴侣300a’之间的稳定附着能是共价连接,并因此,第一偶联伴侣-第二偶联伴侣对可以是但不限于NHS酯-伯胺的官能团对。或者,第一偶联伴侣300a和第二偶联伴侣300a’之间的稳定附着可以是非共价结合(或键合),并因此,第一偶联伴侣-第二偶联伴侣对可以是但不限于,生物素-链霉亲和素/抗生物素蛋白对、生物素-抗生物素抗体对、碳水化合物-凝集素对,和抗原-抗体对。
[0133] 例如,第一偶联伴侣300a可以是染料(例如荧光染料),而第二偶联伴侣300a’能是与第一偶联伴侣300a(即染料)特异性且稳定结合的抗体。使用染料作为第一偶联伴侣300a使得连接至第一衔接子01的靶标序列能够可视化,并从而另外提供了用于质量控制或用于其他目的的手段。
[0134] 这样,第一偶联伴侣300a和第二偶联伴侣300a’之间的稳定附着使得第一衔接子01以及由此连接的每个单链DNA分子能够被固定在固体载体300s上,从而促进了DNA分子的捕获、富集、分离和纯化,从而为后续反应(例如PCR扩增、NGS测序等)带来便利。
[0135] 为了提高第一引物200’与第一衔接子01中的第一引物识别序列200结合的效率,从而促进随后的单循环PCR反应,固定部分300能配置为进一步包括间隔子300b,设置在第一引物识别序列200和第一偶联伴侣300a之间。间隔子300b的长度可以取决于固定部分300的性质和组成。如图5C所示的一个示例性实例中,固定部分300中的第一偶联伴侣300a是生物素部分,第二偶联伴侣300a’是链霉亲和素/抗生物素蛋白/抗生物素抗体,其共价附着于磁珠(即固体载体300s),并且间隔子300b可以是具有6-12个间隔子单元长度的C3间隔子(即C3间隔子亚磷酰胺)。间隔子单元的结构在本领域中是已知的并且以5D示出。
[0136] 应当注意的是,如上所述和图5C所示的生物素-链霉亲和素对仅应被解释为一个说明性实例,并因此不应被解释为对本发明范围的限制。也可以使用其他第一偶联伴侣-第二偶联伴侣,只要它们可以提供强的偶联而不会干扰随后的反应。
[0137] 还要注意,间隔子300b能包括其他间隔子单元,并且能进一步包括另一部分,诸如三甘醇(TEG)。在本文中,TEG间隔子可以被设置为附着生物素部分,这可以避免障碍问题并且对于将寡核苷酸附着到纳米球或磁珠可以是有益的。
[0138] 另外,第一衔接子01能可选地包括索引序列400,其设置在第一衔接子01的5’末端(即,如图6A所示,在条形码序列100的5’末端)或在条形码序列100和第一引物识别序列200之间(如图6B所示)。索引序列400配置为提供每个单链DNA分子的索引信息。如图6C所示,由索引序列400提供的索引信息能例如表明一个特定单链DNA分子来自哪个生物学样品(#1、#2、…,#n),从而使得在两个或更多个生物学样品之间能够进行区分,从而有利于同时分析两种或更多种生物样品。索引序列400能具有取决于待分析的生物学样品的总数的长度。优选地,索引序列400可以具有1-8nt的长度。在一个特定的实例中,索引序列可以具有序列“CCCAA”。
[0139] 此外,第一衔接子01能可选地包括设置在条形码序列100的5’末端(即,如图7所示的第一衔接子01的5’末端)的分隔子序列500。分隔子序列500能具有2-16nt的长度,并且基本上用作条形码序列100和与其连接的单链序列之间的分隔标志物,其可以用于随后的测序工作中区分经连接序列和条形码序列。另外,分隔子序列500还能向第一衔接子01和与其连接的单链DNA分子提供质量控制信息。例如,由于第一衔接子01的制造不完善,第一衔接子01可能在5’末端丢失一个或更多个核苷酸,如果条形码100非常靠近第一个衔接子01的5’末端,可能导致难以将条形码序列100与经连接的DNA序列区分开。但是,分隔子序列500的存在将使条形码序列和经连接的核酸序列能够清晰地分离和区分,而且这种结构也可以提供质量控制手段用于分析在合成过程中条形码序列中是否存在任何缺陷,并在经连接的核酸序列与衔接子之间提供一条清晰的边界线,这是生物信息学分析所需的。注意,在一些优选的实施方案中,索引序列400可以与分离序列500整合,并且在这些实施方案中,在第一衔接子5’末端的分隔子序列500基本上包含索引序列400。
[0140] 根据如图8A所示的一些实施方案,第一衔接子在5’末端至3’末端的方向上包括磷酸基团、索引序列400、条形码序列100、第一引物识别序列200、间隔子300b,和功能部分300a。
[0141] 如上所述并且在图8A中示出的第一衔接子的一个具体实例在图8B中示出,其基本上包含SEQ ID NO:915中所示的多核苷酸序列:CCCAANNNNNNNNNNNNCCTCAGCAAG(用虚线框显示)、磷酸基团和分别连接至多核苷酸序列的5’末端和3’末端的修饰基团(XXXXXXXXXX-TEG-生物素)。在本文中,“CCCAA”(即SEQ ID NO:915的1-5位残基)基本上是索引序列400,其也可以起到分隔子序列500(图中未示出)的功能,“NNNNNNNNNNNN”(即SEQ ID NO.:x的6-17位残基,每个“N”代表核苷酸残基)是条形码序列100,“CCTCAGCAAG”(即SEQ ID NO:915的
18-27位残基,也是SEQ ID NO:913所示的序列)是第一引物识别序列200,“XXXXXXXXXX-TEG”(n=10,每个“X”表示C3间隔子单元,并且“TEG”是三甘醇)是间隔子300b,并且“生物素”是第一耦合伴侣300a。
[0142] 除了前述的单链第一衔接子01(即,第一衔接子01仅包括第一链,并且所有功能元件基本在第一衔接子01的第一链中),并如图4、5A-5C、6A-6C、7和8所示,其被描述为第一衔接子01的第一实施方案,如图9A和图9B所示,第一衔接子01也能是部分双链的。这样,第一衔接子01基本上包括第一链01a和第二链01b。第一链01a与第一衔接子的第一实施方案(即,如图4所示的单链衔接子)中的第一衔接子01的第一链基本相同,并因此包括该第一链的所有元件,而第二链01b能在部分双链的第一衔接子01的每个不同的实施方案中变化。
[0143] 在如图9A所示的第一衔接子的第二实施方案中,第一衔接子01’由第一链01a和第二链01b组成。第一衔接子01’包括对应于第一链01a的5’末端的单链段(标记为“单”)和包含对应于第一引物识别序列200的全部或部分的序列的双链段(标记为“双”)。单链段具有至少1nt的长度,其配置为使得随后在单链DNA连接酶(例如CircLigase I和CircLigase II)的作用下,第一衔接子01’的第一链01a与每个单链DNA分子之间能够连接。在第一衔接子01’的双链段中,第二链01b包括与第一引物识别序列200的全部或部分至少互补并由此与之形成双链成对物的序列,并且这样可以在步骤S300(如下所述)中将其用作引物,而为连接到第一衔接子01’的每个单链DNA分子合成互补链,以获得与其对应的条形码双链DNA分子。
[0144] 在如图9B所示的第一衔接子的第三实施方案中,第一衔接子01’'由第一链01a和第二链01b组成。第一衔接子01’'的第二链01b包括在5’末端的第一部分和在3’末端的第二部分。第一衔接子01”中第二链01b的第一部分与第一链01a的5’末端形成双链成对物(即双链段,在图中标记为“配对”)。第二链01b的第一部分可以具有至少1nt的长度,并且优选地具有8-18nt的长度,并且可以对应于(即具有与之互补的序列)在第一链01a的5’末端的序列元件,取决于不同的实施方案,其可以包括分隔子序列500、索引序列400或条形码序列100中的部分序列。第二部分在第一衔接子01’'中基本上形成单链突出端(即,在图中标记为“突出端”的单链段)。第二链01b中的第二部分的长度可以为至少1nt,并优选为4-10nt。
该构型使得第二链01b基本上能够充当“绷带链”,在绷带链促进的DNA连接酶(诸如T4 DNA连接酶、T3 DNA连接酶、T7 DNA连接酶、Taq DNA连接酶等)的作用下以促进第一衔接子01’'的第一链01a与单链DNA分子的连接,如9B所示,所述单链DNA分子的3’末端序列与第二链
01b上的“突出端”序列互补。
[0145] 注意的是,由于存在绷带链(即第一衔接子01”中的第二链01b),因此与使用单链DNA连接酶的连接反应相比,借助于绷带链促进的DNA连接酶(例如T4 DNA连接酶)的连接反应明显更有效。另外,第一衔接子01”的第二链01b上的“突出端”序列(即第二部分)可以通过选择性地退火以靶向其3’末端序列互补到“突出端”序列的单链DNA分子而为连接反应增加选择能
[0146] 为了确保足够的覆盖,根据一些实施方案,第一衔接子01”基本上包括一组衔接子,其中每个衔接子的第二链中的第二部分包括随机序列,其配置为使得多个衔接子的第二链的第二部分中的随机序列可以一起覆盖多个单链DNA分子的3’末端的所有可能序列。这样,可以通过绷带链促进的DNA连接酶(例如T4 DNA连接酶)将样品中所有可能的单链DNA序列连接至第一衔接子01”,从而掺入文库中。
[0147] 根据一些其他实施方案,第一衔接子01”的第二部分能包括一个或更多个特异性序列,其使得第一衔接子01”与单链DNA分子中的某些靶标物种能够相对特异性的连接,单链DNA分子的3’末端序列与第二部分互补。
[0148] 在步骤S200中,通过DNA连接酶进行第一衔接子的第一链的5’末端与多个单链DNA分子中的每一个的3’末端连接。换句话说,在DNA连接酶的作用下,可以将第一衔接子的第一链的5’末端连接到多个单链DNA分子中的每一个的3’末端。本文中,DNA连接酶可以是CircLigase II、CircLigase I、T4 DNA连接酶等中的任何一种。
[0149] CircLigase II和CircLigase I能是用于在多个单链DNA分子中的每一个与单链第一衔接子01(如图4所示)或部分双链的第一衔接子01’的第一链01a(如图9A所示的第二实施方案)之间进行连接的单链DNA连接酶。连接反应能在30-60℃下进行。在一个具体实例中,可以将预去磷酸化的片段化DNA样品与上述第一衔接子(终浓度0.15uM)、20%PEG-8000、100U CircLigase II混合,并能在60℃下孵育1小时。连接反应也可以在60℃下进行
1.5小时或在30℃下进行4小时。T4 DNA连接酶可用于多个单链DNA分子中的每一个与部分双链的第一衔接子01之间的连接(如图9B所示的第三实施方案)。连接反应可以例如在16℃下进行1-3小时,但是也可以在4-30℃下进行。
[0150] 在本文中,通过在步骤S200中将第一衔接子01的第一链与每个单链DNA分子的3’末端连接,每个单链DNA分子基本上用唯一的条形码分别标记(通过第一个衔接子01中的条形码序列100)。
[0151] 在第一衔接子01的第一链包含第一偶联伴侣300a的实施方案中,该第一偶联伴侣300a配置为固定到附着到第二偶联伴侣300b的固体载体上(通过第一偶联伴侣300a和第二偶联伴侣对300b之间的稳定耦合),在步骤S200之后,以及在步骤S300(如下所述)之前,该方法包括以下步骤:
[0152] S250:将连接至第一衔接子的第一链的多个单链核酸分子中的每一个固定在固体载体上。
[0153] 步骤S250可以通过在适当的温度下将连接至第一衔接子01的第一链的每个单链DNA分子与固体载体一起在适当的温度下孵育来执行。在一个具体实例中,固体载体是与链霉亲和素偶联的磁珠,并且第一衔接子与生物素偶联。这样,能在室温下进行10-30分钟的孵育。注意,该步骤S250是可选的,并且在不需要固体载体的情况下可以跳过。
[0154] S300:针对连接至第一衔接子的第一链的多个单链DNA分子中的每一个合成互补链,以获得与其对应的条形码双链DNA分子。
[0155] 本文中,S300可以通过前述第一引物200’通过单循环PCR反应进行,所述第一引物200’包括与第一衔接子01的第一链中的第一引物识别序列200互补的序列。具体地,如果第一衔接子01采用如图4所示的单链形式或如图9B所示采用部分双链形式,则步骤S300可以如图10所示包括以下子步骤:
[0156] S310:将第一引物与连接至第一衔接子的第一链的多个单链DNA分子中的每一个退火;以及
[0157] S320:使连接至第一衔接子的第一链的多个单链DNA分子中的每一个进行单链延伸反应以形成双链DNA分子。
[0158] 本文中,S310是为了确保第一引物200’与连接至第一衔接子第一链的每个单链DNA分子中的第一引物识别序列200充分结合,使得单链延伸反应(即单循环PCR)可以在子步骤S320中发生。具体地,子步骤S310能包括:将反应温度缓慢地改变(增加或降低)到单链延伸的工作温度(即反应温度)。
[0159] 在第一引物200’的Tm为32℃的一个具体实例中,S310具体包括:(1)将第一引物添加到反应中,并在冰上快速冷却之前在65℃下孵育反应2分钟;(2)在反应中加入BST DNA聚合酶,并在15℃下孵育;以及(3)以每分钟约1℃的速率缓慢升高反应温度,直到温度达到37℃。相应地,S320包括:将反应在37℃孵育3-10分钟。注意,在该具体实例中,第一引物200’具有相对较低的Tm(约30℃),反应温度只能缓慢升高以产生令人满意的结果,并且基于实际实验,缓慢降低反应温度的方法不能获得令人满意的结果。
[0160] 在另一个具体实例中,第一引物200’的Tm为60℃,S310包括:(1)将第一引物和BSTDNA聚合酶加入反应中,并在70-80℃下孵育反应2分钟;(2)以每分钟大约1℃的速率缓慢冷却反应温度,直到温度达到约60℃。相应地,S320包括:将反应在50-72℃的温度范围内孵育30分钟。注意,在以上第一引物200’具有相对高的Tm(~60℃)的例子中,也可以缓慢地提高反应温度。
[0161] 注意,在S320中,除了BST 3.0聚合酶之外,还能使用其他DNA聚合酶(例如Klenow片段)或RNA逆转录酶。
[0162] 可选地,在S320之后,该方法能进一步包括子步骤:
[0163] S330:对从单链延伸反应获得的每个双链DNA分子进行平末端修复。
[0164] 在S320中的单链延伸反应之后,每个双链分子可具有3'突出端,需要将其除去以确保用于任何后续处理(诸如,如下所述与第二衔接子02的连接)的高效率。具体地,S330能在T4 DNA聚合酶(具有3’末端核酸外切酶活性)存在下进行,并在25℃下孵育15分钟。除T4 DNA聚合酶外,其他选择还包括Klenow Fragment或T4多核苷酸激酶。这些酶可以混合使用。
[0165] 应当注意的是,如果第一衔接子01采用如图9A所示的部分双链形式,则在单链延伸反应中不需要额外的第一引物200’,因为第一衔接子01’的第二链01b包括与第一引物200’相对应的序列。这样,跳过S310,并且步骤S300仅涉及前述的S320。
[0166] 在上述步骤S100(即制备单链DNA分子),S200(即将第一衔接子的第一链与每个单链DNA分子连接),可选地S250(即固定连接产物),和S300(即为每个单链DNA分子合成互补链),因此构建了包含多个条形码标记的双链DNA序列的DNA文库。每个条形码标记的双链DNA序列对应于一个原始的单链核酸分子。
[0167] DNA文库可能会根据不同的目的进行进一步处理或分析。例如,可以对DNA文库进行处理,以便可以将每个条形码标记的单链DNA分子插入载体中,为了使得在模型生物体(诸如大肠杆菌、酵母噬菌体)中能够随后扩增和/或表达。或者,可以在随后的遗传分析(诸如测序分析、变体/突变分析或拷贝数分析)之前对DNA文库进行扩增,从而获得经扩增的DNA文库。
[0168] 在下文中,提供了一个具体实例来说明涉及扩增DNA文库中每个条形码标记的双链DNA序列,以便于促进随后分析与其对应的单链核酸分子的步骤。具体地,在步骤S100中对每个单链核酸分子进行预处理,并在步骤S200中用在其3’末端附着有生物素部分的第一衔接子的第一链标记,并在步骤S250中固定在固体载体(更具体地,与链霉亲和素偶联的磁珠)上(通过生物素-链霉亲和素结合对),并在步骤S300中进一步处理以使得能够为每个条形码标记的单链核酸分子合成互补链。上述步骤后,将每个原始单链核酸分子转换为固定在磁珠上的相应条形码标记的双链DNA分子,然后对其进行进一步处理,以使得能够基本使用Illumina测序平台进行扩增和后续的测序分析。
[0169] 具体地,如图11所示,在步骤S300之后进行以下步骤,以扩增步骤S300之后获得的连接至固体载体的每个双链DNA分子。
[0170] S400:将第二衔接子与每个双链DNA分子的游离端连接,每个双链DNA分子在固定端固定至固体载体上。
[0171] 在本文的DNA文库中,对应于一个原始单链核酸分子的每个条形码标记的双链DNA序列通过附着至第一衔接子的3’末端的生物素部分和附着至磁珠的链霉亲和素部分之间的上述键合而在固定端固定至磁珠上。每个双链DNA分子的游离端基本上是与固定端相对的端。
[0172] 图12A-12E示出了如S400中提到的第二衔接子的几种不同的实施方案。在如图12A所示的实施方案中,第二衔接子02基本上是通用的双链衔接子,其包括第三链02a和第四链02b。第四链02b包括第二引物识别序列600和在第四链02b的5’末端的磷酸基团。第二引物识别序列600配置为使得能够通过引物对发生随后的PCR反应,其中一个(即第二引物600')在其3’末端具有与第二引物识别序列600相匹配的序列。磷酸基团配置为使得能够将第四链02b与在固定端固定至固体载体上的每个双链DNA分子的游离3’末端连接。
[0173] 第三链02a包括至少与第四链02b的5’末端序列互补的序列,并配置为与第四链02b的5’末端序列形成成对物,从而确保其稳定性。为了防止在随后的连接反应过程中形成连结体或不需要的连接产物,第三链02a配置为在其5’末端不具有磷酸基团。
[0174] 根据如图12B所示的一些其他实施方案,第三链02a在其5’末端进一步包括帽结构700,其能包括与第四链02b的3’末端(如图12B所示,其可以是第二引物的3’末端识别序列
600,或者可以是不在第二引物识别序列600中的序列)不匹配的序列或部分。由于第三链
02a的5’末端与第四链02b的3’末端之间不匹配,第二衔接子02基本上形成了Y形的衔接子,如12B所示。根据如图12C中所示的又一些其他实施方案,第三链02a在其5’末端进一步包括突出端序列800,其基本上形成用于第二衔接子02的单链段。第二衔接子02的其他构型也是可能的。根据如图12D所示的又一些其他实施方案,第三链02a在其5’末端进一步包括功能部分900,其配置为防止形成连结体,也为随后的处理或分析提供手段。例如,功能部分可以是结合伴侣,其可以与另一结合伴侣形成交联或稳定的非共价结合,从而使得能够将捕获的序列进一步固定。功能部分也可以用作标记物(诸如染料)。这里没有限制。
[0175] 注意,除了第二引物识别序列600之外,第二衔接子02的第四链02b进一步能包括一个或几个其他功能序列,诸如第二索引序列910、第二条形码序列920等,如图12E所示。这些功能序列中的每一个都位于第二引物识别序列600的5’末端,以便能够将每个经捕获的序列与这些功能序列一起扩增。进一步应注意的是,在实践中,S400中使用的第二衔接子能基本上包括前述如图12A-12E所示实施方案的组合,以实现混合使用。
[0176] 具体地,可以使用T4 DNA连接酶在16℃下孵育1小时,将第二衔接子02与在固定端固定至固体载体上的每个双链DNA分子的游离端连接,并且反应可以使用其他酶在其他反应条件下进行。
[0177] 注意,由于固定在固体载体上的每个双链DNA分子的游离端(更具体地讲是5’末端)缺少磷酸基团,因此仅在每个双链DNA分子的游离端的3’末端连接到第四条链02b的5’末端,并且在第二衔接子02的第三链02a的3’末端和在每个双链DNA分子中的原始单链DNA分子上的5’去磷酸化末端(形成与步骤S100中)之间形成一个缺口/间隙(如图13A和13B中的箭头所示)。
[0178] S500:从固体载体上洗脱DNA文库。
[0179] 本文中,在步骤S500中,可以从固体载体上洗脱与DNA文库中的每个双链DNA分子的条形码标记且固体载体固定的链互补的链,并且该洗脱的链基本上包括第二衔接子中的第二引物识别序列600。在一个具体的实例中,步骤S500可以通过在洗脱缓冲液(例如由10mMTris-HCl、1mM EDTA、0.05%Tween-20组成的TET缓冲液)存在下在95℃孵育5分钟来进行。在这些条件下,由于单个生物素-链霉亲和素偶联物在高温下不稳定结合,也可以从固体载体中洗脱连接至第一衔接子的第一链的原始单链DNA分子,但该DNA链不能用作PCR模板,因为原始单链DNA分子上的5'去磷酸化缺口,导致在PCR扩增的第一个循环后,新形成的
3’末端没有通用引物识别序列。
[0180] S600:进行PCR反应,从而扩增每个双链DNA分子。
[0181] 本文中,PCR反应可以通过分别靶向每个双链DNA分子的两个末端部分的引物对进行。
[0182] 根据一些优选的实施方案,引物对中的一个(即引物1)能包括与已经用于单链延伸反应的第一引物的序列的至少一部分相对应的序列,和引物对中的另一个(即引物2)能包括与第二衔接子的第四链中的序列的至少一部分相对应的序列。本文中,序列的“至少一部分”可以包括序列的部分或全部。
[0183] 注意,对于PCR反应中使用的引物对没有限制,只要可以扩增与样品中的多个单链DNA分子中的每一个对应的每一个双链DNA分子即可。因此,在S600中使用的引物对中的一个(即引物1)能包括与第一引物识别序列200的部分或全部相对应的3’末端部分,但是可能包括不与第一引物识别序列200对应,但对应于第一引物识别序列200的5’末端的第一引物序列的序列(诸如下面描述的图13B中的第二索引序列400'和第二测序引物序列900b)。类似地,这对引物中的另一个(即引物2)能够包括3’末端序列,其对应于第二衔接子02中第二引物识别序列600的至少一部分,但是可以具有其他选择。
[0184] 另外,引物对也可以被工程化。例如,引物1能包括与如上所述的第一引物识别序列200相对应的序列,但是根据实际需要还可以包括其他功能元件。类似地,第二引物能包括与如上所述的第二引物识别序列600相对应的序列,但是也可以包括其他功能元件。
[0185] 图13A和图13B示出了用于扩增通过上述步骤S100、S200和S300构建的DNA文库的方法的两个实施方案。
[0186] 在如图13A所示的实施方案中,引物1仅包括与第一引物识别序列200相对应的序列,而没有其他功能元件(因此,引物1基本上是上述第一引物200’),并且引物2包括与第二引物识别序列600相对应的序列。
[0187] 在如图13B所示的实施方案中,引物2除了对应于第二引物识别序列600的序列外,还在其5’末端还包括第一测序引物序列900a。在引物1中,除了对应于第一引物识别序列200的序列以外,引物1还包括第二索引序列400’和第二测序引物序列900b。
[0188] 在图13A和13B所示的两个实施方案中,与引物1中的第一引物识别序列200相对应的序列和与引物2中的第二引物识别序列600相对应的序列使得能够扩增靶标序列(即在图13A和13B中显示为深色实心柱的多个单链DNA分子中的每一个)以及其他标签(即,索引序列、条形码序列等)。
[0189] 此外,其他功能序列的存在将使得靶标序列能够被测序或用于其他目的。例如,在一些实施方案中,引物1和引物2分别包括一对测序引物(例如,引物2包括PE引物I序列,而引物1包括PE引物II序列),因此扩增的靶标序列可以使用目前的NGS测序平台(例如Illumina测序平台)进行直接测序。类似地,诸如第二索引序列400’的其他功能元件可以使得不同样本之间能够额外区分,以便于后续分析。
[0190] 因此,通过如上所述的步骤S400-S600,可以扩增DNA文库中与条形码标记的单链核酸分子相对应的每个双链DNA分子。这样,在后续分析(诸如下一代测序(NGS)分析)中,每个条形码标记的单链核酸分子都有足够的拷贝,可以提高灵敏度。
[0191] 除了如上所述的测序分析之外,DNA文库中与生物样品中的原始单链核酸分子相对应的经扩增的DNA分子还可以用于进一步的核酸测定。可以使用任何测试序列变体或序列拷贝数变体的手段,包括但不限于,点突变、缺失、扩增、杂合性丧失、重排、复制。可以通过测序、通过杂交测定、通过连接测定等来检测序列变体。当序列变体的位置未知时,可以使用非靶向测定。如果定义了相关序列变体的位置,则可以使用专注于已鉴定位置的特定测定法,诸如靶向测序、点突变靶向测序分析(例如SAFE-SeqS、成对物测序等)。对测试样品进行的任何测定都涉及转化,例如化学或物理变化或作用。测定和确定不仅仅通过人体的感知或认知过程来进行。
[0192] 进一步注意以下内容。单链核酸文库的构建能使测定可行,否则将无法产生有效的可用于测序的材料。生物样品可以来自患者体内任何合适的来源,这些来源将具有可以收集和测试的来自癌症或病变的核酸。测试样品也可以来自患者组织的任何适当来源(诸如FFPE载玻片、FFPE组织),以及测试样品也可以来自其他生物样本的任何适当来源,诸如化石、古代人类或动物种类遗体。
[0193] 可以从人体组织、粪便和体液(诸如血液、眼泪、唾液、痰、支气管泡灌洗液、尿液和不同器官分泌的汁液)中获得合适的测试样品。可以使用本领域中任何常规手段来收集样品,包括从手术样品、活检样品、内窥镜超声、静脉切开术等中收集。
[0194] 样品的获取可以由进行后续分析的同一个人或不同的人进行。样品可以在收集之后和分析之前存储和/或转移。在测定之前,可以将样品分级、处理、纯化、富集。可以记录或传达任何测定结果,作为积极的举动或步骤。测定结果、诊断、鉴定或预后的通信可以是例如,在两个人之间的口头形式,在纸上或数字媒体上的书面形式,录音形式,传达给医疗图表或记录,以传达给第二位医疗专业人员或患者。结果和/或结论和/或基于结果的建议可以是自然语言,也可以是机器或其他代码。通常,此类记录以机密方式保存,以保护患者或项目的私人信息。
[0195] 条形码化的衔接子、引物、对照样品和试剂的集合可以被组装成用于该方法的试剂盒。试剂可以与说明书一起包装,或与从中获得说明的地址或电话号码的指示一起包装。试剂盒中可包含电子存储介质,无论是用于指导目的还是用于结果记录,或用作控制测定和数据收集的手段。
[0196] 对照样品可以从同一患者的没有明显患病的组织获得,或者可以从健康个体或明显健康的个体的群体获得。对照样品可以与测试样品来自相同类型的组织或不同类型的组织。对照样品可以与在用于该方法的试剂盒中的条形码化的衔接子、引物和试剂一起提供,其中对照样品可以是标准参考样品,目的是验证试剂盒的性能和由用户进行的操作。
[0197] 下文所述的数据记录了基于上述构建核酸文库的方法的一个具体实施方案,从整个外显子组测序研究中鉴定超稀有突变的结果。
[0198] 条形码化的单链文库构建方法(如上所述)用于生成用于NGS研究的基于条形码化的单链DNA的文库。仅在被不同且非互补的条形码标记的两个互补DNA链上相同的相应位点识别出序列变体(SNV)时,才用作标记每个单独DNA序列的标志物的每个单独单链DNA分子上的条形码,能称为SNV。这种带条形码的单链文库可防止PCR错误,并有助于鉴定超稀有突变(SNV)。
[0199] 仅当测序系统的错误率显著低于所识别的SNV的频率时,才可以放心地检测SNV。因此,NGS流水线的基线错误率对其检测超稀有SNV的性能至关重要。为了进一步评估该方法的基线突变频率,为患者创建了更新的正常外显子组参考数据库。使用更新的参考外显子组,基于条形码化的单链NGS方法的错误率经计算为2.25×10-10。该错误率非常接近理论错误频率2.08×10-10,并且该方法足够准确,以识别大多数超稀有突变。
[0200] 然后通过在从正常DNA样品创建的文库中重新检测38个经Sanger测序验证的序列变体的成功率,评估该方法的超稀有突变检测性能,所述正常DNA样品中添加有肿瘤DNA的连续稀释液。如预期的那样,随着稀释倍数的增加,检测到的变体越来越少(图21),并且当将肿瘤DNA样品稀释1000倍(稀释的样品含有0.1ng肿瘤DNA和100ng正常DNA)时,38个经验证的变体中只有21个变体可以检测到(图24A-24E)。在1:1000稀释的样品中的这21个SNV的等位基因分数范围为0.03%至0.005%,平均为0.013%(图24A-24E)。在1:10000稀释样品中未检测到任何序列变体,这可能是由于获得的测序深度有限所致。对于每个样本,均以5000X的平均深度进行了靶向测序,从理论上讲,这只能使我们看到SNV降至频率为1/5000(0.02%)。为了以更低的频率观察超稀有SNV,需要大于5000X的覆盖范围。设计仅靶向少量基因的捕获探针也是有帮助的。使用较少数量的测序靶标,基于标准条形码化的单链文库的NGS可以实现更大的测序深度,并显著提高超稀有SNV调用的准确性。该方法的基线错误率极低,可以在整个外显子组水平上高精度地进行超稀有SNV调用,而NGS测序的深度成为此类应用的唯一限制因素。
[0201] 条形码化的单链文库构建可用作改进的流水线以执行NGS,特别是靶向的NGS。已经证明了在人类基因组WES研究中性能的提高。除WES之外,条形码化单链文库的另一个非常重要的应用是基因组的靶向重测序。靶向重测序是最流行的NGS应用之一,并且它使人们可以将一小群基因靶标序列能够测序到极高的深度,通常覆盖范围是数千倍。并且这种测序深度可以以极大的灵敏度促进超稀有突变的检测。在基于条形码化的单链文库WES研究中,试图捕获所有人类基因的整个外显子组,其中在标准NGS平台上实现了98%的覆盖率和200x以上的深度。更重要的是,该方法在整个外显子组范围内的稀有突变检测的检测限低至0.03%。对于更小群的目标基因,条形码化的单链文库NGS的深度和覆盖范围可以进一步增加,并且超稀有突变检测的性能可以随后提高几个数量级。
[0202] 除了以高灵敏度和准确性鉴定超稀有SNV外,条形码化单链文库构建方法也可以用于基因拷贝数变体(CNV)分析。条形码化单链文库构建将唯一的条形码链接到每个单链DNA分子。这样的条形码信息不仅可以用于标记分子并创建减少PCR错误的超级读长,还可以用作DNA片段的位置标记。将超级读长匹配回人类基因组后,可以将每个超级读长上的条形码分配给匹配超级读长序列的位置。因此,可以通过唯一的条形码重建人类基因组。拷贝数信息可以通过亚基因组位点上条形码的多样性来表示。更重要的是,在这种方法中,唯一的条形码是DNA单链特有的。通过考虑以成对物分子形式存在的基因组DNA,能使得CNV数据能够进一步标准化并且两条DNA链的唯一条形码的密度应该匹配。这样的计算可以大大提高CNV调用的准确性。
[0203] 除了CNV分析,在癌症基因组中经常观察到的大结构变体也可以在我们的流水线中进行分析。通过文库构建的高灵敏度和深度覆盖改善的NGS测序将提供比标准流水线更高的置信度涵盖断裂点的读长,并且可以将靶向捕获探针设计为特异性富集流行基因组断裂点侧翼的亚基因组区域。可以基于条形码化单链文库构建流水线,构建用于转运和大的插入缺失识别的高度敏感的流水线。
[0204] 除了在基础研究中的应用外,条形码化单链文库构建在临床NGS领域具有巨大潜力。该方法可以用很少的DNA物质(≤20pg)高效构建NGS DNA库,同时可以高置信度检测超稀有突变。这样的功能对于基于NGS的临床诊断至关重要,在这些诊断中样品通常有限且高度异质。一个典型的实例是FFPE样品的NGS测序。数十年来,FFPE一直是标准的样品制备方法。历史存档的FFPE样品对于生物医学研究中的回顾性研究是非常有价值的资源。然而,由于样品制备过程中的化学修饰以及长期保存后对组织块或载玻片的长期损坏,对FFPE样品进行NGS研究一直是一项艰巨的任务。DNA质量差和人为改变序列是基于FFPE的NGS研究的两个主要问题。据报道,在较低的覆盖水平(约20X)下,FFS与新鲜冷冻样品之间的WES数据不一致,但是,当覆盖范围更高时,这种差异可以减小(Kerick,Isauet al.2011)。为了确保在NGS测序中具有较高的覆盖率,需要将足够数量的原始DNA分子整合到文库构建中,而条形码化单链文库构建是满足此类需求的方法。
[0205] 该方法在生物医学和临床应用中具有发现新型的引起低频疾病的变体的巨大潜力,并且可以为患者确定更具活性的治疗靶标。该方法可通过揭示迄今为止最完整的患者基因组概况(包括高频、低频和特别是超低频突变)来实现前所未有的个性化精准医学水平。该方法还可以用于其他临床应用中,例如从体液样本中进行循环DNA测序,此时只能使用有限量的DNA材料。在临床NGS应用中,从数量非常有限的高度异质样品中(因此其侵入性低或无侵入性)构建NGS文库至关重要;高效富集靶标序列,从而以有限的成本和更高的诊断灵敏度达到了很高的测序深度;并尽可能完全消除人为测序错误,以实现最佳诊断特异性。事实证明,此方法可以满足众多NGS应用中的巨大潜力。
[0206] 实施例1
[0207] 材料和方法
[0208] 在天津医科大学的机构审查委员会(IRB)批准后,根据中国天津医科大学肿瘤研究所和医院的指导方针和法规,从亚洲种族的胰腺癌患者中获得了配对的肿瘤和正常组织样本,并完全符合HIPAA准则。该患者已获得进行此项研究的知情同意。肿瘤组织样品的估计肿瘤含量为43.4%。
[0209] 文库制备:使用DNeasy Blood&Tissue Kit(Qiagen)提取患者正常和肿瘤新鲜冷冻组织的基因组DNA,并使用Diagenode's Bioruptor以使用0.65ml 微管进行30秒开启/关闭90秒的7个循环程序将其剪切成150bp的片段。条形码化单链文库的制备始于DNA成对物的完全解离以形成单链DNA,并使用唯一的数字条形码分别标记每条DNA单链的3’末端。条形码化的第一衔接子以如上所述的序列合成,并在图8B中示出。将预去磷酸化的片段化DNA样品与条形码化的第一衔接子(最终浓度0.15uM)、20%PEG-8000、100U CircLigase II混合,并在60℃孵育1小时。将连接产物固定至链霉亲和素偶联的Dynabeads(ThermoFisher Scientific)上后,每个条形码化的单链DNA分子都要经过单独的单循环PCR反应,形成互补链。使与第一衔接子互补的DNA引物退火,并使用Bst 3.0聚合酶在50℃下延伸30分钟。在25℃下使用T4 DNA聚合酶进行平末端修复15分钟。然后使用T4 DNA连接酶在16℃下孵育1小时将双链衔接子连接至DNA成对物的5’末端。通过在95℃下孵育1分钟从珠子上洗脱文库。进行高保真PCR扩增以扩增DNA序列以及唯一的条形码。衔接子序列设计为与Illumina测序平台兼容。条形码化单链文库的构建程序能在图14A、14B和14C中进行概述。
[0210] 使用ABI PRISM 7500序列检测系统(Applied Biosystems)进行用SYBR green检测的实时PCR测定。简而言之,反应条件由最终体积为20μl的500ng基因组DNA或DNA文库产物、0.2μM引物和SYBR Green实时PCR预混液(ThermoFisher Scientific)组成。每个循环由分别在95℃下变性15秒、在58.5℃下退火5秒和在72℃下延伸20秒组成。使用引物3(Untergasser,Cutcutache et al.2012)设计基因特异性引物,其序列在图22A-22N中提供。在三个独立的实验中一式三份进行反应。通过使用包含扩增子序列的“+”克隆构建体的连续稀释液,建立每个基因的引物对的标准扩增曲线。建立了298个靶标扩增子的扩增效率,并在图22A-22N中列出。通过将基因特异性扩增效率(AE)提高到不同样品之间的ΔCt值的幂,可以计算出不同样品之间的基因丰度比。例如,可以通过实时PCR测定通过以下公式计算样品A与样品B中基因丰度的比率(r):
[0211] r(A/B)=AEΔCt,其中ΔCt=Ct(样品B)–Ct(样品A)
[0212] 全外显子组测序是根据制造商的手册在Illumina HiSeq 2500平台上进行的。计算了从随机选择的500万至5000万次读长中的目标读长总数。修剪和条形码化的超级读长分组后,按照SN19的参照基因组的GATK文档推荐的默认模式,使用GATK(3.6版)调用SNV(McKenna,Hanna et al.2010)。简而言之,对于每个样品(肿瘤或正常DNA),通过用BWA(版本0.7.10)匹配到参考基因组来对测序结果进行预处理,并用Picard(版本2.0.1)标记重复样品。进行碱基重新校准以产生准备用于SNV分析的读长。对于单独处理的T/N对读长,进行插入缺失重新排列以生成成对处理的T/N对读长。HaplotypeCaller用于原始SNV调用。通过MuTect(版本1)将变体调用的输出直接用于SNV检测(Cibulskis,Lawrence et al.2013)。通过“突变和超稀有突变检测”部分中介绍的4步方法过滤突变。Phred得分<30.0的低质量变体被放弃。来自带有不同条形码的互补读长的配对SNV被鉴定为真实突变,并需要通过Sanger测序进一步验证。条形码化单链文库NGS研究的每个数据分析步骤之后的数据产量显示在图23中。图24A-24E提供了鉴定的SNV和Sanger测序验证结果。
[0213] 突变和超稀有突变检测
[0214] 通过条形码化单链文库方法获得的唯一读长的数量显著增加,使我们能够通过以下4步程序应用严格的过滤器。
[0215] 步骤1)代表原始条形码化单链DNA分子的PCR复制物的相同条形码的组读长,并将其称为唯一读长家族(URF);
[0216] 步骤2)通过在读长中请求>95%的序列同一性来组合从步骤1)获得的每个URF中的读长;
[0217] 步骤3)为每个URF提取唯一的DNA序列和条形码序列,并将其称为“超级读长”;
[0218] 步骤4)对于步骤3)中鉴定的所有超级读长,找到它们的配对互补超级读长,并仅对来自配对超级读长的具有匹配互补序列的得分序列变体进行评分。为了在样品中容纳受损的DNA分子,互补的超级读长的长度可能不相同(图14A、14B和14C)。
[0219] 为了评估条形码化单链文库在检测低频(超稀有)突变中的性能,将100ng肿瘤DNA样品依次稀释10、100、1000和10000倍,并分别掺入相同量(100ng)从上述癌症患者的配对正常组织中提取的基因组DNA。这种设计可以模拟癌症发生的早期阶段。使用NGS进行早期癌症诊断的主要障碍包括样品中肿瘤特异性突变的等位基因分数非常低。
[0220] 建立用于超稀有突变鉴定的高精度参考外显子组:为了高度准确地评估条形码化单链文库流水线的基线突变频率,平行构建了六份标准NGS DNA文库,每份均使用100ng正常DNA输入。通过请求如果在6个独立数据集中的S≥5个中观察到相同的SNV,使用这6个外显子组数据集的副本为该特定患者重建了我们自己的参考外显子组数据库,将SNV视为种系变体,并更新了我们的参考外显子组序列数据库。对于标准NGS流水线,错误率是1%,在5 -13
固定位置看到5次完全相同的随机错误的机会是(1/3*1%) =4.12×10 。这个数字意味着,如果使用这种方法对整个人类基因组进行一次测序,则可能只有一个人为错误,因为3×1012人类基因组碱基X(4.12×10-13)=1.24。但是,人类外显子正在被富集和测序,其仅占人类基因组的1.5%,因此在整个人类外显子组中看到单个人工错误的机会仅为1.86%(=
1.5%×1.24)。相应地建立了患者的经更新的高精度正常外显子组参考数据库。
[0221] 实施例2
[0222] 条形码化单链文库结构可创建具有超低质量和数量DNA的防错文库
[0223] 该文库通过条形码单链文库构建方法制备。为了评估这种方法从有限数量的DNA材料创建有效NGS文库中的性能,从癌症患者的正常胰腺组织中依次提取的基因组DNA(500ng、20ng、1ng、100pg、20pg和10pg)稀释后构建了6条条形码化单链文库。文库构建的第一步是将条形码化的第一衔接子连接至单链DNA分子,并且这一步骤至关重要,因为它为所有下游程序提供了DNA分子的初始库。针对6个文库测量的该步骤的平均连接效率为32.3%、46.5%、52.1%、40.3%、35.1%和30.5%(图15)。这些值表明不同数量的基因组DNA分子掺入文库构建工作流程的比例。对于成功使用非常有限的起始材料和非常不均匀的样品的NGS应用而言,该比例至关重要。该连接被证明非常有效,它利用了50%以上的1ng基因组DNA分子,并且在输入低至10pg基因组DNA的情况下,该比例仍保持在30%以上。进行了六个库构建,并将来自六个库中每个库的500ng库产品用于进一步的性能评估。
[0224] 选择位于染色体1至22和染色体X上的298个与人类癌症相关的基因(图16)作为基因组标志,以表明文库覆盖的广度和深度以及靶标捕获的亚基因组区域的富集效率和均匀性,通过实时PCR测定进行测量。设计了基因特异性引物对,并用于扩增298基因组(图22A-22N)。使用500ng基因组DNA和500ng文库产物(分别来自六个输入量不同的六个文库的每一个),对每个基因进行七个实时PCR反应,每个反应重复三遍。取三份平均值后,为每个基因计算了初始DNA输入和六个文库产物之间的六个ΔCt值,随后将其作图以比较298个基因在使用不同数量的起始材料构建文库之前和之后的丰度(图17A和17B)。建立了298个靶标扩增子的扩增效率,并在图22A-22N中列出,平均值为1.88。经剪切的DNA单链的平均大小为
150bp,并且在文库制备过程中添加至序列的衔接子序列的总长度为135nt(图14A、14B和
14C)。因此,在500ng最终文库产物和500ng初始DNA输入片段之间的ΔCt分布应该大概位于log1.88[(135+150)/150]=1.017,这与观察到的数据一致(图17A和17B)。在500ng原始基因组DNA输入中以及六个文库中的四个(500ng、20ng、1ng和100pgDNA输入)中检测到所有靶标基因。从分别用20pg或10pg DNA构建的文库中仅检测不到一个和五个基因(图17A和17B)。
从所有基因的ΔCt值均未观察到明显的GC%依赖性丰度偏差。更重要的是,尽管开始使用的DNA材料数量不同,但使用条形码化单链文库构建方法构建的文库平均扩增了由298个基因组成的整个人类基因组。重新设计了PCR引物,以针对在两个稀释度最高的DNA样品(20pg和10pg)中未检测到的六个基因的每一个靶向不同的基因组区域,并针对每个基因重新进行了七个实时PCR测定的相同的一组实验。使用新的引物观察到阳性结果(图22A-22N)。
[0225] 我们的结果表明,条形码化单链文库的构建方法能够以非常低的DNA原料量(10~20pg)创建DNA文库,并生成具有广泛覆盖范围的NGS可行文库产品(>1ug)。该文库没有明显的GC含量偏差,并且文库分子被均匀扩增以代表原始输入DNA的基因组序列丰度。这些结果还表明,当DNA输入量极其有限时(即大约或小于20pg),扩增某些亚基因组区域的效率降低。为了用极少的DNA量构建DNA文库,可能需要对整个基因组进行预扩增。但是,这样的过程可能会在库构建中的初始条形码步骤之前产生人为错误,并可能阻碍其稀有的突变检测能力。因此,不再需要使用任何较少量的DNA材料进行文库构建的进一步测试,并且成功构建文库的最小输入限制为20pg DNA。该量(20pg)包含少于3个人体细胞的总DNA物质。绝大多数生物样品将足以提供如此丰富的DNA物质,并且我们的文库构建方法已证明在用这种少量的DNA创建NGS文库方面具有出色的性能。
[0226] 实施例3
[0227] 全外显子组测序
[0228] 为了评估条形码化的单链文库构建在NGS中的性能,使用该方法进行WES测定,并将数据与通过用标准外显子富集程序的标准NGS文库制备而获得的数据进行比较。所有文库均使用来自癌症患者正常组织的100ng基因组DNA构建,并对每个样品进行3次技术重复。所有NGS运行均在相同的Illumina HiSeq 2500平台上进行,并且具有相同的运行技术规格。如图19A所示,从条形码化的单链文库构建衍生的WES中平均获得了1.88亿个读长,其中
98.3%与人类基因组一致,并且总读长计数比标准测序流水线的读长计数显著增加(1.6倍)。条形码化单链文库的读长数量较高,大概是由于超灵敏的单链DNA文库构建,以及更高效的可捕获两条DNA链的富集设计(包括从较小的单链断裂损伤到双链的重大损伤的DNA分子)。
[0229] 在相同的软件流水线上以相同的设置分析了所有NGS数据。过滤原始读长,以去除重复项、多个匹配、不正确的配对,和脱靶读长。过滤后平均保留75.4%的读长(图19A)。对于已去除的读长,有71.8%是脱靶读长,其被匹配到人类基因组但在靶标区域之外。PCR复制物占21.6%;以及剩下的读长被定位到基因组的多个位点或根本不定位(图19B)。在该实验中,在三个技术重复的所有规格测量中均未观察到统计学上的显著差异,这表明条形码化的单链文库构建流水线在技术上是高度可重复的(图19A和19B)。
[0230] 接下来,评估了覆盖效率和条形码化单链文库中测序深度之间的相关性。从500万到5000万的500万读长增量中随机选择经过滤的读长。使用随机选择的500至5000万个读长绘制覆盖至少10X、20X、50X和100X的深度的保留的靶上读长的分数(图19C)。2000万个读长可以覆盖近90%的目标碱基,深度不小于10X。读长达5000万,至少以20倍覆盖了90%以上的目标碱基。覆盖的效率不仅取决于条形码化的单链文库构建的效率,还取决于最初引入流水线中的经剪切分子的长度。对于当前的研究,经剪切的DNA分子的平均长度为150bp。我们对298基因组的实时PCR结果表明,条形码化的单链文库构建方法的富集效率不受GC含量的显著影响(图17A和17B)。
[0231] 为了评估GC含量对条形码化的单链文库WES结果的影响,针对GC含量绘制了标准化的平均读长深度。在条形码化的单链文库WES实验中,GC含量与读长深度之间存在相关性(图20A),并且在使用相同条形码化的单链文库的WGS研究中,这种偏差得以减少(图20B)。在条形码化单链文库测序中,平均读长深度比为GC50%/GC20%=1.55,这表明该方法的GC偏差低。
[0232] 实施例4
[0233] SNV的检测
[0234] 外显子组测序的最重要目标之一是鉴定引起疾病或具有临床意义的序列变体。为了评估条形码化的单链文库构建的序列变体鉴定性能的灵敏度和特异性,使用100ng基因组DNA进行了WES研究,该DNA来自同一癌症患者的一对正常和肿瘤组织样本。在这项研究中,相同的SNV调用流水线用于所有数据分析。简而言之,对通过条形码化单链文库构建方法创建的正常DNA文库进行测序,并使用标准数据分析流水线对数据进行分析,在该数据流水线中直接修剪单链条形码,并以3000万读长计数从正常的DNA样本的外显子序列中检测到78721个SNV(错误频率2.6×10-3,图18A)。接下来,我们使用标准的NGS数据分析工作流程调查了在条形码化单链文库中鉴定出的SNV是否存在任何偏差。转换率(ts/tv)比例通常用于评估新SNP调用的特异性。基于条形码化的单链文库的WES的靶标区域的ts/tv比经计算为2.766。然后,在CCDS外显子区域中确定的ts/tv比为3.225,其ts/tv比例落在对于外显子变体的3.0~3.3的范围内。
[0235] 然后检查了通过基于条形码化的单链文库的突变调用所鉴定的突变的准确性。按照“材料和方法”中介绍的4步数据分析程序,在步骤3)之后生成了超级读长。通过去除大多数PCR相关的错误,步骤1~3帮助将突变频率从2.6×10-3降低超过2个数量级,降至2.5×10-5(图18B)。该结果表明PCR相关的人工突变显著降低了NGS测序的准确性。为了使用NGS检测稀有突变,甚至是超稀有突变,必须对PCR错误进行校正。如第4步中所述,然后我们尝试通过使用互补DNA链提供的冗余序列信息来进一步减少突变调用的人为错误,这些互补DNA链最初来自同一DNA成对物分子。我们的结果表明,这种方法导致1.6×10-6的单碱基突变频率(图18B)。对于DNA序列中的任何单个碱基,在配对位置上具有完全相同的人为错误的可能性为1/3×(2.5×10-5)2=2.08×10-10,相当于每4.8×109个核苷酸一次人为错误。这是条形码化的单链文库NGS的理论错误率。每个步骤后的DNA序列数据总量和剩余数据量可在图23中找到,其中数据量的逐步下降与突变调用严格性的增加相关。
[0236] 为了确定针对临床相关突变的条形码化的单链文库构建的变体检测的准确性,以及并行地分析了从正常组织和肿瘤组织对产生的WES数据。对于所有评估的杂合外显子位置,将结果通过4步程序进行过滤。经过滤结果表明,基于条形码化的单链文库的WES研究鉴定了97种序列变体,这些变体是在肿瘤组织DNA样品中唯一检测到的,具有S≥100X的覆盖率。对40个中度至高丰度(>5%)变体进行Sanger测序验证,并确认38个(图24A-24E)。两个等位基因分数均较低且超出Sanger测序检测极限的两个变体均未通过验证。由于Sanger测序的灵敏度有限(Tsiatis,Norris-Kirby et al.2010),因此57个序列变体(突变体等位基因分数<5%)根本没有经过Sanger测序验证。
[0237] 实施例5
[0238] 条形码化的单链文库制备方案
[0239] 通过BioRuptor将基因组DNA片段碎片化为250bp
[0240] 开始之前至少45分钟打开BioRuptor和水浴(设定为3℃)。
[0241] 将最多1μg的DNA用1×TE缓冲液调节至57μl,置于BioRuptor微管中。
[0242] 用以下设置剪切以达到175bp的靶标大小范围:
[0243]设置 值
强度 H
开:关 30秒:90秒
循环 7
[0244] 通过与0.6×AMPure珠结合,去除大的基因组DNA片段。
[0245] 将上清液转移到新的试管中,然后用0.8×AMPure珠纯化。洗脱到30μl 1×TE缓冲液中。
[0246] 热变性和第一衔接子连接。
[0247] ddH2O中的DNA在lo-bind管中的体积为33μL。
[0248] 加入8μl CircLigase II 10×反应缓冲液。
[0249] 加入4μl 50mM MnCl2。
[0250] 添加1μl(1U)FastAP。
[0251] 在Eppendorf热混合器(带有加热纸盖的热循环仪)中于37℃孵育10分钟,然后于95℃孵育2分钟
[0252] 将反应管放入冰水浴中。
[0253] 加入32μl 50%PEG-8000
[0254] 添加1μl 10μM的如图8B所示第一衔接子
[0255] 强烈地涡旋以混合
[0256] 加入1μl CircLigase II(Epicentre)
[0257] 强烈地涡旋以混合
[0258] 在热循环仪中于60℃孵育3小时,然后保持在4℃。
[0259] 加入2μl终止液(98μl 0.5M EDTA(PH8.0)、2μlTween-20)
[0260] 冻结过夜
[0261] 将连接产物固定在链霉亲和素珠上
[0262] 用500μl珠子结合缓冲液(1M NaCl、10mM Tris-HCl pH 8.0、1mM EDTA、0.05%Tween-20、0.5%SDS)洗涤20μl MyOne C1珠子两次。
[0263] 重新悬浮于250μl的珠子结合缓冲液中,并转移至1.5ml的化管(Sigma-Aldrich)中。
[0264] 解冻反应混合物。
[0265] 在95℃下孵育反应混合物2分钟
[0266] 在冰水浴中冷却反应混合物。
[0267] 将反应混合物加入珠子中并上下吸移10次。
[0268] 在室温下将管旋转20分钟。
[0269] 去除上清液。
[0270] 用200μl洗涤缓冲液A(100mM NaCl、10mM Tris-HCl pH 8.0、1mM EDTA、0.05%Tween-20、0.5%SDS)洗涤珠子,并用200μl洗涤缓冲液B(100mM NaCl、10mM Tris-HClpH 8.0、1mM EDTA、0.05%Tween)洗涤一次。
[0271] 引物退火和延伸
[0272] 除去上清液。
[0273] 将珠子重悬于47μl反应混合物中:
[0274] 40.5μl水
[0275] 5μl 10×Thermopol缓冲液(New England Biolabs)
[0276] 0.5μl 25mM每种dNTP(Fermentas)
[0277] 1μl 100μM延伸引物
[0278] GTGACTGGAGTTCAGACGTGTGCTCTTGCTGAGG(即SEQ ID NO:916)
[0279] 在65℃下孵育2分钟。
[0280] 立即在冰水浴中冷却
[0281] 转移到预冷至15℃的热循环仪
[0282] 在热循环仪中时,添加3μl(24U)Bst 3.0DNA聚合酶(New England Biolabs)[0283] 在15℃下孵育反应5分钟,然后以不超过每分钟1℃的速率将反应温度缓慢升至37℃,然后将反应在37℃保持3分钟。
[0284] 每五分钟轻轻混合以保持珠子悬浮。
[0285] 丢弃上清液。
[0286] 用洗涤缓冲液A洗涤珠子。
[0287] 将珠子重悬于200μl严格洗涤缓冲液(0.1×SSC缓冲液(Sigma-Aldrich)、0.1%SDS)中。
[0288] 在热混合器中于45℃孵育3分钟。
[0289] 用200μl洗涤缓冲液B洗涤珠子。
[0290] 去除了3'突出端
[0291] 将珠子重悬于99μl的反应混合物中,该混合物包含:
[0292] 86.1μl水
[0293] 10μl 10×Tango缓冲液(Fermentas)
[0294] 2.5μl 1%吐温20
[0295] 0.4μl 25mM每种dNTP
[0296] 加入1μl(5U)T4 DNA聚合酶(Fermentas)。
[0297] 在热循环仪中于25℃孵育15分钟。
[0298] 每五分钟轻轻地混合以保持珠子悬浮。
[0299] 将10μl的EDTA(0.5M)添加至反应混合物并涡旋。
[0300] 用洗涤缓冲液A严格洗涤缓冲液在45℃用孵育3分钟洗涤珠子,然后再用如上所述洗涤缓冲液B洗涤珠子。
[0301] 制备用于连接的双链衔接子
[0302] 通过如下杂交两种寡核苷酸(如下所示的序列的双链衔接子寡核苷酸1和双链衔接子寡核苷酸2,)来产生100μM双链DNA衔接子溶液:在PCR反应管中,20μl 500μM DEEPER DS衔接子寡核苷酸1、20μl 500μM DEEPER DS衔接子寡核苷酸1、9.5μl TE缓冲液和0.5μl 5M NaCl合并。
[0303] 双链衔接子寡核苷酸1
[0304] CGACCCTCAGCC-ddC(SEQ ID NO:917,其中ddC=双脱氧胞嘧啶胞苷)
[0305] 双链衔接子寡核苷酸2
[0306] 磷酸-GGCTGAGGGTCGTGTAGGGAAAGAG*T*G*T*A(SEQ ID NO:918,其中*=PTO键)[0307] 将该混合物在热循环仪中于95℃孵育10秒,并以0.1℃/s的速度冷却至14℃。通过用50μl TE稀释达到100μM的最终浓度。
[0308] 第二衔接子的平末端连接和文库洗脱
[0309] 将珠重悬于98μl的反应混合物中,该反应混合物包含:
[0310] 73.5μl水
[0311] 10μl 10×T4 DNA连接酶缓冲液(Fermentas)
[0312] 10μl 50%PEG-4000(Fermentas)
[0313] 2.5μl 1%吐温20
[0314] 2μl 100μM衔接子CL53/73
[0315] 充分混合并添加2μl(10U)T4 DNA连接酶(Fermentas)。
[0316] 在热混合器中在25℃下孵育1小时。
[0317] 每二十分钟轻轻地混合以保持珠子悬浮。
[0318] 如上所述,用0.1×BWT+SDS(洗涤缓冲液A)、严格洗涤液和0.1×BWT(洗涤缓冲液B)洗涤珠子。
[0319] 将珠子重悬于25μl洗脱缓冲液(10mM Tris-HCl pH 8.0、0.05%Tween-20)中,并转移至单盖PCR管中。
[0320] 在带有加热盖的热循环仪中于95℃孵育5分钟。
[0321] 将上清液收集在新管中。
[0322] 文库扩增
[0323] 取1μl经连接的DNA进行测试PCR反应:
[0324] 通过将“每个反应”列中的数量乘以反应数量加一来制备预混料。按顺序添加以下内容:
[0325] 组分 每个反应体积(μl)水 34
DMSO 2.5
5×Phusion缓冲液 10
10mM dNTP 1
索引PE引物II 0.25
PE引物I 0.25
热启动Phusion 1
总共 49
[0326] 充分混合
[0327] 添加1μl DNA
[0328] 充分混合
[0329] 扩增条件:
[0330] 98℃下1分钟
[0331] 10~14个如下循环:
[0332] 98℃下20秒
[0333] 60℃下30秒
[0334] 72℃下30秒
[0335] 72℃下5分钟
[0336] 保持在4℃
[0337] PCR引物序列:
[0338] PE引物I:AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTT(SEQ ID NO:919)
[0339] 索引PE引物II:CAAGCAGAAGACGGCATACGAGAT-7mer索引-GTGACTGGAGTTCAGACGTGT(SEQ ID NO:920)
[0340] 对每个样品在两个孔中进行PCR,每个孔50μl。然后,使用比例为1:1(珠子:样品)的AMPure珠子纯化经扩增的PCR产物,并在30μl 1×TE缓冲液中洗脱。
[0341] 使用Qubit量化产量。通常,将获得~150ng/μl。
[0342] 参考文献
[0343] Cibulskis,K.,et al.(2013)."Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples."Nat Biotechnol 31(3):213-219.
[0344] Kerick,M.,et al.(2011)."Targeted high throughput sequencing in clinical cancer settings:formaldehyde fixed-paraffin embedded(FFPE)tumor tissues,input amount and tumor heterogeneity."BMC Med Genomics 4:68.[0345] McKenna,A.,et al.(2010)."The Genome Analysis Toolkit:a MapReduce framework for analyzing next-generation DNA sequencing data."Genome Res 20(9):1297-1303.
[0346] Tsiatis,A.C.,et al.(2010)."Comparison of Sanger sequencing,pyrosequencing,and melting curve analysis for the detection of KRAS mutations:diagnostic and clinical implications."J Mol Diagn 12(4):425-432.[0347] Untergasser,A.,et al.(2012)."Primer3--new capabilities and 
interfaces."Nucleic Acids Res40(15):e115.
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈