用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用专利检索-巴氏涂片诊断设备和程序专利检索查询-专利查询网

用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用

阅读：781发布：2020-06-25

专利汇可以提供用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用专利检索，专利查询，专利分析的服务。并且本技术一般涉及用于靶向核酸序列富集的方法和组合物，以及此类富集用于错误纠正的核酸测序应用的用途。在一些实施例中，以这种方式使用双链核酸复合物中独特标记的链的组合，核酸材料的高度准确、错误纠正和大规模平行测序是可能的，所述方式使得每条链可以与其互补链在信息上相关，但在每条链或由其衍生的扩增产物测序后也与其互补链区别开。在各种实施例中，该信息可以用于所测定序列的错误纠正的目的。，下面是用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用专利的具体信息内容。

权利要求

1.一种方法，其包括：
提供包含一种或多种双链核酸分子的双链核酸材料，其中每个双链核酸分子包含在每条链上的单分子标识符序列、以及在核酸分子的5′和/或3′末端中的至少一个上的衔接子，并且其中对于每个核酸分子，第一衔接子序列与所述核酸分子的第一链相关，并且第二衔接子序列与所述核酸分子的第二链相关；
扩增所述核酸材料；
将所述扩增的核酸材料分离成第一样品和第二样品；
通过使用对所述第一衔接子序列特异性的引物，扩增所述第一样品中的第一链，以提供第一核酸产物；
通过使用对所述第二衔接子序列特异性的引物，扩增所述第二样品中的第二链，以提供第二核酸产物；
对所述第一核酸产物和第二核酸产物各自进行测序；以及
比较所述第一核酸产物的序列与所述第二核酸产物的序列。
2.根据权利要求1所述的方法，其中所述核酸材料是或包含双链DNA和双链RNA中的至少一种。
3.根据权利要求1或权利要求2所述的方法，其中所述提供步骤包括：
将双链核酸材料连接到至少一个简并或半简并条形码序列，以形成双链核酸分子条形码复合物，其中所述条形码序列包含单分子标识符序列。
4.根据权利要求1或权利要求2所述的方法，其中所述单分子标识符序列是简并或半简并条形码序列中的至少一种、所述核酸材料的一个或多个核酸片段末端或其组合，其独特地标记所述双链核酸分子。
5.根据权利要求1或权利要求2所述的方法，其中所述单分子标识符序列包含内源剪切点或可以与所述剪切点在位置上相关的内源序列。
6.根据权利要求1-5中任一项所述的方法，其中扩增所述核酸材料包括生成源自所述第一链的多个扩增子和源自所述第二链的多个扩增子。
7.根据权利要求1-6中任一项所述的方法，其中扩增所述第一样品中的核酸材料包括：
使用与所述第一衔接子序列中存在的序列至少部分互补的至少一种单链寡核苷酸、以及与目的靶序列至少部分互补的至少一种单链寡核苷酸，扩增源自来自原始双链核酸分子的单条核酸链的核酸材料，使得所述单分子标识符序列至少部分得到维持。
8.根据权利要求1-7中任一项所述的方法，其中扩增所述第二样品中的核酸材料包括：
使用与所述第二衔接子序列中存在的序列至少部分互补的至少一种单链寡核苷酸、以及与目的靶序列至少部分互补的至少一种单链寡核苷酸，扩增源自来自原始双链核酸分子的单条核酸链的核酸材料，使得所述单分子标识符序列至少部分得到维持。
9.根据上述权利要求中任一项所述的方法，其中所述核酸材料中的至少一些是受损的。
10.根据权利要求9所述的方法，其中所述损伤是或包含以下中的至少一种：氧化、烷基化、脱氨基、甲基化、水解、羟基化、产生切口、链内交联、链间交联、平端链断裂、交错末端双链断裂、磷酸化、去磷酸化、SUMO化、糖基化、去糖基化、putrescinylation、羧化、卤化、甲酰化、单链间隙、来自热的损伤、来自干燥的损伤、来自UV暴露的损伤、来自γ 辐射的损伤、来自X射线的损伤、来自电离辐射的损伤、来自非电离辐射的损伤、来自重粒子辐射的损伤、来自核衰变的损伤、来自β辐射的损伤、来自α辐射的损伤、来自中子辐射的损伤、来自质子辐射的损伤、来自宇宙辐射的损伤、来自高pH的损伤、来自低pH的损伤、来自活性氧化物种的损伤、来自自由基的损伤、来自过氧化物的损伤、来自次氯酸盐的损伤、来自组织固定如福尔马林或甲醛的损伤、来自活性铁的损伤、来自低离子条件的损伤、来自高离子条件的损伤、来自无缓冲条件的损伤、来自核酸酶的损伤、来自环境暴露的损伤、来自火灾的损伤、来自机械应力的损伤、来自酶促降解的损伤、来自微生物的损伤、来自制备性机械剪切的损伤、来自制备性酶促断裂的损伤、在体内已自然发生的损伤、在核酸提取期间已发生的损伤、在测序文库制备期间已发生的损伤、由聚合酶引入的损伤、在核酸修复期间已引入的损伤、在核酸末端加尾期间已发生的损伤、在核酸连接期间已发生的损伤、在测序期间已发生的损伤、由于DNA的机械处理已发生的损伤、在通过纳米孔期间已发生的损伤、作为生物衰老的部分已发生的损伤、由于个体的化学暴露已发生的损伤、已通过诱变剂发生的损伤、已通过致癌物发生的损伤、已通过诱裂剂发生的损伤、由于体内炎症已发生的损伤、由于氧暴露的损伤、由于一个或多条链断裂的损伤及其任何组合。
11.根据上述权利要求中任一项所述的方法，其中所述核酸材料由包含源自受试者或生物的一种或多种双链核酸分子的样品提供。
12.根据权利要求11所述的方法，其中所述样品是或包含身体组织，活组织切片、皮肤样品、血液、血清、血浆、汗液、唾液、脑脊髓液、粘液、子宫灌洗液、阴道拭子、巴氏涂片、鼻拭子、口腔拭子、组织刮片、毛发、指纹、尿、粪便、玻璃体液、腹膜冲洗液、痰、支气管灌洗液、口腔灌洗液、胸腔灌洗液、胃灌洗液、胃液、胆汁、胰管灌洗液、胆管灌洗液、胆总管灌洗液、胆囊液、滑液、感染伤口、未感染伤口、考古样品、法医样品、水样、组织样品、食物样品、生物反应器样品、植物样品、细菌样品、原生动物样品、真菌样品、动物样品、病毒样品、多生物样品、指甲刮片、精液、前列腺液、阴道液、阴道拭子、输卵管灌洗液、细胞游离核酸、细胞内核酸、宏基因组学样品、植入异物的灌洗液或拭子、鼻灌洗液、肠液、上皮刷洗液、上皮灌洗液、组织活组织切片、尸检样品、尸体剖检样品、器官样品、人体鉴定样品、非人体鉴定样品、人工产生的核酸样品、合成基因样品、库存或贮存样品、肿瘤组织、胎儿样品、器官移植样品、微生物培养样品、核DNA样品、线粒体DNA样品、叶绿体DNA样品、顶质体DNA样品、细胞器样品及其任何组合。
13.根据上述权利要求中任一项所述的方法，其中所述核酸材料包含基本上或接近均匀长度的核酸分子。
14.根据权利要求13所述的方法，其中所述基本上均匀的长度在约1至约1,000,000个碱基之间。
15.根据权利要求13或权利要求14所述的方法，其中经由靶向核酸内切酶，将所述核酸材料切割成具有基本上或接近均匀长度的核酸分子。
16.根据权利要求1-12中任一项所述的方法，其中所述核酸材料包含长度在一个或多个基本上已知的大小范围内的核酸分子。
17.根据权利要求16所述的方法，其中所述核酸分子在1至约1,000,000个碱基之间、在约10至约10,000个碱基之间、在约100至约1000个碱基之间、在约100至约600个碱基之间、在约100至约500个碱基之间，或为其某些组合。
18.根据上述权利要求中任一项所述的方法，其中在所述提供步骤之前，所述方法包括：
用一种或多种靶向核酸内切酶切割所述核酸材料，使得形成基本上已知长度的靶核酸片段；以及
基于所述基本上已知的长度分离所述靶核酸片段。
19.根据权利要求18所述的方法，其中所述一种或多种靶向核酸内切酶选自核糖核蛋白、Cas酶、Cas9样酶、大范围核酸酶、基于转录激活因子样效应物的核酸酶(TALEN)、锌指核酸酶、argonaute核酸酶或其组合。
20.根据权利要求18或权利要求19所述的方法，其中所述一种或多种靶向核酸内切酶包含Cas9或CPF1或其衍生物。
21.根据权利要求18-20中任一项所述的方法，其还包括在所述提供步骤之前，将所述衔接子连接到靶核酸片段。
22.根据权利要求18-21中任一项所述的方法，其中所述靶核酸片段源于受试者或生物。
23.根据权利要求18-21中任一项所述的方法，其中所述靶核酸片段至少部分是人工合成的。
24.根据权利要求18-23中任一项所述的方法，其中切割所述核酸材料包括用一种或多种靶向核酸内切酶切割所述核酸材料，使得形成具有基本上已知长度的多于一种靶核酸片段。
25.根据权利要求24所述的方法，其中所述靶核酸片段具有不同的基本上已知的长度。
26.根据权利要求24所述的方法，其中所述靶核酸片段各自包含来自基因组中的一个或多个不同位置的目的基因组序列。
27.根据权利要求24所述的方法，其中所述靶核酸片段各自包含来自所述核酸材料内的基本上已知区域的靶向序列。
28.根据权利要求18-27中任一项所述的方法，其中基于所述基本上已知的长度分离所述靶核酸片段包括通过凝胶电泳、凝胶纯化、液相层析、尺寸排阻纯化、过滤或SPRI珠纯化来富集所述靶核酸片段。
29.根据上述权利要求中任一项所述的方法，其中至少一个扩增步骤包括至少一种引物，所述至少一种引物是或包含至少一种非标准核苷酸。
30.根据上述权利要求中任一项所述的方法，其中至少一种衔接子序列是或包含至少一种非标准核苷酸。
31.根据权利要求29或权利要求30所述的方法，其中所述非标准核苷酸选自尿嘧啶、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代-鸟嘌呤、生物素化核苷酸、脱硫生物素核苷酸、硫醇修饰的核苷酸、acrydite修饰的核苷酸、异dC、异dG、2′-O-甲基核苷酸、肌苷核苷酸、锁核酸、肽核酸、5甲基dC、5-溴脱氧尿苷、2，6-二氨基嘌呤、2-氨基嘌呤核苷酸、脱碱基核苷酸、5-硝基吲哚核苷酸、腺苷酸化核苷酸、叠氮核苷酸、地高辛核苷酸、I-接头、5′己炔基修饰的核苷酸、5-辛二炔基dU、光可切割间隔物、非光可切割间隔物、点击化学相容的修饰核苷酸、荧光染料、生物素、呋喃、BrdU、氟-dU、loto-dU及其任何组合。
32.根据上述权利要求中任一项所述的方法，其中对所述第一核酸产物和第二核酸产物各自进行测序包括：
比较所述第一核酸产物中多条链的序列，以确定第一链共有序列；以及
比较所述第二核酸产物中多条链的序列，以确定第二链共有序列。
33.根据权利要求32所述的方法，其中比较所述第一核酸产物的序列与所述第二核酸产物的序列包括比较所述第一链共有序列和所述第二链共有序列，以提供错误纠正的共有序列。
34.根据上述权利要求中任一项所述的方法，其中对第一核酸产物和第二核酸产物各自进行测序包括：
测序所述第一链中的至少一条，以确定第一链序列读数；
测序所述第二链中的至少一条，以确定第二链序列读数；以及
比较所述第一链序列读数和所述第二链序列读数，以生成错误纠正的序列读数。
35.根据权利要求34所述的方法，其中所述错误纠正的序列读数包括在所述第一链序列读数和所述第二链序列读数之间一致的核苷酸碱基。
36.根据权利要求34或权利要求35所述的方法，其中在所述错误纠正的序列读数中的特定位置处发生的变异被鉴定为真实变体。
37.根据权利要求34-36中任一项所述的方法，其中在所述第一链序列读数或所述第二链序列读数中的仅一个中的特定位置处发生的变异被鉴定为潜在的人工产物。
38.根据权利要求34-36中任一项所述的方法，其中所述错误纠正的序列读数用于鉴定或表征在双链靶核酸分子源自其的生物或受试者中的癌症、癌症风险、癌症突变、癌症代谢状态、突变体表型、致癌物暴露、毒素暴露、慢性炎症暴露、年龄、神经退行性疾病、病原体、抗药变体、胎儿分子、法医相关分子、免疫相关分子、突变的T细胞受体、突变的B细胞受体、突变的免疫球蛋白基因座、基因组中的kategis位点、基因组中的高突变位点、低频变体、亚克隆变体、次要分子群体、污染源、核酸合成错误、酶促修饰错误、化学修饰错误、基因编辑错误、基因治疗错误、核酸信息贮存片、微生物准种、病毒准种、器官移植、器官移植排斥、癌症复发、治疗后残留癌症、肿瘤前状态、发育不良状态、微嵌合状态、干细胞移植状态、细胞治疗状态、附着至另一种分子的核酸标记或其组合。
39.根据权利要求34-36中任一项所述的方法，其中所述错误纠正的序列读数用于鉴定诱变化合物或暴露。
40.根据权利要求34-36中任一项所述的方法，其中所述错误纠正的序列读数用于鉴定致癌化合物或暴露。
41.根据权利要求34-36中任一项所述的方法，其中所述核酸材料源自法医样品，并且其中所述错误纠正的序列读数用于法医分析中。
42.根据上述权利要求中任一项所述的方法，其中至少一个扩增步骤包括聚合酶链反应(PCR)。
43.根据上述权利要求中任一项所述的方法，其中最初提供至多1000ng核酸材料。
44.根据上述权利要求中任一项所述的方法，其中最初提供至多10ng核酸材料。
45.根据权利要求1-44中任一项所述的方法，其中扩增所述第一样品中的核酸材料还包括在所述分离步骤后且在所述第一样品扩增前，破坏或破裂在所述核酸材料上发现的第二衔接子序列。
46.根据权利要求1-45中任一项所述的方法，其中扩增所述第二样品中的核酸材料还包括在所述分离步骤后且在所述第二样品扩增前，破坏或破裂在所述核酸材料上发现的第一衔接子序列。
47.根据权利要求45或权利要求46所述的方法，其中所述破坏包括以下中的至少一种：
酶促消化、至少一种复制抑制分子的包括、酶促切割、一条链的酶促切割、两条链的酶促切割、修饰核酸的掺入随后为导致一条链或两条链切割的酶促处理、复制阻断核苷酸的掺入、链终止子的掺入、光可切割接头的掺入、尿嘧啶的掺入、核糖基的掺入、8-氧代-鸟嘌呤加合物的掺入、限制性核酸内切酶的使用、靶向核酸酶的使用及其任何组合。
48.根据上述权利要求中任一项所述的方法，其中扩增包括滚环扩增、多重置换扩增、等温扩增、桥式扩增或表面结合扩增。
49.根据上述权利要求中任一项所述的方法，其中扩增所述核酸材料包括与目的序列至少部分互补的单链寡核苷酸、以及与衔接子的区域至少部分互补的单链寡核苷酸的使用。
50.根据上述权利要求中任一项所述的方法，其中所述核酸材料包含在所述核酸材料的每条链的5′和3′末端各自上的衔接子。
51.根据权利要求50所述的方法，其中扩增所述核酸材料包括与所述第一衔接子序列和所述第二衔接子序列的区域至少部分互补的单链寡核苷酸的使用。
52.根据上述权利要求中任一项所述的方法，其中所述衔接子包含至少一个核苷酸位置，所述核苷酸位置是至少部分非互补的或包含至少一种非标准碱基。
53.根据上述权利要求中任一项所述的方法，其中所述衔接子包含由约5个或更多个自互补核苷酸形成的单个“U形”寡核苷酸序列。
54.一种方法，其包括：
提供双链核酸材料，其中由于用靶向核酸内切酶切割，所述核酸材料在约1至1,000,
000个碱基之间，并且其中所述核酸材料包含在所述核酸材料的每条链上的单分子标识符序列、以及在所述核酸材料的每条链的5′和3′末端中的至少一个上的衔接子序列，其中第一衔接子序列位于所述核酸材料的第一链的5′末端或3′末端之一上，并且第二衔接子序列位于所述核酸材料的第二链的相对末端上，并且其中所述第一链和所述第二链源于相同的双链核酸分子；
扩增所述核酸材料；
将所述扩增的核酸材料分离成第一样品和第二样品；
通过使用对所述第一衔接子序列特异性的引物，扩增所述第一样品中的第一链，以提供第一核酸产物；
通过使用对所述第二衔接子序列特异性的引物，扩增所述第二样品中的第二链，以提供第二核酸产物；
对所述第一核酸产物和第二核酸产物各自进行测序；以及
比较所述第一核酸产物的序列与所述第二核酸产物的序列。
55.根据上述权利要求中任一项所述的方法，其中所述核酸材料包含源自多于一种来源的核酸材料。

说明书全文

用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的

应用

[0001] 相关申请的交叉引用

[0002] 本申请要求于2017年3月23日提交的美国临时专利申请号62/475,682、以及于2017年10月23日提交的美国临时专利申请号62/575,958的优先权，所述美国临时专利申请
的公开内容以引用的方式在此整体并入。

[0003] 政府利益声明

[0004] 本发明在由美国国立卫生研究院(National Institutes of Health)授予的批准号R01 CA160674和R01 CA181308、以及由美国陆军研究办公室(U.S.Army Research
Office)授予的批准号W911NF-15-2-0127的政府支持下完成。政府拥有本发明的某些权利。

背景技术

[0005] 某些类型的遗传分析例如法医DNA分析的先前方法，依赖PCR扩增子的毛细管电泳(CE)分离(PCR-CE)，以鉴定短串联重复序列中的长度多态性。自其在约1991年推出以来，这种类型的分析已被证明是非常有价值的。从那时起，一些出版物已引入了标准化协议，验证了其在世界各地的实验室中的应用，并且详细说明了其在许多不同人群中的使用且引入了
更高效的方法，例如miniSTR。

[0006] 虽然该方法已被证明是非常成功的，但该技术具有限制其实用性的许多缺点。例如，当前的STR基因分型方法经常引起来源于PCR打滑(PCR stutter)的背景信号，这由聚合酶在模板DNA上的滑动引起，并且导致在最终完成的反应中不同长度的PCR扩增子的混合
物。这个问题在具有多于一个贡献者的样品中尤为重要(例如，源自不同特定个体的DNA的
混合物，所述个体具有携带不同STR长度变体的特定基因构成)，由于难以区别打滑等位基
因与真正的等位基因。当分析降解的DNA样品时出现另一个问题。受损的DNA可以恶化打滑
和PCR错误的程度。片段长度中的变化经常导致显著更低或甚至不存在更长的PCR片段。因
而，来自降解DNA的毛细血管电泳图谱经常具有较低的区别力。

[0007] 大规模平行测序(MPS，有时也称为下一代DNA测序，NGS)系统的引入具有解决法医分析中的几个挑战性问题的潜力。例如，这些平台提供了以前无与伦比的能力，以允许同时分析核和线粒体DNA(mtDNA)中的STR和单核苷酸多态性(SNP)，这将急剧增加个体间的区别
力，并且提供确定种族性且甚至身体属性(表型)的可能性。此外，与仅仅报道分子的聚集群体的平均基因型的PCR-CE不同，MPS技术以数字方式将许多个别DNA分子的完整核苷酸序列
制表，因此提供了检测异质DNA混合物内的次要等位基因频率(MAF)的独特能力。因为包含
两个或更多个贡献者的法医样品仍然是法医学中最棘手的问题之一，所以MPS对法医学领
域的影响可能是巨大的。

[0008] 人基因组的公布突出显示了MPS平台的巨大力量。然而，直到最近，由于读数长度明显短于短串联重复(STR)基因座，这些平台的完全能力对法医学具有有限用途，排除了调用基于长度的基因型的能力。最初，焦磷酸测序仪(pyrosequencer)，例如MPS Roche 454平台，是具有足够读数长度以对核心标准STR基因座进行测序的唯一平台。然而，竞争技术中的读数长度已增加，因此使其用于法医应用的效用得以发挥。总之，不管平台如何，所有这些研究的一般结果是STR都可以成功输入，甚至由受损的法医样品也产生与CE分析可比较
的基因型。

[0009] 虽然许多研究显示与传统PCR-CE方法的一致性，且甚至指示另外益处如STR内SNP(单核苷酸多态性)的检测，但它们也已突出显示了关于该技术的许多当前问题。例如，STR基因分型的当前MPS方法依赖多重PCR，以提供足够的DNA来测序且引入PCR引物。然而，因为多重PCR 试剂盒设计用于PCR-CE，所以它们含有用于具有各种大小的扩增子的引物。这种变化导致覆盖不平衡，具有朝向较小片段的扩增的偏差，这可以导致等位基因遗漏。实际上，最近的研究已显示，PCR效率中的差异可以影响混合物组分，尤其在低MAF下。

[0010] 类似于PCR-CE，MPS不免受PCR打滑发生的影响。关于STR的绝大多数MPS研究都报道了人为滴入等位基因的出现。最近，系统性MPS研究报道，大多数打滑事件表现为较短长度的多态性，其不同于以四个碱基对单元的真正的等位基因，其中最常见的是n-4，但也观察到n-8和n-12位置。打滑百分比通常在～1％的读数中发生，但在某些基因座处可以高达
3％，指示MPS可以显示出比PCR-CE更高比率的打滑。

[0011] 已开发了在方案开发、化学/生物化学和数据处理水平上的各种方法，以减轻MPS应用中基于PCR的错误的影响。另外，在扩增之前或扩增期间基于独特的随机剪切点或经由加上外源标签(即使用分子条形码，也称为分子标签、独特的分子标识符[UMI]和单分子标
识符[SMI])可以由此分辨起于各个DNA片段的PCR重复的技术是常用的。该方法已用于改善
DNA和RNA模板的计数准确度。因为可以明确鉴定源自单个起始分子的所有扩增子，所以加
上相同标签的测序读数的序列中的任何变异可以用于校正在PCR或测序期间出现的碱基错
误。例如，Kinde等人(Proc Natl Acad Sci USA 108，9530-9535，2011)引入SafeSeqS，其通过将共享条形码测序且形成共有序列的PCR拷贝分组，使用单链分子编条形码来减少测序
的错误率。这种方法导致关于点突变0.5％的平均检测限，但其对STR基因座的有效性仍未
进行广泛评估。

[0012] 另一种最近描述的方法，MIPSTR，使用通过单分子的分子倒置探针(Molecular Inversion Probe)(smMIP)对侧接STR基因座的序列特异性退火，来靶向捕获STR基因座。在smMIP的3′末端的聚合酶延伸后，末端被连接且经受PCR扩增和测序。对STR基因座的侧翼区特异性的MIP的使用显著增加靶特异性，且增加对STR基因座进行基因分型的准确性。然而，更如同Safe-SeqS，单链分子条形码的掺入不能完全消除在第一轮扩增中出现的PCR人工产
物，其作为“头奖(jackpot)”事件被携带到衍生拷贝上。

[0013] 用于STR基因座、单核苷酸多态性(SNP)基因座以及许多其它形式的突变和遗传变体的更高准确度基因分型的方法，在法医学、医学、科学工业的各种应用中是期望的。然而，一个挑战是如何以尽可能最高的可靠性但以合理的成本，从测序的遗传材料的许多相关拷
贝最有效地生成序列信息。各种共有序列测序方法(基于分子条形码和非基于分子条形码
两种)已成功用于错误纠正，以帮助更好地鉴定混合物中的变体(关于详细讨论，参见
J.Salk等人，Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations，Nature Reviews Genetics，2018)，但在性能上具有各种折衷。我们先前已描述了双重测序，这是一种超高准确度测序方法，其依赖基因分型和比较双链核酸分子测序的独立链，用于错误纠正的目的。本文链接的技术描述了用于改善成本
效率、恢复效率和其它性能度量，以及用于双重测序和相关MPS测序方法的总体处理速度的方法。

发明内容

[0014] 本技术一般涉及用于靶向核酸序列富集的方法，以及此类富集用于错误纠正的核酸测序应用的用途。在一些实施例中，以这种方式使用双链核酸复合物中独特标记的链的
组合，核酸材料的高度准确、错误纠正和大规模平行测序是可能的，所述方式使得每条链可以与其互补链在信息上相关，但在每条链或由其衍生的扩增产物测序后也与其互补链区别
开，并且该信息可以用于所测定序列的错误纠正的目的。本技术的一些方面提供了用于改
善成本、测序分子的转化和生成用于靶向超高准确度测序的标记分子的时间效率的方法和
组合物。在一些实施例中，提供的方法和组合物允许准确分析非常少量的核酸材料(例如，来自取自犯罪现场的样品或者来自小型临床样品或在血液中自由漂浮的DNA)。在一些实施
例中，提供的方法和组合物允许检测核酸材料的样品中的突变，所述突变存在的频率小于
一百个细胞或分子之一(例如，小于一千个细胞或分子之一、小于一万个细胞或分子之一、或小于十万个细胞或分子之一)。

[0015] 在一些实施例中，本公开内容提供了包括提供双链核酸材料的步骤的方法，并且其中所述核酸材料包含在所述核酸材料的每条链上的单分子标识符序列、以及在所述核酸
材料的每条链的5′和3′末端中的至少一个上的衔接子序列，其中第一衔接子序列位于所述核酸材料的第一链的5′末端或3′末端之一上，并且第二衔接子序列位于所述核酸材料的第二链的相对末端上，并且其中所述第一链和所述第二链源于相同的双链核酸分子；扩增所
述核酸材料；将所述扩增的核酸材料分离成第一样品和第二样品；通过使用对所述第一衔
接子序列特异性的引物，扩增所述第一样品中的第一链，以提供第一核酸产物；通过使用对所述第二衔接子序列特异性的引物，扩增所述第二样品中的第二链，以提供第二核酸产物；
对所述第一核酸产物和第二核酸产物各自进行测序；以及比较所述第一核酸产物的序列与
所述第二核酸产物的序列。在一些实施例中，核酸材料包含在核酸材料的每条链的5′和3′末端各自上的衔接子序列。

[0016] 在一些实施例中，本公开内容提供了包括提供包含一种或多种双链核酸分子的双链核酸材料的步骤的方法，其中每个双链核酸分子包含在每条链上的单分子标识符序列、
以及在核酸分子的5′和/或3′末端中的至少一个上的衔接子，并且其中对于每个核酸分子，第一衔接子序列与所述核酸分子的第一链相关，并且第二衔接子序列与所述核酸分子的第
二链相关；扩增所述核酸材料；将所述扩增的核酸材料分离成第一样品和第二样品；通过使用对所述第一衔接子序列特异性的引物，扩增所述第一样品中的第一链，以提供第一核酸
产物；通过使用对所述第二衔接子序列特异性的引物，扩增所述第二样品中的第二链，以提供第二核酸产物；对所述第一核酸产物和第二核酸产物各自进行测序；以及比较所述第一
核酸产物的序列与所述第二核酸产物的序列。在一些实施例中，核酸材料包含在核酸材料
的每条链的5′和3′末端各自上的衔接子序列。

[0017] 在一些实施例中，本公开内容还提供了包括提供双链核酸材料的步骤的方法，其中由于用靶向核酸内切酶(例如，CRISPR相关(Cas)酶/引导RNA复合物，例如Cas9或Cpf1、大范围核酸酶、基于转录激活因子样效应物的核酸酶(TALEN)、锌指核酸酶、argonaute核酸酶等)切割，所述核酸材料已被切割以提供具有基本上相似长度(例如，在约1至1,000,000个
碱基之间、在10至1,000个碱基之间、或在约100至500个碱基之间)的核酸材料链，并且其中所述核酸材料包含在所述核酸材料的每条链上的单分子标识符序列、以及在所述核酸材料
的每条链的5′和3′末端中的至少一个上的衔接子序列，其中第一衔接子序列位于所述核酸材料的第一链的5′末端或3′末端之一上，并且第二衔接子序列位于所述核酸材料的第二链的相对末端上，并且其中所述第一链和所述第二链源于相同的双链核酸分子；扩增所述核
酸材料；将所述扩增的核酸材料分离成第一样品和第二样品；通过使用对所述第一衔接子
序列特异性的引物，扩增所述第一样品中的第一链，以提供第一核酸产物；通过使用对所述第二衔接子序列特异性的引物，扩增所述第二样品中的第二链，以提供第二核酸产物；对所述第一核酸产物和第二核酸产物各自进行测序；以及比较所述第一核酸产物的序列与所述
第二核酸产物的序列。在一些实施例中，核酸材料包含在核酸材料的每条链的5′和3′末端各自上的衔接子序列。

[0018] 在一些实施例中，对第一核酸产物和第二核酸产物各自进行测序包括以下步骤：测序第一链中的至少一条，以确定第一链序列读数；测序第二链中的至少一条，以确定第二链序列读数；以及比较第一链序列读数和第二链序列读数，以生成错误纠正的序列读数。在一些实施例中，错误纠正的序列读数包括在第一链序列读数和第二链序列读数之间一致的
核苷酸碱基。在一些实施例中，在错误纠正的序列读数中的特定位置处发生的变异被鉴定
为真实变体。在一些实施例中，在第一链序列读数或第二链序列读数中的仅一个中的特定
位置处发生的变异被鉴定为潜在的人工产物。

[0019] 在一些实施例中，错误纠正的序列读数用于鉴定或表征在双链靶核酸分子源自其的生物或受试者中的癌症、癌症风险、癌症突变、癌症代谢状态、突变体表型、致癌物暴露、毒素暴露、慢性炎症暴露、年龄、神经退行性疾病、病原体、抗药变体、胎儿分子、法医相关分子、免疫相关分子、突变的T细胞受体、突变的B细胞受体、突变的免疫球蛋白基因座、基因组中的kategis位点、基因组中的高突变位点、低频变体、亚克隆变体、次要分子群体、污染源、核酸合成错误、酶促修饰错误、化学修饰错误、基因编辑错误、基因治疗错误、核酸信息贮存片、微生物准种、病毒准种、器官移植、器官移植排斥、癌症复发、治疗后残留癌症、肿瘤前状态、发育不良状态、微嵌合状态、干细胞移植状态、细胞治疗状态、附着至另一种分子的核酸标记或其组合。在一些实施例中，错误纠正的序列读数用于鉴定致癌化合物或暴露。在一些实施例中，错误纠正的序列读数用于鉴定诱变化合物或暴露。在一些实施例中，核酸材料源自法医样品，并且错误纠正的序列读数用于法医分析中。

[0020] 在一些实施例中，单分子标识符序列包含内源剪切点或可以与所述剪切点在位置上相关的内源序列。在一些实施例中，单分子标识符序列是简并或半简并条形码序列中的
至少一种、核酸材料的一个或多个核酸片段末端或其组合，其独特地标记所述双链核酸分
子。在一些实施例中，衔接子和/或衔接子序列包含至少一个核苷酸位置，所述核苷酸位置是至少部分非互补的或包含至少一种非标准碱基。在一些实施例中，衔接子包含由约5个或更多个自互补核苷酸形成的单个“U形”寡核苷酸序列。

[0021] 根据各种实施例，可以使用多种核酸材料中的任一种。在一些实施例中，核酸材料可以包含对经典糖-磷酸主链内的多核苷酸的至少一种修饰。在一些实施例中，核酸材料可以包含核酸材料中的任何碱基内的至少一个修饰。例如，作为非限制性例子，在一些实施例中，核酸材料是或包含双链DNA、双链RNA、肽核酸(PNA)、锁核酸(LNA)中的至少一种。

[0022] 在一些实施例中，提供步骤包括将双链核酸材料连接到至少一个双链简并条形码序列，以形成双链核酸分子条形码复合物，其中所述双链简并条形码序列包含在每条链中
的单分子标识符序列。

[0023] 在一些实施例中，扩增第一样品中的核酸材料包括通过使用对第一衔接子序列特异性的引物以及对第一链的非衔接子部分特异性的第二引物，来扩增第一样品中的第一
链，以提供第一核酸产物。在一些实施例中，通过使用对第二衔接子序列特异性的引物以及对第二链的非衔接子部分特异性的第二引物，来扩增第二样品中的第二链，以提供第二核
酸产物。

[0024] 在一些实施例中，扩增第一样品中的核酸材料包括使用与第一衔接子序列中存在的序列至少部分互补的至少一种单链寡核苷酸、以及与目的靶序列至少部分互补的至少一
种单链寡核苷酸，扩增源自来自原始双链核酸分子的单条核酸链的核酸材料，使得单分子
标识符序列至少部分得到维持。

[0025] 在一些实施例中，扩增第二样品中的核酸材料包括使用与所述第二衔接子序列中存在的序列至少部分互补的至少一种单链寡核苷酸、以及与目的靶序列至少部分互补的至
少一种单链寡核苷酸，扩增源自来自原始双链核酸分子的单条核酸链的核酸材料，使得所
述单分子标识符序列至少部分得到维持。

[0026] 在一些实施例中，扩增核酸材料包括生成源自第一链的多个扩增子和源自第二链的多个扩增子。

[0027] 在一些实施例中，提供的方法还包括在提供步骤之前的以下步骤：用一种或多种靶向核酸内切酶切割核酸材料，使得形成具有基本上已知长度的靶核酸片段；并且基于基
本上已知的长度分离靶核酸片段。在一些实施例中，提供的方法还包括在提供步骤之前，将衔接子(例如衔接子序列)连接到靶核酸(例如靶核酸片段)。

[0028] 在一些实施例中，核酸材料可以是或包含一种或多种靶核酸片段。在一些实施例中，一种或多种靶核酸片段各自包含来自基因组中的一个或多个位置的目的基因组序列。
在一些实施例中，一种或多种靶核酸片段包含来自核酸材料内的基本上已知区域的靶向序
列。在一些实施例中，基于基本上已知的长度分离靶核酸片段包括通过凝胶电泳、凝胶纯
化、液相层析、尺寸排阻纯化、过滤或SPRI珠纯化来富集靶核酸片段。

[0029] 根据各种实施例，一些提供的方法在测序核酸材料的各种亚最佳(例如，受损或降解)样品中的任一种可以是有用的。例如，在一些实施例中，核酸材料中的至少一些是受损的。在一些实施例中，损伤是或包含以下中的至少一种：氧化、烷基化、脱氨基、甲基化、水解、羟基化、产生切口、链内交联、链间交联、平端链断裂、交错末端双链断裂、磷酸化、去磷酸化、SUMO化、糖基化、去糖基化、putrescinylation、羧化、卤化、甲酰化、单链间隙、来自热的损伤、来自干燥的损伤、来自UV暴露的损伤、来自γ 辐射的损伤、来自X射线的损伤、来自电离辐射的损伤、来自非电离辐射的损伤、来自重粒子辐射的损伤、来自核衰变的损伤、来自β辐射的损伤、来自α辐射的损伤、来自中子辐射的损伤、来自质子辐射的损伤、来自宇宙辐射的损伤、来自高pH的损伤、来自低pH的损伤、来自活性氧化物种的损伤、来自自由基的损伤、来自过氧化物的损伤、来自次氯酸盐的损伤、来自组织固定如福尔马林或甲醛的损
伤、来自活性铁的损伤、来自低离子条件的损伤、来自高离子条件的损伤、来自无缓冲条件的损伤、来自核酸酶的损伤、来自环境暴露的损伤、来自火灾的损伤、来自机械应力的损伤、来自酶促降解的损伤、来自微生物的损伤、来自制备性机械剪切的损伤、来自制备性酶促断裂的损伤、在体内已自然发生的损伤、在核酸提取期间已发生的损伤、在测序文库制备期间已发生的损伤、由聚合酶引入的损伤、在核酸修复期间已引入的损伤、在核酸末端加尾期间已发生的损伤、在核酸连接期间已发生的损伤、在测序期间已发生的损伤、由于DNA的机械处理已发生的损伤、在通过纳米孔期间已发生的损伤、作为生物衰老的部分已发生的损伤、由于个体的化学暴露已发生的损伤、已通过诱变剂发生的损伤、已通过致癌物发生的损伤、已通过诱裂剂发生的损伤、由于体内炎症已发生的损伤、由于氧暴露的损伤、由于一个或多条链断裂的损伤及其任何组合。

[0030] 考虑核酸材料可以来自各种来源。例如，在一些实施例中，核酸材料(例如，包含一种或多种双链核酸分子)由来自人受试者、动物、植物、真菌、病毒、细菌、原生动物或任何其它生命形式的样品提供。在其它实施例中，样品包含已至少部分人工合成的核酸材料。在一些实施例中，样品是或包含身体组织，活组织切片、皮肤样品、血液、血清、血浆、汗液、唾液、脑脊髓液、粘液、子宫灌洗液、阴道拭子、巴氏涂片、鼻拭子、口腔拭子、组织刮片、毛发、指纹、尿、粪便、玻璃体液、腹膜冲洗液、痰、支气管灌洗液、口腔灌洗液、胸腔灌洗液、胃灌洗液、胃液、胆汁、胰管灌洗液、胆管灌洗液、胆总管灌洗液、胆囊液、滑液、感染伤口、未感染伤口、考古样品、法医样品、水样、组织样品、食物样品、生物反应器样品、植物样品、细菌样品、原生动物样品、真菌样品、动物样品、病毒样品、多生物样品、指甲刮片、精液、前列腺液、阴道液、阴道拭子、输卵管灌洗液、细胞游离核酸、细胞内核酸、宏基因组学样品、植入异物的灌洗液或拭子、鼻灌洗液、肠液、上皮刷洗液、上皮灌洗液、组织活组织切片、尸检样品、尸体剖检样品、器官样品、人体鉴定样品、非人体鉴定样品、人工产生的核酸样品、合成基因样品、库存或贮存核酸样品、肿瘤组织、胎儿样品、器官移植样品、微生物培养样品、核DNA样品、线粒体DNA样品、叶绿体DNA样品、顶质体DNA样品、细胞器样品及其任何组合。在一些实施例中，核酸材料源自多于一种来源。

[0031] 如本文所述，在一些实施例中，有利的是这样加工核酸材料，以便改善测序过程的效率、准确性和/或速度。在一些实施例中，核酸材料包含具有基本上均匀长度和/或基本上已知长度的核酸分子。在一些实施例中，基本上均匀的长度和/或基本上已知的长度在约1至约1,000,000个碱基之间。例如，在一些实施例中，基本上均匀的长度和/或基本上已知的长度可以是长度为至少1；2；3；4；5；6；7；8；9；10；15；20；25；30；35；40；50；60；70；80；90；
100；120；150；200；300；400；500；600；700；800；900；1000；1200；1500；2000；3000；4000；
5000；6000；7000；8000；9000；10,000；15,000；20,000；30,000；40,000；或50,000个碱基。在一些实施例中，基本上均匀的长度和/或基本上已知的长度可以是至多60,000；70,000；80,
000；90,000；100,000；120,000；150,000；200,000；300,000；400,000；500,000；600,000；
700,000；800,000；900,000；或1,000,000个碱基。作为具体的非限制性例子，在一些实施例中，基本上均匀的长度和/或基本上已知的长度为约100至约500个碱基。在一些实施例中，经由一种或多种靶向核酸内切酶，将核酸材料切割成具有基本上均匀长度和/或基本上已
知长度的核酸分子。在一些实施例中，靶向核酸内切酶包含至少一种修饰。

[0032] 在一些实施例中，核酸材料包含长度在一个或多个基本上已知的大小范围内的核酸分子。在一些实施例中，核酸分子可以在1至约1,000,000个碱基之间、约10至约10,000个碱基之间、约100至约1000个碱基之间、约100至约600个碱基之间、约100至约500个碱基之间、或其一些组合。

[0033] 在一些实施例中，靶向核酸内切酶是或包含至少一种限制性核酸内切酶(即，限制性酶)，其在识别位点(例如，EcoRI、BamHI、XbaI、HindIII、AluI、AvaII、BsaJI、BstNI、DsaV、Fnu4HI、HaeIII、MaeIII、NlaIV、NSiI、MspJI、FspEI、NaeI、Bsu36I、NotI、HinF1、Sau3AI、PvuII、SmaI、HgaI、AluI、EcoRV等)处或附近切割DNA。几种限制性核酸内切酶的列表以印刷和计算机可读形式两者提供，并且由许多商业供应商(例如New England Biolabs，
Ipswich，MA)提供。本领域普通技术人员将了解，可以根据本技术的各种实施例使用任何限制性核酸内切酶。在其它实施例中，靶向核酸内切酶是或包含核糖核蛋白复合物中的至少
一种，如，例如CRISPR相关(Cas)酶/引导RNA复合物(例如Cas9或Cpf1)或Cas9样酶。在其它实施例中，靶向核酸内切酶是或包含归巢核酸内切酶、锌指核酸酶、TALEN和/或大范围核酸酶(例如megaTAL核酸酶等)、argonaute核酸酶或其组合。在一些实施例中，靶向核酸内切酶包含Cas9或CPF1或其衍生物。在一些实施例中，可以使用多于一种靶向核酸内切酶(例如，
2、3、4、5、6、7、8、9、10或更多种)。在一些实施例中，靶向核酸内切酶可以用于切割核酸材料的多于一个潜在靶区域(例如，2、3、4、5、6、7、8、9、10个或更多个)。在一些实施例中，当存在核酸材料的多于一个靶区域时，每个靶区域可以具有相同(或基本上相同)的长度。在一些
实施例中，当存在核酸材料的多于一个靶区域时，已知长度的至少两个靶区域在长度上不
同(例如，具有100bp长度的第一靶区域和具有1,000bp长度的第二靶区域)。

[0034] 在一些实施例中，对核酸材料样品的一部分(例如，衔接子序列)进行某些修饰。作为具体例子，在一些实施例中，扩增第一样品中的核酸材料还包括在分离步骤后且在第一样品扩增前，破坏或破裂在核酸材料上发现的第二衔接子序列的一部分或全部。作为进一
步例子，在一些实施例中，扩增第二样品中的核酸材料还包括在分离步骤后且在第二样品
扩增前，破坏或破裂在核酸材料上发现的第一衔接子序列。在一些实施例中，破坏或破裂可以是或包括以下中的至少一种：酶促消化、至少一种复制抑制分子的包括、酶促切割、一条链的酶促切割、两条链的酶促切割、修饰核酸的掺入随后为导致一条链或两条链切割的酶
促处理、复制阻断核苷酸的掺入、链终止子的掺入、光可切割接头的掺入、尿嘧啶的掺入、核糖基的掺入、8-氧代-鸟嘌呤加合物的掺入、限制性核酸内切酶的使用、核糖核蛋白核酸内切酶(例如，Cas酶，例如Cas9或CPF1)、或其它可编程核酸内切酶(例如，归巢核酸内切酶、锌指核酸酶、TALEN、大范围核酸酶(例如，megaTAL核酸酶)、argonaute核酸酶等)的使用及其任何组合。在一些实施例中，作为引物位点破坏或破裂的添加或替代，考虑了诸如亲和力下拉、大小选择或用于从样品中去除和/或不扩增不需要的核酸材料的任何其它已知技术的
方法。

[0035] 在一些实施例中，至少一个扩增步骤包括至少一种引物和/或衔接子序列，其是或包含至少一种非标准核苷酸。作为另外的实例，在一些实施例中，至少一种衔接子序列是或包含至少一种非标准核苷酸。在一些实施例中，非标准核苷酸选自尿嘧啶、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代-鸟嘌呤、生物素化核苷酸、脱硫生物素核苷酸、硫醇修饰的核苷酸、acrydite修饰的核苷酸、异dC、异dG、2′-O-甲基核苷酸、肌苷核苷酸、锁核酸、肽核酸、5甲基dC、5-溴脱氧尿苷、2，6-二氨基嘌呤、2-氨基嘌呤核苷酸、脱碱基核苷酸、5-硝基吲哚核苷酸、腺苷酸化核苷酸、叠氮核苷酸、地高辛核苷酸、I-接头、5′己炔基修饰的核苷酸、
5-辛二炔基dU、光可切割间隔物、非光可切割间隔物、点击化学相容的修饰核苷酸、荧光染料、生物素、呋喃、BrdU、氟-dU、loto-dU及其任何组合。

[0036] 根据几个实施例，可以使用各种分析步骤中的任一个，以便增加所提供过程的准确性、速度和效率中的一种或多种。例如，在一些实施例中，对第一核酸产物和第二核酸产物各自进行测序包括比较第一核酸产物中多条链的序列，以确定第一链共有序列；以及比
较第二核酸产物中多条链的序列，以确定第二链共有序列。在一些实施例中，比较第一核酸产物的序列与第二核酸产物的序列包括比较第一链共有序列和第二链共有序列，以提供错
误纠正的共有序列。

[0037] 考虑可以根据各种实施例使用用于扩增核酸材料的各种方法中的任一种。例如，在一些实施例中，至少一个扩增步骤包括聚合酶链反应(PCR)、滚环扩增(RCA)、多重置换扩增(MDA)、等温扩增、乳液内的聚合酶克隆(polony)扩增、表面上、珠的表面上或水凝胶内的桥式扩增、及其任何组合。在一些实施例中，扩增核酸材料包括与目的基因组序列的区域至少部分互补的单链寡核苷酸、以及与衔接子序列的区域至少部分互补的单链寡核苷酸的使
用。在一些实施例中，扩增核酸材料包括与第一衔接子序列和第二衔接子序列的区域至少
部分互补(例如，与核酸材料的每条链的5和/或3′末端′上的衔接子序列至少部分互补)的单链寡核苷酸的使用。

[0038] 由一些实施例提供的一个方面是从非常少量的核酸材料生成高质量测序信息的能力。在一些实施例中，提供的方法和组合物可以与至多约1皮克(pg)；10pg；100pg；1纳克(ng)；10ng；100ng；200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng或1000ng的起始核酸材料的量一起使用。在一些实施例中，提供的方法和组合物可以与至多1个分子拷贝或基因组当量、10个分子拷贝或其基因组当量、100个分子拷贝或其基因组当量、1,000个分子拷贝或其基因组当量、10,000个分子拷贝或其基因组当量、100,000个分子拷贝或其基因组当量、或1,000,000个分子拷贝或其基因组当量的核酸材料的输入量一起使用。例如，在一些实施例中，最初提供至多1,000ng核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多100ng核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多
10ng核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多1ng核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多100pg核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多1pg核酸材料用于特定的测序过程。

[0039] 如在本专利申请中使用的，术语“约”和“大约”作为等价物使用。本文对出版物、专利或专利申请的任何引用均以引用的方式整体并入。本专利申请中连同或不连同约/大约一起使用的任何数字意欲涵盖由相关领域的普通技术人员了解的任何正常波动。

[0040] 在各种实施例中，以更快的速率(例如，具有更少的步骤)和更低的成本(例如，利用更少的试剂)提供核酸材料的富集，包括富集核酸材料至目的区域)，并且导致增加的期
望数据。本技术的各个方面具有在临床前和临床测试和诊断中的许多应用以及其它应用。

[0041] 下文参考图1A-24描述了该技术的几个实施例的具体细节。尽管本文关于双重测序描述了许多实施例，但除本文描述的那些之外，能够生成错误纠正的测序读数和/或其它测序读数的其它测序模式也在本技术的范围内。另外，考虑其它核酸探询受益于本文所述
的核酸富集方法和试剂。进一步地，本技术的其它实施例可以具有与本文描述的那些不同
的配置、组分或程序。因此，本领域普通技术人员将相应地理解，该技术可以具有带有附加元件的其它实施例，并且该技术可以具有不含下文参考图1A-24显示且描述的几个特征的
其它实施例。
附图说明

[0042] 参考下述附图可以更好地理解本公开内容的许多方面。附图中的组分不一定按比例绘制。相反，重点在于清楚地示出本公开内容的原理。

[0043] 图1A示出了根据本技术的一个实施例，用于与本技术的一些实施例一起使用的核酸衔接分子、以及来源于衔接分子与双链核酸片段的连接的双链衔接子-核酸复合物。

[0044] 图1B和1C是根据本技术的一个实施例的各种双重测序方法步骤的概念性图示。

[0045] 图2是根据本公开内容的某些方面，根据用于下一代测序(NGS)、基于单链标签的错误纠正和双重测序错误纠正的分子群体中的变体等位基因频率，绘制阳性预测值的图。

[0046] 图3A和3B显示了一系列图，其显示了根据本公开内容的方面，对于三个不同基因座，在不存在错误纠正的情况下(图3A)以及在用标准DS分析之后(图3B)的CODIS基因型相
对于多个测序读数。

[0047] 图4是根据本技术的一个实施例的SPLiT-DS方法步骤的概念性图示。

[0048] 图5是根据本技术的一个实施例的SPLiT-DS方法步骤的概念性图示，并且显示了用于生成双重共有序列的步骤。

[0049] 图6是根据本技术的一个实施例的各种SPLiT-DS方法步骤的概念性图示。

[0050] 图7是根据本技术的一个实施例的进一步SPLiT-DS方法步骤的概念性图示。

[0051] 图8A是根据本技术的另外实施例，掺入双链引物位点破坏方案的SPLiT-DS方法步骤的概念性图示。

[0052] 图8B是图8A中所示且根据本技术的一个实施例的SPLiT-DS方法步骤的例子的概念性图示。

[0053] 图8C是根据本技术的另外方面，遵循图8A中所示的方法步骤，SPLiT-DS方法步骤的实施例的概念性图示。

[0054] 图8D是根据本技术的另一个实施例，掺入双链引物位点破坏方案的SPLiT-DS方法步骤的概念性图示。

[0055] 图9A和9B是根据本技术的进一步方面，掺入单链引物位点破坏方案的SPLiT-DS方法步骤的各种实施例的概念性图示。

[0056] 图10是根据本技术的另外一个实施例，使用多个靶向引物用于生成更长核酸分子的双重共有序列的SPLiT-DS方法步骤的概念性图示。

[0057] 图11A是根据本技术的一个实施例，绘制核酸插入物大小与扩增后所得到的家族大小之间的关系的图。

[0058] 图11B是示出根据本技术的方面，对于不同核酸插入物大小生成的测序数据的示意图。

[0059] 图11C是示出根据本技术的一个实施例，用于生成由CRISPR/Cas9区分大小的靶向片段且用于生成测序信息的方法步骤的示意图。

[0060] 图12A-12D是根据本技术的一个实施例的CRISPR-DS方法步骤的概念性图示。图12A显示了来自TP53的CRISPR/Cas9消化的结果，其中七个片段含有经由使用gRNA的靶向切
割而切除的所有TP53编码外显子。深灰色代表参考链，且浅灰色代表反参考链。图12B显示了使用O.5x SPRI珠的大小选择；未切割的基因组DNA结合珠并且允许回收在溶液中的切除
片段。图12C显示了用双链DS-衔接子片段化且连接的双链DNA分子的示意图，所述双链DS-
衔接子含有10-bp的随机互补核苷酸和3′-dT突出端。图12D显示了关于通过DS的错误纠正
的示意图。将源自DNA的相同链的读数进行比较，以形成单链共有序列(SSCS)。然后将相同起始DNA分子的两条链彼此进行比较，以产生双链共有序列(DSCS)，并且在两个SSCS读数中发现的突变被计数为DSCS读数中的真实突变。

[0061] 图12E和12F示意性地比较了根据本技术的某些实施例的CRISPR-DS和标准DS方法步骤。图12E是关于CRISPR-DS和标准-DS的文库制备步骤的比较。每个方框代表1小时的时
间。图12F显示了使用超声处理产生的片段的示意图，与具有最佳且一致长度的通过
CRISPR-DS获得的片段产物(其具有测序读数的完全覆盖)相比，所述片段比最佳长度更短
或更长(分别对应于丢失或冗余的信息)。

[0062] 图13A-13C显示了根据本技术的一个实施例，来源于SPLiT-DS程序的数据。图13A是显示测序前的插入片段大小的代表性凝胶。图13B和13C是显示在不存在错误纠正的情况
下(图13B)以及在用SPLiT-DS分析之后(图13C)的CODIS基因型相对于多个测序读数的图。

[0063] 图14A和14B是显示根据本技术的一个实施例，对于高度损伤的DNA，在不存在错误纠正的情况下(图14A)以及在用SPLiT-DS(图14B)分析后的CODIS基因型相对于多个测序读
数的图。

[0064] 图15A和15B在视觉上表示根据本技术的一个实施例，由10ng(图15A)和20ng(图15B)cfDNA生成的KRAS外显子2的SPLiT-DS测序数据。

[0065] 图16A是根据本技术的一个实施例，通过超声处理和CRISPR/Cas9片段化产生的片段长度的示意性图示。

[0066] 图16B和16C是显示根据本技术的一个实施例，用标准DS和CRISPR-DS方案制备的样品的片段插入物大小的直方图。X轴表示与最佳片段大小的百分比差异，例如，在调整分子条形码和剪切后，匹配测序读数长度的片段大小。柱状区域显示了片段大小的范围，其在与最佳大小的10％差异内，其中最佳大小用垂直虚线指定。

[0067] 图17A-17C显示了根据本技术的一个实施例，用于靶向富集人TP53的编码区的CRISPR/Cas9方案。TP53肿瘤蛋白；智人(Homo sapiens)；NC_000017.11 Chr.17，
Ref.GRCh38.p2。灰色字母代表编码区域；外显子名称在右边缘中指示，并且当它们在相同片段中时框在一起。灰色突出显示的文本代表Cas9切割位点，其中PAM序列有双下划线。加单下划线的文本代表生物素化探针，其中探针名称在左边缘上指示。

[0068] 图18A-18C是显示在靶上(覆盖TP53)的原始测序读数的百分比的条形图(图18A)，显示了如通过输入DNA中的基因组百分比计算的百分比回收，所述输入DNA产生双重共有序
列读数(图18B)，并且显示了根据本技术的一个实施例，对于使用标准DS和CRISPR-DS加工
的各种输入量的DNA，跨越所有靶向区域的中值双重共有序列深度(图18C)。

[0069] 图19是显示根据本技术的一个实施例，与关于三个不同血液DNA样品的两个捕获步骤相比，由具有一个捕获步骤的CRISPR-DS提供的靶富集的条形图。

[0070] 图20A和20B显示了在脉冲场凝胶(图20A)和条形图(图20B)上用BluePippin预富集高MW DNA的结果，其显示了根据本技术的一个实施例，对于在BluePippin预富集之前和
之后测序的相同DNA，在靶上的原始读数和双重共有序列深度的百分比的比较。

[0071] 图21A-21C是合成的双链DNA分子的示意图(图21A)和CRISPR/Cas9消化后预测的片段长度的图表(图21B)、以及在合成的双链DNA分子的CRISPR/Cas9消化后的实际DNA片段
长度的所得的TapeStation凝胶图像(图21C)，证实了根据本技术的一个实施例，使用
CRISPR/Cas9消化的成功切割。

[0072] 图22A是根据本技术的一个实施例，绘制核酸插入物大小与使用CRISPR-DS和标准DS方案扩增TP53后所得到的家族大小之间的关系的图。点代表原始的带条形码的DNA分子，并且在CRISPR-DS中，所有DNA分子(较亮的点)具有预定的大小，并且生成相似数目的PCR拷贝(如通过较亮点的几个“带状”簇可见的)。在标准DS(暗点)中，超声处理将DNA剪切成可变片段长度(暗点，比较亮的点更广泛地分布在图上)。该图显示了比较长片段更大数目的较
短片段。

[0073] 图22B-22E显示了根据本技术的一个实施例，关于来源于CRISPR-DS和标准DS方法步骤的TP53的数据。图22B是显示在衔接子连接后和在测序前的插入片段大小的代表性凝
胶。图22C和22D是显示在测序之前，由CRISPR-DS(图22C)和标准DS(图22D)生成的所得核酸文库的峰的电泳图。22E显示了由CRISPR-DS和标准DS方案与Integrative Genomics
Viewer生成的TP53的双重共有序列读数。图22B显示了具有梯以及来自CRISPR-DS(A1)和标
准-DS(B1)的样品的TapeStation凝胶。带的大小对应于具有衔接子的CRISPR/Cas9切割片
段。图22E显示了对应于CRISPR/Cas9切割点的不同边界，以及在片段内和在片段之间跨越
位置的均匀深度分布。标准-DS显示了通过片段的随机剪切和杂交捕获以及不均匀覆盖生
成的峰图案。

[0074] 图23是根据本技术的一个实施例的CRISPR-DS数据处理步骤的示意性概述。

[0075] 图24A和24B是图表(图24A)和表(图24B)，其显示了根据本技术的一个实施例，定量CRISPR/Cas9消化随后为大小选择之后的靶富集程度的结果。图24A显示了DNA样品和对
于每种样品实现的富集。图24B显示了与输入DNA的量相比，“在靶上”的原始读数的百分比。

[0076] 定义

[0077] 为了使本公开内容更容易理解，首先在下文定义了某些术语。在说明书自始至终阐述了对于下述术语和其它术语的另外定义。

[0078] 在本专利申请中，除非根据上下文另外明确的，否则术语“一个/种”可以理解为意指“至少一个/种”。如在本专利申请中使用的，术语“或”可以理解为意指“和/或”。在本专利申请中，术语“包含”和“包括”可以理解为涵盖详细列举的组分或步骤，无论是单独呈现的还是连同一个或多个另外组分或步骤一起呈现的。当在本文中提供范围时，包括端点在内。如在本专利申请中使用的，术语“包含(comprise)”和该术语的变化，例如“包含
(comprising)”和“包含(comprises)”，并不预期排除其它添加剂、组分、整数或步骤。

[0079] 关于：当在本文中提及值使用时，术语“约”指在所提及值的上下文中类似的值。一般而言，熟悉上下文的本领域技术人员将了解在该上下文中由“约”所涵盖的相关变动程度。例如，在一些实施例中，术语“约”可以涵盖在所提及值的25％、20％、19％、18％、17％、
16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更少内的一系列值。

[0080] 类似物：如本文使用的，术语“类似物”指与参考物质共享一种或多种特定结构特征、元素、组分或部分的物质。通常，“类似物”显示与参考物质的显著结构相似性，例如共享核心或共有结构，但在某些离散方式中也不同。在一些实施例中，类似物是例如通过参考物质的化学操作，可以由参考物质生成的物质。在一些实施例中，类似物是可以通过执行基本上类似于(例如，与其共享多个步骤)生成参考物质那种的合成过程而生成的物质。在一些实施例中，通过执行与用于生成参考物质的那种不同的合成过程来生成或可以生成类似
物。

[0081] 生物样品：如本文使用的，术语“生物样品”或“样品”通常指得自或源自目的生物来源(例如，组织或生物或细胞培养物)的样品，如本文所述。在一些实施例中，目的来源包含生物，例如动物或人。在其它实施例中，目的来源包含微生物，例如细菌、病毒、原生动物或真菌。在进一步的实施例中，目的来源可以是合成组织、生物、细胞培养物、核酸或其它材料。在再进一步的实施例中，目的来源可以是基于植物的生物。在另外一个实施例中，样品可以是环境样品，例如水样、土壤样品、考古样品或从无生命来源收集的其它样品。在其它实施例中，样品可以是多生物样品(例如，混合生物样品)。在一些实施例中，生物样品是或包含生物组织或流体。在一些实施例中，生物样品可以是或包含骨髓；血液；血细胞；腹水；组织或细针活组织检查样品；含细胞的体液；自由漂浮的核酸；痰；唾液；尿；脑脊髓液、腹膜液；胸膜液；粪便；淋巴液；妇科流体；皮肤拭子；阴道拭子；巴氏涂片、口腔拭子；鼻拭子；洗出液或灌洗液，如导管灌洗液或支气管肺泡灌洗液；阴道分泌物、抽吸物；刮片；骨髓样本；
组织活组织检查样本；胎儿组织或流体；手术样本；粪便、其它体液、分泌物和/或排泄物；
和/或来自其的细胞等。在一些实施例中，生物样品是或包含从个体获得的细胞。在一些实施例中，获得的细胞是或包含来自样品由其获得的个体的细胞。在一个特定实施例中，生物样品是从受试者获得的液体活组织检查。在一些实施例中，样品是通过任何适当的手段直
接从目的来源获得的“初级样品”。例如，在一些实施例中，通过选自活组织检查(例如，细针抽吸或组织活组织检查)、手术、体液(例如，血液、淋巴、粪便等)收集的方法获得初级生物样品。在一些实施例中，如从上下文中明确的，术语“样品”指通过加工(例如，通过去除其的一种或多种组分和/或通过向其添加一种或多种试剂)初级样品获得的制剂。例如，使用半
透膜过滤。此类“加工样品”可以包含例如从样品中提取的核酸或蛋白质，或者通过使初级样品经受技术如mRNA的扩增或逆转录、某些组分的分离和/或纯化等而获得的核酸或蛋白
质。

[0082] 测定：本文描述的许多方法包括“测定”步骤。阅读本说明书的本领域普通技术人员将了解，此类“测定”可以通过使用本领域技术人员可用的各种技术中的任一种来利用或实现，包括例如本文明确提及的具体技术。在一些实施例中，测定涉及物理样品的操纵。在一些实施例中，测定涉及数据或信息的考虑和/或操纵，例如利用适于执行相关分析的计算机或其它处理单元。在一些实施例中，测定涉及从源接收相关信息和/或材料。在一些实施例中，测定涉及将样品或实体的一个或多个特征与可比较的参考进行比较。

[0083] 表达：如本文使用的，核酸序列的“表达”指下述事件中的一个或多个：(1)从DNA序列产生RNA模板(例如，通过转录)；(2)RNA转录物的加工(例如，通过剪接、编辑、5′帽形成和/或3′末端形成)；(3)将RNA翻译成多肽或蛋白质；和/或(4)多肽或蛋白质的翻译后修饰。

[0084] gRNA：如本文使用的，“gRNA”或“引导RNA”指短RNA分子，其包括与基本上靶特异性的序列结合的、适合于靶向核酸内切酶(例如Cas酶，例如Cas9或Cpf1或具有类似特性的另一种核糖核蛋白等)的支架序列，其促进DNA或RNA的特定区域的切割。

[0085] 核酸：如本文使用的，在其最广泛的意义上，指其掺入或可以掺入寡核苷酸链内的任何化合物和/或物质。在一些实施例中，核酸是经由磷酸二酯键合掺入或可以掺入寡核苷酸链内的化合物和/或物质。如从上下文明确的，在一些实施例中，“核酸”指各个核酸残基(例如，核苷酸和/或核苷)；在一些实施例中，“核酸”指包含各个核酸残基的寡核苷酸链。在一些实施例中，“核酸”是或包含RNA；在一些实施例中，“核酸”是或包含DNA。在一些实施例中，核酸是一种或多种天然核酸残基、包含一种或多种天然核酸残基、或者由一种或多种天然核酸残基组成。在一些实施例中，核酸是一种或多种核酸类似物、包含一种或多种核酸类似物、或者由一种或多种核酸类似物组成。在一些实施例中，核酸类似物与核酸的不同之处在于其不利用磷酸二酯主链。例如，在一些实施例中，核酸是一种或多种“肽核酸”、包含一种或多种“肽核酸”、或者由一种或多种“肽核酸”组成，所述肽核酸是本领域已知的，并且在主链中具有肽键代替磷酸二酯键，被视为在本技术的范围内。可替代地或另外，在一些实施例中，核酸具有一个或多个硫代磷酸酯和/或5′-N-亚磷酰胺键合而不是磷酸二酯键合。在一些实施例中，核酸是一种或多种天然核苷(例如，腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷)、包含一种或多种天然核苷、或者由一种或多种天然核苷组成。在一些实施例中，核酸是一种或多种核苷类似物、包含一种或多种核苷类似物、或者由一种或多种核苷类似物(例如，2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、C-5丙炔基-胞苷、C-5丙炔基-尿苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、0(6)-甲基鸟嘌呤、2-硫代胞苷、甲基化碱基、插入碱基及其组合)组成。在一些实施例中，与天然核酸中的那些相比，核酸包含一种或多种经修饰的糖(例如，2′-氟核糖、核糖、2′-脱氧核糖、阿拉伯糖和己糖)。在一些实施例中，核酸具有编码功能性基因产物(例如RNA或蛋白质)的核苷酸序列。在一些实施例中，核酸包括一个或多个内含子。在一些实施例中，通过从天然来源分离、通过基于互补模板的聚合的酶促合成(在体内或体外)、在重组细胞或系统中复制和化学合成中的一种或多种来制备核酸。在一些实施例中，核酸长至少2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、
90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300、325、350、
375、400、425、450、475、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、
4500、5000或更多个残基。在一些实施例中，核酸是部分或完全单链的；在一些实施例中，核酸是部分或完全双链的。在一些实施例中，核酸具有包含至少一种元件的核苷酸序列，所述至少一种元件编码多肽或是编码多肽的序列的互补体。在一些实施例中，核酸具有酶促活
性。在一些实施例中，核酸例如在核糖核蛋白复合物或转移RNA中发挥机械功能。

[0086] 参考：如本文使用的，描述了相对于其执行比较的标准或对照。例如，在一些实施例中，将目的试剂、动物、个体、群体、样品、序列或值与参照或对照试剂、动物、个体、群体、样品、序列或值进行比较。在一些实施例中，参考或对照与目的测试或测定基本上同时进行测试和/或测定。在一些实施例中，参考或对照是历史参考或对照，任选地在有形介质中体现。通常，如由本领域技术人员理解的，参考或对照在与处于评估下的那些可比较的条件或情况下进行测定或表征。本领域技术人员将了解何时存在足够的相似性，以证明与特定的可能参考或对照的依赖和/或比较。

[0087] 单分子标识符(SMI)：如本文使用的，术语“单分子标识符”或“SMI”，(其可以称为“标签”、“条形码”、“分子条形码”、“独特的分子标识符”或“UMI”、以及其它名称)，指能够区别分子的大型异质群体中的各个分子的任何材料(例如，核苷酸序列、核酸分子特征)。在一些实施例中，SMI可以是或包含外源应用的SMI。在一些实施例中，外源应用的SMI可以是或包含简并或半简并序列。在一些实施例中，基本上简并的SMI可以称为随机独特分子标识符(R-UMI)。在一些实施例中，SMI可以包含来自已知代码库内的代码(例如核酸序列)。在一些实施例中，预定义的SMI代码称为限定的独特分子标识符(D-UMI)。在一些实施例中，SMI可以是或包含内源SMI。在一些实施例中，内源性SMI可以是或包含与靶序列的特定剪切点相关的信息、或者与包含靶序列的各个分子的末端相关的特征。在一些实施例中，SMI可以涉及核酸分子中的序列变异，其由随机或半随机损伤、化学修饰、酶促修饰或对核酸分子的其它修饰引起。在一些实施例中，修饰可以是甲基胞嘧啶的脱氨基。在一些实施例中，修饰可能需要核酸切口的位点。在一些实施例中，SMI可以包含外源和内源元件两者。在一些实施例中，SMI可以包括物理上相邻的SMI元件。在一些实施例中，SMI元件在分子中可以在空间上不同。在一些实施例中，SMI可以是非核酸。在一些实施例中，SMI可以包含两种或更多种不同类型的SMI信息。SMI的各种实施例进一步公开于国际专利公开号WO2017/100441中，所述专利以引用的方式整体并入本文。

[0088] 链定义元件(SDE)：如本文使用的，术语“链定义元件”或“SDE”指这样的任何材料，其允许鉴定双链核酸材料的特定链，并且因此区分于其它/互补链(例如，致使来源于靶双链核酸的两种单链核酸各自的扩增产物在测序或其它核酸探询后基本上可区别于彼此的
任何材料)。在一些实施例中，SDE可以是或包含衔接子序列内的基本上非互补序列的一个
或多个区段。在特定实施例中，衔接子序列内的基本上非互补序列的区段可以由包含Y形或“环”形状的衔接分子提供。在其它实施例中，衔接子序列内的基本上非互补序列的区段可以在衔接子序列内的相邻互补序列的中间形成未配对的“鼓泡(bubble)”。在其它实施例
中，SDE可以涵盖核酸修饰。在一些实施例中，SDE可以包含将成对的链物理分离成物理上分开的反应区室。在一些实施例中，SDE可以包含化学修饰。在一些实施例中，SDE可以包含经修饰的核酸。在一些实施例中，SDE可以涉及由随机或半随机损伤、化学修饰、酶促修饰或对核酸分子的其它修饰引起的核酸分子中的序列变异。在一些实施例中，修饰可以是甲基胞
嘧啶的脱氨基。在一些实施例中，修饰可能需要核酸切口的位点。SDE的各种实施例进一步公开于国际专利公开号WO2017/100441中，所述专利公开以引用的方式整体并入本文。

[0089] 受试者：如本文使用的，术语“受试者”指生物，通常是哺乳动物(例如，人，在一些实施例中包括产前人形式)。在一些实施例中，受试者患有相关疾病、病症或状况。在一些实施例中，受试者易患疾病、病症或状况。在一些实施例中，受试者展示疾病、病症或状况的一种或多种症状或特征。在一些实施例中，受试者未展示疾病、病症或状况的任何症状或特征。在一些实施例中，受试者是具有对疾病、病症或状况的易感性，或者疾病、病症或状况的风险特有的一种或多种特征的人。在一些实施例中，受试者是患者。在一些实施例中，受试者是其诊断和/或治疗施用和/或已施用的个体。

[0090] 基本上：如本文使用的，术语“基本上”指显示出目的特征或特性的总体或接近总体程度或度的定性条件。生物学领域的普通技术人员将理解，生物现象和化学现象很少(如果有的话)完成和/或进行至完全或者实现或避免绝对结果。因此，术语“基本上”在本文中用于捕获许多生物现象和化学现象中固有的完全性的潜在缺乏。

具体实施方式

[0091] 双重测序方法及相关的衔接子和试剂的选择实施例

[0092] 双重测序(DS)是用于从双链核酸分子产生错误纠正的DNA序列的方法，并且其最初描述于国际专利公开号WO2013/142389和美国专利号9,752,188中，所述两个专利均以引
用的方式整体并入。如图1A-1C中所示，并且在本技术的某些方面，DS可以用于以这样的方式独立地测序各个DNA分子的两条链，使得衍生物序列读数可以被识别为在MPS期间源于相
同的双链核酸亲本分子，也可以在测序后作为可区别的实体彼此区分开。然后比较来自每
条链的所得到的序列读数，用于获得称为双重共有序列(DCS)的原始双链核酸分子的错误
纠正序列的目的。DS的过程使得能够确认原始双链核酸分子的一条链或两条链是否在用于
形成DCS的所生成的测序数据中表示。

[0093] 在某些实施例中，掺入DS的方法可以包括将一个或多个测序衔接子连接至靶双链核酸分子，所述靶双链核酸分子包含第一链靶核酸序列和第二链靶核酸序列，以产生双链
靶核酸复合物(例如图1A)。

[0094] 在各种实施例中，所得到的靶核酸复合物可以包括至少一个SMI序列，其可能需要外源应用的简并或半简并序列、与靶双链核酸分子的特定剪切点相关的内源信息或其组
合。SMI可以致使靶-核酸分子基本上可区别于待测序群体中的多个其它分子。SMI元件的基本上可区别的特征可以由每条单链独立地携带，所述单链这样形成双链核酸分子，使得每
条链的衍生扩增产物可以在测序后被识别为来自相同的原始基本上独特的双链核酸分子。
在其它实施例中，SMI可以包括另外的信息和/或可以用于其它方法中，对于所述其它方法，此类分子区别功能是有用的，例如在上文引用的出版物中描述的那些。在另一个实施例中，SMI元件可以在衔接子连接后掺入。在一些实施例中，SMI本质上是双链的。在其它实施例
中，它本质上是单链的。在其它实施例中，它本质上是单链和双链的组合。

[0095] 在一些实施例中，每个双链靶核酸序列复合物还可以包括元件(例如，SDE)，其致使形成靶双链核酸分子的两种单链核酸的扩增产物在测序后基本上可彼此区别。在一个实
施例中，SDE可以包含在测序衔接子内包含的不对称引物位点，或者，在其它布置中，可以将序列不对称性引入不在引物序列内的衔接分子内，使得靶核酸序列复合物的第一链和靶核
酸序列复合物的第二链的核苷酸序列中的至少一个位置在扩增和测序后彼此不同。在其它
实施例中，SMI可以包含两条链之间的另一种生物化学不对称性，其不同于经典核苷酸序列A、T、C、G或U，但在两种扩增且测序的分子中转换成至少一种经典核苷酸序列差异。在另外一个实施例中，SDE可以是在扩增之前在物理上分离两条链的手段，使得来自第一链靶核酸序列和第二链靶核酸序列的衍生扩增产物保持彼此基本上物理分离，用于维持两者之间的
区分的目的。可以利用用于提供SDE功能的其它此类布置或方法，所述SDE功能允许区别第
一链和第二链，所述布置或方法例如在上文提及的出版物中描述的那些，或者发挥所描述
的功能目的的其它方法。

[0096] 在生成包含至少一个SMI和至少一个SDE的双链靶核酸复合物之后，或者随后引入这些元件之一或两者时，可以使复合物经受DNA扩增，例如PCR或DNA扩增的任何其它生物化学方法(例如，滚环扩增、多重置换扩增、等温扩增、桥式扩增或表面结合扩增，使得产生第一链靶核酸序列的一个或多个拷贝和第二链靶核酸序列的一个或多个拷贝(例如，图1B)。
然后可以使第一链靶核酸分子的一个或多个扩增拷贝和第二靶核酸分子的一个或多个扩
增拷贝经受DNA测序，优选使用“下一代”大规模平行DNA测序平台(例如，图1B)。

[0097] 基于共享相关的基本上独特的SMI，可以鉴定由源自原始双链靶核酸分子的第一链靶核酸分子和第二链靶核酸分子产生的序列读数，并且由于SDE而区别于相反链靶核酸
分子。在一些实施例中，SMI可以是基于数学基的错误纠正代码(例如，汉明码)的序列，由此可以容忍某些扩增错误、排序错误或SMI合成错误，用于关联在原始双重(例如，双链核酸分子)的互补链上的SMI序列的序列的目的。例如，对于双链外源SMI，其中SMI包含经典DNA碱基的15个碱基对的完全简并序列，估计4^15＝1,073,741,824个SMI变体将存在于完全简并
SMI的群体中。如果从测序数据的读数中回收两个SMI，其在10,000个采样SMI的群体中的
SMI序列内仅相差一个核苷酸，则可以在数学上计算这种情况通过随机机会发生的概率性，并且做出是否更可能单碱基对差异反映上述类型的错误之一的决定，并且可以确定SMI序
列实际上已源自相同的原始双重分子。在一些实施例中，其中SMI至少部分是外源应用的序列，其中序列变体彼此不完全简并，并且至少部分是已知序列，已知序列的标识符在一些实施例中可以以这样的方式设计，使得前述类型的一个或多个错误不将一种已知SMI序列的
标识符转换为另一种SMI序列的那种，使得减少一个SMI被误解为另一个SMI的概率。在一些实施例中，这种SMI设计策略包括汉明码方法或其衍生物。一旦鉴定，就比较从第一链靶核酸分子产生的一个或多个序列读数与从第二链靶核酸分子产生的一个或多个序列读数，以
产生错误纠正的靶核酸分子序列(例如，图1C)。例如，其中来自第一链靶核酸序列和第二链靶核酸序列的碱基一致的核苷酸位置被认为是真实序列，而在两条链之间不一致的核苷酸
位置被识别为可以被忽略(discounted)的技术错误的潜在位点。因此可以产生原始双链靶
核酸分子的错误纠正序列(显示于图1C中)。

[0098] 可替代地，在一些实施例中，两条链之间序列不一致的位点可以被识别为原始双链靶核酸分子中生物学衍生的错配的潜在位点。可替代地，在一些实施例中，两条链之间序列不一致的位点可以被识别为原始双链靶核酸分子中DNA合成衍生的错配的潜在位点。可
替代地，在一些实施例中，两条链之间序列不一致的位点可以被识别为潜在位点，其中受损或经修饰的核苷酸碱基存在于一条链或两条链上，并且通过酶促过程(例如DNA聚合酶、DNA糖基化酶或另一种核酸修饰酶或化学过程)转换为错配。在一些实施例中，后一发现可以用于在酶促过程或化学处理之前推断核酸损伤或核苷酸修饰的存在。

[0099] 图2是根据本公开内容的某些方面，根据用于下一代测序(NGS)、基于单链标签的错误纠正和双重测序错误纠正的分子群体中的变体等位基因频率，绘制理论阳性预测值的
图。参考图2，根据用于下一代测序(NGS)、基于单链标签的错误纠正和指定错误率的DS错误纠正的分子群体中的变体等位基因频率，绘制阳性预测值(例如，正确阳性调用的预期数目除以阳性调用的总数目)。如通过曲线重叠可见的，如果检测到的变体的频率大于1/10，则几乎所有突变体调用使用任何方法都是正确的。然而，标准Illumina测序和基于单链标签
的错误纠正的错误率导致分别以～1/100和1/1,000的变体频率的阳性预测值中的关键损
失。由DS赋予的极低错误率允许低于1/100,000(虚线)的变体的可靠鉴定。

[0100] 在一些实施例中，并且根据本技术的方面，可以进一步过滤由本文讨论的DS步骤生成的测序读数，以消除来自DNA损伤的分子(例如，在贮存、运输期间，在组织或血液提取期间或之后，在文库制备期间或之后等)的测序读数。例如，DNA修复酶，如尿嘧啶-DNA糖基化酶(UDG)、甲酰胺基嘧啶DNA糖基化酶(FPG)和8-氧代鸟嘌呤DNA糖基化酶(OGG1)，可以用
于消除或纠正DNA损伤(如体外DNA损伤或体内损伤)。例如，这些DNA修复酶是从DNA中去除
受损碱基的糖基化酶。例如，UDG去除来源于胞嘧啶脱氨基(由胞嘧啶的自发水解引起)的尿嘧啶，并且FPG去除8-氧代-鸟嘌呤(例如，来源于活性氧物种的常见DNA损伤)。FPG还具有裂解酶活性，其可以在脱碱基位点处生成1个碱基缺口。例如，此类脱碱基位点一般随后不能通过PCR扩增，因为聚合酶不能复制模板。相应地，此类DNA损伤修复/消除酶的使用可以有效地去除受损DNA，其不具有真正的突变，但在测序和双重序列分析之后可能在其它方面无法检测为错误。尽管由于受损碱基的错误经常可以通过DS进行纠正，但在罕见情况下，理论上可以在两条链上的相同位置处发生互补错误，因此，减少错误增加的损伤可以减少人工
产物的概率。此外，在文库制备期间，待测序的DNA的某些片段可以是来自其来源或来自加工步骤(例如，机械DNS剪切)的单链。这些区域通常在本领域已知的“末端修复”步骤中转换为双链DNA，由此将DNA聚合酶和核苷底物加入DNA样品中，以延伸5′凹陷末端。待拷贝的DNA的单链部分中的DNA损伤的诱变位点(即DNA双重的一个或两个末端处的单链5′突出端、或
者内部单链切口或间隙)，可以引起可以致使单链突变的在填充反应期间的错误、合成错误或核酸损伤位点变成双链形式，其可以在最终双重共有序列中被误解为真正的突变，由此
真正的突变存在于原始双链核酸分子中，事实上，它并非如此。通过使用此类损伤破坏/修复酶，可以减少或预防称为“假双重”的这种情况。在其它实施例中，通过使用破坏或预防原始双重分子的单链部分形成的策略(例如用于片段化原始双链核酸材料而不是机械剪切的
某些酶、或者可以留下切口或间隙的某些其它酶的使用)，可以减少或消除这种情况。在其它实施例中，消除原始双链核酸的单链部分的过程(例如单链特异性核酸酶，例如S1核酸酶或绿豆核酸酶)的使用可以用于类似目的。

[0101] 在进一步的实施例中，可以进一步过滤从本文讨论的DS步骤生成的测序读数，以通过修剪最易于假双重人工产物的读数的末端来消除错误突变。例如，DNA片段化可以在双链分子的末端处生成单链部分。这些单链部分可以在末端修复期间填充(例如，通过Klenow或T4聚合酶)。在某些情况下，聚合酶在这些末端修复的区域中产生拷贝错误，导致“假双重分子”的生成。一旦测序，文库制备的这些人工产物就可能不正确地看起来是真正的突变。
作为末端修复机制的结果，这些错误可以通过修剪测序读数的末端从测序后的分析中消除
或减少，以排除可能在高风险区域中已发生的任何突变，从而减少错误突变的数目。在一个实施例中，测序读数的此类修剪可以自动完成(例如，正常的过程步骤)。在另一个实施例
中，可以评价片段末端区域的突变频率，并且如果在片段末端区域中观察到突变的阈值水
平，则可以在生成DNA片段的双链共有序列读数之前执行测序读数修剪。

[0102] 与标准的下一代测序方法相比，由DS的链比较技术提供的高度错误纠正将双链核酸分子的测序错误减少了多个数量级。这种错误的减少改善了几乎所有类型的序列中测序
的准确性，但特别良好地适于生物化学挑战序列，其在本领域中众所周知特别易于出错。这种类型的序列的一个非限制性例子是均聚物或其它微卫星/短串联重复。受益于DS错误校
正的易于出错的序列的另一个非限制性例子是已例如通过加热、辐射、机械应力或各种化
学暴露而受损的分子，所述化学暴露产生在通过一种或多种核苷酸聚合酶的拷贝期间易于
出错的化学加合物。在进一步的实施例中，DS还可以用于准确检测双链核酸分子群体中的
少数序列变体。本专利申请的一个非限制性例子是在来自受试者内的非癌性组织的大量未
突变分子中，检测源自癌症的少量DNA分子。关于通过DS的罕见变体检测的另一个非限制性应用是来自以低丰度混合的一个个体的DNA与不同基因型的另一个个体的DNA的法医检测。

[0103] DS已显示在去除线粒体和核DNA中的扩增和测序/测序仪衍生的人工产物两者方面非常成功。然而，某些先前的研究已集中于检测体细胞点突变以及小的(例如＜5bp)插入和缺失。在解决与法医分析相关的一些挑战(例如，去除PCR打滑、低水平DNA、混合样品等)时，DS对法医界具有很大的希望。例如，并且参考图3A和3B，当与常规MPS相比时，DS已证实去除PCR打滑的能力。在该例子中，使用常规MPS(图3A)和DS(图3B)，在具有300bp配对末端读数的Illumina MiSeq平台上，对来自10ng Promega 2800M标准参考材料DNA的三个代表
性CODIS基因座进行测序，并且用STRait-Razor STR等位基因调用工具显现数据。图3A显示了三个图，其显示了关于三个CODIS基因座各自的CODIS基因型相对于在不存在错误纠正的
情况下(例如，常规MPS)的多个测序读数，并且显示了几个打滑事件(黑色箭头)。相比之下，且如图3B中所示，DS消除了关于相同三个CODIS基因座的打滑事件。在所有原始CODIS 13基因座处都可见类似的结果。相应地，DS技术的各个方面可以克服关于法医分析由传统方法
经历的一些限制。除DS的其它应用之外，法医分析的其它方面也可以受益于转换效率的各
个方面的任何改善，或转换为错误纠正的序列数据的输入DNA的百分比。法医分析可以指尤其与人类犯罪、自然灾害、大规模伤亡事故、动物或其它生命界偷猎、贩卖或滥用、人或动物遗骸鉴定、攻击鉴定、失踪人员鉴定、性侵犯鉴定、古生物学应用和考古应用相关的应用。

[0104] 关于DS过程的效率，本文进一步描述了两种类型的效率：转换效率和工作流效率。为了讨论DS效率的目的，转换效率可以定义为输入到测序文库制备反应内的独特核酸分子
的分数，至少一个双重共有序列读数由所述测序文库制备反应产生。工作流程效率可能涉
及进行这些步骤以产生双重测序文库和/或对于目的序列进行靶向富集所需的时间量、步
骤的相对数目和/或试剂/材料的财务成本的相对低效率。

[0105] 在一些情况下，转换效率和工作流效率限制中的任一或两者可以限制高准确度DS用于否则将非常适合的一些应用的效用。例如，低转化效率将导致其中靶双链核酸的拷贝
数受限的情况，这可以导致产生少于所需量的序列信息。该概念的非限制性例子包括来自
循环肿瘤细胞的DNA或源自肿瘤或产前婴儿的细胞游离DNA，其脱落到体液如血浆内并且与
来自其它组织的过量DNA混合。虽然DS通常具有能够分辨在超过十万个未突变分子中的一
个突变分子的准确度，但是，例如，如果样品中仅有10,000个分子可用，并且甚至将这些分子转换为双重共有序列读数的理想效率是100％，则可以测量的最低突变频率1/(10,000*
100％)＝1/10,000。作为临床诊断，具有检测癌症的低水平信号或治疗相关突变的最大灵
敏度可能是重要的，并且因此在这种情况下相对低的转换效率是不期望的。类似地，在法医应用中，经常极少的DNA可用于测试。当只能从犯罪现场或自然灾害场所回收纳克或皮克数量，并且来自多个个体的DNA混合在一起时，具有最大转换效率在能够检测混合物内的所有个体DNA的存在方面可以是重要的。

[0106] 在一些情况下，对于某些核酸探询应用，工作流程无效率可能类似地是挑战性的。这点的一个非限制性例子是在临床微生物学测试中。有时需要快速检测一种或多种传染性
生物的性质，例如，微生物或多种微生物血流感染，其中一些生物基于其携带的独特遗传变体对特定抗生素是抗性的，但培养和凭经验确定传染性生物的抗生素敏感性花费的时间，
比在其内必须做出关于待用于治疗的抗生素的治疗决定的时间长得多。来自血液(或其它
感染组织或体液)的DNA的DNA测序具有更快速的潜力，并且例如，在其它高准确度测序方法中的DS可以基于DNA标记非常准确地检测传染群体中治疗上重要的少数变体。由于工作流
到数据生成的周转时间对于确定治疗选项(例如，如在本文中使用的例子中)是关键的，因
此增加达到数据输出的速度的应用也是期望的。

[0107] 本文还公开的是用于靶向核酸序列富集的方法和组合物，以及此类富集用于错误纠正的核酸测序应用的用途，其提供了成本、测序分子的转换和生成用于靶向超高准确度
测序的标记分子的时间效率中的改善。

[0108] SPLiT-DS

[0109] 在一些实施例中，提供的方法提供了与使用分子条形码用于错误纠正相容的基于PCR的靶向富集策略。图4是根据本技术的一个实施例，利用用于测序的链接模板的分离PCR(Separated PCRs of Linked Templates for sequencing)(“SPLiT-DS”)方法步骤的测序富集策略的概念性图示。参考图4，并且在一个实施例中，SPLiT-DS方法可以以用分子条形码标记(例如，加上标签)片段化的双链核酸材料(例如，来自DNA样品)开始，其方式与上文描述且关于标准DS文库构建方案(例如，如图1B中所示)描述类似的方式。在一些实施例中，双链核酸材料可以是片段化的(例如，例如细胞游离DNA、受损DNA等)；然而，在其它实施例中，各种步骤可以包括使用机械剪切如超声处理、或其它DNA切割方法的核酸材料片段化，例如本文进一步描述的。标记片段化的双链核酸材料的方面可以包括末端修复和3′-dA-加尾，如果在特定应用中需要，则随后为将双链核酸片段与含有SMI的DS衔接子连接(图4，步骤1)。在其它实施例中，SMI可以是内源的或外源和内源序列的组合，用于独特地关联来自原始核酸分子的两条链的信息。在将衔接分子连接到双链核酸材料之后，该方法可以继续
扩增(例如，PCR扩增、滚环扩增、多重置换扩增、等温扩增、桥式扩增、表面结合扩增等)(图
4，步骤2)。

[0110] 在某些实施例中，对例如一个或多个衔接子序列特异性的引物可以用于扩增核酸材料的每条链，导致源自原始双链核酸分子的每条链的核酸扩增子的多个拷贝，其中每个
扩增子保留最初结合的SMI(图4，步骤2)。在扩增和结合步骤以去除反应副产物之后，可以将样品拆分(优选地，但不一定，基本上均匀地)成两个或更多个分开的样品(例如，在管中、在乳液液滴中、在微室中、在表面上的分离液滴、或其它已知的容器，统称为“管”)(图4，步骤3)。可替代地，扩增的扩增产物可以以不要求它们在溶液中的方式拆分，例如，结合微珠，随后为将微珠群体分成两个室或将分开的扩增产物粘附到表面上的两个或更多个不同的
物理位置。在本文中，我们类似地将这后一种此类分开的群体中的任一个称为功能上等价
的，并且在不同的“管”中。在图4中所示的例子中，该步骤导致在每个管中发现任何给定链/条形码扩增子的平均匀半拷贝。在其中将原始样品拆分成多于两个分开的样品的其它实施
例中，核酸材料的此类分配将导致相对可比较的减少数目的扩增子。应当注意，其中扩增子被拆分的随机性质导致关于该平均值的变动。为了考虑这种变动，超几何分布(即，无需替换而挑选k条形码拷贝的概率)可以用作模型，以确定使每个管含有源自两条链的至少一个
拷贝的机会达到最大所需的SMI(例如，条形码)的最小扩增子数(例如，PCR拷贝)。不希望受到特定理论的束缚，考虑在步骤2期间的≥4个PCR循环(即24＝16个拷贝/条形码)确保以下
的＞99％概率：源自每条链的每个条形码拷贝在每个管中至少表示一次。在一些实施例中，可能优选非均匀地拆分扩增产物。如果核酸材料在多于两个管中分开，则另外的扩增循环
可以用于生成另外的拷贝，以适应进一步的分开。在将样品拆分成两个管后，可以使用对于衔接子序列特异性的引物以及对目的靶核酸区域特异性的引物，用多重PCR富集靶核酸区
域(例如，目的区域、基因座等)(图4，步骤3)。在另一个实施例中，可以在第二引物的后续添加之前加入线性扩增步骤，其允许目的靶区域的指数扩增。

[0111] 在某些实施例中，执行多重靶特异性PCR，使得每个管中所得到的PCR产物仅源自两条链之一(例如，“顶部链”或“底部链”)。如图4中所示(步骤3)，在一些实施例中，这如下实现：在第一管(显示于左侧上)中，与衔接子序列的“读数1”(例如，Illumina P5)至少部分互补的引物(图4，步骤3；灰色箭头)、以及与目的核酸区域至少部分互补且含有“读数2”(即Illumina P7，黑色箭头w/灰色尾部)衔接子序列的引物，用于具体地扩增(例如，富集)原始核酸分子的“顶部链”(图4，步骤3和4)。在该第一样品中，并且由于SDE的性质(例如，在这种情况下，关于靶核酸插入物的独特的衔接子序列取向)，“底部链”不能适当地扩增。同样地，在第二管(显示于右侧上)中，与衔接子序列的“读数2”(例如，Illumina P5)至少部分互补的引物(图4，步骤3；灰色箭头)、以及与目的核酸区域至少部分互补且含有“读数1”(即
Illumina P7，黑色箭头w/灰色尾部)衔接子序列的引物，用于具体地扩增(例如，富集)原始核酸分子的“底部链”(图4，步骤3和4)。在该第二样品中，“顶部链”不能适当地扩增。在PCR或其它扩增方法之后，在第一管中生成“顶部链”的多个拷贝，并且在第二管中生成“底部链”的多个拷贝。由于这些所得的靶特异性拷贝各自具有在核酸扩增子的每个末端上可用
的两种衔接子序列(例如，Illumina P5和Illumina P7衔接子序列)，可以使用标准MPS方法对这些富含靶的产物进行测序。

[0112] 图5是如关于图4显示且讨论的SPLiT-DS方法步骤的概念性图示。并且进一步显示了根据本技术的一个实施例，用于对每个PCR富集的靶区域的多个拷贝进行测序且生成双
重共有序列的步骤。在对来自第一个管的“顶部链”的多个拷贝和来自第二个管的“底部链”的多个拷贝进行测序之后，可以用类似于DS的方法分析测序数据，由此共享相同分子条形
码的测序读数被分开分组，所述分子条形码源自原始双链靶核酸分子的‘顶部’或‘底部’链(其分别在第一管和第二管中发现)。在一些实施例中，来自“顶部链”的分组测序读数用于形成顶部链共有序列(例如，单链共有序列(SSCS))，并且来自“底部链”的分组测序读数用于形成底部链共有序列(例如，SSCS)。参考图5，然后可以比较顶部和底部SSCS，以生成具有在两条链之间一致的核苷酸的双重共有序列(DCS)(例如，如果它们出现在源自两条链的测
序读数中，则变体或突变视为真的(参见例如图1C)。

[0113] 作为具体例子，在一些实施例中，本文提供的是生成双链靶核酸材料的错误纠正的序列读数的方法，其包括将双链靶核酸材料连接到至少一种衔接子序列的步骤，以形成
衔接子-靶核酸材料复合物，其中所述至少一种衔接子序列包含(a)简并或半简并的单分子
标识符(SMI)序列，其独特地标记双链靶核酸材料的每个分子，以及(b)将衔接子-靶核酸材料复合物的第一链加上标签的第一核苷酸衔接子序列、以及与第一核苷酸序列至少部分非
互补的第二核苷酸衔接子序列，其将衔接子-靶核酸材料复合物的第二链加上标签，使得衔接子-靶核酸材料复合物的每条链具有相对于其互补链不同的可鉴定核苷酸序列。该方法
接下来可以包括以下步骤：扩增衔接子-靶核酸材料复合物的每条链，以产生多个第一链衔接子-靶核酸复合物扩增子、以及多个第二链衔接子-靶核酸复合物扩增子，并且将衔接子-靶核酸复合物扩增子分离成第一样品和第二样品。该方法还可以包括以下步骤：通过使用
与第一核苷酸衔接子序列至少部分互补的第一引物、以及与目的靶序列至少部分互补的引
物，扩增第一样品中的第一链，以提供第一核酸产物，并且通过使用与第二核苷酸衔接子序列至少部分互补的第二引物、以及与目的靶序列至少部分互补的引物，扩增第二样品中的
第二链，以提供第二核酸产物。该方法还可以包括以下步骤：对第一核酸产物和第二核酸产物各自进行测序，以产生多个第一链序列读数和多个第二链序列读数，并且确认至少一个
第一链序列读数和至少一个第二链序列读数的存在。该方法还可以包括比较至少一个第一
链序列读数与至少一个第二链序列读数，并且通过忽略不一致的核苷酸位置，或可替代地，去除具有一个或多个核苷酸位置的比较的第一链序列读数和第二链序列读数，在所述核苷
酸位置中，比较的第一链序列读数和第二链序列读数是非互补的，来生成双链靶核酸材料
的错误纠正的序列读数。

[0114] 作为另外的具体例子，在一些实施例中，本文提供的是从样品中鉴定DNA变体的方法，其包括以下步骤：将核酸材料(例如，双链靶DNA分子)的两条链连接到至少一个不对称衔接分子，以形成衔接子-靶核酸材料复合物，其具有与双链靶DNA分子的顶部链结合的第
一核苷酸序列、以及与第一核苷酸序列至少部分非互补的第二核苷酸序列，所述第二核苷
酸序列与双链靶DNA分子的底部链结合，并且扩增衔接子-靶核酸材料的每条链，导致每条
链生成一组独特但相关的扩增的衔接子-靶DNA产物。该方法还可以包括以下步骤：将衔接
子-靶DNA产物分离成第一样品和第二样品，通过使用对第一核苷酸序列特异性(例如，至少部分互补)的第一引物、以及与目的靶序列至少部分互补的引物，扩增第一样品中的衔接
子-靶DNA产物的顶部链，以提供顶部链衔接子-靶核酸复合物扩增子，并且通过使用对第二核苷酸序列特异性(例如，至少部分互补)的第二引物和第二引物，扩增第二样品中的底部
链，以提供底部链衔接子-靶核酸复合物扩增子。该方法还可以包括以下步骤：对顶部链衔接子-靶核酸复合物扩增子和底部链衔接子-靶核酸复合物扩增子各自进行测序，确认来自
衔接子-靶DNA复合物的每条链的至少一个扩增序列读数的存在，以及比较从顶部链获得的
至少一个扩增序列读数与从底部链获得的至少一个扩增序列读数，以形成仅具有核苷酸碱
基的核酸材料(例如，双链靶DNA分子)的共有序列读数，在所述核苷酸碱基处，核酸材料(例如，双链靶DNA分子)的两条链的序列是一致的，使得在共有序列读数中的特定位置处发生
的变体被鉴定为真正的DNA变体。

[0115] 在一些实施例中，本文提供的是从双链核酸材料生成错误纠正的双链共有序列的方法，其包括以下步骤：用衔接分子将各个双重DNA分子加上标签，以形成加上标签的DNA材料，其中每个衔接分子包含(a)简并或半简并的单分子标识符(SMI)，其独特地标记双重DNA分子，以及(b)第一非互补核苷酸衔接子序列和第二非互补核苷酸衔接子序列，对于每个加上标签的DNA分子，其区别加上标签的DNA材料内的每个个别DNA分子的原始顶部链与原始
底部链，并且生成加上标签的DNA分子的原始顶部链的一组重复、以及加上标签的DNA分子
的原始底部链的一组重复，以形成扩增的DNA材料。该方法还可以包括以下步骤：将扩增的DNA材料分离成第一样品和第二样品，通过使用对第一核苷酸衔接子序列特异性的引物、以及与目的靶序列至少部分互补的引物，生成在第一样品中的原始顶部链的另外重复，以提
供第一核酸产物，并且通过使用对第二核苷酸衔接子序列特异性的引物、以及与目的靶序
列至少部分互补的(相同或不同)引物，生成在第二样品中的原始底部链的另外重复，以提
供第二核酸产物。该方法还可以包括以下步骤：从原始顶部链的另外重复产生第一单链共
有序列(SSCS)和从原始底部链的另外重复产生第二单链共有序列(SSCS)，比较原始顶部链
的第一SSCS与原始底部链的第二SSCS，并且生成仅具有核苷酸碱基的错误纠正的双链共有
序列，在所述核苷酸碱基处，原始顶部链的第一SSCS和原始底部链的第二SSCS两者的序列
是互补的。

[0116] 单分子标识符序列(SMI)

[0117] 根据各种实施例，提供的方法和组合物包括在核酸材料的每条链上的一个或多个SMI序列。SMI可以由来源于双链核酸分子的每条单链独立地携带，使得每条链的衍生扩增
产物在测序后可以被识别为来自相同的原始基本上独特的双链核酸分子。在一些实施例
中，SMI可以包括另外的信息和/或可以用于其它方法中，对于所述方法，此类分子区别功能性是有用的，如本领域技术人员将认识到的。在一些实施例中，SMI元件可以在衔接子序列连接到核酸材料之前、基本上同时或之后掺入。

[0118] 在一些实施例中，SMI序列可以包括至少一种简并或半简并核酸。在其它实施例中，SMI序列可以是非简并的。在一些实施例中，SMI可以是与核酸分子的片段末端(例如，连接的核酸材料的随机或半随机剪切的末端)结合或在其附近的序列。在一些实施例中，外源序列可以与对应于连接的核酸材料(例如DNA)的随机或半随机剪切末端的序列结合加以考
虑，以获得能够彼此区别例如单个DNA分子的SMI序列。另一个。在一些实施例中，SMI序列是与双链核酸分子连接的衔接子序列的一部分。在某些实施例中，包含SMI序列的衔接子序列是双链的，使得双链核酸分子的每条链包括在连接到衔接子序列后的SMI。在另一个实施例中，SMI序列在连接到双链核酸分子之前或之后是单链的，并且可以通过用DNA聚合酶延伸
相反链以得到互补的双链SMI序列，来生成互补的SMI序列。在一些实施例中，每个SMI序列可以包括约1至约30个核酸(例如，1、2、3、4、5、8、10、12、14、16、18、20个或更多个简并或半简并核酸)。

[0119] 在一些实施例中，SMI能够连接至核酸材料和衔接子序列之一或两者。在一些实施例中，SMI可以连接至T-突出端、A突出端、CG突出端、脱羟基化碱基和核酸材料的平端中的至少一种。

[0120] 在一些实施例中，SMI的序列可以与对应于例如核酸材料(例如，连接的核酸材料)的随机或半随机剪切末端的序列结合加以考虑(或根据其进行设计)，以获得能够彼此区别
单个核酸分子的SMI序列。

[0121] 在一些实施例中，至少一种SMI可以是内源SMI(例如，与剪切点相关的SMI，例如，使用剪切点本身或使用紧邻剪切点[例如，距离剪切点2、3、4、5、6、7、8、9、10个核苷酸]的核酸材料中的限定数目的核苷酸)。在一些实施例中，至少一种SMI可以是外源SMI(例如，包含在靶核酸材料上未发现的序列的SMI)。

[0122] 在一些实施例中，SMI可以是或包含成像部分(例如，荧光或其它光学可检测部分)。在一些实施例中，此类SMI允许检测和/或定量而无需扩增步骤。

[0123] 在一些实施例中，SMI元件可以包含两个或更多个不同的SMI元件，其位于衔接子-靶核酸复合物上的不同位置处。

[0124] SMI的各种实施例进一步公开于国际专利公开号WO2017/100441中，所述专利以引用的方式整体并入本文。

[0125] 链定义元件(SDE)

[0126] 在一些实施例中，双链核酸材料的每条链还可以包括元件，其致使形成靶双链核酸材料的两种单链核酸的扩增产物在测序后基本上可彼此区别。在一些实施例中，SDE可以是或包含在测序衔接子内包含的不对称引物位点，或者，在其它布置中，可以将序列不对称性引入衔接子序列内而不是引物序列内，使得靶核酸序列复合物的第一链和靶核酸序列复
合物的第二链的核苷酸序列中的至少一个位置在扩增和测序后彼此不同。在其它实施例
中，SDE可以包含两条链之间的另一种生物化学不对称性，其不同于经典核苷酸序列A、T、C、G或U，但在两种扩增且测序的分子中转换成至少一种经典核苷酸序列差异。在另外一个实
施例中，SDE可以是或包含在扩增之前在物理上分离两条链的手段，使得来自第一链靶核酸序列和第二链靶核酸序列的衍生扩增产物保持彼此基本上物理分离，用于维持两种衍生的
扩增产物之间的区分的目的。可以利用用于提供SDE功能的其它此类布置或方法，所述SDE
功能允许区别第一链和第二链。

[0127] 在一些实施例中，SDE可能能够形成环(例如，发夹环)。在一些实施例中，环可以包含至少一个核酸内切酶识别位点。在一些实施例中，靶核酸复合物可以含有核酸内切酶识别位点，其促进环内的切割事件。在一些实施例中，环可以包含非规范核苷酸序列。在一些实施例中，所包含的非规范核苷酸可以被促进链切割的一种或多种酶识别。在一些实施例
中，所包含的非规范核苷酸可以通过促进环中的链断裂的一种或多种化学方法靶向。在一
些实施例中，环可以含有经修饰的核酸接头，其可以通过促进环中的链切割的一种或多种
酶促、化学或物理方法靶向。在一些实施例中，这种经修饰的接头是光可切割的接头。

[0128] 各种其它分子工具可以充当SMI和SDE。除剪切点和基于DNA的标签外，保持成对链在物理上接近的单分子区室化方法或其它非核酸加标签方法可以发挥链相关功能。类似
地，以它们可以在物理上分开的方式不对称化学标记衔接子链可以发挥SDE作用。最近描述的DS变化使用亚硫酸氢盐转换，以胞嘧啶甲基化的形式将天然存在的链不对称性转化成区
别两条链的序列差异。尽管该实施限制了可以检测的突变类型，但在可以直接检测经修饰
的核苷酸的新出现测序技术的背景下，利用天然不对称性的概念是值得注意的。SDE的各种实施例进一步公开于国际专利公开号WO2017/100441，所述专利以引用的方式整体并入。

[0129] 衔接子和衔接子序列

[0130] 在各种布置中，包含SMI(例如，分子条形码)、SDE、引物位点、流动池序列和/或其它特征的衔接分子考虑用于与本文公开的许多实施例一起使用。在一些实施例中，提供的衔接子可以是或包含与PCR引物(例如引物位点)互补或至少部分互补的一种或多种序列，
其具有下述特性中的至少一种：1)高靶特异性；2)能够多重化；且3)显示出稳健且最低限度偏差的扩增。

[0131] 在一些实施例中，衔接分子可以是“Y”形、“U”形、“发夹”形、具有鼓泡(例如，非互补的序列的一部分)、或其它特征。在其它实施例中，衔接分子可以包含“Y”形、“U”形、“发夹”形或鼓泡。某些衔接子可以包含经修饰的或非标准的核苷酸、限制性位点、或者用于体外结构或功能操纵的其它特征。衔接分子可以连接到具有末端的各种核酸材料。例如，衔接分子可以适合连接到T突出端、A突出端、CG突出端、多核苷酸突出端、脱羟基化碱基、核酸材料的平末端和分子的末端，其中靶的5′脱去磷酸或以其它方式被阻止常规连接。在其它实施例中，衔接分子可以含有在连接位点处的5′链上脱去磷酸或以其它方式预防连接的修饰。在后两个实施例中，此类策略可以用于预防文库片段或衔接分子的二聚化。

[0132] 衔接子序列可以意指单链序列、双链序列、互补序列、非互补序列、部分互补序列、不对称序列、引物结合序列、流动池序列、连接序列或由衔接分子提供的其它序列。在特定实施例中，衔接子序列可以意指用于通过与寡核苷酸互补而扩增的序列。

[0133] 在一些实施例中，提供的方法和组合物包括至少一种衔接子序列(例如，两个衔接子序列，核酸材料的5′和3′末端上各一种)。在一些实施例中，提供的方法和组合物可以包含2种或更多种衔接子序列(例如，3、4、5、6、7、8、9、10种或更多种)。在一些实施例中，至少两种衔接子序列彼此不同(例如，通过序列)。在一些实施例中，每种衔接子序列与彼此的衔接子序列不同(例如，通过序列)。在一些实施例中，至少一种衔接子序列与至少一种其它衔接子序列的至少一部分至少部分不互补(例如，通过至少一个核苷酸不互补)。

[0134] 在一些实施例中，衔接子序列包含至少一种非标准核苷酸。在一些实施例中，非标准核苷酸选自脱碱基位点、尿嘧啶、四氢呋喃、8-氧代-7，8-二氢-2′-脱氧腺苷(8-氧代-A)、8-氧代-7，8-二氢-2′-脱氧鸟苷(8-氧代-G)、脱氧肌苷、5′硝基吲哚、5-羟甲基-2′-脱氧胞苷、异胞嘧啶、5′-甲基-异胞嘧啶、或异鸟苷、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代-鸟嘌呤、光可切割的接头、生物素化核苷酸、脱硫生物素核苷酸、硫醇修饰的核苷酸、acrydite修饰的核苷酸、异dC、异dG、2′-O-甲基核苷酸、肌苷核苷酸、锁核酸、肽核酸、5甲基dC、5-溴脱氧尿苷、2，6-二氨基嘌呤、2-氨基嘌呤核苷酸、脱碱基核苷酸、5-硝基吲哚核苷酸、腺苷酸化核苷酸、叠氮核苷酸、地高辛核苷酸、I-接头、5′己炔基修饰的核苷酸、5-辛二炔基dU、光可切割间隔物、非光可切割间隔物、点击化学相容的修饰核苷酸及其任何组合。

[0135] 在一些实施例中，衔接子序列包含具有磁性特性的部分(即，磁性部分)。在一些实施例中，这种磁性特性是顺磁性的。在其中衔接子序列包含磁性部分(例如，与包含磁性部分的衔接子序列连接的核酸材料)的一些实施例中，当施加磁场时，包含磁性部分的衔接子序列与不包含磁性部分的衔接子序列(例如，与不包含磁性部分的衔接子序列连接的核酸材料)基本上分开。

[0136] 在一些实施例中，至少一种衔接子序列位于SMI的5′。在一些实施例中，至少一种衔接子序列位于SMI的3′。

[0137] 在一些实施例中，衔接子序列可以经由一个或多个接头结构域连接至SMI和核酸材料中的至少一种。在一些实施例中，接头结构域可以由核苷酸组成。在一些实施例中，接头结构域可以包括至少一个经修饰的核苷酸或非核苷酸分子(例如，如本公开内容中其它
地方所述)。在一些实施例中，接头结构域可以是或包含环。

[0138] 在一些实施例中，双链核酸材料的每条链的任一或两个末端上的衔接子序列还可以包括提供SDE的一种或多种元件。在一些实施例中，SDE可以是或包含在衔接子序列内包
含的不对称引物位点。

[0139] 在一些实施例中，衔接子序列可以是或包含至少一个SDE和至少一个连接结构域(即，可修饰至少一种连接酶的活性的结构域，例如，适于通过连接酶的活性连接至核酸材料的结构域)。在一些实施例中，从5′到3′，衔接子序列可以是或包含引物结合位点、SDE和连接结构域。

[0140] 用于合成DS衔接子的各种方法先前已在例如美国专利号9,752，188和国际专利公开号WO2017/100441中描述，所述两个专利均以引用的方式整体并入本文。

[0141] 引物

[0142] 在一些实施例中，具有下述特性中的至少一种：1)高靶特异性；2)能够多重化；且3)显示出稳健且最低限度偏差的扩增的一种或多种PCR引物，考虑用于根据本技术的方面
的各种实施例中。许多先前的研究和商业产品已设计了满足关于常规PCR-CE的这些标准中
的一些的引物混合物。然而，已注意到这些引物混合物对于与MPS一起使用并非总是最佳
的。实际上，开发高度多重化的引物混合物可能是具有挑战性且耗时的过程。方便地，
Illumina和Promega两者最近均已开发了用于Illumina平台的多重相容性引物混合物，其
显示各种标准和非标准STR和SNP基因座的稳健且有效的扩增。因为这些试剂盒在测序前使
用PCR扩增其靶区域，所以配对末端测序数据中的每个读数的5′末端对应于用于扩增DNA的PCR引物的5′末端。在一些实施例中，提供的方法和组合物包括设计为确保均匀扩增的引
物，其可能需要不同的反应浓度、解链温度、以及最小化的二级结构和引物内/引物间相互作用。许多技术已描述用于MPS应用的高度多重化的引物优化。特别地，这些技术经常称为扩增方法，如本领域充分描述的。

[0143] 扩增

[0144] 在各种实施例中，提供的方法和组合物利用或使用至少一个扩增步骤，其中扩增核酸材料(或其一部分，例如，特定靶区域或基因座)被，以形成扩增的核酸材料(例如，一些数目的扩增子产物)。在一些实施例中，提供的方法包括将扩增的核酸材料分离成例如第一样品和第二样品的步骤。

[0145] 在一些实施例中，扩增第一样品中的核酸材料包括以下步骤：使用与第一衔接子序列中存在的序列至少部分互补的至少一种单链寡核苷酸、以及与目的靶序列至少部分互
补的至少一种单链寡核苷酸，扩增源自来自原始双链核酸材料的单条核酸链的核酸材料，
使得SMI序列至少部分得到维持。

[0146] 在一些实施例中，扩增第二样品中的核酸材料包括以下步骤：使用与第二衔接子序列中存在的序列至少部分互补的至少一种单链寡核苷酸、以及与目的靶序列至少部分互
补的至少一种单链寡核苷酸，扩增源自来自原始双链核酸材料的单条核酸链的核酸材料，
使得SMI序列至少部分得到维持。

[0147] 在一些实施例中，在第二扩增步骤之前，可以将扩增的核酸材料分离成3个或更多个样品(例如，4、5、6、7、8、9、20、20、30、40、50个或更多个样品)。在一些实施例中，每个样品包括与每个其它样品基本上相同量的扩增核酸材料。在一些实施例中，至少两个样品包括
基本上不同量的扩增核酸材料。

[0148] 在一些实施例中，扩增第一样品或第二样品中的核酸材料可以包括在“管”(例如PCR管)、乳液液滴、微室和上述其它例子或其它已知容器中扩增样品。

[0149] 在一些实施例中，至少一个扩增步骤包括至少一种引物，其是或包含至少一种非标准核苷酸。在一些实施例中，非标准核苷酸选自尿嘧啶、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代-鸟嘌呤、生物素化核苷酸、锁核酸、肽核酸、高-Tm核酸变体、等位基因区分核酸变体、本文其它地方所述的任何其它核苷酸或接头变体及其任何组合。

[0150] 虽然任何应用适当的扩增反应被认为与一些实施例相容，但作为具体例子，在一些实施例中，扩增步骤可以是或包括聚合酶链反应(PCR)、滚环扩增(RCA)、多重置换扩增
(MDA)、等温扩增、乳液内的聚合酶克隆扩增、表面上、珠的表面上或水凝胶内的桥式扩增及其任何组合。

[0151] 在一些实施例中，可以对核酸材料样品的一部分(例如，衔接子序列)进行某些修饰。作为具体例子，在一些实施例中，扩增第一样品中的核酸材料还可以包括在分离步骤后且在第一样品扩增前，破坏或破裂在核酸材料上发现的第二衔接子序列的一部分或全部。
作为另外的具体例子，在一些实施例中，扩增第二样品中的核酸材料还可以包括在分离步
骤后且在第二样品扩增前，破坏或破裂在核酸材料上发现的第一衔接子序列的至少一部
分。在一些实施例中，破坏或破裂可以是或包括以下中的至少一种：酶促消化(例如，经由核酸内切酶和/或核酸外切酶)、至少一种复制抑制分子的包括、酶促切割、一条链的酶促切
割、两条链的酶促切割、修饰核酸的掺入随后为导致一条链或两条链切割的酶促处理、复制阻断核苷酸的掺入、链终止子的掺入、光可切割接头的掺入、尿嘧啶的掺入、核糖基的掺入、
8-氧代-鸟嘌呤加合物的掺入、序列特异性限制性核酸内切酶的使用、靶向核酸内切酶(例
如，Cas酶，例如Cas9或CPF1)的使用及其任何组合。在一些实施例中，作为引物位点破坏或破裂的添加或替代，考虑了诸如亲和力下拉、大小选择或用于从样品中去除和/或不扩增不需要的核酸材料的任何其它已知技术的方法。

[0152] 在一些实施例中，靶向用于至少部分破坏的非期望的第一扩增产物在用靶向引物的第二扩增后导致第二扩增产物，所述靶向引物最终含有在分子的每个末端上的两个相似
的引物结合位点而不是两个不同的引物结合位点。在一些实施例中，此类结构对于MPS DNA序列性能或效率可能是有问题的。

[0153] 在一些实施例中，扩增核酸材料包括与目的靶区域或靶序列(例如，基因组序列、线粒体序列、质粒序列、合成产生的靶核酸等)至少部分互补的至少一种单链寡核苷酸、以及与衔接子序列的区域(例如引物位点)至少部分互补的单链寡核苷酸的使用。在一些实施
例中，扩增核酸材料包括与核酸材料的每条链的5′和3′末端上的衔接子序列区域至少部分互补的单链寡核苷酸的使用。

[0154] 一般而言，稳健扩增，例如PCR扩增，可以高度依赖于反应条件。例如，多重PCR可以对缓冲液组成、单价或二价阳离子浓度、去污剂浓度、拥挤剂(即PEG、甘油等)浓度、引物浓度、引物Tm、引物设计、引物GC含量、引物修饰核苷酸特性和循环条件(即温度和延伸时间以及温度变化率)敏感。缓冲条件的优化可能是困难且耗时的过程。在一些实施例中，根据先前已知的扩增方案，扩增反应可以使用缓冲液、引物池浓度和PCR条件中的至少一种。在一些实施例中，可以产生新的扩增方案，和/或可以使用扩增反应优化。作为具体例子，在一些实施例中，可以使用PCR优化试剂盒，例如来自的PCR Optimization Kit，其含有许多预配制的缓冲液，其部分优化用于各种PCR应用，例如多重、实时、富含GC和抑制剂抗
2+
性扩增。这些预配制的缓冲液可以快速补充有不同的Mg 和引物浓度，以及引物池比率。另外，在一些实施例中，可以评价和/或使用各种循环条件(例如，热循环)。在评价特定实施例是否适合于特定的所需应用时，可以评价在其它方面中的特异性、关于杂合基因座的等位
基因覆盖率、基因座间平衡和深度中的一种或多种。扩增成功的测量可以包括产物的DNA测序，通过凝胶电泳或毛细管电泳或HPLC或其它大小分离方法，随后为片段可视化的产物评
估，使用双链核酸结合染料或荧光探针的解链曲线分析，质谱法或本领域已知的其它方法。

[0155] 根据各种实施例，各种因子中的任一种可以影响特定扩增步骤的长度(例如，PCR反应中的循环数等)。例如，在一些实施例中，提供的核酸材料可能是妥协的或在其它方面次优的(例如降解和/或污染的)。在这种情况下，较长的扩增步骤可以帮助确保所需产物扩增至可接受的程度。在一些实施例中，扩增步骤可以提供来自每个起始DNA分子3至10个测
序的PCR拷贝的平均值，尽管在其它实施例中，仅需要顶部链和底部链各自的单个拷贝。不希望受到特定理论的束缚，太多或太少的PCR拷贝可以导致测定效率减少，并且最终导致深度减少是可能的。一般地，用于扩增(例如，PCR)反应中的核酸(例如DNA)片段的数目是主要可调节变量，其可以指示共享相同SMI/条形码序列的读数的数目。因为SPLiT-DS利用另外
的PCR步骤并且不需要使用基于杂交的靶向捕获，如一些先前描述的方法那样，所以使用先前方法报道的任何双链核酸输入量要求不太可能直接转变为目前提供的方法，其可能是更
有效的。

[0156] 引物位点破坏

[0157] 图6-9B是根据本技术的另外实施例的各种SPLiT-DS方法步骤的概念性图示。如上文讨论的，并且参考图4-6，与SPLiT-DS相关的方法步骤，提供了具有由SMI加上标签的第一链扩增子和第二链扩增子的扩增核酸材料(例如，α、α’、β、β’，图6)、以及包含在第一轮扩增后可以分离到多个样品内的不对称引物位点(例如，对于Illumina P5和P7引物，图6)的另
外衔接子序列。图7示出了后续步骤，其中巢式PCR反应可以在分开的反应样品(例如管)中
提供原始核酸分子的顶部链和底部链的富集扩增。如图7中所示，除所需扩增产物的富集之外，还可以生成一些非期望的扩增产物和后续测序读数。相应地，并且在一些实施例中，效率可以是减少的(例如，相对于在SPLiT-DS方案中不可用的那些，用于SPLiT-DS中的所需产物的百分比可能较低)。

[0158] 根据本技术的另外方面，通过采用一种或多种策略用于减少和/或消除非期望的扩增产物的扩增和测序，可以增加转换效率和工作流效率的各个方面。在一些实施例中，在扩增核酸材料的第一轮扩增和分离到多个样品内之后，引物位点破坏或破裂(例如，衔接子序列内的引物位点的破坏)可以用作富集某些核酸产物的方式(如在例如图8A中)。在一些
实施例中，提供的方法可以包括双链引物位点破坏的使用。本文考虑了几种引物位点破坏
方法。图8A-8D是掺入双链引物位点破坏方案的SPLiT-DS方法步骤的概念性图示。双链引物位点破坏可以通过各种手段来实现，包括通过经由在第一扩增步骤中使用的修饰引物，在
靶向链中引入引物位点修饰(例如，图6)。在一些实施例中，第一PCR中的引物可以具有修
饰，包括尿嘧啶、甲基化、RNA碱基、8-氧代-鸟嘌呤或可以在以后步骤中靶向的其它修饰。在一些实施例中，引物位点破坏可以是或包含例如在衔接子序列中存在的序列的限制性酶或
其它靶向核酸内切酶(例如Cas9、CPF1等)消化，其中已确定限制性位点的机会在目的序列
中出现的机会很低。在某些实施例中，可以将与待破坏的引物序列互补的寡核苷酸加入特
定样品，随后为用对双链DNA特异性的靶向核酸内切酶的探询。在另一个具体实施例中，具有甲基基团的杂交寡核苷酸可以用于将甲基化特异性限制性核酸内切酶召募至互补引物
位点。如图8A中所示，双链引物位点破坏(例如，样品中非靶向链的两个拷贝上的引物位点的破坏)，可以用于破坏、削弱或去除来自管1中的“顶部链”和“底部链”拷贝两者的“P5”引物序列。同样地，在管2中，“P7”引物序列可以从“顶部链”和“底部链”拷贝两者中选择性地破坏、削弱或去除。图8B是用于选择性地破坏样品中的引物序列的一个例子的概念性图示。
如图8B中所示，可以用第一限制性核酸内切酶(例如，MspJI)处理第一样品，所述第一限制性核酸内切酶选择性地切割第一引物序列(例如，Illumina“P5”)中发现的位点，由此破坏第一样品中的所有核酸材料中的第一引物位点。同样地，可以用第二限制性核酸内切酶(例如，FspEI)处理第二样品，所述第二限制性核酸内切酶选择性地切割第二引物序列(例如，Illumina“P7”)中发现的位点，由此破坏第二样品中的所有核酸材料中的第二引物位点。

[0159] 参考图8A和8C一起，通过使用“P7”引物和具有“P5”引物位点尾部的靶序列引物(例如，基因特异性引物)，选择性地扩增(延伸一个或多个线性循环)管1中的产物，仅生成掺入“P7”和“P5”引物位点两者的“底部链”种类(参见例如图8C)，而管1中的其它核酸种类不能以指数方式扩增或测序(例如，缺少“P5”引物位点)。同样地，通过使用“P5”引物和具有“P7”引物位点尾部的靶序列引物(例如，基因特异性引物)，选择性地扩增(延伸一个或多个线性循环)管2中的产物，仅生成掺入“P5”和“P7”引物位点两者的“顶部链”种类(参见例如图8C)，而管2中的其它核酸种类不能以指数方式扩增或测序(例如，缺少“P5”引物位点)。应理解，虽然不需要的线性产物不测序或以指数方式扩增，但它们可能消耗引物和dNTP，这可能对此类反应的效率具有一些影响。

[0160] 在一些实施例中，包括引物位点破坏的方法还可以使用一种或多种生物素化的或其它靶向引物。图8D是根据本技术的另一个实施例，掺入双链引物位点破坏方案的SPLiT-
DS方法步骤的概念性图示。在图8D中所示的实施例中，具有“P5”引物位点尾部或“P7”引物位点尾部的靶序列引物是生物素化的。参考图8D，并且在使用生物素化的靶向引物的延伸
步骤之后，链霉抗生物素蛋白珠或水凝胶富集可以用于富集具有两个引物位点的产物，由
此消除大多数仅具有一个引物位点的核酸种类。考虑在一些此类实施例中，此类富集可以
改善PCR效率，和/或促进多重化方法，和/或改善在MPS DNA测序仪上的簇扩增效率，和/或在MPS DNA测序仪上生成更多可用的测序数据。

[0161] 为了进一步限制由生物素/链霉抗生物素蛋白富集捕获的种类的脱靶富集，用巢式引物(例如，“PS”或“P7”引物以及具有相反流动池序列的内部嵌套的第二靶向引物)的进一步扩增可以用于进一步富集在靶上的种类，并且减少不需要的扩增产物。在一个特定实
施例中，在加入成对的嵌套引物用于指数扩增之前，使用例如对目的靶序列特异性的引物
的选择性线性扩增可以进一步富集所需种类。

[0162] 在一些实施例中，可以使用单链引物位点破坏。图9A和9B是根据本技术的进一步方面，掺入单链引物位点破坏方案的SPLiT-DS方法步骤的各种实施例的概念性图示。作为
非限制性例子，并且如图9A中所示，在SPLiT-DS的第一扩增步骤期间，通过使用经修饰的引物(未显示)，可以在双链分子的一条链中破坏引物位点(参见例如图6)。经修饰的引物可以包括化学修饰(例如，尿嘧啶、甲基化、RNA碱基、8-氧代-鸟嘌呤等)等等，其随后可以被靶向用于破坏或削弱受影响的链上的引物位点。使用“P7”引物和特异性标记(例如，生物素、具有不同的流动池衔接子尾部等)的靶序列引物(例如，基因特异性引物)，随后扩增(延伸一
个或多个线性循环)管1中的所需靶，仅生成掺入“P7”和特殊标记(例如，生物素、不同引物位点等)两者的“底部链”种类(参见例如图9A)，而管1中的其它核酸种类将不以指数方式扩增。通过链霉抗生物素蛋白珠富集(未显示)、或经由用“P7”引物以及具有不同引物位点补充和具有“P5”引物位点的流动池衔接子尾部的修饰引物的进一步扩增，在下一步中进一步选择不需要的产物(图9B)。用“P7”和“P5”引物的最终扩增反应在管1样品中得到富集的“底部链”产物(图9B)。可以使管2中的样品中的补充步骤富集“顶部链”产物(图9B)。不希望受任何特定理论的束缚，考虑如果用于双链引物位点消化的选项是可用的，则此类选项可以
优于单链消化。

[0163] 在进一步的实施例中，关于图6-9B描述的一个或多个方案可以组合或某些步骤可以消除，同时仍然实现某些效率改善。例如，在一个实施例中，可以在延伸步骤期间使用生物素化的靶向引物(例如，遵循图6中所示的方法步骤)，并且随后的链霉抗生物素蛋白探测可以用于回收目的链。在该实例中(例如，不含引物位点破坏)，也回收具有两个相同引物位点(例如，两个“P5”引物位点、两个“P7”引物位点)的种类。

[0164] 多重PCR/捕获的分子

[0165] 在某些应用中，靶向区域或序列可能对序列具有挑战性，因为核酸断裂点可能接近于靶特异性引物，导致短片段或完全错过的区域。例如，随机剪切的DNA或循环细胞游离DNA(cfDNA)，例如循环肿瘤DNA或循环胎儿DNA，样品可以具有不能检索(例如，在测序读数中检测/覆盖)的靶序列。在一些实施例中，提供的方法可以通过靶向靶序列内的多个区域
来克服此类挑战，例如使用与靶序列的交错部分互补的多个靶引物(例如，靶向靶序列的不同区域的每个引物)。为了避免与短片段相关的挑战，并且在一个实施例中，可以将DNA剪切成比最佳测序通常期望的更大的片。图10是根据本技术的另外一个实施例，使用多个靶向
引物用于生成更长核酸分子的双重共有序列的SPLiT-DS方法步骤的概念性图示。

[0166] 参见图10，提供的方法可以包括多个扩增引物，例如各自靶向目的靶序列的区域(例如，相隔～100BP)的多个引物的使用。根据各种实施例，此类方法可以在单个反应(例如管)中执行，或者在其它实施例中，在多个反应(例如管)中执行，例如，以避免附近或相邻的引物彼此相互作用。在一些实施例中，可以通过用链置换聚合酶执行延伸来减轻多个交错
引物在相同管中的相互作用，使得从下游引发的引物不阻断从更上游引发的引物。在一些
实施例中，延伸可以用第一引物执行几个线性循环，随后为净化，以及对于第二引物的另一组延伸等。如图10中所示，每个嵌套的引物组生成不同长度的扩增产物，其可以随后进行测序。所有扩增产物中的读数1将得到相同的序列信息，而来自扩增产物A、B和C各自的配对末端序列读数将得到交错的测序信息，其连同读数1测序信息一起提供比以前使用MPS或标准
DS方案可能的更大长度的组装序列。

[0167] 在一些实施例中，使用对其它DS方法非标准的方法进行多引物数据的分析。如本领域技术人员了解的，多引物序列读数的双重组装使用单独的SMI标签是不可能的，因为多重化的样品可以包括具有相同标签的不同长度的产物。为了解决这一挑战，一些实施例包
括通过标签的双重组装，所述标签是SMI和靶向引物起始位点的序列(例如基因组)位置的
组合。在一些实施例中，在双重组装后，可以评估具有共同SMI但不同长度的双重读数的数据。在一些实施例中，可以将各个双重家族组装成聚集的“多读数双重家族”。考虑一些此类实施例可以促进DS靶向区域子组装成更长的单分子读数，这对于某些应用可能是有利的，
并且用短读数测序平台增加靶核酸分子的有效基因分型长度。

[0168] 如本领域技术人员已知的，目前通过Illumina NextSeq可以获得的最长连续读数是～300BP：配对末端150BP读数在中间相遇，只要酶促靶向和引物小心设计为产生基本上
接近这个长度的片段。相应地，在一些实施例中，如本文所述的，掺入多引物方法的实施例实现更长的完整分子DS序列。

[0169] 在一些方面，提供的方法反映了以下见解：在一些实施例中，与SPLiT-DS组合的多个靶向引物可以尤其实现(i)长单一分子的连续序列，并且任选地，具有(ii)高特异性和/或(ii)DS准确度。认为很可能本文提供的方法可以用于例如以下应用中：需要长而准确的
连续读数的那些；从头基因组装配；在重复区域(即具有重复序列的基因组区域)中执行测
定，其中独特的作图是困难的；认为特别具有挑战性的测序区域(例如HLA基因座、癌症假基因、微卫星)；用于例如癌症中的变体的共同发生率(例如药物致敏突变、抗性突变)的测定、单倍型分析(例如，评估循环胎儿DNA中突变的起源(例如母体、父体或胎儿起源))、宏基因组学(例如抗生素抗性)；克服某些酶的限制(例如Cas9和特定区域基于酶识别位点的位置
需要相隔多远的限制)；大的结构重排；和/或插入缺失等。

[0170] 用于加工核酸材料的另外实施例

[0171] 在一些实施例中，有利的是这样加工核酸材料，以便改善测序过程的效率、准确度和/或速度。根据本技术的进一步方面，可以通过靶向核酸片段化来增强例如DS和/或SPLiT-DS的效率。传统上，通过物理剪切(例如，超声处理)、或利用酶混合物以切割DNA磷酸二酯键的某些非序列特异性酶促方法，来实现核酸(例如，基因组、线粒体、质粒等)片段化。
上述方法中任一的结果是这样的样品，其中完整的核酸材料(例如，基因组DNA(gDNA))被还原成具有随机或半随机大小的核酸片段的混合物。虽然有效，但这些方法生成具有可变大
小的核酸片段，这可能导致扩增偏差(例如，短片段比较长片段更倾向于PCR扩增，并且簇在聚合酶克隆形成期间更容易扩增)和不均匀的测序深度。例如，图11A是绘制核酸插入物大
小与扩增后所得到的家族大小之间的关系的图。如图11A中所示，因为较短的片段倾向于优先扩增，所以生成且测序这些较短片段各自的更大数目的拷贝，提供这些区域的不成比例
水平的测序深度。此外，对于较长的片段，尽管成功连接、扩增且捕获，但在测序读数的限制之间(或在配对末端测序读数的末端之间)的DNA的一部分不能被探询，并且是“暗的”(图
11B)。同样地，对于短读数，并且当使用配对末端测序时，从两个读数读取分子中间的相同序列提供了冗余信息，并且成本效率低的(图11B)。随机或半随机核酸片段化还可以导致靶分子中不可预测的断裂点，其得到可能与杂交捕获的诱饵链不具有互补性或减少的互补性
的片段，从而降低靶捕获效率。随机或半随机片段化也可以断裂目的序列，和或导致在文库制备的其它阶段期间丢失的非常小或非常大的片段，并且可以降低数据产率和效率。

[0172] 关于许多随机片段化方法，特别是机械或声学方法的另一个问题是它们引入超出双链断裂的损伤，这可以致使双链DNA的一部分不再是双链的。例如，机械剪切可以在分子的末端处产生3′或5′突出端，以及在分子中间的单链切口。顺应衔接子连接的这些单链部分，例如“末端修复”酶的混合物，用于人工地致使其再一次成为双链的，并且其可能是人为错误的来源(例如上文关于“假双重分子”描述的)。在许多实施例中，使在处理期间以天然双链形式保留的目的双链核酸的量达到最大是最佳的。

[0173] 相应地，在一些实施例中，提供的方法和组合物利用靶向核酸内切酶(例如核糖核蛋白复合物(CRISPR相关核酸内切酶，例如Cas9、Cpf1)、归巢核酸内切酶、锌指核酸酶、
TALEN、argonaute核酸酶和/或大范围核酸酶(例如，megaTAL核酸酶等)或其组合)、或能够切割核酸材料(例如，一种或多种限制性酶)的其它技术，以切除以最佳片段大小的目的靶
序列用于测序。在一些实施例中，靶向核酸内切酶具有特异性和选择性地切除精确目的序
列区域的能力。图11C是示出根据本技术的一个实施例，用于生成由CRISPR/Cas9区分大小
的靶向片段且用于生成测序信息的方法步骤的示意图。通过预先选择切割位点，例如使用
可编程核酸内切酶(例如，CRISPR相关(Cas)酶/引导RNA复合物)，其导致预定且基本上均匀大小的片段(图11C)，偏差和无信息读数的存在可以急剧减少。此外，由于切除的片段与剩余的未切割DNA之间的大小差异，可以执行大小选择步骤(如下文进一步描述的)以去除大
的脱靶区域，因此在任何进一步加工步骤之前预富集样品。还可以减少或消除对于末端修
复步骤的需要，因此节省了时间和假双重挑战的风险，并且在一些情况下，减少或消除对于分子末端附近的数据的计算修剪的需要，因此改善了效率。

[0174] 限制性核酸内切酶

[0175] 特别考虑各种限制性核酸内切酶(即酶)中的任一种可以用于提供基本上均匀长度的核酸材料。一般地，限制性酶通常由某些细菌/其它原核生物产生，并且在DNA的给定区段中的特定序列处、附近或之间切割。

[0176] 对于本领域技术人员显而易见，选择限制性酶以在特定位点处切割，或可替代地，在生成的位点处切割，以便产生用于切割的限制性位点。在一些实施例中，限制性酶是合成酶。在一些实施例中，限制性酶不是合成酶。在一些实施例中，如本文使用的限制性酶已进行修饰，以在酶本身的基因组内引入一个或多个变化。在一些实施例中，限制性酶在DNA的给定部分内的限定序列之间产生双链切割。

[0177] 虽然任何限制性酶可以根据一些实施例使用(例如，I型、II型、III型和/或IV型)，但下述代表了可以使用的限制性酶的非限制性列表：AluI、ApoI、AspHI、BamHI、BfaI、BsaI、CfrI、DdeI、DpnI、DraI、EcoRI、EcoRII、EcoRV、HaeII、HaeIII、HgaI、HindII、HindIII、HinFI、KpnI、MamI、MseI、MstI、MstII、NcoI、NdeI、NotI、PacI、PstI、PvuI、PvuII、RcaI、RsaI、SacI、SacII、SalI、Sau3AI、ScaI、SmaI、SpeI、SphI、StuI、XbaI、XhoI、XhoII、XmaI、XmaII及其任何组合。合适限制性酶的广泛但非详尽的列表可以在可公开获得的目录和因特网(例如，可在New England Biolabs，Ipswich，MA，U.S.A处获得)上找到。

[0178] 靶向核酸内切酶

[0179] 靶向核酸内切酶(例如，CRISPR相关核糖核蛋白复合物，例如Cas9或Cpf1、归巢核酸酶、锌指核酸酶、TALEN、megaTAL核酸酶、argonaute核酸酶和/或其衍生物)可以用于选择性地切割且切除核酸材料的靶向部分，用于富集此类靶向部分用于测序应用的目的。在一
些实施例中，可以修饰靶向核酸内切酶，例如具有氨基酸取代，用于提供例如增强的热稳定性、耐盐性和/或pH耐受性。在其它实施例中，靶向核酸内切酶可以是生物素化的，与链霉抗生物素蛋白融合和/或掺入其它基于亲和力的(例如，诱饵/捕获物)技术。在某些实施例中，靶向核酸内切酶可以具有改变的识别位点特异性(例如，具有改变的PAM位点特异性的
SpCas9变体)。本文进一步讨论了基于CRISPR的靶向核酸内切酶，以提供靶向核酸内切酶的使用的进一步详细的非限制性例子。我们注意到关于此类靶向核酸酶的命名法仍然在变
化。出于本文的目的，我们使用术语“基于CRISPER的”以一般意指包含核酸序列的核酸内切酶，其序列可以进行修饰，以重新定义待切割的核酸序列。Cas9和CPF1是目前使用的此类靶向核酸内切酶的实例，但更明显在自然界中存在不同的地方，并且此类靶向和容易调节的
核酸酶的不同变种的可用性预期将在未来几年迅速增长。类似地，增强或修饰其特性的这
些酶的多重改造变体变得可用。在本文中，我们明确考虑了本文未明确描述或尚未发现的
基本上功能相似的靶向核酸内切酶的使用，以实现与其中描述的公开内容类似的目的。

[0180] CRISPR-DS

[0181] 本技术的另外方面涉及使用可编程核酸内切酶CRISPR/Cas9富集目的区域的方法。特别地，CRISPR/Cas9(或其它可编程核酸内切酶)可以用于选择性地切除一个或多个目的序列区域，其中切除的靶区域被设计为具有一个或多个预定长度，因此允许在用于测序
应用(如DS和SPLiT-DS)的文库制备之前的大小选择。这些可编程核酸内切酶可以单独使
用，或与其它形式的靶向核酸酶例如限制性核酸内切酶组合使用。称为CRISPR-DS的这种方法允许非常高的在靶上的富集(其可以减少对于后续杂交捕获步骤的需要)，其可以显著降
低时间和成本以及增加转换效率。图12A-12D是根据本技术的一个实施例的CRISPR-DS方法
步骤的概念性图示。例如，CRISPR/Cas9可以用于在靶序列内的一个或多个特定位点(例如，PAM位点)处切割(图12A；在该例子中的TP53靶区域)。图12B示出了一种方法，其使用SPRI/Ampure珠和磁体纯化来分离切除的靶部分，以去除高分子量DNA，同时留下预定的较短片
段。在其它实施例中，可以使用各种大小选择方法，包括但不限于凝胶电泳、凝胶纯化、液相层析、尺寸排阻纯化和过滤纯化方法，将预定长度的切除部分与不期望的DNA片段和其它高分子量基因组DNA(如果适用的话)分开。在大小选择之后，CRISPR-DS方法包括与DS方法步
骤(参见例如图12E)一致的步骤，包括A-加尾(CRISPR/Cas9切除留下平端)、DS衔接子的连
接(图12C)、双重扩增(图12D)、在每条链测序和生成双重共有序列之前的捕获步骤和指数
扩增(例如，PCR)(图12D)。除如图12E中显而易见的工作流效率中的改善之外，CRISPR-DS提供了用于高效扩增和测序步骤的最佳片段长度(图12F)。

[0182] 在某些实施例中，CRISPR-DS解决了与NGS相关的多种常见问题，包括例如低效的靶富集，其可以通过基于CRISPR的大小选择进行优化；测序错误，其可以使用用于生成错误纠正的双重共有序列的DS方法去除；以及不均匀的片段大小，其通过预先设计的CRISPR/
Cas9片段化来减轻(表1)。

[0183] 表1.TP53 CRISPR/Cas9消化的crRNA序列

[0184]

[0185] 用Cas9核酸酶在体外消化DNA材料利用核糖核蛋白复合物的形成，其识别且切割预定位点(例如，PAM位点，图11C)。该复合物由引导RNA(“gRNA”，例如crRNA+tracrRNA)和Cas9形成。对于多重切割，可以通过合并所有crRNA，然后与tracrRNA复合，或通过分别复合每种crRNA和tracrRNA，然后合并来复合gRNA。在一些实施例中，第二选项可能是优选的，因为它消除了crRNA之间的竞争。

[0186] 如本领域技术人员将了解的，如本文所述，CRISPR-DS可以具有用于在其中样品是DNA受限的情况下的突变的灵敏鉴定的应用，例如法医学和早期癌症检测应用。

[0187] 在一些实施例中，核酸材料包含基本上均匀长度的核酸分子。在一些实施例中，基本上均匀的长度在约1至1,000,000个碱基之间)。例如，在一些实施例中，基本上均匀的长度可以是长度为至少1；2；3；4；5；6；7；8；9；10；15；20；25；30；35；40；50；60；70；80；90；100；120；150；200；300；400；500；600；700；800；900；1000；1200；1500；2000；3000；4000；5000；
6000；7000；8000；9000；10,000；15,000；20,000；30,000；40,000；或50,000个碱基。在一些实施例中，基本上均匀的长度可以是至多60,000；70,000；80,000；90,000；100,000；120,
000；150,000；200,000；300,000；400,000；500,000；600,000；700,000；800,000；900,000；
或1,000,000个碱基。作为具体的非限制性例子，在一些实施例中，基本上均匀的长度在约
100至约500个碱基之间。在一些实施例中，可以在任何特定的扩增步骤之前执行大小选择
步骤，例如本文所述的步骤。在一些实施例中，可以在任何特定的扩增步骤之后执行大小选择步骤，例如本文所述的步骤。在一些实施例中，大小选择步骤(例如本文所述的那些)随后可以为另外的步骤，例如消化步骤和/或另一个大小选择步骤。

[0188] 除靶向核酸内切酶的使用之外，可以使用实现基本上均匀长度的核酸分子的任何其它应用适当的方法。作为非限制性例子，此类方法可以是或包括以下中的一种或多种的
使用：琼脂糖凝胶或其它凝胶、亲和柱、HPLC、PAGE、过滤、SPRI/Ampure型珠、或如由本领域技术人员公认的任何其它适当的方法。

[0189] 在一些实施例中，加工核酸材料以便产生基本上均匀长度(或质量)的核酸分子，可以用于从样品(例如，目的靶序列)中回收一个或多个所需靶区域。在一些实施例中，加工核酸材料以便产生基本上均匀长度(或质量)的核酸分子，可以用于排除样品的特定部分
(例如，来自不需要的物种或相同物种的不需要的受试者的核酸材料)。在一些实施例中，核酸材料可以以各种大小存在(例如，不是基本上均匀的长度或质量)。

[0190] 在一些实施例中，可以使用多于一种靶向核酸内切酶或用于提供基本上均匀长度的核酸分子的其它方法(例如，2、3、4、5、6、7、8、9、10或更多种)。在一些实施例中，靶向核酸酶可以用于切割核酸材料的多于一个潜在靶区域(例如，2、3、4、5、6、7、8、9、10个或更多个)。在一些实施例中，当存在核酸材料的多于一个靶区域时，每个靶区域可以具有相同(或基本上相同)的长度。在一些实施例中，当存在核酸材料的多于一个靶区域时，已知长度的至少两个靶区域在长度上不同(例如，具有100bp长度的第一靶区域和具有1,000bp长度的
第二靶区域)。

[0191] 在一些实施例中，多重靶向核酸内切酶(例如，可编程核酸内切酶)可以组合使用，以片段化目的靶核酸的多重区域。在一些实施例中，一种或多种可编程靶向核酸内切酶可以与其它靶向核酸酶组合使用。在一些实施例中，一种或多种靶向核酸内切酶可以与随机
或半随机核酸酶组合使用。在一些实施例中，一种或多种靶向核酸内切酶可以与核酸片段
化的其它随机或半随机方法，例如机械或声学剪切组合使用。在一些实施例中，用一个或多个介入大小选择步骤在序贯步骤中执行切割可以是有利的。在其中靶向片段化与随机或半
随机片段化组合使用的一些实施例中，后者的随机或半随机性质可以用于发挥SMI的目的。
在其中靶向片段化与随机或半随机片段化组合使用的一些实施例中，后者的随机或半随机
性质可以用于促进核酸区域的测序，所述核酸区域不容易以靶向方式切割，例如长的高度
重复区域。

[0192] 另外的方法

[0193] 在一些实施例中，提供的方法可以包括以下步骤：提供核酸材料，用靶向核酸内切酶(例如，核糖核蛋白复合物)切割核酸材料，使得预定长度的靶区域与核酸材料的其余部分分开，并且分析切割的靶区域。在一些实施例中，提供的方法还可以包括将至少一个SMI和/或衔接子序列连接至预定长度的切割靶区域的5′或3′末端中的至少一个。在一些实施例中，分析可以是或包括定量和/或测序。

[0194] 在一些实施例中，定量可以是或包括分光光度分析、实时PCR和/或基于荧光的定量(例如，使用荧光染料加上标签)。在一些实施例中，测序可以是或包括桑格测序、鸟枪法测序、桥式PCR、纳米孔测序、单分子实时测序、离子流测序、焦磷酸测序、数字测序(例如，基于数字条形码的测序)、通过连接测序、基于聚合酶克隆的测序、基于电流的测序(例如，隧穿电流)、经由质谱法的测序、基于微流体的测序及其任何组合。

[0195] 在一些实施例中，靶向核酸内切酶是或包含CRISPR相关(Cas)酶(例如，Cas9或Cpf1)或其它核糖核蛋白复合物、归巢核酸内切酶、锌指核酸酶、基于转录激活因子样效应物的核酸酶(TALEN)、argonaute核酸酶和/或megaTAL核酸酶中的至少一种。在一些实施例
中，可以使用多于一种靶向核酸内切酶(例如，2、3、4、5、6、7、8、9、10或更多种)。在一些实施例中，靶向核酸酶可以用于切割预定长度的多于一个潜在靶区域(例如，2、3、4、5、6、7、8、9、
10个或更多个)。在一些实施例中，当存在预定长度的多于一个靶区域时，每个靶区域可以具有相同(或基本上相同)的长度。在一些实施例中，当存在预定长度的多于一个靶区域时，预定长度的至少两个靶区域在长度上不同(例如，具有100bp长度的第一靶区域和具有1,
000bp长度的第二靶区域)。

[0196] 另外的方面

[0197] 根据本公开内容的一个方面，一些实施例从非常少量的核酸材料提供高质量的测序信息。在一些实施例中，提供的方法和组合物可以与至多约1皮克(pg)；10pg；100pg；1纳克(ng)；10ng；100ng；200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng或1000ng的起始核酸材料的量一起使用。在一些实施例中，提供的方法和组合物可以与至多1个分子拷贝或基因组当量、10个分子拷贝或其基因组当量、100个分子拷贝或其基因组当量、1,000个分子拷贝或其基因组当量、10,000个分子拷贝或其基因组当量、100,000个分子拷贝或其基因组当量、或1,000,000个分子拷贝或其基因组当量的核酸材料的输入量一起使用。例如，在一些实施例中，最初提供至多1,000ng核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多100ng核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多10ng核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多1ng核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多100pg核酸材料用于特定的测序过程。例如，在一些实施例中，最初提供至多1pg核酸材料用于特定的测序过程。

[0198] 根据本技术的其它方面，一些提供的方法在测序核酸材料的各种次优(例如，受损或降解)样品中的任一种可以是有用的。例如，在一些实施例中，核酸材料中的至少一些是受损的。在一些实施例中，损伤是或包含以下中的至少一种：氧化、烷基化、脱氨基、甲基化、水解、产生切口、链内交联、链间交联、平端链断裂、交错末端双链断裂、磷酸化、去磷酸化、SUMO化、糖基化、单链间隙、来自热的损伤、来自干燥的损伤、来自UV暴露的损伤、来自γ辐射的损伤、来自X射线的损伤、来自电离辐射的损伤、来自非电离辐射的损伤、来自重粒子辐射的损伤、来自核衰变的损伤、来自β辐射的损伤、来自α辐射的损伤、来自中子辐射的损伤、来自质子辐射的损伤、来自宇宙辐射的损伤、来自高pH的损伤、来自低pH的损伤、来自活性氧化物种的损伤、来自自由基的损伤、来自过氧化物的损伤、来自次氯酸盐的损伤、来自组织固定如福尔马林或甲醛的损伤、来自活性铁的损伤、来自低离子条件的损伤、来自高离子条件的损伤、来自无缓冲条件的损伤、来自核酸酶的损伤、来自环境暴露的损伤、来自火灾的损伤、来自机械应力的损伤、来自酶促降解的损伤、来自微生物的损伤、来自制备性机械剪切的损伤、来自制备性酶促断裂的损伤、在体内已自然发生的损伤、在核酸提取期间已发生的损伤、在测序文库制备期间已发生的损伤、由聚合酶引入的损伤、在核酸修复期间已引入的损伤、在核酸末端加尾期间已发生的损伤、在核酸连接期间已发生的损伤、在测序期间已发生的损伤、由于DNA的机械处理已发生的损伤、在通过纳米孔期间已发生的损伤、作为生物衰老的部分已发生的损伤、由于个体的化学暴露已发生的损伤、已通过诱变剂发生的
损伤、已通过致癌物发生的损伤、已通过诱裂剂发生的损伤、由于体内炎症已发生的损伤、由于氧暴露的损伤、由于一个或多条链断裂的损伤及其任何组合。

[0199] 核酸材料

[0200] 类型

[0201] 根据各种实施例，可以使用多种核酸材料中的任一种。在一些实施例中，核酸材料可以包含对经典糖-磷酸主链内的多核苷酸的至少一种修饰。在一些实施例中，核酸材料可以包含核酸材料中的任何碱基内的至少一个修饰。例如，作为非限制性例子，在一些实施例中，核酸材料是或包含双链DNA、单链DNA、双链RNA、单链RNA、肽核酸(PNA)、锁核酸(LNA)中的至少一种。

[0202] 修饰

[0203] 根据各种实施例，核酸材料可以在任何特定步骤之前、基本上同时或之后接受一种或多种修饰，取决于对于其使用特定提供的方法或组合物的应用。

[0204] 在一些实施例中，修饰可以是或包括核酸材料的至少一部分的修复。尽管任何应用适当的核酸修复方式被认为与一些实施例相容，但某些示例性方法和组合物因此在下文
和实例中描述。

[0205] 作为非限制性例子，在一些实施例中，DNA修复酶，如尿嘧啶-DNA糖基化酶(UDG)、甲酰胺基嘧啶DNA糖基化酶(FPG)和8-氧代鸟嘌呤DNA糖基化酶(OGG1)，可以用于纠正DNA损伤(如体外DNA损伤)。例如，这些DNA修复酶是从DNA中去除受损碱基的糖基化酶。例如，UDG去除来源于胞嘧啶脱氨基(由胞嘧啶的自发水解引起)的尿嘧啶，并且FPG去除8-氧代-鸟嘌
呤(例如，来源于活性氧物种的最常见DNA损伤)。FPG还具有裂解酶活性，其可以在脱碱基位点处生成1个碱基缺口。例如，此类脱碱基位点随后不能通过PCR扩增，因为聚合酶不能复制模板。相应地，此类DNA损伤修复酶的使用可以有效地去除受损DNA，其不具有真正的突变，但在测序和双重序列分析之后可能在其它方面无法检测为错误。

[0206] 如上所述，在进一步的实施例中，可以进一步过滤从本文讨论的加工步骤生成的测序读数，以通过修剪最易于人工产物的读数的末端来消除错误突变。例如，DNA片段化可以在双链分子的末端处生成单链部分。这些单链部分可以在末端修复期间填充(例如，通过Klenow)。在某些情况下，聚合酶在这些末端修复的区域中产生拷贝错误，导致“假双重分子”的生成。一旦测序，这些人工产物就可以看起来是真正的突变。作为末端修复机制的结果，这些错误可以通过修剪测序读数的末端从测序后的分析中消除，以排除可能已发生的
任何突变，从而减少错误突变的数目。在一些实施例中，测序读数的此类修剪可以自动完成(例如，正常的过程步骤)。在一些实施例中，可以评价片段末端区域的突变频率，并且如果在片段末端区域中观察到突变的阈值水平，则可以在生成DNA片段的双链共有序列读数之
前执行测序读数修剪。

[0207] 来源

[0208] 考虑核酸材料可以来自各种来源中的任一种。例如，在一些实施例中，核酸材料由来自至少一个受试者(例如人或动物受试者)或其它生物来源的样品提供。在一些实施例中，核酸材料由库存/贮存的样品提供。在一些实施例中，样品是或包含以下中的至少一种：
血液、血清、汗液、唾液、脑脊髓液、粘液、子宫灌洗液、阴道拭子、鼻拭子、口腔拭子、组织刮片、毛发、指纹、尿、粪便、玻璃体液、腹膜冲洗液、痰、支气管灌洗液、口腔灌洗液、胸腔灌洗液、胃灌洗液、胃液、胆汁、胰管灌洗液、胆管灌洗液、胆总管灌洗液、胆囊液、滑液、感染伤口、未感染伤口、考古样品、法医样品、水样、组织样品、食物样品、生物反应器样品、植物样品、指甲刮片、精液、前列腺液、输卵管灌洗液、细胞游离核酸、细胞内核酸、宏基因组学样品、植入异物的灌洗液、鼻灌洗液、肠液、上皮刷洗液、上皮灌洗液、组织活组织切片、尸检样品、尸体剖检样品、器官样品、人体鉴定样品、人工产生的核酸样品、合成基因样品、核酸数据贮存样品、肿瘤组织及其任何组合。在其它实施例中，样品是或包含微生物、基于植物的生物、或任何收集的环境样品(例如，水、土壤、考古学等)中的至少一种。

[0209] 选择的应用例子

[0210] 如本文所述，提供的方法和组合物可以用于各种目的中的任一种和/或各种情况中的任一种。下述描述了仅用于具体说明目的的非限制性应用和/或情况的例子。

[0211] 法医学

[0212] 法医DNA分析的先前方法几乎完全依赖于PCR扩增子的毛细管电泳分离，以鉴定短串联重复序列中的长度多态性。自其在1991年推出以来，这种类型的分析已被证明是非常
有价值的。从那时起，一些出版物已引入了标准化协议，验证了其在世界各地的实验室中的应用，详细说明了其在许多不同人群中的使用且引入了更高效的方法，例如miniSTR。

[0213] 虽然该方法已被证明是非常成功的，但该技术具有限制其实用性的许多缺点。例如，当前的STR基因分型方法经常引起来源于PCR打滑(PCR stutter)的背景信号，这由聚合酶在模板DNA上的滑动引起。这个问题在具有多于一个贡献者的样品中尤为重要，由于难以区别打滑等位基因与真正的等位基因。当分析降解的DNA样品时出现另一个问题。片段长度中的变化经常导致显著更低或甚至不存在更长的PCR片段。因而，来自降解DNA的图谱经常
具有较低的区别力。

[0214] MPS系统的引入具有解决法医分析中的几个挑战性问题的潜力。例如，这些平台提供了无与伦比的能力，以允许同时分析核和mtDNA中的STR和SNP，这将急剧增加个体间的区别力，并且提供确定种族性且甚至身体属性的可能性。此外，与仅仅报道分子的聚集群体的平均基因型的PCR-CE不同，MPS技术以数字方式将许多个别DNA分子的完整核苷酸序列制
表，因此提供了检测异质DNA混合物内的MAF的独特能力。因为包含两个或更多个贡献者的
法医样品仍然是法医学中最棘手的问题之一，所以MPS对法医学领域的影响可能是巨大的。

[0215] 人基因组的公布突出显示了MPS平台的巨大力量。然而，直到最近，由于读数长度明显短于STR基因座，这些平台的完全能力对法医学具有有限用途，排除了调用基于长度的基因型的能力。最初，焦磷酸测序仪，例如Roche 454平台，是具有足够读数长度以对核心STR基因座进行测序的唯一平台。然而，竞争技术中的读数长度已增加，因此使其用于法医应用的效用得以发挥。许多研究已揭示了关于STR基因座的MPS基因分型的可能性。总之，不管平台如何，所有这些研究的一般结果是STR都可以成功输入，甚至由受损的法医样品也产生与CE分析可比较的基因型。

[0216] 虽然所有这些研究都显示与传统PCR-CE方法的一致性，且甚至指示另外益处如STR内SNP的检测，但它们也已突出显示了关于该技术的许多当前问题。例如，STR基因分型的当前MPS方法依赖多重PCR，以提供足够的DNA来测序且引入PCR引物。然而，因为多重PCR试剂盒设计用于PCR-CE，所以它们含有用于具有各种大小的扩增子的引物。这种变化导致
覆盖不平衡，具有朝向较小片段的扩增的偏差，这可以导致等位基因遗漏。实际上，最近的研究已显示，PCR效率中的差异可以影响混合物组分，尤其在低MAF下。为了解决这个问题，专门设计用于法医学的几种测序试剂盒目前是商购可得的，并且验证研究开始得到报道。
然而，由于高水平的多重化，扩增偏差仍然很明显。

[0217] 如PCR-CE，MPS不受PCR打滑的发生影响。关于STR的绝大多数MPS研究都报道了人为滴入等位基因的出现。最近，系统性MPS研究报道，大多数打滑事件表现为较短长度的多态性，其不同于以四个碱基对单元的真正的等位基因，其中最常见的是n-4，但也观察到n-8和n-12位置。打滑百分比通常在～1％的读数中发生，但在某些基因座处可以高达3％，指示MPS可以显示出比PCR-CE更高比率的打滑。

[0218] 相比之下，在一些实施例中，提供的方法和组合物允许低质量和/或低量样品的高质量和有效测序，如上文和下文实例中所述。相应地，在一些实施例中，提供的方法和/或组合物可以用于以低丰度与不同基因型的另一个个体的DNA混合的一个个体的DNA的罕见变
体检测。

[0219] 法医DNA样品通常含有非人DNA。这种外来DNA的潜在来源是：DNA的来源(例如，唾液或颊样品中的微生物)，样品由其收集的表面环境，以及来自实验室的污染物(例如试剂，工作区等)。由一些实施例提供的另一个方面是某些提供的方法和组合物允许区别污染性
核酸材料与其它来源(例如，不同的种类)和/或表面或环境污染物，使得这些材料(和/或其效应)可以从最终分析中去除，且不使测序结果偏倚。

[0220] 在高度降解的DNA中，由于不含有必要的引物退火位点的DNA片段，基因座特异性PCR可能无法良好工作，导致等位基因遗漏。这种情况将限制基因型调用的独特性，并且匹配的置信度不太确定，尤其在混合物试验中。然而，在一些实施例中，提供的方法和组合物允许使用单核苷酸多态性(SNP)作为STR标记物的补充或替代。

[0221] 事实上，随着关于人遗传变异的数据不断增加，SNP越来越多地与法医工作相关。像这样，在一些实施例中，提供的方法和组合物使用引物设计策略，使得可以例如基于当前可用的测序试剂盒产生多重引物实验对象组，其实际上确保读数穿过一个或多个SNP位置。

[0222] 患者分层

[0223] 一般指基于一种或多种非治疗相关因素的患者划分的患者分层，是医学界非常感兴趣的主题。这种兴趣大部分可能是由于某些治疗候选物未能获得FDA批准的事实，部分是由于试验中的患者中先前未认识到的差异。这些差异可以是或包括一种或多种遗传差异，
其导致治疗剂被差异代谢，或者在一组患者相对于一个或多个其它患者组中存在或恶化的
副作用。在一些情况下，这些差异中的一些或全部可以被检测为患者中的一种或多种不同
的遗传概况，其导致对治疗剂的反应不同于未显示出相同遗传概况的其它患者。

[0224] 相应地，在一些实施例中，提供的方法和组合物可以用于确定特定患者群体(例如，患有常见疾病、病症或状况的患者)中的哪些受试者可能响应特定疗法。例如，在一些实施例中，提供的方法和/或组合物可以用于评价特定受试者是否具有与对疗法的不良响应
相关的基因型。在一些实施例中，提供的方法和/或组合物可以用于评价特定受试者是否具有与对疗法的积极响应相关的基因型。

[0225] 监测对疗法的响应(肿瘤突变等)

[0226] 在基因组研究中下一代测序(NGS)的出现已允许以空前的细节表征肿瘤的突变情况，并且已导致诊断、预后和临床可操作突变的编目。总之，这些突变具有通过个性化医疗用于改善癌症结果以及用于潜在的早期癌症检测和筛查的显著希望。在本公开内容之前，
该领域的关键限制是当它们以低频存在时不能检测到这些突变。临床活组织检查经常主要
由正常细胞组成，并且基于其DNA突变的癌细胞检测即使对于现代NGS也是一项技术挑战。
在数千个正常基因组中的肿瘤突变鉴定类似于大海捞针，需要超出先前已知方法的测序准
确度水平。

[0227] 一般地，在液体活组织检查的情况下，该问题更加严重，其中挑战不仅是提供发现肿瘤突变所需的极端灵敏度，而且还通过这些活组织检查中通常存在的最低限度量的DNA来实现这点。术语‘液体活组织检查’通常指血液基于循环肿瘤DNA(ctDNA)的存在而告知癌症的能力。ctDNA由癌细胞脱落到血液中，并且已显示监测、检测和预测癌症以及允许肿瘤基因分型和治疗选择的极大希望。这些应用可以彻底改变癌症患者的当前管理，然而，进展比以前预期的更慢。一个主要问题是ctDNA通常代表血浆中存在的所有细胞游离DNA
(cfDNA)的很小一部分。在转移性癌症中，它的频率可以是＞5％，但在局部癌症中，仅为
1％-0.001％。理论上，任何大小的DNA亚群都应该通过测定足够数目的分子来检测。然而，先前方法的基本限制是碱基被不正确地评分的高频率。错误经常在簇生成、测序循环、弱簇分辨率和模板降解期间出现。结果是大约0.1-1％的测序碱基被不正确地调用。进一步的问题可以起于在PCR期间的聚合酶错误和扩增偏差，这可以导致偏斜群体或假突变等位基因
频率(MAF)的引入。总之，先前已知的技术，包括常规NGS，不能以检测低频突变所需的水平执行。

[0228] 几种方法已用于尝试改善NGS的准确性。用体外修复试剂盒去除DNA损伤已显示减少NGS中的假变体调用数目。然而，并非所有诱变损伤都被这些酶识别，修复的保真度也不完美。已获得显著关注的另一种方法是利用起于各个DNA片段的PCR重复，以形成共有序列。
称为′分子条形码′，共享独特的随机剪切点或在PCR之前或期间外源引入的随机DNA序列的读数被分组，并且保持最普遍的序列。Kinde等人使用SafeSeqS介绍了这一想法，所述
SafeSeqS使用单链分子条形码，通过对共享条形码测序的PCR拷贝进行分组，并且形成共有序列来减少测序的错误率。该方法导致0.5％的平均检测限，并且已成功用于检测转移性癌症中的ctDNA，但仅在～40％的早期癌症中检测到。使用数字液滴PCR(ddPCR)可以基本上改善该检测限，所述ddPCR可以检测以低至～0.01％的MAF的突变。然而，这些突变需要是先前已知的，这严重限制了多重癌症应用。另外，一次只能测试1-4个突变，排除了高流通量筛选(表2)。

[0229] 表2.

[0230]

[0231] 在本公开内容之前，具有与ddPCR可比较的灵敏度但不需要肿瘤突变的先验知识的唯一技术是DS。DS通过使用双链分子条形码扩展了分子条形码的概念，以利用两条DNA链含有互补信息的事实。我们先前已证实，这种方法导致人核DNA中＜0.005％的空前灵敏度。

[0232] 由于其高准确度、DS、SPLiT-DS和CRISPR-DS以及用于增加这些测序平台的转换和工作流效率的方法在肿瘤学领域具有希望。如本文所述，提供的方法和组合物允许对DS方
法的创新方法，其将DS的双链分子加标签与靶序列特异性扩增(例如，PCR)整合，用于增加的效率和可扩展性，同时维持错误纠正。

[0233] 除关于高度准确且有效的测定的需要之外，临床实验室的现实还需要快速、可扩展且合理成本有效的测定。相应地，改善DS的工作流程效率(例如，用于DS的富集策略)的根据本技术的方面的各种实施例是期望的。如本文所述，用于DS应用的特定靶序列的基于扩
增的富集和消化/大小选择富集提供了高靶特异性、关于低DNA输入的性能、可扩展性和最
小成本(通常为～$2-3/样品)。

[0234] 提供的方法和组合物的一些实施例对于一般而言的癌症研究和特别的ctDNA领域尤其重要，因为本文开发的技术具有以空前的灵敏度鉴定癌症突变的潜力，同时最小化DNA输入、制备时间和成本。在本文公开的其它实施例中，SPLiT-DS和CRISPR-DS可以用于临床应用，其可以通过改善的患者管理和早期癌症检测而显著增加存活。

[0235] 实例

[0236] 实例1：SPLiT-DS

[0237] SPLiT-DS是用于双重测序错误纠正的基于PCR的靶向富集策略，其与在每条链上的分子条形码使用相容(图4A)。在该示例性实施例中，为了开始SPLiT-DS分析，使用一种或多种方法(类似于如本领域已知的先前描述的双重测序文库构建)，将一种或多种DNA样品
片段化。在片段化后，执行最常见的末端修复和3′-dA-加尾，随后为每个DNA片段与含有简并或半简并双链条形码的T-加尾的DS衔接子的连接(图4，步骤7)。可替代地，可以使用先前在国际专利公开号WO 2017/100441和美国专利号9,752,188中描述的其它类型的连接突出
端、平端连接或衔接子连接化学。使用对单链衔接子尾部中的通用引物结合位点特异性的
引物，对基本上所有双重衔接的DNA分子进行PCR扩增，其提供源自每条链的DNA片段的多个带条形码拷贝(“带条形码的片段”)(图4，步骤2)。在去除反应副产物后，将给定的样品拆分成两个分开的管(图4，步骤3)(即，将样品分成两半，其中每个管含有大致一半的样品内容物)。平均起来，任何给定带条形码片段的一半拷贝将被转移到每个管中；然而，由于样品拆分中涉及的随机性，可能发生任何给定带条形码片段的分布中的变化。为了解释任何此类
变化，超几何分布(即，无需替换而挑选k条形码拷贝的概率)用作模型，以确定以实现以下的相当高概率所需的给定条形码的最小PCR拷贝数：每个管含有源自来自原始双重的两条
(即两个)DNA链各自的至少一个带条形码片段。考虑根据超几何模型，在步骤1期间≥4个
PCR循环(即2E4＝16个拷贝/条形码)更可能提供以下的＞99％概率：每个带条形码片段(来
自每个链)在每个管中至少表示一次。这假定了均匀且接近100％的PCR扩增效率，这在所有情况下都可能是不现实的，但对于相对低输入的高质量DNA样品(例如10ng人基因组DNA/
50uL PCR)是合理的假设。在将样品拆分成两个管后，使用对于衔接子序列和目的遗传基因座特异性的引物，用多重PCR富集靶基因座(图4，步骤4)。

[0238] 这样执行多重基因座特异性PCR，使得每个管中所得到的PCR产物仅源自给定DNA分子样品的两条原始链之一。这根据以下程序来实现，使用如本文所述的拆分成两个管(第一管和第二管)的样品。在第一管中，使用对于与“读数1”(即Illumina P5)衔接子序列杂交特异性的引物(图4，步骤3；灰色箭头)，以及使用对于读数2(即Illumina P7)衔接子序列的序列加尾、对于目的遗传基因座特异性的引物(图4，步骤3；黑色箭头w/灰色尾部)，来执行PCR。可替代地，可以缩短该尾部以便不含有完整的P7序列，其可以相反在测序之前经由稍后的PCR添加。提议该步骤提供了在每个末端具有一个P5和一个P7序列的扩增产物仅来自
源自原始亲本DNA分子的一条链的DNA(即初始样品DNA)。序贯地或同时，在第二管中重复类似的反应：与来自第一管中的样品扩增相比，扩增来自源自相同基因组位置的相反链的扩
增产物。这通过使用基因座特异性引物以及对相反的通用引物序列(即P7而不是P5)的衔接
子引物来实现，所述基因座特异性引物对与管1中的相反链方向退火(即，反向参考序列相
对于参考序列)，并且用相反的通用引物序列(即P5而不是P7)进行加尾。以类似于常规双重测序分析/文库构建中使用的方法分析数据，由此将来自‘原始第一链或原始第二链’的共享特定条形码的读数分组为单链共有序列。

[0239] 然后比较这些单链共有序列(“SSCS”)与对于另一条原始链(例如，如本文所述的相反链)计算的共有序列。仅当在相同位置处获得的序列与源自双重的每条原始链的两个
SSCS互补时，才保留核苷酸位置的同一性。如果位置的同一性在SSCS中在不匹配，则注明这一点。对于其中成对SSCS之间存在一致的核苷酸位置，该位置的同一性在最终双重共有序
列(即形成DCS)中详述(图1C)。对于其中两个SSCS之间的序列同一性不匹配的位置，这些被标记为潜在的错误位点，并且通常通过将该位置标记为未知的(即“N”)来忽略。如先前在国际专利公开号WO 2017/100441和美国专利号9,752,188中所描述的替代策略，包括如果发
现不匹配则忽略整个共有序列读数，或使用统计方法将置信度分配给一个变体相对于另一
个，并且基于特定类型的错误的先验概率，且根据构成其的家庭成员数目给定的SSCS如何
良好地表现以及这些如何良好地一致，决定哪个更可能作为真正的变体。另一种方法是保
留核苷酸位置的不确定性，例如，用IUPAC命名法(例如“K”代表其可以是G或T的位置)。例如，基于某些类型的测序仪的先验概率、或给定序列背景下的扩增错误、或支持每个配对共有序列家族中在该位置处的每个变体的相对读数数目、或包含SSCS家族的原始读数的读数
质量得分等，可以将另外的信息应用于共有序列数据文件，以反映一个核苷酸与另一个核
苷酸在不确定位置处的同一性的相对可能性。

[0240] 应当注意，尽管双重共有序列调用方法基本上类似于国际专利公开号WO 2017/100441和美国专利号9,752,188中描述的方法，但在SPLiT-DS的情况下，在分子的一个末端处的单分子标识符序列通常用于鉴定各个分子(与在每个末端上的一个相对)，并且在一个
管中发现源自原始链之一的拷贝的序列读数，并且在另一个管可以发现互补的原始链。然
而，不一定是这种情况：如本文其它地方所述，双重扩增文库的PCR反应可以拆分成多于两个管(例如，每个管具有一个特定引物对的四个管)，并且在原始分子的两个末端处进行上
述过程，使得每个分子制备两个双重共有序列。初始PCR反应可以类似地拆分成多个管(图
10)，并且可以生成多重读数用于双重测序错误纠正和/或较长序列与短读数序列的子组
装。

[0241] 在多重测序后区分性地索引每个管的产物以区分它们经常是方便的。然而，这不是强制性的。SPLiT-DS的一个益处是可以实现使用PCR的靶向富集，其加速了先前版本的双重测序的工作流，其依赖杂交捕获以富集目的区域或其它方法。同时，它允许使用双重衔接子和标签用于最大准确度，这是用传统扩增子测序无法实现的。

[0242] 实例2：用于CODIS STR基因座的SPLiT-DS的开发

[0243] 本实例基于以下认识：对DNA的重复区域例如短串联重复序列(STR)进行基因分型的当前可用方法，将受益于准确度和灵敏度的改善。该实例扩展且改善了已建立的DS方案
(其本身可以去除“打滑”；图3B)，以产生“SPLiT-DS”测定/方案。本实例将证实(1)引物的设计和用于在多重PCR中使用的后续选择；(2)改善DNA文库制备的方法；(3)例如使用渐减量
的DNA，评估所提供技术的准确度、精确度、灵敏度和特异性；(4)证实在最终的错误纠正数据中基本上减少的打滑。

[0244] 用于多重PCR的引物设计和选择

[0245] SPLiT-DS PCR引物设计为优选具有下述特性：1)高靶特异性；2)能够多重化；且3)显示出稳健且最低限度偏差的扩增。尽管许多现有的引物混合物满足用于常规PCR毛细管电泳(PCR-CE)中的这些标准，但相同的引物混合物在MPS中不可靠。为此，可用数据(由在测序前使用扩增靶基因座的商购可得的试剂盒获得的测序数据映射坐标(即配对末端测序数
据中的每个读数的5′末端对应于用于扩增DNA的PCR引物的5′末端))用于开发用于本实例
中的引物。本文所述的认识以及从先前实例获得的数据，用于告知用于扩展CODIS核心基因座(CODIS20)加上PentaD、PentaE和SE3329(为了简单起见，除非另有说明，否则这将简单地统称为CODIS基因座)的初始引物组的设计。先前确定的映射坐标不提供关于商购(或以其
它方式)可得的试剂盒中使用的引物的其它信息，例如长度、解链温度和浓度，因此本实例中的引物的产生集中于这样的设计，其使在多重化任何反应之前实现均匀、稳健和特异性
扩增的概率达到最大。

[0246] 与例如凝胶分析相反，可以通过直接测序(例如Illumina MiSeq平台)分析结果。可以在许多度量上评估每个样品，以设计最佳的底物混合物。度量包括：1)特异性(即在靶上的读数的数目除以脱靶读数的数目)；2)关于杂合基因座的等位基因覆盖率(即较低深度
等位基因除以较高深度等位基因；理想的为1.0)；3)基因座间平衡(即最低深度基因座除以最高深度基因座；理想的为1.0)；以及4)深度变化(即每个基因座的平均深度除以所有基因座的总平均深度。可以基于这些度量选择至少一个引物组，用于进一步分析和开发。可替代地和/或另外地，引物设计可以包括对于每种STR标记物使用基于网络的程序，例如
Primer3。

[0247] 实例3：文库制备方法中的改善

[0248] 用于SPLiT-DS的文库制备方案遵循已知的标准方案，例如双重测序方案，直到第一个PCR步骤完成。本实例通过改善在第一个双重测序PCR步骤之后、在基因座特异性PCR中且特别是在基因座特异性PCR上发生的步骤，改善且扩展了该方案，所述基因座特异性PCR
是本文提供的SPLiT-DS技术特有的。

[0249] 作为参考点，首先使用已知的缓冲液、引物池浓度和PCR条件(例如，如在标准DS方案中)运行反应，但应用于SPLiT-DS方法，其发挥在进行初始双重测序PCR之后的靶向富集目的，其在某些情况下可以随后为其它形式的靶向富集，例如杂交捕获。通过直接测序
Illumina MiSeq平台上的反应，并且监测特异性、关于杂合基因座的等位基因覆盖率、基因座间平衡和深度，来确定这些条件对多重PCR的功效。该测定将评估PCR功效(而不是例如错误纠正)，因此将使用大约100,000-500,000个读数/条件，允许分析至少50个PCR条件/测序运行。

[0250] 在该特定实例中，应该获得来自每个起始DNA分子的平均3至10个测序的PCR拷贝(即条形码家族)以实现成功分析。在其它实施例中，成功分析可以定义为回收特定双重分
子的每条原始DNA链的一个或多个拷贝。考虑多于3-10个拷贝可以引起在使用测序仪资源
方面减少的测定效率，而无另外的有用数据。考虑每条链的平均拷贝太少将不能满足关于
定义的成功分析的标准，并且最终减少深度。考虑在一些实施例中，将成功分析定义为实现每条链的最小数目的测序拷贝，其促进比其中每条原始链具有更小的最低所需拷贝数的双
重测序更高准确度的双重测序。

[0251] SPLiT-DS不能依赖关于DNA输入的已知条件(例如，在其它测定中已知的那些)，因为与其它目前可用的技术相比，它是独特的方法；因此，将确定在拆分之后发生的PCR中使用的DNA输入量，因为直到第一PCR步骤的输入量变化(例如减少)必然影响加工后深度。

[0252] 在已确定DNA输入范围后，基于qPCR的测定用于定量衔接子连接的靶DNA的绝对量(类似于例如图4中的步骤3)。

[0253] 伴随DNA输入渐减的准确度、精确度、灵敏度和特异性

[0254] 关于常用标准参考材料(SRM)DNA的准确度、精确度、灵敏度和特异性作为用于如本文所述的改善技术的参考点进行。然后使用连续稀释(例如在约50pg至约10ng的范围
内)，对渐减量的输入DNA(即灵敏度)执行SPLiT-DS(例如，评估方法的准确度和精确度)。对于每个DNA输入独立地制备至少6个不同的文库。在测序和错误纠正后(使用专门对于双重
测序的SPLiT-DS变体开发且设计的内部软件)，使用STRait Razor评价准确度：(i)对加工
数据进行基因分型；和/或(ii)确定在每个CODIS基因座处显示出“正确”基因型的读数百分比(即，如由标准化样品已知的)。精确度通过确定以下进行评估：(i)关于杂合基因座的等位基因覆盖率；(ii)基因座间平衡；(iii)深度变化；和/或(iv)打滑百分比(例如样品间变异的量化)。

[0255] 污染DNA的检测

[0256] 本实例还集中于目前可用的DNA评估方法中的改善，以检测给定样品被外源DNA的污染(例如被非人DNA污染的人的法医DNA)。在污染DNA(例如小鼠、犬、牛、鸡、白色念珠菌(Candida albicans)、大肠杆菌(Escherichia coli)、金黄色葡萄球菌(Staphylococcus
aureus)等)的存在下，对人DNA样品进行SPLiT-DS分析。分析包括一式三份、以下述比率掺料有10ng污染DNA的样品DNA：50∶50、10∶1和100∶1(污染物∶样品DNA，按质量计)，以及100∶0对照(即，不含人DNA)0∶100(未掺料的人DNA)。每个成功生成的文库被测序且映射到给定的污染物对应的参考基因组和人基因组(GRCh38)。该映射用于确定在每个基因座处显示出正
确(例如与参考基因组比对)基因型的读数百分比，并且与对照的值进行比较。比对提供关
于污染DNA范围的信息，所述污染DNA范围仍然允许成功的SPLiT-DS(即可能存在而不会不
利地影响SPLiT-DS的精确度和/或强度的污染DNA水平)。

[0257] 实例4：在单一来源样品上的SPLiT-DS验证。

[0258] 为了验证SPLiT-DS作为对代表性人群的可行的高准确度基因分型方法，使用从得自个人基因组计划(Personal Genome Project)(PGP)的细胞纯化的DNA(参见例如表3中
PGP的人口统计概括细节)。

[0259] 表3：PGP样品细节

[0260]

[0261] 评估SPLiT-DS对DNA单一来源样品进行正确基因分型的能力。

[0262] SPLiT-DS一式两份地对从来自PGP的无关个体的细胞系纯化的DNA执行。测试来自大约110个独特个体的DNA。使用如先前实例中测定的适当数量的DNA(即，对于每个基因座
可靠地(例如＞80％)产生＞60X平均加工后深度的测序文库的最小数量)执行SPLiT-DS。在
使用本文所述的内部SPLiT-DS软件进行测序且执行错误纠正之后，STRait Razor用于对样
品进行基因分型。

[0263] 作为对我们的SPLiT-DS数据进行基因分型的解释指南，如下使用两个重复的修改的‘共有序列’方法：

[0264] 无结果：当至少一个(例如两个之一)复制产生低覆盖率(例如，＜60x)时；

[0265] 正确的基因型：当所有(例如，两个中的两个)重复产生预期的基因型时(即，匹配关于给定样品的WGS数据中的基因型)。

[0266] 未定义的基因型：当在所有重复(例如，两个中的两个)中的给定基因座处获得不同的基因型时，或当仅一个基因型与WGS数据不同时。

[0267] 错误的基因型：当所有(两个中的两个)重复显示相同的不正确基因型时。

[0268] 通过确定关于每个测序基因座的打滑比，对所有样品和基因座执行定量打滑的量。通过将给定的打滑等位基因的读数计数除以实际样品等位基因的读数计数来计算打滑
比。如果观察到多于一个类型的打滑事件，则进行每个打滑长度的计算。为了使该分析的偏差降到最低，只能在平均深度≥60X的基因座处计算打滑比(检测含有以5％发生的替代打
滑等位基因的≥1个加工后读数的80％能力(1样品二项式检验)。在其中获得关于至少几个
基因座的一致的更高深度覆盖的情况下，检查较低频率的打滑事件并且适当地计算比率
(例如，调整力)。

[0269] 该实例中分析的另一部分将包括STR长度对各种参数的作用，然后比较结果与参考中在给定基因座处的STR长度(例如，特异性、关于杂合基因座的等位基因覆盖率、基因座间平衡和/或深度)。考虑这些参数的评估改善基于STR长度的多态性的解释(包括例如如待
评估的SPLiT-DS样品取自一般的远交群体，并且可以例如具有各种STR长度多态性)。除评
估STR长度的效应之外，还确定打滑比。最后，执行关于每个样品的鉴别力的计算(基于根据本文所述的引导正确基因分型的基因座，例如使用美国人群中的预期等位基因频率)。

[0270] 来自该实例中描述的分析的结果可以确定SPLiT-DS的使用宽度(以及方法中的任何偏差的程度)，例如，在各种类型的样品中，和/或用于对STR进行基因分型。

[0271] 毛细管电泳和MPS方法的比较和一致性研究

[0272] 为了证实SPLiT-DS作为用于法医学应用的测序方法的优越性，例如，执行针对当前可用方法的一致性研究。目前，关于法医STR基因分型的“黄金标准”是PCR-CE。根据标准程序，比较根据本文所述实例获得的SPLiT-DS结果与使用PCR-CE分析和1ng输入DNA进行基
因分型的相同DNA样品。两个数据集(PCR-CE和SPLiT-DS，连同适当的对照/参考(例如WGS
PGP样品数据))可以确定两种方法之间的一致性水平。还使用商购可得的试剂盒(例如
Illumina FORENSEQ DNA Signature Prep Kit)执行一致性研究，所述试剂盒使用63个STR
的靶向PCR扩增，包括CODIS基因座和95个鉴定信息SNP。使用在PCR-CE和SPLiT-DS的一致性研究中使用的相同样品，并且使用STRait-Razor执行基因分型。还在每种方法(PCR-CE、商业试剂盒、SPLiT-DS)中检查PCR打滑，并且如果真等位基因峰高为至少600RFU(随机阈值)
但不超过15,000RFU，则计算打滑。为了消除在杂合等位基因之间的重复位置处的正负打滑的任何累加效应，不包括相隔两个重复单元的位置。如本文所述，通过将打滑峰的峰高除以真等位基因的峰高来计算打滑百分比。在使用商购可得的试剂盒分析样品的情况下，具有
≥60的观察到读数的所有等位基因都调用，且如本文所述计算百分比打滑。在每个测试基
因座的百分比打滑之间执行比较。考虑尽管平台之间的打滑结果不能彼此直接比较，但数
据将提供每种方法中打滑的相对丰度的合理估计值。

[0273] 实例5：对于受损DNA和DNA混合物的SPLiT-DS验证。

[0274] 高度受损/降解的DNA和混合物让目前可用的基因分型技术混淆。相应地，本实例将证实SPLiT-DS对具有受损DNA和DNA混合物的样品正确地进行基因分型的能力，改善且扩
展了目前可用的方法。

[0275] SPLiT-DS对来自单个贡献者的受损DNA的验证

[0276] 对暴露于三个法医相关类别取样的DNA执行SPLiT-DS：(i)化学暴露；(ii)紫外(UV)线；(iii)高温(关于先前研究中使用的/已知影响常规STR分析的示例性暴露方法/条
件的概括，参见表4)。由于缺乏可用于受损DNA样品的SRM，诱导的损伤水平在生物学重复之间进行标准化。DNA首先暴露于如表4中的环境条件和时间点，并且使用商购可得的试剂盒
(例如，KAPA Biosystems hgDNA Quantification and QC qPCR kit(Roche/KAPA
Biosystems))进行的评估，用于测定给定样品中的DNA损伤/降解。对于特定环境条件(如通过本文所述的测定确定的)，仅显示出可比较水平的损伤(定义为在我们观察到的平均值的
一个标准差内)的样品用于本实例的分析中。

[0277] 评估对受损/降解的DNA的SPLiT-DS的实验一式三份地对Promega2800M SRM DNA执行，使用一致地(＞50％)形成能够使用SPLiT-DS测序的文库所需的最小输入DNA量，使用表4的每个类别中可能的最苛刻条件(如本文所述的做出的此类量的测定)。考虑不产生一
致文库的那些条件被视为限定SPLiT-DS对受损/降解的DNA的灵敏度限制。任何此类文库都
不进行评估。

[0278] 表4：DNA损伤条件。

[0279]

[0280] 还使用300bp配对末端读数在Illumina MiSeq平台上对样品进行测序，并且使用如本文所述的定制SPLiT-DS软件对使用STRait Razor测定的数据基因型处理数据。考虑导
致不能正确地基因分型的实验条件(如先前实例中所述)，限定SPLiT-DS对受损/降解DNA的
准确度的限制。还执行计算，以确定对于受损/降解的DNA的特异性、关于杂合基因座的等位基因覆盖率和/或关于每个基因座的深度，并且将结果与未受损的对照进行比较。

[0281] 由于SPLiT-DS对高质量DNA的相对性能不一定可直接转变为关于受损DNA的那种，因此还使用SPLiT-DS、标准PCR-CE和MPS方法执行比较。使用在先前实例中基因分型的10个PGP样品执行这些方法，所述样品在关于成功基因分型的SPLiT-DS样品的每个损伤类别中
进一步经受最具挑战性的条件(如由结果确定的)。如先前实例中所述，使用适当的商购可
得的试剂盒，通过PCR-CE和常规MPS对样品进行基因分型。如本文所述测定SPLiT-DS对PCR-CE和MPS的相对性能，包括确定和比较方法之间的打滑的相对量、等位基因遗漏、等位基因内平衡和基因分型成功率。与使用其它方法可实现的相比，使用较小样品和/或更多受损/
降解的DNA样品，SPLiT-DS可以提供更灵敏和准确的结果。

[0282] SPLiT-DS对混合物的验证。

[0283] 证实SPLiT-DS分析对DNA混合物的改善功效(例如，与可用方法相比，改善的准确度和灵敏度)，所述DNA混合物由以广泛范围的MAF比率的两个遗传无关个体组成。对于表5
中的每种混合物，从先前实例中基因分型的PGP样品中选择10个两人组合。本实例中使用的特定PGP样品取决于特定的基因型，如先前实例中或通过其全基因组序列(可作为PGP的部
分获得)所确定的。如果可能的话，则选择在≥8个位点处相差至少两个重复长度的贡献者
对。认为很可能需要来自每个样品的多于10ng DNA。确切的量由SPLiT-DS对每个基因座如
何有效地工作进行确定，如先前实例中所确定的。

[0284] 表5：DNA混合物条件

[0285]

[0286] 这样调整DNA输入量，使得任何次要贡献者由至少10个读数表示。考虑具有至少10个读数的表示赋予在所有CODIS基因座处检测两个等位基因的＞95％机会。实现10个MAF读
数所需的特定量取决于SPLiT-DS的灵敏度限制，如先前实例中所证实的。

[0287] 为了使重复之间的变化性降到最低，使用QUANTIFILER Duo DNA Quantification Kit(Thermo Fisher)，基于一式三份DNA定量构建混合物。如本文所述，样品在Illumina
MiSeq平台上进行测序，并且使用如本文所述的定制SPLiT-DS软件处理数据，且使用STRait Razor进行基因分型。在这些实验中评估打滑的存在促成SPLiT-DS对DNA混合物的性能的评
估。对于每个混合物样品中的每个分析的基因座，计算关于已知MAF的威尔逊得分区间(二
项式比例置信区间的形式)。还计数与混合物中的已知MAF相差一个重复长度的打滑事件数
目。如果打滑读数计数在MAF等位基因之一的95％威尔逊得分区间内，则该基因座被视为部分匹配。如果两个MAF等位基因均未通过该测试，则该基因座被视为失败的基因型调用(如
果不能将MAF与打滑区别开，则纯合等位基因自动失败)。与先前实例一样，还如本文所述执行且评估SPLiT-DS与PCR-CE和MPS的比较研究，以及打滑的相对量、等位基因遗漏、等位基因内平衡和/或基因分型成功率的比较。两人混合物实验的结果随后用于进行三人混合物
实验(参见例如表5)，使用与两人混合物分析中相同的样品选择标准和分析。

[0288] SPLiT-DS还使用由华盛顿州巡警法医实验室服务局(Washington State Patrol Forensic Laboratory Services Bureau)提供的DNA，使用单一来源和两人混合物的模拟
个案样品来执行，所述DNA来自先前分析的商业获得的法医DNA能力测试。使用SPLiT-DS的
基因分型与关于样品的在线发布的共有序列结果进行比较。

[0289] 实例6：SPLiT-DS对受损DNA样品的改善性能

[0290] 福尔马林固定以胞苷脱氨，氧化损伤和交联的形式引起极端DNA损伤。为了证实与目前可用方法相比SPLiT-DS的能力，通过对在Promega 2800M SRM的D3S1358基因座处经受
福尔马林固定的核DNA进行测序，对高度受损的DNA进行分析(图13B和14A)。图13A-13C显示了根据本技术的一个实施例，来源于SPLiT-DS程序的数据。图13A是显示测序前的插入片段大小的代表性凝胶(泳道1是梯；泳道2和3是来自每个管的PCR产物的样品；例如参见图4的
步骤4)。图13B和13C是显示在不存在错误纠正的情况下(图13B)以及在用SPLiT-DS分析之
后(图13C)的CODIS基因型相对于多个测序读数的图。图13B显示了在不存在错误纠正的情
况下具有观察到的多态性的样品(D3S1358)；打滑事件由黑色箭头指示。图13C显示了在用
SPLiT-DS分析后不含可检测的打滑事件的样品(D3S1358-DCS)。图13B和13C各自的x轴指示
CODIS基因型，且y轴指示读数数目。

[0291] 图14A和14B是显示根据本技术的一个实施例，对于高度损伤的DNA，在不存在错误纠正的情况下(图14A)以及在用SPLiT-DS(图14B)分析后的CODIS基因型相对于多个测序读
数的图。每个图的x轴指示CODIS基因型，且y轴指示读数数目。图14A显示了未通过SPLiT-DS(D3S1358)分析的受损DNA样品，并且证实打滑事件(黑色箭头)以及显著量的明显点突变
(未显示)。图14B显示了用SPLiT-DS错误纠正分析的样品(D3S1358-DCS)，并且证实不存在
可检测的打滑事件。没有观察到明显的点突变。

[0292] SPLiT-DS结果证实，在福尔马林暴露的DNA上，使用SPLiT-DS消除了使用标准测序方法存在的所有基于PCR和测序的人工产物。(图13C和14B)。注意到关于这些样品的效率中的降低(大约3倍)(参见例如图14B相对于图13C)，然而，福尔马林固定中常见的链间交联的存在可能已促成这种降低。

[0293] 实例7：靶向基因组片段化

[0294] 本实例证实了靶向基因组片段化作为改善基因组DNA(gDNA)测序效率的方法。SPLiT-DS基因组片段化通常通过例如方法如DNA磷酸二酯键的物理剪切或酶促消化来实
现。此类方法可以产生样品，其中完整的gDNA被还原为具有随机大小的DNA片段的混合物。
虽然高度稳健，但可变大小的DNA片段可以引起PCR扩增偏差(短片段扩增更多)和不均匀的
测序深度(图11A)；以及不与DNA片段内目的区域重叠的测序读数。相应地，本实例使用
CRISPR/Cas9克服这些问题。切割位点设计为产生预定和均匀大小的片段。更均质的一组片段被认为很可能克服偏差和/或无信息读数的存在，所述偏差和/或无信息读数的存在可能
影响不使用靶向片段化的其它技术中的效率。还认为靶向片段化可能促进在文库制备之前
给定样品的预富集，因为由于片段大小一致性/差异，可能能够通过从gDNA中分离片段来去除大的脱靶区域。

[0295] 实例8：用于监测和诊断癌症的SPLiT-DS

[0296] 几十年来已认识到血液中循环肿瘤DNA的存在，但需要超灵敏的方法用于可靠地开发癌症生物标记物(例如，诊断和/或跟踪疾病存在/进展的标记物)。SPLiT-DS帮助克服
普遍的挑战，包括含有不同量的细胞游离DNA的血样中的少量循环肿瘤DNA。SPLiT-DS还改
善且扩展了本领域已知的几种高灵敏度且特异性的方法，例如BEAMing、SafeSeqS、TamSeq和ddPCR，因为它不需要特定突变的先验知识。SPLiT-DS提供了能够检测癌症相关突变的方法，伴随目前可获得的最高水平的准确度、低DNA输入以及无需特定肿瘤突变的先验知识。

[0297] 本实例使用SPLiT-DS来评估与循环肿瘤细胞DNA相关的序列。使用已知突变的对照样品，并且与来自患有诊断和/或疑似癌症的患者的样品一起运行。

[0298] SPLiT-DS和基因组或细胞游离DNA

[0299] SPLiT-DS用于开发用于低输入gDNA(10-100ng)和cfDNA(～10ng)的准确测序的测定。基因组DNA一般以大片段(＞1Kb)出现，并且细胞游离DNA几乎唯一地作为稀有频率的～
150bp片段出现。

[0300] 低输入{10-100ng)gDNA基本原理

[0301] 本实例证实SPLiT-DS对于低DNA输入的可行性及其对于多重化的适用性。尽管组织可以从癌症患者的活组织检查中获得，但优选此类样品的使用是保守的，以便完成所有
必要的测试。相应地，gDNA的测序将受益于改善的平台，例如由SPLiT-DS提供的平台，其需要较少的输入材料。

[0302] SPLiT-DS中的每个靶是分开设计且优化的。基因TP53、KRAS和BRAF作为原理证明进行测定。特别地，每种基因具有已知的靶区域，在其中发生与癌症相关的突变。TP53具有
10个编码外显子(具有相对较小的尺寸)，所有这些都使用SPLiT-DS进行靶向。KRAS具有在
外显子2中的密码子12、13和61处的已知突变热点，所有这些都将被靶向。BRAF具有在外显子15中的V600E突变，其将被靶向。

[0303] 材料与方法

[0304] 对gDNA执行SPLiT-DS测定，如图4和5中概述的，使用来自TP53、KRAS和BRAF中具有已知克隆突变的去标识(de-identified)肿瘤的DNA，以及来自无癌个体的白细胞gDNA。执行两组不同的实验，以便执行任何优化/验证步骤以及测试效率和灵敏度。

[0305] 效率

[0306] 效率定义为其转换为DCS读数的输入DNA分子的百分比。该实例中的效率靶向为至少30％，但是＞50％。认为很可能10ng输入DNA跨越目的基因座达到1000x的平均DCS深度
(10ng＝～3200个基因组，因此3200x 0.3效率＝～1000个测序的基因组)。效率部分取决于多重PCR的性能。使用计算机芯片方法，PCR引物被设计为具有：i)高靶特异性；ii)多重化的能力；以及iii)执行稳健且最低限度偏差的扩增的能力。

[0307] CRISPR/Cas9系统用于特异性地产生包括特定目的区域的～500-550bp片段(参见图11C)。在完成引导RNA和PCR引物的设计后，组合方法用于实现：(i)靶特异性(即在靶上的读数的百分比，可接受的＞70％)；以及(ii)基因座间深度平衡(即最低深度基因座除以最
高深度基因座；可接受的＞0.5)。然后将优化的引导和引物池应用于10ng以及100ng相同的gDNA。这些池用于涉及gDNA的所有后续实验。

[0308] 灵敏度

[0309] TP53突变的肿瘤gDNA以1∶2、1∶10、1∶100、1∶1000、1∶10,000的比率掺料到对照、未突变的白细胞gDNA内。用在KRAS和BRAF各自中含有已知克隆突变的另外两种肿瘤DNA执行相同的混合实验，总共15个样品(3种基因各自5个稀释度)。如本文所述，使用10ng和100ng输入DNA，通过SPLiT-DS加工这15个样品。“预期的”和“观察到的”MAF进行比较(使用最大MAF由MAFmax＝α1N确定的引导，其中N是基因组的数目，且a是SPLiT-DS的效率；例如对于max
30％的效率，MAF 对于10ng DNA为0.1％，且对于100ng DNA为0.01％)。

[0310] 基于二项式分布，认为很可能实现检测在MAFmax处存在的给定突变的63％概率。因为在实验中存在3个掺料突变，所以在统计学上，更可能以0.1％和0.01％检测到至少一个，并且当效率增加超过30％时，这种概率将增加。

[0311] 除掺料突变之外，SNP将用于确认灵敏度，因为正常对照DNA来自与肿瘤DNA不同的个体。以相同稀释度(纯合SNP)以及1∶4、1∶20、1∶200、1∶2000和1∶20,000(杂合SNP)的有效稀释度检查SNP。

[0312] CRISPR/Cas9能够有效地切割所有TP53外显子，并且通过大小选择促进富集且使读数使用达到最大。CRISPR/Cas9引导物设计为切割TP53外显子(参见图12A)。如先前实例
中所述，使用SPLiT-DS消化且加工10ng gDNA(参见图12B和12C)，用适当的PCR引物扩增外
显子5-6和7(图12C和12D)。在对于每种分子匹配互补随机标签后，用高百分比的在靶上的
读数对两条DNA链进行适当测序，并且产生DCS读数(图12D)。另外，对于10ng的起始DNA量获得的平均深度对应于25％的效率(即，从原始3000个基因组中，对～800X个平均值进行测
序)，其代表超过标准DS的50倍改善，以及与常规溶液杂交方法相比空前的改善。

[0313] 实例9：用于准确测序cfDNA的SPLiT-DS开发

[0314] 本实例证实SPLiT-DS用于检测示例性癌症相关基因中的突变的用途：cfDNA中的TP53、KRAS和BRAF。

[0315] 材料与方法

[0316] 使用QIAamp Circulating Nucleic Acid试剂盒提取来自商购可得的血浆(Conversant Bio)的细胞游离DNA。使用三种不同的合成150bp DNA分子，其编码三种目的
基因各自的已知突变。这些合成DNA分子各自以1∶2、1∶10、1∶100、1∶1000、1∶10,000的比率掺料到cfDNA内。执行两组不同的实验，以优化且验证关于cfDNA的SPLiT-DS方案参数。

[0317] 效率

[0318] 因为cfDNA已经片段化，所以不需要切割(例如CRISPR/Cas9)。因此，如先前实例中所述执行SPLiT-DS，伴随巢式PCR的添加。使用MiSeq v3150个循环对所得片段进行测序，大约10个样品在药液筒中多重化，其中每个样品总共250万个读数。

[0319] 灵敏度

[0320] 通过SPLiT-DS分析cfDNA中TP53、KRAS和BRAF突变各自的五种混合稀释物(1∶2、1∶10、1∶100、1∶1000、1∶10,000)，伴随在该实例中设计的优化引物，并且以10ng和100ng DNA开始。实验与SafeSeqS平行运行，以比较技术之间的灵敏度(用于准确测序ctDNA的已知技
术是SafeSeqS，其通过使用单链校正来减少NGS错误)。认为很可能对于以MAF＝0.1％和
0.01％的突变检测，SPLiT-DS优于SafeSeqS。认为很可能SPLiT-DS能够以0.5％的估计平均灵敏度检测掺料突变(表2)，但Safe-SeqS不能检测到在如此低的频率下的任何掺料突变。

[0321] 引物(对于巢式PCR方法)设计为扩增KRAS外显子2中的密码子12和13。平行加工从正常血浆(Conversant Bio)中提取的10ng和20ng cfDNA。图15A和15B在视觉上表示根据本
技术的一个实施例，使用巢式PCR且由10ng(图15A)和20ng(图15B)cfDNA生成的KRAS外显子
2的SPLiT-DS测序数据。在该实例中，使用SPLiT-DS完成靶富集，并且在具有75bp配对末端读数的Illumina MiSeq上进行测序。显示了在双重形成之前关于′A′和′B′链两者的SSCS，以及最终的DCS读数。箭头指示两个基因座特异性PCR引物(灰色引物＝巢式PCR引物)。

[0322] 如图15A和15B中所示，“A侧”和“B侧”对应于两条不同的DNA链，其被适当扩增，并且发现它们的互补链，以形成高度准确的DCS读数。虽然获得的深度适中(～50个读数)，但它对应于～1％的效率，其是标准DS的目前效率。因此，在基线时(即没有任何优化)，SPLiT-DS以与目前使用的方法相同的效率获得结果，但使用少至10ng的输入DNA，证实超过用于测序cfDNA的其它可用方法的效率改善，包括以极少的数量。

[0323] 实例10：基于ctDNA的用于胰腺癌检测和预后的SPLiT-DS。

[0324] 本实例证实使用SPLiT-DS检测患有胰腺导管腺癌(PDAC)患者的ctDNA中的突变后的改善(与目前可用方法相比)。SPLiT-DS提供了ddPCR在多重靶基因(包括KRAS、TP53和
BRAF)中的改善灵敏度。认为很可能这些测定的结果证实超过当前方法，在95％的PDAC患者中检测一个突变、以及在＞50％的PDAC病例中检测两个突变的灵敏度改善。

[0325] 另外，由于人受试者的循环中的大多数DNA(即在循环系统(例如细胞游离DNA)中)具有造血来源，因此白细胞DNA是与cfDNA中发现的那些相比的序列和突变。这些结果以比
其它结果更大的灵敏度和准确度告知某些背景突变是否源于白细胞亚克隆。

[0326] 材料与方法

[0327] 评估来自40个患有PDAC的患者、20个患有慢性胰腺炎的患者和20个年龄匹配的正常对照的完全去标识的cfDNA和匹配的白细胞DNA样品。在提取两小时内处理血样，并且提
供包括2-5ml血浆和500ul血沉棕黄层的样品。另外，对于PDAC患者，一片冷冻肿瘤可用于确认肿瘤突变。对于所有PDAC患者，在手术前获得血液。所有患者都在临床上随访，并且详细的临床病理信息是可获得的，包括到复发和死亡的时间。患者样品包括来自20个患有局部
癌症和20个患有转移性癌症的患者样品。

[0328] 用QIAamp Circulating Nucleic Acid Kit提取ctDNA，且用QIAamp DNA Mini试剂盒提取gDNA。用如本文所述的适当的SPLiT-DS程序处理10ng或更多的cf DNA(来自收集
的血浆)、100ng的gDNA和所有可用的ctDNA(至多100ng)，靶向KRAS、BRAF和TP53。使用用于ctDNA的Illumina150-cycle MiSeq v3 Reagent Kit和用于gDNA的600个循环执行测序。在
150个循环试剂盒中，10个ctDNA样品被多重化，且在600个循环试剂盒中，15个gDNA样品被多重化。基于实验设计，认为很可能对于10ng DNA，伴随至少1,000x的测序深度，以及对于
100ng DNA，多达10,000x的测定深度，获得至少30％的预期效率。在测序、DCS产生和突变鉴定后分析数据。

[0329] 胰腺癌检测

[0330] 在本实例中测定SPLiT-DS检测来自患有PDAC的患者的cfDNA中的KRAS、TP53和BRAF突变的灵敏度和特异性。为了分析灵敏度，比较cfDNA中发现的突变与由SPLiT-DS鉴定的肿瘤突变(克隆和亚克隆)。由于SPLiT-DS结果提供了关于几乎所有具有1个突变的PDAC
病例和＞50％具有2个突变的病例的覆盖，因此对于所有PDAC～90％的组合灵敏度，认为很可能在来自所有转移病例和约80％的局部病例的cfDNA中检测到至少一个肿瘤突变。

[0331] 比较cfDNA中发现的突变与从相同患者中纯化的匹配白细胞中发现的突变。在cfDNA以及匹配的白细胞中发现的突变被视为生物学背景，并且从cfDNA中的最终突变计数
中忽略。在扣除共享突变后，在PDAC、胰腺炎和对照中比较cfDNA突变。认为很可能癌症突变具有高于生物学背景突变的频率，即使生物学背景突变(例如年龄相关突变)保留在样品
中。确定关于突变频率的最佳阈值，以便使用曲线下面积和年龄校正的ROC模型，以最大的灵敏度和特异性区别癌症和对照。

[0332] 胰腺癌预后

[0333] 由于如先前实例中证实的SPLiT-DS的灵敏度增加，认为很可能与先前可用方法相比，在几乎(90％)所有PDAC患者中都可检测到ctDNA。代替关于ctDNA存在的二元变量(即
是/否)，ctDNA MAF作为定量变量进行分析，以及比较MAF得分和临床数据(例如，比较MAF得分和预后)。还确定突变基因、密码子和/或突变类型是否与复发或死亡率相关联。对于混杂因素(包括年龄和阶段)调整的多变量COX模型，用于测试这些变量及其组合以预测无疾病
存活和总体存活的能力。卡普兰-迈耶曲线用于表示分类变量的预测值。

[0334] 实例11：用于鉴定转移性CRC中的抗性突变的SPLiT-DS

[0335] 使用ctDNA检测早期癌症和预测复发

[0336] 在代表所呈现病例的约50％的转移性CRC(即IV期)中，肿瘤基因分型对于指导治疗决策是必需的：KRAS、NRAS和BRAF中的致癌突变在约50％的CRC患者发生，并且预测缺乏对EGFR单克隆抗体西妥昔单抗和帕尼单抗的应答。因此，这些基因在固定和未固定的组织
活组织检查两者中照常规进行评价，但目前可用的方法经常导致低质量的亚克隆分辨率，
并且具有取样偏差的缺点。因而，可能错过具有亚克隆突变的肿瘤，并且可能给一部分患者施用肯定失败的治疗。因此，在本实例中，使用SPLiT-DS用ctDNA进行肿瘤基因分型证实比目前可用的技术具有改善灵敏度的测定，由于SPLiT-DS检测到预先存在的抗性突变，所述
测定还改善诊断和治疗，其调节了患者用于EGFR阻滞治疗的合格性。

[0337] CRC存在和/或复发的检测和预测

[0338] SPLiT-DS用于5个常见突变的CRC基因的实验对象组中，以证实ctDNA中的突变的检测，而无需任何特定肿瘤突变的先验知识。认为很可能来自该测定的结果能够使用简化
得多的测试(例如血液测试)来告知未来的CRC检测。

[0339] 本实例还证实对用于检测和/或预测复发的方法的改善。目前，可用技术受到缺乏足够的灵敏度和/或特异性的限制，或者，对于具有足够灵敏度/特异性的技术，它们成本过高。因此，ctDNA的SPLiT-DS分析证实CRC中复发的改善检测和预测，提供扩展和评估多重基因的准确度(例如，超过例如SafeSeqS大于100倍)和能力中的改善。

[0340] 材料与方法

[0341] 来自＞300个经历肿瘤的手术切除的患者的多重活组织检查类型的患者的样品用于本实例中。可用的生物样本包括肿瘤、血浆和血沉棕黄层。纵向随访样品由其获得的患
者，并且在基线切除后6、12和24个月时获得血样。对于所有患者，可获得详细的临床病理学信息，包括复发。所有样品和编码的医疗信息都被完全去标识。先前就KRAS和NRAS突变评价来自患有转移性疾病的患者的样品，以确定对西妥昔单抗或帕尼单抗的应答的可能性。如
果未发现突变，则应用靶向治疗。经由成像研究的进展记录抗性。

[0342] 评估来自20个患有转移性癌症(IV期)的患者和40个患有局部癌症(I-III期)的患者的样品。从手术前获得的血浆(2-5ml)和血沉棕黄层，以及冷冻肿瘤样品中纯化DNA。分类为患有转移性癌症的患者是对于KRAS和NRAS突变测试阴性的那些患者，但不响应EGFR抑制
剂治疗。还包括至少10个具有复发的患者。在手术后6、12和24个月时收集的血液中测量
ctDNA。如在先前实例中，白细胞DNA突变用于鉴定可能存在于cfDNA中的潜在生物学背景突变。

[0343] 另外，由于APC是CRC中最常突变的基因，并且本实例中使用的SPLiT-DS实验对象组包括最常突变的APC区域，例如突变簇区域，其从密码子1,286延伸到密码子1,585
(299bp)，其覆盖APC52中约60％的CRC突变，以及对于总共～1000bp在COSMIC中发现的的另外顶部命中。NRAS密码子12、13和61也包括在内。因此，对于～2700bp的总体大小，本实例中使用的实验对象组包括APC(～1000bp)、TP53(编码区1182bp)、KRAS(密码子12、13、61)、BRAF(V600E)和NRAS(密码子12、13、61)。认为很可能该实例中描述的实验对象组涵盖包含一个突变的所有CRC样品和具有两个突变的那些的子集。

[0344] 转移性CRC中的抗性突变的鉴定

[0345] SPLiT-DS用于评估来自转移性CRC的样品，用于cfDNA中的克隆性肿瘤突变。所有肿瘤对KRAS和NRAS突变都是阴性的，但可能携带用本实例中描述的实验对象组鉴定的至少
一个克隆突变(在APC或TP53中)。SPLiT-DS还用于确定是否可检测到ctDNA中极低频率(＜
0.1％)突变的存在，所述突变赋予对EGFR治疗的抗性。认为很可能来自患有转移性疾病的
患者的样品以非常高的深度(～10,000x)成功测序。SPLiT-DS分析还改善患有转移性疾病
的患者的ctDNA中低频率KRAS、BRAF和NRAF突变的检测，所述患者通过肿瘤DNA的桑格测序
对于KRAS和NRAS测试阴性，但EGFR治疗也失败。使用SPLiT-DS以相似的高深度对肿瘤DNA进行测序，以确定ctDNA中原发性抗性突变的存在或不存在。比较ctDNA和源自肿瘤内组织的
DNA之间的结果。

[0346] 局部CRC的检测

[0347] SPLiT-DS用于在来自局部(I-III期)癌症的样品中，使用如本文所述的5种CRC基因的实验对象组来鉴定ctDNA。肿瘤DNA也使用SPLiT-DS进行序列。如先前实例中所述，还确定源于白细胞的生物背景突变的存在。

[0348] 与用于检测复发的其它方法相比，某些当前可用的方法(例如，CEA)提供估计为1.5-6个月的‘前导期’，但不明确此类时间量是否影响存活。其它技术可以改善前导期，但需要肿瘤基因型的先验知识。因此，SPLiT-DS用于测序ctDNA，并且证实将“前导”期改善几个月的优异能力，并且如本文所述，不需要肿瘤基因型的先验知识。在本实例中证实SPLiT-DS在经历复发的患有局部CRC患者的初次手术后6、12和24个月时检测ctDNA的能力。在具有复发的基础上选择10个患者，其中肿瘤和基线ctDNA在先前描述的实验对象组的基因中携
带至少一个突变(理想地为2个)。对于每个样品(个体)，在基线、6、12和24个月时，针对关于每个突变的总ctDNA水平绘制随着时间过去的临床病史(化学疗法、CT扫描和其它复发指
标)。还评估与CEA水平的比较以及ctDNA和CEA复发的前导期。

[0349] 实例12：CRISPR-DS

[0350] 本实例描述了CRISPR-DS的产生，以执行高度准确且灵敏的测序。基于CRISPR的技术用于切除设计有预定的同质长度的靶区域(图12A)。在本实例中，使用的CRISPR相容性核酸酶是Cas9。该大小控制用于促进在文库制备之前的大小选择(图12B)，随后为加上双链条形码(图12C)，以执行错误去除(类似于先前描述的例如DS方法)(图12D)。在加上条形码之
后，执行单轮捕获(与其它可用方法形成对比)，并且导致非常高的在靶上的富集，具有产生片段以覆盖完整测序读数的能力(图12F和16A)。关于杂交捕获的片段化通常用超声处理执
行，所述超声处理经常生成的片段太长并且具有与目的区域不重叠的测序读数，和/或太短并且具有彼此重叠的测序读数且重新读数相同的序列(图12F和16A)。图16B和16C是显示根
据本技术的一个实施例，用标准DS和CRISPR-DS方案制备的样品的片段插入物大小的直方
图。X轴表示与最佳片段大小的百分比差异，例如，在调整分子条形码和剪切后，匹配测序读数长度的片段大小。柱状区域显示了片段大小的范围，其在与最佳大小的10％差异内，其中最佳大小用垂直虚线指定。如图16B和16C中所示，超声处理得到与最佳片段大小的偏差量
中的显著变化性(图16B)，而CRISPR/Cas9消化得到绝大多数读数在最佳片段大小内的片段
(图16C)。

[0351] 本实例证实如何通过使用基于CRISPR的片段化来预防假突变，包括例如，因为本实例中使用的酶Cas9产生平端，其不需要末端修复。因此，本文提供的技术克服了NGS的多种常见和普遍问题，包括低效的靶富集、测序错误和不均匀的片段大小。

[0352] 引导RNA(gRNA)设计为切除TP53的编码区和侧翼内含子区(图12A)。片段大小设为～500bp。基于特异性得分和片段长度选择gRNA(表1，图17A-17C)。用可变量的输入DNA(10-
250ng)测试样品进行CRISPR/Cas9消化，随后为用固相可逆固定化(SPRI)珠的大小选择，以去除未消化的高分子量DNA，并且富集含有靶向区域的切除片段(图12B)。随后的文库制备
根据目前可用的标准方案来执行，但仅使用一轮捕获和微小修饰，如本文所述。对DNA进行A-加尾，与DS衔接子连接，扩增，通过珠洗涤纯化，并且通过与靶向TP53外显子的生物素化的120bp DNA探针杂交进行捕获(表6)。用索引引物扩增捕获的样品，并且在Illumina
MiSeq v3600循环试剂盒中测序。如标准方案中执行分析，但修改为包括在比对之前生成共有序列(图23)。

[0353] 表6.TP53杂交捕获探针

[0354]

[0355] 标准DS与一轮或两轮杂交捕获相对于具有一轮杂交捕获的CRISPR-DS的并排比较显示于图18A-18C中。图18A-18C是显示在靶上(覆盖TP53)的原始测序读数的百分比的条形
图(图18A)，显示了如通过输入DNA中的基因组百分比计算的百分比回收，所述输入DNA产生双重共有序列读数(图18B)，并且显示了对于使用标准DS和CRISPR-DS加工的各种输入量的
DNA，跨越所有靶向区域的中值双重共有序列深度(图18C)。图18A显示了具有两轮捕获的标准-DS与具有一轮捕获的CRISPR-DS之间的在靶上(覆盖TP53)的原始测序读数百分比。图
18B显示了如通过产生DCS读数的输入DNA中的基因组百分比计算的百分比回收。图18C显示
了对于每个输入量计算跨越所有靶向区域的中值DCS深度。用标准方案(即标准-DS)以及
CRISPR-DS，对从正常人膀胱组织提取的相同DNA的三个输入量(250ng、100ng和25ng)进行
测序。伴随一轮捕获，CRISPR-DS实现＞90％的在靶上的原始读数(例如覆盖TP53)(表8，下文显示)，这表示超过标准DS(其使用一轮捕获实现～5％的在靶上的原始读数)的显著改善
(表8，下文显示)。第二轮捕获最低限度增加CRISPR-DS中的原始读数(图19)。标准-DS跨越不同输入产生～1％的回收率(例如，作为测序基因组回收的输入基因组的百分比；也称为
分数基因组当量回收)，而CRISPR-DS产生范围为6％至12％的回收率。CRISPR-DS的回收率
转变为25ng的DNA，产生的DCS深度(通过DCS读数生成的深度)与250ng DNA由标准-DS产生
的那种可比较。两种方法的并排比较也证实CRISPR-DS可以提供以下改善：由于PCR扩增偏
差的短片段的过多表现不发生/影响不同条带/峰的结果(即目的区域的覆盖是均匀的)，在
测序之前提供了正确文库制备的确认，并且通过靶向片段化产生的明确定义的片段完全跨
越所需靶区域，具有均匀的覆盖(图22E)。

[0356] 材料与方法

[0357] 样品

[0358] 在本实例中分析的样品包括来自外周血、具有和不具有癌症的膀胱的去标识的人基因组DNA和腹膜液DNA。患者信息可用于腹膜液样品，并且用于确认肿瘤突变的存在。流体样品获自华盛顿大学妇科肿瘤组织库(University of Washington Gynecologic
Oncology Tissue Bank)，其在由华盛顿大学人类学科(Washington Human Subjects
Division)机构审查委员会批准的方案号27077下的知情同意后收集样本和临床信息。从华
盛顿大学泌尿生殖系统癌症标本生物贮存库(University of Washington Genitourinary
Cancer Specimen Biorepository)和未先前固定或冷冻的尸检组织获得去标识的冷冻膀
胱样品。先前已用QIAamp DNA Mini试剂盒(Qiagen，Inc.，Valencia，CA，USA)提取DNA，并且它从未变性。用Qubit HS dsDNA试剂盒(ThermoFisher Scientific)定量DNA。用Genomic
TapeStation(Agilent，Santa Clara，CA)评价DNA质量，并且测定DNA完整性数(DIN)。DIN是基因组DNA质量的量度，范围从1(非常降解)到10(未降解)。外周血DNA和腹膜液DNA具有DIN＞7(反映质量良好的DNA而无降解)。图19是条形图，其显示了与关于三个不同血液DNA样品上的两个捕获步骤相比，由具有一个捕获步骤的CRISPR-DS提供的靶富集。

[0359] 有目的地选择膀胱样品以包括不同水平的DNA降解。膀胱DNA样品B1至B13具有在6.8和8.9之间的DIN，并且通过CRISPR-DS成功地分析(表10，下文显示)。样品B14和B16分别具有6和4的DIN，并且用于证实通过用Bluepippin系统预富集高分子量DNA而产生的改善
(图20A和20B)。

[0360] CRISPR引导设计。

[0361] 切除TP53外显子的gRNA被设计为具有包括以下的特征：产生覆盖TP53编码区的～500bp片段的能力和(2)最高MIT网站得分(“MIT得分”；CRISPR.mit.edu：8079/；表1和图
17A-17C)。对于外显子7，引导被设计为产生较小尺寸的片段，以便避免目的区域内的近端聚A束。设计总共12种gRNA，其将TP53切割成7个不同的片段(图12A)。所有gRNA都具有“MIT”得分＞60。通过使用Integrative Genomics Viewer检查最终DCS读数的比对来评价切割质
量。成功的引导产生典型的覆盖图案，其具有在区域边界中的尖锐边缘和适当的DCS深度
(图22E)。如果引导“不成功”，则观察到DCS深度中的下降以及跨越超出预期切割点的长读数的存在；此类引导根据需要进行重新设计。包括与随机DNA序列间隔的所有gRNA序列的合成GeneBlock DNA片段(IDT，Coralville，IA)(表7)用于评价引导(图21A-21B)。使用本文所述的CRISPR/Cas9体外消化方案，用每种gRNA消化3ngGeneBlock DNA。在消化后，通过
TapeStation 4200(Agilent Technologies，Santa Clara，CA，USA)分析反应(图21C)。存在预定义的片段长度，并且确认适当的gRNA组装和gRNA切割其靶位点的能力。

[0362] 表7.GeneBlock DNA片段

[0363] 基因块片段-具有所有gRNA靶序列的500bp。

[0364]

[0365] 间隔物序列17bp(来自TP53外显子10的内含子区域DS)

[0366]

[0367] 开始间隔物序列(7bp)：

[0368]

[0369] 终止间隔物序列(30bp)：

[0370]

[0371] 基因组DNA的CRISPR/Cas9体外消化。

[0372] 将crRNA和tracrRNA(IDT，Coralville，IA)复合到gRNA内，然后将30nM gRNA与Cas9核酸酶(NEB，Ipswich，MA)一起在～30nM、1x NEB Cas9反应缓冲液和23-27μL体积的水中在25℃下温育10分钟。然后，加入10-250ng DNA，用于30μL的最终体积。将反应在37℃温育过夜，然后在70℃下热休克10分钟用于酶促失活。

[0373] 大小选择。

[0374] 在文库制备之前，使用大小选择来选择用于靶富集的预定片段长度。AMPure XP Beads(Beckman Coulter，Brea，CA，USA)用于去除脱靶、未消化的高分子量DNA。在加热失活后，将反应与0.5x比率的珠混合，短暂混合，然后温育3分钟，以允许高MW DNA结合。然后用磁体将珠与溶液分离，并且将溶液(含有靶向DNA片段长度)转移到新管内。执行标准AMPure
1.8x比率珠纯化，并且洗脱到50μL TE Low内。

[0375] 文库制备

[0376] A-加尾和连接

[0377] 根据制造商的方案，使用NEBNext Ultra II DNA Library Prep Kit(NEB，Ipswich，MA)，对片段化的DNA进行A-加尾和连接。NEB末端修复和A-加尾(ERAT)反应在20℃下温育30分钟且在65℃下温育30分钟。CRISPR-DS不需要末端修复(Cas9产生平端)，但ERAT反应用于方便的A-加尾。然后加入15μM的NEB连接主混合物和2.5ul DS衔接子，并且在20℃下温育15分钟。合成商业衔接子原型(图12C)，与先前研究中使用的衔接子具有下述差异：
(1)使用10bp随机、双链分子标签代替12bp；以及(2)使用简单的3′-dT突出端取代先前的3′
5bp保守序列用于连接到5′-dA-加尾的DNA分子上。连接后，DNA通过0.8X倍比率的AMPure Bead纯化来清洁，并且洗脱到23μL无核酸酶的水内。

[0378] PCR

[0379] 使用具有荧光标准的KAPA Real-Time Amplification试剂盒(KAPA Biosystems，Woburn，MA，USA)扩增连接的DNA。制备50μl反应，其包括KAPA HiFi HotStart Real-time PCR Master Mix、23ul先前连接且纯化的DNA、以及终浓度为2μM的DS引物MWS13和MWS20。反应在98℃下变性45秒，并且用98℃15秒、65℃30秒和72℃30秒的6-8个循环，随后为在72℃下1分钟的最终延伸进行扩增。将样品扩增直至它们达到荧光标准3(其产生足够且标准化
数目的DNA拷贝以跨样品捕获，预防过度扩增，并且指示成功的Cas9切割和连接)，这通常需要6-8个循环，取决于DNA输入的量。执行0.8X比率的AMPure Bead洗涤，以纯化扩增的片段，其被洗脱到40μL无核酸酶的水内。与PCR步骤下的标准DS相比，CRISPR-DS提供了包括以下的改善：(i)提供相似大小的片段(减少朝向小片段的扩增偏差(图22A)，(ii)产生目的区域的更均匀覆盖(图22E)；和(iii)通过TapeStation4200(Agilent Technologies，Santa
Clara，CA，USA)准确评价成功的文库制备(使用预定的片段大小特征)。在标准-DS中，PCR产物由于超声处理具有广泛范围的大小，并且作为在样品之间难以比较的宽涂片存在(图
22A)。与其它方法例如标准-DS(其可以产生难以在样品之间比较的结果)相比，CRISPR-DS
产生离散峰，其明确指示成功切割和连接，并且顺应跨越样品的质量控制的比较(图22B-
D)。

[0380] 捕获和捕获后PCR

[0381] 根据先前的研究，TP53 xGen Lockdown Probes(IDT，Coralville，IA)用于执行关于TP53外显子的杂交捕获，但如下修改：选择探针(来自IDT TP53Lockdown探针组)以覆盖整个TP53编码区(外显子1和外显子11的部分不是编码区)(表6)。每个CRISPR/Cas9切除的
片段被最少2个探针和最多5个探针覆盖(图17A-17C)。为了产生捕获探针池，关于给定片段的每个探针以等摩尔量合并，产生7个不同的池(每个片段一个)。然后再次将7个片段池以
等摩尔量混合(除了外显子7和外显子8-9的池之外，其分别以40％和90％表示)。在测序时
观察到外显子过多表现的情况下，实施关于这些外显子的捕获探针的减少。将最终捕获池
稀释至0.75pmol/μl。根据标准IDT方案执行杂交捕获，具有下述修改：使用对DS衔接子特异性的阻断剂MWS60和MSW61；使用75μl(而不是100μl)Dynabeads M-270Streptavidin珠；并且使用KAPA Hi-Fi HotStart PCR kit(KAPA Biosystems，Woburn，MA，USA)，使用以0.8μM终浓度的MWS13和索引引物MWS21执行捕获后PCR。将反应在98℃下变性45秒，然后在98℃下
30秒、在60℃下45秒和在72℃下45秒扩增20个循环，随后为在72℃下延伸60秒。用0.8X
AMPure Bead洗涤纯化PCR产物。

[0382] 测序

[0383] 样品使用Qubit dsDNA HS Assay Kit进行定量，稀释且合并用于测序。然后在Agilent 4200 TapeStation上显现样品池，以确认文库质量。TapeStation电泳图显示对应于设计的CRISPR/Cas9切割片段的片段长度的尖锐的独特峰(图22B-22D)。(也可以在合并
之前个别地对于每个样品执行该步骤，以根据需要/期望验证每个个别样品的性能)。使用
KAPA Library Quantification试剂盒(KAPA Biosystems，Woburn，MA，USA)定量最终池。根据制造商的说明，使用v3600循环试剂盒(Illumina，San Diego，CA，USA)，在MiSeq
Illumina平台上对文库进行测序。每个样品具有～7-10％分配的泳道(对应于～200万个读
数)；每个测序运行掺料有大约1％PhiX对照DNA。

[0384] 数据处理

[0385] 产生定制生物信息学管道，以自动化从原始FASTQ文件到文本文件的分析(图23)。该管道类似于用于标准DS分析的方法，但具有下述修改：(i)实现配对读数信息的保留，以及(ii)在比对之前执行共有序列制备。配对末端读数用于CRISPR-DS数据的分析中，但也代表超过标准DS分析的改善，因为它们提供片段大小的质量控制和去除由于短片段的存在的
潜在技术人工制品。另外，标准DS分析在将所有读数映射到参考基因组后执行共有序列制
备，而CRISPR-DS分析作为初始步骤执行共有序列，仅依赖于通过测序仪的碱基读数。认为很可能这种变化改善共有序列制备，并且减少数据处理所需的时间。在CRISPR-DS中，共有序列制备由称为UnifiedConsensusMaker.py的定制python脚本执行，所述脚本获取源自相
同标签的所有读数，比较在每个位置处调用的碱基，并且产生单链共有序列(SSCS)读数。然后逐个位置比较关于每个互补标签对的SSCS读数，以产生双链共有序列(DCS)读数(图
12D)。制备了两个FASTQ文件，其含有所得到的SSCS读数和DCS读数(DCS读数对应于原始DNA分子，因此平均DCS深度是测序的基因组数目的估计值)。回收率(也称为分数基因组当量回收)计算为平均DCS深度(测序的基因组)除以输入基因组的数目(1ng DNA对应于～330个单
倍体基因组)。通过计数读数的数目来计算在靶上的原始读数，所述读数的基因组坐标落入上游和下游CRISPR/Cas9切割位点内，其中对任一侧添加100bp的窗口。然后使用具有缺省
参数的bwa-mem v.0.7.419，将配对末端的DCS FASTQ文件与人参考基因组v38进行比对。映射的读数与GATK Indel-Realigner重新比对，并且使用GATK Clip-Reads从末端削剪低质
量碱基。执行来自3′末端的30个碱基的保守性削剪和来自5′末端的另外7个碱基的削剪。另外，在TP53设计中跨越～80bp的读数对的重叠区域使用fgbio ClipOverlappingReads进行
回修。该算法从配对读数的两个末端执行均匀削剪，直至它们相遇，这最大化了具有高
PHRED质量得分的测序碱基的使用。使用SAMtools mpileup由所得到的文件创建了堆积文
件(pileup file)。然后使用定制python脚本过滤堆积文件，所述脚本具有BED文件用于靶
向的基因组位置。可以使用CRISPR/Cas9 gRNA的坐标容易地创建BED文件。然后，过滤的堆积文件由定制化脚本mut-position.1.33.py进行处理，所述脚本创建称为‘mutpos’、具有突变信息的制表符分隔文本文件。mutpos包括DCS深度的概括和在每个测序位置处的突变
(CRISPR-DS分析中使用的软件可以在超文本传输安全协议处访问：//github.com/
risqueslab/CRISPR-DS)。

[0386] 标准-DS

[0387] 来自正常人膀胱样品B9的三种DNA量(25ng、100ng和250ng)用标准-DS进行测序，伴随一轮和两轮捕获，并且与来自CRISPR-DS的结果进行比较。执行标准-DS分析，但使用
KAPA Hyperprep试剂盒(KAPA Biosystems，Woburn，MA，USA)用于末端修复和连接，并且
KAPA Hi-Fi HotStart PCR试剂盒(KAPA Biosystems，Woburn，MA，USA)用于PCR扩增。使用覆盖TP53外显子2-11的xGen Lockdown探针执行杂交捕获(相同的探针用于标准DS和
CRISPR-DS两者中)。样品在～10％的HiSeq 2500 Illumina平台上进行测序，以适应更短的片段长度。

[0388] CRISPR-DS靶富集

[0389] 为了表征CRISPR-DS靶富集，执行两种分开的分析：

[0390] 第一分析包括一轮捕获相对于两轮捕获的比较(以及与标准DS的结果的比较)。处理三个DNA样品用于CRISPR-DS，并且在一次杂交捕获后拆分成两半。将第一部分加上索引
且测序，并且使第二部分经受另外一轮捕获，如原始DS方案中要求的。对于一次捕获相对于两次捕获，比较“在靶上”(即覆盖TP53外显子)的原始读数百分比。标准DS和CRISPR-DS之间的比较细节可以在表8中看到。

[0391] 表8.标准-DS相对于CRISPR-DS的比较

[0392]

[0393] 第二分析评价在靶上的原始读数的百分比，而不执行杂交捕获，并且确定富集通过大小选择CRISPR切除的片段唯一地产生。用第一分析中描述的方案处理不同DNA量(从
10ng到250ng)的三种不同样品，直到第一PCR(即在杂交捕获之前)。图24A和24B是图表(图
24A)和表(图24B)，其显示了根据本技术的一个实施例，定量CRISPR/Cas9消化随后为大小
选择之后的靶富集程度的结果。图24A显示了DNA样品和对于每种样品实现的富集。图24B显示了与输入DNA的量相比，“在靶上”的原始读数的百分比。然后将PCR产物加上索引且测序。
计算在靶上的原始读数的百分比，并且估计富集倍数(考虑靶向区域大小，在这种情况下，
3280bp)。

[0394] 高分子量DNA的预富集

[0395] 高分子量DNA的选择改善了CRISPR-DS中的降解DNA的性能。使用BluePippin系统(Sage Science，Beverly，MA)执行这种选择。使用0.75％凝胶盒和高通设置运行DIN为6和4的两种膀胱DNA，以获得＞8kb片段。通过TapeStation确认大小选择(图20A)。然后在
BluePippin之前的250ng DNA和在BluePippin之后的250ng DNA用CRISPR-DS平行进行处
理。定量且比较在靶上的原始读数的百分比以及平均DCS深度(图20B)。

[0396] 实例13：卵巢癌样品中的CRISPR-DS

[0397] 为了验证CRISPR-DS检测低频突变的能力，在瘤体减灭术期间从患有卵巢癌的女性中收集四个腹膜液样品且进行分析。先前通过标准-DS证实这些样品中TP53肿瘤突变的
存在。100ng DNA(比用于标准-DS的那种小30-100倍)用于CRISPR-DS分析，并且获得与标
准-DS可比较的DCS深度，并且在所有情况下成功鉴定了TP53肿瘤突变(表9)。回收率范围为
6％至12％，与使用相同DNA的标准DS相比，代表15x-200x的增加。

[0398] 表9.关于具有TP53突变的4种不同样品，标准-DS相对于CRISPR-DS的比较。

[0399]

[0400] *在最终双重测序之后执行数据处理

[0401] 实例14：膀胱组织样品中的CRISPR-DS

[0402] 本实例描述了在从不同患者的膀胱组织中提取的一组13个DNA样品中CRISPR-DS的使用(表10)。来自每个样品的250ng DNA用于测定，并且导致6，143x的中值DCS深度，对应于7.4％的中值回收率。使用对于两个样品(B2和B4)的技术重复证实可重现的性能。所有样品都具有＞98％的在靶上的DCS读数，但在靶上的原始读数的百分比范围为43％至98％。低靶富集对应于DNA完整性数(DIN)＜7的样品。

[0403] 表10.关于用250ng输入DNA处理的13个样品的CRISPR-DS测序结果。

[0404]

[0405] 为了测试DIN对测定性能的作用，在CRISPR/Cas9消化之前去除低分子量DNA。BluePippin系统的脉冲场特征用于从具有“降解DNA”(DIN 6和4)的两个样品中选择高分子量DNA。预富集使在靶上的原始读数增加2倍，且DCS深度增加5倍(图20B)。为了直接定量简单地通过CRISPR/Cas9消化随后为大小选择而赋予的富集程度，对3个样品进行测序而无需
捕获。对10-250ng DNA进行消化，大小选择，连接，扩增且测序。“在靶上”的原始读数的百分比范围为0.2％至5％，对应于～2,000x至50,000x倍富集(表11)。值得注意的是，较低的DNA输入显示最高的富集，可能反映了当它们处于较低丰度时，脱靶的高分子量DNA片段的最佳去除。

[0406] 表11.由于大小选择的靶富集。

[0407]

[0408] CRISPR/Cas9片段化随后为大小选择成功地执行了有效的靶富集，并且消除了对于小靶区域的第二轮捕获的任何需要。另外，消除了PCR偏差并实现了目的区域的均匀覆
盖，代表了超过目前可用方法的大量改善。

[0409] 等价物和范围

[0410] 技术实施例的上述详细描述并不预期是详尽的，或将技术限制于上文公开的精确形式。尽管出于说明性目的在上文描述了技术的具体实施例和例子，但如相关领域的技术
人员将认识到的，各种等价修改在技术的范围内是可能的。例如，虽然步骤以给定次序呈
现，但替代实施例可以以不同次序执行步骤。本文描述的各种实施例也可以组合，以提供进一步的实施例。本文引用的所有参考文献都以引用的方式并入，如同在本文中完全阐述一
样。

[0411] 根据前文，应了解技术的具体实施例已在本文中进行描述用于说明性目的，但众所周知的结构和功能未详细显示或描述，以避免不必要地模糊技术实施例的描述。在上下
文允许的情况下，单数或复数术语也可以分别包括复数或单数术语。进一步地，虽然已在那些实施例的上下文中描述了与技术的某些实施例相关的优点，但其它实施例也可以显示出
此类优点，并且并非所有实施例都必须显示出落入技术范围内的此类优点。相应地，本公开内容和相关技术可以涵盖未在本文中明确显示或描述的其它实施例。

[0412] 本领域技术人员将认识到，或能够使用不超过例行实验来确定本文所述的公开技术的具体实施例的许多等价物。本技术的范围并不预期限制上文说明书，而是如下述权利
要求中所阐述的：

标题	发布/更新时间	阅读量
一种细胞学涂片检测方法	2020-05-28	650
一种痰细胞处理液及其应用	2020-06-11	908
一种免疫细胞化学染色方法及其在宫颈肿瘤性病变筛查中的应用	2020-06-03	230
一种鳞状上皮细胞内癌SCC-TCT联合检测方法	2020-05-24	843
子宫颈内的巴氏涂片取样头探针	2020-05-12	574
一种体外人工分离淋巴细胞及冷冻保存的方法	2020-06-13	780
一种改良巴氏涂片的制备方法	2020-05-11	963
一种拉片式宫颈抹片制备方法	2020-05-18	401
简易快速薄层液基细胞学细胞涂片制备方法	2020-05-21	593
一种宫颈细胞保存液及宫颈细胞标本的制片方法	2020-05-29	585

用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用

用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：