用于具有非均匀分子长度的独特分子索引集合的生成和错误校正的方法和系统专利检索-莱文斯坦距离人工智能专利检索查询-专利查询网

用于具有非均匀分子长度的独特分子索引集合的生成和错误校正的方法和系统

阅读：849发布：2020-05-20

专利汇可以提供用于具有非均匀分子长度的独特分子索引集合的生成和错误校正的方法和系统专利检索，专利查询，专利分析的服务。并且所公开的实施方式涉及使用独特分子索引序列来确定感兴趣序列的方法、设备、系统以及计算机程序产品，独特分子索引序列可与单独多核苷酸片段独特关联，感兴趣序列包括具有低等位基因频率和长序列长度的序列。在一些实现中，独特分子索引序列包括可变长度非随机序列。在一些实现中，独特分子索引序列基于比对分数与单独多核苷酸片段关联，比对分数表示独特分子索引序列与从单独多核苷酸片段获得的序列读段的子序列之间的相似性。还提供了实现所公开方法的、确定感兴趣序列的系统、设备以及计算机程序产品。，下面是用于具有非均匀分子长度的独特分子索引集合的生成和错误校正的方法和系统专利的具体信息内容。

权利要求

1.一种对来自样本的核酸分子进行测序的方法，该方法包括以下步骤：
(a)向所述样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，
其中，各衔接子包括非随机独特分子索引，并且
其中，所述衔接子的非随机独特分子索引具有至少两个不同的分子长度，并且形成可变长度的非随机独特分子索引即vNRUMI的集合；
(b)扩增所述DNA-衔接子产物，以获得多个扩增的多核苷酸；
(c)对所述多个扩增的多核苷酸进行测序，从而获得与所述vNRUMI的集合关联的多个读段；
(d)在所述多个读段当中识别与相同可变长度的非随机独特分子索引即vNRUMI关联的读段；以及
(e)使用与该相同vNRUMI关联的读段来确定所述样本中的DNA片段序列。
2.根据权利要求1所述的方法，其中，识别与所述相同vNRUMI关联的读段包括：对于所述多个读段中的各读段，获得关于所述vNRUMI的集合的比对分数，各比对分数表示读段的子序列与vNRUMI之间的相似性，其中，该子序列处于读段的、源于所述vNRUMI的核苷酸可能位于的区域中。
3.根据权利要求2所述的方法，其中，所述比对分数基于所述读段的子序列与所述vNRUMI之间的核苷酸的匹配和核苷酸的编辑。
4.根据权利要求3所述的方法，其中，所述核苷酸的编辑包括：核苷酸的替代、添加和缺失。
5.根据权利要求3所述的方法，其中，各比对分数惩罚序列的起始处的错配，但不惩罚该序列的末端处的错配。
6.根据权利要求5所述的方法，其中，获得读段与vNRUMI之间的比对分数包括：
(a)计算所述vNRUMI与所述读段的子序列的所有可能前缀序列中的各可能前缀序列之间的比对分数；
(b)计算所述读段的子序列与所述vNRUMI的所有可能前缀序列中的各可能前缀序列之间的比对分数；以及
(c)获得在步骤(a)和步骤(b)中计算出的比对分数当中的最大比对分数，作为所述读段与所述vNRUMI之间的比对分数。
7.根据权利要求2所述的方法，其中，所述子序列的长度等于所述vNRUMI的集合中的最长vNRUMI的长度。
8.根据权利要求2所述的方法，其中，在步骤(d)中识别与所述相同vNRUMI关联的读段还包括：
对于所述多个读段的各读段，基于所述比对分数从所述vNRUMI的集合选择至少一个vNRUMI；以及
将所述多个读段的各读段与对于该读段选择的所述至少一个vNRUMI关联。
9.根据权利要求8所述的方法，其中，从所述vNRUMI的集合选择所述至少一个vNRUMI包括：选择在所述vNRUMI的集合当中具有最高比对分数的vNRUMI。
10.根据权利要求8所述的方法，其中，所述至少一个vNRUMI包括两个或更多个vNRUMI。
11.根据权利要求10所述的方法，还包括以下步骤：选择所述两个或更多个vNRUMI中的一个，作为步骤(d)和步骤(e)的所述相同vNRUMI。
12.根据权利要求1所述的方法，其中，在步骤(a)中应用的衔接子通过以下方式来获得：
(i)提供具有至少两个不同分子长度的寡核苷酸序列的集合；
(ii)从所述寡核苷酸序列的集合选择寡核苷酸序列的子集，所述寡核苷酸序列的子集中的寡核苷酸序列之间的所有编辑距离满足阈值，所述寡核苷酸序列的子集形成所述vNRUMI的集合；以及
(iii)合成所述衔接子，各衔接子包括双链杂交区域、单链5’臂、单链3’臂以及所述vNRUMI的集合的至少一个vNRUMI。
13.根据权利要求12所述的方法，其中，所述阈值是3。
14.根据权利要求1所述的方法，其中，所述vNRUMI的集合包括：6个核苷酸的Vnrumi，和
7个核苷酸的vNRUMI。
15.根据权利要求1所述的方法，其中，步骤(e)包括：将与所述相同vNRUMI关联的读段塌缩成组，以获得用于所述样本中的DNA片段序列的共识核苷酸序列。
16.根据权利要求15所述的方法，所述共识核苷酸序列部分基于所述读段的质量分数来获得。
17.根据权利要求1所述的方法，其中，步骤(e)包括：
在与所述相同vNRUMI关联的读段当中，识别在参考序列中具有相同读段位置或类似读段位置的读段，以及
使用如下读段来确定所述DNA片段序列，这些读段(i)与所述相同vNRUMI关联，以及(ii)在所述参考序列中具有相同读段位置或类似读段位置。
18.根据权利要求1所述的方法，其中，所述vNRUMI的集合包括不多于约10000个不同的vNRUMI。
19.根据权利要求18所述的方法，其中，所述vNRUMI的集合包括不多于约1000个不同的vNRUMI。
20.根据权利要求19所述的方法，其中，所述vNRUMI的集合包括不多于约200个不同的vNRUMI。
21.根据权利要求1所述的方法，向所述样本中的所述DNA片段应用衔接子包括：向所述样本中的所述DNA片段的两端应用衔接子。
22.一种制备测序衔接子的方法，该方法包括以下步骤：
(a)提供具有至少两个不同分子长度的寡核苷酸序列的集合；
(b)从所述寡核苷酸序列的集合选择寡核苷酸序列的子集，所述寡核苷酸序列的子集的寡核苷酸序列之间的所有编辑距离满足阈值，所述寡核苷酸序列的子集形成可变长度的非随机独特分子索引即vNRUMIs的集合；以及
(c)合成多个测序衔接子，其中，各测序衔接子包括双链杂交区域、单链5’臂、单链3’臂以及所述vNRUMI的集合的至少一个vNRUMI。
23.根据权利要求22所述的方法，其中，步骤(b)包括：
(i)从所述寡核苷酸序列的集合选择寡核苷酸序列；
(ii)将所选的寡核苷酸添加到寡核苷酸序列的扩展集合，并且从所述寡核苷酸序列的集合去除所选的寡核苷酸，以得到寡核苷酸序列的缩减集合；
(iii)从所述缩减集合选择使距离函数最大化的即时寡核苷酸序列，其中，所述距离函数是所述即时寡核苷酸序列与所述扩展集合中的任意寡核苷酸序列之间的最小编辑距离，并且其中，所述距离函数满足所述阈值；
(iv)将所述即时寡核苷酸添加到所述扩展集合，并且从所述缩减集合去除所述即时寡核苷酸；
(v)将步骤(iii)和步骤(iv)重复一次或更多次；以及
(vi)提供所述扩展集合，作为形成所述vNRUMI的集合的寡核苷酸序列的子集。
24.根据权利要求23所述的方法，其中，步骤(v)包括：重复步骤(iii)和步骤(iv)，直到所述距离函数不再满足所述阈值为止。
25.根据权利要求23所述的方法，其中，步骤(v)包括：重复步骤(iii)和步骤(iv)，直到所述扩展集合达到所定义尺寸为止。
26.根据权利要求23所述的方法，其中，所述即时寡核苷酸序列或所述扩展集合中的寡核苷酸序列短于所述寡核苷酸序列的集合中的最长寡核苷酸序列，所述方法还包括以下步骤：在步骤(iii)之前，(1)向所述即时寡核苷酸序列或所述扩展集合中的寡核苷酸序列附加胸腺嘧啶碱基或胸腺嘧啶碱基加上四个碱基中的任意一个，从而生成具有与所述寡核苷酸序列的集合中的最长寡核苷酸序列相同长度的填充序列，以及(2)使用该填充序列来计算最小编辑距离。
27.根据权利要求22所述的方法，其中，所述编辑距离是莱文斯坦距离。
28.根据权利要求22所述的方法，其中，所述阈值是3。
29.根据权利要求22所述的方法，还包括以下步骤：在步骤(b)之前，从所述寡核苷酸序列的集合去除特定寡核苷酸序列，以获得寡核苷酸序列的经过滤集合；以及提供所述寡核苷酸序列的经过滤集合，作为从中选择所述子集的、所述寡核苷酸序列的集合。
30.根据权利要求29所述的方法，其中，所述特定寡核苷酸序列包括具有三个或更多个连续相同碱基的寡核苷酸序列。
31.根据权利要求29所述的方法，其中，所述特定寡核苷酸序列包括：鸟嘌呤和胞嘧啶碱基的组合数量小于2的寡核苷酸序列，和鸟嘌呤和胞嘧啶碱基的组合数量大于4的寡核苷酸序列。
32.根据权利要求29所述的方法，其中，所述特定寡核苷酸序列包括：在最后两个位置处具有相同碱基的寡核苷酸序列。
33.根据权利要求29所述的方法，其中，所述特定寡核苷酸序列包括：具有与一个或更多个测序引物的3’末端匹配的子序列的寡核苷酸序列。
34.根据权利要求29所述的方法，其中，所述特定寡核苷酸序列包括：在所述寡核苷酸序列的最后位置处具有胸腺嘧啶碱基的寡核苷酸序列。
35.根据权利要求22所述的方法，其中，所述vNRUMI的集合包括：6个核苷酸的vNRUMI和
7个核苷酸的vNRUMI。
36.一种对来自样本的核酸分子进行测序的方法，该方法包括以下步骤：
(a)向所述样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，
其中，各衔接子包括非随机独特分子索引，并且
其中，所述衔接子的非随机独特分子索引具有至少两个不同的分子长度，并且形成可变长度的非随机独特分子索引即vNRUMI的集合；
(b)扩增所述DNA-衔接子产物，以获得多个扩增的多核苷酸；
(c)对所述多个扩增的多核苷酸进行测序，从而获得与所述vNRUMI的集合关联的多个读段；以及
(d)在所述多个读段当中，识别与相同可变长度的非随机独特分子索引即vNRUMI关联的读段。
37.根据权利要求36所述的方法，还包括以下步骤：获得与所述相同vNRUMI关联的读段的计数。
38.一种对来自样本的核酸分子进行测序的方法，该方法包括以下步骤：
(a)向所述样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，
其中，各衔接子包括独特分子索引即UMI，并且
其中，所述衔接子的独特分子索引即UMI具有至少两个不同的分子长度，并且形成可变长度的独特分子索引即vUMI的集合；
(b)扩增所述DNA-衔接子产物，以获得多个扩增的多核苷酸；
(c)对所述多个扩增的多核苷酸进行测序，从而获得与所述vUMI的集合关联的多个读段；以及
(d)在所述多个读段当中，识别与相同可变长度的独特分子索引即vUMI关联的读段。
39.根据权利要求38所述的方法，还包括以下步骤：使用与所述相同vUMI关联的读段来确定所述样本中的DNA片段序列。
40.根据权利要求38所述的方法，还包括以下步骤：获得与所述相同vUMI关联的读段的计数。
41.一种对来自样本的核酸分子进行测序的方法，该方法包括以下步骤：
(a)向所述样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，其中，各衔接子包括独特分子索引即UMI的集合中的独特分子索引即UMI；
(b)扩增所述DNA-衔接子产物，以获得多个扩增的多核苷酸；
(c)对所述多个扩增的多核苷酸进行测序，从而获得与所述UMI的集合关联的多个读段；
(d)对于所述多个读段中的各读段，获得关于所述UMI的集合的比对分数，各比对分数表示读段的子序列与UMI之间的相似性；
(e)使用所述比对分数在所述多个读段当中识别与相同UMI关联的读段；以及(f)使用与所述相同UMI关联的读段来确定所述样本中的DNA片段序列。
42.根据权利要求41所述的方法，其中，所述比对分数基于所述读段的子序列与所述UMI之间的核苷酸的匹配和核苷酸的编辑。
43.根据权利要求42所述的方法，其中，各比对分数惩罚序列的起始处的错配，但不惩罚该序列的末端处的错配。
44.根据权利要求41所述的方法，其中，所述UMI的集合包括至少两个不同分子长度的UMI。
45.一种计算机程序产品，该计算机程序产品包括存储程序代码的非暂时机器可读介质，该程序代码在由计算机系统的一个或更多个处理器执行时，使得所述计算机系统实现对来自样本的核酸分子进行测序的方法，所述程序代码包括：
(a)如下代码，该代码用于获得多个扩增多核苷酸的多个读段，所述多个扩增多核苷酸中的各多核苷酸包括附接到DNA片段的衔接子，
其中，所述衔接子包括非随机独特分子索引，并且
其中，所述衔接子的非随机独特分子索引具有至少两个不同的分子长度，形成可变长度的非随机独特分子索引即vNRUMI的集合；
(b)如下代码，该代码用于在所述多个读段当中识别与相同vNRUMI关联的读段；以及(c)如下代码，该代码用于使用与所述相同vNRUMI关联的读段来确定所述样本中的DNA片段序列。
46.一种计算机系统，该计算机系统包括：
一个或更多个处理器；
系统存储器；以及
一个或更多个计算机可读存储介质，在所述一个或更多个计算机可读存储介质上存储有计算机可执行指令，这些指令使得所述计算机系统实现确定样本中的感兴趣序列的序列信息的方法，所述指令包括：
(a)获得多个扩增多核苷酸的多个读段，所述多个扩增多核苷酸中的各多核苷酸包括附接到DNA片段的衔接子，
其中，所述衔接子包括非随机独特分子索引，并且
其中，所述衔接子的非随机独特分子索引具有至少两个不同的分子长度，形成可变长度的非随机独特分子索引即vNRUMI的集合；
(b)在所述多个读段当中识别与相同vNRUMI关联的读段；以及
(c)使用与所述相同vNRUMI关联的读段来确定所述样本中的DNA片段序列。

说明书全文

用于具有非均匀分子长度的独特分子索引集合的生成和错误

校正的方法和系统

[0001] 相关申请的交叉引用

[0002] 本申请要求在35U.S.C.§119(e)下于2017年1月18日提交的标题为METHODS AND SYSTEMS FOR GENERATION AND ERROR-CORRECTION OF UNIQUE MOLECULAR INDEX SETS WITH HETEROGENEOUS MOLECULAR LENGTHS的美国临时专利申请No.62/447851的权益，此处为了所有目的以引证的方式将上述申请全文并入。

背景技术

[0003] 新一代测序技术提供越来越高的测序速度，这允许更大的测序深度。然而，因为测序准确度和灵敏度受来自各种来源(例如，样本缺陷、库制备期间的PCR、富集、聚类以及测序)的错误和噪声影响，所以单独增加测序深度无法确保检测非常低等位基因频率的序列，诸如在母体血浆中的胎儿游离DNA(cfDNA)、循环肿瘤DNA(ctDNA)以及病原体中的亚克隆突变中。因此，期望开发用于在抑制由于各种错误来源引起的测序不准确度的同时确定少量和/或低等位基因频率的DNA分子的序列的方法。发明内容

[0004] 所公开的实现涉及用于使用独特分子索引(UMI：unique molecular indice)来确定核酸片段序列的方法、设备、系统以及计算机程序产品。在一些实现中，UMI包括非随机UMI(NRUMI:nonrandom UMI)或可变长度的非随机独特分子索引(vNRUMI:variable-length,nonrandom unique molecular indice)。

[0005] 本公开的一个方面提供了用于对来自样本的核酸分子进行测序的方法。该方法包括以下步骤：(a)向样本中的DNA片段应用衔接子(adapter)，以获得DNA-衔接子产物，其中，各衔接子包括非随机独特分子索引，并且其中，衔接子的非随机独特分子索引具有至少两个不同的分子长度，并且形成可变长度的非随机独特分子索引(vNRUMI)的集合；(b)扩增DNA-衔接子产物，以获得多个扩增的多核苷酸；(c)对多个扩增的多核苷酸进行测序，从而获得与vNRUMI的集合关联的多个读段；(d)在多个读段当中识别与相同可变长度的非随机独特分子索引(vNRUMI)关联的读段；以及(e)使用与相同vNRUMI关联的读段确定样本中的DNA片段序列。

[0006] 在一些实现中，识别与相同vNRUMI关联的读段包括：对于多个读段中的各读段，获得关于vNRUMI的集合的比对分数，各比对分数表示读段的子序列与vNRUMI之间的相似性，其中，该子序列处于读段的、源于vNRUMI的核苷酸可能位于的区域中。

[0007] 在一些实现中，比对分数基于读段的子序列与vNRUMI之间的核苷酸的匹配和核苷酸的编辑。在一些实现中，核苷酸的编辑包括核苷酸的替代、添加和缺失。在一些实现中，各比对分数惩罚序列的起始处的错配，但不惩罚序列的末端处的错配。

[0008] 在一些实现中，获得读段与vNRUMI之间的比对分数包括：(a)计算vNRUMI与读段的子序列的所有可能前缀序列中的各可能前缀序列之间的比对分数；(b)计算读段的子序列与vNRUMI的所有可能前缀序列中的各可能前缀序列之间的比对分数；以及(c)获得在(a)和(b)中计算的比对分数当中的最大比对分数，作为读段与vNRUMI之间的比对分数。

[0009] 在一些实现中，子序列的长度等于vNRUMI的集合中的最长vNRUMI的长度。在一些实现中，在(d)中识别与相同vNRUMI关联的读段还包括：对于多个读段的各读段，基于比对分数从vNRUMI的集合选择至少一个vNRUMI；以及将多个读段的各读段与对于读段选择的至少一个vNRUMI关联。

[0010] 在一些实现中，从vNRUMI的集合选择至少一个vNRUMI包括：选择在vNRUMI的集合当中具有最高比对分数的vNRUMI。在一些实现中，至少一个vNRUMI包括两个或更多个vNRUMI。

[0011] 在一些实现中，该方法还包括以下步骤：选择两个或更多个vNRUMI中的一个，作为(d)和(e)的相同vNRUMI。

[0012] 在一些实现中，在(a)中应用的衔接子通过以下方式来获得：(i)提供具有至少两个不同分子长度的寡核苷酸序列的集合；(ii)从寡核苷酸序列的集合选择寡核苷酸序列的子集，该寡核苷酸序列的子集中的寡核苷酸序列之间的所有编辑距离满足阈值，寡核苷酸序列的子集形成vNRUMI的集合；以及(iii)合成衔接子，各衔接子包括双链杂交区域、单链5’臂、单链3’臂以及vNRUMI的集合的至少一个vNRUMI。在一些实现中，阈值是3。在一些实现中，vNRUMI的集合包括6个核苷酸的vNRUMI和7个核苷酸的vNRUMI。

[0013] 在一些实现中，(e)的确定包括：将与相同vNRUMI关联的读段塌缩成组，以获得用于样本中的DNA片段序列的共识核苷酸序列(consensus nucleotide sequence)。在一些实现中，共识核苷酸序列部分基于读段的质量分数来获得。

[0014] 在一些实现中，(e)的确定包括：在与相同vNRUMI关联的读段当中，识别在参考序列中具有相同读段位置或类似读段位置的读段，以及使用该读段来确定DNA片段序列，这些读段(i)与相同vNRUMI关联，并且(ii)在参考序列中具有相同读段位置或类似读段位置。

[0015] 在一些实现中，vNRUMI的集合包括不多于约10000个不同的vNRUMI。在一些实现中，vNRUMI的集合包括不多于约1000个不同的vNRUMI。在一些实现中，vNRUMI的集合包括不多于约200个不同的vNRUMI。

[0016] 在一些实现中，向样本中的DNA片段应用衔接子包括：向样本中的DNA片段的两端应用衔接子。

[0017] 本公开的另一个方面涉及用于制备测序衔接子的方法，这些方法包括以下步骤：(a)提供具有至少两个不同分子长度的寡核苷酸序列的集合；(b)从寡核苷酸序列的集合选择寡核苷酸序列的子集，该寡核苷酸序列的子集中的寡核苷酸序列之间的所有编辑距离满足阈值，寡核苷酸序列的子集形成可变长度的非随机独特分子索引(vNRUMIs)的集合；以及(c)合成多个测序衔接子，其中，各测序衔接子包括双链杂交区域、单链5’臂、单链3’臂以及vNRUMI的集合的至少一个vNRUMI。

[0018] 在一些实现中，(b)包括：(i)从寡核苷酸序列的集合选择寡核苷酸序列；(ii)将所选的寡核苷酸添加到寡核苷酸序列的扩展集合，并且从寡核苷酸序列的集合去除所选的寡核苷酸，以得到寡核苷酸序列的缩减集合；(iii)从缩减集合选择使距离函数最大化的即时寡核苷酸序列，其中，距离函数是即时寡核苷酸序列与扩展集合中的任意寡核苷酸序列之间的最小编辑距离，并且其中，距离函数满足阈值；(iv)将即时寡核苷酸添加到扩展集合，并且从缩减集合去除即时寡核苷酸；(v)将(iii)和(iv)重复一次或更多次；以及(vi)提供扩展集合，作为形成vNRUMI的集合的寡核苷酸序列的子集。

[0019] 在一些实现中，(v)包括重复(iii)和(iv)，直到距离函数不再满足阈值为止。

[0020] 在一些实现中，(v)包括重复(iii)和(iv)，直到扩展集合达到所定义尺寸为止。

[0021] 在一些实现中，即时寡核苷酸序列或扩展集合中的寡核苷酸序列短于寡核苷酸序列的集合中的最长寡核苷酸序列，该方法还包括以下步骤：在(iii)之前，(1)向即时寡核苷酸序列或扩展集合中的寡核苷酸序列附加胸腺嘧啶碱基或胸腺嘧啶碱基加上四个碱基中的任意一个，从而生成具有与寡核苷酸序列的集合中的最长寡核苷酸序列相同长度的填充序列，并且(2)使用填充序列来计算最小编辑距离。在一些实现中，编辑距离是莱文斯坦距离。在一些实现中，阈值是3。

[0022] 在一些实现中，该方法还包括以下步骤：在(b)之前，从寡核苷酸序列的集合去除特定寡核苷酸序列，以获得寡核苷酸序列的经过滤集合；以及提供寡核苷酸序列的经过滤集合，作为从中选择子集的寡核苷酸序列的集合。

[0023] 在一些实现中，特定寡核苷酸序列包括具有三个或更多个连续相同碱基的寡核苷酸序列。在一些实现中，特定寡核苷酸序列包括：鸟嘌呤和胞嘧啶碱基的组合数量小于2的寡核苷酸序列，和鸟嘌呤和胞嘧啶碱基的组合数量大于4的寡核苷酸序列。

[0024] 在一些实现中，特定寡核苷酸序列包括：在最后两个位置处具有相同碱基的寡核苷酸序列。在一些实现中，特定寡核苷酸序列包括：具有与一个或更多个测序引物的3’末端匹配的子序列的寡核苷酸序列。

[0025] 在一些实现中，特定寡核苷酸序列包括：在寡核苷酸序列的最后位置处具有胸腺嘧啶碱基的寡核苷酸序列。

[0026] 在一些实现中，vNRUMI的集合：包括6个核苷酸的vNRUMI和7个核苷酸的vNRUMI。

[0027] 本公开的另外方面涉及一种对来自样本的核酸分子进行测序的方法，该方法包括以下步骤：(a)向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，其中，各衔接子包括非随机独特分子索引，并且其中，衔接子的非随机独特分子索引具有至少两个不同的分子长度，并且形成可变长度的非随机独特分子索引(vNRUMI)的集合；(b)扩增DNA-衔接子产物，以获得多个扩增的多核苷酸；(c)对多个扩增的多核苷酸进行测序，从而获得与vNRUMI的集合关联的多个读段；以及(d)在多个读段当中识别与相同可变长度的非随机独特分子索引(vNRUMI)关联的读段。

[0028] 在一些实现中，该方法还包括以下步骤：获得与相同vNRUMI关联的读段的计数。

[0029] 本公开的另一个方面涉及一种对来自样本的核酸分子进行测序的方法，该方法包括以下步骤：(a)向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，其中，各衔接子包括独特分子索引(UMI)，并且其中，衔接子的独特分子索引(UMI)具有至少两个不同的分子长度，并且形成可变长度的独特分子索引(vUMI)的集合；(b)扩增DNA-衔接子产物，以获得多个扩增的多核苷酸；(c)对多个扩增的多核苷酸进行测序，从而获得与vUMI的集合关联的多个读段；以及(d)在多个读段当中识别与相同可变长度的独特分子索引(vUMI)关联的读段。

[0030] 在一些实现中，该方法还包括以下步骤：使用与相同vUMI关联的读段来确定样本中的DNA片段序列。

[0031] 在一些实现中，该方法还包括以下步骤：获得与相同vUMI关联的读段的计数。

[0032] 本公开的又一个方面涉及一种对来自样本的核酸分子进行测序的方法，该方法包括以下步骤：(a)向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，其中，各衔接子包括独特分子索引(UMI)的集合中的独特分子索引(UMI)；(b)扩增DNA-衔接子产物，以获得多个扩增的多核苷酸；(c)对多个扩增的多核苷酸进行测序，从而获得与UMI的集合关联的多个读段；(d)对于多个读段中的各读段，获得关于UMI的集合的比对分数，各比对分数表示读段的子序列与UMI之间的相似性；(e)使用比对分数在多个读段当中识别与相同UMI关联的读段；以及(f)使用与相同UMI关联的读段确定样本中的DNA片段序列。

[0033] 在一些实现中，比对分数基于读段的子序列与UMI之间的核苷酸的匹配和核苷酸的编辑。在一些实现中，各比对分数惩罚(penalize)序列的起始处的错配，但不惩罚序列的末端处的错配。在一些实现中，UMI的集合包括至少两个不同分子长度的UMI。

[0034] 还提供了实现所公开的方法的、用于确定DNA片段序列的系统、设备以及计算机程序产品。

[0035] 本公开的一个方面提供了一种计算机程序产品，该计算机程序产品包括存储程序代码的非暂时机器可读介质，该程序代码在由计算机系统的一个或更多个处理器执行时，使得计算机系统实现用于使用独特分子索引(UMI)确定样本中的感兴趣序列的序列信息的方法。程序代码包括执行上述方法的指令。

[0036] 虽然这里的示例涉及人类，并且语言主要针对人类关注，但这里描述的概念适用于来自任意病毒、植物、动物或其他生物体的核酸及其群体(宏基因组、病毒群等)。本公开的这些和其他特征将参照附图和所附权利要求从以下描述变得更加彻底地明显，或者可以由如下文中阐述的本公开的实践来学习。

[0037] 以引证的方式并入

[0038] 这里提及的所有专利、专利申请以及其他公布，包括在这些参考文献内公开的所有序列，此处以引证的方式明确并入到犹如各独立公布、专利或专利申请被具体并独立地表示为以引证的方式并入的相同程度。为了由引用的所有文献在这里的引用的上下文表示的目的，此处在相关部分中以引证的方式将这些文献全文并入。然而，任意文献的引用不被解释为它是针对本公开的现有技术的承认。

附图说明

[0039] 图1A是例示了使用UMI来对核酸片段进行测序的示例性工作流程的流程图。

[0040] 图1B示出了在图1A所示的工作流程的初始步骤中采用的DNA片段/分子和衔接子。

[0041] 图1C是示出了用于使用vNRUMI来对DNA片段进行测序以抑制错误的过程的框图。

[0042] 图1D例示了用于制作具有vNRUMI的测序衔接子的过程140。

[0043] 图1E示出了可以如何将读段或查询序列(Q)的子序列与vNRUMI集合中的两个参考序列(S1和S2)进行比较的示例。

[0044] 图1F例示了全局局部比对分数如何可以提供比全局比对分数更好的错误抑制的示例。

[0045] 图2A示意性地例示了在各种实现中可以采用的五种不同衔接子设计。

[0046] 图2B例示了假设过程，在该过程中，UMI跳跃发生在PCR反应中，该反应涉及在两个臂上具有两个物理UMI的衔接子。

[0047] 图2C示出了与使用NRUMI对控制条件的序列读段的读段质量分数对照的数据。

[0048] 图3A和图3B是示出了根据这里公开的一些方法将衔接子连接到双链片段的材料和反应产物的图。

[0049] 图4A至图4E例示了如这里公开的方法在确定双链DNA片段序列时可以如何抑制不同的错误来源。

[0050] 图5示意性地例示了应用物理UMI和虚拟UMI来有效地获得长配对末端读段。

[0051] 图6是用于处理测试样本的分散系统的框图。

[0052] 图7例示了根据特定实施方式的、可以充当计算设备的计算机系统。

具体实施方式

[0053] 本公开涉及用于对核酸(尤其是具有有限数量或低浓度的核酸，诸如母体血浆中的胎儿cfDNA或癌症患者血液中的循环肿瘤DNA(ctDNA))进行测序的方法、设备、系统以及计算机程序产品。

[0054] 数字范围包括定义该范围的数字。预期的是，贯穿本说明书给出的每一个最大数值限制包括每一个较低数值限制，犹如这种较低数值限制在这里明确写出。贯穿本说明书给出的每一个最小数值限制将包括每一个较高数值限制，犹如这种较高数值限制在这里明确写出。贯穿本说明书给出的每一个数值范围将包括落入这种较宽数值范围内的每一个较窄的数值范围，犹如这种较窄的数值范围在这里明确写出。

[0055] 这里提供的标题不旨在限制本公开。

[0056] 除非这里另外定义，否则这里使用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同含义。包括这里所包括的术语的各种科技词典为本领域技术人员公知并且可获得。虽然与这里描述的方法和材料类似或等同的任意方法和材料应用于实践或测试这里公开的实施方式，但描述了一些方法和材料。

[0057] 通过将说明书作为整体参考，可以更完全地描述下面马上定义的术语。应理解，本公开不限于所描述的特定方法、方案以及试剂，因为这些可以取决于本领域技术人员将其用于的上下文而变化。

[0058] 定义

[0059] 如这里使用的，单数形式“一”、“一个”包括复数参考，除非上下文另外清楚表示。

[0060] 除非另外表示，否则分别地，核酸以5’至3’取向从左向右书写，并且氨基酸序列以氨基至羧基取向从左向右书写。

[0061] 独特分子索引(UMI：Unique molecular indice)是应用于DNA分子或在DNA分子中识别的核苷酸序列，可以用于将个体DNA分子彼此区分。因为UMI用于识别DNA分子，所以它们也被称为独特分子标识符。参见例如，Kivioja，Nature Methods9,72-74(2012年)。UMI可以与它们与其关联的DNA分子一起来测序，以确定读段序列是一个源DNA分子还是另一个源DNA分子的序列。术语“UMI”在这里用于指多核苷酸的序列信息和物理多核苷酸本身。

[0062] 通常，对单个源分子的多个实例进行测序。在通过使用因美纳(Illumina)的测序技术合成来测序的情况下，源分子在被递送至流动池之前可以进行PCR扩增。无论是否PCR扩增，应用于流动池的个体DNA分子都被桥式扩增或ExAmp扩增，以产生簇。簇中的各分子源自相同的源DNA分子，但是被单独测序。为了错误校正和其他目的，确定来自单个簇的所有读段被识别为源自相同的源分子可能是重要的。UMI允许这种分组。通过扩增或以其他方式复制以产生DNA分子的多个实例的DNA分子称为源DNA分子。

[0063] 除了与源DNA分子关联的错误之外，错误还可能发生在与UMI关联的区域中。在一些实现中，可以通过将读段序列映射到UMI池当中的最可能UMI来校正后者类型的错误。

[0064] UMI类似于通常用于区分一个样本的读段与其他样本的读段的条形码，但是当许多DNA分子一起被测序时，UMI相反用于区分一个源DNA分子与另一个源DNA分子。因为样本中可能有比测序运行中的样本更多的DNA分子，所以通常有比测序运行中的不同条形码更多的不同UMI。

[0065] 如上面提及的，UMI可以应用于个体DNA分子或在独立DNA分子中识别。在一些实现中，UMI可以由如下方法应用于DNA分子，这些方法例如通过借助聚合酶、核酸内切酶、转座酶等连接或转座(ligation or transposition)，来将UMI物理地链接或键合到DAN分子。因此，这些“应用的”UMI还称为物理UMI。在一些上下文中，它们还可以称为外源性UMI。在源DNA分子内识别的UMI称为虚拟UMI。在一些上下文中，虚拟UMI还可以称为内源性UMI。

[0066] 物理UMI可以以许多方式来定义。例如，它们可以是随机的、伪随机的或部分随机的、或非随机的核苷酸序列，这些序列插入衔接子(adapter)中或以其他方式并入在待测序的源DNA分子中。在一些实现中，物理UMI可以如此独特，以至于预期它们中的每一个独特地识别存在于样本中的任意给定的源DNA分子。生成各具有物理UMI的衔接子的集合，并且将这些衔接子附接到待测序的片段或其他源DNA分子，并且个体测序的分子各具有帮助将该分子与所有其他片段区分的UMI。在这种实现中，可以使用非常大量的不同物理UMI(例如，数千至数百万)来独特地识别样本中的DNA片段。

[0067] 当然，物理UMI必须具有足够的长度来确保各且每一个源DNA分子的该独特性。在一些实现中，可以结合其他识别技术使用不那么独特的分子标识符，来确保在测序过程期间独特地识别各源DNA分子。在这种实现中，多个片段或衔接子可能具有相同的物理UMI。诸如比对位置或虚拟UMI的其他信息可以与物理UMI组合，以将读段独特地识别为源自单个源DNA分子/片段。在一些实现中，衔接子包括限于较少量的非随机序列(例如，120个非随机序列)的物理UMI。这种物理UMI还称为非随机UMI。在一些实现中，非随机UMI可以与序列位置信息、序列位置和/或虚拟UMI组合，以识别可归于相同源DNA分子的读段。所识别的读段可以组合，以获得反映如这里描述的源DNA分子的序列的共识序列。使用物理UMI、虚拟UMI和/或比对位置，可以识别具有相同或相关UMI或位置的读段，然后可以组合所识别的读段，以获得一个或更多个共识序列。用于组合读段以获得共识序列的过程还称为“塌缩(collapsing)”读段，这在下文中进一步描述。

[0068] “虚拟独特分子索引”或“虚拟UMI”是源DNA分子中的独特子序列。在一些实现中，虚拟UMI位于源DNA分子的末端处或附近。一个或更多个这种独特端位置可以单独或者结合其他信息来独特地识别源DNA分子。取决于不同源DNA分子的数量和虚拟UMI中的核苷酸的数量，一个或更多个虚拟UMI可以独特地识别样本中的源DNA分子。在一些情况下，需要两个虚拟独特分子标识符的组合来识别源DNA分子。这种组合可能非常罕见，可能只在样本中发现一次。在一些情况下，与一个或更多个物理UMI组合的一个或更多个虚拟UMI可以一起独特地识别源DNA分子。

[0069] “随机UMI”可以被认为是在有或没有替代的情况下从UMI的集合选择作为随机样本的物理UMI，这些UMI由给定一个或更多个序列长度的所有可能的不同寡核苷酸序列来构成。例如，如果UMI集合中的各UMI具有n个核苷酸，那么该集合包括具有彼此不同的序列的4^n个UMI。从4^n个UMI选择的随机样本构成随机UMI。

[0070] 相反，如这里使用的“非随机UMI”(NRUMI)指，不是随机UMI的物理UMI。在一些实施方式中，对于特定实验或应用预定义非随机UMI。在特定实施方式中，使用规则来生成用于集合的序列或从集合选择样本，以获得非随机UMI。比如，可以生成集合的序列，使得序列具有特定的模式。在一些实现中，各序列与集合中的每一个其他序列相差特定数目(例如，2、3或4个)核苷酸。即，通过替代少于特定数量的核苷酸，非随机UMI序列无法转换成任何其他可用的非随机UMI序列。在一些实现中，在测序过程中使用的NRUMI的集合包括少于所有可能UMI，这些UMI给定序列长度。比如，具有6个核苷酸的NRUMI的集合可以包括总共96个不同的序列，而不是总共4^6＝4096个可能的不同序列。

[0071] 在从具有少于所有可能不同序列的集合选择非随机UMI的一些实现中，非随机UMI的数量比源DNA分子的数量更少，有时显着更少。在这种实现中，非随机UMI信息可以与其他信息(诸如虚拟UMI、参考序列上的读段位置和/或读段序列信息)组合，以识别源自相同源DNA分子的序列读段。

[0072] 术语“可变长度的非随机分子索引”(vNRUMI)指，使用非随机选择过程从可变分子长度(或非均匀长度)的UMI的池选择的vNRUMI的集合中的UMI。术语vNRUMI用于指UMI的分子以及UMI的序列这两者。在一些实现中，可以从UMI的池去除特定UMI，以提供经过滤的UMI池，该池然后用于生成vNRUMI的集合。

[0073] 在一些实现中，各vNRUMI与在过程中使用的集合中的每一个其他vNRUMI相差至少所定义的编辑距离。在一些实现中，在测序过程中使用的vNRUMI的集合包括少于所有可能UMI，这些UMI给定相关分子长度。比如，具有6个和7个苷酸的vNRUMI的集合可以包括总共120个不同的序列(而不是总共46+47＝20480个可能的不同序列)。在其他实现中，序列不从集合随机选择。相反，选择具有比其他序列更高概率的一些序列。

[0074] 术语“分子长度”还称为序列长度，并且可以以核苷酸来测量。术语分子长度还可与术语分子尺寸、DNA尺寸以及序列长度互换地使用。

[0075] 编辑距离是通过对将一个字符串转换成另一个字符串所需的操作的最小数量计数来量化两个字符串(例如，词)彼此如何不相似的度量。在生物信息学中，编辑距离可以用于量化DNA序列的相似性，这些序列可以被视为字母A、C、G以及T的字符串。

[0076] 不同形式的编辑距离使用字符串运算的不同集合。莱文斯坦(Levenshtein)距离是一种常见的编辑距离。莱文斯坦距离的字符串运算考虑了字符串中的字符的缺失、插入以及替代的数量。在一些实现中，可以使用编辑距离的其他变体。比如，可以通过限制操作的集合来获得编辑距离的其他变体。最长公共子序列(LCS)距离是以插入和缺失作为唯一的两个编辑操作的编辑距离，两个操作都以单位成本进行。类似地，通过仅允许替代，获得被限于等长字符串的汉明(Hamming)距离。可以从仅允许转座的编辑距离获得哈罗-温克勒(Jaro-Winkler)距离。

[0077] 在一些实现中，可以对于编辑距离不同地对不同的字符串运算进行加权。比如，替代操作可以由值3加权，而插入缺失(indel)可以由值2加权。在一些实现中，不同种类的匹配可以被不同地加权。例如，A-A匹配的加权可能是G-G匹配的两倍。

[0078] 比对分数是，表示使用比对方法确定的两个序列的相似性的分数。在一些实现中，比对分数考虑编辑的数量(例如，字符串中的字符的缺失、插入以及替代)。在一些实现中，比对分数考虑匹配的数量。在一些实现中，比对分数考虑匹配的数量和编辑的数量这两者。在一些实现中，匹配和编辑的数量对于比对分数被相等地加权。例如，比对分数可以被计算为：匹配的数量-插入的数量-缺失的数量-替代的数量。在其他实现中，匹配和编辑的数量可以不同地加权。例如，比对分数可以被计算为：匹配的数量x 5-插入的数量x 4-缺失的数量x 4-替代的数量x 6。

[0079] 术语“成对末端读段”指从成对末端测序获得的读段，该测序从核酸片段的各末端获得一个读段。成对末端测序涉及将DNA片段化成被称为插入物序列。在诸如由因美纳使用的方案这样的一些方案中，来自较短插入物的读段(例如，数十至数百bp的量级)被称为短插入物成对末端读段或简称为成对末端读段。相比之下，来自较长插入物的读段(例如，数千bp的量级)被称为末端配对读段。在本公开中，短插入物成对末端读段和长插入物末端配对读段都可以使用，并且不关于用于确定DNA片段序列的过程区分。因此，术语“成对末端读段”可以指，短插入物成对末端读段和长插入物末端配对读段，在下文中进一步描述它们。在一些实施方式中，成对末端读段包括约20bp至1000bp的读段。在一些实施方式中，成对末端读段包括约50bp至500bp、约80bp至150bp或约100bp的读段。

[0080] 如这里使用的，术语“比对”指比较读段与参考序列，并从而确定参考序列是否包含读段序列的过程。如这里使用的，比对过程尝试确定读段是否可以映射到参考序列，但不总是引起比对到参考序列的读段。如果参考序列包含该读段，则该读段可以映射到参考序列，或者在特定实施方式中，可以映射到参考序列中的特定位置。在一些情况下，比对简单地告知读段是否是特定参考序列的成员(即，参考序列中有无读段)。例如，读段与人类染色体13的参考序列的比对将告知该读段是否存在于染色体13的参考序列中。

[0081] 当然，比对工具在生物信息学中具有在本申请中没有描述的许多另外方面和许多其他应用。比如，比对还可以用于确定来自两个不同物种的两个DNA序列如何相似，由此，提供它们在进化树上如何密切相关的测度。

[0082] 在这里的一些实现中，如下文中进一步描述的，在读段的子序列与作为参考序列的vNRUMI之间执行比对，以确定比对分数。然后，可以使用读段与多个vNRUMI之间的比对分数，来确定读段应该与vNRUMI中的哪一个关联或映射到vNRUMI中的哪一个。

[0083] 在一些情况下，比对另外表示参考序列中的、读段所映射到的位置。例如，如果参考序列是整个人类基因组序列，则比对可以表示该读段存在于染色体13上，并且可以进一步表示该读段在染色体13的特定链和/或位点上。在一些场景中，比对工具的不完美在于a)未找到所有有效的比对，并且b)一些获得的比对无效。这由于各种原因而发生，例如，读段可能包含错误，并且测序的读段可能由于单倍型差异而与参考基因组不同。在一些应用中，比对工具包括内置的错配容差，该容差容许碱基对的特定程度的错配，并且仍然允许读段与参考序列的比对。这可以帮助识别否则将被错过的读段的有效比对。

[0084] 比对的读段是一个或更多个序列，该一个或更多个序列被识别为在其核酸分子的顺序方面与已知参考序列(诸如参考基因组)的匹配。比对的读段及其在参考序列上的所确定位置构成序列标签。虽然比对通常由计算机算法来实现，但是比对可以手动进行，因为在用于实现这里公开的方法的合理时间段内将不可能比对读段。如下文中进一步描述的，来自比对序列的算法的一个示例是：用于将读段的前缀序列与vNRUMI进行比较的全局局部(glocal)混合比对方法。比对方法的另一个示例是：作为因美纳基因组学分析流水线的一部分分发的核苷酸数据的有效局部比对(ELAND)计算机程序。另选地，可以采用布隆(Bloom)过滤器或类似的集合成员关系测试器，来将读段比对到参考基因组。参见2014年4月25日提交的美国专利申请No.14/354528，此处以引证的方式将该申请全文并入。序列读段在比对中的匹配可以是100％序列匹配或小于100％(即，非完美匹配)。在2016年4月15日提交的美国专利申请No.15/130668(代理人参考号ILMNP008)中公开了另外的比对方法，以引证的方式将该申请全文并入。

[0085] 这里使用的术语“映射”指由比对将读段序列分配给更大的序列，例如，参考基因组。

[0086] 术语“多核苷酸”、“核酸”以及“核酸分子”可互换地使用，并且指共价链接的核苷酸序列(即，RNA的核糖核苷酸和DNA的脱氧核糖核苷酸)，在该序列中，一个核苷酸的戊糖的3’位置由磷酸二酯基团连接到下一个核苷酸的戊糖的5’位置。核苷酸包括任意形式的核酸序列，该序列包括但不限于RNA和DNA分子，诸如游离DNA(cfDNA)分子。术语“多核苷酸”包括但不限于单链和双链多核苷酸。

[0087] 这里的术语“测试样本”指通常源自生物流体、细胞、组织、器官或生物体的样本，其包括核酸或具有至少一个核酸序列的核酸混合物，该核酸序列对于拷贝数变异和其他遗传变异筛选，其他遗传变异诸如但不限于单核苷酸多态性、插入、缺失以及结构变异。在特定实施方式中，样本具有至少一种核酸序列，该核酸序列的拷贝数被怀疑经历变异。这种样本包括但不限于痰液/口腔液、羊水、血液、血液部分或细针活检样本、尿液、腹膜液、胸膜液等。虽然样本经常取自受试人(例如，患者)，但测定可以用于来自任意哺乳动物的样本，哺乳动物包括但不限于狗、猫、马、山羊、绵羊、牛、猪等以及混合种群，如来自野生的微生物种群或来自患者的病毒种群。样本可以如从生物来源获得地直接使用或在预处理后使用，以修改样本的特征。例如，这种预处理可以包括从血液制备血浆、稀释粘性流体等。预处理的方法还可以涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的添加、裂解等。如果关于样本采用这种预处理方法，则这种预处理方法通常使得感兴趣核酸有时以与未处理的测试样本(例如，即，未经过任何这种预处理方法的样本)中的浓度成比例的浓度保留在测试样本中。关于这里描述的方法，这种“经处理的”样本仍然被认为是生物“测试”样本。

[0088] 这里的术语“新一代测序(NGS)”指，允许克隆扩增分子和单核酸分子的大规模并行测序的测序方法。NGS的非限制性示例包括使用可逆染料终止子的合成测序和连接测序。

[0089] 术语“读段”指来自核酸样本的一部分的序列读段。通常，但不是必需的，读段表示样本中的连续碱基对的短序列。读段可以由样本部分的A、T、C以及G的碱基对序列连同碱基的正确性的概率估计(质量分数)一起来象征性地表示。读段可以存储在存储装置中并且适当地处理，以确定它是否匹配参考序列或满足其他准则。读段可以从测序设备直接获得，或者从与样本有关的所存储序列信息间接获得。在一些情况下，读段是足够长度(例如，至少约20bp)的DNA序列，该序列可以用于识别更大的序列或区域，例如，该更大序列或区域可以比对并映射到染色体或基因组区域或基因。

[0090] 术语“位点”和“比对位置”可互换地用于指参考基因组上的独特位置(即，染色体ID、染色体位置和取向)。在一些实施方式中，位点可以是参考序列上的残基的位置、序列标签的位置或片段的位置。

[0091] 如这里使用的，术语“参考基因组”或“参考序列”指，可以用于参考来自受试者的所识别序列的任意生物体或病毒的任意特定已知基因序列，不管是部分的还是完整的。例如，用于受试人以及许多其他生物体的参考基因组在ncbi.nlm.nih.gov处的国家生物技术信息中心处找到。“基因组”指以核酸序列表达的生物体或病毒的完整遗传信息。然而，理解，“完整”是相对概念，因为即使是金标准参考基因组也被预期为包括间隙和错误。

[0092] 在一些实现中，vNRUMI序列可以用作读段的前缀序列比对到的参考序列。比对提供读段的前缀序列与vNRUMI之间的比对分数，该比对分数可以用于确定读段和vNRUMI是否应在用于塌缩与相同vNRUMI关联的读段的过程中关联。

[0093] 在各种实施方式中，参考序列显著大于要比对到它的读段。例如，参考序列可以大至少大约100倍、或者大至少大约1000倍、或者大至少大约10000倍、或者大至少大约105倍、或者大至少大约106倍、或者大至少大约107倍。

[0094] 在一个示例中，参考序列是全长人类基因组的序列。这种序列可以称为基因组参考序列。在另一个示例中，参考序列限于特定的人类染色体，诸如染色体13。在一些实施方式中，参考Y染色体是来自人类基因组版本hg19的Y染色体序列。这种序列可以称为染色体参考序列。参考序列的其他示例包括任何物种中的其他物种的基因组以及染色体、亚染色体区域(诸如链)等。

[0095] 在一些实施方式中，用于比对的参考序列可以具有为读段长度的大约1至大约100倍的序列长度。在这种实施方式中，比对和测序被认为是靶向比对或测序，而不是全基因组比对或测序。在这些实施方式中，参考序列通常包括基因序列和/或其他受限制的感兴趣序列。在这个意义上，读段的子序列与vNRUMI的比对是靶向比对的形式。

[0096] 在各种实施方式中，参考序列是共识(consensus)序列或源自多个个体的其他组合。然而，在特定应用中，参考序列可以取自特定个体。

[0097] 术语“源于”当在核酸或核酸混合物的上下文中使用时，在这里指从核酸起源于的来源获得核酸所借助的手段。例如，在一个实施方式中，源自两个不同基因组的核酸混合物意指核酸(例如，cfDNA)借助自然发生的过程(诸如坏死或凋亡)由细胞自然释放。在另一个实施方式中，源自两个不同基因组的核酸混合物意指，核酸是从来自受试者的两种不同类型的细胞提取。

[0098] 这里的术语“生物流体”指取自生物来源的液体，并且包括例如血液、血清、血浆、痰液、灌洗液、脑脊髓液、尿液、精液、汗液、眼泪、唾液等。如这里使用的，术语“血液”、“血浆”以及“血清”明确包含其部分或经处理部分。类似地，在从活检、拭子、涂片等取样的情况下，“样本”明确地包含来自活检、拭子、涂片等的经处理部分或部分。

[0099] 如这里使用的，术语“染色体”指活细胞的携带遗传的基因载体，该载体源自包括DNA和蛋白质组分(尤其是组蛋白)的染色质链。这里采用传统的国际公认的个体人类基因组染色体编号系统。

[0100] 如这里使用的术语“引物(primer)”指分离的寡核苷酸，该寡核苷酸当置于诱导延伸产物合成的条件(例如，条件包括核苷酸、诸如DNA聚合酶的诱导剂、必需的离子和分子、以及合适的温度和pH值)下时，能够充当合成的起始点。引物优选可以是单链的，以便最大的扩增效率，但另选地可以是双链的。如果是双链的，则在用于制备延伸产物之前，首先处理引物，以分离其链。引物可以是寡脱氧核糖核苷酸。引物长至足以在诱导剂存在下引发延伸产物的合成。引物的确切长度将取决于许多因素，包括温度、引物来源、方法的使用以及用于引物设计的参数。

[0101] 介绍和背景

[0102] 新一代测序(NGS)技术迅速发展，这提供了推进研究和科学以及依赖遗传和相关生物信息的医疗保健和服务的新工具。NGS方法以大规模并行方式执行，这为确定生物分子序列信息提供了越来越高的速度。然而，NGS方法中的许多方法和关联的样本操纵技术引入错误，使得产生的序列具有较高的错误率，该错误率在从几百个碱基对中的一个错误到几千个碱基对中的一个错误的范围内。这种错误率对于确定可遗传遗传信息(诸如胚系突变)有时是可接受的，因为这种信息跨大多数体细胞是一致的，这些细胞在测试样本中提供相同基因组的许多拷贝。当相同序列的许多拷贝是没有错误的读段时，源于对序列的一个拷贝的读取的错误具有轻微或可去除的影响。比如，如果来自序列的一个拷贝的错误读段无法适当地比对到参考序列，则可以简单地从分析丢弃它。来自相同序列的其他拷贝的无错误读段仍然可以为有效分析提供足够的信息。另选地，不是丢弃具有与来自相同序列的其他读段不同的碱基对的读段，而是可以忽略如由已知或未知错误来源导致的不同碱基对。

[0103] 然而，这种错误校正方法对于检测具有低等位基因频率的序列(诸如在来自肿瘤组织的核酸中发现的亚克隆体细胞突变、循环肿瘤DNA、母体血浆中的低浓度胎儿cfDNA、病原体的抗药性突变等)并不有效。在这些示例中，一个DNA片段可能在序列位点处携带感兴趣的体细胞突变，而许多其他片段在相同序列位点处不具有感兴趣的突变。在这种场景中，来自突变的DNA片段的序列读段或碱基对在传统测序中可能未被使用或被错误解释，从而丢失用于检测感兴趣突变的信息。

[0104] 由于这些各种错误来源，单独增加测序深度无法确保检测具有非常低的等位基因频率(例如，<1％)的体细胞变异。这里公开的一些实现提供了双重测序方法，这些方法有效地抑制了在感兴趣的有效序列的信号低时的情况(例如具有低等位基因频率的样本)下的错误。

[0105] 独特分子索引(UMI)使得能够使用来自多个读段的信息来抑制测序噪声。UMI连同诸如比对位置这样的上下文信息一起允许我们将各读段的源头追溯到特定的原始DNA分子。给定由相同DNA分子产生的多个读段，计算方法可以用于将实际变异(即，在原始DNA分子中生物地存在的变异)与经由测序错误人为引入的变异分开。变异可以包括但不限于插入、缺失、多核苷酸变异、单核苷酸变异以及结构变异。使用该信息，我们可以推断DNA分子的真实序列。我们将该计算方法称为读段塌缩。该减少错误的技术具有几个重要的应用。在游离DNA分析的背景下，重要变异经常以极低的频率(即，<1％)发生；由此，它们的信号可能被测序错误淹没。基于UMI的降噪允许我们更准确地判定这些低频变异。UMI和读段塌缩还可以帮助识别高覆盖率数据中的PCR重复，这启用更准确的变异频率测量。

[0106] 在一些实现中，使用随机UMI，在随机UMI中，随机序列附接到DNA分子，并且这些随机序列用作UMI条形码。然而，使用有目的地设计的非随机UMI的集合在一些实现中允许更简单的制造。由于该方法是非随机的，所以UMI被称为非随机UMI(NRUMI)。在一些实现中，NRUMI的集合由均匀长度序列构成(例如，n＝6个核苷酸长)。由于将这些NRUMI分子连接到DNA分子的A-加尾过程，第7(n+1)个读段总是胸腺嘧啶(T)。该均匀性可能引起读段质量的劣化，该劣化贯穿在该碱基下游的读段循环传播。图2C中例示了该影响。

[0107] 虽然该问题在使用4种染料测序的非图案化流动池中可能不那么突出，但其严重性可能在使用2种染料测序的图案化流动池上放大，因为碱基判定固有地变得更具挑战性。在一些实现中，使用新颖的过程来生成混合长度的NRUMI集合，这些集合独特地识别这种可变长度NRUMI(vNRUMI)，并校正这些vNRUMI内的错误。该过程在生成并区分非均匀长度的DNA条形码时提供多样性。实验结果表明，vNRUMI方法比传统解决方案更鲁棒(即，更能够校正测序错误)。

[0108] 在一些实现中，贪婪算法用于迭代地构造vNRUMI集合。在各迭代时，贪婪算法从vNRUMI候选池拾取序列，使得所选序列使其自身与已经选择的任意vNRUMI之间的最小莱文斯坦距离最大化。如果多个序列共享该度量的最大值，则算法随机选择一个这种序列，该序列优选较短长度的序列。该距离度量要求至少为3，以在产生的vNRUMI集合内强制执行良好的错误校正；如果无法满足该条件，则过程停止向集合添加新的vNRUMI，并将集合按原样返回。可以重复该整个过程，以生成具有类似特征的vNRUMI的不同集合。

[0109] 衔接子可以包括物理UMI，这些物理UMI允许确定读段源自DNA片段的哪一条链。一些实施方式利用这一点来确定源自DNA片段的一条链的读段的第一共识序列、以及互补链的第二共识序列。在许多实施方式中，共识序列包括在所有或大多数读段中检测到的核苷酸，同时不包括在少量读段中出现的核苷酸。可以实现不同的共识标准。基于UMI或比对位置组合读段以获得共识序列的过程还称为“塌缩”读段。使用物理UMI、虚拟UMI和/或比对位置，可以确定第一和第二共识序列的读段源自相同的双链片段。因此，在一些实施方式中，使用对于相同DNA分子/片段获得的第一共识序列和第二共识序列确定第三共识序列，第三共识序列包括对于第一共识序列和第二共识序列共识的核苷酸，同时不包括在两者之间不一致的核苷酸。在另选实现中，仅一个共识序列通过塌缩源自相同片段的两条链的所有读段来直接获得，而不是通过将从两条链获得的两个共识序列进行比较获得。最后，可以从第三或唯一的一个共识序列确定片段序列，该序列包括跨源自片段的两条链的读段一致的碱基对。

[0110] 在一些实施方式中，该方法组合不同类型的索引，以确定读段源自上面的源多核苷酸。例如，该方法可以使用物理和虚拟UMI这两者来识别源自单个DNA分子的读段。通过除了物理UMI之外还使用第二形式的UMI，物理UMI可以比仅使用物理UMI来确定源多核苷酸时更短。该方法对库制备性能具有最小的影响，并且不需要额外的测序读段长度。

[0111] 所公开方法的应用包括：

[0112] ·用于体细胞突变检测的错误抑制。例如，检测具有小于0.1％等位基因频率的突变在循环肿瘤DNA的液体活检中是非常关键的。

[0113] ·校正预定相、定相以及其他测序错误，以实现高质量长读段(例如，1x1000bp)[0114] ·减少固定读段长度的循环时间，并且由该方法校正增加的定相和预定相。

[0115] ·在片段的两侧上使用UMI，以创建虚拟的长双末尾读段。例如，通过对重复进行500+50来缝合2x500读段。

[0116] ·量化或计数与感兴趣序列有关的核酸片段。

[0117] 使用UMI对核酸片段进行测序的工作流程

[0118] 图1A是例示了使用UMI来对核酸片段进行测序的示例性工作流程100的流程图。工作流程100仅例示一些实现。应理解，一些实现采用具有此处未例示的另外操作的工作流程，而其他实现可以跳过这里例示的操作中的一些。比如，一些实现不需要操作102和/或操作104。而且，工作流程100用于全基因组测序。在涉及靶向测序的一些实现中，可以在操作110与112之间应用使特定区域杂交并富集的操作步骤。

[0119] 操作102提供双链DNA的片段。例如，可以通过片段化基因组DNA、收集自然片段化的DNA(例如，cfDNA或ctDNA)、或从RNA合成DNA片段来获得DNA片段。在一些实现中，为了从RNA合成DNA片段，首先使用核糖体RNA的多腺苷酸(polyA)选择或缺失来纯化信使RNA或非编码RNA，然后使用随机六聚体引发将所选mRNA化学片段化并转化成单链cDNA。生成cDNA的互补链，以产生准备用于库构建的双链cDNA。为了从基因组DNA(gDNA)获得双链DNA片段，例如通过流体动力学剪切、雾化，酶促片段化等将输入gDNA片段化，以生成适当长度(例如，大约1000bp、800bp、500或200bp)的片段。比如，雾化可以在短时间段内将DNA分解成小于800bp的片。该过程生成双链DNA片段。

[0120] 在一些实现中，可以在不需要另外片段化的情况下处理经片段化或被破坏的DNA。比如，福尔马林固定、石蜡包埋(FFPE)的DNA或特定cfDNA有时被足够片段化，不需要另外的片段化步骤。

[0121] 图1B示出了图1A中的工作流程100的初始步骤中采用的DNA片段/分子和衔接子。虽然图1B中仅例示了一个双链片段，但在工作流程中可以同时制备样本的数千至数百万个片段。由物理方法进行的DNA片段化产生异质末端，这些末端包括3’突出端、5’突出端以及平末端的混合物。突出端将具有变化的长度，并且末端可以或可以不被磷酸化。从操作102的片段化基因组DNA获得的双链DNA片段的示例被示出为图1B中的片段123。

[0122] 片段123具有左端上的3’突出端和在右端上示出的5’突出端这两者，并且用ρ和标记，它们表示片段中在一些实现中可以用作虚拟UMI的两个序列，这两个序列当单独使用或与要连接到片段的衔接子的物理UMI结合使用时，可以独特地识别片段。UMI与包括源多核苷酸及其互补链的样本中的单个DNA片段独特关联。物理UMI是链接到源多核苷酸、其互补链或源自源多核苷酸的多核苷酸的寡核苷酸序列。虚拟UMI是源多核苷酸、其互补链或源自源多核苷酸的多核苷酸内的寡核苷酸序列。在该方案内，还可以将物理UMI称为外在或外源性UMI，并且将虚拟UMI称为内在或内源性UMI。

[0123] 两个序列ρ和实际上各指处于相同基因组位点处的两个互补序列，但是为了简单起见，它们仅在这里示出的双链片段中的一些中的一条链上表示。诸如ρ和的虚拟UMI可以在工作流程的稍后步骤中用于帮助识别源自单个DNA源片段的一条或两条链的读段。凭借这样识别的读段，可以使它们塌缩，以获得共识序列。

[0124] 如果DNA片段由物理方法来产生，则工作流程100进行到执行末端修复操作104，该操作产生具有5’-磷酸化末端的平末端片段。在一些实现中，该步骤使用T4DNA聚合酶以及克列诺(Klenow)酶将由片段化产生的突出端转化成平末端。这些酶的3’至5’核酸外切酶活性去除3’突出端，并且5’至3’聚合酶活性填充5’突出端。另外，该反应中的T4多核苷酸激酶使DNA片段的5’末端磷酸化。图1B中的片段125是末端修复的平末端产物的示例。

[0125] 在末端修复之后，工作流程100进行到使片段的3’末端腺苷酸化的操作106，该操作还被称为A加尾(A-tailing)或dA加尾，因为将单个dATP添加到平片段的3’末端，以在衔接子连接反应过程期间防止片段相互连接。图1B的双链分子127示出具有平末端的A加尾片段，该平末端具有3’-dA突出端和5’-磷酸末端。如图1B的项129中看到的两个测序衔接子中的每一个的3’末端上的单个“T”核苷酸提供了突出端，该突出端与在插入物的各末端上的3’-dA突出端互补，以便将两个衔接子连接至插入物。

[0126] 在腺苷酸化3’末端之后，工作流程100进行到操作108，以将双链衔接子部分连接到片段的两端。在一些实现中，在反应中使用的衔接子包括不同的物理UMI，以将序列读段关联到单个源多核苷酸，该单个源多核苷酸可以是单链或双链DNA片段。在一些实现中，在反应中使用的物理UMI的集合是随机UMI。在一些实现中，在反应中使用的物理UMI的集合是非随机UMI(NRUMI)。在一些实现中，在反应中使用的物理UMI的集合是可变长度的非随机UMI(vNRUMI)。

[0127] 图1B的项129例示了要连接到双链片段的两个衔接子，该双链片段包括在片段末端附近的两个虚拟UMIρ和基于因美纳平台的测序衔接子来例示这些衔接子，因为各种实现可以使用因美纳的NGS平台来获得读段并检测感兴趣的序列。在左边示出的衔接子包括在其双链区域中的物理UMIα，而在右边的衔接子包括在其双链区域中的物理UMIβ。在具有5’变性末端的链上，从5’到3’方向，衔接子具有P5序列、索引序列、读段2引物序列以及物理UMI(α或β)。在具有3’变性末端的链上，从3’到5’方向，衔接子具有P7’序列、索引序列、读段1引物序列以及物理UMI(α或β)。

[0128] P5和P7’寡核苷酸与键合到因美纳测序平台的流动池表面的扩增引物互补。在一些实现中，索引序列提供了一种跟踪样本来源的手段，从而允许在测序平台上复用多个样本。在各种实现中可以使用衔接子和测序平台的其他设计。衔接子和测序技术将在后面的章节中进一步描述。

[0129] 在图1B中描绘的反应将不同的序列添加到基因组片段。图1B中例示了来自上述相同片段的连接产物120。该连接产物120在5’-3’方向上在其顶部链上具有物理UMIα、虚拟UMIρ、虚拟UMI 以及物理UMIβ。连接产物在5’-3’方向上在其底部链上还具有物理UMIβ、虚拟UMI 虚拟UMIρ以及物理UMIα。本公开具体实施使用除了由因美纳提供的测序技术和衔接子之外的测序技术和衔接子的方法。

[0130] 虽然这里的示例衔接子在衔接子的双链区域上具有物理UMI，但一些实现使用在单链区域上具有物理UMI的衔接子，诸如图2A中的衔接子(i)和(iv)。

[0131] 在一些实现中，由琼脂糖凝胶电泳或磁珠来纯化和/或尺寸选择该连接反应的产物。然后PCR扩增尺寸选择后的DNA，以对于在两端处具有衔接子的片段富集。参见块110。如上面提及的，在一些实现中，可以应用杂交并富集DNA片段的特定区域的操作来靶向用于测序的区域。

[0132] 工作流程100然后进行到例如在因美纳平台上聚类扩增PCR产物。参见操作112。通过聚类PCR产物，可以合并库，以便复用，例如这利用多达每个泳道12个样本、使用衔接子上的不同索引序列跟踪不同的样本来进行。

[0133] 在聚类扩增之后，可以借助因美纳平台上的合成测序来获得测序读段。参见操作114。虽然这里描述的衔接子和测序过程基于因美纳平台，但是代替因美纳平台或者除了因美纳平台之外，还可以使用其他测序技术，尤其是NGS方法。

[0134] 工作流程100可以将具有相同物理UMI和/或相同虚拟UMI的读段塌缩成一个或更多个组，从而获得一个或更多个共识序列。参见操作116。在一些实现中，物理UMI是随机UMI。在一些实现中，物理UMI是非随机UMI。在一些实现中，物理UMI是可变长度的随机UMI。在一些实现中，物理UMI是可变长度的非随机UMI(vNRUMI)。共识序列包括跨塌缩组中的读段一致或满足共识准则的核苷酸碱基。在一些实现中，物理UMI单独可以提供足够的信息来标记DNA片段，以使读段塌缩。这种实现将需要足够大量的物理UMI来独特地标记DNA片段。
在其他实现中，物理UMI、虚拟UMI以及位置信息可以以各种方式组合来使读段塌缩，以获得用于确定片段序列或其至少一部分的共识序列。在一些实现中，物理UMI与虚拟UMI组合来使读段塌缩。在其他实现中，物理UMI和读段位置组合来使读段塌缩。读段位置信息可以由使用不同位置测量的各种技术来获得，例如读段的基因组坐标、参考序列上的位置或染色体位置。在另外的实现中，物理UMI、虚拟UMI以及读段位置组合来使读段塌缩。

[0135] 最后，工作流程100使用一个或更多个共识序列来确定来自样本的核酸片段序列。参见操作118。这可以涉及将核酸片段序列确定为上述第三共识序列或单个共识序列。

[0136] 在包括与操作108-119类似的操作的特定实现中，用于使用非随机UMI对来自样本的核酸分子进行测序的方法包括以下步骤：(a)向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，其中，各衔接子包括NRUMI，并且其中，衔接子的NRUMI具有至少两个不同的分子长度，形成vNRUMI的集合；(b)扩增DNA-衔接子产物，以获得多个扩增的多核苷酸；(c)对多个扩增的多核苷酸进行测序，从而获得与vNRUMI的集合关联的多个读段；(d)在多个读段当中识别与相同vNRUMI关联的读段；以及(e)使用与相同vNRUMI关联的读段确定样本中的DNA片段序列。

[0137] 在另一个实现中，可变长度的随机UMI用于对核酸分子进行测序。该方法包括以下步骤：(a)向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，其中，各衔接子包括独特分子索引(UMI)，并且其中，衔接子的独特分子索引(UMI)具有至少两个不同的分子长度，并且形成可变长度的独特分子索引(vUMI)的集合；(b)扩增DNA-衔接子产物，以获得多个扩增的多核苷酸；(c)对多个扩增的多核苷酸进行测序，从而获得与vUMI的集合关联的多个读段；以及(d)在多个读段当中识别与相同可变长度的非随机独特分子索引(vUMI)关联的读段。一些实现还包括使用与相同vUMI关联的读段确定样本中的DNA片段序列。

[0138] 在一些实现中，用于对核酸片段进行测序的UMI可以是固定长度随机UMI、固定长度非随机UMI、可变长度随机UMI、可变长度非随机UMI、或其任何组合。在这些实现中，用于对核酸片段进行测序的方法包括以下步骤：(a)向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，其中，各衔接子包括独特分子索引(UMI)的集合中的独特分子索引(UMI)；(b)扩增DNA-衔接子产物，以获得多个扩增的多核苷酸；(c)对多个扩增的多核苷酸进行测序，从而获得与UMI的集合关联的多个读段；(d)对于多个读段中的各读段，获得关于UMI的集合的比对分数，各比对分数表示读段的子序列与UMI之间的相似性；(e)使用比对分数在多个读段当中识别与相同UMI关联的读段；以及(f)使用与相同UMI关联的读段确定样本中的DNA片段序列。在一些实现中，比对分数基于读段的子序列与UMI之间的核苷酸的匹配和核苷酸的编辑。在一些实现中，各比对分数惩罚序列的起始处的错配，但不惩罚序列的末端处的错配。

[0139] 在一些实现中，序列读段是成对末端读段。各读段包括非随机UMI或借助成对末端读段与非随机UMI关联。在一些实现中，读段长度短于DNA片段或短于片段长度的一半。在这种情况下，有时不确定整个片段的完整序列。相反，确定片段的两端。例如，DNA片段可以为500bp长，从其可以衍生两个100bp的成对末端读段。在该示例中，可以确定在片段各端处的
100个碱基，并且在不使用其他读段的信息的情况下无法确定在片段中间的300bp。在一些实现中，如果两个成对末端读段长至足以重叠，则可以从两个读段确定整个片段的完整序列。比如，参见关联图5描述的示例。

[0140] 在一些实现中，衔接子在衔接子的双链区域中具有双重非随机UMI，并且各读段在一端上包括第一非随机UMI，并且在另一端上包括第二非随机UMI。

[0141] 使用vNRUMI对核酸片段进行测序的方法

[0142] 在一些实现中，将vNRUMI并入到衔接子中，以便对DNA片段进行测序。vNRUMI提供了用于抑制在诸如上述工作流程这样的工作流程中发生的不同类型的错误的机制。错误中的一些可能发生在样本处理阶段，诸如样本处理中的缺失、添加以及替代。其他错误可能发生在测序阶段中。一些错误可能位于源自DNA片段的碱基中，其他错误可能位于与衔接子中的UMI相对应的碱基中。

[0143] 一些实现提供了一种用于检测并校正vNRUMI和序列读段中的错误的新过程。在高水平上，给定包含(潜在误读的)vNRUMI及其下游碱基的读段，该过程使用全局-局部(glocal)混合比对策略来将读段的前几个碱基匹配到已知的vNRUMI，从而获得读段的前缀序列与已知vNRUMI之间的比对分数。具有最高全局局部比对分数的vNRUMI被确定为与读段关联的vNRUMI，该vNRUMI提供了使读段与和相同vNRUMI关联的其他读段塌缩从而校正错误的机制。用于在一些实现中获得全局局部比对分数并使用全局局部比对分数来匹配vNRUMI的伪代码如下提供。

[0144]

[0145]

[0146] 值得注意的是，非传统距离度量的使用。跨用于DNA条形码的其他可比方法，大多数采用启发式(heuristics)量化编辑距离，即，莱文斯坦距离、汉明距离或其导数。从概念上讲，比对分数提供了序列相似性的类似度量，但有一个关键不同是：它除了改变之外，还对匹配计数。匹配感知启发法是可变长度NRUMI的一些实现中的一些优点的基础。

[0147] 在一些实现中，既不使用传统的尼德曼-文施(Needleman-Wunsch)全局比对方法，也不使用传统的史密斯-沃特曼(Smith-Waterman)局部比对方法，而是使用新颖的混合方法。即，比对在比对的开始时使用尼德曼-文施方法，这惩罚那里的编辑，但在比对的结束时，该比对通过不惩罚末端编辑来利用来自史密斯-沃特曼局部比对的概念。在该意义上，当前的比对方法包含全局和局部组成部分这两者，因此被称为全局局部比对方法。在测序中的插入或缺失错误的情况下，比对将相当大地变化。该全局方法将不超过方法将对单点突变惩罚地来惩罚该单一事件。允许加尾间隙允许我们实现这一点。

[0148] 全局局部比对方法具有对非均匀长度的条形码池有效的能力，这是与传统方法的有区别特征。

[0149] 在识别匹配时，一些实现可以在存在连结时将多个vNRUMI匹配返回为“最佳”。虽然上面的伪代码仅反映最佳和次佳返回集合，但一些实现具有返回多于vNRUMI的仅两个集合的能力，诸如次佳集合、第三佳集合、第四佳集合等。通过提供良好匹配的更多信息，该过程可以通过塌缩与vNRUMI的一个或更多个候选匹配关联的读段来更佳地校正错误。图1C是示出了该过程的框图，该过程使用vNRUMI对DNA片段进行测序，以抑制发生在DNA片段中的错误和用于标记DNA片段的源分子的UMI中的错误。过程130从以下内容开始：向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物。参见块131。衔接子上的各衔接子具有非随机独特分子索引。衔接子的非随机独特分子索引具有至少两个不同的分子长度，并且形成可变长度的非随机分子索引(vNRUMI)的集合。

[0150] 在一些实现中，衔接子附接、连接、插入、并入或以其他方式链接到DNA片段的各末端。在一些实现中，包含DNA片段的样本是血液样本。在一些实现中，DNA片段包含游离DNA片段。在一些实现中，DNA片段包括源自肿瘤的游离DNA，并且样本中的DNA片段序列表示肿瘤。

[0151] 过程130由以下内容继续进行：扩增DNA-衔接子产物，以获得多个扩增的多核苷酸。参见块132。过程130还涉及对多个扩增的多核苷酸进行测序，从而获得与vNRUMI的集合关联的多个读段。参见块133。而且，过程130涉及从多个读段当中识别与相同vNRUMI关联的读段。参见块134。最后，过程130包括使用与相同vNRUMI关联的读段确定样本中的DNA片段序列。

[0152] 如上面提及的，在图1C中例示的过程130提供了一种使用vNRUMI来对DNA片段进行测序的方法。过程130从以下内容开始：向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物(块131)。过程130还涉及扩增DNA-衔接子产物，以获得多个扩增的多核苷酸(块132)；对多个扩增的多核苷酸进行测序，从而获得与vNRUMI的集合关联的多个读段(块133)；识别与相同vNRUMI关联的读段(块134)；以及使用与相同vNRUMI关联的读段确定样本中的DNA片段序列(块135)。样本可以是血液样本、血浆样本、组织样本或如这里别处描述的样本中的一种。在一些实现中，在步骤131中应用的衔接子可以从诸如图1D所例示的过程140这样的过程来获得。

[0153] 在一些实现中，衔接子的vNRUMI具有至少两个不同分子长度。在一些实现中，vNRUMI的集合具有至少两个不同分子长度。在一些实现中，vNRUMI具有六个或七个核苷酸。在一些实现中，vNRUMI具有多于两个不同的分子长度，诸如具有三个、四个、五个、六个、七个、八个、九个、十个、二十个或更多个不同的分子长度。在一些实现中，分子长度从4-100的范围选择。在一些实现中，分子长度从4-20的范围选择。在一些实现中，分子长度从5-15的范围选择。

[0154] 在一些实现中，vNRUMI的集合包括不多于约10000个不同的vNRUMI。在一些实现中，vNRUMI的集合包括不多于约1000个不同的vNRUMI。在一些实现中，vNRUMI的集合包括不多于约200个不同的vNRUMI。

[0155] 在一些实现中，识别与相同vNRUMI关联的读段的步骤134涉及对于多个读段中的各读段，获得关于vNRUMI的比对分数。各比对分数表示读段的子序列与vNRUMI之间的相似性。子序列处于源自vNRUMI的核苷酸可能位于的、读段的区域中。换言之，在一些实现中，子序列包括预期vNRUMI所位于的区域中的第一核苷酸。在一些实现中，子序列的尺寸等于vNRUMI的集合中的最大vNRUMI的尺寸。

[0156] 在一些实现中，比对分数基于读段的子序列与vNRUMI之间的核苷酸的匹配和错配/编辑。在一些实现中，核苷酸的编辑包括核苷酸的替代、添加以及缺失。在一些实现中，比对分数惩罚序列(例如，读段的子序列或vNRUMI的参考序列)的起始处的编辑，但不惩罚序列的末端处的编辑。比对分数反映读段的子序列与vNRUMI参考序列之间的相似性。

[0157] 在一些实现中，获得读段与vNRUMI之间的比对分数涉及：(a)计算vNRUMI与读段的子序列的所有可能前缀序列中的每一个之间的比对分数；(b)计算读段的子序列与vNRUMI的所有可能前缀序列中的每一个之间的比对分数；以及(c)获得在(a)和(b)中计算的比对分数当中的最大比对分数，作为读段与vNRUMI之间的比对分数。

[0158] 在一些实现中，读段的子序列的长度等于vNRUMI的集合中的最长vNRUMI的长度。

[0159] 在一些实现中，识别与相同vNRUMI关联的读段包括：对于多个读段的各读段，基于比对分数从vNRUMI的集合选择至少一个vNRUMI；以及将多个读段的各读段与针对读段选择的至少一个vNRUMI关联。在一些实现中，从vNRUMI的集合选择至少一个vNRUMI包括：选择在vNRUMI的集合当中具有最高比对分数的vNRUMI。

[0160] 在一些实现中，对于最高比对分数识别一个vNRUMI。在一些实现中，对于最高比对分数识别两个或更多个vNRUMI。在这种情况下，与读段有关的上下文信息可以用于选择应与读段关联的两个或更多个vNRUMI中的一个，以确定DNA片段中序列。比如，可以将对于一个vNRUMI识别的读段的总数与对于另一个vNRUMI识别的读段的总数进行比较，并且更高的总数确定应用于表示DNA片段的来源的一个vNRUMI。在另一个示例中，读段的序列信息或读段在参考序列上的位置可以用于选择与读段关联的所识别的vNRUMI中的一个，所选vNRUMI用于确定序列读段的来源。

[0161] 在一些实现中，可以使用最高比对分数中的两个或更多个来识别两个或更多个vNRUMI，以表示任意片段的潜在来源。上下文信息可以如上面提及地用于确定vNRUMI中的哪一个表示DNA片段的实际来源。

[0162] 图1E示出了可以如何将读段或查询序列(Q)的子序列与vNRUMI集合γ＝{S1,S2}＝{AACTTC,CGCTTTCG}中的两个参考序列进行比较的示例。查询序列Q包括来自读段序列的前七个核苷酸，在读段序列中，预期读段源自vNRUMI。

[0163] 查询序列Q包括七个核苷酸GTCTTCG。Q具有与vNRUMI集合γ中的最长vNRUMI相同的长度。比对分数表150示出了Q和S1的前缀序列的比对分数。例如，单元格151使出了Q(GTCTTC)的前缀序列和S1(AACTTC)的完整序列的比对分数。比对分数将两个序列之间的匹配数以及两个序列之间的编辑数考虑在内。对于各匹配的核苷酸，分数上升1；对于各缺失、添加或替代，分数下降1。相比之下，莱文斯坦距离是如下的编辑距离，该距离不考虑两个序列之间的匹配数，但仅考虑添加、缺失以及替代的数量。

[0164] 逐核苷酸地比较Q(GTCTTC)和S1(AACTTC)的前缀序列，G与A之间存在错配，T与A之间存在错配，C与C之间存在匹配，T与T之间存在匹配，T与T之间存在匹配，并且C与C之间存在匹配。因此，两个前缀序列的比对分数如单元格151所示。比对分数不惩罚具有核苷酸G的序列Q的末端。

[0165] 在比对分数表150中，具有粗体比对分数的最右列示出查询序列Q的所有可能子序列与参考vNRUMI序列S1的所有可能前缀序列之间的比对分数。比对分数表150的底行示出了完整序列S1与Q的所有可能前缀序列之间的比对分数。在各种实现中，选择最右列和底行中的最高比对分数，作为Q与S1之间的全局比对分数。在该示例中，单元格151具有最高值，该值被确定为Q与S1之间的全局比对分数，或g(Q，S1)。

[0166] 跨底行和最右列的最高比对分数用作两个序列之间的全局比对分数。在此处例示的比对分数中，不同的字符串运算被相等地加权。比对分数被计算为：匹配的数量-插入的数量-缺失的数量-替代的数量＝匹配数量-莱文斯坦距离。然而，如上面提及的，在一些实现中，在计算比对分数时，可以对不同的字符串运算不同地加权。例如，在一些实现中(图1E中未示出)，比对分数可以计算为：匹配的数量x 5-插入的数量x4-缺失的数量x 4-替代的数量x 6，或者使用其他权重值。

[0167] 在上述实现中，比对分数以线性样式(即，由加法和/或减法)组合匹配和编辑的效果。在其他实现中，比对分数可以以非线性方式(诸如由乘法或对数运算)组合匹配和编辑的效果。

[0168] 最右列和底行中的比对分数表示：一方面的前缀序列与另一方面的完整序列之间的相似性。当前缀序列的起始不匹配完整序列的起始时，比对分数将受到惩罚。在该意义上，比对分数具有全局分量。另一方面，当前缀序列的末端不匹配完整序列的末端时，序列比对分数不受到惩罚。在该意义上，比对分数具有局部分量。因此，最右列和底行中的比对分数可以被描述为“全局局部”比对分数。Q和S1之间的全局局部比对分数是最右行和底列中的最大比对分数，该分数对于Q前缀序列GTCTTC和S1(AACTTC)为2并且在单元格151中。

[0169] Q前缀序列GTCTTC和S1(AACTTC)之间的莱文斯坦距离也是2，因为G与A之间存在错配，T与A之间存在错配，并且对于CTTC存在四个匹配。对于这两个序列，莱文斯坦距离和比对分数相同。

[0170] 与全局局部比对分数相比，纯全局比对分数需要一方面的完整序列Q合另一方面的完整序列S1，该分数是表150的右下角中的比对分数。

[0171] 图1E中的表152示出了查询序列Q和参考序列S2(CGCTTCG)的比对分数。最右列和底行中的最高比对分数在具有值4的单元格153中。该分数是Q与S2之间的全局局部比对分数，或g(Q，S2)。Q与S2之间的莱文斯坦距离和Q与S1之间的莱文斯坦距离相同，因为在两个比较中在两个序列之间存在两个错配。然而，g(Q，S2)大于g(Q，S1)，因为Q与S2之间比Q与S1之间有更多的匹配核苷酸。即，全局局部比对分数不仅考虑了核苷酸的编辑(如莱文斯坦距离那样)，还考虑了序列之间的核苷酸的匹配。

[0172] 图1E例示了全局局部比对分数可以提供比莱文斯坦距离或编辑距离更佳的错误校正，因为莱文斯坦距离仅考虑序列中的编辑的数量，而全局局部比对分数考虑编序列之间的编辑数和匹配数这两者。图1F提供了如下示例，该示例例示了全局局部比对分数可以提供比全局比对分数更佳的错误抑制，因为全局局部比对分数不过度惩罚由于序列末端处的插入、缺失或替代引起的错配。

[0173] 图1F中的示例使用vNRUMI序列的不同集合，γ＝{S1，S2}＝{TTGTGAC，GGCCAT}。在样本处理过程中，S1用于标记DNA分子。该分子的序列是m0＝TTGTGACTNNNNN。在测序期间，单个插入错误发生，并且序列GCA被插入到m0中，这产生m1＝TTGGCATGACTNNNNN。为了校正该错误并恢复该序列的适当UMI，过程将前7个碱基对当做查询序列，Q＝TTGGCAT。该过程将Q与γ中的各序列进行比较。

[0174] 获得g(Q，S1)的比对分数表160，并且图1F中示出该表。并且类似地，对于g(Q，S2)获得比对分数表163。

[0175] 如果使用全局比对方案而不是全局局部比对分数，则将使用在单元格161和164中的右下角的分数，该分数在两种情况下具有值2。Q(TTGGCAT)和S1(TTGTGAC)的最佳比对是通过比对TTG-GCAT与TTGTG-AC来进行，其中，破折号表示插入或间隙。该比对涉及5个匹配、2个插入以及1个替代，这提供比对分数5-2-1＝2。Q(TTGGCAT)和S2(GGCCAT)的最佳比对是通过比对TTGGC-AT与--GGCCAT来进行。该比对涉及5个匹配和3个插入，这提供比对分数5-3＝2。使用全局比对分数，无法决定性地确定S1和S2中的哪一个更可能是实际的vNRUMI。

[0176] 然而，通过使用全局局部比对方案(该方案使用跨最后一行和最后一列的最大值)，过程获得Q的前缀序列TTGGC和S1(TTGTGAC)的比对分数3，该比对分数变成S1的全局局部分数，并且高于S2(2)的全局局部分数。由此可见，过程可以将Q与S1正确地关联。

[0177] 返回到图1C，步骤135涉及使用与相同vNRUMI关联的读段来确定样本中的DNA片段序列。在一些实现中，确定DNA片段序列涉及塌缩与相同vNRUMI关联的读段，以获得共识序列，这可以如下文中进一步描述的来实现。在一些实现中，共识序列基于读段的质量分数以及读段序列。另外或另选地，其他上下文信息(例如读段的位置)可以用于确定共识序列。

[0178] 在一些实现中，确定DNA片段序列还涉及识别在参考序列中具有相同位置或相似位置的读段。该方法然后使用读段确定DNA片段序列，这些读段与相同vNRUMI关联，并且在参考序列中具有相同位置或类似位置。

[0179] 在一些实现中，确定DNA片段序列涉及在与相同vNRUMI关联的读段当中，识别共享公共虚拟UMI或类似虚拟UMI的读段，其中，公共虚拟UMI在DNA片段中找到。该方法还涉及仅使用与相同vNRUMI关联并且共享相同虚拟UMI或细胞虚拟UMI的读段，来确定DNA片段序列。

[0180] 在一些实现中，具有vNRUMI的测序衔接子可以由在图1D中描绘的过程来制备，并且在下文中进一步描述。

[0181] UMI设计

[0182] 物理UMI

[0183] 在上述衔接子的一些实现中，衔接子中的物理UMI包括随机UMI。在一些实现中，各随机UMI不同于应用于DNA片段的每一个其他随机UMI。换言之，从包括给定序列长度的所有可能的不同UMI的UMI的集合不替代地随机选择随机UMI。在其他实现中，替代地随机选择随机UMI。在这些实现中，由于随机机会，两个衔接子可能具有相同的UMI。

[0184] 在一些实现中，如下文进一步描述的，在过程中使用的物理UMI是NRUMI的集合，使用贪婪方法从候选序列池选择这些NRUMI，该贪婪方法使所选UMI之间的差异最大化。在一些实现中，NRUMI具有可变或非均匀的分子长度，形成vNRUMI的集合。在一些实现中，在提供候选序列库以选择在反应或过程中使用的UMI的集合之前，过滤候选序列池，以去除特定序列。

[0185] 随机UMI比相同序列长度的非随机UMI提供更大数量的UMI。换言之，随机UMI比非随机UMI更可能是独特的。然而，在一些实现中，非随机UMI可以更容易制造或具有更高的转换效率。当非随机UMI与其他信息(诸如序列位置和虚拟UMI)组合时，它们可以提供一种对DNA片段的源分子编索引的高效机制。

[0186] vNRUMI的构建

[0187] 在一些实现中，具有vNRUMI的测序衔接子可以由在图1D中描绘的贪婪方法来制备。该过程包括：(a)提供具有两个不同分子长度的寡核苷酸序列的集合；以及(b)从寡核苷酸序列的集合选择寡核苷酸序列的子集，子集中的寡核苷酸序列之间的所有编辑距离满足阈值。寡核苷酸序列的子集形成vNRUMI的集合。该方法还涉及(c)合成多个测序衔接子，测序衔接子具有双链杂交区域、单链5’末端、如在图2A中描绘的单链3’末端以及vNRUMI的集合中的至少一个vNRUMI。

[0188] 图1D例示了用于制作具有vNRUMI的测序衔接子的过程140。过程140从以下内容开始：提供具有至少两个不同分子长度的寡核苷酸序列(β)的集合。参见块141。

[0189] 在各种实现中，考虑各种因素来制备非随机UMI，这些因素包括但不限于用于检测UMI序列内的错误的手段、转换效率、测定兼容性、GC含量、均聚物以及制造考虑。

[0190] 在一些实现中，在操作141之前，从给定vNRUMI集合的特定分子长度的核苷酸的所有可能排列的完整集合去除寡核苷酸序列中的一些。例如，如果vNRUMI具有六个和七个核苷酸的分子长度，则序列的所有可能排列包括46+47＝20480个序列的完整池。从池去除特定寡核苷酸序列，以提供寡核苷酸序列的集合β。

[0191] 在一些实现中，从池去除具有三个或更多个连续相同碱基的寡核苷酸序列，以提供集合β。在一些实现中，去除具有小于两个的鸟嘌呤和胞嘧啶(G和C)碱基的组合数量的寡核苷酸序列。在一些实现中，去除具有多于四个的鸟嘌呤和胞嘧啶碱基的组合数量的寡核苷酸序列。在一些实现中，去除在序列的最后两个位置处具有相同碱基的寡核苷酸序列。该序列从与附接到DNA片段的末端相对的末端开始。

[0192] 在一些实现中，去除具有与任意测序引物的3’末端匹配的子序列的寡核苷酸序列。

[0193] 在一些实现中，去除在核苷酸序列的最后位置处具有胸腺嘧啶(T)碱基的寡核苷酸序列。附接到经处理核酸片段的A尾末端的vNRUMI将产生具有vNRUMI序列和重组到vNRUMI序列末端的T碱基的读段的子序列，T为A尾上的A碱基的互补。滤除在最后位置处具有T碱基的候选序列避免了这种候选序列与源自任意vNRUMI的读段的子序列之间的混淆。

[0194] 过程140通过从β选择寡核苷酸序列(S0)来继续进行。参见块142。在一些实现中，S0可以从寡核苷酸序列的集合随机选择。

[0195] 过程140还涉及将S0添加到寡核苷酸序列的扩展集合γ，并从集合β去除S0。参见块143。

[0196] 过程140还涉及从β选择寡核苷酸序列Si，Si使距离函数d(Si，γ)最大化，该函数是Si与集合γ中的任意寡核苷酸序列之间的最小编辑距离。参见块144。在一些实现中，编辑距离是莱文斯坦距离。

[0197] 在一些实现中，当序列短于vNRUMI的最大长度时，在计算莱文斯坦距离或编辑距离时，将一个或更多个碱基附加到序列的末端。在一些实现中，如果序列比vNRUMI的最大长度短一个碱基，则将胸腺嘧啶(T)碱基添加至序列的末端。添加该T碱基，以反映在与A-碱基互补的衔接子的末端处的T-碱基突出端，该A-碱基处于已经经历如这里别处描述的dA-加尾处理的DNA片段的末端处。在一些实现中，如果序列比vNRUMI的最大长度短多于一个碱基，则将T碱基添加到序列的末端，然后在T碱基之后添加一个或更多个随机碱基，以产生分子长度等于vNRUMI最大长度的序列。换言之，可以在T碱基之后附加随机碱基的多个不同组合，以产生跨越所有可能观察到的序列的序列。例如，如果vNRUMI具有长度6和8，则可以通过附加TA、TC、TG以及TT来获得6mer的四个衍生物。

[0198] 过程140进行到确定距离函数d(Si，γ)是否满足阈值。在一些实现中，阈值可能要求距离函数(例如，填充的莱文斯坦距离)至少为3。如果距离函数d(Si，γ)满足阈值，则该过程进行到将Si添加到扩展集合γ并从集合β去除Si。参见决策145的“是”分支和块146。如果距离函数不满足阈值，则过程140不将Si添加到扩展集合γ，并且过程进行到合成多个测序衔接子，其中，各测序衔接子在扩展集合γ中具有至少一个vNRUMI。参见145指向块148的无决策分支。

[0199] 在步骤146之后，过程140还涉及是否需要考虑来自集合β的更多序列的决策操作。如果是，则该过程环回到块144，以从集合β选择使距离函数最大化的更多寡核苷酸序列。可以考虑各种因素来确定是否需要从集合β进一步考虑更多序列。比如，在一些实现中，当已经获得期望数量的序列时，该过程不再需要考虑来自序列集合数据的更多序列。

[0200] 当决定不需要考虑更多序列时，过程140进行到合成多个测序衔接子，其中，各衔接子具有序列集合γ中的至少一个vNRUMI。参见操作147指向操作148的“否”决策分支。在一些实现中，各测序衔接子在测序衔接子的一条链上具有vNRUMI。在一些实现中，在操作148中合成具有在图2A中例示的任意形式的测序衔接子。在一些实现中，各测序衔接子仅具有一个vNRUMI。在一些实现中，各衔接子在测序衔接子的各条链上具有vNRUMI。在一些实现中，各测序衔接子在双链杂交区域中的测序衔接子的各条链上具有vNRUMI。

[0201] 在一些实现中，该过程可以由下面的伪代码来实现。

[0202]

[0203] 接着，呈现玩具示例，以例示可以如何根据上述过程和算法来获得vNRUMI。玩具示例示出了可以如何从五个候选序列的池产生vNRUMI，这些vNRUMI然后用于映射观察到的序列读段。注意，因为这是在比我们在实践中将使用/遭遇的显著更小的序列空间上的玩具示例，所以无法解决vNRUMI的特性的每一个方面。

[0204] 在该玩具示例中，过程的目的在于构建从6mer和7mer的集合开始的3个vNRUMI序列的集合(但仅产生2个vNRUMI序列)。为了简单起见，假设可能的6mer和7mer的整个空间由以下5个序列构成：

[0205] AACTTC

[0206] AACTTCA

[0207] AGCTTCG

[0208] CGCTTCG

[0209] CGCTTC

[0210] 注意，假设所有这5个序列已经通过被实现的任意生化过滤器。在非常高的水平上，该算法在使所选序列之间的编辑距离(莱文斯坦距离)最大化的同时对输入序列池进行子集化。该算法使用贪婪方法来进行这一点-在每次迭代时，它拾取使距离函数最大化的序列。在这种情况下，距离函数是要添加的序列与已经在集合中的任意序列之间的最小编辑距离。这可以如下数学地表达：

[0211]

[0212] 在下面的示例中，被构造的vNRUMI集合(n＝3)将表示为γ，输入候选序列的集合将表示为β。

[0213] γ＝{}，β＝{AACTTC，AACTTCA，AGCTTCG，CGCTTCG，CGCTTC}。因为在γ中没有序列，所以对于各个序列未定义距离函数d。在用于最佳选择的连结的情况下，我们总是随机拾取所连结候选中的一个，优选较短的序列。这里，示例拾取6mer序列AACTTC。示例将序列添加到γ并将其从候选序列池去除。

[0214] γ＝{AACTTC}，β＝{AACTTCA，AGCTTCG，CGCTTCG，CGCTTC}。

[0215] 计算距离度量

[0216] d(AACTTCA，γ)＝1，因为从γ中的单个元素到达AACTTCA仅采取一次编辑(A的添加)，因此距离函数为1。

[0217] d(AGCTTCG，γ)＝2，因为从该序列到已经在γ中的序列采取两次编辑。

[0218] d(CGCTTCG，γ)＝3，因为从该序列到已经在γ中的序列采取三次编辑。

[0219] d(CGCTTC，γ)＝2，因为比较中的序列是六聚体(sixmer)，所以在一些实现中，向其末端添加“T”碱基，以模拟重组过程，在该过程中，将与“A”尾互补的T碱基重组到衔接子序列。基本原理是当实践者尝试在稍后识别NRUMI时，他们将考虑第一六聚体和第一七聚体(sevenmer)。通过添加该T碱基，确保当查看七聚体时，它仍然不太靠近任何其他NRUMI。将CGCTTCT与AACTTC进行比较，需要两次编辑。

[0220] 因为最大距离函数是由序列CGCTTCG产生的3，并且该距离达到我们的最小阈值(3)，所以过程将CGCTTCG添加到γ并将其从β去除。

[0221] γ＝{AACTTC，CGCTTCG}，β＝{AACTTCA，AGCTTCG，CGCTTC}。

[0222] 接着，过程进行到计算距离度量因为在vNRUMI集合中有少于期望数量(3)的序列。

[0223] d(AACTTCA，γ)＝1。如在之前步骤中计算的，该序列与第一vNRUMI序列s1＝AACTTC之间的编辑距离为1。该序列与第二vNRUMI序列s2＝CGCTTCG之间的编辑距离是3。距离函数取查询序列与任意现有序列之间的所有编辑距离的最小值，并且min(3,1)＝1，因此距离函数为1。

[0224] d(AGCTTCG,γ)＝1。如在之前步骤中计算的，该序列与s1之间的编辑距离为2。该序列与s2之间的编辑距离为1。因此，距离函数是2和1中的更小者(为1)。

[0225] d(CGCTTC,γ)＝1。与之前相同，过程向该序列附加T，以使其成为CGCTTCT。如之前确定的，加长查询与s1之间的距离为2。加长查询与s2之间的距离为1，因此距离函数为1。

[0226] 已经计算所有候选序列的所有距离函数之后，它们都不满足我们的至少3的编辑距离的不变要求。该要求使得随机突变极不可能将一个vNRUMI序列突变为类似另一个序列的某物。因此，我们返回2个vNRUMI序列的该集合，γ＝{AACTTC,CGCTTCG}。注意，两个vNRUMI序列与上述图1E中的S1和S2相同，并且它们可以与读段关联，以如参照图1E描述的确定读段的源段。

[0227] 虚拟UMI

[0228] 转到虚拟UMI，当末端位置的位置如关于一些片段化过程且关于自然发生的cfDNA通常随机时，在源DNA分子的末端位置处或关于其定义的那些虚拟UMI可以独特地或几乎独特地定义个体源DNA分子。当样本包含较少的源DNA分子时，虚拟UMI可以本身独特地识别个体源DNA分子。使用各与源DNA分子的不同末端关联的两个虚拟UMI的组合，增加虚拟UMI单独可以独特地识别源DNA分子的可能性。当然，即使在一个或两个虚拟UMI无法单独独特地识别源DNA分子的情况下，这种虚拟UMI与一个或更多个物理UMI的组合也可以成功。

[0229] 如果两个读段源自相同DNA片段，则具有相同碱基对的两个子序列在读段中也将具有相同的相对位置。相反，如果两个读段源自两个不同的DNA片段，则具有相同碱基对的两个子序列在读段中具有确切相同的相对位置是不太可能的。因此，如果来自两个或更多个读段的两个或更多个子序列具有相同的碱基对并且在两个或更多个读段上具有相同的相对位置，则可以推断两个或更多个读段源自相同的片段。

[0230] 在一些实现中，在DNA片段末端处或附近的子序列用作虚拟UMI。该设计选择具有一些实际优点。首先，这些子序列在读段上的相对位置容易确定，因为它们处于读段的起始处或附近，并且系统不需要使用偏移来找到虚拟UMI。此外，因为首先对片段末端处的碱基对进行测序，所以即使读段较短，这些碱基对也是可用的。而且，早前在长读段中确定的碱基对具有比稍后确定的碱基对更低的测序错误率。然而，在其他实现中，远离读段末端的子序列可以用作虚拟UMI，但是可能需要确定它们在读段上的相对位置，以推断读段从相同片段获得。

[0231] 读段中的一个或更多个子序列可以用作虚拟UMI。在一些实现中，各从源DNA分子的不同末端追踪的两个子序列用作虚拟UMI。在各种实现中，虚拟UMI为大约24个碱基对或更短、大约20个碱基对或更短、大约15个碱基对或更短、大约10个碱基对或更短、大约9个碱基对或更短、大约8个碱基对或更短、大约7个碱基对或更短或大约6个碱基对或更短。在一些实现中，虚拟UMI为大约6到10个碱基对。在其他实现中，虚拟UMI为大约6到24个碱基对。

[0232] 衔接子

[0233] 除了在上面参照图1A在示例工作流程100中描述的衔接子设计之外，在这里公开的方法和系统的各种实现中可以使用衔接子的其他设计。图2A示意性地例示了在各种实现中可以采用的、具有UMI的五种不同衔接子设计。

[0234] 图2A的(i)示出了标准的因因美纳双索引衔接子。衔接子是部分双链的，并且通过重组对应于两条链的两个寡核苷酸形成。两条链具有许多互补碱基对(例如，12-17bp)，这些碱基对允许两个寡核苷酸在末端处重组，以与dsDNA片段连接。要在成对末端读段的两端上连接的dsDNA片段还称为插入物。其他碱基对在两条链上不是互补的，这产生具有两个松弛突出物的叉形衔接子。在图2A的(i)的示例中，互补碱基对是读段2引物序列和读段1引物序列的一部分。读段2引物序列的下游是单核苷酸3’-T突出端，该突出端提供与待测序的dsDNA片段的单核苷酸3’-A突出端互补的突出端，这可以促进两个突出端的杂交。读段1引物序列处于磷酸基团附接到的、互补链的5’末端。磷酸基团对于将读段1引物序列的5’末端连接到DNA片段的3’-A突出端是必需的。在具有5’松弛突出端的链(顶部链)上，从5’到3’方向，衔接子具有P5序列、i5索引序列以及读段2引物序列。在具有3’松弛突出端的链上，从3’到5’方向，衔接子具有P7’序列、i7索引序列以及读段1引物序列。P5和P7’寡核苷酸与键合到因美纳测序平台的流动池表面的扩增引物互补。在一些实现中，索引序列提供了一种跟踪样本来源的手段，从而允许在测序平台上复用多个样本。

[0235] 图2A的(ii)示出了单个物理UMI替代在图2A的(i)中示出的标准双索引衔接子的i7索引区域的衔接子。衔接子的该设计镜像在上面关联图1B描述的示例工作流程中示出的设计。在特定实施方式中，物理UMIα和β被设计为，仅在双链衔接子的5’臂上，这产生在各链上仅具有一个物理UMI的连接产物。相比之下，并入到衔接子的两条链中的物理UMI产生在各链上具有两个物理UMI的连接产物，这使对物理UMI进行测序的时间和成本加倍。然而，本公开具体实施如在图2A的(iii)至图2A的(vi)中描绘的在衔接子的两条链上采用物理UMI的方法，这些方法提供了可用于塌缩不同读段以获得共识序列的另外信息。

[0236] 在一些实现中，衔接子中的物理UMI包括随机UMI。在一些实现中，衔接子中的物理UMI包括非随机UMI。

[0237] 图2A的(iii)示出了如下衔接子，该衔接子具有添加到标准双索引衔接子的两个物理UMI。这里示出的物理UMI可以是随机UMI或非随机UMI。第一物理UMI在i7索引序列的上游，并且第二物理UMI在i5索引序列的上游。图2A的(iv)示出了还具有添加到标准双索引衔接子的两个物理UMI的衔接子。第一物理UMI在i7索引序列的下游，并且第二物理UMI在i5索引序列的下游。类似地，两个物理UMI可以是随机UMI或非随机UMI。

[0238] 如果已知关联两个不互补物理UMI的先验或后验信息，则在单链区域的两个臂上具有两个物理UMI的衔接子，诸如2A的(iii)和2A的(iv)中示出的衔接子，可以链接双链DNA片段的两条链。比如，研究者可以在将UMI 1和UMI 2的序列集成到图2A的(iv)所示设计的相同衔接子之前知道它们。该关联信息可以用于推断具有UMI 1和UMI 2的读段源自衔接子连接到的DNA片段的两条链。因此，不仅可以塌缩具有相同物理UMI的读段，还可以塌缩具有两个不互补物理UMI中的任一个的读段。有趣的是，并且如下面讨论的，被称为“UMI跳跃”的现象可能使得在衔接子的单链区域上的物理UMI之间的关联的推断复杂化。

[0239] 图2A的(iii)和图2A的(iv)中的衔接子的两条链上的两个物理UMI既不位于同一位点处，也不彼此互补。然而，本公开具体实施采用物理UMI的方法，这些物理UMI位于衔接子的两条链上的相同位点处和/或彼此互补。图2A的(v)示出了双重衔接子，在该衔接子中，两个物理UMI在衔接子末端处或附近的双链区域上互补。两个物理UMI可以是随机UMI或非随机UMI。图2A的(vi)示出了与图2A的(v)的衔接子类似但短于其的衔接子，但该衔接子不包括与流动池表面扩增引物互补的索引序列或P5和P7’序列。类似地，两个物理UMI可以是随机UMI或非随机UMI。

[0240] 与在单链臂上具有一个或更多个单链物理UMI的衔接子相比，如图2A的(v)和图2A的(vi)所示，在双链区域上具有双链物理UMI的衔接子可以提供：该衔接子连接到的双链DNA片段的两条链之间的直接链接。因为双链物理UMI的两条链彼此互补，所以双链UMI的两条链之间的关联固有地由互补序列反映，并且可以在不需要先验信息或后验信息二者之一的情况下建立。该信息可以用于推断具有衔接子的双链物理UMI的两个互补序列的读段源自衔接子连接到的相同DNA片段，但物理UMI的两个互补序列连接到DNA片段的一条链上的3’末端和另一条链上的5’末端。因此，不仅可以塌缩在两端上具有相同顺序的两个物理UMI序列的读段，还可以塌缩在两端上具有相反顺序的两个互补序列的读段。

[0241] 在一些实现中，采用较短物理UMI可以是有利的，因为短物理UMI更容易并入到衔接子中。此外，较短的物理UMI在扩增的片段中更快且更容易测序。然而，随着物理UMI变得非常短，不同物理UMI的总数可能变得小于样本处理所需的衔接子分子的数量。为了提供足够的衔接子，将必须在两个或更多个衔接子分子中重复相同的UMI。在这种场景中，具有相同物理UMI的衔接子可以连接到多个源DNA分子。然而，当这些短物理UMI与诸如读段的虚拟UMI和/或比对位置这样的其他信息组合，以将读段独特地识别为源自样本中的特定源多核苷酸或DNA片段时，这些短物理UMI可以提供足够的信息。这是因为即使相同的物理UMI可以连接到两个不同的片段，两个不同的片段也不太可能碰巧具有相同的比对位置或充当虚拟UMI的匹配子序列。因此，如果两个读段具有相同的短物理UMI和相同的比对位置(或相同的虚拟UMI)，则这两个读段可能源自相同的DNA片段。

[0242] 此外，在一些实现中，读段塌缩基于在插入物的两端上的两个物理UMI。在这种实现中，组合两个非常短的物理UMI(例如，4bp)，以确定DNA片段的来源，两个物理UMI的组合长度提供用于区分不同片段的足够信息。

[0243] 在各种实现中，物理UMI为大约12个碱基对或更短、大约11个碱基对或更短、大约10个碱基对或更短、大约9个碱基对或更短、大约8个碱基对或更短、大约7个碱基对或更短、大约6个碱基对或更短、大约5个碱基对或更短、大约4个碱基对或更短或大约3个碱基对或更短。在物理UMI是非随机UMI的一些实现中，UMI为大约12个碱基对或更短、大约11个碱基对或更短、大约10个碱基对或更短、大约9个碱基对或更短、大约8个碱基对或更短、大约7个碱基对或更短或大约6个碱基对或更短。

[0244] UMI跳跃可能影响在衔接子(诸如图2A的(ii)-(iv)的衔接子中)的一个臂或两个臂上的物理UMI之间的关联的推断。已经观察到，当将这些衔接子应用于DNA片段时，扩增产物可以包括比样本中的片段的实际数量更大的数量的、具有独特物理UMI的片段。

[0245] 此外，当应用在两个臂上具有物理UMI的衔接子时，在一端上具有公共物理UMI的扩增片段应该在另一端上具有另一个公共物理UMI。然而，有时情况并非如此。比如，在一个扩增反应的反应产物中，一些片段可以在其两端上具有第一物理UMI和第二物理UMI；其他片段可以具有第二物理UMI和第三物理UMI；另一些片段可以具有第一物理UMI和第三物理UMI；再一些片段可以具有第三物理UMI和第四物理UMI，以此类推。在该示例中，可能难以确定这些扩增片段的源片段。显然，在扩增过程期间，物理UMI可能已经被另一个物理UMI“换出”。

[0246] 解决该UMI跳跃问题的一种可能方法是，仅将共享两个UMI的片段当做源自相同源分子，而仅共享一个UMI的片段将被排除在分析之外。然而，仅共享一个物理UMI的这些片段中的一些可能实际上源自与共享两个物理UMI的分子相同的分子。通过将仅共享一个物理UMI的片段排除在考虑之外，可能丢失有用信息。另一种可能的方法是，将具有一个公共物理UMI的任意片段当做源自相同的源分子。但是该方法不允许为了下游分析而组合在片段的两端上的两个物理UMI。此外，在任一方法中，对于上述示例，共享第一和第二物理UMI的片段将不被认为源自与共享第三和第四物理UMI的片段相同的源分子。这可能是或可能不是真的。第三种方法可以通过使用在单链区域的两条链上具有物理UMI的衔接子(例如图2A的(v)-(vi)中的衔接子)来解决UMI跳跃问题。下面进一步说明对为UMI跳跃基础的假设机制的描述。

[0247] 图2B例示了一假设过程，在该过程中，UMI跳跃发生在PCR反应中，该PCR反应涉及在双链区域中的两条链上具有物理UMI的衔接子。两个物理UMI可以是随机UMI或非随机UMI。UMI跳跃的实际基础机制和这里描述的假设过程不影响这里公开的衔接子和方法的效用。PCR反应通过提供至少一个双链源DNA片段202以及衔接子204和206而开始。衔接子204和206类似于图2A的(iii)-(iv)所例示的衔接子。衔接子204在其5’臂上具有P5衔接子序列和α1物理UMI。衔接子204还在其3’臂上具有P7’衔接子序列和α2物理UMI。衔接子206在其5’臂上具有P5衔接子序列和β2物理UMI，并且在其3’臂上具有P7’衔接子序列和β1物理UMI。该过程通过以下内容来进行：将衔接子204和衔接子206连接到片段202，这获得连接产物208。该过程通过以下内容来进行：使连接产物208变性(denaturing)，这产生单链变性的片段
212。同时，在该阶段，反应混合物经常包括残留的衔接子。因为即使过程已经涉及诸如使用固相可逆固定(SPRI)珠去除过多的衔接子，一些衔接子仍然被留在反应混合物中。这种剩余衔接子被例示为衔接子210，该衔接子类似于衔接子206，除了衔接子210分别在其3’和7’臂上具有物理UMIγ1和γ2之外。产生变性片段212的变性条件还产生变性的衔接子寡核苷酸214，该寡核苷酸在其P5衔接子序列附近具有物理UMIγ2。

[0248] 然后将单链衔接子片段214杂交(hybridized)到信号链DNA片段212，并且PCR过程延伸单链衔接子片段214，以产生与DNA片段212互补的中间插入物216。在PCR扩增的各种循环期间，中间衔接子片段218、220以及222可以由包括不同物理UMIδ、ε以及ζ的衔接子的P7’链的PCR延伸产生。中间衔接子片段218、220以及222全部在5’端上具有P7’序列，并且分别具有物理UMIδ、ε以及ζ。在随后的PCR循环中，中间衔接子片段218、220以及222可以杂交到中间片段216或其扩增子，因为中间衔接子片段218、220以及222的3’末端与中间插入物216的区域217互补。杂交片段的PCR延伸产生单链DNA片段224、226以及228。DNA片段224、226以及22在5’末端上用三个不同的物理UMI(δ、ε以及ζ)标记，并且在3’末端上用物理UMIγ2标记，该物理UMI表示不同的UMI附接到源自相同DNA片段202的核苷酸序列的“UMI跳跃”。

[0249] 在本公开的一些实现中，使用在衔接子的双链区域的两条链上具有物理UMI的衔接子，诸如图2A的(v)-(vi)中的衔接子，可以防止或减少UMI跳跃。这可以是由于在双链区域处的一个衔接子上的物理UMI与所有其他衔接子上的物理UMI不同。这帮助降低中间衔接子寡核苷酸与中间片段之间的互补性，从而避免杂交，诸如对于中间寡核苷酸222和中间片段220所示的杂交，从而减少或防止UMI跳跃。

[0250] 塌缩读段和获得共识序列

[0251] 在使用UMI的各种实现中，塌缩具有相同UMI的多个序列读段，以获得一个或更多个共识序列，这些共识序列然后用于确定源DNA分子的序列。可以从相同源DNA分子的不同实例生成多个不同的读段，并且可以比较这些读段，以产生如这里描述的共识序列。可以通过在测序之前扩增源DNA分子来生成实例，使得对不同的扩增产物执行不同的测序操作，各扩增产物共享源DNA分子的序列。当然，扩增可能引入错误，使得不同扩增产物的序列具有差异。在诸如因美纳的合成测序这样的一些测序技术的背景下，源DNA分子或其扩增产物形成链接到流动池区域的DNA分子的簇。簇的分子共同提供读段。通常，需要至少两个读段来提供共识序列。测序深度100、1000以及10000是在所公开的实施方式中用于产生低等位基因频率(例如，大约1％或更低)的共识读段的测序深度的示例。

[0252] 在一些实现中，在共识序列中包括跨共享UMI或UMI的组合的读段的100％一致的核苷酸。在其他实现中，共识准则可以低于100％。比如，可以使用90％共识准则，这意味着存在于组中的90％或更多的读段中的碱基对被包括在共识序列中。在各种实现中，共识准则可以被设置为大约30％、大约40％、大约50％、大约60％、大约70％、大约80％、大约90％、大约95％或大约100％。

[0253] 物理UMI和虚拟UMI的塌缩

[0254] 可以使用多种技术来塌缩包括多个UMI的读段。在一些实现中，可以塌缩共享公共物理UMI的读段，以获得共识序列。在一些实现中，如果公共物理UMI是随机UMI，则随机UMI可以独特至足以识别样本中的DNA片段的特定源分子。在其他实现中，如果公共物理UMI是非随机UMI，则UMI本身可能不独特至足以识别特定源分子。在任一情况下，物理UMI可以与虚拟UMI组合，以提供源分子的索引。

[0255] 在上面描述并在图1B、图3A以及图4中描绘的示例工作流程中，一些读段包括而其他读段包括物理UMIα产生具有α的读段。如果在工作流程中使用的所有衔接子具有不同的物理UMI(例如，不同的随机UMI)，则在衔接子区域处具有α的所有读段可能源自DNA片段的相同链。类似地，物理UMIβ产生具有β的读段，所有读段源自DNA片段的相同互补链。因此，有用的是塌缩包括α的所有读段，以获得一个共识序列，并且塌缩包括β的所有读段，以获得另一个共识序列。这被例示为图4B-图4C中的第一级塌缩。因为组中的所有读段源自样本中的相同源多核苷酸，所以在共识序列中包括的碱基对可能反映源多核苷酸的真实序列，而从共识序列排除的碱基对可能反映在工作流程中引入的变异或错误。

[0256] 另外，虚拟UMIρ和可以提供：确定包括一个或两个虚拟UMI的读段源自相同源DNA片段的信息。因为虚拟UMIρ和在源DNA片段之内，所以虚拟UMI的利用实际上不增加制备或测序的开销。在从读段获得物理UMI序列之后，可以将读段中的一个或更多个子序列确定为虚拟UMI。如果虚拟UMI包括足够的碱基对并且在读段上具有相同的相对位置，则它们可以将读段独特地识别为源自源DNA片段。因此，可以塌缩具有一个或两个虚拟UMIρ和的读段，以获得共识序列。诸如图3A以及图4A-图4C所示，当仅一个物理UMI被分配给各链的第一级共识序列时，虚拟UMI和物理UMI的组合可以提供引导第二级塌缩的信息。然而，在一些实现中，如果存在过多的输入DNA分子或者片段化未随机化，则使用虚拟UMI的第二级崩溃可能困难。

[0257] 在另选实现中，在两端上具有两个物理UMI的读段，诸如图3B以及图4D和图4E所示的读段，可以基于物理UMI和虚拟UMI的组合在第二级塌缩中发生塌缩。这在物理UMI太短而不能在不使用虚拟UMI的情况下独特地识别源DNA片段时尤其有用。在这些实施方式中，可以通过塌缩来自相同DNA分子的共识读段和共识读段，凭借如图3B所示的物理双重UMI来实现第二级塌缩，从而获得包括在所有读段当中一致的核苷酸的共识序列。

[0258] 使用这里描述的UMI和塌缩方案，各种实施方式可以抑制影响所确定的片段序列的错误的不同源，即使该片段包括具有非常低的等位基因频率的等位基因。共享相同UMI(物理和/或虚拟)的读段被分组在一起。通过塌缩分组的读段，可以消除由于PCR、库制备、聚类以及测序错误引起的变异(SNV和小插入缺失)。图4A至图4E例示了如在示例工作流程中公开的方法在确定双链DNA片段序列时可以如何抑制不同的错误源。所例示的读段在图3A以及图4A-图4C中包括或并且在图3B、图4D以及图4E中包括或
α和βUMI在图3A以及图4A-图4C中是单重物理UMI。α和βUMI在图3B、图4D以及图4E中是双重UMI。虚拟UMIρ和位于DNA片段的末端处。

[0259] 使用如图4A-图4C所示的单重(singleplex)物理UMI的方法首先涉及塌缩具有相同物理UMIα或β的读段，这被例示为第一级塌缩。第一级塌缩获得具有物理UMIα的读段的α共识序列，这些读段源自双链片段的一条链。第一级塌缩还获得具有物理UMIβ的读段的β共识序列，这些读段源自双链片段的另一条链。在第二级塌缩时，该方法从α共识序列和β共识序列获得第三共识序列。第三共识序列反映来自具有相同双重虚拟UMIρ和的读段的共识碱基对，这些读段源自源片段的两条互补链。最后，将双链DNA片段序列确定为第三共识序列。

[0260] 使用如图4D-图4E所示的双重物理UMI的方法首先涉及塌缩具有在5’-3’方向上具有α→β顺序的物理UMIα和β的读段，这被例示为第一级塌缩。第一级塌缩获得具有物理UMIα和β的读段的α-β共识序列，这些读段源自双链片段的第一条链。第一级塌缩还获得具有在5’-3’方向上具有β→α顺序的物理UMIβ和α的读段的β-α共识序列，这些读段源自与双链片段的第一条链互补的第二条链。在第二级塌缩时，该方法从α-β共识序列和β-α共识序列获得第三共识序列。第三共识序列反映来自具有相同双重虚拟UMIρ和的读段的共识碱基对，这些读段源自片段的两条链。最后，将双链DNA片段序列确定为第三共识序列。

[0261] 图4A例示了第一级塌缩可以如何抑制测序错误。测序错误在样本和库制备(例如，PCR扩增)后发生在测序平台上。测序错误可能将不同的错误碱基引入到不同的读段中。真阳性碱基用实心字母例示，而假阳性碱基用阴影线字母例示。在族中的不同读段上的假阳性核苷酸已经被排除在α共识序列之外。对于α共识序列，保留在族读段的左端上例示的真阳性核苷酸“A”。类似地，在族中的不同读段上的假阳性核苷酸已经被排除在β共识序列之外，这保留了真阳性核苷酸“A”。如此处例示，第一级塌缩可以有效地去除测序错误。图4A还示出了依赖虚拟UMIρ和的可选第二级塌缩。该第二级塌缩可以如上面说明的进一步抑制错误，但图4A中未例示这种错误。

[0262] PCR错误发生在聚类扩增之前。因此，由PCR过程引入到单链DNA中的一个错误碱基对可能在聚类扩增期间被扩增，从而出现在多个簇和读段中。如图4B和图4D例示，由PCR错误引入的假阳性碱基对可能出现在许多读段中。 (图4B)或α-β(图4D)族读段中的“T”碱基以及 (图4B)或β-α(图4D)族读段中的“C”碱基是这种PCR错误。相反，图4A所示的测序错误出现在同一族中的一个或几个读段上。即使第一级塌缩去除测序错误(例如，从图4B中的族和图4D中的α-β族去除的G和A)，因为PCR测序错误出现在族的许多读段中，所以链中的读段的第一级塌缩不去除PCR错误(例如，从α-转移的G和A)。然而，因为PCR错误被引入到单链DNA中，所以源片段的互补链和源自其的读段通常不具有相同的PCR错误。因此，如图4B和图4D的底部所示，基于来自源片段的两条链的读段的第二级塌缩可以有效地去除PCR错误。

[0263] 在一些测序平台中，均聚物(homopolymer)错误发生，将小插入缺失错误引入到重复单个核苷酸的均聚物中。图4C和图4E例示了使用这里描述的方法的均聚物错误校正。在(图4C)或 (图4E)族读段中，两个“T”核苷酸已经从顶部的第二读段缺失，并且一个“T”核苷酸已经从顶部的第三读段缺失。在 (图4C)或 (图4E)族读段中，一个“T”核苷酸已经插入到顶部的第一读段中。与图4A所例示的测序错误类似，均聚物错误发生在PCR扩增后，因此，不同的读段具有不同的均聚物错误。因此，第一级塌缩可以有效地去除插入缺失错误。

[0264] 共识序列可以通过塌缩具有一个或更多个公共非随机UMI和一个或更多个公共虚拟UMI的读段来获得。此外，位置信息也可以用于获得如下描述的共识序列。

[0265] 位置的塌缩

[0266] 在一些实现中，读段被处理，以比对到参考序列，以确定读段在参考序列上的比对位置(定位)。然而，在上面未例示的一些实现中，由k聚体相似性分析和读段-读段比对来实现定位。该第二实现具有两个优点：第一，由于单倍型差异或易位，它可以塌缩(错误校正)与参考不匹配的读段；并且第二，它不依赖于比对器算法，从而去除比对器引入的伪影(比对器中的错误)的可能性。在一些实现中，可以塌缩共享相同定位信息的读段，以获得共识序列，以确定源DNA片段序列。在一些上下文中，比对过程还被称为映射过程。序列读段经历比对过程，以映射到参考序列。如本公开中别处描述的，可以使用各种比对工具和算法来将读段比对到参考序列。照例，在比对算法中，一些读段成功地比对到参考序列，而其他读段无法成功比对到或者可能不良地比对到参考序列。连续比对到参考序列的读段与参考序列上的位点关联。比对的读段及其关联位点还被称为序列标签。包含大量重复的一些序列读段往往更难以比对到参考序列。当读段比对到具有超过特定准则的数量的错配碱基的参考序列时，认为读段不良地比对。在各种实施方式中，当读段在至少大约1、2、3、4、5、6、7、8、9或10个错配的情况下比对时，认为读段不良地比对。在其他实施方式中，当读段在至少大约5％的错配的情况下比对时，认为读段不良地比对。在其他实施方式中，当读段在至少大约
10％、15％或20％的错配碱基的情况下比对时，认为读段不良地比对。

[0267] 在一些实现中，所公开的方法对位置信息与物理UMI信息进行组合，以对DNA片段的源分子进行索引。可以塌缩共享相同读段位置和相同非随机或随机物理UMI序列读段，以获得用于确定片段或其部分序列的共识序列。在一些实现中，可以塌缩共享相同读段位置、相同非随机物理UMI以及随机物理UMI序列读段，以获得共识序列。在这种实现中，衔接子可以包括非随机物理UMI和随机物理UMI这两者。在一些实现中，可以塌缩共享相同读段位置和相同虚拟UMI序列读段，以获得共识序列。

[0268] 可以由不同的技术来获得读段位置信息。例如，在一些实现中，可以使用基因组坐标来提供读段位置信息。在一些实现中，可以使用读段比对到的参考序列上的位置来提供读段位置信息。例如，可以使用染色体上的读段的开始和停止位置来提供读段位置信息。在一些实现中，如果读段位置具有相同的位置信息，则认为它们是相同的。在一些实现中，如果位置信息之间的差异小于定义的准则，则认为该读段位置相同。比如，具有相差少于2、3、4或5个碱基对的起始基因组位置的两个读段可以被认为是具有相同读段位置的读段。在其他实现中，如果读段位置的位置信息可以转换成特定位置空间并在特定位置空间中匹配，则认为该读段位置相同。参考序列可以在测序之前提供——例如，它可以是众所周知且广泛使用的人类基因组序列——或者它可以从在测序样本期间获得的读段确定。

[0269] 不管具体的测序平台和方案如何，对在样本中包含的至少一部分核酸进行测序，以生成数万、数十万或数百万的序列读段，例如，100bp读段。在一些实施方式中，序列读段包括大约20bp、大约25bp、大约30bp、大约35bp、大约36bp、大约40bp、大约45bp、大约50bp、大约55bp、大约60bp、大约65bp、大约70bp、大约75bp、大约80bp、大约85bp、大约90bp、大约95bp、大约100bp、大约110bp、大约120bp、大约130bp、大约140bp、大约150bp、大约200bp、大约250bp、大约300bp、大约350bp、大约400bp、大约450bp、大约500bp、大约800bp、大约
1000bp或大约2000bp。

[0270] 在一些实施方式中，读段比对到参考基因组，例如hg19。在其他实施方式中，读段比对到参考基因组的一部分，例如染色体或染色体段。独特映射到参考基因组的读段称为序列标签。在一个实施方式中，从独特地映射到参考基因组的读段获得至少大约3×106个合格序列标签、至少大约5×106个合格序列标签、至少大约8×106个合格序列标签、至少大6 6 6
约10×10个合格序列标签、至少大约15×10 个合格序列标签、至少大约20×10个合格序列标签、至少大约30×106个合格序列标签、至少大约40×106个合格序列标签或至少大约50×106个合格序列标签。

[0271] 应用

[0272] 在各种应用中，这里公开的错误校正策略可以提供以下益处中的一个或更多个：i)检测非常低等位基因频率的体细胞突变，(ii)通过减轻定相/预定相错误来减少循环时间，和/或(iii)通过提高在读段的更后部分处的碱基判定的质量等来增加读段长度。上面讨论了与检测低等位基因频率的体细胞突变有关的应用和基本原理。

[0273] 在特定实施方式中，这里描述的技术可以允许可靠地判定频率为大约2％或更低、或大约1％或更低、或大约0.5％或更低的等位基因。这种低频在源自癌症患者中的肿瘤细胞的cfDNA中常见。在一些实施方式中，这里描述的技术可以允许识别宏基因组样本中的稀有菌株、以及当例如患者已经被多种病毒株感染和/或已经经历医疗时检测病毒或其他群体中的稀有变异。

[0274] 在特定实施方式中，这里描述的技术可以允许更短的测序化学循环时间。缩短的循环时间增加了测序错误，这些错误可以使用上述方法来校正。

[0275] 在涉及UMI的一些实现中，可以从成对末端测序获得长读段，该测序将不对称读段长度用于来自段两端的一对成对末端(PE)读段。比如，在一个成对末端读段中具有50bp且在另一个成对末端读段中具有500bp的一对读段可以与另一对读段“缝合”在一起，以产生1000bp的长读段。这些实现可以提供确定低等位基因频率的长片段的更快测序速度。

[0276] 图5示意性地例示了通过应用物理UMI和虚拟UMI来在这种应用中高效地获得长成对末端读段的示例。来自相同DNA片段的两条链的库聚类在流通池上。库的插入尺寸长于1Kb。以不对称读段长度(例如，读段1＝500bp，读段2＝50bp)执行测序，以确保长500bp读段的质量。缝合两条链，可以仅用500+50bp测序来产生1000bp长的PE读段。

[0277] 样本

[0278] 用于确定DNA片段序列的样本可以包括取自包括要确定感兴趣序列的核酸的任意细胞、流体、组织或器官的样本。在涉及癌症诊断的一些实施方式中，可以从受试者的体液(例如，血液或血浆)获得循环肿瘤DNA。在涉及胎儿诊断的一些实施方式中，有利的是从母体体液获得无细胞核酸，例如，游离DNA(cfDNA)。包括游离DNA的无细胞核酸可以由本领域中已知的各种方法从生物样本获得，生物样本包括但不限于血浆、血清以及尿液(参见，例如，Fan等人，Proc Natl Acad Sci 105：16266-16271[2008年]；Koide等人，Prenatal Diagnosis 25：604-607[2005年]；Chen等人，Nature Med.2：1033-1035[1996年]；Lo等人，Lancet 350：485-487[1997年]；Botezatu等人，Clin Chem.46：1078-1084,2000年；以及Su等人，J Mol.Diagn.6：101-107[2004年])。

[0279] 在各种实施方式中，存在于样本中的核酸(例如，DNA或RNA)可以在使用之前(例如，在制备测序库之前)特异性或非特异性地富集。样本DNA的非特异性富集指，样本的基因组DNA片段的全基因组扩增，该扩增可以用于在制备cfDNA测序库之前提高样本DNA的水平。本领域中已知用于全基因组扩增的方法。简并寡核苷酸引物PCR(DOP)、引物延伸PCR技术(PEP)以及多重置换扩增(MDA)是全基因组扩增方法的示例。在一些实施方式中，对于DNA未富集样本。

[0280] 包括应用这里描述的方法的核酸的样本通常包括如上所述的生物样本(“测试样本”)。在一些实施方式中，待测序的核酸由许多众所周知的方法中的任意一种纯化或分离。

[0281] 因此，在特定实施方式中，样本包括纯化或分离的多核苷酸，或基本上由其构成，或者它可以包括如下样本，诸如组织样本、生物流体样本、细胞样本等。合适的生物流体样本包括但不限于血液、血浆、血清、汗液、眼泪、痰、尿液、痰、耳流、淋巴液、唾液、脑脊髓液、灌洗液(lavage)、骨髓悬液、阴道月经、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道分泌物、肠道和泌尿生殖道、羊水、乳汁以及白细胞去除样本。在一些实施方式中，样本是可由非侵入性过程容易地获得的样本，例如血液、血浆、血清、汗液、眼泪、痰、尿液、粪便、痰、耳流、唾液或排泄物。在特定实施方式中，样本是外周血样本或外周血样本的血浆和/或血清部分。在其他实施方式中，生物样本是拭子或涂片、活检标本或细胞培养物。在另一个实施方式中，样本是两个或更多个生物样本的混合物，例如，生物样本可以包括生物流体样本、组织样本以及细胞培养物样本中的两个或更多个。如这里使用的，术语“血液”、“血浆”以及“血清”明确包含其部分或经处理部分。类似地，在从活检、拭子(swab)、涂片等取样的情况下，“样本”明确地包含来自活检、拭子、涂片等的经处理部分或部分。

[0282] 在特定实施方式中，样本可以从源获得，这些源包括但不限于来自不同个体的样本、来自不同发育阶段的相同或不同个体的样本、来自不同患病个体(例如，怀疑具有遗传病的个体)的样本、正常个体、在疾病的不同阶段在个体中获得的样本、从经历疾病的不同治疗的个体获得的样本、来自经受不同环境因素的个体的样本、来自具有病理诱因的个体的样本、暴露于传染病药剂的个体的样本等。

[0283] 在一个例示性但非限制性的实施方式中，样本是从怀孕的女性(例如孕妇)获得的母体样本。在这种情况下，可以使用这里描述的方法来分析样本，以提供胎儿中的潜在染色体异常的产前诊断。该母体样本可以是组织样本、生物流体样本或细胞样本。作为非限制性示例，生物流体包括血液、血浆、血清、汗液、眼泪、痰、尿液、痰、耳流、淋巴液、唾液、脑脊髓液、灌洗液、骨髓悬液、阴道月经、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道分泌物、肠道和泌尿生殖道以及白细胞去除样本。

[0284] 在特定实施方式中，还可以从体外培养的组织、细胞或其他包含多核苷酸的源获得样本。所培养的样本可以取自如下源，这些源包括但不限于被维持在不同培养基和条件(例如，pH、压力或温度)下的培养物(例如，组织或细胞)、被维持不同长度时段的培养物(例如，组织或细胞)、用不同因子或试剂(例如，药物候选或调节剂)处理的培养物(例如，组织或细胞)或不同类型组织和/或细胞的培养物。

[0285] 从生物源分离核酸的方法是众所周知的，并且取决于源的性质而不同。本领域技术人员可以根据这里描述的方法的需要，而从源容易地分离核酸。在一些情况下，可以有利的是将核酸样本中的核酸分子片段化。片段化可以是随机的，或者它可以是特异性的，如例如使用限制性核酸内切酶消化实现。用于随机片段化的方法在领域中众所周知，并且包括例如有限DNA酶消化、碱处理以及物理剪切。

[0286] 测序库制备

[0287] 在各种实施方式中，可以在需要制备测序库的各种测序平台上执行测序。制备通常涉及使DNA片段化(声波降解、雾化或剪切)，然后是DNA修复和末端抛光(平末端或A突出端)以及平台特异性衔接子连接。在一个实施方式中，这里描述的方法可以使用新一代测序技术(NGS)，这些NGS允许多个样本在单个测序运行上作为基因组分子单独测序(即，单重测序)或作为包括索引基因组分子的合并样本单独测序(例如，多重测序)。这些方法可以生成多达数十亿的DNA序列读段。在各种实施方式中，可以使用例如这里描述的新一代测序技术(NGS)来确定基因组核酸和/或索引基因组核酸序列。在各种实施方式中，可以使用如这里描述的一个或更多个处理器来执行使用NGS获得的大量序列数据的分析。

[0288] 在各种实施方式中，这种测序技术的使用不涉及测序库的制备。

[0289] 然而，在特定实施方式中，在这里预期的测序方法涉及测序库的制备。在一个例示性方法中，测序库制备涉及产生准备测序的衔接子修饰的DNA片段(例如，多核苷酸)的随机集合。多核苷酸的测序库可以由DNA或RNA来制备，该DNA或RNA包括DNA或cDNA(例如，是在逆转录酶的作用下从RNA模板产生的互补或拷贝DNA的DNA或cDNA)二者之一的等同物、类似物。多核苷酸可以源于双链形式(例如，dsDNA，诸如基因组DNA片段、cDNA、PCR扩增产物等)，或者在特定实施方式中，多核苷酸可以源于单链形式(例如，ssDNA、RNA等)，并且已经转换成dsDNA形式。用例示的方式，在特定实施方式中，可以将单链mRNA分子拷贝到适合用于制备测序库的双链cDNA中。主多核苷酸分子的精确序列对库制备方法通常不重要，并且可以是已知的或未知的。在一个实施方式中，多核苷酸分子是DNA分子。更具体地，在特定实施方式中，多核苷酸分子表示生物体的整个遗传互补或生物体的大致整个遗传互补，并且是基因组DNA分子(例如，细胞DNA、游离DNA(cfDNA)等)，这些基因组DNA分子通常包括内含子(intron)序列和外显子序列(编码序列)这两者、以及非编码调控序列(诸如启动子和增强子序列)。在特定实施方式中，主多核苷酸分子包括人类基因组DNA分子，例如，存在于怀孕受试者的外周血中的cfDNA分子。

[0290] 通过使用包括特定范围的片段尺寸的多核苷酸，促进用于一些NGS测序平台的测序库的制备。这种库的制备通常涉及将大多核苷酸(例如，细胞基因组DNA)片段化，以获得在期望尺寸范围内的多核苷酸。

[0291] 成对末端读段可以用于这里公开的测序方法和系统。片段或插入物长度长于读段长度，有时长于两个读段的长度的和。

[0292] 在一些例示性实施方式中，获得样本核酸作为基因组DNA，该基因组DNA被片段化成长于近似50、100、200、300、400、500、600、700、800、900、1000、2000或5000个碱基对的的片段，NGS方法可以容易地应用于这些片段。在一些实施方式中，从大约100-5000bp的插入物获得成对末端读段。在一些实施方式中，插入物为大约100-1000bp长。这些插入物有时实现为规则的短插入物成对末端读段。在一些实施方式中，插入物为大约1000-5000bp长。这些插入物有时实现为如上所述的长插入物末端配对读段。

[0293] 在一些实现中，长插入物被设计用于评价非常长的序列。在一些实现中，可以应用末端配对读段来获得由数千个碱基对隔开的读段。在这些实现中，插入物或片段在从数百到数千个碱基对的范围内，在插入物的两端上具有两个生物素接头衔接子。然后，生物素接头衔接子接合插入物的两端，以形成然后进一步片段化的环化分子。选择包括生物素接头衔接子和原始插入物的两端的亚片段，以便在被设计为对较短片段测序的平台上测序。

[0294] 片段化可以由本领域技术人员已知的许多方法中的任意一种来实现。例如，片段化可以由机械手段来实现，该机械手段包括但不限于雾化、声波降解以及水力剪切。然而，机械片段化通常在C-O、P-O以及C-C键处裂解DNA主链，这产生具有断裂的C-O、P-O以及C-C键的、平末端以及3’-和5’-突出端的异质混合物(参见例如，Alnemri和Liwack，J Biol.Chem 265：17323-17333[1990年]；Richards和Boyer，J Mol Biol 11：327-240[1965年])，这些断裂的键可能需要修复，因为它们可能缺乏必要的5’-磷酸盐，以便制备用于测序的DNA所需的随后酶促反应，例如，测序衔接子的连接。

[0295] 相比之下，cfDNA通常作为少于大约300个碱基对的片段存在，因此，片段化对于使用cfDNA样本生成测序库通常不是必要的。

[0296] 通常，无论多核苷酸是被强制片段化(例如，在体外片段化)还是作为片段自然存在，它们都被转化为具有5’-磷酸和3’-羟基的平末端DNA。标准方案(例如，用于使用例如如上面参照图1A和图1B在示例工作流程中描述的因美纳平台进行测序的方案)表示用户终止修复样本DNA，以在对3’末端腺苷酸化或dA-加尾之前纯化末端修复的产物，并且在库制备的衔接子连接步骤之前纯化dA-加尾产物。

[0297] 这里描述的序列库制备的方法的各种实施方式消除以下需要：执行通常由标准方案授权的步骤中的一个或更多个，以获得可以由NGS测序的修饰DNA产物。简化法(ABB法)、1步法以及2步法是制备测序库的方法的示例，这些方法可以在2012年7月20日提交的专利申请13/555037中找到，以引证的方式将该申请全文并入。

[0298] 测序方法

[0299] 这里描述的方法和设备可以采用新一代测序技术(NGS)，该NGS允许大规模平行测序。在特定实施方式中，克隆扩增的DNA模板或单个DNA分子在流动池内以大规模平行样式测序(例如，如在Volkerding等人，Clin Chem 55：641-658[2009年]；Metzker M Nature Rev 11：31-46[2010年]中描述的)。NGS的测序技术包括但不限于焦磷酸测序、用可逆染料终止子进行的合成测序、由寡核苷酸探针连接进行的测序以及离子半导体测序。来自个体样本的DNA可以单独测序(即，单重测序)，或者来自多个样本的DNA可以合并，并在单个测序运行上作为索引基因组分子进行测序(即，多重测序)，以生成多达数亿的DNA序列的读段。这里进一步描述可以用于根据本方法获得序列信息的测序技术的示例。

[0300] 如下所述，一些测序技术可商购，诸如来自昂飞(Affymetrix)有限公司(加利福尼亚州森尼维耳市)的杂交测序平台和来自454生命科学(康涅狄格州布兰福德)、因美纳/色雷克沙(Solexa)公司(加利福尼亚州海沃德)和赫利克斯(Helicos)生物科学公司(马萨诸塞州坎布里奇)的合成测序平台、以及来自应用生物系统公司(加利福尼亚州福斯特城)的连接测序平台。除了使用赫利克斯生物科学公司的合成测序执行的单分子测序之外，其他单分子测序技术包括但不限于太平洋生物科学公司的SMRTTM技术、ION TORRENTTM技术以及例如由牛津(Oxford)纳米孔技术公司开发的纳米孔测序。

[0301] 虽然自动化桑格(Sanger)方法被认为是“第一代”技术，但在这里描述的方法中也可以采用包括自动化桑格测序的桑格测序。另外合适的测序方法包括但不限于核酸成像技术，例如原子力显微镜(AFM)或透射电子显微镜(TEM)。下面更详细地描述例示性测序技术。

[0302] 在一些实现中，所公开的方法涉及通过使用因美纳的合成测序和基于可逆终止子的测序化学(例如，如在Bentley等人,Nature 6:53-59[2009年]中描述的)对数百万个DNA片段进行大规模平行测序，来获得测试样本中的核酸的序列信息。模板DNA可以是基因组DNA，例如，细胞DNA或cfDNA。在一些实施方式中，来自分离细胞的基因组DNA用作模板，并将其片段化为数百个碱基对的长度。在其他实施方式中，cfDNA或循环肿瘤DNA(ctDNA)用作模板，并且不需要片段化，因为cfDNA或ctDNA作为短片段存在。例如，胎儿cfDNA在血流中作为在长度上近似为170个碱基对(bp)的片段循环(Fan等人，Clin Chem 56：1279-1286[2010年])，并且在测序之前不需要DNA的片段化。因美纳的测序技术依赖片段化的基因组DNA到平面光学透明面的附接，寡核苷酸锚粘合在该面上。模板DNA被末端修复，以生成5’-磷酸化的平末端，并且使用克列诺片段的聚合酶活性来将单个A碱基添加到钝磷酸化DNA片段的3’末端。该添加使DNA片段准备连接到寡核苷酸衔接子，这些寡核苷酸衔接子在其3’末端处具有单个T碱基的突出端，以提高连接效率。衔接子寡核苷酸与流动池锚寡核苷酸互补。在限制稀释条件下，将衔接子修饰的单链模板DNA添加到流动池并通过杂交到锚寡核苷酸来固定。延伸并桥式扩增所附接的DNA片段，以产生具有数亿个簇的超高密度测序流动池，各簇包含相同模板的大约1000个拷贝。在一个实施方式中，在随机片段化的基因组DNA经受聚类扩增之前，使用PCR扩增它。另选地，使用无扩增的基因组库制备，并且单独使用聚类扩增来富集随机片段化的基因组DNA(Kozarewa等人，Nature Methods 6：291-295[2009年])。在一些应用中，使用鲁棒的四色DNA合成测序技术来对模板进行测序，该技术采用具有可去除荧光染料的可逆终止子。使用激光激发和全内反射光学器件实现高灵敏度荧光检测。将大约数十至数百个碱基对的短序列读段与参考基因组比对，并且使用专门开发的数据分析流水线软件来识别短序列读段到参考基因组的独特映射。在完成第一读段之后，可以原位再生模板，以从片段的相对末端启用第二读段。由此，可以使用DNA片段的单末端或成对末端测序二者之一。

[0303] 本公开的各种实施方式可以使用允许成对末端测序的合成测序。在一些实施方式中，因美纳的合成测序平台涉及聚类片段。聚类是等温扩增各片段分子的过程。在一些实施方式中，作为这里描述的示例，片段具有附接到片段两端的两个不同的衔接子，该衔接子允许片段与在流动池泳道表面上的两个不同寡核苷酸杂交。片段还包括或连接到片段两端处的两个索引序列，这些索引序列提供在多重测序中识别不同样本的标记。在一些测序平台中，从两端测序的片段还称为插入物。

[0304] 在一些实现中，用于在因美纳平台中聚类的流动池是具有泳道(lane)的载玻片。各泳道是涂有两种类型的寡核苷酸(例如，P5和P7’寡核苷酸)的草坪的玻璃通道。由表面上的两种类型的寡核苷酸中的第一种来启用杂交。该寡核苷酸与在片段一末端上的第一衔接子互补。聚合酶产生杂交片段的互补链。使双链分子变性，并且洗去原始模板链。剩余的链与许多其他剩余的链平行地借助桥式应用克隆扩增。

[0305] 在桥式扩增和涉及聚类的其他测序方法中，链进行折叠，并且在链的第二末端上的第二衔接子区域与流动池表面上的第二类型的寡核苷酸杂交。聚合酶生成互补链，形成双链桥分子。使该双链分子变性，这产生借助两个不同寡核苷酸拴到流动池的两个单链分子。然后再三重复该过程，并且该过程对于数百万个簇同时发生，这引起所有片段的克隆扩增。在桥式扩增之后，裂解并洗掉反向链，这仅留下正向链。阻断3’末端，以防止不想要的引发。

[0306] 在聚类之后，测序从延伸第一测序引物以生成第一读段开始。通过各循环，荧光标记后的核苷酸竞争添加到生长的链。基于模板的顺序，仅并入一个荧光标记后的核苷酸。在添加各核苷酸之后，由光源激发簇，并且发射特征荧光信号。循环次数确定读段的长度。发射波长和信号强度确定碱基判定。对于给定的簇，同时读取所有相同的链。数以亿计的簇以大规模平行方式测序。在完成第一读段时，洗掉读段产物。

[0307] 在涉及两个索引引物的方案的下一步骤中，引入索引1引物并将其杂交到模板上的索引1区域。索引区域提供片段的识别，该识别对于在多重测序过程中多路分配样本是有用的。索引1读段与第一读段类似地生成。在完成索引1读段之后，洗去读段产物并对链的3’末端进行去保护。模板链然后折叠，并粘合到流动池上的第二寡核苷酸。以与索引1相同的方式来读取索引2序列。然后在步骤完成时洗掉索引2读段产物。

[0308] 在读取两个索引之后，读段2通过使用聚合酶启动，以延伸第二流动池寡核苷酸，形成双链桥。使该双链DNA变性，并且阻断3’末端。断开并洗掉原始正向链，这留下反向链。读段2从读段2测序引物的引入开始。与读段1一样，重复测序步骤，直到实现期望的长度为止。洗掉读段2产物。该整个过程生成数百万个读段，这些读段表示所有片段。基于在样本制备期间引入的独特索引分离来自合并的样本库的序列。对于各样本，局部聚类碱基判定的类似伸张的读段。将正向和反向读段配对，这产生连续序列。将这些连续序列比对到参考基因组，以便变异识别。

[0309] 上述合成测序示例涉及成对末端读段，这用于所公开方法的实施方式中的许多个中。成对末端测序涉及来自片段两端的2个读段。成对末端读段用于解决模糊的比对。成对末端测序允许用户选择插入物(或待测序的片段)的长度，并且对插入物的任一端进行测序，这生成高质量的可比对序列数据。因为已知各配对读段之间的距离，所以比对算法可以使用该信息来更精确地将读段映射在重复区域上方。这引起读段的更佳比对，尤其是跨基因组的难以测序的重复区域。成对末端测序可以检测重排，重排包括插入和缺失(插入缺失)以及逆转。

[0310] 成对末端读段可以使用不同长度(即，待测序的不同片段尺寸)的插入物。作为本公开中的默认含义，成对末端读段用于指从各种插入物长度获得的读段。在一些情况下，为了区分短插入物成对末端读段和长插入物成对末端读段，后者被具体称为末端配对读段。在涉及末端配对读段的一些实施方式中，首先将两个生物素接头衔接子附接到较长插入物(例如，几kb)的两个末端。然后，生物素接头衔接子链接插入物的两个末端，以形成环化分子。然后可以通过进一步片段化环化分子，来获得包括生物素接头衔接子的亚片段。然后可以由与用于上述短插入物成对末端测序相同的过程，对包括相反序列顺序的原始片段的两个末端的亚片段进行测序。在以下地址的在线公布中示出了使用因美纳平台的末端配对测序的另外细节，以引证的方式将该公布全文并入：res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf。

[0311] 在对DNA片段进行测序之后，通过映射(比对)到已知参考基因组来定位预定长度(例如，100bp)的序列读段。所映射的读段及其在参考序列上的对应位置还被称为标签。在该过程的另一个实施方式中，由k聚体共享和读段-读段比对来实现定位。这里公开的许多实施方式的分析利用不良比对或无法比对的读段、以及比对的读段(标签)。在一个实施方式中，参考基因组序列是NCBI36/hg18序列，该序列可以在genome.ucsc.edu/cgi-bin/hgGateway？org＝Human&db＝hg188&hgsid＝166260105的万维网上获得。另选地，参考基因组序列是GRCh37/hg19或GRCh38，该序列可在genome.ucsc.edu/cgi-bin/hgGateway的万维网上获得。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)以及DDBJ(日本的DNA数据库)。许多计算机算法可用于比对序列，包括但不限于BLAST(Altschul等人，1990年)、BLITZ(MPsrch)(Sturrock&Collins，1993年)、FASTA(Person&Lipman，1988年)、BOWTIE(Langmead等人，Genome Biology 10：R25.1-R25.10[2009年])或ELAND(美国加利福尼亚圣地亚哥因美纳有限公司)。在一个实施方式中，对血浆cfDNA分子的克隆扩展拷贝的一端进行测序，并由用于因美纳基因组分析仪的生物信息学比对分析比对进行处理，该分析仪使用核苷酸数据库的高效大规模比对(ELAND)软件。

[0312] 其他测序方法也可以用于获得序列读段及其比对。在2016年4月15日提交的美国专利申请No.15/130668中描述了另外的合适方法，以引证的方式将该申请全文并入。

[0313] 在这里描述的方法的一些实施方式中，序列读段为大约20bp、大约25bp、大约30bp、大约35bp、大约40bp、大约45bp、大约50bp、大约55bp、大约60bp、大约65bp、大约70bp、大约75bp、大约80bp、大约85bp、大约90bp、大约95bp、大约100bp、大约110bp、大约120bp、大约130bp、大约140bp、大约150bp、大约200bp、大约250bp、大约300bp、大约350bp、大约
400bp、大约450bp或大约500bp。预计技术进步将在生成成对末端读段时对于大于约1000bp的读段启用大于500bp的单末端读段启用。在一些实施方式中，成对末端读段用于确定感兴趣序列，这些序列包括为大约20bp至1000bp、大约50bp至500bp或80bp至150bp的序列读段。
在各种实施方式中，成对末端读段用于评价感兴趣的序列。感兴趣的序列比读段长。在一些实施方式中，感兴趣序列长于大约100bp、500bp、1000bp或4000bp。通过以下方式实现序列读段的映射：将读段序列与参考序列进行比较，以确定被测序的核酸分子的染色体原点，并且不需要特定的基因序列信息。为了考虑可能存在于参考基因组与混合样本中的基因组之间的微小多态性，可以允许小程度的错配(每个读段0-2个错配)。在一些实施方式中，被比对到参考序列的读段用作锚读段，并且配对到锚读段但无法比对或不良比对到参考的读段用作被锚读段。在一些实施方式中，不良比对的读段可能具有较大量的每读段错配百分比，例如每读段至少大约5％、至少大约10％、至少大约15％或至少大约20％的错配。

[0314] 通常每个样本获得多个序列标签(即，比对到参考序列的读段)。在一些实施方式中，从每个样本将读段映射到参考基因组获得例如100bp的至少大约3×106个序列标签、至少大约5×106个序列标签、至少大约8×106个序列标签、至少大约10×106个序列标签、至少6 6 6
大约15×10个序列标签、至少大约20×10个序列标签、至少大约30×10个序列标签、至少大约40×106个序列标签或至少大约50×106个序列标签。在一些实施方式中，所有序列读段映射到参考基因组的所有区域，这提供全基因组读段。在其他实施方式中，读段映射到感兴趣的序列。

[0315] 用于使用UMI测序的设备和系统

[0316] 如应显而易见的，本发明的特定实施方式采用在存储在一个或更多个计算机系统中或借助一个或更多个计算机系统转移的指令和/或数据的控制下起作用的过程。特定实施方式还涉及一种用于执行这些操作的设备。该设备可以为所需目的而专门设计和/或构造，或者它可以是由存储在计算机中或以其他方式使得可用于计算机的一个或更多个计算机程序和/或数据结构选择性地配置的通用计算机。具体地，各种通用机器可以与根据这里的示教书写的程序一起使用，或者它可以更便于构建执行所需方法步骤的更专用设备。下面示出并描述了用于各种这些机器的特定结构。

[0317] 特定实施方式还提供了用于存储如这里描述地生成的结果(例如，查询结果)或数据结构中的任意一个的功能(例如，代码和过程)。这种结果或数据结构通常至少暂时存储在计算机可读介质上。结果或数据结构还可以以各种方式中的任意一种输出，诸如显示，打印等。

[0318] 适于使用本发明的计算机程序产品和计算设备的有形计算机可读介质的示例包括但不限于：磁介质，诸如硬盘、软盘以及磁带；光介质，诸如CD-ROM盘；磁光介质；半导体存储装置(例如，闪存)；以及专门配置为存储并执行程序指令的硬件装置，诸如只读存储器装置(ROM)和随机存取存储器(RAM)，并且有时是专用集成电路(ASIC)、可编程逻辑装置(PLD)以及用于递送计算机可读指令的信号传输介质，诸如局域网、广域网以及因特网。这里提供的数据和程序指令还可以具体实施在载波或其他输送介质(包括电子或光传导路径)上。本发明的数据和程序指令还可以具体实施在载波或其他输送介质(例如，光学线路、电力线路和/或空气波)上。

[0319] 程序指令的示例包括：低级代码，诸如由编译器产生的代码；和可以由计算机使用解释器执行的更高级代码。进一步地，程序指令可以是机器代码、源代码和/或直接或间接控制计算机器的操作的任意其他代码。代码可以指定输入、输出、计算、条件、分支、迭代循环等。

[0320] 通常使用各种计算机执行的算法和程序来执行测序数据的分析和从其导出的诊断。因此，特定实施方式采用涉及存储在一个或更多个计算机系统或其他处理系统中或借助其转移的数据的过程。这里公开的实施方式还涉及用于执行这些操作的设备。该设备可以为了所需目的而专门构造，或者它可以是由在计算机中存储的计算机程序和/或数据结构选择性启动或重构的通用计算机(或一组计算机)。在一些实施方式中，一组处理器协作地(例如，经由网络或云计算)和/或并行地执行所列分析操作中的一些或全部。用于执行这里描述的方法的处理器或处理器的组可以是各种类型，包括微控制器和微处理器，诸如可编程装置(例如，CPLD和FPGA)和非可编程装置，诸如门阵列ASIC或通用微处理器。

[0321] 一个实现提供了一种用于确定在包括核酸的测试样本中具有低等位基因频率的序列的系统，该系统包括：测序仪，该测序仪用于接收核酸样本并从样本提供核酸序列信息；处理器；以及机器可读存储介质，该机器可读存储介质上存储有指令，这些指令在所述处理器上执行，以通过以下方式确定测试样本中的感兴趣序列：(a)向样本中的DNA片段应用衔接子，以获得DNA-衔接子产物，其中，各衔接子包括非随机独特分子索引，并且其中，衔接子的非随机独特分子索引具有至少两个不同的分子长度，并且形成可变长度的非随机独特分子索引(vNRUMI)的集合；(b)扩增DNA-衔接子产物，以获得多个扩增的多核苷酸；(c)使用测序仪对多个扩增的多核苷酸进行测序，从而获得与vNRUMI的集合关联的多个读段；(d)由处理器并在多个读段当中识别与相同可变长度的非随机独特分子索引(vNRUMI)关联的读段；以及(e)使用与相同vNRUMI关联的读段确定样本中的DNA片段序列。

[0322] 在这里提供的系统中的任意一个的一些实施方式中，测序仪被配置为执行新一代测序(NGS)。在一些实施方式中，测序仪被配置为通过可逆染料终止子使用合成测序来执行大规模平行测序。在其他实施方式中，测序仪被配置为执行连接测序。在另一些实施方式中，测序仪被配置为执行单分子测序。

[0323] 另一个实现提供了一种系统，该系统包括核酸合成器、处理器以及机器可读存储介质，该介质上面存储有用于在所述处理器上执行以制备测序衔接子的指令。这些指令包括：(a)由处理器提供具有至少两个不同分子长度的寡核苷酸序列的集合；(b)由处理器从寡核苷酸序列的集合选择寡核苷酸序列的子集，寡核苷酸序列的子集的寡核苷酸序列之间的所有编辑距离满足阈值，寡核苷酸序列的子集形成可变长度的非随机独特分子索引(vNRUMIs)的集合；以及(c)使用核酸合成器合成多个测序衔接子，其中，各测序衔接子包括双链杂交区域、单链5’臂、单链3’臂、以及vNRUMI的集合的至少一个vNRUMI。

[0324] 另外，特定实施方式涉及有形和/或非暂时计算机可读介质或计算机程序产品，它们包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括但不限于：半导体存储装置、诸如磁盘驱动器的磁介质、磁带、诸如CD的光介质、磁光介质以及被专门配置为存储并执行程序指令的硬件装置，诸如只读存储器装置(ROM)和随机存取存储器(RAM)。计算机可读介质可以由最终用户直接控制，或者介质可以由最终用户间接控制。直接控制的介质的示例包括位于用户设施处的介质和/或不与其他实体共享的介质。间接控制的介质的示例包括用户可经由外部网络和/或经由提供诸如“云”这样的共享资源的服务间接访问的介质。程序指令的示例包括机器代码(诸如由编译器产生的代码)和文件这两者，文件包含可以由计算机使用解释器执行的更高级代码。

[0325] 在各种实施方式中，在所公开的方法和设备中采用的数据或信息以电子格式来提供。这种数据或信息可以包括源自核酸样本的读段和标签、参考序列(包括仅提供或主要提供多态性的参考序列)、诸如癌症诊断判定的判定，咨询建议、诊断等。如这里所使用的，以电子格式提供的数据或其他信息可用于机器上的存储和机器之间的传输。传统地，电子格式的数据数字地提供，并且可以作为位和/或字节存储在各种数据结构、列表、数据库等中。数据可以电子、光学等地具体实施。

[0326] 一个实施方式提供了一种计算机程序产品，该计算机程序产品用于生成表示测试样本中的感兴趣的DNA片段序列的输出。计算机产品可以包含用于执行用于确定感兴趣的序列的上述方法中的任意一个或更多个的指令。如所说明的，计算机产品可以包括非暂时和/或有形计算机可读介质，该介质上面记录有计算机可执行或可编译逻辑(例如，指令)，该逻辑用于使得处理器能够确定感兴趣的序列。在一个示例中，计算机产品包括计算机可读介质，该介质上面记录有计算机可执行或可编译逻辑(例如，指令)，该逻辑用于使得处理器能够诊断病情或确定感兴趣的核酸序列。

[0327] 应理解的是，对于无帮助的人来说，执行这里公开的方法的计算操作不实际，甚至在大多数情况下不可能。例如，在没有计算设备的辅助的情况下，将单个30bp读段从样本映射到人类染色体中的任意一个可能需要多年的努力。当然，该问题是复合的，因为低等位基因频率突变的可靠判定通常需要将数千(例如，至少大约10000)甚至数百万的读段映射到一个或更多个染色体。

[0328] 这里公开的方法可以使用用于确定测试样本中的感兴趣的序列的系统来执行。该系统可以包括：(a)用于从测试样本接收核酸的测序仪，该测序仪提供来自样本的核酸序列信息；(b)处理器；以及(c)一个或更多个计算机可读存储介质，该介质上面存储有用于在处理器上执行以确定测试样本中的感兴趣的序列的指令。在一些实施方式中，该方法由计算机可读介质表示，该计算机可读介质上面存储有用于进行确定感兴趣序列的方法的计算机可读指令。由此，一个实施方式提供了一种计算机程序产品，该计算机程序产品包括存储程序代码的非暂时机器可读介质，该程序代码在由计算机系统的一个或更多个处理器执行时，使得计算机系统实现用于确定测试样本中的核酸片段序列的方法。程序代码可以包括：(a)如下代码，该代码用于获得多个扩增多核苷酸的多个读段，多个扩增多核苷酸中的各多核苷酸包括附接到DNA片段的衔接子，其中，衔接子包括非随机独特分子索引，并且其中，衔接子的非随机独特分子索引具有至少两个不同的分子长度，形成可变长度的非随机独特分子索引(vNRUMI)的集合；(b)如下代码，该代码用于在多个读段当中识别与相同vNRUMI关联的读段；以及(c)如下代码，该代码用于使用与相同vNRUMI关联的读段确定样本中的DNA片段序列。

[0329] 在一些实施方式中，程序代码或指令还可以包括自动记录与该方法有关的信息。患者病历可以由例如实验室、医生办公室、医院、健康维护组织、保险公司或个人医疗记录网站来维护。进一步地，基于处理器实现的分析的结果，该方法还可以涉及规定、发起和/或改变从其取得测试样本的受试人的治疗。这可以涉及对取自受试者的其他样本执行一个或更多个另外的测试或分析。

[0330] 所公开的方法还可以使用计算机处理系统来执行，该计算机处理系统适于或被配置为执行用于确定感兴趣的序列的方法。一个实施方式提供了一种计算机处理系统，该计算机处理系统适于或被配置为执行如这里描述的方法。在一个实施方式中，设备包括测序装置，该测序装置适于或被配置为对样本中的至少一部分核酸分子进行测序，以获得这里别处描述的序列信息的类型。设备还可以包括用于处理样本的部件。这些部件在这里在别处描述。

[0331] 序列或其他数据可以直接或间接地输入到计算机中，或存储在计算机可读介质上。在一个实施方式中，计算机系统直接联接到测序装置，该测序装置读取和/或分析来自样本的核酸序列。经由计算机系统中的接口提供来自这种工具的序列或其他信息。另选地，从序列存储源(诸如数据库或其他储存库)提供由系统处理的序列。一旦可用于处理设备，则存储装置或大容量存储装置至少暂时地缓冲或存储核酸序列。另外，存储装置可以存储用于各种染色体或基因组等的标签计数。存储器还可以存储用于分析呈现序列或所映射数据的各种例程和/或程序。这样的程序/例程可以包括用于执行统计分析等的程序。

[0332] 在一个示例中，用户将样本提供到测序设备中。由连接到计算机的测序设备收集和/或分析数据。计算机上的软件允许数据收集和/或分析。数据可以存储、显示(经由监测器或其他类似装置)和/或发送到另一个位置。计算机可以连接到互联网，互联网用于将数据传输到由远程用户(例如，医生、科学家或分析师)使用的手持装置。理解，数据在传输之前可以存储和/或分析。在一些实施方式中，收集原始数据并将其发送到将分析和/或存储数据的远程用户或设备。传输可以经由互联网发生，但还可以经由卫星或其他连接发生。另选地，数据可以存储在计算机可读介质上，并且介质可以运送给最终用户(例如，经由邮件)。远程用户可以处于相同或不同的地理位置中，包括但不限于建筑物、城市、州、国家或大洲。

[0333] 在一些实施方式中，该方法还包括以下步骤：收集与多个多核苷酸序列(例如，读段、标签和/或参考染色体序列)有关的数据并将数据发送到计算机或其他计算系统。例如，计算机可以连接到实验室设备，例如，样本收集设备、核苷酸扩增设备、核苷酸测序设备或杂交设备。计算机然后可以收集由实验室装置收集的适用数据。数据可以在任意步骤(例如，在实时收集的同时、在发送之前、在发送期间或连同发送一起、或发送之后)存储在计算机上。数据可以存储在可以从计算机提取的计算机可读介质上。所收集或存储的数据可以从计算机传输到远程位置，例如，经由局部网络或诸如因特网的广域网。在远程位置处，可以如下面描述的对传输的数据执行各种操作。

[0334] 以下内容在可以在这里公开的系统、设备以及方法中存储、传输、分析和/或操纵的电子格式化数据的类型当中：

[0335] 通过对测试样本中的核酸测序获得的读段

[0336] 通过将读段比对到参考基因组或其他参考序列获得的标签

[0337] 参考基因组或序列

[0338] 用于将测试样本判定为受影响、不受影响或无判定的阈值

[0339] 与感兴趣的序列有关的医疗条件的实际判定

[0340] 诊断(与判定关联的临床情况)

[0341] 用于源自判定和/或诊断的另外测试的建议

[0342] 源自判定和/或诊断的治疗和/或监测计划

[0343] 这些各种类型的数据可以使用不同的设备在一个或更多个位置处获得、存储、传输、分析和/或操纵。处理选项跨越广泛的范围。在该范围的一端处，该信息的全部或许多存储并用于处理测试样本的位置处，例如，医生办公室或其他临床环境。在另一个示例中，样本在一个位置处获得，它在不同的位置处处理并可选地测序，读段在一个或更多个不同位置处比对并进行判定，并且诊断、建议和/或计划在另一个位置(该位置可以是获得样本的位置)处准备。

[0344] 在各种实施方式中，读段用测序设备来生成，然后传输到远程地点，在远程地点处，处理它们，以确定感兴趣的序列。在该远程位置处，作为示例，读段比对到参考序列，以产生锚读段和被锚读段。以下内容在可以在不同位置处采用的处理操作当中：

[0345] 样本收集

[0346] 测序之前的样本处理

[0347] 测序

[0348] 分析序列数据并导出医疗判定

[0349] 诊断

[0350] 向患者或医疗服务人员报告诊断和/或判定

[0351] 制定用于进一步治疗、测试和/或监测的计划

[0352] 执行计划

[0353] 咨询

[0354] 这些操作中的任意一个或更多个可以如这里在别处描述的自动化。通常，序列数据的测序和分析以及导出医疗呼叫(medical calls)将在计算上执行。其他操作可以手动或自动执行。

[0355] 图6示出了用于从测试样本产生呼叫或诊断的分散系统的一个实现。样本收集位置01用于从患者获得测试样本。样本然后提供给处理和测序位置03，在该位置中，可以如上所述地处理并测序测试样本。位置03包括用于处理样本的设备以及用于对处理后的样本进行测序的设备。如这里在别处描述的，测序的结果是读段的集合，这些读段通常以电子格式提供并提供给诸如因特网的网络，该网络由图6中的附图标记05表示。

[0356] 序列数据提供给远程位置07，在远程位置中，执行分析和呼叫生成。该位置可以包括一个或更多个强力的计算装置，例如计算机或处理器。在位置07处的计算资源完成其分析并从所接收的序列信息生成呼叫之后，将呼叫中继回到网络05。在一些实现中，在位置07处不仅生成呼叫，还生成关联的诊断。然后，跨网络传输呼叫和/或诊断并将其返回到样本收集位置01，如图6例示。如所说明的，这仅仅是关于可以如何在各种位置当中划分与生成呼叫或诊断关联的各种操作的许多变体中的一个。一个常见变体涉及在单个位置中提供样本收集和处理以及测序。另一个变体涉及在与分析和呼叫生成相同的位置处提供处理和测序。

[0357] 图7以简单的块格式例示了典型的计算机系统，当适当地配置或设计时，该计算机系统可以充当根据特定实施方式的计算设备。计算机系统2000包括联接到存储装置的任意数量的处理器2002(还称为中央处理单元或CPU)，存储装置包括主储存器2006(通常是随机存取存储器或RAM)、主储存器2004(通常是只读存储器或ROM)。CPU 2002可以是各种类型，包括微控制器和微处理器(诸如可编程装置(例如，CPLD和FPGA))和非可编程装置(诸如门阵列ASIC或通用微处理器)。在所描绘的实施方式中，主储存器2004用于单向地向CPU转移数据和指令，并且主储存器2006通常用于以双向方式传送数据和指令。这两个主存储装置可以包括任意合适的计算机可读介质，诸如上面描述的介质。大容量存储装置2008还双向地联接到主储存器2006并提供另外的数据存储容量，并且可以包括上述的任意计算机可读介质。大容量存储装置2008可以用于存储程序、数据等，并且通常是诸如硬盘的辅助存储介质。通常，这种程序、数据等被暂时复制到主存储器2006，以便在CPU 2002上执行。将理解，在适当的情况下，保留在大容量存储装置2008内的信息可以以标准样式作为主储存器2004的一部分并入。特定的大容量存储装置，诸如CD-ROM 2014，还可以单向地向CPU或主储存器传递数据。

[0358] CPU 2002还联接到接口2010，该接口2010连接到一个或更多个输入/输出装置，诸如核酸测序仪(2020)、核酸合成仪(2022)、视频监测器、跟踪球、鼠标、键盘、麦克风、触敏显示器、换能器读卡器、磁带或纸带读取器、平板电脑、触针、语音或手写识别外围设备、USB端口或其他众所周知的输入装置，当然诸如其他计算机。最后，CPU 2002可选地可以使用如一般在2012处示出的外部连接联接到外部装置，诸如数据库或计算机或电信网络。通过这种连接，预期CPU在执行这里描述的方法步骤的过程中，可以从网络接收信息，或者可以将信息输出到网络。在一些实现中，代替经由接口2010或者除了经由接口2010之外，核酸测序仪或核酸合成仪还可以经由网络连接2012通信地链接到CPU 2002。

[0359] 在一个实施方式中，诸如计算机系统2000这样的系统用作能够执行这里描述的任务中的一些或所有的数据导入、数据相关和查询系统。可以经由网络连接2012提供包括数据文件的信息和程序，以便研究人员访问或下载。另选地，这种信息、程序以及文件可以在存储装置上向研究人员提供。

[0360] 在具体实施方式中，计算机系统2000直接联接到数据获取系统，诸如微阵列、高通量筛选系统或从样本捕捉数据的核酸测序仪(2020)。来自这些系统的数据经由接口2010提供，以便由系统2000分析。另选地，由系统处理的数据从数据存储源(诸如数据库或相关数据的其他储存库)提供。一旦在设备2000中，则诸如主储存器2006或大容量储存器2008这样的存储装置至少暂时地缓冲或存储相关数据。存储器还可以存储用于导入、分析和呈现数据(包括序列读段、UMI、用于确定序列读段、塌缩序列读段和校正读段中的错误的代码等)的各种例程和/或程序。

[0361] 在特定实施方式中，这里使用的计算机可以包括：用户终端，该用户终端可以是任意类型的计算机(例如，台式电脑、膝上型电脑、平板电脑等)；介质计算平台(例如，电缆、卫星机顶盒、数字视频记录器等)；手持计算装置(例如，PDA、电子邮件客户端等)；蜂窝电话或任意其他类型的计算或通信平台。

[0362] 在特定实施方式中，这里使用的计算机还可以包括与用户终端通信的服务器系统，该服务器系统可以包括服务器装置或分散的服务器装置，并且计算机可以包括大型计算机、迷你计算机、超级计算机、个人计算机或其组合。在不偏离本发明的范围的情况下，还可以使用多个服务器系统。用户终端和服务器系统可以借助网络彼此通信。网络在不限制本发明的范围的情况下可以包括例如：有线网络，诸如LAN(局域网)、WAN(广域网)、MAN(城域网)、ISDN(集成服务数字网络)等；以及无线网络，诸如无线LAN、CDMA、蓝牙和卫星通信网络等。

[0363] 实验

[0364] 示例1

[0365] vNRUMI方法与其他条形码方法的比较

[0366] 表1示出了与根据一些实现的vNRUMI的碱基对异质性相比的NRUMI的碱基对异质性。120个vNRUMI的该集合由50个六聚体和70个七聚体组成。NRUMI集合完全由218个六聚体组成，其中，任意两个NRUMI之间的最小编辑距离超过阈值。表1假设218或128个条形码中的各个条形码以相等的量存在，例如，各UMI有1000个。对于第7个碱基，新的vNRUMI集合具有比原始NRUMI集合更好的异质性，并且远远超过所建议的每个碱基5％组合物的最小值。所以，明显的使vNRUMI设计解决了前面提及的、在特定周期缺乏碱基对多样性的挑战。唯一由六聚体组成的条形码的其他集合具有与下面描绘的原始NRUMI集合类似的每碱基异质性。

[0367] 表1：UMI位置内的碱基对异质性

[0368]

[0369] 使用上述NRUMI和vNRUMI，执行计算机模拟研究来模拟10000个条形码，通过独立地突变各碱基来突变每一个单个条形码，并且尝试恢复原始的UMI序列。模拟在各碱基处使用2％的突变率(SNV为1％机会，尺寸为1的插入缺失为1％机会)。注意，该突变率明显高于典型的因美纳测序错误率。10000个模拟中的每一个包括至少一个突变。

[0370] 为了提供与使用UMI的其他方法的进一步比较，在该模拟研究中还使用根据现有方法nxCode生成的长度为6nt的114个NRUMI序列的集合。参见http://hannonlab.cshl.edu/nxCode/nxCode/main.html。这些序列经历与上述相同的突变过程。
nxCode方法使用概率模型来确定突变，并且使用半贪婪方法来获得具有相等分子长度的NRUMI的集合。vNRUMI、NRUMI以及nxCode集合之间的比较结果可以在表2中找到。

[0371] 表2：比较不同UMI设计的错误校正率的基准结果

[0372]

[0373] vNRUMI集合具有120个UMI，其中，UMI具有长度6nt，并且70个UMI具有长度7nt。NRUMI集合具有218个长度为6的序列。传统方法nxCode使用长度为6nt的114个序列的NRUMI集合。集合的平均大小是在集合中包括的独特序列的平均数量。

[0374] 在表2中，独特校正被定义为最近邻居的集合内部只有一个序列的情况；换言之，上述UMI匹配和校正算法给出最可能真实的vNRUMI的明确建议。注意的是，对于vNRUMI方法，这种独特可校正序列的数量远大于NRUMI和nxCode。而且，最接近/次接近集合的平均尺寸在vNRUMI方法中远小于其他解决方案中，而原始非突变条形码包含在这些集合中的速率大致相等。这是重要的，因为在读段塌缩期间，上下文信息用于从这些最接近/次接近集合选择正确的UMI。用更少的错误序列提供该读段塌缩步骤可以降低其做出错误选择的机会，这最终提高抑制噪声和检测变异的能力。

[0375] 值得注意的是，NRUMI和nxCode方法和其他之前的条形码策略一样，假设条形码序列全部具有统一的长度。在产生该模拟时，为了提供三种方法之间的直接比较，未使用用于校正由NRUMI和nxCode方法描述的错误的原始方法，这可能限制NRUMI和nxCode方法的执行。然而，表2中的数据提供了对vNRUMI方法改进错误校正的潜在能力的了解，这将在下一个示例中进一步例示。

[0376] 示例2

[0377] 使用vNRUMI和NRUMI恢复DNA片段

[0378] 在另一组计算机研究中，测试了vNRUMI和NRUMI恢复读段的能力。研究拾取随机COSMIC突变并生成包含该突变的单个DNA片段。片段尺寸具有平均值166和标准偏差40。模拟将随机UMI添加到该片段的两端。它使用ART(参见例如，https://www.niehs.nih.gov/research/resources/software/biostatistics/art/)来模拟该UMI片段UMI分子的10个成对末端读段，并使用布罗斯惠勒(burrows wheeler)比对器(BWA)来比对这些读段。参见例如，http://bio-bwa.sourceforge.net/。

[0379] 该过程将比对传递到专有的读段塌缩器ReCo，以确定它是否可以恢复原始片段序列并对于另外读段重复该过程。

[0380] 表3示出了可以恢复的片段的数量和百分比。

[0381] 表3：NRUMI和vNRUMI设计的错误校正率

[0382]度量旧218NRUMI 新120vNRUMI
优先恢复的原始片段 16837(95.58％) 16,915(96.03％)
不优先恢复的原始片段 778(4.42％) 700(3.97％)
合计 17615(100％) 17615(100％)

[0383] vNRUMI方法比固定长度NRUMI方法恢复更多的片段。卡方检验表明差异显著。X^2＝4.297，双尾P值＝0.0382。使用α＝.05，vNRUMI方法与NRUMI方法相比，在解决NRUMI方法的缺点的同时在统计上实现了更好的错误校正性能。

[0384] NRUMI策略处理非均匀长度的NRUMI集合。这解决了导致比对质量下降的碱基对多样性问题。

[0385] 提供了新过程，这些新过程用于生成满足生化限制的可变长度UMI的集合，并且用于将误读的UMI映射到正确的UMI。新方法解决了由均匀长度条形码引起的降低测序质量的问题。使用知道匹配和错配的数量的匹配方案，如与仅跟踪错配相反，允许改进错误校正的能力。实现在提供另外功能的同时与现有解决方案相当或超过现有解决方案。

[0386] 本公开在不偏离本公开的精神或必要特性的情况下可以以其他具体形式来具体实施。所述实施方式在所有方面仅被认为是例示性而不是限制性的。因此，本公开的范围由所附权利要求而不是由前述描述来表示。在权利要求的含义和等同范围内的所有变化包含在其范围内。

标题	发布/更新时间	阅读量
语音交互匹配方法、计算机设备以及计算机可读存储介质	2020-05-11	666
一种基于智能语音人机互动设备的金融服务系统	2020-05-25	823
具有可变长度非随机独特分子标识符的通用短衔接子	2020-05-08	1011
一种用于对工业网络传输协议进行解析的方法及系统	2020-05-24	856
用于自动地处理自动化系统的多个日志文件的方法	2020-06-04	165
通过在离散实体中条形码化对核酸进行测序	2020-05-30	47
用于具有非均匀分子长度的独特分子索引集合的生成和错误校正的方法和系统	2020-05-20	849
处理自动化系统的日志文件的方法及其应用和自动化系统	2020-05-19	865
一种招投标生命周期关联方法、系统、存储介质及计算机设备	2020-05-12	722
一种医保反欺诈串换编码挖掘系统及方法	2020-05-17	497

用于具有非均匀分子长度的独特分子索引集合的生成和错误校正的方法和系统

用于具有非均匀分子长度的独特分子索引集合的生成和错误

背景技术

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：