首页 / 专利库 / 专利权 / 共同代表 / 用于肿瘤检测的方法和系统

用于肿瘤检测的方法和系统

阅读:825发布:2022-12-05

专利汇可以提供用于肿瘤检测的方法和系统专利检索,专利查询,专利分析的服务。并且本文提供了使用无细胞核酸样品改善癌症检测的阳性预测值的方法。各个实施方案针对于包括来自病原体(包括病毒)的核酸在内的无细胞DNA(例如 血浆 DNA和血清DNA)的 片段 化模式和大小的分析的应用(例如,诊断应用)。一个应用的实施方案可以确定受试者是否具有特定病况。例如,本公开内容的方法可以确定受试者是否具有癌症或 肿瘤 或其他病理学。另一应用的实施方案可用于评估病况的阶段,或病况随时间的进展。例如,本公开内容的方法可用于确定受试者的癌症阶段,或受试者的癌症随时间的进展(例如,使用在不同时间从受试者获得的样品)。,下面是用于肿瘤检测的方法和系统专利的具体信息内容。

1.一种筛查受试者中的肿瘤的方法,所述方法包括:
(a)从所述受试者获得第一生物样品,其中所述第一生物样品包含来自所述受试者的无细胞核酸和潜在的来自病原体的无细胞核酸;
(b)进行第一测定,其包括测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数;
(c)从所述受试者获得第二生物样品,其中所述第二生物样品包含来自所述受试者的无细胞核酸和潜在的来自病原体的无细胞核酸;
(d)进行第二测定,其包括对所述第二生物样品中的所述无细胞核酸进行大规模平行测序,以生成序列读取,并且
i.确定与所述病原体的参考基因组比对的所述序列读取的量;以及
ii.确定具有在给定范围内的大小并基于所述大规模平行测序与所述病原体的参考基因组比对的所述无细胞核酸分子的量;以及
(e)基于步骤(b)和步骤(d)筛查所述肿瘤。
2.根据权利要求1所述的方法,其中所述第一生物样品和所述第二生物样品是相同的。
3.根据权利要求1所述的方法,进一步包括确定与所述病原体的参考基因组比对的所述序列读取的百分比。
4.根据权利要求1所述的方法,进一步包括将与所述病原体的参考基因组比对的所述序列读取的百分比与截止值进行比较。
5.根据权利要求1所述的方法,进一步使确定以下两者的大小比率:
具有在所述给定范围内的大小的与所述病原体的所述参考基因组比对的来自所述第二生物样品的所述无细胞核酸分子的第一比例;以及
具有在所述给定范围内的大小的与所述受试者的参考基因组比对的来自所述第二生物样品的所述无细胞核酸分子的第二比例。
6.根据权利要求5所述的方法,进一步包括确定大小指数,其中所述大小指数是所述大小比率的倒数,并且将所述大小指数与第二截止值进行比较。
7.根据权利要求1所述的方法,其中所述肿瘤是鼻咽癌。
8.根据权利要求1所述的方法,其中所述病原体是EB病毒(EBV)。
9.根据权利要求1所述的方法,其中测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数包括扩增。
10.根据权利要求1所述的方法,其中所述扩增包括聚合酶链反应(PCR)。
11.根据权利要求1所述的方法,其中所述PCR包括定量PCR(qPCR)。
12.根据权利要求1所述的方法,其中所述第一生物样品和所述第二生物样品是血浆
13.一种筛查受试者中的肿瘤的方法,所述方法包括:
(a)从所述受试者获得第一生物样品,其中所述第一生物样品包含来自所述受试者的无细胞核酸和潜在的来自病原体的无细胞核酸;
(b)进行第一测定,其包括测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数,其中所述第一测定包括所述受试者中存在所述肿瘤的阳性预测值;以及(c)对来自所述受试者的第二生物样品进行第二测定,其中所述第二生物样品包含来自所述受试者的无细胞核酸和潜在的来自所述病原体的无细胞核酸,并且其中所述第一测定和所述第二测定的所述受试者中存在所述肿瘤的阳性预测值比所述第一测定的所述阳性预测值高至少5倍。
14.根据权利要求13所述的方法,其中所述第一测定和所述第二测定的所述受试者中存在所述肿瘤的所述阳性预测值比所述第一测定的所述阳性预测值高至少7.5倍。
15.根据权利要求13所述的方法,其中所述第一测定和所述第二测定的受试者中存在所述肿瘤的所述阳性预测值为至少15%。
16.根据权利要求13所述的方法,其中所述第一测定和所述第二测定的受试者中存在所述肿瘤的所述阳性预测值为至少25%。
17.根据权利要求13所述的方法,其中所述第一生物样品和所述第二生物样品是相同的。
18.根据权利要求14所述的方法,其中所述第一生物样品和所述第二生物样品是血浆。
19.根据权利要求13所述的方法,其中所述肿瘤是鼻咽癌。
20.根据权利要求13所述的方法,其中所述病原体是EB病毒(EBV)。
21.根据权利要求13所述的方法,其中测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数包括扩增。
22.根据权利要求21所述的方法,其中所述扩增包括聚合酶链反应(PCR)。
23.根据权利要求22所述的方法,其中所述PCR包括定量PCR(qPCR)。
24.根据权利要求13所述的方法,其中所述第二测定包括对所述第二生物样品中的所述无细胞核酸进行大规模平行测序,以生成序列读取。
25.根据权利要求24所述的方法,其中所述第二测定包括确定与所述病原体的参考基因组比对的所述序列读取的量。
26.根据权利要求25所述的方法,其中所述第二测定包括确定具有在所述给定范围内的大小并与所述病原体的参考基因组比对的所述第二生物样品中的所述无细胞核酸分子的量。
27.一种筛查受试者中的肿瘤的方法,所述方法包括:
(a)从所述受试者获得第一生物样品,其中所述第一生物样品包含来自所述受试者的无细胞核酸和潜在的来自病原体的无细胞核酸;
(b)进行第一测定,其包测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数,其中所述第一测定具有所述受试者中存在所述肿瘤的假阳性率;以及(c)对来自所述受试者的第二生物样品进行第二测定,其中所述第二生物样品包含来自所述受试者的无细胞核酸和潜在的来自所述病原体的无细胞核酸,其中所述第一测定和所述第二测定的所述受试者中存在所述肿瘤的假阳性率比所述第一测定的假阳性率低至少5倍。
28.根据权利要求27所述的方法,其中所述第一测定和所述第二测定的所述受试者中存在所述肿瘤的所述假阳性率比所述第一测定的所述假阳性率低至少10倍。
29.根据权利要求27所述的方法,其中所述第一测定和所述第二测定的受试者中存在所述肿瘤的假阳性率小于1%。
30.根据权利要求27所述的方法,其中所述第一生物样品和所述第二生物样品是相同的。
31.根据权利要求30所述的方法,其中所述第一生物样品和所述第二生物样品是血浆。
32.根据权利要求27所述的方法,其中所述肿瘤是鼻咽癌。
33.根据权利要求27所述的方法,其中所述病原体是EB病毒(EBV)。
34.根据权利要求27所述的方法,其中测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数包括扩增。
35.根据权利要求34所述的方法,其中所述扩增包括聚合酶链反应(PCR)。
36.根据权利要求35所述的方法,其中所述PCR包括定量PCR(qPCR)。
37.根据权利要求27所述的方法,其中所述第二测定包括对所述第二生物样品中的所述无细胞核酸进行大规模平行测序,以生成序列读取。
38.根据权利要求37所述的方法,其中所述第二测定包括确定与所述病原体的参考基因组比对的所述序列读取的量。
39.根据权利要求38所述的方法,其中所述第二测定包括确定具有在所述给定范围内的大小并与所述病原体的参考基因组比对的所述第二生物样品中的所述无细胞核酸分子的量。
40.一种分析包含无细胞核酸分子的混合物的生物样品的方法,以确定所述生物样品从其获得的受试者的病理学平,所述混合物包含来自所述受试者的核酸分子和潜在的来自病原体的核酸分子,所述方法包括:
分析来自所述受试者的生物样品的第一多个无细胞核酸分子,其中所述分析包括确定对应于所述第一多个无细胞核酸分子的至少一个末端的参考基因组中的基因组位置,所述参考基因组对应于所述病原体;
确定终止于第一窗口中的一个内的所述第一多个无细胞核酸分子的第一量,每个第一窗口包含第一集合的基因组位置中的至少一个,在所述第一集合的基因组位置处无细胞核酸分子的末端在具有与所述病原体相关的病理学的受试者中以高于第一阈值的比率存在;
通过使用来自所述生物样品的所述第一多个无细胞核酸分子的第二量使所述第一量归一化来计算终止于所述第一窗口中的一个内的所述第一多个无细胞核酸分子的相对丰度,其中所述第一多个无细胞核酸分子的所述第二量包括终止于包含所述第一集合的基因组位置的所述第一窗口外的第二集合的基因组位置的无细胞核酸分子;以及
通过针对一个或多个截止值处理所述相对丰度来确定所述受试者的病理学水平。
41.根据权利要求40所述的方法,其中针对一个或多个截止值处理所述相对丰度包括:
确定所述相对丰度是否大于所述一个或多个截止值。
42.根据权利要求40所述的方法,进一步包括:
确定终止于第二窗口中的一个内的所述第一多个无细胞核酸分子的所述第二量,每个第二窗口包含第二集合的基因组位置中的至少一个,在所述第二集合的基因组位置处无细胞核酸分子的末端在不具有病原体导致的病理学的受试者中以高于第二阈值的比率存在;
其中使所述第一量归一化包括使用所述第一量和所述第二量计算所述相对丰度。
43.根据权利要求42所述的方法,进一步包括鉴别所述第二集合的基因组位置,其中所述鉴别包括:
通过计算机系统分析来自不具有所述病理学的参考受试者的参考样品的无细胞核酸分子,其中分析所述多个无细胞核酸分子中的每一个包括:
确定对应于所述无细胞核酸分子的至少一个末端的所述参考基因组中的基因组位置。
44.根据权利要求43所述的方法,其中所述参考受试者是健康的。
45.根据权利要求42所述的方法,其中所述相对丰度包括所述第一量和所述第二量的比率。
46.根据权利要求40所述的方法,进一步包括鉴别第一集合的基因组位置,在所述第一集合的基因组位置处无细胞核酸分子的末端以高于第一阈值的比率出现。
47.根据权利要求46所述的方法,其中鉴别所述第一集合的基因组位置包括:
通过计算机系统分析来自至少一个第一额外样品的第二多个无细胞核酸分子,以鉴别所述第二多个无细胞核酸分子的终止位置,其中所述至少一个第一额外样品已知具有与所述病原体相关的病理学并且与所述生物样品属于相同的样品类型;
对于多个基因组窗口的每个基因组窗口:
计算终止于所述基因组窗口上的所述第二多个无细胞核酸分子的对应数目;以及将所述对应数目与参考值进行比较,以确定终止于所述基因组窗口内的一个或多个基因组位置上的无细胞核酸分子的比率是否高于所述第一阈值。
48.根据权利要求47所述的方法,其中所述多个基因组窗口中的第一基因组窗口具有至少一个基因组位置的宽度,并且其中当所述对应数目超过所述参考值时,所述第一基因组窗口内的每个基因组位置被鉴别为终止于所述基因组位置上的无细胞核酸分子的比率高于所述第一阈值。
49.根据权利要求47所述的方法,其中所述第一集合的基因组位置具有所述对应数目的最高N值,其中N为至少100。
50.根据权利要求47所述的方法,其中所述第一集合的基因组位置中的每个基因组位置具有终止于所述基因组位置上的所述第二多个无细胞核酸分子中的至少指定数目的无细胞核酸分子。
51.根据权利要求47所述的方法,其中所述参考值是根据所述至少一个第一额外样品中的无细胞核酸分子的概率分布和平均长度终止于所述基因组窗口内的无细胞核酸分子的预期数目。
52.根据权利要求51所述的方法,其中所述概率分布是泊松分布,并且其中确定终止于所述基因组窗口内的一个或多个基因组位置上的无细胞核酸分子的比率是否高于所述第一阈值包括:
使用所述对应数目和所述预期数目确定对应p值,其中所述第一阈值对应于截止p值,所述对应p值小于所述截止p值表明终止于所述基因座窗口内的无细胞核酸分子的比率高于所述第一阈值。
53.根据权利要求47所述的方法,其中终止于所述基因组位置上的所述第二多个无细胞核酸分子的比率高于所述第一阈值的所述基因组位置构成第一超集,并且其中鉴别所述第一集合的基因组位置进一步包括:
通过所述计算机系统分析来自被鉴别为不具有所述病理学的至少一个第二额外样品的第三多个无细胞核酸分子,以鉴别终止于所述基因组位置上的所述第三多个无细胞核酸分子的第二超集高于所述第一阈值;以及
将所述第一集合的基因组位置鉴别为包含在所述第一超集中的且不在所述第二超集中的基因组位置。
54.根据权利要求47所述的方法,其中所述参考值包括终止于所述基因组窗口内的测量数目的无细胞核酸分子,所述测量数目由被鉴别为不具有所述病理学的至少一个第二额外样品的第三多个无细胞核酸分子确定。
55.根据权利要求54所述的方法,其中将所述对应数目与所述参考值进行比较包括:
计算所述对应数目与覆盖所述基因组窗口的所述第三多个无细胞核酸分子的第三数目的第一比率;以及
比较所述第一比率与所述参考值,所述参考值包括终止于所述基因组窗口内的速去的测量数目与覆盖所述基因组窗口并且不终止于所述基因组窗口内的所述第三多个无细胞核酸分子的第四数目的参考比率。
56.根据权利要求55所述的方法,其中所述第三数目的所述第三多个无细胞核酸分子不终止于所述基因组窗口内。
57.根据权利要求55所述的方法,其中确定终止于所述基因组窗口内的无细胞核酸分子的比率是否高于所述第一阈值包括:
确定所述第一比率是否大于乘积因子乘以所述参考比率。
58.根据权利要求47所述的方法,其中所述生物样品和所述至少一个第一额外样品的样品类型选自血浆、血清、脑脊液和尿液。
59.根据权利要求47所述的方法,其中所述至少一个第一额外样品来自所述受试者并且与所述生物样品在不同的时间获得。
60.根据权利要求40所述的方法,其中所述第一窗口具有一个基因组位置的宽度,并且其中所述相对丰度通过以下计算:
对于所述第一集合的基因组位置中的每个基因组位置:
计算终止于所述基因组位置上的所述第一多个无细胞核酸分子的对应数目,作为确定所述第一多个无细胞核酸分子的所述第一量终止于所述第一集合的基因组位置的任一个上的一部分;
计算覆盖所述基因组位置并且不终止于所述基因组位置上的所述第一多个无细胞核酸分子的第三量,作为确定所述第一多个无细胞核酸分子的所述第二量的一部分;以及计算所述对应数目与所述第三数目的第一比率;计算所述第一比率的平均值作为所述相对丰度。
61.根据权利要求40所述的方法,其中所述相对丰度通过以下计算:
对于所述第一集合的基因组位置中的每个基因组位置:
计算终止于包含所述基因组位置的第一窗口内的所述第一多个无细胞核酸分子的对应数目,作为确定所述第一多个无细胞核酸分子的所述第一量终止于所述第一窗口中的一个内的一部分;
计算终止于包含所述基因组位置的第二窗口内的所述第一多个无细胞核酸分子的第三数目,所述第二窗口大于所述第一窗口;计算所述对应数目与所述第三数目的第一比率;
以及
计算所述第一比率的平均值作为所述相对丰度。
62.根据权利要求40所述的方法,其中所述第二集合的基因组位置和所述第一集合的基因组位置不重叠。
63.根据权利要求40所述的方法,其中所述第二集合的基因组位置包括对应于所述第一多个无细胞核酸分子中的至少一个的末端的所有基因组位置。
64.根据权利要求40所述的方法,其中分析一个或多个所述无细胞核酸分子包括确定对应于所述无细胞核酸分子的两个末端的两个基因组位置。
65.根据权利要求40所述的方法,其中所述第一集合的基因组位置或所述第二集合的基因组位置包含600至10,000个基因组位置。
66.一种分析包含无细胞核酸分子的混合物的生物样品的方法,以确定所述生物样品从其获得的受试者的病理学水平,所述混合物包含来自所述受试者的核酸分子和潜在的来自病原体的核酸分子,所述方法包括:
对于所述生物样品中的多个核酸分子中的每个:
测量所述核酸分子的大小;
确定所述核酸分子来自参考基因组,所述参考基因组对应于所述病原体;
确定来自所述参考基因组的所述多个核酸分子的大小分布的统计值;以及
通过针对一个或多个截止值处理所述统计值来确定所述受试者的病理学水平。
67.根据权利要求66所述的方法,其中所述统计值是所述大小分布的均值、众数、中值或平均值。
68.根据权利要求66所述的方法,其中所述统计值是低于大小阈值的来自所述参考基因组的所述生物样品中的所述多个核酸分子的百分比。
69.根据权利要求66所述的方法,其中所述统计值是以下两者的比率:
在第一大小范围内的来自所述参考基因组的所述生物样品中的所述多个核酸分子的第一量;以及
在不同于所述第一大小范围的第二大小范围内的来自所述参考基因组的所述生物样品中的所述多个核酸分子的第二量。
70.根据权利要求40-69中任一项所述的方法,其中所述病理学选自膀胱癌、骨癌、脑肿瘤、乳腺癌宫颈癌、结直肠癌、食管癌、胃肠癌、造血系统恶性肿瘤、白血病、肝癌、癌、淋巴瘤、骨髓瘤、鼻癌、鼻咽癌、口癌、口咽癌、卵巢癌、前列腺癌、肉瘤、胃癌和甲状腺癌。
71.根据权利要求70所述的方法,其中所述病理学水平选自:所述受试者中肿瘤组织的量、所述受试者中的肿瘤大小、所述受试者中的肿瘤阶段、所述受试者中的肿瘤负荷以及所述受试者中肿瘤转移的存在。
72.根据权利要求40-71中任一项所述的方法,其中所述病原体包括病毒。
73.根据权利要求72所述的方法,其中所述病毒包括EBV DNA、HPV DNA、HBV DNA、HCV核酸或其片段
74.根据权利要求40-73中任一项所述的方法,进一步包括:
从待分析的所述生物样品获得模板核酸分子;
使用所述模板核酸分子制备可分析核酸分子的测序文库,所述制备可分析核酸分子的所述测序文库不包括所述模板核酸分子的核酸扩增操作;
对可分析核酸分子的所述测序文库进行测序以获得对应于所述第一多个无细胞核酸分子的多个序列读取,
其中分析所述第一多个无细胞核酸分子或所述多个无细胞核酸分子包括:
在所述计算机系统中接收所述多个序列读取;并且
通过所述计算机系统将所述多个序列读取与所述参考基因组进行比对以确定所述多个序列读取的基因组位置。
75.根据权利要求40-74中任一项所述的方法,进一步包括基于所述病理学水平提供治疗干预或基于所述病理学水平对所述受试者进行成像。
76.根据权利要求40-75中任一项所述的方法,其中所述无细胞核酸分子是脱核糖核酸(DNA)分子。
77.一种计算机产品,其包含存储用于控制计算机系统以执行上述任何方法的操作的多个指令的计算机可读介质。
78.一种系统,其包括:
根据权利要求77所述的计算机产品;以及
用于执行存储在所述计算机可读介质上的指令的一个或多个处理器。
79.一种系统,其包括用于执行任何上述方法的手段。
80.一种系统,其被配置为执行任何上述方法。
81.一种系统,其包含分别执行任何上述方法的步骤的模
82.一种分析包含无细胞核酸分子的混合物的生物样品的方法,以确定所述生物样品从其获得的受试者的病理学水平,所述混合物包含来自所述受试者的核酸分子和潜在的来自病原体的核酸分子,所述方法包括:
进行第一测定,其中所述第一测定包括分析来自所述受试者的生物样品的多个无细胞核酸分子,以确定与参考基因组比对的所述多个无细胞核酸分子的第一量,所述参考基因组对应于所述病原体;以及
进行第二测定,其中所述第二测定包括
测量所述生物样品中所述多个核酸分子中的每一个的大小;以及
确定具有在给定范围内的大小并与所述参考基因组比对的所述多个核酸分子的第二量;
将所述第一量与第一截止阈值进行比较;
将所述第二量与第二截止阈值进行比较;以及
基于所述第一量和所述第二量确定所述受试者的所述病理学水平。
83.根据权利要求82所述的方法,进一步包括富集所述样品的所述多个无细胞核酸分子。
84.根据权利要求83所述的方法,进一步包括使用具有在所述给定范围内的大小并与常染色体基因组比对的无细胞核酸分子的第三量使所述第二量归一化。
85.一种分析包含无细胞核酸分子的混合物的生物样品的方法,以确定所述生物样品从其获得的受试者的病理学水平,所述混合物包含来自所述受试者的核酸分子和潜在的来自病原体的核酸分子,所述方法包括:
对所述无细胞核酸分子进行大规模平行测序以生成序列读取;
确定与所述病原体的参考基因组比对的所述序列读取的量;
确定具有在给定范围内的大小并与所述病原体的参考基因组比对的所述无细胞核酸分子的量;以及
使用与所述病原体的参考基因组比对的所述序列读取的量和具有在给定范围内的大小并与所述病原体的参考基因组比对的所述无细胞核酸分子的量来确定所述受试者的所述病理学水平。
86.根据权利要求85所述的方法,进一步包括确定与所述病原体的参考基因组比对的所述序列读取的百分比。
87.根据权利要求86所述的方法,进一步包括将所述百分比与第一截止值进行比较。
88.根据权利要求85所述的方法,其中所述病原体包括病毒。
89.根据权利要求88所述的方法,其中所述病毒包括EBV DNA、HPV DNA、HBV DNA、HCV核酸或其片段。
90.根据权利要求89所述的方法,其中所述病毒包括EBV DNA或其片段。
91.根据权利要求85所述的方法,其中所述病理学水平选自膀胱癌、骨癌、脑肿瘤、乳腺癌、宫颈癌、结直肠癌、食管癌、胃肠癌、造血系统恶性肿瘤、白血病、肝癌、肺癌、淋巴瘤、骨髓瘤、鼻癌、鼻咽癌、口癌、口咽癌、卵巢癌、前列腺癌、肉瘤、胃癌和甲状腺癌。
92.根据权利要求85所述的方法,其中所述病理学水平包括鼻咽癌。
93.根据权利要求85所述的方法,进一步使确定以下两者的大小比率:
具有在所述给定范围内的大小的与所述病原体的所述参考基因组比对的所述无细胞核酸分子的第一比例;以及
具有在所述给定范围内的大小的与所述受试者的参考基因组比对的所述无细胞核酸分子的第二比例。
94.根据权利要求93所述的方法,其中所述病原体是EBV并且所述给定范围是80bp至
110bp。
95.根据权利要求94所述的方法,进一步包括确定大小指数,其中所述大小指数是所述大小比率的倒数,并且将所述大小指数与第二截止值进行比较。
96.一种检测受试者中的肿瘤的方法,包括:
(a)从所述受试者获得第一生物样品,其中所述第一生物样品包含或疑似包含肿瘤衍生的DNA;
(b)进行第一测定,其中所述第一测定对指示所述肿瘤的第一集合的标志物具有灵敏度,并且其中所述第一测定包括(i)测量来自所述第一生物样品的所述肿瘤衍生的DNA的第一量,其对应于所述第一生物样品中所述肿瘤衍生的DNA的拷贝数、片段大小分布、片段化模式、甲基化状态和突变状态中的一种;(ii)生成肿瘤衍生的DNA的第一量与至少一个第一校准值的比较;以及(iii)基于肿瘤衍生的DNA的所述第一量与所述至少一个第一校准值的比较,确定所述第一生物样品是否包含指示所述肿瘤的所述第一集合的标志物;
(c)如果所述第一生物样品包含指示所述肿瘤的所述第一集合的标志物,如(b)中所确定的,则进行第二测定,其中所述第二测定对指示所述肿瘤的第二组标志物具有特异性,并且其中所述第二测定包括(i)测量来自第二生物样品的肿瘤衍生的DNA的第二量,其对应于所述肿瘤衍生的DNA的片段大小分布、片段化模式、甲基化状态和突变状态中的一种;(ii)生成DNA的所述第二量与至少一个第二校准值的比较;以及(iii)基于DNA的所述第二量与所述至少一个第二校准值的比较,鉴别所述受试者中的所述肿瘤;以及
(d)输出指示所述受试者中的所述肿瘤的报告。
97.根据权利要求96所述的方法,其中肿瘤衍生的DNA的所述第二量对应于所述片段大小分布,并且其中测量所述第二量包括所述肿瘤衍生的DNA和其他DNA,从而生成多种大小的DNA片段的量。
98.根据权利要求97所述的方法,其中生成(c)的比较包括:
用计算机系统计算第一参数的第一值,所述第一参数提供所述第二生物样品中DNA片段的大小谱的统计学量度,以及
将所述第一值与至少一个第二校准值进行比较。
99.根据权利要求96所述的方法,其中获得所述第一生物样品是非侵入性的。
100.根据权利要求96所述的方法,其中所述第一生物样品和所述第二生物样品中的至少一个包含衍生自正常细胞的DNA。
101.根据权利要求96所述的方法,进一步包括获得所述第二生物样品,其中所述第二生物样品包含衍生自正常细胞的DNA和肿瘤衍生的DNA。
102.根据权利要求101所述的方法,其中获得所述第二生物样品是非侵入性的。
103.根据权利要求101所述的方法,其中在获得所述第一生物样品后至少约1周获得所述第二生物样品。
104.根据权利要求96所述的方法,其中所述第一生物样品和所述第二生物样品是相同的样品。
105.根据权利要求96所述的方法,其中所述第一集合的标志物和所述第二集合的标志物是相同集合的标志物。
106.根据权利要求96所述的方法,其中所述第一测定对所述第一标志物的灵敏度为至少约80%。
107.根据权利要求96所述的方法,其中所述第一测定具有至少约80%的阴性预测值。
108.根据权利要求96所述的方法,其中所述第二测定对所述第二标志物的特异性为至少约70%。
109.根据权利要求96所述的方法,其中所述第二测定具有至少约10%的阳性预测值。
110.根据权利要求96所述的方法,其中所述第二测定的所述阳性预测值比所述第一测定的所述阳性预测值高至少1.5倍、至少2倍、至少4倍、至少10倍、至少20倍、至少50倍或至少100倍。
111.根据权利要求96所述的方法,其中确定所述第一生物样品是否包含指示所述肿瘤的所述第一标志物在进行所述第一测定后至多24小时内进行。
112.根据权利要求96所述的方法,其中所述第二测定在进行所述第一测定后至少1周进行。
113.根据权利要求96所述的方法,其中所述肿瘤是良性的、癌前的或癌性的。
114.根据权利要求96所述的方法,其中所述肿瘤是鼻咽癌。
115.根据权利要求96所述的方法,其中所述肿瘤是口咽癌。
116.根据权利要求96所述的方法,其中所述肿瘤是口癌。
117.根据权利要求114所述的方法,其中所述肿瘤衍生的DNA包括肿瘤衍生的EB病毒(EBV)DNA片段。
118.根据权利要求117所述的方法,其中所述肿瘤衍生的EBV DNA片段包含至少一个BamHI-W序列。
119.根据权利要求118所述的方法,其中所述肿瘤衍生的EBV DNA片段具有小于180个核苷酸的长度。
120.根据权利要求119所述的方法,其中所述第一生物样品和所述第二生物样品中的至少一个包含具有至少180个核苷酸的长度的病毒衍生的EBV DNA片段。
121.根据权利要求120所述的方法,进一步包括检测所述病毒衍生的DNA,其中所述病毒衍生的DNA的检测是肿瘤衍生的DNA的阴性对照。
122.根据权利要求96所述的方法,其中所述肿瘤是肝癌。
123.根据权利要求96所述的方法,其中所述肿瘤选自膀胱癌、骨癌、脑肿瘤、乳腺癌、食管癌、胃肠癌、造血系统恶性肿瘤、白血病、肺癌、淋巴瘤、骨髓瘤、卵巢癌、前列腺癌、肉瘤、胃癌和甲状腺癌。
124.根据权利要求96所述的方法,其中所述第一生物样品和所述第二生物样品中的至少一个独立地选自全血、血浆、血清、尿液、脑脊液、血沉棕黄层及其组合。
125.根据权利要求96所述的方法,其中所述肿瘤衍生的DNA是基本上无细胞的。
126.根据权利要求96所述的方法,其中测量所述肿瘤衍生的DNA的所述第一量包括使用实时聚合酶链反应(PCR)来检测所述生物样品中肿瘤衍生的DNA的拷贝数。
127.根据权利要求126所述的方法,其中所述肿瘤衍生的DNA包括EB病毒(EBV)DNA片段。
128.根据权利要求127所述的方法,其中所述EBV DNA片段包含至少一个BamHI-W序列,并且其中检测肿瘤衍生DNA的所述拷贝数包括检测所述至少一个BamHI-W序列的所述拷贝数。
129.根据权利要求128所述的方法,其中所述肿瘤是鼻咽癌,并且其中所述第一校准值为每毫升所述生物样品0个与至多约1,000,000个拷贝之间的BamHI-W序列。
130.根据权利要求129所述的方法,其中所述第一校准值为每毫升所述生物样品0个与至多约4,000个拷贝之间的BamHI-W序列拷贝。
131.根据权利要求129所述的方法,其中所述第一校准值为每毫升所述生物样品约20,
000个与约50,000个拷贝之间的BamHI-W序列。
132.根据权利要求96所述的方法,其中所述第一校准值对应于衍生自对照受试者的DNA片段的拷贝数。
133.根据权利要求129-131中任一项所述的方法,其中从数据库获得所述第一校准值。
134.根据权利要求96所述的方法,其中测量所述肿瘤衍生的DNA的所述第一值包括使用测序来检测所述生物样品中肿瘤衍生的所述DNA的片段大小分布或所述片段化模式中的一种。
135.根据权利要求96所述的方法,其中测量所述肿瘤衍生的DNA的所述第一值包括使用甲基化感知测序来检测所述生物样品中肿瘤衍生的DNA的所述甲基化状态。
136.根据权利要求96所述的方法,其中所述肿瘤是鼻咽癌,并且其中鉴别所述受试者中的所述肿瘤进一步包括在所述受试者中对鼻咽进行内窥镜检查。
137.根据权利要求96所述的方法,其中鉴别所述受试者中的所述肿瘤进一步包括对所述受试者进行磁共振成像检查。
138.根据权利要求96所述的方法,其中所述DNA片段对应于基因组的一个或多个预定区域。
139.根据权利要求98所述的方法,其中所述第一参数代表短DNA片段的丰度相对于大DNA片段的丰度,并且其中所述短DNA片段具有小于所述大DNA片段的大小。
140.根据权利要求98所述的方法,其中所述第二校准值包括多个第二校准值,其中所述多个第二校准值中的每一个对应于校准样品中所述肿瘤衍生的DNA的分数浓度。
141.根据权利要求140所述的方法,其中所述多个第二校准值中的每一个由对应于多个校准样品中的不同校准样品的直方图确定,其中所述直方图提供多个大小的DNA片段的值,并且其中所述不同校准样品中的每一个的至少一部分具有不同分数浓度的肿瘤衍生DNA。
142.根据权利要求140所述的方法,进一步包括:对于所述多个校准样品中的每一个,通过以下计算所述第二校准值:
测量所述校准样品中肿瘤衍生DNA的所述分数浓度;
测量所述多个大小的DNA片段的值;以及
基于所述多个大小的DNA片段的值计算所述第一参数的所述第二校准值。
143.根据权利要求96所述的方法,进一步包括确定逼近所述多个第二校准值的所述第二校准值的函数,其中所述多个第二校准值中的每一个对应于肿瘤衍生的DNA的不同分数浓度。
144.根据权利要求96所述的方法,其中所述函数是线性函数。
145.根据权利要求98所述的方法,其中测量对应于多个大小中的每一个的来自所述生物样品的DNA片段的所述第二值包括:对于所述DNA片段的每一个测量所述DNA片段的大小,其中测量所述DNA片段的大小包括:
进行所述DNA片段的测序以获得序列读取;
将所述序列读取与参考基因组中的位置进行比对;以及
使用所述比对的位置确定所述DNA片段的大小。
146.根据权利要求145所述的方法,其中所述测序是配对末端测序。
147.根据权利要求96所述的方法,其中所述多个大小的大小对应于长度、分子质量或与所述长度成比例的参数。
148.一种用于检测受试者中的肿瘤的系统,包含:一个或多个计算机处理器,所述计算机处理器被单独或共同编程用于:
(a)指导对从所述受试者获得的第一生物样品的第一测定,其中所述第一生物样品包含或疑似包含肿瘤衍生的DNA,其中所述第一测定对指示所述肿瘤的第一标志物具有灵敏度,并且其中所述第一测定包括(i)测量来自所述第一生物样品的所述肿瘤衍生的DNA的第一值,其对应于所述第一生物样品中所述肿瘤衍生的DNA的拷贝数、片段大小分布、片段化模式、甲基化状态和突变状态中的一种;(ii)生成肿瘤衍生的DNA的所述第一值与至少一个第一校准值的比较;以及(iii)基于肿瘤衍生的DNA的所述第一值与所述至少一个第一校准值的比较,确定所述第一生物样品是否包含指示肿瘤的所述第一标志物;
(b)如果所述第一生物样品包含指示所述肿瘤的所述第一标志物,如(b)中所确定的,则指导第二测定,其中所述第二测定对指示所述肿瘤的第二标志物具有特异性,并且其中所述第二测定包括(i)测量来自第二生物样品的肿瘤衍生的DNA的第二值,其对应于所述肿瘤衍生的DNA的片段大小分布、片段化模式、甲基化状态和突变状态中的一种;(ii)生成DNA的所述第二值与至少一个第二校准值的比较;以及(iii)基于DNA的所述第二值与所述至少一个第二校准值的比较,鉴别所述受试者中的所述肿瘤;以及
(c)输出指示所述受试者中的所述肿瘤的报告;以及
(d)计算机存储器可操作地耦合到所述一个或多个计算机处理器,其中所述计算机存储器存储所述报告。
149.一种非暂时性计算机可读介质,其包含在由一个或多个计算机处理器执行时实现检测受试者中的肿瘤的方法的机器可执行代码,所述方法包括:
(a)指导对从所述受试者获得的第一生物样品的第一测定,其中所述第一生物样品包含或疑似包含肿瘤衍生的DNA,其中所述第一测定对指示所述肿瘤的第一标志物具有灵敏度,并且其中所述第一测定包括(i)测量来自所述第一生物样品的所述肿瘤衍生的DNA的第一值,其对应于所述第一生物样品中所述肿瘤衍生的DNA的拷贝数、片段大小分布、片段化模式、甲基化状态和突变状态中的一种;(ii)生成肿瘤衍生的DNA的所述第一值与至少一个第一校准值的比较;以及(iii)基于肿瘤衍生的DNA的所述第一值与所述至少一个第一校准值的比较,确定所述第一生物样品是否包含指示肿瘤的所述第一标志物;
(b)如果所述第一生物样品包含指示所述肿瘤的所述第一标志物,如(b)中所确定的,则指导第二测定,其中所述第二测定对指示所述肿瘤的第二标志物具有特异性,并且其中所述第二测定包括(i)测量来自第二生物样品的肿瘤衍生的DNA的第二值,其对应于所述肿瘤衍生的DNA的片段大小分布、片段化模式、甲基化状态和突变状态中的一种;(ii)生成DNA的所述第二值与至少一个第二校准值的比较;以及(iii)基于DNA的所述第二值与所述至少一个第二校准值的比较,鉴别所述受试者中的所述肿瘤;以及
(c)输出指示所述受试者中的所述肿瘤的报告。

说明书全文

用于肿瘤检测的方法和系统

交叉引用

[0001] 本申请要求于2016年10月24日提交的美国临时专利申请号62/411,929、于2017年1月25日提交的美国临时专利申请号62/450,541和于2017年5月16日提交的美国临时专利
申请号62/507,154的权益,这些申请中的每一个通过引用整体并入本文。本申请涉及于
2016年7月25日提交的美国申请号15/218,497,该申请要求于2015年7月23日提交的美国临
时申请号62/196,250和于2016年2月12日提交的62/294,948以及于2016年2月14日提交的
PCT申请号PCT/CN2016/073753的优先权,这些申请中的每一个通过引用整体并入本文。
发明背景
[0002] 肿瘤细胞将肿瘤衍生的DNA沉积到血流中的发现引发了非侵入性方法的发展,该方法能够使用无细胞样品(例如,血浆)确定受试者中的肿瘤的存在、位置和/或类型。如果在发展早期得以检测,许多肿瘤是可以治疗的。然而,目前的方法可能缺乏在早期检测肿瘤的灵敏度和/或特异性,并且可能返回大量假阳性或假阴性结果。测试的灵敏度可以指对于病况为阳性的受试者对该病况的测试呈阳性的似然。测试的特异性可以指对于病况为阴性
的受试者对该病况的测试呈阴性的似然。灵敏度和特异性的问题在用于肿瘤早期检测的测
定中可得到夸大,例如,因为进行这样的肿瘤检测方法的样品可以具有相对少量的肿瘤衍
生的DNA,并且因为该病况本身在早期测试的个体中可具有相对较低的患病率。因此,对肿瘤的检测具有更高灵敏度和/或特异性的方法具有临床需求。
[0003] 先前的研究已经显示,血浆脱核糖核酸(DNA)主要包括少于200个基对(bp)的短片段(Lo等人Sci Transl Med 2010;2(61):61ra91)。在血浆DNA的大小分布中,可以在
166bp处观察到峰值。此外,当对母体血浆DNA进行测序时,观察到测序的标签密度将会变
化,周期性为转录起始位点(TSS)附近约180bp(Fan等人PNAS 2008;105:16266-71)。这些结果是表明血浆DNA的片段化可能不是随机过程的一组证据。然而,血浆中DNA片段化的精确
模式以及控制该模式的因素尚不明确。此外,尚未完全实现使用DNA片段化的实际应用。

发明内容

[0004] 在一些方面,本公开内容提供了筛查受试者中的肿瘤的方法。在一些实施方案中,所述方法包括从所述受试者获得第一生物样品,其中所述第一生物样品包含来自所述受试者的无细胞核酸和潜在的来自病原体的无细胞核酸。在一些实施方案中,所述方法包括进
行第一测定,其包括测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝
数。在一些实施方案中,所述方法包括从所述受试者获得第二生物样品,其中所述第二生物样品包含来自所述受试者的无细胞核酸和潜在的来自病原体的无细胞核酸。在一些实施方
案中,所述方法包括进行第二测定,其包括对所述第二生物样品中的所述无细胞核酸进行
大规模平行测序,以生成序列读取。在一些实施方案中,所述方法包括确定与所述病原体的参考基因组比对的所述序列读取的量。在一些实施方案中,所述方法包括确定具有在给定
范围内的大小并基于所述大规模平行测序与所述病原体的参考基因组比对的所述无细胞
核酸分子的量。在一些实施方案中,所述方法包括基于进行第一测定和进行第二测定来筛
查肿瘤,所述第一测定包括测量来自所述第一生物样品中的所述病原体的所述无细胞核酸
的拷贝数,,所述第一测定包括对所述第二生物样品中的所述无细胞核酸进行大规模平行
测序以生成序列读取。在一些实施方案中,所述第一生物样品和所述第二生物样品是相同
的。在一些实施方案中,所述方法进一步包括确定与所述病原体的参考基因组比对的所述
序列读取的百分比。在一些实施方案中,所述方法进一步包括将与所述病原体的参考基因
组比对的所述序列读取的百分比与截止值进行比较。在一些实施方案中,所述方法进一步
包括确定具有在所述给定范围内的大小的与所述病原体的所述参考基因组比对的来自所
述第二生物样品的所述无细胞核酸分子的第一比例与具有在所述给定范围内的大小的与
所述受试者的参考基因组比对的来自所述第二生物样品的所述无细胞核酸分子的第二比
例的大小比率。在一些实施方案中,所述方法包括进一步包括确定大小指数,其中所述大小指数是所述大小比率的倒数,并且将所述大小指数与第二截止值进行比较。在一些实施方
案中,所述肿瘤是鼻咽癌。在一些实施方案中,所述病原体是EB病毒(EBV)。在一些实施方案中,测定来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数包括扩增。在
一些实施方案中,所述扩增包括聚合酶链反应(PCR)。在一些实施方案中,所述PCR包括定量PCR(qPCR)。在一些实施方案中,所述第一生物样品和所述第二生物样品是血浆。
[0005] 在一些方面,本公开内容提供了筛查受试者中的肿瘤的方法。在一些实施方案中,所述方法包括从所述受试者获得第一生物样品,其中所述第一生物样品包含来自所述受试者的无细胞核酸和潜在的来自病原体的无细胞核酸。在一些实施方案中,所述方法进行第
一测定,其包括测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数,
其中所述第一测定包括所述受试者中存在所述肿瘤的阳性预测值。在一些实施方案中,所
述方法对来自所述受试者的第二生物样品进行第二测定,其中所述第二生物样品包含来自
所述受试者的无细胞核酸和潜在的来自所述病原体的无细胞核酸,并且其中所述第一测定
和所述第二测定的所述受试者中存在所述肿瘤的阳性预测值比所述第一测定的阳性预测
值高至少5倍。在一些实施方案中,所述第一测定和所述第二测定的所述受试者中存在所述肿瘤的阳性预测值比所述第一测定的阳性预测值高至少7.5倍。在一些实施方案中,所述第一测定和所述第二测定的受试者中存在所述肿瘤的阳性预测值为至少15%。在一些实施方
案中,所述第一测定和所述第二测定的受试者中存在所述肿瘤的阳性预测值为至少25%。
在一些实施方案中,所述第一生物样品和所述第二生物样品是相同的。在一些实施方案中,所述第一生物样品和所述第二生物样品是血浆。在一些实施方案中,所述肿瘤是鼻咽癌。在一些实施方案中,所述病原体是EB病毒(EBV)。在一些实施方案中,测定来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数包括扩增。在一些实施方案中,所述扩增
包括聚合酶链反应(PCR)。在一些实施方案中,所述PCR包括定量PCR(qPCR)。在一些实施方案中,所述第二测定包括对所述第二生物样品中的所述无细胞核酸进行大规模平行测序,
以生成序列读取。在一些实施方案中,所述第二测定包括确定与所述病原体的参考基因组
比对的所述序列读取的量。在一些实施方案中,所述第二测定包括确定具有在所述给定范
围内的大小并与所述病原体的参考基因组比对的所述第二生物样品中的所述无细胞核酸
分子的量。
[0006] 在一些方面,本公开内容提供了筛查受试者中的肿瘤的方法。在一些实施方案中,所述方法包括从所述受试者获得第一生物样品,其中所述第一生物样品包含来自所述受试者的无细胞核酸和潜在的来自病原体的无细胞核酸。在一些实施方案中,所述方法包括进
行第一测定,其包括测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝
数,其中所述第一测定具有所述受试者中存在所述肿瘤的假阳性率。在一些实施方案中,所述方法包括对来自所述受试者的第二生物样品进行第二测定,其中所述第二生物样品包含
来自所述受试者的无细胞核酸和潜在的来自所述病原体的无细胞核酸,其中所述第一测定
和所述第二测定的所述受试者中存在所述肿瘤的假阳性率比所述第一测定的假阳性率低
至少5倍。在一些实施方案中,所述第一测定和所述第二测定的所述受试者中存在所述肿瘤的假阳性率比所述第一测定的假阳性率低至少10倍。在一些实施方案中,所述第一测定和
所述第二测定的受试者中存在所述肿瘤的假阳性率小于1%。在一些实施方案中,所述第一生物样品和所述第二生物样品是相同的。在一些实施方案中,所述第一生物样品和所述第
二生物样品是血浆。在一些实施方案中,所述肿瘤是鼻咽癌。在一些实施方案中,所述病原体是EB病毒(EBV)。在一些实施方案中,测量来自所述第一生物样品中的所述病原体的所述无细胞核酸的拷贝数包括扩增。在一些实施方案中,所述扩增包括聚合酶链反应(PCR)。在一些实施方案中,所述PCR包括定量PCR(qPCR)。在一些实施方案中,所述第二测定包括对所述第二生物样品中的所述无细胞核酸进行大规模平行测序,以生成序列读取。在一些实施
方案中,所述第二测定包括确定与所述病原体的参考基因组比对的所述序列读取的量。在
一些实施方案中,所述第二测定包括确定具有在所述给定范围内的大小并与所述病原体的
参考基因组比对的所述第二生物样品中的所述无细胞核酸分子的量。
[0007] 在一些方面,本公开内容提供了分析包含无细胞核酸分子的混合物的生物样品的方法,以确定所述生物样品从其获得的受试者的病理学平,所述混合物包含来自所述受
试者的核酸分子和潜在的来自病原体的核酸分子。在一些实施方案中,所述方法包括分析
来自所述受试者的生物样品的第一多个无细胞核酸分子,其中所述分析包括确定对应于所
述第一多个无细胞核酸分子的至少一个末端的参考基因组中的基因组位置,所述参考基因
组对应于所述病原体。在一些实施方案中,所述方法包括确定终止于第一窗口中的一个内
的所述第一多个无细胞核酸分子的第一量,每个第一窗口包含第一集合的基因组位置中的
至少一个,在所述第一集合的基因组位置处无细胞核酸分子的末端在具有与所述病原体相
关的病理学的受试者中以高于第一阈值的比率存在。在一些实施方案中,所述方法包括通
过使用来自所述生物样品的所述第一多个无细胞核酸分子的第二量使所述第一量归一化
来计算终止于所述第一窗口中的一个内的所述第一多个无细胞核酸分子的相对丰度,其中
所述第一多个无细胞核酸分子的所述第二量包括终止于包含所述第一集合的基因组位置
的所述第一窗口外的第二集合的基因组位置的无细胞核酸分子。在一些实施方案中,所述
方法包括通过针对一个或多个截止值处理所述相对丰度来确定所述受试者的病理学水平。
在一些实施方案中,针对一个或多个截止值的所述相对丰度包括确定所述相对丰度是否大
于所述一个或多个截止值。在一些实施方案中,所述方法进一步包括确定终止于第二窗口
中的一个内的所述第一多个无细胞核酸分子的所述第二量,每个第二窗口包含第二集合的
基因组位置中的至少一个,在所述第二集合的基因组位置处无细胞核酸分子的末端在不具
有病原体导致的病理学的受试者中以高于第二阈值的比率存在,其中使所述第一量归一化
包括使用所述第一量和所述第二量计算所述相对丰度。在一些实施方案中,所述方法进一
步包括鉴别所述第二集合的基因组位置。在一些实施方案中,所述鉴别包括通过计算机系
统分析来自不具有所述病理学的参考受试者的参考样品的无细胞核酸分子。在一些实施方
案中,分析所述多个无细胞核酸分子中的每一个包括确定对应于所述无细胞核酸分子的至
少一个末端的所述参考基因组中的基因组位置。在一些实施方案中,所述参考受试者是健
康的。在一些实施方案中,所述相对丰度包括所述第一量和所述第二量的比率。在一些实施方案中,所述方法进一步包括鉴别第一集合的基因组位置,在所述第一集合的基因组位置
处无细胞核酸分子的末端以高于第一阈值的比率出现。在一些实施方案中,鉴别所述第一
集合的基因组位置包括通过计算机系统分析来自至少一个第一额外样品的第二多个无细
胞核酸分子,以鉴别所述第二多个无细胞核酸分子的终止位置,其中所述至少一个第一额
外样品已知具有与所述病原体相关的病理学并且与所述生物样品属于相同的样品类型。在
一些实施方案中,所述方法进一步包括对于多个基因组窗口的每个基因组窗口,计算终止
于所述基因组窗口上的所述第二多个无细胞核酸分子的对应数目,以及将所述对应数目与
参考值进行比较,以确定终止于所述基因组窗口内的一个或多个基因组位置上的无细胞核
酸分子的比率是否高于所述第一阈值。在一些实施方案中,所述多个基因组窗口中的第一
基因组窗口具有至少一个基因组位置的宽度,并且其中当所述对应数目超过所述参考值
时,所述第一基因组窗口内的每个基因组位置被鉴别为终止于所述基因组位置上的无细胞
核酸分子的比率高于所述第一阈值。在一些实施方案中,所述第一集合的基因组位置具有
所述对应数目的最高N值,其中N为至少100。在一些实施方案中,所述第一集合的基因组位置中的每个基因组位置具有终止于所述基因组位置上的所述第二多个无细胞核酸分子中
的至少指定数目的无细胞核酸分子。在一些实施方案中,所述参考值是根据所述至少一个
第一额外样品中的无细胞核酸分子的概率分布和平均长度终止于所述基因组窗口内的无
细胞核酸分子的预期数目。在一些实施方案中,所述概率分布是泊松分布,并且其中确定终止于所述基因组窗口内的一个或多个基因组位置上的无细胞核酸分子的比率是否高于所
述第一阈值包括使用所述对应数目和所述预期数目确定对应p值,其中所述第一阈值对应
于截止p值,所述对应p值小于所述截止p值表明终止于所述基因座窗口内的无细胞核酸分
子的比率高于所述第一阈值。在一些实施方案中,终止于所述基因组位置上的所述第二多
个无细胞核酸分子的比率高于所述第一阈值的基因组位置构成第一超集,并且其中鉴别所
述第一集合的基因组位置进一步包括通过所述计算机系统分析来自被鉴别为不具有所述
病理学的至少一个第二额外样品的第三多个无细胞核酸分子,以鉴别终止于所述基因组位
置上的所述第三多个无细胞核酸分子的第二超集高于所述第一阈值,以及将所述第一集合
的基因组位置鉴别为包含在所述第一超集中且不在所述第二超集中的基因组位置。在一些
实施方案中,所述参考值包括终止于所述基因组窗口内的测量数目的无细胞核酸分子,所
述测量数目由被鉴别为不具有所述病理学的至少一个第二额外样品的第三多个无细胞核
酸分子确定。在一些实施方案中,将所述对应数目与所述参考值进行比较包括计算所述对
应数目与覆盖所述基因组窗口的所述第三多个无细胞核酸分子的第三数目的第一比率,以
及比较所述第一比率与所述参考值,所述参考值包括终止于所述基因组窗口内的读取的测
量数目与覆盖所述基因组窗口并且不终止于所述基因组窗口内的所述第三多个无细胞核
酸分子的第四数目的参考比率。在一些实施方案中,所述第三数目的所述第三多个无细胞
核酸分子不终止于所述基因组窗口内。在一些实施方案中,确定终止于所述基因组窗口内
的无细胞核酸分子的比率是否高于所述第一阈值包括确定所述第一比率是否大于乘积因
子乘以所述参考比率。在一些实施方案中,所述生物样品和所述至少一个第一额外样品的
样品类型选自血浆、血清、脑脊液和尿液。在一些实施方案中,所述至少一个第一额外样品来自所述受试者并且与所述生物样品在不同的时间获得。在一些实施方案中,所述第一窗
口具有一个基因组位置的宽度,并且其中所述相对丰度通过以下计算:对于所述第一集合
的基因组位置中的每个基因组位置,计算终止于所述基因组位置上的所述第一多个无细胞
核酸分子的对应数目,作为确定所述第一多个无细胞核酸分子的所述第一量终止于所述第
一集合的基因组位置的任一个上的一部分,计算覆盖所述基因组位置并且不终止于所述基
因组位置上的所述第一多个无细胞核酸分子的第三量,作为确定所述第一多个无细胞核酸
分子的所述第二量的一部分,以及计算所述对应数目与所述第三数目的第一比率,计算所
述第一比率的平均值作为所述相对丰度。在一些实施方案中,所述相对丰度通过以下计算:
对于所述第一集合的基因组位置中的每个基因组位置,计算终止于包含所述基因组位置的
第一窗口内的所述第一多个无细胞核酸分子的对应数目,作为确定所述第一多个无细胞核
酸分子的所述第一量终止于所述第一窗口中的一个内的一部分,计算终止于包含所述基因
组位置的第二窗口内的所述第一多个无细胞核酸分子的第三数目,所述第二窗口大于所述
第一窗口;计算所述对应数目与所述第三数目的第一比率,以及计算所述第一比率的平均
值作为所述相对丰度。在一些实施方案中,所述第二集合的基因组位置和所述第一集合的
基因组位置不重叠。在一些实施方案中,所述第二集合的基因组位置包括对应于所述第一
多个无细胞核酸分子中的至少一个的末端的所有基因组位置。在一些实施方案中,分析一
个或多个所述无细胞核酸分子包括确定对应于所述无细胞核酸分子的两个末端的两个基
因组位置。在一些实施方案中,所述第一集合的基因组位置或所述第二集合的基因组位置
包含600至10,000个基因组位置。
[0008] 在一些方面,本公开内容提供了分析包含无细胞核酸分子的混合物的生物样品的方法,以确定所述生物样品从其获得的受试者的病理学水平,所述混合物包含来自所述受
试者的核酸分子和潜在的来自病原体的核酸分子。在一些实施方案中,所述方法包括,对于所述生物样品中的多个核酸分子中的每个,测量所述核酸分子的大小。在一些实施方案中,所述方法包括,对于所述生物样品中的多个核酸分子中的每个,确定所述核酸分子来自参
考基因组,所述参考基因组对应于所述病原体。在一些实施方案中,所述方法包括,对于所述生物样品中的多个核酸分子中的每个,确定来自所述参考基因组的所述多个核酸分子的
大小分布的统计值。在一些实施方案中,所述方法包括,对于所述生物样品中的多个核酸分子中的每个,通过针对一个或多个截止值处理所述统计值来确定所述受试者的病理学水
平。在一些实施方案中,所述统计值是所述大小分布的均值(average)、众数、中值或平均值(mean)。在一些实施方案中,所述统计值是低于大小阈值的来自所述参考基因组的生物样
品中的所述多个核酸分子的百分比。在一些实施方案中,所述统计值是在第一大小范围内
的来自所述参考基因组的生物样品中的多个核酸分子的第一量与在不同于所述第一大小
范围的第二大小范围内的来自所述参考基因组的生物样品中的多个核酸分子的第二量的
比率。在一些实施方案中,所述病理学选自膀胱癌、骨癌、脑肿瘤、乳腺癌宫颈癌、结直肠癌、食管癌、胃肠癌、造血系统恶性肿瘤、白血病、肝癌、癌、淋巴瘤、骨髓瘤、鼻癌、鼻咽癌、口癌、口咽癌、卵巢癌、前列腺癌、肉瘤、胃癌和甲状腺癌。在一些实施方案中,所述病理学水平选自:所述受试者中肿瘤组织的量、所述受试者中的肿瘤大小、所述受试者中的肿瘤阶
段、所述受试者中的肿瘤负荷以及所述受试者中肿瘤转移的存在。在一些实施方案中,所述病原体包括病毒。在一些实施方案中,所述病毒包括EBV DNA、HPV DNA、HBV DNA、HCV核酸或其片段。在一些实施方案中,所述方法进一步包括从待分析的所述生物样品获得模板核酸
分子。在一些实施方案中,所述方法进一步包括使用所述模板核酸分子制备可分析核酸分
子的测序文库,所述制备可分析核酸分子的测序文库不包括所述模板核酸分子的核酸扩增
操作。在一些实施方案中,所述方法进一步包括对可分析核酸分子的所述测序文库进行测
序以获得对应于所述第一多个无细胞核酸分子的多个序列读取。在一些实施方案中,分析
所述第一多个无细胞核酸分子或所述多个无细胞核酸分子包括在所述计算机系统中接收
所述多个序列读取;并且通过所述计算机系统将所述多个序列读取与所述参考基因组进行
比对以确定所述多个序列读取的基因组位置。在一些实施方案中,所述方法进一步包括基
于所述病理学水平提供治疗干预或基于所述病理学水平对所述受试者进行成像。在一些实
施方案中,所述无细胞核酸分子是脱氧核糖核酸(DNA)分子。
[0009] 在一些方面,本公开内容提供了计算机产品,其包括存储用于控制计算机系统以执行任何上述方法的操作的多个指令的计算机可读介质。
[0010] 在一些方面,本公开内容提供了系统,其包括上述计算机产品,以及用于执行存储在所述计算机可读介质上的指令的一个或多个处理器。
[0011] 在一些方面,本公开内容提供了系统,其包括用于执行任何上述方法的手段。
[0012] 在一些方面,本公开内容提供了系统,其被配置用于执行任何上述方法。
[0013] 在一些方面,本公开内容提供了系统,其包含分别执行任何上述方法的步骤的模
[0014] 在一些方面,本公开内容提供了分析包含无细胞核酸分子的混合物的生物样品的方法,以确定所述生物样品从其获得的受试者的病理学水平,所述混合物包含来自所述受
试者的核酸分子和潜在的来自病原体的核酸分子。在一些实施方案中,所述方法包括进行
第一测定,其中所述第一测定包括分析来自所述受试者的生物样品的多个无细胞核酸分
子,以确定与参考基因组比对的所述多个无细胞核酸分子的第一量,所述参考基因组对应
于所述病原体。在一些实施方案中,所述方法包括进行第二测定。在一些实施方案中,所述第二测定包括测量所述生物样品中所述多个核酸分子中的每一个的大小。在一些实施方案
中,所述第二测定包括确定具有在给定范围内的大小并与所述参考基因组比对的所述多个
核酸分子的第二量。在一些实施方案中,所述方法包括将所述第一量与第一截止阈值进行
比较。在一些实施方案中,所述方法包括将所述第二量与第二截止阈值进行比较。在一些实施方案中,所述方法包括基于所述第一量和所述第二量确定所述受试者的所述病理学水
平。在一些实施方案中,所述方法进一步包括富集所述样品的所述多个无细胞核酸分子。在一些实施方案中,所述方法进一步包括使用具有在所述给定范围内的大小并与常染色体基
因组比对的无细胞核酸分子的第三量使所述第二量归一化。
[0015] 在一些方面,本公开内容提供了分析包含无细胞核酸分子的混合物的生物样品的方法,以确定所述生物样品从其获得的受试者的病理学水平,所述混合物包含来自所述受
试者的核酸分子和潜在的来自病原体的核酸分子。在一些实施方案中,所述方法包括对所
述无细胞核酸分子进行大规模平行测序以生成序列读取。在一些实施方案中,所述方法包
括确定与所述病原体的参考基因组比对的所述序列读取的量。在一些实施方案中,所述方
法包括确定具有在给定范围内的大小并与所述病原体的参考基因组比对的所述无细胞核
酸分子的量。在一些实施方案中,所述方法包括使用与所述病原体的参考基因组比对的序
列读取的量和具有在给定范围内的大小并与所述病原体的参考基因组比对的无细胞核酸
分子的量来确定所述受试者的所述病理学水平。在一些实施方案中,所述方法进一步包括
确定与所述病原体的参考基因组比对的所述序列读取的百分比。在一些实施方案中,所述
方法包括将所述百分比与第一截止值进行比较。在一些实施方案中,所述病原体包括病毒。
在一些实施方案中,所述病毒包括EBV DNA、HPV DNA、HBV DNA、HCV核酸或其片段。在一些实施方案中,所述病毒包括EBV DNA或其片段。在一些实施方案中,所述病理学水平选自膀胱癌、骨癌、脑肿瘤、乳腺癌、宫颈癌、结直肠癌、食管癌、胃肠癌、造血系统恶性肿瘤、白血病、肝癌、肺癌、淋巴瘤、骨髓瘤、鼻癌、鼻咽癌、口癌、口咽癌、卵巢癌、前列腺癌、肉瘤、胃癌和甲状腺癌。在一些实施方案中,所述病理学水平包括鼻咽癌。在一些实施方案中,所述方法进一步包括确定具有在所述给定范围内的大小的与所述病原体的所述参考基因组比对的所
述无细胞核酸分子的第一比例与具有在所述给定范围内的大小的与所述受试者的参考基
因组比对的所述无细胞核酸分子的第二比例的大小比率。在一些实施方案中,所述病原体
是EBV并且所述给定范围是80bp至110bp。在一些实施方案中,所述方法包括进一步包括确
定大小指数,其中所述大小指数是所述大小比率的倒数,并且将所述大小指数与第二截止
值进行比较。
[0016] 在一些方面,本公开内容的方法包括检测受试者中的肿瘤。在一些实施方案中,所述方法包括从所述受试者获得第一生物样品。在一些实施方案中,所述第一生物样品包含肿瘤衍生的DNA。在一些实施方案中,所述第一生物样品包含无细胞DNA。在一些实施方案
中,所述方法包括进行第一测定。在一些实施方案中,所述第一测定对第一集合的标志物具有灵敏度。在一些实施方案中,所述第一集合的标志物指示肿瘤。在一些实施方案中,所述第一测定包括测量来自所述第一生物样品的所述肿瘤衍生的DNA的第一量。在一些实施方
案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的DNA的拷贝数。在一些实施
方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的DNA的片段大小分布。在
一些实施方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的DNA的片段化模
式。在一些实施方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的DNA的甲
基化状态。在一些实施方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的
DNA的突变状态。在一些实施方案中,所述第一测定包括生成肿瘤衍生的DNA的所述第一量
与至少一个第一校准值的比较。在一些实施方案中,所述第一测定包括确定所述第一生物
样品是否包含指示所述肿瘤的所述第一集合的标志物。在一些实施方案中,所述第一测定
包括确定所述第一生物样品是否包含指示所述肿瘤的所述第一集合的标志物,并且所述确
定基于肿瘤衍生的DNA的所述第一量与所述至少一个第一校准值的比较。在一些实施方案
中,所述方法包括进行第二测定。在一些实施方案中,所述方法包括如果确定所述第一生物样品包含指示所述肿瘤的所述第一集合的标志物,则进行第二测定。在一些实施方案中,所述第二测定对指示所述肿瘤的第二集合的标志物具有特异性。在一些实施方案中,所述第
二测定包括测量来自第二生物样品的肿瘤衍生的DNA的第二量。在一些实施方案中,肿瘤衍生的DNA的所述第二量对应于所述肿瘤衍生的DNA的片段大小分布。在一些实施方案中,肿
瘤衍生的DNA的所述第二量对应于所述肿瘤衍生的DNA的片段化模式。在一些实施方案中,
肿瘤衍生的DNA的所述第二量对应于所述肿瘤衍生的DNA的甲基化状态。在一些实施方案
中,肿瘤衍生的DNA的所述第二量对应于所述肿瘤衍生的DNA的突变状态。在一些实施方案
中,所述第二测定包括生成DNA的所述第二量与至少一个第二校准值的比较。在一些实施方案中,所述第二测定包括鉴别所述受试者中的所述肿瘤。在一些实施方案中,所述第二测定包括鉴别所述受试者中的所述肿瘤,并且所述鉴别基于DNA的所述第二量与所述至少一个
第二校准值的比较。在一些实施方案中,所述方法包括输出报告。在一些实施方案中,所述方法包括输出报告,并且所述报告指示所述受试者中的肿瘤。在一些实施方案中,肿瘤衍生的DNA的所述第二量对应于所述片段大小分布。在一些实施方案中,测量所述第二量包括所述肿瘤衍生的DNA和其他DNA,从而生成所述多个大小的DNA片段的量。在一些实施方案中,所述方法包括生成比较,并且生成比较包括计算第一参数的第一值。在一些实施方案中,所述方法包括生成比较,并且生成比较包括计算第一参数的第一值,所述第一参数提供所述
第二生物样品中DNA片段的大小谱的统计学量度。在一些实施方案中,所述方法包括生成比较,并且生成比较包括将所述第一值与至少一个第二校准值进行比较。在一些实施方案中,获得所述第一生物样品是非侵入性的。在一些实施方案中,所述第一生物样品包含衍生自
正常细胞的DNA。在一些实施方案中,所述第二生物样品包含衍生自正常细胞的DNA。在一些实施方案中,所述方法进一步包括获得所述第二生物样品。在一些实施方案中,所述第二生物样品包含衍生自正常细胞的DNA和肿瘤衍生的DNA。在一些实施方案中,所述方法包括获
得所述第二生物样品,并且获得所述第二生物样品是非侵入性的。在一些实施方案中,在获得所述第一生物样品后至少约1周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约2周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约3周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约4周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约5周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约6周
获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约7周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约8周获得所述第二生物样品。在一些实施方案中,所述第一生物样品和所述第二生物样品是相同的样品。在一些实施方案中,所述第一集合的标志物和所述第二集合的标志物是相同集合的标志物。在
一些实施方案中,所述第一测定对所述第一集合的标志物的灵敏度为至少约80%。在一些
实施方案中,所述第一测定具有至少约80%的阴性预测值。在一些实施方案中,所述第二测定对所述第二集合的标志物的特异性为至少约70%。在一些实施方案中,所述第二测定具
有至少约10%的阳性预测值。在一些实施方案中,所述第二测定的阳性预测值比所述第一
测定的阳性预测值高至少约1.5倍、至少约2倍、至少约4倍、至少约10倍、至少约20倍、至少约50倍或至少约100倍。在一些实施方案中,所述方法具有至少约80%的灵敏度。在一些实施方案中,所述方法具有至少约80%的阴性预测值。在一些实施方案中,所述方法具有至少约70%的特异性。在一些实施方案中,所述方法具有至少约10%的阳性预测值。在一些实施方案中,所述方法具有至少约95%的阴性预测值。在一些实施方案中,本公开内容的方法包括确定所述第一生物样品是否包含所述第一集合的标志物。在一些实施方案中,所述第一
集合的标志物指示所述肿瘤。在一些实施方案中,所述方法包括确定第一生物样品是否包
含第一集合的标志物,并且所述确定在进行所述第一测定后至多24小时内进行。在一些实
施方案中,所述第二测定在进行所述第一测定后至少约1周进行。在一些实施方案中,所述肿瘤是良性的。在一些实施方案中,所述肿瘤是癌前的。在一些实施方案中,所述肿瘤是癌性的。在一些实施方案中,所述肿瘤是鼻癌。在一些实施方案中,所述肿瘤是鼻咽癌。在一些实施方案中,所述肿瘤是口癌。在一些实施方案中,所述肿瘤衍生的DNA包括病毒DNA或其片段。在一些实施方案中,所述肿瘤是口咽癌。在一些实施方案中,所述肿瘤衍生的DNA包括肿瘤衍生的EB病毒(EBV)DNA片段。在一些实施方案中,所述肿瘤衍生的EBV DNA片段包含至少一个BamHI-W序列。在一些实施方案中,所述肿瘤衍生的EBV DNA片段具有小于约180个核苷酸的长度。在一些实施方案中,所述第一生物样品和所述第二生物样品中的至少一个包含
具有至少约180个核苷酸的长度的病毒衍生的EBV DNA片段。在一些实施方案中,本公开内
容的方法包括检测所述病毒衍生的DNA。在一些实施方案中,本公开内容的方法包括检测所述病毒衍生的DNA,并且所述病毒衍生的DNA的检测是肿瘤衍生的DNA的阴性对照。在一些实施方案中,所述肿瘤是肝癌。在一些实施方案中,所述肿瘤是膀胱癌。在一些实施方案中,所述肿瘤是骨癌。在一些实施方案中,所述肿瘤是脑肿瘤。在一些实施方案中,所述肿瘤是乳腺癌。在一些实施方案中,所述肿瘤是食管癌。在一些实施方案中,所述肿瘤是胃肠癌。在一些实施方案中,所述肿瘤是造血系统恶性肿瘤。在一些实施方案中,所述肿瘤是白血病。在一些实施方案中,所述肿瘤是肺癌。在一些实施方案中,所述肿瘤是淋巴瘤。在一些实施方案中,所述肿瘤是骨髓瘤。在一些实施方案中,所述肿瘤是卵巢癌。在一些实施方案中,所述肿瘤是前列腺癌。在一些实施方案中,所述肿瘤是肉瘤。在一些实施方案中,所述肿瘤是胃癌。在一些实施方案中,所述肿瘤是甲状腺癌。在一些实施方案中,所述第一生物样品是全血、血浆、血清、尿液、脑脊液、血沉棕黄层或其组合。在一些实施方案中,所述第二生物样品是全血、血浆、血清、尿液、脑脊液、血沉棕黄层或其组合。在一些实施方案中,所述第一生物样品和所述第二生物样品中的至少一个是全血、血浆、血清、尿液、脑脊液、血沉棕黄层及其组合。在一些实施方案中,所述肿瘤衍生的DNA是基本上无细胞的。在一些实施方案中,测量所述肿瘤衍生的DNA的第一量包括使用实时聚合酶链反应(PCR)来检测所述生物样品中肿
瘤衍生的DNA的拷贝数。在一些实施方案中,所述肿瘤衍生的DNA包括EB病毒(EBV)DNA片段。
在一些实施方案中,所述EBV DNA片段包含至少一个BamHI-W序列。在一些实施方案中,检测肿瘤衍生的DNA的拷贝数包括检测所述至少一个BamHI-W序列的所述拷贝数。在一些实施方
案中,所述肿瘤是鼻咽癌,并且所述第一校准值为每毫升所述生物样品0个与至多约1,000,
000个拷贝之间的BamHI-W序列。在一些实施方案中,所述第一校准值为每毫升所述生物样
品0个与至多约4,000个拷贝之间的BamHI-W序列。在一些实施方案中,所述第一校准值为每毫升所述生物样品约20,000个与约50,000个拷贝之间的BamHI-W序列。在一些实施方案中,所述第一校准值对应于衍生自对照受试者的DNA片段的拷贝数。在一些实施方案中,从数据库获得所述第一校准值。在一些实施方案中,测量所述肿瘤衍生的DNA的第一量包括使用测序来检测所述生物样品中肿瘤衍生的DNA的片段大小分布或片段化模式中的一种。在一些
实施方案中,本公开内容的方法包括测序,并且所述测序是大规模平行测序。在一些实施方案中,测量所述肿瘤衍生的DNA的第一量包括使用甲基化感知测序来检测所述生物样品中
肿瘤衍生的DNA的甲基化状态。在一些实施方案中,所述肿瘤是鼻咽癌,并且鉴别所述受试者中的肿瘤进一步包括在所述受试者中对鼻咽进行内窥镜检查。在一些实施方案中,鉴别
所述受试者中的肿瘤进一步包括对所述受试者进行磁共振成像检查。在一些实施方案中,
所述DNA片段对应于基因组的一个或多个预定区域。在一些实施方案中,所述第一参数代表短DNA片段的丰度相对于大DNA片段的丰度。在一些实施方案中,所述短DNA片段具有小于所述大DNA片段的大小。在一些实施方案中,所述第二校准值包括多个第二校准值。在一些实施方案中,所述多个第二校准值中的每一个对应于校准样品中所述肿瘤衍生的DNA的分数
浓度。在一些实施方案中,所述多个第二校准值中的每一个由对应于多个校准样品中的不
同校准样品的直方图确定。在一些实施方案中,所述直方图提供多个大小的DNA片段的量。
在一些实施方案中,所述不同校准样品中的每一个的至少一部分具有不同分数浓度的肿瘤
衍生的DNA。在一些实施方案中,本公开内容的方法包括计算所述第二校准值。在一些实施方案中,计算所述第二校准值包括,对于所述多个校准样品中的每一个,测量所述校准样品中肿瘤衍生的DNA的分数浓度。在一些实施方案中,计算所述第二校准值包括,对于所述多个校准样品中的每一个,测量所述多个大小的DNA片段的量。在一些实施方案中,计算所述第二校准值包括,对于所述多个校准样品中的每一个,基于所述多个大小的DNA片段的量计算所述第一参数的所述第二校准值。在一些实施方案中,本公开内容的方法包括确定逼近
所述多个第二校准值的所述第二校准值的函数。在一些实施方案中,所述多个第二校准值
中的每一个对应于肿瘤衍生的DNA的不同分数浓度。在一些实施方案中,所述函数是线性函数。在一些实施方案中,测量对应于多个大小中的每一个的来自所述生物样品的DNA片段的所述第二量包括,对于所述DNA片段中的每一个测量所述DNA片段的大小。在一些实施方案
中,测量所述DNA片段的所述大小包括进行所述DNA片段的测序以获得序列读取。在一些实
施方案中,测量所述DNA片段的所述大小包括将所述序列读取与参考基因组中的位置进行
比对。在一些实施方案中,测量所述DNA片段的所述大小包括使用所述比对的位置确定所述DNA片段的大小。在一些实施方案中,本公开内容的方法包括测序,并且所述测序是配对末端测序。在一些实施方案中,所述多个大小的大小对应于长度。在一些实施方案中,所述多个大小的大小对应于分子质量。在一些实施方案中,所述多个大小的大小对应于与所述长
度成比例的参数。在一些实施方案中,所述多个大小的大小对应于与质量成比例的参数。
[0017] 在一些实施方案中,本文提供的方法和系统不用于诊断目的。在一些方面,本公开内容的方法包括用于检测受试者中的疾病(例如,肿瘤)的非诊断方法。在一些实施方案中,所述非诊断方法包括从所述受试者获得第一生物样品。在一些实施方案中,所述第一生物样品包含肿瘤衍生的DNA。在一些实施方案中,所述第一生物样品包含无细胞DNA。在一些实施方案中,所述非诊断方法包括进行第一测定。在一些实施方案中,所述第一测定对第一集合的标志物具有灵敏度。在一些实施方案中,所述第一集合的标志物指示肿瘤。在一些实施方案中,所述第一测定包括测量来自所述第一生物样品的所述肿瘤衍生的DNA的第一量。在一些实施方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的DNA的拷贝数。
在一些实施方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的DNA的片段大
小分布。在一些实施方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的DNA
的片段化模式。在一些实施方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿瘤衍生的DNA的甲基化状态。在一些实施方案中,所述肿瘤衍生的DNA的所述第一量对应于所述肿
瘤衍生的DNA的突变状态。在一些实施方案中,所述第一测定包括生成肿瘤衍生的DNA的第
一量与至少一个第一校准值的比较。在一些实施方案中,所述第一测定包括确定所述第一
生物样品是否包含指示所述肿瘤的所述第一集合的标志物。在一些实施方案中,所述第一
测定包括确定所述第一生物样品是否包含指示所述肿瘤的所述第一集合的标志物,并且所
述确定基于肿瘤衍生DNA的所述第一量与所述至少一个第一校准值的比较。在一些实施方
案中,所述非诊断方法包括进行第二测定。在一些实施方案中,所述非诊断方法包括如果确定所述第一生物样品包含指示所述肿瘤的所述第一集合的标志物,则进行第二测定。在一
些实施方案中,所述第二测定对指示所述肿瘤的第二集合的标志物具有特异性。在一些实
施方案中,所述第二测定包括测量来自第二生物样品的肿瘤衍生的DNA的第二量。在一些实施方案中,肿瘤衍生的DNA的所述第二量对应于所述肿瘤衍生的DNA的片段大小分布。在一
些实施方案中,肿瘤衍生的DNA的所述第二量对应于所述肿瘤衍生的DNA的片段化模式。在
一些实施方案中,肿瘤衍生的DNA的所述第二量对应于所述肿瘤衍生的DNA的甲基化状态。
在一些实施方案中,肿瘤衍生的DNA的所述第二量对应于所述肿瘤衍生的DNA的突变状态。
在一些实施方案中,所述第二测定包括生成DNA的所述第二量与至少一个第二校准值的比
较。在一些实施方案中,所述第二测定包括鉴别所述受试者中的所述肿瘤。在一些实施方案中,所述第二测定包括鉴别所述受试者中的所述肿瘤,并且所述鉴别基于DNA的所述第二量与所述至少一个第二校准值的比较。在一些实施方案中,所述非诊断方法包括输出报告。在一些实施方案中,所述非诊断方法包括输出报告,并且所述报告指示所述受试者中的肿瘤。
在一些实施方案中,肿瘤衍生的DNA的所述第二量对应于所述片段大小分布。在一些实施方案中,测量所述第二量包括所述肿瘤衍生的DNA和其他DNA,从而生成所述多个大小的DNA片段的量。在一些实施方案中,所述非诊断方法包括生成比较,并且生成比较包括计算第一参数的第一值。在一些实施方案中,所述非诊断方法包括生成比较,并且生成比较包括计算第一参数的第一值的比较,所述第一参数提供所述第二生物样品中DNA片段的大小谱的统计
学量度。在一些实施方案中,所述非诊断方法包括生成比较,并且生成比较包括将所述第一值与至少一个第二校准值进行比较。在一些实施方案中,获得所述第一生物样品是非侵入
性的。在一些实施方案中,所述第一生物样品包含衍生自正常细胞的DNA。在一些实施方案中,所述第二生物样品包含衍生自正常细胞的DNA。在一些实施方案中,所述非诊断方法进一步包括获得所述第二生物样品。在一些实施方案中,所述第二生物样品包含衍生自正常
细胞的DNA和肿瘤衍生的DNA。在一些实施方案中,所述非诊断方法包括获得所述第二生物
样品,并且获得所述第二生物样品是非侵入性的。在一些实施方案中,在获得所述第一生物样品后至少约1周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约2周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约
3周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约4周获
得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约5周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约6周获得所述第二生物样品。在一些实施方案中,在获得所述第一生物样品后至少约7周获得所述第二生物样
品。在一些实施方案中,在获得所述第一生物样品后至少约8周获得所述第二生物样品。在一些实施方案中,所述第一生物样品和所述第二生物样品是相同的样品。在一些实施方案
中,所述第一集合的标志物和所述第二集合的标志物是相同集合的标志物。在一些实施方
案中,所述第一测定对所述第一集合的标志物的灵敏度为至少约80%。在一些实施方案中,所述第一测定具有至少约80%的阴性预测值。在一些实施方案中,所述第二测定对所述第
二集合的标志物的特异性为至少约70%。在一些实施方案中,所述第二测定具有至少约
10%的阳性预测值。在一些实施方案中,所述第二测定的阳性预测值比所述第一测定的阳
性预测值高至少约1.5倍、至少约2倍、至少约4倍、至少约10倍、至少约20倍、至少约50倍或至少约100倍。在一些实施方案中,所述非诊断方法具有至少约80%的灵敏度。在一些实施方案中,所述非诊断方法具有至少约80%的阴性预测值。在一些实施方案中,所述非诊断方法具有至少约70%的特异性。在一些实施方案中,所述非诊断方法具有至少约10%的阳性
预测值。在一些实施方案中,所述非诊断方法具有至少约95%的阴性预测值。在一些实施方案中,本公开内容的非诊断方法包括确定所述第一生物样品是否包含所述第一集合的标志
物。在一些实施方案中,所述第一集合的标志物指示所述肿瘤。在一些实施方案中,所述非诊断方法包括确定第一生物样品是否包含第一集合的标志物,并且所述确定在进行所述第
一测定后至多24小时内进行。在一些实施方案中,所述第二测定在进行所述第一测定后至
少约1周进行。在一些实施方案中,所述肿瘤是良性的。在一些实施方案中,所述肿瘤是癌前的。在一些实施方案中,所述肿瘤是癌性的。在一些实施方案中,所述肿瘤是鼻癌。在一些实施方案中,所述肿瘤是鼻咽癌。在一些实施方案中,所述肿瘤是口癌。在一些实施方案中,所述肿瘤衍生的DNA包括病毒DNA或其片段。在一些实施方案中,所述肿瘤是口咽癌。在一些实施方案中,所述肿瘤衍生的DNA包括肿瘤衍生的EB病毒(EBV)DNA片段。在一些实施方案中,所述肿瘤衍生的EBV DNA片段包含至少一个BamHI-W序列。在一些实施方案中,所述肿瘤衍
生的EBV DNA片段具有小于约180个核苷酸的长度。在一些实施方案中,所述第一生物样品
和所述第二生物样品中的至少一个包含具有至少约180个核苷酸的长度的病毒衍生的EBV 
DNA片段。在一些实施方案中,本公开内容的非诊断方法包括检测所述病毒衍生的DNA。在一些实施方案中,本公开内容的非诊断方法包括检测所述病毒衍生的DNA,并且所述病毒衍生的DNA的检测是肿瘤衍生的DNA的阴性对照。在一些实施方案中,所述肿瘤是肝癌。在一些实施方案中,所述肿瘤是膀胱癌。在一些实施方案中,所述肿瘤是骨癌。在一些实施方案中,所述肿瘤是脑肿瘤。在一些实施方案中,所述肿瘤是乳腺癌。在一些实施方案中,所述肿瘤是食管癌。在一些实施方案中,所述肿瘤是胃肠癌。在一些实施方案中,所述肿瘤是造血系统恶性肿瘤。在一些实施方案中,所述肿瘤是白血病。在一些实施方案中,所述肿瘤是肺癌。在一些实施方案中,所述肿瘤是淋巴瘤。在一些实施方案中,所述肿瘤是骨髓瘤。在一些实施方案中,所述肿瘤是卵巢癌。在一些实施方案中,所述肿瘤是前列腺癌。在一些实施方案中,所述肿瘤是肉瘤。在一些实施方案中,所述肿瘤是胃癌。在一些实施方案中,所述肿瘤是甲状腺癌。在一些实施方案中,所述第一生物样品是全血、血浆、血清、尿液、脑脊液、血沉棕黄层或其组合。在一些实施方案中,所述第二生物样品是全血、血浆、血清、尿液、脑脊液、血沉棕黄层或其组合。在一些实施方案中,所述第一生物样品和所述第二生物样品中的至少一
个是全血、血浆、血清、尿液、脑脊液、血沉棕黄层及其组合。在一些实施方案中,所述肿瘤衍生的DNA是基本上无细胞的。在一些实施方案中,测量所述肿瘤衍生的DNA的第一量包括使
用实时聚合酶链反应(PCR)来检测所述生物样品中肿瘤衍生的DNA的拷贝数。在一些实施方
案中,所述肿瘤衍生的DNA包含EB病毒(EBV)DNA片段。在一些实施方案中,所述EBV DNA片段包含至少一个BamHI-W序列。在一些实施方案中,检测肿瘤衍生的DNA的拷贝数包括检测所
述至少一个BamHI-W序列的所述拷贝数。在一些实施方案中,所述肿瘤是鼻咽癌,并且所述第一校准值为每毫升所述生物样品0个与至多约1,000,000个拷贝之间的BamHI-W序列。在
一些实施方案中,所述第一校准值为每毫升所述生物样品0个与至多约4,000个拷贝之间的
BamHI-W序列。在一些实施方案中,所述第一校准值为每毫升所述生物样品约20,000个与约
50,000个拷贝之间的BamHI-W序列。在一些实施方案中,所述第一校准值对应于衍生自对照受试者的DNA片段的拷贝数。在一些实施方案中,从数据库获得所述第一校准值。在一些实施方案中,测量所述肿瘤衍生的DNA的第一量包括使用测序来检测所述生物样品中肿瘤衍
生的DNA的片段大小分布或片段化模式中的一种。在一些实施方案中,本公开内容的非诊断方法包括测序,并且所述测序是大规模平行测序。在一些实施方案中,测量所述肿瘤衍生的DNA的第一量包括使用甲基化感知测序来检测所述生物样品中肿瘤衍生的DNA的甲基化状
态。在一些实施方案中,所述肿瘤是鼻咽癌,并且鉴别所述受试者中的肿瘤进一步包括在所述受试者中对鼻咽进行内窥镜检查。在一些实施方案中,鉴别所述受试者中的肿瘤进一步
包括对所述受试者进行磁共振成像检查。在一些实施方案中,所述DNA片段对应于基因组的一个或多个预定区域。在一些实施方案中,所述第一参数代表短DNA片段的丰度相对于较
DNA片段的丰度的。在一些实施方案中,所述较DNA片段具有小于所述较DNA片段的大小。在一些实施方案中,所述第二校准值包括多个第二校准值。在一些实施方案中,所述多个第二校准值中的每一个对应于校准样品中肿瘤衍生的DNA的分数浓度。在一些实施方案中,所述多个第二校准值中的每一个由对应于多个校准样品中的不同校准样品的直方图确定。在一
些实施方案中,所述直方图提供多个大小的DNA片段的量。在一些实施方案中,所述不同校准样品中的每一个的至少一部分具有不同分数浓度的肿瘤衍生的DNA。在一些实施方案中,本公开内容的非诊断方法包括计算所述第二校准值。在一些实施方案中,计算所述第二校
准值包括,对于所述多个校准样品中的每一个,测量所述校准样品中肿瘤衍生的DNA的分数浓度。在一些实施方案中,计算所述第二校准值包括,对于所述多个校准样品中的每一个,测量所述多个大小的DNA片段的量。在一些实施方案中,计算所述第二校准值包括,对于所述多个校准样品中的每一个,基于所述多个大小的DNA片段的量计算所述第一参数的所述
第二校准值。在一些实施方案中,本公开内容的非诊断方法包括确定逼近所述多个第二校
准值的所述第二校准值的函数。在一些实施方案中,所述多个第二校准值中的每一个对应
于肿瘤衍生的DNA的不同分数浓度。在一些实施方案中,所述函数是线性函数。在一些实施方案中,测量对应于多个大小中的每一个的来自所述生物样品的DNA片段的所述第二量包
括,对于所述DNA片段中的每一个测量所述DNA片段的大小。在一些实施方案中,测量所述
DNA片段的所述大小包括进行所述DNA片段的测序以获得序列读取。在一些实施方案中,测
量所述DNA片段的所述大小包括将所述序列读取与参考基因组中的位置进行比对。在一些
实施方案中,测量所述DNA片段的所述大小包括使用所述比对的位置确定所述DNA片段的大
小。在一些实施方案中,本公开内容的非诊断方法包括测序,并且所述测序是配对末端测
序。在一些实施方案中,所述多个大小的大小对应于长度。在一些实施方案中,所述多个大小的大小对应于分子质量。在一些实施方案中,所述多个大小的大小对应于与所述长度成
比例的参数。在一些实施方案中,所述多个大小的大小对应于与质量成比例的参数。
[0018] 各个实施方案针对于包含来自病原体(包括病毒)的核酸的无细胞DNA(例如,血浆DNA和血清DNA)的片段化模式和大小的分析的应用(例如,诊断应用)。一个应用的实施方案可以确定受试者是否具有特定病况。例如,本公开内容的方法可以确定受试者是否具有癌
症或肿瘤或其他病理学。另一应用的实施方案可用于评估病况的阶段,或病况随时间的进
展。例如,本公开内容的方法可用于确定受试者中癌症的阶段,或受试者中癌症随时间的进展(例如,使用在不同时间从受试者获得的样品)。
[0019] 又一应用的实施方案可以确定来自不同组织类型的无细胞DNA的混合物中特定组织类型的比例贡献的分类。例如,特定百分比、百分比范围或比例贡献是否高于指定百分比可被确定为分类。在一个实例中,可以鉴别针对于特定组织类型的优选终止位置,并且可以使用终止于单独优选终止位置的无细胞DNA分子的相对丰度来提供比例贡献的分类(例如,
一个组织与另一个组织之间的相对贡献)。在另一实例中,可以使用对特定组织类型具有特异性的区域中的片段化模式的幅度(例如,终止于基因组位置的无细胞DNA分子的数目)。
[0020] 其他实施方案针对于与本文所述的方法相关联的系统、便携式消费者装置和计算机可读介质。
[0021] 通过仅示出并描述了本公开内容的说明性实施方案的以下具体实施方式,本公开内容的其他方面和优点将会对本领域技术人员而言变得显而易见。应当理解,本公开内容
能够具有其他不同的实施方案,并且其若干细节能够在各个明显方面进行修改,所有这些
都不偏离本公开内容。因此,附图说明书在本质上将会被视为是说明性而非限制性的。

附图说明

[0022] 本文中的所有出版物、专利和专利申请通过引用整体并入本文。在本文中的术语与并入的参考文献中的术语之间存在冲突的情况下,以本文中的术语为准。

附图说明

[0023] 新颖特征在随附权利要求中具体阐述。通过参考以下对其中利用到原理的说明性实施方案加以阐述的详细描述和附图(本文中也称为“图”),将会获得对特征和优点的更好的理解,在这些附图中:
[0024] 图1描绘了示出来自鼻咽癌(NPC)细胞的EB病毒(EBV)DNA片段沉积到受试者血流中的示意图。
[0025] 图2描绘了患有NPC的受试者和对照受试者的血浆EBV DNA浓度(拷贝/mL血浆)。
[0026] 图3描绘了患有早期NPC和晚期NPC的受试者中血浆EBV DNA的浓度(拷贝/mL血浆)。
[0027] 图4描绘了使用单次测定或两次测定对20,174名受试者进行的群体研究。
[0028] 图5描绘了患有NPC的受试者和未患有NPC的受试者的血浆EBV DNA浓度(拷贝/mL血浆)的小提琴图(violin plot)。
[0029] 图6A描绘了具有在各个浓度的血浆EBV DNA浓度下检测受试者中的NPC的单次测定的灵敏度和特异性的值的表,并且图6B描绘了对应于图6A中的表中的值的ROC曲线,其在血浆EBV DNA浓度(拷贝/mL血浆)的各个截止值下用灵敏度对特异性作图。
[0030] 图7描绘了在患有NPC的受试者中以及在第一测定和第二测定中对NPC呈假测试阳性(FP)的受试者(无NPC)中的血浆EBV DNA浓度(拷贝/mL血浆)。
[0031] 图8A描绘了具有在各个浓度的血浆EBV DNA浓度下检测受试者中的NPC的灵敏度和特异性的值的表,并且图8B描绘了对应于图8A中的表中的值的ROC曲线,其在血浆EBV 
DNA浓度(拷贝/mL血浆)的各个截止值下用灵敏度对特异性作图。
[0032] 图9描绘了包括单次测定或两次测定的测试的特异性、灵敏度和阳性预测值。
[0033] 图10描绘了在进行第一测定后的各个时间间隔,在对第一测定(例如基线)呈阳性的受试者中进行的第二测定(例如,随访测试)的假阳性率。
[0034] 图11描绘了用于进行第一测定以检测血浆EBV DNA浓度(例如,在入选时)并在入选后4周进行一次或多次随访测试(例如,第二测定)的示例性时间线。可以在进行第一测定后最早1周进行第二测定。
[0035] 图12描绘了具有不同NPC阶段的受试者随时间的总生存率。
[0036] 图13描绘了香港受试者中NPC的阶段分布。
[0037] 图14描绘了HCC患者的血浆DNA的非随机片段化模式。
[0038] 图15描绘了基因组坐标是具有突变位点的基因组区域上血浆DNA片段的终止位置的概率图。
[0039] 图16描绘了对跨越其中突变存在于肿瘤组织中的基因组位置的血浆DNA片段的终止位置进行分类的文氏图。
[0040] 图17描绘了优选末端终止比率(PETR)的图示。
[0041] 图18描绘了血浆中肿瘤DNA分数与基因组位置的集合处的各个PETR比率之间的相关性。
[0042] 图19描绘了染色体表意文字,示出了用于检测受试者的术前(内环)和术后(外环)血浆样品中的拷贝数和/或甲基化异常的臂水平z评分分析。
[0043] 图20描绘了野生型DNA片段和具有与病况(例如,肿瘤)相关的一种或多种突变的片段的大小分布。
[0044] 图21描绘了小于150个碱基对(左下)、150至180个碱基对(底部中央)和大于180个碱基对(右下)的癌症衍生的DNA片段与样品中的癌症DNA浓度的比例的散点图。
[0045] 图22描绘了本公开内容的示例性方法的流程图,其包括进行第一qPCR测定,并可能进行第二基于下一代测序(NGS)的测定。
[0046] 图23示出了根据本发明实施方案定义完整概率(PI)的说明性实例。
[0047] 图24A和图24B示出了根据本发明的实施方案,使用25作为z值,横跨染色体6上的区段的PI的变化。
[0048] 图25示出了母体血浆中母体的和胎儿衍生的DNA的PI的同步变化的图示。
[0049] 图26示出了母体血浆中母体的和胎儿衍生的DNA的PI的非同步变化的图示。
[0050] 图27是示出分析母体的和胎儿的DNA分子在PI的变化方面是否同步的流程图。
[0051] 图28示出了对两个母体血浆样品(S24和S26)的母体血浆中母体(红色/灰色)和胎儿(蓝色/黑色)衍生的DNA片段的PI变化的分析。
[0052] 图29示出了PI变化的幅度的图示。
[0053] 图30A示出了在作为DNA酶超敏感位点但非TSS的区域的PI变化模式。图30B示出了在作为TSS但非DNA酶超敏感位点的区域的PI变化模式。
[0054] 图31示出了用于测量从不同组织释放的DNA的比例的原理的图示。
[0055] 图32示出了FRA与组织A对混合物中的DNA的比例贡献之间的关系,该比例贡献通过分析具有来自组织A的已知比例浓度的DNA的两个或更多个校准样品来确定。
[0056] 图33示出了FR胎盘与母体血浆中胎儿DNA百分比之间的相关性。
[0057] 图34示出了FR血液与母体血浆中胎儿DNA浓度之间的相关性。
[0058] 图35是根据本发明的实施方案,分析生物样品以确定第一组织类型的比例贡献的分类的方法1300的流程图。
[0059] 图36示出了肿瘤或胎儿衍生的DNA的循环DNA片段的差异的原理的图示。
[0060] 图37是分析生物样品的方法的流程图,该生物样品包含来自包括第一组织类型在内的多种组织类型的无细胞DNA分子的混合物。
[0061] 图38是文氏图,其示出了对肝细胞癌(HCC)病例具有特异性、对怀孕女性具有特异性以及由两种病例共享的频繁终止位点的数目。
[0062] 图39示出了校准曲线,其示出对于血浆中具有已知肿瘤DNA部分数的癌症患者,终止于癌症特异性终止位置的测序DNA片段的比例与血浆中的肿瘤DNA分数之间的关系
[0063] 图40示出了携带胎儿特异性等位基因以及母亲和胎儿共享的等位基因的血浆DNA的非随机片段化模式的说明性实例。
[0064] 图41示出了基因组坐标是具有信息性单核苷酸多态性(SNP)的区域上母体血浆DNA片段的终止位置的概率图。
[0065] 图42示出了在母体中纯合且在胎儿中杂合的SNP上血浆DNA片段的终止位置的分析。
[0066] 图43示出了在胎儿中纯合且在母体中杂合的SNP上血浆DNA片段的终止位置的分析。
[0067] 图44示出了具有重复性胎儿(集合A)和母体(集合X)末端的血浆DNA分子的相对丰度(比率(F/M))与胎儿DNA分数之间的相关性。
[0068] 图45A-图45E示出了关于终止于胎儿优选的终止位置上的片段和终止于母体优选的终止位置上的片段的血浆DNA大小分布的数据。
[0069] 图46A-图46E示出了关于来自26名怀孕早期怀孕女性的汇集血浆DNA样品中终止于胎儿优选的终止位置上的片段和终止于母体优选的终止位置上的片段的血浆DNA大小分
布的数据。
[0070] 图47示出了HCC患者的血浆DNA的非随机片段化模式的说明性实例。
[0071] 图48是基因组坐标是具有突变位点的区域上血浆DNA片段的终止位置的概率图。
[0072] 图49A示出了对跨越其中突变存在于肿瘤组织中的基因组位置的血浆DNA片段的终止位置的分析。
[0073] 图49B示出了71名HCC患者的比率M/WT与血浆中的肿瘤DNA分数之间的相关性。
[0074] 图50A示出了怀孕女性和HCC患者的血浆DNA的优选终止位置的数目。集合P含有2900万个在怀孕女性中优选的终止位置。
[0075] 图50B示出,在71名HCC患者的比率HCC/怀孕与血浆中的肿瘤DNA分数之间观察到正相关。
[0076] 图51A示出了优选末端终止比率(PETR)的概念的图示。每条线代表一个血浆DNA片段。
[0077] 图51B示出了11名HCC患者的血浆中的肿瘤DNA分数与集合H位置处的PETR之间的相关性。
[0078] 图52示出了在以HCC优选末端、HBV优选末端或共享末端终止的血浆DNA分子中检测到的短DNA(<150bp)的比例。
[0079] 图53A示出了w-PETR的原理的图示。w-PETR的值被计算为终止于窗口A和窗口B内的DNA片段的数目之间的比率。
[0080] 图53B示出了11名HCC患者中肿瘤DNA分数与w-PETR值之间的相关性。
[0081] 图54示出了当与脐带血浆样品比较时,在每个研究样品的血浆样品中检测到的通常共享的优选终止位置的比例(210x单倍体基因组覆盖率)。
[0082] 图55示出了文氏图,其示出了在两个或更多个样品中共同观察到的优选终止位置的数目以及仅在任何一个样品中观察到的优选终止位置的数目。
[0083] 图56A示出了血浆中胎儿DNA分数与通过“分娩前”和“分娩后”血浆DNA样品之间的比较鉴别的位置集合上的平均PETR之间的相关性。图56B示出了血浆中胎儿DNA分数与通过“分娩前”和“分娩后”血浆DNA样品之间的比较鉴别的位置集合上的平均w-PETR之间的相关性。
[0084] 图57A示出了怀孕18周(怀孕受试者1)和38周(怀孕受试者2)的两名怀孕女性中前100万最常观察到的血浆DNA优选终止位置。
[0085] 图57B示出了两名怀孕女性的血浆中前100万最常观察到的优选终止位置的PETR值的比较。
[0086] 图58是根据本发明的实施方案,分析生物样品以确定混合物中第一组织类型的比例贡献的分类的方法的流程图。
[0087] 图59A和图59B示出了通过实时PCR测量的不同受试者组的血浆EBV DNA浓度。
[0088] 图60A和图60B示出了不同受试者组,映射到EBV基因组的测序血浆DNA片段的比例。
[0089] 图61示出了来自正常受试者和6名患有鼻咽癌的受试者(例如,TBR1344、TBR1358、TBR1360、TBR1378、TBR1379和TBR1390)的汇集样品中EBV DNA片段的大小分布。
[0090] 图62示出了患有鼻咽癌的6名受试者(例如,TBR1344、TBR1358、TBR1360、TBR1378、TBR1379和TBR1390)中映射到EBV基因组和人基因组的测序血浆DNA片段的大小分布。
[0091] 图63示出了患有淋巴瘤的3名受试者(TBR1332、TBR1333和TBR1551)中映射到EBV基因组和人基因组的测序血浆DNA片段的大小分布。
[0092] 图64示出了6名对照受试者(AP080、BP065、EN086、BH035、FF159和GC038)中映射到EBV基因组和人基因组的测序血浆DNA片段的大小分布。
[0093] 图65示出了低于150bp的测序血浆EBV DNA片段的百分比。
[0094] 图66示出了对于具有持续假阳性血浆EBV DNA且不具有可观察的病理学的4名受试者以及6名NPC患者,终止于EBV基因组中的每个核苷酸上的血浆EBV DNA片段的频率
[0095] 图67示出了文氏图,其描绘了(A)对不具有可观察的病理学的受试者具有特异性的优选终止位置的数目(383),(B)对患有NPC的受试者具有特异性的优选终止位置的数目
(383),以及(C)两组受试者共享的优选终止位置(17)。
[0096] 图68示出了热图,其描绘了不具有可观察的病理学的受试者和NPC受试者终止于集合A位置或集合B位置上的片段的百分比。描绘了8名不具有可观察的病理学的受试者(左
8列;C1-C8)和5名NPC受试者(右5列;NPC1-NPC5)的热图。NPC受试者中终止于集合A终止位置的核酸片段的丰度相对小于NPC受试者中终止于集合B终止位置的核酸片段。
[0097] 图69示出对于不同的受试者组,终止于集合B位置的片段数目除以终止于集合A位置的片段数目的比率(例如,B/A比率)。
[0098] 图70示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和通过筛查鉴别的早期NPC患者(右)的通过实时PCR测量的血浆EBV DNA浓度。
[0099] 图71示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和通过筛查鉴别的早期NPC患者(右)的血浆中映射到EBV基因组的读取的比例。
[0100] 图72示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和通过筛查鉴别的早期NPC患者(右)的血浆中低于150个碱基对(bp)的EBV DNA片段的百分
比。
[0101] 图73示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和通过筛查鉴别的早期NPC患者(右)的B/A比率。
[0102] 图74示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(实心圆)和通过筛查鉴别的早期NPC患者(空心圆)的B/A比率与血浆中低于150bp的EBV DNA片段
的百分比的散点图。
[0103] 图75示出了在对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者中通过实时PCR测量的血浆EBV DNA
浓度(拷贝/毫升)。
[0104] 图76A示出了在对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者中通过实时PCR测量的血浆EBV 
DNA浓度(拷贝/毫升)。图76B示出了在对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观
察的病理学的受试者(分别为左或中)和被鉴别为患有NPC的受试者中映射到EBV基因组的
血浆DNA片段的比例。
[0105] 图77示出了患有NPC的受试者(左)和对血浆EBV DNA呈持续阳性的受试者(右)中映射到EBV基因组和人基因组的测序血浆DNA片段的大小谱。
[0106] 图78示出了在对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者中长度为80-110个碱基对的血浆
EBV DNA片段与长度为80-110个碱基对的常染色体DNA片段的大小比率。
[0107] 图79示出了在对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者中的大小指数(例如,大小比率的倒
数)。
[0108] 图80示出了在对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和被鉴别为患有NPC的受试者(右)中的末端比率(例如,终止于集合B位置的测序血浆EBV 
DNA片段的数目与终止于集合A位置的测序血浆EBV DNA片段的数目的比率)。
[0109] 图81示出了在使用映射到EBV基因组的测序血浆DNA片段的比例(例如,大于或等于0.0009%)进行第一分析并使用大小比率(例如,小于或等于7%)进行后续的第二分析后
被鉴别为对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观察的病理学的受试者以及被
鉴别为患有NPC的受试者的数目。
[0110] 图82A和图82B示出了分类和回归树(CART)分析的结果,以确定用于区分对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观察的病理学的受试者或被鉴别为患有NPC的
受试者的各个参数的最佳截止值。
[0111] 图83示出了HCC受试者中映射到EBV基因组和人基因组的测序血浆DNA片段的大小分布。
[0112] 图84示出了患有慢性乙型肝炎的受试者(左)和HCC受试者(右)的血浆中低于150bp的HBV DNA片段的百分比的条形图。
[0113] 图85示出了患有慢性乙型肝炎的受试者(左)和HCC受试者(右)中相对于终止于其他位置的片段进行归一化的终止于HCC优选终止位置的血浆HBV DNA片段的数目的盒须图。
[0114] 图86示出了终止于HPV基因组的不同位置的血浆HPV DNA片段的数目。
[0115] 图87示出了在与胎儿优选的终止位置附近的参考基因组进行比对时携带不同等位基因的母体血浆DNA分子。
[0116] 图88示出了根据本发明实施方案,分析生物样品以确定第一组织类型的基因型的方法5800的流程图。
[0117] 图89图示了根据本发明实施方案的系统5900。
[0118] 图90示出了可与根据本发明实施方法的系统和方法一起使用的示例性计算机系统10的框图
[0119] 图91A示出了对于15个瞬时阳性样品、20个持续阳性样品和来自确认的NPC受试者的10个样品的训练集,血浆中映射到EBV基因组的读取的比例(%)。
[0120] 图91B示出了训练集中对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者(右)中的大小指数(例如,
大小比率的倒数)。
[0121] 图92A示出了对于56个瞬时阳性样品、44个持续阳性样品和来自确认的NPC受试者的29个样品的验证集,血浆中映射到EBV基因组的读取的比例(%)。
[0122] 图92B示出了验证集中对血浆EBV DNA呈瞬时阳性或持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者(右)中的大小指数(例如,
大小比率的倒数)。
[0123] 图93示出了对血浆EBV DNA呈阳性的初始样品进行的下一代测序测定可降低假阳性率并增加阳性预测值。
[0124] 图94示出了三名HPV受试者中映射到HPV基因组和人基因组的测序血浆DNA片段的大小分布。
[0125] 图95示出了6名受试者的终止于HPV基因组中的每个核苷酸的血浆DNA片段的频率。

具体实施方式

定义
[0126] 如在本公开内容中使用的,术语“真阳性”(TP)可以指具有病况的受试者。“真阳性”可以指患有肿瘤、癌症、癌前病况(例如,癌前病变)、局部或转移的癌症或者非恶性疾病的受试者。“真阳性”可以指具有病况并且通过本公开内容的测定或方法被鉴别为具有该病况的受试者。
[0127] 如在本公开内容中使用的,术语“真阴性”(TN)可以指不具有病况或不具有可检测病况的受试者。真阴性可以指不具有疾病或可检测疾病的受试者,该疾病或可检测疾病如肿瘤、癌症、癌前病况(例如,癌前病变)、局部或转移的癌症或者非恶性疾病,或者在其他方面健康的受试者。真阴性可以指不具有病况或不具有可检测病况,或者通过本公开内容的
测定或方法被鉴别为不具有病况的受试者。
[0128] 如在本公开内容中使用的,术语“假阳性”(FP)可以指不具有病况的受试者。假阳性可以指不具有肿瘤、癌症、癌前病况(例如,癌前病变)、局部或转移的癌症、非恶性疾病或者在其他方面健康的受试者。术语假阳性可以指不具有病况但通过本公开内容的测定或方法被鉴别为具有病况的受试者。
[0129] 如在本公开内容中使用的,术语“假阴性”(FN)可以指具有病况的受试者。假阴性可以指具有肿瘤、癌症、癌前病况(例如,癌前病变)、局部或转移的癌症或者非恶性疾病的受试者。术语假阴性可以指具有病况但通过本公开内容的测定或方法被鉴别为不具有病况的受试者。
[0130] 如在本公开内容中使用的,术语“灵敏度”或“真阳性率”(TPR)可以指真阳性的数目除以真阳性和假阴性的数目的总和。灵敏度可以表征测定或方法正确鉴别真正具有病况的群体部分的能。例如,灵敏度可以表征方法正确鉴别群体内患有癌症的受试者数目的
能力。在另一实例中,灵敏度可以表征方法正确鉴别指示癌症的一种或多种标志物的能力。
[0131] 如在本公开内容中使用的,术语“特异性”或“真阴性率”(TNR)可以指真阴性的数目除以真阴性和假阳性的数目的总和。特异性可以表征测定或方法正确鉴别真正不具有病况的群体部分的能力。例如,特异性可以表征方法正确鉴别群体内未患癌症的受试者数目
的能力。在另一实例中,特异性可以表征方法正确鉴别指示癌症的一种或多种标志物的能
力。
[0132] 如在本公开内容中使用的,术语“ROC”或“ROC曲线”可以指接受者操作特征曲线。ROC曲线可以是二元分类器系统的表现的图形表示。对于任何给定的方法,可以通过在各个阈值设置下用灵敏度对特异性作图来生成ROC曲线。可以在受试者的血浆样品中的肿瘤衍
生的DNA的各种浓度下确定用于检测受试者中肿瘤存在的方法的灵敏度和特异性。此外,提供三个参数(例如,灵敏度、特异性和阈值设置)中的至少一个,ROC曲线可以确定任何未知参数的值或预期值。可以使用拟合成ROC曲线的曲线来确定未知参数。例如,提供样品中肿瘤衍生的DNA的浓度,可以确定测试的预期灵敏度和/或特异性。术语“AUC”或“ROC-AUC”可以指接受者操作特征曲线下的区域。该度量可以提供方法的诊断效用的度量,同时考虑该
方法的灵敏度和特异性。ROC-AUC的范围可以是0.5至1.0,其中接近0.5的值可以指示方法
具有有限的诊断效用(例如,较低的灵敏度和/或特异性),并且接近1.0的值指示该方法具
有更大的诊断效用(例如,较高的灵敏度和/或特异性)。参见,例如,Pepe等人,
“Limitations of the Odds Ratio in Gauging the Performance of a Diagnostic,
Prognostic,or Screening Marker,”Am.J.Epidemiol 2004,159(9):882-890,其通过引用整体并入本文。用于表征诊断效用的额外的方法包括使用似然函数、优势比、信息理论、预测值、校准(包括拟合优度)和重分类测量。该方法的实例总结于例如,Cook,“Use and 
Misuse of the Receiver Operating Characteristic Curve in Risk Prediction,”
Circulation 2007,115:928-935中,其通过引用整体并入本文。
[0133] “阴性预测值”或“NPV”可以通过TN/(TN+FN)或所有阴性测试结果的真阴性分数来计算。阴性预测值可本质地受到群体中病况的患病率和意向测试群体的预测试概率的影响。“阳性预测值”或“PPV”可以通过TP/(TP+FP)或所有阳性测试结果的真阳性分数来计算。
PPV可本质地受到群体中病况的患病率和意向测试群体的预测试概率的影响。参见例如,O'Marcaigh A S,Jacobson R M,“Estimating The Predictive Value Of A Diagnostic 
Test,How To Prevent Misleading Or Confusing Results,”Clin.Ped.1993,32(8):485-
491,其通过引用整体并入本文。
[0134] “局部最大值”可以指在该处当与邻近位置比较时获得感兴趣参数的最大值的基因组位置(例如,核苷酸),或者可以指在这样的基因组位置处感兴趣的参数的值。作为实
例,邻近位置的范围可以是50bp至2000bp。感兴趣的参数的实例包括但不限于终止于基因
组位置上的片段的数目、与位置重叠的片段的数目或者大于阈值大小的覆盖基因组位置的
片段的比例。当感兴趣的参数具有周期性结构时,可出现许多局部最大值。全局最大值是局部最大值中特定的最大值。类似地,“局部最小值”可以指在该处当与邻近位置比较时获得感兴趣参数的最小值的基因组位置,或者可以指在这样的基因组位置处感兴趣的参数的
值。
[0135] 如本文所用,术语“突变”可以指一种或多种细胞的遗传物质的可检测的变化。在特定实例中,一种或多种突变可发现于癌细胞中并且可以鉴别该癌细胞(例如,驱动突变和乘客突变)。突变可以从表观细胞传递到子细胞。本领域技术人员将理解,亲本细胞中的基因突变(例如,驱动突变)可以在子细胞中诱导额外的不同突变(例如,乘客突变)。突变通常发生在核酸中。在特定实例中,突变可以是一种或多种脱氧核糖核酸或其片段的可检测变化。突变通常是指添加、缺失、置换、倒置或调换至核酸中的新位置的核苷酸。突变可以是自发突变或实验诱导的突变。
[0136] 特定组织序列中的突变是“组织特异性等位基因”的实例。例如,肿瘤可以具有导致在正常细胞中不出现的基因座处的等位基因的突变。“组织特异性等位基因”的另一实例是在胎儿组织中出现但不在母体组织中出现的胎儿特异性等位基因。
[0137] 术语“对照”、“对照样品”、“参考”、“参考样品”、“正常”和“正常样品”可用于描述来自不具有特定病况或在其他方面健康的受试者的样品。在一个实例中,可以对患有肿瘤的受试者进行如本文所公开的方法,其中参考样品是取自受试者的健康组织的样品。可以
从受试者或数据库获得参考样品。参考可以是例如用于映射从来自受试者的样品的测序获
得的序列读取的参考基因组。参考基因组可以指来自生物样品和组成型样品的序列读取可
与之以进行比对和比较的单倍体或二倍体基因组。组成型样品的实例可以是从受试者获得
的白细胞的DNA。对于单倍体基因组,每个基因座上只能有一个核苷酸。对于二倍体基因组,可以鉴别杂合基因座;每个杂合基因座可以具有两个等位基因,其中任一等位基因可以允
许与基因座的比对相匹配。
[0138] 如本文所用,短语“健康”可以指具有良好健康的受试者。健康受试者可以证明不存在任何恶性或非恶性疾病。“健康个体”可以具有通常不被认为是“健康的”的与所测定的病况无关的其他疾病或病况。
[0139] 术语“样品”、“生物样品”或“患者样品”可包括衍生自存活的或死亡的受试者的任何组织或物质。生物样品可以是无细胞样品。生物样品可包含核酸(例如,DNA或RNA)或其片段。术语“核酸”可以指脱氧核糖核酸(DNA)、核糖核酸(RNA)或者其任何杂合体或片段。样品中的核酸可以是无细胞核酸。样品可以是液体样品或固体样品(例如,细胞或组织样品)。生物样品可以是体液,如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如,睾丸的鞘膜积液)的液体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如,甲状腺、乳房)的抽吸液等。样品可以是粪便样品。在各个实施方案中,已经富集无细胞DNA的生物样品(例如,经由离心方案获得的血浆样品)中的大部分DNA可以是无细胞的(例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可以是无细胞的)。可以处理生物样品以物理地破坏组织或细胞结构(例如,离心和/或细胞裂解),从而将细胞内组分释放到溶液中,该溶液可进一步含有用于制备样品以供分析的酶、缓冲液、盐、洗涤剂等。
[0140] 如本文所用,术语“片段”(例如,DNA片段)可以指包含至少3个连续核苷酸的多核苷酸或多肽序列的一部分。核酸片段可以保留亲本多核苷酸的生物活性和/或一些特性。在一个实例中,鼻咽癌细胞可以将EB病毒(EBV)DNA片段沉积到受试者(例如,患者)的血流中。这些片段可包含可用于检测血浆中的肿瘤衍生的DNA的水平的一个或多个BamHI-W序列片
段。BamHI-W序列片段对应于可以使用Bam-HI限制酶识别和/或消化的序列。BamHI-W序列可以指序列5’-GGATCC-3’。
[0141] 术语“癌症”或“肿瘤”可以指组织的异常团块,其中团块的生长超过正常组织的生长并与正常组织的生长不协调。可取决于以下特性将癌症或肿瘤定义为“良性”或“恶性”:包括形态和功能在内的细胞分化程度、生长速率、局部侵入和转移。“良性”肿瘤可以是高分化的,具有相比于恶性肿瘤特征性的更慢的生长,并且保持定位于起源部位。此外,在一些情况下,良性肿瘤不具有浸润、侵入或转移到远处部位的能力。“恶性”肿瘤可以是低分化的(退行发育的),具有特征性的快速生长,伴随进行性浸润、侵入和周围组织的破坏。此外,恶性肿瘤可具有转移到远处部位的能力。
[0142] 术语“癌症水平”可以指癌症是否存在(即,存在或不存在)、癌症阶段、肿瘤大小、转移的存在或不存在、身体的总肿瘤负荷以及/或者癌症严重程度的其他量度(例如,癌症复发)。癌症的水平可以是数字或其他标记如符号、字母和颜色。水平可以为零。癌症的水平还可以包括与突变或突变数目相关的恶变前或癌前的病况(状态)。可以以各种方式使用癌
症的水平。例如,筛查可以检查先前不知道患有癌症的人是否存在癌症。评估可以研究已被诊断患有癌症的人,以监测癌症随时间的进展,研究疗法的有效性或者确定预后。在一个实施方案中,预后可表示为患者死于癌症的几率,或者癌症在特定持续时间或时间后进展的
几率,或者癌症转移的几率。检测可以包括“筛查”,或者可以包括检查具有癌症的提示性特征(例如,症状或其他阳性测试)的某人是否患有癌症。“病理学水平”可以指与病原体相关的病理学的水平,其中该水平可以如上所述针对于癌症。当癌症与病原体相关时,癌症水平可以是病理学水平。
[0143] 术语“测定”可以指用于确定物质(例如,核酸、蛋白质、细胞、组织或器官)的性质的技术。测定(例如,第一测定或第二测定)可包括用于确定样品中核酸的拷贝数变异、样品中核酸的甲基化状态、样品中核酸的片段大小分布、样品中核酸的突变状态或样品中核酸的片段化模式的技术。可以使用本领域普通技术人员已知的任何测定来检测本文提到的核
酸性质中的任一种。核酸的性质可包括序列、基因组身份、拷贝数、一个或多个核苷酸位置处的甲基化状态、核酸的大小、在一个或多个核苷酸位置处核酸的突变的存在或不存在以
及核酸的片段化模式(例如,核酸片段所在的核苷酸位置)。测定或方法可具有特定的灵敏
度和/或特异性,并且可以使用ROC-AUC统计来测量它们作为诊断工具的相对有用性。
[0144] “癌症相关变化”或“癌症特异性变化”可包括癌症衍生的突变(包括单核苷酸突变、核苷酸缺失或插入、基因或染色体片段缺失、易位、倒位)、基因扩增、病毒相关序列(例如,病毒附加体、病毒插入、感染细胞并随后由细胞释放的病毒DNA以及循环或无细胞病毒DNA)、异常甲基化谱或肿瘤特异性甲基化特征、异常无细胞核酸(例如,DNA)大小谱、异常组蛋白修饰标记和其他表观遗传修饰、以及癌症相关或癌症特异性的无细胞DNA片段末端的
位置。
[0145] 如本文所用,术语“随机测序”可以指其中被测序的核酸片段在测序程序之前未被特异性鉴别或预先确定的测序。不需要靶向特定基因座的序列特异性引物。在一些实施方案中,将接头添加至核酸片段的末端,并将测序的引物连接(例如,杂交)至接头。因此,任何片段可以用相同的引物测序,例如,附接至相同的通用接头的引物,因此测序可以是随机
的。大规模平行测序可包括使用随机测序。
[0146] “序列读取”(或“测序读取”)可以指对应于核酸分子(例如,核苷酸串)的序列信息。例如,序列读取可以对应于来自核酸片段的一部分的核苷酸串(例如,约20至约150个),可以对应于核酸片段的一个末端或两个末端处的核苷酸串,或者可以对应于整个核酸片段的核苷酸。序列读取可以以多种方式获得,例如,使用测序技术或使用探针(例如,在杂交阵列或捕获探针中),或者使用扩增技术如聚合酶链反应(PCR)或使用单引物的线性扩增或等
温扩增。
[0147] 术语“测序深度”可以指基因座被与基因座比对的序列读取所覆盖的次数。基因座可以小至核苷酸,或大至染色体臂,或大至整个基因组。测序深度可以表示为“Yx”,例如,50x、100x等,其中“Y”是指基因座被序列读取覆盖的次数。测序深度也可以应用于多个基因座或整个基因组,在这种情况下,Y可以指分别对基因座或单倍体基因组或全基因组进行测序的平均次数。当引用平均深度时,数据集中包含的不同基因座的实际深度可以跨越一系
列值。超深度测序可以指基因座的测序深度为至少100x。
[0148] 术语“测序宽度”可以指已分析的特定参考基因组(例如,人参考基因组)或基因组一部分的分数。该分数的分母可以是重复被掩蔽的基因组,并且因此100%可以对应于所有参考基因组减去掩蔽的部分。重复被掩蔽的基因组可以指其中掩蔽序列重复的基因组(例如,序列读取与基因组的未掩蔽部分进行比对)。可以掩蔽基因组的任何部分,并且因此可以关注参考基因组的任何特定部分。广泛测序可以指测序和分析至少0.1%的基因组。
[0149] “甲基化组”可以是基因组中多个位点或基因座处DNA甲基化的量的量度。甲基化组可以对应于基因组的全部、基因组的大部分或基因组的相对小的部分。“肿瘤甲基化组”可以是受试者(例如,人)的肿瘤的甲基化组。可以使用肿瘤组织或血浆中的无细胞肿瘤DNA来确定肿瘤甲基化组。肿瘤甲基化组可以是感兴趣的甲基化组的一个实例。感兴趣的甲基
化组可以是可以将核酸(例如,DNA)贡献到体液中的器官的甲基化组(例如,脑细胞、骨、肺、心脏、肌肉、肾等的甲基化组)。器官可以是移植器官。
[0150] “血浆甲基化组”可以是由动物(例如,人)的血浆或血清测定的甲基化组。血浆甲基化组可以是无细胞甲基化组的实例,因为血浆和血清可以包含无细胞DNA。血浆甲基化组可以是混合甲基化组的实例,因为其可以是肿瘤/患者甲基化组的混合物。“细胞甲基化组”可以是由受试者(例如,患者)的细胞(例如,血细胞或肿瘤细胞)确定的甲基化组。血细胞的甲基化组可称为血细胞甲基化组(或血液甲基化组)。
[0151] 每个基因组位点(例如,CpG位点)的“甲基化指数”可以指在该位点处显示甲基化的序列读取与覆盖该位点的读取的总数目的比例。区域的“甲基化密度”可以是在显示甲基化的区域内的位点处的读取的数目除以覆盖该区域中的位点的读取的总数目。位点可以具
有特定的特性(例如,位点可以是CpG位点)。区域的“CpG甲基化密度”可以是显示CpG甲基化的读取的数目除以覆盖该区域中的CpG位点(例如,特定CpG位点、CpG岛内的CpG位点或更大的区域)的读取的总数目。例如,人基因组中每个100kb箱的甲基化密度可以由CpG位点上未转化的胞嘧啶(其可对应于甲基化胞嘧啶)的总数确定为由映射到100kb区域的序列读取覆
盖的所有CpG位点的比例。该分析也可以针对其他箱大小进行,例如50kb或1Mb等。区域可以是整个基因组或染色体或染色体的一部分(例如,染色体臂)。当区域仅包括该CpG位点时,CpG位点的甲基化指数可以与该区域的甲基化密度相同。“甲基化胞嘧啶的比例”可以指在该区域中显示甲基化(例如在亚硫酸氢盐转化后未转化)的胞嘧啶位点“C”的数目除以分析的胞嘧啶残基的总数目(即包括CpG背景之外的胞嘧啶)。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的实例。
[0152] “甲基化谱”(也称为甲基化状态)可包括与区域的DNA甲基化相关的信息。与DNA甲基化相关的信息可包括CpG位点的甲基化指数、区域中CpG位点的甲基化密度、连续区域上CpG位点的分布、含有超过一个CpG位点的区域内每个单独CpG位点的甲基化模式或水平、以及非CpG甲基化。基因组的实质部分的甲基化谱可被认为等同于甲基化组。哺乳动物基因组中的“DNA甲基化”可以指在CpG二核苷酸中向胞嘧啶的杂环的5位添加甲基基团(即,以产生
5-甲基胞嘧啶)。胞嘧啶的甲基化可以发生在其他序列环境中的胞嘧啶中,例如5’-CHG-3’和5’-CHH-3’,其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化还可以是5-羟甲基胞嘧啶的形式。DNA的甲基化可包括非胞嘧啶核苷酸的甲基化,如N6-甲基腺嘌呤。
[0153] 术语“大小谱”和“大小分布”可涉及生物样品中DNA片段的大小。大小谱可以是提供各种大小的DNA片段的量的分布的直方图。各种统计参数(也称为大小参数或仅称为参数)可以将一个大小谱与另一大小谱区分开。一个参数可以是特定大小或大小范围的DNA片
段相对于所有DNA片段或者相对于另一大小或范围的DNA片段的百分比。
[0154] 术语“约”或“大约”可意指在由本领域普通技术人员确定的特定值的可接受误差范围内,该可接受误差范围可部分取决于该值如何测量或确定,即,测量系统的局限性。例如,根据本领域中的实践,“约”可指标准偏差在1以内或大于1。“约”可指给定值的±20%、±10%、±5%或±1%的范围。术语“约”或“大约”可意指在某的数量级内、5倍以内或2倍以内。在本申请和权利要求中描述了特定值的情况下,除非另有说明,否则应该假定术语“约”意指在该特定值的可接受的误差范围内。术语“约”可具有如本领域普通技术人员所通常理解的含义。术语“约”可以指±10%。术语“约”可以指±5%。
[0155] “信息性癌症DNA片段”或“信息性DNA片段”可对应于具有或携带任一种或多种癌症相关或癌症特异性变化或突变或者特定末端基序的DNA片段(例如,在DNA片段的每个末端处具有特定序列的核苷酸的数目)。
[0156] “终止位置”或“末端位置”(或仅称为“末端”)可以指无细胞DNA分子(例如,血浆DNA分子)的最外侧碱基(即,极端处)的基因组坐标或基因组身份或核苷酸身份。末端位置可对应于DNA分子的任一末端。以这种方式,如果提及DNA分子的起点和终点,则两者都可以对应于终止位置。在一些情况下,一个末端位置是通过分析方法(例如,大规模平行测序或下一代测序、单分子测序、双链或单链DNA测序文库制备方案、聚合酶链反应(PCR)或微阵
列)检测或确定的无细胞DNA分子的一个极端上的最外侧碱基的基因组坐标或核苷酸身份。
在一些情况下,这样的体外技术可以改变无细胞DNA分子的真实体内物理末端。因此,每个可检测的末端可以代表生物学上真实的末端,或者该末端是从分子的原始末端向内的一个
或多个核苷酸或者从分子的原始末端延伸的一个或多个核苷酸,例如通过Klenow片段进行
的非平端双链DNA分子的突出端的5’平端化和3’补平。末端位置处的基因组身份或基因组坐标可源自序列读取与人参考基因组(例如,hg19)的比对结果。其可以从代表人基因组原
始坐标的索引或代码的目录中获得。其可以指通过但不限于靶标特异性探针、微测序、DNA扩增来读取的无细胞DNA分子上的位置或核苷酸身份。术语“基因组位置”可以指多核苷酸(例如,基因、质粒、核酸片段、病毒DNA片段)中的核苷酸位置。术语“基因组位置”不限于基因组(例如,配子或微生物中的染色体的单倍体组或多细胞生物的每个细胞中的染色体的
单倍体组)内的核苷酸位置。
[0157] “优选末端”(或“重复性终止位置”)可以指在具有生理或病理(疾病)状态(例如,癌症)的生物样品中相比于不具有这样的状态的生物样品或相比于相同病理或生理状态的不同时间点或阶段(例如,在治疗之前或之后)具有更高的代表性或普遍性(例如,通过比率测定)的末端。优选末端可具有相对于其他状态在相关生理或病理状态中被检测到的增加
的似然或概率。可以在病理状态与非病理状态之间,例如在患有和未患有癌症的患者中比
较增加的概率,并将其量化为似然比或相对概率。可以基于在测试样品中检测至少阈值数
目的优选末端的概率或者基于在患有这样的病况的患者相比于未患有这样的病况的患者
中检测优选末端的概率来确定似然比。似然比阈值的实例包括但不限于1.1、1.2、1.3、1.4、
1.5、1.6、1.8、2.0、2.5、3.0、3.5、4.0、4.5、5、6、8、10、20、40、60、80和100。这样的似然比可以通过比较具有和不具有相关状态的样品的相对丰度值来测量。因为检测相关生理或疾病
状态中的优选末端的概率可以更高,所以可以在具有相同的生理或疾病状态的超过一个个
体中见到这样的优选终止位置。随着概率的增加,即使分析的无细胞DNA分子的数目远小于基因组的大小,也可以检测到超过一个无细胞DNA分子终止于相同的优选终止位置。因此,优选或重复性终止位置也可被称为“频繁终止位置”。定量阈值通常要求将在相同样品或相同样品等分试样中至少多次(例如,3、4、5、6、7、8、9、10、15、20或50次)检测到的末端作为优选末端。相关的生理状态可以包括当人健康、无疾病或不存在感兴趣的疾病时的状态。类似地,“优选终止窗口”可以对应于连续的优选终止位置的集合。
[0158] “相对丰度”可以指具有特定特性(例如,指定长度,终止于一个或多个指定坐标/终止位置,或与基因组的特定区域比对)的核酸片段的第一量与具有特定特性(例如,指定长度,终止于一个或多个指定坐标/终止位置,或与基因组的特定区域比对)的核酸片段的
第二量的比率。在一个实例中,相对丰度可以指终止于第一集合的基因组位置上的DNA片段的数目与终止于第二集合的基因组位置上的DNA片段的数目的比率。在一些方面,“相对丰度”可以是一类分离值,其将终止于基因组位置的一个窗口内的无细胞DNA分子的量(一个
值)与终止于基因组位置的另一窗口内的无细胞DNA分子的量(另一个值)相关联。两个窗口
可以重叠,但可具有不同的大小。在其他实现方案中,两个窗口不能重叠。此外,窗口可以是一个核苷酸的宽度,并且因此相当于一个基因组位置。
[0159] 终止于位置的核酸分子(例如,DNA或RNA)的“比率”可以涉及核酸分子终止于该位置的频率。该比率可以基于终止于位置的核酸分子的数目,该数目针对分析的核酸分子的数目进行归一化。该比率可以基于终止于位置的核酸分子的数目,该数目针对终止于不同
位置的核酸分子的数目进行归一化。该比率可以基于终止于位置的来自第一样品的核酸分
子的数目,该数目针对终止于该位置上的来自第二样品(例如,参考样品)的核酸分子的数
目进行归一化。该比率可以基于终止第一集合的位置(例如,基因组位置)的来自第一样品
的核酸分子的数目,该数目针对终止于第二集合的位置的来自第二样品(例如,参考样品)
的核酸分子的数目进行归一化。因此,该比率可对应于有多少核酸分子终止于位置上的频
率,并且在一些情况下,该比率与在终止于该位置的核酸分子的数目方面具有局部最大值
的位置的周期性无关。
[0160] “校准样品”可以对应于其组织特异性核酸分数是已知的或经由校准方法例如使用对组织具有特异性的等位基因确定的生物样品。作为另一实例,校准样品可以对应于可
以从中确定优选终止位置的样品。校准样品可用于这两种目的。
[0161] “校准数据点”可包括“校准值”和感兴趣的核酸(即,特定组织类型的DNA)的测量的或已知的比例分布。校准值可以是针对校准样品确定的相对丰度,由此可以知道组织类型的比例分布。校准数据点可以以各种方式定义,例如,作为离散点或作为校准函数(也称为校准曲线或校准表面)。校准函数可衍生自校准数据点的额外的数学转换。
[0162] 术语“分类”可以指与样品的特定性质相关联的任何数字或其他字符。例如,“+”符号(或词语“阳性”)可以表示样品被分类为具有缺失或扩增。在另一实例中,术语“分类”可以指受试者和/或样品中的肿瘤组织的量、受试者和/或样品中的肿瘤大小、受试者中的肿瘤阶段、受试者和/或样品中的肿瘤负荷以及受试者中肿瘤转移的存在。分类可以是二元的(例如,阳性或阴性),或具有更多的分类水平(例如,1至10或0至1的标度)。术语“截止值”和“阈值”可以指操作中使用的预定数字。例如,截止值大小可以大于该值的片段被排除的大小。阈值可以是在高于或低于其应用特定分类的值。这些术语中的任一个都可用于这些上
下文中的任一种。
[0163] “组织”可以对应于组合在一起作为功能单元的一组细胞。在单个组织中可以发现超过一种细胞类型。不同类型的组织可以由不同类型的细胞(例如,肝细胞、肺泡细胞或血细胞)组成,但也可以对应于来自不同生物(母体与胎儿)的组织或者对应于健康细胞与肿瘤细胞。术语“组织”通常可指在人体中发现的任何一组细胞(例如,心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面,术语“组织”或“组织类型”可用于指无细胞核酸所起源的组织。在一个实例中,病毒核酸片段可衍生自血液组织。在另一实例中,病毒核酸片段可衍生自肿瘤组织。
[0164] 本文使用的术语仅出于描述特定情况的目的,而非意在限制。如本文所使用的,除非上下文另有明确说明,否则单数形式“一个”、“一种”和“该”也旨在包括复数形式。此外,在术语“包括”、“具有”、“伴有”或其变体用于详细描述和/或权利要求时,这样的术语旨在是包含性的,类似于术语“包含”。
[0165] 下面参考示例性应用来描述若干方面以供说明。应当理解,阐述了许多具体细节、关系和方法以提供对本文所述特征的完全理解。然而,相关领域的普通技术人员将容易认识到,可以在没有一个或多个具体细节情况下或使用其他方法实践本文所述的特征。本文
所述的特征不受所说明的动作或事件的顺序的限制,因为一些动作可以以不同的顺序发生
和/或与其他动作或事件同时发生。此外,并非需要所有说明的动作或事件来实现根据本文所述的特征的方法。
概述
[0166] 循环无细胞DNA的分析可以是筛查癌症、进行癌症诊断、癌症的预后确定以及为癌症治疗提供指导的非侵入性且易于获得的方式。然而,无细胞肿瘤衍生的DNA可能难以检
测,因为其可能在血液中具有低浓度。当高灵敏度测试结果为阴性时,其可用于评估疾病,因为误诊患有该疾病的人的概率相对较低。然而,高灵敏度测试的阳性结果并不一定对疾
病的管理有用,因为灵敏度不考虑假阳性,而其中可能有很多假阳性。类似地,当高特异性检验结果为阳性时,其可用于评估疾病,因为误诊未患病的人的概率较低。然而,测定的特异性的增加可导致假阴性的增加(例如,错误地将实际患病的受试者鉴别为未患病的受试
者)。
[0167] 本公开内容提供了用于增加用于筛查受试者的病况例如癌症的阳性预测值(例如,精确度),以及用于降低假阳性率的方法。阳性预测值可以对应于实际上对病况呈阳性的受试者(真阳性)与被鉴别为患有该病况的受试者(真阳性+假阳性)的比率。特别地,本公开内容的方法可以包括进行具有高灵敏度和低阳性预测值的第一测定,然后对在第一测定
中呈阳性的样品进行第二高特异性测定,从而增加整个筛查的阳性预测值。例如,第一测定的阳性预测值(PPV)可小于4%,但在进行第二测定后,方法的总PPV可增加至11%(例如,增加2至3倍)。增加癌症筛查的阳性预测值可以帮助正确鉴别患有癌症的受试者,并且可以减少经历额外的昂贵和/或侵入性测定的受试者的汇集。
[0168] 在一些实施方案中,第一测定可包括可相对便宜的测定(如基于定量聚合酶链反应(qPCR)的测定)以检测来自受试者的生物样品(例如,血浆)中的无细胞肿瘤衍生的核酸
的存在和/或量和/或拷贝数,该核酸例如DNA,例如EB病毒(EBV)DNA。在一些实施方案中,第二测定可包括例如大规模平行测序测定(或基于下一代测序(NGS)的测定)以分析来自受试
者的生物样品(例如,血浆)的无细胞肿瘤衍生的核酸(例如DNA)的EBV核酸数量(例如,与
EBV参考基因组比对的序列读取的百分比)和/或EBV核酸片段的大小谱(例如,给定大小范
围(例如,80bp-110bp)的EBV核酸片段的比例与给定大小范围的常染色体核酸分子的比例
的大小比率)。在第一测定和第二测定中使用的样品可以是相同的样品(例如,血浆样品);
在一些情况下,将一部分样品储备(bank),例如,直到第一测定的结果已知,然后将储备的存库部分用于第二测定。以下公开内容提供了可用作来自生物样品(例如,血浆)的无细胞
核酸(例如,DNA)的第一测定和/或第二测定(和/或第三、第四、第五等测定)的测定方法和类型的实例,以评估(例如,筛查、检测、诊断或预测)癌症。图22图示了本文提供的方法的实施方案。
[0169] 本公开内容的方法通常涉及检测受试者中的癌症或肿瘤。受试者可以是任何人类患者,如癌症患者、具有癌症险的患者或者具有癌症的家族或个人史的患者。在一些情况下,受试者处于癌症治疗的特定阶段。在一些情况下,受试者可患有或疑似患有癌症。在一些情况下,受试者对癌症无症状。在一些情况下,受试者是否患有癌症是未知的。
受试者
[0170] 在本文描述中相关的情况下,受试者可患有任何类型的癌症或肿瘤。在一个实例中,受试者可患有鼻咽癌或鼻腔癌。在另一实例中,受试者可患有口咽癌或口腔癌。癌症的非限制性实例可包括肾上腺癌、肛癌、基底细胞癌、胆管癌、膀胱癌、血液癌症、骨癌、脑肿瘤、乳腺癌、支气管癌、心血管系统癌症、宫颈癌、结肠癌、结直肠癌、消化系统癌症、内分泌系统癌症、子宫内膜癌、食管癌、眼癌、胆囊癌、胃肠道肿瘤、肝细胞癌、肾癌、造血系统恶性肿瘤、咽喉癌、白血病、肝癌、肺癌、淋巴瘤、黑素瘤、间皮瘤、肌肉系统癌症、骨髓增生异常综合征(MDS)、骨髓瘤、鼻腔癌、鼻咽癌、神经系统癌症、淋巴系统癌症、口癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、阴茎癌、垂体瘤、前列腺癌、直肠癌、肾盂癌、生殖系统癌症、呼吸系统癌症、肉瘤、唾液腺癌、骨骼系统癌症、皮肤癌、小肠癌、胃癌、睾丸癌、喉癌、胸腺癌、甲状腺癌、肿瘤、泌尿系统癌症、子宫癌、阴道癌或外阴癌。术语“淋巴瘤”可指任何类型的淋巴瘤,包括B细胞淋巴瘤(例如,弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、小淋巴细胞淋巴瘤、套细胞淋巴瘤、边缘区B细胞淋巴瘤、伯基特淋巴瘤、淋巴浆细胞淋巴瘤、多毛细胞白血病或原发性中枢神经系统淋巴瘤)或T细胞淋巴瘤(例如,前体T淋巴母细胞淋巴瘤或外周T细胞淋巴瘤)。术
语“白血病”可以指任何类型的白血病,包括急性白血病或慢性白血病。白血病的类型包括急性髓性白血病、慢性髓性白血病、急性淋巴细胞白血病、急性未分化白血病或慢性淋巴细胞白血病。在一些情况下,癌症患者未患有特定类型的癌症。例如,在一些情况下,患者可能患有不是乳腺癌的癌症。
[0171] 癌症的实例包括引起实体瘤的癌症以及不引起实体瘤的癌症。此外,本文提及的任何癌症可以是原发性癌症(例如,以其首先开始生长的身体部位命名的癌症)或者继发性
或转移性癌症(例如,源自身体的另一部位的癌症)。
[0172] 具有癌症风险的受试者可能由于特定病况如癌前病况而有风险。癌前病况包括但不限于光线性化病、巴特雷(Barrett)食管、萎缩性胃炎、原位导管癌、先天性角化不良、缺性吞咽困难、扁平苔藓、口腔粘膜下纤维化、日光性弹性组织变性、宫颈发育不良、白斑和红斑。在一些情况下,由于细胞或组织发育异常(例如,细胞数目的异常变化、细胞形状的异常变化、细胞大小的异常变化或细胞色素沉着的异常变化),患者可能有患癌症的风险。
有癌症风险的受试者可以是暴露于致癌剂的患者。这样的患者可包括暴露于已知的或可能
的致癌物(例如,乙酰基烟草产品)的患者或暴露于电离辐射(例如,γ辐射、β辐射、X辐射或紫外辐射)的患者。在一些情况下,有癌症风险的患者因癌症的家族史而面临风险。
[0173] 在一些实施方案中,本公开内容的方法可以检测受试者的肿瘤或癌症,其中该肿瘤或癌症具有疾病的地理模式。在一个实例中,受试者可患有EBV相关的癌症(例如,鼻咽
癌),其可普遍存在于中国南部(例如,香港特别行政区)。在另一实例中,受试者可具有HPV相关癌症(例如,口咽癌),其可普遍存在于美国和西欧。在又一实例中,受试者可患有人T淋巴细胞病毒-1(HTLV-1)相关癌症(例如,成人T细胞白血病/淋巴瘤),其可普遍存在于日本
南部、加勒比海、非洲中部、南美洲的部分地区以及美国东南部的一些移民群体。
[0174] 已显示DNA和RNA病毒能够在人类中引起癌症。在一些实施方案中,受试者可患有由病毒(例如,肿瘤病毒)引起的癌症。在一些实施方案中,受试者可患有癌症,并且可使用病毒DNA检测该癌症。在一些实施方案中,受试者可患有癌症,并且可使用肿瘤衍生的病毒DNA检测该癌症。在一些实施方案中,受试者可患有癌症,并且可使用从受试者获得的无细胞样品(例如,血液样品、血浆样品或血清样品)中的肿瘤衍生的病毒DNA或其片段检测该癌症。本领域技术人员将理解,病毒可具有多种病毒株(例如,其遗传组成可以不同的相关病毒)。例如,受试者可患有由人乳头瘤病毒(HPV)感染引起(或与其相关)的口癌、口咽癌、宫颈癌、阴茎癌、肛门癌、阴道癌或外阴癌,该人乳头瘤病毒可包括超过150种相关病毒。感染EB病毒(EBV)也可增加受试者发生鼻癌、鼻咽癌、淋巴瘤(例如,伯基特淋巴瘤或霍奇金淋巴瘤)或胃癌的风险。在又一实例中,感染乙型肝炎病毒(HBV)或丙型肝炎病毒可引起慢性感
染,这可增加受试者发生肝癌的几率。可引起受试者中的癌症或与受试者中的癌症相关的
病毒的非限制性实例包括HPV、EBV、HBV、HCV、人免疫缺陷病毒(例如,与卡波西肉瘤、宫颈癌、非霍奇金淋巴瘤、肛门癌、霍奇金病、肺癌、口癌、口咽癌、皮肤癌和肝癌相关)、人疱疹病毒8(例如,与卡波西肉瘤、血癌、原发性渗出性淋巴瘤和卡斯尔曼病(Castleman disease)相关)、人T淋巴细胞病毒-1(例如,与淋巴细胞白血病、非霍奇金淋巴瘤和成人T细胞白血
病/淋巴瘤相关)和梅克尔细胞多瘤病毒(例如,与皮肤癌如梅克尔细胞癌相关)。在一些实
施方案中,非人受试者(例如,灵长类动物)可患有癌症,并且可使用肿瘤衍生的病毒DNA检测该癌症。例如,感染猿猴病毒40(SV40)可增加受试者发生间皮瘤、脑肿瘤、骨癌和淋巴瘤的风险。
[0175] 从中采集样品或者通过本文所述的任何方法或组合物治疗的受试者可以是任何年龄的,并且可以是成人、婴儿或儿童。在一些情况下,受试者例如患者为0、1、2、3、4、5、6、
7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、
33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、
58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、
83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99岁,或在其中的范围内(例如,约2岁至约20岁、约20岁至约40岁或约40岁至约90岁)。特定类别的受试者,例如可获益于本公开内容的方法的患者是受试者,例如,40岁以上的患者。另特定类别的受试者,例如可获益于本公开内容的方法的患者,是可能有较高的慢性心脏症状风险的小儿患者。此外,受试者,例如从中采集样品或者或通过本文所述的任何方法或组合物治疗的患者,可以是男性
或女性。
[0176] 本文公开的任何方法还可以对非人受试者进行,该非人受试者如实验室或农场动物,或衍生自本文公开的生物的细胞样品。非人受试者的非限制性实例包括狗、山羊、豚鼠、仓鼠、小鼠、猪、非人灵长类动物(例如,大猩猩、猿、猩猩、狐猴或狒狒)、大鼠、绵羊或斑鱼。可以侵入性地(例如,手术手段)或非侵入性地(例如,抽血、拭子或收集排出的样品)从受试者获得样品。
表现度量
[0177] 在一些实施方案中,本公开内容的方法包括进行两种测定或更多种测定(例如,第一测定和第二测定)。可以进行第二测定以改善第一测定或整体方法的灵敏度、特异性、阴性预测值和/或阳性预测值。在一些实施方案中,本公开内容的方法包括进行对指示肿瘤的标志物或标志物集合具有灵敏度和/或特异性的测定(例如,第一测定和/或第二测定)。测
定的灵敏度可以指真阳性的数目除以真阳性和假阴性的数目的总和。灵敏度可以表征测定
或方法正确鉴别真正具有病况的群体比例的能力。在一些实施方案中,测定可对指示肿瘤
的标志物集合具有至少或至少约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、
13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、
28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、
43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、
58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、
73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、
88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的灵敏度。
[0178] 例如,本公开内容的方法可包括第一测定,并且该第一测定可对指示肿瘤的第一集合的标志物具有至少约80%的灵敏度。在一些实施方案中,测定的灵敏度可以在一定范
围内(例如,约75%至约85%、约65%至约95%、约60%至约100%、约10%至约25%、约90%至约100%)。
[0179] 或者,第一测定可以具有低于整体测试(例如,涉及使用超过一种测定的测试)的灵敏度或PPV。
[0180] 在一个实例中,方法中的第一测定具有至多3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、
26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、
41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、
56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、
71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、
86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%的灵敏度。
[0181] 在一些实施方案中,本公开内容的方法可包括一种或多种测定,并且该方法可具有至少或至少约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、
16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、
31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、
46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、
61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、
76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、
91%、92%、93%、94%、95%、96%、97%、98%或99%的灵敏度(例如,对于检测受试者中的肿瘤)。因此,两种或更多种测定的组合灵敏度可导致任何上述灵敏度。
[0182] 例如,用于筛查癌症的方法可以涉及进行第一测定以筛查患有癌症的个体,即真阳性(TP)。筛查可捕获比原本期望的更多的假阳性(FP)(未患有癌症的个体)。这可导致较
低的阳性预测值(PPV)。然而,对来自具有较低假阳性率的TP和FP个体的相同样品或新样品进行的第二测定可增加整体测试的PPV。
[0183] 测定的特异性可以指真阴性的数目除以真阴性和假阳性的数目的总和。特异性可以表征测定或方法正确鉴别真正不具有病况的群体比例的能力。
[0184] 在一些实施方案中,测定可对指示肿瘤的标志物集合具有至少或至少约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、
20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、
35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、
50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、
65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、
80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、
95%、96%、97%、98%或99%的特异性。
[0185] 例如,本公开内容的方法可以包括第一测定,并且该第一测定可对指示肿瘤的标志物或第一集合的标志物具有至少约80%的特异性。在一些实施方案中,测定的特异性可
以在一定范围内(例如,约75%至约85%、约65%至约95%、约60%至约100%、约10%至约
25%、约90%至约100%)。
[0186] 在一个实例中,方法中的第一测定具有至多4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、
27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、
42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、
57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、
72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、
87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的特异性。
[0187] 在一些实施方案中,本公开内容的方法可包括一种或多种测定,并且该方法可具有至少或至少约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、
16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、
31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、
46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、
61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、
76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、
91%、92%、93%、94%、95%、96%、97%、98%或99%的特异性(例如,对于检测受试者未患有肿瘤)。因此,两种或更多种测定的组合灵敏度可导致任何上述灵敏度。
[0188] 测定的阴性预测值可以指具有阴性筛查测试的受试者真正未患有该疾病的概率,并且其可以本质地受到群体中病况的患病率的影响。
[0189] 在一些实施方案中,测定可具有至少或至少约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、
24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、
39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、
54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、
69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、
84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或
99%的阴性预测值。
[0190] 在特定实例中,本公开内容的方法可包括第二测定,并且该第二测定可具有至少约70%的阴性预测值。在一些实施方案中,测定的阴性预测值可落入一定范围内(例如,约
65%至约75%、约55%至约65%、约60%至约100%、约10%至约25%、约90%至约100%)。
[0191] 在一个实例中,测定如第一测定具有至多%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、
26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、
41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、
56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、
71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、
86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的阴性预测值。
[0192] 在一些实施方案中,本公开内容的方法可包括一种或多种测定,并且该方法可具有至少或至少约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、
16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、
31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、
46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、
61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、
76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、
91%、92%、93%、94%、95%、96%、97%、98%或99%的阴性预测值(例如,对于检测受试者未患有肿瘤)。
[0193] 在一些实施方案中,方法的阴性预测值可落入一定范围内(例如,约80%至约90%、约90%至约100%、约70%至约80%、约10%至约25%、约25%至约50%)。
[0194] 测定的阳性预测值可以指具有阳性筛查测试的受试者真正患有该疾病的概率,并且其可以本质地受到群体中病况的患病率的影响。
[0195] 在一些实施方案中,测定可具有至少或至少约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、
24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、
39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、
54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、
69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、
84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或
99%的阳性预测值。
[0196] 在特定实例中,本公开内容的方法可包括第二测定,并且该第二测定可具有至少约70%的阳性预测值。
[0197] 在一些实施方案中,测定(例如,第一测定)可具有至多约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、
23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、
38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、
53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、
68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、
83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、
98%或99%的阳性预测值。在进行第一测定后,可以对阳性(真阳性和假阳性)进行一种或
多种额外的测定以增加测试的总体阳性预测值。PPV的增加优选为至少2倍、3倍、4倍、5倍、
7.5倍、10倍或20倍。PPV的增加可为约4倍至约10倍、约5倍至约10倍或约5倍至约15倍或约5倍至约20倍。
[0198] 例如,第一测定可具有至多约4%的阳性预测值,而第二测定可具有至少约11%的阳性预测值。在一些实施方案中,测定的阳性预测值可落入一定范围内(例如,约65%至约
75%、约90%至约100%、约70%至约80%、约10%至约25%、约25%至约50%)。例如,第一测定可具有约3%至5%的阳性预测值,而第二测定可具有约10%至15%的阳性预测值。
[0199] 在一些实施方案中,本公开内容的方法可包括一种或多种测定,并且整体方法可以具有至少约1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、
16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、
31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、
46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、
61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、
76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、
91%、92%、93%、94%、95%、96%、97%、98%或99%的阳性预测值(例如,对于检测受试者未患有肿瘤)。
[0200] 在一些实施方案中,整体方法的阳性预测值可落入一定范围内(例如,约15%至约30%、约20%至约40%、约20%至约50%、约30%至约50%、约50%至约70%、约60%至约
70%、约80%至约90%、约90%至约100%、约70%至约80%、约10%至约25%、约25%至约
50%)。
[0201] 在该方法包括第一测定和第二测定的情况下,第二测定的阳性预测值可以比第一测定的阳性预测值的高至少或至少约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、2倍、2.5倍、3倍、
3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、25倍、30倍、35倍、40倍、45倍、
50倍、75倍、100倍或超过100倍。备选地或附加地,整体方法(例如,两种或更多种测定)的阳性预测值可以比单独的第一测定或该方法的单个测定的阳性预测值高至少1.1倍、1.2倍、
1.3倍、1.4倍、1.5倍、2倍、2.5倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、7.5倍、8倍、9倍、10倍、15倍、20倍、25倍、30倍、35倍、40倍、45倍、50倍、75倍、100倍。
[0202] 例如,第二测定的阳性预测值可以比第一测定的阳性预测值高4倍。在一些实施方案中,第二测定的阳性预测值可以大于第一测定的阳性预测值,并且阳性预测值的倍数变
化的值可以落入一定范围内。例如,第二测定的阳性预测值可比第一测定的阳性预测值高
约2倍至6倍。在另一实例中,第二测定的阳性预测值可比第一测定的阳性预测值高约3.8倍至约4.2倍。
[0203] 筛查或测定可具有假阳性率,其可为约或小于01.%、0.25%、0.5%、0.75%、1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、
19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、
34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、
49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、
64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、
79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、
94%、95%、96%、97%、98%或99%。进行一种或多种额外的测定可以将整体筛查或方法的假阳性率降低约或至少1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、2倍、2.5倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、7.5倍、8倍、9倍、10倍、13倍、15倍、20倍、25倍、30倍、35倍、40倍、45倍、50倍、75倍或100倍。涉及两种以上测定(例如,2、3、4、5、6、7、8、9或10种测定)的整体筛查或方法的假阳性率可以是约或小于01.%、0.2%、0.25%、0.3%、0.4%、0.5%、0.6%、0.7%、
0.75%、0.8%、0.9%、1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、
15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、
30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、
45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、
60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、
75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、
90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。
[0204] 阳性和阴性似然比(分别为LR+和LR-)可以量化由测试结果赋予的“诊断”确定性的变化。更具体地,似然比可以将给定(阳性或阴性)诊断的测试前几率转换为测试后几率。
高阳性似然比和/或低阴性似然比可以描述本公开内容的测定或方法具有非常好的预测受
试者的真实疾病状态的能力。完全无信息性的测定可以具有等于1的阳性和阴性似然比
(即,基本上不改变测试前几率)。在一些情况下,10或更大的阳性似然比和0.1或更小的阴性似然比可以代表信息性测试。在一些实施方案中,本公开内容的测定或方法的阳性似然
比可以是至少约0.1、0.5、1、2、3、4、5、6、7、8、9或10。在一些实施方案中,测定或方法的阳性似然比可落入一定范围内(例如,约5至约8)。在一些实施方案中,本公开内容的测定或方法的阴性似然比可以是至多约10、9、8、7、6、5、4、3、2、1、0.5或0.1。在一些实施方案中,测定或方法的阴性似然比可落入一定范围内(例如,约0.1至约0.5)。
时间设置
[0205] 在一些实施方案中,本文提供的方法可包括两种或更多种测定(例如,第一测定和第二测定)。在特定实例中,针对第一标志物或第一集合的标志物的第一测定可具有指示肿瘤的灵敏度,并且针对第二标志物或第二集合的标志物的第二测定可具有指示肿瘤的特异
性。第一标志物和第二标志物可以是相同的或不同的。第一组标志物和第二组标志物可以
是相同的或不同的。第一测定和第二测定可以是相同的或不同的。
[0206] 可在第一测定数小时、数天或数周后进行第二测定。在一个实施方案中,可以在第一测定后立即进行第二测定。在其他实施方案中,可以在第一测定后1天、2天、3天、4天、5天、6天、1周、2周、3周、4周、5周、6周、7周、8周、3个月、4个月、5个月、6个月、1年或超过1年内进行第二测定。在特定实例中,可在第一样品的2周内进行第二测定。通常,第二测定可用于改善可在患者中检测到肿瘤的特异性。可以通过实验确定进行第一测定与第二测定之间的时间。在一些实施方案中,该方法可以包括2种或更多种测定,并且两种测定使用相同的样品(例如,在进行第一测定之前从受试者例如患者获得单个样品,并且保存一段时间直至进行第二次测定)。例如,可以同时从受试者获得两管血液。第一管可用于第一测定。仅当来自受试者的第一测定的结果为阳性时,才可以使用第二管。可以使用本领域技术人员已知的
任何方法(例如,低温)保存样品。该保存在某些情况下可能是有益的,例如,其中受试者可收到阳性测试结果(例如,第一测定指示癌症),并且患者不能等到进行第二次检测,而是选择寻求第二意见。
[0207] 可以优化获得样品与进行测定之间的时间以改善测定或方法的灵敏度和/或特异性。在一些实施方案中,可以在进行测定之前即时获得样品(例如,在进行第一测定之前获得第一样品,并且在进行第一测定之后但在进行第二测定之前获得第二样品)。在一些实施方案中,可以获得样品,并在进行测定之前将其储存一段时间(例如,数小时、数天或数周)。
在一些实施方案中,可以在从受试者获得样品后1天、2天、3天、4天、5天、6天、1周、2周、3周、
4周、5周、6周、7周、8周、3个月、4个月、5个月、6个月、1年或超过1年内对样品进行测定。
[0208] 进行测定(例如,第一测定或第二测定)与确定样品是否包含指示肿瘤的标志物或标志物集合之间的时间可以变化。在一些情况下,可以优化时间以改善测定或方法的灵敏
度和/或特异性。在一些实施方案中,可以在进行测定的至多0.1小时、0.5小时、1小时、2小时、4小时、8小时、12小时、24小时、2天、3天、4天、5天、6天、1周、2周、3周或1个月内确定样品是否包含指示肿瘤的标志物或标志物集合。
测定
[0209] 以下说明了可用于本公开内容的方法的各种测定。任何以下测定可用作第一测定、第二测定、第三测定等或任何上述的组合。例如,第一测定可以是qPCR测定,并且第二测定可以是NGS测定(例如,进行下一代测序测定的任何测定)。NGS测定的实例包括片段化测
定和突变测定。在其他实例中,第一测定是单一标志物测定(例如,EBV基因座的存在),并且第二测定是多标志物测定。
1.EBV检测测定
[0210] 在一些实施方案中,第一测定或第二测定可包括qPCR测定以测量样品中肿瘤相关的DNA的量。虽然本文已经提供了实例和实施方案,但是与例如拷贝数和NPC相关的额外的
技术和实施方案可在于2011年11月30日提交的PCT AU/2011/001562中找到,其通过引用整
体并入本文。NPC与EBV感染密切相关。在中国南部,EBV基因组可见于几乎所有NPC患者的肿瘤组织。已将衍生自NPC组织的血浆EBV DNA开发作为NPC的肿瘤标志物(Lo等人Cancer Res 
1999;59:1188-1191)。特别地,实时定量PCR测定可用于靶向EBV基因组的BamHI-W片段的血浆EBV DNA分析。每个EBV基因组5中可以有BamHI-W片段的约6至12个重复,并且每个NPC肿
瘤细胞中可以有大约50个EBV基因组(Longnecker等人Fields Virology,第5版,第61章
“Epstein-Barr virus”;Tierney等人J Virol.2011;85:12362-12375)。换言之,在每个NPC肿瘤细胞中可以有300-600个(例如,约500个)PCR靶标的拷贝。每个肿瘤细胞的较高数目的靶标可以解释为什么血浆EBV DNA是早期NPC检测中的高灵敏度的标志物。
[0211] 如图1所示,NPC细胞可以将EBV DNA片段沉积到受试者的血流中。该肿瘤标志物可用于NPC的监测(Lo等人Cancer Res 1999;59:5452-5455)和预测(Lo等人Cancer Res 
2000;60:6878-6881)。如图2所示,在96%(57个中的55个)的鼻咽癌(NPC)患者的血浆(中位浓度,21058个拷贝/ml)和7%(43个中的3个)的对照(中位浓度,0个拷贝/ml)中可检测到无细胞EBV DNA。此外,如图3所示,晚期NPC病例中该测试的无浆细胞EBV DNA检测水平(中值,
47,047个拷贝/ml;四分位数间距,17,314-133,766个拷贝/ml)显著高于早期NPC病例的检
测水平(中值,5,918个拷贝/ml;四分位数间距,279-20,452个拷贝/ml;Mann-Whitney秩和检验,P<0.001)。最近的研究显示,使用实时PCR的血浆EBV DNA分析可用于检测无症状受试者中的早期NPC,并且可用于筛查NPC(Chan等人Cancer 2013;119:1838-1844)。在具有1,
318名参与者的群体研究中,测量血浆EBV DNA水平以研究EBV DNA拷贝数是否可用于NPC监
测。69名参与者(5.2%)具有可检测水平的血浆EBV DNA,使用鼻内窥镜检查和磁共振成像,
3名参与者最终被临床诊断患有NPC。因此,本研究中单个血浆EBV DNA检测的阳性预测值为约4%,计算为真正患有NPC的患者数(n=3)除以真正患有NPC的患者数与被错误地鉴别为
患有NPC的患者数的总和(n=66)。进行了约有20,174名患者的更大的群体研究。该研究的
结果示于图4中,其描绘了使用第一测定和第二测定的NPC研究中20,174名患者的结果。基
于研究参数,如果受试者在第一测定中被测试为阳性,则可以在2-6周后对同一受试者进行第二测定。在第二测定中被测试为阳性的受试者被送往鼻内窥镜检查或MRI评估。图5描绘
了最终被诊断为在研究入选时患有NPC的参与者(NPC;n=34)和未患有NPC的参与者(无
NPC;n=20,140)中EBV DNA的血浆浓度的小提琴图。这些结果示出,与未患有NPC的患者相比,NPC患者入选时的血浆EBV DNA浓度显著更高(P<0.001,学生t检验)。图6A描绘了示出对于该较大群体研究基于血浆EBV DNA的不同截止值使用实时qPCR的血浆EBV DNA分析对NPC
的灵敏度和特异性的表。图6B描绘了对应于图6A中提供的值的ROC曲线,AUC为0.987。ROC-AUC可以考虑该方法的灵敏度和特异性,提供方法的诊断效用的量度。通常,ROC-AUC的范围是0.5至1.0,其中接近0.5的值指示方法具有有限的诊断效用(例如,较低的灵敏度和/或特异性),并且接近1.0的值指示该方法具有更大的诊断效用(例如,较高的灵敏度和/或特异
性)。虽然该测试在EBV DNA浓度的宽范围截止值上表现出相对较高的灵敏度和特异性,但
由于群体中NPC的患病率低,因此单个EBV测试具有较低的阳性预测值,从而限制了诊断效
用。图9描绘了单次测定测试和两次测定测试的测试灵敏度、特异性和PPV值的变化。在第一EBV测定呈阳性的受试者可在2-6周后再次重新测试。在第一测定中具有可检测水平的血浆
EBV DNA的参与者(n=1078)中,约300名参与者表现出持续升高的血浆EBV DNA水平(例如,参与者在第二测定中再次测试为阳性)。图7描绘了在最终被诊断为患有鼻咽癌的受试者
(NPC)以及在第二测定中错误地测试对鼻咽癌呈阳性的受试者(无NPC)的血浆中的EBV DNA
片段的拷贝数(例如,拷贝数/mL血浆)。包括第一测定和第二测定的方法的阳性预测值为约
11%,计算为真正患有NPC的患者数(n=34)除以真正患有NPC的患者数与错误地被鉴别为
患有NPC的患者数的总和(例如,约266名参与者)。换言之,第二测定的阳性预测值比第一测定的阳性预测值高约4倍。阳性预测值的改善可以是显著的,特别是对于患有人群中发病率较低的癌症的患者,因为假阳性结果,改善的PPV可以直接减轻患者的负担(例如,后续成本和心理负担)。对34名NPC受试者与EBV测定阳性受试者之间的EBV DNA进行额外分析以进一
步减少在第二测试中呈阳性的300名受试者的组。图8A描绘了示出基于血浆EBV DNA的不同
截止值使用实时qPCR的血浆EBV DNA分析对NPC的灵敏度和特异性的表。图8描绘了对应于
图8A中提供的值的ROC曲线,AUC为0.797。该分析指示,可能不存在可用于改善特异性而不显著降低灵敏度的EBV DNA水平。因此,在2-6周内仅对同一受试者进行第二EBV测定可以减少可被送往鼻内窥镜检查或MRI评估的受试者的数目(例如,从1078名受试者减少至300名
受试者)。第一与第二EBV测定之间的间隔的分析用来评估其是否可用于特异性改善。如图
10所示,在第一测定后以各种间隔使用实时qPCR进行的随访(例如,第二测定)血浆EBV DNA分析显示随时间相对恒定的假阳性率,从而表明可以在第一测定后早至1-2周进行随访测
试,并且可以使用比血浆EBV DNA测试具有更高特异性的第二测定来改善阳性预测值。图11描绘了用于进行第一测定(例如,在入选时)和第二测定(例如,在第一测定后4周或者在第
一次测定后早至1-2周)的示例性时间线。在一些实施方案中,本公开内容的方法还可包括
鼻内窥镜检查或MRI评估,以确认来自第一测定和/或第二测定的结果。
[0212] 本公开内容的方法可特别用于癌症的早期检测和/或癌症的阶段下降。在一些情况下,阶段下降可以指使用用于早期检测疾病的方法筛查癌症的任何过程。图12和图13分
别描绘了NPC患者在癌症的各个阶段的总体生存率,以及NPC在香港的阶段分布。在一些实
施方案中,本公开内容的方法可用于减少达到较高癌症阶段的患者的数目,从而增加其总
体生存概率。
[0213] 在一些实施方案中,第一测定可包括血浆EBV DNA分析(例如,使用实时PCR)。在一些实施方案中,确定生物样品是否包含指示癌症的第一集合的标志物需要生成肿瘤衍生的DNA的第一量与至少一个第一校准值的比较。在一些实施方案中,校准值可以是0个拷贝/mL(例如,EBV DNA的拷贝)。在一些实施方案中,校准值可以是至多10,000,000个拷贝/mL血
浆。在一些实施方案中,校准值可以是约1个拷贝/mL、5个拷贝/mL、10个拷贝/mL、50个拷贝/mL、100个拷贝/mL、1000个拷贝/mL、10000个拷贝/mL、100000个拷贝/mL、500000个拷贝/mL、
1M个拷贝/mL或10M个拷贝/mL。在一个实例中,第一测定(例如,血浆EBV DNA分析)的校准值可以是0至1M个拷贝/mL。在另一实例中,第一测定(例如,血浆EBV DNA分析)的校准值可以是0至4000个拷贝/mL。在又一实例中,第一测定(例如,血浆EBV DNA分析)的校准值可以的
20000至50000个拷贝/mL。在一些实施方案中,校准值可用于确定受试者是否具有病况(例
如,NPC)。在另一实施方案中,校准值可用于确定受试者患有早期NPC还是晚期NPC。
[0214] 在一些实施方案中,测定(例如,第一测定或第二测定)可包括进行下一代测序(NGS)或大规模平行测序以测量样品中无细胞DNA的性质。并非有很多癌症具有用于鉴别个
体中存在或极有可能存在癌症的明确的突变或其他标志物。并且,即使存在这样的标志物,通常也很少有这样的已知标志物对于特定癌症是独特的。因此,用无细胞DNA检测血浆或其他这样的样品中的癌症可能是困难的,其中这样的突变标志物可能不是高浓度的。在不存
在癌症特异性标志物的这样的样品中,可以使用替代方法来确定肿瘤衍生的DNA的血浆浓
度或拷贝数。例如,在获得样品后,可以对生物样品中含有的多个核酸分子的至少一部分进行测序。测序的部分可代表人基因组的一部分。在一个实施方案中,核酸分子是对应的染色体的片段。可以对一个末端(例如,35个碱基对(bp))、两个末端或整个片段进行测序。可以对样品中的所有核酸分子进行测序,或者可以仅对一个子集进行测序。
[0215] 在一个实施方案中,使用大规模平行测序进行测序。大规模平行测序,如在454平台(Roche)上可实现的测序(参见例如,Margulies,M.等人2005Nature 437,376-380)、
Illumina基因组分析仪(或Solexa平台)或SOLiD系统(Applied Biosystems)或Helicos 
True单分子DNA测序技术(参见例如,Harris T D等人2008Science,320,106-109)、Pacific Biosciences的单分子实时(SMRTTM)技术和纳米孔测序(参见例如,Soni G V和Meller 
A.2007Clin Chem 53:1996-2001),可允许以平行方式以高阶多重化对分离自样本的许多
核酸分子进行测序(参见例如,Dear Brief Funct Genomic Proteomic 2003;1:397-416)。
这些平台中的每一个都可以对核酸片段的克隆扩增的甚至非扩增的单分子进行测序。
[0216] 由于测序读取的数目较大,因此在每次运行中从每个样品生成数十万到数百万或甚至可能数亿或数十亿(例如,100,000、1,000,000(1M)、10M、100M、1000M或更多读取)的数量级,所得测序读取可以形成原始样本中核酸种类的混合物的代表性谱。由于来自每个样
品的序列的较大采样,因此相同序列的数目(如由几倍覆盖率或高冗余度的核酸库的测序
生成的相同序列的数目)也可以是原始样品中特定核酸种类或基因座的计数的良好定量表
示。
[0217] 基于测序(例如,来自测序的数据),可以确定染色体、DNA片段或核酸(例如,临床相关的核酸)的量。在一个实例中,该量可以从被鉴别为源自染色体的序列确定。然后可以使用生物信息学程序将这些DNA序列中的每一个定位到人基因组。一部分这样的序列可以从随后的分析中丢弃,因为它们存在于人基因组的重复区域中,或存在于经历个体间变异
例如拷贝数变异的区域中。因此可以确定感兴趣的染色体以及一个或多个其他染色体的
量。存在许多方法来确定染色体的量,其包括但不限于基数测序标签的数目、测序核苷酸
(碱基对)的数目或源自特定染色体或染色体区域的测序核苷酸(碱基对)的累积长度。
2.HPV检测测定
[0218] qPCR测定可以以与本文所述的针对于EBV的类似方式使用,以测量样品中肿瘤相关HPV DNA的量。这样的分析对于筛查宫颈癌(CC)和头颈鳞状细胞癌(HNSCC)可能特别有
用。在一个实例中,qPCR测定靶向HPV基因组的多态性L1区内的区域(例如,200个核苷酸)。
更具体地,本文考虑使用与编码L1区中的一个或多个高变表面环的序列选择性地杂交的
qPCR引物。
[0219] 或者,可以使用测序技术检测和定量HPV序列。例如,可以对cfDNA片段进行测序并将其与HPV基因组比对并对其进行定量。
[0220] 以下表1示出,通过测序可检测血浆中的HPV DNA。
[0221] 使用如表2中所示的捕获探针设计通过靶向测序分析来自23名无癌症(健康对照或慢性HBV携带者)或患有各种癌症(NPC、HCC、CC、HNSCC)的个体的血浆样品。将序列读取与HPV基因组进行比对并对其进行计数。数据显示,衍生自HPV的血浆DNA片段在患有HPV相关
CC或HNSCC患者的血浆中可检测到,但在任何其他患者组中均未检测到。血浆HPV DNA片段
的量可以由进行的测序的量按照检测的绝对数目表示,或者表示为与其他非HPV衍生的序
列读取的量的比例。首先,高于从健康个体或无HPV相关癌症的个体建立的阈值的血浆HPV DNA序列的量的存在可以提供存在HPV相关癌症的证据。在该分析中,CC和HNSCC是HPV相关
癌症,而NPC和HCC不是HPV相关癌症。在该分析中,使用映射到HPV的截止值>0片段或映射到HPV的>0%读取。可以使用基于来自不具有HPV相关癌症的个体的数据建立参考值或截止值
的其他方法,其包括例如ROC分析、>第90百分位数、>第99百分位数、>2个标准偏差或>3个标准偏差。其次,样品中血浆HPV DNA序列的丰度范围的差异可以反映HPV相关癌症的阶段。第三,血浆HPV DNA序列的数量级差异可以反映不同组织起源的癌症。例如,表1示出,CC患者的样品中血浆HPV DNA序列的量通常高于HNSCC患者的样品中血浆HPV DNA序列的量。第四,如图94和图95所示,血浆HPV DNA序列的大小谱和片段化模式可以分别允许区分患有HPV相
关癌症的个体和未患有癌症但由于其他良性病况而具有可检测的血浆HPV DNA的个体。血
浆HPV DNA序列的大小谱和片段化模式可以进一步允许区分不同组织起源的HPV相关癌症,
例如CC和HNSCC(图86)。第五,血浆HPV DNA序列中的序列变体可以允许确定HPV的血清型或基因型,并进一步提供癌症诊断的高似然的证据。例如,CC通常与HPV型16和HPV型18相关
联。
3.甲基化检测测定
[0222] 在另一实施方案中,测定(例如,第一测定或第二测定)可以包括进行甲基化感知测序或对无细胞核酸分子进行测序以确定一个或多个基因组位置处的甲基化状态。虽然本
文已经提供了实例和实施方案,但是与例如确定甲基化状态相关的其他技术和实施方案可
在于2013年9月20日提交的PCT AU/2013/001088中发现,其通过引用整体并入本文。甲基化谱的定性变化可以反映在血浆甲基化组数据中。如图19所示,例如,源自仅在癌细胞中过度甲基化的基因的血浆DNA分子当与源自相同基因但在健康对照样品中的血浆DNA分子相比
时,可显示癌症患者血浆中的过度甲基化。因为异常甲基化在大多数癌症中有发生,所以本文所述的方法可应用于具有异常甲基化的所有形式的恶性肿瘤的检测,例如,在以下组织
中但不限于以下组织的恶性肿瘤:肺、乳腺、结直肠、前列腺、鼻咽、胃、睾丸、皮肤、神经系统、骨、卵巢、肝脏、血液组织、胰腺、子宫、肾、淋巴组织等。恶性肿瘤可以属于多种组织学亚型,例如癌、腺癌、肉瘤、纤维腺癌、神经内分泌、未分化。
[0223] 肿瘤衍生的DNA分子可以与背景非肿瘤衍生的DNA分子区分开,因为源自肿瘤相关异常甲基化不足的基因座的DNA分子的肿瘤衍生的DNA的整体较短大小谱可被突出,该异常
甲基化不足可对DNA分子的大小具有额外的影响。同样,使用与肿瘤DNA相关的多种特征可
以将肿瘤衍生的血浆DNA分子与背景非肿瘤衍生的血浆DNA分子区分开,该特征包括但不限
于单核苷酸变体、拷贝数增加和减少、易位、倒置、异常的过度甲基化或甲基化不足以及大小谱分析。由于所有这些变化可以独立发生,因此这些特征的组合使用可以为血浆中癌症
DNA的敏感性和特异性检测提供额外的优势。
[0224] 术前血浆DNA的甲基化密度可以低于癌症患者中非恶性组织的甲基化密度。这可能是由于存在来自肿瘤组织的甲基化不足的DNA。该较低血浆DNA甲基化密度可用作检测和
监测癌症的生物标志物。对于癌症监测,如果癌症发展,那么随着时间的推移,血浆中可能存在增加量的癌症衍生的DNA。在该实例中,血浆中循环的癌症衍生的DNA的量的增加可导
致在全基因组水平上血浆DNA甲基化密度的进一步降低。
[0225] 相反,如果癌症对治疗有反应,那么血浆中癌症衍生的DNA的量可以随时间减少。在该实例中,血浆中癌症衍生的DNA量的减少可导致血浆DNA甲基化密度的增加。例如,如果已经用靶向疗法(例如,酪酸激酶抑制)治疗具有表皮生长因子受体突变的肺癌患者,那
么血浆DNA甲基化密度的增加可以表示反应。随后,对酪氨酸激酶抑制具有抗性的肿瘤克隆的出现可以与血浆DNA甲基化密度的降低有关,其可指示复发。
[0226] 血浆甲基化密度测量可以连续进行,并且这样的测量的变化率可以进行计算并用于预测临床进展或缓解或预后或者与之相关。对于在癌组织中过度甲基化但在正常组织中
甲基化不足的选定的基因组基因座,例如许多肿瘤抑制基因的启动子区域,癌症进展与对
治疗的有利反应之间的关系可与上述模式相反。
[0227] 在基于参考值的限定截止值之外(例如低于)的血浆甲基化密度值可用于评估受试者的血浆是否具有肿瘤DNA。为了检测甲基化不足的循环肿瘤DNA的存在,可以将截止值
定义为低于对照群体的值的第5或第1百分位数,或基于低于对照的平均甲基化密度值的标
准偏差数(例如2或3个标准差(SD)),或基于确定中值的倍数(MoM)。对于过度甲基化肿瘤
DNA,截止值可定义为高于对照群体值的第95或第99百分位数,或基于高于对照的平均甲基化密度值的标准偏差数(例如2或3个SD),或基于确定中值的倍数(MoM)。在一个实施方案
中,对照群体可以在年龄上与测试受试者匹配。年龄匹配不需要精确,并且可以在年龄段内进行(例如,对于35岁的测试受试者,为30至40岁)。
[0228] 为了评估测试受试者是否患有癌症,可以将测试受试者的结果与参考组的值进行比较。在一个实施方案中,参考组可由许多健康受试者组成。在另一实施方案中,参考组可由具有非恶性病况例如慢性乙型肝炎感染或肝硬化的受试者组成。然后可以量化测试受试
者与参考组之间甲基化密度的差异。
[0229] 在一个实施方案中,参考范围可以衍生自对照组的值。可以使用受试者的结果与参考组的上限或下限的偏差来确定受试者是否患有肿瘤。该数量可受到血浆中肿瘤来源的
DNA的分数浓度以及恶性与非恶性组织之间甲基化水平的差异的影响。血浆中肿瘤衍生DNA
的较高分数浓度可导致测试血浆样品与对照之间较大的甲基化密度差异。恶性与非恶性组
织的甲基化水平的较大程度的差异也可以与测试血浆样品与对照之间较大的甲基化密度
差异相关。在又一实施方案中,针对不同年龄范围的测试受试者选择不同的参考组。
[0230] 在一个实施方案中,可以针对每个1Mb箱计算四个对照受试者的甲基化密度的平均值和SD。然后,对于对应的箱,可以计算HCC患者的甲基化密度与对照受试者的平均值之间的差异。在一个实施方案中,然后可以用该差异除以对应箱的SD以确定z评分。换言之,z评分代表测试样品与对照血浆样品之间甲基化密度的差异,其表示为来自对照受试者的平
均值的SD数。z评分>3的箱指示该箱中HCC患者的血浆DNA的过度甲基化比对照受试者多大
于3个SD,而z评分<-3的箱指示该箱中HCC患者的血浆DNA的甲基化不足比对照受试者多大
于3个SD。
[0231] 可以使用统计方法确定箱数目的截止值。例如,基于正态分布,可以预期大约0.15%的箱具有<-3的z评分。因此,箱的截止数目可以是被分析的箱的总数目的0.15%。换言之,如果来自受试者的血浆样品显示超过0.15%的箱的z分数<-3,则血浆中可能存在甲
基化不足DNA的来源,即癌症。
[0232] 在又一实施方案中,可以通过分析许多癌症患者和未患有癌症的个体的接受者操作特征(ROC)曲线分析来确定截止数。为了进一步验证该方法的特异性,分析了来自寻求非恶性病况(C06)的医学咨询的患者的血浆样品。1.1%的箱具有的z评分<-3。在一个实施方
案中,不同的阈值可用于对不同水平的疾病状态进行分类。较低的百分比阈值可用于区分
健康状态与良性病况,并且较高的百分比阈值可用于区分良性病况与恶性肿瘤。
[0233] 在其他实施方案中,可以使用其他方法研究血浆DNA的甲基化水平。例如,甲基化胞嘧啶残基相比于胞嘧啶残基总含量的比例可以使用质谱法(参见例如,M.L.Chen等人
2013Clin Chem;doi:10.1373/clinchem.2012.193938)或大规模平行测序确定。然而,由于大多数胞嘧啶残基不能在CpG二核苷酸背景下存在,因此当与在CpG二核苷酸的背景下估计
的甲基化水平相比时,总胞嘧啶残基中甲基化胞嘧啶的比例可以相对较小。可以确定从HCC患者获得的组织和血浆样品以及从健康对照获得的四个血浆样品的甲基化水平。可以在
CpG、任何胞嘧啶、5’-CHG-3’和5’-CHH-3’的背景下使用全基因组大规模平行测序数据测量甲基化水平。H指腺嘌呤、胸腺嘧啶或胞嘧啶残基。
[0234] 在其他实施方案中,可以通过使用针对甲基化胞嘧啶的抗体的方法(例如,甲基化DNA免疫沉淀(MeDIP))确定血浆DNA的甲基化状态。在另一实施方案中,可以测定血浆DNA中
5-羟甲基胞嘧啶的水平。在这方面,5-羟甲基胞嘧啶水平的降低可以是某些癌症(例如,黑素瘤)的表观遗传特征(参见例如,C.G.Lian,等人2012Cell;150:1135-1146)。
[0235] 在另一实施方案中,该方法可应用于其他类型的癌症。可以分析来自2名肺腺癌患者(CL1和CL2)、2名鼻咽癌患者(NPC1和NPC2)、2名结直肠癌患者(CRC1和CRC2)、1名转移性神经内分泌肿瘤患者(NE1)和1名患有转移性平滑肌肉瘤患者(SMS1)的血浆样品。可以针对
一个末端处的50bp使用Illumina HiSeq2000平台对这些受试者的血浆DNA进行亚硫酸氢盐
转化和测序。四名健康对照受试者可用作分析这8名患者的参考组。可以使用序列读取在一端处的50bp。整个基因组可被分为1Mb箱。可以使用来自参考组的数据计算每个箱的甲基化密度的平均值和SD。然后,8名癌症患者的结果可以表示为z评分,其代表距离参考组的平均值的SD数。正值可以指示测试病例的甲基化密度低于参考组的平均值,反之亦然。
4.片段测定
[0236] 在另一实施方案中,测定(例如,第一测定或第二测定)可以包括进行测定如下一代测序测定以分析核酸片段,例如EBV DNA的片段。
[0237] 描述了影响无细胞DNA(例如,血浆DNA)的片段化模式的因素和无细胞DNA片段化模式分析的应用(包括在分子诊断中的应用)。各种应用可以使用片段化模式的性质确定特
定组织类型的比例贡献,以确定特定组织类型(例如,母体样品中的胎儿组织或来自癌症患者的样品中的肿瘤组织)的基因型和/或以鉴别特定组织类型的优选终止位置,其可随后用
于确定特定组织类型的比例贡献。在一些实施方案中,特定组织的优选终止位置也可用于
测量样品中特定组织类型的绝对贡献,例如,以每单位体积(例如,每毫升)的基因组数目表示。
[0238] 比例贡献的分类的实例包括特定百分比、百分比范围,或者比例贡献是否高于指定百分比可被确定为分类。为了确定比例贡献的分类,一些实施方案可以鉴别对应于特定
组织类型(例如,胎儿组织或肿瘤组织)的优选终止位置。可以以多种方式确定这样的优选
终止位置,例如,通过分析无细胞DNA分子终止于基因组位置上的比率,将这样的比率与其他样品(例如,不具有相关病况)进行比较,以及将病况不同的不同组织和/或不同样品的具有高发生率的无细胞DNA分子的末端的基因组位置的集合进行比较。终止于优选终止位置
处的无细胞DNA分子相对于终止于其他基因组位置处的无细胞DNA分子的相对丰度可以与
由一个或多个特定组织类型的比例贡献已知的校准生物样品确定的一个或多个校准值进
行比较。本文提供的数据显示了相对丰度各种量度与样品中各种组织的比例贡献之间的正
相关关系。
[0239] 为了确定比例贡献的分类,一些实施方案可以使用片段化模式的幅度(例如,终止于基因组位置处的无细胞DNA分子的数目)。例如,可以通过分析终止于多个基因组位置处
的无细胞DNA分子的数目鉴别一个或多个局部最小值和一个或多个局部最大值。在一个或
多个局部最大值处的无细胞DNA分子的第一数目与在一个或多个局部最小值处的无细胞
DNA分子的第二数目的分离值(例如,比率)显示与特定组织类型的比例贡献呈正相关。
[0240] 在一些实施方案中,可以相对于无细胞DNA样品的体积或重量测量感兴趣的组织的浓度。例如,定量PCR可用于测量提取的无细胞DNA样品的单位体积或单位重量中的终止
于一个或多个优选末端的无细胞DNA分子的数目。可以对校准样品进行类似的测量,因此比例贡献可被确定为在贡献是每单位体积或单位重量的浓度的情况下的比例贡献。
[0241] 为了确定来自不同组织类型的无细胞DNA的混合物中特定组织类型(例如,胎儿组织或肿瘤组织)的基因型,一些实施方案可鉴别特定组织类型的优选终止位置。对于终止于优选终止位置处的无细胞DNA分子的集合的每个无细胞DNA分子,可以确定在优选终止位置
处或在其余片段内出现的对应碱基。对应碱基可用于确定优选终止位置处的基因型,例如,基于所示的不同碱基的百分比。在各个实现方案中,仅一个碱基的高百分比(例如,高于
90%)可指示基因型对于该碱基是纯合的,而具有相似百分比(例如,在30-70%之间)的两
个碱基可以导致确定基因型是杂合的。
[0242] 为了鉴别优选的终止位置,一些实施方案可以将无细胞DNA分子的左端的局部最大值与无细胞DNA分子的右端的局部最大值进行比较。当对应的局部最大值充分分离时,可以鉴别优选的终止位置。此外,可以将终止于左端/右端的局部最大值处的无细胞DNA分子
的量与具有低分离的局部最大值的无细胞DNA分子的量进行比较,以确定组织类型的比例
贡献。
[0243] 在以下描述中,首先描述了片段化和技术的概述,然后是片段化模式的细节及其量化的实例,以及涉及确定比例贡献、鉴别优选的终止位置和确定基因型的进一步描述。
I.片段化和技术概述
[0244] 在本公开内容中,我们示出了存在无细胞DNA的非随机片段化过程。非随机片段化过程在一定程度上发生在含有无细胞DNA的各种类型的生物样品中,例如,血浆、血清、尿液、唾液、脑脊液、胸膜液、羊水、腹膜液和腹水。无细胞DNA天然以短片段的形式存在。无细胞DNA片段化是指当生成或释放无细胞DNA分子时,高分子量DNA(如细胞核中的DNA)被切
割、破坏或消化成短片段的过程。
[0245] 并非所有无细胞DNA分子具有相同的长度。一些分子短于其他分子。已显示无细胞DNA如血浆DNA通常比细胞DNA更短且完整性更低。无细胞DNA在包括转录起始位点周围的开
放染色质结构域内和核小体核心之间的位置如接头位置处也具有较差的完整概率或较差
的完整性(Straver等人Prenat Diagn 2016,36:614-621)。每种不同的组织可具有其特征
性基因表达谱,其反过来可通过多种方法(包括染色质结构和核小体定位)调节。因此,在某些基因组位置处无细胞DNA的完整概率或完整性模式(如血浆DNA的模式)是那些DNA分子的
组织起源的特征或标志。类似地,当疾病过程(例如,癌症)改变基因表达谱和细胞基因组的功能时,衍生自具有疾病的细胞的无细胞DNA完整概率谱将反映那些细胞。因此,无细胞DNA谱将为疾病的存在提供证据或是疾病存在的标志。
[0246] 一些实施方案进一步增强了针对研究无细胞DNA片段化谱的分辨率。不同于对一段核苷酸的读取进行总结以鉴别具有更高或更低完整概率或完整性的区域,我们研究了单
个无细胞DNA分子特别是血浆DNA分子的实际终止位置或末端。引人注目地,我们的数据显
示,无细胞DNA分子被切割的特定位置是非随机的。在体外剪切或超声处理的高分子量基因组组织DNA显示DNA分子的终止位置随机分布在整个基因组中。然而,无细胞DNA分子的某些终止位置在样品如血浆中具有高度表示。这样的终止位置的发生或表示的数目在统计上显
著高于单独的机会预期。这些数据使我们对一步无细胞DNA片段化的理解超出了对完整性
区域变化的理解(Snyder等人Cell 2016,164:57-68)。这里,我们示出,无细胞DNA片段化的过程是协调的,甚至低至切割或裂解的特定核苷酸位置。我们将无细胞DNA终止位置的这些非随机位置称为优选终止位置或优选末端。
[0247] 在本公开内容中,我们示出,存在通常在不同生理状态或疾病状态的个体之间发生的无细胞DNA终止位置。例如,存在由怀孕和非怀孕个体共享的、由怀孕和癌症患者共享的、与患有和未患有癌症的个体共享的共同的优选末端。另一方面,存在主要仅发生在怀孕女性中、仅发生在癌症患者中或仅发生在未患有癌症的非怀孕个体中的优选末端。有趣的
是,这些怀孕特异性或癌症特异性或疾病特异性末端也在具有相当的生理或疾病状态的其
他个体中高度表示。例如,在一名怀孕女性的血浆中鉴别的优选末端可在其他怀孕女性的
血浆中检测到。此外,这样的优选末端的比例的数量与其他怀孕女性的血浆中的胎儿DNA分数相关。这样的优选的末端确实与怀孕或胎儿相关,因为它们的量在分娩后的母体血浆样
品中显著降低。类似地,在癌症中,在一名癌症患者的血浆中鉴别的优选末端可在另一癌症患者的血浆中检测到。此外,这样的优选末端的比例的数量与其他癌症患者的血浆中的肿
瘤DNA分数相关。这样的优选的末端与癌症相关,因为它们的量在癌症治疗(例如,手术切
除)后减少。
[0248] 存在许多用于分析无细胞DNA优选末端的应用或实用程序。它们可以提供有关怀孕期胎儿DNA分数的信息,且因此提供胎儿健康的信息。例如,已报道与胎龄匹配的对照怀孕相比,许多怀孕相关病症如先兆子痫、早产、宫内生长受限(IUGR)、胎儿染色体非整倍性等与胎儿DNA的分数浓度(即胎儿DNA分数或胎儿分数)的扰动有关。与癌症相关的无细胞血
浆DNA优选末端揭示了血浆样品中的肿瘤DNA分数或分数浓度。了解肿瘤DNA分数提供有关
癌症阶段、预后的信息,并有助于监测治疗功效或癌症复发。无细胞DNA优选末端的谱也将揭示将DNA贡献给含有无细胞DNA的生物样品(例如,血浆)中的组织的组成。因此,可以能够鉴别癌症或其他病理学(例如,脑血管意外(即卒中)、系统性红斑狼疮的器官表现)的组织
起源。
[0249] 通过比较具有不同生理或病理状态的个体的优选末端的无细胞DNA谱(例如,非怀孕样品相比于怀孕样品、癌症样品相比于非癌症样品或未患癌症的怀孕女性相比于非怀孕
癌症患者的谱),可以鉴别与特定生理状态或病理状态相关的优选末端的目录。另一方法是在生理(例如怀孕)或病理(例如癌症)过程的不同时间比较优选末端的无细胞DNA谱。这样
的时间点的实例包括怀孕前后、胎儿分娩前后、在怀孕期间收集的不同胎龄的样品、癌症治疗(例如靶向疗法、免疫疗法、化疗、手术)前后、癌症诊断后的不同时间点、癌症进展前后、发生转移前后、疾病严重程度增加前后或者发生并发症前后。
[0250] 此外,可以使用与特定组织相关的遗传标志物鉴别优选末端。例如,含有胎儿特异性SNP等位基因的无细胞DNA分子将对于鉴别样品如母体血浆中的胎儿特异性优选末端有用。反之亦然,含有母体特异性SNP等位基因的血浆DNA分子将对于鉴别母体血浆中的母体
特异性优选末端有用。含有肿瘤特异性突变的血浆DNA分子可用于鉴别与癌症相关的优选
末端。在器官移植的背景下含有供体或接受者特异性SNP等位基因的血浆DNA分子可用于鉴
别移植或非移植器官的优选末端。例如,对供体具有特异性的SNP等位基因将对于鉴别代表移植器官的优选末端有用。
[0251] 当优选末端在该生理或病理状态中具有较高似然或概率被检测时,可认为其与生理或疾病状态相关。在其他实施方案中,优选末端具有在相关生理或病理状态中比在其他
状态中更可能检测到的一定概率。因为在相关生理或疾病状态中检测优选末端的概率更
高,所以将在具有相同生理或疾病状态的超过一个个体中看到这样的优选或重复性末端
(或终止位置)。高概率也将使得这样的优选或重复性的末端在相同的无细胞DNA样品或相
同个体的等分试样中可检测到多次。在一些实施方案中,可以设定定量阈值以限制在相同
样品或相同样品等分试样中检测到至少指定次数(例如,5、10、15、20次等)的包含的末端被视为优选末端。
[0252] 在针对任何生理或病理状态建立无细胞DNA优选末端的目录后,可以使用靶向或非靶向方法检测它们在无细胞DNA样品(例如,血浆)中的存在,或检测在其他个体中的存
在,以确定具有相似健康、生理或疾病状态的其他受试个体的分类。可通过随机非靶向测序检测无细胞DNA优选末端。需要考虑测序深度,以便可以实现鉴别全部或部分相关优选末端的合理概率。
[0253] 例如,捕获探针可被设计为覆盖整个EBV基因组、整个乙型肝炎病毒(HBV)基因组、整个人乳头瘤病毒(HPV)基因组和/或人基因组中的多个基因组区域(包括CHR1、CHR2、CHR3、CHR5、CHR8、CHR15和CHR22上的区域)。为了有效地从血浆捕获病毒DNA片段,可以使用更多与病毒基因组杂交而不是与感兴趣的人常染色体区域杂交的探针。在一个实施方案
中,对于整个病毒基因组,平均100个杂交探针覆盖大小约200BP的每个区域(例如,100X平铺捕获探针)。对于人基因组感兴趣的区域,我们设计了平均2个杂交探针覆盖大小约200BP的每个区域(例如,2X平铺捕获探针)。捕获探针可根据表2设计。
[0254] 或者,可以对无细胞DNA样品进行具有高密度优选末端的基因座的杂交捕获,以在通过但不限于测序、微阵列或PCR检测后,富集具有这样的优选末端的无细胞DNA分子的样
品。此外,备选地,基于扩增的方法可用于特异性地扩增和富集具有优选末端的无细胞DNA分子,例如,反向PCR、滚环扩增。扩增产物可通过测序、微阵列、荧光探针、凝胶电泳和本领域技术人员已知的其他标准方法鉴别。
表2:用于靶向测序的捕获探针的设计
[0255] 在实践中,一个末端位置可以是通过分析方法检测或确定的无细胞DNA分子的一个极端上的最外侧碱基的基因组坐标或核苷酸身份,该分析方法诸如但不限于大规模平行
测序或下一代测序、单分子测序、双链或单链DNA测序文库制备方案、PCR、用于DNA扩增的其他酶促方法(例如,等温扩增)或微阵列。这样的体外技术可以改变无细胞DNA分子的真实体内物理末端。因此,每个可检测的末端可以代表生物学上真实的末端,或者该末端是从分子的原始末端向内的一个或多个核苷酸或者从分子的原始末端延伸的一个或多个。例如,
Klenow片段用于在DNA测序文库构建期间通过平端化5’突出端并补平3’突出端来产生平端双链DNA分子。虽然这样的程序可揭示与生物学末端不同的无细胞DNA末端位置,但仍可建
立临床相关性。这是因为与特定生理或病理状态相关或相关联的优选的鉴别可以基于相同
的实验室方案或方法学原理,其将导致校准样品和测试样品中的无细胞DNA末端的一致且
可重复的改变。许多DNA测序方案使用单链DNA文库(Snyder等人Cell 2016,164:57-68)。单链文库的序列读取的末端可以比双链DNA文库的末端更向内或延伸得更远。
[0256] 末端位置的基因组身份或基因组坐标可衍生自序列读取与人参考基因组(例如,hg19)的比对结果。其可以衍生自代表人基因组原始坐标的索引或代码的目录。虽然末端是无细胞DNA分子的一个或两个极端处的核苷酸,但是末端的检测可以通过识别血浆DNA分子
上的其他核苷酸或其他核苷酸段来完成。例如,经由与扩增子中间碱基结合的荧光探针检
测具有优选末端的血浆DNA分子的阳性扩增。例如,可以与通过片段大小已知的血浆DNA分
子的中间部分上的一些碱基结合的荧光探针的阳性杂交来鉴别末端。以这种方式,可以通
过得出具有已知序列和基因组身份的荧光探针外部有多少碱基来确定末端的基因组身份
或基因组坐标。换言之,可以通过检测相同血浆DNA分子上的其他碱基来鉴别或检测末端。
末端可以是通过但不限于靶标特异性探针、微测序和DNA扩增来读取的无细胞DNA分子上的
位置或核苷酸身份。
II.血浆DNA的片段化模式
[0257] 为了分析母体血浆DNA的片段化模式,我们对来自从妇产科(Department of Obstetrics and Gynaecology)招募的胎龄12周的怀孕女性的血浆DNA进行了测序(Lo等人
Sci Transl Med 2010;2(61):61ra91)。使用Illumina基因组分析仪平台对从母亲获得的
血浆DNA进行大规模平行测序。可以使用其他大规模平行测序仪或单分子测序仪。进行血浆DNA分子的配对末端测序。对每个分子的每个末端的50bp进行测序,因此每分子总共100bp。
使用SOAP2程序将每个序列的两个末端与参考人基因组(Hg18NCBI.36)进行比对(Li R等人
Bioinformatics 2009,25:1966-7)。还从父亲和母亲的血沉棕黄层样品以及CVS样品提取
DNA。使用Affymetrix全基因组人SNP阵列6.0系统对这些DNA样品进行基因型分型。
A.示例性片段化定量
[0258] 为了反映片段化模式,可以基于母体血浆DNA的测序结果确定基因组的每个核苷酸的完整概率(PI)。
其中Nz是覆盖靶核苷酸的两侧(5’和3’)的至少z个核苷酸(nt)的全长测序读取的数
目;并且NT是覆盖靶核苷酸的测序读取的总数目。
[0259] PI的值可以反映具有长度为z值的两倍加1(2z+1)的以特定位置为中心的完整DNA分子的概率。完整概率(PI)的值越高,血浆DNA在特定核苷酸位置处被片段化的似然越小。
为了进一步说明这一点,完整概率的定义示于图23中。
[0260] 图23示出了完整概率(PI)的定义的说明性实例。T是计算PI的靶核苷酸的位置。A和B分别是T的上游(5’)z个核苷酸(nt)和下游(3’)z nt的两个位置。标记为a至j的黑线代表来自母体血浆的测序的血浆DNA片段。片段a至d覆盖所有三个位置A、B和T。因此,覆盖靶核苷酸(Nz)两侧(5’和3’)的至少z nt的片段数是4。此外,片段e、f和g也覆盖位置T,但它们不覆盖同时位置A和B。因此,总共有7个片段覆盖位置T(NT=7)。片段h和j覆盖A或B但不覆盖T。这些片段不计入Nz或NT。因此,该特定实例中的PI是4/7(57%)。
[0261] 在一个实施方案中,可以使用25作为z的值来计算PI。因此,完整的血浆DNA片段将被定义为覆盖靶位置上游至少25nt至靶位置下游25nt的片段。在其他实施方案中,可以使用z的其他值,例如但不限于10、15、20、30、35、40、45、50、55、60、65、70、75和80。
[0262] PI是终止于基因组位置窗口内的无细胞DNA分子的相对丰度的实例。可以使用其他度量,例如PI的倒数,其将与具有完整DNA分子的概率具有相反的关系。PI的倒数的较高值将指示作为终止位置或终止窗口的较高概率。其他实例是终止DNA片段的测量数目与终
止DNA片段的预期数目的p值、终止于所有比对的DNA片段之外的DNA片段的比例或者优选的
末端终止比(PETR)的比例,所有这些都在下文更详细地描述。所有这样的相对丰度的度量
测量无细胞DNA片段终止于例如宽度是2z+1的窗口内的比率,其中z可以是零,从而使窗口
等同于基因组位置。
B.片段化模式的周期性
[0263] 基因组的某些区域易于在特定组织中的染色体区域以更高比率(频率)断裂,因此终止于该区域的窗口内的无细胞DNA片段的比率更高。相对丰度的图示出了片段化模式,其可以具有周期性结构。周期性结构示出了最大终止位置(高裂解)的位置和最小终止位置
(低裂解)的位置。当使用PI时,最大值对应于低裂解窗口,因为PI测量完整概率而不是裂解概率(终止位置概率),其彼此具有相反关系。
[0264] 图24A和图24B示出了根据本发明的实施方案,使用25作为z的值,横跨染色体6上的区段的PI的变化。在图24A中,PI的变化以不同的灰度强度呈现,如左侧的图例所示。在图
24B中,较短区段中PI的变化被可视化。x轴是核苷酸中的基因组坐标(nt),并且y轴是PI。PI的变化具有约180bp的明显周期性。
C.母体血浆中母体和胎儿DNA的PI的同步变化
[0265] 虽然PI在整个基因组中以大约180bp的周期性变化,但我们进一步研究了PI的变化是否对于胎儿和母体衍生的血浆DNA分子同步。同步变化意味着PI的峰(最大值)和谷(最小
值)出现在整个基因组中相同的相对核苷酸位置处或出现在足够高比例的基因组处。定义
足够高比例的阈值可以针对特定应用进行调整,例如但不限于>20%、>25%、>30%、>35%、>40%、>45%、>50%、>55%、>60%、>65%、>70%、>75%、>80%、>85%、>90%和>95%。下面的两个图(图25和图26)示出了母体血浆中母体和胎儿衍生的DNA的PI变化之间的两种可能
的关系。
[0266] 图25示出了母体血浆中母体的和胎儿衍生的DNA的PI的同步变化的图示。PI的峰和谷出现在整个基因组或大部分基因组中对于母体和胎儿DNA相同的相对位置处。如果区
域中存在同步变化,则胎儿衍生的DNA和母体衍生的DNA将具有相同的片段化模式,从而阻
碍在该区域中使用片段化模式的周期性作为组织类型之一的特征。
[0267] 图26示出了母体血浆中母体和胎儿衍生的DNA的PI的不同步变化的图示。母体和胎儿DNA的PI的峰和谷在整个基因组中没有恒定的相对关系。在区域I,母体DNA的PI的峰与胎儿DNA的峰同时出现。在区域II,母体DNA的PI的峰与胎儿DNA的谷同时出现。在区域III和IV,母体DNA的PI的峰位于胎儿DNA的峰与谷之间。如果变化不是同步的,则胎儿和母体片段化模式的这样的差异可以用作鉴别可能来自胎儿或母亲的DNA的特征。此外,如下文更详细描述的,这样的差异可用于确定胎儿或母体组织的比例贡献。例如,终止于区域II中的一个峰处的DNA片段更可能是胎儿DNA,并且终止于这样的峰处的DNA片段的相对丰度相比于其
他基因组位置将随着胎儿DNA分数的增加而增加。
[0268] 图27是示出了关于母体和胎儿DNA分子的PI的变化是否同步的分析500的流程图。分析500研究PI的变化在母体血浆中的母体和胎儿衍生的DNA之间是否是同步的。分析500
可以使用计算机系统。尽管如上所述使用测序进行分析500,但可以使用其他技术,例如,如本文所述的其他技术。
[0269] 在框510处,分析500鉴别在该处怀孕妇女纯合(AA)且胎儿杂合(AB)的SNP。这些SNP被称为信息性SNP。B等位基因是胎儿特异性等位基因。可以通过分析仅母体起源或主要母体起源的母体样品来鉴别这样的信息性SNP。例如,可以使用血液样品的血沉棕黄层,因为白细胞主要来自母亲。仅出现一个核苷酸的基因组位置(或一个核苷酸的百分比较高,例如,高于80%,这可取决于胎儿DNA分数)可以被鉴别为在母体中是纯合的。可以分析血浆以鉴别在母亲中纯合的位置,在该处在鉴别有另一等位基因的情况下鉴别出足够百分比的
DNA片段。
[0270] 在框520处,鉴别具有胎儿特异性等位基因B的血浆DNA分子。由于鉴别了等位基因B,可以将这些DNA分子鉴别为对应于胎儿组织。
[0271] 在框530处,确定母体血浆中无细胞DNA的PI值。这些PI值包括胎儿和母体DNA。通过分析与参考基因组的基因组位置比对的序列读取,获得给定基因组位置的PI值。
[0272] 在框540处,通过分析框530的输出来确定PI的峰。可以以多种方式鉴别峰,并且每个峰可以限制于仅一个基因组位置或允许对应于多于一个基因组位置。我们观察到PI在母体血浆中对于主要由母体衍生的DNA的整个基因组呈类似正弦曲线的模式变化,周期性为
大约180bp。
[0273] 在框550处,确定信息性SNP与总母体血浆的最接近的PI(框540)之间的距离。我们鉴别了SNP相对于主要衍生自怀孕女性自身的总血浆DNA的PI变化的最近峰的位置。
[0274] 在框560处,聚集所有胎儿衍生的DNA片段。将携带胎儿特异性等位基因的所有检测到的血浆DNA片段聚集以计算胎儿衍生的DNA的PI。然后参考总母体血浆DNA的最近PI峰
的位置计算聚集的胎儿衍生的DNA片段的PI。胎儿衍生DNA的PI的计算以与总母体血浆DNA
的PI计算类似的方式进行。
[0275] 在框570处,确定胎儿衍生的DNA片段的PI相对于总母体血浆DNA的PI峰变化。变化如图28所示。
[0276] 图28示出了对两个母体血浆样品(S24和S26)的母体血浆样品中胎儿衍生的(红色/灰色)和总(蓝色/黑色)DNA片段的PI变化的分析。纵轴将以百分比显示PI。横轴示出信
息性SNP与PI的最近峰之间的碱基对(bp)距离。
[0277] 总值包括来自胎儿和母体DNA的贡献。总值聚集了所有峰PI。可以看出,SNP越接近PI峰,PI的值越高。实际上,对于胎儿衍生的DNA片段,峰PI位于约位置0处。因此,母体和胎儿衍生的DNA片段的PI的峰在约相同位置处。根据这些数据,我们得出结论,母体和胎儿衍生的DNA的PI变化是同步的。
[0278] 尽管片段化模式看起来是同步的,但是下面的描述示出,除周期性之外的其他性质可以用于区分片段化模式,从而允许确定特定组织类型的特征。例如,已发现某些基因组区域的峰和谷的幅度差异,从而允许那些区域内的某些位置用于确定组织特异性片段化模
式。
D.影响血浆DNA片段化模式的变化的因素
[0279] 在先前的研究中,显示血浆DNA的片段化并非随机在TSS附近(Fan等人PNAS 2008;105:16266-71)。任何血浆DNA终止于特定核苷酸的概率将随着与TSS的距离以大约核小体
的大小的周期性而变化。通常认为这种片段化模式是DNA凋亡降解的结果。因此,血浆DNA的大小通常类似于与组蛋白复合物相关的DNA的大小。
[0280] 在先前的研究中,还显示血浆DNA的大小通常类似于与核小体相关的DNA的大小(Lo等人Sci Transl Med 2010;2(61):61ra91)。认为通过细胞DNA(核DNA和线粒体DNA)的
凋亡降解生成血浆DNA。由于线粒体DNA与细胞中的组蛋白无关,因此在循环线粒体DNA中缺乏这种核小体模式进一步支持了这一观点。尽管已显示血浆DNA片段终止的核苷酸位置在
转录起始位点附近不是随机的(Fan等人PNAS2008;105:16266-711),但仍不清楚控制血浆
DNA片段化模式的确切机制。
[0281] 最近,进一步显示血浆DNA的大小在具有不同序列背景的区域中将是不同的(Chandrananda等人BMC Med Genomics 2015;8:29)。后面的数据也支持先前的假设,即无细胞DNA片段更可能起始和终止于核小体接头区域而不是核小体核心处。这些发现与我们
在先前章节中所讨论的完整概率的核苷酸之间的变化的发现一致。这里,我们进一步假设
完整概率的变化幅度将在不同的基因组区域之间变化。在任何先前的研究中,尚未充分探
索或量化片段化变化性的区域之间的变化。以下附图说明了PI的局部和区域变化的概念。
[0282] 图29示出了PI的变化幅度的图示。在前面的章节中,我们已经证明了在较短的DNA段中PI存在类似正弦曲线的变化模式。这里,我们进一步分析较大基因组区域上的变化幅
度。变化幅度是指在具有特定大小的特定区域处PI的最高峰和谷变化之间的PI差异。在一
个实施方案中,特定区域的大小可以是1000bp。在其他实施方案中,可以使用其他大小,例如但不限于600bp、800bp、1500bp、2000bp、3000bp、5000bp和10000bp。
[0283] 如图29所示,区域1的幅度高于区域2中的幅度。该行为可见于下方的数据。如果针对不同组织在不同基因组区域处发生这样的高幅度的出现,则当分析组织类型之间幅度不同的区域时,可以使用幅度测量来确定组织类型的比例贡献。例如,如果不同组织类型的幅度不同,则比例贡献将与来自特定组织类型(例如,胎儿组织或肿瘤组织)的DNA的量的增加成比例地变化。因此,幅度的量度将对应于特定的比例贡献。实施方案可以使用来自样品的校准数据,在该样品中经由另一技术(例如,通过分析等位基因、甲基化特征、扩增/缺失程度)测量比例贡献,如美国专利公开号2009/0087847、2011/0276277、2011/0105353、2013/
0237431和2014/01001217中所述,这些专利中的每一个通过引用整体并入本文
[0284] 在我们的测序数据中,我们观察到PI的变化幅度在不同的基因组区域之间有所变化。我们假设PI的变化幅度与凋亡期间染色质对降解的可及性有关。因此,我们研究了变化幅度与基因组中DNA酶超敏感位点之间可能的关系。在先前的研究中,观察到血浆DNA的片
段化模式受其与TSS的相对位置的影响。在我们的分析中,我们研究了TSS和DNA酶超敏感位点对血浆DNA的片段化模式影响的相对重要性。可以使用幅度对应于被测组织的其他位点。
这样的位点类型的一个实例是使用通过高通量测序(ATAC-Seq)进行的转座酶可及性染色
质的测定所鉴别的位点(Buenrostro等人Nat Methods 2013;10:1213-1218)。这样的位点
类型的另一实例是使用微球菌核酸酶(MNase)鉴别的位点。
[0285] 我们比较了两种类型的基因组区域的PI变化的幅度:i.是TSS但非DNA酶超敏感位点的区域;以及
ii.是DNA酶超敏感位点但非TSS的区域。
[0286] 从ENCODE数据库(genome.ucsc.edu/ENCODE/downloads.html)检索TSS和DNA酶超敏感位点的坐标。
[0287] 使用以下方法分析TSS和DNA酶I位点周围的PI模式。1)检索靶参考位点周围的上游和下游2kb区域。
2)然后根据到参考位点的距离重新按比例确定绝对基因组坐标。例如,如果大小为
60bp的特定窗口在上游方向距参考位点50bp,则其将被标记为-50。另外,如果大小为60bp的特定窗口在下游方向距参考位点50bp,则其将被标记为+50。
3)使用完整片段和与所述窗口重叠的所有片段的计数重新计算具有相同的重新按比
例确定的新坐标的特定窗口中的PI值。
[0288] 图30A示出了在是DNA酶超敏感位点但非TSS的区域的PI变化模式。图30B示出了在是TSS但非DNA酶超敏感位点的区域的PI变化模式。如图所示,在是DNA酶超敏感位点但非
TSS的区域中,变化的幅度远高于是TSS但非DNA酶超敏感位点的区域。这些观察表明,影响血浆DNA片段化模式的一个因素是经历片段化的区域与DNA酶超敏感位点的相对位置。
III.使用峰和谷确定组织的比例
[0289] 在证明了与DNA酶超敏感位点的相对位置是控制血浆DNA的片段化模式的重要因素后,我们研究了这种观察是否可以转化为临床应用。已经观察到DNA酶超敏感位点的谱在不同类型的组织中是不同的。该谱对应于位点的基因组位置;对于不同组织,DNA酶超敏感位点的位置是不同的。因此,我们推断由不同类型的组织释放的血浆DNA将展现出组织特异性的片段化模式。以类似的方式,可以使用区域的幅度在组织之间变化的其他区域。
A.DNA酶超敏感位点的实例
[0290] 图31示出了测量由不同组织释放的DNA比例的原理的图示。衍生自组织A的血浆DNA在具有高PI的核苷酸位置(峰,由P表示)处具有较低的片段化概率。因此,衍生自组织A的血浆DNA的末端位于这些核苷酸位置的概率较低。相反,衍生自组织A的血浆DNA的末端位于具有低PI的核苷酸位置(谷,由T表示)的概率较高。另一方面,由于该位点不是组织B的
DNA酶超敏感位点,因此衍生自组织B的血浆DNA的PI变化幅度较低。因此,来自组织B的血浆DNA终止于位置P和位置T的概率将是相似的,至少相对于针对组织A所看到的变化量。
[0291] 我们将组织A的DNA酶超敏感位点区域处的片段末端比率(FRA)定义如下:其中NT是终止于PI的谷的核苷酸位置的血浆DNA片段的数目,并且NP是终止于PI的峰的
核苷酸位置的血浆DNA片段的数目。FRA是分离值的实例,并且更具体地说是终止于谷的DNA片段相对于终止于峰的DNA片段的相对丰度的实例。在其他实施方案中,可以确定相邻的谷(局部最小值)和峰(局部最大值)的分离比,并且可以确定该分离比的平均值。
[0292] 对于组织A,FRA将大于1,因为NT将大于NP。对于组织B,FRA将约为1,因为NT和NP将是相似的。因此,在含有衍生自组织A和B两者的血浆DNA的混合物中,FRA的值将与组织A的比例贡献呈正相关。在实践中,组织B的FRA不需要是1。只要组织B的FRA与组织A的FRA不同,就可以从FRA确定两种类型的组织的比例贡献。
[0293] 在这样的区域中,DNA片段终止于谷的较高的似然变化将导致终止于这样的位置的DNA片段的数目高于终止于峰的数目(注意,对于不同定义的相对丰度值,峰可能出现较
高的似然)。当越多的DNA片段来自组织类型A时,终止于谷和峰的DNA片段的数目的差异越
大。因此,随着组织A的比例贡献增加,终止于谷的DNA片段的数目与终止于峰的DNA片段的数目之间的分离将更大。该分离值对应于图31所示的组织A的似然函数中的高幅度。
B.相对丰度与比例贡献之间的关系
[0294] 图32示出了FRA与组织A对混合物中的DNA的比例贡献之间的关系,该比例贡献通过分析来自组织A的具有已知比例浓度的DNA的两个或更多个校准样品确定。在所示的实例
中,分析组织A的比例贡献为x1和x2的两个样品。将两个样品的FRA值分别确定为y1和y2。FRA与A的比例贡献之间的关系可以基于x1、x2、y1和y2的值来确定。
[0295] 值y1和y2是校准值的实例。数据点(x1,y1)和(x2,y2)是校准数据点的实例。校准数据点可拟合为函数以获得校准曲线1010,其可以是线性的。当测量新样品的新FRA(或其他相对丰度值)时,可以将新的FRA与至少一个校准值进行比较,以确定新样品的比例贡献的
分类。可以以多种方式与校准值进行比较。例如,校准曲线可用于找到对应于新FRA的比例贡献x。作为另一实例,可以将新FRA与第一校准数据点的校准值y1进行比较,以确定新样品的比例贡献大于x1还是小于x1。
[0296] 在其他实施方案中,只要其他组织的FRA相对恒定,可以针对组织A的比例贡献类似地分析含有超过两种类型的组织的混合物。这样的方法在实践上可用于分析不同的临床
情景,例如但不限于癌症检测、移植监测、创伤监测、感染和产前诊断。
[0297] 在一个实施方案中,可以确定癌症患者的血浆中受影响组织的分数浓度。例如,在患有肝癌的患者中,肝DNA的分数贡献可以通过分析肝特异性开放染色质区域(例如,DNA酶超敏感位点)来确定。在一个实施方案中,这可以使用DNA酶-Seq完成(Boyle等人Cell 2008;132:311-322;Madrigal等人Front Genet 2012;16:123-131)。在另一实施方案中,这可以通过甲醛辅助的调节元件分离(FAIRE)-Seq进行(Giresi等人Genome Res 2007;17:
877-885)。在又一实施方案中,这可以通过ATAC-Seq进行(Buenrostro等人Nat Methods 
2013;10:1213-1218)。可以在这些位点确定FR肝并将其与正常健康受试者进行比较。在肝特异性DNA酶超敏感位点处,峰与谷区域之间PI的变化将主要由肝所贡献。通过与类似于图32的校准曲线的比较,可以确定肝的贡献。可以将测试病例的FR肝值与健康受试者中肝的贡献的范围进行比较。可以使用在混合物的各种组织中终止于基因组位置处的DNA片段的似然
函数具有高幅度变化的其他区域。在后面的章节中更详细地描述了这样的其他区域的实
例。
[0298] 类似地,可以通过该方法确定移植器官在已经接受了器官移植的患者中的贡献。在先前的研究中,显示具有排斥的患者将导致来自移植器官的DNA的释放增加,从而导致血浆中来自移植器官的DNA的浓度升高。对移植器官的FR的分析将会是用于检测和监测器官
排斥的有用的方式。用于这样的分析的区域可以根据所移植的器官而变化。
[0299] 在另一实施方案中,该方法可用于测定母体血浆中的胎儿DNA浓度。在母体血浆中,携带胎儿基因型的DNA分子实际上衍生自胎盘。因此,如果我们专注于对胎盘具有特异性但在血细胞中不存在的DNA酶超敏感位点,我们将能够通过分析FR胎盘来确定胎盘对血浆DNA的比例贡献。
[0300] 图33示出了根据本发明实施方案,母体血浆中FR胎盘与胎儿DNA百分比之间的相关性。纵轴对应于使用位于一个或多个DNA酶超敏感位点中的一个或多个局部最大值和局部
最小值确定的FR胎盘。横轴是使用单独的测量技术测量的胎儿DNA分数。可以看出,FR胎盘的值与胎儿DNA分数相关。在该实例中,基于母亲纯合且胎儿杂合的SNP处的胎儿特异性等位基
因的比例确定胎儿DNA分数。因此,可以使用基于母体血浆DNA的测序结果的FR胎盘估计胎儿DNA百分比。
[0301] 或者,由于母体血浆中的两个关键组分是胎盘衍生的DNA和衍生自血细胞(不同组织类型)的DNA,我们推断FR血液将与血浆中胎儿DNA的分数浓度呈负相关。因此,鉴别了对血细胞具有特异性的DNA酶超敏感位点并确定了FR血液。
[0302] 图34示出了母体血浆中FR血液与胎儿DNA浓度之间的相关性。纵轴对应于使用位于一个或多个DNA酶超敏感位点中的一个或多个局部最大值和局部最小值确定的FR血液。横轴是基于母体血浆中胎儿特异性等位基因的比例测量的胎儿DNA分数。在FR血液与胎儿DNA百分比之间可以观察到负相关。因此,可以使用基于母体血浆DNA的测序结果的FR血液估计胎儿DNA百分比。因此,基因组区域可以具有对多种组织类型具有特异性的片段化模式,例如,对于一些组织呈正相关且对于其他组织呈负相关。
C.使用最大值和最小值的方法
[0303] 图35是根据本发明的实施方案,分析生物样品以确定第一组织类型的比例贡献的分类的方法1300的流程图。生物样品包含来自包括第一组织类型在内的多种组织类型的无
细胞DNA分子的混合物。与本文所述的其他方法相同,方法1300可以使用计算机系统。可以基于特定受试者选择第一组织类型(例如,肝组织或胎儿组织)。例如,如果受试者先前患有肝癌,则可以进行筛查以检查肝癌是否已经恢复,这将导致来自肝组织的比例贡献增加。这样的选择标准应用于本文所述的其他方法。
[0304] 在框1310处,鉴别具有对第一组织类型具有特异性的片段化模式的至少一个基因组区域。作为实例,至少一个基因组区域可包含一个或多个DNA酶超敏感位点。具有对第一组织类型具有特异性的片段化模式的至少一个基因组区域中的每一个可以在至少一个额
外的样品中包含一个或多个第一组织特异性等位基因,例如,如将在章节VI中描述的。作为另一实例,至少一个基因组区域可包含一个或多个ATAC-seq或微球菌核酸酶位点。第一组
织类型可对应于特定器官,甚至对应于器官的特定癌症。
[0305] 在框1320处,分析来自生物样品的多个无细胞DNA分子。无细胞DNA分子的分析包括确定对应于无细胞DNA分子的至少一个末端的参考基因组中的基因组位置(终止位置)。
因此,可以确定无细胞DNA分子的两个终止位置,或仅确定一个终止位置。
[0306] 如本文所述,可以以多种方式确定终止位置。例如,可以对无细胞DNA分子进行测序以获得序列读取,并且可以将序列读取映射(比对)至参考基因组。如果生物体是人,则参考基因组将会是潜在地来自特定亚群体的参考人基因组。作为另一实例,可以用不同探针
分析无细胞DNA分子(例如,在PCR或其他扩增后),其中每个探针对应于可覆盖至少一个基
因组区域的基因组位置。
[0307] 可以分析无细胞DNA分子的统计上显著的数目,以便提供来自第一组织类型的比例贡献的精确确定。在一些实施方案中,分析至少1,000个无细胞DNA分子。在其他实施方案中,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个无细胞
DNA分子或更多。
[0308] 在框1330处,鉴别第一集合的第一基因组位置。每个第一基因组位置具有对应于该第一基因组位置的无细胞DNA分子的末端的局部最小值。多个相邻基因组位置可被义为
局部极值(最大值或最小值),因此局部最大值不限于仅一个位置。
[0309] 在一些实施方案中,可以确定多个基因组位置中的每一个的比率。可以确定终止于基因组位置并且延伸到基因组位置两侧至少指定数目的核苷酸的无细胞DNA分子的第一
量,例如,如针对图23所述。位于基因组位置处的无细胞DNA分子的第二量可以与第一量一起使用以确定比率。可以以比率鉴别多个局部最小值和多个局部最大值,例如,通过逐步分析比率值来鉴别在每个极值(最大值或最小值)处出现的一个或多个连续基因组位置。
[0310] 在框1340处,鉴别第二集合的第二基因组位置。每个第二基因组位置具有对应于该第二基因组位置的无细胞DNA分子的末端的局部最大值。可以以与第一集合类似的方式
鉴别第二集合。
[0311] 在框1350处,确定终止于至少一个基因组区域的任一个中的第一基因组位置中的任一个的无细胞DNA分子的第一数目。可以以多种方式确定第一数目,例如,作为所有第一基因组位置的总和。作为另一实例,可以在每个基因组位置处确定单独的量。因此,确定无细胞DNA分子的第一数目可以包括确定终止于每个第一基因组位置的无细胞DNA分子的第
一量,从而确定多个第一量。
[0312] 在框1360处,确定终止于至少一个基因组区域的任一个中的第二基因组位置中的任一个的无细胞DNA分子的第二数目。可以以与第一数目类似的方式确定第二数目。因此,确定无细胞DNA分子的第二数目可以包括确定终止于每个第二基因组位置的无细胞DNA分
子的第二量,从而确定多个第二量。
[0313] 在框1370处,计算使用第一数目和第二数目的分离值。分离值可以以多种方式计算,例如,通过第一数目与第二数目的比率,如章节III.A中所述。在使用多个最大值和最小值的另一实现方案中,可以确定每个这样的基因组位置处的量。计算分离值可以包括确定
多个分离比,每个分离比确定于多个第一量中的一个和多个第二量中的一个。可以使用多
个分离比来确定分离值,例如,分离比的平均值或中值。
[0314] 在框1380处,通过将分离值与由第一组织类型的比例贡献已知的一个或多个校准样品确定的一个或多个校准值进行比较来确定第一组织类型的比例贡献的分类。
D.无扩增分析
[0315] 框1310中的无细胞DNA分子的分析可以是无扩增的。当使用PCR时,测序深度(即参考基因组中覆盖特定核苷酸或终止于该特定核苷酸的序列读取的数目)不直接反映覆盖分
析的该特定核苷酸的血浆DNA分子的数目。这是由于一个血浆DNA分子可以在PCR过程中生
成多个重复,并且多个序列读取可以源自单个血浆DNA分子。这种复制问题将因以下各项变得更加重要,i)用于扩增测序文库的PCR循环的数目较大;ii)增加的测序深度,以及iii)原始血浆样品(例如较小体积的血浆)中DNA分子的数目较小。
[0316] 此外,PCR操作引入了进一步的误差(Kinde等人Proc Natl Acad Sci USA 2011;108:9530-9535),因为DNA聚合酶的保真性不是100%,并且偶尔会将错误的核苷酸掺入PCR子链。如果在早期PCR循环期间发生该PCR误差,则将生成显示相同误差的子分子的克隆。错误碱基的分数浓度可在来自同一基因座的其他DNA分子中达到较高的比例,以使得误差将
被错误解释,例如,错误解释为胎儿衍生的或肿瘤衍生的突变。无PCR方案的实例包括:
Berry Genomics(investor.illumina.com/mobile.view?c=121127&v=203&d=1&id=
1949110);Illumina(www.illumina.com/products/truseq-dna-pcr-free-sample-prep-
kits.html)和各种单分子测序技术。无扩增分析的进一步细节可见于PCT申请号PCT/
CN2016/073753。
[0317] 因此,一些实施方案可包括从待分析的生物样品获得模板DNA分子;使用模板DNA分子制备可分析DNA分子的测序文库,可分析DNA分子的测序文库的制备不包括模板DNA分
子的DNA扩增操作;对可分析DNA分子的测序文库进行测序以获得对应于第一多个无细胞
DNA分子的多个序列读取。分析第一多个无细胞DNA分子可以包括在计算机系统处接收多个
序列读取,并通过计算机系统将多个序列读取与参考基因组进行比对,以确定多个序列读
取的基因组位置。
IV.左侧和右侧核苷酸的相对丰度
[0318] 图36示出了肿瘤或胎儿衍生的DNA的循环DNA片段的差异的原理的说明。在先前的研究中,已显示循环DNA的大小非常类似于核小体DNA的大小。血浆DNA大小分布中166bp的
主峰代表与组蛋白复合物核心相关的DNA以及连接两个连续组蛋白复合物的接头DNA。
[0319] 还观察到胎儿衍生的和肿瘤衍生的DNA分子的大小分布短于癌症患者和怀孕女性的血浆中非肿瘤衍生的和非胎儿衍生的DNA的大小分布(Lo等人Sci Transl Med 2010;2
(61):61ra91和Jiang等人Proc Natl Acad Sci U S A 2015;112:E1317-25.)。对于血浆中肿瘤衍生的和胎儿衍生的DNA的大小分布,166bp的峰减少并且144bp的峰更突出。144bp的
峰可能是由于连接两个连续组蛋白复合物的约20bp接头DNA的降解。
[0320] 为了说明该方法的原理,我们使用癌症患者的情景作为实例。然后可以将相同的原理应用于其他情景,包括怀孕母体血浆中循环胎儿DNA的分析,以及接受移植的患者血浆的分析。实施方案可以分析血浆DNA分子的末端,在图36中表示为左侧末端和右侧末端。
[0321] 当来自非恶性组织的DNA被片段化并释放到血浆中时,两个分子的连接末端都将位于核苷酸位置A处。换言之,对于右侧的分子,左侧最外侧核苷酸紧邻核苷酸位置A。对于左侧的分子,右侧最外侧核苷酸也紧邻核苷酸位置A。当以终止于特定核苷酸的分子的相对丰度针对核苷酸坐标作图时,对于映射到该区域的左侧和右侧最外侧核苷酸,末端的峰丰
度将在位置A处。对于衍生自肿瘤细胞的DNA分子,在片段化过程后将从分子中去除20bp片
段。
[0322] 因此,在右侧分子的左侧与左侧分子的右侧之间将存在20bp的间隙。当以终止于特定核苷酸的分子的相对丰度针对核苷酸坐标作图时,右侧最外侧核苷酸的峰(位于B)和
左侧最外侧核苷酸的峰(位于C)将间隔20bp。因此,终止于核苷酸位置B和C的分子丰度与终止于位置A的分子的丰度之间的比率将代表血浆样品中肿瘤衍生的DNA的分数浓度。
[0323] 相同的原理可应用于具有不同大小分布的DNA种类的定量,例如但不限于测量怀孕女性血浆中的胎儿DNA和测量来自移植器官的DNA。
[0324] 图37是分析生物样品的方法1500的流程图,该生物样品包含来自包括第一组织类型在内的多种组织类型的无细胞DNA分子的混合物。方法1500的部分可用于实现框1310和
鉴别优选终止位置的其他框。
[0325] 在框1510处,分析无细胞DNA分子以确定参考基因组中的左侧和右侧终止位置。可以以与框1320类似的方式执行框1510。在框1510中,可以分析来自受试者的生物样品的第
一多个无细胞DNA分子,其中第一多个无细胞DNA分子中的每一个具有左侧末端和右侧末
端。可以确定参考基因组中对应于无细胞DNA分子的左侧末端的左侧终止位置,例如通过将DNA片段的序列读取与参考基因组进行比对(映射)或经由在参考基因组中的位置已知的探
针。左侧末端可以指任一个末端,取决于为定义参考基因组而选择的坐标系。类似地,可以确定参考基因组中对应于无细胞DNA分子右侧末端的右侧终止位置。可以在两个单独的比
对操作中确定两个终止位置,例如,如果两个末端具有单独的序列读取。
[0326] 在框1520处,鉴别左侧基因组位置的左侧集合。左侧集合的每个基因组位置具有对应于左侧集合的基因组位置之一的第一多个无细胞DNA分子的左侧末端的局部最大值。
可以以与针对方法1300的最大值所述的类似方式确定左侧集合。
[0327] 在框1530处,鉴别右侧基因组位置的右侧集合。右侧集合的每个基因组位置具有对应于右侧集合的基因组位置之一的第一多个无细胞DNA分子的右侧末端的局部最大值。
可以以与针对方法1300的最大值所述的类似方式确定右侧集合。
[0328] 在框1540处,将第一集合的基因组位置鉴别为对第一组织类型具有特异性。可以将左侧集合的左侧基因组位置的全部或一部分与右侧集合的右侧基因组位置的全部或一
部分进行比较,以鉴别从左侧基因组位置到最近的右侧基因组位置的距离大于参考基因组
中基因组位置(例如,核苷酸)的第一阈值距离的第一集合的基因组位置。第一阈值距离的
实例是5、6、7、8、9、10、15和20个核苷酸。
[0329] 在框1550处,鉴别第二集合的基因组位置。可以将左侧集合的左侧基因组位置的全部或一部分与右侧集合的右侧基因组位置的全部或一部分进行比较,以鉴别从左侧基因
组位置到最近的右侧基因组位置的距离小于参考基因组中基因组位置的第二阈值距离的
第二集合的基因组位置。第二阈值距离的实例是2、3、4和5个基因组位置(例如,核苷酸)。
[0330] 在框1560处,使用终止于左侧集合的基因组位置之一的第一多个无细胞DNA分子的第一数目和终止于右侧集合的基因组位置之一的第一多个无细胞DNA分子的第二数目来
确定分离值。可以在第一数目与第二数目之间确定分离值(例如,相对丰度值)。
[0331] 在一个实施方案中,鉴别第一集合的基因组位置和第二集合的基因组位置的对。该对可以是彼此最接近的位置。对于一对或多对中的每一对,可以确定终止于第一基因组
位置的无细胞DNA分子的第一量,并且可以确定终止于第一基因组位置的无细胞DNA分子的
第二量。无细胞DNA分子的第一量对应于多个无细胞DNA分子的第一量,并且无细胞DNA分子的第二量对应于多个无细胞DNA分子的第二量。例如,第一量可以相加得到第一数目,第二量可以相加得到第二数目,并且可以直接从第一数目和第二数目确定分离值。作为另一实
例,可以从多个比率确定分离值,每个比率包括一对的第一量和第二量。在各个实施方案
中,比率的平均值或中值可以用作分离值。可以以其他方式使用该对的各自的第一量和第
二量来确定用于确定总分离值的各个分离值。
[0332] 在框1570处,通过将分离值与由第一组织类型的比例贡献已知的一个或多个校准样品确定的一个或多个校准值进行比较来确定第一组织类型的比例贡献的分类。可以以与
比例贡献的其他确定类似的方式执行框1570。
[0333] 在各个实施方案中,左侧和右侧集合可用作第一集合的基因组位置;只可使用左侧集合;只可使用右侧集合;或者可使用左侧集合的一些和右侧集合的一些。对于左侧位置的整个集合,存在左侧位置的子集,其具有与左侧位置的子集分离阈值数目的核苷酸的对
应的右侧集合的位置。因此,可以使用左侧位置的子集或右侧位置的对应子集来进行计算。
V.组织特异性终止位置的使用
[0334] 衍生自癌细胞、胎盘细胞和细胞类型的循环DNA的片段化模式可以是不同的。循环DNA片段的一个末端或两个末端的末端核苷酸的坐标可用于预测携带推定突变的DNA片段
是否实际上衍生自肿瘤。可以在血浆DNA片段中鉴别癌症特异性和怀孕特异性终止位置。
A.使用肝细胞癌(HCC)的癌症实例
[0335] 为了说明该方法的可行性,分析了患有肝细胞癌(HCC)的患者和怀孕女性的血浆DNA的测序数据。出于说明目的,分析集中于8号染色体。相同的方法可以应用于整个基因组或任何其他染色体。
[0336] 确定每个测序的血浆DNA片段的两个末端处的末端核苷酸的坐标。然后,对终止于染色体8上的每个核苷酸的片段数进行计数。对于HCC病例和怀孕女性,确定了具有终止于
其上最高数目的DNA片段的前100万个核苷酸。前100万可以被视为高于阈值。
[0337] 图38是文氏图,其示出了对HCC病例具有特异性、对怀孕女性具有特异性以及由两种病例共享的频繁终止位点的数目。附录A中示出了对HCC病例具有特异性的最频繁的终止
位置的536,772个核苷酸的坐标。附录B中列出了对怀孕女性具有特异性的最频繁的终止位
置的536,772个核苷酸的坐标。省略了两种病例共享的最频繁的终止位置的463,228个核苷
酸的坐标。
[0338] 我们推测具有恰好终止于536,772个HCC特异性终止位置的末端核苷酸的血浆DNA片段将更可能衍生自肿瘤。基于该假设,终止于HCC特异性终止位置的测序血浆DNA片段的
数目可用于指示存在或不存在HCC或者具有相同血浆DNA片段化模式的其他癌症。在另一实
施方案中,该参数还可用于反映癌症水平,例如但不限于肿瘤大小、癌症阶段、肿瘤负荷和转移的存在。
[0339] 在又一实施方案中,终止于HCC特异性终止位置的片段的数目可以与血浆中具有已知肿瘤DNA分数的样品的血浆中癌症衍生的DNA的分数浓度相关联。血浆中的肿瘤DNA分
数可以通过例如但不限于定量血浆中的癌症突变或血浆DNA中拷贝数异常的大小来确定
(Chan等人Clin Chem 2013;59:211-24)。该相关性可以用作校准曲线(图23)。对于血浆中肿瘤DNA分数未知的患者,可以确定终止于HCC特异性终止位置的DNA片段的量。然后,可以基于校准曲线和终止于HCC特异性终止位置的DNA片段的量来确定血浆中的肿瘤DNA分数。
在一个实现方案中,可以将终止于HCC特异性终止位置的DNA片段的量针对测序的DNA片段
的总数、可比对的读取的总数目或与某些染色体区域比对的DNA片段的数目进行归一化。因此,终止于癌症特异性位置的测序DNA片段的比例可用作参数。
[0340] 图39示出了校准曲线,其示出终止于癌症特异性终止位置的测序DNA片段的比例与血浆中具有已知肿瘤DNA分数的癌症患者的血浆中的肿瘤DNA分数之间的关系。该概念图
示出了肿瘤DNA分数与终止于癌症特异性终止位置的序列DNA片段的比例之间的校准曲线
的相关性。校准曲线可以通过拟合由校准样品确定的数据点来确定,校准样品的肿瘤DNA分数通过其他技术确定。
[0341] 在本发明的另一实施方案中,可以确定患有不同类型癌症的患者的血浆DNA片段化模式。这些癌症患者的重叠末端可以被认为是癌症特异性末端,而个体癌症类型的终止
位置可以被认为对特定癌症类型具有特异性。对于任何疑似患有癌症的个体,可以首先将
测序的血浆DNA片段与癌症特异性终止位置进行比较,以确定个体患癌症的似然。如果个体可能患有癌症,则可以针对癌症类型特异性终止位置分析测序的片段以确定个体患有的最
可能的癌症。
[0342] 在本发明的另一实施方案中,可以确定衍生自不同器官的DNA的终止位置,并且可以用于确定来自不同器官的DNA对血浆的相对贡献(或其他比例贡献)。
B.胎儿实例
[0343] 在另一实施方案中,该方法可用于确定母体血浆样品中的胎儿DNA分数。可以通过首先确定的终止于怀孕特异性终止位置的测序血浆DNA片段的比例与具有已知胎儿DNA分
数的许多母体血浆样品的胎儿DNA分数的相关性来确定校准曲线。胎儿DNA分数可以通过许
多方法确定,例如但不限于确定样品中的胎儿特异性等位基因、怀有男性的染色体Y上的靶标的定量和胎儿特异性甲基化标志物的分析。对于具有未知胎儿DNA分数的怀孕血浆样品,可以确定终止于怀孕特异性终止位置的测序血浆DNA片段的比例。使用该信息,可以基于校准曲线确定测试的血浆DNA样品中的胎儿DNA分数。
C.用于使用优选终止位置的试剂
[0344] 在一些实施方案中,提供了用于分析生物样品中的DNA的试剂盒,该生物样品含有多种组织类型的无细胞DNA分子的混合物。试剂盒可包含用于与附录A和B列出的基因组区
域的至少一部分特异性杂交的一种或多种寡核苷酸。在一个实施方案中,试剂盒包含用于
与附录A列出的基因组区域的至少一部分特异性杂交的一种或多种寡核苷酸,用于测试受
试者的HCC。在另一实施方案中,试剂盒包含用于与附录B列出的基因组区域的至少一部分
特异性杂交的一种或多种寡核苷酸,用于测试怀孕女性,例如,以确定来自怀孕女性的母体生物样品中的胎儿DNA分数。
VI.使用多态性的终止位置分析
[0345] 在一些实施方案中,可以使用组织特异性等位基因鉴别具有组织特异性片段化模式的区域。例如,如本文所述,可以通过分析母体血浆样品并将检测到的等位基因与仅在母体样品中检测到的等位基因进行比较来鉴别胎儿特异性等位基因。相对于展示出共享等位
基因(即,胎儿和母亲共享)的组织的比率,具有较高比率的胎儿DNA分子终止于其上的基因组位置可被鉴别为具有胎儿组织特异性片段化模式。这些胎儿优选的终止位置可以是或可
以不是DNA酶超敏感位点,从而显示多种基因组区域可以具有针对片段化模式的组织特异
性幅度,并且实施方案不限于DNA酶超敏感位点。可以对来自对肿瘤进行筛查的受试者的样品进行类似的分析。
A.胎儿实例
[0346] 可以通过分析来自怀孕女性的血浆DNA获得优选的终止位置。可以通过基于多态性的方法区分胎儿衍生的和母体衍生的血浆DNA片段。携带胎儿特异性和母体特异性等位
基因的片段可用于确定胎儿衍生的和母体衍生的DNA的优选终止位置。
[0347] 在获得知情同意的情况下,从香港威尔斯亲王医院妇产科(Department  of Obstetrics and Gynecology,Prince of Wales Hospital,Hong Kong)招募怀孕38周的怀有男性单胎的怀孕女性。将血液样品在4℃下以1,600g离心10min。收获血浆部分并在4℃以
16,000g再次离心10min以移除血细胞。将血细胞部分以2,500g再次离心,并去除任何残留
的血浆。分别用QIAamp DNA血液微量试剂盒和QIAamp DSP DNA血液微量试剂盒(Qiagen)的
血液和体液方案提取来自血细胞和来自母体血浆的DNA。根据制造商的组织方案,用QIAamp DNA微量试剂盒(Qiagen)提取来自胎盘的DNA。使用Illumina TruSeq无PCR文库制备方案对
测序文库进行测序。在配对末端模式下使用短寡核苷酸比对程序2(SOAP2)分析配对末端测
序数据(Li等人Bioinformatics 2009;25:1966-1967)。将配对末端读取与非重复掩蔽的参考人基因组(Hg19)进行比对。每个末端的比对允许至多2个核苷酸错配。然后分析这两个末端的这些潜在比对的基因组坐标,以确定是否任何组合将会允许2个末端以正确的方向与
相同染色体比对、跨越≤600bp的插入物大小并映射到参考人基因组中的单个位置。将母体血浆样品测序至单倍体人基因组的270×深度。使用相同的测序方案,将母体血细胞、父体
血细胞和脐带血细胞分别测序至40×、45×和50×单倍体人基因组覆盖率。
[0348] 为此,分析了母体血浆DNA中的重复性末端序列。1.胎儿特异性终止位置的鉴别
[0349] 通过使用非PCR扩增的文库对母体血浆DNA样品的具有非常高的测序深度的表现,我们研究了母体和胎儿基因组中是否存在在血浆DNA生成中优先被裂解的位点。为了证明
该影响,鉴别了母亲纯合(基因型表示为AA)并且胎儿杂合(基因型表示为AB)的信息性SNP
基因座。在该说明性实例中,B等位基因将会是胎儿特异性的并且A等位基因将由母亲和胎
儿共享。代表性实例如图40所示。作为对照,示出了从血细胞获得并使用超声处理人工片段化的DNA样品的测序结果。
[0350] 在血浆DNA中观察到非随机的片段化模式。对于作为DNA片段末端的概率的图,对于携带胎儿特异性和母亲共享的等位基因的两组片段中的每一组,观察到三个峰。这些峰
分别代表母体血浆中胎儿衍生的和母体衍生的DNA的末端位置的热点。峰的位置在这两组
之间很大程度上重叠。相反,超声处理的DNA的片段化模式似乎是随机的,并且整个区域的片段末端概率相似。
[0351] 图40示出了携带胎儿特异性等位基因和母亲与胎儿共享的等位基因的血浆DNA的非随机片段化模式的说明性实例。在该图的上部,每条水平线代表一个测序的DNA片段。DNA片段的末端代表测序读取的终止位置。根据左侧最外侧核苷酸的坐标(最小基因组坐标)对
片段进行分选。在图的下部,示出了终止于特定位置的片段的百分比。X轴代表基因组坐标,并且SNP位于由虚线指示的中心。
[0352] 我们进一步搜索了具有增加的概率作为血浆DNA片段终止位置的坐标。我们基于覆盖信息性SNP的片段集中搜索,以便可以分别评价携带胎儿特异性等位基因和母亲与胎
儿共享的等位基因的片段。我们使用泊松概率函数确定人基因组内的某些位置是否具有显
著增加的概率作为血浆DNA片段的终止位置。为了分析母亲纯合(基因型AA)且胎儿杂合(基
因型AB)的SNP,A等位基因将会是“共享等位基因”而B等位基因将会是胎儿特异性等位基
因。将对携带共享等位基因和胎儿特异性等位基因的测序读取的数目进行计数。在血浆DNA的大小分布中,对于胎儿衍生的和母体衍生的DNA,在166bp处观察到峰。如果血浆DNA的片段化是随机的,则两个末端将均匀地分布在信息性SNP的上游166bp和下游166bp的区域。
[0353] 可以基于泊松概率函数计算p值以确定特定位置是否具有显著增加的概率作为携带共享等位基因或胎儿特异性等位基因的读取的末端。
p值=泊松(N实际,N预测)
其中泊松()是泊松概率函数;N实际是终止于特定核苷酸处的读取的实际数目;并且N预测
是读取的总数目除以166。使用<0.01的p值作为截止值来定义携带胎儿特异性等位基因或
共享等位基因的读取的优选终止位置。对于携带共享等位基因和胎儿特异性等位基因的
DNA片段独立地确定统计上显著的终止位置(图41)。可以使用其他概率分布,例如,二项分布、负二项分布和正态分布。
[0354] 图41示出了基因组坐标是具有信息性SNP的区域上母体血浆DNA片段的终止位置的概率图。将具有显著增加的概率作为携带共享等位基因和胎儿特异性等位基因的血浆
DNA片段末端的核苷酸位置的结果分别以红色/灰色(0以上)和蓝色/黑色(0以下)示出。X轴
代表基因组坐标,并且突变位于由虚线指示的中心。如图所示,存在仅对于胎儿特异性等位基因、仅对于共享等位基因的终止位置具有较高发生率的坐标,且一些为二者所共有的。
[0355] 我们鉴别了共4,131个(集合A)和10,021个(集合B)核苷酸位置,其分别具有显著增加的几率作为携带胎儿特异性等位基因和共享等位基因的血浆DNA片段的末端。集合C是
重叠集合并含有4,258个核苷酸位置(图25)。这些终止位置获自跨越共1.42Mb并覆盖4,303
个SNP的区域。因此,胎儿特异性片段的优选终止位置占分析区域的0.29%。分别有24,500、
22,942和31,925个携带胎儿特异性等位基因的血浆DNA片段终止于集合A、集合B和集合C位
置。分别有24,500、22,942和31,925个携带共享等位基因的血浆DNA片段终止于集合A、集合B和集合C位置。预期优选终止位置的数目或发生率要高得多并且在其他基因组坐标处发
生。
[0356] 本文所述的基于多态性的方法仅鉴别与该胎儿-母体对的信息性SNP相关的优选终止位置。因此,鉴别的优选末端将代表基因组中这样的末端的子集。我们已经开发了不基于多态性来鉴别优选末端的方法。实际上,使用不基于多态性的方法鉴别了许多更优选终
止方法。请参考下文描述的其他实验。
[0357] 图42示出了在母体中纯合并且在胎儿中杂合SNP的血浆DNA片段的终止位置的分析。集合A包括携带胎儿特异性等位基因的片段的优选终止位置。集合B包括携带共享等位
基因的片段的优选终止位置。集合C包括这两种类型的血浆DNA片段的优选终止位置。
[0358] 使用相同的原理,我们进一步分析了在母亲中杂合(基因型AB)且在胎儿中纯合(基因型AA)的SNP的母体衍生的DNA片段的终止位置。我们鉴别了共7,527个(集合X)和18,
829个(集合Y)核苷酸位置,其分别具有显著增加的几率作为携带胎儿特异性等位基因和共
享等位基因的血浆DNA片段的终止位置。集合Z是重叠集合并含有10,534个位置(图26)。这
些终止位置获自跨越共3.1Mb并覆盖9,489个SNP的区域。因此,母体特异性片段的优选终止位置占该对母亲和胎儿的分析区域的0.24%。分别有69,136、82,413和121,607个携带母体特异性等位基因的血浆DNA片段终止于集合X、集合Y和集合Z位置。分别有46,554、245,037和181,709个携带共享等位基因的血浆DNA片段终止于集合X、集合Y和集合Z位置。同样,该分析集中于至少覆盖信息性SNP的血浆DNA分子,所鉴别的优选末端仅代表整个基因组中这
样的非随机末端的子集。
[0359] 图43示出了在胎儿中纯合且在母体中杂合的SNP的血浆DNA片段的终止位置的分析。集合X包括携带母体特异性等位基因的片段的优选终止位置。集合Y包括携带共享等位
基因的片段的优选终止位置。集合Z包括这两种类型的血浆DNA片段的优选终止位置。
2.使用重复性终止位置推断胎儿DNA分数
[0360] 在鉴别衍生自母亲和胎儿的血浆DNA片段的重复性终止位置后,我们推断终止于这些集合的核苷酸位置的血浆DNA的相对丰度将反映胎儿DNA分数。为了证实这一点,我们
对各自怀有男性胎儿的26名孕早期(10~13周)女性的血浆DNA进行了测序。中位映射读取
计数为1600万(范围:1200-2200万)。使用与染色体Y比对的测序读取的比例来计算每个血
浆样品中的实际胎儿DNA分数。在具有重复性胎儿(集合A)和母体(集合X)末端的血浆DNA的
相对丰度(表示为F/M比率)与胎儿DNA分数之间可以观察到正相关(R=0.63,P=0.0004,皮尔森相关性(Pearson correlation),图44)。有趣的是,虽然优选的终止位置是基于一对胎儿和母亲的信息性SNP鉴别的,并且仅代表基因组中这样的末端的子集,但鉴别的末端也与其他怀孕相关,并且即使仅使用该优选末端的子集也实现了与胎儿分数的相关性。
[0361] 图44示出了具有重复性胎儿(集合A)和母体(集合X)末端的血浆DNA分子的相对丰度(比率(F/M))与胎儿DNA分数之间的相关性。每个数据点可以对应于各自的校准样品,并
因此被认为是校准数据点。拟合校准数据点的线是校准函数的实例。
[0362] 除了集合A和集合X之外,可以使用其他集合。例如,可获取集合A相对于集合C以及集合A相对于集合B的比率(或其他相对丰度或比率的函数)。作为另一实例,可以获取集合X与集合Z的比率或集合X与集合Y之间的比率,这将提供母体DNA分数,其可以假设为胎儿DNA分数的倒数。在这样的实例中,母体组织可以是比例贡献已确定(即使是隐含的)的第一组织类型。
3.大小的使用
[0363] 终止于胎儿特异性终止位置的血浆DNA片段的大小分布提供了位置是胎儿特异性的进一步的证据。为了进一步支持集合A和集合X位置分别是胎儿衍生的和母体衍生的DNA
片段的优选终止位点,我们比较了终止于这两个集合的位置的血浆DNA的大小分布。对于这些位置所衍生自的样品,对于短于终止于X集合位置的片段的终止于集合A位置的片段,大
小分布更短(图45A)。
[0364] 图45A示出了终止于胎儿优选的终止位置(集合A)的片段(蓝色/黑色)的血浆DNA大小分布和终止于母体优选的终止位置(集合X)的片段(红色/灰色)的血浆DNA大小分布。
对于终止于集合A位置的片段,与终止于集合X位置的片段相比,观察到更短的大小分布。图
45B示出了两个集合的片段的大小分布的累积图。图45C示出了两个集合的片段的累积频率
的差异(ΔS)相对于片段大小。图45D示出了ΔS相对于在将集合A和集合X末端位置移位0至
5bp到具有较大基因组坐标的位置的情况下的大小。图45E示出了ΔS相对于在将集合A和集
合X的终止位置在反方向上移位0至5bp(具有较小基因集合坐标的位置)的情况下的大小。
[0365] 为了进一步量化大小分布的差异,对两条曲线的累积频率进行作图(图45B)。在图45C中对ΔS表示的两条曲线的差异进行作图。我们观察到,在166bp处观察到最大差异。这与先前的报道一致,即胎儿衍生的和母体衍生的DNA之间的最大差异可以在166bp处观察到
(Yu等人Proc Natl Acad Sci U S A.2014;111:8583-8)。目前的研究发现表明,与终止于母体优选的终止位置(集合A)的片段相比,终止于胎儿优选的终止位置(集合X)的片段的胎
儿衍生的DNA得到富集。
[0366] 我们通过将集合A和集合X终止位置向基因组的上游或下游移位1至5bp进一步研究了这些终止位置的特异性。相对于在将集合A和集合X终止位置在两个方向上移位的情况
下的大小,对ΔS值进行作图(图45D和图45E)。移位的正数表示移位到具有较大基因组坐标的位置(图45D),而移位的负数表示移位到具有较小基因组坐标的位置(图45E)。将胎儿和
母体优选位置即使移位1bp也将显著减小终止于这两个集合的位置的DNA片段之间的大小
差异(ΔS)。5bp的移位几乎完全消除了大小差异。这些结果表明,与通过我们的算法鉴别的终止于那些优选终止位置的读取相比,终止于那些替代位置的读取不是胎儿或母体特异性
的。这些数据进一步支持了我们的解释,即血浆或无细胞DNA分子片段在那些优选的末端位置处非常精确地裂解。换言之,非随机无细胞DNA片段化过程精确到特定核苷酸的水平。
[0367] 然后,我们分析了用于胎儿DNA分数分析的来自26个孕早期血浆样品的汇集的测序读取。终止于集合A位置的片段与终止于集合X位置的片段相比,观察到更短的大小分布
(图24A)。
[0368] 图46A示出了来自26个孕早期怀孕女性的汇集的血浆DNA样品中终止于胎儿优选的终止位置(集合A)的片段(蓝色/黑色)和终止于母体优选的终止位置(集合X)的片段(红
色/灰色)的血浆DNA大小分布。对于终止于集合A位置的片段,与终止于集合X位置的片段相比,观察到更短的大小分布。图46B示出了两个集合的片段的大小分布的累积图。图46C示出了两个集合的片段的累积频率的差异(ΔS)相对于片段大小。图46D示出了ΔS相对于在将
集合A和集合X位置移位0至5bp(较大的基因组坐标)的大小。图46E示出了ΔS相对于在将集
合A和集合X位置在反方向上移位0至5bp(较小的基因组坐标)的大小。终止于这两个集合的
位置的血浆DNA片段之间的大小差异(ΔS)将随着这些位置的移位而减小,表明这些位置对
于单核苷酸水平将会是精确的。
B.癌症实例
[0369] 相同的策略也可应用于分析癌症衍生片段的优选终止位置。在该实例中,我们对患有肝细胞癌(HCC)的患者的血浆(220x覆盖率)、血沉棕黄层(48x)和肿瘤组织(45x)进行
测序。通过比较肿瘤组织和血沉棕黄层的基因型获得患者的突变谱。为了确定癌症衍生的
血浆DNA片段的优选终止位置,我们分析了携带癌症突变的血浆DNA片段。如图46A-图46E所示,HCC患者中血浆DNA的片段化模式不是随机的。某些核苷酸位置具有增加的概率作为血
浆DNA片段的末端。
1.癌症特异性终止位置的鉴别
[0370] 图47示出了HCC患者的血浆DNA的非随机片段化模式的说明性实例。在该图的上部,每条水平线代表一个测序的DNA片段。红色/灰色和蓝色/黑色线分别代表携带野生型和突变体等位基因的DNA片段。DNA片段的末端代表测序读取的终止位置。根据左侧最外侧核
苷酸的坐标(最小基因组坐标)对片段进行分选。在图的下部,示出了终止于特定位置的片
段的百分比。X轴代表基因组坐标,并且突变位于由虚线指示的中心。
[0371] 我们使用如前所述的泊松概率分布函数鉴别了具有增加的概率作为携带突变体等位基因和野生型等位基因的血浆DNA片段末端的基因组位置。使用0.01的p值作为阈值。
反之亦然,如PCT申请号PCT/CN2016/073753中所述,即当鉴别出具有特定末端的血浆DNA分子时,取决于在血浆DNA数据解释中使用哪个集合的末端,分子上的SNP等位基因或突变更
有可能是癌症衍生的、疾病相关的或怀孕相关的。
[0372] 图48是基因组坐标作为具有突变位点的区域上血浆DNA片段的终止位置的概率图。将具有显著增加的概率作为携带野生型等位基因和突变体等位基因的血浆DNA片段末
端的核苷酸位置的结果分别以红色/灰色和蓝色/黑色示出。X轴代表基因组坐标,并且突变位于由虚线指示的中心。如图所示,存在仅对于突变特异性等位基因、仅对于野生型等位基因的终止位置具有较高发生率的坐标,且一些为二者所共有的。
[0373] 图49A示出了在突变存在于肿瘤组织中的情况下,对血浆DNA片段在基因组位置上的终止位置的分析。集合E包括携带突变体等位基因的片段的优选终止位置。集合F包括携
带野生型等位基因的片段的优选终止位置。集合G包括这两种类型的血浆DNA片段的优选终
止位置。
2.使用重复性终止位置推断肿瘤DNA分数
[0374] 由于集合E位置是癌症衍生DNA的优选终止位点,而集合F位置是主要衍生自非肿瘤组织的背景DNA的优选终止位点,我们假设终止于这两个集合的位置的片段之间的比率
将与衍生自肿瘤的DNA相关。因此,我们分析了血浆含有至少1%的肿瘤衍生DNA的71名HCC
患者的血浆。在之前分析这些患者的血浆DNA中的拷贝数异常,并通过拷贝数异常的大小估计肿瘤DNA分数(Jiang等人Proc Natl Acad Sci U S A.2015;112:E1317-25)。终止于这两个集合的位置的片段之间的比率(比率M/WT)定义为:
[0375] 图49B示出了比率M/WT与71名HCC患者的血浆中的肿瘤DNA分数之间的相关性。观察到比率M/WT与血浆中的肿瘤DNA分数之间呈正相关(r=0.53,p<0.001,皮尔森相关性)。这些结果表明,终止于这些癌症优选的终止位置的片段数目将对于预测癌症患者血浆中肿瘤衍
生的DNA的量有用。
[0376] 一些实施方案可通过多种癌症特异性或癌症相关变化(例如,单核苷酸突变)组合癌症特异性或癌症相关的DNA甲基化特征(例如,5-甲基胞嘧啶和羟甲基化的位置)、癌症特异性或癌症相关的短血浆DNA分子、癌症特异性或癌症相关的组蛋白修饰标记以及癌症特
异性或癌症相关的血浆DNA末端位置的组合检测来增加可获得的信息性癌症DNA片段的数
目。某些癌症特异性或癌症相关变化可用作鉴别突变的过滤标准。
VII.独立于多态性的末端位置分析
[0377] 在其他实施方案中,优选的终止位置可以通过以下来获得:(A)比较来自不同个体的血浆DNA片段的终止位置,或(B)比较来自一个个体的在不同时间点获取的样品的血浆
DNA片段的终止位置。
A.患有不同病理和生理病况的受试者中的优选终止位置之间的比较
1.使用高于阈值的排除性集合
[0378] 基于泊松分布概率函数,我们已经鉴别了具有增加的概率作为在前面章节中描述的怀孕女性和HCC患者的血浆片段的终止位置的基因组位置。在该分析中,零假设是所有血浆DNA片段将被随机片段化,使得每个基因组位置将会具有相等概率作为血浆DNA片段的末
端。假设血浆DNA片段的平均大小为166bp。p值计算如下
p值=泊松(N实际,N预测)
其中泊松()是泊松概率函数;N实际是终止于特定核苷酸处的读取的实际数目;并且
分母中的3x 109代表基因组中的核苷酸数目。
[0379] 使用Benjamini和Hochberg校正(Bejamini等人Journal of the Royal Statistical Society,1995;57:289–300)调整p值,以达到预期的<1%的错误发现率
(FDR)。
[0380] 图50A示出了怀孕女性和HCC患者的血浆DNA的优选终止位置的数目。集合P含有在怀孕女性中优选的2900万个终止位置。集合Q含有在HCC患者中优选的600万个终止位置。集合S是重叠集合并含有1500万个终止位置。
[0381] 我们假设,与那些终止于怀孕优选终止位置(集合P)的片段相比,终止于HCC优选终止位置(集合Q)的片段的癌症衍生的DNA将得到富集。因此,我们将比率HCC/怀孕计算为
并且将该比率与上述71名HCC患者中的肿瘤DNA分数相关联。
[0382] 图50B示出了比率HCC/怀孕与71名HCC患者的血浆中的肿瘤DNA分数之间的正相关。这些结果表明,终止于特定病况的优选终止位点的片段的数目或比例可用于检测病况或量化从病变器官释放的DNA的量。
2.具有较高终止率的基因组位置集合的使用
[0383] 在另一实施方案中,优选的终止位点可以通过确定终止于这样的位置的片段的数目与覆盖该位置但不终止于其上的片段的数目之间的比率来鉴别。图51A图示了优选末端
终止比率(PETR)的计算。
[0384] 图51A示出了PETR的概念的图示。每条线代表一个血浆DNA片段。这些片段被标记为a至g。片段a、b、c和d终止于感兴趣的核苷酸上。片段e、f和g覆盖感兴趣的核苷酸但不终止于这样的位置上。在该说明性实例中,PETR等于4/3,即1.33。在其他实施方案中,分母可以是覆盖核苷酸的DNA片段的数目,不考虑该DNA片段是否终止于该位置上。
[0385] PETR的计算可用于鉴别作为患有不同疾病状况的个体中的优选末端的核苷酸位置。以下实例证明了PETR的效用。比较了先前提到的HCC患者和具有慢性乙型肝炎病毒
(HBV)感染但未患有癌症的受试者(HBV携带者)的血浆样品。将HBV携带者的血浆DNA样品测
序至215x单倍体基因组覆盖率。计算每个受试者的每个基因组位置的PETR。鉴别出有7,
350,067个基因组位置(集合H)在HCC患者中相比于HBV携带者具有高至少4倍的PETR。与HBV
携带者相比,这些位置在HCC患者中具有增加至少4倍的几率作为血浆DNA片段的末端。可以使用其他倍数差异,例如1.5倍、2倍和3倍。
[0386] 来自11名独立HCC患者的血浆样品被进一步测序至更低的测序深度。从这11个血浆样品中获得了平均2800万个测序读取。计算这11名HCC患者中每一名的7,350,067个集合
H位置处的平均PETR,并与血浆中的肿瘤DNA分数相关联。如前所述,基于血浆中拷贝数异常的大小计算血浆中的肿瘤DNA分数(Chan等人Proc Natl Acad Sci U S A.2015;112:
E1317-25)。
[0387] 图51B示出了11名HCC患者中的血浆中的肿瘤DNA分数与集合H位置的PETR之间的相关性。可以观察到两个参数之间的正相关性,从而表明HCC优选位置(集合H)处的平均
PETR将对于指示血浆中肿瘤DNA的量有用。
3.确认终止位置是肝相关的
[0388] 为了显示HCC血浆DNA样品或HBV血浆DNA样品中存在的优选终止位置是肝相关的,我们搜索了在手术去除HCC前后它们在收集自患者的血浆样品中的存在。数据示于表3中。
手术前和手术后样品分别测序至17x和20x单倍体基因组覆盖率。
[0389] 表3.表3示出了在去除患有HCC的患者的肝肿瘤的手术之前和之后收集的血浆样品中的HCC
优选终止位置和HBV优选终止位置。
[0390] 如表3中所示,HCC优选的和HBV优选的终止位置的数目都有所减少。HBV数据表明,大多数优选的终止位置是肝衍生的,并且它们的减少是由于手术后肝细胞质量的减少。因此,肝衍生的无细胞DNA分子向血浆中的释放减少。有趣的是,注意到手术前样品中有超过5倍的HCC优选终止位置在手术后消失。显示手术后消失的一些优选末端是肝衍生的。鉴于观察到在相同的手术前样品中检测到比HBV优选末端更多的HCC优选末端,表明这些末端中的
大多数是HCC特异性的并且不仅仅归类为肝相关的。
[0391] 许多应用可衍生自这些数据。数据指示无细胞DNA或血浆DNA优选末端的检测可用于癌症治疗监测。例如,优选末端的手术后减少指示成功手术去除HCC。如果没有完全或成功地去除肿瘤,则在手术后血浆DNA优选末端的量或数量将不显示显著减少。这是因为剩余的肿瘤或转移灶将是具有HCC优选终止位置的无细胞DNA或血浆DNA的持续释放的来源。数
据示出,基于无细胞DNA优选末端的分析的治疗监测可以在相对浅的测序深度实现。
[0392] 数据还显示,组织相关或癌症相关的血浆DNA优选的终止位置可用于鉴别病理学组织,包括携带癌症的组织。例如,可以使用衍生自不同器官的多个集合的无细胞DNA优选末端。然后,将能够确定源自各个组织的无细胞DNA的相对量。因此,这可以作为无细胞DNA组织去卷积的方法。通过该方法示出的与由对照样品建立的参考值具有最大偏差(显著增
加或显著减少)的组织将是具有病理学(例如炎症病毒感染,如在慢性乙型肝炎病毒携带
者中)或癌症的器官或组织。
[0393] 支持血浆DNA HCC优选末端的另一块证据是癌症或HCC特异性,我们研究了示出HCC优选的或HBV优选的末端的血浆DNA分子的大小谱(图52)。
[0394] 图52示出了在以HCC优选末端、HBV优选末端或共享末端终止的血浆DNA分子中检测到的短DNA(<150bp)的比例。图52示出了表现出HCC优选末端的血浆DNA分子通常比显示
出HBV优选末端的血浆DNA分子短得多(短DNA的比例高)。Jiang等人(Jiang等人Proc Natl 
Acad Sci U S A.2015;112:E1317-25)先前使用另一方法显示肿瘤衍生的血浆DNA分子短
于背景非肿瘤DNA。因为具有HCC优选末端的血浆DNA分子短得多,所以它们极有可能是肿瘤衍生的。因此,例如通过富集具有短DNA的样品,可以提高在更低测序深度下检测具有HCC优选末端的血浆DNA分子的几率。
4.基于窗口的终止率
[0395] 在另一实施方案中,HCC优选位置可以延伸以包括相邻核苷酸。图53A图示了该方法。将会确定终止于窗口A内的片段数目与终止于窗口B内的片段数目之间的基于窗口的
PETR(w-PETR)比率。可以调整窗口A和窗口B的大小以实现期望的表现。不同窗口大小的表
现可以通过实验获得。可以将窗口A的大小设定为例如但不限于5bp、6bp、7bp、8bp、9bp、
10bp、15bp、20bp、25bp和30bp。窗口B的大小将大于窗口A的大小,并且可以设定为例如但不限于20bp、25bp、30bp、40bp、50bp、60bp、70bp、80bp、100bp、120bp、140bp、160bp、180bp和
200bp。在下面的说明性实例中,窗口A和窗口B的大小分别设定为20bp和150bp。
[0396] 图53A示出了w-PETR的原理的图示。w-PETR的值被计算为终止于窗口A和窗口B内的DNA片段的数目之间的比率。窗口A较大,并且在实现标准PETR时可以是宽度1。显示窗口B较大。两个窗口都显示在优选的终止位置的中心,但可以使用窗口的其他定位。在一些实施方案中,窗口A可以对应于优选终止窗口。
[0397] 图53B示出了11名HCC患者中的肿瘤DNA分数与w-PETR值之间的相关性。这些结果表明,w-PETR将对于确定癌症患者的血浆中肿瘤衍生的DNA的量有用。
5.每个样品的最高终止位置的使用
[0398] 我们比较了来自怀孕女性、一名慢性乙型肝炎病毒携带者(HBV)、一名肺癌患者和两名HCC患者的数据中最常表示的100万个无细胞DNA终止位置。对于HCC患者,使用无PCR方案制备一个病例的测序文库(HCC),并使用基于PCR的方案制备另一样品HCC(PCR)。使用无
PCR方案制备所有其他样品。图54示出了当与脐带血浆样品比较时,在每个研究样品的血浆样品中检测到的通常共享的优选终止位置的比例(210x单倍体基因组覆盖率)。
[0399] 图54示出了当与脐带血浆样品比较时,在每个研究样品的血浆样品中检测到的通常共享的优选终止位置的比例(210x单倍体基因组覆盖率)。示出了使用PCR检测的怀孕、
HCC、HBV、肺癌和HCC中的每一种的常染色体的百分比。
[0400] 高水平的共性再次支持血浆DNA片段化不是随机过程的概念。HCC和HCC(PCR)数据显示优选的终止位置分析可以使用具有或不具有PCR的文库制备方案进行。有趣的是,注意到仍有一部分血浆DNA分子未示出共同的末端。非共同末端是代表样品的生理状态例如怀
孕、胎儿或胎盘的优选末端;或代表疾病状态,例如癌症。血浆DNA优选末端的更详细的比较示于图55中。
[0401] 图55示出了文氏图,其示出了在两个或更多个样品中共同观察到的优选终止位置的数目以及仅在任何一个样品中观察到的优选终止位置的数目。在175x单倍体基因组覆盖
率下对肺癌患者的血浆DNA进行测序。
[0402] 从图55中值得注意的是,115,305个优选末端在所有三个样品中是共同的。这些可能衍生自背景血浆DNA的主要来源,例如血细胞。该分析还示出,在HCC患者和肺癌患者的血浆样品中观察到61,035个优选的终止位置。这些优选末端可能是许多癌症共有的。因此,它们是癌症衍生的。然而,有些末端仅在HCC患者(479,766个末端)或肺癌患者(749,237个末
端)而非两者的血浆DNA分子中检测到。因此,这些优选的末端示出更高水平的特异性。它们对于特定癌症组织类型具有特异性。基于相同的基本原理,可能能够使用类似的挖掘策略
来鉴别对于特定器官的癌症和特定组织学类型的癌症具有特异性的末端。表现出不同类别
末端的血浆DNA分子可用于多种应用。例如,可以旨在检测HCC特异性或肺癌特异性末端以
直接检测或筛查特定癌症类型。可以使用HCC和肺癌样品共享的末端来检测或筛查癌症。可以使用最通用的共同末端作为分母,用于使检测到的疾病相关的优选末端的量归一化。还
可以检测通用的共同末端以筛查任何疾病的指征(如一般健康筛查)。这样的测试的阳性发
现结果可以作为拜访医疗从业者以获得更详细的研究的警报。
B.来自样品个体但在不同时间点收集的样品之间的优选终止位置的比较
[0403] 还可以通过比较在不同时间点收集的样品的片段末端来获得特定状况的优选终止位置。例如,在癌症患者中,可以在诊断时收集一个血浆样品,并且可以在治疗后(例如,在手术切除肿瘤后)收集另一样品。终止位置的差异可潜在地反映癌症衍生的DNA在后者中
的贡献或对癌症的身体反应的缺乏。在另一实例中,可以在胎儿分娩之前和之后采集的从
怀孕女性收集的血浆样品之间进行比较。
[0404] 在以下实例中,分析了从8名怀孕女性收集的血浆样品。对于每名怀孕女性,在分娩前收集血浆样品。在8名女性中的6名中,在分娩时收集了额外的血浆样品。在分娩后6小时从8名怀孕女性收集多个样品,并收集共28个分娩后血浆样品。将血浆DNA样品测序至
6.49x单倍体基因组覆盖率的平均深度。将在分娩前和分娩时收集的样品的测序读取汇集
在一起以供PETR分析,并且这些读取将被称为“分娩前读取”。将在分娩后6小时或之后收集的样品的测序读取汇集以供PETR分析,并且这些读取将被称为“分娩后”读取。为了鉴别怀孕的优选末端的核苷酸位置,检索“分娩前”读取中与“分娩后”读取相比高至少4倍的PETR位置。共鉴别了45,281个位点。
[0405] 招募了8名各自怀有男性胎儿的孕早期怀孕女性的独立队列,并对其血浆DNA进行测序。从这些血浆DNA样品获得了中值为2000万的测序读取。对于8名怀孕女性中的每一名,确定了45,281个位点的平均PETR值,并且这些值与根据与Y染色体比对的读取的比例估计
的血浆中的胎儿DNA分数相关联(Chiu等人BMJ 2011;342:c7401)。
[0406] 图56A示出了血浆中胎儿DNA分数与通过“分娩前”和“分娩后”血浆DNA样品之间的比较鉴别的位置集合上的平均PETR之间的相关性。这些结果表明,鉴别的位置集合对于胎儿衍生的DNA将会是优选的,并且PETR分析将对于定量母体血浆中的胎儿DNA有用。
[0407] 与先前描述的方法类似,我们已将w-PETR分析应用于该集合的怀孕优选位置。将窗口A和窗口B的大小分别设定为20bp和150bp。在其他实施方案中,可以使用其他窗口大
小。
[0408] 图56B示出了血浆中胎儿DNA分数与通过“分娩前”和“分娩后”血浆DNA样品之间的比较鉴别的位置集合上的平均w-PETR之间的相关性。这些结果表明,对这些怀孕优选位置的w-PETR分析将对于定量母体血浆中的胎儿DNA有用。
C.相同状况下的共同终止点
[0409] 我们比较了两名怀孕女性的血浆中前100万最常观察到的优选终止位置(图57A)。
[0410] 图57A示出了在怀孕18周(怀孕受试者1)和38周(怀孕受试者2)的两名怀孕女性中前100万最常观察到的血浆DNA优选终止位置。数据示出,这些女性共享217,947个优选末
端。鉴于两名女性均怀孕,因此这些末端衍生自胎儿、胎盘或在怀孕期间具有增加的细胞死亡(生成血浆DNA)的器官。因此,这些标志物对于监测怀孕或胎儿的健康是最有用的。
[0411] 我们计算了该样品集的PETR值。有趣的是,观察到两个母体血浆样品中血浆DNA分子的PETR值之间的相关性(皮尔森r=0.52,p值<0.0001)(图57B)。
[0412] 图57B示出了两名怀孕女性的血浆中前100万最常观察到的优选终止位置的PETR值的比较。高度相关性再次指示血浆DNA片段化是高度协调的。一些终止位点比其他位点更“优选”。有趣的是,即使在前100万个“最优选”位点中,也存在相对较宽的PETR的动态范围。
如果要选择用于靶向检测的几个优选末端或优选末端的子集,例如以检测疾病,应当选择
在感兴趣的疾病组中通常共享的,理想情况下在没有疾病的对照组中观察不到的或不太普
遍的,以及特别地终止于具有非常高的PETR的终止位置的优选末端。
VIII.使用组织特异性终止位置的方法
[0413] 图58是根据本发明的实施方案,分析生物样品以确定混合物中第一组织类型的比例贡献的分类的方法3600的流程图。生物样品包含来自包括第一组织类型在内的多种组织
类型的无细胞DNA分子的混合物。
[0414] 在框3610处,鉴别第一集合的基因组位置,在该基因组位置处第一组织类型的无细胞DNA分子的末端以高于阈值的比率出现。进一步关于框3610的细节在章节X.B中,进行
优选终止位置的鉴别的其他框也是如此。其他方法的其他框的细节也可见于章节X。
[0415] 在框3620处,分析来自受试者的生物样品的第一多个无细胞DNA分子。分析无细胞DNA分子包括确定对应于无细胞DNA分子的至少一个末端的参考基因组中的基因组位置。框
3620可以以与用于分析无细胞DNA分子的其他框(例如,框1320)类似的方式进行。
[0416] 在框3630处,确定第一数目的第一多个无细胞DNA分子终止于多个窗口中的一个内。基于第一多个无细胞DNA分子的分析进行确定。每个窗口包括第一集合的基因组位置中的至少一个。
[0417] 在框3640处,计算终止于多个窗口中的一个内的第一多个无细胞DNA分子的相对丰度。可以通过使用无细胞DNA分子的第二数目使第一多个无细胞DNA分子的第一数目归一
化来确定相对丰度。第二数目的无细胞DNA分子包括终止于第二集合的基因组位置的无细
胞DNA分子。在一些方面,第二集合的基因组位置可以在包括第一集合的基因组位置的多个窗口之外。
[0418] 如图49A所述,第二集合的基因组位置可以使得第二组织类型的无细胞DNA分子的末端以高于阈值的比率出现在至少一个额外样品中,其中第二组织类型在至少一个额外的
样品中具有多个第二组织特异性等位基因。可以使用包含多个第二组织特异性等位基因中
的至少一个的至少一个额外样品的无细胞DNA分子来确定第二集合的基因组位置。由于可
以从用于确定图49B的两个集合中排除集合G,因此在第一组织类型和第二组织类型之间具
有共享等位基因的无细胞DNA分子的末端以高于阈值的第二比率出现的基因组位置可从第
一组基因组位置排除并从第二组基因组位置排除。在一些方面,可以使用参考样品(例如,来自健康受试者的样品)确定第二集合的基因组位置。在一些方面,可以使用来自参考样品的无细胞DNA分子的终止位置的相对丰度来确定第二集合的基因组位置。在一个实例中,可以使用EBV DNA片段终止位置的相对丰度从来自疑似患有NPC的受试者的生物样品确定第
一集合的基因组位置,并且可以使用EBV DNA片段终止位置的相对丰度从参考(例如,对照)样品确定第二集合的基因组位置。在一些实施方案中,每个生物样品和参考样品中的EBV 
DNA可以衍生自相同的组织类型或不同的组织类型。
[0419] 在框3650处,通过将相对丰度与由第一组织类型的比例贡献已知的一个或多个校准样品确定的一个或多个校准值进行比较来确定第一组织类型的比例贡献的分类。
[0420] 如果比例贡献高,则可以进行进一步的行动,如对受试者进行治疗干预或成像(例如,如果第一组织类型对应于肿瘤)。例如,研究可以使用成像模式,例如可以对受试者(整个受试者或身体的特定部位(例如胸部或腹部),或特别是候选器官)进行计算机断层(CT)
扫描或磁共振成像(MRI),以确认或排除受试者中肿瘤的存在。如果确认肿瘤存在,则可以进行治疗,例如手术(通过刀或通过放射)或化疗。
[0421] 可以根据确定的癌症水平、鉴别的突变和/或起源组织提供治疗。例如,可以用特定药物或化疗靶向鉴别的突变(例如,对于多态性实现方案)。起源组织可用于指导手术或
任何其他形式的治疗。并且,癌症的水平可用于确定使用任何类型的治疗的攻击性,其也可以基于癌症的水平来确定。
IX.血浆中病毒DNA的分子特性
[0422] 病毒感染涉及许多病理状况。例如,EBV感染与NPC和自然杀伤(NK)T细胞淋巴瘤和传染性单核细胞增多症密切相关。HBV感染和丙型肝炎病毒(HCV)感染与发展HCC的风险增
加有关。在一些方面,本公开内容提供了用于通过分析循环病毒DNA的水平和分子特征来检测和区分与病毒感染相关的不同病况的方法。在一些情况下,甚至当受试者未展示给定的
病理状况时,这可以有利地提供使用来自受试者的无细胞样品对多种病理状况的检测或筛
查。在一些情况下,在治疗期间或之后,这还可以实现给定病理状况随时间的进展或消退的监测。例如,样品(例如,血浆或血清)中发现的病原体的核酸可以:(1)释放自肿瘤组织;(2)释放自非癌细胞,例如携带EBV的休眠B细胞;以及(3)包含在病毒体中。
A.EBV的浓度/比例以及与NPC的关系的分析
[0423] NPC的发病机制与EBV感染密切相关。在NPC的流行地区,例如中国南部,几乎所有NPC肿瘤组织都携带EBV基因组。在这方面,已经将血浆EBV DNA建立为NPC的生物标志物(Lo等人Cancer Res 1999;59:1188-91)。已经显示,血浆EBV DNA可用于在治愈性意向治疗后检测NPC受试者中的残留疾病(Lo等人Cancer Res 1999;59:5452-5,以及Chan等人J Natl Cancer Inst 2002;94:1614-9)。已显示NPC受试者中的血浆EBV DNA是小于200bp的短DNA
片段,并且因此不太可能衍生自完整的病毒体颗粒(Chan等人Cancer Res 2003,63:2028-
32)。
[0424] 为了研究血浆EBV DNA是否可用于筛查无症状个体中的早期NPC,我们使用血浆EBV DNA分析筛查了20,174名不具有NPC症状的受试者。具有可检测的血浆EBV DNA的受试
者在大约4周后通过随访的血浆EBV DNA分析进行再测试。通过鼻内窥镜检查和鼻咽的磁共
振成像(MRI)进一步研究在两个系列分析中具有持续阳性结果的受试者。在招募的20,174
名受试者中,1,112名在入选时对血浆EBV DNA呈阳性。其中309名在随访测试中呈持续阳
性。在对血浆中的EBV DNA呈持续阳性的受试者队列中,在用鼻内窥镜检查和MRI进行研究
后随后确认34名患有NPC。这些结果示出,具有初始阳性血浆EBV DNA结果的受试者的再测
试可以将NPC受试者与具有瞬时阳性结果的受试者区分开,并且显著降低需要更具侵入性
和昂贵的研究(即内窥镜检查和MRI)的受试者的比例。然而,血浆EBV DNA的连续测试需要
从具有初始阳性结果的受试者收集额外的血液样品,这可能带来后勤挑战。在本申请中,我们描述了用于基于血浆EBV DNA片段化模式的分析,用可检测的血浆EBV DNA区分NPC受试
者与非NPC受试者的方法。该方法也可应用于分析与病毒感染相关的其他类型的癌症。
[0425] 为了分析血浆中的无细胞病毒DNA,使用用特别设计的捕获探针进行捕获富集的靶向测序。这些捕获探针覆盖整个EBV基因组、整个HBV基因组、整个HPV基因组和人基因组中的多个基因组区域(包括chr1、chr2、chr3、chr5、chr8、chr15和chr22上的区域)。对于分析的每个血浆样品,使用QIAamp DSP DNA血液微量试剂盒从4mL血浆提取DNA。对于每种情
况,使用KAPA文库制备试剂盒将所有提取的DNA用于制备测序文库。使用KAPA PCR扩增试剂盒对测序文库进行12个PCR扩增循环。使用SEQCAP-EZ试剂盒(Nimblegen)捕获扩增产物,该试剂盒使用覆盖上述病毒和人基因组区域的定制设计的探针。在靶标捕获后,进行14个循
环的PCR扩增,并使用Illumina NextSeq平台对产物进行测序。对于每次测序运行,使用配对末端模式对具有独特样品条形码的四至六个样品进行测序。对每个DNA片段从两个末端
中的每一个测序75个核苷酸。测序后,测序的读取将被映射到人工组合的参考序列,该序列由整个人基因组(hg19)、整个EBV基因组、整个HBV基因组和整个HPV基因组组成。映射到组合基因组序列中的独特位置的测序读取将对于下游分析有用。独特映射的读取的中值数目
为5300万(范围:1500万~1.41亿)。
[0426] 表4
[0427] 表4示出了分析的不同类型样品的数目。在初步分析(队列1)中,从鼻喉(ENT)诊所招募6名表现出与NPC相容的症状(包括颈部肿块、听力丧失和鼻出血)的受试者。队列1中的NPC受试者患有晚期疾病。我们确定通过实时PCR和大规模平行测序来确定的血浆EBV 
DNA浓度是否将对于区分NPC受试者与具有假阳性血浆EBV DNA的未患有癌症的受试者有
用。
[0428] 图59A示出了通过实时PCR测量的不同受试者组的血浆EBV DNA浓度。如图59A所示,与具有可检测的血浆EBV DNA但没有任何可观察的病理学的受试者相比,患有NPC、淋巴瘤和传染性单核细胞增多症的受试者中的血浆EBV DNA浓度更高。如图59B所示,对于在入
选时具有可检测的血浆EBV DNA但没有任何可观察的病理学的受试者,与在随访测试中变
为阴性(即具有瞬时可检测的血浆EBV DNA)的受试者相比,具有持续阳性结果的受试者中
入选时测量的血浆EBV DNA浓度更高(p=0.0022,Mann-Whitney检验)。
[0429] 图60A和图60B示出了在针对不同受试者组的血浆中,映射到EBV基因组的测序血浆DNA片段的比例。如图60A所示,在靶标捕获后使用大规模平行测序,与在入选时具有可检测的血浆EBV DNA但没有任何可观察的病理学的受试者相比,患有NPC、淋巴瘤和传染性单
核细胞增多症的受试者中独特地映射到EBV基因组的读取的比例更高。如图60B所示,对于
在入选时具有可检测的血浆EBV DNA但没有任何可观察的病理学的受试者,与在随访测试
中变为阴性(即具有瞬时可检测的血浆EBV DNA)的受试者相比,具有持续阳性结果的受试
者中在入选时测量的映射到EBV基因组的读取的比例更高(p=0.0022,Mann-Whitney检
验)。与使用实时PCR测量的血浆EBV DNA浓度相比,使用独特映射到EBV基因组的读取比例
的测量的具有瞬时与持续阳性结果的受试者之间的差异更大(19.3倍与1.7倍)。
[0430] 升高的血浆EBV DNA与NPC相关。先前的研究比较了NPC病例和对血浆EBV DNA大多呈阴性的健康对照。图59A、图59B、图60A和图60B提供了NPC病例与对于血浆EBV DNA呈假阳性的非NPC病例之间的定量比较。下文描述的技术允许在区分具有病理学的受试者与没有
病理学的受试者方面提高准确性,从而减少假阳性。在EBV DNA的背景下,术语“假阳性”可以意指受试者具有可检测的血浆EBV DNA,但受试者未患有鼻咽癌(与病原体相关的病理学
的实例)。血浆EBV DNA的存在是正确的,但相关病理学(例如,NPC)的鉴别可能是错误的。
B.EBV DNA片段的大小分析
[0431] 图61示出了正常受试者和6名患有NPC的受试者(TBR1344、TBR1358、TBR1360、TBR1378、TBR1379和TBR1390)中EBV DNA片段的大小分布。使用配对末端测序,基于测序的EBV DNA片段的两个末端中的每个上的最外侧核苷酸的坐标推导出每个血浆EBV DNA片段
的大小。示出了NPC受试者和没有可观察的病理学的受试者的血浆EBV DNA片段的大小谱。
将来自该组的所有病例的测序的EBV DNA片段汇集在一起以对这些受试者的聚集大小谱进
行作图。没有任何可观察病理学的受试者的血浆EBV DNA大小分布在NPC受试者的大小分布
图的左侧,从而表明与NPC受试者相比,没有任何可观察病理学的受试者中测序的血浆EBV DNA片段的大小分布更短。这些结果表明,通过大规模平行测序分析测量的血浆EBV DNA片
段的大小谱可用于区分患有NPC的受试者与假阳性血浆EBV DNA结果。在先前的研究中,已
经现实血浆EBV DNA是NPC受试者中的短片段(Chan等人Cancer Res.2003;63:2028-32)。然而,在先前的研究中,没有提供关于患有NPC的受试者与具有假阳性血浆EBV DNA结果的受
试者之间的血浆EBV DNA片段的大小分布的差异的信息。
[0432] 图62示出了患有NPC的6名受试者(TBR1344、TBR1358、TBR1360、TBR1378、TBR1379和TBR1390)中映射到EBV基因组和人基因组的测序血浆DNA片段的大小分布。对于每个受试者,血浆EBV DNA片段的大小分布短于映射到人基因组的片段的大小分布。该观察结果与与先前报告的发现一致,即衍生自肿瘤细胞的血浆DNA的大小分布短于衍生自非肿瘤细胞的
DNA片段(Jiang等人Proc Natl Acad Sci U S A.2015;112:E1317-25),因为NPC受试者中
的血浆EBV DNA片段衍生自肿瘤细胞(Chan等人Clin Chem.2005;51:2192-5),并且映射到
人基因组的血浆DNA片段衍生自肿瘤和非肿瘤细胞两者。
[0433] 图63示出了患有淋巴瘤的3名受试者(TBR1332、TBR1333和TBR1551)中映射到EBV基因组和人基因组的测序血浆DNA片段的大小分布。对于三名淋巴瘤受试者中的每一名,血浆EBV DNA片段的大小分布短于映射到人基因组的片段的大小分布。
[0434] 图64示出了6名对照受试者(AP080、BP065、EN086、BH035、FF159和GC038)中映射到EBV基因组和人基因组的测序血浆DNA片段的大小分布。对于具有假阳性血浆EBV DNA但不具有可观察的病理学的14名受试者中的每一名,测序的血浆EBV DNA的大小分布短于映射
到人基因组的片段。该观察结果令人惊讶,因为通常认为非癌症受试者中的EBV DNA片段与病毒颗粒相关,并且预期血浆中存在高分子量片段。未观察到那些高分子量EBV DNA片段的一种可能解释是可能无法使用我们的大规模平行测序方案检测到它们。在我们的实验中,
使用Illumina平台进行大规模平行测序。由于该方法需要将测序接头连接到待测序的DNA
片段的末端,因此可能不会扩增并测序>1kb的高分子量DNA。尽管如此,有趣的是,发现在该组受试者中存在短EBV DNA片段。
[0435] 图65示出了低于150bp的测序血浆EBV DNA片段的百分比。当与具有瞬时阳性或持续可检测的血浆EBV DNA但不具有可观察的病理学的受试者相比时,患有NPC、淋巴瘤和传
染性单核细胞增多症的受试者中低于150bp的EBV DNA片段的比例较低。这些结果表明,对
测序的血浆EBV DNA片段的大小的分析可用于区分患有癌症的受试者与不具有任何可观察
的病理学的受试者。
[0436] 应当理解,大小阈值(例如,图65中的150bp)可以是任何值。大小阈值可以是至少约10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、110bp、120bp、130bp、140bp、
150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp或大于250bp。
例如,大小阈值可以是150bp。在另一实例中,大小阈值可以是180bp。在一些实施方案中,可以使用上限和下限大小阈值(例如,值的范围)。在一些实施方案中,可以使用上限和下限大小阈值来选择长度在上限和下限截止值之间的核酸片段。在一些实施方案中,上限和下限
截止值可用于选择长度大于上限截止值和小于下限大小阈值的核酸片段。
1.各种统计值
[0437] 可以确定核酸片段的大小分布的各种统计值。例如,可以使用大小分布的均值、众数、中值或平均值。可以使用其他统计值,例如,给定大小的累积频率或不同大小的核酸片段的量的各种比率。累积频率可以对应于给定大小或小于给定大小或大于给定大小的DNA片段的比例(例如,百分比)。统计值提供关于核酸片段大小分布的信息,用于与一个或多个截止值进行比较,以确定病原体引起的病理学水平。截止值可以使用健康受试者、已知具有一种或多种病理学的受试者、对于与病原体相关的病理学呈假阳性的受试者和本文提及的
其他受试者的队列来确定。本领域技术人员将知道如何基于本文的描述确定这样的截止
值,例如,参考描绘于图65中的数据。
[0438] 为了进行基于大小的分析,实施方案可以计算位于病原体的参考基因组中的核酸分子的大小的第一统计值(例如,通过将序列读取与参考基因组比对或使用探针)。在一个
实施方案中,第一统计值可以由位于一个或多个特定区域(例如,与优选的终止位置相关的区域)或整个参考基因组的核酸分子确定。可以将第一统计值与截止值进行比较以确定病
理学水平。
[0439] 在一些实施方案中,可以将病原体片段的大小的第一统计值与来自人基因组的大小的参考统计值进行比较。例如,可以在第一统计值与参考统计值之间确定分离值(例如,差异或比率),例如,由病原体参考基因组中的其他区域确定或由人核酸确定。分离值也可以由其他值确定。例如,可以由多个区域的统计值确定参考值。可以将分离值与大小阈值进行比较以获得大小分类(例如,DNA片段是否短于、长于或与正常区域相同)。
[0440] 一些实施方案可使用以下等式计算参数(分离值),其可以定义为参考病原体基因组与参考人基因组之间的短DNA片段的比例的差异:
ΔF=P(≤150bp)测试-P(≤150bp)参考
其中P(≤150bp)测试表示源自测试区域的大小≤150bp的测序片段的比例,并且P(≤
150bp)参考表示源自参考区域的大小≤150bp的测序片段的比例。在其他实施方案中,可以使用其他大小阈值,例如但不限于100bp、110bp、120bp、130bp、140bp、160bp和166bp。在其他实施方案中,大小阈值可以以碱基、核苷酸或其他单位表示。
[0441] 可以使用对照受试者的DF的平均值和SD值来计算基于大小的z评分。
[0442] 在一些实施方案中,基于大小的z评分>3指示病原体的短片段的比例增加,而基于大小的z评分<-3指示病原体的短片段的比例减少。可以使用其他大小阈值。基于大小的方
法的进一步细节可见于美国专利号8,620,593和8,741,811以及美国专利公开2013/
0237431,所有这些通过引用整体并入本文。
[0443] 为了确定核酸片段的大小,至少一些实施方案可以与其中可以分析分子的染色体起源和长度的任何单分子分析平台一起工作,该平台例如,电泳、光学方法(例如光学映射及其变体,en.wikipedia.org/wiki/Optical_mapping#cite_note-Nanocoding-3和Jo等人
Proc Natl Acad Sci USA 2007;104:2673-2678)、基于荧光的方法、基于探针的方法、数字PCR(基于微流体或基于乳液,例如BEAMing(Dressman等人Proc Natl Acad Sci USA 2003;
100:8817-8822)、RainDance(www.raindancetech.com/technology/pcr-genomics-
research.asp))、滚环扩增、质谱、熔解分析(或熔解曲线分析)、分子筛等。作为质谱的实例,较长的分子会有更大的质量(大小值的实例)。
[0444] 在一个实例中,可以使用配对末端测序方案对核酸分子进行随机测序。两个末端的两个读取可以被映射(比对)到参考基因组,其可以被重复掩蔽(例如,当与人基因组比对时)。DNA分子的大小可以由两个读取所映射的基因组位置之间的距离确定。
2.方法
[0445] 根据一个实施方案,方法分析包含无细胞核酸分子的混合物的生物样品,以确定生物样品从其获得的受试者的病理学水平。混合物包含来自受试者的核酸分子和潜在的来
自病原体的核酸分子。该方法的部分可以由计算机系统执行。
[0446] 在框1处,测量生物样品中多个核酸分子的大小。可以通过任何合适的方法例如上述方法测量测定。
[0447] 在框2处,确定核酸分子是否来自对应于病原体的参考基因组。作为实例,可以通过测序和比对或使用对应于参考基因组的探针来确定核酸分子在参考基因组中的位置。
[0448] 在框3处,确定来自参考基因组的多个核酸分子的大小分布的统计值。小于大小阈值的片段的累积频率是统计值的实例。统计值可以提供总体大小分布的量度,例如小片段
的量相对较大片段的量。在另一实施方案中,统计值可以是以下的比率:(1)在第一大小范围内的来自参考基因组的生物样品中的多个核酸分子的第一量以及(2)在不同于该第一大
小范围的第二大小范围内的来自参考基因组的生物样品中的多个核酸分子的第二量。例
如,第一范围可以是低于第一大小阈值的片段,并且第二大小范围可以是高于第二大小阈
值的片段。两个范围可以重叠,例如,当第二大小范围是所有大小时。
[0449] 在框4处,通过针对一个或多个截止值处理统计值来确定受试者中的病理学水平。例如,可以将低于大小阈值(例如,150)的片段的百分比与截止值进行比较,以确定该比率是否低于截止值。在图65中,截止值可以是约45,以区分对EBV呈持续阳性但无病理学(或甚至呈瞬时阳性)的受试者与患有NPC、淋巴瘤或传染性单核细胞增多症的受试者。
C.EBV DNA片段终止位置的频率
[0450] 图66示出了对于具有持续假阳性血浆EBV DNA且不具有可观察的病理学的4名受试者以及6名NPC受试者,终止于EBV基因组中的每个核苷酸上的血浆EBV DNA片段的频率。
由于在具有瞬时可检测的血浆EBV DNA的受试者中血浆EBV DNA片段的数目非常少,因此这
里未示出它们作为实例。y轴是终止于特定核苷酸上的血浆EBV DNA片段的数目,并且x轴是EBV基因组中的基因组坐标。
[0451] 我们观察到终止位置的分布在具有假阳性结果但不具有可观察的病理学的受试者与NPC受试者之间不同。例如,在无任何病理学的受试者中更多血浆EBV DNA片段终止于
位于区域A内的位置上,而在NPC受试者中更多血浆EBV DNA片段终止于位于区域B内的位置
上。在EBV基因组中具有重复元件的区域中,测序的血浆EBV DNA片段不能映射到EBV基因组中的独特位置。因此,不存在终止于EBV基因组中具有重复的区域内的独特可比对的测序读取。
[0452] 这些结果表明,血浆EBV DNA片段在EBV基因组上的终止位置的分析可用于区分具有假阳性结果但无病理学的受试者与NPC受试者。终止位置的分析可以通过但不限于非靶
向大规模平行测序或单分子测序、靶标富集后的大规模平行测序或单分子测序、扩增子测
序、实时PCR、数字PCR、反向PCR和锚定PCR。对于扩增子测序、实时PCR和数字PCR,一个实施方案具有覆盖特定终止位置的引物或探针。
[0453] 可以在有或没有扩增的情况下进行分析。对于基于扩增的方法,与特定末端位置互补的寡核苷酸可用于富集信息性末端(例如,具有特定末端基序的核酸片段)。阳性扩增
可以解释为指示存在这样的信息性末端。或者,可以在扩增产物之后进行额外步骤以鉴别
或确认存在信息性末端。用于检测或确认存在信息性末端的方法可包括以下任一种杂交方
法但不限于此:如寡核苷酸探针、抗体探针、微测序、直接测序、大规模平行测序、单分子测序、质谱、基于连接的测定。这样的检测或确认方法可应用于基于非扩增的方法。用于检测信息性末端的基于扩增和非扩增的方法的之前或之后可以是基于杂交的方法,以用病毒
DNA序列富集样品。基于扩增的方法可用于用病毒DNA序列富集样品。
[0454] 为了证明终止位置与疾病状况的关联,我们随机选择了一名具有持续可检测的血浆EBV DNA但无病理学的受试者和一名NPC受试者用于挖掘频繁的终止位置。对于两种病
例,我们以终止于EBV基因组坐标上的血浆EBV DNA片段的数目递减对该EBV基因组的坐标
进行排名。对于这样的分析,将具有最大数目的片段终止于其上的EBV基因组的坐标排在第
1位。
[0455] 出于说明目的,为两种病例中的每一个选择排在前400中的坐标。在其他实施方案中,可以选择不同编号的排名靠前的坐标以供分析。例如,可以选择排在前100、前200、前
300、前500、前600、前800和前1000的坐标。在又一实施方案中,可以选择具有相同疾病状态的受试者(例如患有NPC的受试者)共享的排名靠前的坐标。在又一实施方案中,可以使用在某些疾病状态中具有显著更高的概率作为血浆EBV DNA的终止位置的坐标的概率。p值的阈
值的实例包括但不限于0.1、0.05、0.01、0.005、0.001和0.0001。在一个实施方案中,可以使用由显著比例的具有相同疾病状态的受试者共享的排名靠前的位置。在又一实施方案中,
可以将具有相同疾病状态的不同受试者的排名靠前的位置安排在一起。在又一实施方案
中,较大比例的受试者共享的排名靠前的位置可以被给予较大的权重,并且较小比例的受
试者共享的排名靠前的位置可以被给予较小的权重,从而可以计算加权评分。
[0456] 图67示出了文氏图,其描绘了(A)对不具有可观察的病理学的受试者具有特异性的优选终止位置的数目(例如,383),(B)对患有NPC的受试者具有特异性的优选终止位置的数目(例如,383),以及(C)两组受试者共享的优选终止位置(例如,17)。在具有假阳性EBV DNA的受试者中排在前500内但未在NPC受试者中排名靠前的坐标表示为集合A位置。在NPC
受试者中排在前500内但未在具有假阳性血浆EBV DNA结果的受试者中排名靠前的坐标表
示为集合B位置。在两种病例下排在前400内的坐标表示为集合C位置。仅有4.25%的共同的终止位置是两种病例共享的。
[0457] 为了证明具有相同疾病状态(例如,患有NPC)的受试者是否将在EBV基因组中共享相同的优选终止位置,我们计算了具有持续可检测的血浆EBV DNA但无病理学的八名受试
者与五名NPC受试者的集合A和集合B坐标上的片段的百分比。从其确定这些坐标的两名受
试者未包含在该分析中。
[0458] 图68示出了热图,其描绘了不具有可观察的病理学的受试者和NPC受试者终止于集合A位置或集合B位置上的片段的百分比。描绘了8名不具有可观察的病理学的受试者(左
8列;C1-C8)和5名NPC受试者(右5列;NPC1-NPC5)的热图。NPC受试者中终止于集合A终止位置的核酸片段的丰度相对小于NPC受试者中终止于集合B终止位置的核酸片段。每行代表特
定的位置,并且每行代表一名受试者。较暗的颜色(蓝色)指示终止于该特定位置的EBV DNA片段的高百分比。与无病理学的受试者相比,五名NPC受试者具有更高百分比的血浆EBV 
DNA片段终止于集合B位置(来自另一NPC受试者的频繁终止位置)。相比之下,与NPC受试者
相比,无病理学的受试者具有更高百分比的血浆EBV DNA片段终止于集合A位置(来自具有
可检测的血浆EBV DNA但不具有可观察的病理学的另一受试者的频繁终止位置)。这些结果
表明排名靠前的终止位置由具有相同疾病状态的受试者共享。
[0459] 由于具有相同疾病状态的受试者共享排名靠前的终止位置,因此我们研究了具有可检测血浆EBV DNA的受试者中血浆EBV DNA的终止位置是否可用于指示疾病状态,例如以
区分NPC受试者与不具有可观察的病理学的受试者。
[0460] 为了证明该方法的可行性,我们首先确定了终止于集合A和集合B位置的测序血浆EBV DNA片段的数目。然后我们将B/A比率计算为:
[0461] 对于具有瞬时阳性血浆EBV DNA但不具有可观察的病理学的五名受试者,与EBV基因组独特比对的可映射血浆DNA片段的数目非常小。这些样品可以与收集自NPC受试者、淋
巴瘤受试者和具有传染性单核细胞增多症的受试者的样品完全区分。对于所有五名受试
者,测序的血浆EBV DNA片段不终止于任何集合A和集合B位置。
[0462] 图69示出对于不同的受试者组,终止于集合B位置的片段数目除以终止于集合A位置的片段数目的比率(例如,B/A比率)。对于具有持续可检测的血浆EBV DNA的受试者,无病理学的受试者的B/A比率显著低于NPC受试者(P<0.001,Mann-Whitney检验)和淋巴瘤受试
者(P<0.01,Mann-Whitney检验)。具有传染性单核细胞增多症的受试者的B/A比率高于具有持续可检测的血浆EBV DNA但不具有病理学的所有受试者。这些结果表明,终止于针对不同疾病优选的位置的血浆EBV DNA片段的比例可用于鉴别所测试的受试者的疾病状态。
[0463] 在一些实施方案中,当集合(例如,集合A或集合B)具有高于随机片段化所预期的概率时,可以鉴别集合(例如,集合A或集合B)的终止位置。在其他实施方案中,真实病理学患者(例如,NPC)中的病原体基因组(例如,EBV DNA)中最常见的终止位置可被鉴别为集合
B,并且假阳性患者(或不具有病理学的其他受试者)的最常见的终止位置可被鉴别为集合
A。可以使用各个组的非重叠集合。可以在进行或不进行归一化的情况下以多种方式量化终止位置集合处的片段的量。
1.方法
[0464] 根据一个实施方案,方法分析包含无细胞核酸分子的混合物的生物样品,以确定生物样品从其获得的受试者的病理学水平。混合物包含来自受试者的核酸分子和潜在的来
自病原体的核酸分子。该方法的部分可以由计算机系统执行。
[0465] 在框11处,分析来自受试者的生物样品的第一多个无细胞核酸分子。分析可以包括确定对应于第一多个无细胞核酸分子的至少一端的参考基因组中的基因组位置,其中参
考基因组对应于所述病原体。
[0466] 在框12处,确定终止于第一窗口中的一个内的第一多个无细胞核酸分子的第一数目。每个第一窗口包含第一集合基因组位置中的至少一个,在该第一集合的基因组位置处
无细胞核酸分子的末端在具有与病原体相关的病理学的受试者中以高于第一阈值的比率
存在。
[0467] 在框13处,通过使用来自生物样品的第一多个无细胞核酸分子的第二量对第一量进行归一化来计算终止于第一窗口中的一个内的第一多个无细胞核酸分子的相对丰度。无
细胞核酸分子的第二量可以包括终止于包含第一集合的基因组位置的第一窗口之外的第
二集合的基因组位置的无细胞核酸分子。
[0468] 作为实例,相对丰度可以是B/A比率。
[0469] 在框14处,通过针对一个或多个截止值处理相对丰度来确定受试者中的病理学水平。例如,可以将B/A比率与截止值进行比较,以确定该比率是否高于截止值。在图69中,截止值可以是约1.7,以区分对EBV呈持续阳性但无病理学的受试者与患有NPC、淋巴瘤或传染性单核细胞增多症的受试者。
D.各种技术的预测值的比较
[0470] 图70示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和NPC受试者(右)的通过实时PCR测量的血浆EBV DNA浓度。在证明测序的血浆EBV DNA片段的
大小和B/A比率可用于区分NPC受试者与具有假阳性血浆EBV DNA的受试者之后,我们用独
立队列(队列2)进一步验证了这些结果。通过筛查20,174名无症状受试者鉴别的34名NPC受
试者中的五名包括在该验证分析中。这5名受试者在参加研究时无症状。他们的血浆样品对EBV DNA呈持续阳性,并随后通过内窥镜检查和MRI证实了NPC。这5个无症状的NPC病例处于早期,与在介绍给ENT诊所的具有症状并被诊断为晚期NPC的队列1中的6名NPC受试者不同。
如上所述,在靶标富集后对血浆样品进行测序。对于队列2中的五名NPC受试者,虽然他们的血浆样品对EBV DNA呈持续阳性,但与基于实时PCR分析具有假阳性血浆EBV DNA结果的9名
受试者相比,EBV DNA浓度未显示显著差异(P=0.7,Mann-Whitney检验)。已知血浆EBV DNA浓度与NPC的阶段相关。因此,早期NPC受试者具有较低水平的血浆EBV DNA并不出乎意料。
[0471] 图71示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和NPC受试者(右)的血浆中映射到EBV基因组的读取的比例。映射到EBV基因组的测序血浆DNA
读取的比例在假阳性病例与队列2NPC病例之间没有显著差异。这些数据显示,图70和图71
中所示的方法在区分假阳性与早期NPC方面效果不佳。
[0472] 图72示出了通过对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和NPC受试者(右)的血浆中低于150个碱基对(bp)的EBV DNA片段的百分比。虽然映射
到EBV基因组的测序血浆DNA读取的比例在假阳性病例与队列2NPC病例之间没有显著差异,
但队列2NPC受试者示出相比于具有假阳性结果的受试者显著较低的短血浆EBV DNA片段的
比例(P=0.02,Mann-Whitney检验)。这些结果支持可测序血浆EBV DNA的大小分析可用于
区分NPC受试者与具有假阳性血浆EBV DNA结果的受试者,即使当两组的血浆EBV DNA浓度
相似时也是如此。
[0473] 图73示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和NPC受试者(右)的B/A比率。两组的B/A比率也显著不同(P=0.001,Mann-Whitney检验)。由于使用独立的NPC受试者组确定集合B中的优选终止位置,因此这些结果表明,无论血浆EBV DNA浓度如何,优选的终止位置在不同的NPC受试者之间共享。
[0474] 图74示出了对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(实心圆)和NPC受试者(空心圆)的B/A比率与血浆中低于150bp的EBV DNA片段的百分比的散点
图。基于<150bp的测序血浆EBV DNA片段的百分比和B/A比率,可以将NPC受试者与具有假阳性血浆EBV DNA结果的受试者区分开。使用这两个参数,仅有一名具有假阳性结果的受试者与NPC受试者聚集在一起。
[0475] 图75示出了对血浆EBV DNA呈瞬时阳性(n=803)或呈持续阳性(n=275)但不具有可观察的病理学的受试者(分别为左或中)和被鉴别为患有NPC的受试者(n=34)的血浆中
EBV DNA片段的浓度(拷贝/毫升)的盒须图。通过实时PCR分析测量EBV DNA片段的浓度(拷
贝/毫升)。
[0476] 图76A示出了在对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者中通过实时PCR测量的血浆EBV 
DNA浓度(拷贝/毫升)。在该72名受试者的队列中,在不同受试者组之间通过实时PCR测量的血浆EBV DNA浓度没有统计上显著的差异(p值=0.19;Kruskal-Wallis检验)。在一些情况
下,在初始测定(例如,qPCR测定)后筛查病况(例如肿瘤,例如NPC)的测定可以包括使用大规模平行测序以评估映射到EBV参考基因组的来自样品的序列读取的比例。图76B示出了在
对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者(分别为左或
中)以及被鉴别为患有NPC的受试者中映射到EBV基因组的血浆DNA片段的比例。在靶向捕获
和DNA片段测序后使用大规模平行测序,从所有测序读取中独特映射到EBV基因组的读取的
比例推导得出,EBV数量存在统计上显著的差异(p值=0.01;Kruskal-Wallis检验)。在一个实施方案中,可以将映射到EBV基因组的血浆DNA片段的比例的截止值确定为低于所分析的
NPC患者的最低比例的任何值。在图76B中,可以设定0.0009%的截止值以捕获所有NPC患
者。在其他实施方案中,可以通过例如但不限于NPC患者的平均比例减去一个标准偏差
(SD)、平均值减去2SD以及平均值减去3SD来确定截止值。在另外其他的实施方案中,可以在将映射到EBV基因组的血浆DNA片段的比例进行对数转换后确定截止值,例如但不限于在
NPC患者的值进行对数转换后用平均值减去SD、平均值减去2SD、平均值减去3SD。在另外其他的实施方案中,可以使用接受者操作特征(ROC)曲线或通过非参数方法来确定截止值,例如但不限于包括所分析的NPC患者中的约100%、约95%、约90%、约85%或约80%。通过对所有测序读取的血浆EBV DNA片段的比例应用0.0009%的截止值,能够区分患有NPC和具有
持续阳性血浆EBV DNA的受试者与具有瞬时阳性血浆EBV DNA结果的大多数受试者。血浆中
EBV读取的比例在患有NPC的受试者的组中最高。与在随访测试中将会变为阴性的受试者
(即具有瞬时可检测的血浆EBV DNA)相比,在具有持续阳性结果的受试者中入选时测量的
血浆EBV DNA片段的比例更高。在一些实施方案中,所有测序读取中血浆EBV DNA读取比例
的截止值可以大于0.00001%、大于0.00005%、大于0.0001%、大于0.0002%、大于
0.0003%、大于0.0004%、大于0.0005%、大于0.0006%、大于0.0007%、大于0.0008%、大于0.0009%、大于0.001%、大于0.002%、大于0.003%、大于0.004%、大于0.005%、大于
0.01%、大于0.1%或大于1%。
[0477] 在一些情况下,用于在初始测定(例如,qPCR测定)后筛查病况(例如肿瘤,例如NPC)的测定可以包括使用大规模平行测序来评估样品中无细胞EBV核酸的大小。图77示出
了患有NPC的受试者(左)和对血浆EBV DNA呈持续阳性的受试者(右)中映射到EBV基因组和
人基因组的测序血浆DNA片段的大小谱。观察到与EBV基因组比对的血浆EBV DNA片段和与
常染色体基因组(例如,参考)比对的血浆EBV DNA片段的大小谱模式的差异;这些差异用于区分患有NPC的受试者与具有假阳性血浆EBV DNA结果的受试者。片段的大规模平行测序导
致靶标捕获和PCR效率的变化。这些变化导致测序血浆DNA的大小谱模式的个体间变化。为
了比较个体中一定大小范围(例如,80至110个碱基对)内的血浆EBV DNA读取的比例,将血
浆EBV DNA片段的量相对于在相同大小范围内的常染色体DNA片段的量进行归一化。该度量
表示为大小比率。可以通过在一定大小范围内的血浆EBV DNA片段的比例除以在对应大小
范围内的常染色体(例如,常染色体DNA片段)的比例来定义大小比率。例如,80至110个碱基对的片段的大小比率将会是:
[0478] 图78示出了在对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者中长度为80至110个碱基对的血
浆EBV DNA片段与长度为80至110个碱基对的常染色体DNA片段的大小比率。通过确定80至
110个碱基对的片段的大小比率(例如,在一定大小范围内的血浆EBV DNA片段的比例除以
在对应大小范围内的常染色体DNA片段的比例),我们可以观察到患有NPC的受试者与具有
假阳性血浆EBV DNA结果的受试者之间的统计上显著的差异(p值<0.0001;Mann-Whitney U
检验)。与具有假阳性血浆EBV DNA结果的受试者相比,患有NPC的受试者在80至110bp大小
范围内具有较小的大小比率。因此,与具有瞬时阳性或持续阳性血浆EBV结果的受试者相
比,患有NPC的患者在所有测序的EBV读取中在80至110bp的大小范围内具有较低比例的血
浆EBV读取。可以使用任何核酸片段大小或大小范围来确定大小比率。在一个实例中,大小比率可以是具有长度在50-75个碱基对内的大小的EBV DNA片段的比例与具有长度在50-75
个碱基对内的大小的常染色体DNA片段的比例的比率。在另一实例中,大小比率可以是具有长度在60-90个碱基对内的大小的EBV DNA片段的比例与具有长度在60-90个碱基对内的大
小的常染色体DNA片段的比例的比率。在另一实例中,大小比率可以是具有长度在70-100个碱基对内的大小的EBV DNA片段的比例与具有长度在70-100个碱基对内的大小的常染色体
DNA片段的比例的比率。在又一实例中,大小比率可以是具有长度在90-120个碱基对内的大小的EBV DNA片段的比例与具有长度在90-120个碱基对内的大小的常染色体DNA片段的比
例的比率。在又一实例中,大小比率可以是具有长度在120-150个碱基对内的大小的EBV 
DNA片段的比例与具有长度在120-150个碱基对内的大小的常染色体DNA片段的比例的比
率。在又一实例中,大小比率可以是具有长度在150-180个碱基对内的大小的EBV DNA片段
的比例与具有长度在150-180个碱基对内的大小的常染色体DNA片段的比例的比率。在又一
实例中,大小比率可以是具有长度在180-210个碱基对内的大小的EBV DNA片段的比例与具
有长度在180-210个碱基对内的大小的常染色体DNA片段的比例的比率。在又一实例中,大
小比率可以是具有长度为约95个碱基对的大小的EBV DNA片段的比例与具有长度为约95个
碱基对的大小的常染色体DNA片段的比例的比率。在一些实施方案中,用于确定大小比率的EBV DNA片段的大小范围和常染色体DNA片段的大小范围可以是不同的。例如,大小比率可
以是具有长度为约80-110个碱基对的大小的EBV DNA片段的比例与具有长度为约120-150
个碱基对的大小的常染色体DNA片段的比例的比率。在另一实例中,大小比率可以是具有长度在80-110个碱基对内的大小的EBV DNA片段的比例与具有长度为约105个碱基对的大小
的常染色体DNA片段的比例的比率。在一些实施方案中,用于确定大小比率的DNA片段的大
小的截止值可以是5个碱基对、10个碱基对、15个碱基对、20个碱基对、25个碱基对、30个碱基对、35个碱基对、40个碱基对、45个碱基对、50个碱基对、55个碱基对、60个碱基对、65个碱基对、70个碱基对、75个碱基对、80个碱基对、85个碱基对、90个碱基对、95个碱基对、100个碱基对、105个碱基对、110个碱基对、115个碱基对、120个碱基对、125个碱基对、130个碱基对、135个碱基对、140个碱基对、145个碱基对、150个碱基对、155个碱基对、160个碱基对、
165个碱基对、170个碱基对、175个碱基对、180个碱基对、185个碱基对、190个碱基对、195个碱基对、200个碱基对、210个碱基对、220个碱基对、230个碱基对、240个碱基对、250个碱基对或其任何两个大小内的大小范围。在一些实施方案中,大小比率的截止值可用于确定受
试者是否具有病况(例如,NPC)、对于病况为假阳性或者不具有病况。例如,与具有假阳性血浆EBV DNA结果的受试者相比,患有NPC的受试者在80至110bp大小范围内具有较小的大小
比率。在一些实施方案中,大小比率的截止值可为约0.1、约0.5、约1、约2、约3、约4、约5、约
6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约
50、约100或大于约100。在一些实施方案中,在截止值处和/或低于截止值的大小比率可以指示具有病况(例如,NPC)。在一些实施方案中,在截止值处和/或高于截止值的大小比率可以指示具有病况(例如,NPC)。
[0479] 图79示出了在对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者(分别为左或中)以及被鉴别为患有NPC的受试者中的大小指数(例如,大小比率的
倒数)。大小指数可定义为大小比率的倒数,并且大小比率定义为在一定大小范围内的血浆EBV DNA片段的比例除以对应大小范围内的常染色体DNA片段的比例。基于血浆EBV DNA读
取的大小谱的差异区分患有NPC的受试者与具有持续阳性血浆EBV DNA的受试者。使用大小
比率为7的截止值(例如,大小指数大于0.14),区分患有NPC的受试者与具有持续阳性血浆
EBV DNA的大多数受试者。灰点代表所有测序读取中血浆EBV DNA读取的比例大于0.0009%
的情况(参见例如,图76B)。具有瞬时阳性血浆EBV DNA的8名受试者中有3名具有大于0.14
的大小指数。具有持续阳性血浆EBV DNA的13名受试者中有2名具有大于0.14的大小指数。
所有NPC患者具有大于0.14的大小指数。在一些实施方案中,大小指数的截止值可用于确定受试者是否具有病况(例如,NPC)、对于病况为假阳性或者不具有病况。在一些实施方案中,大小指数的截止值可以是约或至少10、约或至少2、约或至少1、约或至少0.5、约或至少
0.333、约或至少0.25、约或至少0.2、约或至少0.167、约或至少0.143、约或至少0.125、约或至少0.111、约或至少0.1、约或至少0.091、约或至少0.083、约或至少0.077、约或至少
0.071、约或至少0.067、约或至少0.063、约或至少0.059、约或至少0.056、约或至少0.053、约或至少0.05、约或至少0.04、约或至少0.02、约或至少0.001或者小于约0.001。在一些实施方案中,在截止值处和/或低于截止值的大小指数可以指示具有病况(例如,NPC)。在一些实施方案中,在截止值处和/或高于截止值的大小指数可以指示具有病况(例如,NPC)。
[0480] 图80示出了在对血浆EBV DNA呈持续阳性但不具有可观察的病理学的受试者(左)和被鉴别为患有NPC的受试者(右)中的末端比率(例如,终止于集合B位置的测序血浆EBV 
DNA片段的数目与终止于集合A位置的测序血浆EBV DNA片段的数目的比率)。对于具有持续
可检测的血浆EBV DNA的受试者,不具有病理学的受试者的末端比率显著低于患有NPC的受
试者的末端比率(p=0.001;Mann-Whitney检验)。考虑到末端比率可以用作区分患有NPC的受试者与具有持续阳性血浆EBV DNA但不具有可观察的病理学的受试者的参数。
[0481] 图81示出了在使用映射到EBV基因组的测序血浆DNA片段的比例(例如,大于或等于0.0009%)进行第一分析并使用大小比率(例如,小于或等于7%)进行后续的第二分析后
被鉴别为对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者以及
被鉴别为患有NPC的受试者的数目。使用血浆EBV量分析(例如,所有测序读取中EBV DNA读
取的比例)和大小比率的组合,可以计算72名受试者的队列中的NPC检测率、假阳性率和阳
性预测值。NPC检测率为100%。假阳性率为13.5%并且阳性预测值为86.5%。相反,仅使用实时PCR分析筛查患有NPC的受试者,假阳性率为30.4%并且阳性预测值为69.6%。因此,我们可以观察到使用靶标捕获测序的EBV DNA数量和大小分析的组合分析,假阳性率几乎降
低了三倍。
[0482] 图82A和图82B示出了分类和回归树(CART)分析的结果,以确定用于区分对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者或被鉴别为患有NPC
的受试者的各个参数中的最佳截止值。本领域普通技术人员将理解,可以使用多种方法确
定用于区分队列或群体内的不同组的截止值。这样的方法的非限制性实例是CART分析。在
CART分析中,目标是在参数中找到最佳截止值,以实现不同组之间的最大分离(或每组的最高检测率)。CART分析得出大小比率截止值=4.837,并且log(EBV计数)截止值=-2.655。使用这些截止值,NPC检测率为90.6%并且阳性预测值为90.6%。
[0483] 在其他实施方案中,终止位置的分析可以通过终止于特定病况的优选位置处的片段的数目来确定。例如,终止于集合B位置的片段的数目可用于确定所测试的受试者患有
NPC的似然。在另一实施方案中,可以基于测序片段的总数目或映射到EBV基因组的测序片
段的数目或映射到EBV基因组的一个或多个区域的测序片段的数目使终止于这些位置的片
段的数目归一化。当使用血浆EBV DNA分析筛查受试者的NPC并显示阳性结果时。根据我们
进行的研究中使用的安排,我们将在约四周内收集另一血液样品,并确定血浆EBV DNA是否呈持续阳性。基于所示结果,一种替代安排是使用B/A比率分析终止于NPC优选终止位置的
血浆EBV DNA片段的大小和百分比。对于具有高百分比的片段<150bp和低B/A比率的病例,
它们可被认为具有NPC的低风险,而具有低百分比的片段<150bp和高B/A比率的病例可指示
进行进一步研究。这种安排可以改善测试的后勤,并且避免了要求受试者返回进行进一步
血液采集的需要。
[0484] 除NPC外,血浆中病毒DNA片段的大小及其终止位置的分析也可用于检测与病毒感染相关的其他癌症。在这方面,我们分析了三名HCC受试者和三名患有慢性乙型肝炎感染但未患有HCC的受试者。在中国和东南亚,较大比例的HCC与HBV感染相关。使用上述方案在靶标富集后对这些受试者的血浆DNA样品进行测序。
E.HCC受试者中的EBV DNA的分析
[0485] 图83示出了HCC受试者中映射到EBV基因组和人基因组的测序血浆DNA片段的大小分布。与NPC受试者的模式类似,与HBV基因组比对的血浆DNA片段的大小分布比短于人基因组比对的片段的大小分布。
[0486] 图84示出了患有慢性乙型肝炎的受试者(左)和HCC受试者(右)的血浆中低于150bp的HBV DNA片段的百分比的条形图。与HCC受试者相比,慢性HBV携带者中<150bp的测
序血浆HBV DNA的平均百分比更高。该观察结果与NPC受试者与具有假阳性血浆EBV DNA结
果的受试者之间的大小差异一致。
[0487] 随机选择一名HCC受试者用于分析优选的终止位置。以该特定HCC受试者中终止于HBV基因组坐标上的血浆DNA片段的数目的降序对HBV基因组的坐标进行排名。出于说明目
的,鉴别前800个位置。这些位置表示为HCC优选位置。在其他实施方案中,可以使用其他数目的位置,例如但不限于100、200、400、600、1000或1500个。出于说明目的,随机选择另外
2000个位置以使与HBV基因组比对的血浆DNA片段的数目归一化。其他数目可用于该归一化
过程,例如但不限于200、400、600、800、1000、1500和2500个。在其他实施方案中,可以使用血浆样品中的总DNA或测序读取的总数目或与HBV基因组比对的读取的总数目进行归一化。
[0488] 图85示出了患有慢性乙型肝炎的受试者(右)和HCC受试者(左)受试者中相对于终止于其他位置的片段进行归一化的终止于HCC优选的终止位置的血浆HBV DNA片段的数目
的盒须图。与具有慢性HBV感染但未患有HCC的受试者相比,在HCC受试者中终止于HCC优选
位置的血浆HBV DNA片段的数目更高。这些结果表明,终止于HCC优选位置的片段的数目可
用于区分HCC受试者与未患有HCC的慢性HBV携带者。
[0489] 应当理解,当相对于终止于“其他位置”的片段归一化终止于优选终止位置的血浆DNA片段的数目时,“其他位置”可以是基因或基因组的任何其他位置中的一个或多个。虽然“其他位置”可以对应于优选的终止位置(例如,与参考基因组比对的核酸片段的优选终止位置),但“其他位置”不必需是优选终止位置。在一个实施方案中,“其他位置”可以对应于多个核酸的最不优选的终止位置。在另一实施方案中,“其他位置”可以对应于随机的位置集合。
[0490] 对于HBV和HPV(下文)的工作,一些实施方案分别鉴别了在HCC或宫颈癌病例中最常见的(例如,前1000个)末端,并且鉴别了在相同的病例中最不常见的末端(例如,后1,000个),其中后者用于归一化。图85中所示的数据示出了表示为与其他末端(例如,最不频繁的或任何随机的末端)的比率的最频繁的HCC末端的量化。
F.HPV实例
[0491] 对血浆中病毒DNA的片段化模式的分析可以推广到与病毒感染相关的其他癌症。作为说明性实例,我们分析了患有头颈鳞状细胞癌的受试者的血浆。该癌症与HPV感染密切相关。如上所述,在靶标富集后对血浆DNA进行测序。分析了与HPV独特比对的血浆DNA片段。
[0492] 图86示出了终止于HPV基因组的不同位置的血浆HPV DNA片段的数目。与在NPC受试者和HCC受试者中观察到的模式类似,HPV基因组中存在更可能是头颈鳞状细胞癌受试者
的血浆DNA的终止位置的位置。这些位置可用于检测该类型的癌症。我们的数据还表明,类似的方法可用于检测与HPV感染相关的宫颈癌。在一个实施方案中,可以确定宫颈癌的优选终止位置。然后,如果血浆HPV DNA将终止于宫颈癌优选的终止位置,则可以测试具有阳性血浆HPV DNA结果的任何受试者。具有终止于此类位置的血浆HPV DNA的受试者更可能患有
宫颈癌,而具有终止于其他位置的血浆HPV DNA的受试者更可能具有假阳性结果。
G.EBV DNA片段的使用
[0493] 在NPC受试者中,具有恰好终止于一个或多个NPC特异性终止位置的末端核苷酸血浆EBV DNA片段更可能衍生自肿瘤。基于该假设,终止于NPC特异性终止位置的测序血浆EBV DNA片段的数目可用于指示存在或不存在NPC或具有类似的血浆EBV DNA片段化模式的其他
癌症。在另一实施方案中,该参数还可用于反映癌症水平,例如但不限于肿瘤大小、癌症阶段、肿瘤负荷和转移的存在。有趣的是,在对照受试者中,EBV DNA片段具有终止于终止位置集合(例如,对照特异性终止位置)的末端核苷酸,该终止位置集合对于对照受试者是独特
的或至少不同于NPC特异性终止位置。由于健康受试者不具有肿瘤,因此血浆EBV DNA片段
并非衍生自肿瘤。考虑到对照受试者与NPC受试者中的EBV DNA片段化模式的差异与DNA片
段的特异性机制相关。考虑到NPC特异性片段化模式可能是肿瘤细胞凋亡诱导的DNA片段化
的结果。此外,考虑到对照特异性片段化模式可以是EBV DNA复制诱导的DNA片段化的结果。
[0494] NPC受试者和参考受试者(例如,健康受试者,或对疾病如肿瘤呈假阳性的受试者)两者都可以在其血液中具有EBV DNA。然而,每个群体可具有独特的EBV DNA片段化模式。通过用第二量(例如,其可以对应于来自健康受试者的参考样品的终止于健康或假阳性特异
性优选终止位置的EBV DNA片段的数目)使核酸的第一量(例如,其可以对应于来自受试者
的生物样品的终止于NPC特异性优选终止位置的EBV DNA片段的数目)归一化,本公开内容
的方法可以更好地区分对于病况是真阳性的受试者和假阳性或在其他方面健康的受试者。
[0495] 针对对照受试者(例如,没有可观察的病理学的受试者)和肿瘤受试者的独特DNA片段化模式的鉴别和应用可具有巨大的实践价值。例如,终止于肿瘤特异性终止位置的核
酸片段的丰度在对照受试者和肿瘤受试者中可能没有显著差异。在另一实例中,与EBV DNA丰度可以更高并且更容易检测的对照受试者相比,具有低肿瘤负荷的肿瘤受试者中的EBV 
DNA丰度可能更低并且更难以检测。在一些实施方案中,给定受试者(例如,健康受试者或肿瘤受试者)的优选终止位置可以是高度特异性的(例如,对照受试者的极少数优选终止位置
也是肿瘤受试者的优选终止位置)。
[0496] 在一些实施方案中,末端比率(例如,终止于第一集合的基因组位置的核酸分子的第一量与终止于第二集合的基因组位置的核酸分子的第二量的比率)可用于确定组织类型
的比例贡献的分类。在一个实例中,可以使用终止于对照特异性终止位置的EBV DNA片段的数目使终止于NPC特异性终止位置的EBV DNA片段的数目归一化。在一些实施方案中,度量
的组合(例如,末端比率、拷贝数和核酸片段大小中的至少两个)可用于检测受试者中的病
况(例如,肿瘤)。例如,如上所述,与对照受试者相比,NPC受试者可表现出更高数目的EBV DNA片段、更高的B/A比率和更低比例的长度小于150个碱基对的读取。
X.确定基因型
[0497] 鉴于可以确定特定组织类型的优选终止位置,终止于这样的优选终止位置的无细胞DNA分子有较高的似然来自该组织。在一些情况下,无细胞DNA混合物中的特定组织类型
相对于其他组织类型可在特定基因组位置具有不同的基因型。例如,胎儿组织或肿瘤组织
可具有不同的基因型。由于无细胞DNA分子有较高的似然来自感兴趣的组织类型,因此可以分析终止于这样的位置的无细胞DNA分子以确定该位置处的组织类型的基因型。以这种方
式,优选的终止位置可以用作过滤器以鉴别来自该组织类型的DNA。
A.胎儿基因型
[0498] 关于测序的血浆DNA片段的终止位置的信息可用于确定胎儿从怀孕女性遗传的母体等位基因。这里,我们使用假设的实例来说明该方法的原理。我们假设母亲、父亲和胎儿的基因型分别是AT、TT和TT。为了确定胎儿基因型,我们需要确定胎儿遗传了母亲的A还是T等位基因。我们先前已经描述了称为相对突变剂量(RMD)分析的方法(Lun等人Proc Natl 
Acad Sci USA 2008;105:19920-5)。在该方法中,将会比较母体血浆中的两个母体等位基因的剂量。如果胎儿遗传了母体T等位基因,则胎儿对于T等位基因将会是纯合的。在这种情景下,与A等位基因相比,T等位基因在母体血浆中将会过多表示。另一方面,如果胎儿从母亲遗传了A等位基因,则胎儿的基因型将是AT。在这种情景下,A和T等位基因在母体血浆中将以大致相同的剂量存在,因为母亲和胎儿对于AT都是杂合的。因此,在RMD分析中,将比较母体血浆中两种母体等位基因的相对剂量。可以分析测序读取的终止位置以改善RMD方法
的准确性。
[0499] 图87示出了在与胎儿优选的终止位置附近的参考基因组进行比对时携带不同等位基因的母体血浆DNA分子。实线中的分子来自母体,并且虚线中的分子来自胎儿。胎儿DNA分子更有可能终止于怀孕特异性终止位置。在一个实施方案中,终止于怀孕特异性终止位
置的分子可以在RMD分析中被给予更多权重。在另一实施方案中,仅使用终止于怀孕特异性位置的血浆DNA片段进行下游分析。该选择可潜在地富集胎儿衍生的血浆DNA片段以供下游
分析。
[0500] 图87示出了基因型为AT的怀孕女性的血浆DNA分子。衍生自母体组织的DNA片段以实线表示,并且衍生自胎儿的DNA片段以虚线表示。胎儿DNA分子更有可能终止于怀孕特异
性终止位置。
[0501] 在该说明性实例中,终止于怀孕特异性终止位置的两个分子均携带T等位基因。在一个实施方案中,仅使用终止于怀孕特异性终止位置的两个分子进行下游分析,并且胎儿
基因型将被推导为TT。在另一实施方案中,携带T等位基因的两个胎儿衍生的分子在RMD分
析中将被给予更高的权重,因为这两个分子终止于怀孕特异性终止位置。可以对终止于怀
孕特异性终止位置的分子给予不同的权重,例如但不限于1.1、1.2、1.3、1.4、1.5、2、2.5、3和3.5。
[0502] 例如,用于确定基因座是否杂合的标准可以是两个等位基因的阈值,每个等位基因出现在与基因座比对的至少预定百分比(例如,30%或40%)的读取中。如果一个核苷酸
以足够的百分比(例如,70%或更高)出现,那么可以确定该基因座的CG是纯合的。
B.癌症基因型
[0503] 可以针对癌症特异性终止位置进行类似的技术。例如,可以如上所述鉴别癌症优选的终止位置。可以鉴别并分析终止于癌症优选的终止位置的无细胞DNA分子。对于该集合的每个无细胞DNA分子,可以确定与该位置对应(例如,比对)的碱基,并且可以针对每个碱基计算总碱基的百分比。例如,可以确定在终止于该位置的无细胞DNA分子上见到的C的百
分比。如果在受试者的健康组织中没有见到C,则如果鉴别出足够数目的C(例如,高于阈值数目),则可以将C鉴别为突变,该阈值数可以取决于样品中所测量的肿瘤DNA分数。
C.过滤技术
[0504] 除了使用终止位置之外的其他标准可用于过滤来自肿瘤组织的无细胞DNA分子。其他标准也可用于胎儿情景。
[0505] 通过将过滤标准应用于其中已经比对了具有突变的一个或多个序列读取的基因座,可以改善鉴别癌症基因型(例如,包含癌症特异性突变)和使用这样的基因型(例如,使用突变负荷来确定癌症水平)的任何测试的特异性。作为癌症的实例,只有在具有高置信度与癌症相关时,才能通过将遗传或基因组特征评分为阳性来实现高特异性。这可以通过使
可能被错误鉴别为突变的测序和比对错误的数目最小化来实现,例如通过与一组健康对照
的基因组谱进行比较来实现,和/或可以通过与个体自身的组成性DNA进行比较来实现,和/或可以通过与个体在较早时间的基因组谱进行比较来实现。
[0506] 可以应用各种标准作为过滤标准,以评估无细胞DNA片段衍生自肿瘤并因此有资格成为信息性癌症DNA片段的似然。每种过滤标准可以单独地、独立地、在相等加权或不同加权的情况下共同地、或以指定的顺序连续地、或者根据先前的过滤操作的结果有条件地
使用。对于条件使用,可以使用基于贝叶斯(Bayesian)的方法,以及基于分类或决策树的方法。标准的单独使用可意指仅使用一个标准。独立使用可涉及超过一种过滤标准,但是每种过滤标准不依赖于另一种过滤标准的应用(例如,可以进行平行应用),与特定顺序的连续
应用形成对比。作为使用加权的共同使用的实例,可以使用机器学习技术。例如,监督学习可以使用具有已知分类的样品所测量的突变负荷来训练任何模型。来自大量个体(例如,数百、数千或数百万个)的测序数据可用于训练模型。在更简单的形式中,这样的已知样品可用于确定由过滤标准确定的一个或多个评分的阈值,以确定突变是否有效。
[0507] 如果DNA片段示出超过一种癌症特异性变化,则可以给予更高加权的信息量或癌症特异性。例如,许多癌症总体上是甲基化不足的,尤其是在非启动子区域。已显示血浆中的癌症DNA短于非癌症DNA。肿瘤衍生的血浆DNA片段倾向于在一些特定位置处片段化。因
此,大小较短(例如<150bp)(Jiang等人Proc Natl Acad Sci USA 2015;112:E1317-1325)、一个或两个末端落在癌症相关的末端位置、显示单核苷酸突变、以及定位于非启动子区域、以及具有甲基化不足的CpG位点的血浆DNA片段将被认为更可能与癌症相关。甲基化不足
DNA的检测可以通过使用可以区分甲基胞嘧啶与非甲基胞嘧啶的亚硫酸氢盐DNA转化或直
接单分子测序来实现。在本申请中,我们描述了过程、方案和操作,以增加鉴别信息性癌症DNA片段的特异性。例如,可以使用一种或多种过滤标准来增加特异性。例如,可以使用一种或多种过滤标准来增加特异性,如增加到至少约80%、90%、95%或99%的特异性。
1.血浆DNA末端位置的使用
[0508] 如上所述,可以基于末端核苷酸的坐标(终止位置)进行潜在的癌症特异性或癌症相关或胎儿突变的过滤。如上所述,我们已经鉴别了不是随机的并且基于起源组织而变化
的DNA片段的末端位置。因此,末端位置可用于确定具有推定突变的序列读取实际上来自胎儿组织或肿瘤组织的似然。
[0509] 最近,已显示血浆DNA的片段化模式是非随机的(Snyder等人Cell 2016;164:57-68和PCT WO 2016/015058A2)。血浆DNA片段化模式受贡献了血浆DNA分子的细胞的基因组
中的核小体定位、转录因子结合位点、DNA酶切割或超敏感位点、表达谱(Snyder等人Cell 
2016;164:57-68和PCT WO 2016/015058;Ivanov等人BMC Genomics 2015;16Suppl 13:S1)和DNA甲基化谱(Lun等人Clin Chem 2013;59:1583-1594)的影响。因此,对于不同组织起源的细胞,片段化模式是不同的。虽然存在示出更频繁片段的基因组区域,但该区域内的实际血浆DNA切割位点可仍然是随机的。
[0510] 我们假设不同的组织与具有不同切割位点或末端位置的血浆DNA片段的释放相关。换言之,特定的切割位点甚至也是非随机的。实际上,我们示出癌症患者中的血浆DNA分子的子集示出与没有癌症的患者不同的末端位置。一些实施方案可使用具有这样的癌症相
关末端位置的血浆DNA分子作为信息性癌症DNA片段,或使用这样的末端位置信息作为过滤
标准,例如,与一个或多个其他过滤标准一起使用。因此,通过鉴别这样的癌症相关的血浆DNA末端位置,可以将血浆DNA片段评分为信息性癌症DNA片段,或者基于这样的片段的末端位置的性质赋予差异加权。这样的标准可用于评估片段源自癌症、某些器官或某些器官的
癌症的似然。这样的加权可用于修饰特定DNA片段的特定碱基对在该位置所见的特定碱基
的总百分比的贡献。
[0511] 因此,如果血浆DNA片段示出推定的突变和/或癌症相关的甲基化变化以及癌症相关的末端位置,则其是信息性癌症DNA片段的几率将大大提高。各个实施方案还可以考虑这样的片段的状态及其长度,或者这样的参数和其他参数的任何组合。对于具有两个末端(或潜在地至多四个末端,如以下部分所述)的血浆DNA片段,通过考虑其一个或两个末端是否
与癌症相关或来自与癌症相关的组织类型,可以进一步修改加权以将其鉴别为癌症衍生的
片段。在一个实施方案中,基于末端位置的类似方法也可用于检测与其他病理学或生物过
程相关的突变(例如,由于衰老过程的突变或由于环境诱变因子的突变)。
[0512] 类似的方法也可用于通过对怀有胎儿的怀孕女性的血浆中的DNA进行测序来鉴别胎儿的从头突变。因此,在鉴别对胎盘具有特异性或相对特异性的末端位置之后,如果母体血浆中这样的DNA片段也携带胎盘特异性或胎盘富集的末端位置,则可以将更高的加权赋
予推定的胎儿从头突变是真实的。由于血浆DNA片段具有两个末端,因此通过考虑其一个或两个末端是否与胎盘相关,可以进一步修改加权以将其鉴别为胎儿衍生的片段。
[0513] 如图38所示,具有精确终止于536,772个HCC特异性终止位置的末端核苷酸的血浆DNA片段将更可能衍生自肿瘤。相反,具有精确终止于怀孕特异性终止位置或两种病例共享的位置的末端核苷酸的血浆DNA片段将不太可能衍生自肿瘤,因为在任何使用权重的实施
方案中,怀孕特异性终止位置可能不太可能并且被给予较低的加权。
[0514] 因此,可以使用对HCC病例具有特异性的排名靠前的终止位置的列表来选择癌症相关突变,并且可以使用对怀孕病例具有特异性或由两种病例共享的排名靠前的终止位置
的列表来滤除假阳性突变。类似的程序可用于鉴别胎儿突变并滤除假阳性突变以供非侵入
性产前测试。
[0515] 通常,为了鉴别这样的生物相关的血浆DNA末端位置,可以将来自具有不同的疾病或流行病学背景或生理谱的个体组的血浆DNA样品与来自没有这样的疾病或背景或谱的另
一组个体的样品进行比较。在一个实施方案中,可以对这些样品中的每一个进行深度测序,使得可以在每个样品中鉴别血浆DNA片段的共同末端位置。在另一实施方案中,来自具有互补谱的个体组的序列数据可以汇集在一起,以供鉴别代表疾病或生理谱的共同末端位置。
[0516] 可以单独询问样品中的每个血浆DNA片段,并基于末端位置分配似然评分。某个末端位置的似然评分可以取决于靶标个体(例如,癌症)终止于末端位置的序列读取的量(例
如,通过样品的测序深度归一化的序列读取百分比或其他值)相对于对照组终止的序列读
取的量的分离。较大的分离将导致更高的特异性,并因此可以施加更高的似然评分。因此,可以进行将具有特异性末端位置的血浆DNA片段分类成可能与疾病相关或不相关的、胎儿
的或母体的等。
[0517] 或者,可以共同解释源自相同区域的血浆DNA片段,即可以通过相对于测序深度归一化来计算终止于特定核苷酸处的比率。以这种方式,某些核苷酸可以被鉴别为相对于基
因组中的其他位置是共同末端位置,例如,基于对特定类型的一个样品的分析,尽管可以使用更多样品。因此,可以进行将具有特异性末端位置的血浆DNA片段分类成可能与疾病相关或不相关的、胎儿的或母体的等。对于示出高频率的具有这样的生物上相关的血浆DNA末端位置的血浆DNA片段的位置,可以确定这样的基因座富集了生物上相关的DNA,并因此被包
括作为有高似然作为癌症相关的或胎儿特异性的或与其他疾病或生物过程相关的血浆DNA
片段的组。以与不同组之间的比较类似的方式,似然水平可以基于给定核苷酸相对于其他
核苷酸的比率有多高,如上所述。
2.结果
[0518] 为了说明该方法的功效,直接从HCC患者的血浆DNA测序数据鉴别潜在的癌症相关突变。认为在至少两个血浆DNA片段的序列读取中存在的单核苷酸变化是潜在的癌症相关
突变。也对肿瘤组织进行测序,并且将肿瘤组织中存在的突变认为是真正的癌症相关突变。
[0519] 在染色体8上,在不使用动态截止值分析的情况下,从HCC患者的血浆DNA测序数据中鉴别出共20,065个潜在突变。如果序列变体存在于至少两个测序DNA片段中,则序列变体将被视为潜在的突变。从肿瘤组织的测序结果鉴别出884个真正的体细胞突变。20,065个推定的突变包含884个真实突变中的802个(91%)。因此,只有4%的推定突变是肿瘤组织中真正的体细胞突变,得到4%的PPV。
[0520] 为了增强检测体细胞突变的准确性,从而产生癌症基因型,我们使用基于携带推定突变的序列读取的末端核苷酸位置的以下过滤算法。(1)对于任何推定的突变,如果存在至少一个序列读取携带突变并终止于HCC特异性终止位置,则该突变将有资格进行下游突
变分析。(2)去除携带假定突变但终止于任何怀孕特异性终止位置或两种病例共享的位置
的序列读取。只有在基于该算法去除读取后存在两个或更多个序列读取示出相同突变时,
突变才有资格进行下游突变分析。
[0521] 应用上述1和2过滤算法,获得表4中的结果。应用不同过滤算法的影响基于携带推定突变的DNA片段的末端核苷酸的位置或末端位置。
表4
[0522] 通过采用要求末端位置是HCC特异性的三种算法中的任何一种或者滤除怀孕特异性或共享位置算法,使PPV得到大大改善。通过应用这两种算法,PPV增加到71%。
[0523] 可以鉴别每个染色体或者另一基因组区域或者整个基因组的HCC相关的和怀孕相关的末端位置的其他数目,例如但不限于50万、200万、300万、400万、500万、600万、700万、
800万、900万或1000万。在各个实施方案中,血浆DNA分子中最常见的末端位置可以在一个或多个癌症患者队列中确定,每个队列是一种癌症类型。此外,对于未患有癌症的受试者,可以确定血浆DNA分子中最频繁的末端位置。在一个实施方案中,这样的患有癌症的患者和未患有癌症的受试者可以进一步细分为具有不同临床参数的组,该参数例如,性别、吸烟状态、先前的健康(例如,肝炎状态、糖尿病、体重)等。
[0524] 作为使用这样的过滤标准的一部分,可以使用统计分析来鉴别具有是不同生理和病理状况的循环DNA的末端核苷酸或末端位置的较高概率的位置。统计分析的实例包括但
不限于学生t检验、卡方检验和基于二项分布或泊松分布的检验。对于这些统计分析,可以使用不同的p值截止值,例如但不限于0.05、0.01、0.005、0.001和0.0001。还可以调整p值截止值用于多重比较。
D.用于确定基因型的方法
[0525] 图88是根据本发明实施方案,分析生物样品以确定第一组织类型的基因型的方法5800的流程图。生物样品包含来自包括第一组织类型在内的多种组织类型的无细胞DNA分
子的混合物。第一组织类型可能具有与多种组织类型中的其他组织类型不同的基因型。可
以确定多个基因组位置处的基因型。
[0526] 在框5810处,鉴别第一集合的基因组位置,在该基因组位置处第一组织类型的无细胞DNA分子的末端以高于阈值的比率出现。可以以与框3610类似的方式执行框5810。章节X.B提供了用于执行框5810的额外的实例。
[0527] 在框5820处,分析来自受试者的生物样品的第一多个无细胞DNA分子。分析无细胞DNA分子包括确定对应于无细胞DNA分子的至少一个末端的参考基因组中的基因组位置。框
3620可以以与用于分析无细胞DNA分子的其他框类似的方式进行。
[0528] 在框5830处,基于对第一多个无细胞DNA分子的分析,鉴别终止于第一基因组位置处的无细胞DNA分子的集合。作为实例,可以使用具有已知终止位置的检测探针的序列读取的比对来鉴别该集合。本文提供了其他实例。
[0529] 在一些实施方案中,可以进行进一步过滤,例如,如上所述。例如,可以要求无细胞DNA分子的大小小于指定量,例如,胎儿组织和肿瘤组织通常短于来自健康细胞的DNA片段。在一个实现方案中,可以过滤该集合的无细胞DNA分子以排除或修改终止于第一基因组位
置的至少一个无细胞DNA分子的加权。可以使用过滤的无细胞DNA分子的集合确定基因型。
[0530] 在各个实施方案中,过滤可以使用以下至少一种:无细胞DNA分子的大小,无细胞DNA分子在一个或多个位置的甲基化状态(例如,CpG位点甲基化还是未甲基化),以及无细
胞DNA分子是否覆盖其中第一组织类型的无细胞DNA分子的末端以高于阈值的比率出现的
一个或多个其他基因组位置。甲基化状态可以提供第一组织类型的特征,如上所述。
[0531] 在框5840处,对于该集合的无细胞DNA分子中的每个无细胞DNA分子,确定在第一基因组位置处出现的对应碱基(核苷酸)。可以确定具有每个碱基的分子的总数,并且可以
计算每个碱基的百分比。
[0532] 在框5850处,使用该集合的无细胞DNA分子中在第一基因组位置处出现的对应碱基确定第一基因组位置处的第一组织类型的基因型。在各个实现方案中,仅一个碱基的高
百分比(例如,高于80%、85%或90%)可以指示基因型对于该碱基是纯合的,而两个碱基具有相似百分比(例如,在30-70%之间)可以导致确定基因型是杂合的。因此,可以将每个碱基的百分比与基因型的截止值进行比较。在一些实施方案中,可以基于第一组织类型对样
品的比例贡献来确定截止值。
[0533] 因此,在一些实施方案中,确定第一基因组位置处的第一组织类型的基因型可包括确定多个碱基中的每一个的百分比贡献并将每个百分比贡献与一个或多个截止值进行
比较。在一个实例中,当第一碱基的百分比贡献高于第一截止值时,第一截止值可对应于第一碱基的纯合基因型。在另一实例中,当第一碱基和第二碱基的百分比贡献高于第一截止
值并低于第二截止值时,第一截止值和第二截止值可以对应于第一碱基和第二碱基的杂合
基因型。
[0534] 在一些实施方案中,可以对在框5830中鉴别的集合中的每个无细胞DNA分子进行加权。例如,如果无细胞DNA分子来自第一组织类型的似然是80%,则权重可以是0.8。可以对特定碱基的所有加权的总贡献求和以确定每个碱基各自的量。各自的量可用于确定每个
碱基的百分比贡献,其中百分比可用于确定基因型。
[0535] 因此,过滤可以向无细胞DNA分子分配权重,该权重对应于无细胞DNA分子来自第一组织类型的似然。可以针对多个碱基(例如,仅检测到的那些碱基,其可以是2、3或4个)中的每一个确定加权和。如果仅检测到一个碱基,则可以确定针对该一个碱基的纯合基因型。
可以使用加权和确定多个碱基中的每一个的百分比贡献,其中使用百分比来贡献确定基因
型。
XI.进一步细节
[0536] 上述各个实施方案鉴别了针对特定组织的优选终止位置,其中一些优选终止位置可以是连续的,从而形成优选终止窗口。可以使用不同的度量鉴别基因组窗口处的无细胞
DNA分子的发生率(例如,最小窗口的基因组位置)。下面了提供关于这样的操作的进一步细节,以及关于确定参考基因组中无细胞DNA分子的终止位置的细节。这样的特定技术可与上述实施方案一起使用。
A.终止位置的确定
[0537] 当对无细胞DNA分子进行测序时,DNA片段的终止模式存在多种可能性。血浆DNA的末端通常有四种配置:(A)具有两个齐平末端的双链DNA分子;(B)具有一个齐平末端和一个非齐平末端的双链DNA分子(示出两种情景中的每一种,因为两条链中的任一条可以突出);
(C)具有两个非齐平末端的双链DNA分子,具有不同的突出末端组合;以及(D)单链DNA分子。
[0538] 对于具有非齐平末端的配置,取决于DNA分子的5’或3’末端是否突出,存在不同的模式。对于(B),双链DNA分子具有一个齐平末端和一个非齐平末端。在实例B1中,5’端突出,并且在实例B2中,3’端突出。对于(C),当两个末端都是非齐平的时,存在三种可能的模式。在(C1)中,5’端在两侧突出。在(C2)中,3’端在两侧突出。在(C3)中,5’端在一侧突出并且3’端在另一侧突出。
[0539] 对于测序,配对末端测序方案通常对每个链的一个末端进行测序。因此,其被认为是双链DNA测序方案。当两个末端不齐平时,方案可以切断核苷酸或在末端添加核苷酸以使其齐平。Klenow片段是可以进行这样的操作的酶。该领域的其他方案使用单链DNA测序方案。
[0540] 无论使用何种特定技术(包括使用探针),只要终止位置是可重复的并示出相关性,如此处所示,则在测序中是否获得DNA片段的真实末端不影响结果,因为任何偏移都是可重复的,并因此抵消。此外,某些技术可用于鉴别终止位置,如术语部分所述。
B.组织特异性终止位置的鉴别
[0541] 如上所述,在特定组织类型中,某些基因组区域对于无细胞DNA分子将终止于特定位置上的似然相对于其他区域具有更大的变化。例如,肝组织可以具有是DNA酶超敏感位点的区域,但是其他组织不具有作为DNA酶超敏感位点的区域。因此,这样的区域内的某些位置将具有相对于其他位置终止于这些位置的较大数目的无细胞DNA分子。作为实例,这样的位置可以被鉴别为对特定组织已知具有大量裂解的区域的无细胞DNA分子的比率的最大值
(因此在似然函数中具有高幅度),例如,如章节III中所述。在其他实例中,可以鉴别基因组位置,其中左峰和右峰充分分离,例如,如章节IV中所述。
[0542] 在其他实例中,具有和不具有病况(例如,怀孕或癌症,可能是特定类型)的样品的高比率终止位置的集合(例如,比率高于阈值)的差异可以用于鉴别与该病况相关的特定组织类型的优选终止位点,例如,如在章节V、VI和VII中使用文氏图所描述。作为另外其他的实例,具有病况的一个样品中相比于不具有该病况的另一样品的显著更高的比率可以提供
特定组织类型的优选终止位点。在各个实施方案中,此类示例性技术中的一些或全部可以
一起使用。该比率可以通过相对丰度的任何度量来测量。
[0543] 在上述方法的一些实施方案中,可通过以下方式鉴别其中第一组织类型的无细胞DNA分子的末端以高于阈值的比率存在的第一组基因组位置。可以以与测试样品类似的方
式分析校准样品,其中相同类型的两个样品(例如,血浆、血清、尿液等)和校准样品已知包含第一组织类型(例如,来自怀孕女性样品的胎儿组织或HCC患者的肝的肿瘤组织)。可以将终止于基因组窗口(例如,宽度为1或更大)内的无细胞DNA分子的数目与参考值进行比较,
以确定终止位置的比率是否高于该位置的阈值。在一些实施方案中,如果比率超过参考值,则当对应数目超过参考值时,第一基因组窗口内的每个基因组位置可被鉴别为具有高于阈
值的比率。这样的过程可以鉴别优选的终止窗口,其包括优选的终止位置。
[0544] 参考值可以使得仅前N个基因组窗口具有高于阈值的比率。例如,第一集合的基因组位置可以具有对应数字的最高N值。例如,N可以是至少10、至少100、至少1,000、至少2,
500、至少5,000、至少10,000、至少50,000、至少100,000、至少500,000、至少1,000,000或至少5,000,000。
[0545] 作为另一个实例,参考值可以是根据样品中的无细胞DNA分子的概率分布和平均长度终止于基因组窗口内的无细胞DNA分子的预期数目,例如,如章节VI.A.1中所述。可以使用对应数目和预期数目确定p值,其中阈值对应于截止p值(例如,0.01)。p值小于截止p值指示该比率高于阈值。作为又一实例,参考值可以包括来自被鉴别为具有减少量的第一组
织类型的样品的终止于基因组窗口内的无细胞DNA分子的测量数目,例如,如图51A和图51B所述。
[0546] 不必将满足比率阈值的基因组位置添加到第一集合的基因组位置。可以添加进一步的过滤标准。这样的过滤标准的实例在章节VI.A.3和章节IX.C中具体描述。对于大小的
过滤标准,可以测定无细胞DNA分子的大小(例如,长度或质量),例如,如美国专利公开
2011/0276277、2013/0040824和2013/0237431中所述,其中的每一个通过引用整体并入本
文。可以确定已被确定具有高于阈值的比率的终止于第一基因组窗口内(例如,当窗口的宽度为1时在基因组位置上)的无细胞DNA分子的大小分布的第一统计值。当第一统计值不超
过大小阈值时,例如,平均大小不够小或者与所有无细胞DNA分子或较大范围的DNA分子相
比没有足够数目的小DNA片段(例如,低于指定的大小),可以从第一集合的基因组位置排除第一基因组窗口的基因组位置。
[0547] 可以将第一统计值与确定不具有高于阈值的比率的无细胞DNA分子的大小分布的第二统计值进行比较。如果这两个值相似(例如,对于胎儿或肿瘤组织无法预期),则可以从优选的终止位置的集合排除第一基因组窗口。将对应数目字与参考值进行比较可以包括计
算对应数目与覆盖一个样品的基因组窗口的任何部分并任选地不终止于基因组窗口中的
无细胞DNA分子的数目的第一比率(例如,PETR),如章节VII.A.2所述。参考值可以包括终止于基因组窗口内的读取的测量数目与另一样品覆盖基因组窗口但不终止于基因组窗口内
的无细胞DNA分子的数目的参考比率。可以要求第一比率大于乘积因子(例如,4)乘以参考
比率。
[0548] 另一过滤标准可以是第一集合的基因组位置中的每个基因组位置可能被要求具有至少指定数目的无细胞DNA分子终止于基因组位置。使用这些技术中的任何一种,第一集合的基因组位置可包含600至10,000个基因组位置。
[0549] 在获取集合之间的差异的实施方案中(例如,使用文氏图),其比率(例如,如从基因集窗口确定的)高于阈值的基因组位置构成第一超集,例如,如图50A中所示的集合P和集合S。可以从具有减少量的第一组织类型(例如,较少或没有胎儿组织或HCC组织,如图50A中所示)的至少一个第二额外样品分析第三多个无细胞DNA分子以鉴别第二超集,例如,集合Q和集合S。第一集合的基因组位置可以包括在第一超集中并且不在第二超集中的基因组位
置,例如,集合P或集合S,取决于所分析的组织类型。
[0550] 如章节VI中所述,第一组织类型可具有第一组织特异性等位基因。可以对终止于基因组位置并包含多个第一组织特异性等位基因中的至少一个的无细胞DNA分子进行计
数。可以将无细胞DNA分子的计数(数目)参考值进行比较。
C.相对丰度
[0551] 本文提供了相对丰度值的各个实例,例如,完整概率(PI)、章节VI.A.1中所述的p值以及使用基因组窗口或当窗口宽度为1时使用基因组位置确定的PETR值。对于基因组位
置(宽度为1的窗口)的PETR,可以针对第一集合的基因组位置中的每个基因组位置计算终
止于基因组位置上的第一多个无细胞DNA分子的对应数目。这可以作为确定第一数目(例
如,分数的分子)的第一多个无细胞DNA分子终止于第一集合的基因组位置中的任何一个上
的一部分来完成。覆盖基因组位置且不终止于基因组位置的无细胞DNA分子的第三数目(例
如,分母)可以作为确定无细胞DNA分子的第二数目的一部分来计算。可以确定对应数目和
第三数目的第一比率,并且将第一比率的平均值用作相对丰度。
[0552] 对于w-PETR,可以针对第一集合的基因组位置中的每个基因组位置计算终止于包含基因组位置的第一窗口(例如,图55A中的窗口A)内的无细胞DNA分子的对应数目。可以计算终止于包含基因组位置的第二窗口(例如,图55A中的窗口B)内的无细胞DNA分子的第三
数目。在一些情况下,对应数目和第三数目的第一比率可用作相对丰度。
[0553] 相对丰度值的另一实例是终止于基因组窗口的无细胞DNA分子的比例,例如,测量为终止于优选的终止位置的测序DNA片段的比例。因此,第二集合的基因组位置可包括对应于第一多个无细胞DNA分子中的至少一个的末端的所有基因组位置。
D.校准值
[0554] 在各个实施方案中,校准值可以对应于由校准样品确定的校准数据点的校准值或由例如逼近校准数据点的校准函数的校准值确定的任何校准值。一个或多个校准样品可以
包括或不包括用于确定优选终止位点的任何额外的样品。
[0555] 对于一个或多个校准样品中的每一个,可以例如使用组织特异性等位基因来测量第一组织类型的对应比例贡献。可以使用终止于对应于第一集合的基因组位置的多个窗口
内的无细胞DNA分子的对应数目来确定对应的相对丰度。所测量的比例贡献和相对丰度可
以提供校准数据点。一个或多个校准数据点可以是形成逼近多个校准数据点的校准函数的
多个校准数据点。使用校准值的进一步细节可见于美国专利公开2013/0237431,该专利通
过引用整体并入本文。
E.比例贡献的分类
[0556] 在一些实施方案中,特定组织的优选终止位置也可用于测量样品中特定组织类型的绝对贡献,例如,以每单位体积(例如,每毫升)的基因组数目表示。例如,可以相对于无细胞DNA样品的体积或重量测量感兴趣的组织的浓度。在一个实现方案中,定量PCR可用于测
量以提取的无细胞DNA样品的单位体积或单位重量表示的终止于一个或多个优选末端的无
细胞DNA分子的数目。可以对校准样品进行类似的测量,并且因此可以将比例的贡献确定为比例贡献,因为贡献是每单位体积或单位重量的浓度。
[0557] 在各个实施方案中,当第一组织类型对应于肿瘤组织时,分类可以选自:受试者中的肿瘤组织的量、受试者中的肿瘤大小、受试者中的肿瘤阶段、受试者中的肿瘤负荷以及受试者中肿瘤转移的存在。
[0558] 在又一实施方案中,第一测定或第二测定可以包括进行测序以确定样品中无细胞核酸分子的大小分布,并将大小分布与参考进行比较确定样品中无细胞核酸分子的大小分
布是否指示癌症。
[0559] 虽然本文已提供了实例和实施方案,但是与例如片段大小分布相关的额外的技术和实施方案可见于例如于2013年3月8日提交的PCT IB/2013/00312,其通过引用整体并入
本文。如图20所示,癌症患者的血浆中肿瘤衍生的DNA可短于非癌症衍生的DNA(参见例如,Diehl F等人Proc Natl Acad Sci USA 2005;102:16368-16373)。如图21所示,DNA片段的大小可以与分数浓度(也称为百分比)相关;因此,实施方案可以使用该相关性来确定样品
中特定类型的DNA(例如,来自肿瘤的DNA)的分数浓度。因此,本公开内容的方法可包括能够基于所测量的DNA片段的大小估计生物样品中临床相关的DNA的分数浓度的测定。
[0560] 在一个实例中,可以从疑似患有肿瘤的患者获得包含肿瘤衍生的DNA并且在一些情况下包含其他DNA(例如,来自健康组织的DNA)的生物样品。在一个实施方案中,生物样品可以在机器(例如,测序机)处接收,该机器输出可用于确定DNA片段大小的测量数据(例如,序列读取)。
[0561] 测量对应于各个大小的DNA片段的量。对于多种大小中的每种大小,可以测量对应于该大小的来自生物样品的多个DNA片段的量。例如,可以测量长度小于180个碱基的DNA片段的数目。在特定实例中,在患有NPC的受试者中,约180个碱基对的DNA片段长度的截止值可用于分离肿瘤衍生的片段(例如,非病毒体衍生的EBV DNA片段)与非肿瘤衍生的片段(例
如,病毒体衍生的EBV DNA片段或来自健康组织的DNA)。量可以保存为直方图。在一个实施方案中,测量来自生物样品的多种核酸中的每一种的大小,其可以基于个体(例如,通过单分子测序)或基于组(例如,通过电泳)进行。大小可以对应于范围。因此,量可以针对于具有在特定范围内的大小的DNA片段。
[0562] 多个DNA片段可以随机选择或优先选自基因组的一个或多个预定区域。例如,如上所述,可以进行靶向富集。在另一实施方案中,可以对DNA片段进行随机测序(例如,使用随机测序),并且可以将所得序列读取与对应于受试者的基因组(例如,参考人基因组)进行比对。然后,仅序列读取与一个或多个预定区域比对的DNA片段可用于确定大小。
[0563] 在各个实施方案中,大小可以是质量、长度或其他合适的大小量度。如本文所述,可以以多种方式进行测量。例如,可以进行DNA片段的配对末端测序和比对,或者可以使用电泳。可以测量DNA片段的统计上显著的数目以提供生物样品的准确大小分布。DNA片段的统计上显著的数目的实例包括大于100,000;1,000,000;2,000,000或其他合适的值,其可取决于所需的精度
[0564] 在一个实施方案中,可以在计算机处接收并分析由物理测量(如配对末端测序或电泳)获得的数据以实现DNA片段大小的测量。例如,可以分析(例如,通过比对)来自配对末端测序的序列读取以确定大小。作为另一实例,可以分析由电泳产生的电泳图以确定大小。
在一个实施方案中,DNA片段的分析包括测序或使DNA片段接受电泳的实际过程,而其他实
现方案可仅对所得数据进行分析。
[0565] 可以基于多种大小的DNA片段的量来计算第一参数的第一值。在一方面,第一参数提供生物样品中DNA片段的大小谱(例如,直方图)的统计测量。该参数可称为大小参数,因为其可以由多个DNA片段的大小确定。
[0566] 第一参数可以是多种形式的。这样的参数可以是特定大小的DNA片段的数目除以片段的总数,其可以从直方图(提供特定大小的片段的绝对或相对计数的任何数据结构)获
得。作为另一实例,参数可以是特定大小或特定范围内的片段的数目除以另一大小或范围
的片段的数目。该除法可以作为归一化以考虑到不同样品所分析的DNA片段的不同数目。可以通过分析每个样品相同数目的DNA片段来进行归一化,这有效地提供与除以所分析的片
段总数目相同的结果。本文描述了参数的其他实例。
[0567] 可以获得一个或多个第一校准数据点。每个第一校准数据点可以指定对应于第一参数的特定值(校准值)的临床相关的DNA的分数浓度。分数浓度可以指定为特定浓度或浓
度范围。校准值可以对应于从多个校准样品确定的第一参数(即,特定大小参数的值)。校准数据点可以由具有已知分数浓度的校准样品确定,其可以经由本文所述的多种技术来测
量。至少一些校准样品可以具有不同的分数浓度,但是一些校准样品可以具有相同的分数
浓度。
[0568] 在各个实施方案中,一个或多个校准点可以被定义为一个离散点、离散点集合、函数、一个离散点和函数或者值的离散的或连续的集合的任何其他组合。作为实例,可以从具有特定分数浓度的样品的大小参数的一个校准值(例如,特定大小或大小范围的片段的数目)确定校准数据点。可以使用多个直方图,每个校准样品具有不同的直方图,其中一些校准样品可以具有相同的分数浓度。
[0569] 在一个实施方案中,可以组合来自相同分数浓度的多个样品的相同大小参数的测量值,以确定特定分数浓度的校准数据点。例如,可以从相同分数浓度的样品的大小数据获得大小参数的值的平均值,以确定特定校准数据点(或提供对应于校准数据点的范围)。在
另一实施方案中,具有相同校准值的多个数据点可用于确定平均分数浓度。
[0570] 在一个实施方案中,测量许多校准样品的DNA片段的大小。可以针对每个校准样品确定相同大小参数的校准值,其中大小参数可以相对于样品的已知分数浓度对进行作图。
然后可以将函数拟合到图的数据点,其中函数拟合定义将用于确定新样品的分数浓度的校
准数据点。
[0571] 然后可以将第一值与至少一个校准数据点的校准值进行比较。可以以多种方式进行比较。例如,比较可以是第一值是高于还是低于校准值。比较可以涉及与校准曲线(由校准数据点组成)进行比较,因此比较可以鉴别具有第一参数的第一值的曲线上的点。例如,第一参数的计算值X(由新样品中DNA所测量的大小确定)可用作函数F(X)的输入,其中F是
校准函数(曲线)。F(X)的输出是分数浓度。可以提供误差范围,其对于每个X值可以是不同的,从而提供一系列值作为F(X)的输出。
[0572] 然后基于比较估计生物样品中临床相关的DNA的分数浓度。在一个实施方案中,可以确定第一参数的第一值是高于还是低于阈值校准值,从而确定当前样品所估计的分数浓
度是高于还是低于对应于阈值校准值的分数浓度。例如,如果所计算的生物的第一值Xi高
于校准值Xc,则可以确定生物样品的分数浓度FC1高于对应于Xc的分数浓度FCc。上下之间
的这种关系可以取决于参数的定义方式。在这样的实施方案中,可能仅需要一个校准数据
点。
[0573] 在另一实施方案中,通过将第一值输入校准函数来实现比较。校准函数可以通过鉴别曲线上对应于第一值的点有效地将第一值与校准值进行比较。然后提供估计的分数浓
度作为校准函数的输出值。
[0574] 在一个实施方案中,可以确定生物样品的超过一个参数的值。例如,可以确定第二参数的第二值,其对应于生物样品中DNA片段的大小谱的不同统计测量。可以使用DNA片段的相同大小测量或不同大小测量来确定第二值。每个参数可以对应于不同的校准曲线。在
一个实现方案中,可以将不同的值独立地与不同的校准曲线进行比较,以获得多个估计的
分数浓度,其可随后求平均值或用于提供范围作为输出。
[0575] 在另一实现方案中,可以使用多维校准曲线,其中参数的不同值可以有效地输入到输出分数浓度的单个校准函数。单个校准函数可由从校准样品获得的所有数据点的函数
拟合产生。因此,在一个实施方案中,第一校准数据点和第二校准数据点可以是多维曲线上的点,其中比较包括鉴别具有与第一值和一个或多个第二值对应的坐标的多维点。
[0576] 可以确定血浆DNA的大小分布,例如但不限于,使用实时PCR、电泳和质谱分析。在各个实施方案中,测量的大小是长度、分子量或者与长度或质量成比例的测量参数,如电泳图中的迁移率和在电泳或质谱仪中行进固定距离所需的时间。可以使用所有分析的DNA片段或仅一部分的大小来定义参数。在一个实施方案中,参数提供短DNA片段和长DNA片段的
相对丰度,其中短DNA和长DNA可以对应于特定大小或大小范围。
[0577] 参数的其他实例是直方图的频率计数器。在一个实施方案中,可以使用多个参数。例如,每个参数的值可以给出差异百分比,然后可以确定平均百分比。在另一实施方案中,每个参数对应于多维校准函数的不同维度,其中新样品的参数值对应于对应的多维表面上
的坐标。
[0578] 在另一实施方案中,第一测定或第二测定可以包括进行测序以确定样品中无细胞核酸分子的片段化模式,并将片段化模式与参考进行比较确定样品中无细胞核酸分子的片
段化模式是否指示癌症。虽然本文已提供了实例和实施方案,但是与例如确定片段化模式
相关的额外的技术和实施方案可见于例如于2016年7月25日提交的美国申请15/218,497,
其通过引用整体并入本文。可存在无细胞DNA的非随机片段化过程。非随机片段化过程在一定程度上可发生在含有无细胞DNA的各种类型的生物样品中,例如,血浆、血清、尿液、唾液、脑脊液、胸膜液、羊水、腹膜液和腹水。无细胞DNA可以天然以短片段的形式存在。无细胞DNA片段化可指当生成或释放无细胞DNA分子时,高分子量DNA(如细胞核中的DNA)被切割、破坏或消化成短片段的过程。
[0579] 无细胞DNA分子被切割的具体位置可以是非随机的。在体外剪切或超声处理的高分子量基因组组织DNA可示出显示DNA分子的终止位置随机分散在整个基因组中。然而,可
存在在样品如血浆中高度表示的无细胞DNA分子的某些终止位置。这样的终止位置的发生
或表示的数目在统计上可显著高于单独的几率预期。无细胞DNA片段化的过程可以是协调
的,甚至低至切割或裂解的特定核苷酸位置。
[0580] 为了反映片段化模式,可以基于母体血浆DNA的测序结果确定基因组的每个核苷酸的完整概率(PI)。
其中Nz是覆盖在靶核苷酸的两侧(5’和3’)的至少z个核苷酸(nt)的全长测序读取的数
目;并且NT是覆盖靶核苷酸的测序读取的总数目。
[0581] PI的值可以反映具有长度为z值的两倍加1(2z+1)的以特定位置为中心的完整DNA分子的概率。完整概率(PI)的值越高,血浆DNA在特定核苷酸位置被片段化的似然越小。
[0582] 在一个实施方案中,可以使用25作为z的值来计算PI。因此,完整的血浆DNA片段可被定义为覆盖靶位置上游至少25nt至靶位置下游25nt的片段。在其他实施方案中,可以使用z的其他值,例如但不限于10、15、20、30、35、40、45、50、55、60、65、70、75和80。
[0583] PI是终止于基因组位置窗口内的无细胞DNA分子的相对丰度的实例。可以使用其他度量,例如PI的倒数,其可与具有完整DNA分子的概率具有相反的关系。PI的倒数的较高值可指示作为终止位置或终止窗口的较高概率。其他实例是终止DNA片段的测量数目与终止
DNA片段预期数目的p值、终止于所有比对的DNA片段之外的DNA片段的比例或优选的末端终
止比(PETR)的比例,所有这些都在下文更详细地描述。所有这样的相对丰度的度量可测量
无细胞DNA片段终止于例如宽度是2z+1的窗口内的比率,其中z可以是零,从而使窗口等同
于基因组位置。
[0584] 基因组的某些区域可易于在特定组织中的染色体区域以更高比率(频率)断裂,因此终止于该区域的窗口内的无细胞DNA片段的比率更高。相对丰度的图可示出片段化模式,其可以具有周期性结构。周期性结构可示出最大终止位置(高裂解)的位置和最小终止位置
(低裂解)的位置。当使用PI时,最大值对应于低裂解窗口,因为PI可测量完整概率而不是裂解概率(终止位置概率),其彼此可具有相反关系。
[0585] 在一些情况下,血浆DNA的片段化在靠近转录起始位点(TSS)处不是随机的(参见例如,Fan等人PNAS 2008;105:16266-71)。任何血浆DNA终止于特定核苷酸的概率可随着与TSS的距离以大约核小体的大小的周期性而变化。这种片段化模式可能是DNA凋亡降解的结
果。血浆DNA的大小可类似于与组蛋白复合物相关的DNA的大小。
[0586] 血浆DNA的大小可类似于与核小体相关的DNA的大小(参见例如,Lo等人Sci Transl Med 2010;2(61):61ra91)。血浆DNA可以通过细胞DNA(核DNA和线粒体DNA)的凋亡
降解生成。在一些情况下,由于在一些情况下线粒体DNA与细胞中的组蛋白无关,因此在循环线粒体DNA中缺乏这种核小体模式。在一些情况下,血浆DNA片段终止的核苷酸位置在转
录起始位点附近不是随机的(参见例如,Fan等人PNAS 2008;105:16266-71)。
[0587] 血浆DNA的大小在具有不同序列背景的区域中可以是不同的(参见例如,Chandrananda等人BMC Med Genomics 2015;8:29)。无细胞DNA片段可以更可能起始和终止于核小体接头区域而不是在核小体核心处。完整概率可能存在核苷酸之间的变化。完整概
率的变化幅度可在不同的基因组区域之间变化。
[0588] PI的变化幅度可以在不同的基因组区域之间有所变化。PI的变化幅度可与凋亡期间染色质对降解的可及性有关。血浆DNA的片段化模式可能受其与TSS的相对位置的影响。
可以使用幅度对应于被测组织的其他位点。这样的位点类型的一个实例是使用通过高通量
测序(ATAC-Seq)进行的转座酶可及性染色质的测定所鉴别的位点(参见例如,Buenrostro
等人Nat Methods 2013;10:1213-1218)。这样的位点类型的另一实例是使用微球菌核酸酶(MNase)鉴别的位点。
[0589] 可以比较两种类型的基因组区域的PI变化的幅度:i.是TSS但非DNA酶超敏感位点的区域;以及
ii.是DNA酶超敏感位点但非TSS的区域。
[0590] 从ENCODE数据库(genome.ucsc.edu/ENCODE/downloads.html)可检索TSS和DNA酶超敏感位点的坐标。
[0591] 使用以下方法可分析TSS和DNA酶I位点周围的PI模式。1.可检索靶参考位点周围的上游和下游2kb区域。
2.然后根据到参考位点的距离可重新按比例确定绝对基因组坐标。例如,如果大小为
60bp的特定窗口在上游方向距参考位点50bp,则其可被标记为-50。另外,如果大小为60bp的特定窗口在下游方向距参考位点50bp,则其可被标记为+50。
3.可使用完整片段和与所述窗口重叠的所有片段的计数重新计算具有相同的重新按
比例确定的新坐标的特定窗口中的PI值。
[0592] DNA酶超敏感位点的相对位置可以是控制血浆DNA的片段化模式的重要因素。DNA酶超敏感位点的概况在不同类型的组织中可以是不同的。该概况可对应于位点的基因组位
置;对于不同组织,DNA酶超敏感位点的位置可以是不同的。因此,我们推断由不同类型的组织释放的血浆DNA可展现出组织特异性的片段化模式。以类似的方式,可以使用区域的幅度在组织之间变化的其他区域。
[0593] 衍生自组织A的血浆DNA在具有高PI的核苷酸位置(峰值,由P表示)处可具有较低的片段化概率。因此,衍生自组织A的血浆DNA的末端可具有较低的概率位于这些核苷酸位
置。相反,衍生自组织A的血浆DNA的末端可具有较高概率位于具有低PI的核苷酸位置(谷
值,由T表示)。另一方面,由于该位点不是组织B的DNA酶超敏感位点,因此衍生自组织B的血浆DNA的PI变化的幅度可以较低。因此,来自组织B的血浆DNA终止于位置P和位置T的概率可以是相似的,至少相对于针对组织A所看到的变化量。
[0594] 组织A的DNA酶超敏感位点区域处的片段末端比率(FRA)可定义如下:其中NT是终止于PI的谷的核苷酸位置的血浆DNA片段的数目,并且NP是终止于PI的峰的
核苷酸位置的血浆DNA片段的数目。FRA是分离值的实例,并且更具体地说是终止于谷的DNA片段相对于终止于峰的DNA片段的相对丰度。在其他实施方案中,可以确定相邻谷(局部最
小值)和峰(局部最大值)的单独比率,并且可以确定该分离比的平均值。
[0595] 对于组织A,FRA可大于1,因为NT可大于NP。对于组织B,FRA可为大约1,因为NT和NP可以是相似的。因此,在含有衍生自组织A和B两者的血浆DNA的混合物中,FRA的值可与组织A的比例贡献呈正相关。在实践中,组织B的FRA不需要是1。只要组织B的FRA与组织A的FRA不同,就可以从FRA确定两种类型的组织的比例贡献。
[0596] 在这样的区域中,DNA片段终止于谷的似然的高度变化可导致终止于这样的位置的DNA片段的数目高于终止于峰的数目(注意,对于不同定义的相对丰度值,峰可能出现较
高的似然)。当越多的DNA片段来自组织类型A时,终止于谷和峰的DNA片段的数目的差异越
大。因此,随着组织A的比例贡献增加,终止于谷的DNA片段的数目与终止于峰的DNA片段的数目之间的分离可以更大。该分离值对应于似然函数中的高幅度。
[0597] 只要其他组织的FRA相对恒定,可以针对组织A的比例贡献类似地分析含有超过两种类型的组织的混合物。这样的方法可在实践上可用于分析不同的临床情景,例如但不限
于癌症检测、移植监测、创伤监测、感染和产前诊断。
[0598] 在一个实施方案中,可以确定癌症患者的血浆中受影响组织的分数浓度。例如,在患有肝癌的患者中,肝DNA的分数贡献可以通过分析肝特异性开放染色质区域(例如,DNA酶超敏感位点)来确定。在一个实施方案中,这可以使用DNA酶-Seq完成(参见例如,Boyle等人Cell 2008;132:311-322;Madrigal等人Front Genet 2012;16:123-131)。在另一实施方案中,这可以通过甲醛辅助的调节元件分离(FAIRE)-Seq进行(参见例如,Giresi等人Genome Res 2007;17:877-885)。在又一实施方案中,这可以通过ATAC-Seq进行(参见例如,Buenrostro等人Nat Methods 2013;10:1213-1218)。可以在这些位点确定FR肝并将其与正常健康受试者进行比较。在肝特异性DNA酶超敏感位点处,峰和谷区域之间PI的变化可主要来自肝。通过与校准曲线进行比较,可以确定肝的贡献。可以将测试病例的FR肝值与健康受试者中肝的贡献范围进行比较。可以使用在混合物的各种组织中终止于基因组位置处的
DNA片段的似然函数具有高幅度变化的其他区域。在后面的章节中更详细地描述了这样的
其他区域的实例。
[0599] 类似地,可以通过该方法确定移植器官在已经接受了器官移植的患者中的贡献。具有排斥的患者可导致来自移植器官的DNA的释放增加,从而导致血浆中来自移植器官的
DNA的浓度升高。对移植器官的FR的分析可以是用于检测和监测器官排斥的有用的方式。用于这样的分析的区域可以根据所移植的器官而变化。
[0600] 本公开内容的一些实施方案可以包括分析生物样品以确定如本文所述的第一组织类型的比例贡献的分类。生物样品可包含来自包括第一组织类型在内的多种组织类型的
无细胞DNA分子的混合物。可以基于特定受试者选择第一组织类型(例如,肝组织)。例如,如果受试者先前患有肝癌,则可以进行筛查以检查肝癌是否已经恢复,这可导致肝组织的比
例贡献增加。这样的选择标准可应用于本文所述的其他方法。
[0601] 在一些实施方案中,可鉴别具有对第一组织类型具有特异性的片段化模式的至少一个基因组区域。作为实例,至少一个基因组区域可包含一个或多个DNA酶超敏感位点。具有对第一组织类型具有特异性的片段化模式的至少一个基因组区域中的每一个可以在至
少一个额外的样品中包含一个或多个第一组织特异性等位基因。作为另一实例,至少一个
基因组区域可包含一个或多个ATAC-seq或微球菌核酸酶位点。第一组织类型可对应于特
定,甚至对应于器官的特定癌症。
[0602] 在一些实施方案中,可分析来自生物样品的多个无细胞DNA分子。无细胞DNA分子的分析可包括确定对应于无细胞DNA分子的至少一个末端的参考基因组中的基因组位置
(终止位置)。因此,可以确定无细胞DNA分子的两个终止位置,或仅确定一个终止位置。
[0603] 在一些实施方案中,如本文所述,可以以多种方式确定终止位置。例如,可以对无细胞DNA分子进行测序以获得序列读取,并且可以将序列读取映射(比对)至参考基因组。如果生物体是人,则参考基因组可以是参考人基因组,在一些情况下来自特定亚群。作为另一实例,可以用不同探针分析无细胞DNA分子(例如,在PCR或其他扩增后),其中每个探针对应于可覆盖至少一个基因组区域的基因组位置。
[0604] 在一些实施方案中,可以分析无细胞DNA分子的统计上显著的数目,以便提供来自第一组织类型的比例贡献的精确确定。在一些实施方案中,分析至少1,000个无细胞DNA分
子。在其他实施方案中,可以分析至少10,000或50,000或100,000或500,000或1,000,000或
5,000,000个无细胞DNA分子或更多。
[0605] 在一些实施方案中,可鉴别第一集合的第一基因组位置。每个第一基因组位置具有对应于该第一基因组位置的无细胞DNA分子的末端的局部最小值。多个相邻基因组位置
可被定义为局部极值(最大值或最小值),因此局部最大值不限于仅一个位置。
[0606] 在一些实施方案中,可以确定多个基因组位置中的每一个的比率。可以确定终止于基因组位置并且延伸到基因组位置两侧至少指定数目的核苷酸的无细胞DNA分子的第一
量。位于基因组位置的无细胞DNA分子的第二量可以与第一量一起使用以确定比率。可以以比率鉴别多个局部最小值和多个局部最大值,例如,通过逐步分析比率值来鉴别在每个极
值(最大值或最小值)处出现的一个或多个连续基因组位置。
[0607] 在一些实施方案中,可鉴别第二集合的第二基因组位置。每个第二基因组位置具有对应于该第二基因组位置的无细胞DNA分子的末端的局部最大值。可以以与第一集合类
似的方式鉴别第二集合。
[0608] 在一些实施方案中,可确定终止于至少一个基因组区域的任一个中的第一基因组位置中的任一个的无细胞DNA分子的第一数目。可以以多种方式确定第一数目,例如,作为所有第一基因组位置的总和。作为另一实例,可以在每个基因组位置处确定单独的量。因
此,确定无细胞DNA分子的第一数目可以包括确定终止于每个第一基因组位置的无细胞DNA
分子的第一量,从而确定多个第一量。
[0609] 在一些实施方案中,可确定终止于至少一个基因组区域的任一个中的第二基因组位置中的任一个的无细胞DNA分子的第二数目。可以以与第一数目类似的方式确定第二数
目。因此,确定无细胞DNA分子的第二数目可以包括确定终止于每个第二基因组位置的无细胞DNA分子的第二量,从而确定多个第二量。
[0610] 在一些实施方案中,计算使用第一数目和第二数目的分离值。分离值可以以多种方式计算,例如,通过第一数目和第二数目的比率。在使用多个最大值和最小值的另一实现方案中,可以确定每个这样的基因组位置处的量。计算分离值可以包括确定多个分离比,每个分离比确定于多个第一量中的一个和多个第二量中的一个。可以使用多个分离比来确定
分离值,例如,分离比的平均值或中值。
[0611] 在一些实施方案中,可以通过将分离值与由第一组织类型的比例贡献已知的一个或多个校准样品确定的一个或多个校准值进行比较来确定第一组织类型的比例贡献的分
类。
[0612] 本公开内容的任何实施方案可包括测定,其中分析生物样品的无细胞DNA片段是无扩增的。当使用PCR时,测序深度(即参考基因组中覆盖特定核苷酸或终止于该特定核苷
酸的序列读取的数目)可不直接反映分析覆盖该特定核苷酸的血浆DNA分子的数目。这可以
由于一个血浆DNA分子可以在PCR期间生成多个重复,并且多个序列读取可以源自单个血浆
DNA分子。这种复制问题可因以下各项变得更加普遍,i)用于扩增测序文库的PCR循环的数
目较大;ii)增加的测序深度,以及iii)原始血浆样品(例如较小体积的血浆)中DNA分子的
数目较小。
[0613] 此外,PCR步骤可引入进一步的误差(Kinde等人Proc Natl Acad Sci USA 2011;108:9530-9535),因为在一些情况下DNA聚合酶的保真性不是100%,并且偶尔可将错误的
核苷酸掺入PCR子链。如果在早期PCR循环期间发生该PCR误差,则可生成显示相同误差的子分子的克隆。错误碱基的分数浓度可在来自同一基因座的其他DNA分子中达到较高的比例,以使得误差被错误解释,例如,错误解释为肿瘤衍生的突变。无PCR方案的实例包括:Berry Genomics(参见例如,investor.illumina.com/mobile.view?c=121127&v=203&d=1&id
=1949110);Illumina(参见例如,www.illumina.com/products/truseq-dna-pcr-free-
sample-prep-kits.html)和各种单分子测序技术。无扩增分析的进一步细节可见于PCT申
请号PCT/CN2016/073753,其通过引用整体并入本文。
[0614] 因此,一些实施方案可包括从待分析的生物样品获得模板DNA分子;使用模板DNA分子制备可分析DNA分子的测序文库,可分析DNA分子的测序文库的制备不包括模板DNA分
子的DNA扩增的步骤;对可分析DNA分子的测序文库进行测序以获得对应于第一多个无细胞
DNA分子的多个序列读取。分析第一多个无细胞DNA分子可以包括在计算机系统处接收多个
序列读取,并通过计算机系统将多个序列读取与参考基因组比对,以确定多个序列读取的
基因组位置。
[0615] 在一些实施方案中,可以使用组织特异性等位基因鉴别具有组织特异性片段化模式的区域。可对患有肝细胞癌(HCC)的患者的血浆(220x覆盖率)、血沉棕黄层(48x)和肿瘤
组织(45x)进行测序。可通过比较肿瘤组织和血沉棕黄层的基因型获得患者的突变谱。为了确定癌症衍生的血浆DNA片段的优选终止位置,我们分析了携带癌症突变的血浆DNA片段。
[0616] 图14示出了HCC患者的血浆DNA的非随机片段化模式的说明性实例。在该图的上部,每条水平线代表一个测序的DNA片段。浅灰色和深灰色线分别代表携带野生型和突变体等位基因的DNA片段。DNA片段的末端代表测序读取的终止位置。根据左侧外侧核苷酸的坐
标(最小基因组坐标)对片段进行分选。在图的下部,示出了终止于特定位置的片段的百分
比。X轴代表基因组坐标,并且突变位于由虚线指示的中心。
[0617] 可以使用泊松概率分布函数鉴别具有增加的概率作为携带突变体等位基因和野生型等位基因的血浆DNA片段末端的基因组位置。0.01的p值可用作阈值。反之亦然,如PCT申请号PCT/CN2016/073753中所述,即当鉴别出具有特定末端的血浆DNA分子时,这取决于
在血浆DNA数据解释中使用哪个集合的末端,分子上的SNP等位基因或突变可以更可能是癌
症衍生的或疾病相关的。
[0618] 图15是基因组坐标是具有突变位点的区域上的血浆DNA片段的终止位置的概率图。将具有显著增加的概率作为携带野生型等位基因和突变体等位基因的血浆DNA片段末
端的核苷酸位置的结果分别以浅灰色和深灰色示出。X轴代表基因组坐标,并且突变位于由虚线指示的中心。如图所示,存在仅对于突变特异性等位基因、仅对于野生型等位基因的终止位置具有较高发生率的坐标,且一些为二者所共享的。
[0619] 图16示出了在突变存在于肿瘤组织中的情况下,对血浆DNA片段在基因组位置上的终止位置的分析。集合E包括携带突变体等位基因的片段的优选终止位置。集合F包括携
带野生型等位基因的片段的优选终止位置。集合G包括这两种类型的血浆DNA片段的优选终
止位置。
[0620] 由于集合E位置是癌症衍生DNA的优选终止位点,而集合F位置是主要衍生自非肿瘤组织的背景DNA的优选终止位点,因此终止于这两个集合的位置的片段之间的比率可与
衍生自肿瘤的DNA相关。可以分析血浆含有至少1%的肿瘤衍生DNA的71名HCC患者的血浆。
可在之前分析这些患者的血浆DNA中的拷贝数异常,并可通过拷贝数异常的大小估计肿瘤
DNA分数(参见例如,Jiang等人Proc Natl Acad Sci U S A.2015;112:E1317-25)。终止于这两个集合的位置的片段之间的比率(比率M/WT)可定义为:
[0621] 观察到比率M/WT与血浆中的肿瘤DNA分数之间呈正相关(r=0.53,p<0.001,皮尔森相关性)。这些结果表明,终止于这些癌症优选的终止位置的片段数目可用于预测癌症患者血浆中肿瘤衍生的DNA的量。
[0622] 一些实施方案可通过多种癌症特异性或癌症相关变化(例如,单核苷酸突变)组合与癌症特异性或癌症相关DNA甲基化特征(例如,5-甲基胞嘧啶和羟甲基化的位置)、癌症特异性或癌症相关的短血浆DNA分子、癌症特异性或癌症相关的组蛋白修饰标记、以及癌症特异性或癌症相关血浆DNA末端位置的组合检测来增加可获得的信息性癌症DNA片段的数目。
某些癌症特异性或癌症相关变化可用作鉴别突变的过滤标准。
[0623] 在其他实施方案中,优选的终止位置可以通过以下来获得:(A)比较来自不同个体的血浆DNA片段的终止位置,或(B)比较来自一个个体的在不同时间点获取的样品的血浆
DNA片段的终止位置。
[0624] 在另一实施方案中,优选的终止位点可以通过确定终止于这样的位置的片段的数目与覆盖该位置但不终止于其上的片段的数目之间的比率来鉴别。
[0625] 图17示出了PETR的概念的图示。每条线代表一个血浆DNA片段。这些片段被标记为a至g。片段a、b、c和d终止于感兴趣的核苷酸上。片段e、f和g覆盖感兴趣的核苷酸但不终止于这样的位置上。在该说明性实例中,PETR等于4/3,即1.33。在其他实施方案中,分母可以是覆盖核苷酸的DNA片段的数目,不考虑该DNA片段是否终止于该位置。
[0626] PETR的计算可用于鉴别作为在患有不同疾病状况的个体中的优选末端的核苷酸位置。以下实例证明了PETR的效用。比较了先前提到的HCC患者和具有慢性乙型肝炎病毒
(HBV)感染但未患有癌症的受试者(HBV携带者)的血浆样品。将HBV携带者的血浆DNA样品测
序至215x单倍体基因组覆盖率。计算每个受试者的每个基因组位置的PETR。与HBV携带者相比,鉴别出有7,350,067个基因组位置(集合H)在HCC患者中相比于HBV携带者相比具有高至
少4倍的PETR。与HBV携带者相比,这些位置在HCC患者中具有增加至少4倍的几率作为血浆
DNA片段的末端。可以使用其他倍数差异,例如1.5倍、2倍和3倍。
[0627] 来自11名独立HCC患者的血浆样品进一步测序至更低的测序深度。从这11个血浆样品中获得了平均2800万个测序读取。计算这11名HCC患者中每一名的7,350,067个集合H
位置处的平均PETR,并与血浆中的肿瘤DNA分数相关联。如前所述,基于血浆中拷贝数异常的大小计算血浆中的肿瘤DNA分数(Chan等人Proc Natl Acad Sci U S A.2015;112:
E1317-25)。
[0628] 图18示出了11名HCC患者中的血浆中的肿瘤DNA分数与集合H位置的PETR之间的相关性。可以观察到两个参数之间的正相关性,从而表明HCC优选位置(集合H)处的平均PETR
可用于指示血浆中肿瘤DNA的量。
[0629] 为了显示HCC血浆DNA样品或HBV血浆DNA样品中存在的优选终止位置是肝相关的,我们搜索了在手术去除HCC之前和之后它们在收集自患者的血浆样品中的存在。数据示于
表5中。手术前和手术后样品分别测序至17x和20x单倍体基因组覆盖率。
[0630] 表5.表5示出了在去除患有HCC的患者的肝肿瘤的手术之前和之后收集的血浆样品中的HCC
优选终止位置和HBV优选终止位置。
[0631] 如表5所示,HCC优选的和HBV优选的终止位置的数目都有所减少。HBV数据表明,大多数优选的终止位置是肝衍生的,并且它们的减少是由于手术后肝细胞质量的减少。因此,肝衍生的无细胞DNA分子向血浆中的释放减少。有趣的是,注意到手术前样品中有超过5倍的HCC优选终止位置在手术后消失。显示手术后消失的一些优选末端是肝衍生的。鉴于观察到在相同的手术前样品中检测到比HBV优选末端更多的HCC优选末端,表明这些末端中的大
多数是HCC特异性的并且不仅仅归类为肝相关的。
[0632] 许多应用可衍生自这些数据。数据指示无细胞DNA或血浆DNA优选末端的检测可用于癌症治疗监测。例如,优选末端的手术后减少指示成功手术去除HCC。如果没有完全或成功地去除肿瘤,则在手术后血浆DNA优选末端的量或数量可不显示显著减少。这是因为剩余的肿瘤或转移灶可以是具有HCC优选终止位置的无细胞DNA或血浆DNA的持续释放的来源。
数据示出,基于无细胞DNA优选末端的分析的治疗监测可以在相对浅的测序深度实现。
[0633] 数据还显示,组织相关或癌症相关的血浆DNA优选的终止位置可用于鉴别病理学组织,包括携带癌症的组织。例如,可以使用衍生自不同器官的多个集合的无细胞DNA优选末端。然后,可以能够确定源自各个组织的无细胞DNA的相对量。因此,这可以作为无细胞DNA组织去卷积的方法。通过该方法示出的与由对照样品建立的参考值具有最大偏差(显著
增加或显著减少)的组织可以是具有病理学(例如炎症或病毒感染,如在慢性乙型肝炎病毒
携带者中)或癌症的器官或组织。
[0634] 支持血浆DNA HCC优选末端的另一块证据是癌症或HCC特异性,我们研究了示出HCC优选的或HBV优选的末端的血浆DNA分子的大小谱。在以HCC优选末端、HBV优选末端或共享末端终止的血浆DNA分子中检测短DNA(<150bp)的比例。表现出HCC优选末端的血浆DNA分
子通常比显示出HBV优选末端的血浆DNA分子短得多(短DNA的比例高)。Jiang等人(Jiang等
人Proc Natl Acad Sci U S A.2015;112:E1317-25)先前使用另一方法显示肿瘤衍生的血
浆DNA分子短于背景非肿瘤DNA。因为具有HCC优选末端的血浆DNA分子短得多,所以它们极
有可能是肿瘤衍生的。因此,可以富集具有短DNA的样品,可以提高在更低测序深度下检测具有HCC优选的末端的血浆DNA分子的几率。
[0635] 在另一实施方案中,HCC优选位置可以延伸以包括相邻核苷酸。可以确定终止于窗口A的片段数目与终止于窗口B内的片段数目之间的基于窗口的PETR(w-PETR)比率。可以调
整窗口A和窗口B的大小以实现期望的表现。不同窗口大小的表现可以通过实验获得。可以
将窗口A的大小设定为例如但不限于至少约5个碱基对(bp)、6bp、7bp、8bp、9bp、10bp、15bp、
20bp、25bp、30bp、40bp、50bp或100bp。窗口B的大小可大于窗口A的大小,并且可以设定为例如但不限于至少约20bp、25bp、30bp、40bp、50bp、60bp、70bp、80bp、100bp、120bp、140bp、
160bp、180bp或200bp。在下面的说明性实例中,窗口A和窗口B的大小分别设定为20bp和
150bp。
[0636] 还可以通过比较在不同时间点收集的样品的片段末端来获得特定状况的优选终止位置。例如,在癌症患者中,可以在诊断时收集一个血浆样品,并且可以在治疗后(例如,在手术切除肿瘤后)收集另一样品。终止位置的差异可反映癌症衍生的DNA在后者中的贡献
或对癌症的身体反应的缺乏。
[0637] 鉴于可以确定特定组织类型的优选终止位置,终止于这样的优选终止位置的无细胞DNA分子可以有较高的似然来自该组织。在一些情况下,无细胞DNA混合物中的特定组织
类型相对于其他组织类型可在特定基因组位置具有不同的基因型。例如,肿瘤组织可具有
不同的基因型。由于无细胞DNA分子可以有较高的似然来自感兴趣的组织类型,因此可以分析终止于这样的位置的无细胞DNA分子以确定该位置处的组织类型的基因型。以这种方式,优选的终止位置可以用作过滤器以鉴别来自该组织类型的DNA。例如,可以如上所述鉴别癌症优选的终止位置。可以鉴别并分析终止于癌症优选的终止位置的无细胞DNA分子。对于该集合的每个无细胞DNA分子,可以确定与该位置对应(例如,比对)的碱基,并且可以针对每个碱基计算总碱基的百分比。例如,可以确定在终止于该位置的无细胞DNA分子上见到的C
的百分比。如果在受试者的健康组织中没有见到C,则如果鉴别出足够数目的C(例如,高于阈值数),则可以将C鉴别为突变,该阈值数可以取决于样品中测量的肿瘤DNA分数。
[0638] 例如除了使用终止位置之外的其他标准可用于过滤来自肿瘤组织的无细胞DNA分子。
[0639] 通过将过滤标准应用于其中已经比对了具有突变的一个或多个序列读取的基因座,可以改善鉴别癌基因型(例如,包含癌症特异性突变)和使用这样的基因型(例如,使用突变负荷来确定癌症水平)的任何测试的特异性。作为癌症的实例,只有在具有高置信度与癌症相关时,才能通过将遗传或基因组特征评分为阳性来实现高特异性。这可以通过使可
能被错误鉴别为突变的测序和比对错误的数目最小化来实现,例如通过与一组健康对照的
基因组谱进行比较来实现,和/或可以通过与个体自身的组成性DNA进行比较来实现,和/或可以通过在与个体的在较早时间的基因组谱进行比较来实现。
[0640] 可以应用各种标准作为过滤标准,以评估无细胞DNA片段衍生自肿瘤并因此有资格成为信息性癌症DNA片段的似然。每种过滤标准可以单独地、独立地、在相等加权或不同加权的情况下共同地、或以指定的顺序连续地、或者根据先前的过滤步骤的结果有条件地
使用。对于条件使用,可以使用基于贝叶斯的方法,以及基于分类或决策树的方法。标准的单独使用可意指仅使用一个标准。独立使用可涉及超过一种过滤标准,但是每种过滤标准
不依赖于另一种过滤标准的应用(例如,可以进行平行应用),与特定顺序的连续应用形成
对比。作为使用加权的共同使用的实例,可以使用机器学习技术。例如,监督学习可以使用具有已知分类的样品所测量的突变负荷来训练任何模型。来自大量个体(例如,数百、数千或数百万个)的测序数据可用于训练模型。在更简单的形式中,这样的已知样品可用于确定由过滤标准确定的一个或多个评分的阈值,以确定突变是否有效。
[0641] 如果DNA片段示出超过一种癌症特异性变化,则可以给予更高加权的信息量或癌症特异性。许多癌症可包含总体上甲基化不足的核酸,尤其是在非启动子区域。血浆中的癌症DNA可短于非癌症DNA。肿瘤衍生的血浆DNA片段可倾向于在一些特定位置处片段化。因
此,大小较短(例如<150bp)(参见例如,Jiang等人Proc Natl Acad Sci USA 2015;112:
E1317-1325)、一个或两个末端落在癌症相关的末端位置、可显示单核苷酸突变、以及可定位于非启动子区域、以及可具有甲基化不足的CpG位点的血浆DNA片段可被认为更可能与癌
症相关。甲基化不足DNA的检测可以通过使用可以区分甲基胞嘧啶和非甲基胞嘧啶的亚硫
酸氢盐DNA转化或直接单分子测序来实现。本文描述了增加鉴别信息性癌症DNA片段的特异
性的过程、方案和步骤。例如,可以使用一个或多个过滤标准来增加特异性。例如,可以使用一种或多种过滤标准来增加特异性,如增加到至少80%、90%、95%或99%的特异性。
[0642] 如上所述,可以基于末端核苷酸的坐标(终止位置)进行潜在的癌症特异性或癌症相关突变的过滤。如上所述,可鉴别不是随机的并且基于起源组织而变化的DNA片段的末端位置。因此,末端位置可用于确定具有推定突变的序列读取实际上来自肿瘤组织的似然。
[0643] 血浆DNA的片段化模式可以是非随机的(参见例如,Snyder等人Cell 2016;164:57-68和PCT WO 2016/015058 A2)。血浆DNA片段化模式可以受贡献了血浆DNA分子的细胞
的基因组中的核小体定位、转录因子结合位点、DNA酶切割或超敏感位点、表达谱(参见例
如,Snyder等人Cell 2016;164:57-68和PCT WO 2016/015058;Ivanov等人BMC Genomics 
2015;16Suppl 13:S1)和DNA甲基化谱(参见例如,Lun等人Clin Chem 2013;59:1583-1594)的影响。因此,对于不同组织起源的细胞,片段化模式可以是不同的。虽然存在示出更频繁片段的基因组区域,但该区域内的实际血浆DNA切割位点可仍然是随机的。
[0644] 不同的组织可与具有不同切割位点或末端位置的血浆DNA片段的释放相关。换言之,特定的切割位点甚至也是非随机的。癌症患者中的血浆DNA分子的子集可示出与没有癌症的患者不同的末端位置。一些实施方案可使用具有这样的癌症相关末端位置的血浆DNA
分子作为信息性癌症DNA片段,或使用这样的末端位置信息作为过滤标准,例如,与一个或多个其他过滤标准一起使用。因此,通过鉴别这样的癌症相关的血浆DNA末端位置,可以将血浆DNA片段评分为信息性癌症DNA片段,或者基于这样的片段的末端位置的性质赋予差异
加权。这样的标准可用于评估片段源自癌症、某些器官或某些器官的癌症的似然。这样的加权可用于修饰特定DNA片段的特定碱基对在该位置所见的特定碱基的总百分比的贡献。
[0645] 因此,如果血浆DNA片段示出推定的突变和/或癌症相关的甲基化变化以及癌症相关的末端位置,则其是信息性癌症DNA片段的几率可大大提高。各个实施方案还可以考虑这样的片段的状态及其长度,或者这样的参数和其他参数的任何组合。对于具有两个末端(或至多四个末端,如以下部分所述)的血浆DNA片段,通过考虑其一个或两个末端是否与癌症
相关或来自与癌症相关的组织类型,可以进一步修改加权以将其鉴别为癌症衍生的片段。
在一个实施方案中,基于末端位置的类似方法也可用于检测与其他病理学或生物过程相关
的突变(例如,由于衰老过程的突变或由于环境诱变因子的突变)。
[0646] 通常,为了鉴别生物相关的血浆DNA末端位置,可以将来自具有不同是疾病或流行病学背景或生理谱的个体组的血浆DNA样品与来自没有这样的疾病或背景或谱的另一组个
体的样品进行比较。在一个实施方案中,可以对这些样品中的每一个进行深度测序,使得可以在每个样品中鉴别血浆DNA片段的共同末端位置。在另一实施方案中,来自具有互补谱的个体组的序列数据可以汇集在一起,以供鉴别代表疾病或生理谱的共同末端位置。
[0647] 可以单独询问样品中的每个血浆DNA片段,并基于末端位置分配似然评分。某个末端位置的似然评分可以取决于靶标个体(例如,癌症)终止于末端位置的序列读取的量(例
如,通过样品上的测序深度归一化的序列读取百分比或其他值)相对于对照组终止的序列
读取的量的分离。较大的分离可导致更高的特异性,并因此可以施加更高的似然评分。因
此,可以进行将具有特异性末端位置的血浆DNA片段分类成可能与疾病相关或不相关。
[0648] 或者,可以共同解释源自相同区域的血浆DNA片段,即可以通过相对于测序深度归一化来计算终止于特定核苷酸处的比率。以这种方式,某些核苷酸可以被鉴别为相对于基
因组中的其他位置是共同末端位置,例如,基于对特定类型的一个样品的分析,尽管可以使用更多样品。因此,可以进行将具有特异性末端位置的血浆DNA片段分类成可能与疾病相关或不相关的。对于示出高频率的具有这样的生物相关的血浆DNA末端位置的血浆DNA片段的
位置,可以确定这样的基因座富集了生物上相关的DNA,并因此被包括作为有高似然作为癌症相关的或与其他疾病或生物过程相关的血浆DNA片段的组。以与不同组之间的比较类似
的方式,似然水平可以基于给定核苷酸相对于其他核苷酸的比率有多高,如上所述。
5.突变状态测定
[0649] 本公开内容的一些实施方案可包括用于检测患者中生物样品的突变状态的测定。突变状态通常可以指样品中的癌症特异性变化或突变,或者突变负荷。虽然本文已提供了
实例和实施方案,但额外的技术和实施方案(例如,过滤技术、测序方法、截止值、确定癌症水平、突变分析)可见于例如于2013年6月14日提交的PCT/IB2013/054898和于2016年2月14
日提交的PCT/CN2016/073753,其每个通过引用整体并入本文。为了鉴别癌症突变并确定个体的突变负荷,实施方案可以用循环的无细胞DNA分析样品。已知肿瘤、癌症和恶性肿瘤将其DNA内容物释放到循环中(参见例如,Bettegowda等人Sci Transl Med 2014;6:
224ra24)。因此,可以在血浆和血清中检测与肿瘤、癌症和恶性肿瘤相关的突变。这样的突变还可以在其他体液中检测到,诸如但不限于尿液、其他泌尿生殖液、宫颈灌洗液、乳头排出液、唾液、胸膜液、腹水和脑脊液(参见例如,Togneri等人Eur J Hum Genet 2016;doi:
10.1038/ejhg.2015.281;De Mattos-Arruda等人Nat Commun 2015;doi:10.1038/
ncomms9839;Liu等人J Clin Pathol 2013;66:1065-1069)。
[0650] 可以在这些体液中检测到突变,这是因为细胞或无细胞DNA从与流体直接接触的器官直接脱落到流体中,例如从泌尿(例如,从肾或膀胱)或生殖(例如,从前列腺)道进入尿液、从血浆经肾进入尿液、从脑进入脑脊液、从胰腺进入胰液、从胆囊进入胆汁、从口咽进入唾液、从乳腺细胞进入乳头排出液、从腹部器官进入腹水或从肺进入胸膜液。此外,可以在体液中检测突变,这是因为它们部分衍生自血浆的过滤。因此,可以在体液中检测到血浆中的内容物,其包含来自具体液体部位更远的其他器官的肿瘤衍生的突变。
[0651] 检测血浆、血清和其他体液中的无细胞核酸的突变可以对开发癌症筛查测试具有吸引力,因为它们可以提供相对非侵入地获取肿瘤相关的遗传和基因组变化,并替代肿瘤
活检的直接评估。此外,可以在无细胞核酸群体中检测与肿瘤、癌症或恶性肿瘤相关的几乎所有形式的遗传和基因组变化。本文提供了癌症相关变化或癌症特异性变化的实例。癌症
特异性可以指可来自癌细胞的变化,并且癌症相关可指变化来自癌细胞或癌前病灶或者由
于解剖学接近、生理关联、发育关联或对癌症存在的反应而来自其他组织。由于非侵入性地获得肿瘤相关的遗传和基因组谱(特别是从血浆和无血清细胞核酸确定),因此如果用作筛
查测试,肿瘤相关谱可以在较短的间隔内重复测定(例如,几天或几周)以“纳入”或“排除”疾病,或更长的间隔如每两年、每年或每半年内重复测定。
[0652] 血浆DNA分子可以以短DNA片段的形式天然存在(参见例如,Yu等人Proc Natl Acad Sci USA 2014;111:8583-8588)。其长度可以是<200bp,并且可以在某些癌症相关位置处片段化,如本文更详细讨论的。人血浆中的大多数DNA分子可以源自造血细胞。当个体发生非造血系统恶性肿瘤时,特别是在早期阶段,肿瘤衍生的DNA可以代表与非肿瘤衍生的造血DNA的背景混合的血浆中的一小部分。血浆样品中肿瘤衍生的DNA的量可以表示为总
DNA的分数或者癌细胞的基因组当量或细胞当量的数目。在造血系统恶性肿瘤的情况下,可以预期血浆中恶性肿瘤相关的DNA的分数高于非造血系统恶性肿瘤中的分数,并且可以使
用本申请中描述的相同实施方案进行检测。
[0653] 在本公开内容中,描述了可以一般地应用于检测任何癌症的方案,只要肿瘤将DNA贡献至体液(参见例如,Bettegowda等人Sci Transl Med 2014;6:224ra24)。在一些情况
下,本文所述的实施方案不依赖于仅仅某种癌症类型典型的生物标志物的检测。用于区分
患有癌症和未患有癌症的个体的分类方案可以基于突变负荷评估,其也可一般应用于检测
任何癌症的目的。为了开发应用筛查具有高临床敏感性和特异性的其他癌症的测试,可能
需要检测大范围和大量突变的能力。有几个理由证明这个测试需求是合理的。与EBV与NPC
的关联不同,一些其他癌症不与可以相对容易地与非癌症人DNA区分开的非人遗传标志物
关联。因此,为了开发非EBV相关癌症的筛查测试,该测试可能需要检测其他种类的癌症相关的变化。
广度
[0654] 癌症可以是高度异质的。突变谱在不同器官的癌症之间可变化很大,在具有相同器官的癌症的不同受试者之间可变化很大,甚至在相同受试者的相同器官中的不同肿瘤病
灶之间可变化很大(Gerlinger等人N Engl J Med 2012;366:883-892)。因此,任一种肿瘤相关突变可以仅在任何癌症受试者的较小子集中是阳性的。例如,癌症体细胞突变目录
(COSMIC)数据库记录了可在肿瘤组织中检测到的遗传突变的范围(参见例如,
cancer.sanger.ac.uk/cosmic)。在一些情况下,每种肿瘤类型中仅一部分可以表现出癌症中最常鉴别的突变中的任一种。在一些情况下,较大比例肿瘤不具有COSMIC数据库中列出
的任一种排名靠前的突变的特征。换言之,如果基于排名靠前的突变的排除性检测来设计
癌症筛查测试,则在一些情况下由于缺乏这样的突变而可能无法检测到许多肿瘤。这些数
据表明,如本申请中的实施方案所证明的,检测大量体细胞突变的需要对于实现筛查测试
可以是重要的,该筛查测试可以对不同肿瘤具有一般性,但可以在较大比例的癌症患者中
产生阳性结果。
[0655] 为了开发用于癌症检测或初步筛查的血浆DNA测试,可以通过基因组内更广泛的搜索空间进行搜寻,以收集足够的突变(例如,相对于参考基因组如组成型基因组或亲本基因组的拷贝数变化和序列变体)或者其他癌症特异性变化或癌症相关变化(例如,甲基化变
化),以构成每个癌细胞共500个癌症特异性血浆DNA片段。假设在任一个肿瘤中发生任一个证据充分的癌症相关突变的几率是1%,该测试可能需要靶向50,000个推定的突变位点的
检测,以便每个肿瘤检测到至少500个突变(基于泊松概率分布)。可需要测试500,000个推
定的突变或癌症相关变化,以便具有代表任一个肿瘤的至少5,000个突变或癌症相关变化。
另一方面,如果在任一个肿瘤中发生任一个证据充分的癌症相关突变或变化的几率是
0.1%,那么可能需要测试50,000个突变或变化,以便具有代表任一个肿瘤的至少50个突变或变化。
[0656] 因此,为了使癌症筛查测试的癌症检测率或临床灵敏度最大化,测试m可能需要对样品中的血浆DNA片段实现广泛调查,以便鉴别携带任一类型的癌症相关变化或突变的足
够片段。调查的广度可以通过使用基因组范围的方法或覆盖大部分基因组的靶向方法来实
现,该靶向方法例如足以覆盖至少50,000个靶标。
深度
[0657] 调查的深度也很重要。根据每个肿瘤检测到的突变的数目,可需要检测携带突变的多个血浆DNA片段以达到指定的阈值,例如,对于癌细胞的每个基因组当量为500个信息
性癌症DNA片段。例如,如果在特定肿瘤中仅鉴别出一个突变,则可需要覆盖该突变的500个血浆DNA片段。另一方面,如果肿瘤中平均存在50个不同的突变,可需要检测覆盖这50个突变中的每一个的至少10个信息性癌症DNA片段。
[0658] 肿瘤DNA可代表血浆中的次要DNA群体。此外,一些癌症相关变化本质上可以是杂合的(即每个二倍体基因组有一个变化)。因此,为了检测每个基因座10个拷贝的信息性癌
症DNA片段(即,携带至少一个癌症相关变化的血浆DNA片段)的拷贝,可需要分析来自具有
20%肿瘤DNA分数的血浆样品中的基因座的至少100个分子。因此,检测覆盖任何单个突变
位点的多个血浆DNA片段的能力可取决于对血浆样品进行研究的深度。然而,血浆样品中可仅存在有限数目的癌细胞基因组,这可影响血浆DNA分析的深度和广度两者。
[0659] 为了说明早期癌症的检测,假设一个目的是开发可以检测样品中1%的肿瘤分数的测试或方案。假定每毫升血浆中可存在1,000个基因组当量的DNA,则在具有1%的肿瘤
DNA分数的毫升样品中可存在10个癌细胞当量的DNA。即使可以检测样品中的每个单个癌症
特异性DNA片段,也仅可能有任一种癌症相关变化最大10个基因组当量可用于检测。因此,即使已经预先知道肿瘤中存在特定突变,其靶向检测也只能在最佳情景下提供10个基因组
当量的信号,这可能在1%分数浓度下缺乏稳健检测癌症的分析灵敏度。如果待检测的突变是杂合的,则仅可能有5个示出改突变的血浆DNA片段。
[0660] 在具有1%的肿瘤DNA分数的最佳情景下,该突变位点处的分析的深度可以需要覆盖至少1,000倍,以能够检测具有突变的10个基因组当量的血浆DNA。在这种情况下,分析的广度可需要弥补每个突变位点检测到的相对较低的拷贝数。选择性检测少量甚至仅数百个
突变位点不太可能能够实现检测早期癌症的筛查测试所需的灵敏度。
[0661] 为了实现高PPV或高NPV,癌症筛查测试可能需要显示高特异性谱。可以在许多水平上实现高特异性。突变和待检测的任何癌症相关变化的特异性可能需要尽可能对癌症具
有特异性。这可以通过但不限于仅当有高置信度与癌症相关时才将遗传或基因组特征评分
为阳性来实现。这可以通过包括先前已在其他癌症中报道的特征来实现。例如,可以特别关注可在个体易感的癌症类型中普遍存在的特征,例如,基于其人口统计谱。或者,可以特别注意可能与受试者已经暴露于的诱变暴露相关的突变特征(参见例如,Alexandrov等人
Nature 2013;500:415-421)。这也可以通过使得可能被错误鉴别为突变的测序和比对错误的数目最小化来实现。这可以通过与一组健康对照的基因组谱进行比较来实现,和/或可以通过与个体自身的组成型DNA进行比较来实现。
[0662] 可以应用这些标准作为过滤标准,以评估血浆DNA片段衍生自肿瘤并因此有资格成为信息性癌症DNA片段的似然。每种过滤标准可以单独地、独立地、在相等加权或不同加权的情况下共同地、或以指定的顺序连续地、或者根据先前的过滤步骤的结果有条件地使
用。对于条件使用,可以使用基于贝叶斯的方法,以及基于分类或决策树的方法。独立使用可涉及超过一种过滤标准,但在一些情况下每种过滤标准不依赖于另一过滤标准的应用
(例如,可以进行平行应用),与特定顺序的连续应用形成对比。作为使用加权的共同使用的实例,可以使用机器学习技术。例如,监督学习可以使用具有已知分类的样品所测量的突变负荷来训练任何模型。
[0663] 来自大量个体(例如,数百、数千或数百万个)的测序数据可用于训练模型。在更简单的形式中,这样的已知样品可用于确定由过滤标准确定的一个或多个评分的阈值,以确定突变是否有效。
[0664] 在一个实施方案中,如果血浆DNA片段满足一些或所有标准,则可以认为其是信息性癌症DNA片段,而不满足一些或全部的其他片段可以被认为是非信息性血浆DNA片段。在
另一实施方案中,取决于其满足标准列表的强度,每个血浆DNA片段可以被赋予作为信息性癌症DNA片段的信息量的加权。在一些情况下,片段是肿瘤衍生的置信度越高,加权越高。在一个实施方案中,可以基于测试受试者的临床特征(例如,性别、种族、癌症的风险因素如吸烟或肝炎状态等)来调整加权。
[0665] 在另一水平上,癌症筛查测试的特异性可以通过评估癌症患者的血浆中可检测的癌症相关变化的量(例如,数目)是否反映出与针对癌症的预期相称的突变负荷来实现。在
一个实施方案中,可以比较血浆中的突变负荷与在组成型DNA中测量的突变负荷,例如,当相对于参考基因组确定突变负荷时。在其他实施方案中,可以比较血浆中的突变负荷与在
不同时间在受试者的血浆中、或在具有已知预后(好或差)的癌症患者的血浆中、或在健康
的无症群体的血浆中观察到的突变负荷。参考群体可以是年龄或性别或种族匹配的,因为
身体或组织中的突变负荷即使在未显示患有癌症的个体中也会随着年龄而增加(参见例
如,Slebos等人.Br J Cancer 2008;98:619-626)。可以进行广泛和深度的血浆DNA分析以捕获足够的突变负荷以增强癌症受试者与健康人群之间的区别。在一些情况下,不需要检
测血浆样品中的所有DNA片段以实现癌症检测,例如,如果样品具有足够的突变信息。
[0666] 在一个实施方案中,观察到的突变负荷是否提示癌症可以基于癌症特异性参考范围。不同器官的癌症可能具有突变负荷的预期范围。该数目可以是1,000至几万(参见例如,Lawrence等人Nature 2013;499:214-218)。因此,如果血浆DNA癌症筛查测试示出个体的突变负荷接近任何癌症组范围内的数目的证据,则可以进行癌症高风险的分类。在另一实施
方案中,如果个体血浆中的突变负荷显著高于从未患有癌症的健康群体建立的参考范围,
则可以进行癌症分类。
[0667] 显著更高的突变负荷的证据可以基于统计分布,例如,与对照参考数据的平均值相差超过三个标准偏差,或者是对照参考数据的中值的倍数,或者大于对照参考数据的特
定百分位数(例如第99百分位数),或者比对照参考数据的平均值、中值或第99百分位数至
少高1或2或3个数量级。可以使用冠状统计方法鉴别统计上显著增加的突变负荷。在另一实施方案中,分类可以考虑已显示影响癌症筛查测试的灵敏度和特异性概况的变量,如测量
的或推测的或推断的样品的肿瘤DNA分数、测序深度、测序广度和测序错误率。
[0668] 可以以各种方式确定突变负荷。突变负荷可以表示为检测到的突变的数目。可以将突变的数目相对于获得的测序数据的量进行归一化,例如,表示为测序核苷酸的百分比
或针对所进行的测序量的检测的突变的密度。还可以将突变的数目相对于人基因组的大小
进行归一化,例如,表示为基因组的比例或基因组内每个区域的密度。突变数目可以在进行突变负荷评估时在每个时刻进行报告,或者或可以随时间进行积分,例如,与先前评估相比的绝对变化、百分比变化或倍数变化。可以将突变负荷相对于分析的样品的量(例如,血浆体积)、从样品获得的DNA的量或者可分析或可序列DNA的量进行归一化。在一个实施方案
中,可以将突变负荷相对于测试受试者的生物计量参数例如体重、身高或身体质量指数进
行归一化。
[0669] 超深和超广的测序可用于实现癌症筛查测试的表现特征。本文描述了用于实现超深和超广测序的许多实施方案。这样的实施方案包括但不限于穷举测序、总模板测序、无
PCR测序、单分子测序(一种类型的无PCR测序)和靶向测序。可以使用方法的组合来实现所
需的深度和广度。这样的组合可以作为整体用于筛查程序,或用于筛查特定的个体或个体
组。
[0670] 出于癌症筛查的目的,为了检测来自血浆DNA测序的癌症相关突变,测序深度可以影响区分真正的癌症突变和由于测序错误的假阳性的能力。当血浆中的肿瘤DNA分数较低
时,可能需要更高的测序深度。使用动态截止值分析,当肿瘤DNA分数为2%时,200倍的测序深度可以能够检测5.3%的癌症相关突变。假设随机测序错误以0.3%的频率发生,检测到
的突变数目可能高于预期的假阳性数目。待搜索的基因组部分可以取决于肿瘤组织中预期
的突变数目。
[0671] 待搜索的基因组部分可能需要足够大以获得足够数目的待检测突变。该广度参数可以取决于肿瘤DNA分数的期望检测下限和待筛查的癌症类型。例如,在黑素瘤中,突变的中位频率可以是每1Mb约10。换言之,基因组中可能存在大约30,000个突变。假设肿瘤DNA分数是2%并且搜索基因组的1/10,可以预期通过200x的血浆DNA测序可以检测到大约159个
突变。另一方面,如果横纹肌样瘤(rhabdoid tumor)是待筛查的靶标,突变的中位频率可以是每1Mb仅0.2。因此,当肿瘤DNA分数为2%时,搜索1/10基因组可产生约3个癌症突变。在一些情况下,该数目不足以区分于测序错误。
[0672] 在一些情况下,出于癌症筛查的目的,不必要鉴别100%的癌症相关突变。在一个实施方案中,仅需要显示特定个体在血浆(或其他生物样品)中检测到的突变数目高于未患
有癌症的参考对照群体中的突变数目。然而,为了使该策略高度准确,在一些情况下,突变负荷评估方案所检测的真实突变的比例可能需要尽可能高(或者假阳性的比例可能需要尽
可能低),使得评估所检测的大量变体反映了癌症的存在。如果无法实现这一点,则样品中检测到的大量推定突变可简单地反映大量假阳性变体,并因此在一些情况下可不允许区分
患有癌症的受试者与未患有癌症的受试者。本申请中的实施方案描述了如何减少假阳性的
检测以及如何增加真正突变的检测以实现有效的突变负荷评估。
[0673] 通过穷举测序或其他技术(例如,多个靶向测序组的轻(light)(非穷举)测序)可以实现超深和超广测序。轻测序可用于使PCR重复最小化,从而可以获得所需的深度。可以使用多个靶向测序组来提供整个基因组的广泛覆盖。
[0674] 可使用各种过滤标准来确定生物样品的突变状态(例如,鉴别癌症相关的体细胞突变)。过滤标准的非限制性实例包括与参考基因组的再比对、基于大小的分析、组蛋白修饰分析、突变体分数、甲基化分析、血浆DNA末端位置和单链测序。
再比对
[0675] 可以分析被鉴别为具有体细胞突变的第一集合的候选基因座中的每一个。可以在再比对程序中进一步分析使用第一比对程序与候选基因座比对并具有序列变体的每一个
序列读取。可以使用第二比对程序来确定序列读取是否与候选基因座比对,该第二比对程
序使用与用于第一比对程序的不同的匹配算法。当序列读取使用第二比对程序与候选基因
座再比对时,可以确定第二比对程序的再比对的映射质量。
[0676] 一旦确定了第二比对的映射质量,可以将映射质量与质量阈值进行比较,以确定序列读取是否是较低质量的。然后可以基于映射质量与质量阈值的比较来确定是否丢弃该
序列读取。该确定可以是丢弃低于阈值的读取。在其他实施方案中,可以基于比较来确定评分(例如,权重),其中可以进行与多个质量阈值的比较以确定评分,例如,每个阈值对应于不同的再比对评分。然后,评分可以与来自一个或多个其他过滤标准的评分以共同方式使
用,以确定是否丢弃该读取。无论具体方式如何(并且包括上面提供的实例),映射质量小于质量阈值比映射质量大于质量阈值提供更高的丢弃序列读取的似然。
[0677] 作为该过滤过程的一部分,可以获得剩余的序列读取的数目。可以将剩余序列读取的数目与候选阈值进行比较,该候选阈值可以是最初用于鉴别候选基因座的相同阈值。
在与序列读取相似的似然分析中,可以基于剩余序列读取的数目与候选阈值的比较来确定
是否丢弃候选基因座。分析可以是严格基于与阈值的比较的,或者使用如上所述的评分(加权)系统。无论如何,剩余序列读取的数目小于候选阈值可以比剩余序列读取的数目大于候选阈值提供更高的丢弃候选基因座的似然。使用剩余的候选基因座,可以将过滤的基因座
集合鉴别为具有体细胞突变。
大小
[0678] 可以分析候选基因座的集合中的每一个。可以确定具有序列变体的第一组DNA片段与具有野生型等位基因的第二组DNA片段之间的大小差异。本文已经描述了这样的大小
分析。大小差异可以是两组的大小分布的任何统计值之间的。例如,可以使用第一组DNA片段与第二组DNA片段的中值大小的差异。另一实例可以是第一组与第二组之间的大小的累
积频率的最大值。任何大小值可以如例如美国专利公开2011/0276277和2013/0237431中所
述。
[0679] 可以将大小差异与大小阈值进行比较,该大小阈值可以由已知患有癌症的样品或被分类的其他状态确定。然后可以基于该比较确定是否丢弃候选基因座作为突变。至于其
他过滤标准,该比较可以严格使用或作为评分使用。无论如何,大小差异小于大小阈值可以比大小差异大于大小阈值提供更高的丢弃候选基因座的似然。使用剩余的候选基因座,可
以将过滤的基因座集合鉴别为在人受试者中具有体细胞突变。
组蛋白修饰
[0680] 可以鉴别已知与关联于癌症的组蛋白修饰相关的一组区域。可以通过基于候选基因座是否在该组区域之一中来确定是否丢弃候选基因座,从而分析候选基因座集合中的每
一个。至于其他过滤标准,该比较可以严格使用或作为评分使用。无论如何,候选基因座不在该组区域之一中可以比候选基因座在该组区域之一中提供更高的丢弃候选基因座的似
然。使用剩余的候选基因座,可以将过滤的基因座集合鉴别为在人受试者中具有体细胞突
变。
突变分数
[0681] 可以分析候选基因座中集合的每一个。可以确定具有序列变体的序列读取的分数,然后将其与分数阈值进行比较。然后可以基于比较确定是否丢弃候选基因座作为突变,例如使用评分或严格截止值。无论哪种方式,分数小于分数阈值比分数大于分数阈值提供
更高的丢弃候选基因座的似然(例如,5%、10%、20%或30%)。使用剩余的候选基因座,可以将过滤的基因座集合鉴别为在人受试者中具有体细胞突变。
[0682] 在一些实施方案中,可以基于生物样品中测量的肿瘤DNA的分数浓度来确定分数阈值。可以针对多个区域中的每一个测量生物样品中肿瘤DNA的分数浓度(例如,使用类似
技术,但数据对区域中的一个或多个基因座具有特异性)。用于候选基因座的分数阈值可以是针对候选基因座所驻留的区域测量的分数浓度。
[0683] 在另一实施方案中,异常区域可用于确定分数阈值。可以鉴别具有拷贝数异常的一个或多个异常区域。用于异常区域中的候选基因座的分数阈值可以取决于该异常区域表
现出拷贝数增加还是拷贝数丢失。较高的阈值可用于增加,并且较低的阈值可用于丢失。
[0684] 具有拷贝数异常的一个或多个异常区域也可以用作确定是否丢弃序列读取的一部分,以确定针对于过滤的基因座集合中的每一个具有相对于组成型基因组的序列变体的
序列读取的数目。来自表现出拷贝数增加的第一异常区域读取的第一序列比来自表现出拷
贝数丢失的第二异常区域读取的第二序列更可能具有体细胞突变。
[0685] 可以通过分析候选基因座集合来鉴别一个或多个异常区域。可以计算序列变体相对于组成型基因组的表观突变体分数。可以针对多个区域中的每一个确定异常区域中候选
基因座的表观突变体分数的方差。可以将方差与方差阈值进行比较,其中表现出拷贝数增
加的异常区域具有大于阈值的方差。
甲基化状态
[0686] 测序可以是甲基化感知测序。甲基化感知测序可以指其中确定多个基因组位置处的甲基化状态的任何测序方法(例如,亚硫酸氢盐测序)。可以分析候选基因座集合中的每
一个,其中每个序列读取与候选基因座进行比对并且具有所分析的序列变体。对于序列读
取,可以确定在一个或多个位点(例如,CpG位点)处对应的可分析DNA分子的甲基化状态。可以基于甲基化状态确定是否丢弃序列读取。至于其他过滤标准,该比较可以严格使用或作
为评分使用。无论如何,甲基化状态为未甲基化可比甲基化状态为甲基化提供更高的丢弃
序列读取的似然。
[0687] 可以将剩余序列读取的数目与候选阈值进行比较,候选阈值可以与用于鉴别候选基因座的阈值相同(对于其他过滤标准的候选阈值的其他使用也是如此)。在与序列读取相
似的似然分析中,可以基于剩余序列读取的数目与候选阈值的比较来确定是否丢弃候选基
因座。分析可以是严格基于与阈值的比较的,或者使用如上所述的评分(加权)系统。无论如何,剩余序列读取的数目小于候选阈值比剩余序列读取的数目大于候选阈值提供更高的丢
弃候选基因座的似然。使用剩余的候选基因座,可以将过滤的基因座集合鉴别为具有体细
胞突变。
血浆DNA末端位置
[0688] 对于血浆DNA末端位置,可以分析候选基因座集合中的每一个,每个序列读取与候选基因座进行比对并且分析序列变体。对于序列读取,可以确定对应于序列读取的末端所
比对位置的末端位置。可以将末端位置与多个癌症特异性或癌症相关的末端位置进行比
较。可以基于该比较来确定是否丢弃序列读取。末端位置不是癌症特异性或癌症相关的末
端位置的可以比末端位置是为癌症特异性或癌症相关的末端位置提供更高的丢弃序列读
取的似然。剩余的序列读取可用于确定是否丢弃候选基因座。
单链测序
[0689] 可以使用单链测序文库制备过程进行测序,该过程可以提供随后的测序步骤以针对每个模板DNA分子产生两条链读取。单链测序文库制备过程的一个实例描述于Snyder等
人Cell 2016;164:57-68。可以分析候选基因座集合中的每一个,每对链读取与待分析的候选基因座进行比对。可以确定两条链是否具有序列变体。然后可以基于两条链是否具有序
列变体来确定是否丢弃序列读取。两条链都不具有序列变体比仅一条链具有序列变体提供
更高的丢弃链读取的似然。剩余的序列读取可用于确定是否丢弃候选基因座。
测序
[0690] 在一些实施方案中,本公开内容的方法可包括对核酸(例如DNA片段)进行测序。可以使用本领域已知的任何方法对核酸进行测序。在一些实施方案中,测序可包括下一代测
序。在一些实施方案中,可以使用链终止测序、杂交测序、Illumina测序、ion torrent半导体测序、质谱测序、大规模平行签名测序(MPSS)、Maxam-Gilbert测序、纳米孔测序、聚合酶集落(polony)测序、焦磷酸测序(pyrosequencing)、枪法测序、单分子实时(SMRT)测序、SOLiD测序、通用测序或其任何组合对核酸进行测序。在一些实施方案中,测序可包括数字PCR。虽然本文已经提供了实例和实施方案,但是与例如数字PCR和随机测序相关的另外的
技术和实施方案可见于于2010年10月28日提交的美国专利8,722,334、于2007年7月23日提
交的美国临时申请60/951,438和于2013年7月8日提交的美国专利9,121,069,其每一个均
通过引用整体并入本文。
[0691] 核酸内特定核苷酸在测序过程期间被读取的次数或平均次数(例如,测序深度)可以比被测序的核酸的长度大数倍。在一些情况下,当测序深度相比核酸的长度足够大(例
如,至少5倍)时,该测序可被称为“深度测序”。在本文公开的任何实施方案中,对DNA片段进行测序可包括深度测序。例如,可以对DNA片段进行测序,使得测序深度比核酸长度大约20倍。在一些情况下,当测序深度比核酸长度大至少约100倍时,该测序可被称为“超深度测序”。在本文公开的任何实施方案中,对核酸进行分析可包括超深度测序。在一些实施方案中,测序深度可以是平均比被测序的核酸的长度大至少约5倍、至少约10倍、至少约20倍、至少约30倍、至少约40倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍、至少约100倍。
[0692] 在一些实施方案中,样品可针对特定分析物(例如,核酸片段或癌症特异性核酸片段)进行富集。在这样的富集后进行测序导致更高比例的所得序列数据与确定感兴趣区域
的序列相关,因为从感兴趣的区域生成更高百分比的序列读取,例如通过单分子测序。相对于原始样品中靶区域的浓度,可以实现感兴趣的靶区域的至少10倍、25倍、100倍、200倍、
300倍、500倍、700倍、1000倍、10,000倍或更多摩尔的富集。在一些实施方案中,可以使用下拉(pull down)测定来富集核酸。下拉测定可用于从样品选择性地提取核酸。在一些实施方案中,下拉测定可包含用高亲和力标签(例如,生物素)标记的DNA探针,其允许探针被回收或固定。在一些实施方案中,DNA探针可以与感兴趣的核酸片段(例如,癌症特异性DNA片段)结合。在回收探针后,可以解离核酸、DNA探针和/或高亲和力探针并将其分离以纯化目标核酸。
计算机系统
[0693] 本文提到的任何计算机系统都可以利用任何合适数目的子系统。在一些实施方案中,计算机系统包括单个计算机设备,其中子系统可以是计算机设备的组件。在其他实施方案中,计算机系统可以包括多个计算机设备,每个计算机设备是具有内部组件的子系统。计算机系统可包括台式计算机和膝上型计算机、平板计算机、移动电话和其他移动装置。
[0694] 子系统可以经由系统总线互连。附加子系统包括打印机键盘、存储装置和耦合到显示适配器的监视器。耦合到输入/输出(I/O)控制器的外围装置和I/O装置可以通过本领域已知的任何数目的连接如输入/输出(I/O)端口(如USB, )连接到计算机系
统。例如,I/O端口或外部接口(例如,以太网、Wi-Fi等)可用于将计算机系统连接到广域网如因特网、鼠标输入装置或扫描仪。经由系统总线的互连允许中央处理器与每个子系统通
信并控制来自系统存储器或存储装置(例如,固定磁盘如硬盘驱动器或光盘)的多个指令的
执行,以及子系统之间的信息交换。系统存储器和/或存储装置可以体现为计算机可读介
质。另一子系统是数据收集装置,如相机、麦克风、加速度计等。本文提到的任何数据都可以从一个组件输出到另一组件,并且可以输出给用户。
[0695] 计算机系统可以包括多个相同的组件或子系统,例如通过外部接口或通过内部接口连接在一起的组件或子系统。在一些实施方案中,计算机系统、子系统或设备可以通过网络进行通信。在这样的情况下,一个计算机可以被认为是客户端并且另一个计算机被认为
服务器,其中每个计算机都可以是同一计算机系统的一部分。客户端和服务器均可包含
多个系统、子系统或组件。
[0696] 实施方案的各方面可以以控制逻辑的形式使用硬件(例如,专用集成电路或现场可编程门阵列)和/或使用计算机软件借助一般可编程处理器以模块化或集成的方式来实
现。如本文所用,处理器包括单核处理器、同一集成芯片上的多核处理器或者单个电路板上或联网的多个处理单元。基于本文提供的公开内容和教导,本领域普通技术人员将知道并
理解使用硬件以及硬件和软件的组合来实现本文所述的实施方案的其他方式和/或方法。
[0697] 本申请中描述的任何软件组件或功能可以实现为由处理器执行的使用任何合适的计算机语言(例如,Java、C、C++、C#、Objective-C、Swift或脚本语言如Perl或Python)的使用例如常规或面向对象技术的软件代码。软件代码可以作为一系列指令或命令存储在计
算机可读介质上以供存储和/或传输。合适的非暂时性计算机可读介质可包括随机存取存
储器(RAM)、只读存储器(ROM)、磁介质如硬盘驱动器或软盘、或者光学介质如光盘(CD)或
DVD(数字通用光盘)的、闪速存储器等。计算机可读介质可以是这样的存储或传输装置的任何组合。
[0698] 还可以使用适于经由符合各种协议的包括因特网在内的有线、光学和/或无线网络传输的载波信号对这样的程序进行编码和传输。这样,可以使用用这样的程序编码的数
据信号来创建计算机可读介质。用程序代码编码的计算机可读介质可以与兼容装置一起打
包,或者与其他装置分别提供(例如,经由因特网下载)。任何这样的计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD或整个计算机系统)之上或之内,并且可以存在于系统或网络内的不同计算机产品之上或之内。计算机系统可以包括用于向用户提供本文
提到的任何结果的监视器、打印机或其他合适的显示器。
[0699] 本文描述的任何方法可以用包括一个或多个处理器的计算机系统完全地或部分地执行,该计算机系统可被配置用于执行步骤。因此,实施方案可以针对于被配置用于执行本文所述的任何方法的步骤的计算机系统,其中不同的组件执行各自的步骤或各自的步骤
组。尽管以编号的步骤呈现,但是本文方法的步骤可以同时或以不同的顺序执行。此外,这些步骤的部分可以与来自其他方法的其他步骤的部分一起使用。另外,步骤的全部或部分
可以是可选的。此外,任何方法的任何步骤可以通过模块、单元、电路或用于执行这些步骤的其他方法执行。
其他实施方案
[0700] 在一些方面,本公开内容描述了用于确定受试者的生物样品中组织类型或病原体的比例贡献的分类的方法。在一些实施方案中,该方法包括通过计算机系统分析来自受试
者的生物样品的第一多个无细胞核酸分子,其中分析包括确定对应于第一多个无细胞核酸
分子的至少一个末端的参考基因组中的基因组位置。在一些实施方案中,该方法包括确定
终止于多个窗口中的一个内的第一多个无细胞核酸分子的第一量,每个窗口包含第一集合
的基因组位置中的至少一个,在该基因组位置处组织类型或病原体的无细胞核酸分子的末
端以高于第一阈值的比率存在。与组织类型相关的技术也可用于病原体的贡献。
[0701] 在一些实施方案中,该方法包括通过使用来自生物样品的第二多个无细胞核酸分子的第二量使第一多个无细胞核酸分子的第一量归一化来计算终止于多个窗口中的一个
内的第一多个无细胞核酸分子的相对丰度,其中无细胞核酸分子的第二量包含终止于第二
集合的基因组位置处的第二多个无细胞核酸分子,其中第二集合的基因组位置使得来自参
考样品的无细胞核酸分子的末端以高于第二阈值的比率存在,并且其中来自参考样品的无
细胞核酸分子的序列对应于第一多个无细胞核酸分子的序列。在一些实施方案中,该方法
包括通过相对于由组织类型的比例贡献已知的一个或多个校准样品确定的一个或多个校
准值处理相对丰度来确定组织类型的比例贡献的分类。
[0702] 在一些实施方案中,来自生物样品的第一多个无细胞核酸分子包括EB病毒(EBV)DNA、人乳头瘤病毒(HPV)DNA或其片段。可以鉴别第一集合的基因组位置,在该基因组位置处第一组织类型的无细胞DNA分子的末端以高于第一阈值的比率出现。在一些实施方案中,鉴别第一集合的基因组位置包括通过计算机系统分析来自至少一个第一额外样品的第三
多个无细胞核酸分子,以鉴别第三多个无细胞核酸分子的终止位置,其中至少一个第一额
外样品已知包括组织类型并且与生物样品属于相同的样品类型。
[0703] 在一些实施方案中,鉴别第一集合的基因组位置包括,对于多个基因组窗口中的每个基因组窗口,计算终止于基因组窗口的第三多个无细胞核酸分子的对应数目。在一些
实施方案中,鉴别第一集合的基因组位置包括,对于多个基因组窗口的每个基因组窗口,将对应数目与参考值进行比较,以确定终止于基因组窗口内的一个或多个基因组位置上的无
细胞核酸分子的比率是否高于第一阈值。在一些实施方案中,多个基因组窗口中的第一基
因组窗口具有至少一个基因组位置的宽度,并且其中当对应数目超过参考值时,第一基因
组窗口内的每个基因组位置被鉴别为终止于基因组位置上的无细胞核酸分子的比率高于
第一阈值。在一些实施方案中,第一集合的基因组位置具有对应数目的最高N值,其中N为至少10,000。
[0704] 在一些实施方案中,该方法进一步包括确定第三多个无细胞核酸分子中的每一个的大小,其中鉴别第一集合的基因组位置进一步包括确定终止于第一基因组窗口内的确定
具有高于第一阈值的比率的第三多个无细胞核酸分子的无细胞核酸分子的大小分布的第
一统计值。在一些实施方案中,该方法进一步包括确定第三多个无细胞核酸分子中的每一
个的大小,其中鉴别第一集合的基因组位置进一步包括将第一统计值与大小阈值进行比
较。在一些实施方案中,该方法进一步包括确定第三多个无细胞核酸分子中的每一个的大
小,其中鉴别第一集合的基因组位置进一步包括当第一统计值不超过大小阈值时从第一集
合的基因组位置排除第一基因组窗口。
[0705] 在一些实施方案中,一个或多个校准样品包括至少一个第一额外样品。在一些实施方案中,该方法进一步包括,对于一个或多个校准样品中的每一个,确定组织类型的对应比例贡献。在一些实施方案中,该方法进一步包括,对于一个或多个校准样品中的每一个,使用终止于对应于第一集合的基因组位置的多个窗口内的第三多个无细胞核酸分子的对
应数目来确定对应的相对丰度,从而获得校准数据点,其中每个校准数据点指定额外生物
样品的组织类型所测量的比例贡献和对应的相对丰度。在一些实施方案中,一个或多个校
准数据点是形成逼近多个校准数据点的校准函数的多个校准数据点。
[0706] 在一些实施方案中,第一集合的基因组位置中的每个基因组位置具有至少指定数目的终止于该基因组位置上的第三多个无细胞核酸分子中的无细胞核酸分子。在一些实施
方案中,参考值是根据至少一个第一额外样品中的无细胞核酸分子的概率分布和平均长度
终止于基因组窗口内的无细胞核酸分子的预期数目。在一些实施方案中,概率分布是泊松
分布,并且其中确定终止于基因组窗口内的一个或多个基因组位置上的无细胞核酸分子的
比率是否高于第一阈值包括使用对应数目和预期数目确定对应p值,其中第一阈值对应于
截止p值,对应p值小于截止p值指示终止于基因组窗口内的无细胞核酸分子的比率高于第
一阈值。
[0707] 在一些实施方案中,终止于基因组位置上的第三多个无细胞核酸分子比率高于第一阈值的基因组位置构成第一超集,并且其中鉴别第一集合的基因组位置进一步包括通过
计算机系统分析来自被鉴别为具有减少量的组织类型的至少一个第二额外样品的第三多
个无细胞核酸分子,以鉴别终止于基因组位置上的第三多个无细胞核酸分子的第二超集高
于第一阈值。在一些实施方案中,终止于基因组位置上的第三多个无细胞核酸分子的比率
高于第一阈值的基因组位置构成第一超集,并且其中鉴别第一集合的基因组位置进一步包
括将第一集合的基因组位置鉴别为包含在第一超集中且不在第二超集中的基因组位置。在
一些实施方案中,参考值包括终止于基因组窗口内的无细胞核酸分子的测量数目,测量数
目由被鉴别为不具有组织类型的至少一个第二额外样品的第三多个无细胞核酸分子确定。
[0708] 在一些实施方案中,该方法进一步包括确定第三多个无细胞核酸分子中的每一个的大小,其中鉴别第一集合的基因组位置进一步包括确定终止于第一基因组位置上的确定
具有高于第一阈值的比率的第三多个无细胞核酸分子的无细胞核酸分子的第一大小分布
的第一统计值。在一些实施方案中,该方法进一步包括确定第三多个无细胞核酸分子中的
每一个的大小,其中鉴别第一集合的基因组位置进一步包括确定终止于一个或多个第二基
因组位置上的确定具有高于第一阈值的比率的第三多个无细胞核酸分子的无细胞核酸的
第二大小分布的第二统计值。在一些实施方案中,该方法进一步包括确定第三多个无细胞
核酸分子中的每一个的大小,其中鉴别第一集合的基因组位置进一步包括将第一统计值与
第二统计值进行比较。在一些实施方案中,该方法进一步包括确定第三多个无细胞核酸分
子中的每一个的大小,其中鉴别第一集合的基因组位置进一步包括当第一统计值不超过第
二统计值至少指定量以指示第一大小分布小于第二大小分布时,从第一集合的基因组位置
排除第一基因组位置。
[0709] 在一些实施方案中,将对应数目与参考值进行比较包括计算对应数目与覆盖基因组窗口的第三多个无细胞核酸分子的第三数目的第一比率。在一些实施方案中,将对应数
目与参考值进行比较包括将第一比率与参考值进行比较,所述参考值包括终止于基因组窗
口内的读取的测量数目与覆盖基因组窗口并且不终止于基因组窗口内的第三多个无细胞
核酸分子的第四数目的参考比率。在一些实施方案中,第三数目的第三多个无细胞核酸分
子不终止于所述基因组窗口内。在一些实施方案中,确定终止于基因组窗口内的无细胞核
酸分子的比率是否高于第一阈值包括确定第一比率是否大于乘积因子乘以参考比率。在一
些实施方案中,生物样品和至少一个第一额外样品的样品类型选自血浆、血清、脑脊液和尿液。
[0710] 在一些实施方案中,基因组窗口是基因组位置,并且其中组织类型具有多个组织特异性等位基因,并且其中计算终止于基因组位置上的第三多个无细胞核酸分子的对应数
目包括鉴别终止于基因组位置上的无细胞核酸分子是否包含多个组织特异性等位基因中
的至少一个。在一些实施方案中,基因组窗口是基因组位置,并且其中组织类型具有多个组织特异性等位基因,并且其中当无细胞核酸分子包含组织特异性等位基因时,计算终止于
基因组位置上的第三多个无细胞核酸分子的对应数目包括包含对应数目的无细胞核酸分
子。在一些实施方案中,基因组窗口是基因组位置,并且其中组织类型具有多个组织特异性等位基因,并且其中当无细胞核酸分子不包含组织特异性等位基因时,计算终止于基因组
位置上的第三多个无细胞核酸分子的对应数目包含不包含对应数目的无细胞核酸分子。
[0711] 在一些实施方案中,组织类型在至少一个额外样品中具有多个组织特异性等位基因,并且其中第一集合的基因组位置使用包含多个组织特异性等位基因中的至少一个的至
少一个额外样品的无细胞核酸分子确定。在一些实施方案中,该方法进一步包括鉴别第二
集合的基因组位置,其中该鉴别包括通过计算机系统分析来自参考受试者的参考样品的无
细胞核酸分子,其中分析多个无细胞核酸分子中的每一个包括确定对应于无细胞核酸分子
的至少一个末端的参考基因组中的基因组位置。在一些实施方案中,参考受试者是健康的。
在一些实施方案中,参考样品的无细胞核酸分子包括EBV DNA、HPV DNA或其片段。在一些实施方案中,相对丰度包括第一量与第二量的比率。
[0712] 在一些实施方案中,多个窗口具有一个基因组位置(例如,一个碱基)的宽度,并且其中相对丰度通过以下计算:对于第一集合的基因组位置中的每个基因组位置,计算终止于基因组位置上的第一多个无细胞核酸分子的对应数目,作为确定第一多个无细胞核酸分
子的第一数目终止于第一集合的基因组位置中的任一个的一部分。在一些实施方案中,多
个窗口具有一个基因组位置的宽度,并且其中相对丰度通过以下计算:对于第一集合的基
因组位置的中的每个基因组位置,计算覆盖基因组位置而不终止于该基因组位置上的第一
个多个无细胞核酸分子的第三数目,作为确定无细胞核酸分子的第二量的一部分。在一些
实施方案中,多个窗口具有一个基因组位置的宽度,并且其中相对丰度通过以下计算:对于第一集合的基因组位置中的每个基因组位置,计算对应数字与第三数字的第一比率。在一
些实施方案中,多个窗口具有一个基因组位置的宽度,并且其中相对丰度通过以下计算:对于第一集合的基因组位置中的每个基因组位置,计算第一比率的平均值作为相对丰度。
[0713] 在一些实施方案中,相对丰度通过以下计算:对于第一集合的基因组位置中的每个基因组位置,计算终止于包含基因组位置的第一窗口内的第一多个无细胞核酸分子的对
应数目,作为确定终止于多个窗口中的一个内的第一多个无细胞核酸分子的第一量的一部
分。在一些实施方案中,相对丰度通过以下计算:对于第一集合的基因组位置中的每个基因组位置,计算终止于包含基因组位置的第二窗口内的第一多个无细胞核酸分子的第三数
目,该第二窗口大于第一窗口。在一些实施方案中,相对丰度通过以下计算:对于第一集合的基因组位置中的每个基因组位置,计算对应数目与第三数目的第一比率。在一些实施方
案中,相对丰度通过以下计算:对于第一集合的基因组位置中的每个基因组位置,计算第一比率的平均值作为相对丰度。在一些实施方案中,第二集合的基因组位置与第一集合的基
因组位置不重叠。在一些实施方案中,第二集合的基因组位置包含对应于第一多个无细胞
核酸分子中的至少一个的末端的所有基因组位置。
[0714] 在一些实施方案中,分析一个或多个无细胞核酸分子包括确定对应于无细胞核酸分子的两个末端的两个基因组位置。在一些实施方案中,比例贡献的分类对应于高于指定
百分比的范围。在一些实施方案中,组织类型是肿瘤,并且肿瘤选自膀胱癌、骨癌、脑肿瘤、乳腺癌、宫颈癌、食管癌、胃肠癌(例如,结直肠癌)、造血系统恶性肿瘤、白血病、肺癌、淋巴瘤、骨髓瘤、鼻癌、鼻咽癌(NPC)、口癌、口咽癌、卵巢癌、前列腺癌、肉瘤、胃癌或甲状腺癌。在一些实施方案中,分类选自:受试者中肿瘤组织的量、受试者中的肿瘤大小、受试者中的肿瘤阶段、受试者中的肿瘤负荷以及受试者中肿瘤转移的存在。在一些实施方案中,一个或多个额外生物样品来自受试者并且与生物样品在不同的时间获得。在一些实施方案中,该方
法进一步包括从待分析的生物样品获得模板DNA分子。
[0715] 在一些实施方案中,该方法进一步包括使用模板DNA分子制备可分析DNA分子的测序文库,可分析DNA分子的测序文库的制备可包括或不包括模板DNA分子的DNA扩增的操作。
在一些实施方案中,该方法进一步包括对可分析DNA分子的测序文库进行测序以获得对应
于第一多个无细胞核酸分子的多个序列读取,其中分析第一多个无细胞核酸分子包括在计
算机系统处接收多个序列读取。在一些实施方案中,该方法进一步包括对可分析DNA分子的测序文库进行测序以获得对应于第一多个无细胞核酸分子的多个序列读取,其中分析第一
多个无细胞核酸分子包括通过计算机系统将多个序列读取与参考基因组进行比对以确定
多个序列读取的基因组位置。在一些实施方案中,该方法进一步包括基于分类提供治疗干
预或基于分类对受试者进行成像。在一些实施方案中,第一集合的基因组位置或第二集合
的基因组位置包含600至10,000个基因组位置。在一些实施方案中,所述无细胞核酸分子是脱氧核糖核酸(DNA)分子。
示例性系统
[0716] 图89说明了根据本发明实施方案的系统5900。所示系统包含样品5905,如样品架5910内的无细胞DNA分子,其中样品5905可与测定5908接触以提供物理特性5915的信号。样品架的实例可以是流动池,其包含测定的探针和/或引物或者小液滴通过其移动的管(其中
小液滴包含测定)。来自样品的物理特性5915(如荧光强度值)可以由检测器5920检测。检测器可以以一定间隔(例如,周期性间隔)进行测量以获得构成数据信号的数据点。在一个实
施方案中,模数转换器将来自检测器的模拟信号多次转换为数字形式。数据信号5925可以
从检测器5920发送到逻辑系统5930。数据信号5925可以存储在本地存储器5935、外部存储
器5940或存储装置5945中。
[0717] 逻辑系统5930可以是或可以包括计算机系统、ASIC、微处理器等。其还可以包括显示器(例如,监视器、LED显示器等)和用户输入装置(例如,鼠标、键盘、按钮等)或与之耦合。逻辑系统5930和其他组件可以是独立的或网络连接的计算机系统的一部分,或者它们可以
直接与热循环仪装置附接或并入热循环仪装置中。逻辑系统5930还可以包括在处理器5950
中执行的优化软件。
[0718] 本文提到的任何计算机系统都可以利用任何合适数目的子系统。这样的子系统的示例显示在图90中的计算机设备10中。在一些实施方案中,计算机系统包括单个计算机设
备,其中子系统可以是计算机设备的组件。在其他实施方案中,计算机系统可以包括多个计算机设备,每个计算机设备是具有内部组件的子系统。计算机系统可包括台式计算机和膝
上型计算机、平板计算机、移动电话和其他移动装置。
[0719] 图90中所示的子系统通过系统总线75互连。示出了附加子系统,诸如打印机74、键盘78、存储装置79、耦合到显示适配器82的监视器76等等。耦合到输入/输出(I/O)控制器71的外围和I/O装置可以通过本领域已知的任何数目的连接如输入/输出(I/O)端口77(如USB, )连接到计算机系统。例如,I/O端口77或外部接口81(例如,以太网、Wi-Fi
等)可用于将计算机系统10连接到广域网如因特网、鼠标输入装置或扫描仪。经由系统总线
75的互连允许中央处理器73与每个子系统通信并控制来自系统存储器72或存储装置79(例
如,固定磁盘如硬盘驱动器或光盘)的多个指令的执行,以及子系统之间的信息交换。系统存储器72和/或存储装置79可以体现为计算机可读介质。另一子系统是数据收集装置85,如相机、麦克风、加速度计等。本文提到的任何数据都可以从一个组件输出到另一组件,并且可以输出给用户。
[0720] 计算机系统可以包括多个相同的组件或子系统,例如通过外部接口81或通过内部接口连接在一起的组件或子系统。在一些实施方案中,计算机系统、子系统或设备可以通过网络进行通信。在这样的情况下,一个计算机可以被认为是客户端并且另一个计算机被认
为是服务器,其中每个计算机都可以是同一计算机系统的一部分。客户端和服务器均可包
含多个系统、子系统或组件。
[0721] 实施方案的各方面可以以控制逻辑的形式使用硬件(例如,专用集成电路或现场可编程门阵列)和/或使用计算机软件借助一般可编程处理器以模块化或集成的方式来实
现。如本文使用,处理器包括单核处理器、同一集成芯片上的多核处理器或者单个电路板上或联网的多个处理单元。基于本文提供的公开内容和教导,本领域普通技术人员将知道并
理解使用硬件以及硬件和软件的组合来实现本发明的实施方案的其他方式和/或方法。
[0722] 本申请中描述的任何软件组件或功能可以实现为由处理器执行的使用任何合适的计算机语言(例如,Java、C、C++、C#、Objective-C、Swift或脚本语言如Perl或Python)的使用例如常规或面向对象技术的软件代码。软件代码可以作为一系列指令或命令存储在计
算机可读介质上以供存储和/或传输。合适的非暂时性计算机可读介质可包括随机存取存
储器(RAM)、只读存储器(ROM)、磁介质如硬盘驱动器或软盘、或者光学介质如光盘(CD)或
DVD(数字通用光盘)、闪速存储器等。计算机可读介质可以是这样的存储或传输装置的任何组合。
[0723] 还可以使用适于经由符合各种协议的包括因特网在内的有线、光学和/或无线网络传输的载波信号对这样的程序进行编码和传输。这样,可以使用用这样的程序编码的数
据信号来创建计算机可读介质。用程序代码编码的计算机可读介质可以与兼容装置一起打
包,或者与其他装置分别提供(例如,经由因特网下载)。任何这样的计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD或整个计算机系统)之上或之内,并且可以存在于系统或网络内的不同计算机产品之上或之内。计算机系统可以包括用于向用户提供本文
提到的任何结果的监视器、打印机或其他合适的显示器。
[0724] 本文描述的任何方法可以用包括一个或多个处理器的计算机系统完全地或部分地执行,该计算机系统可以被配置用于执行操作。因此,实施方案可以针对于被配置用于执行本文所述的任何方法的操作的计算机系统,可能具有不同的组件来执行各自的操作或各
自的操作组。尽管以编号的操作呈现,但是本文方法的操作可以同时或以不同的顺序执行。
此外,这些操作的部分可以与来自其他方法的其他操作的部分一起使用。另外,操作的全部或部分可以是可选的。此外,任何方法的任何操作可以通过模块、单元、电路或用于执行这些操作的其他方法来执行。
实施例
实施例1.使用qPCR和下一代测序筛查鼻咽癌
[0725] 如图22所示,使用单独的血液收集管获得两个血液样品2201。通过在系列2202中进行2次离心,从含有无细胞DNA(cfDNA)的血浆中去除细胞。以2,000x g进行离心10分钟以从血浆样品耗尽血小板和细胞。使用来自收集的两个血液样品之一的大约0.8毫升血浆进
行qPCR分析以检测样品中肿瘤衍生的DNA的拷贝数2203。对血浆样品进行cfDNA提取2204以
富集血浆样品的cfDNA,并制备样品用于qPCR分析。确定qPCR分析的变性、退火和延伸温度
2205(例如,基于所用引物的长度/GC含量,和/或样品中的总cfDNA的浓度),并且进行qPCR分析2206以检测样品中肿瘤衍生的cfDNA的量。为了检测EBV DNA,使用在基因组的BamHI序列侧翼的引物。如果检测到的EBV DNA的量低于阈值2207,则提供阴性结果并且不进行第二测定。如果检测到的cfDNA的量等于或高于阈值2208,则使用来自收集的第二血液样品的血浆进行第二测定。将大约4毫升的血浆用于下一代测序2209,以确定样品中cfDNA的大小分
布。对第二血浆样品进行cfDNA提取2210以富集血浆样品的cfDNA,并制备样品用于下一代
测序分析。进行文库制备2211以将接头寡核苷酸连接到待测序样品中的cfDNA片段。使cf 
DNA被片段化为用于下游平台的最佳长度(例如,。因为DNA片段化不产生均匀的平端片段,所以需要进行末端修复以确保每个分子没有突出端,并含有5′磷酸和3′羟基基团。如果需要,可以进行称为dA加尾的过程,即将非模板化的脱氧腺苷5′-单磷酸(dAMP)掺入平端化的DNA片段的3′端。进行EBV DNA的靶向富集2212;EBV DNA的靶向富集使得能够对特定感兴趣的区域而不是整个基因组进行测序,从而实现更灵敏的拷贝数检测。对富集样品进行下一
代测序2213。获得对应于富集血浆样品中的测序cfDNA的序列读取,并任选地与参考基因组进行比对。进行分析,例如评估EBV量并输出生成的报告中EBV DNA片段的大小谱2214A,从而指示样品从其获得的受试者是否患有鼻咽癌2215。
实施例2.通过对初始血液样品进行下一代测序测定,改善NPC检测的假阳性率和阳性
预测值
[0726] 为了研究血浆EBV DNA是否可用于筛查无症状个体中的早期NPC,使用血浆EBV DNA分析筛查了20,174名没有NPC症状的受试者。具有可检测的血浆EBV DNA的受试者在大
约4周后通过随访血浆EBV DNA分析进行再测试。通过鼻内窥镜检查和鼻咽的磁共振成像
(MRI)进一步研究在两个系列分析中具有持续阳性结果的受试者。在招募的20,174名受试
者中,1,112名在入选时对血浆EBV DNA呈阳性。其中309名在随访测试中呈持续阳性。在对血浆中是EBV DNA呈持续阳性的受试者队列中,在用鼻内窥镜检查和MRI进行研究后随后确
认34名患有NPC。这些结果示出,具有初始阳性血浆EBV DNA结果的受试者的再测试可以将
NPC受试者与具有瞬时阳性结果的受试者区分开,并且显著降低需要更具侵入性和昂贵的
研究(即内窥镜检查和MRI)的受试者的比例。然而,血浆EBV DNA的连续测试可需要从具有
初始阳性结果的受试者收集额外的血液样品,这可能带来后勤挑战。
[0727] 进行了用于基于血浆EBV DNA片段化模式的分析,用可检测的血浆EBV DNA区分NPC受试者和非NPC受试者的方法。对初始(第一)血液样品进行下一代测序测定。基于下一
代测序的测定分析初始(第一)血液样品中EBV DNA的片段化模式和/或大小谱。
[0728] 设计研究来分析生物库中的初始(第一)血液样品;使用4ml血液样品。建立了训练队列和验证队列。训练集包含15个瞬时阳性样品;20个持续阳性样品和10个来自确认患有
NPC的受试者的样品;训练集的所有样品来自20,174名受试者的队列。验证集包含56个瞬时阳性样品;44个持续阳性样品和29个来自确认患有NPC受试者的样品;所有瞬时阳性样品和持续阳性样品,以及来自确认患有NPC的受试者的22个样品来自20,174名受试者的队列,并且来自确认的NPC受试者的7个样品来自独立队列。进行下一代测序以评估EBV DNA片段的
EBV数量和大小谱。
[0729] 对于训练集,图91A示出了在对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者(分别为左或中)和被鉴别为患有NPC的受试者(右)中映射到EBV基
因组的血浆DNA片段的比例。在靶向捕获后使用大规模平行测序并对DNA片段进行测序,如
从所有测序读取中独特映射到EBV基因组的读取比例推导的,EBV数量存在统计上显著的差
异(p值<0.0001;Kruskal-Wallis检验)。在一个实施方案中,可以将映射到EBV基因组的血浆DNA片段的比例的截止值确定为低于被分析的NPC患者的最低比例的任何值。在当前实例
中,可以设定0.0009%的截止值以捕获所有NPC患者。在其他实施方案中,可以确定截止值,例如但不限于NPC患者的平均比例减去一个标准偏差(SD)、平均值减去2SD以及平均值减去
3SD。在另外其他的实施方案中,可以在映射到EBV基因组的血浆DNA片段的比例的对数转换后确定截止值,例如但不限于在NPC患者的值进行对数转换后用平均值减去SD、平均值减去
2SD、平均值减去3SD。在另外其他的实施方案中,可以使用接受者操作特征(ROC)曲线或通过非参数方法来确定截止值,例如但不限于包括所分析的NPC患者的约100%、约95%、约
90%、约85%或约80%。通过对所有测序读取的血浆EBV DNA片段的比例应用0.0009%的截止值,能够区分患有NPC和具有持续阳性血浆EBV DNA的受试者与具有瞬时阳性血浆EBV 
DNA结果的大多数受试者。血浆中EBV读取的比例在患有NPC的受试者组中最高。与具有瞬时可检测的血浆EBV DNA的患者相比,具有持续阳性结果的受试者中血浆EBV DNA片段的比例
更高。评价具有高于0.0009%截止值的值的样品(5个瞬时阳性样品;13个持续阳性样品和
10个NPC样品)的大小指数。
[0730] 在一些实施方案中,可以使用被设计用于与176个EBV基因组的任何部分结合的捕获探针进行靶向捕获。在一些实施方案中,捕获探针可以是生物素化的,并且磁珠(例如,链霉抗生物素蛋白包被的珠子)用于在文库制备后下拉或富集与核酸靶标(例如,EBV基因组
片段)杂交的捕获探针。在一些实施方案中,所用的捕获探针组也可以靶向人基因组的一部分。例如,捕获探针可以设计成与一个或多个染色体(例如,染色体1、8和/或13的拷贝)的至少一部分杂交。在一些实施方案中,使用组中的捕获探针靶向至少约1mb、至少5mb、至少
10mb、至少20mb、至少30mb、至少40mb、至少50mb、至少60mb、至少70mb、至少80mb、至少90mb或至少100mb的人基因组。在一些实施方案中,捕获探针组可以下拉对应于EBV的约285个序列读取。在一些实施方案中,捕获探针组可以下拉对应于人基因组的约4,000万个序列读
取。
[0731] 对于训练集,图91B示出了在对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者(分别为左或中)和被鉴别为患有NPC的受试者(右)中的大小指数
(例如,大小比率的倒数)。大小指数可定义为大小比率的倒数,并且大小比率可定义为一定大小范围内的血浆EBV DNA片段的比例除以对应大小范围内的常染色体DNA片段的比例。基
于血浆EBV DNA读取的大小谱的差异区分患有NPC的受试者与具有持续阳性血浆EBV DNA的
受试者。在一个实施方案中,大小指数的截止值可以确定为低于所分析的NPC患者的最低比例的任何值。在当前实例中,可以设定大于0.143%的截止值(即,大小比率小于7)以捕获所有NPC患者。在其他实施方案中,可以确定截止值,例如但不限于NPC患者的平均大小指数减去一个标准偏差(SD)、平均值减去2SD以及平均值减去3SD。在另外其他的实施方案中,可以在映射到EBV基因组的血浆DNA片段的比例的对数转换后确定截止值,例如但不限于在NPC
患者的值进行对数转换后用平均值减去1SD、平均值减去2SD、平均值减去3SD。在另外其他的实施方案中,可以使用接受者操作特征(ROC)曲线或通过非参数方法来确定截止值,例如但不限于包括所分析的NPC患者中的100%、95%、90%、85%或80%。使用大小指数大于
0.143的截止值,区分患有NPC的受试者与具有持续阳性血浆EBV DNA的大多数受试者。所有NPC患者具有大于0.143的大小指数。
[0732] 对于验证集,图92A示出了在对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者(分别为左或中)和被鉴别为患有NPC的受试者(右)中映射到EBV基
因组的血浆DNA片段的比例。在靶向捕获后使用大规模平行测序并对DNA片段进行测序,如
从所有测序读取中独特映射到EBV基因组的读取比例推导的,EBV数量存在统计学上显著的
差异(p值<0.0001;Kruskal-Wallis检验)。通过对所有测序读取的血浆EBV DNA片段的比例应用0.0009%的截止值,能够区分患有NPC和具有持续阳性血浆EBV DNA的受试者与具有瞬
时阳性血浆EBV DNA结果的大多数受试者。血浆中EBV读取的比例在患有NPC的受试者组中
最高。与具有瞬时可检测的血浆EBV DNA的患者相比,具有持续阳性结果的受试者中血浆
EBV DNA片段的比例更高。评价高于截止值的样品(18个瞬时阳性样品;35个持续阳性样品
和29个NPC样品)的大小指数。
[0733] 对于验证集,图92B示出了在对血浆EBV DNA呈瞬时阳性或呈持续阳性但不具有可观察的病理学的受试者(分别为左或中)和被鉴别为患有NPC的受试者(右)中的大小指数
(例如,大小比率的倒数)。大小指数可定义为大小比率的倒数,并且大小比率定义为一定大小范围内的血浆EBV DNA片段的比例除以对应大小范围内的常染色体DNA片段的比例。基于
血浆EBV DNA读取的大小谱的差异区分患有NPC的受试者与具有持续阳性血浆EBV DNA的受
试者。使用大小指数大于0.143的截止值,区分患有NPC的受试者与具有持续阳性血浆EBV 
DNA的大多数受试者。所有NPC患者具有大于0.143的大小指数。
[0734] 图93示出了验证集的分析的概述。分析开始于包含56个瞬时阳性样品;44个持续阳性样品和29个确认NPC样品的验证集。将受试者中映射到EBV基因组的血浆DNA片段的比
例的截止值设置为0.0009%,18个瞬时阳性样品高于阈值;35个持续阳性样品高于阈值;并且29个NPC样品高于阈值。使用大于0.143的大小指数截止值,4个瞬时阳性高于截止值,4个持续阳性高于截止值,并且29个NPC高于截止值。
[0735] 开始于20,000名受试者队列,1,112名受试者对血浆EBV DNA呈阳性。这些受试者中有34名患有NPC;1078名是假阳性的。使用EBV数量的基于下一代测序的测定和大小谱分
析,估计假阳性数目减少至82个(803个瞬时阳性样品x(4/56)+275个持续阳性x(4/44),给
出82个假阳性的估计)。初始测定的假阳性率为5.4%(1078/(20174-34)*100%)。使用EBV
数量的下一代测序测定和大小谱分析可以将假阳性率降低至0.4%(82个假阳性/(20,174-
34)总数*100%)。初始测定的阳性预测值为3.1%(34/1112*100%)。使用EBV数量的下一代测序测定和大小谱分析可以将阳性预测值提高至29.3%(34个真阳性/(34个真阳性+82个
假阳性)*100%=29.3%)。提供了改善的假阳性和阳性预测值,而不包含灵敏度,所有这些都基于初始血液样品。
实施例3.使用核酸拷贝数和大小分析检测受试者中的鼻咽癌
[0736] 42岁的无症状男性患者在常规的一年两次的评价呈现鼻咽癌。抽取外周血以评价受试者血浆中的细胞外(例如,无细胞)肿瘤衍生的EB(EBV)DNA的存在。通过使用冷冻离心
机以2,000x g离心5分钟从含有EBV DNA的血浆去除细胞。以2,000x g离心15分钟耗尽血浆
样品中的血小板。离心后,立即使用巴斯德吸管将血浆样品转移到干净的聚丙烯管中。处理时将样品保持在2-8℃下。
[0737] 当受试者在诊所等待结果时,进行包括定量PCR(qPCR)在内的第一测定。使用对EBV DNA内的BamHI识别序列(5’-GGATCC-3’)敏感(例如,与侧翼序列结合)的引物集进行
qPCR测定。在确定每毫升受试者血液的EBV DNA拷贝数(拷贝/mL)后,将该值与100个拷贝/
mL的截止阈值进行比较。
[0738] 如果受试者的EBV DNA血液水平超过阈值,则进行包括血浆样品中无细胞DNA片段的大小分析在内的第二测定。首先进行配对末端测序以获得对应于样品中无细胞DNA片段
的每个末端的序列读取。将序列读取与参考基因组进行比对以确定参考基因组中每对序列
读取的位置,并将无细胞DNA片段的大小确定为每个序列读取的外侧末端之间的距离。对样品中的每个无细胞DNA片段进行测序和比对,以获得对应于无细胞DNA片段大小的分布。如
果确定受试者样品中长度低于150个碱基对的无细胞DNA片段的比例大于10%的截止值,则
认为在受试者中检测到鼻咽癌。
实施例4.进行靶向富集以改善检测受试者中的鼻咽癌的特异性
[0739] 检测肿瘤衍生的核酸的特异性可以与样品中肿瘤衍生的核酸的浓度成比例。因此,靶标特异性富集可用于增加样品中肿瘤衍生的核酸的浓度。
[0740] 将从人类患者获得的血液样品离心以将血浆与剩余的血液组分(例如,红细胞、白细胞和血小板)分离。通过使用冷冻离心机以1,000x g离心10分钟来从血浆去除细胞。以2,
000x g离心15分钟耗尽血浆样品中的血小板。离心后,立即使用巴斯德吸管将血浆样品转
移到干净的聚丙烯管中。处理时将样品保持在2-8℃下。具有与EBV DNA中的BamHI序列(5’-GGATCC-3’)互补并能够与之结合的序列的DNA探针用于进行样品中EBV DNA片段的靶向富
集。还用高亲和力标签(例如,生物素)来标记DNA探针,这允许回收靶标结合的探针。在回收靶标结合探针后,将EBV DNA解离并与探针分离。随后,根据实施例1中所述的方法(例如,第一测定和第二测定)分析富集的样品。
实施例5.使用核酸拷贝数和序列分析检测受试者中的口咽癌
[0741] 54岁的女性吸烟者呈现口腔出血、耳痛和吞咽困难。抽取外周血以评价受试者血浆中细胞外(例如,无细胞)肿瘤衍生的人乳头瘤病毒(HPV)DNA的存在。通过使用冷冻离心
机以1,500x g离心8分钟从含有HPV DNA的血浆去除细胞。以2,000x g离心15分钟耗尽血浆
样品中的血小板。离心后,立即使用巴斯德吸管将血浆样品转移到干净的聚丙烯管中。处理时将样品保持在2-8℃下。当受试者在诊所等待结果时,进行包括定量PCR在内的第一测定。
在确定每毫升受试者血液的HPV DNA拷贝数(拷贝/mL)后,将该值与80个拷贝/mL的截止阈
值进行比较。
[0742] 如果受试者的HPV DNA血液水平超过阈值,则进行包括血浆样品中无细胞DNA片段的大小分析在内的第二测定。进行大规模平行测序以获得对应于样品中无细胞DNA片段的
每一个的序列读取。将序列读取与参考基因组进行比对以确定参考基因组中序列读取的位
置,并确定具有至少一个序列突变的无细胞DNA片段的数目。如果确定具有序列突变的无细胞DNA片段的比例大于3%的截止值,则在受试者中检测到口咽癌。
实施例6.使用大小分析检测癌症的存在,并使用甲基化分析检测起源组织
[0743] 21岁的无症状女性患者在常规的一年一次的评价呈现癌症。抽取外周血以评价受试者血浆中短(例如,长度小于150个碱基对)细胞外(例如,无细胞)DNA片段的存在。通过使用冷冻离心机以2,000x g离心5分钟来从含有无细胞DNA的血浆去除细胞。以2,000x g离心
15分钟消耗血浆样品中的血小板。离心后,立即使用巴斯德吸管将血浆样品转移到干净的
聚丙烯管中。处理时将样品保持在2-8℃下。进行包括血浆样品中无细胞DNA片段的大小分
析在内的第一测定。进行配对末端测序以获得对应于样品中的无细胞DNA片段的每个末端
的序列读取。将序列读取与参考基因组比对以确定参考基因组中每对序列读取的位置,并
将无细胞DNA片段的大小确定为每个序列读取的外侧末端之间的距离。对样品中的每个无
细胞DNA片段进行测序和比对,以获得对应于无细胞DNA片段大小的分布。确定受试者样品
中长度低于150个碱基对的无细胞DNA片段的比例,并将该比例与15%的阈值进行比较。
[0744] 如果受试者的短无细胞DNA片段的血液水平超过阈值,则进行包括血浆样品中无细胞DNA片段的甲基化分析在内的第二测定。首先进行甲基化敏感测序以获得对应于样品
中无细胞DNA片段的每个末端的序列读取。将序列读取与参考基因组进行比对以确定每个
序列读取的位置,以及多个基因组位置处的甲基化状态。对样品中的每个无细胞DNA片段进行测序和比对,以获得对应于无细胞DNA片段的甲基化的甲基化模式(例如,多个基因组位
置处的甲基化量和/或甲基化状态)。将甲基化模式与从MethHC数据库获得的参考进行比
较,以确定从其衍生癌症衍生的无细胞DNA片段的起源组织。
[0745] 本文所用的章节标题仅仅是为了组织编排目的,而不应理解为限制所描述的主题。
[0746] 应理解,本文所述的方法不限于本文所述的具体方法、方案、受试者和测序技术,并且因此可以改变。还应理解,本文使用的术语仅为了描述特定实施方案的目的,而并非旨在限制本文所述的方法和组合物的范围,本文所述的方法和组合物的范围将仅由随附权利要求限制。虽然本文中已经示出并描述了本公开内容的一些实施方案,但是对于本领域技
术人员将会显而易见的是,这些实施方案仅以示例的方式提供。本领域技术人员在不脱离
本公开内容的情况下现将会想到多种变化、改变和替换。应当理解,本文所述的本公开内容实施方案的各种替代方案可用于实践本公开内容。以下述权利要求旨在限定本公开内容的
范围,并由此涵盖这些权利要求范围内的方法和结构及其等同项。
[0747] 参考示例性应用描述多个方面以供说明。除非另有说明,否则任何实施方案都可以与任何其他实施方案组合。应当理解,阐述了许多具体细节、关系和方法以提供对本文所述特征的完全理解。然而,本领域技术人员将容易认识到,可以在没有一个或多个具体细节的情况下或使用其他方法实践本文所述的特征。本文所述的特征不受所示动作或事件的排
序的限制,因为一些动作可以与其他动作或事件以不同的顺序发生和/或同时发生。此外,并非需要所有示出的动作或事件来实现根据本文所述特征的方法。
[0748] 虽然本文已经示出并描述了一些实施方案,但对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。并非旨在通过说明书中提供的具体实例来限制本
发明。尽管已经参考前述说明书描述了本发明,但对本文实施方案的描述和说明并不意味
着以限制性的意义来解释。本领域技术人员在不脱离本发明的情况下现将想到多种变化、
改变和替换。
[0749] 此外,应当理解,本发明的所有方面不限于本文阐述的具体描述、配置或相对比例,其取决于多个条件和变量。应当理解,本文中所述的本发明实施方案的各种替代方案可用于实践本发明。因此考虑到,本发明还应当覆盖任何这样的替代、修改、变化或等同项。旨在以下述权利要求限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其
等同项。
[0750] 出于所有目的,本文提及的所有专利、专利申请、出版物和描述均通过引用整体并入本文。其均未被承认是现有技术
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈