首页 / 专利库 / 物理 / 介电泳动 / 减小基因组覆盖测量中的偏差

减小基因组覆盖测量中的偏差

阅读:372发布:2021-07-02

专利汇可以提供减小基因组覆盖测量中的偏差专利检索,专利查询,专利分析的服务。并且本 发明 提供了使用流控技术对分子进行检测和定量的方法。在某些实施方式中,所述方法包括最小化或消除由标记物 密度 引起的偏差,或者最小化或消除由标记物密度之外的因素引起的偏差。在某些实施方式中,所述方法包括遗传结构变异的自动鉴定。在某些实施方式中,所述方法包括分析血液以检测来自于 胎儿 或 肿瘤 的循环DNA或细胞的存在。,下面是减小基因组覆盖测量中的偏差专利的具体信息内容。

1.一种表征样品的方法,所述方法包括:
使用第一标记物标记多个样品分子,其中所述样品分子包含基因组或基因组片段
通过流体通道转移多个标记的样品分子;
检测来自于所述标记的样品分子的信号的计数,以便确定所述基因组或基因组片段特征性的模式或多个模式;
将来自于所述标记的样品分子的信号与参比物相关联,以确定所述样品分子对所述基因组或基因组片段的一个或多个区域的覆盖
将所述信号的覆盖深度针对不包含性染色体或其片段的所述基因组或基因组片段的区域所对应的信号的覆盖深度的子集进行缩放,由此提供缩放的覆盖深度;并且通过下述一者、两者或三者对所述缩放的覆盖深度进行归一化:
所述多个标记的样品分子的特征性分子长度;或
所述参比物的多个区间中每个区间的特征性标记物数目,其中所述参比物包含多个区间;或
每个分子的特征性标记物数目或每个分子的预定长度区段内的特征性标记物数目,由此产生所述样品分子的拷贝数曲线,其中在所述拷贝数曲线中由标记物密度引起的偏差和由标记物密度之外的因素引起的偏差被最小化或消除。
2.权利要求1的方法,其中对所述缩放的覆盖深度进行归一化包括通过所述多个标记的样品分子的特征性分子长度对所述缩放的覆盖深度进行归一化。
3.权利要求1或权利要求2的方法,其还包括产生所述多个样品分子的分子长度的直方图。
4.权利要求1-3任一项的方法,其中对所述缩放的覆盖深度进行归一化包括获得由下述公式提供的归一化的标记物覆盖深度:n=Q/[E+GC(1/λ–1/λ0)],其中n表示归一化的标记物覆盖深度,Q表示缩放的标记物覆盖深度,G和E分别表示对于训练集中的多个样品来说,缩放的标记物覆盖深度相对于横坐标的线性回归的梯度和零阶系数,λ表示特征性的样品特异性分子长度,并且λ0表示所述训练集的所述多个样品的特征性分子长度的中值。
5.权利要求1-4任一项的方法,其中对所述缩放的覆盖深度进行归一化包括:
产生每种标记物的原始覆盖深度曲线;
将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线;
产生样品特异性特征性分子长度;
包含梯度和零阶系数值的参数化;
在所述零阶系数的相对误差、基本误差或量级的基础上进行标记物过滤;以及针对所述样品特异性特征性分子长度对缩放的标记物覆盖深度进行归一化。
6.权利要求1-5任一项的方法,其中对所述缩放的覆盖深度进行归一化包括进行检测畸变的单分子归一化(SIMONIDA)。
7.权利要求1-6任一项的方法,其中对所述缩放的覆盖深度进行归一化包括性染色体归一化。
8.权利要求7的方法,其中性染色体归一化包括:
在训练样品中的性染色体数目的基础上,对所述训练样品的缩放的标记物覆盖深度进行缩放;以及
针对所述多个标记的样品分子的特征性分子长度对缩放的标记物覆盖深度进行归一化,并且还包括将归一化的标记物覆盖深度除以训练集的多个性染色体的归一化的覆盖深度的中值。
9.权利要求7或权利要求8的方法,其中将X染色体的归一化的标记物覆盖深度除以训练集的多个女性样品的归一化的覆盖深度的中值。
10.权利要求7-9任一项的方法,其中将Y染色体的归一化的标记物覆盖深度除以训练集的多个男性样品的归一化的覆盖深度的中值并进一步除以2。
11.权利要求7-10任一项的方法,其中性染色体归一化包括缩放的标记物覆盖深度的稳健的线性回归。
12.权利要求7-11任一项的方法,其中性染色体归一化包括只从满足至少一个标记物排除判据的标记物产生拷贝数曲线。
13.权利要求12的方法,其中所述拷贝数曲线只从满足下述标准的标记的样品分子的标记物产生:所述标记的样品分子包含给定样品中给定标记物的基本误差与所述标记物的零阶系数的比率,其中所述比率在来自于与所述标记物相同的染色体的多个样品的基本误差的95%分位数内。
14.权利要求12的方法,其中Y染色体拷贝数曲线只从满足下述标准的标记的样品分子的标记物产生:相对于训练集的所有男性和所有女性样品的合并的中值绝对偏差,训练集的所有男性样品的所述标记物的归一化的覆盖深度中值显著大于训练集的所有女性样品的归一化的覆盖深度中值。
15.权利要求1的方法,其中对所述缩放的覆盖深度进行归一化包括通过所述参比物的多个区间中每个区间的特征性标记物数目对所述缩放的覆盖深度进行归一化。
16.权利要求1或15的方法,其中对每个区间的缩放的覆盖深度进行归一化包括获得由下述公式提供的归一化的标记物覆盖深度:n=(c–GL)/E,其中n表示归一化的标记物覆盖深度,c表示缩放的覆盖深度,L表示对于训练集中的多个样品来说,缩放的覆盖深度相对于每个区间的标记物数目的线性回归的梯度,并且G和E分别表示对于训练集中的多个样品来说,缩放的覆盖深度相对于横坐标的线性回归的梯度和零阶系数。
17.权利要求1和15-16任一项的方法,其中对所述信号的覆盖深度进行归一化包括进行GROM。
18.权利要求1和15-17任一项的方法,其中所述参比物的多个区间包含预定尺寸的区间。
19.权利要求1和15-18任一项的方法,其中所述参比物的多个区间尺寸相等。
20.权利要求1和15-18任一项的方法,其中所述参比物的多个区间尺寸不等。
21.权利要求1和15-18任一项的方法,其中所述多个区间中的每一个包含约10,000至约90,000个基对。
22.权利要求1和15-18任一项的方法,其中所述多个区间中的每一个包含约40,000至约60,000个碱基对。
23.权利要求1和15-18任一项的方法,其中产生拷贝数曲线包括:
从检测到的信号产生每个区间的原始覆盖深度曲线;
将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线;
产生样品特异性标记物密度偏差系数(L),其表示对于训练集中的多个样品来说,每个区间的缩放的覆盖深度相对于标记物数目的线性回归的梯度;
对区间进行参数化,其中所述区间参数包含梯度和零阶系数值;
在至少一个误差测量值的基础上对区间进行过滤;
相对于L对缩放的覆盖深度进行归一化,以及
从归一化的覆盖深度曲线产生多个拷贝数曲线。
24.权利要求1和7-14任一项的方法,其中对所述缩放的覆盖深度进行归一化包括通过每个分子的特征性标记物数目或每个分子的预定长度区段内的特征性标记物数目对所述缩放的覆盖深度进行归一化。
25.权利要求24的方法,其中对所述缩放的覆盖深度进行归一化包括通过每个分子的特征性标记物数目对所述缩放的覆盖深度进行归一化。
26.权利要求24的方法,其中对所述缩放的覆盖深度进行归一化包括通过每个分子的预定长度区段内的特征性标记物数目对所述缩放的覆盖深度进行归一化。
27.权利要求24的方法,其中所述每个分子的预定长度区段包含100kb的核酸。
28.权利要求1-27任一项的方法,其中不包含性染色体的所述基因组或基因组片段的区域所对应的信号的覆盖深度的子集包含对应于所述基因组的常染色体区的信号的覆盖深度。
29.权利要求1-28任一项的方法,其中所述模式或多个模式包含基因组序列的模式。
30.权利要求1-29任一项的方法,其中所述模式或多个模式包含表观遗传模式。
31.权利要求1-30任一项的方法,其中对训练集中的多个样品重复所述方法。
32.权利要求1-31任一项的方法,其还包括测量误差,包括相对误差。
33.权利要求1-32任一项的方法,其还包括将原始覆盖深度曲线储存在计算机可读介质中,其中所述原始覆盖深度曲线包含从所述标记的样品分子检测到的信号覆盖深度。
34.权利要求1-33任一项的方法,其中所述参比物包含参比基因组。
35.权利要求1-33任一项的方法,其中所述参比物包含hg19或GRCh38。
36.权利要求1-33任一项的方法,其中所述参比物包含源自于参比基因组的计算机数字消化的条形码
37.权利要求1-33任一项的方法,其中所述参比物包含标记的参比分子。
38.权利要求1-31任一项的方法,其中所述参比物包含光学储存的值或一组值或电子储存的值或一组值。
39.权利要求1-38任一项的方法,其中所述第一标记物包含序列特异性标记物。
40.权利要求1-37任一项的方法,其中所述第一标记物包含表观遗传标记物。
41.权利要求1-39任一项的方法,其中所述第一标记物包含光学标记物。
42.权利要求1-39任一项的方法,其中所述第一标记物包含非光学标记物。
43.权利要求1-42任一项的方法,其中所述第一标记物包含荧光标记物、放射活性标记物、磁标记物或转录终止子中的至少一者。
44.权利要求1-43任一项的方法,其中标记包括将所述样品分子与非切割性限制性酶、锌指蛋白、抗体、转录因子、转录激活因子样结构域、DNA结合蛋白、聚酰胺、形成三螺旋的寡核苷酸和肽核酸以及甲基转移酶中的至少一者相接触
45.权利要求1-44任一项的方法,其中所述拷贝数曲线的升高或下降表示非整倍性。
46.权利要求1-45任一项的方法,其还包括自动确定所述基因组或基因组片段的染色体非整倍性的存在或不存在。
47.权利要求1-46任一项的方法,其还包括自动确定所述基因组或基因组片段中可能的结构变异的存在或不存在。
48.权利要求47的方法,其中自动确定可能的区域性结构变异的存在或不存在包括鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中与邻近区间相比具有显著不同的拷贝数的区间包含可能的断点。
49.权利要求47-48任一项的方法,其中自动确定可能的区域性结构变异的存在或不存在包括确定GROM拷贝数断点。
50.权利要求47-48任一项的方法,其中自动确定可能的区域性结构变异的存在或不存在包括确定SIMONIDA拷贝数断点。
51.权利要求49-50任一项的方法,其还包括:鉴定GROM拷贝数断点与SIMONIDA拷贝数断点之间的重叠。
52.权利要求49-50任一项的方法,其还包括:
使用第二种方法确定多个可能的结构变体;以及
鉴定所述GROM拷贝数断点或SIMONIDA拷贝数断点与通过第二种方法确定的所述多个可能的结构变体之间的重叠。
53.权利要求49-52任一项的方法,其还包括对于每个所述拷贝数断点来说:
鉴定参比序列在所述断点的第一侧上的第一区域并遮蔽所述参比序列在所述断点的第二侧上的第二区域,其中所述第二侧与所述第一侧相反;并且
对在所述第一区域中与所述参比物对齐的仅仅单分子对齐进行评分。
54.权利要求54的方法,其还包括:
针对所述第二区域对单分子对齐进行聚簇;以及
将每个簇与参比序列进行对齐。
55.权利要求1-54任一项的方法,其中所述拷贝数曲线被实时产生。
56.权利要求1-54任一项的方法,其中所述拷贝数曲线在所述信号被检测后少于5分钟内产生。
57.权利要求1-54任一项的方法,其中所述拷贝数曲线在所述信号被检测后少于60秒内产生。
58.权利要求1-57任一项的方法,其中所述拷贝数曲线由与检测来自于所述标记的样品分子和标记的参比分子的信号的检测器数据连通的处理器产生。
59.权利要求1-58任一项的方法,其中所述一个或多个基因组片段包含选自下列的常染色体或其至少一个片段:人类1号染色体,人类2号染色体,人类3号染色体,人类4号染色体,人类5号染色体,人类6号染色体,人类7号染色体,人类8号染色体,人类9号染色体,人类
10号染色体,人类11号染色体,人类12号染色体,人类13号染色体,人类14号染色体,人类15号染色体,人类16号染色体,人类17号染色体,人类18号染色体,人类19号染色体,人类20号染色体,人类21号染色体,人类22号染色体,人类X染色体,人类Y染色体及其片段。
60.权利要求1-59任一项的方法,其中所述样品分子来自于包含可能的基因组异常的样品。
61.权利要求59的方法,其中所述遗传异常包括重复、缺失或易位中的至少一者。
62.权利要求1-59任一项的方法,其中标记包括用所述标记物标记所述样品分子,并且还包括用不同于所述第一标记物的第二标记物标记所述样品分子。
63.权利要求1-62任一项的方法,其中标记包括:
使用切口核酸内切酶在第一序列基序处在双链DNA的一条链上产生切口;并且用所述第一标记物标记所述DNA。
64.权利要求64的方法,其还包括修复所述DNA上的至少一些所述切口。
65.权利要求64任一项的方法,其中所述切口不被修复。
66.权利要求1-63任一项的方法,其中标记包括使用选自下列的DNA结合实体为所述样品分子的至少一个序列基序加标签:非切割性限制性酶,锌指蛋白,抗体,转录因子,转录激活因子样结构域,DNA结合蛋白,聚酰胺,形成三螺旋的寡核苷酸和肽核酸以及甲基转移酶。
67.权利要求1-66任一项的方法,其中用所述第一标记物标记包括用甲基转移酶为所述样品分子的至少一个序列基序加标签。
68.权利要求1-67任一项的方法,其还包括用非序列特异性标记物标记所述样品分子。
69.权利要求68的方法,其中所述非序列特异性标记物包含YOYO或POPO染料。
70.一种表征样品的方法,所述方法包括:
标记样品分子的多核苷酸序列上的多个序列特异性位置
将至少一部分所述样品分子在流体通道中线性化;
定量来自于所述样品分子上的所述标记物的信号;
将来自于所述标记物的所述信号与参比物相关联;
产生所述样品分子的拷贝数曲线;以及
当来自于所述样品分子的所述信号的量与从参比分子产生的信号的量不同时,确定所述样品DNA中遗传异常的存在或不存在。
71.权利要求70的方法,其中产生拷贝数曲线包括通过所述多个标记的样品分子的特征性分子长度对所述缩放的覆盖深度进行归一化,以最小化或消除偏差。
72.权利要求70-71任一项的方法,其还包括产生所述多个样品分子的分子长度的直方图。
73.权利要求70-72任一项的方法,其中产生拷贝数曲线包括:
产生每种标记物的原始覆盖深度曲线;
将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线;
产生样品特异性特征性分子长度;
包含梯度和零阶系数值的参数化;
在所述零阶系数的相对误差、基本误差或量级的基础上进行标记物过滤;以及相对于所述样品特异性特征性分子长度对缩放的标记物覆盖深度进行归一化。
74.权利要求70-73任一项的方法,其中产生拷贝数曲线包括进行检测畸变的单分子归一化(SIMONIDA)。
75.权利要求70的方法,其中产生所述样品分子的拷贝数曲线包括通过每个分子的特征性标记物数目或每个分子的预定长度区段内的特征性标记物数目对所述缩放的覆盖深度进行归一化,以最小化或消除偏差。
76.权利要求75的方法,其中对所述缩放的覆盖深度进行归一化包括通过每个分子的特征性标记物数目对所述缩放的覆盖深度进行归一化。
77.权利要求75的方法,其中对所述缩放的覆盖深度进行归一化包括通过每个分子的预定长度区段内的特征性标记物数目对所述缩放的覆盖深度进行归一化。
78.权利要求75或权利要求77的方法,其中所述每个分子的预定长度区段包含100kb的核酸。
79.权利要求70-79任一项的方法,其中产生所述样品分子的拷贝数曲线包括:
产生每种标记物的原始覆盖深度曲线;
将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线;
在训练样品中的性染色体数目的基础上对所述训练样品的缩放的标记物覆盖深度进行缩放;
针对所述多个标记的样品分子的特征性分子长度对缩放的标记物覆盖深度进行归一化;以及
将归一化的标记物覆盖深度除以训练集的多个性染色体的归一化的覆盖深度的中值。
80.权利要求79的方法,其中将X染色体的归一化的标记物覆盖深度除以训练集的多个女性样品的归一化的覆盖深度的中值。
81.权利要求79-80任一项的方法,其中将Y染色体的归一化的标记物覆盖深度除以训练集的多个男性样品的归一化的覆盖深度的中值并进一步除以2。
82.权利要求79-81任一项的方法,其中产生性染色体的拷贝数曲线包括缩放的标记物覆盖深度的稳健的线性回归。
83.权利要求79-82任一项的方法,其中性染色体的归一化的标记物覆盖深度包括仅从满足至少一个标记物排除判据的标记物产生拷贝数曲线。
84.权利要求83的方法,其中所述拷贝数曲线仅从满足下述标准的标记的样品分子的标记物产生:所述标记的样品分子包含给定样品中给定标记物的基本误差与所述标记物的零阶系数的比率,其中所述比率在来自于与所述标记物相同的染色体的多个样品的基本误差的95%分位数内。
85.权利要求83的方法,其中Y染色体拷贝数曲线仅从满足下述标准的标记的样品分子的标记物产生:相对于训练集的所有男性和所有女性样品的合并的中值绝对偏差,训练集的所有男性样品的所述标记物的归一化的覆盖深度中值显著大于训练集的所有女性样品的归一化的覆盖深度中值。
86.权利要求73的方法,其中产生拷贝数曲线包括:
从检测到的信号产生每个区间的原始覆盖深度曲线;
将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线;
产生样品特异性标记物密度偏差系数(LDBC);
对区间进行参数化,其中所述区间参数包含梯度和零阶系数值;
在至少一个误差测量值的基础上对区间进行过滤;
相对于LDBC对缩放的覆盖深度进行归一化,以及
从归一化的覆盖深度曲线产生多个拷贝数曲线。
87.权利要求70或权利要求86的方法,其中产生拷贝数曲线包括进行GROM。
88.权利要求86-87任一项的方法,其中所述区间尺寸相等。
89.权利要求86-87任一项的方法,其中所述区间尺寸不等。
90.权利要求86-88任一项的方法,其中每个区间包含约10,000至约90,000个碱基对。
91.权利要求86-88任一项的方法,其中所述缩放的覆盖深度曲线包含至少约20,000个区间。
92.权利要求70-89任一项的方法,其中确定遗传异常的存在或不存在包括鉴定染色体或其一部分的多个区间,其中所述多个区间中的每个区间具有与所述参比分子显著不同的拷贝数。
93.权利要求70-90任一项的方法,其还包括自动确定所述第一目标基因组片段或多个片段中可能的区域性结构变异的存在或不存在。
94.权利要求93的方法,其中自动确定可能的结构变异的存在或不存在包括鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中与邻近区间相比具有显著不同的拷贝数的区间包含可能的断点。
95.权利要求93-94任一项的方法,其中自动确定可能的结构变异的存在或不存在包括确定GROM拷贝数断点。
96.权利要求70-95任一项的方法,其中所述参比物包含电子或光学储存的值或一组值。
97.权利要求70-96任一项的方法,其中所述样品分子包含DNA。
98.权利要求70-97任一项的方法,其中所述样品分子包含染色质。
99.权利要求70-98任一项的方法,其中所述遗传异常包含易位、添加、扩增、颠换、倒位、非整倍性、多倍性、单倍性、三体性、21号染色体三体、13号染色体三体、14号染色体三体、15号染色体三体、16号染色体三体、18号染色体三体、22号染色体三体、三倍性、四倍性或性染色体非整倍性中的至少一者。
100.权利要求70-99任一项的方法,其中所述遗传异常包含亚倍性或超倍性。
101.权利要求70-100任一项的方法,其中标记包括用荧光标记物、放射活性标记物、磁标记物或非光学标记物中的至少一者标记所述多核苷酸。
102.权利要求70-101任一项的方法,其中标记包括:
使用切口核酸内切酶在第一序列基序处在双链DNA的一条链上产生切口;并且标记所述DNA。
103.权利要求70-102任一项的方法,其还包括修复所述第一DNA上的至少一些所述切口。
104.权利要求103的方法,其中所述切口不被修复。
105.权利要求70-104任一项的方法,其中所述标记物包含转录终止子。
106.权利要求70-105任一项的方法,其中标记包括使用选自下列的DNA结合实体为所述样品分子的至少一个序列基序加标签:非切割性限制性酶,锌指蛋白,抗体,转录因子,转录激活因子样结构域,DNA结合蛋白,聚酰胺,形成三螺旋的寡核苷酸和肽核酸以及甲基转移酶。
107.权利要求70-1065任一项的方法,其中用所述第一标记物标记包括用甲基转移酶为所述样品分子的至少一个序列基序加标签。
108.权利要求1-107任一项的方法,其中所述流体纳米通道包含长度为至少10nm并且横截面直径小于5000nm的通道。
109.权利要求1-108任一项的方法,其中所述样品选自细菌、病毒粒子、DNA分子、RNA分子、核酸聚合物蛋白质、肽和多糖。
110.权利要求1-109任一项的方法,其中所述样品源自于母体血液,并且其中所述参比分子源自于血液之外的母体样品。
111.权利要求1-110任一项的方法,其中所述样品包含核苷酸,并且其中所述至少两种标记物位于所述核苷酸中目标区域的任一末端处。
112.权利要求1-111任一项的方法,其中所述参比物源自于已知的二倍体或单倍体染色体。
113.权利要求1-112任一项的方法,其中所述流体通道是纳米通道。
114.权利要求1-113任一项的方法,其中所述流体通道被配置成平行于基材表面。
115.权利要求1-114任一项的方法,其还包括为所述样品产生直方图分布以反映出覆盖深度。
116.权利要求1-115任一项的方法,其中所述样品包含循环胎儿细胞、循环肿瘤细胞或体液或组织。
117.权利要求1-116任一项的方法,其中所述转移包括对所述标记的样品施加选自下列的驱动:流体流,辐射场,电渗透力,电泳力,动电力,温度梯度,表面性质梯度,毛细管流,压力梯度,磁场电场,后退弯液面,表面张力,热梯度,拉力,推力及其组合。
118.一种用于表征样品的系统,所述系统包含:
用于使用至少两种标记物标记样品分子的一个或多个仓室;
用于转移标记的样品分子的流体通道,其中所述流体通道被设置成拉长所述样品分子的至少一部分,并且其中所述流体通道具有至少10nm的长度和小于5000nm的横截面直径;
用于在所述流体通道中检测由标记的样品产生的信号的计数的装置;以及
与所述装置数据连通的处理器,其中所述处理器被设置成产生所述样品的拷贝数曲线并且消除或最小化下列一者或两者:
由所述标记的样品分子上的标记物密度引起的偏差;或
由所述标记的样品分子的标记物密度之外的因素引起的偏差。
119.权利要求118的系统,其中最小化或消除偏差包括在存在时通过所述标记的样品分子的特征性分子长度对缩放的覆盖深度进行归一化。
120.权利要求118-119任一项的系统,其中产生所述拷贝数曲线包括:
产生每种标记物的原始覆盖深度曲线;
将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线;
产生样品特异性特征性分子长度;
包含梯度和零阶系数值的参数化;
在所述零阶系数的相对误差、基本误差或量级的基础上进行标记物过滤;以及针对所述样品特异性特征性分子长度对缩放的标记物覆盖深度进行归一化。
121.权利要求95-97任一项的系统,其中产生所述拷贝数曲线包括进行检测畸变的单分子归一化(SIMONIDA)。
122.权利要求118-119任一项的系统,其中产生所述拷贝数曲线包括:
产生每种标记物的原始覆盖深度曲线;
将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线;
评估每个标记的样品分子的样品特异性特征性标记物数目或每个标记的样品分子的预定长度内的特征性标记物数目;
包含梯度和零阶系数值的参数化;
在所述零阶系数的相对误差、基本误差或量级的基础上进行标记物过滤;以及针对所述每个标记的样品分子的样品特异性特征性标记物数目或每个标记的样品分子的预定长度区段内的特征性标记物数目对缩放的标记物覆盖深度进行归一化。
123.权利要求122的系统,其中将缩放的标记物覆盖深度针对每个分子的样品特异性特征性标记物数目进行归一化。
124.权利要求122的系统,其中将缩放的标记物覆盖深度针对所述每个标记的样品分子的预定长度区段内的特征性标记物数目进行归一化。
125.权利要求124的系统,其中所述每个标记的样品分子的预定长度区段包含100kb的核酸。
126.权利要求118-125任一项的系统,其中产生拷贝数曲线包括性染色体归一化。
127.权利要求118-126任一项的系统,其中产生拷贝数曲线包括缩放的标记物覆盖深度的稳健的线性回归。
128.权利要求118-126任一项的系统,其中产生拷贝数曲线包括:
在训练样品中的性染色体数目的基础上对所述训练样品的多个缩放的标记物覆盖深度进行缩放;以及
在存在时针对所述标记的样品分子的特征性分子长度对所述缩放的标记物覆盖深度进行归一化,并且还包括将归一化的标记物覆盖深度除以训练集的多个性染色体的归一化的覆盖深度的中值。
129.权利要求95-98任一项的系统,其中产生所述拷贝数曲线包括光学图谱的整体重新归一化(GROM)。
130.权利要求126的系统,其中GROM包括:
产生每个区间的原始覆盖深度曲线;
将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线;
产生样品特异性标记物密度偏差系数(LDBC);
对区间进行参数化,其中所述区间参数包含梯度和零阶系数值;
在至少一个误差测量值的基础上对区间进行过滤;
针对LDBC对缩放的覆盖深度进行归一化;以及
从归一化的覆盖深度曲线产生拷贝数曲线。
131.权利要求118-130任一项的系统,其中所述处理器被设置成自动确定所述第一目标基因组片段或多个片段中可能的结构变异的存在或不存在。
132.权利要求131的系统,其中所述处理器被设置成自动鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中与邻近区间相比具有显著不同的拷贝数的区间包含可能的断点。
133.权利要求118-132任一项的系统,其中所述处理器被设置成自动确定SIMONIDA拷贝数中统计学显著的差异。
134.权利要求118-133任一项的系统,其中所述处理器被设置成自动确定SIMONIDA拷贝数断点。
135.权利要求118-134任一项的系统,其中所述处理器被设置成自动确定GROM拷贝数中统计学显著的差异。
136.权利要求118-135任一项的系统,其中所述处理器被设置成自动确定GROM拷贝数断点。
137.权利要求134或136任一项的系统,其中所述处理器被进一步设置成鉴定所述GROM拷贝数断点与所述SIMONIDA拷贝数断点之间的重叠。
138.权利要求137的系统,其中所述处理器被进一步设置成:
对于每个所述GROM拷贝数断点来说,鉴定参比序列在所述断点的第一侧上的第一区域并遮蔽所述参比序列在所述断点的第二侧上的第二区域,其中所述第二侧与所述第一侧相反;并且
对在所述第一区域中与所述参比物对齐的仅仅单分子对齐进行评分。
139.权利要求134或136任一项的系统,其中所述处理器被进一步设置成:
使用第二种方法确定多个可能的结构变体;以及
鉴定所述GROM拷贝数断点或SIMONIDA拷贝数断点与通过第二种方法确定的所述多个可能的结构变体之间的重叠。
140.权利要求140的方法,其中所述处理器被进一步设置成:
对于每个所述GROM拷贝数断点来说,鉴定参比序列在所述断点的第一侧上的第一区域并遮蔽所述参比序列在所述断点的第二侧上的第二区域,其中所述第二侧与所述第一侧相反;并且
对在所述第一区域中与所述参比标记物对齐的仅仅单分子对齐进行评分。
141.权利要求118-140任一项的系统,其中所述流体通道是纳米通道。
142.权利要求118-141任一项的系统,其中所述流体通道被配置成平行于基材表面。
143.权利要求118-142任一项的系统,其还包括为所述样品产生直方图分布,以反映出覆盖深度。
144.权利要求118-143任一项的系统,其中所述样品包含循环胎儿细胞、循环肿瘤细胞或体液或组织。
145.权利要求118-144任一项的系统,其中所述转移包括对所述标记的样品施加选自下列的驱动力:流体流,辐射场,电渗透力,电泳力,动电力,温度梯度,表面性质梯度,毛细管流,压力梯度,磁场,电场,后退弯液面,表面张力,热梯度,拉力,推力及其组合。
146.一种试剂盒,其用于执行权利要求1-117任一项的方法。
147.一种试剂盒,其用于使用权利要求118-145任一项的系统。

说明书全文

减小基因组覆盖测量中的偏差

[0001] 与相关申请的交叉引用
[0002] 本申请要求2014年2月25日提交的美国临时申请号61/944,465和2015年1月8日提交的美国临时申请号62/101,291的权益,所述临时申请各自以其全部内容通过参考并入本文。本申请涉及2013年2月20日提交的美国临时申请号61/767,219和2014年2月19日提交的PCT申请号PCT/US2014/017226,其各自以其全部内容通过参考并入本文。
[0003] 发明概述
[0004] 在某些实施方式中,提供了一种表征样品的方法。所述方法可以包括使用第一标记物标记多个样品分子,其中所述样品分子包含基因组或基因组片段。所述方法可以包括通过流体通道转移多个标记的样品分子。所述方法可以包括检测来自于所述标记的样品分子的信号的计数,以便确定所述基因组或基因组片段特征性的模式或多个模式。所述方法可以包括将来自于所述标记的样品分子的信号与参比物相关联,以确定所述样品分子对所述基因组或基因组片段的一个或多个区域的覆盖。所述方法可以包括将所述信号的覆盖深度针对不包含性染色体或其片段的所述基因组或基因组片段的区域所对应的信号的覆盖深度的子集进行缩放,由此提供缩放的覆盖深度。所述方法可以包括通过下述一者、两者或三者对所述缩放的覆盖深度进行归一化:(i)所述多个标记的样品分子的特征性分子长度,或(ii)所述参比物的多个区间中每个区间的特征性标记物数目,其中所述参比物包含多个区间,或(iii)每个分子的特征性标记物数目或每个分子的预定长度区段内的特征性标记物数目,由此产生所述样品分子的拷贝数曲线(profile),其中在所述拷贝数曲线中由标记物密度引起的偏差和由标记物密度之外的因素引起的偏差被最小化或消除。在某些实施方式中,所述缩放的覆盖深度包括通过所述多个标记的样品分子的特征性分子长度对所述缩放的覆盖深度进行归一化。在某些实施方式中,所述方法还包括产生所述多个样品分子的分子长度的直方图。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括获得由下述公式提供的归一化的标记物覆盖深度:n=Q/[E+GC(1/λ–1/λ0)],其中n表示归一化的标记物覆盖深度,Q表示缩放的标记物覆盖深度,G和E分别表示对于训练集中的多个样品来说,缩放的标记物覆盖深度相对于横坐标的线性回归的梯度和零阶系数,λ表示特征性的样品特异性分子长度,并且λ0表示所述训练集的所述多个样品的特征性分子长度的中值。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括:产生每种标记物的原始覆盖深度曲线,将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线,产生样品特异性特征性分子长度,包含梯度和零阶系数值的参数化,在所述零阶系数的相对误差、基本误差或量级的基础上进行标记物过滤;以及针对所述样品特异性特征性分子长度对缩放的标记物覆盖深度进行归一化。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括进行检测畸变的单分子归一化(SIngle MOlecule NormalIzation to Detect Aberrations)(SIMONIDA)。在某些实施方式中,对所述缩放的覆盖深度进行归一化还包括性染色体归一化。在某些实施方式中,性染色体归一化包括:在训练样品中的性染色体数目的基础上,对所述训练样品的缩放的标记物覆盖深度进行缩放;以及针对所述多个标记的样品分子的特征性分子长度对缩放的标记物覆盖深度进行归一化,并且还包括将归一化的标记物覆盖深度除以训练集的多个性染色体的归一化的覆盖深度的中值。在某些实施方式中,将X染色体的归一化的标记物覆盖深度除以训练集的多个整倍体女性和柯林菲特综合征样品的归一化的覆盖深度的中值。在某些实施方式中,将Y染色体的归一化的标记物覆盖深度除以训练集的多个男性样品的归一化的覆盖深度的中值并进一步除以2。在某些实施方式中,性染色体归一化包括缩放的标记物覆盖深度的稳健(robust)的线性回归。在某些实施方式中,性染色体归一化包括只从满足至少一个标记物排除判据的标记物产生拷贝数曲线。在某些实施方式中,所述拷贝数曲线只从满足下述标准的标记的样品分子的标记物产生:所述标记的样品分子包含给定样品中给定标记物的基本误差与所述标记物的零阶系数的比率,其中所述比率在来自于与所述标记物相同的染色体的多个样品的基本误差的
95%分位数内。在某些实施方式中,Y染色体拷贝数曲线只从满足下述标准的标记的样品分子的标记物产生:相对于训练集的所有男性和所有女性样品的合并的中值绝对偏差,训练集的所有男性样品的所述标记物的归一化的覆盖深度中值显著大于训练集的所有女性样品的归一化的覆盖深度中值。
[0005] 在某些实施方式中,所述缩放的覆盖深度包括通过所述参比物的多个区间中每个区间的特征性标记物数目对所述缩放的覆盖深度进行归一化。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括获得由下述公式提供的归一化的标记物覆盖深度:n=(c–GL)/E,其中n表示归一化的标记物覆盖深度,c表示缩放的覆盖深度,L表示对于训练集中的多个样品来说,缩放的覆盖深度相对于每个区间的标记物数目的线性回归的梯度,并且G和E分别表示对于训练集中的多个样品来说,缩放的覆盖深度相对于横坐标的线性回归的梯度和零阶系数。在某些实施方式中,对所述信号的覆盖深度进行归一化包括进行GROM。在某些实施方式中,所述参比物的多个区间包含预定尺寸的区间。在某些实施方式中,所述参比物的多个区间尺寸相等。在某些实施方式中,所述参比物的多个区间尺寸不等。在某些实施方式中,所述多个区间中的每一个包含约10,000至约90,000个基对。在某些实施方式中,所述多个区间中的每一个包含约40,000至约60,000个碱基对。在某些实施方式中,产生拷贝数曲线包括从检测到的信号产生每个区间的原始覆盖深度曲线,将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线,产生样品特异性标记物密度偏差系数(L),其表示对于训练集中的多个样品来说,每个区间的缩放的覆盖深度相对于标记物数目的线性回归的梯度,对区间进行参数化,其中所述区间参数包含梯度和零阶系数值,在至少一个误差测量值的基础上对区间进行过滤,相对于L对缩放的覆盖深度进行归一化,以及从归一化的覆盖深度曲线产生多个拷贝数曲线。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括通过每个分子的特征性标记物数目或每个分子的预定长度区段内的特征性标记物数目对所述缩放的覆盖深度进行归一化。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括通过每个分子的特征性标记物数目对所述缩放的覆盖深度进行归一化。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括通过每个分子的预定长度区段内的特征性标记物数目对所述缩放的覆盖深度进行归一化。在某些实施方式中,所述每个分子的预定长度区段包含100kb的核酸。在某些实施方式中,所述每个分子的预定长度区段包含至少20kb的核酸,例如20kb、30kb、40kb、50kb、100kb、150kb、200kb、250kb、300kb、350kb、400kb或500kb,包括任两个所述列出的值之间的范围。
[0006] 在某些实施方式中,不包含性染色体的所述基因组或基因组片段的区域所对应的信号的覆盖深度的子集包含对应于所述基因组的常染色体区的信号的覆盖深度。在某些实施方式中,所述模式或多个模式包含基因组序列的模式。在某些实施方式中,所述模式或多个模式包含表观遗传模式。在某些实施方式中,对训练集中的多个样品重复所述方法。在某些实施方式中,所述方法还包括测量误差,包括相对误差。在某些实施方式中,所述方法还包括将原始覆盖深度曲线储存在计算机可读介质中,其中所述原始覆盖深度曲线包含从所述标记的样品分子检测到的信号覆盖深度。在某些实施方式中,所述参比物包含参比基因组。在某些实施方式中,所述参比物包含hg19或GRCh38。在某些实施方式中,所述参比物包含源自于参比基因组的计算机数字消化的条形码。在某些实施方式中,所述参比物包含标记的参比分子。在某些实施方式中,所述参比物包含光学储存的值或一组值或电子储存的值或一组值。在某些实施方式中,所述参比物包含光学储存的值或一组值。在某些实施方式中,所述参比物包含电子储存的值或一组值。在某些实施方式中,所述第一标记物包含序列特异性标记物。在某些实施方式中,所述第一标记物包含表观遗传标记物。在某些实施方式中,所述第一标记物包含光学标记物。在某些实施方式中,所述第一标记物包含非光学标记物。在某些实施方式中,所述第一标记物包含荧光标记物、放射活性标记物、磁标记物或转录终止子中的至少一者。在某些实施方式中,标记包括将所述样品分子与非切割性限制性酶、锌指蛋白、抗体、转录因子、转录激活因子样结构域、DNA结合蛋白、聚酰胺、形成三螺旋的寡核苷酸和肽核酸以及甲基转移酶中的至少一者相接触。在某些实施方式中,所述拷贝数曲线的升高或下降表示非整倍性。在某些实施方式中,所述方法还包括自动确定所述基因组或基因组片段的染色体非整倍性的存在或不存在。在某些实施方式中,所述方法还包括自动确定所述基因组或基因组片段中可能的结构变异的存在或不存在。在某些实施方式中,自动确定可能的区域性结构变异的存在或不存在包括鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中与邻近区间相比具有显著不同的拷贝数的区间包含可能的断点。在某些实施方式中,自动确定可能的区域性结构变异的存在或不存在包括确定GROM拷贝数断点。在某些实施方式中,自动确定可能的区域性结构变异的存在或不存在包括确定SIMONIDA拷贝数断点。在某些实施方式中,所述方法还包括鉴定GROM拷贝数断点与SIMONIDA拷贝数断点之间的重叠。在某些实施方式中,所述方法还包括使用第二种方法确定多个可能的结构变体;以及鉴定所述GROM拷贝数断点或SIMONIDA拷贝数断点与通过第二种方法确定的所述多个可能的结构变体之间的重叠。在某些实施方式中,所述方法还包括对于每个所述拷贝数断点来说:鉴定参比序列在所述断点的第一侧上的第一区域并遮蔽所述参比序列在所述断点的第二侧上的第二区域,其中所述第二侧与所述第一侧相反;并且对在所述第一区域中与所述参比物对齐的仅仅单分子对齐进行评分。在某些实施方式中,所述方法还包括针对所述第二区域对单分子对齐进行聚簇;以及将每个簇与参比序列进行对齐。在某些实施方式中,所述拷贝数曲线被实时产生。在某些实施方式中,所述拷贝数曲线在所述信号被检测后少于5分钟内产生。在某些实施方式中,所述拷贝数曲线在所述信号被检测后少于60秒内产生。在某些实施方式中,所述拷贝数曲线由与检测来自于所述标记的样品分子和标记的参比分子的信号的检测器数据连通的处理器产生。在某些实施方式中,所述一个或多个基因组片段包含选自下列的常染色体或其至少一个片段:人类21号染色体,人类13号染色体,人类14号染色体,人类15号染色体,人类16号染色体,人类18号染色体和人类22号染色体及其片段。在某些实施方式中,所述一个或多个基因组片段包含选自下列的常染色体或其至少一个片段:人类1号染色体,人类2号染色体,人类3号染色体,人类
4号染色体,人类5号染色体,人类6号染色体,人类7号染色体,人类8号染色体,人类9号染色体,人类10号染色体,人类11号染色体,人类12号染色体,人类13号染色体,人类14号染色体,人类15号染色体,人类16号染色体,人类17号染色体,人类18号染色体,人类19号染色体,人类20号染色体,人类21号染色体,人类22号染色体,人类X染色体,人类Y染色体及其片段。在某些实施方式中,所述样品分子来自于包含可能的基因组异常的样品。在某些实施方式中,所述遗传异常包括重复、缺失或易位中的至少一者。在某些实施方式中,标记包括用所述标记物标记所述样品分子,并且还包括用不同于所述第一标记物的第二标记物标记所述样品分子。在某些实施方式中,标记包括使用切口核酸内切酶在第一序列基序处在双链DNA的一条链上产生切口;并且用所述第一标记物标记所述DNA。在某些实施方式中,所述方法还包括修复所述DNA上的至少一些所述切口。在某些实施方式中,所述切口不被修复。在某些实施方式中,标记包括使用选自下列的DNA结合实体为所述样品分子的至少一个序列基序加标签:非切割性限制性酶,锌指蛋白,抗体,转录因子,转录激活因子样结构域,DNA结合蛋白,聚酰胺,形成三螺旋的寡核苷酸和肽核酸以及甲基转移酶。在某些实施方式中,用所述第一标记物标记包括用甲基转移酶为所述样品分子的至少一个序列基序加标签。在某些实施方式中,所述方法还包括用非序列特异性标记物标记所述样品分子。在某些实施方式中,所述非序列特异性标记物包含骨架染料(例如YOYO、POPO等)。
[0007] 在某些实施方式中,提供了一种表征样品的方法。所述方法可以包括对样品分子的多核苷酸序列上的多个序列特异性位置进行标记。所述方法可以包括将至少一部分所述样品分子在流体通道中线性化。所述方法可以包括定量来自于所述样品分子上的所述标记物的信号;将来自于所述标记物的所述信号与参比物相关联;产生所述样品分子的拷贝数曲线。所述方法可以包括当来自于所述样品分子的所述信号的量与从参比分子产生的信号的量不同时,确定所述样品DNA中遗传异常的存在或不存在。在某些实施方式中,产生拷贝数曲线包括通过所述多个标记的样品分子的特征性分子长度对所述缩放的覆盖深度进行归一化,以最小化或消除偏差。在某些实施方式中,所述方法还包括产生所述多个样品分子的分子长度的直方图。在某些实施方式中,产生拷贝数曲线包括产生每种标记物的原始覆盖深度曲线,将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线,产生样品特异性特征性分子长度,包含梯度和零阶系数值的参数化,在所述零阶系数的相对误差、基本误差或量级的基础上进行标记物过滤;以及相对于所述样品特异性特征性分子长度对缩放的标记物覆盖深度进行归一化。在某些实施方式中,产生拷贝数曲线包括进行检测畸变的单分子归一化(SIngle MOlecule NormalIzation to Detect Aberrations)(SIMONIDA)。在某些实施方式中,产生所述样品分子的拷贝数曲线包括通过每个分子的特征性标记物数目或每个分子的预定长度区段内的特征性标记物数目对所述缩放的覆盖深度进行归一化,以最小化或消除偏差。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括通过每个分子的特征性标记物数目对所述缩放的覆盖深度进行归一化。在某些实施方式中,对所述缩放的覆盖深度进行归一化包括通过每个分子的预定长度区段内的特征性标记物数目对所述缩放的覆盖深度进行归一化。在某些实施方式中,所述每个分子的预定长度区段包含100kb的核酸。在某些实施方式中,产生所述样品分子的拷贝数曲线包括:产生每种标记物的原始覆盖深度曲线;将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线;在训练样品中的性染色体数目的基础上对所述训练样品的缩放的标记物覆盖深度进行缩放;针对所述多个标记的样品分子的特征性分子长度对缩放的标记物覆盖深度进行归一化;以及将归一化的标记物覆盖深度除以训练集的多个性染色体的归一化的覆盖深度的中值。在某些实施方式中,将X染色体的归一化的标记物覆盖深度除以训练集的多个女性样品的归一化的覆盖深度的中值。在某些实施方式中,将X染色体的归一化的标记物覆盖深度除以训练集的多个男性样品和/或特纳综合征(XO)样品的归一化的覆盖深度的中值,其中将所述男性和/或特纳综合征ChrX覆盖深度乘以2并指派1/sqrt(2)的权重。在某些实施方式中,将Y染色体的归一化的标记物覆盖深度除以训练集的多个男性样品的归一化的覆盖深度的中值并进一步除以2。在某些实施方式中,产生性染色体的拷贝数曲线包括缩放的标记物覆盖深度的稳健的线性回归。在某些实施方式中,性染色体的归一化的标记物覆盖深度包括仅从满足本文中所描述的至少一个标记物排除判据、例如一个、两个、三个、四个或五个标记物排除判据的标记物产生拷贝数曲线。在某些实施方式中,所述拷贝数曲线仅从满足下述标准的标记的样品分子的标记物产生:所述标记的样品分子包含给定样品中给定标记物的基本误差与所述标记物的零阶系数的比率,其中所述比率在来自于与所述标记物相同的染色体的多个样品的基本误差的95%分位数内。在某些实施方式中,Y染色体拷贝数曲线仅从满足下述标准的标记的样品分子的标记物产生:相对于训练集的所有男性和所有女性样品的合并的中值绝对偏差,训练集的所有男性样品的所述标记物的归一化的覆盖深度中值显著大于训练集的所有女性样品的归一化的覆盖深度中值。
[0008] 在某些实施方式中,产生拷贝数曲线包括从检测到的信号产生每个区间的原始覆盖深度曲线,将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线,产生样品特异性标记物密度偏差系数(LDBC),对区间进行参数化,其中所述区间参数包含梯度和零阶系数值,在至少一个误差测量值的基础上对区间进行过滤,相对于LDBC对缩放的覆盖深度进行归一化,以及从归一化的覆盖深度曲线产生多个拷贝数曲线。在某些实施方式中,产生拷贝数曲线包括进行GROM。在某些实施方式中,所述区间尺寸相等。在某些实施方式中,所述区间尺寸不等。在某些实施方式中,每个区间包含约10,000至约90,000个碱基对。在某些实施方式中,所述缩放的覆盖深度曲线包含至少约20,000个区间。在某些实施方式中,确定遗传异常的存在或不存在包括鉴定染色体或其一部分的多个区间,其中所述多个区间中的每个区间具有与所述参比分子显著不同的拷贝数。在某些实施方式中,所述方法还包括自动确定所述第一目标基因组片段或多个片段中可能的区域性结构变异的存在或不存在。在某些实施方式中,自动确定可能的结构变异的存在或不存在包括鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中与邻近区间相比具有显著不同的拷贝数的区间包含可能的断点。在某些实施方式中,自动确定可能的结构变异的存在或不存在包括确定GROM拷贝数断点。在某些实施方式中,所述参比物包含电子或光学储存的值或一组值。在某些实施方式中,所述参比物包含电子储存的值或一组值。在某些实施方式中,所述参比物包含光学储存的值或一组值。在某些实施方式中,所述样品分子包含DNA。在某些实施方式中,所述样品分子包含染色质。在某些实施方式中,所述样品分子包含长度约为10-2000个碱基对的短核酸。在某些实施方式中,所述样品分子包含长度约为10-1000个碱基对的短核酸。在某些实施方式中,所述样品分子包含长度约为100-2000个碱基对的短核酸。在某些实施方式中,所述样品分子包含长度约为100-1000个碱基对的短核酸。在某些实施方式中,所述遗传异常包含易位、添加、扩增、颠换、倒位、非整倍性、多倍性、单倍性、三体性、21号染色体三体、13号染色体三体、14号染色体三体、15号染色体三体、16号染色体三体、18号染色体三体、22号染色体三体、三倍性、四倍性或性染色体非整倍性中的至少一者。在某些实施方式中,所述遗传异常包含亚倍性(hypopolyploidy)或超倍性(hyperpolyploidy)。在某些实施方式中,标记包括用荧光标记物、放射活性标记物、磁标记物或非光学标记物中的至少一者标记所述多核苷酸。在某些实施方式中,标记包括使用切口核酸内切酶在第一序列基序处在双链DNA的一条链上产生切口;并且标记所述DNA。在某些实施方式中,标记包括用至少两种不同的切口核酸内切酶例如两种、三种、四种、五种、六种、七种、八种、九种或十种切口核酸内切酶、包括任两个所述列出的值之间的范围,在至少两个不同基序处在双链DNA的一条链上产生切口。任选地,将每个所述不同核酸内切酶的靶基序用不同的标记物(例如不同的荧光团、量子点、非光学标记物等)标记。任选地,将两个或更多个所述不同核酸内切酶的靶基序用同一标记物标记。在某些实施方式中,所述方法还包括修复所述第一DNA上的至少一些所述切口。在某些实施方式中,所述切口不被修复。在某些实施方式中,所述标记物包含转录终止子。在某些实施方式中,标记包括使用选自下列的DNA结合实体为所述样品分子的至少一个序列基序加标签:非切割性限制性酶,锌指蛋白,抗体,转录因子,转录激活因子样结构域,DNA结合蛋白,聚酰胺,形成三螺旋的寡核苷酸和肽核酸以及甲基转移酶。在某些实施方式中,用所述第一标记物标记包括用甲基转移酶为所述样品分子的至少一个序列基序加标签。
[0009] 在某些实施方式中,对于上述任一方法来说,所述流体纳米通道包含长度为至少10nm并且横截面直径小于5000nm的通道。
[0010] 在某些实施方式中,对于上述任一方法来说,所述样品选自细菌、病毒粒子、DNA分子、RNA分子、核酸聚合物蛋白质、肽和多糖。在某些实施方式中,对于上述任一方法来说,所述样品源自于母体血液,并且其中所述参比分子源自于血液之外的母体样品。在某些实施方式中,对于上述任一方法来说,所述样品包含核苷酸,并且其中所述至少两种标记物位于所述核苷酸中目标区域的任一末端处。在某些实施方式中,对于上述任一方法来说,所述参比物源自于已知的二倍体或单倍体染色体。
[0011] 在某些实施方式中,对于上述任一方法来说,所述流体通道包括纳米通道。在某些实施方式中,对于上述任一方法来说,所述流体通道被配置成平行于基材表面。在某些实施方式中,对于上述任一方法来说,所述方法还包括为所述样品产生直方图分布以反映出覆盖深度。在某些实施方式中,对于上述任一方法来说,所述样品包含循环胎儿细胞、循环肿瘤细胞或体液或组织。在某些实施方式中,对于上述任一方法来说,转移包括对所述标记的样品施加选自下列的驱动:流体流,辐射场,电渗透力,电泳力,动电力,温度梯度,表面性质梯度,毛细管流,压力梯度,磁场电场,后退弯液面(receding meniscus),表面张力,热梯度,拉力,推力及其组合。
[0012] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含用于使用至少两种标记物标记样品分子的一个或多个仓室。所述系统可以包含用于转移标记的样品分子的流体通道,其中所述流体通道被设置成拉长所述样品分子的至少一部分,并且其中所述流体通道具有至少10nm的长度和小于5000nm的横截面直径。所述系统可以包含用于在所述流体通道中检测由标记的样品产生的信号的覆盖深度的装置。所述系统可以包含与所述装置数据连通的处理器,其中所述处理器被设置成产生所述样品的拷贝数曲线并且消除或最小化下列一者或两者:由所述标记的样品分子上的标记物密度引起的偏差;或由所述标记的样品分子的标记物密度之外的因素引起的偏差。在某些实施方式中,最小化或消除偏差包括通过所述标记的样品分子的特征性分子长度对缩放的覆盖深度进行归一化。在某些实施方式中,产生所述拷贝数曲线包括:产生每种标记物的原始覆盖深度曲线,将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线,产生样品特异性特征性分子长度,包含梯度和零阶系数值的参数化,在所述零阶系数的相对误差、基本误差或量级的基础上进行标记物过滤,以及针对所述样品特异性特征性分子长度对缩放的标记物覆盖深度进行归一化。在某些实施方式中,产生所述拷贝数曲线包括进行检测畸变的单分子归一化(SIngle MOlecule NormalIzation to Detect Aberrations)(SIMONIDA)。在某些实施方式中,产生所述拷贝数曲线包括:产生每种标记物的原始覆盖深度曲线;将所述原始覆盖深度曲线变换成相应的缩放的标记物覆盖深度曲线;产生样品特异性特征性分子长度;包含梯度和零阶系数值的参数化;在所述零阶系数的相对误差、基本误差或量级的基础上进行标记物过滤;以及针对所述每个标记的样品分子的样品特异性特征性标记物数目或每个标记的样品分子的预定长度区段内的特征性标记物数目对缩放的标记物覆盖深度进行归一化。在某些实施方式中,将缩放的标记物覆盖深度针对每个分子的样品特异性特征性标记物数目进行归一化。在某些实施方式中,将缩放的标记物覆盖深度针对所述每个标记的样品分子的预定长度区段内的特征性标记物数目进行归一化。在某些实施方式中,所述每个标记的样品分子的预定长度区段包含100kb的核酸。在某些实施方式中,产生拷贝数曲线包括性染色体归一化。在某些实施方式中,产生拷贝数曲线包括缩放的标记物覆盖深度的稳健的线性回归。在某些实施方式中,产生拷贝数曲线包括:在训练样品中的性染色体数目的基础上对所述训练样品的多个缩放的标记物覆盖深度进行缩放;以及在存在时针对所述标记的样品分子的特征性分子长度对所述缩放的标记物覆盖深度进行归一化,并且还包括将归一化的标记物覆盖深度除以训练集的多个性染色体的归一化的覆盖深度的中值。在某些实施方式中,产生所述拷贝数曲线包括光学图谱的整体重新归一化(Global Renormalization of Optical Maps)(GROM)。在某些实施方式中,GROM包括:产生每个区间的原始覆盖深度曲线;将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线;产生样品特异性标记物密度偏差系数(LDBC);对区间进行参数化,其中所述区间参数包含梯度和零阶系数值;在至少一个误差测量值的基础上对区间进行过滤;针对LDBC对缩放的覆盖深度进行归一化,以及从归一化的覆盖深度曲线产生拷贝数曲线。在某些实施方式中,所述处理器被设置成自动确定所述第一目标基因组片段或多个片段中可能的结构变异的存在或不存在。在某些实施方式中,所述处理器被设置成自动鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中与邻近区间相比具有显著不同的拷贝数的区间包含可能的断点。在某些实施方式中,所述处理器被设置成自动确定SIMONIDA拷贝数中统计学显著的差异。在某些实施方式中,所述处理器被设置成自动确定SIMONIDA拷贝数断点。在某些实施方式中,所述处理器被设置成自动确定GROM拷贝数中统计学显著的差异。在某些实施方式中,所述处理器被设置成自动确定GROM拷贝数断点。在某些实施方式中,所述处理器被进一步设置成鉴定所述GROM拷贝数断点与所述SIMONIDA拷贝数断点之间的重叠。在某些实施方式中,所述处理器被进一步设置成对于每个所述GROM拷贝数断点来说,鉴定参比序列在所述断点的第一侧上的第一区域并遮蔽所述参比序列在所述断点的第二侧上的第二区域,其中所述第二侧与所述第一侧相反;并且对在所述第一区域中与所述参比物对齐的仅仅单分子对齐进行评分。在某些实施方式中,所述处理器被进一步设置成使用第二种方法确定多个可能的结构变体,以及鉴定所述GROM拷贝数断点或SIMONIDA拷贝数断点与通过第二种方法确定的所述多个可能的结构变体之间的重叠。在某些实施方式中,所述处理器被进一步设置成对于每个所述GROM拷贝数断点来说,鉴定参比序列在所述断点的第一侧上的第一区域并遮蔽所述参比序列在所述断点的第二侧上的第二区域,其中所述第二侧与所述第一侧相反;并且对在所述第一区域中与所述参比标记物对齐的仅仅单分子对齐进行评分。在某些实施方式中,所述流体通道是纳米通道。在某些实施方式中,所述流体通道被配置成平行于基材表面。在某些实施方式中,所述系统被进一步设置成为所述样品产生直方图分布,以反映出覆盖深度。在某些实施方式中,所述样品包含循环胎儿细胞、循环肿瘤细胞或体液或组织。在某些实施方式中,所述转移包括对所述标记的样品施加选自下列的驱动力:流体流,辐射场,电渗透力,电泳力,动电力,温度梯度,表面性质梯度,毛细管流,压力梯度,磁场,电场,后退弯液面,表面张力,热梯度,拉力,推力及其组合。
[0013] 在某些实施方式中,提供了一种用于执行上述任一方法的试剂盒。
[0014] 在某些实施方式中,提供了一种用于使用上述任一系统的试剂盒。
[0015] 附图简述
[0016] 图1是示出了根据本文中的某些实施方式,流经纳米流体通道的样品分子或粒子(椭圆形)和参比或比较性分子或粒子(球形)的示意图。
[0017] 图2是示出了根据本文中的某些实施方式,用于检测从标记的分子或粒子发射的信号以列表显示样品和参比分子或粒子的量、强度和配置的成像设置的示意图。
[0018] 图3A、3B和3C是一系列图像,示出了根据本文中的某些实施方式,通过PCR产生,进行荧光标记、流动并在单个纳米流体通道中成像的具有已知尺寸的小的双链DNA片段:233bp(图3A),498bp(图3B)和834bp(图3C)。图3D示出了根据本文中的某些实施方式,混合在一起、流动并在同一纳米流体通道中成像的相同的双链DNA片段。将所述荧光信号在直方图中作图(图3E)。
[0019] 图4是示出了小DNA的强度测量值的线性的一系列图。示出的是描绘了根据本文中的某些实施方式,从具有已知尺寸的单个标记的DNA分子发射的光子的高斯曲线:233bp(图4A),498bp(图4B)和834bp(图4C)。总覆盖深度和强度线性正比于质量和/或分子尺寸。图4D是示出了DNA的BP对直方图的高斯强度峰/100作图的图。在线性动态范围内,未知的分子尺寸和量可以通过这种方法外推。
[0020] 图5是示出了小分子片段或粒子的定量测量值的一系列图。根据本文中的某些实施方式,线性动态范围内的未知量的分子浓度使用来自于图4的信息来外推。图5A是示出了对于834bp DNA来说,在线性动态范围的基础上每次扫描的DNA粒子的数目的图。图5B是示出了对于233bp DNA来说,在线性动态范围的基础上每次扫描的DNA粒子的数目的图。因此,设想了根据本文中的某些实施方式,可以外推并测量尺寸相近的DNA的浓度,此外通过改变加载参数可以覆盖长的浓度范围。
[0021] 图6是示出了根据本文中的某些实施方式,基因组DNA片段对参比基因组(人类基因组第19版)作图的直方图。y轴示出了特定染色体区域的覆盖深度。除了没有序列信息的区域(例如着丝粒和端粒)之外,在整个基因组中观察到均匀分布。
[0022] 图7A是示出了根据本文中的某些实施方式,来自于人类男性样品的二倍体基因组片段与1号染色体对齐的图。y轴提供了覆盖的量。x轴提供了核苷酸位置。平均覆盖深度为5X。图7B是示出了以2X-2.5X的平均覆盖深度(二倍体常染色体的深度的接近一半)显示的来自于同一男性样品的单倍体性X染色体的图,演示了根据本文中的某些实施方式使用所述方法和平台的定量测量。
[0023] 图8是示出了根据本文中的某些实施方式,整倍体男性中原始读数曲线的实例的图。
[0024] 图9是示出了根据本文中的某些实施方式,整倍体女性中原始读数曲线的实例的图。
[0025] 图10是示出了根据本文中的某些实施方式,癌症样品中原始读数曲线的实例的图。
[0026] 图11是示出了根据本文中的某些实施方式,另一个癌症样品中原始读数曲线的实例的图。
[0027] 图12是示出了根据本文中的某些实施方式,原始覆盖深度曲线的方差(数据点)和基于覆盖的期望值(连续线)的图。注意到方差远远超过基于覆盖的期望值。
[0028] 图13是根据本文中的某些实施方式,源自于几个原始覆盖深度曲线的量化的相关系数的热图。所述相关系数的分层聚簇将男性样品与女性样品区分开。还示出了将在同一起源的生物样品上获得的所有技术平行测定分组在一起的聚簇。癌症样品与所有其他样品明显分开。
[0029] 图14是描绘了根据本文中的某些实施方式,每个50kbp区间的标记物数目在0至26的范围内并且中值为6的条形图。
[0030] 图15是示出了根据本文中的某些实施方式,每个区间的标记物数目随基因组位置变化的图。
[0031] 图16的图示出了根据本文中的某些实施方式,缩放的覆盖深度相对于每个区间的标记物数目的回归得到标记物密度偏差系数(LBDC),其被评估为所述回归线的梯度。所述每个区间的标记物数目被每个区间的标记物数目的中值(6)移向左侧。
[0032] 图17的图示出了根据本文中的某些实施方式,标记物密度偏差系数是样品依赖性的。尽管图9中的实例示出了高度偏差的样品,但这张图示出了无偏差的样品。
[0033] 图18的图示出了区间内的缩放的覆盖深度相对于多个样品的样品特异性LDBC值的回归得到两个区间参数(零阶系数和梯度)以及误差度量(例如相对误差)。
[0034] 图19的图示出了根据本文中的某些实施方式,某些区间例如chr3_2697中的缩放的覆盖深度显示出对样品特异性LDBC值的强烈依赖性。一般来说,当区间中的标记物数目超过每个区间的标记物数目的中值时,相关的梯度高并且是正的。
[0035] 图20的图示出了根据本文中的某些实施方式,对于具有很少标记物的区间来说负梯度是特征性的。
[0036] 图21的图示出了根据本文中的某些实施方式,当标记物数目接近于每个区间的标记物数目的中值时,区间特异性梯度接近于零。
[0037] 图22是示出了根据本文中的某些实施方式,整倍体女性中的拷贝数曲线的实例的图。两条X染色体的存在和ChrY的不存在是明显的。
[0038] 图23是示出了根据本文中的某些实施方式,整倍体男性中的拷贝数曲线的实例的图。该图示出了ChrX和ChrY的单拷贝。
[0039] 图24的图示出了根据本文中的某些实施方式,GROM减小整倍体拷贝数曲线中的相对误差以逼近覆盖的平方根倒数。由于生物学差异,癌症样品表现出高的相对误差。
[0040] 图25的图示出了根据本文中的某些实施方式,癌症样品中的拷贝数曲线的实例。
[0041] 图26的图示出了根据本文中的某些实施方式,癌症样品中的拷贝数曲线的实例。
[0042] 图27的图示出了根据本文中的某些实施方式,癌症样品中的拷贝数曲线的实例。
[0043] 图28的图示出了根据本文中的某些实施方式,癌症样品中的拷贝数曲线的实例。
[0044] 图29的图示出了根据本文中的某些实施方式,每个区间的梯度随着每个区间的标记物数目线性变化,其斜率为1并且截距等于每个区间的标记物数目的中值。回归线与理想预期线性趋势几乎不可区分。
[0045] 图30A的图示出了根据本文中的某些实施方式,Chr6的GROM拷贝数曲线(痕迹线)与自动RPSA复合SV调用(垂直线10)重叠。平线指示了预期的(整数)拷贝数升高。图30B的图示出了根据本文中的某些实施方式,与拷贝数曲线的变化相关的p-值的负对数(以10为底)。垂直线:RPSA复合SV调用,其与超过截止值10的p-值峰不重叠(10)或重叠(20、21、22)。
[0046] 图31是示出了根据本文中的某些实施方式,对应于图30B的垂直线21的涉及6号和10号染色体的易位40的示意图。还示出了10号染色体区域的表观缺失50。
[0047] 图32是示出了根据本文中的某些实施方式,图31中描绘的易位40的单分子数据的示意图。
[0048] 图33是示出了根据本文中的某些实施方式,涉及6号和12号染色体的易位的鉴定的示意图。所述断点对应于图30B的垂直线22。一些长的分子跨越易位结合部。
[0049] 图34是根据本文中的某些实施方式确定特征性分子长度的图。应该指出,特征性分子长度的确定可能对检测畸变的单分子归一化(SIngle MOlecule NormalIzation to Detect Aberrations)(SIMONIDA)有用。
[0050] 图35是示出了根据本文中的某些实施方式,确定每种标记物的零阶系数(E)和(G)的图。对于Chr9中的4,756号标记物(位于41,651,803bp处)来说,E=1.84±0.09并且G=-2.13±0.30。
[0051] 图36A是示出了根据本文中的某些实施方式,零阶系数值的分布的图。
[0052] 图36B是示出了根据本文中的某些实施方式,每种标记物的零阶系数误差的分布的图。
[0053] 图37A是示出了根据本文中的某些实施方式,每种标记物的梯度值的分布的图。
[0054] 图37B是示出了根据本文中的某些实施方式,每种标记物的梯度误差的分布的图。
[0055] 图38A是示出了根据本文中的某些实施方式,每种标记物的基本误差估算值的分布的图。
[0056] 图38B是示出了根据本文中的某些实施方式,每种标记物的总误差估算值的分布的图。
[0057] 图39是示出了根据本文中的某些实施方式,使用SIMONIDA确定的每个标记物曲线的拷贝数的实例的图。每个标记物曲线的拷贝数是对于在Chr22中具有已知亚染色体畸变(22q11,迪格奥尔格综合征)的对象而言。示出了所有常染色体的染色体。
[0058] 图40是示出了根据本文中的某些实施方式,使用SIMONIDA确定的每个标记物曲线的拷贝数的实例的图。每个标记物曲线的拷贝数是对于在Chr22中具有已知亚染色体畸变(22q11,迪格奥尔格综合征)的对象而言。示出了Chr22,其中突出了受影响的区域(18-22Mbp)。
[0059] 图41的图示出了每个标记物值的拷贝数(在缩放到两个染色体拷贝之前)的不确定性的计算,其可以根据本文中的某些实施方式来计算。
[0060] 图42是示出了根据本文中的某些实施方式,使用SIMONIDA为癌症样品(COLO829)确定的每种标记物的拷贝数曲线的实例的图。对Chr2和Chr5的标准偏差分别为0.608(25,903个标记物)和0.450(18,715个标记物)。作为比较,同一样品的GROM曲线的标准偏差是对Chr2来说的0.804(4,864个区间,区间尺寸50kb)和0.589(3,619个区间)。因此,与GROM相比,使用SIMONIDA的归一化程序实现了相对误差的~25%的改进,同时分辨率提高4-7倍。
[0061] 图43是示出了根据本文中的某些实施方式,使用SIMONIDA为不同于图42的癌症样品确定的每种标记物的拷贝数曲线(仅仅常染色体)的实例的图。
[0062] 图44是示出了根据本文中的某些实施方式,根据每种标记物的归一化的拷贝数最小化或消除偏差的方法的流程图
[0063] 图45是示出了根据本文中的某些实施方式,包含每种标记物的归一化的拷贝数并包含性染色体归一化的最小化或消除偏差的方法的流程图。
[0064] 图46A是示出了根据本文中的某些实施方式,包含每种标记物的归一化的拷贝数并包含性染色体归一化的每种标记物的ChrX拷贝数的观察到的标准偏差的图。
[0065] 图46B是示出了根据本文中的某些实施方式,包含每种标记物的归一化的拷贝数并包含性染色体归一化的每种标记物的ChrY拷贝数的观察到的标准偏差的图。
[0066] 图47A是示出了根据本文中的某些实施方式,使用SIMONIDA为NA12878(女性)细胞系细胞确定并包含性染色体归一化的每种标记物的拷贝数曲线的实例的图。
[0067] 图47B示出了根据本文中的某些实施方式,使用SIMONIDA为NA12878(女性)细胞系的X染色体确定并包含性染色体归一化的每种标记物的拷贝数曲线的实例。
[0068] 图47C示出了根据本文中的某些实施方式,使用SIMONIDA为NA12878(女性)细胞系中鉴定到的任何Y染色体标记物确定并包含性染色体归一化的每种标记物的拷贝数曲线的实例。结果与不存在Y染色体相一致。
[0069] 图48A是示出了根据本文中的某些实施方式,使用SIMONIDA为NA12891(男性)细胞系确定并包含性染色体归一化的每种标记物的拷贝数曲线的实例的图。
[0070] 图48B是示出了根据本文中的某些实施方式,使用SIMONIDA为NA12891(男性)细胞系的X染色体确定并包含性染色体归一化的每种标记物的拷贝数曲线的实例的图。
[0071] 图48C是示出了根据本文中的某些实施方式,使用SIMONIDA为NA12891(男性)细胞系的Y染色体确定并包含性染色体归一化的每种标记物的拷贝数曲线的实例的图。
[0072] 详细描述
[0073] 根据本文中的某些实施方式,确定了样品例如染色体或其片段中核酸的拷贝数曲线。如果每种标记物的拷贝数值含有任何特点(例如升高或降低),则这些特点在基因组中的位置和终点可被用于表征所述基因组并鉴定重复、缺失和复杂的基因组重排(例如易位)。染色体或其片段的定量具有各种不同的应用,例如在产前检查中鉴定胎儿染色体数目和鉴定遗传异常例如重复、缺失或易位。根据某些实施方式,将样品核酸分子标记,在流体通道中线性化,并在所述分子上鉴定标记物特征性的模式。对应于目标染色体或片段的信号的相对量或强度可以与参比基因组区域进行比较,以确定所述基因组区域的覆盖深度并产生拷贝数曲线。在某些实施方式中,提供了用于改进拷贝数曲线测定的质量的方法和系统。设想了基因组覆盖图可能经历两类偏差:(1)由标记物密度引起的偏差,以及(2)由标记物密度之外的因素引入的偏差。根据本文中的某些实施方式,提供了用于准确确定源自于一个或多个特定基因组区的基因组材料的量的方法和系统。所述方法和系统可以说明每种标记物的覆盖深度和/或每个分子的标记物和/或每个分子的预定长度区段内的标记物和/或基因组区间的每种标记物覆盖的平均值,以最小化或消除偏差。所述方法和系统也可以说明性染色体特征性的偏差。在某些实施方式中,由标记物密度引起的偏差和/或由标记物密度之外的因素引入的偏差被最小化或消除。在某些实施方式中,覆盖深度或拷贝数曲线被自动确定。在某些实施方式中,提供了用于可靠地自动鉴定样品中的结构变体例如缺失、重复或易位的方法和系统。
[0074] 复杂的基因组重排、包括易位,以前难以使用NGS或微阵列来鉴定和表征。尽管使用分析技术例如微阵列或NGS已经检测到一些单个的易位,但这些技术不容易服从于可以在基因组广度规模上可信地调用易位的可靠的自动化工作流程。根据本文中的某些实施方式,基因组作图数据被用于以服从于自动化工作流程的方式可靠地调用复杂的基因组重排。
[0075] 胎儿将小的DNA片段脱落到母体血液流中。还已发现,肿瘤将DNA释放到血流中。根据本文中的某些实施方式,提供了用于分析血液中的多核苷酸片段例如DNA片段以检测来自于胎儿或肿瘤的循环多核苷酸或细胞的存在的方法。根据本文中的某些实施方式,还提供了用于分析母体血液中的胎儿DNA以检测遗传异常的方法。在某些优选实施方式中,本文中描述的方法需要使用基于纳米流体装置的单分子检测平台来鉴定遗传异常。符合本文中的某些实施方式的方法和装置具有分析小或大的分子例如小或大的DNA分子的优点。在某些实施方式中,样品包含多个短的核酸分子如DNA或RNA分子,例如约10-2000bp的分子。在某些实施方式中,将目标分子或区域用至少一种模式标记,并将目标参比分子或区域用至少一种模式标记。可以将所述分子在微流体通道中线性化,并且可以将目标分子或区域的覆盖深度与参比分子的覆盖深度进行比较,以便确定目标分子的拷贝数。
[0076] 基因组包含生物体的多核苷酸序列,并且可以包含DNA、RNA或其组合。应该指出,基因组或基因组片段可以用其他分子例如染色质包装,并且包装的基因组或基因组片段可以包含表观遗传特点例如甲基化或乙酰化。因此,本文中使用的“基因组”或“基因组片段”可以通过基因组特点例如多核苷酸序列和/或表观遗传特点例如甲基化模式或染色质包装来表征。同样地,根据本文中的某些实施方式,包含基因组或基因组片段的样品分子可以包含DNA、RNA、用染色质包装的DNA和/或RNA以及其他形式的基因组片段,并且同样地可以通过多核苷酸序列模式和/或通过表观遗传特点的模式来表征。尽管符合本文中的某些实施方式的方法可以适用于包含扩增的核酸(例如通过PCR、等温扩增、滚环扩增等)的样品,但考虑到核酸的扩增可能产生另外的偏差,例如作为所述扩增的假象。设想了未经历过核酸扩增的样品与经历过核酸扩增的样品相比可以表现出更少的偏差。因此,更优选地,符合本文中的某些实施方式的样品包含未被扩增的核酸。然而,由于符合本文中的某些实施方式的方法适用于在扩增的样品中减小或消除偏差,因此在某些实施方式中,样品包含例如通过PCR、等温扩增、滚环扩增等扩增的核酸。
[0077] 当在本文中使用时,“区间”是指基因组的划分。在某些实施方式中,可以将基因组划分成多个区间,使得每个区间指称基因组区域。所述划分可以在计算机中进行,并且同样地,将基因组划分成区间不需要物理切割或分离出基因组材料。任选地,区间具有相同尺寸。任选地,某些但不是所有的区间彼此尺寸不同。任选地,每个区间与每个其他区间尺寸不同。例如,可以将10kb的基因组划分成尺寸各为2kb的5个区间,或不同尺寸的5个区间(例如3kb+3kb+3kb+0.5kb+0.5kb)。本领域技术人员将会认识到,用于基因组的划分或基因组划分的分组的各种不同的其他术语,也可以被鉴定为区间。
[0078] 当在本文中使用时,“覆盖深度”是指作图到基因组的一个或多个区域的检测的样品分子的数目。同样地,覆盖深度可以在作图到基因组的一个或多个区域的标记物的量的基础上确定。覆盖深度可以用于基因组序列或表观遗传特点例如甲基化或乙酰化。例如,覆盖深度可以被描绘为在多个基因组区域或“区间”内基因组覆盖深度的直方图。此外,覆盖深度可用于确定“拷贝数曲线”。
[0079] 当在本文中使用时,“拷贝数曲线”是指样品中多个染色体或其部分中的每一个的相对或绝对数目。例如,拷贝数曲线可以指示样品中多个基因组区间中的每一个区间的相对或绝对拷贝数。同样地,拷贝数曲线可以提供对基因组的各个不同部分的拷贝数的洞察,例如样品染色体的部分的升高和降低,以便指示重复、缺失和复杂的基因组重排。
[0080] 拷贝数曲线可以使用原始标记物覆盖值,例如对于一种或多种类型的序列或表观遗传标记物来说作图的分子的数目来计算。在本文中设想到实验偏差(例如标记物密度偏差)和/或生物学偏差(例如与复杂的基因组重排例如癌症基因组相关的多个断点)可以干扰拷贝数的准确确定。符合本文中的实施方式的方法和系统可以最小化或消除这些偏差,由此改进拷贝数曲线的质量。
[0081] 还应该指出,拷贝数曲线不仅说明标记物的数量,而且说明基因组背景中特定基因组区域的数量。例如,在不存在其他信息的情况下,“标记物1”的两个拷贝可以指示无关序列中引起该序列被“标记物1”标记的染色体内重复、染色体间重复或突变中的任一者。另一方面,指示男性中X染色体的2x覆盖和常染色体的2x覆盖的拷贝数曲线,可以指示染色体异常例如柯林菲特综合征(XXY)。同样地,符合本文中的某些实施方式的方法和系统可以通过最小化或消除偏差来提高拷贝数曲线的质量,以便提供反映出基因组拷贝数而不是标记的假象的拷贝数曲线。
[0082] 据估计,母体血液中约3-15%的短DNA是胎儿来源的。本文中描述了使用并入有流体装置的方法容易地检测和定量小分子、包括短DNA片段的方法。在某些优选实施方式中,所述方法包括不用测序或组装来定量短的DNA片段。由于设想到母体血液样品可能包含母体和胎儿来源的基因组片段的混合物,因此设想到在这种混合样品中,拷贝数曲线可以包含整倍体母体基因组与整倍体胎儿基因组之间的中间值。例如,如果样品包含整倍体母体基因组片段与具有21号染色体三体的整倍体胎儿片段的混合物,则所述样品的拷贝数曲线可以指示21号染色体的拷贝数大于2但小于3。同样地,符合本文中的实施方式的可以确定拷贝数曲线并同时最小化或消除偏差并因此最小化或消除误差的方法和系统,可用于在母体样品中灵敏地检测胎儿染色体异常。
[0083] 设想了符合本文中的实施方式的方法可以鉴定癌细胞特征性的复杂基因组重排。因此,符合本文中的某些实施方式的方法和/或系统为癌细胞或多个癌细胞例如肿瘤活检样品提供拷贝数曲线。
[0084] 当前的涉及针头穿刺以抽取羊水的产前检测可能引起流产和其他并发症。此外,许多当前的癌症检测方法还也涉及侵入性程序例如组织活检。根据本文中的某些实施方式,提供了产前检测的非侵入性方法。在某些实施方式中,所述方法用于测试血液。在某些实施方式中,所述方法仅测试血样,并且不测试来自于其他组织的样品。
[0085] 本文中还描述了使用并入有流体技术的方法来检测较大分子包括较长DNA片段并追溯它们直至来源的方法。例如,在某些实施方式中,DNA片段被追溯到肿瘤或其他癌症来源。在某些优选实施方式中,所述方法被用于追溯DNA片段直至它们的来源以便鉴定或表征遗传异常。
[0086] 在某些实施方式中,对来自于母体血样的循环DNA进行分析,以相对于母体基因组鉴定和定量胎儿DNA。在某些实施方式中,这一信息被用于确定产前基因组健康状态(例如21号染色体三体)而不需侵入性试验。在检测非整倍性的测定法中使用的适合的寡核苷酸的实例提供在HSA21寡核苷酸阵列中,其描述在Yahya-Graison等,“唐氏综合征中人类21号染色体基因表达变化性的分类:对疾病表型的影响”(Classification of Human 
Chromosome 21 Gene-Expression Variations in Down Syndrome:Impact on Disease Phenotypes),Am J Hum Genet 2007,81(3):475-491中,所述文献整体通过参考并入本文。
[0087] 在某些实施方式中,将目标样品与参比物进行比较。所述参比物可以包含参比基因组或参比基因组的一个或多个部分。鉴定样品中的基因组序列或表观遗传模式的标记物可以与所述参比物的标记物相关联。在某些实施方式中,所述参比基因组包含已注释的人类参比基因组例如hg19或GRCh38。在某些实施方式中,所述参比基因组包含hg19。在某些实施方式中,所述参比基因组包含GRCh38。在某些实施方式中,所述参比物包含源自于参比基因组例如hg19或GRCh38计算机数字消化的条形码。例如,如果样品在特定序列基序处被标记,则该基序在所述参比基因组内的模式可以在计算机中确定,并且可以将样品分子与所述计算机确定的模式对齐,以确定所述参比基因组的覆盖深度。在某些实施方式中,所述参比物包含电子储存的一组值。在某些实施方式中,所述参比物包含光学储存的一组值。在某些实施方式中,所述参比物包含标记的参比分子。任选地,所述参比物包含来自于已知不含异常的样品的分子。任选地,所述参比物包含已知不含异常的基因组区域(例如其非整倍性通常不能存活的常染色体,例如1号染色体)。在某些实施方式中,目标样品源自于母体血样。在这些实施方式的某些中,参比样品是来自于血液之外的来源的母体样品。在某些实施方式中,母体参比样品包括从血液之外的二倍体组织分离的多核苷酸例如DNA。在某些实施方式中,母体参比样品包含颊样品、唾液样品、尿液样品、痰液样品或泪液样品。例如,在某些实施方式中,在母体血液样品中检测21号染色体三体并与母体颊样品进行比较。
[0088] 在某些实施方式中,本文中的方法和/或系统使用来自于与样品分子相同的生物体例如同一个体或同一物种的不同个体的参比物。在某些实施方式中,本文中的方法和/或系统使用来自于与样品分子相同的生物体(例如同一个体或同一物种的不同个体)的不同组织、例如已知不含染色体异常的组织的参比物。在某些实施方式中,本文中的方法和/或系统使用来自于与样品分子不同的生物体的参比物。所述不同生物体可以来自于与样品分子相同的物种。
[0089] 在某些实施方式中,在执行本文中描述的方法之前,使目标样品富集胎儿核酸。例如,在某些实施方式中,使用可以被抗体识别的胎儿细胞特异性标志物来富集胎儿细胞。在某些实施方式中,目标样品经历尺寸分级。然而,可以使用本领域技术人员已知的任何富集方法。
[0090] 在某些实施方式中,目标样品源自于肿瘤细胞或疑似肿瘤细胞,或与肿瘤细胞流体连通的组织(例如血液)。在某些实施方式中,参比样品是来自于健康细胞的样品。在某些实施方式中,参比样品来自于与肿瘤细胞或疑似肿瘤细胞相同的生物体的健康细胞。在某些实施方式中,参比样品选自包含肿瘤细胞或来自于肿瘤细胞的核酸的可能性很小至没有所述可能性的组织。
[0091] 正如本领域技术人员将会认识到的,目标样品可能包括来自于各种不同来源的核酸。在某些实施方式中,目标样品包含源自于环境样品的细菌或病毒粒子、动物或植物组织、血液或其他体液。在某些实施方式中,使用DNA片段来检测染色体异常或癌症基因组。
[0092] 正如本领域技术人员将会认识到的,本文中描述的方法可用于制备和分析来自于循环胎儿或肿瘤细胞的DNA。例如,在某些实施方式中,在分析之前将细胞裂解以释放出目标DNA。
[0093] 在某些实施方式中,测定或分析完整的基因组。在某些实施方式中,仅仅测定或分析基因组的一部分。在某些实施方式中,测定或分析完整的染色体。在某些实施方式中,仅仅测定或分析染色体的一部分。在某些实施方式中,分析完整的基因。在某些实施方式中,仅仅测定或分析基因的一部分。
[0094] 本文中描述的信号可以包括任何适合的信号,包括光学信号、荧光信号、非光学信号、放射信号、电信号、磁信号、化学信号或其任何组合。在某些实施方式中,信号由电子自旋共振分子、荧光分子、化学发光分子、放射性同位素、酶底物、生物素分子、亲和素分子、带电荷转移分子、半导体纳米晶体、半导体纳米粒子、胶体金纳米晶体、配体、微珠、磁珠、顺磁性粒子、量子点、发色底物、亲和性分子、蛋白质、肽、核酸、糖类、抗原、纳米丝、半抗原、抗体、抗体片段、脂质或其组合产生。
[0095] 在某些实施方式中,通过使用一个或多个激发源以诱导荧光、化学发光、磷光、生物发光或其任何组合来产生信号。适合的激发源包括激光、可见光源、红外光源、紫外光源或其任何组合。
[0096] 在某些实施方式中,核苷酸或相关信号(例如荧光团)的检测是定量的。在某些实施方式中,核苷酸的长度被定量。在某些实施方式中,分子的尺寸被定量。在某些实施方式中,信号的强度与分子长度相关。例如,如图3A中所示,较长的DNA分子与较短的DNA分子相比可以产生更强的信号。在某些实施方式中,信号的强度与样品或流体通道中DNA的量相关。
[0097] 在某些实施方式中,分析样品的拷贝数变化,例如如美国专利公开号20130034546中所述,其全部内容通过参考并入本文。
[0098] 特定分子例如源自于不同染色体的DNA片段的量,可以在本文提供的方法中定量测量。在某些实施方式中,观察到源自于二倍体常染色体的基因组DNA的量为源自于单倍体性染色体的量的两倍。在某些实施方式中,这些片段的量反映出源染色体的拷贝数。在某些实施方式中,使用两种或三种颜色的标记物。
[0099] 在某些实施方式中,检测染色体来源的片段,并使用相对比率来鉴定非整倍性。在某些实施方式中,使用比率K1=S1/C和K2=S2/C来计算核苷酸的拷贝数,其中K1是第一样品与对照样品的信号比率,K2是第二样品与对照样品的信号比率。设想了来自于参比样品的拷贝数是整数,并且K1与K2之间的差异可以指示目标样品之一中的异常。在某些实施方式中,通过将特定样品的比率与来自于多个样品的平均比率进行比较,来检测异常。所述方法还设想了对照基因组序列包括分开的部分,其每个基因组的总长度是已知的,其中目标序列包含分开的部分,其每个正常基因的长度是已知的,并且其中K1与K2之间的显著差异指示了所述基因组中的遗传异常。在某些实施方式中,目标核苷酸序列可以涉及三体性连的染色体,其中对照基因组序列来自于所述三体性连锁的染色体之外的染色体,并且其中约2:3或3:2的K1/K2比率指示了三体基因型。在某些实施方式中,目标核苷酸序列包含一部分基因组的缺失。在某些实施方式中,目标核苷酸序列包含重复的序列。同样地,根据本文中的某些实施方式,可以确定重复的序列的拷贝数。在某些实施方式中,所述第一样品包含母体血液(不受任一种理论限制,其可能包括胎儿核酸),并且所述第二样品包含血液之外的母体组织(优选为包含胎儿核酸的可能性很小至没有所述可能性的组织)。
[0100] 在某些实施方式中,进行数字计数检测。在某些实施方式中,对粒子(例如珠子)、细菌或病毒粒子进行数字计数检测。正如本领域技术人员将会认识到的,本文中描述的方法可以应用于可以被独一无二地标记的各种不同靶。在某些实施方式中,进行数字核型分析。例如,在某些实施方式中,对具有可能的目标非整倍性的染色体进行数字核型分析。本文中描述的方法可用于检测任何目标染色体变异,包括易位、添加、扩增、颠换、倒位、非整倍性、多倍性、单倍性、三体性、21号染色体三体、13号染色体三体、14号染色体三体、15号染色体三体、16号染色体三体、18号染色体三体、22号染色体三体、三倍性、四倍性和性染色体异常,包括但不限于XO、XXY、XYY和XXX。应该指出,大量生物体和基因组例如植物、真菌、藻类、细菌和病毒通常不包含性染色体。设想了符合本文中的实施方式的方法和装置,除了适用于包含性染色体的生物体和基因组例如动物之外,也适用于不包含性染色体的生物体和基因组,例如植物、真菌、藻类、细菌和病毒。
[0101] 通过GROM最小化和消除作图覆盖的偏差
[0102] 本文中还描述了用于基因组分析数据例如图谱的归一化的方法。所述用于归一化的方法可以与本文中的其他方法联合使用,以例如减小与标记物密度相关的偏差和/或与标记物密度之外的因素相关的偏差。例如,所述方法可以减小与GC含量相关的偏差。
[0103] GC相关的系统偏差可以影响多核苷酸序列的阵列和下一代测序(NGS)覆盖测量值。减弱GC偏差的影响的各种不同方法包括GC偏差的加法消除、乘法GC校正,并且分位数归一化尚未成功。不受任何理论限制,这些以前的方法都不能完全消除所有偏差,主要是因为它们不能将GC偏差与位置特异性的非GC相关的偏差分开。
[0104] 参数化误差消除和无偏差归一化(PERUN;参见美国专利公开号2013/0325360,其全部内容通过参考并入本文)可以通过将测序的短Illumina读出序列与人类参比基因组对齐,将参比基因组分割成直条(bin),对作图在每个直条内的读出序列进行计数,评估样品特异性GC偏差系数,对于多个样品针对样品特异性GC偏差系数进行原始直条计数(相对于总原始直条计数进行缩放)的回归,并通过使用基于R因子的交叉验证,实现来自于覆盖曲线的NGS特异性偏差的完全消除。所述直条特异性回归系数可用于将每个直条参数化,并将样品特异性GC系数考虑在内校正GC和非GC直条特异性偏差两者。所述交叉验证可用于过滤出不可靠的基因组直条。直条的进一步过滤可以在直条的可作图性/可重复性度量值的基础上进行。在某些实施方式中,可以将多核苷酸测序,并且可以使用PERUN消除或最小化GC偏差。
[0105] 本文中公开了光学图谱的全面重新归一化(Global Renormalization of Optical Maps)(GROM)。在某些实施方式中,GROM消除或最小化了来自于长的多核苷酸序列例如基因组区域的覆盖图谱的偏差。应该指出,尽管所述字母缩略词“GROM”包括术语“光学图谱”,但本文中设想了GROM也适用于非光学标记。为简明起见,术语GROM在整个本申请中使用时被理解为它适用于非光学以及光学覆盖图谱的重新归一化。根据本文中的某些实施方式,在多核苷酸的标记作图例如光学标记中,与标记物密度相关的偏差可以取决于给定样品中观察到的分子长度的分布。所述标记物密度偏差除了对基因组位置特异之外,也可以反映出收集给定数据集所使用的实验条件。因此,标记物密度偏差随样品而变。由标记物密度之外的因素造成的偏差对分子长度不敏感。结果,对于多个样品例如正检查的所有样品来说,这些偏差可能是相同的。在某些实施方式中,最小化或消除两种类型的偏差便于确定源自于给定基因组区域的基因组材料的量。
[0106] 在某些实施方式中,将GROM应用于如本文中所述通过标记的多核苷酸的组装获得的覆盖图谱。在某些实施方式中,所述覆盖图谱通过光学标记获得。在某些实施方式中,所述覆盖图谱通过非光学标记获得(设想了GROM可以如本文中所述消除或最小化由各种不同类型的标记物密度造成的偏差,并因此可以被容易地改造以适应于光学和非光学标记)。在某些实施方式中,GROM消除或最小化由标记物密度造成的偏差。在某些实施方式中,GROM消除或最小化由标记物密度之外的因素引入的偏差。在某些实施方式中,GROM消除或最小化由标记物密度造成的偏差和由标记物密度之外的因素引入的偏差。
[0107] 在某些实施方式中,GROM从原始标记物覆盖值开始准确估算拷贝数曲线。在某些实施方式中,所述原始标记物覆盖值通过如本文中所述检测标记的多核苷酸来获得。在某些实施方式中,将所述原始标记物覆盖值储存在计算机可读介质中。例如,可以将原始标记物覆盖值报告在CMAP文件的覆盖区(Coverage field)中。如果GROM拷贝数曲线含有任何特点(例如升高或下降),则这些特点的位置和终点可用于表征所述基因组并鉴定大规模重复、缺失和复杂的基因组重排(例如易位)。
[0108] 在某些实施方式中,GROM包括原始覆盖深度曲线的产生,它向相应的缩放的覆盖深度曲线的变换,样品特异性标记物密度偏差系数(LDBC)的产生,包括梯度和零阶系数值的区间参数化,基于相对误差(或其他误差度量)的区间过滤,缩放的覆盖深度相对于LDBC的归一化,以及从归一化的覆盖深度曲线产生拷贝数曲线。
[0109] 在某些实施方式中,GROM归一化利用了方程1,其中l=染色体升高;其中C=缩放的原始覆盖深度;其中E=区间特异性零阶系数(不存在偏差情况下的预期覆盖深度);其中G=区间特异性梯度(区间对偏差的易感性,粗略等于所述区间内的标记物数目),并且其中L=样品特异性标记物密度偏差(覆盖深度相对于标记物数目的回归的梯度,样品对实验条件的响应)。
[0110] 方程1
[0111] l=(1/E)*(C–G*L)
[0112] 在某些实施方式中,样品分子上的标记物如本文中所述进行检测。在某些实施方式中,获得原始读数覆盖深度。原始读数覆盖深度可以如下获得:对于每个区间,将所述区间内所有标记物的覆盖值相加;将所述和除以标记物数目;并且赋予所述区间以标记物覆盖平均值。在某些实施方式中,所述原始读数覆盖深度(在本文中也被称为“原始覆盖”)包含下列一个或多个特征:与样品中染色体材料的量成正比;性染色体的升高足以确定性别;从原始覆盖深度明显看出癌症样品中的非整倍性;对同一个体的重复测量产生高度相关的原始覆盖深度曲线;可以将原始覆盖深度除以总常染色体覆盖深度以将所有样品带到相同的标度(为方便起见,也可以乘以常染色体区间的数目);以及可能的高方差和系统偏差。同样地,在某些实施方式中,最小化或消除来自于原始读数覆盖深度的偏差。在某些实施方式中,所述原始读数覆盖深度通过GROM来最小化或消除。
[0113] 根据某些实施方式,GROM包括表1中所示的一些或所有步骤。专业技术人员将会认识到,根据某些实施方式,本文中列出的步骤可以以不同顺序进行、取消或重复。
[0114] 表1
[0115]
[0116]
[0117]
[0118]
[0119] 出人意料的是,GROM可以产生高精度的Y染色体覆盖深度曲线,尽管可用的男性训练样品的数目少并且在Y染色体与其余基因组、特别是X染色体之间存在已知的序列相似性。
[0120] 在某些实施方式中,GROM产生GROM拷贝数曲线。所述GROM拷贝数曲线可以包含随着增加的噪音取等于1的整数倍(始于0)的值的步进函数。取决于总覆盖,所述相对误差可以在10%至25%或更高的范围内,例如约10%至25%、约10%至35%、约10%至45%、约15%至25%、约15%至35%、约15%至45%、约20%至25%、约20%至35%或约20%至45%。
-10
在某些实施方式中,10 的p-值被用于鉴定绝对拷贝数的显著变化。专业技术人员将会认识到许多用于计算相对误差的可用方法,例如R因子等。
[0121] 通过归一化的每种标记物的拷贝数(SIMONIDA)最小化和消除作图覆盖中的偏差[0122] 本文中所描述的GROM可用于最小化或消除两种类型的偏差:(1)由标记物密度引起的偏差,以及(2)由标记物密度之外的因素引入的偏差。本文中设想了通过检测畸变的单分子归一化(SIngle MOlecule NormalIzation to Detect Aberrations)(SIMONIDA)进行的偏差的最小化或消除,也可以最小化或消除这两种类型的偏差,并且可以进一步提供另外的优点,例如比预定的区间尺寸情况下更高的分辨率,并说明了与复杂基因组重排相关的生物变异性,例如癌症基因组中的生物变异性。应该指出,SIMONIDA方法涉及根据归一化的每种标记物的拷贝数来最小化或消除偏差,并且也可以被称为归一化的每种标记物拷贝数(“NCL”)。在某些实施方式中,SIMONIDA消除由标记物密度造成的偏差以及由标记物密度之外的因素引入的偏差。在某些实施方式中,SIMONIDA消除由标记物密度造成的偏差。在某些实施方式中,SIMONIDA消除由标记物密度之外的因素引入的偏差。在某些实施方式中,SIMONIDA最小化由标记物密度造成的偏差以及由标记物密度之外的因素引入的偏差。在某些实施方式中,SIMONIDA最小化由标记物密度造成的偏差。在某些实施方式中,SIMONIDA最小化由标记物密度之外的因素引入的偏差。在某些实施方式中,SIMONIDA消除由标记物密度造成的偏差并最小化由标记物密度之外的因素引入的偏差。在某些实施方式中,SIMONIDA最小化由标记物密度造成的偏差并消除由标记物密度之外的因素引入的偏差。
[0123] 根据本文中的某些实施方式,SIMONIDA说明了每种标记物的覆盖深度和样品特异性平均分子长度,以最小化或消除偏差。在本文中设想了标记物密度偏差除了对基因组位置特异之外,还反映出用于收集给定数据集的实验条件。因此,标记物密度偏差随样品而变。由标记物密度之外的因素引起的偏差对分子长度不敏感,因此对所有样品来说是相同的。根据本文中的某些实施方式,SIMONIDA可以最小化或消除两种类型的偏差。
[0124] 在某些实施方式中,SIMONIDA包括为样品产生每种标记物的原始覆盖深度曲线。可以将所述原始覆盖深度曲线变换成缩放的标记物覆盖深度曲线。可以确定样品特异性特征性分子长度。可以进行包括梯度和零阶系数值的标记物参数化。任选地,可以进行基于相对误差(或其他误差度量例如基本误差,或其他描述符例如零阶系数的量级)的标记物过滤。可以进行缩放的标记物覆盖深度相对于特征性分子长度的归一化。可以从归一化的数目曲线产生一个或多个拷贝数曲线。任选地,当进行拷贝数曲线的数值处理时,可以使用误差测量值例如使用二阶泰勒展开式评估的误差作为权重,以例如检测特点。
[0125] SIMONIDA可以包括表征训练集的样品行为。任选地,所述训练集可以包含多个整倍体基因组。对于新收集的数据集来说,可以产生缩放的标记物覆盖深度曲线,可以计算横坐标值,并且可以在来自于训练集的行为的基础上计算归一化的标记物覆盖深度(n)。设想了根据某些实施方式,如果所述训练集包括男性样品或具有性染色体非整倍体的样品例如雅各布综合征(XYY)和/或柯林菲特综合征(XXY)样品,则可以调整缩放的X和/或Y染色体覆盖深度,以说明任一性染色体的单拷贝和/或双拷贝。
[0126] 图44是示出了符合本文中的某些实施方式的SIMONIDA的流程图。SIMONIDA可以包括在样品分子上收集标记的作图数据440。SIMONIDA可以包括选择适合的参比基因组或其部分441。SIMONIDA可以包括将过滤的分子子集与浓缩的所选参比基因组进行对齐442。SIMONIDA可以包括确定分子长度的范围,其中观察到的频率值的对数随所述分子长度线性变化443。SIMONIDA可以包括在所述线性范围内进行观察到的频率的对数针对分子长度值的线性回归。评估来自于前一步骤的线性回归的梯度的负倒数值。这是特征性分子长度λ
444。SIMONIDA可以包括将所有原始标记物覆盖深度除以非性染色体(例如常染色体)原始标记物覆盖深度之和。所述结果是缩放的标记物覆盖深度曲线445。应该指出,符合本文中的某些实施方式的方法和系统适用于通常不具有性染色体的生物体和基因组,例如植物、真菌、藻类、细菌、病毒等。因此,对于这些生物体和基因组来说,非性染色体的标记物覆盖深度之和是可用的,并且对于通常包含性染色体的生物体例如动物(例如人类、哺乳动物或非人类哺乳动物)来说也是可用的。任选地,所述缩放可以相对于标记物的常染色体子集而不是所有标记物来进行,以避免与性染色体的性别依赖性拷贝数相关的变化。SIMONIDA可以包括为多个两种性别的整倍体人类样品重复步骤440-445(446)。得到的测量值集构成所述训练集。任选地,也可以产生交叉验证测量值集。SIMONIDA可以包括为所述训练集中的所有样品评估样品特异性特征性分子长度的倒数值(1/λ)。所述值1/λ将被用于为随后的线性回归集定义横坐标x,每种标记物一次回归。任选地,从项1/λ中减去特征性分子长度的中值的倒数1/λnull。所述减法的目的是使横坐标的范围居中。任选地,用1/λ(或1/λ-1/λnull的差值)乘以常因子C。乘以常因子的目的是维持横坐标的方便的范围。得到的值(1/λ-1/λnull)或C(1/λ-1/λnull)定义了横坐标x 447。对于沿着所述基因组的每种标记物,进行缩放的标记物覆盖深度相对于横坐标(x)的线性回归448。对于从样品收集的数据集(例如新收集的样品),SIMONIDA可以包括产生缩放的标记物覆盖深度曲线449。SIMONIDA可以包括为样品数据集计算横坐标值x=C(1/λ-1/λnull)450。任选地,所述横坐标值不使用常因子,作为x=(1/λ-1/λnull)来计算。SIMONIDA可以包括使用所述缩放的标记物覆盖深度Q作为输入,如下评估归一化的标记物覆盖深度n:n=Q/[E+GC(1/λ-1/λnull)]451。SIMONIDA可以包括用得到的归一化的标记物覆盖深度n乘以染色体特异性因子(例如对于常染色体和X染色体来说为
2,对于Y染色体来说为1),以产生拷贝数曲线452。专业技术人员将会认识到,根据某些实施方式,本文中列出的步骤可以以不同顺序进行、取消或重复。
[0127] 根据某些实施方式,SIMONIDA包括表2中示出的一些或所有步骤。专业技术人员将会认识到,根据某些实施方式,本文中列出的步骤可以以不同顺序进行、取消或重复:
[0128] 表2
[0129]
[0130]
[0131]
[0132]
[0133]
[0134]
[0135] 出人意料的是,SIMONIDA可以产生高精度的Y染色体覆盖深度曲线,尽管可用的男性训练样品的数目少并且在Y染色体与其余基因组、特别是X染色体之间存在已知的序列相似性。此外,不受任何理论限制,SIMONIDA可以产生比量化的拷贝数曲线方法例如GROM更高的精度(参见例如图12和实施例4),并且与这些量化的拷贝数曲线方法相比可以提供5-7倍的分辨率提高。
[0136] 在某些实施方式中,SIMONIDA产生SIMONIDA拷贝数曲线。所述SIMONIDA拷贝数曲线可以包含随着增加的噪音取等于1的整数倍(始于0)的值的步进函数。取决于总覆盖,所述相对误差可以在10%至25%或更高的范围内,例如约10%至25%、约10%至35%、约10%至45%、约15%至25%、约15%至35%、约15%至45%、约20%至25%、约20%至35%或约20%至45%。在某些实施方式中,10-10的p-值被用于鉴定绝对拷贝数的显著变化。专业技术人员将会认识到许多用于计算相对误差的可用方法,例如R因子等。
[0137] 本文中所描述的用于偏差或最小化消除的技术例如GROM或SIMONIDA,可以在与检测器数据连通的计算机处理器上执行,所述检测器被配置成如本文中所述检测在流体通道中线性化的标记的分子的信号。在某些实施方式中,样品分子的拷贝数曲线由处理器产生。在某些实施方式中,所述拷贝数曲线被实时产生。在某些实施方式中,所述拷贝数曲线在检测到标记的分子的信号的约10分钟内产生,例如约10、9、8、7、6、5、4、3、2、1分钟内,或约50、
40、30、20、10、9、8、7、6、5、4、3、2、1、0.5、0.1、0.05、0.01、0.001或0.0001秒内,包括任两个所述列出的值之间的范围。
[0138] 性染色体归一化
[0139] 应该指出,性染色体可以引起另外的考虑。例如,由于人群中Y染色体(ChrY)或X染色体(ChrX)相对较低的数目(当与常染色体相比时),因此性染色体的测量值可以包括相对大量的离群值。例如,X染色体和Y染色体部分之间的相似性可能引起将来自于ChrY的标记的分子分类为来自于ChrX的标记的分子的可能性,反之亦然。同样地,对于女性样品来说,存在着除非做出另外的调整,否则将把包含ChrY部分的非典型ChrX分类为仅仅是ChrX的可能性。因此,在某些实施方式中,对于性染色体来源的样品分子,进行本文中所描述的性染色体归一化。性染色体归一化可以例如与SIMONIDA或通过标记物数目的归一化联合进行。
[0140] 在某些实施方式中,SIMONIDA(或通过标记物数目的归一化)如本文中所述,例如如表2或图44中所述来进行,并且还包含性染色体归一化。性染色体归一化可以包括如本文中所述通过SIMONIDA(或通过标记物数目的归一化)获得缩放的覆盖深度曲线,并进行其他分析和/或变换。
[0141] 图45是示出了符合本文中的某些实施方式的性染色体归一化的流程图,根据本文中的某些实施方式,其可以与SIMONIDA(或通过标记物数目的归一化)联合进行。对于训练样品的ChrX和(如果存在的话)ChrY的缩放的覆盖深度曲线来说,可以在460中施加基于所述训练样品中的ChrX数目和(如果存在的话)ChrY数目的缩放因子。应该指出,根据本文中的某些实施方式,所述缩放的覆盖深度曲线可以按照SIMONIDA来获得(参见例如表2和/或图44)。对于所述训练集中所有的性染色体缩放因子缩放的样品,可以评估样品特异性的特征性分子长度值的倒数(1/λ)。所述值1/λ可用于为随后的稳健的线性回归集定义横坐标x,每种标记物一次回归。任选地,可以从项1/λ中减去特征性分子长度中值的倒数1/λnull。所述减法的目的是使横坐标的范围居中。任选地,可以将1/λ(或差值1/λ-1/λnull)乘以常因子C。所述与常因子相乘的目的是为横坐标维持方便的范围。在461中,所述得到的值(1/λ-1/λnull)或C(1/λ-1/λnull)定义了横坐标x。对于沿着所述基因组的每种性染色体缩放因子缩放的标记物,在462中可以进行缩放的标记物覆盖深度相对于横坐标(x)的稳健的线性回归。对于可能包含ChrX和/或ChrY的样品数据集(例如新获得的数据集)来说,在463中可以产生缩放的标记物覆盖深度曲线。在464中可以为所述样品数据集计算横坐标值x=C(1/λ-1/λnull)。在465中,可以将缩放的标记物覆盖深度Q用作输入,以如下所述评估归一化的标记物覆盖深度n:n=Q/[E+GC(1/λ-1/λnull)]。在466中,可以为归一化的ChrX覆盖深度和(如果存在的话)ChrY覆盖深度进行第二次归一化。在467中,可以使用标记物选择判据,并且可以只选择满足所述标记物选择判据的ChrX和(如果存在的话)ChrY标记物。在468中,可以将所述得到的归一化的标记物覆盖深度n乘以染色体特异性因子(例如对于常染色体和X染色体来说为2,对于Y染色体来说为1),以产生拷贝数曲线。专业技术人员将会认识到,根据某些实施方式,本文中列出的步骤可以以不同顺序进行、取消或重复。
[0142] 在性染色体归一化中,对于训练集来说,可以为训练集中的每个样品指派两个数目:(E)ChrX的数目(例如1、2,或在X染色体三体的情形中为3),以及(II)Y染色体的数目(例如0、1,或者在雅各布综合征的情形中为2)。对于每个样品调整所述缩放的标记物覆盖深度,以说明X(以及如果存在的话Y)染色体的数目。
[0143] 在性染色体归一化中,对于所述训练集中的X染色体标记物来说,可以通过源自于所述样品中X染色体的数目的缩放因子来调整所述缩放的X染色体覆盖深度。任选地,所述缩放因子包括:除以X染色体的数目减去1(例如,如果存在2个X染色体,所述缩放因子将包括除以1)。应该指出,除以“X染色体的数目减去1”的缩放因子将包括对于特纳综合征女性和具有1个X染色体的XY和XYY男性来说除以0;因此,对于这种缩放因子来说,XXY男性可用于所述训练集中。任选地,所述缩放因子包括:将男性X染色体覆盖深度乘以权重因子2用于线性回归,并且在线性回归后将特纳综合征女性和男性的X染色体覆盖深度除以2的平方根,以便限制用男性的X染色体覆盖深度乘以权重因子的任何影响。
[0144] 在性染色体归一化中,对于所述训练集中的Y染色体标记物来说,可以将所述缩放的Y染色体覆盖深度除以源自于所述样品中Y染色体的数目的缩放因子。所述Y染色体缩放因子可以包括将缩放的Y染色体覆盖深度除以所述样品中Y染色体的数目。应该指出,对于整倍体和XXY男性样品来说,这种缩放因子包括将缩放的Y染色体覆盖深度除以1。应该指出,在雅各布综合征XYY)男性样品中,该缩放因子包括将缩放的Y染色体覆盖深度除以2。应该指出,对于女性样品来说,所述缩放因子包括除以0,因此所述女性样品将从所述训练集中排除。
[0145] 对于所述训练集中的X染色体标记物和所述训练集中的Y染色体标记物来说,设想了可能存在比典型的常染色体训练集中更多的离群值。因此,在性染色体中,对于所述训练集中的X染色体和Y染色体标记物来说,可以使用稳健的线性回归(而不是常规线性回归)。已经观察到,如果对X和Y染色体标记物使用稳健的线性回归,则离群值的影响被最小化。然而,应该指出,根据本文中的某些实施方式,常规线性回归适合于常染色体。
[0146] 对用于性染色体归一化的X染色体标记物来说,误差传递可以通过本文中为常染色体所描述的相似的方法(例如通过表2中所描述的泰勒展开式)来估算。
[0147] 对用于性染色体归一化的Y染色体标记物来说,误差传递的稳健度量可能是有用的。因此,可以在绝对偏差中值(MAD)的基础上计算误差传递。设想了男性样品的中值显著大于女性样品的中值的Y染色体标记物(相对于男性和女性的合并的MAD值),可以代表Y染色体的稳健度量。因此,在某些实施方式中,Y染色体标记物选自男性样品的中值比女性样品的中值高至少0.5的标记物,例如高0.5,高0.7、0.9、1、1.1、1.2、1.3、1.5、1.9、2、2.5、3、4、5、6、7、8、9或10,包括任两个所述列出的值之间的范围。
[0148] 设想了具有大于0.3的零阶系数的标记物更可能是稳健的。因此,在某些实施方式中,选择具有至少0.3的零阶系数的标记物,例如至少0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.2、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6.6.5、7、7.5、8、8.5、9、9.5或10,包括任两个所述列出的值之间的范围。
[0149] 性染色体归一化还可以包括根据所述训练集的分析,对从样品收集的数据集(例如新收集的数据集)的X染色体和Y染色体覆盖深度曲线进行归一化。对于所述样品数据集,可以获得归一化的SIMONIDA拷贝曲线(例如表2和/或图44中所示)。然而,已经观察到对于归一化的SIMONIDA拷贝曲线来说,在不存在第二次归一化的情况下,在不同样品的归一化的ChrX覆盖深度之间和不同样品的归一化的ChrY覆盖深度之间存在显著相关性,表明仍存在一些偏差。因此,根据本文中的某些实施方式,对于性染色体归一化来说,为SIMONIDA归一化的ChrX和ChrY覆盖深度曲线进行如下所述的“第二次归一化”:
[0150] 所述第二次归一化可以进一步减小或消除ChrX和(如果存在的话)ChrY覆盖深度曲线的偏差。任选地,如果将要评估ChrX,所述第二次归一化可以包括为多个女性样品的多个归一化的ChrX覆盖深度计算中值和MAD(应该指出,较大量的样品可能是有用的,因此,可以为训练样品中所有女性样品的归一化的ChrX覆盖深度计算中值和MAD)。任选地,如果将要评估ChrY,所述第二次归一化可以包括为多个男性样品的多个归一化的ChrY覆盖深度计算中值和MAD(应该指出,较大量的样品可能是有用的,因此,可以为训练样品中所有男性样品的归一化的ChrY覆盖深度计算中值和MAD)。所述第二次归一化可以包括将ChrX的归一化的值除以多个女性样品(例如所有女性训练样品)中所述染色体(X)的中值。此外,所述第二次归一化可以包括将ChrY的归一化的值除以多个男性样品(例如所有男性训练样品)中ChrY的中值,并将该值除以2(即,将ChrY的归一化的值除以多个样品中ChrY的中值的2倍)。
已经注意到,如果对X和Y染色体覆盖深度曲线进行第二次归一化,与如果只进行初始归一化相比,标准偏差显著降低(参见图47A-B)。
[0151] 任选地,可以对ChrX和ChrY标记物应用标记物选择判据,并且只有满足所述标记物选择判据的标记物被用于拷贝数曲线。设想了根据本文中的某些实施方式,应用标记物选择判据可以进一步提高性染色体归一化的ChrX和ChrY拷贝数曲线的稳健性和准确性。不受任何理论限制,应该指出从较短分子制备的样品通常可能具有更大误差,因此,根据本文中的某些实施方式,标记物选择判据对于相对短的样品分子可能是有用的。
[0152] 任选地,可以将标记物选择判据应用于ChrX标记物,使得只有满足下述所有4个判据的ChrX标记物被用于拷贝数曲线中:(1)(给定样品中给定标记物的基本误差)/(所述标记物的零阶系数)的比率小于所述给定样品中所有ChrX标记物的基本误差的95%分位数,例如小于基本误差的95%、93%、90%、85%、80%、75%或70%分位数;(2)给定标记物的零阶系数超过至少0.7,例如超过0.7、0.8、0.9、0.95或0.99;(3)来自于第二次归一化的样品中标记物的归一化的覆盖深度的中值超过0.6,例如超过0.6、0.7、0.8、0.9、0.95或0.99;以及(4)所述标记物的MAD小于0.5,例如小于0.5、0.4、0.4、0.2、0.1、0.05或0.01。在某些实施方式中,使用试探性确定的标记物选择判据,其在数值上可能不同于注明的标记物选择判据(1)-(4)。
[0153] 任选地,可以将标记物选择判据应用于ChrY标记物,使得只有满足下述所有5个判据的ChrY标记物被用于拷贝数曲线中:(1)男性中所述标记物的中值超出女性中所述标记物的中值至少1个MAD(,即男性中所述标记物的中值距女性的所述标记物的MAD至少1个MAD),例如至少1、1.2、1.5、2、2.5、3、4或5个MAD;(2)(给定样品中给定标记物的基本误差)/(所述标记物的零阶系数)的比率小于所述给定样品中所有ChrY标记物的基本误差的95%分位数,例如小于基本误差的95%、93%、90%、85%、80%、75%或70%分位数;(3)给定标记物的零阶系数超过至少0.7,例如超过0.7、0.8、0.9、0.95或0.99;(4)来自于第二次归一化的样品中标记物的归一化的覆盖深度的中值超过0.4,例如超过0.4、0.5、0.6、0.7、0.8、0.9、0.95或0.99;以及(5)ChrY的给定标记物的绝对偏差中值(MAD)小于1,例如小于1、
0.95、0.9、0.8、0.7、0.5、0.4或0.3。已经观察到,根据本文中的某些实施方式,稳健的线性回归与选择MAD小于1的标记物的组合,可以从ChrX拷贝数曲线中排除ChrY的部分(例如重组或易位到ChrX上的ChrY部分)。此外,已经观察到根据本文中的某些实施方式,即使在已从ChrX拷贝数曲线中排除ChrY的部分之后,也可以使用归一化的覆盖深度曲线鉴定包含ChrY的部分的ChrX染色体。在某些实施方式中,使用试探性确定的标记物选择判据,其在数值上可能不同于注明的标记物选择判据(1)-(5)。
[0154] 尽管上面性染色体归一化的实例和描述涉及男性和女性中的X和Y染色体,例如在哺乳动物性别决定中的情况,但也设想了性染色体归一化可以容易地适用于使用各种不同的性别决定系统的各种不同生物体(例如被例如某些类使用的“ZW”性别决定,或被例如某些昆虫和线虫使用的“XO”性别决定)。因此,本文中使用的性染色体归一化不限于分析使用“XY”性别决定的生物体的基因组。
[0155] 通过标记物数目的归一化
[0156] 根据本文中的某些实施方式,使用通过标记物数目的归一化来最小化或消除偏差。设想了可以对本文中描述的SIMONIDA进行改良,以便在每个分子的标记物数目的基础上或在每个分子中预定长度区段内的标记物数目的基础上进行归一化。因此,在某些实施方式中,在每个分子或预定长度区段内的特征性标记物数目的基础上进行归一化(“通过标记物数目的归一化”)。“预定长度”是指在就在归一化时确定的样品分子中的材料的数量(例如核酸分子中碱基的数量),使得所述预定长度在不同样品分子之间是一致的。如果所述归一化是基于预定长度区段内的标记物数目,任选地,所述预定长度可以为约10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、150kb、200kb、250kb、300kb、350kb、
400kb、450kb、500kb、550kb、550kb、600kb、650kb、700kb、750kb、800kb、850kb、900kb、
950kb、1Mb、1.5Mb或2Mb,包括任何列出的值之间的范围,例如10kb-1Mb、10kb-500kb、10kb-
300kb、10kb-200kb、10kb-100kb、50kb-1Mb、50kb-500kb、50kb-300kb、50kb-200kb、50kb-
100kb、70kB-1MB、70kb-500kb、70kb-300kb、70kb-200kb、70kb-100kb、100kb-1Mb、100kb-
500kb、100kb-300kb、100kb-200kb。任选地,所述预定长度可以为至少约10kb,例如至少
10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、150kb、200kb、250kb、300kb、
350kb、400kb、450kb、500kb、550kb、550kb、600kb、650kb、700kb、750kb、800kb、850kb、
900kb、950kb、1Mb、1.5Mb或2Mb。设想了通过标记物数目的归一化可以利用本文中所描述的SIMONIDA方法(例如在图44和/或表2中),区别在于不是使用分子长度(λ),而是使用基于标记物数目分布的描述符,例如每个分子的标记物数目分布或每个分子中预定长度区段内的标记物数目分布。因此,设想了可以对本文中包含SIMONIDA的任何实施方式进行调整,以包含通过标记物数目的归一化方法。
[0157] 在某些实施方式中,通过标记物数目的归一化进一步包括本文中所描述的性染色体归一化(为通过标记物数目的归一化做出调整以代替SIMONIDA)。
[0158] 在某些实施方式中,通过标记物数目的归一化消除由标记物密度造成的偏差和由标记物密度之外的因素引入的偏差。在某些实施方式中,通过标记物数目的归一化消除由标记物密度造成的偏差。在某些实施方式中,通过标记物数目的归一化消除由标记物密度之外的因素引入的偏差。在某些实施方式中,通过标记物数目的归一化最小化由标记物密度造成的偏差和由标记物密度之外的因素引入的偏差。在某些实施方式中,通过标记物数目的归一化最小化由标记物密度造成的偏差。在某些实施方式中,通过标记物数目的归一化最小化由标记物密度之外的因素引入的偏差。在某些实施方式中,通过标记物数目的归一化消除由标记物密度造成的偏差并最小化由标记物密度之外的因素引入的偏差。在某些实施方式中,通过标记物数目的归一化最小化由标记物密度造成的偏差并消除由标记物密度之外的因素引入的偏差。
[0159] 非整倍性和结构变异的检测
[0160] 非整倍性与大量疾病状态例如癌症和各种不同的发育障碍相关。非整倍性的类型可以包括超倍性(例如三倍性)和亚倍性(例如单倍性)。在某些实施方式中,检测样品中的非整倍性。可以将可能的非整倍体样品与正常或整倍体样品进行比较。在某些实施方式中,所述正常或整倍体样品来自于与所述可能的非整倍性样品相同的生物体。在某些实施方式中,所述正常或整倍体样品来自于不同的生物体。在某些实施方式中,将正常或整倍体样品特征性的模式作为电子或光学值储存,用于与可能的非整倍性样品进行比较。在某些实施方式中,所述非整倍性被自动检测。在某些实施方式中,所述非整倍性在本文中所描述的GROM或SIMONIDA拷贝数曲线的基础上检测。
[0161] 除了非整倍性之外,区域性基因组结构变异(SV)可能与各种不同疾病状态相关。示例性的SV包括重复、缺失和复杂重排例如易位。在某些实施方式中,所述结构变异被自动检测。在某些实施方式中,复杂基因组重排的检测通过鉴定拷贝数曲线中的突然变化并聚焦于作图到所述拷贝数断点周围或与其重叠的参比区的共有基因组图谱和/或单个分子,来自动进行。这个程序可以显著减少假阳性调用的数目,提高结构变异检测的准确性和可靠性。因此,在某些实施方式中,大规模重复、缺失和复杂基因组重排(例如易位)被准确鉴定。在某些实施方式中,大规模缺失、缺失和复杂重排被自动地准确鉴定。
[0162] 在某些实施方式中,拷贝数曲线(例如GROM或SIMONIDA)被用于鉴定断点。样品的GROM或SIMONIDA拷贝数曲线可以如本文中所述来获得。可以使用算法来鉴定所述GROM或SIMONIDA拷贝数曲线中的断点。存在许多适用于鉴定断点的算法,包括但不限于隐尔可夫模型(HMM)、环状二元分割(CBS)和秩分割。在某些实施方式中,使用基于p-值的边缘检测算法来鉴定断点。所述基于p-值的边缘检测算法可以鉴定GROM或SIMONIDA拷贝数的显著变化,专业技术人员将会认识到所述显著变化可以代表非整倍性(例如,如果染色体的GROM或SIMONIDA拷贝数明显不同于参比染色体的拷贝数的话)。视情况而定,统计分析可以说明性染色体的正常拷贝数,例如男性中的单一X和单一Y染色体。任选地,GROM和/或SIMONIDA断点被自动确定。
[0163] 正如本文中所述,提供GROM拷贝数可以包括将参比基因组(或基因组的一部分)分成多个区间。基于p-值的边缘算法可以横跨所有区间并为每个区间指派p值。因此,基于p-值的边缘算法可以鉴定与邻近区间相比具有明显更高或更低GROM拷贝数的区间,因此鉴定可能代表结构变异的断点的区间。所述p-值可以通过选择样本量N,并将从当前区间起向右的一组N个区间与当前区间左侧的一组N个区间进行比较。所述比较可以使用t-检验或非参数Wilcoxon(Mann-Whitney)U检验来进行。将从所述检验得到的p-值指派给当前区间。染色体的边缘可以通过适当调整样本量N来操纵。通过鉴定具有满足阈值的p-值的所有区间,可以检测显著变化。在某些实施方式中,拷贝数曲线的显著变化通过选择p-值的负对数(以10为底)超过预设截止值的所有区间来检测。在某些实施方式中,所述截止值为10。本文中公开了可以使用10的截止值可靠地检测非整倍性和SV,包括缺失和易位的断点。在某些实施方式中,例如如果需要更大的严紧性,可以将截止值设定成大于10(也就是说,要求负的log10p值大于至少10;参见例如实施例3),例如大于10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、5,000或10,000。在某些实施方式中,例如如果需要相对较低的严紧性,可以将截止值设定成大于1.3(也就是说,要求负的log10p值大于至少1.3),例如大于1.3、1.4、1.5、2、3、4、5、6、7、8、9或10。任选地,所述比较可以自动进行。此外,在某些实施方式中,可以进一步为同一样品计算SIMONIDA拷贝数。可以进行包括(和/或比较)SIMONIDA和GROM拷贝数两者的混合算法。因此,设想了根据本文中的某些实施方式,可以为邻近的基因组标记物计算并比较SIMONIDA拷贝数,并且可以对所述标记物的
SIMONIDA拷贝数进行比较,以例如在样品的SIMONIDA拷贝数的基础上鉴定可能的基因组结构特点,和/或与GROM拷贝数进行比较,和/或在GROM拷贝数的基础上鉴定可能的基因组结构特点。
[0164] 在某些实施方式中,与其他常染色体相比具有显著不同的GROM或SIMONIDA拷贝数的常染色体(或拷贝数调整过的性染色体),被确定为是非整倍体。在拷贝数是升高还是降低的基础上,可以确定所述常染色体或性染色体是超多倍体还是亚多倍体。在二倍体生物体中,仅以单一拷贝存在的常染色体可以被确定为是亚多倍体(单倍体)。在二倍体生物体中,以3或更大的拷贝数存在的常染色体可以被确定为是超多倍体。在某些实施方式中,具有显著不同的拷贝数的区间可以被确定为是SV的断点(或可能的断点)。在某些实施方式中,通过跨越可能的断点的多核苷酸的分析和/或通过经第二种用于确定SV的算法的确认,对所述可能的断点进行进一步分析和确认。任选地,所述非整倍性的确定自动进行。
[0165] 在某些实施方式中,GROM或SIMONIDA使用由RefAligner软件产生的拷贝数值。这些值可以储存在计算机可读介质上,例如在至少一个输入的CMPA文件的覆盖区中。所述RefAligner程序可用于鉴定可能的结构变异,例如缺失、重复或易位的断点。在RefAligner中,从与重叠群对齐的完整的样品分子集产生分子图谱。这种较大的图谱集被用于重复每个重叠群图谱的最大似然优化。此外,对每个重叠群的图谱的覆盖进行分析以寻找较低覆盖的区域,其可能表明所述重叠群不正确地联结了所述基因组的两个区域。如果这样的话,在低覆盖点处将所述重叠群断开。
[0166] 在某些实施方式中,将SIMONIDA拷贝数值与第二种算法偶联,以鉴定可能的SV,例如遗传异常的断点。代表可能的断点并且与由第二种算法鉴定到的可能的结构变异对齐的SIMONIDA拷贝数值,具有真实地代表SV的高的可能性。在某些实施方式中,将GROM拷贝数值与第二种算法偶联,以鉴定可能的SV,例如遗传异常的断点。代表可能的断点并且与由第二种算法鉴定到的可能的结构变异对齐的GROM拷贝数值,具有真实地代表SV的高的可能性。
[0167] 在某些实施方式中,将GROM拷贝数断点与SIMONIDA拷贝数断点进行比较。由于GROM/SIMONIDA断点可以代表可能的易位,因此任选地,可以鉴定将相同的共有图谱与多个基因组位置合并的成对的GROM/SIMONIDA断点。可以评估与GROM断点重叠的SIMONIDA断点的子集的置信度。许多过程可用于评估所述置信度,例如两侧基因组区域在参比物中的对齐,与未受影响的基因组区域比较,和/或分析标记物间距离分布。
[0168] 在某些实施方式中,将GROM或SIMONIDA与递归配对分离对齐(Recursive Pair-Split Alignment)(RPSA)偶联。RPCS可用于将至少一个组装的重叠群与参比物例如参比基因组进行比较。可以鉴定与GROM或SIMONIDA拷贝数曲线中的断点重叠的基于RPSA的自动结构变体调用。由于GROM或SIMONIDA/RPSA断点可以代表可能的易位,因此任选地,可以鉴定将相同的共有图谱与多个基因组位置合并的成对的GROM或SIMONIDA/RPSA断点。可以评估与GROM或SIMONIDA断点重叠的RPSA调用的子集的置信度。许多过程可用于评估所述置信度,例如两侧基因组区域在参比物中的对齐,与未受影响的基因组区域比较,和/或分析标记物间距离分布。
[0169] 在某些实施方式中,将GROM或SIMONIDA与如下所述的RPSA分析偶联:制造RPSA复合SV调用,其中所述SV调用包含两个断点。所述每个所述RPSA SV断点,从GROM或SIMONIDA拷贝数曲线的变化评估p-值。如果GROM或SIMONIDA p-值两者都是显著的,则所述RPSA SV断点调用被认为是可靠的(例如通过RPSA预测的可能的SV的每个断点通过GROM或SIMONIDA得到确认)。在某些实施方式中,如下确定所述p-值的显著性:评估整个所述基因组(或所述染色体)中p值的负对数的标准偏差。如果给定的–log10(p)大于三(3)个标准偏差(SD),则所述p-值被确定为是显著的。在某些实施方式中,如果需要较高的严紧性,则将–log10(p)阈值设定成大于三(3)个标准偏差(SD),至少约4、5、6、7、8、9或10个SD。在某些实施方式中,如果需要较低的严紧性,则将所述–log10(p)阈值设定成约1.5、2或2.5个标准偏差。
[0170] 在某些实施方式中,将GROM或SIMONIDA与单一分子与参比物的直接对齐相偶联。这一过程可以鉴定GROM或SIMONIDA拷贝数曲线中的断点,在该点处将参比物分开,遮蔽分割点的一侧,并仅仅对那些分子标记物与分割点相反一侧上的参比标记物匹配的单分子对齐进行评分。在所述遮蔽的单分子对齐后可以进行对齐的分子相对于所述遮蔽区域的聚簇,以及每个簇与整个基因组的后续对齐。所述第二次对齐可以鉴定参与复杂重排事件例如易位的基因组位置。
[0171] 本文中描述的用于消除或最小化偏差的技术例如GROM或SIMONIDA和/或结构变体的自动检测,可以在硬件、软件、固件或其组合中实施。如果在软件中实施,所述技术可以至少部分通过计算机可读介质实现,所述介质包含在执行时实施上述一种或多种方法的指令。所述计算机可读介质可以形成计算机程序产品的一部分,所述产品可以包括包装材料。所述计算机可读介质可以包括随机存取存储器(RAM)例如同步动态随机存取存储器
(SDRAM)、只读存储器(ROM)、非易失型随机存取存储器(NVRAM)、电可擦写可编程只读存储器(EEPROM)、闪速存储器、磁或光数据储存介质等。此外或可替选地,所述技术可以至少部分通过计算机可读通讯介质实现,所述通讯介质携带或通讯采取指令或数据结构形式的编码,并且可以被计算机访问、读取和/或执行。
[0172] 样品分子
[0173] 在某些实施方式中,本文中提供了一些方法,所述方法对检测长度在数十至数百核苷酸量级上的“短”片段足够灵敏。在某些实施方式中,本文中描述的样品分子包含约2000bp或更小的多核苷酸“短”片段。例如,在某些实施方式中,所述多核苷酸片段长度约为
10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个核苷酸,包括任两个所述列出的值之间的范围。在某些实施方式中,所述样品包含的样品分子包含的多核苷酸片段长度约为10、15、20、25、30、35、40、45、50、75、100、125、150、175、200、225、250、275、
300、325、350、375、400、425、450、475、500、525、550、575、600、625、650、675、700、725、750、
775、800、825、850、875、900、925、950、975、1000、1100、1200、1300、1400、1500、1600、1700、
1800、1900或2000个核苷酸,包括任两个所述列出的值之间的范围,例如10-2000个核苷酸,
10-1000、10-700、10-500、10-300、20-2000、20-1000、20-700、20-500、20-300、50-2000、50-
1000、50-700、50-500、50-300、75-2000、75-1000、75-700、75-500、75-300、100-2000、100-
1000、100-700、100-500、100-300、200-2000、200-1000、200-700、200-500、200-300、300-
2000、300-1000、300-700、300-500、500-2000、500-1000或500-700个核苷酸。在某些实施方式中,目标分子是长度小于约1000、950、900、850、800、750、700、650、600、550、500、450、
400、350、300、250、200、150、100或50个核苷酸的片段。在某些实施方式中,所述片段是双链的。在某些实施方式中,所述片段包含DNA。在某些实施方式中,所述片段包含RNA。在某些实施方式中,所述片段包含杂交到RNA的DNA。在某些实施方式中,灵敏度与检测结合于靶片段的单一荧光团大约一样高。
[0174] 在某些实施方式中,目标核苷酸是长度为至少约500个核苷酸的片段,例如长度约为500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900或2000个核苷酸,包括任两个所述列出的值之间的范围,例如长度为约500至约2000个核苷酸,约500至约1500、约500至约1000、约500至约900、约500至约700、约700至约2000、约700至约
1500、约700至约1000、约700至约900、约1000至约2000、约1000至约1500或约1500至约2000个核苷酸。
[0175] 适合用于本文中描述的方法和系统的分子包括聚合物、双链DNA、单链DNA、RNA、DNA-RNA杂合体、多肽、生物分子、蛋白质等。适合的聚合物包括均聚物、共聚物、嵌段共聚物、随机共聚物、支化共聚物、树枝状聚合物或其任何组合。
[0176] 在某些实施方式中,本文中描述的方法对于检测占母体血液样品中总分子数的不到约0.25%、0.5%、0.75%、1%、1.25%、1.5%、1.75%、2%、2.25%、2.5%、2.75%、3%、3.25%、3.5%、3.75%、4%、4.25%、4.5%、4.75%、5%、6%、7%、8%、9%、10%、11%、
12%、13%、14%、15%、20%或25%的胎儿分子来说,足够灵敏。
[0177] 标记物和标记
[0178] 本文中所使用的标记可以包含序列或非序列特点例如表观遗传特点或模式的标记。在某些实施方式中,标记针对序列基序或化学组成部分。标记可以使用本领域技术人员已知的任何技术来进行,包括化学或生物化学偶联。在某些实施方式中,本文中描述的标记物结合于独一无二的序列基序。在某些实施方式中,本文中描述的标记物结合于化学组成部分。在某些这些实施方式中,所述化学组成部分与特定染色体相关。在某些实施方式中,使用特定标记密度的标记物。在某些实施方式中,选择每100kb约1至50个标记物的标记物密度,更优选为每100kb约5至35个标记物。在某些实施方式中,选择每100kb约1个标记物、每100kb 2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个标记物的标记物密度,包括任两个所述列出的值之间的范围。正如本文中讨论的,在某些条件下,一些标记物密度是潜在的偏差来源。因此,在本文中的某些实施方式中,通过SIMONIDA或GROM最小化或消除由标记物密度引起的偏差。
[0179] 在本文的某些实施方式中,每种标记物独立地选自荧光团、量子点、树枝状聚合物、纳米丝、珠子、半抗原、链亲和素、亲和素、中性亲和素、生物素和反应性基团。在本文的某些实施方式中,第一和第二标记物独立地选自荧光团或量子点。在本文的某些实施方式中,至少一种所述标记物包含非光学标记物。在本文的某些实施方式中,标记使用聚合酶来进行。在本文的某些实施方式中,标记在包含所述标记物的dNTP存在下使用聚合酶来进行。在本文的某些实施方式中,所述聚合酶具有5’至3’核酸外切酶活性。在本文的某些实施方式中,所述聚合酶留下悬垂片(flap)区,并且其中在使用连接酶修复之前所述悬垂片区被移除以恢复可连接的切口。在本文的某些实施方式中,所述悬垂片区使用聚合酶的5’至3’核酸外切酶活性,在至少一种核苷酸以受限浓度存在的条件下移除。在本文的某些实施方式中,所述悬垂片区使用聚合酶的5’至3’核酸外切酶活性,在至少一种核苷酸从反应中省略的条件下移除。在本文的某些实施方式中,所述悬垂片区使用悬垂片核酸内切酶来移除。
在本文的某些实施方式中,所述标记在至少一种dNTP存在下,使用聚合酶来进行。在本文的某些实施方式中,所述至少一种dNTP是单一种类的dNTP。在本文的某些实施方式中,本文中描述的方法还包括通过在标记期间调整温度、dNTP浓度、辅因子浓度、缓冲剂浓度或其任何组合来调节聚合酶的活性。在本文的某些实施方式中,在第一基序或第二基序上产生切口包括用Nt.BspQI产生切口。在本文的某些实施方式中,除了本文中描述的一种或多种序列特异性标记物之外,还应用非序列特异性标记物例如多核苷酸骨架标记物。
[0180] 在某些实施方式中,本文中描述的至少一种标记物包含非光学标记物。各种不同的非光学标记物可以与本文中的实施方式联合使用。在某些实施方式中,非光学标记物包含电子标记物。示例性的电子标记物包括但不限于具有强电荷的分子,例如离子如金属离子、带电荷的基酸侧链或其他阳离子或阴离子。电子标记物可以例如通过当所述标记物被配置在检测器中时的电导率(或电阻率)来检测。在某些实施方式中,纳米通道包含电极,其被构造成通过确定配置在所述通道中的物质的电导率或电阻率来确定电子标记物的存在或不存在。在某些实施方式中,所述非光学标记物包含金属、金属化物或氧化组成部分。在某些实施方式中,所述非光学标记物包含含有金属、金属氧化物或其他氧化物的组成部分(例如纳米粒子)。特定金属或氧化物组成部分的存在可以例如通过核磁共振来检测。在某些实施方式中,所述标记物被设置成在某些条件(例如pH的改变)下释放组成部分例如质子或阴离子,并检测释放的组成部分的存在或不存在。
[0181] 在某些实施方式中,将样品用两种或更多种彼此不同的标记物标记。在某些实施方式中,将样品用至少两种、三种、四种、五种、六种、七种、八种、九种或十种彼此各不相同的标记物标记。任选地,两种或更多种基序可以用同一标记物标记。任选地,两种或更多种基序可以用同一标记物标记,而其他基序用不同标记物标记。例如,第一基序可以用第一标记物标记以便产生第一独特模式,并且不同于所述第一基序的第二基序可以用不同于所述第一标记物的第二标记物标记,以便产生第二独特模式。在某些实施方式中,两种或更多种标记物是相同的。例如,第一基序可以用标记物标记,并且不同于所述第一基序的第二基序也可以用同一标记物标记,以便产生独特模式。在某些实施方式中,将对应于第一染色体或目标区域的多个探针用第一标记物标记,并且将对应于第二染色体或目标区域(例如参比染色体或区域)的多个第二探针用不同于所述第一标记物的第二标记物标记。因此,包含来自于所述第一染色体或目标区域的序列的标记的样品分子与包含来自于所述第二染色体或目标区域的序列的样品分子,可以在它们是用第一标记物还是第二标记物标记的基础上区分开。
[0182] 具有可逆终止物的核苷酸可以形成第一磷酸二酯键,但是在终止逆转之前,不能形成(或具有有限的能力来形成)第二磷酸二酯键。因此,可以将具有可逆终止物的核苷酸并入到多核苷酸中(例如在切口位点处),但是在终止物逆转之前所述核苷酸不能形成下游磷酸二酯键。逆转可以使用本领域技术人员已知的技术来进行。例如,终止物可以通过可切开的连接物附连到所述核苷酸,所述连接物可以例如通过电磁辐射切开。如果切口修复使用包含3’可逆终止物的标记的核苷酸来进行,可以将单个标记的核苷酸并入到所述切口中,但是所述终止物可以阻止其他标记的核苷酸并入到所述切口中。因此,切口标记可以限于每个切口一个标记的核苷酸。将切口标记限制到每个切口一个标记物组成部分,可以最小化由多个标记物被并入到同一切口中引起的潜在偏差。例如,如果采用将标记限制到每个切口一个标记物组成部分的方法,则可以在来自于所述标记物的相对强的信号的基础上分辨两个非常接近的切口(即可以排除两个标记物简单地并入到同一切口中的可能性)。例如,如果需要切口数目的定量估算,而每个切口一个标记物的方法可以促进标记物信号强度与切口数目之间的直接关联。包含可逆终止物的核苷酸上的标记物可以如本文中所述。在某些实施方式中,所述包含可逆终止物的核苷酸包含量子点。在某些实施方式中,所述包含可逆终止物的核苷酸包含荧光团。在某些实施方式中,所述包含可逆终止物的核苷酸包含非光学标记物。
[0183] 在某些实施方式中,多种标记物标记单一样品分子。在某些实施方式中,至少一种所述标记物包含序列特异性标记物。在某些实施方式中,至少一种所述标记物包含非序列特异性标记物。在某些实施方式中,至少一种标记物包含序列特异性标记物,并且至少一种标记物包含非序列特异性标记物。在某些实施方式中,至少一种标记物不切开DNA的一条或两条链。例如,在某些实施方式中,至少一种标记物选自非切割性限制性酶、甲基转移酶、锌指蛋白、抗体、转录因子、DNA结合蛋白、发夹聚酰胺、形成三螺旋的寡脱氧核苷酸、肽核酸或其组合。在某些实施方式中,序列特异性和非序列特异性标记物都不切割DNA。
[0184] 在某些实施方式中,例如如果提供荧光标记,则使用灵敏的相机检测标记。在某些实施方式中,例如如果提供非光学标记,则通过电子学工具检测标记。然而,可以使用适合于相应标记物的任何检测方法。本文中描述的方法可以包括与本文描述的分子的一个或多个区域中的荧光标记物、放射活性标记物、磁标记物或其任何组合结合。当所述标记物与分子或分子的至少一部分或其他目标区域特异性互补时,可以实现结合。
[0185] 在某些实施方式中,切口酶产生序列特异性切口,其随后使用例如标记的核苷酸或核苷酸类似物进行标记。在某些实施方式中,所述核苷酸或类似物被荧光标记。在某些实施方式中,通过在纳米通道中的限制将DNA线性化,产生均匀的线性化并允许精确和准确地测量在包含特征模式的DNA分子上切口-标记物之间的距离。在某些实施方式中,使用第二种切口酶。在某些实施方式中,使用具有第二种标记物颜色的第二种切口酶。可以按照本文中的实施方式使用的示例性切口酶包括但不限于Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BtsI、Nt.AlwI、Nt.BbvCI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、Nt/Nb.BssSI及其组合。产生切口的试剂和流程的实例也提供在美国专利申请公开号2011/0171634和美国专利申请公开号2012/0237936中,其全部内容通过参考并入本文。
[0186] 在某些实施方式中,通过将探针杂交到多核苷酸例如RNA或DNA的单链,将所述多核苷酸标记。所述探针可以与所述RNA或DNA的一条链或其一部分互补。在某些实施方式中,所述探针与特定序列基序互补。在某些实施方式中,提供了多个探针以便与所述特异性序列基序互补,例如至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、5,000或10,000个探针,包括任两个所述列出的值之间的范围。在某些实施方式中,所述探针具有随机序列。在某些实施方式中,提供了具有多个随机序列的探针。在某些实施方式中,探针包括下列一者或多者:有机荧光团,量子点,树枝状聚合物,纳米丝,珠子,Au珠,顺磁性珠子,磁珠,放射性标记物,聚苯乙烯珠,聚乙烯珠,肽,蛋白质,半抗原,抗体,抗原,链亲和素,亲和素,中性亲和素,生物素,核苷酸,寡核苷酸,序列特异性结合因子例如工程化改造的限制性酶、甲基转移酶、锌指结合蛋白等。在某些实施方式中,所述探针包括荧光团-淬灭剂对。探针的一种配置可以包括将荧光团附连到探针的第一末端,并将适合的淬灭剂连接到探针的第二末端。因此,当所述探针未杂交时,所述淬灭剂可以阻止荧光团产生荧光,而当所述探针杂交到靶序列时,探针被线性化,因此淬灭剂远离荧光团并允许荧光团在被适合波长的电磁辐射激发时产生荧光。在某些实施方式中,第一探针包括FRET对的第一荧光团,并且第二探针包括FRET对的第二荧光团。因此,所述第一探针和第二探针与彼此的FRET半径内的单一悬垂片或一对悬垂片的杂交,可以允许通过FRET进行能量转移。在某些实施方式中,第一探针包括FRET对的第一荧光团,并且在被并入以填补相应间隙的核苷酸上的标记物可以包括FRET对的第二荧光团。因此,所述第一探针与悬垂片和相应间隙内的标记的核苷酸的杂交,可以允许通过FRET进行能量转移。
[0187] 在某些实施方式中,双链DNA可以如下进行标记:首先通过提高温度或使用有机溶剂操作来解开某些基因组区域的双链之间的氢键以打开所谓的D-环,然后与对单链区具有相等或更高亲和性的至少一种特异性探针杂交,随后退火回到相对稳定的形式。因此,在某些实施方式中,双链DNA可以如本文中所述用探针标记,而不用在任一条链上形成切口或切割。在某些实施方式中,可以在单一链上打开多个D-环。因此,可以将多个探针退火到特定双链DNA。
[0188] 在某些实施方式中,标记包括将标记物通过甲基转移酶转移到所述多核苷酸。在某些实施方式中,所述甲基转移酶特异性地甲基化序列基序。因此,标记可以包括通过甲基转移酶将标记物转移到序列基序。示例性的适合的DNA甲基转移酶(MTase)包括但不限于M.BseCI(在N6处甲基化5'-ATCGAT-3'序列内的腺嘌呤)、M.Taql(在N6处甲基化5'-TCGA-3'序列内的腺嘌呤)和M.Hhal(在C5处甲基化5'-GCGC-3'序列内的第一个胞嘧啶)。在某些实施方式中,两种或更多种甲基转移酶提供两种或更多种标记物,其可以是相同或不同的。
[0189] 在某些实施方式中,所述通道包含微通道。在某些实施方式中,所述通道包含纳米通道。适合的流体纳米通道区段具有小于约1000nm、小于约500nm、或小于约200nm、或小于约100nm、或甚至小于约50nm、约10nm、约5nm、约2nm或甚至小于约0.5nm的特征性横截面维度。适合情况下,流体纳米通道区段具有小于分子的回转半径的约2倍的特征性横截面维度。在某些实施方式中,所述纳米通道具有至少约所述分子的持续长度的特征性横截面维度。适合于本文中的某些实施方式的流体纳米通道区段具有至少约100nm、至少约500nm、至少约1000nm、至少约2微米、至少约5微米、至少约10微米、至少约1mm或甚至至少约10mm的长度。在某些实施方式中,流体纳米通道区段以每立方厘米至少1个流体纳米通道区段的密度存在。
[0190] 流体通道的实例可以在美国专利公开号2008/0242556中找到,其全部内容通过参考并入本文。在某些实施方式中,对病毒粒子或细菌细胞进行测定。例如,在某些实施方式中,使用微通道对细菌细胞进行测定。在某些实施方式中,所述通道允许直径在数微米至数十微米范围内的细胞流过。
[0191] 图1是示出了符合本文中某些实施方式的流体通道排布的示意图。所述排布可以包括样品输入仓室10。所述排布可以包括一排流体通道12,例如流体纳米通道。所述排布可以包括样品输出仓室14。所述输出仓室可以包含缓冲溶液16。所述一排纳米流体通道12可以与输入仓室10流体连通。所述一排纳米流体通道12可以与输出仓室14流体连通。可以将目标样品分子或粒子18配置在所述一排纳米流体通道10中。可以将对照或比较性目标分子或粒子18配置在所述一排纳米流体通道10中。在某些实施方式中,所述一排纳米流体通道12将输入仓室10连接到输出仓室14。在某些实施方式中,目标样品分子或粒子18和对照或比较性目标分子或粒子20被装在所述样品输入仓室中,并在缓冲溶液16中通过所述一排纳米流体通道行进。在某些实施方式中,将所述目标样品分子或粒子18和对照或比较性目标分子或粒子20从所述一排纳米流体通道12沉积到样品输出仓室14中。
[0192] 图2是示出了按照本文中的某些实施方式用于检测目标样品分子或粒子的排布的示意图。在某些实施方式中,所述排布包含第一样品入口或出口11、第二样品入口或出口11和位于两者之间并与每个所述第一和第二入口或出口11流体连通的至少一个流体通道13。在本文中设想了如果将样品装载到第一入口或出口11中,则第一入口或出口11起到入口的作用,并且第二入口或出口11可以起到出口的作用。在本文中设想了如果将样品装载到第二入口或出口11中,则第二入口或出口11起到入口的作用,并且第一入口或出口11可以起到出口的作用。在某些实施方式中,所述样品包含目标分子或粒子18、对照或比较性目标粒子20或两者的组合。在某些实施方式中,目标分子或粒子18、对照或比较性目标粒子20通过流体通道13行进。在某些实施方式中,流体通道13包含纳米通道。在某些实施方式中,流体通道13包含微通道。在某些实施方式中,流体通道13包含检测区22。在某些实施方式中,所述系统包含配置在检测区24上方的顶盖24。在某些实施方式中,顶盖24包含透明盖。在某些实施方式中,将检测器26放置在检测区22和顶盖24(如果存在的话)上方。在某些实施方式中,例如如果使用光学检测,则检测器26包含光子检测/成像仪。在某些实施方式中,将透镜
28放置成与检测区22和检测器26光学连通。在某些实施方式中,将透镜28放置在检测区22与检测器26之间。在某些实施方式中,将分色镜30放置成与检测区22、透镜28、检测器26和激发源32光学连通,使得荧光标记物如果存在的话可以被激发,并且来自于所述荧光标记物的荧光如果存在的话可以被检测。在某些实施方式中,检测器26与处理器34数据连通。处理器34可以被设置成在来自于检测器的数据的基础上产生如本文中所述的光学图谱。在某些实施方式中,所述处理器被设置成如本文中所述组装光学图谱。在某些实施方式中,所述处理器被设置成例如通过如本文中所述执行GROM和/或SIMONIDA,自动最小化或消除基于标记密度和/或标记密度之外的因素的偏差。在某些实施方式中,所述处理器被设置成自动检测基因组中的结构变异,例如复杂的重复、缺失、易位或重排。所述结构变异的自动检测可以包括如本文中所述确定GROM和/或SIMONIDA拷贝数断点。所述自动检测还可以包括如本文中所述将GROM和/或SIMONIDA拷贝数断点与用于鉴定结构变异的第二种算法进行比较。所述自动检测还可以包括如本文中所述将GROM拷贝数断点与SIMONIDA拷贝数断点进行比较。
[0193] 在某些实施方式中,以直方图的形式提供样品与参比样品的比较。在某些实施方式中,将具有与参比物或计算机从头基因组组装物匹配的特定标记模式的分子的物理计数在直方图分布中列表,以反映出覆盖深度。在特定区域或整个染色体中高于或低于平均覆盖深度反映出与正常倍数性的偏离,例如在遗传障碍中的非整倍性或癌症中的结构变异的情形中。
[0194] 其他可选实施方式
[0195] 根据本文中的某些实施方式,GROM不同于PERUN。在某些实施方式中,在GROM和PERUN中用于产生输入数据的技术是不同的。在某些实施方式中,在GROM和PERUN中输入数据的类型是不同的。例如,PERUN可以利用下一代测序(NGS)数据,并且GROM可以利用标记的作图数据例如在IrysTM系统(Bionano Genomics)上获得的数据。例如,分别地,PERUN可以利用多核苷酸序列读出序列,并且GROM可以利用基因组图谱作为输入。在某些实施方式中,在GROM和PERUN中对齐方法是不同的,例如NGS作图用于PERUN,并且标记的图谱对齐用于GROM。在某些实施方式中,在GROM和PERUN中原始覆盖深度评估是不同的,例如在PERUN情况下是简单的计数,而在GROM的情况下是每种标记物的覆盖的平均值。在某些实施方式中,在GROM和PERUN中所针对的偏差类型是不同的。例如,PERUN可致力于解决由GC频率引起的偏差,而GROM可致力于解决由标记物密度引起的偏差。在某些实施方式中,在GROM和PERUN中样品行为的描述符是不同的,例如在PERUN的情况下是样品特异性GC系数,而在GROM的情况下是样品特异性标记物密度偏差。
[0196] 根据本文中的某些实施方式,提供了一种表征样品的方法。所述方法可以包括用至少第一标记物标记多个样品分子,其中所述样品分子包含一个或多个第一目标基因组片段的多核苷酸序列。所述方法可以包括提供多个标记的参比分子,其中所述参比分子包含一个或多个参比基因组片段的多核苷酸序列,并且其中所述一个或多个参比基因组片段具有已知的拷贝数。所述方法可以包括将所述多个标记的样品分子和多个标记的参比分子转移通过流体通道。所述方法可以包括检测来自于所述标记的样品分子和标记的参比分子的信号,以便至少确定所述一个或多个第一目标基因组片段特征性的第一模式或多个模式,以及所述一个或多个参比基因组片段特征性的第二模式或多个模式。所述方法可以包括将确定所述第一模式或多个模式的信号与确定所述第二模式或多个模式的信号相关联,以便产生所述样品分子的拷贝数曲线,并且其中在所述拷贝数曲线中由标记物密度引起的偏差被最小化或消除。在某些实施方式中,产生拷贝数曲线包括进行GROM。在某些实施方式中,产生拷贝数曲线包括从检测到的信号产生每个区间的原始覆盖深度曲线,将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线,产生样品特异性标记物密度偏差系数(LDBC),对区间进行参数化,其中所述区间参数包含梯度和零阶系数值,在至少一种误差测量值的基础上对区间进行过滤,将缩放的覆盖深度相对于LDBC进行归一化,以及从归一化的覆盖深度曲线产生多个拷贝数曲线。在某些实施方式中,所述方法还包括将所述原始覆盖深度曲线储存在计算机可读介质中。在某些实施方式中,误差测量值包含相对误差。在某些实施方式中,所述区间尺寸相等。在某些实施方式中,所述区间尺寸不等。在某些实施方式中,每个区间包含约10,000至约90,000个碱基对。在某些实施方式中,每个区间包含约40,000至约60,000个碱基对。在某些实施方式中,所述缩放的覆盖深度曲线包含至少约
20,000个区间。在某些实施方式中,所述缩放的覆盖深度曲线包含至少约40,000个区间。在某些实施方式中,所述方法还包括自动确定包含所述一个或多个第一目标基因组片段的染色体的非整倍性的存在或不存在。
[0197] 在某些实施方式中,所述方法还包括自动确定所述一个或多个第一目标基因组片段中可能的结构变异的存在或不存在。在某些实施方式中,所述方法还包括自动确定可能的结构变异的存在或不存在,其包括鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中与邻近区间相比具有显著不同的拷贝数的区间包含可能的断点。在某些实施方式中,自动确定可能的结构变异的存在或不存在包括确定GROM拷贝数断点。在某些实施方式中,所述方法还包括使用第二算法确定第二组多个可能的结构变体,并且鉴定所述GROM拷贝数断点与所述第二组多个可能的结构变体之间的重叠。在某些实施方式中,所述第二算法包含RPSA。在某些实施方式中,如下所述将GROM与RPSA分析相偶联:制造RPSA复合SV调用,其中所述SV调用包含两个断点,并且对于每个所述RPSA SV断点,从GROM拷贝数曲线的变化评估p-值,并且如果给定的–log10(p)大于三(3)个标准偏差(SD),则所述p-值被确定为是显著地。在某些实施方式中,所述方法还包括对于每个所述GROM拷贝数断点来说,鉴定参比序列在所述断点的第一侧上的第一区域并遮蔽所述参比序列在所述断点的第二侧上的第二区域,其中所述第二侧与所述第一侧相反;并且对在所述第一区域中与参比标记物对齐的仅仅单分子对齐进行评分。在某些实施方式中,所述方法还包括针对所述第二区域对单分子对齐进行聚簇,并且将每个簇与参比序列进行对齐。在某些实施方式中,所述拷贝数曲线被实时产生。在某些实施方式中,所述拷贝数曲线在检测到所述信号后不到5分钟内产生。在某些实施方式中,所述拷贝数曲线在检测到所述信号后不到60秒内产生。在某些实施方式中,所述拷贝数曲线由与检测来自于所述标记的样品分子和标记的参比分子的信号的检测器数据连通的处理器产生。在某些实施方式中,所述样品分子和参比分子来自于同一样品。在某些实施方式中,所述样品分子和参比分子来自于不同样品。在某些实施方式中,所述样品分子和参比分子来自于同一生物体。在某些实施方式中,所述参比分子的信号包含电子或光学储存的值或一组值。在某些实施方式中,所述一个或多个第一目标基因组片段包含性染色体或其至少一个片段,并且所述一个或多个参比基因组片段包含常染色体或其至少一个片段。在某些实施方式中,所述一个或多个第一目标基因组片段包含第一常染色体或其至少一个片段,其选自人类21号染色体、人类13号染色体、人类14号染色体、人类15号染色体、人类16号染色体、人类18号染色体和人类22号染色体及其片段,并且所述一个或多个参比基因组片段包含第二常染色体或其至少一个片段,其中所述第二常染色体或其片段不同于所述第一常染色体或其片段。在某些实施方式中,所述一个或多个基因组片段包含常染色体或其至少一个片段,其选自人类1号染色体、人类2号染色体、人类3号染色体、人类4号染色体、人类5号染色体、人类6号染色体、人类7号染色体、人类8号染色体、人类9号染色体、人类10号染色体、人类11号染色体、人类12号染色体、人类13号染色体、人类14号染色体、人类15号染色体、人类16号染色体、人类17号染色体、人类18号染色体、人类19号染色体、人类20号染色体、人类21号染色体、人类22号染色体、人类X染色体、人类Y染色体及其片段,并且所述一个或多个参比基因组片段包含第二常染色体或其至少一个片段,其中所述第二常染色体或其片段不同于所述第一常染色体或其片段。在某些实施方式中,所述样品分子来自于包含可能的基因组异常的样品,所述一个或多个参比基因组片段包含第一染色体或其片段,并且所述参比基因组片段来自于已知不包含所述基因组异常的第二样品。在某些实施方式中,所述遗传异常包含重复、缺失或易位中的至少一者。在某些实施方式中,标记包括用第一标记物标记所述样品分子,并且其中所述参比分子包含第二标记物,其中所述第一标记物被设置成产生所述第一模式或多个模式,并且其中所述第二标记物被设置成产生所述第二模式或多个模式,并且其中所述第一标记物与第二标记物彼此不同。
在某些实施方式中,标记包括用第一标记物标记,其中所述第一模式或多个模式和所述第二模式或多个模式各自包含所述第一标记物,并且其中所述第一模式或多个模式与第二模式或多个模式彼此不同。在某些实施方式中,所述方法还包括标记参比分子以便产生所述标记的参比分子,其中所述标记的参比分子包含所述第二模式或多个模式。在某些实施方式中,所述第一标记物包含荧光标记物、放射活性标记物、磁标记物或非光学标记物中的至少一者。在某些实施方式中,所述第二标记物包含荧光标记物、放射活性标记物、磁标记物或非光学标记物中的至少一者。在某些实施方式中,标记包括使用切口核酸内切酶在第一序列基序处在双链DNA的一条链上产生切口,以及标记所述DNA。在某些实施方式中,标记还包括修复所述DNA上的至少一些切口。在某些实施方式中,所述切口不被修复。在某些实施方式中,所述标记物包含转录终止子。在某些实施方式中,使用所述第一标记物标记包括使用选自下列的DNA结合实体为所述样品分子的至少一个序列基序加标签:非切割性限制性酶,锌指蛋白,抗体,转录因子,转录激活因子样结构域,DNA结合蛋白,聚酰胺,形成三螺旋的寡核苷酸和肽核酸,以及甲基转移酶。在某些实施方式中,使用所述第一标记物的标记包括使用甲基转移酶为所述样品分子的至少一个序列基序加标签。在某些实施方式中,所述方法还包括用非序列特异性标记物标记所述样品分子。在某些实施方式中,所述非序列特异性标记物包含YOYO或POPO染料。
[0198] 根据本文中的某些实施方式,提供了一种表征样品的方法。所述方法可以包括标记样品分子的多核苷酸序列上的多个序列特异性位置。所述方法可以包括将所述样品分子的至少一部分在流体通道中线性化。所述方法可以包括对来自于所述样品分子上的所述标记物的信号进行定量。所述方法可以包括产生所述样品分子的拷贝数曲线。所述方法可以包括在来自于所述样品分子的信号的量与由参比分子产生的信号的量不同时,确定所述样品DNA中遗传异常的存在或不存在。在某些实施方式中,产生拷贝数曲线包括进行GROM。在某些实施方式中,产生拷贝数曲线包括从检测到的信号产生每个区间的原始覆盖深度曲线,将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线,产生样品特异性标记物密度偏差系数(LDBC),对区间进行参数化,其中所述区间参数包含梯度和零阶系数值,在至少一个误差测量值的基础上对区间进行过滤,将缩放的覆盖深度相对于LDBC进行归一化,以及从归一化的覆盖深度曲线产生多个拷贝数曲线。在某些实施方式中,所述区间尺寸相等。在某些实施方式中,所述区间尺寸不等。在某些实施方式中,每个区间包含约10,000至约90,000个碱基对。在某些实施方式中,所述缩放的覆盖深度曲线包含至少约20,000个区间。在某些实施方式中,确定遗传异常的存在或不存在包括鉴定染色体或其部分的多个区间,其中所述多个区间中的每个区间具有与所述参比分子显著不同的拷贝数。
在某些实施方式中,所述方法还包括自动确定所述一个或多个第一目标基因组片段中可能的结构变异的存在或不存在。在某些实施方式中,自动确定可能的结构变异的存在或不存在包括鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中与邻近区间相比具有显著不同的拷贝数的区间包含可能的断点。在某些实施方式中,自动确定可能的结构变异的存在或不存在包括确定GROM拷贝数断点。在某些实施方式中,所述样品分子和参比分子来自于同一生物体。在某些实施方式中,所述样品分子和参比分子来自于同一生物体的不同组织。在某些实施方式中,所述样品分子和参比分子来自于不同生物体。在某些实施方式中,来自于所述参比分子的信号的量包含电子或光学储存的值或一组值。在某些实施方式中,所述样品分子包含DNA。在某些实施方式中,所述遗传异常包含下列至少一者:易位,添加,扩增,颠换,倒位,非整倍性,多倍性,单倍性,三体性,21号染色体三体,13号染色体三体,14号染色体三体,15号染色体三体,16号染色体三体,18号染色体三体,22号染色体三体,三倍性,四倍性或性染色体非整倍性。在某些实施方式中,所述遗传异常包含亚倍性或超倍性中的至少一者。在某些实施方式中,标记包括用荧光标记物、放射活性标记物、磁标记物或非光学标记物中的至少一者标记所述多核苷酸。在某些实施方式中,标记包括用切口核酸内切酶在第一序列基序处在双链DNA的一条链上产生切口,以及标记所述DNA。在某些实施方式中,所述方法还包括修复所述第一DNA上的至少一些切口。在某些实施方式中,所述切口不被修复。在某些实施方式中,所述标记物包含转录终止子。在某些实施方式中,标记包括使用选自下列的DNA结合实体为所述样品分子的至少一个序列基序加标签:非切割性限制性酶,锌指蛋白,抗体,转录因子,转录激活因子样结构域,DNA结合蛋白,聚酰胺,形成三螺旋的寡核苷酸和肽核酸,以及甲基转移酶。在某些实施方式中,使用所述第一标记物的标记包括使用甲基转移酶为所述样品分子的至少一个序列基序加标签。
[0199] 在某些实施方式中,本文中任一方法的流体纳米通道包含长度为至少10nm并且横截面直径小于5000nm的通道。在某些实施方式中,所述流体通道包含纳米通道。在某些实施方式中,所述流体通道被配置成平行于基材表面。在某些实施方式中,所述转移包括对所述标记的样品施加选自下列的驱动力:流体流,辐射场,电渗透力,电泳力,动电力,温度梯度,表面性质梯度,毛细管流,压力梯度,磁场,电场,后退弯液面,表面张力,热梯度,拉力,推力及其组合。
[0200] 在某些实施方式中,本文中任一方法的样品选自细菌、病毒粒子、DNA分子、RNA分子、核酸聚合物、蛋白质、肽和多糖。在某些实施方式中,本文中任一方法的样品源自于母体血液,并且其中所述参比分子源自于血液之外的母体样品。在某些实施方式中,本文中任一方法的样品包含核苷酸,并且其中所述至少两种标记物位于所述核苷酸中目标区域的任一末端处。在某些实施方式中,本文中任一方法的样品包含循环胎儿细胞、循环肿瘤细胞或体液或组织。
[0201] 在某些实施方式中,本文中的任一方法包括光学检查,其包括确定所述标记物的物理计数、强度、波长或尺寸。在某些实施方式中,本文中的任一方法包括光学检查,其包括确定所述样品中至少一个标记的区域的长度。在某些实施方式中,本文中的任一方法还包括确定从包含所述样品或所述样品的一部分的合并物产生的信号。
[0202] 在某些实施方式中,本文中的任一方法包括使用从多个样品或样品部分产生的信号(S1,S2…Sn)与从参比物产生的信号(C)之间的比率(K):K1=S1/C,K2=S2/C…Kn=Sn/C。在某些实施方式中,使用K1与Kn之间的差值来鉴定胎儿样品的存在。在某些实施方式中,使用K1与Kn之间的差值来鉴定来自于肿瘤或其他癌症来源的DNA的存在。在某些实施方式中,使用K1与Kn之间的差值来确定所述样品中遗传异常的存在。在某些实施方式中,所述遗传异常是非整倍性。在某些实施方式中,所述遗传异常是易位、添加、扩增、颠换或倒位。
[0203] 在某些实施方式中,本文中的任一方法包含源自于已知二倍体或单倍体染色体的参比物。在某些实施方式中,本文中的任一方法包括将来自于所述样品的信号与来自于元基因组或微生物组研究的群体分布相关联。在某些实施方式中,本文中的任一方法包括产生直方图分布以反映出所述样品的覆盖深度。
[0204] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含一个或多个区域,其用于使用至少两种标记物标记样品分子。所述系统可以包含用于转移标记的样品分子的流体通道,其中所述流体通道被设置成拉长所述样品分子的至少一部分,并且其中所述流体通道具有至少10nm的长度和小于5000nm的横截面直径。所述系统可以包含用于检测由所述流体通道中标记的样品产生的信号的装置。所述系统可以包含与所述装置数据连通的处理器,其中所述处理器被设置成消除或最小化下列偏差中的至少一者:由所述标记的样品分子上的标记物密度造成的偏差,或由所述标记的样品分子的标记物密度之外的因素造成的偏差。在某些实施方式中,所述处理器被设置成使用光学图谱的整体重新归一化(GROM)来消除或最小化至少一种所述偏差。在某些实施方式中,GROM包括产生每个区间的原始覆盖深度曲线,将所述原始覆盖深度曲线变换成相应的每个区间的缩放的覆盖深度曲线,产生样品特异性标记物密度偏差系数(LDBC),对区间进行参数化,其中所述区间参数包含梯度和零阶系数值,在至少一个误差测量值的基础上对区间进行过滤,将缩放的覆盖深度相对于LDBC进行归一化;以及从归一化的覆盖深度曲线产生拷贝数曲线。在某些实施方式中,所述处理器被设置成自动确定所述一个或多个第一目标基因组片段中可能的结构变异的存在或不存在。在某些实施方式中,所述处理器被设置成自动鉴定所述拷贝数曲线中可能的断点,其中所述拷贝数曲线中具有与邻近区间相比显著不同的拷贝数的区间包含可能的断点。在某些实施方式中,所述处理器被设置成自动确定GROM拷贝数断点。在某些实施方式中,所述处理器被设置成自动确定GROM拷贝数中的统计学显著的差异。在某些实施方式中,所述处理器被进一步设置成使用第二算法确定第二组多个可能的结构变体;以及鉴定所述GROM拷贝数断点与所述第二组多个可能的结构变体之间的重叠。在某些实施方式中,所述处理器被进一步设置成对于每个所述GROM拷贝数断点来说,鉴定参比序列在所述断点的第一侧上的第一区域并遮蔽所述参比序列在所述断点的第二侧上的第二区域,其中所述第二侧与所述第一侧相反,并且对在所述第一区域中与参比标记物对齐的仅仅单分子对齐进行评分。
[0205] 在某些实施方式中,本文中描述的任一系统的流体通道包含纳米通道。在某些实施方式中,本文中描述的任一系统的流体通道被配置成平行于基材表面。在某些实施方式中,所述转移包括对所述标记的样品施加选自下列的驱动力:流体流,辐射场,电渗透力,电泳力,动电力,温度梯度,表面性质梯度,毛细管流,压力梯度,磁场,电场,后退弯液面,表面张力,热梯度,拉力,推力及其组合。
[0206] 本文中描述的某些实施方式可以包括下列内容:一种表征样品的方法,所述方法包括:用至少两种标记物标记样品分子的区域;将所述标记的样品分子转移通过流体通道,其中所述流体通道被设置成拉长所述样品分子的至少一部分,并且其中所述流体通道具有至少10nm的长度和小于5000nm的横截面直径;检测由所述流体通道中标记的样品产生的信号;并且将所述由标记的样品产生的信号与由参比分子的相应区域产生的信号相关联。所述方法还可以包括:标记所述参比分子的与所述样品分子的区域相对应的区域;将所述标记的参比样品分子转移通过流体通道,其中所述流体通道被设置成拉长所述样品分子的至少一部分,并且其中所述流体通道具有至少10nm的长度和小于5000nm的横截面直径;并且检测由所述流体通道中的所述标记的参比样品产生的信号,其中所述由参比分子的已知相应区域产生的信号,是由所述标记的参比样品产生的信号。
[0207] 在某些实施方式中,提供了一种表征样品的方法。所述方法可以包括:标记样品核酸分子;将所述标记的样品核酸分子转移通过流体纳米通道,其中所述流体纳米通道被设置成拉长所述样品核酸分子的至少一部分,并且其中所述流体纳米通道具有至少10nm的长度和小于1000nm的横截面直径;检测由所述流体通道中的样品核酸分子产生的信号;确定所述样品核酸分子上所述标记物的位置;并且将所述样品核酸分子上所述标记物的位置与参比基因组中标记物的位置对齐。
[0208] 在某些实施方式中,提供了一种表征样品的方法。所述方法可以包括:处理双链DNA样品以便产生从所述双链DNA样品置换的所述双链DNA样品的第一链的悬垂片,其中所述悬垂片具有约1至约1000个碱基范围内的长度,并且其中所述悬垂片在所述双链DNA样品的第一链中产生对应于所述悬垂片的间隙;将一个或多个碱基并入到所述双链DNA中,以便消除所述间隙的至少一部分;用一个或多个标签标记所述处理过的双链DNA的至少一部分;以及对由所述双链DNA上的标记物产生的信号进行定量;将由所述双链DNA产生的信号的量与由参比DNA产生的信号的量进行比较;并且当由所述双链DNA产生的信号的量不同于由所述参比DNA产生的信号的量时,确定所述双链DNA中遗传异常的存在。
[0209] 在某些实施方式中,提供了一种表征样品的方法。所述方法可以包括标记样品DNA上的多个序列特异性位置;将所述样品DNA的至少一部分线性化;对由所述样品DNA上的标记物产生的信号进行定量;将由所述样品DNA产生的信号的量与由参比DNA产生的信号的量进行比较;并且当由所述样品DNA产生的信号的量不同于由所述参比DNA产生的信号的量时,确定所述样品DNA中遗传异常的存在。
[0210] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含:用于使用至少两种标记物标记样品分子的一个或多个区域;用于转移标记的样品分子的流体通道,其中所述流体通道被设置成拉长所述样品分子的至少一部分,并且其中所述流体通道具有至少10nm的长度和小于5000nm的横截面直径;以及用于检测由所述流体通道中的标记的样品产生的信号的装置。
[0211] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含:用于标记样品核酸分子的一个或多个区域;用于转移标记的样品核酸分子的流体纳米通道,其中所述流体纳米通道被设置成拉长所述样品核酸分子的至少一部分,并且其中所述流体纳米通道具有至少10nm的长度和小于1000nm的横截面直径;以及用于检测由所述流体通道中的样品核酸分子产生的信号的装置。
[0212] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含:一个或多个区域,其用于处理双链DNA样品以便产生从所述双链DNA样品置换的所述双链DNA样品的第一链的悬垂片,其中所述悬垂片具有约1至约1000个碱基范围内的长度,并且其中所述悬垂片在所述双链DNA样品的第一链中产生对应于所述悬垂片的间隙;用于将一个或多个碱基并入到所述双链DNA中以便消除所述间隙的至少一部分的一个或多个区域;用于用一个或多个标签标记所述处理过的双链DNA的至少一部分的一个或多个区域;以及用于定量由所述双链DNA上的标记物产生的信号的装置。
[0213] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含:用于标记样品DNA上的多个序列特异性位置的区域;用于使所述样品DNA的至少一部分线性化的区域;以及用于定量由所述样品DNA上的标记物产生的信号的装置。
[0214] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含:用于使用至少两种标记物标记样品分子的工具;用于将所述标记的样品分子线性化的工具;以及用于检测由所述流体通道中的标记的样品产生的信号的工具。
[0215] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含:用于标记样品核酸分子的工具;用于将所述标记的样品核酸分子线性化的工具;以及用于检测由所述流体通道中的样品核酸分子产生的信号的工具。
[0216] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含:用于处理双链DNA样品以便产生从所述双链DNA样品置换的所述双链DNA样品的第一链的悬垂片的工具,其中所述悬垂片具有约1至约1000个碱基范围内的长度,并且其中所述悬垂片在所述双链DNA样品的第一链中产生对应于所述悬垂片的间隙;用于将一个或多个碱基并入到所述双链DNA中以便消除所述间隙的至少一部分的工具;用于用一个或多个标签标记所述处理过的双链DNA的至少一部分的工具;以及用于定量由所述双链DNA上的标记物产生的信号的工具。
[0217] 在某些实施方式中,提供了一种用于表征样品的系统。所述系统可以包含:用于表征样品的系统,所述系统包含:用于标记样品DNA上的多个序列特异性位置的工具;用于将所述样品DNA的至少一部分线性化的工具;以及用于定量由所述样品DNA上的标记物产生的信号的工具。
[0218] 根据某些实施方式,提供了本文中所描述的方法或系统,其中所述样品选自细菌、病毒粒子、DNA分子、RNA分子、核酸聚合物、蛋白质、肽和多糖。
[0219] 根据某些实施方式,提供了本文中所描述的方法或系统,其中所述样品源自于母体血液,并且其中所述参比分子源自于血液之外的母体样品。
[0220] 根据某些实施方式,提供了本文中所描述的方法或系统,其中所述样品包含核苷酸,并且其中所述至少两种标记物位于所述核苷酸中目标区域的任一末端处。
[0221] 根据某些实施方式,提供了本文中所描述的方法或系统,其中所述标记物选自荧光标记物、放射活性标记物、磁标记物或其组合。
[0222] 根据某些实施方式,提供了本文中所描述的方法或系统,其中所述光学检查包括确定所述标记物的物理计数、强度、波长或尺寸。
[0223] 根据某些实施方式,提供了本文中所描述的方法或系统,其中所述光学检查包括确定所述样品中至少一个标记的区域的长度。
[0224] 根据某些实施方式,提供了本文中所描述的方法或系统,其中将所述信号关联包括确定由样品的合并物或样品的一部分的合并物产生的信号。
[0225] 根据某些实施方式,提供了本文中所描述的方法或系统,其中将所述信号关联包括使用由多个样品或样品部分产生的信号(S1,S2…Sn)与由所述参比物产生的信号(C)之间的比率(K):K1=S1/C,K2=S2/C…Kn=Sn/C。在某些实施方式中,使用K1与Kn之间的差值来鉴定胎儿样品的存在。在某些实施方式中,使用K1与Kn之间的差值来鉴定来自于肿瘤或其他癌症来源的DNA的存在。在某些实施方式中,使用K1与Kn之间的差值来确定所述样品中遗传异常的存在。在某些实施方式中,所述遗传异常是非整倍性。在某些实施方式中,所述遗传异常是易位、添加、扩增、颠换或倒位。在某些实施方式中,所述参比物源自于已知的二倍体或单倍体染色体。在某些实施方式中,将来自于所述样品的信号与来自于元基因组或微生物组研究的群体分布相关联。
[0226] 根据某些实施方式,提供了如本文中所描述的方法或系统,其中所述流体通道是纳米通道。在某些实施方式中,所述流体通道被配置成平行于基材表面。
[0227] 根据某些实施方式,提供了如本文中所描述的方法或系统,其还包括产生直方图分布以反映出所述样品的覆盖深度。
[0228] 根据某些实施方式,提供了如本文中所描述的方法或系统,其中所述样品包含循环胎儿细胞、循环肿瘤细胞或体液或组织。
[0229] 根据某些实施方式,提供了如本文中所描述的方法或系统,其中所述转移包括对所述标记的样品施加选自下列的驱动力:流体流,辐射场,电渗透力,电泳力,动电力,温度梯度,表面性质梯度,毛细管流,压力梯度,磁场,电场,后退弯液面,表面张力,热梯度,拉力,推力及其组合。
[0230] 根据某些实施方式,提供了用于执行本文中所描述的方法的试剂盒。
[0231] 根据某些实施方式,提供了用于使用前述权利要求任一项的系统的试剂盒。
[0232] 在本文提供的描述中,对形成本发明的一部分的附图做出了参考。在详细描述、附图和权利要求书中描述的说明性实施方式不意味着限制。可以利用其它实施方式并且可以做出其它变化,而不背离本文提出的主题内容的精神或范围。可以容易地理解,在本文中一般性描述并在附图中说明的本公开的各个方面,可以以广泛的各种不同设置进行安排、替换、合并和设计,所有这些都被明确地设想并构成本公开的一部分。
[0233] 除非另有定义,否则在本文中使用的技术和科学术语具有与本发明所属领域的普通技术人员所通常理解的相同的意义。
[0234] 当在本文中使用时,术语“通道”意味着由边界限定的区域。这样的边界可以是物理的、电的、化学的、磁的边界等。术语“纳米通道”被用于阐述某些通道在某些维度上被认为是纳米尺度的。
[0235] 当在本文中使用时,术语“DNA”是指任何长度的DNA(例如0.1Kb至1兆碱基)。所述DNA可以是高纯制备物、粗品或半粗品材料。所述DNA可以来自于任何生物来源,或者可以是合成的。
[0236] 当在本文中使用时,术语“核苷酸”是指含有脱氧核糖核酸(例如DNA、mtDNA、gDNA或cDNA)、核糖核酸(例如RNA或mRNA)或本领域中已知的任何其他核酸变体的分子。术语“标记的核苷酸”是指包含可检测的任何修饰的核苷酸。这包括但不限于具有附连到碱基的报告基团的核苷酸。报告基团包括但不限于荧光染料、半抗原、生物素分子或金纳米粒子。术语“天然核苷酸”是指未被修饰或具有不干扰其掺入到DNA中的轻微修饰的核苷酸。术语“t”、“c”、“a”、“g”和“u”是指DNA和RNA中的核苷酸。
[0237] 术语“切口”是指在一条DNA链或另一条链上发生的具有3’羟基末端的磷酸二酯键断裂。
[0238] 当在本文中使用时,术语“切口核酸内切酶”是指能够在确定序列处在单一DNA链上断裂磷酸二酯键留下3’-羟基的任何天然存在的或工程化改造的酶。切口核酸内切酶可以是天然存在的,通过修饰限制性酶以消除一条DNA链的切割活性而进行工程化改造,或通过将切口形成亚基融合到DNA结合结构域例如锌指和转录因子样效应物DNA识别结构域来产生。
[0239] 当在本文中使用时,术语“标记位点”是指具有暴露的3’羟基的任何DNA位点,聚合酶可以以模板依赖性方式在所述3’羟基上添加核苷酸。标记位点可以通过切口核酸内切酶、杂交的探针或在任一DNA链上断开磷酸二酯键的任何化学或物理手段来产生。断开磷酸二酯键的手段可以在DNA的生物源外部或在DNA提取之前作用于DNA,例如作为生物样品暴露于化学品或外力例如辐射的结果。如果3’末端不可延伸,可以进行修复以恢复所述羟基,例如通过使用New England Biolabs的PreCR试剂盒。
[0240] 当在本文中使用时,术语“样品”可以包括例如血液、血清、血浆、痰液、灌洗液、脑脊液、尿液、精液、汗液、泪液、唾液等。当在本文中使用时,术语“血液”、“血浆”和“血清”明确地涵盖其级分或处理过的部分。同样地,当样品从活检组织、拭子、涂片等获取时,所述“样品”明确地涵盖源自于所述活检组织、拭子、涂片等的处理过的级分或部分。
[0241] 当在本文中使用时,术语“染色体”是指活细胞的承担遗传的基因载体,其源自于染色质并包含DNA和蛋白质组分(特别是组蛋白)。
[0242] 当在本文中使用时,“ChrX”是指X染色体,或染色体X。当在本文中使用时,“ChrY”是指Y染色体或染色体Y。同样地,Chr1、Chr2、Chr3等是指1号染色体、2号染色体、3号染色体等。
[0243] 正如本领域技术人员将会认识到的,当用于使DNA分子通过纳米通道的背景中时,“转移”可以与线性化互换使用。
[0244] 本文中描述的方法、装置、系统和试剂盒可以合并下述任一参考文献中描述的方法、装置、系统和试剂盒:美国专利申请公开号2009/0305273;PCT公开号WO/2008/079169;美国专利申请公开号2008/0242556;PCT公开号WO/2008/121828;美国专利申请公开号
2011/0171634;PCT公开号WO/2010/002883;美国专利申请公开号2011/0296903;PCT公开号WO/2009/149362;美国专利申请公开号2011/0306504;PCT公开号WO/2010/059731;美国专利申请公开号2012/0097835;PCT公开号WO/2010/135323;PCT申请号PCT/US11/57115;美国专利申请系列号13/606819;PCT申请号PCT/US2012/054299;美国专利申请公开号2012/
0244635;PCT公开号WO/2011/038327;美国专利申请公开号2012/0237936;美国专利申请系列号13/503307;PCT公开号WO/2011/050147;美国专利申请系列号61/734327;美国专利申请系列号61/761189;和美国专利申请系列号61/713862,其各自以其全部内容通过参考并入本文。
[0245] 参考文献:下述参考文献涉及遗传变异的评估,并各自以其全部内容通过参考并入本文:美国专利申请公开号2013/085681;PCT申请公开号WO2013/052907;PCT申请公开号WO2013/052913;美国专利申请公开号2013/0103320;美国专利申请公开号2013/0261983;PCT申请公开号WO2013/109981;PCT申请公开号WO2013/177086;美国专利申请公开号
20130309666;美国专利申请公开号20130325360;美国专利申请公开号20130338933;PCT申请公开号WO2013/055817;美国专利申请公开号2013/0150253;PCT申请号PCT/US2013/
047131(作为WO 2013/192562公开); Mazloom,A.等,(2013)通过对来自于母体
血浆的循环无细胞DNA进行测序而进行的性染色体非整倍性的非侵入性产前检测
(Noninvasive prenatal detection of sex chromosomal aneuploidies by sequencing circulating cell-free DNA from maternal plasma),J.Prenat Diagn.33:591-7;
Jensen,T.J.等,(2013)用于从母体血浆进行胎儿非整倍性检测的高通量大规模平行测序(High-Throughput Massively Parallel Sequencing for Fetal Aneuploidy Detection from Maternal Plasma),PLoS One.2013;8:e57381;以及Jensen,T.J., 等,
(2012)通过母体血浆的下一代测序检测胎儿中的22q11.2微型缺失(Detection of 
microdeletion 22q11.2in a fetus by next-generation sequencing of maternal 
plasma),Clin Chem.58:1148-51。
[0246] 实施例1
[0247] 通过PCR产生来自于人类男性样品的基因组片段,将其标记并运行通过纳米通道。然后将检测到的片段与每个染色体的单基因参比光学图谱进行对齐。在所述对齐起始位点的基础上对所述分子进行分拣。
[0248] 如图7A中所示,为二倍体常染色体(1号染色体)观察到的平均覆盖深度为5X,并且在所述染色体中均匀分布。如果分子的取样是均匀的,则对齐起始位点将会在所述染色体中随机分布,产生线性图。
[0249] 如图7B中所示,为来自于同一男性样品的单倍体性染色体(X染色体)观察到的平均覆盖深度为2X-2.5X(粗略地为二倍体常染色体深度的一半),并且也在所述染色体中均匀分布。这个实施例证实了可以使用本文中描述的方法和平台实现定量测量。
[0250] 实施例2
[0251] 将下列值应用于GROM的初始实施,同时也应用于光学标记并使用IrysTM系统(Bionano genomics)分析的人类基因组多核苷酸的光学图谱。GROM的初始实施将hg19分割成50,000个碱基对的区间。其他参比基因组和其他区间分割计划可以产生不同的数值范围。区间的总数为61,927。每个染色体的区间数目如下:Chr1:4986,Chr2:4864,Chr3:3961,Chr4:3824,Chr5:3619,Chr6:3423,Chr3:3183,Chr8:2928,Chr9:2825,Chr10:2711,Chr11:
2701,Chr12:2678,Chr13:2304,Chr14:2147,Chr15:2051,Chr16:1808,Chr17:1624,Chr18:
1562,Chr19:1183,Chr20:1261,Chr21:963,Chr22:1027,ChrX:3106,ChrY:1188。从使用
25%的相对误差截止值的区间过滤幸存的区间数目为56,383。每个区间的标记物数目在0至26的范围内。每个区间的标记物数目的中值为6。4,803个区间没有标记物。覆盖值的范围为10x至600x。观察到的LBDC值的范围为0.0001至0.04。区间参数值:零阶系数的范围为-
0.07至4.3,梯度的范围为-30.8至77.0。整倍体样品的拷贝数曲线以2(常染色体和女性中的ChrX,参见例如图22)或1(男性中的ChrX和ChrY,参见例如图23)为中心。对于整倍体样品来说,最终拷贝数曲线中的相对误差的范围为11%至~20%(取决于覆盖度)(参见图12)。
为整倍体样品产生的拷贝数曲线中的相对误差正如预期,作为覆盖度的平方根倒数随着覆盖度衰减。癌症样品表现出高得多的相对误差(观察值高达80%)。不受任何理论限制,据设想癌症样品中较高的相对误差率由生物可变性引起。
[0252] 来自于GROM的实施的数据示出在图8-29中。获得了原始读出序列(参见例如图8-11)。如图12中所示,原始覆盖深度曲线的方差(数据点)远远超过基于覆盖度的预期值(连续线)。如图13中所示,对源自于几个原始覆盖深度曲线的逐区间相关系数进行比较。所述相关系数的分层聚簇将男性样品与女性样品区分开。所述聚簇将在同一起源的生物材料上获得的所有技术平行样分组在一起。癌症样品与所有其他样品明显分开。每个区间的标记物数目示出在图14-15中。缩放的覆盖深度相对于每个区间的标记物数目的回归得到标记物密度偏差系数(LBDC),其被评估为所述回归线的梯度。每个区间的标记物数目向每个区间的标记物数目的中值的左侧迁移。如图16-17中所示,标记物密度偏差系数是样品依赖性的。尽管图16中的实例示出了高度偏差的样品,但图17示出了无偏差的样品。对于多个样品来说,区间内的缩放的覆盖深度相对于样品特异性LDBC值的回归产生两个区间参数(零阶系数和梯度)以及误差度量值(例如相对误差;参见图18)。某些区间例如chr3_2697中的缩放的覆盖深度,显示出对样品特异性LDBC值的强烈依赖性。通常,当区间中的标记物数目超过每个区间的标记物数目的中值时,相关的梯度高并且为正(参见例如图19)。另一方面,负的梯度是具有很少标记物的区间的特征(参见例如图20)。如图21中所示,当标记物数目接近于每个区间的标记物数目的中值时,区间特异性梯度接近于零。GROM使用表1中描述的步骤来实施。如图24中所示,GROM减小整倍体拷贝数曲线中的相对误差以逼近覆盖度的平方根倒数。癌症样品由于生物可变性而显示出高的相对误差。
[0253] 从癌症样品获得的示例性拷贝数曲线示出在图25-28中。如图29中所示,每个区间的梯度随每个区间的标记物数目线性变化,其中梯度为1并且零阶系数等于每个区间的标记物数目的中值。所述回归线几乎不可与理想的预期线性趋势区分开。
[0254] 实施例3
[0255] 进行了基因组结构变异的自动检测。将人类样品标记,并使用IrysTM系统(Bionano genomics)产生光学图谱。如本文中所述产生GROM拷贝数曲线。使用GROM拷贝数曲线自动鉴-10定断点。使用10 的P-值来鉴定绝对拷贝数的显著变化。也使用RPSA算法产生RPSA复合结构变体调用。如图30A中所示,人类6号染色体的GROM拷贝数曲线(黑色迹线)与自动产生的RPSA复合SV调用(垂直线10)重叠。水平线指示预期的(整数)拷贝数升高。如图30B中所示,将与拷贝数曲线的变化相关的p-值的负对数(以10为底)作图(黑色迹线)。垂直线表示与超过10的截止值的p-值峰(即GROM拷贝数断点)不重叠(10)或重叠(20、21、22)的RPSA复合SV调用。在来自于图30B的垂直线21的位置处,鉴定到涉及6和10号染色体的易位。所述易位被示意作图在图31中,该图在缺少向10号染色体的一部分的作图的基础上示出了易位的区域
40和可能的缺失50。图32示出了来自于图31的易位区域的单分子的对齐。图33示意示出了对应于图30B的垂直线22的易位。
[0256] 实施例4
[0257] 对多个样品进行了SIMONIDA的实施,包括整倍体男性和女性、在Chr22中具有已知亚染色体畸变(22q11,迪格奥尔格综合征)的对象、COLO829癌症样品和另外的癌症样品(多发性骨髓瘤患者来源的CDC138细胞系)。
[0258] 将下列值应用于每种标记物的拷贝数的归一化的实施。所述过程使用mres=2.9对hg19进行压缩并得到343,409个压缩的标记物。设想了根据本文中的某些实施方式,其他参比基因组和其他标记物压缩方案将产生不同的数值范围。标记物的总数为343,409。常染色体标记物的数目为323,149。乘数C的方便的值为105。每个染色体的标记物数目如下:Chr1:28,177,Chr2:28,823,Chr3:23,054,Chr4:20,952,Chr5:20,943,Chr6:19,985,Chr3:
18,094,Chr8:17,109,Chr9:14,618,Chr10:16,233,Chr11:16,519,Chr12:15,511,Chr13:
10,634,Chr14:10,466,Chr15:10,478,Chr16:9,785,Chr17:9,984,Chr18:8,956,Chr19:6,
132,Chr20:7,869,Chr21:4,163,Chr22:4,664,ChrX:17,406,ChrY:2,854。从使用25%的相对误差截止值的区间过滤存活的标记物数目为~250,000。原始覆盖值的范围为1至700。观察到的λ值的范围为50kb至210kb。标记物参数值:零阶系数的范围为0.02至3.4,中值为
1.000,平均值为0.976,梯度的范围为-2.2至2.4并具有等于零的中值和平均值。整倍体样品的拷贝数曲线以2(常染色体和女性中的ChrX)或1(男性中的ChrX和ChrY)为中心。对于整倍体样品来说,最终拷贝数曲线(过滤过的标记物)中的相对误差的范围为10%至~30%(取决于覆盖度)。为整倍体样品产生的拷贝数曲线的相对误差正如预期,作为覆盖度的平方根倒数随着覆盖度衰减。癌症样品由于生物可变性而表现出高得多的相对误差(观察值高达80%)。
[0259] 如图34中所示,确定特征性分子长度。
[0260] 如图35中所示,确定每种标记物的零阶系数(E)和梯度(G)。
[0261] 如图36A中所示,确定每种标记物的零阶系数值的分布。如图36B中所示,确定每种标记物的零阶系数误差的分布。如图37A中所述,确定每种标记物的梯度值的分布。如图37B中所示,确定每种标记物的梯度误差的分布。如图38A中所示,确定所选整倍体样品的每种标记物的估算基本误差的分布。如图38B中所示,确定所选整倍体样品的总误差估算值的分布。
[0262] 如图39中所示,产生了在Chr22中具有已知亚染色体畸变(22q11,迪格奥尔格综合征)的对象中每种标记物的拷贝数曲线的实例。图40示出了所述对象的Chr22,其中受影响的区域(18-22Mbp)被突出。因此,设想了符合本文中的某些实施方式的方法和系统可以产生偏差被减小或消除的拷贝数曲线,并且所述拷贝数曲线可用于鉴定染色体异常(例如迪格奥尔格综合征)。
[0263] 如图41中所示,确定了每种标记物的拷贝数值的不确定性(在针对两个染色体拷贝进行缩放之前)。
[0264] 在图42中示出了通过SIMONIDA为癌症样品(COLO829)计算的拷贝数曲线的实例。应该指出,对于Chr2和Chr5来说,标准偏差分别为0.608(25,903标记物)和0.450(18,715标记物)。出于比较,同一样品的GROM曲线的标准偏差对于Chr2来说为0.804(4,864个区间,区间尺寸50kb)和0.589(3,619个区间)。因此,与GROM相比,SIMONIDA实现了相对误差的~
25%的提高,同时分辨率提高4-7倍。
[0265] 在图43中示出了通过SIMONIDA为其他癌症样品计算的拷贝数曲线的实例。
[0266] 出人意料的是,SIMONIDA还产生了高精度的ChrY覆盖深度曲线,尽管可用的男性训练样品的数目小。有鉴于ChrY与其余基因组特别是ChrX之间已知的序列相似性,高精度的ChrY覆盖深度曲线也是值得注意的。
[0267] 此外,与量化的拷贝数曲线(例如GROM拷贝数曲线)相比,SIMONIDA产生比所述量化的拷贝数曲线更高的精度,此外分辨率提高5-7倍。
[0268] 实施例5
[0269] 对多个样品进行了性染色体归一化的实施。为训练集获得SIMONIDA缩放的覆盖深度。对于训练集的每个样品,将ChrX缩放的覆盖深度除以缩放因子(X染色体的数目–1)。对于训练集的每个样品,将ChrY缩放的覆盖深度除以缩放因子(Y染色体的数目)。进行针对SIMONIDA横坐标的稳健的线性回归。使用泰勒展开式估算ChrX的误差传递。使用MAD估算ChrY的误差传递。对于CEPH三元组(NA12878、女性和NA12891、男性)来说,获得包含性染色体归一化的SIMONIDA拷贝数曲线。对于每个样品进行第二次归一化,其中将ChrX的归一化的覆盖深度除以在所有女性训练样品中获得的归一化的覆盖深度的中值,并且其中将ChrY的归一化的覆盖深度除以在所有男性训练样品中获得的归一化的覆盖深度的中值,并且其中还将ChrY的归一化的覆盖深度除以2。
[0270] 如图46A和46B中所示,包括第二次归一化的性染色体归一化与不经历第二次归一化的曲线相比,显著改进了标准偏差。
[0271] 在每个图46A和46B中,三形:在除以归一化的覆盖深度的中值之前,女性中归一化的ChrX/Y曲线的标准偏差。X:在除以归一化的覆盖深度的中值之后,女性中归一化的ChrX/Y曲线的标准偏差。实心圆圈:在除以归一化的覆盖深度的中值之前,男性中归一化的ChrX/Y曲线的标准偏差。十字形:在除以归一化的覆盖深度的中值之后,男性中归一化的ChrX/Y曲线的标准偏差。竖直虚线:提高(除以归一化的覆盖深度的中值之前与之后相比)。图46A中的倾斜虚线:在简单泊松模型的基础上男性中ChrX的预期标准偏差,其等于1/sqrt(2N),其中N表示总常染色体覆盖深度。这在不存在任何偏差的情况下是理论极限。图46A中的倾斜实线:在同样的泊松模型的基础上女性中ChrX的预期标准偏差,其等于1/sqrt(N)。
图46B中的倾斜线:在同样的泊松模型的基础上男性中ChrY的预期标准偏差,其等于1/sqrt(2N)。
[0272] 如NA12878女性细胞的拷贝数曲线(图47A-C)中所示,所述拷贝数曲线稳健且一致地指示常染色体和ChrX的拷贝数为2。图47B说明了X染色体的拷贝数曲线与整个X染色体的二倍性相符。图47C说明了女性基因组的拷贝数曲线与不存在Y染色体相符。如NA12891男性细胞的拷贝数曲线(图48A-C)中所示,所述拷贝数曲线可靠地指示常染色体的拷贝数为2,并且ChrX和ChrY的拷贝数为1。图48B说明了男性基因组的X染色体的拷贝数曲线描绘了整个X染色体的单拷贝。图48C说明了男性基因组的拷贝数曲线描绘了整个Y染色体中Y染色体的单拷贝。
[0273] 实施例6
[0274] 如下所述进行通过标记物数目的归一化。提供包含20个男性基因组和20个女性基因组的训练集。对样品进行切口标记,并在IrysTM系统(BioNano genomics)上对标记进行分析。在信噪比和分子长度的基础上进行质量过滤。将样品的标记模式与hg19参比基因组对齐。产生每个分子中每100kb的预定长度区段的标记物数目的直方图。对每个分子的标记物数目的描述符进行线性回归分析,以确定每个分子的特征性标记物数目。在所有染色体的原始标记物覆盖与常染色体的原始标记物覆盖深度之和的比率的基础上,获得缩放的标记物覆盖深度曲线。将性染色体的缩放的标记物覆盖深度除以适合的缩放因子(对于ChrX来说,样品中ChrX的数目减去1;对于ChrY来说,样品中ChrY的数目)。进行稳健的线性回归以便为所述性染色体定义横坐标,并为所述性染色体进行第二次归一化。对于新获得的样品来说,将样品切口标记并在IrysTM系统上进行分析。在信噪比和分子长度的基础上进行质量过滤。将样品的标记模式与hg19参比基因组进行对齐。通过将原始标记物覆盖除以所有常染色体标记物覆盖深度之和,获得新获得的样品的缩放的标记物覆盖深度。为所述新获得的数据集获得横坐标值(对常染色体使用常规线性回归,并且对性染色体使用稳健的线性回归),并且在训练集中确定的每个分子的特征性标记物数目的基础上,为所述新获得的数据集产生归一化的标记物覆盖深度。在训练集中所有女性样品的中值和MAD以及训练集中所述男性样品的中值和MAD的基础上,为性染色体标记物进行第二次归一化。对ChrY和ChrX标记物进行标记物质量过滤。拷贝数曲线是基于常染色体标记物的归一化的标记物覆盖深度以及性染色体的第二次归一化的标记物质量过滤过的标记物覆盖深度。
[0275] 尽管本文中已公开了各种不同方面和实施方式,但其他方面和实施方式对于本领域技术人员来说是显而易见的。本文公开的各种不同方面和实施方式是出于说明的目的而不打算是限制性的,其中真正的范围和精神由权利要求书指明。本领域技术人员将会认识到,对于本文中公开的这种和其他过程和方法来说,在所述过程和方法中执行的功能可以以不同顺序实施。此外,概括的步骤和操作仅仅作为实例提供,并且某些步骤和操作可以是任选的,合并在更少的步骤和操作中,或扩充成附加的步骤和操作,而不损害所公开的实施方式的本质。
[0276] 尽管本文中已公开了各种不同方面和实施方式,但其他方面和实施方式对于本领域技术人员来说是显而易见的。本文公开的各种不同方面和实施方式是出于说明的目的而不打算是限制性的,其中真正的范围和精神由权利要求书指明。
[0277] 对于本文中基本上任何复数和/或单数术语的使用来说,本领域技术人员可以在适合于语境和/或应用的情况下将复数转换成单数和/或将单数转换成复数。为清晰起见,在本文中可以明确陈述各种不同的单数/复数排列。
[0278] 本领域技术人员应该理解,一般来说,在本文中、特别是随附的权利要求书(例如随附的权利要求书的主体)中使用的术语,通常打算作为“开放性”术语(例如术语“包括”应该被解释为“包括但不限于”,术语“具有”应该被解释为“至少具有”等)。本领域技术人员还应该理解,如果意图指示介绍的权利要求项叙述的特定数目,这种意图应该在所述权利要求项中明确叙述,并且在缺少这种叙述的情况下不存在这种意图。例如,为了帮助理解,随附的权利要求书可能含有使用介绍性短语“至少一个”和“一个或多个”来介绍权利要求项叙述。然而,这种短语的使用不应被解释为暗示着由不定冠词介绍的权利要求项叙述将含有这种介绍的权利要求项叙述的任何特定权利要求项限制于只含有一个这种叙述的实施方式,即使在同一权利要求项包括介绍性短语“一个或多个”或“至少一个”和不定冠词的情况下(例如,不定冠词应该被解释为意味着“至少一个”或“一个或多个”);这同样适用于使用定冠词来介绍权利要求项叙述的情况。此外,即使介绍的权利要求项叙述的特定数目被明确叙述,本领域技术人员也应该认识到,这种叙述应该被解释为意味着至少所述叙述的数目(例如,没有其他修饰语的仅仅“两个叙述”的叙述,意味着至少两个叙述或两个或更多个叙述)。此外,在使用类似于“A、B和C等中的至少一者”的常用语的情况下,一般来说这种结构意指本领域技术人员应该理解的所述常用语的意义(例如,“具有A、B和C中的至少一者的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起等的系统)。在使用类似于“A、B或C等中的至少一者”的常用语的情况下,一般来说这种结构意指本领域技术人员应该理解的所述常用语的意义(例如,“具有A、B或C中的至少一者的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起等的系统)。本领域技术人员还应该理解,事实上任何提出两个或更多个可选项的反意连接(disjunctive)的词和/或短语,不论是在说明书、权利要求书还是附图中,都应该被理解为设想了包含所述项中的一项、所述项的另一项或两个所述项的可能性。例如,短语“A或B”应该被理解为包括“A”或“B”或“A和B”的可能性。
[0279] 此外,当本公开的特点或情况按照马库什(Markush)组进行描述时,本领域技术人员将会认识到,本公开因此也按照所述马库什组的任一单个成员或成员的亚组进行描述。
[0280] 正如本领域技术人员将会理解的,出于任何和所有目的,例如就提供书面描述而言,本文中公开的所有范围也涵盖了其任何和所有可能的子范围和子范围的组合。可以容易地认识到,任何列出的范围充分描述并能够将同一范围分解成至少相等的两份、三份、四份、五份、十份等。作为非限制性实例,本文中讨论的每个范围可以被容易地分解成较小的三分之一、中间的三分之一和较大的三分之一。正如本领域技术人员也将理解的,诸如“至多”、“至少”等的所有措词包括了所叙述的数目,并且是指可以随后分解成如上所讨论的子范围的范围。最后,正如本领域技术人员将会理解的,范围包括每个个体成员。因此,例如具有1-3个细胞的组是指具有1、2或3个细胞的组。同样地,具有1-5个细胞的组是指具有1、2、3、4或5个细胞的组,以此类推。
[0281] 从上述内容可以认识到,在本文中出于说明的目的已描述了本公开的各种不同实施方式,并且可以做出各种不同修改而不背离本公开的范围和精神。因此,本文中公开的各种不同实施方式不打算是限制性的,并且真正的范围和精神由权利要求书指明。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈