首页 / 专利库 / 诊断设备和程序 / 血细胞计数 / 白细胞计数 / 用于确定DNA分子的来源的方法

用于确定DNA分子的来源的方法

阅读:512发布:2020-11-07

专利汇可以提供用于确定DNA分子的来源的方法专利检索,专利查询,专利分析的服务。并且本 发明 提供用于确定受试者中来自目标来源的DNA分子的存在的方法和核酸分子。,下面是用于确定DNA分子的来源的方法专利的具体信息内容。

1.一种用于确定来自受试者的无细胞体液样品中存在的DNA分子群体中来自目标来源的DNA分子的存在的方法,所述方法包括:
a)获得从来自所述受试者的无细胞体液样品中分离的DNA样品;
b)确定一种或多种蛋白质中的每种的多条蛋白质结合位点序列及其5'和3'侧翼区序列,其中所述一种或多种蛋白质中的至少一种差异地结合至不同来源的DNA分子;
c)比对所述一种或多种蛋白质中的每种的至少多条所述确定的蛋白质结合位点序列;
d)对在所述比对的蛋白质结合位点序列的每个5'和3'侧翼区序列内的每个核苷酸位置处开始的测序读段的数目进行计数;
e)基于步骤d)的所述计数数目生成覆盖图;
f)对所述覆盖图进行滤波以鉴定所述覆盖图内的至少一个周期分量;
g)获得表示所述覆盖图内的所述至少一个周期分量的强度的度量;
其中所述计算的度量指示来自所述目标来源的DNA分子的存在。
2.如权利要求1所述的方法,其中所述体液样品是血液样品。
3.如权利要求2所述的方法,其中所述血液样品来自孕妇。
4.如权利要求1-3中任一项所述的方法,其中所述不同来源的DNA分子是母体来源的DNA分子和胎儿来源的DNA分子。
5.如权利要求4所述的方法,其中所述计算的度量指示胎儿DNA分数。
6.如权利要求1所述的方法,其中所述不同来源的DNA分子是患病细胞的DNA分子和未患病细胞的DNA分子。
7.如权利要求1所述的方法,其中所述不同来源的DNA分子是第一组织来源的DNA分子和第二组织来源的DNA分子。
8.如权利要求1所述的方法,其中所述不同来源的DNA分子是第一组织来源的DNA分子和白细胞来源的DNA分子。
9.如权利要求1-8中任一项所述的方法,其中所述确定通过测序来进行。
10.如权利要求9所述的方法,其中所述测序是大规模平行测序。
11.如权利要求9所述的方法,其中所述测序是靶向测序。
12.如权利要求1-11中任一项所述的方法,其中所述蛋白质是转录因子并且所述蛋白质结合位点序列是转录因子结合位点序列。
13.如权利要求1-11中任一项所述的方法,其中所述蛋白质是核酸酶并且所述蛋白质结合位点序列是核酸酶结合序列。
14.如权利要求1-13中任一项所述的方法,其中所述比对是针对基因组参考序列的比对。
15.如权利要求1-14中任一项所述的方法,其中所述多条蛋白质结合位点序列包含至少500、至少1,000、至少1,500、至少2,000、至少3,000、至少4,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少60,000、至少70,000、至少80,000、至少90,000、至少100,000、至少110,000、至少120,000、至少130,000、至少140,000、至少
150,000、至少160,000、至少170,000、至少180,000、至少190,000、至少200,000、至少210,
000、至少220,000、至少230,000、至少240,000、至少250,000、至少260,000、至少270,000、至少280,000、至少290,000、至少300,000、至少310,000、至少320,000、至少330,000、至少
340,000、至少350,000、至少360,000、至少370,000、至少380,000、至少390,000、至少400,
000、至少410,000、至少420,000、至少430,000、至少440,000、至少450,000、至少460,000、至少470,000、至少480,000、至少490,000或至少500,000条蛋白质结合位点序列。
16.如权利要求1-15中任一项所述的方法,其中所述一种或多种蛋白质是两种蛋白质。
17.如权利要求1-15中任一项所述的方法,其中所述一种或多种蛋白质是三种蛋白质。
18.如权利要求1-15中任一项所述的方法,其中所述一种或多种蛋白质是四种蛋白质。
19.如权利要求1-15中任一项所述的方法,其中所述一种或多种蛋白质是五种蛋白质。
20.如权利要求1-15中任一项所述的方法,其中所述一种或多种蛋白质是6、7、8、9、10、
11、12、13、14、15、16、17、18、19、20或21种或更多种蛋白质。
21.如权利要求1-20中任一项所述的方法,其中所述5'侧翼区序列和3'侧翼区序列是至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1,000、至少1,100、至少1,200、至少1,300、至少1,400、至少1,500或至少2,000个基对。
22.如权利要求1-21中任一项所述的方法,其中步骤f)的所述滤波包括计算所述覆盖图的谱频率变换并鉴定频带内的所述谱频率变换的功率。
23.如权利要求22所述的方法,其中所述频带包括对应于130至250个碱基对的间隔的频率。
24.如权利要求22或23中任一项所述的方法,其中所述度量是频带内的所述谱频率变换的功率与所述谱频率变换的总功率之间的比率。
25.如权利要求24所述的方法,其中所述谱频率变换的功率通过对所述频带内的谱频率变换进行积分来计算,并且所述谱频率变换的总功率通过对所有频率上的所述谱频率变换进行积分来计算。
26.如权利要求1-25中任一项所述的方法,其中所述至少一个周期分量指示跨越核小体的比对位置,以使得所述至少一个周期分量中的局部最大值指示在所述对应核苷酸位置处不存在核小体并且所述至少一个周期分量中的局部最小值指示在所述对应核苷酸位置处存在核小体。
27.如权利要求1-26中任一项所述的方法,其中所述度量是从所述滤波的覆盖图计算的信噪比
28.如权利要求1-27中任一项所述的方法,其还包括确定来自两种或更多种目标来源的DNA分子的比例。
29.如权利要求28所述的方法,其中所述两种或更多种目标来源是组织。

说明书全文

用于确定DNA分子的来源的方法

[0001] 相关申请的交叉引用
[0002] 本申请要求2015年11月9日提交的美国临时申请号62/252,965的权益,所述临时申请在此以引用的方式整体并入本文。发明领域
[0003] 本发明尤其涉及用于确定来自受试者的无细胞体液样品中存在的DNA分子群体中来自目标来源的DNA分子的存在。
[0004] 发明背景
[0005] 检测来自受试者的无细胞体液样品中存在的DNA分子群体中来自目标来源的DNA分子的存在可向医师提供重要的诊断信息。例如,无创性产前测试通常依赖于样品中存在的胎儿DNA分数的估值,而不是根据经验得出的胎儿分数的测量值。具有明确的胎儿分数测量值将允许医师更精确地诊断产前疾病和病状。目前用于确定胎儿分数的方法是耗时或昂贵的,从而使得它们在无创性产前测试中实施来说具有挑战性。因此,需要开发具有高灵敏度和特异性的成本有效且高效的测试。
[0006] 发明概述
[0007] 本发明的一些实施方案是:
[0008] 1.一种用于确定来自受试者的无细胞体液样品中存在的DNA分子群体中来自目标来源的DNA分子的存在的方法,所述方法包括:
[0009] a)获得从来自所述受试者的无细胞体液样品中分离的DNA样品;
[0010] b)确定一种或多种蛋白质中的每种的多条蛋白质结合位点序列及其5'和3'侧翼区序列,其中所述一种或多种蛋白质中的至少一种差异地结合至不同来源的DNA分子;
[0011] c)比对所述一种或多种蛋白质中的每种的至少多条所述确定的蛋白质结合位点序列;
[0012] d)对在所述比对的蛋白质结合位点序列的每个5'和3'侧翼区序列内的每个核苷酸位置开始的测序读段的数目进行计数;
[0013] e)基于步骤d)的所述计数数目生成覆盖图;
[0014] f)对所述覆盖图进行滤波以鉴定所述覆盖图内的至少一个周期分量;
[0015] g)获得表示所述覆盖图内的所述至少一个周期分量的强度的度量;
[0016] 其中所述计算的度量指示来自所述目标来源的DNA分子的存在。
[0017] 2.如实施方案1所述的方法,其中所述体液样品是血液样品。
[0018] 3.如实施方案2所述的方法,其中所述血液样品是来自孕妇。
[0019] 4.如实施方案1-3中任一项所述的方法,其中所述不同来源的DNA分子是母体来源的DNA分子和胎儿来源的DNA分子。
[0020] 5.如实施方案4所述的方法,其中所述计算的度量指示胎儿DNA分数。
[0021] 6.如实施方案1所述的方法,其中所述不同来源的DNA分子是患病细胞的DNA分子和未患病细胞的DNA分子。
[0022] 7.如实施方案1所述的方法,其中所述不同来源的DNA分子是第一组织来源的DNA分子和第二组织来源的DNA分子。
[0023] 8.如实施方案1所述的方法,其中所述不同来源的DNA分子是第一组织来源的DNA分子和白细胞来源的DNA分子。
[0024] 9.如实施方案1-8中任一项所述的方法,其中所述确定通过测序来进行。
[0025] 10.如实施方案9所述的方法,其中所述测序是大规模平行测序。
[0026] 11.如实施方案9所述的方法,其中所述测序是靶向测序。
[0027] 12.如实施方案1-11中任一项所述的方法,其中所述蛋白质是转录因子,并且所述蛋白质结合位点序列是转录因子结合位点序列。
[0028] 13.如实施方案1-11中任一项所述的方法,其中所述蛋白质是核酸酶并且所述蛋白质结合位点序列是核酸酶结合序列。
[0029] 14.如实施方案1-13中任一项所述的方法,其中所述比对是针对基因组参考序列的比对。
[0030] 15.如实施方案1-14中任一项所述的方法,其中所述多条蛋白质结合位点序列包含至少500、至少1,000、至少1,500、至少2,000、至少3,000、至少4,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少60,000、至少70,000、至少80,
000、至少90,000、至少100,000、至少110,000、至少120,000、至少130,000、至少140,000、至少150,000、至少160,000、至少170,000、至少180,000、至少190,000、至少200,000、至少
210,000、至少220,000、至少230,000、至少240,000、至少250,000、至少260,000、至少270,
000、至少280,000、至少290,000、至少300,000、至少310,000、至少320,000、至少330,000、至少340,000、至少350,000、至少360,000、至少370,000、至少380,000、至少390,000、至少
400,000、至少410,000、至少420,000、至少430,000、至少440,000、至少450,000、至少460,
000、至少470,000、至少480,000、至少490,000或至少500,000条蛋白质结合位点序列。
[0031] 16.如实施方案1-15中任一项所述的方法,其中所述一种或多种蛋白质是两种蛋白质。
[0032] 17.如实施方案1-15中任一项所述的方法,其中所述一种或多种蛋白质是三种蛋白质。
[0033] 18.如实施方案1-15中任一项所述的方法,其中所述一种或多种蛋白质是四种蛋白质。
[0034] 19.如实施方案1-15中任一项所述的方法,其中所述一种或多种蛋白质是五种蛋白质。
[0035] 20.如实施方案1-15中任一项所述的方法,其中所述一种或多种蛋白质是6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21种或更多种蛋白质。
[0036] 21.如实施方案1-20中任一项所述的方法,其中所述5'和3'侧翼区序列是至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1,000、至少1,
100、至少1,200、至少1,300、至少1,400、至少1,500或至少2,000个基对。
[0037] 22.如实施方案1-21中任一项所述的方法,其中步骤f)的所述滤波包括计算所述覆盖图的谱频率变换并鉴定频带内的所述谱频率变换的功率。
[0038] 23.如实施方案22所述的方法,其中所述频带包括对应于130至250个碱基对的间隔的频率。
[0039] 24.如实施方案22或23中任一项所述的方法,其中所述度量是频带内的所述谱频率变换的功率与所述谱频率变换的总功率之间的比率。
[0040] 25.如实施方案24所述的方法,其中所述谱频率变换的所述功率通过对所述频带内的所述谱频率变换进行积分来计算,并且所述谱频率变换的所述总功率通过对所有频率上的所述谱频率变换进行积分来计算。
[0041] 26.如实施方案1至25中任一项所述的方法,其中所述至少一个周期分量指示跨越核小体的比对位置,以使得所述至少一个周期分量中的局部最大值指示在所述对应核苷酸位置处不存在核小体并且所述至少一个周期分量中的局部最小值指示在所述对应核苷酸位置处存在核小体。
[0042] 27.如实施方案1至26中任一项所述的方法,其中所述度量是从所述滤波的覆盖图计算的信噪比
[0043] 28.如实施方案1至27中任一项所述的方法,其还包括确定来自两种或更多种目标来源的DNA分子的比例。
[0044] 29.如实施方案28所述的方法,其中所述两种或更多种目标来源是组织。
[0045] 附图简述
[0046] 图1描绘位于DNA上的转录因子(TF)和核小体。
[0047] 图2A和2B描绘DNA保护和覆盖图。
[0048] 图3描绘CTCF转录因子(TF)结合位点周围的5'和3'侧翼区的覆盖图。
[0049] 图4描绘对照覆盖图。与图3中所示的CTCF覆盖图相比,所述对照覆盖图对应于向右偏移2000个碱基对的核苷酸位置。
[0050] 图5A-5D分别描绘CTCF、E2F1、GTF2F1和EBF1的覆盖图。
[0051] 图6A-6E描绘CTCF的五个不同覆盖图,其中所述五个覆盖图中的每个对应于不同数目的结合位点。
[0052] 图7A-7C分别描绘对应于转录因子CTCF、ARID3A和EBF1的图。在每幅图中,顶图描绘覆盖图,并且底图描绘对应频率变换。
[0053] 图8A-8C描绘分别示出SPI1、FOXM1和MAZ对结合至胎儿或母体来源的DNA分子的相对偏好的图表。
[0054] 图9示出描绘预测分数与y分数之间的相关性的图。
[0055] 发明详述
[0056] 本发明提供一种用于确定来自受试者的无细胞体液样品中存在的DNA分子群体中来自目标来源的DNA分子的存在的系统和方法。
[0057] 为了可充分理解本文描述的这些发明及其实施方案,阐述了以下详细描述。
[0058] 除非本文另外定义,否则本申请中使用的科学术语和技术术语将具有由本发明所属领域的普通技术人员通常所理解的含义。一般来说,与本文所述的细胞和组织培养、分子生物学、细胞生物学、癌症生物学、神经生物学、神经化学、病毒学、免疫学、微生物学、遗传学、蛋白质和核酸化学、化学以及药理学结合使用的命名以及其技术是本领域中熟知和通常使用的那些命名和技术。本文描述的本发明的每个实施方案可单独采用或与本发明的一个或多个其他实施方案组合使用。
[0059] 除非另外指出,否则本发明的方法和技术通常根据本领域中熟知和如在本申请中通篇引用且论述的各种通用和更具体的参考文献中所描述的分子生物学、细胞生物学、生物化学、微阵列和测序技术的方法来进行。参见例如,Motulsky,“Intuitive Biostatistics”,Oxford University Press,Inc.(1995);Lodish等人,“Molecular Cell Biology,4th ed.”,W.H.Freeman&Co.,New York(2000);Griffiths等人,“Introduction to Genetic Analysis,第7版”,W.H.Freeman&Co.,N.Y.(1999);Gilbert等人,
“Developmental Biology,第6版”,Sinauer Associates,Inc.,Sunderland,MA(2000)。
[0060] 本文中使用的化学术语根据本领域中的常规用法来使用,如由“The McGraw-Hill Dictionary of Chemical Terms”,Parker S.,Ed.,McGraw-Hill,San Francisco,C.A.(1985)所举例说明。
[0061] 所有以上内容以及本申请中提及的任何其他出版物、专利和公布的专利申请均以引用的方式明确地并入本文。如有矛盾,以包括其具体定义在内的本说明书为准。
[0062] 贯穿本说明书,词语“包括/包含(comprise)”或变化形式如“包括/包含(comprises)”或“包括/包含(comprising)”将被理解为暗示包括所陈述的整体(或组成部分)或整体(或组成部分)的组,但不排除任何其他整体(或组成部分)或整体(或组成部分)的组。
[0063] 除非上下文另外明确规定,否则单数形式“一个/种(a/an)”和“所述”包括复数。
[0064] 术语“包括”用于表示“包括但不限于”。“包括”和“包括但不限于”可互换使用。
[0065] 本领域的普通技术人员将理解,本文所述的组合物和方法可被改编和修改为适用于所讨论的应用,并且本文所述的组合物和方法可用于其他合适的应用,并且此类其他添加和修改将不脱离本发明的范围。
[0066] 从以下的实验细节将更好地理解这些发明及其实施方案。然而,本领域的技术人员将容易地理解,所论述的特定方法和结果仅说明本发明及其随后的实施方案。
[0067] 用于确定来自目标来源的DNA分子的存在的方法
[0068] 用于估计胎儿分数的目前方法是基于单核苷酸多态性(SNP)或者基于DNA片段。在基于SNP的技术中,胎儿分数是通过分析存在于循环无细胞胎儿(cff)DNA中的变体来确定,所述变体在胎儿中是杂合的并且在母体基因组中是纯合的。但是,这种方法要求在变体位点的非常高的覆盖率。相比之下,在基于片段的方法中,通过确定样品中DNA片段的长度的分布来估计胎儿分数。然而,这种方法需要长读段或配对末端测序或另一种测量片段长度分布的方法,并且不如单末端测序经济。
[0069] 这些发明的实施方案提供使用存在于DNA中的蛋白质结合位点确定胎儿分数的方法。除了可用于确定胎儿分数之外,这些方法还可更一般地用于确定来自受试者的无细胞体液样品中存在的DNA分子群体中来自目标来源的DNA分子的存在。由于某些序列周围的DNA排序,这种确定是可能的。所述排序在来自不同来源(例如不同组织)的DNA分子中是不同的,并且因此,检测某些序列周围的排序提供关于DNA的来源的信息。例如,核小体可在各种类型的序列周围变得有序,但是通常在染色质重建期间随着DNA解旋变得有序。例如,当转录因子与DNA结合时,周围的核小体在转录因子结合位点周围变得更有序。类似地,在核酸酶结合后核小体在核酸酶结合位点附近变得更有序。示例性核酸酶结合位点是DNA酶-I超敏性位点和MNA酶超敏性位点。
[0070] 一些实施方案提供一种用于确定来自受试者的无细胞体液样品中存在的DNA分子群体中来自目标来源的DNA分子的存在的方法,所述方法包括:
[0071] a)获得从来自所述受试者的无细胞体液样品中分离的DNA样品;
[0072] b)确定一种或多种蛋白质中的每种的多条蛋白质结合位点序列及其5'和3'侧翼区序列,其中所述一种或多种蛋白质中的至少一种差异地结合至不同来源的DNA分子;
[0073] c)比对所述一种或多种蛋白质中的每种的至少多条所述确定的蛋白质结合位点序列;
[0074] d)对在所述比对的蛋白质结合位点序列的每个5'和3'侧翼区序列内的每个核苷酸位置开始的测序读段的数目进行计数;
[0075] e)基于步骤d)的所述计数数目生成覆盖图;
[0076] f)对所述覆盖图进行滤波以鉴定所述覆盖图内的至少一个周期分量;
[0077] g)获得表示所述覆盖图内的所述至少一个周期分量的强度的度量;
[0078] 其中所述计算的度量指示来自所述目标来源的DNA分子的存在。
[0079] 获得样品和样品制备
[0080] 某些方面或实施方案包括获得含有来自受试者的DNA分子的无细胞体液样品(例如,无细胞血液样品)。如本文所用,术语“样品”是指通常源自生物流体、细胞、组织、器官或生物体的样品。它包含含有至少一条核酸序列的核酸或核酸的混合物。样品包括但不限于血液、全血、血液级分、尿液、粪便、唾液、淋巴液、脑脊髓液、滑液、囊液、腹、胸腔积液、从早期妊娠孕妇获得的液体、从中期妊娠孕妇获得的液体、从中期妊娠孕妇获得的液体、从晚期妊娠孕妇获得的液体、母体血液、绒毛膜绒毛样品、来自植入前胚胎的液体、母体尿液、母体唾液、胎盘样品、胎儿血液、灌洗液和宫颈阴道液、间质液、眼内液、痰液/口腔液、羊水或细针活组织检查样品(例如,手术活组织检查、细针手术活组织检查等)、腹膜液等。示例性血液样品包括但不限于血液样品,如全血样品、血清样品或血浆样品。无细胞样品可源自任何上述类型的样品。例如,无细胞血液样品可通过从全血样品中除去细胞而源自全血样品。无细胞血液样品包括但不限于血浆和血清样品。在替代实施方案中,样品可以是非血液样品的无细胞样品。此外,在某些方面或实施方案中,获得含有DNA分子的样品可包括例如从无细胞体液样品中提取或纯化DNA,或富集样品中的DNA。在一些实施方案中,在无细胞样品中仅特定位点可能是感兴趣的。在这些实施方案中,基于杂交的捕获方法可针对目标序列进行设计,并且待测序的DNA可通过首先将样品与捕获探针杂交、且然后回收用于测序的杂交材料来富集目标位点。
[0081] 如本文所用,术语“受试者”和“患者”是指任何动物,如狗、猫、家畜,并且特别是哺乳动物,并且优选人。
[0082] 尽管样品通常取自人受试者(例如,患者),但所述样品可取自任何哺乳动物,包括但不限于狗、猫、、山羊、绵羊、猪等。样品可如从生物来源获得后直接使用或在预处理以改变样品的特征之后使用。例如,这种预处理可包括从血液制备血浆、稀释粘性流体等。预处理方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的添加、裂解等。即使当相对于样品采用此类预处理方法时,一种或多种目标核酸或DNA分子仍保留在测试样品中,优选处于与未处理的测试样品(例如,即未经受任何这种一种或多种预处理方法的样品)中的浓度成比例的浓度。根据所使用的样品的类型,可使用包括但不限于超声处理、雾化、凝胶纯化、PCR纯化系统、核酸酶裂解、大小特异性捕获或排除、靶向捕获或这些方法的组合的加工方法进行额外的加工和/或纯化步骤来获得所需纯度或大小的核酸片段。
[0083] 在一些实施方案中,血液样品是来自孕妇。在其他实施方案中,来自目标来源的DNA分子是母体来源的DNA分子和胎儿来源的DNA分子。一些实施方案提供一种基于确定一种或多种DNA分子具有母体来源并且一种或多种分子具有胎儿来源而确定胎儿分数的方法。胎儿分数可基于度量(例如,计算的度量)来确定,如在下文更详细地描述。在一些实施方案中,来自目标来源的DNA分子是患病细胞的DNA分子和非患病细胞的DNA分子。在一些实施方案中,来自目标来源的DNA分子是第一组织的DNA分子和第二组织的DNA分子。在一些实施方案中,来自目标来源的DNA分子是第一组织来源的DNA分子和白细胞来源的DNA分子。某些实施方案提供一种用于检测使细胞或核酸(例如DNA)脱落到血液中的癌症(例如肝癌和/或淋巴瘤)的存在的方法。例如,血液中高比例的来自肝脏的DNA可指示存在肝癌。同样地,某些实施方案提供一种用于例如通过检测尿液中来自膀胱或肾脏的DNA分子来检测膀胱癌或肾癌的方法。
[0084] 此外,接受移植物(例如器官移植物)的受试者可在血液中具有增加水平的来自所述移植物的DNA分子,尤其是在所述移植物被身体排斥的情况下。因此,某些实施方案提供一种用于检测移植排斥的方法。某些实施方案还提供一种用于监测手术恢复、器官衰竭和/或组织坏死的方法。其他实施方案还提供一种用于例如通过检测血液中来自心脏的DNA分子来诊断心脏疾病的方法。
[0085] DNA组构
[0086] DNA在基因组的某些区域中组构(例如,围绕转录因子结合位点的染色质的组构)。围绕特异位点的这种组构不同于从不同来源获得的DNA(例如,来自不同组织的DNA将具有不同的组构模式)。因此,可使用围绕特异位点的DNA组构来确定DNA的来源。此外,因为DNA组构可随蛋白质与DNA的结合而变化,所以可使用来自不同目标来源的DNA分子之间的差异蛋白质结合来确定那些分子的来源。如本文所用,术语“核酸”、“核酸分子”和“DNA分子”涵盖DNA,例如基因组DNA。在一些实施方案中,DNA组构发生在蛋白质结合位点周围。因此,所述蛋白质结合位点将具有不同组构程度的5'和3'侧翼区。例如,5'和3'侧翼区可更靠近蛋白质结合位点组构,并且距蛋白质结合位点更远处更少组构。如本文所用,“蛋白质结合位点”是蛋白质所结合的DNA位点。在这些实施方案中有用的示例性蛋白质包括但不限于转录因子和核酸酶。当蛋白质结合位点是转录因子结合位点时,DNA组构可能是由于转录因子结合位点周围的核小体组构所致。参见例如图1,其描绘位于DNA上的转录因子(TF)和核小体。
然而,离转录因子结合位点越远,DNA可越少组构。不希望受理论束缚,这可能是因为核小体在DNA定位方面具有一定量的可变性。随着转录因子结合位点开放,核小体不再能够自由移动,且因此变得更加组构。核小体行进越远,所述核小体将具有越多自由来移动。此外,从一个DNA分子到下一个DNA分子的核小体定位将稍微变化。转录因子结合降低DNA分子之间的这种变异性。示例性转录因子包括CTCF和myc(也称为c-myc)。例如,myc结合位点可用作蛋白质结合位点以区分源自癌细胞的DNA分子和源自非癌细胞的DNA分子。
[0087] 在一些实施方案中,所述多条蛋白质结合位点序列包含至少500、至少1,000、至少1,500、至少2,000、至少3,000、至少4,000、至少5,000、至少10,000、至少20,000、至少30,
000、至少40,000、至少50,000、至少60,000、至少70,000、至少80,000、至少90,000、至少
100,000、至少110,000、至少120,000、至少130,000、至少140,000、至少150,000、至少160,
000、至少170,000、至少180,000、至少190,000、至少200,000、至少210,000、至少220,000、至少230,000、至少240,000、至少250,000、至少260,000、至少270,000、至少280,000、至少
290,000、至少300,000、至少310,000、至少320,000、至少330,000、至少340,000、至少350,
000、至少360,000、至少370,000、至少380,000、至少390,000、至少400,000、至少410,000、至少420,000、至少430,000、至少440,000、至少450,000、至少460,000、至少470,000、至少
480,000、至少490,000或至少500,000条蛋白质结合位点序列。
[0088] 在一些实施方案中,本文所述的方法包括确定一种或多种蛋白质中的每种的多条蛋白质结合位点序列及其5'和3'侧翼区序列,其中所述一种或多种蛋白质是两种蛋白质。在一些实施方案中,所述一种或多种蛋白质是三种蛋白质。在一些实施方案中,所述一种或多种蛋白质是四种蛋白质。在一些实施方案中,所述一种或多种蛋白质是五种蛋白质。在一些实施方案中,所述一种或多种蛋白质是6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或
21种或更多种蛋白质。
[0089] 在一些实施方案中,确定一种或多种蛋白质中的每种的多条蛋白质结合位点序列及其5'和3'侧翼区序列包括测序。如本文所用,术语“测序”在广义上使用并且可指本领域中已知的任何技术,所述技术允许鉴定核酸的至少一部分(包括但不限于延伸产物或载体插入片段的至少一部分)中的至少一些连续核苷酸的顺序。测序还可指允许检测核酸序列中的核苷酸碱基之间的差异的技术。示例性测序技术包括靶向测序、单分子实时测序、基于电子显微术的测序、晶体管介导的测序、直接测序、随机鸟枪测序、Sanger双脱终止测序、靶向测序、外显子测序、全基因组测序、杂交测序(例如在诸如微阵列的阵列中)、焦磷酸测序、毛细管电泳、凝胶电泳、双链体测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模平行鸟枪测序、乳液PCR、在较低变性温度-PCR下共扩增(COLD-PCR)、多重PCR、通过可逆染料终止子测序、配对末端测序、近期测序、外切核酸酶测序、连接法测序、短读测序、单分子测序、合成法测序、实时测序、反向终止子测序、离子半导体测序、纳米球测序、纳米孔测序、454测序、Solexa基因组分析仪测序、miSeq(Illumina)、HiSeq 2000(Illumina),HiSeq 2500(Illumina)、Illumina基因组分析仪(Illumina)、Ion Torrent PGMTM(Life Technologies)、MinIONTM(Oxford Nanopore Technologies)、实时SMRTTM技术(Pacific Biosciences)、探针-锚连接(cPALTM)(Complete Genomics/BGI)、 测序、MS-PET测序、质谱分析法以及其组合。在一些实施方案中,测序包括使用仪器来检测测序产物,所述仪器例如但不限于ABI  377DNA测序仪,ABI  310、3100、3100-Avant、3730或373OxI遗传分析仪,ABI  3700DNA分析仪或Applied Biosystems SOLiDTM
系统(均来自Applied Biosystems),基因组测序仪20系统(Roche Applied Science)或质谱仪。在某些实施方案中,测序包括乳液PCR。在某些实施方案中,测序包括高通量测序技术。在某些实施方案中,测序包括全基因组测序。在某些实施方案中,测序包括大规模平行测序(例如,大规模平行鸟枪测序)。在替代实施方案中,测序包括靶向测序。
[0090] 本文描述的方法和装置可替代地采用基于富集的技术来代替测序技术。
[0091] 在一些实施方案中,所述5'和3'侧翼区序列各自是至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1,000、至少1,100、至少1,200、至少1,300、至少1,400、至少1,500或至少2,000个碱基对。在某些实施方案中,所述5'和3'侧翼区序列各自是500至600个碱基对。在某些实施方案中,所述5'和3'侧翼区序列各自是少于1,
000个碱基对。在某些实施方案中,所述5'和3'侧翼区序列各自是500至1,000个碱基对。在某些实施方案中,本发明的方法中使用的5'和3'侧翼区序列具有相同的长度。在替代实施方案中,本发明的方法中使用的5'和3'侧翼区序列具有不同的长度。
[0092] 比对
[0093] 在一些实施方案中,在确定多条蛋白质结合位点序列及其5'和3'侧翼区序列之后,将所述一种或多种蛋白质中的每种的至少多条确定的蛋白质结合位点序列进行比对(例如,使用基因组参考序列)。通过比对至少确定的蛋白质结合位点序列,本领域技术人员将会理解,5'和3'侧翼区序列也可进行比对。尽管转录因子可具有许多结合位点,但这些位点的比对在本领域的技术范围内。在一些实施方案中,在蛋白质结合位点序列以及5'和3'序列比对之后,从所述比对中除去蛋白质结合位点序列,从而留下5'和3'序列。
[0094] 计数测序读段并生成覆盖图
[0095] 在一些实施方案中,在比对之后,对在所述比对的蛋白质结合位点序列的每条5'和3'侧翼区序列内的每个核苷酸位置处开始的测序读段的数目进行计数。然后使用这些计数来生成覆盖图,所述覆盖图表明在DNA分子中在每个核苷酸位置处开始的测序读段的数目。对在每个核苷酸位置处开始的测序读段的数目计数有助于指示DNA是如何组构的。例如,在转录因子结合位点周围,核小体将以规则的模式与DNA结合。在结合核小体的情况下,将保护DNA免于可能在血液中天然发生的降解,例如作为细胞凋亡或坏死的一部分,或作为将一种或多种DNA裂解酶引入样品中的结果。因此,覆盖图将显示与在结合核小体的区域(以及DNA受保护的区域)中相比,在核小体之间开始的更多读段(其中DNA是未受保护的)。参见例如,描绘DNA保护的图2A和2B以及描绘CTCF转录因子(TF)结合位点周围的5'和3'侧翼区的覆盖图的图3。
[0096] CTCF覆盖图具有强大的周期分量
[0097] 图3中的覆盖图描绘在来自孕妇的无细胞血液样品中观察到的强周期分量。通过使用在CTCF结合位点之前1000个碱基对开始(x轴上的位置0-999)(即,5'侧翼区域)且在CTCF结合位点之后1000个碱基对终止(x轴上的位置1000-1999)(即,3'侧翼区域)的每个位置处开始的测序读段的数目来产生覆盖图。CTCF结合位点本身从覆盖图中省略。强周期分量表明转录因子CTCF导致跨越多个CTCF位点的核小体与彼此之间良好定位或有序。换句话说,覆盖图中的局部最大值表明相对大量的测序读段开始于对应的核苷酸位置,并且覆盖图中的局部最小值指示相对低数量的测序读段开始于对应的核苷酸位置。大量的测序读段开始指示在对应的核苷酸位置缺乏核小体,并且少量的测序读段开始指示在对应的核苷酸位置存在核小体。因此,具有局部最大值和最小值的强周期分量表明核小体的位置在相同转录因子的不同位点上良好定位。
[0098] CTCF覆盖图中的周期分量被确定为强,其中图3的覆盖图中的49%的谱功率在目标频带内。如下文进一步详细描述的,目标频带可对应于核小体频带,并且可包括对应于130至250个碱基对的周期的频率。如本领域普通技术人员将理解的,此范围仅作为举例提供,并且可在不脱离本公开的范围的情况下使用对应于其他间隔的其他频带。
[0099] CTCF覆盖图进一步表明,周期分量朝向覆盖图的中心(水平轴上的位置500至1500)较强,而朝向覆盖图的最左侧和最右侧较弱。随着位置从结合位点进一步移动,周期性的强度下降表明核小体在其他位置的较差定位。
[0100] 测试周期性对蛋白质结合位点的特异性
[0101] 为了确定在CTCF覆盖图(图3)中观察到的周期信号是否对与CTCF对应的蛋白质结合位点特异,可生成对照覆盖图(图4)。对照覆盖图通过对在向右偏移2000个碱基对的核苷酸位置处开始的测序读段的数目计数来生成。换句话说,与图3中所示的CTCF覆盖图相比,图4中的对照覆盖图对应于向右偏移2000个碱基对的核苷酸位置。在对照覆盖图中,仅0.3%的谱功率在目标频带内(例如,对应于130-250个碱基对的周期)。图3中的CTCF覆盖图与图4中的对照覆盖图之间的鲜明对比表明,CTCF转录因子的结合导致CTCF结合位点附近的核小体跨不同的CTCF结合位点变得良好定位,而其他位点处的核小体定位较差。
[0102] 不同转录因子的覆盖图显示出不同程度的周期性
[0103] 针对各种转录因子生成覆盖图。图5A至5D中的四幅图描绘CTCF、E2F1、GTF2F1和EBF1的覆盖图。每幅图的横轴对应于侧翼区内的核苷酸位置,并且每幅图的纵轴对应于在每个核苷酸位置开始的测序读段的总计数的数目。横轴从0至2000变化,其中图的左半部分(例如从0到999)对应于5'侧翼区,并且图的右半部分(例如从1000到1999)对应于3'侧翼区。
[0104] 如可从图5A中的CTCF图中看出,覆盖图中存在强周期分量。如上所述,强周期分量表明转录因子CTCF导致跨越多个CTCF结合位点的核小体与彼此良好定位。
[0105] 相比之下,分别在图5B、5C和5D中所示的E2F1、GTF2F1和EBF1的三幅覆盖图显示没有明显周期性。在这三幅图中缺乏周期性表明(1)核小体的位置没有按照它们针对CTCF相同的方式组构,(2)没有足够的结合位点来充分鉴定周期性,或(3)两者。
[0106] 确定多少结合位点足以鉴定覆盖图中的周期性
[0107] 在一些实施方案中,少量的结合位点可能不会产生具有强可检测的周期性模式的覆盖图。然而,随着结合位点的数目增加,周期性模式(如果存在的话,例如,如果侧翼区内的核小体在相同转录因子的不同结合位点上良好定位)应该变得更加明显。为了确定将足以检测周期性模式的多个结合位点,生成五幅不同的覆盖图(图6A至6E中所示),其中五幅覆盖图中的每一幅对应于不同数目的结合位点。不是依靠主观分析来确定覆盖图中是否存在周期性,而是希望使用代表覆盖图中周期性的强度的定量度量。对于每幅覆盖图,测量目标频带(例如,对应于130-250个碱基对的周期)内的谱功率百分比。以下表1表明图6A至6E中所示的五幅图中的每幅的位点数目和对应的谱功率百分比。
[0108] 表1
[0109]
[0110] 可进行统计测试来确定谱功率百分比是否与预定的一组值有统计学差异,所述预定值可能在1%左右。如上所示和如上所述的结果指示足以鉴定覆盖图中的周期性模式的合适阈值数目的位点可在1,000个位点与10,000个位点之间。
[0111] 测量周期性
[0112] 在一些实施方案中,通过对覆盖图进行滤波来鉴定覆盖图的一个或多个周期分量,并且计算代表一个或多个周期分量的强度的度量。在一个实例中,覆盖图的滤波涉及获得(例如,通过计算)覆盖图的频率变换并且使用频率变换来计算度量。具体地说,所述度量可对应于信噪比,其中所述比率的分子对应于特定频带内的频率变换的功率,并且所述比率的分母对应于频率变换的总功率。换句话说,所述比率可对应于以下表达式:
[0113]
[0114] 其中F(w)对应于频率w的傅立叶系数(Fourier coefficient),a对应于频带的第一边缘,并且b对应于频带的第二边缘。在一个实例中,当频带是核小体频带时,a可以是与250个碱基对的周期对应的频率,并且b可以是与130个碱基对的周期对应的频率。上述表达式中的分子是特定目标频带内的频率变换或谱功率的积分。以这种方式,所述分子指示在对应于频带的周期处覆盖图内的周期性。上述表达式中的分母是所有频率上的频率变换的积分,并且代表覆盖图的总功率。
[0115] 在一些实施方案中,覆盖图可在计算其频率变换之前进行预处理。在一个实例中,覆盖图可被处理以(1)计算覆盖图的平均值和(2)从覆盖图中减去所述平均值。通过强制覆盖图以零为中心,这确保了频率转换没有DC分量。或者,如果覆盖图不是以零为中心,则可在获得(例如通过计算)度量或确定覆盖图的一个或多个周期分量的强度之前除去频率变换的DC分量。
[0116] 三幅图7A至7C中的每幅都是针对特定的转录因子(CTCF、ARID3A和EBF1)的。在每幅图中,顶图描绘覆盖图并且底图描绘对应的频率变换,其中幅度以对数刻度作图,并且横轴对应于频率。每幅底图还包括指示目标频带的两条垂直线(例如,对应于“a”或左侧红线的250个碱基对,以及对应于“b”或右侧红线的130个碱基对)。以下表2指示三种转录因子中的每种的谱功率百分比(例如,如上文定义的比率)。
[0117] 表2
[0118]转录因子 谱功率百分比
CTCF 29%
ARID3A 9%
EBF1 2%
[0119] 虽然计算频率变换和测量特定频带内的谱变换的功率是测量覆盖图中的周期性的一种方式,但是可以许多其他方式中的任一种测量周期性。例如,不是在频率域中执行测量,而是可通过在空间域中将覆盖图与带通滤波器卷积来在空间域中执行等效分析。可通过将卷积后得到的波形的功率除以未卷积的覆盖图的功率来计算与上述比率相似的度量。在另一个实例中,可通过使用匹配滤波器、加博滤波器、小波分析或能够鉴定信号中的一个或多个周期分量的任何其他分析来计算覆盖图的周期性的强度。
[0120] 周期强度较弱,但与y分数显著相关
[0121] 在一些实施方案中,相关转录因子是与具有不同来源的DNA分子差异结合的转录因子。作为一个实例,可能需要鉴定胎儿DNA分数,其是样品中胎儿DNA的百分比。来自孕妇的血液样品可包括母体来源的DNA分子和胎儿来源的DNA分子。然后可使用差异地结合至母体对比胎儿来源的DNA分子的转录因子来确定样品的来源。普通技术人员将理解,本公开不限于区分母体组织和胎儿组织,并且还适用于区分其他类型的组织,如肿瘤对比非肿瘤、患病对比未患病、宿主对比非宿主(用于器官移植或其他外源性来源)以及淋巴细胞对比非淋巴细胞组织。
[0122] 在一个实例中,转录因子可优先结合至母体来源的DNA分子,并且可不优先结合至胎儿来源的DNA分子。胎盘组织可用作胎儿组织的替代物,而来自免疫系统的组织可用作母体组织的替代物。通常,来自孕妇的血液样品中2%至20%的循环无细胞DNA来自胎盘。图8A中图表中的条形的长度表明SPI1与各种类型的组织结合的相对优选性,并且表明与胎儿来源的那些DNA分子相比,SPI1优先结合至母体来源的DNA分子。
[0123] 对于各种转录因子可进行相同的分析。图8B表明,与母体(即免疫系统)来源相比,FOXM1优先结合至胎儿(即,胎盘)来源的DNA分子。
[0124] 其他转录因子可能不会差异地结合至胎儿或母体来源的DNA分子。图8C表明,与母体(即免疫系统)来源相比,MAZ不优先结合至胎儿(即,胎盘)来源的DNA分子。
[0125] 上述观察可用于鉴定以下转录因子,(1)与胎儿来源的那些DNA分子相比,优先结合至母体来源的DNA分子,如SPI1;(2)与母体来源的那些DNA分子相比,优先结合至胎儿来源的DNA分子,如FOXM1;或(3)不优先结合至母体或胎儿来源的DNA分子,如MAZ。
[0126] 如上所述,覆盖图中的周期性的强度表示转录因子结合的强度。血液样品取自怀有男性胎儿的女性。在这种情况下,Y分数可用作胎儿分数的替代物,并且将覆盖图中的周期性的强度与从样本中测量的Y分数进行比较。以下回归分析表明周期性强度与y分数之间的较弱但高度显著(p值分别为7E-7、5E-6、1E-5)的相关性。与Y分数具有显著相关性的转录因子至少包括SPI1、FOXM1、MAZ、CTCFL、ARID3A、CTCF以及CNF143。如图9中所示,x轴代表如通过血浆级分中Y染色体物质的量预测的胎儿分数。Y轴表示预测的分数。每幅图代表交叉验证分析中的一个训练/测试分割,其中数据分为六个部分。第一部分用于评估在其他五个部分上训练的模型,然后第二部分用于评估在第1部分和第3至6部分上训练的模型,依此类推,直到六个部分中的每一部分都被用来评估在剩余数据上训练的模型。每幅图显示模型在不同组测试数据上的性能。存在六幅图,因为存在六个分割,且因此存六个测试组。类似地,胎儿分数可通过累积例如具有已知组成胎儿分数的样品的训练数据并且将模型拟合至数据来计算。这个模型可用来预测新样品的分数。示例性模型包括但不限于回归模型。示例性回归模型包括但不限于多变量回归,诸如最小二乘回归。这些数据表明,通过发现标记与DNA来源之间的相关性,可使用DNA足够来确定DNA的来源。在某些实施方案中,数据库可用于发现在本发明的实施方案中有用的蛋白质结合位点。
[0127] 本公开的系统和方法与确定胎儿分数的现有方法相比具有若干优点。首先,本公开描述了基于单末端测序数据确定胎儿分数的方式,其比配对末端数据更便宜且更快。其次,当每种转录因子的许多结合位点被平均时,信噪比得到改善,并且本文描述的测量核小体定位强度的谱分析允许仍然成功地分析具有相对低覆盖率的数据。第三,本公开提供了可协调性。对于每种转录因子,基因组中可存在许多结合位点(达100,000)。所使用的特定组结合位点可针对特异性区别或预测任务中的高性能进行优化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈