使用经破碎的核苷酸的高通量多重测序确定基因拷贝数专利检索-自闭症谱系障碍心理学与精神病学专利检索查询-专利查询网

使用经破碎的核苷酸的高通量多重测序确定基因拷贝数

阅读：853发布：2020-07-06

专利汇可以提供使用经破碎的核苷酸的高通量多重测序确定基因拷贝数专利检索，专利查询，专利分析的服务。并且本发明提供了SMASH(短多重聚合序列同源性)，其是一种设计用于将多个独立的映射包含在每个读段中的技术。具体而言，本发明涉及一种组合物，所述组合物包含不同嵌合基因组核酸片段的第一混合物，其中所述混合物中的不同片段各自包含随机连接的DNA区段，其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子，由单个基因组的随机片段化产生。本发明还涉及产生所述组合物的方法和所述组合物用于获得诸如拷贝数变异的基因组信息的用途。，下面是使用经破碎的核苷酸的高通量多重测序确定基因拷贝数专利的具体信息内容。

权利要求

1.组合物，其包含不同嵌合基因组核酸片段的第一混合物，其中所述混合物中的每个不同片段包含随机连接的DNA区段，其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子，由单个基因组的随机片段化产生。
2.根据权利要求1所述的组合物，其中区段彼此直接连接以形成片段，
其中DNA区段的长度为约30-50个碱基对，和/或
其中片段中至少50％的区段的长度为约30-50个碱基对。
3.根据权利要求1-2中任一项所述的组合物，富集长度小于约1000个碱基对的嵌合基因组核酸片段，和/或富集长度为约250至约700个碱基对、优选400-500个碱基对的嵌合基因组核酸片段，和/或
其中所述混合物中至少50％的嵌合基因组核酸片段的长度为约250至约700个碱基对，优选400-500个碱基对。
4.根据权利要求1-3中任一项所述的组合物，其中所述不同嵌合基因组核酸片段的混合物包含至少1,000个不同片段、至少10,000个不同片段、至少100,000个不同片段。
5.根据权利要求1-4中任一项所述的组合物，其中所述不同嵌合基因组核酸片段的混合物包含由奇数个区段组成的片段，和/或
其中所述嵌合基因组核酸片段的混合物包含连接的区段，所述连接的区段的两个连接点形成除限制酶识别位点外的序列。
6.根据权利要求1-5中任一项所述的组合物，所述组合物还包含被连接至嵌合基因组核酸片段的末端的接头序列，优选地，其中所述被连接至嵌合基因组核酸片段末端的接头序列包含条形码，所述条形码鉴别片段的基因组来源，和/或
包含用于扩增的引物结合位点，更优选地，其中使所述组合物富集长度为约250至约
700个碱基对、优选400至500个碱基对的连接有接头序列的嵌合基因组核酸片段。
7.根据权利要求1-6中任一项所述的组合物，其包含经扩增的连接有接头序列的嵌合基因组核酸片段。
8.根据权利要求1-7中任一项所述的组合物，其还包含不同嵌合基因组核酸片段的第二混合物，其中片段的第二混合物从与第一混合物不同的基因组获得，
任选地，所述组合物包含不同嵌合基因组核酸片段的多种混合物的集合，其中所述集合中片段的每种混合物获自不同于集合中任何其他混合物的基因组，
其中嵌合基因组核酸片段的每种混合物包含具有测序接头的片段，所述测序接头包含仅连接至该种混合物内的片段的独特条形码，使得可以多元化混合物的所述集合。
9.获得权利要求1-8中任一项所述的来自单个基因组的不同嵌合基因组核酸片段的混合物的方法，其包括
i)对单个基因组进行随机片段化以获得来自所述基因组的随机区段；和
ii)对来自步骤(i)的区段进行连接以产生不同嵌合基因组核酸片段，
由此获得来自单个基因组的不同基因组核酸片段的混合物。
10.根据权利要求9所述的方法，其还包括在连接之前按尺寸选择长度约30-50个碱基对的区段的子集，和/或其中使用珠纯化来选择区段的子集。
11.根据权利要求9-10中任一项所述的方法，其中在步骤(i)中机械剪切基因组核酸以获得随机片段化的DNA区段，优选地，其中所述机械剪切是通过超声处理进行的，和/或所述方法还包括对基因组核酸的区段进行酶促消化，所述酶促消化优选通过限制酶CvikI-1和NlaIII进行。
12.根据权利要求9-11中任一项所述的方法，其中在步骤(i)中，通过以下操作酶促片段化基因组核酸：
a)在基因组中产生随机DNA切口；和
b)切割切口对面的DNA链，
从而在基因组核酸中产生dsDNA断裂，得到DNA区段。
13.根据权利要求9-12中任一项所述的方法，其中所得DNA区段在基因组片段化后直接被末端修复，和/或其中嵌合基因组核酸片段在通过随机的区段连接形成后被末端修复。
14.根据权利要求9-13中任一项所述的方法，其还包括减小嵌合基因组核酸片段的尺寸，
其还包括选择长度约250至约700个碱基对的片段，
其还包括任选地通过珠纯化来纯化嵌合基因组核酸片段，
其还包括将嵌合基因组核酸片段的3'末端腺苷酸化，
其还包括将测序接头连接至嵌合基因组核酸片段，
其还包括任选地通过纯化来纯化连接有接头序列的基因组核酸片段，
其还包括选择长度约250至约700个碱基对的连接有接头序列的基因组核酸片段，其还包括扩增经尺寸选择的连接有接头序列的基因组核酸片段，和/或
其还包括将独特的条形码接头连接至来自相同基因组的嵌合基因组核酸片段的混合物，使得在合并来自不同基因组的多种混合物后可以进行多重测序。
15.根据权利要求9-14中任一项所述的方法，其中所述基因组核酸的初始量为约
200ng、500ng或1μg。
16.根据权利要求1-8中任一项所述的组合物或权利要求9-15中任一项所述的方法，其中基因组核酸是从细胞、组织、肿瘤、细胞系或血液中提取的。
17.根据权利要求9-16中任一项所述的方法，其中使用下一代测序平台从嵌合基因组核酸片段的混合物中获得序列。
18.获得权利要求1-8中任一项所述的组合物中不同嵌合基因组核酸片段的核酸序列或获得通过权利要求9-17所述的方法产生的不同嵌合基因组核酸片段的核酸序列的方法，所述方法包括(i)获得所述片段，和(ii)对所述片段进行测序，以获得所述不同嵌合基因组核酸片段的核酸序列。
19.通过权利要求18所述的方法获得的核酸序列信息。
20.从基因组获得基因组拷贝数信息的方法，其包括：
i)获得权利要求1-8中任一项所述组合物中不同嵌合基因组核酸片段的核酸序列，或获得通过权利要求9-18所述的方法产生的不同嵌合基因组核酸片段的核酸序列；
ii)鉴定经测序的嵌合基因组核酸片段内的最大几乎唯一匹配(MAM)并将其映射至基因组中；以及
iii)对分箱的基因组内映射的MAM的数量进行计数，从而获得基因组拷贝数信息。
21.根据权利要求20所述的方法，其中在步骤(ii)中，使用longMEM 软件包鉴定MAM，其中步骤(ii)还包括通过丢弃小于二十个碱基对并且不比唯一性所需的碱基对长至少四个碱基对的MAM来过滤MAM，和/或
其中步骤(ii)还包括通过丢弃在读段对图谱中距离彼此在10,000个碱基对之内的MAM来过滤MAM。
22.根据权利要求20-21中任一项所述的方法，其中在步骤(iii)中，在基因组分箱尺寸中计数映射的读段的数量，对于参考样品而言，所述基因组分箱尺寸产生相同的映射序列计数，
其中在步骤(iii)中，在凭经验确定的基因组分箱中计数映射的读段的数量，所述凭经验确定的基因组分箱具有相同的参考物观察结果，
其中在步骤(iii)中，在具有预期的相同密度的基因组分箱中计数映射的读段的数量，其中在步骤(iii)中，针对GC偏好通过LOESS归一化调整每个分箱中映射读段的数量，其中在步骤(iii)中，利用模板分析来降低经GC调整的分箱计数数据中的系统噪声，其中在步骤(iii)中，通过将经GC调整的分箱比率除以标准样品分箱比率来将参考物归一化应用于分箱计数数据，
其中在步骤(iii)中，通过循环二元分段分析参考物归一化的经GC调整的分箱计数数据，和/或
其中在步骤(iii)中，参考物映射序列的总数与样品映射序列的总数相匹配。
23.通过权利要求20-22中任一项所述的方法获得的基因组拷贝数信息。
24.一种诊断、预测表现出产前障碍、儿童障碍、发育障碍、心理障碍、自身免疫障碍、癌症、先天性心脏病、精神分裂、自闭症谱系障碍或患者对治疗的反应的可能性或确定遗传上产前障碍、儿童障碍、发育障碍、心理障碍、自身免疫障碍、癌症、先天性心脏病、精神分裂、自闭症谱系障碍或患者对治疗的反应的可能性的方法，所述方法包括获得所述患者的权利要求23所述的基因组拷贝数信息。
25.一种治疗患者的方法，所述方法包括获得所述患者的权利要求23所述的基因组拷贝数信息，并且根据所述患者的基因组拷贝数信息治疗所述患者。
26.患者的权利要求23所述的基因组拷贝数信息在根据所述患者的基因组拷贝数信息治疗所述患者或开发用于所述患者的治疗中的用途。
27.患者的权利要求23所述的基因组拷贝数信息，其用于根据所述患者的基因组拷贝数信息治疗所述患者或开发用于所述患者的治疗。

说明书全文

使用经破碎的核苷酸的高通量多重测序确定基因拷贝数

[0001] 本申请要求于2016年2月5日提交的第62/292,151号美国临时申请、于2015年11月3日提交的第62/250,405号美国临时申请以及于2015年9月8日提交的第62/215,540号美国临时申请的优先权，它们的内容通过引用并入本文。

[0002] 在本申请全文中，引用了各种出版物，包括在括号中引用的那些。对在括号中引用的出版物的完整引用可以在权利要求书之前的说明书末尾找到。所有引用的出版物的公开内容全部通过引用并入到本申请中，以更全面地描述本发明所属领域的状态。

背景技术

[0003] 在基因组尺度上分析拷贝数变异体(CNV)可用于评估癌症进展和鉴定先天性遗传异常。CNV通常通过微阵列杂交鉴定，但也可以通过下一代测序(NGS)检测(Alkan等，2009；Sudmant等，2010)。这通常使用测量映射(mapping)到特定区域的序列读段(reads)的数量的算法来完成。因此，基于序列的拷贝数方法的分辨率在很大程度上取决于独立映射的数量。

[0004] 下一代测序技术目前的趋势是增加每单位成本读取的碱基数量。这通过增加流动池中每条泳道的序列读段总数以及增加每个读段中的碱基数来完成。由于拷贝数测定方法的准确性是由独立读段的数量决定的，增加的序列读段长度不会提高拷贝数分析的分辨率。大部分基因组被短的读段很好地映射，短的读段大约25-30个碱基对(bp)。目前，高通量测序仪正在产生约150bp的读段长度，远远超过了满足唯一映射所需的读段长度。

发明内容

[0005] 为了利用不断增加的读段长度，SMASH(短多重聚合序列同源性，Short Multiply Aggregated Sequence Homologies)被开发为优化用于将多个独立映射包含在每个读段中的技术。这是通过将基因组DNA破碎成小但仍可映射的区段来实现的，区段平均长度为约40bp。将这些小的区段组合成长度适合于产生NGS文库(300-700bp)的DNA嵌合片段。

[0006] 使用具有时效性的内存密集型映射算法处理由SMASH产生的嵌合序列读段，该算法将长的片段读段保守划分为组成型区段映射序列(map)。在下游拷贝数分析中以与使用读段映射序列相同的方式使用该区段映射序列。对于150-bp双末端读段，目前为止最具成本效益的测序平台的全基因组测序(WGS)平均数小于每读段对一个映射序列，而SMASH平均数>4。SMASH映射序列的质量，即由样品制备、序列仪和映射偏差引入的不一致性，与WGS映射所观察到的不一致性具有相同的数量级。使用对WGS数据最有利的修正和测试方案时，基于映射的SMASH被证明能以WGS几分之一的成本产生与WGS具有几乎同等质量的拷贝数据。附图说明

[0007] 图1.SMASH方法和尺寸分析的示意图。

[0008] A)以黑色、白色和方格框显示的三种代表性的基因组DNA分子来源于不同染色体或同一染色体相隔较远的区域。B)通过超声处理和限制酶切割，这些分子被片段化成平均长度为40-50bp的短双链DNA区段，如右侧的生物分析仪结果所示。C)然后将这些短的DNA区段部分地末端修复并组合成长度为50bp-7kb的更长的DNA片段。因此，每个所得的嵌合DNA片段含有来自不同位置的短DNA区段(如上述不同的框类型所示)。D)将这些DNA片段连接到含有样品条形码的测序接头上，所述测序接头以虚线和垂直条纹框表示，“条形码”框指示样品条形码。E)进行尺寸选择以富集尺寸为250-700bp的DNA片段，这在生物分析仪中得到证实。F)在最终的PCR后，文库准备好用于测序。

[0009] 图2.SMASH信息管线。

[0010] 图A显示将读段对分解成一组最大唯一可映射区段。与箭头所示的映射序列相比，其他映射序列满足“20,4”规则(请参见正文)并且被视为可计数的映射序列。图B显示一段染色体5，其中选择了分箱边界以使每个分箱的精确匹配数与来自参考基因组所有50-聚体(50-mer)的精确匹配数相同。将重复读段排除在外，每个分箱中存在的“20,4”可映射区段的数量在图C中计数。针对样品特有的GC偏好，使用LOESS归一化来调整分箱计数(图D)。最后，在图E中，使用对GC归一化的数据进行的循环二进制分段(CBS)分割数据。

[0011] 图3.SSC quad的SMASH和WGS拷贝数f分布图(profile)。

[0012] 图A显示家族中四个成员的全基因组图(常染色体和X染色体)。点显示WGS和SMASH的参考物和GC归一化的比率值。类似地，重叠线显示WBS和SMASH中通过CBS(循环二进制分段)进行的拷贝数分割。黑框突出显示在B图中放大示出的染色体5上的缺失。通过两种方法鉴定的缺失发生在父亲中并且被传递给家族中的兄弟姐妹。图C显示来自WGS和SMASH的父亲的归一化比率值的分箱比较。暗点和亮点显示数据点中越来越稀疏的子样品。

[0013] 图4.SKBR3的SMASH和WGS拷贝数分布图。

[0014] SKBR3乳腺癌细胞系具有复杂的拷贝数模式。图A以对数标度显示带有拷贝数的全基因组视图。点显示WGS和SMASH的GC归一化的比率值，而重叠线显示WGS和SMASH的拷贝数分割。图B以线性标度放大14号染色体。整数拷贝数状态分割和区段平均值的分散在WGS和SMASH之间存在很强的一致性。图C显示用于分箱比较来自WGS和SMASH的归一化的比率值的分箱。暗点和亮点显示数据点中越来越稀疏的子样品以说明密度。

[0015] 图5.使用独立样品的SMASH方案的生物分析仪结果。

[0016] 按照图1的右图，我们示出了使用独立样品的SMASH方案的生物分析仪结果。用箭头表示下部(35bp)和上部标记(10.38kb)。在每个图中，十条曲线中的两条(蓝色和深绿色)显示质量差的DNA样品的结果。剩下的曲线质量很好。(A)DNA片段化后DNA分子的尺寸分布。蓝色和深绿色曲线显示比其余样品更宽的长度范围和更长的DNA区段平均长度。(B)随机连接DNA区段后，来自好样品的曲线显示DNA多联体的宽长度范围。(C)对于最终的DNA文库，来自好样品的曲线显示250bp-700bp的长度范围，非常适合测序。失败的文库主要显示测序接头二聚体，用星号突出显示。

[0017] 图6.替代的SMASH方法的示意图(左图)和生物分析仪结果(右图)。

[0018] 在生物分析仪结果中，x轴表示DNA区段的长度。(A)以黑色、白色和方格框显示的三种基因组DNA分子来自不同染色体或同一染色体的不同位置。(B)通过dsDNA片段化酶(fragmentase)切割，将这些DNA分子片段化成短的双链区段，平均长度为约35bp，如右图中的生物分析仪结果所示。(C)然后将这些短的DNA区段部分地末端修复并随机连接成长度为50bp-7kb的更长的DNA片段。因此，如上所述，每个DNA片段含有以上述的不同框类型示出的来自不同位置/染色体的几个短DNA区段。(D)将这些DNA片段与含有样品条形码的测序接头连接，以与以空心框表示的“条形码”连接的虚线和垂直条纹框表示。E)进行尺寸选择以获得具有250-700bp的合适尺寸的DNA片段，这在最终DNA文库的生物分析仪结果中得到证实。
F)在最终通过测序接头进行的PCR之后，文库准备好用于测序。

[0019] 图7.在SKBR3上比较SMASH2与WGS和SMASH。

[0020] 类似于图4，图A和B，显示新的SMASH方案与WGS和先前的SMASH方案的一致性。这三种方法之间有很好的一致性。

具体实施方式

[0021] SMASH将基因组DNA减小为小但仍然唯一可映射的区段，并将它们随机连接成长度适合于生成下一代测序(NGS)文库(400-500bp)的DNA嵌合片段。对这些文库进行测序得到可通过模板分析检测CNV的模式(Levy和Wigler，2014)。其重要性的关键在于其效率：SMASH可以在普通的NGS仪器上运行，并且产生为“标准”全基因组测序(WGS)的6倍或更多倍的映射序列。在能产生3亿个150-bp双末端读段的机器上，SMASH可以以约10kb的分辨率每个样品获得6000万个映射序列。

[0022] 具体而言，通过超声处理和/或酶促活性将基因组DNA切割(“破碎”)成小但可映射的区段，平均长度为约40bp，然后将区段连接成更长的DNA嵌合片段。第二个片段化步骤消除长的(>1kb)嵌合分子，并且纯化适于生成NGS文库的片段(例如400-500bp)。添加条形码测序接头以生成可在单个测序通道上多重测序的文库，这大大降低了每个患者的成本。为了从嵌合读段中获得映射信息，我们应用了算法和一组启发式方法。使用从sparseMEM改编的后缀数组(Khan等，2009)来确定NGS读段和参考基因组之间的“最大几乎唯一匹配”(MAM)。读段对内的映射为每个读段提供独特的签名，使得能够辨别和删除PCR重复。CNV检测基于映射序列-计数方法，采用具有预期的相同密度的分箱(Navin等，2011)。对于每个样品，我们计数每个分箱内的映射序列数量，然后通过LOESS归一化针对GC偏好调整分箱计数。利用模板分析(Levy和Wigler，2014年)来克服不同模式的系统噪音，所述系统噪音超出了GC调整的总体修正，其是WGS和SMASH读段所固有的。这些测量的结果能够与WGS同等地检测CNV。

[0023] 本发明提供了包含不同嵌合基因组核酸片段的第一混合物的组合物，其中混合物中的每个不同片段包含随机连接的DNA区段，其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子，由对单个基因组进行随机片段化产生。

[0024] 在一些实施方案中，其中区段彼此直接连接以形成片段。

[0025] 在一些实施方案中，其中DNA区段的长度为约30-50个碱基对。

[0026] 在一些实施方案中，其中片段中至少50％的区段的长度为约30-50个碱基对。

[0027] 在一些实施方案中，富集长度小于约1000个碱基对的嵌合基因组核酸片段。

[0028] 在一些实施方案中，富集长度约250至约700个碱基对、优选400-500个碱基对的嵌合基因组核酸片段。

[0029] 在一些实施方案中，其中混合物中至少50％的嵌合基因组核酸片段的长度为约250至约700个碱基对，优选400-500个碱基对。

[0030] 在一些实施方案中，其中不同嵌合基因组核酸片段的混合物包含至少1,000个不同的片段。

[0031] 在一些实施方案中，其中不同嵌合基因组核酸片段的混合物包含至少10,000个不同的片段。

[0032] 在一些实施方案中，其中不同嵌合基因组核酸片段的混合物包含至少100,000个不同的片段。

[0033] 在一些实施方案中，其中不同嵌合基因组核酸片段的混合物包含由奇数个区段组成的片段。

[0034] 在一些实施方案中，其中嵌合基因组核酸片段的混合物包含连接的区段，所述连接的区段的两个连接点形成除限制性酶识别位点之外的序列。

[0035] 在一些实施方案中，还包含连接至嵌合基因组核酸片段末端的接头序列。

[0036] 在一些实施方案中，连接到嵌合基因组核酸片段末端的接头序列包含鉴别片段的基因组来源的条形码。

[0037] 在一些实施方案中，连接至嵌合基因组核酸片段末端的接头序列包含用于扩增的引物结合位点。

[0038] 在一些实施方案中，富集长度为约250至约700个碱基对、优选400至500个碱基对的连接有接头序列的嵌合基因组核酸片段。

[0039] 在一些实施方案中，包含扩增的连接有接头序列的嵌合基因组核酸片段。这种扩增可以通过诸如PCR的方法来完成。用于完成该扩增步骤的引物结合可以位于连接的测序接头上。

[0040] 在一些实施方案中，还包含不同嵌合基因组核酸片段的第二混合物，其中片段的第二混合物从不同于第一混合物的基因组获得。

[0041] 在一些实施方案中，包含不同嵌合基因组核酸片段的多种混合物的集合，其中所述集合中片段的每种混合物获自不同于该集合中任何其他混合物的基因组。

[0042] 在一些实施方案中，其中嵌合基因组核酸片段的每种混合物包含具有测序接头的片段，所述测序接头含有仅连接到该种混合物内的片段的独特条形码，使得可以多元化混合物的集合。

[0043] 在一些实施方案中，其中基因组核酸是从细胞、组织、肿瘤、细胞系或血液中提取的。

[0044] 在一些实施方案中，获得来自单个基因组的不同嵌合基因组核酸片段的混合物的方法，所述方法包括：

[0045] i)对单个基因组进行随机片段化以获得来自所述基因组的随机区段；和

[0046] ii)对来自步骤(i)的区段进行连接以产生不同嵌合基因组核酸片段，

[0047] 由此获得来自单个基因组的不同基因组核酸片段的混合物。

[0048] 在一些实施方案中，还包括在连接之前按尺寸选择长度约30-50个碱基对的区段的子集。

[0049] 在一些实施方案中，使用珠纯化来选择区段的所述子集。

[0050] 在一些实施方案中，其中在步骤(i)中机械剪切基因组核酸以获得随机片段化的DNA区段。

[0051] 在一些实施方案，其中所述机械剪切是通过超声处理进行的。

[0052] 在一些实施方案，还包括对基因组核酸的区段进行酶促消化。

[0053] 在一些实施方案，对基因组核酸的区段进行酶促消化通过限制酶CvikI-1和NlaIII进行。

[0054] 在一些实施方案中，其中在步骤(i)中，基因组核酸通过以下步骤被酶促片段化：

[0055] a)在基因组中产生随机DNA切口；和

[0056] b)切割切口对面的DNA链，

[0057] 从而在基因组核酸中产生dsDNA断裂，得到DNA区段。

[0058] 在一些实施方案中，其中所得DNA区段在基因组片段化后直接被末端修复。

[0059] 在一些实施方案中，其中嵌合基因组核酸片段在通过随机的区段连接形成后被末端修复。

[0060] 在一些实施方案中，还包括减小嵌合基因组核酸片段的尺寸。

[0061] 在一些实施方案中，还包括选择长度约250至约700个碱基对的片段。

[0062] 在一些实施方案中，还包括纯化嵌合基因组核酸片段，任选地通过珠纯化。

[0063] 权利要求20-32中任一项所述的方法，还包括将嵌合基因组核酸片段的3'末端腺苷酸化。

[0064] 在一些实施方案中，还包括将测序接头连接至嵌合基因组核酸片段。

[0065] 在一些实施方案中，还包括任选地通过纯化来纯化连接有接头序列的基因组核酸片段。

[0066] 在一些实施方案中，还包括选择长度约250至约700个碱基对的连接有接头序列的基因组核酸片段。

[0067] 在一些实施方案中，还包括扩增按尺寸选择的连接有接头序列的基因组核酸片段。

[0068] 在一些实施方案中，还包括将独特的条形码接头连接至来自相同基因组的嵌合基因组核酸片段的混合物，使得在合并来自不同基因组的多种混合物后可以进行多重测序。

[0069] 在一些实施方案中，其中所述基因组核酸的初始量为约200ng、500ng或1μg。

[0070] 在一些实施方案中，其中基因组核酸是从细胞、组织、肿瘤、细胞系或血液中提取的。

[0071] 在一些实施方案中，其中使用下一代测序平台从嵌合基因组核酸片段的混合物中获得序列。

[0072] 在一些实施方案中，获得上述组合物中不同嵌合基因组核酸片段的核酸序列或获得通过上述方法产生不同嵌合基因组核酸片段的核酸序列的方法，所述方法包括(i)获得片段，和(ii)测序片段，以获得不同嵌合基因组核酸片段的核酸序列。

[0073] 在一些实施方案中，通过上述方法获得的核酸序列信息。

[0074] 在一些实施方案中，从基因组获得基因组拷贝数信息的方法，包括：

[0075] i)获得上述组合物中不同嵌合基因组核酸片段的核酸序列，或获得通过上述方法产生的不同嵌合基因组核酸片段的核酸序列；

[0076] ii)鉴定经测序的嵌合基因组核酸片段内的最大几乎唯一匹配(MAM)并将其映射到基因组中；以及

[0077] iii)对分箱的基因组内映射的MAM的数量进行计数，从而获得基因组拷贝数信息。

[0078] 在一些实施方案中，其中在步骤(ii)中，使用longMEM 软件包鉴定MAM。

[0079] 在一些实施方案中，其中步骤(ii)还包括通过丢弃小于二十个碱基对并且不比唯一性所需的碱基对长至少四个碱基对的MAM来过滤MAM。

[0080] 在一些实施方案中，其中步骤(ii)还包括通过丢弃在读段对图谱中距离彼此在10,000个碱基对之内的MAM来过滤MAM。

[0081] 在一些实施方案中，其中在步骤(iii)中，在基因组分箱尺寸中计数映射的读段的数量，对于参考样品而言，所述基因组分箱尺寸产生相同的映射序列计数。

[0082] 在一些实施方案中，其中在步骤(iii)中，在凭经验确定的基因组分箱中计数映射的读段的数量，所述凭经验确定的基因组分箱具有相同的参照物观察结果。

[0083] 在一些实施方案中，其中在步骤(iii)中，在具有预期的相同密度的基因组分箱中计数映射的读段的数量。

[0084] 在一些实施方案中，其中在步骤(iii)中，针对GC偏好通过LOESS归一化调整每个分箱中映射读段的数量。

[0085] 在一些实施方案中，其中在步骤(iii)中，利用模板分析来降低经GC调整的分箱计数数据中的系统噪声。

[0086] 在一些实施方案中，其中在步骤(iii)中，通过将经GC调整的分箱比率除以标准样品分箱比率来将参考物归一化应用于分箱计数数据。

[0087] 在一些实施方案中，其中在步骤(iii)中，通过循环二进制分割分析参考物归一化的经GC调整的分箱计数数据。

[0088] 在一些实施方案中，其中在步骤(iii)中，参考物映射序列的总数与样品映射序列的总数相匹配。

[0089] 在一些实施方案中，通过任一种上述的方法获得的基因组拷贝数信息。

[0090] 在一些实施方案中，一种诊断、预测表现出产前障碍、儿童障碍、发育障碍、心理障碍、自身免疫障碍、癌症、先天性心脏病、精神分裂、自闭症谱系障碍或患者对治疗的反应的可能性或确定遗传上产前障碍、儿童障碍、发育障碍、心理障碍、自身免疫障碍、癌症、先天性心脏病、精神分裂、自闭症谱系障碍或患者对治疗的反应的可能性的方法，包括获得患者的基因组拷贝数信息。

[0091] 在一些实施方案中，一种治疗患者的方法，包括获得患者的基因组拷贝数信息，并且根据患者的基因组拷贝数信息治疗患者。

[0092] 本发明还提供根据本发明获得的患者的基因组拷贝数信息在根据所述患者的基因组拷贝数信息治疗所述患者或开发用于所述患者的治疗中的用途。

[0093] 本发明还提供根据本发明获得的患者的基因组拷贝数信息，其用于根据所述患者的基因组拷贝数信息治疗所述患者或开发用于所述患者的治疗。

[0094] 本文公开的每个实施方案被视为适用于其他公开实施方案中的每一个。因此，本文描述的各种要素的所有组合都在本发明的范围内。

[0095] 术语

[0096] 除非另外定义，否则本文使用的所有技术术语和科学术语的含义都与本发明所属领域的普通技术人员所通常理解的含义相同。

[0097] 如本文所用，除非另有说明或上下文另有要求，否则以下术语中的每一个应具有如下所述的定义。

[0098] 如本文所用，在数值或范围的上下文中的“约”是指所记载或要求保护的数值或范围的±10％，除非上下文需要更窄的范围。

[0099] 术语“核酸分子”和“序列”在本文中不可互换使用。“序列”是指“核酸分子”的序列信息。

[0100] 术语“模板”、“核酸”和“核酸分子”在本文中可互换使用，并且各自指脱氧核糖核苷酸和/或核糖核苷酸的聚合物。“核酸”应意指任何核酸，包括但不限于DNA、RNA及它们的杂合体。形成核酸分子的核酸碱基可以是碱基A、C、G、T和U以及它们的衍生物。“基因组核酸”是指源自基因组的DNA，其可以从例如细胞、组织、肿瘤或血液中提取。

[0101] 如本文所用，术语“嵌合”是指由以随机顺序重新连接的核酸分子组成，所述核酸分子获自基因组内的随机基因座。在SMASH中，片段被认为是嵌合的，因为它是由随机连接的基因组区段组成的。

[0102] 如本文所用，术语“片段化”是指将大的核酸例如基因组DNA破碎成较小的核苷酸段(stretches)。片段化可以通过多种方法完成，包括但不限于超声处理和酶促活性。

[0103] 如本文所用，“重叠群”和“连续的”是指一组重叠的序列或序列读段。

[0104] 如本文所用，术语“扩增”是指合成与模板核酸的一条或两条链互补的核酸分子的过程。扩增核酸分子通常包括使模板核酸变性，在低于引物解链温度的温度下将引物退火至模板核酸，并从引物开始酶促延伸以产生扩增产物。变性、退火和延伸步骤均可以进行一次。然而，通常多次进行变性、退火和延伸步骤(例如聚合酶链式反应(PCR))，使得扩增产物的量不断增加，通常按指数规律倍增，尽管本方法不需要指数扩增。扩增通常需要存在脱氧核糖核苷三磷酸、DNA聚合酶和用以获得聚合酶的最佳活性的合适缓冲液和/或辅因子。术语“扩增的核酸分子”是指从扩增过程产生的核酸分子。

[0105] 如本文所用，术语“映射”是指鉴定基因组或cDNA文库上具有与查询序列基本上相同或基本上完全互补的序列的唯一位置。包含能够被映射的序列的核酸分子被认为是“可映射的”。核酸分子可以是但不限于以下：基因组材料的区段、cDNA、mRNA或cDNA的区段。

[0106] 如本文所用，术语“读段”或“序列读段”是指已通过任何测序方法产生的核酸的核苷酸或碱基序列信息。因此读段对应于从核酸片段的一条链获得的序列信息。例如，在单个反应中从一条链产生序列的DNA片段将产生单个读段。然而，如果测序项目中存在该DNA片段的多个拷贝，或者该链已被多次测序，则可以产生相同DNA链的多个读段。因此读段对应于特定测序反应的嘌呤或嘧啶碱基识别或序列测定。

[0107] 如本文所用，术语“测序”或“获得序列”是指足以鉴定或表征核酸分子的核苷酸序列信息，并且可以是核酸分子的全长序列信息或仅部分序列。

[0108] 如本文所用，术语“参考基因组”是指与正在被分析的序列信息未知的基因组具有相同物种的基因组。

[0109] 如本文所用，术语“基因组区域”是指包含多个离散位置的连续基因组序列。

[0110] 如本文所用，术语“样品标签”是指具有不超过1000个核苷酸以及不少于两个核苷酸(其可以共价连接至多个标记的核酸分子或标记的试剂分子中的每个成员)的序列的核酸。“样品标签”可以包括“标签”部分。

[0111] 如本文所用，术语基因组材料的“区段”是指由基因组DNA的随机片段化产生的可映射核酸分子。SMASH片段中的区段的长度为约30-50个碱基对，例如可以具有27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个碱基对的长度。

[0112] 如本文所用，术语“片段”是指由多个DNA区段连接产生的嵌合DNA分子。因此，如本文所用，“片段”包含至少一个且通常多于一个的“区段”，优选2、3、4、5、6、7、8、9或10个区段。尽管本文描述的方法提供具有高度一致的长度的区段，但片段可包含长度在优选的30-50个碱基对范围之外的区段。

[0113] 如本文所用，术语“测序文库”是指包含来自单一生物体的全基因组DNA的DNA片段混合物，其用于测序。下一代测序文库通常是按尺寸选择的，并且在测序之前连接至测序接头。下一代测序文库制备步骤可包括片段化、末端修复、腺苷酸化、测序接头连接和PCR富集。也可以在下一代测序文库制备的整个过程中进行多个纯化和尺寸选择步骤。具体而言，“SMASH文库”是指一类测序文库，其由来自单一生物体的基因组DNA片段的混合物组成，其中所述片段是嵌合核酸分子，所述嵌合核酸分子由较小的、可映射的、随机连接的基因组DNA区段构成。

[0114] 如本文所用，术语“连接”是指两个核酸分子的酶促连接。具体而言，SMASH片段由随机连接的DNA区段组成。在这种情况下，随机连接意味着任一区段与任一其他区段直接连接的概率相等。

[0115] 如本文所用，术语“测序接头”是指在测序文库中与每个DNA片段的5’和3’末端结合的寡核苷酸。接头含有允许扩增片段的平台依赖性序列以及引发测序反应的序列。接头还可包含独一无二的序列，称为条形码或索引，其用于识别每个片段的样品来源。接头可包含用作其他酶促反应(例如通过PCR扩增)的引物结合位点的区域。

[0116] 如本文所用，术语“条形码”，也称为“索引”是指测序接头内用于识别每个片段的样品来源的独一无二的DNA序列。

[0117] 如本文所用，术语“多重”是指将条形码分配给来自单个基因组来源的片段的每种混合物，合并或以其他方式混合多种片段混合物，在单次测序运行中对整个混合物集合进行测序，随后通过读段的条形码分类并鉴定每个序列读段的基因组来源。

[0118] 如本文所用，“基本上相同”的序列分别与核苷酸序列具有至少约80％的序列同一性或互补性。基本上相同的序列或者可以分别具有至少约95％、96％、97％、98％、99％或100％的序列同一性或互补性。

[0119] 如本文所用，术语“基本上独一无二的引物”是指多个引物，其中每个引物包含标签，并且其中多个引物中至少50％的标签是独一无二的。优选地，标签是至少60％、70％、80％、90％或100％独一无二的标签。

[0120] 如本文所用，术语“基本上独一无二的标签”是指多个标签中的标签，其中多个标签中的至少50％的标签对于所述多个标签而言是独一无二的。优选地，基本上独一无二的标签是至少60％、70％、80％、90％或100％独一无二的标签。

[0121] 如本文所用，术语“标签”是指具有不超过1000个核苷酸以及不小于2个核苷酸(其可以共价连接至核酸分子或试剂分子)的序列的核酸。标签可以包含接头或引物的一部分。

[0122] 如本文所用，“标记的核酸分子”是指共价连接至“标签”的核酸分子。

[0123] 在提供数值范围的情况下，应该理解的是，除非上下文另有明确规定，否则在该范围的上限和下限之间的每个中间值，至下限单位的十分之一，以及在所描述的范围内的任何其他设定值或中间值，均包含在本发明内。这些较小范围的上限和下限可以独立地包含在较小的范围内，并且也包含在本发明内，而且受限于所描述的范围内任何特别排除的限值。在所描述的范围包括一个或两个限值的情况下，将那些被包含的限值中的一个或两个排除在外的范围也包含在本发明中。

[0124] 本文提及的所有出版物和其他参考文献通过引用整体并入本文，就如同具体地和单独地指明每个单独的出版物或参考文献通过引用并入本文一样。并不承认本文引用的出版物和参考文献为现有技术。

[0125] 通过参考下面的实验细节将会更好地理解本发明，但是本领域技术人员将容易地认识到，所详细描述的具体实验仅仅是对在随后的权利要求中限定的本发明的说明。

[0126] 实验细节

[0127] 下面提供了一些实施例以便于更全面地理解本发明。以下实施例举例说明了完成和实践本发明的示例性模式。然而，本发明的范围不限于这些实施例中公开的具体实施方案，这些实施例仅用于说明的目的。

[0128] 方法-DNA材料

[0129] 本实施例中使用的DNA样品来自两个来源。基因组DNA的一个来源提取自人乳腺癌细胞系SKBR3。另一个来源提取自两个家族的血液，所述两个家族来自Simons Simplex Collection(SSC)，样品和数据来自母亲、父亲、先证者和未患病的兄弟姐妹(Fischbach和Lord，2010)。

[0130] 方法-SMASH方案

[0131] SMASH所需的基因组DNA的数量是灵活的。对三种不同的基因组DNA输入-200ng、500ng和lμg-进行了测试，并在所有三种条件下成功构建了高质量文库。在该实施例中，1μg DNA被用作所有样品的起始材料。将DNA在1x Tris缓冲液(10mM Tris-Cl，pH 8.5)中稀释至
75μl的终体积，并转移至微管(Covaris)。根据制造商的手册，使用Covaris E210AFA仪器(Covaris)将基因组DNA剪切成平均长度为100bp的区段。在以90μl终体积在1×CutSmart缓冲液中用CvikI-1(NEB)和NlaIII(NEB)进一步切割DNA区段，将DNA区段在37℃下孵育1小时。酶消化后，用Savant SpeedVac(Thermo Scientific)将溶液体积减小至约30μl。如下移除长于100bp的DNA区段：加入2.5×体积的AMPure XP珠子(Beckman Coulter)，充分混合，在室温(RT)下孵育5分钟，并收集上清液。按照制造商的说明书，通过QIAquick核苷酸去除试剂盒(Qiagen)纯化上清液。DNA区段在30μl H2O中洗脱。通过生物分析仪2100(Agilent Technologies)测定，DNA区段的平均长度为40-50bp。通过T4DNA聚合酶(NEB)、DNA聚合酶I(大Klenow片段，NEB)和T4多核苷酸激酶(NEB)在室温下对这些DNA区段进行末端修复，持续
30分钟。将修饰的DNA区段通过QIAquick核苷酸去除试剂盒(Qiagen)纯化，用30μl H2O洗脱。使用快速连接试剂盒(NEB)在室温下将短的DNA区段随机连接15分钟以形成更长的嵌合DNA片段。使用1.6×AMPure XP珠纯化长的DNA嵌合片段，并如前所述进行末端修复。用Klenow片段(3’→5’外切，NEB)在37℃下将单个“A”核苷酸添加至修饰的DNA区段的3’末端，持续30分钟。用1.6×AMPure XP珠子进行纯化之后，通过快速连接将带有条形码的测序接头[Iossifov等人，2012，Neuron]连接至DNA片段。这允许在测序通道上使用多重样品。通过
1.6×AMPure XP珠子再次纯化DNA片段，并在50μl H2O中洗脱。进行尺寸选择步骤以富集在理想的Illumina测序长度范围300-700bp内的DNA片段。首先，将0.6×(30μl)AMPure XP珠子加入到50μl纯化的DNA中。在室温下孵育5分钟后，收集上清液。加入8μl(0.16×初始50μl)的AMPure XP珠子，并与上清液充分混合。该混合物在室温下孵育5分钟。用180μl 80％乙醇洗涤2次后，将DNA片段在30μl H2O中洗脱。使用Illumina测序接头在具有HF缓冲液(NEB)的1× 高保真PCR Master Mix中对该DNA进行最后的8个循环的PCR扩增。DNA文库
在生物分析仪上定量并稀释至10nM的浓度。对于从SSC家族制备的文库，在HiSeq 2000(双末端100bp，Illumina)上进行测序，对于从SKBR3细胞系制备的文库，在NextSeq 500(双末端150bp，Illumina)上进行测序。

[0132] 方法-测定映射序列

[0133] 将WGS和SMASH数据映射至GATK b37基因组。对于WGS，将读段1缩短至76bp，使用Bowtiel进行映射，然后使用Samtool过滤掉重复。对于SMASH(在下面描述的映射过程之后)，利用每个读段对的多个-MAM签名过滤掉重复。对于这两种方法，只有至染色体1-22、X和Y的唯一映射才被分箱计数。

[0134] 为了准备映射SMASH数据，修改sparseMEM包(Khan等，2009)以将最大基因组尺寸从2.147×109个碱基增加至基本上无限的值，并且去除稀疏(sparse)功能以提高程序速度并降低复杂性。添加特征以1)将各种后缀数组索引结构保存到磁盘；2)将其读入以使用内存映射进行后续的运行；3)将读段分配至并行查询线程以避免对输入的多次解析；和4)并行读取多个查询文件。还添加了选项以读取来自FASTQ和SAM文件的输入数据，以SAM和自定义二进制格式输出映射和非映射读段，并同时映射至基因组及其反向互补物以避免最大精确匹配(MEM)修剪步骤。最终的软件包被称为longMEM，因为它能够处理更长的基因组。

[0135] 我们使用longMEM搜索最大几乎唯一匹配(MAM)，它们是查询读段中最大程度延伸的子序列，这些子序列在参考物及其反向补充物中唯一匹配，但可能在查询中重复。对于长度为Q的查询读段和长度为R的参考物，我们使用参考物、后缀数组、其倒数和LCP(最长共同前缀)表在O(Q*(Q+log(R)))时间内发现查询中的所有MAM。

[0136] 组成SMASH读段的大多数区段产生适用于拷贝数分析的MAM。例外的是由于阻塞读取错误或突变而不存在于参考物中的区段，以及那些因为太短而无法唯一映射至其原点的区段。除了可接受的MAM之外，SMASH中相邻区段之间的连接有时会导致发现一个或多个MEM。如果这些MAM在参考物中是唯一的，则它们被报告为错误MAM。

[0137] MAM通过丢弃小于20bp并且不比唯一性所需的长度长至少4个碱基的MAM而进行过滤。假定为随机基因组并且忽略限制酶的使用，这理想地将错误MAM污染降低至1/44。由于基因组中最小可映射长度的模式为18bp，平均长度为29bp，并且区段长度通常为40bp，因此认为过滤器并不会大大减少所报告的真实MAM的数量。另外的过滤器通过确保读段对图谱中没有一个保留的MAM距另一个MAM 10,000bp内而将我们的MAM转变为MUM，这避免了对包含插入缺失标记或SNP的区段以及来自短嵌合片段两端的MAM读段的重复计数。

[0138] 方法-分箱、归一化和拷贝数

[0139] 如下将染色体1-22、X和Y分别划分为50,000、100,000和500,000个WGS优化的分箱：使用Bowtiel对参考物中的每个50-聚体进行映射并调整分箱边界，使得每个分箱具有相同数目的分配给其的唯一映射读段(±1)。

[0140] 从SSC WGS和SMASH数据分配相同数量的映射至分箱，并在每个总数上增加一个计数。计数被归一化以将所有常染色体分箱的平均值设为1，然后在归一化的常染色体上进行LOESS以修正GC位点密度。在样品之间进行二进制求和后，根据向上偏离染色体中值的拷贝数偏差(该偏差超出基于MAD的限值)，使用为0.05的Bonferroni修正的p值选择坏的分箱。

[0141] 将SSC和SKBR3映射以每个分箱20、50、100和多达1,000个(如果可用的话)映射取样，并且将它们分配给分箱，在这种情况下，排除标记为坏的的分箱。将基于全分箱(bin-wise)在每分箱低映射序列数下的样品计数除以使用每分箱最高映射序列数的非相关雄性参考样品。将比率数据归一化并进行GC校正，然后使用CBS分割，其中最小区段长度和α参数分别设置为3和0.02。通过改变总规模和预期范围内的偏移来调整分割的图谱从而找到最佳量子拟合。

[0142] 方法-WGS和SMASH量化和比较

[0143] 对于SMASH和WGS，将SSC样品信噪比定义为常染色体减去X染色体中值非量化比率，除以其使用雌性参考样品(当执行参考物归一化时)时测量的雄性样品的基于MAD的噪声。我们还计数了不同于2的量化和圆形分割常染色体分箱值，以便设立偏离SSC二倍体期望值的上限值。对于SSC和SKBR3数据，通过以直方图绘制相差超过0.2的未量化分割比率的分箱运行的长度来评估WGS和SMASH一致性(concordance)。

[0144] 实施例1.SMASH概述

[0145] SMASH的方案(参见上文的“方法-Smash方案”)如图1所示。为了获得SMASH标签，首先通过超声处理机械剪切第一基因组DNA，然后用两种限制性核酸内切酶切割。使用珠纯化(也参见上文“方法-Smash方案”)获得理想尺寸级分，从而富集40bp的目标尺寸(图1)。为了产生长的嵌合DNA，SMASH标签在末端修复后连接。可以任选地进行第二个片段化步骤以消除长的(>1kb)嵌合分子，并且纯化合适尺寸(300-700bp)的DNA片段。然后将带有条形码的测序接头连接到分子上，产生可以在单个测序泳道上多元化的文库。或者，如下形成长的嵌合DNA：连接末端修复的SMASH区段，随后将带有条形码的测序接头连接至片段，并最终通过珠纯化选择具有用于测序的最佳尺寸(300-700bp)的DNA片段。该方案是可靠和可重复的，通常生成具有几乎相同的区段和片段长度分布的文库(图5)。尽管SMASH文库可能包含少量在所需尺寸范围外的区段和片段，但这些污染物是无关紧要的，并且不会以任何方式影响拷贝数变异测定。

[0146] 为了从嵌合读段中获得映射信息，应用了在此处简要描述的算法和一组启发式方法(参见图2和方法的其他细节)。使用了sparseMEM(Khan等人，2009)，其是使用后缀数组来快速确定NGS读段和参考基因组之间的所有最大几乎唯一匹配(或MAM)的程序。读段对的映射为每个SMASH读段提供了一个独一无二的签名，使得能够轻松识别并删除PCR重复。使用了一种启发式方法，该方法识别读取对范围内的不同明确匹配(或“映射序列”)。启发式方法的参数已被校准以通过平衡每读段映射序列的数量与映射序列分配的质量来使拷贝数数据的质量最大化。

[0147] 本发明的拷贝数检测方案基于映射序列-计数方法，并且它要求首先确定分箱边界以分割基因组。采用“具有预期的相同密度的分箱”，其最先用于单细胞基因组拷贝数测定(Navin等，2011)。选择边界以使得当对具有详尽说明和完美读段的参考基因组进行测序时，每个分箱都包含相同预期数量的映射序列。由于映射序列长度的变化，SMASH和WGS具有不同的预期映射序列密度分布。分箱边界被选择为适合于WGS，并且使用最前面的76bp以单末端模式映射WGS读段。对于每个样品，计数落入每个分箱内的映射序列的数量并通过LOESS归一化针对GC偏好调整分箱计数。

[0148] WGS和SMASH都具有不同的系统噪声模式，所述系统噪声超出了GC调整的总体修正。独立样品之间的强相关性证明了这一点。此外，这种系统噪声是时下流行的，这导致高自相关，因此可能引发假阳性拷贝数事件。此错误通过选择一个样品作为参考物，然后将所有剩余的样品数据除以该参考物来纠正。所得的拷贝数分割通常导致区段均值为低整数分数，反映样品中的拷贝数。在样品足够(并使用多个参考样品)的情况下，可以确定绝对拷贝数。为了分析分箱计数数据，使用了循环二进制分割的标准方法(Olshen等，2004)。

[0149] 实施例2.优化管线参数

[0150] 为了精确地测量性能并选择用于管线处理的参数，将雄性个体中X染色体上分箱中的信号与常染色体上的那些进行比较。还计算了1)用于衡量噪声大小的分箱的中值平均偏差(MAD)，以及2)用于衡量数据中的趋势的自相关，其是分段错误的一个重要风险因素。信噪比(“S/N”)计算为常染色体和X染色体中值的差值除以MAD平方和的平方根。这些统计数据用于评估参考物归一化和映射算法，然后用于比较WGS和SMASH(表1)。

[0151] 首先，考虑应用参考物归一化(“ref norm”，表1)的效用。用经GC调整的分箱比率除以标准样品分箱比率大大地改善了WGS和SMASH(第1-4行)的性能。即，参考物归一化将“自相关”降低多达10倍，同时提高“信噪比”。

[0152] 表1

[0153]

[0154] 表1.参考物归一化和映射规则

[0155] 在表1中的自相关中，计算了雄性常染色体和X染色体的中值和中值绝对偏差(MAD)以及由此得到的信噪比。前四项分别比较具有相同分箱分辨率(100,000)和相同的每分箱平均映射序列数(50)的WGS和SMASH。示出了有以及没有用参考样品进行归一化的结果。SMASH和WGS具有相似的性能，并且这两种方法均通过参考物归一化来减少自相关，同时保持信噪比。下面的三项比较使用不同的规则选择有效映射序列的SMASH性能(参见正文)。每个SMASH实例用相同的读段数操作，其中最松弛的规则(20,0)生成每个分箱117个映射序列，最严格的规则(20,8)生成每个分箱53个映射序列。用20,4规则获得最好的信噪比。

[0156] 接下来，我们建立了一个两部分、两参数(L,K)规则，用于接收来自SMASH读段的子串至参考基因组的映射序列(参见图2，图A)。首先，发现读段中的所有子串仅在参考基因组中发生一次，使得不能延长匹配。这些最大几乎唯一的匹配称为“MAM”(还参见“方法-测定映射序列”)。作为第一参数的最小匹配长度L是必需的。对于此处显示的数据，L是20bp。为了避免由嵌合现象引起的假的映射序列，需要第二规则，即长度为M的MAM包含长度为M-K的子串，其唯一地映射至基因组。检测了L和K的许多组合，使用固定的分箱边界，用相同的一组SMASH读段测量它们的性能。仅显示规则20：0、20：4和20：8的结果(表1第5-7行)。尽管20：4规则具有少得多的映射序列(“每分箱映射序列”)，但是以“信噪比”来判断，20：4规则优于
20：0规则。许多20：0映射序列一定是假的。这种假的映射可以归因于片段边界处的嵌合现象。另一方面，20：4的规则优于20：8的规则，如通过略微降低的信噪比所判断的，所述略微降低的信噪比可归因于由覆盖度降低而导致的采样错误增加。因此，自始至终采用20：4规则。

[0157] 实施例3.在优化的管线参数下比较WGS和SMASH曲线(profile)。

[0158] 如上所述，使用常染色体和X染色体比较WGS和SMASH的性能。除其他因素外，考虑了不同的分箱总数(从50,000到500,000)、不同的每分箱平均映射序列数(20、50和100)、收集信噪比和自相关的统计数据。这两种方法具有非常相似的性能特征(表2)。就映射序列而言，WGS略胜过SMASH。当选择分箱边界使得参考样品在每个分箱中具有相同数量的映射序列时，SMASH和WGS的信噪比均得到改善，并且它们之间的差异显著变窄(补充表1)。

[0159] 表2

[0160]

[0161] 表2.WGS和SMASH的分箱数和映射序列数

[0162] 表2中计算了与表1中相同的性能统计数据，所述性能统计数据比较在一系列分辨率(50K、100K和500K)和覆盖度(每分箱20、50和100个映射序列)下的SMASH和WGS。

[0163] 补充表1

[0164]

[0165] 补充表1.凭经验确定的分箱边界

[0166] 重复表2中的计算，但不是使用具有相同预期值的分箱，而是使用具有参考物的相同观察结果的分箱。分箱边界是凭经验定义的：建立映射序列数与凭经验确定的映射序列数相同的分箱。与表2中的结果(“来自表2的“信噪比”)相比，信噪比得到了改善，而自相关的变化很小。

[0167] 请注意，随着分箱数的增加，信噪比逐渐降低：SMASH从50K分箱下的5.6降低至500K分箱下的4.0。WGS发生了信号的类似劣化。据推测，这是由于使用相同的参考映射序列总数进行归一化，与分箱数无关。因此，随着分箱数的增加，每个分箱的参考映射序列数减少，这增加了归一化的比率的方差。为了测试是否这就是原因，进行了参考物归一化-这次使参考映射序列的总数与样品映射序列的总数相匹配。随着分箱数的增加，信噪比几乎没有下降(补充表2)。

[0168] 补充表2

[0169]

[0170] 补充表2.使参考物和样品覆盖度匹配

[0171] 计算如表2所示的性能统计数据。然而，在该表中，对于分箱分辨率的每个选择(50K、100K、500K)以及对于每个映射序列覆盖度(每分箱20、50和100个读段)，使用用于样品和参考物两者的相同的映射序列数。当样品与参考物之间映射序列数相等时，对于WGS和SMASH两者而言，信噪比对分箱分辨率基本上不敏感，并且强烈依赖于映射序列覆盖度，这表明只有覆盖深度限制分辨率。

[0172] 最后，比较使用SMASH和WGS的样品的实际分布图。使用了针对WGS进行了优化的分箱和上面讨论的映射序列选择规则。分析使用参考物归一化的来自两个家族的基因组DNA(图3)和没有进行参考物归一化的来自一个癌细胞系的基因组DNA(图4)(图4)。为了进行比较，WGS和SMASH都被下采样为相同数量的映射序列。在所有的基因组分辨率范围内-无论是查看归一化的分箱计数还是分段数据-来自这两种方法的分布图看起来非常相似。在这两幅图中，显示了分布在10万个分箱中的1000万个映射序列。亲本传播模式大多似乎是孟德尔式遗传(图3A)。在图3B中清楚地表明此点，图3B放大以显示缺失从父亲传播至未患病的兄弟姐妹。虽然由SMASH和WGS生成的总分段模式并不完全相同，但其中的大部分变化都与分段本身有关。当考虑分箱一致性时，WGS和SMASH是非常相似的(图3C)。

[0173] 对于癌细胞系SKBR3，WGS和SMASH都产生了大约相同的为整数值的拷贝数分布图(图4A)。拷贝数分布图与整数状态很好地匹配。为了说明数据之间的一致性，更详细地显示了具有广泛基因组拷贝数变异的染色体(图4B)。同样，基于分箱的LOESS调整的比率是大体一致的(图4C)。

[0174] 实施例4.SMASH的替代加分级方案

[0175] 以上所有数据均来自将超声处理和限制性内切酶(RE)切割相结合的SMASH版本。需要一种版本，该版本不依赖于这两种基因组片段化方法中的任一种并且可能更容易实现理想的区段长度分布和SMASH映射序列的随机性的版本。为此目的，使用NEBNext dsDNA片段化酶(NEB)。NEBNext dsDNA片段化酶(NEB)是在dsDNA上随机产生缺口，然后切割缺口对面的DNA链以产生dsDNA断裂的酶的组合。使用推荐的条件，容易获得具有更紧凑的尺寸分布并比通过超声处理和RE切割获得的区段长度稍短的区段长度。区段的连接和按尺寸选择具有测序最佳长度的片段是容易完成的(图6)。然后使用来自癌细胞系SKBR3的基因组DNA(没有进行归一化)，将该方法与我们的初始方案进行比较。这两种方法产生的拷贝数分布图实际上是相同的(图7)。使用片段化酶方法，每个读段的平均映射序列数从多于四个增加至多于六个。这种改进很可能是由于本方案中更精确的尺寸。下面概述了使用替代方案的详细的SMASH文库制备：

[0176] 步骤1-dsDNA片段化

[0177] 如下设置片段化反应：

[0178]

[0179] 将管在热循环仪中在37℃下孵育10分钟，然后将管放在冰上。

[0180] 步骤2-末端修复

[0181] 将下述试剂添加到如步骤1的相同管中：

[0182]

[0183] 将样品在热循环仪中在20℃下孵育30分钟。用AMPure XP珠子(2.5×)进行尺寸选择，充分混合，在室温孵育5分钟，收集上清液，通过核苷酸去除试剂盒(Qiagen)纯化，并用30μl H2O洗脱。取1μl等分试样用于生物分析仪。

[0184] 步骤3-自随机连接

[0185] 在新的0.2ml PCR管中制备以下反应混合物：

[0186]

[0187] 将样品在热循环仪中在25℃下孵育15分钟。用AMPure XP珠子(1.6×，92.8μl珠子)纯化，用180μl 80％乙醇洗涤两次，空气干燥，用25μl H2O洗脱，加入至新的PCR管。取1μl等分试样用于生物分析仪。

[0188] 步骤4-第二次末端修复

[0189] 在新的0.2ml无核酸酶PCR管中制备以下反应混合物：

[0190]

[0191]

[0192] 将样品在热循环仪中在20℃下孵育30分钟。用AMPure XP珠子(1.6×，48μl)纯化，在RT孵育10min，用180μl 80％乙醇洗涤两次，用21μl H2O洗脱。

[0193] 步骤5-将3’末端腺苷酸化

[0194] 在新的0.2ml无核酸酶PCR管中制备以下反应混合物：

[0195]

[0196] 将样品在热循环仪中在37℃下孵育30分钟。用AMPure XP珠子(1.6×，40μl)纯化，在RT孵育10min，用180μl 80％乙醇洗涤两次×2，用14μl H2O洗脱。

[0197] 步骤6-与接头连接以及使用AMPure XP珠子进行尺寸选择

[0198] 在新的0.2ml无核酸酶PCR管中制备以下反应混合物：

[0199]

[0200] 在25℃下孵育10分钟。用AMPure珠子(1.6×，48μl)纯化，用80％乙醇洗涤两次，用50μl H2O洗脱。用AMPure珠(0.6×，30ul)进行尺寸选择，充分混合并在室温孵育10min，收集上清液，加入AMPure珠(0.16X，8μl)，充分混合并在室温孵育10min，用180μl l80％乙醇洗涤两次，用16μl H2O洗脱。

[0201] 步骤7-富集PCR

[0202] 如下设置PCR反应：

[0203]

[0204] 在下列条件下扩增：在98℃变性30秒；进行8个循环(在98℃变性5秒，在65℃引物退火数秒，在72℃模板延伸30秒)；最后在72℃延伸10分钟。用AMPure珠子(0.9×，36μl)纯化，用180μl 80％乙醇洗涤两次，用20μl H2O洗脱。通过Nanodrop测量浓度，取等分试样并稀释至10ng/μl用于生物分析仪。SMASH DNA文库现在为测序做好了准备。

[0205] 因此，在一般方案中超声处理和限制酶消化两个步骤在替代方案中已经被用dsDNA片段化酶(NEB)进行片段化这一个步骤所取代。因此，第一次末端修复反应恰好在片段化步骤之后-在这两个步骤之间不再需要进行纯化。此外，在替代方案中已经略去了所有加热使酶失活的步骤，因为酶通过珠纯化被充分去除。最终，使用替代方案将SMASH文库准备的总时间要求减少了大约一个小时。

[0206] 讨论

[0207] 拷贝数变异体(CNV)构成了大量遗传多样性和疾病的基础。例如，自闭症谱系障碍(ASD)受遗传因素的高度影响(Muhle等，2004；Rosenberg等，2009)，并且CNV构成了这些诊断中的很大一部分的基础。除ASD外，拷贝数变异体已显示在多种疾病中发挥作用，包括先天性心脏病(Warburton等，2014)、癌症(Stadler等，2012；Lockwood等，2007；Lu等，2011；Shlien和Malkin，2009)、精神分裂症(Szatkiewicz等，2014；Rees等，2014)，甚至在患者对特定疗法的反应(Willyard，2015)中发挥作用。CNV可以通过许多方法检测，包括染色体微阵列分析(CMA)和全基因组测序(WGS)，但这些方法受限于有限的分辨率(CMA)或者它们对于常规筛查(CMA和WGS)而言是非常昂贵的。

[0208] 在从高通量测序中获取拷贝数信息时，SMASH与标准WGS相比具有明显的优势。每个读段都包含多个独立的映射，这增加了每个读段的信息密度并由此降低每个样品的成本。就映射序列而言，SMASH在拷贝数分布方面在质量上与WGS相当。当然，在WGS数据中存在的大量附加结构信息在SMASH中是缺失的，例如拷贝数事件的断点、小规模插入缺失标记或倒置，这是由更长的读段造成的。但是，WGS发现此类结构事件通常需要比拷贝数测定所需的覆盖度高得多的覆盖度。为了检测数kb和更大的CNV，选择应该由成本决定。

[0209] 在优化SMASH方案和算法的设计方面，投入了大量精力。这些包括选择限制酶和超声处理条件，从SMASH读段中选择映射序列的启发式方法和参考样品归一化。所得到的是一种可靠的方法，该方法可以在映射序列方面与WGS势均力敌。其他改变可进一步增加每个读段中有用SMASH映射序列的数量-片段化方案目前设置的中位数为约40bp区段，这是使用现有映射算法的最佳选择。然而，区段长度的变化是有问题的，通过调整片段化条件和实施更严格的尺寸选择可以减轻这种变化。为此目的，已经探索使用DNAse产生平均35bp的随机区段以解决区段长度变化的问题。通过这个稍微简化的方案，在初步实验中，在映射序列的基础上，获得了更高的每读段映射序列数以及相当的分辨率。

[0210] 对于映射序列的大部分分析，使用为WGS确定的分箱边界，以便SMASH可以与WGS进行直接比较。然而，最佳的分箱边界被证明是凭经验推导出可产生相同映射序列计数的那些(补充表2)。此外，很显然，提高参考物覆盖度可以改善所有样品的信噪比。尚未确定可以获得的分辨率的下限。

[0211] 可降低每个碱基对的单位成本的测序技术进步，可能由增加读段长度驱动。对于来自全基因组测序的拷贝数推断，这意味着每碱基的映射序列数持续下降。然而，即使使用现有的测序仪，SMASH也可以产生为标准WGS的4-6倍的映射序列。在一台用1500美元能产生3亿150-bp双末端读段的机器上，对于30个样品，可以以约10kb的分辨率获得每个样品6000万个映射序列，单位成本为50美元/样品，不包括文库的制备成本。然而，使用相同的SMASH文库时，分辨率和成本大致与读段数成线性关系。因此，SMASH可以降低检测产前遗传病、儿童遗传病和癌症遗传学的成本，使更多的患者能够以较低的成本进行检测，并将节省下来的费用给研究人员和护理人员。

[0212] 最终，基因组拷贝数信息可用于检测产前、儿童、发育、心理和自身免疫疾病以及疾病易感性。可以使用基因组拷贝数信息进行检测的障碍和疾病的实例包括但不限于自闭症谱系障碍、精神分裂症、癌症和先天性心脏病。除了检测和诊断之外，拷贝数信息还可以用于预测表现出疾病、综合征或障碍的可能性或遗传上疾病、综合征或障碍的可能性。最后，在临床外，SMASH也可被证明是确定农业重要植物和作物中拷贝数变异的有用工具。

[0213] 参考文献

[0214] 1.Alkan C，Kidd JM，Marques-Bonet T，Aksay G，Antonacci F，Hormozdiari F，Kitzman JO，Baker C，Malig M，MutluO，Sahinalp SC，Gibbs RA，Eichler EE.Personalized copy number and segmental duplication maps using next-generation sequencing.Nature genetics.2009；41(10)：1061-7.doi：10.1038/
ng.437.PubMed PMID：19718026；PubMed CentralPMCID：PMC2875196.

[0215] 2.Fishbach GD，Lord C.The Simons Simplex Collection：a resource for identification of autsim genetic risk factors.Neuron.2010；68：192-195.

[0216] 3.Khan Z，Bloom JS，Kruglyak L，Singh M.A practical algorithm for finding maximal exact matches in large sequence datasets using sparse suffix arrays.Bioinformatics.2009；25(13)：1609-16.doi：10.1093/bioinformatics/btp275.PubMedPMID：19389736；PubMed Central PMCID：PMC2732316.

[0217] 4.Levy D，Wigler M.Facilitated sequence counting and assembly by template mutagenesis.Proceedings of the National Academy of Sciences of the United States of America.2014；111(43)：E4632-7.doi：10.1073/
pnas.1416204111.PubMed PMID：25313059；PubMed CentralPMCID：PMC4217440.

[0218] 5.Lockwood WW，Coe BP，Williams AC，MacAulay C，Lam WL.Whole genome tiling path array CGH analysis of segmental copy number alterations in cervical cancer cell lines.International journal of cancer Journal
international du cancer.2007；120(2)：436-43.doi：10.t002/ijc.22335.PubMed PMID：
17096350.

[0219] 6.Lu TP，Lai LC，Tsai MH，Chen PC，Hsu CP，Lee JM，Hsiao CK，Chuang EY.Integrated analyses of copy number variations and gene expression in lung adenocarcinoma .Plos one.2011；6(9)：e24829.doi：10.1371/journal.pone.0024829.PubMed PMID：21935476；PubMed CentralPMCID：PMC3173487.[0220] 7.Muhle R，Trentacoste SV，Rapin I .The genetics of
autism.Pediatrics.2004；113(5)：e472-86.PubMedPMID：15121991.

[0221] 8.Navin N，Kendall J，Troge J，Andrews P，Rodgers L，McIndoo J，Cook K，Stepansky A，Levy D，Esposito D，Muthuswamy L，Krasnitz A，McCombie WR，Hicks J，Wigler M.Tumour evolution inferred by single-cell sequencing.Nature.2011；472(7341)：90-4.doi：10.1038/nature09807.PubMed PMID：21399628；PubMed Central PMCID：PMC4504184.

[0222] 9.Olshen AB，Venkatraman ES，Lucito R，Wigler M.Circular binary segmentation for the analysis of array-based DNA copy nubmer
data.Biostatistics.2004；5：557-572.

[0223] 10.Rees E，Walters JT，Georgieva L，Isles AR，Chambert KD，Richards AL，Mahoney-Davies G，Legge SE，Moran JL，McCarroll SA，O′Donovan MC，Owen MJ，Kirov G.Analysis of copy number variations at 15schizophrenia-associated loci.The British journal of psychiatry：the journal of mental science.2014；204(2)：108-14.doi：10.1192/bjp.bp.113.131052.PubMed PMID：24311552；PubMed Central PMCID：
PMC3909838.

[0224] 11.Rosenberg RE，Law JK，Yenokyan G，McGready J，Kaufmann WE，Law PA.Characteristics and concordance of autism spectrum disorders among 277 twin pairs.Archives of pediatrics&adolescent medicine.2009；163(10)：907-14.doi：10.1001/archpediatrics.2009.98.PubMed PMID：19805709.

[0225] 12.Shlien A and Malkin D.Copy number variations and cancer.Genome Medicine.2009；1(6)：62.doi：10.1186/gm62.PMID：19566914.PMCID：PMC2703871.[0226] 13.Stadler ZK，Esposito D，Shah S，Vijai J，Yamrom B，Levy D，Lee YH，Kendall J，Leotta A，Ronemus M，Hansen N，Sarrel K，Rau-Murthy R，Schrader K，Kauff N，Klein RJ，Lipkin SM，Murali R，Robson M，Sheinfeld J，Feldman D，Bosl G，Norton L，Wiglet M，Offit K.Rare de novo germline copy-number variation in testicular cancer.American journal of human genetics.2012；91(2)：379-83.doi：10.1016/j.ajhg.2012.06.019.PubMed PMID：22863192；PubMed Central PMCID：PMC3415553.[0227] 14.Sudmant PH，Kitzman JO，Antonacci F，Alkan C，Malig M，Tsalenko A，Sampas N，Bruhn L，Shendure J，Genomes P，Eichler EE.Diversity of human copy number variation and multicopy genes.Science.2010；330(6004)：641-6.doi：10.1126/science.1t97005.PubMed PMID：21030649；PubMed Central PMCID：PMC3020103.[0228] 15.Szatkiewicz JP，O′Dushlaine C，Chen G，Chambert K，Moran JL，Neale BM，Fromer M，Ruderfer D，Akterin S，Bergen SE，Kahler A，Magnusson PK，Kim Y，Crowley JJ，Rees E，Kirov G，O′Donovan MC，Owen MJ，Walters J，Scolnick E，Sklar P，Purcell S，Hultman CM，McCarroll SA，Sullivan PF.Copy number variation in schizophrenia in Sweden.Molecular psychiatry.2014；19(7)：762-73.doi：10.1038/
mp.2014.40.PubMed PMID：24776740；PubMed Central PMCID：PMC4271733.

[0229] 16.Warburton D，Ronemus M，Kline J，Jobanputra V，Williams I，Anyane-Yeboa K，Chung W，Yu L，Wong N，Awad D，Yu CY，Leotta A，Kendall J，Yamrom B，Lee YH，Wigler M，Levy D.The contribution of de novo and rare inherited copy number changes to congenital heart disease in an unselected sample of children with conotruncal defects or hypoplastic left heart disease.Human genetics.2014；133(1)：11-27.doi：10.1007/s00439-013-1353-9.PubMed PMID：23979609；PubMed Central PMCID：PMC3880624.

[0230] 17.Willyard C.Copy number variations′effect on drug response still overlooked.Nature medicine.2015；21(3)：206.doi：10.1038/nm0315-206.PubMed PMID：25742449.

标题	发布/更新时间	阅读量
作为代谢型谷氨酸受体拮抗剂的乙炔基衍生物	2020-05-22	440
螺-噁唑酮	2020-05-19	42
乙炔基衍生物	2020-05-23	457
7,8-二羟黄酮和7,8-取代的黄酮衍生物、组合物及其相关方法	2020-05-26	368
作为代谢型谷氨酸受体拮抗剂的乙炔基衍生物	2020-05-23	415
用于粪便菌群移植的组合物以及用于制备和使用它们的方法和用于递送它们的装置	2020-05-21	196
包含基于粪便微生物的治疗剂的冻干组合物及其制造和使用方法	2020-05-24	61
用于治疗精神障碍的四唑衍生物	2020-05-27	1009
用于生产和使用羧甲基纤维素钠与棉子酚的共聚物的方法	2020-05-16	492
用于诊断自闭症谱系障碍的组合物和方法	2020-05-13	330

使用经破碎的核苷酸的高通量多重测序确定基因拷贝数

使用经破碎的核苷酸的高通量多重测序确定基因拷贝数

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：