一种DNA文库及其制备方法、以及一种检测SNPs的方法和装置

申请号 CN201010555192.4 申请日 2010-11-23 公开(公告)号 CN102061526A 公开(公告)日 2011-05-18
申请人 深圳华大基因科技有限公司; 深圳华大基因研究院; 发明人 杜野; 赵美茹; 陈颖; 武靖华; 田埂;
摘要 本 发明 属于分子 生物 学领域,涉及一种DNA文库及其制备方法、以及一种检测SNPs的方法和装置。具体地,所述DNA文库的制备方法包括如下步骤:1)使用至少一种限制性内切酶,对样本基因组DNA进行酶切,得到酶切产物;2)将酶切产物进行分离,得到长度在100bp-1,000bp的DNA 片段 ;以及3)将步骤2)中得到的DNA片段进行末端修复;优选地,还包括下述步骤:4)将步骤3)中得到的DNA片段的末端添加 碱 基A;优选地,还包括下述步骤:5)将步骤4)中得到的DNA片段连接测序接头。本发明的检测SNPs的方法操作简单。本发明还涉及一种DNA测序方法、以及一种基因分型方法。
权利要求

1.一种制备DNA文库的方法,包括如下步骤:
1)使用至少一种限制性内切酶,对样本基因组DNA进行酶切,得到酶切产物;
2)将酶切产物进行分离,得到长度在100bp-1,000bp的DNA片段;以及
3)将步骤2)中得到的DNA片段进行末端修复;
优选地,还包括下述步骤:
4)将步骤3)中得到的DNA片段的末端添加基A;
优选地,还包括下述步骤:
5)将步骤4)中得到的DNA片段连接测序接头。
2.根据权利要求1所述的方法,其中,步骤2)中所述分离为琼脂糖凝胶电泳和切胶回收。
3.根据权利要求1所述的方法,其中步骤2)中得到的DNA片段的长度为200bp-700bp。
4.根据权利要求1至3中任一项所述的方法,其中步骤1)中的限制性内切酶为选自下面的(1)-(4)中的至少一组:
(1)Mbo II;
(2)Tsp 45I;
(3)Mbo II和Hind III;以及
(4)Mbo II和Bcc I。
5.根据权利要求1至4中任一项所述的方法制得的DNA文库。
6.一种DNA测序方法,包括将权利要求5所述的DNA文库进行测序的步骤;优选地,使用高通量测序平台进行测序;具体地,所述高通量测序平台选自GS测序平台、GA测序平台、TM TM
HiSeq2000 测序平台、以及SOLiD 测序平台。
7.一种SNPs检测方法,包括如下步骤:
a)按照权利要求6所述的测序方法进行测序;
b)将步骤a)中得到的测序结果进行SNPs数据分析。
8.一种用于检测SNPs的装置,包括如下单元:
1)DNA文库制备单元;
2)测序单元;以及
3)SNPs数据分析单元。
9.权利要求5所述的DNA文库在制备SNPs检测的试剂试剂盒中的用途。
10.一种基因分型方法,包括使用权利要求8所述的SNPs检测方法的步骤。

说明书全文

一种DNA文库及其制备方法、以及一种检测SNPs的方法和

装置

技术领域

[0001] 本发明属于分子生物学领域,涉及一种DNA文库及其制备方法、一种DNA测序方法、一种检测SNPs的方法、一种用于检测SNPs的装置、以及一种基因分型方法。 背景技术
[0002] 单核苷酸位点多态性(single nucleotide polymorphism,SNP)是指基因组上单个核苷酸的变异,它的数量巨大而且多态性丰富。SNP在比较基因组学和进化基因组学的研究中被认为是最理想的遗传标记。同时在与疾病相关的遗传学和药理基因组学研究中也被作为有效的分子标记。而无论对于哪个应用领域,都需要对大量的样本中的SNPs位点进行检测并分型,虽然基因组的深度重测序是检测SNPs最为直接且有效的办法,但是目前基因组测序的成本较为昂贵,无法满足大规模样本测序的要求,所以,许多高通量的SNPs分型方法和商业平台得以大发展(Chunming Ding and Shengnan Jin.(2009).High-Throughput Methods for SNP Genotyping.Single NucleotidePolymorphisms,Methods in Molecular Biology.AA.Komar(eds),Humana Press.p578.)。 [0003] 目前,应用比较普遍的高通量SNPs分型平台主要是基于单基延伸技术的 BeadArray平台和基于差异杂交方法的Affymetrix SNP microarray,两者都是基于已有的SNPs位点信息,通过设计合成探针根据各自不同的原理对特定的tagSNPs进行检测的方法,同时可以针对不同的待关联分析的性状设计不同的待检SNPs组合,使检测设计更加灵活,特异性更高。但这些方法也有一定的局 限性,比如探针要经过严格的筛选设计,而且并不是所有的tagSNPs都能满足这些设计的要求。同时芯片的合成要求比较高,一般实验室很难实现,而购买商业芯片又导致成本过高同时需要专扫描仪器和分析软件。此外,一个重要的限制因素是该方法中探针的设计必须建立在已知SNPs数据库基础上,无法发现未知的SNPs位点(Chunming Ding and Shengnan Jin.(2009).High-ThroughputMethods for SNP Genotyping.Single Nucleotide Polymorphisms,Methods in Molecular Biology.AA.Komar(eds),Humana Press.p578.)。 [0004] 此外,由于限制性内切酶可以特异地识别并切割目标序列,其与下一代测序技术(NGS)的结合,也被用于基因组范围内特异位点的多态性检测(Nathan A,Baird,Paul D,et al.(2008)Rapid SNPDiscovery and Genetic Mapping Using Sequenced RAD Markers.PLoSONE,3(10):3376.;Michael A.Gore,et al.,(2009).AFirst-Generation Haplotype Map of Maize.Science,326:1115.)。
[0005] 其中:
[0006] NA.Baird et al.提出了一种基于限制性内切酶酶切的SNPs检测和分型技术,该方法依赖于对一种限制性酶切位点关联的DNA(RAD)标签的测序,其中RAD标签通过使用不同的限制性内切酶对基因组进行完全酶切,然后连接接头序列后再进行打断,在新产生末端加入另一个接头,最后通过与两个接头序列互补的引物对进行PCR扩增,然后将得到的RAD标签库通过一侧的测序引物进行单向测序,最后测得与该限制性内切酶位点相邻的RAD标签,用于基因分型;其中作者利用EcoR I或Sbf I进行酶切对三刺鱼中相应RAD标签的SNPs位点进行了检测(Nathan A,Baird,Paul D,et al.(2008)Rapid SNPDiscovery and Genetic Mapping Using Sequenced RAD Markers.PLoSONE,3(10):3376.)。 [0007] CC.Sánchez et al.,BMC Genomics(2009)通过Hae III完全酶切基因组来得到部分代表基因组的文库,并通过基于焦磷酸测序原 理的测序平台成功对彩虹鲑鱼的SNPs位点进行了检测(Sánchez CC,Smith TPL,Wiedmann RT,et al.(2009).Single nucleotidepolymorphism discovery in rainbow trout by deep sequencing ofa reduced representation library.BMC Genomics,10:559.)。
[0008] 另外,公开号为CN101374963A中国专利在扩增片段长度多态性(AFLP)技术的基础上,通过使用两种或两种以上限制性内切酶将基因组进行酶切,然后使用AFLP引物通过PCR的方法扩增产生AFLP片段,将这些片段进行建库测序来鉴定发生在在限制性酶切位点附近以及片段内部的突变并进行基因分型分析,该方法其实是对AFLP的一个改进,而在内切酶的选择方面,由于受AFLP方法的限制,至少要使用一种稀有位点的限制性内切酶。 [0009] 但是上述酶切建库过程都比较繁琐,而且有些方法要经过PCR扩增过程更容易将序列的偏差引入并放大。

发明内容

[0010] 本发明的一个方面涉及一种制备DNA文库的方法,包括如下步骤: [0011] 1)使用至少一种限制性内切酶,对样本基因组DNA进行酶切,得到酶切产物; [0012] 2)将酶切产物进行分离,得到长度为100bp-10,00bp的DNA片段;以及 [0013] 3)将步骤2)中得到的DNA片段进行末端修复;
[0014] 优选地,还包括下述步骤:
[0015] 4)将步骤3)中得到的DNA片段的末端添加碱基A;
[0016] 优选地,还包括下述步骤:
[0017] 5)将步骤4)中得到的DNA片段连接测序接头。
[0018] 关于步骤1),
[0019] 所用样本基因组DNA可以是来源于目前已有全基因组序列数据的任何物种(例如http://www.ncbi.nlm.nih.gov/sites/genome所列物种),基因组DNA可以取自该物种的个体、单个细胞或某个组织。 优选地,为人的基因组DNA。
[0020] 对本领域技术人员而言,基因组DNA的提取方法根据物种和样本的不同,可以按照本领域已知的方法完成(包括使用商品化的试剂盒),比如植物组织或微生物可以使用标准的CTAB法提取,人类血液基因组DNA可以使用 DNA Mini Kit(QIAGEN)完成等。
[0021] 得到的基因组DNA应尽量保持完整,减少因人为断裂而产生过多的小DNA片段,一般经琼脂糖凝胶电泳检测达到23K以上的标准视为合格,同时DNA纯度尽量高以避免影响酶切过程的因素存在。
[0022] 选择至少一种限制性内切酶对基因组DNA进行酶切,所用限制性内切酶依赖于所研究的物种不同而略有不同,其中较常用的识别序列为5或6碱基的II型限制性内切酶,此外切割位点在识别位点以外的Ⅱs型限制性内切酶也可以使用。一般来讲,所用限制性内切酶应该为1-2种,因为使用过多的限制性内切酶较难在一管反应体系中完成,不仅会增加操作的复杂性,而且容易导致酶切不完全或星号活性的出现。目前,有许多商品化的限制性内切酶的可供选择,比如NEB(NEWENGLANG BioLabs)公司、TaKaRa公司等等,反应条件以限制性内切酶提供说明书为准,以保证达到优选的酶切效果。优选地,所述酶切为完全酶切。
[0023] 本发明的一个实施方案以人类基因组为主要研究对象,分别设计了不同的酶切组合,其中优选酶切组合如表1中所示。其中,限制性内切酶名称以NEB公司公布为准。 [0024] 关于步骤2),
[0025] 按照本领域所熟知的方法进行酶切后基因组片段的回收,例如使用合适浓度的琼脂糖凝胶电泳分离酶切DNA片段。一般地,对于回收1kb以下范围内的DNA片段,2%的琼脂糖凝胶是比较合适的选择,电泳结束后切取目标长度范围内的凝胶。然后可以使用商品化的凝胶回收试剂盒(例如 PCR Purification Kit(QIAGEN)),回收目标长度范围内的DNA片段。
[0026] 限制性内切酶将人类基因组切割成基本相同的长度分布(例如100bp-10,00bp),该范围内分布的片段是为了得到一部分基因组,并且一个库中片段长度相差过大会影响最后测序数据的质量,并且会导致很大的增加成本。
[0027] 在本发明的一个实施方案中,步骤2)中得到的DNA片段的长度为100bp-1,000bp。 [0028] 在本发明的一个实施方案中,步骤2)中得到的DNA片段的长度为200bp-700bp。为了有效地得到步骤2)中长度范围的DNA片段,在本发明的一个实施方案中,其中步骤1)中的限制性内切酶为选自下面的(1)-(4)中的至少一组(如表1所示):
[0029] (1)Mbo II;
[0030] (2)Tsp 45I;
[0031] (3)Mbo II和Hind III;以及
[0032] (4)Mbo II和Bcc I。
[0033] 本发明人进行了大量的研究和不懈的努力,发现上面的四组酶是优选的选择。具体可以参见实施例1。
[0034] 关于步骤3)和4),
[0035] 回收后的酶切DNA片段使用标准化的流程进行末端修复和加“A”反应,具体过程如下:在一个反应体系中加入回收的DNA、10mM dNTP、T4DNA Polymerase、Klenow Fragment、T4Polynucleotide Kinase以及T4DNA ligase buffer(with 10mM ATP)在20℃温育30分钟后,回收片段,在另一反应体系中加入补平的DNA、dATP、Klenow Fragment、Klenow(3’-5’exo-)于37℃反应30分钟。
[0036] 关于步骤5),
[0037] 接头与限制性片段的连接,接头的选择会因所使用的测序技术方法(高通量测序平台)的不同而有所不同。在本发明实施例2中所用为 公司的边合成边测序原理方法,所以, 接头序列包含与测序所用flow cell上连接寡核苷酸互补的序列以便于将文库片段连接到flow ce11上。由于本发明并不使用PCR扩增的方法, 所以,所加接头不需要包含扩增引物结合位点,但需要带有测序引物的结合位点,为了将来源于不同样本制备的DNA文库在测序后区分开来,8bp的Index标签序列以及index标签测序引物序列也可被带入到一侧接头中,这样可以方便将不同文库直接混合后上机测序。文库构建结束后,需经 Bioanalyzer 2100检测文库片段分布情况以及经过Q-PCR对文库进行定量。
[0038] 本发明的另一方面涉及根据上述的任一种制备方法制得的DNA文库。该DNA文库可用于SNPs检测。
[0039] 本发明的再一方面涉及一种DNA测序方法,包括将本发明的DNA文库进行测序的步骤(即包含本发明的制备DNA文库的方法的步骤);优选地,使用高通量测序平台进行测TM序;具体地,所述高通量测序平台选自GS测序平台、GA测序平台、HiSeq2000 测序平台、以TM
及SOLiD 测序平台。
[0040] 上机测序都是通过本领域所熟知的下一代高通量测序技术进行,其中可以基于焦磷酸测序原理的边合成边测序方法,比如454公司GS测序平台和 公司的GA或HiSeq2000TM测序平台,也可以是基于连接反应原理的 公司的SOLiDTM测序TM平台。本发明中优先选择 HiSeq2000 测序仪器及方法,其中仪器的参数设置及操作方法都按照 操作手册(可由http://www.illumina.com/support/documentation.ilmn获取)上严格进行,其中主要的测序步骤可以分为以下两个部分:
(1),将建好的文库或者混合文库经Cluster Station“种”在测序所用的flow cell的表面,并经过桥式PCR将其扩增形成簇;(2),将制备好的flow cell安置至测序仪,通过边合成边测序的方法完成测序。其中第一部分中,因文库两侧连接的接头序列中有与flow cell上带有的短核苷酸序列互补的序列,所以,可以通过该片段的互补将文库种到flow ce11表面,再通过桥式PCR扩增使文库片段在flow cell表面形成DNA簇; 对于上机测序部分,由TM
于 测序仪器的不断升级,在本发明所涉及的实例中所用为HiSeq2000 测序仪,而测序循环数为PE9lindex(即双向91bp index测序),但在实际应用中仍可按照不同的要求选择同类测序原理方法中不同规格型号的仪器或者相同仪器的不同测序参数设定,这些并不限制本发明的应用的范围。
[0041] 本发明的再一方面涉及一种SNPs检测方法,包括如下步骤(图1): [0042] a)按照本发明的测序方法进行测序;
[0043] b)将步骤a)中得到的测序结果进行SNPs数据分析。
[0044] 本发明的SNPs检测方法包含本发明的DNA测序方法的步骤,因此也包含本发明的制备DNA文库的方法的步骤。
[0045] 在本发明中,术语“SNP”是指在基因组某个单核苷酸位点的变异,并且一些位点的插入、缺失和核苷酸频率变异也称为SNP,因此,本发明的SNPs检测应被理解为这些广义的基因组变异检测。
[0046] 数据分析,通过参考序列(即已知的全基因组序列)和dbSNP数据库(Sherry ST,et al.(2001)dbSNP:the NCBI database of geneticvariation.Nucleic Acids Res,29:308-311.)鉴定样本SNPs位点信息。
[0047] 对于测序所得的原始数据的分析方法,SNPs位点的比对和检索方法是本领域技术人员所熟知的。本发明中所用分析方法与jun wang etal.,Nature(2008)(J Wang,et al.,(2008).The diploid genomesequence of an Asian individual.Nature,456:60.)中所描述相同,其中在实际应用中,参考数据的选择会随着所研究的基因组来源不同而不同,基本过程包括以下主要步骤:将测序得到的数据使用SOAP程序(Li R,Li Y.,Kristiansen K.&Wang,J.(2008).SOAP:short oligonucleotide alignment program.Bioinformatics,24:713-714.)比对到hg18参考基因组上,其中允许有两个碱基的错配。然后统计正确比对在目标区域的reads,并用这些正确比对的测序reads,使用SOAPsnp程序(http://soap.genomics.org.cn),以 Q20.depth≥2作为过滤参数进行过滤,将通过这些过滤后的SNPs位点信息作为实际得到的SNP。并且可以与已有的SNP数据库,例如dbSNPv128数据库(http://www.ncbi.nlm.nih.gov/projects/SNP/)中收录的SNP信息比较,计算检测实际得到的SNP对dbSNP数据库的覆盖度。
[0048] 本发明可以应用于大规模数量的样本中,而实际可检测的样本数并不受该方法本身的限制,但是所采用的测序技术的测序容量是这一方法的主要限制因素。 [0049] 根据本发明的SNPs检测方法,本发明的再一方面涉及一种用于检测SNPs的装置,包括如下单元:
[0050] 1)DNA文库制备单元;
[0051] 2)测序单元;以及
[0052] 3)SNPs数据分析单元。
[0053] 上述各个单元可以实现本发明的SNPs检测方法中的相应步骤。 [0054] 本发明的再一方面涉及本发明的DNA文库在制备SNPs检测的试剂或试剂盒中的用途。本发明还涉及本发明的DNA文库在SNPs检测中的用途。
[0055] 本发明的再一方面涉及一种基因分型方法,包括使用本发明的SNPs检测方法的步骤。基因分型即通过生物学方法通过不同个体所具有的基因型进行分类,SNPs作为基因组最为广泛存在的遗传标记,也是一种很好的基因分型标签,通过检测个体的SNP位点信息就可以结合已有的基因型信息对个体进行基因分型。因此,本领域技术人员可以理解,本发明的SNPs检测方法可以用于基于检测SNP位点的基因分型。
[0056] 在本发明中,具体地,所述SNPs为人的SNPs。
[0057] 发明的有益效果
[0058] 本发明的检测SNPs的方法操作简单,具有以下优势:
[0059] 首先,为了得到符合不同要求的酶切片段分布,针对不同的基因组可选择不同的优化限制性内切酶组合,过程简单并且极易操作,而且操作流程更易标准化,针对不同的实验样本只需适当选择酶切组合,并不导致整个实验流程的大范围改变,在一定程度上提高了可操作性和平行性。
[0060] 其次,通过将酶切片段切胶回收的方法来控制最后小片段文库的信息含量,该方法较PCR扩增的方法更不易引起片段选择的偏向性,而且成本更低。并且本发明的SNPs检测方法基于第二代高通量测序技术,测序成本的极大降低以及该技术的普遍使用或者普遍可提供的测序服务,为该方法的大规模应用提供了可能。
[0061] 此外,当酶切库信息含量较低时,可以通过加入Index标签的方法将来自于多个样本的酶切库进行混合测序,这样可以进一步极大的节约测序产生的成本和时间,并且实现了同时对多个样本的检测。附图说明
[0062] 图1:本发明SNPs检测方法的操作流程。
[0063] 图2:实施例2中基因组DNA完全酶切后电泳检测图。图片中两侧为50bp Ladder,对应条带大小及位置如图片外侧标注,其中图片中两条虚线位置为切胶位置,虚线中间条带为实验所需大小范围(200bp-700bp)。
[0064] 图3:四种酶酶切基因组DNA文库的 Bioanalyzer 2100检测结果。A:Mbo II酶切检测结果。B:Tsp 45I酶切检测结果。C:Mbo II-Hind III酶切检测结果。
D:Mbo II-Bcc I酶切检测结果。
[0065] 图4:使用Tsp 45I构建的DY文库插入片段范围的统计曲线。
[0066] 图5:使用Tsp 45I构建的YH文库插入片段范围的统计曲线。
[0067] 图6:使用Tsp 45I构建的DY文库测序数据深度统计曲线,其平均深度为11×,分布近似泊松分布并且较均匀。
[0068] 图7:使用Tsp 45I构建的YH文库测序数据深度统计曲线,其平均深度为20×,分布近似泊松分布并且较均匀。
[0069] 图8:使用Tsp 45I分别构建的DY文库和YH文库间目标区域覆盖深度一致性的比较曲线。
[0070] 图9:两次构建的YH文库间目标区域覆盖深度一致性的比较曲线。 具体实施方式
[0071] 下面将结合实施例对本发明的实施方案进行详细描述。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
[0072] 实施例1:优选的限制性内切酶或者酶组合的确定
[0073] 按照表1中的酶或酶组合的识别序列,通过已知的酶切识别位点信息,以hg18基因组序列为参考序列,以酶切位点为分界将基因组按长度范围分类,最终选取200bp-700bp范围的片段作为待测的文库集合。对本领域技术人员而言,hg18基因组序列数据可以从已知的数据库下载,例如从http://genome.ucsc.edu/上下载。
[0074] 按照 HiSeq2000TMPE91 index测序参数过滤产生数据。由于在实际测序中使用PE91循环数测序,所以,将以上文库集合中每个片段两端91bp的碱基作为目标区域,以按照PE91长度测序参数将在选定范围内的片段包含酶切位点两端的91bp作为目标区域,统计目标区域覆盖dbSNP v128数据库(http://www.ncbi.nlm.nih.gov/projects/SNP/)中SNP位点数目,以及该数目所占dbSNP v128中总数的比例。 [0075] 由于所用参考序列为国际上公用,特别是不涉及实际实验中会产 生的其它因素的干扰(比如DNA的不可避免的断裂,酶切的不完全等),因此得到的结果是最理想状态下的结果,也就是最优化的结果。
[0076] 表1:人类基因组限制性内切酶酶切建库的优选酶组合
[0077]
[0078] 与上面的检验方法类似,本发明人还检验了大量其它的酶或酶的组合,计算得到的dbSNP v128覆盖度一般都在10%以下,部分酶或酶的组合的检验结果如表2所示: [0079] 表2:检验过的部分其它酶和酶的组合
[0080]
[0081] 从表2可见,表2中的酶或酶的组合的可检测到的SNP数目和dbSNP v128覆盖度都远低于表1中所列的酶或酶的组合。
[0082] 因此,表1中的酶或酶的组合是优选的方案。
[0083] 实施例2:炎黄一号DNA文库的测序
[0084] 针对于人类基因组,如详细技术方法表1中所表述的优选酶切组合,选取其中回收片段在200bp-700bp范围内的四种优选酶切组合进行酶切建库,通过数据分析并与表1所示的结果相比。具体操作如下:
[0085] 人类基因组DNA提取自炎黄一号(YH1)的血液细胞,提取使用 DNA Mini Kit(QIAGEN)完成,操作完全按照说明书进行。最后基因组DNA溶解于EB缓冲液中,经 ND-1000以A260 处吸光值进行定量后,取5μg进行酶切。限制性内切酶全部购买自NEB公司,缓冲液随酶提供,共进行四种酶切组合。
[0086] 每个酶切反应体系中基因组DNA都为5μg,限制性内切酶用量为20U(NEB定义单位),每个反应中因酶组合的不同而选用最适合的缓冲液以及反应条件,详细见下面的表3。
[0087] 表3:酶切体系
[0088]
[0089] 以上反应缓冲液都是10×母液,最后以超纯将反应体系补平至100μl,按照最适反应条件进行。
[0090] 酶切后的基因组DNA经2%琼脂糖凝胶电泳(TAE缓冲系统)分离后(图2),手工切取200bp-700bp长度范围内的片段经 Gel Extraction Kit(QIAGEN)凝胶回收,将溶于30μl超纯水中。
[0091] 末端修复反应按照如下体系进行:
[0092] T4DNA ligase buffer with 10mM ATP 10μl
[0093] dNTPs 4μl
[0094] T4DNA Polymerase 5μl
[0095] Klenow Fragment 1μl
[0096] T4Polynucleotide Kinase 5μl
[0097] DNA 30μl
[0098] ddH2O up to 100μl
[0099] 20℃反应30分钟后,使用 PCR PurificationKit(QIAGEN)回收补平的DNA片段。样品最后溶于32μl的EB缓冲液中。
[0100] 加“A”反应按照以下体系完成:
[0101] Klenow buffer 5μl
[0102] dATP 10μl
[0103] Klenow(3’-5’exo-) 3μl
[0104] DNA 32μl
[0105] 37℃温育30分钟后,经 PCR Purification Kit(QIAGEN) 纯化并溶于35μl的EB中。
[0106] 接头的连接反应如下:
[0107] 10x T4DNA Ligation buffer 5μl
[0108] PCR-free Adapter oligo mix 5μl
[0109] T4DNA Ligase 5μl
[0110] 加“A”后的样品DNA 35μl
[0111] 连接反应于16℃连接过夜。其中接头为 公司PCR-freeindex接头,四个库分别带有唯一的8bp index标签序列,将构建好的文库经 Bioanalyzer2100检测片段分布范围(图3,A-D)。从图3可见,文库切割的片段范围为200bp-700bp,在连接接头以后片段长度增加约120bp左右,由图3可以看出四个文库片段范围基本符合要求,而且文库质量符合测序要求。将其中使用Tsp45I酶构建的文库命名为YH文库(YH文库trial 1)。
[0112] 再经过Q-PCR方法对四个文库进行定量,并以此为标准将除MboII+Bcc I文库外的其他三个文库进行1∶1等量混合,而Mbo II+Bcc I文库则为其它文库上样量的两倍,将该混合文库使用flow cell一个lane的测序量进行上机测序。测序使用 TM公司的HiSeq2000 测序系统完成,操作完全按照相应的操作指导进行。 [0113] 数据分析主要按照jun wang et al.,Nature(2008)(J Wang,etal.,(2008).The diploid genome sequence of an Asian individual.Nature,456:60.)中描述的方法操作,由于双向测序,所以通过设定成对测序读长的方向及间隔距离参数(50bp-2000bp)对原始数据进行过滤,满足条件的测序读长以成对进行比对,不满足的则以单独的测序读长进行比对,比对方法可以使用SOAP v2.20将测序读长比对到参考序列hg18上,比对过程允许有两个碱基的错配,计算所有测序读长可以比对到参考序列上的比例。最后再检测这些可以比对上的读长有多少比例可以落在不同酶切组合结果(表1所示)的目标区域上,以及目标区域的覆盖度和覆盖深度等数据,结果如表4所示。
[0114] 表4:数据分析结果
[0115]
[0116] 由最终数据结果可以看出,选用的4个酶切组合最后结果基本一致,除去测序上样量加倍的Mbo II-Bcc I组合,其余三个测序文库都产生3Gb-4Gb的数据量,而这些序列有70%-80%可以比对到基因组中,而这其中又有57%-73%的数据可以比对在目标区域,最后与表1所示结果相比,72%-90%的目标区域被测序所覆盖,且平均的覆盖深度为3×-5×,由此可见,该方法使用较好的酶切组合可以得到约90%的目标区域,而且与表1所示的结果相比,应用不同的酶切组合的一致性较好。
[0117] 实施例3:使用Tsp 45I酶切建库的SNPs检测和基因分型
[0118] 为了检测对于不同样本间的平行性,以及实际的SNPs位点检测情况,本实施例中除了使用炎黄一号(标注为YH)基因组外,选用了另一个健康男性(标注为DY)基因组进行平行实验。按照与实施例2中类似的方法,用Tsp 45I酶分别构建两个DNA文库:YH文库(YH文库trial2)和DY文库。
[0119] SNP的检测使用SOAPsnp程序,按照Q20.mean quality of bestallele>20.copy number≤1.1的过滤参数进行过滤,最后统计实际得到的SNPs数目,以及这些位点占dbSNP数据库的比例。同时,根据炎黄一号全基因组已有的SNP位点信息(Ruiqiang Li etal.,(2010).SNP detection for massively parallel whole-genomeresequencing.Genome Research,19:1124),选取以Tsp 45I酶切建库的目标区域范围内的SNP位点信息,与本实施例中鉴定的SNP位点相比较,计算实际检测到的SNPs位点占已有结果的比例。 [0120] 具体地,将使用Tsp 45I独立构建两个文库的测序数据与hg18基因组序列为参考进行比对,使用这些可以正确比对到参考基因组的测序序列,统计了插入片段的长度分布,结果显示,无论使用DY基因组(图4)还是YH基因组(图5)构建的文库,插入片段都正常分布在200bp-700bp之间,这与最初的实验设计和操作是一致的,而且两个文库间,在该片段长度范围(X坐标)内测序数据分布比例(Y坐标)也比较一致。此外,统计了两个文库测序数据的分布情况,其中DY文库(图6)平均的测序深度为11×左右,而YH文库(图7)平均测序深度达到20×,而且二者的深度分布基本近似于泊松分布,而DY文库由于测序最后得到的数据量较YH文库要小,所以其测序深度较低。
[0121] 进一步的数据统计分析结果如表5所示,其中,两个文库上机后分别得到了4.5Gb和7.8Gb的测序原始数据,这其中分别有76.8%和84.6%分别可以比对到hg18参考基因组上,在正确比对上这部分的数据中,分别有80.9%和78.5%是正确位于目标区域的,而统计目标区域被至少一个测序数据所覆盖的比例,两个文库中分别为91.9%和95.2%。由该数据结果可以看出,使用该限制性内切酶建库的方法,可以稳定得到90%以上的目标区域,而且测序数据的比对率都在正常范围内。
[0122] 表5:初步数据分析结果
[0123]
[0124] 为了进一步比较该建库方法的平行性,以目标区域中不同碱基的覆盖深度为参考,分别选取使用Tsp 45I构建的三个文库进行了两两间的比较,分别比较了YH文库和DY文库(图8)和两次构建的YH样品文库(图9,“YH文库trial 1”表示实施例2中构建,“YH文库trial2”表示实施例3中构建)的平行性,其中X轴和Y轴分别对应不同的样品或不同实验批次(如图8和9中标注),其坐标是按照不同的覆盖深度由小到大分为相应的区间等级,由1至10表示由低到高的覆盖深度。Z轴表示的是位于该深度区间的碱基数目,由图8和9中可以看出,无论是使用不同的样品还是不同的批次,建库的平行性都较好,大部分碱基在两个库中被覆盖的深度也基本一致。
[0125] 同时,分析了相互比较的文库之间目标区域被共同覆盖的情况显示,两次构建的三个文库一致性较好,其中有3%的目标区域在相互比较的两个文库中都没有测序数据覆盖,而被覆盖的目标区域有90%是一致的,此外大约7%的目标区域仅在一个库中被覆盖,说明,该方法建库的平行性在93%以上。
[0126] 由于第二次构建的YH文库,平均测序深度达到了20×,所以,使用此次数据进行了SNP检测,使用SOAPsnp软件,以Q20.meanquality of best allele>20.copy number≤1.1为过滤参数,以hg18为参考基因组序列,一共得到了264K的SNPs位点信息,通过与已发表的YH基因组SNPs位点信息比较,应该有294K的SNPs位点位于Tsp45I酶切后测序的目标区域内,而本次实验得到的SNPs位点中有219K (74.6%)为一致的,其中假阳性有44K(17%),假阴性为74K(25%),通过分析确定,假阳性中有28K(65%)位点虽然在已报道的YH基因组中并未检测到,但是在dbSNP数据库中是被收录的,说明这部分可能是在YH的参考SNP数据集中因某种原因被过滤掉,而在本实验中被正确的检测出来,所以,除去这部分原因,假阳性率也可以控制在合理范围内。而假阴性部分有约21K(28%)是由于SNP位于限制性内切酶的识别位点内,最后导致了酶无法识别和切割而丢掉了该目标区域片段及SNP位点信息,而另外大部分则是因为测序深度不够或者该位点测序质量值不高导致的,这部分与本方法无关,可以在后续实验中通过提高测序量来进一步优化。 [0127] 为了进一步验证该方法得到SNP位点的准确性,将此次得到的数据与使用目前主流的基因分型芯片(Illumina 1M BeadChip)对YH基因组的分型信息比较,在芯片上涵盖的约1M的SNPs位点有100K位于本方法的目标区域内,而使用本方法覆盖了约98K(90%),在共同覆盖的部分,其中对于纯合位点的一致率达到99%以上,而杂合位点的一致率为92%,准确率和覆盖度都较好。
[0128] 由以上结果可以看出,通过本方法可以有效地得到预先模拟(表1)90%以上的目标区域片段,并成功且准确检测该区域内大部分的SNPs位点信息,这些SNP信息可以用于后续的基因分型或者GWAS研究中。
[0129] 尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
QQ群二维码
意见反馈