首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 一种串联RAD标签测序文库的构建方法

一种串联RAD标签测序文库的构建方法

申请号 CN201610629494.9 申请日 2016-08-02 公开(公告)号 CN106192021A 公开(公告)日 2016-12-07
申请人 中国海洋大学; 发明人 王师; 包振民; 刘平平; 吕佳; 张玲玲;
摘要 本 发明 公开了一种 串联 RAD标签测序文库的构建方法,步骤为:1)酶切:利用内切酶对DNA进行酶切反应;2)接头连接:对酶切 片段 分别连接接头,接头设计有SapI酶的酶切位点和用于实现标签串联的特征序列以及扩增引物结合的通用序列;3)连接产物扩增:利用 生物 素引物和普通引物组合进行PCR扩增,富集,切胶回收PCR产物,再次扩增,等量混合纯化;4)串联标签文库:利用SapI酶对PCR产物进行酶切,依次串联;5)串联长标签富集:串联长标签经凝胶纯化后利用引物进行PCR扩增,引入barcode构建文库;6)文库测序本发明能够实现对全基因组范围遗传标记和表观遗传变异进行高通量、低成本地筛查和检测。
权利要求

1.一种串联RAD标签测序文库的构建方法,其特征在于,步骤为:
1)酶切:利用选定内切酶对N个基因组DNA分别进行酶切反应,获得N份酶切片段,所述N为大于2的整数;
2)接头连接:对所述N份酶切片段分别连接接头,即设计N对接头组合,得到N份连接产物,每份酶切片段两端连接的接头均设计有SapI酶的酶切位点和用于实现标签串联的特征序列以及扩增引物结合的通用序列,根据所添加的接头决定了N组酶切片段的串联顺序;
3)连接产物扩增:将步骤2)所得到的N份连接产物分别利用不同的生物素引物和普通引物组合进行PCR扩增,富集连接有接头的酶切片段,切胶回收PCR产物,采用同样的方法扩增4-8个循环,扩增后得到N份富集的PCR产物;将所述N份富集的PCR产物等量混合,并进行纯化;
4)串联标签文库:利用SapI酶对混合并纯化后的N份PCR产物进行酶切,切除了酶切片段两端通用的接头和引物序列,使接头上带有的特征序列保留并形成末端粘性突出,N份PCR产物形成了可直接串联的标签,根据接头上的特征序列互补配对,使N份标签文库按照顺序依次串联,得串联长标签;
5)串联长标签富集:将所述串联长标签经凝胶纯化后利用引物进行PCR扩增,引入barcode构建串联标签文库;
6)文库测序:将所述串联标签文库利用Illunima测序平台进行测序。
2.根据权利要求1所述的一种串联RAD标签测序文库的构建方法,其特征在于,所述步骤1)中内切酶是IIB型限制性内切酶、甲基修饰依赖型内切酶中的一种或几种。
3.根据权利要求1所述的一种串联RAD标签测序文库的构建方法,其特征在于,步骤2)中所述接头的设计特征在于,以5对接头为例,五对接头组合分别为Ada1a和Ada1b,Ada2a和Ada2b,Ada3a和Ada3b,Ada4a和Ada4b,Ada5a和Ada5b,每个接头由两个核苷酸片段组成,接头Ada1a和Ada5b的序列中SapI的酶切位点设计了一个基的突变,不能被酶切,利用SapI酶对五种混合标签的PCR产物酶切时,酶切标签的两端接头Ada2a和Ada2b、Ada3a和Ada3b、Ada4a和Ada4b以及Ada1b和Ada5a侧的接头及引物通用序列能被SapI酶切除,使五种标签片段两侧带有的三碱基特征序列形成末端粘性突出,根据特征序列的互补配对,实现五种标签首尾依次串联,即Ada1b端与Ada2a端连接,Ada2b端与Ada3a端连接,Ada3b端与Ada4a端连接,Ada4b端与Ada5a端连接,从而形成串联标签,而串联标签上Ada1a和Ada5b接头端的通用序列仍然保留,为下一步串联标签的扩增富集提供引物的结合点。
4. 根据权利要求3所述的一种串联RAD标签测序文库的构建方法,其特征在于,所述步骤2)中,构成Ada1a的两个核苷酸片段,其序列分别为SEQ ID NO:1和SEQ ID NO:2;构成Ada1b的两个核苷酸片段,其序列分别为SEQ ID NO:3和SEQ ID NO:4;构成Ada2a的两个核苷酸片段,其序列分别为SEQ ID NO:5和SEQ ID NO:6;构成Ada2b的两个核苷酸片段,其序列分别为SEQ ID NO:7和SEQ ID NO:8;构成Ada3a的两个核苷酸片段,其序列分别为SEQ ID NO:9和SEQ ID NO:10;构成Ada3b的两个核苷酸片段,其序列分别为SEQ ID NO:11和SEQ ID NO:12;构成Ada4a的两个核苷酸片段,其序列分别为SEQ ID NO:13和SEQ ID NO:14;构成Ada4b的两个核苷酸片段,其序列分别为SEQ ID NO:15和SEQ ID NO:16;构成Ada5a的两个核苷酸片段,其序列分别为SEQ ID NO:17和SEQ ID NO:18;构成Ada5b的两个核苷酸片段,其序列分别为SEQ ID NO:19和SEQ ID NO:20。
5.根据权利要求4所述的一种串联RAD标签测序文库的构建方法,其特征在于,所述步骤3)中生物素引物和普通引物组合的选择对应步骤2)中的接头组合,以5对接头为例,接头
1连接的酶切片段使用引物Prim1和BioPrim1扩增,接头2、3、4连接的酶切片段使用引物BioPrim1和BioPrim2扩增,接头5连接的酶切片段使用引物BioPrim1和Prim2扩增。
6. 根据权利要求5所述的一种串联RAD标签测序文库的构建方法,其特征在于,所述Prim1的核苷酸序列为SEQID NO:21;Prim2的核苷酸序列为SEQID NO:22;BioPrim1的核苷酸序列为SEQID NO:23;BioPrim2的核苷酸序列为SEQID NO:24。
7. 根据权利要求6所述的一种串联RAD标签测序文库的构建方法,其特征在于,所述步骤5)中的引物的核苷酸序列分别为SEQ ID NO:25和SEQ ID NO:26。

说明书全文

一种串联RAD标签测序文库的构建方法

技术领域

[0001] 本发明属于分子生物学DNA遗传标记及DNA甲基化检测技术领域,具体涉及一种串联RAD标签测序文库的构建方法。

背景技术

[0002] 近些年来,高通量测序技术的迅猛发展极大地推动了动植物基因组学研究的深度和广度。简化基因组技术是利用限制性内切酶降低基因组复杂度的基因组测序分析技术。由于其使用一定大小的酶切片段所对应的序列作为整个基因组序列的部分代表,降低了基因组的复杂性并且成本低、不依赖于参考基因组信息,这些优势使得对基因组信息相对匮乏的非模式生物开展组学分析成为可能,已被广泛的应用于遗传图谱构建、数量性状定位、群体遗传学分析、系统进化分析和辅助基因组组装等研究中。目前限制性酶切位点相关DNA测序技术(restriction-site-associated DNA sequencing,RAD-seq)是该领域内的代表性技术。但由于RAD技术建库流程复杂,片段长度不一等,许多改进技术应运而生。其中基于ⅡB型限制性DNA内切酶的2b-RAD技术,可产生等长的33bp标签,具有一致的扩增效率,不仅可以提高分型准确率,还能通过选择性基实现标签密度的灵活控制,能适用于不同的研究方向和需求,具有更为广泛的应用前景。其后发展的MethylRAD技术进一步将该类技术的应用方向拓展至表观遗传领域,该技术利用甲基修饰依赖型内切酶(Mrr-like enzyme)可产生等长标签的特性,通过对获取甲基化标签的高通量测序,实现全基因组范围DNA甲基化的精确定量。
[0003] 随着二代测序技术平台的技术革新和快速发展,在相同数据量的前提下,长读长相比短读长具有更低的测序成本及更广泛的应用。已有的2b-RAD或MethylRAD技术的局限性在于,因其文库构建所产生的标签长度较短(~35bp),仅能被用于单端35-50bp测序,而无法被应用于更具成本优势的双末端长读长测序(如PE100-150bp测序)。
[0004] 另外,在基因表达分析领域中应用的基因表达系列分析技术(serial analysis of gene expression,SAGE)是将转录本的代表标签连接形成长短不一的多联体分析,但该技术无法有效控制串联标签的数目以及标签的连接顺序,并且对串联DNA序列的分析方法也是克隆到质粒载体中进行测序分析,并未提出在二代测序平台上实现顺序串联三个以上标签的测序文库构建方案,并且测序文库可同时实现SNP分型和甲基化检测。

发明内容

[0005] 为解决上述难题,本发明提出了一种串联RAD标签测序文库的构建方法,可实现对多个标签构建串联测序文库,解决了2b-RAD或MethylRAD技术无法应用于双末端测序平台的局限,使得标签测序成本大大降低,实现对全基因组范围遗传标记和表观遗传变异进行高通量、低成本地筛查和检测。
[0006] 为实现上述目的,本发明采用以下技术方案予以实现。
[0007] 一种串联RAD标签测序文库的构建方法,步骤为:
[0008] 1)酶切:利用选定内切酶对N个基因组DNA分别进行酶切反应,获得N份酶切片段,所述N为大于2的整数;
[0009] 2)接头连接:对所述N份酶切片段分别连接接头,即设计N对接头组合,得到N份连接产物,每份酶切片段两端连接的接头均设计有SapI酶的酶切位点和用于实现标签串联的特征序列以及扩增引物结合的通用序列,根据所添加的接头决定了N组酶切片段的串联顺序;
[0010] 3)连接产物扩增:将步骤2)所得到的N份连接产物分别利用不同的生物素引物和普通引物组合进行PCR扩增,富集连接有接头的酶切片段,切胶回收PCR产物,采用同样的方法扩增4-8个循环,扩增后得到N份富集的PCR产物;将所述N份富集的PCR产物等量混合,并进行纯化;
[0011] 4)串联标签文库:利用SapI酶对混合并纯化后的N份PCR产物进行酶切,切除了酶切片段两端通用的接头和引物序列,使接头上带有的特征序列保留并形成末端粘性突出,N份PCR产物形成了可直接串联的标签,根据接头上的特征序列互补配对,使N份标签文库按照顺序依次串联,得串联长标签;
[0012] 5)串联长标签富集:将所述串联长标签经凝胶纯化后利用引物进行PCR扩增,引入barcode构建串联标签文库;
[0013] 6)文库测序:将所述串联标签文库利用Illunima测序平台进行测序。
[0014] 为了实现对识别位点的上下游双链产生切割,产生具有粘性末端的33-35bp长度的等长标签,所述步骤1)中内切酶是IIB型限制性内切酶、甲基修饰依赖型内切酶中的一种或几种。
[0015] 为了实现多个标签首尾依次串联,并为下一步串联标签的扩增富集提供引物的结合点,步骤2)中所述接头的设计特征在于,以5对接头为例,五对接头组合分别为Ada1a和Ada1b,Ada2a和Ada2b,Ada3a和Ada3b,Ada4a和Ada4b,Ada5a和Ada5b,每个接头由两个核苷酸片段组成,接头Ada1a和Ada5b的序列中SapI的酶切位点设计了一个碱基的突变,不能被酶切,利用SapI酶对五种混合标签的PCR产物酶切时,酶切标签的两端接头Ada2a和Ada2b、Ada3a和Ada3b、Ada4a和Ada4b以及Ada1b和Ada5a侧的接头及引物通用序列能被SapI酶切除,使五种标签片段两侧带有的三碱基特征序列形成末端粘性突出,根据特征序列的互补配对,实现五种标签首尾依次串联,即Ada1b端与Ada2a端连接,Ada2b端与Ada3a端连接,Ada3b端与Ada4a端连接,Ada4b端与Ada5a端连接,从而形成串联标签,而串联标签上Ada1a和Ada5b接头端的通用序列仍然保留,为下一步串联标签的扩增富集提供引物的结合点。
[0016] 进一步的,所述步骤2)中,构成Ada1a的两个核苷酸片段,其序列分别为SEQ ID NO:1和SEQ ID NO:2;构成Ada1b的两个核苷酸片段,其序列分别为SEQ ID NO:3和SEQ ID NO:4;构成Ada2a的两个核苷酸片段,其序列分别为SEQ ID NO:5和SEQ ID NO:6;构成Ada2b的两个核苷酸片段,其序列分别为SEQ ID NO:7和SEQ ID NO:8;构成Ada3a的两个核苷酸片段,其序列分别为SEQ ID NO:9和SEQ ID NO:10;构成Ada3b的两个核苷酸片段,其序列分别为SEQ ID NO:11和SEQ ID NO:12;构成Ada4a的两个核苷酸片段,其序列分别为SEQ ID NO:13和SEQ ID NO:14;构成Ada4b的两个核苷酸片段,其序列分别为SEQ ID NO:15和SEQ ID NO:16;构成Ada5a的两个核苷酸片段,其序列分别为SEQ ID NO:17和SEQ ID NO:18;构成Ada5b的两个核苷酸片段,其序列分别为SEQ ID NO:19和SEQ ID NO:20。
[0017] 为了实现在后续纯化过程中去除SapI酶切掉的通用引物片段,获得游离的用于串联的标签片段,有效避免多余的片段干扰串联反应,使标签串联的效率更高,所述步骤3)中生物素引物和普通引物组合的选择对应步骤2)中的接头组合,以5对接头为例,接头1连接的酶切片段使用引物Prim1和BioPrim1扩增,接头2、3、4连接的酶切片段使用引物BioPrim1和BioPrim2扩增,接头5连接的酶切片段使用引物BioPrim1和Prim2扩增。
[0018] 进一步的,所述Prim1的核苷酸序列为SEQID NO:21;Prim2的核苷酸序列为SEQID NO:22;BioPrim1的核苷酸序列为SEQID NO:23;BioPrim2的核苷酸序列为SEQID NO:24。
[0019] 为了使串联标签文库具有测序平台兼容的文库序列结构,进一步利用Barcode引物对串联标签进行扩增,引入barcode构建测序文库,使其具有在二代测序平台上兼容的测序引物结合位点,所述步骤5)中的引物的核苷酸序列分别为SEQ ID NO:25和SEQ ID NO:26。
[0020] 与现有技术相比,本发明的优点和积极效果是:本发明建立了串联RAD标签测序文库的构建方法,是在2b-RAD和MethylRAD的技术基础上,对接头进行了重新设计,调整了相应建库实验步骤和反应体系,增加了一步酶切连接反应,实现了将2b-RAD或MethylRAD等长短标签的串联形成长片段,从而适用于双末端长读长的测序(如Illumina PE100-150bp测序),有效降低了建库测序成本,其中建库成本降低20%,测序成本降为原来的1/10。另外,所串联的多种标签的组合可灵活设置,可根据使用者的需求来确定为不同样品、不同酶或不同应用(SNP分型或DNA甲基化平检测)的组合。多酶文库的组合在降低成本的同时增加了基因组的标签密度,因此本发明提供了一种高效、灵活的全基因组遗传变异和表观遗传变异筛查和检测的手段。附图说明
[0021] 图1 Multi-isoRAD方法的流程及原理示意图。

具体实施方式

[0022] 本实施例建立了串联RAD标签测序文库的构建方法(简称串联标签测序技术,或Multi-isoRAD技术),可实现对多个RAD标签构建串联测序文库,能够应用于双末端测序平台,解决了2b-RAD或MethylRAD技术的局限,使得标签测序成本大大降低。
[0023] 本实施例中串联标签测序文库的构建方法按照以下步骤完成(以五个个体标签串联为例):
[0024] 1)制备五份生物样品的基因组DNA,分别进行酶切反应:
[0025] 提取生物的基因组DNA,于4℃冷藏保存备用;对五份样品分别利用内切酶对基因组进行酶切反应,得到五份酶切片段,产生的标签中DNA 5’端都带有一个三碱基突出。
[0026] 所述内切酶可以是IIB型限制性内切酶和/或甲基修饰依赖型内切酶,所述IIB型限制性内切酶包括但不限于BsaXI、BcgI、BaeI、AguI、AlfI或CspCI;所述甲基修饰依赖型内切酶包括但不限于FspEI、MspJI、LpnPI、AspBHI、RIaI或SgrTI。两类酶的特性都是对识别位点的上下游双链产生切割,产生具有粘性末端的33-35bp长度的等长标签。
[0027] 酶切体系为15μL,其中包含200ng基因组DNA,1U的内切酶(NEB),1×cutsmart,在37℃下保温45min。
[0028] 2)设计有粘性末端的接头,连接标签:
[0029] 对上述五份酶切反应分别连接接头,每份酶切片段两端连接的接头均设计有SapI酶的酶切位点和用于实现标签串联的特征序列(三碱基组合)以及扩增引物结合的通用序列。根据所添加的接头决定了五组酶切片段的串联顺序。
[0030] 本实施例中所述特征序列是指三个碱基的组合,遵循的原则为接头Ada1b上的三个碱基与接头Ada2a的三个碱基互补配对,接头Ada2b上的三个碱基与接头Ada3a的三个碱基互补配对,接头Ada3b上的三个碱基与接头Ada4a的三个碱基互补配对,接头Ada4b的三个碱基与接头Ada5a的三个碱基互补配对,以保证酶切片段的顺序串联,例如接头Ada1b上的三个碱基为5'-CGA-3',接头Ada2a的三个碱基5'-TCG-3',遵循互补配对原则。
[0031] SapI的酶切识别位点为 本实施例在识别位点CGAGAAG的5’端设计了三碱基的特征序列,切割后特征序列可形成5’端粘性末端突出,借助五对接头上的粘性末端突出的互补配对串联标签。
[0032] 由于步骤2)得到的酶切片段中DNA 5’端都带有一个三碱基突出,本实施例设计了相对应的五对接头,所述接头DNA3’端带3个兼并碱基,可以进行五组不同的连接反应,得到五份连接产物。五个标签所用接头如表1所示。
[0033] 所述兼并碱基即NNN,N即为兼并碱基,代表四种碱基A、G、C、T任意一种,BsaXI酶切基因组后产生的标签带有三个碱基随机组合的粘性末端,因此此处的接头设计有3个兼并碱基为了使接头能够与基因组中的标签通过粘性末端连接。
[0034] 连接反应体系为20μL,其中包含10μL步骤1)中酶切片段,200U T4DNA连接酶(NEB),1×T4Ligase Buffer,4μmol/L AdaA,4μmol/L AdaB,10mmol/L三磷酸腺苷ATP,16℃连接反应1h。
[0035] 表1不同标签使用的接头
[0036]标签位置 AdaA AdaB
1 Ada1a Ada1b
2 Ada2a Ada2b
3 Ada3a Ada3b
4 Ada4a Ada4b
5 Ada5a Ada5b
[0037] 如表1所示五对接头分别为Ada1a和Ada1b,Ada2a和Ada2b,Ada3a和Ada3b,Ada4a和Ada4b,Ada5a和Ada5b,每个接头由两个核苷酸片段组成,其中构成Ada1a的两个核苷酸片段,其序列分别为SEQ ID NO:1和SEQ ID NO:2;构成Ada1b的两个核苷酸片段,其序列分别为SEQ ID NO:3和SEQ ID NO:4;构成Ada2a的两个核苷酸片段,其序列分别为SEQ ID NO:5和SEQ ID NO:6;构成Ada2b的两个核苷酸片段,其序列分别为SEQ ID NO:7和SEQ ID NO:8;构成Ada3a的两个核苷酸片段,其序列分别为SEQ ID NO:9和SEQ ID NO:10;构成Ada3b的两个核苷酸片段,其序列分别为SEQ ID NO:11和SEQ ID NO:12;构成Ada4a的两个核苷酸片段,其序列分别为SEQ ID NO:13和SEQ ID NO:14;构成Ada4b的两个核苷酸片段,其序列分别为SEQ ID NO:15和SEQ ID NO:16;构成Ada5a的两个核苷酸片段,其序列分别为SEQ ID NO:17和SEQ ID NO:18;构成Ada5b的两个核苷酸片段,其序列分别为SEQ ID NO:19和SEQ ID NO:20。五对接头的设计特征在于:接头序列中包含SapI的酶切位点和用于实现标签串联的特征序列(三碱基组合)以及扩增引物结合的通用序列,但接头Ada1a和Ada5b的序列中SapI的酶切位点设计了一个碱基的突变,不能被酶切。因此利用SapI酶(NEB)对五种混合标签的PCR产物酶切时,酶切标签的两端接头Ada2a和Ada2b、Ada3a和Ada3b、Ada4a和Ada4b以及Ada1b和Ada5a侧的接头及引物通用序列能被SapI酶切除,使五种标签片段两侧带有的三碱基特征序列形成末端粘性突出,根据特征序列的互补配对,实现五种标签首尾依次串联,即Ada1b端与Ada2a端连接,Ada2b端与Ada3a端连接,Ada3b端与Ada4a端连接,Ada4b端与Ada5a端连接,从而形成串联标签,而串联标签上Ada1a和Ada5b接头端的通用序列仍然保留,为下一步串联标签的扩增富集提供引物的结合点。
[0038] 其中构成Ada1a的两个核苷酸序列为
[0039] 5'-ACACTCTTTCCCTACACGACGCTGTTCCGATCTNNN-3'(SEQID NO:1)和
[0040] 5'-AGATCGGAACAGC-3'(SEQID NO:2);
[0041] Ada1b的核苷酸序列为5'-GTGACTGGAGTTCAGACGTGTGCTCTTCACGANNN-3'(SEQID NO:3)和5'-TCGTGAAGAGCAC-3'(SEQID NO:4);
[0042] Ada2a的核苷酸序列为5'-ACACTCTTTCCCTACACGACGCTCTTCATCGNNN-3'(SEQID NO:5)和5'-CGATGAAGAGCGT-3'(SEQID NO:6);
[0043] Ada2b的核苷酸序列为5'-GTGACTGGAGTTCAGACGTGTGCTCTTCAGCANNN-3'(SEQID NO:7)和5'-TGCTGAAGAGCAC-3'(SEQID NO:8);
[0044] Ada3a的核苷酸序列为5'-ACACTCTTTCCCTACACGACGCTCTTCATGCNNN-3'(SEQID NO:9)和5'-GCATGAAGAGCGT-3'(SEQID NO:10);
[0045] Ada3b的核苷酸序列为5'-GTGACTGGAGTTCAGACGTGTGCTCTTCAGACNNN-3'(SEQID NO:11)和5'-TCGTGAAGAGCAC-3'(SEQID NO:12);
[0046] Ada4a的核苷酸序列为5'-ACACTCTTTCCCTACACGACGCTCTTCAGTCNNN-3'(SEQID NO:13)和5'-GACTGAAGAGCGT-3'(SEQID NO:14);
[0047] Ada4b的核苷酸序列为5'-GTGACTGGAGTTCAGACGTGTGCTCTTCACAGNNN-3'(SEQID NO:15)和5'-CTGTGAAGAGCAC-3'(SEQID NO:16);
[0048] Ada5a的核苷酸序列为5'-ACACTCTTTCCCTACACGACGCTCTTCACTGNNN-3'(SEQID NO:17)和5'-CAGTGAAGAGCGT-3'(SEQID NO:18);
[0049] Ada5b的核苷酸序列为5'-GTGACTGGAGTTCAGACGTGTGCTGTTCCGATCTNNN-3'(SEQID NO:19)和5'-AGATCGGAACAGC-3'(SEQID NO:20)。
[0050] 3)连接产物扩增,富集标签:
[0051] 将步骤2)所得到的五份连接产物分别利用不同的生物素引物和普通引物组合进行PCR扩增,富集连接有接头的酶切片段,扩增后得到五份富集的PCR产物。
[0052] 所述的引物组合,其核苷酸序列分别为SEQ ID NO:21,SEQ ID NO:22,SEQ ID NO:23和SEQ ID NO:24。引物组合的设计特征在于,引物组合的选择对应步骤2)中的接头组合,如表2所示,接头1连接的酶切片段使用引物Prim1和BioPrim1扩增,接头2、3、4连接的酶切片段使用引物BioPrim1和BioPrim2扩增,接头5连接的酶切片段使用引物BioPrim1和Prim2扩增,即能被SapI酶切掉的接头序列在扩增时结合的引物均为生物素引物,其目的在于利用磁珠纯化能够去除SapI酶切掉的通用引物片段,获得游离的用于串联的标签片段,有效避免了多余的片段干扰串联反应,使标签串联的效率更高。
[0053] PCR反应体系均为50μL,包含18μL反应模板,8μmol/L PrimerA引物,8μmol/L PrimerB引物,12mmol/L dNTPs(脱核糖核苷三磷酸)(NEB),0.8U Phusion超保真DNA聚合酶(NEB),1×HF buffer。反应条件均为98℃变性反应5s,60℃退火20s,72℃延伸10s,每个反应进行16个循环。
[0054] 扩增后的PCR产物用8%非变性聚丙烯酰胺琼凝胶电泳检测,扩增产物大小约为100bp。切胶回收PCR产物。将回收的产物再次进行扩增,方法同上,扩增4-8个循环。将五份经多次扩增的产物等量混合,使用Qiagen公司的MinElute PCR kit进行纯化,去除多余的引物、Phusion酶及dNTP等成分避免影响后续反应。
[0055] 表2不同标签使用的引物
[0056]标签位置 PrimerA PrimerB
1 Prim1 BioPrim2
2 BioPrim1 BioPrim2
3 BioPrim1 BioPrim2
4 BioPrim1 BioPrim2
5 BioPrim1 Prim2
[0057] 其中Prim1的核苷酸序列为
[0058] 5'-ACACTCTTTCCCTACACGACGCT-3'(SEQID NO:21);
[0059] Prim2的核苷酸序列为
[0060] 5'-GTGACTGGAGTTCAGACGTGTGCT-3'(SEQID NO:22);
[0061] BioPrim1的核苷酸序列为(biotin)
[0062] 5'-ACACTCTTTCCCTACACGACGCT-3'(SEQID NO:23);
[0063] BioPrim2的核苷酸序列为(biotin)5'-GTGACTGGAGTTCAGACGTGTGCT-3'(SEQID NO:24)。
[0064] 4)五份标签文库串联:
[0065] 利用SapI酶对混合并纯化后的五份PCR产物进行酶切,切除了酶切片段两端通用的接头和引物序列,使接头上带有的三碱基特征序列保留并形成末端粘性突出,五份PCR产物形成了可直接串联的标签,根据五对接头上的三碱基的互补配对,使五份标签文库按照顺序依次串联。
[0066] 酶切体系为30μL:包含10μL上述混合并纯化后的PCR产物(含有PCR产物100-300ng),2U SapI酶(NEB),30mmol/L三磷酸腺苷ATP,1×Tango buffer;酶切反应在37℃下保温30min。
[0067] 在此期间进行磁珠的平衡:将磁珠(Hydrophilic Streptavidin Magnetic Beads,NEB)轻轻摇匀,吸出10μL至微量离心管中,放在磁架上静置2min,吸去上清,用20μL1×cutsmart buffer仔细洗涤两次,每次洗涤结束时在磁力架上静置2min,吸去上清液,得到平衡好的磁珠备用。
[0068] 酶切反应30min后,将30μL的酶切产物加入到上述平衡好的磁珠中,于室温放置5min,期间不断用移液器吹吸混匀。5min后放置于磁力架上,静置2min,将上清转移至新的微量离心管中,加入200U的T4DNA连接酶,16℃保温45min,得到串联后的标签文库。
[0069] 利用8%非变性聚丙烯酰胺琼凝胶电泳检测,连接产物大小约为244bp,切胶回收连接产物。
[0070] 5)PCR扩增,串联长标签富集,引入文库特异性Barcode
[0071] 为了使串联标签文库具有测序平台兼容的文库序列结构,需要进一步利用Barcode引物对串联标签进行扩增,引入barcode构建测序文库,使其具有在二代测序平台上兼容的测序引物结合位点。
[0072] PCR扩增反应体系为50μL,包含7.5μL步骤4)中的连接产物,5μmol/L Slx-Primer3引物,5μmol/L Slx-Index Primer引物,12mmol/L dNTPs(NEB),0.8U Phusion超保真DNA聚合酶(NEB),1×HF buffer。反应条件为98℃变性5s,60℃退火20s,72℃延伸10s,进行4-6个循环,得到PCR扩增产物。平行扩增两管连接产物。
[0073] PCR扩增产物用8%非变性聚丙烯酰胺凝胶电泳检测,扩增产物大小约为299bp,利用Qiagen公司的MinElute PCR产物纯化试剂盒回收纯化PCR产物。利用Illunima公司Hiseq测序平台测序。
[0074] 其中引物Primer3的核苷酸序列为
[0075] 5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCT-3'(SEQID NO:25);
[0076] 引物Index Primer的核苷酸序列为
[0077] 5'-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'(SEQID NO:26),其中NNNNNN可根据不同的Barcode序列改变。
[0078] 6)数据分析:
[0079] (1)对Illunima测序得到的原始数据进行质量过滤,去除含有N的序列以及大于5个碱基的质量值小于10的reads;
[0080] (2)根据酶切位点所在的位置对串联序列进行拆分,分别提取出五个样品文库的BsaXI标签序列;
[0081] (3)利用已有生物信息学软件(如开放获取软件Stacks、RADtyping等)对五个样品的标签序列进行数据分析,获得样品基因组中的SNP位点或甲基化信息。
[0082] 本实施例建立的文库构建方法不仅为串联标签进行二代高通量测序提供了解决方案,还能实现标签串联数目及连接顺序的可控,并且是RAD类技术中首例将等长RAD标签顺序串联进行测序的建库方法。同时,所串联的多种标签的组合可灵活设置,可根据使用者的需求来确定为不同样品、不同酶或不同应用(SNP分型或DNA甲基化水平检测)的组合。该技术将等长RAD标签测序技术与目前主流的、低成本的双末端测序方法相结合,提供了更为高效、灵活的全基因组遗传变异和表观遗传变异筛查和检测的手段。
[0083] 实施例1
[0084] 下面以虾夷扇贝为实验材料,对不同类型的标签文库串联测序为例详细叙述本实施例的建库方法,对于本实施例所用的试剂以及反应条件等,本领域的技术人员可以根据本实施例的技术方案,在现有技术中进行选择,而不仅限于本实施例具体实施例的限制。
[0085] 1、提取扇贝基因组DNA
[0086] 取一只虾夷扇贝的闭壳肌约0.1克,加入到500μLSTE裂解缓冲液中,所述STE裂解缓冲液包括NaCl:100mmol/L;EDTA:1mmol/L,pH=8.0;Tris-HCl,10nmol/L,pH=8.0,剪碎,再加入50μL 10%的SDS(十二烷基硫酸钠),以及5μL蛋白酶K(20mg/mL),56℃水浴消化,至组织碎完全裂解,裂解液澄清。加入等体积的饱和酚(250μL)以及氯仿/异戊醇(体积比为24:1)(250μL),抽提3次,取上清液,加入等体积氯仿/异戊醇(24:1)(500μL)抽提1次,取上清液,加入1/10体积CH3COONa(3mol/L,pH 5.2)(50μL)和2倍体积-20℃保存无水乙醇(1000μL),缓慢摇匀;-20℃沉淀30min,然后12000rpm离心10min,核酸将沉淀于管底。用体积浓度为70%的乙醇(1000μL)洗涤沉淀并干燥至乙醇全部挥发,加入100μL无菌水以及少量(1-2μL)RNaseA(核糖核酸酶),4℃箱保存备用。
[0087] 2、扇贝基因组DNA的消化
[0088] 选择三种IIB型限制性内切酶(BsaXI、BcgI、BaeI)和两种甲基修饰依赖型内切酶(FspEI、MspJI)酶切基因组DNA,获得五种不同类型的酶切产物。
[0089] 酶切体系为15μL,包含200ng基因组DNA,1U的内切酶(NEB),1×cutsmart。酶切反应温度为37℃,保温45min。
[0090] 3、在酶切片段的两端分别连接上接头,作为扩增引物的结合点
[0091] 对五份酶切产物分别连接不同的接头组合,如表3所示,获得五份连接产物。
[0092] 连接反应体系为20μL,包含10μL步骤2中的酶切产物,200U T4DNA连接酶(NEB),1×T4Ligase Buffer,4μmol/L Slx-AdaA,4μmol/L Slx-AdaB,10mmol/L三磷酸腺苷ATP。连接反应温度为16℃,连接1h。
[0093] 表3实施例1中五份酶切产物所连接的接头组合
[0094]标签位置 Slx-AdaA Slx-AdaB
标签1(BsaXI) Ada1a Ada1b
标签2(BcgI) Ada2a Ada2b
标签3(BaeI) Ada3a Ada3b
标签4(FspEI) Ada4a Ada4b
标签5(MspJI) Ada5a Ada5b
[0095] 4、将连接上接头的酶切片段进行PCR扩增,富集标签
[0096] 对步骤3中获得的五份连接产物按照表4提供的引物组合进行PCR扩增,富集酶切片段,获得五份PCR产物。
[0097] PCR扩增反应体系均为50μL,包含18μL反应模板,8μmol/L PrimerA引物,8μmol/L PrimerB引物,12mmol/L dNTPs(NEB),0.8U Phusion超保真DNA聚合酶(NEB),1×HF buffer。反应条件均为98℃变性5s,60℃退火20s,72℃延伸10s,进行16个循环。
[0098] 其中PrimerA引物为(5'-ACACTCTTTCCCTACACGACGCT-3');PrimerB引物为(5'-GTGACTGGAGTTCAGACGTGTGCT-3');
[0099] 表4实施例1中进行PCR扩增的引物组合
[0100]标签位置 PrimerA PrimerB
标签1(BsaXI) Prim1 BioPrim2
标签2(BcgI) BioPrim1 BioPrim2
标签3(BaeI) BioPrim1 BioPrim2
标签4(FspEI) BioPrim1 BioPrim2
标签5(MspJI) BioPrim1 Prim2
[0101] 五份PCR产物用8%非变性聚丙烯酰胺琼凝胶电泳检测,扩增产物大小约为100bp,切胶回收五份PCR产物。将回收的五份PCR产物分别再次进行扩增富集,体系如上,扩增7个循环得最终的PCR产物。将五份最终的PCR产物等体积混合,使用Qiagen公司的MinElute PCRkit进行纯化,获得一份PCR纯化产物。
[0102] 5、酶切连接
[0103] 使用SapI酶对混合PCR产物进行酶切,使酶切片段形成可串联的标签文库。酶切体系为30μL:包含10μL步骤4中的PCR纯化产物,2U SapI酶(NEB),30mmol/L三磷酸腺苷ATP,1×Tango buffer;37℃保温30min后,将30μL的酶切产物加入到平衡好的磁珠中,于室温放置5min,期间不断用移液器吹吸混匀。5min后放置于磁力架上,静置2min,将上清转移至新的微量离心管中,加入200U的T4DNA连接酶,16℃保温45min,使标签按照顺序进行串联。
[0104] 磁珠平衡步骤:将磁珠(Hydrophilic Streptavidin Magnetic Beads,NEB)轻轻摇匀,吸出10μL至微量离心管中,放在磁力架上静置2min,吸去上清,用20μL1×cutsmart buffer仔细洗涤两次,每次洗涤结束时在磁力架上静置2min,吸去上清液。
[0105] 30min后,利用8%非变性聚丙烯酰胺琼凝胶电泳检测串联标签产物,连接产物大小约为244bp,切胶回收连接产物。
[0106] 6、PCR扩增,引入文库特异性Barcode
[0107] 串联标签产物利用引物进一步扩增,引入Barcode和Illunima平台测序所需要的通用序列。
[0108] PCR反应体系为50μL,包含7.5μL连接产物,5μmol/L Slx-Primer3引物,5μmol/LSlx-Index Primer引物,12mmol/L dNTPs,0.8U Phusion超保真DNA聚合酶(NEB),1×HF buffer。反应条件为98℃变性5s,60℃退火20s,72℃延伸10s,进行7个循环。平行扩增两管。
[0109] 其中Slx-Primer3引物序列为
[0110] (5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCT-3');
[0111] Slx-Index Primer引物序列为
[0112] (5'-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3',其中NNNNNN可根据不同的Barcode序列改变。
[0113] PCR产物用8%非变性聚丙烯酰胺凝胶电泳检测,扩增产物大小约为299bp,利用Qiagen公司的MinElute PCR产物纯化试剂盒回收纯化PCR产物。利用IllunimaHiseq测序平台测序。
[0114] 7、数据分析:
[0115] 1)对Illunima测序得到的原始数据进行质量过滤,去除含有N的序列以及大于5个碱基的质量值小于10的reads,测序的串联文库高质量Reads所占比例在98.9%。
[0116] 2)根据酶切位点所在的位置对串联序列进行拆分,分别提取出五种文库的标签序列;其中BsaXI文库含有酶切位点的标签提取率为90.3%;Bcg I文库含有酶切位点的标签提取率为93.4%;BaeI文库含有酶切位点的标签提取率为90.1%;FspEI文库含有酶切位点的标签提取率为90.0%;MspJI文库含有酶切位点的标签提取率为92.2%,几种类型的文库含有酶切位点的标签提取率均在90%以上,表明所构建的标签文库能够按照既定的顺序依次串联。
[0117] 3)利用已有生物信息学软件对五个文库的标签序列进行数据分析。基于RAD-typing软件对2b-RAD文库的标签序列进行比对后分型,获得酶切标签的数目及样品基因组中的SNP位点信息。与标准的单标签文库结果相比,串联标签的测序文库获得的标签种类覆盖了基因组93.15%的单拷贝位点,其中96.02%的位点与单标签文库相同,与单标签文库相比分型一致率达到99.2%,对串联标签中的MethylRAD甲基化文库数据利用CD-HIT软件对高质量标签序列进行聚类分析,获得测序文库中的甲基化标签种类以及该代表标签的丰度,即该位点的甲基化水平信息。结果获得基因组中FspEI甲基化标签130162个,覆盖了单标签文库90.6%的位点,MspJI甲基化标签260545个,覆盖了单标签文库91.4%的位点,两个串联甲基化标签文库与单标签文库对位点的甲基化水平定量的一致性均达到了0.90以上。
[0118] 综上结果表明,2b-RAD类型文库利用串联标签测序的建库方法能够获得可靠的SNP信息,MethylRAD甲基化文库利用串联标签测序的建库方法能够获得全面的甲基化位点及可靠的甲基化水平信息。
[0119] 本实施例通过实现对不同类型的标签构建串联测序文库,解决了2b-RAD或MethylRAD技术无法应用于双末端测序平台的局限,使得标签测序成本大大降低。同时,所串联的五种标签的组合可根据使用者的需求灵活设置,为研究者提供了更为高效、灵活的全基因组遗传变异和表观遗传变异筛查和检测的手段。
[0120] 表5本实施例中涉及的引物序列表
[0121]
[0122]
QQ群二维码
意见反馈