首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 构建简化基因组文库的方法及试剂盒

构建简化基因组文库的方法及试剂

申请号 CN201611193343.X 申请日 2016-12-21 公开(公告)号 CN106676099B 公开(公告)日 2019-07-02
申请人 中国水稻研究所; 发明人 王克剑; 刘庆;
摘要 本 发明 提供了一种构建简化基因组文库的方法及 试剂 盒 。该方法包括:利用第一对引物对全基因组进行非特异性扩增,得到随机扩增 片段 ;利用第二对引物对随机扩增片段进行特异性扩增,得到简化基因组文库。该方法利用非特异性扩增在基因组上存在随机性的特点,无需高 质量 或高浓度的DNA,无需繁琐的酶切建库步骤,只需要对样本DNA进行简单的PCR反应,可以随意选择目标片段。通过简单更改PCR 退火 温度 或引物序列就可以灵活控制目标片段在全基因组的 覆盖 区域。该方法步骤简捷易行、灵活度高、成本较低,而且测序结果准确性高。
权利要求

1.一种构建简化基因组文库的方法,其特征在于,所述方法包括:
利用第一对引物对全基因组进行非特异性扩增,得到随机扩增片段
利用第二对引物对所述随机扩增片段进行特异性富集扩增,得到所述简化基因组文库;
所述第一对引物的3’端具有一个或多个简并基。
2.根据权利要求1所述的方法,其特征在于,通过降低所述第一对引物的退火温度的方式,对全基因组进行非特异性扩增,得到所述随机扩增片段。
3.根据权利要求1所述的方法,其特征在于,所述第一对引物沿5’至3’方向依次包括搭桥序列、可选的第一标签序列以及非特异扩增序列,所述非特异扩增序列具有所述简并碱基。
4.根据权利要求3所述的方法,其特征在于,所述简并碱基的数目随所欲得到的所述随机扩增片段的数目的增多而增多。
5.根据权利要求3所述的方法,其特征在于,所述第二对引物沿5’至3’方向依次包括测序接头序列、测序引物序列以及所述搭桥序列。
6.根据权利要求4所述的方法,其特征在于,所述非特异扩增序列的长度为4~25bp。
7.根据权利要求4所述的方法,其特征在于,所述第一标签序列的长度为1~20bp。
8.根据权利要求4所述的方法,其特征在于,所述搭桥序列的长度为15~30bp。
9.根据权利要求3所述的方法,其特征在于,所述第一对引物中的所述非特异扩增序列的来源选自稻、玉米、大麦、小麦、拟南芥、人以及动物中的任意一种。
10.根据权利要求3所述的方法,其特征在于,
所述第一对引物包括第一上游引物和第一下游引物,所述第一上游引物的通式为:
CGACGCTCTTCCGATCTTGACGC(P)p(Q)q,所述第一下游引物的通式为:
GTGTGCTCTTCCGATCTCAGTCC(P’)p’(Q’)q’;或者
所述第一上游引物的通式为:CCTGCGTGTCTCCGACTCAG(P)p(Q)q,所述第一下游引物的通式为:CTATGGGCAGTCGGTGAT(P’)p’(Q’)q’;
其中,SEQ  ID  NO:1:CGACGCTCTTCCGATCTTGACGC或者SEQ  ID  NO:23:
CCTGCGTGTCTCCGACTCAG表示所述第一上游引物中的搭桥序列,(P)p表示所述第一上游引物中p个碱基P形成的所述第一标签序列,P选自A、T、C或G,1≤p≤20,(Q)q表示所述第一上游引物中q个碱基Q形成的非特异性扩增序列,Q选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q≤25;
SEQ ID NO:2:GTGTGCTCTTCCGATCTCAGTCC或者SEQ ID NO:24:CTATGGGCAGTCGGTGAT表示所述第一下游引物中的搭桥序列,(P’)p’表示所述第一下游引物中p’个碱基P’形成的所述第一标签序列,P’选自A、T、C或G,1≤p’≤20,(Q’)q’表示所述第一下游引物中q’个碱基Q’形成的非特异性扩增序列,Q’选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q’≤25。
11.一种构建简化基因组文库的试剂盒,其特征在于,所述试剂盒包括对全基因组进行非特异性扩增的第一对引物和对所述第一对引物的扩增产物进行特异性扩增的第二对引物;所述对全基因组进行非特异性扩增的第一对引物的3’端具有一个或多个简并碱基。
12.根据权利要求11所述的试剂盒,其特征在于,所述第一对引物沿5’至3’方向依次包括搭桥序列、可选的第一标签序列以及非特异扩增序列。
13.根据权利要求12所述的试剂盒,其特征在于,所述第二对引物沿5’至3’方向依次包括测序接头序列、测序引物序列以及所述搭桥序列。
14.根据权利要求12所述的试剂盒,其特征在于,所述非特异扩增序列的长度为4~
25bp。
15.根据权利要求12所述的试剂盒,其特征在于,所述第一标签序列的长度为1~20bp。
16.根据权利要求12所述的试剂盒,其特征在于,所述搭桥序列的长度为15~30bp。
17.根据权利要求12所述的试剂盒,其特征在于,所述第一对引物中的非特异扩增序列的来源选自水稻、玉米、大麦、小麦、拟南芥、人以及动物中的任意一种。
18.根据权利要求12所述的试剂盒,其特征在于,所述第一对引物包括第一上游引物和第一下游引物,所述第一上游引物的通式为:CGACGCTCTTCCGATCTTGACGC(P)p(Q)q,所述第一下游引物的通式为:GTGTGCTCTTCCGATCTCAGTCC(P’)p’(Q’)q’;或者
所述第一上游引物的通式为:CCTGCGTGTCTCCGACTCAG(P)p(Q)q,所述第一下游引物的通式为:CTATGGGCAGTCGGTGAT(P’)p’(Q’)q’;
其中,SEQ  ID  NO:1:CGACGCTCTTCCGATCTTGACGC或者SEQ  ID  NO:23:
CCTGCGTGTCTCCGACTCAG表示所述第一上游引物中的搭桥序列,(P)p表示所述第一上游引物中p个碱基P形成的所述第一标签序列,P选自A、T、C或G,1≤p≤20,(Q)q表示所述第一上游引物中q个碱基Q形成的非特异性扩增序列,Q选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q≤25;
SEQ ID NO:2:GTGTGCTCTTCCGATCTCAGTCC或者SEQ ID NO:24:CTATGGGCAGTCGGTGAT表示所述第一下游引物中的搭桥序列,(P’)p’表示所述第一下游引物中p’个碱基P’形成的所述第一标签序列,P’选自A、T、C或G,1≤p’≤20,(Q’)q’表示所述第一下游引物中q’个碱基Q’形成的非特异性扩增序列,Q’选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q’≤25。

说明书全文

构建简化基因组文库的方法及试剂

技术领域

[0001] 本发明涉及高通量测序文库构建领域,具体而言,涉及一种构建简化基因组文库的方法及试剂盒。

背景技术

[0002] 简化基因组测序是一种利用酶切技术、序列捕获芯片技术或其他实验手段降低物种基因组复杂程度,对部分基因组进行序列测定的高通量测序方法,进而研究基因组各类遗传结构性变异的技术手段,是近几年在二代测序基础上发展起来的一系列技术的总称。具体来说,它是指利用生物信息学方法,设计标记开发方案,富集特异性长度片段,然后应用高通量测序方法获得海量标签序列来代表目标物种全基因组信息的测序方法。这些方法都可以在极短的时间内开发出成千上万的标记,而分子标记是开展遗传作图、关联分析、群体遗传分析以及生态多样性分析等的基础,所以利用简化基因组测序的方法开展科研工作是当前第二代测序方法的一种热应用。目前常见的简化基因组测序方法包括RAD(Restriction site Associated DNA)、GBS(Genotyping By Sequencing)、2b-RAD等方法。
[0003] RAD简化基因组方法,即基于限制位点相关的DNA标记的测序方法。RAD-seq的步骤包括:(A)首先用一种限制性内切酶将基因组DNA分解,在分解的DNA片段上连接P1接头,其中P1接头包含扩增引物位点、Illumina测序引物位点以及连上的不同标签;(B)将连上接头的DNA片段分解;(C)再对打断的片段连接上含有“Y”形结构的P2接头,这样同时连接上P1以及P2接头的RAD标签(tags);(D)并且片段大小在200~500bp左右的片段才可在测序仪上进行测序。RAD-seq可从一端进行测序,也可两端同时测序,现在Illumina平台最大测序输出是150bp,这样两端测序就能输出300bp的数据(DaveyandBlaxter,2011)。
[0004] GBS简化基因组方法,是指通过测序进行基因分型。2011年由Elshire,R.J.提出。2b-RAD简化基因组方法基于ⅡB型限制内切酶切割产生特异片段进行测序来进行的,采用限制性内切酶BsaXI和AlfI对基因组DNA上、下游的靶标位点进行切割,产生的片段适宜在二代测序平台上测序(具体流程参见WangS,2012)。
[0005] 在上述方法基础上进行的简化基因组建库和测序方法,均存在:(1)需要进行酶切,对样品DNA要求较高,建库效率低。(2)受到酶切位点的限制,获得的目标片段在基因组覆盖随机性及灵活性较差,缺点是只能收集短的酶切片段,酶切片段偏少;如果需要改变目标片段,需要重新选择合适的酶,所以目标片段严格受限于内切酶的切割序列。(3)不能对微量或者游离的样品进行建库。(4)需要酶切、打断、连接及PCR等步骤,建库所需的周期较长。(5)建库需要的试剂较多,成本较高。(6)需要随机打断、片段选择、加Y型接头等步骤,比较复杂。
[0006] 因此,仍需要提供一种流程简便建库效率高的简化基因组文库方法。

发明内容

[0007] 本发明的主要目的在于提供一种构建简化基因组文库的方法及试剂盒,以解决现有方法中只能通过酶切获得随机片段,且步骤繁琐、成本高的缺陷
[0008] 为了实现上述目的,根据本发明的一个方面,提供了一种构建简化基因组文库的方法,该方法包括:利用第一对引物对全基因组进行非特异性扩增,得到随机扩增片段;利用第二对引物对随机扩增片段进行特异性扩增,得到简化基因组文库。
[0009] 进一步地,通过降低第一对引物的退火温度的方式,对全基因组进行非特异性扩增,得到随机扩增片段。
[0010] 进一步地,第一对引物沿5’至3’方向依次包括搭桥序列、可选的第一标签序列以及非特异扩增序列。
[0011] 进一步地,非特异扩增序列具有简并基,优选简并碱基的数目随所欲得到的随机扩增片段的数目的增多而增多。
[0012] 进一步地,第二对引物沿5’至3’方向依次包括测序接头序列、测序引物序列以及搭桥序列。
[0013] 进一步地,非特异扩增序列的长度为4~25bp;优选第一标签序列的长度为1~20bp;进一步优选搭桥序列的长度为15~30bp。
[0014] 进一步地,第一对引物中的非特异扩增序列的来源选自稻、玉米、大麦、小麦、拟南芥、人以及动物中的任意一种,更优选,第一对引物包括第一上游引物和第一下游引物,第一上游引物的通式为:CGACGCTCTTCCGATCTTGACGC(P)p(Q)q,第一下游引物的通式为:GTGTGCTCTTCCGATCTCAGTCC(P’)p’(Q’)q’;或者第一上游引物的通式为:
CCTGCGTGTCTCCGACTCAG(P)p(Q)q,第一下游引物的通式为:CTATGGGCAGTCGGTGAT(P’)p’(Q’)q’;其中,SEQ ID NO:1:CGACGCTCTTCCGATCTTGACGC或者SEQ  ID  NO:23:
CCTGCGTGTCTCCGACTCAG表示第一上游引物中的搭桥序列,(P)p表示第一上游引物中p个碱基P形成的第一标签序列,P选自A、T、C或G,1≤p≤20,(Q)q表示第一上游引物中q个碱基Q形成的非特异性扩增序列,Q选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q≤25;SEQ ID NO:
2:GTGTGCTCTTCCGATCTCAGTCC或者SEQ ID NO:24:CTATGGGCAGTCGGTGAT表示第一下游引物中的搭桥序列,(P’)p’表示第一下游引物中p’个碱基P’形成的第一标签序列,P’选自A、T、C或G,1≤p’≤20,(Q’)q’表示第一下游引物中q’个碱基Q’形成的非特异性扩增序列,Q’选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q’≤25。
[0015] 根据本发明的另一方面,提供了一种构建简化基因组文库的试剂盒,该试剂盒包括对全基因组进行非特异性扩增的第一对引物和对第一对引物的扩增产物进行特异性扩增的第二对引物。
[0016] 进一步地,对全基因组进行非特异性扩增的第一对引物的3’端具有一个或多个简并碱基。
[0017] 进一步地,第一对引物沿5’至3’方向依次包括搭桥序列、可选的第一标签序列以及非特异扩增序列;优选地,第二对引物沿5’至3’方向依次包括测序接头序列、测序引物序列以及搭桥序列;优选地,非特异扩增序列的长度为4~25bp;优选第一标签序列的长度为1~20bp;进一步优选搭桥序列的长度为15~30bp;优选地,第一对引物中的非特异扩增序列的来源选自水稻、玉米、大麦、小麦、拟南芥、人以及动物中的任意一种;更优选,第一对引物包括第一上游引物和第一下游引物,第一上游引物的通式为:CGACGCTCTTCCGATCTTGACGC(P)p(Q)q,第一下游引物的通式为:GTGTGCTCTTCCGATCTCAGTCC(P’)p’(Q’)q’;或者第一上游引物的通式为:CCTGCGTGTCTCCGACTCAG(P)p(Q)q,第一下游引物的通式为:CTATGGGCAGTCGGTGAT(P’)p’(Q’)q’;其中,SEQ ID NO:1:CGACGCTCTTCCGATCTTGACGC或者SEQ ID NO:23:CCTGCGTGTCTCCGACTCAG表示第一上游引物中的搭桥序列,(P)p表示第一上游引物中p个碱基P形成的第一标签序列,P选自A、T、C或G,1≤p≤20,(Q)q表示第一上游引物中q个碱基Q形成的非特异性扩增序列,Q选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q≤
25;SEQ ID NO:2:GTGTGCTCTTCCGATCTCAGTCC或者SEQ ID NO:24:CTATGGGCAGTCGGTGAT表示第一下游引物中的搭桥序列,(P’)p’表示第一下游引物中p’个碱基P’形成的第一标签序列,P’选自A、T、C或G,1≤p’≤20,(Q’)q’表示第一下游引物中q’个碱基Q’形成的非特异性扩增序列,Q’选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q’≤25。
[0018] 应用本发明的技术方案,利用非特异性扩增在基因组上存在随机性的特点,通过先用第一对引物在全基因组水平上进行非特异性扩增,得到随机扩增的片段,然后再利用第二对引物对随机扩增的片段进行特异性扩增,得到简化基因组文库。该方法步骤简捷易行、灵活度高、成本较低,而且测序结果准确性高。
[0019] 该方法无需高质量或高浓度的DNA,无需繁琐的酶切建库步骤,只需要对样本DNA进行简单的PCR反应,可以随意选择目标片段。通过简单更改PCR退火温度或引物序列就可以灵活控制目标片段在全基因组的覆盖区域;可以在相同数据量的条件下,通过调节非特异扩增的程度,获得不同的目标区域的覆盖倍数。本发明所提供的快速建库方法,同样适用于SNP分型,解决了现有技术中步骤繁杂,建库效率低的问题。附图说明
[0020] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0021] 图1示出了根据本发明的一种优选的实施例的构建简化基因组文库的方法的流程示意图;
[0022] 图2示出了根据本发明的一种优选的实施例的构建简化基因组文库的方法中两次扩增的详细流程示意图;
[0023] 图3示出了根据本发明的实施例1中非特异扩增后得到随机扩增片段的电泳结果图;
[0024] 图4示出了根据本发明的实施例1中特异扩增后得到扩增产物的电泳结果图;以及[0025] 图5示出了根据本发明的实施例1中所构建的简化基因组文库测序结果中随机扩增片段在1号染色体上的分布图。

具体实施方式

[0026] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
[0027] 如背景技术所提到的,现有方法中只能通过酶切获得随机片段,且存在步骤繁琐、成本高的缺陷,为了改善这一状况,在本发明一种典型的实施方式中,如图1所示,提供了一种构建简化基因组文库的方法,该方法包括:利用第一对引物对全基因组进行非特异性扩增,得到随机扩增片段;利用第二对引物对随机扩增片段进行特异性扩增,得到简化基因组文库。
[0028] 现有技术中在利用引物扩增目的片段时,通常都是设法提高引物对目的片段扩增的特异性,以便扩增得到纯度相对较高的目的片段。而本申请的发明思路恰恰是利用非特异性扩增在基因组上存在随机性的特点,通过先用第一对引物在全基因组水平上进行非特异性扩增,得到随机扩增的片段,然后再利用第二对引物对随机扩增的片段进行特异性扩增,得到简化基因组文库。该方法步骤简捷易行、灵活度高、成本较低,而且测序结果准确性高。
[0029] 上述方法无需高质量或高浓度的DNA,无需繁琐的酶切建库步骤,只需要对样本DNA进行简单的PCR反应,可以随意选择目标片段。通过简单更改PCR退火温度或引物序列就可以灵活控制目标片段在全基因组的覆盖区域;可以在相同数据量的条件下,通过调节非特异扩增的程度,获得不同的目标区域的覆盖倍数。本发明所提供的快速建库方法,同样适用于SNP分型,解决了现有技术中步骤繁杂,建库效率低的问题。
[0030] 本发明最大的创新点在于利用引物在基因组上非特异性扩增来实现对基因组进行简化,从而便于仅通过PCR而无需酶切的步骤即可得到简化基因组文库。而对于上述第一对引物对全基因组进行非特异性扩增的具体实现方式并无特殊限定,可以利用现有的能够导致非特异性扩增的方式来实现。比如,可以通过降低第一对引物的退火温度的方式,对全基因组进行非特异性扩增,得到随机扩增片段。也可以通过设计简并碱基的方式来实现非特异扩增,而简并碱基的数目随所欲得到的随机扩增片段的数目的增多而增多。
[0031] 上述第一对引物根据所研究物种基因组的大小及所需产出数据量的多少,进行合理选择或者自行设计。在本发明一种优选的实施例中,第一对引物沿5’至3’方向依次包括搭桥序列、可选的第一标签序列以及非特异扩增序列。此处所说的搭桥序列是指与第二对引物重叠的序列,通过第二对引物与第一对引物的搭桥序列进行特异性结合,从而实现对随机扩增片段的特异性扩增,得到简化基因组文库。
[0032] 相应地,任何能够与第一对引物特异性结合,并特异性扩增得到能够应用于现有的测序平台进行高通量测序的测序文库即可。在本发明一种优选的实施例中,上述第二对引物沿5’至3’方向依次包括测序接头序列、测序引物序列以及搭桥序列。
[0033] 对上述第一对引物中的非特异扩增序列的长度可以根据实际需要进行合理选择,类似地,第一标签序列以及搭桥序列的长度也可以根据需要选择合适长度。优选地,非特异扩增序列的长度为4~25bp;更优选第一标签序列的长度为1~20bp;进一步优选搭桥序列的长度为15~30bp。
[0034] 根据具体研究的物种的不同,上述第一对引物中的非特异扩增序列的来源包括但不仅限于水稻、玉米、大麦、小麦、拟南芥、人以及动物中的任意一种。更优选,第一对引物包括第一上游引物和第一下游引物,第一上游引物的通式为:CGACGCTCTTCCGATCTTGACGC(P)p(Q)q,第一下游引物的通式为:GTGTGCTCTTCCGATCTCAGTCC(P’)p’(Q’)q’;或者第一上游引物的通式为:CCTGCGTGTCTCCGACTCAG(P)p(Q)q,第一下游引物的通式为:CTATGGGCAGTCGGTGAT(P’)p’(Q’)q’;其中,SEQ ID NO:1:CGACGCTCTTCCGATCTTGACGC或者SEQ ID NO:23:CCTGCGTGTCTCCGACTCAG表示第一上游引物中的搭桥序列,(P)p表示第一上游引物中p个碱基P形成的第一标签序列,P选自A、T、C或G,1≤p≤20,(Q)q表示第一上游引物中q个碱基Q形成的非特异性扩增序列,Q选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q≤
25;SEQ ID NO:2:GTGTGCTCTTCCGATCTCAGTCC或者SEQ ID NO:24:CTATGGGCAGTCGGTGAT表示第一下游引物中的搭桥序列,(P’)p’表示第一下游引物中p’个碱基P’形成的第一标签序列,P’选自A、T、C或G,1≤p’≤20,(Q’)q’表示第一下游引物中q’个碱基Q’形成的非特异性扩增序列,Q’选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q’≤25。
[0035] 利用具有上述上游引物通式和下游引物通式的第一对引物扩增稳定性高,结合从目的物种上选择不同的非特异扩增序列都能实现对大部分物种的简化基因组文库的构建。其中,非特异扩增序列由简并碱基组成,提高在基因组上的随机结合性。R代表A或G,Y代表C或T,M代表A或C,K代表G或T,S代表G或C,W代表A或T,H代表A、T或C,B代表G、T或C,V代表G、A或C,D代表G、A或T,N代表A、T、C或G。SEQ ID NO:1和SEQ ID NO:2所形成的搭桥序列适合应用于Illumina测序平台,而SEQ ID NO:23:和SEQ ID NO:24:所形成的搭桥序列适合应用与PGM测序平台。上述下划线部分的序列可以根据测序平台的不同修改为任何测序平台所需要的必要序列。
[0036] 在本发明另一种典型的实施方式中,还提供了一种构建简化基因组文库的试剂盒,该试剂盒包括对全基因组进行非特异性扩增的第一对引物和对第一对引物的扩增产物进行特异性扩增的第二对引物。利用这样的包含非特异性扩增的引物以及对非特异性扩增后的产物进行特异性扩增的引物,仅通过两步PCR的步骤,无需酶切,即可得到简化基因组,不仅简化文库构建流程,而且降低建库成本。
[0037] 上述试剂盒中的第一对引物可以为任何能够实现对目的基因组非特异性扩增的引物。优选地,对全基因组进行非特异性扩增的第一对引物的3’端具有一个或多个简并碱基。简并碱基数目越多,可获得的随机扩增片段的数目也越多。简并碱基具体数目的多少可根据实际需要进行合理选择。
[0038] 上述第一对引物的序列组成只要能够实现非特异性扩增,且能够进行第二次特异性扩增即可。为了对扩增的不同目的片段进行来源标记,在一种优选的实施例中,上述第一对引物沿5’至3’方向依次包括搭桥序列、可选的第一标签序列以及非特异扩增序列。
[0039] 类似地,上述试剂盒中,对上述第一对引物中的非特异扩增序列的长度可以根据实际需要进行合理选择,类似地,第一标签序列以及搭桥序列的长度也可以根据需要选择合适长度。优选地,非特异扩增序列的长度为4~25bp;更优选第一标签序列的长度为1~20bp;进一步优选搭桥序列的长度为15~30bp。
[0040] 根据具体研究的物种的不同,上述第一对引物的来源包括但不仅限于水稻、玉米、大麦、小麦、拟南芥、人以及动物中的任意一种。更优选,第一对引物包括第一上游引物和第一下游引物,第一上游引物的通式为:CGACGCTCTTCCGATCTTGACGC(P)p(Q)q,第一下游引物的通式为:GTGTGCTCTTCCGATCTCAGTCC(P’)p’(Q’)q’;或者第一上游引物的通式为:CCTGCGTGTCTCCGACTCAG(P)p(Q)q,第一下游引物的通式为:CTATGGGCAGTCGGTGAT(P’)p’(Q’)q’;其中,SEQ ID NO:1:CGACGCTCTTCCGATCTTGACGC或者SEQ  ID  NO:23:
CCTGCGTGTCTCCGACTCAG表示第一上游引物中的搭桥序列,(P)p表示第一上游引物中p个碱基P形成的第一标签序列,P选自A、T、C或G,1≤p≤20,(Q)q表示第一上游引物中q个碱基Q形成的非特异性扩增序列,Q选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q≤25;SEQ ID NO:
2:GTGTGCTCTTCCGATCTCAGTCC或者SEQ ID NO:24:CTATGGGCAGTCGGTGAT表示第一下游引物中的搭桥序列,(P’)p’表示第一下游引物中p’个碱基P’形成的第一标签序列,P’选自A、T、C或G,1≤p’≤20,(Q’)q’表示第一下游引物中q’个碱基Q’形成的非特异性扩增序列,Q’选自A、T、C、G、R、Y、M、K、S、W、H、B、V、D或N,4≤q’≤25。
[0041] 利用具有上述上游引物通式和下游引物通式的第一对引物,扩增稳定性高,结合从目的物种上选择不同的非特异扩增序列都能实现对大部分物种的简化基因组文库的构建。其中,非特异扩增序列由简并碱基组成,提高在基因组上的随机结合性。R代表A或G,Y代表C或T,M代表A或C,K代表G或T,S代表G或C,W代表A或T,H代表A、T或C,B代表G、T或C,V代表G、A或C,D代表G、A或T,N代表A、T、C或G。SEQ ID NO:1和SEQ ID NO:2所形成的第一对引物适合应用于Illumina测序平台,而SEQ ID NO:23:和SEQ ID NO:24:所形成的第一对引物适合应用与PGM测序平台。上述下划线部分的序列可以根据测序平台的不同修改为任何测序平台所需要的必要序列。
[0042] 需要说明的是,本发明的方法中,对第一次非特异扩增后和/或第二次特异性扩增后得到的扩增产物还可以进行纯化的步骤,以对引物二聚体、PCR体系中的酶蛋白等杂质进行去除,从而使得到的简化基因组文库中非特异性扩增片段更纯。具体纯化的方式可以是电泳凝胶-切胶纯化,也可以是磁珠纯化。
[0043] 本发明中,为达到在全基因组上进行非特异扩增的目的,一方面可以通过增加非特异扩增序列的简并性或多样性实现非特异扩增;另一方面可以通过降低PCR反应的退火温度,实现引物3’端非特异扩增序列与模板的非特异结合,实现非特异扩增。退火温度越低,非特异扩增片段的数目越多。通过设置不同的退火温度可获得不同覆盖度的简化基因组信息。
[0044] 为使本发明的目的、技术方案和优点更加清楚,下面将结合具体的实施例对本发明的各实施方式进行详细的阐述。
[0045] 参阅图2,图2是本发明对简化基因组测序文库构建的方法实施方式的详细流程图,包括:
[0046] 步骤S1:利用第一对引物对样品DNA进行非特异PCR反应。其中,第一对引物序列从5’端到3’端依次包含搭桥序列、标签序列以及非特异扩增序列;其中,非特异扩增序列的长度不限,一般设为4~25bp;标签序列的长度不限,一般设为1~20bp;搭桥序列的长度不限,一般设为15~30bp。进行PCR扩增时,通过改变PCR反应的退火温度,控制非特异扩增引物序列3’端与模板DNA匹配的数目,或者增加非特异扩增序列的简并性或多样性,进而控制扩增片段在全基因组的分布,得到不同程度覆盖度的简化基因组信息。
[0047] 如果需要多样品混合测序,可以在PCR时使用不同的标签序列组合,这样后期可以方便对不同样本进行区分。
[0048] 具体步骤如下:
[0049] 步骤S11,第一上游引物和第一下游引物分别与非特异结合的基因组序列退火延伸,得到一端带有引物序列的延伸片段;
[0050] 步骤S12,以一端带有引物序列的延伸片段为模板,利用第一上游引物和第一下游引物再次扩增,得到两端分别带有引物序列的随机扩增片段。
[0051] 步骤S2:第二轮PCR以第一轮产物为模板进行扩增。
[0052] 第二轮引物包含有与第一对引物相同的搭桥序列,因此通过第二轮PCR反应(同样包括S21的一端连接引物,以及S22两端连接引物的步骤)可在第一轮非特异扩增产物基础上加上测序探针结合序列以及测序接头序列。
[0053] 需要说明的是,为方便起见,本发明中的两对引物也可以整合为一对引物,即5’端到3’端依次包含测序探针结合序列(或者接头序列)测序引物序列、标签序列以及非特异扩增序列,这样只需要一轮非特异PCR便可完成建库过程,但是最后文库中包含有部分单引物扩增片段。具体采用哪种方法可以根据实际需要进行选择。
[0054] 步骤S3:对上述第二轮PCR产物即所得的简化基因组文库进行分离纯化。
[0055] 第二PCR产物含有其它的不同大小片段的杂质成分,经过分离纯化后,获得带有测序引物的PCR产物。
[0056] 步骤S4:对第二DNA产物进行基因测序,并分析测序结果,获得每个DNA序列的测序结果。
[0057] 利用现有的测序技术,例如Illumina公司的测序仪,即可对第二DNA产物进行测序,并分析测序结果,获得每个DNA序列的测序结果。
[0058] 因为每个DNA序列都有标签序列,标签序列相同的即为同一个DNA序列。在获得所有DNA测序结果后,根据标签序列进行分类整理,即可获得属于同一个DNA序列的所有的DNA测序结果。
[0059] 下面将结合具体的实施例来进一步说明本申请的有益效果。需要说明的是,以下实施例中,若无特别说明,所用试剂均来自东洋纺(TOYOBO)公司。
[0060] 实施例1
[0061] 一、待测基因组DNA提取
[0062] 提取日本晴个体水稻叶片的基因组DNA,作为本实施例的建库对象。提取操作简述如下:
[0063] 1.1取l00mg新鲜叶片组织,加入液氮充分研磨
[0064] 1.2利用天根植物基因组DNA提取试剂盒或者CTAB法提取;
[0065] 1.3提取好的DNA进行质检。
[0066] 二、PCR扩增富集目标区域(PCR-1)
[0067] 1.引物设计
[0068] 1)在正向引物(1P-1F、1P-2F、1P-3F、1P-4F)和反向引物(1P-1R、1P-2R、1P-3R、1P-4R)的5’->3’端设计独特的搭桥引物、标签序列及非特异序列;
[0069] 2)具体引物序列信息见表2。
[0070] 表2:
[0071]
[0072] 2.PCR扩增
[0073] 1)对样品基因组DNA分别加入不同的引物对进行PCR扩增,并加一个阴性对照CK;
[0074] 2)PCR采用KODFX 20μL反应体系;
[0075]
[0076] 3)PCR仪:LY96G/Y,多功能型PCR基因扩增仪。
[0077] PCR反应程序如下:(其中,符号×表示循环的意思,2×表示进行两个循环):
[0078] a.1×(94℃,2min)
[0079] b.2×(98℃,10s;25℃,2min;跳至68℃(以0.8℃/s的升温速度))
[0080] c.1×(68℃,2min)
[0081] d.35×(98℃,10s;58℃,30s;68℃,1min)
[0082] e.1×(68℃,5min)
[0083] 4)2%凝胶电泳检测PCR产物,以DL2000为分子标记,3μL上样检测,部分样品电泳图如附图3所示。图3中,1代表1F+1R的扩增产物;2代表2F+2R的扩增产物;3代表3F+3R的扩增产物;4代表4F+4R的扩增产物;“-”代表对照,用超纯水代替DNA样品。
[0084] 三、PCR扩增引入测序接头(PCR-2)
[0085] 1.引物设计
[0086] 1)扩增区域为第一次PCR产物中的搭桥引物之间的序列,所以设计的引物在3’端有序列与第一次PCR产物中的搭桥序列互补。
[0087] 2)正向引物SEQ ID No:11的5’端带有P5序列,反向引物SEQ ID No:12的5’端带有Index序列及P7序列。
[0088] 3)引物具体信息如下:
[0089] SEQ ID No:11:
[0090] AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTCAGT;
[0091] SEQ ID No:12:
[0092] CAAGCAGAAGACGGCATACGAGATCGCTGATCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGT;
[0093] 3.PCR扩增(PCR-2)
[0094] 1)对第一PCR产物稀释100倍作为模板DNA进行PCR扩增。
[0095] 2)PCR采用KODFX 20μL反应体系:
[0096]
[0097] 3)PCR仪:LY96G/Y,多功能型PCR基因扩增仪
[0098] PCR反应程序如下:
[0099] a.1×(94℃,2min)
[0100] b.2×(98℃,10s;58℃,30s)
[0101] c.1×(68℃,2min)
[0102] d.35×(98℃,10s;68℃,90s)
[0103] e.1×(18℃,2min)
[0104] 4)2%凝胶电泳检测PCR产物,以DL2000为分子标记,取2μL上样检测,电泳图如附图4所示。图4中,1代表1F+1R的扩增产物;2代表2F+2R的扩增产物;3代表3F+3R的扩增产物;4代表4F+4R的扩增产物;“-”代表对照,用超纯水代替DNA样品。
[0105] 四、文库库检和上机。
[0106] 1.将步骤3中所得的PCR产物稀释到lng/μL,取出lμL用于Agilent2100(美国Agilent公司)检测,另外再取lμL用于qPCR(Biorad公司)检测,根据检测结果,决定上机浓度。
[0107] 2.根据上一步所得的浓度,将文库稀释到上机要求后,在Illumina公司的Hiseq2000测序平台进行测序。
[0108] 五、上机结果质控、测序并对测序数据进行生物信息学分析
[0109] 1.测序
[0110] 以上述采用本发明的两步法建库所得到的DNA文库,通过Illumina公司的Hiseq测序平台,进行测序,每个文库测1Gb数据量。
[0111] 2.数据分析
[0112] 利用上述方法对4个水稻重测序样品进行建库测序。
[0113] 结果分析如下:
[0114] Q20,Q30:从图中可知PoolRice的Q20,Q30达到98%以上,而对于重测序项目:要求Q20不小于90%;Q30不小于85%,即便是重头测序(Denovo)项目也不过是Q20要求不小于95%;Q30不小于90%,所以此次测序质量良好。
[0115] 接头污染率:此次混合建库的引物接头率(adapter rate)分别为0.02%、0.03%、0.02%,引物接头率在5%以下认为正常,所以此次建库引物接头率正常。
[0116] 重复率(Duplication):此次混合建库的重复率为85%、82.2%、82.5%,混合建库重复率一般较高,此次建库重复率在允许范围内。
[0117] 综上,此次建库合格,测序质量良好。而且,对有效测序数据(Clean data)进行参考基因组比对分析以检测该实施例的方法所扩增的随机片段在基因组上的分布状况,结果发现,在基因组上的分布比较均匀,能够得到简化基因组文库的要求。其中,图5显示了随机扩增序列在1号染色体上的分布情况,从中可以看出,在1号染色体上的分布比较均匀。
[0118] 实施例2
[0119] 实施例2与实施例1的操作步骤中唯一不同之处在于:第一轮PCR反应的程序。具体如下:
[0120] a.1×(94℃,2min)
[0121] b.2×(98℃,10s;15℃,2min;跳至68℃(以0.8℃/s的升温速度))
[0122] c.1×(68℃,2min)
[0123] d.35×(98℃,10s;58℃,30s;68℃,1min)
[0124] e.1×(68℃,5min)
[0125] 以上述两步建库法所得到的DNA文库,通过Illumina公司的Hiseq测序平台,进行测序,每个文库测1Gb数据量。数据分析结果如下:
[0126] Q20,Q30:从图中可知Pool Rice的Q20,Q30达到94%以上,所以此次测序质量良好。
[0127] 实施例3
[0128] 一、DNA提取步骤(与实施例1相同)
[0129] 二、PCR扩增富集目标区域(PCR-1):
[0130] 1.采用表3所示的引物、与实施例1相同的反应体系及PCR反应程序进行第一轮PCR反应。
[0131] 表3:
[0132]
[0133] 1)在正向引物(2-1F、2-2F、2-3F、2-4F、2-5F)和反向引物(2-1R、2-2R、2-3R、2-4R、2-5R)的5’至3’端设计独特的搭桥引物、标签序列及非特异序列;
[0134] 三、第二轮PCR
[0135] 将第一轮6个PCR产物等量混合成一个混合样,将混合样进行第二轮PCR(PCR反应条件与实施例1相同)。
[0136] 四、文库库检和上机(与实施例1一致)。
[0137] 对测序数据分析结果如下:
[0138] Q20,Q30:从图中可知PoolRice的Q20,Q30达到93%以上,所以此次测序质量良好。
[0139] 对该文库测序所得的1Gb数据进行分析,利用两端加入的barcode,得到混合的6份材料的等比例测序数据结果。
[0140] 综上所述此次建库合格,测序质量良好。
[0141] 此外,需要说明的是,本发明的文库构建方法包括PCR非特异性扩增富集目标区域和PCR扩增引入测序接头两个步骤,两步骤的具体操作方式不局限于上述实施例展示的方法,也可采用其他的方式,整体作用和流程不变。例如:在PCR非特异性扩增富集目标区域中可采用其他的方式,不局限于直接对目标DNA区域的非特异性扩增富集,比如通过RT-PCR对RNA的非特异性扩增富集;PCR扩增引入测序接头中,PCR产物的纯化方式也是可以用别的方法替代的,比如通过切胶回收目的条带。测序时可以采用常规测序方法,也可以采用构建高通量测序途径等。
[0142] 从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
[0143] (1)简单方便:本发明通过简单PCR反应,最少只需要1对引物1次PCR反应就实现全基因组片段的非特异扩增,获得简化基因组的信息。整个建库过程步骤简单,操作方便。
[0144] (2)灵活性高:可以根据实验需要更改随意引物序列、数目或退火温度改变扩增片段在全基因组的分布,利用已知基因组的信息,利用非特异匹配的数目,开发设计个性化的开发方案。
[0145] (3)成本低:只需简单的PCR扩增。相比现有技术,免去了试剂盒的成本,大大降低了扩增子测序建库成本,提高了效率;且避开了常规建库中繁琐的步骤可能引入的突变,与常规建库相比两步法建库不会影响测序质量,其测序质量更加准确精确。
[0146] (4)周期短:只需利用简单的PCR反应即可完成建库,前后时间不超过5个小时,大幅度缩短建库的周期。
[0147] (5)高灵敏性:对样品量及浓度也无特殊要求。可以对游离DNA、降解片段化的DNA、微量DNA、单细胞DNA等、甚至是粗样品,只要能够进行PCR反应都可以进行建库测序分析。
[0148] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0149]
[0150]
[0151]
[0152]
[0153]
[0154]
[0155]
[0156]
QQ群二维码
意见反馈