一种提高基因低频突变检测灵敏度的扩增子文库构建方法专利检索- 组合化学;化合物库如化学库虚拟库专利检索查询-专利查询网

一种提高基因低频突变检测灵敏度的扩增子文库构建方法
申请号	CN201710382858.2	申请日	2017-05-26	公开(公告)号	CN107058310A	公开(公告)日	2017-08-18
申请人	艾吉泰康生物科技(北京)有限公司;			发明人	易建明; 屈武斌; 蔡万世; 王瑞超; 杭兴宜;
摘要	本发明涉及一种用于扩增子文库扩增和富集时使用的多重上游发卡结构引物及使用所述多重上游发卡结构引物提高基因低频突变检测灵敏度的扩增子文库构建方法，所述引物从3’端至5’端包括：与目标区域序列互补配对的特异性序列A1；发卡结构的稳定序列A2；与5’端A7序列的反向互补序列A3；发卡结构的去稳定序列A4；条码序列A5；接头序列A6；5’端序列A7；A3和A7互补配对，形成所述多重上游发卡结构引物的茎结构；A4、A5和A6形成所述多重上游发卡结构引物的环部分。
权利要求	1.一种用于扩增子文库扩增和富集时使用的多重上游发卡结构引物，所述引物从3’端至5’端包括序列A1-A7： A1序列为特异性序列，与目标区域序列互补配对，引发扩增子的特异性扩增和富集； A2序列为发卡结构的稳定序列，由两个以上连续的C和G碱基构成； A3序列为5’端A7序列的反向互补序列； A4序列为发卡结构的去稳定序列，碱基个数为2-8个，碱基序列中A和T多于G和C； A5序列为条码序列，由8-16个简并碱基构成； A6序列为测序接头序列； A7序列为5’端序列，与A3序列反向互补； A3和A7互补配对，形成所述多重上游发卡结构引物的茎结构； A4、A5和A6形成所述多重上游发卡结构引物的环部分。 2.权利要求1的多重上游发卡结构引物，所述A2序列由C和G碱基构成，碱基个数优选20个以下，更优选10个以下，最优选5个以下。 3.权利要求1或2的多重上游发卡结构引物，A3序列与A7序列形成局部双链的5’端为单链，或者A2和A3序列与A7序列形成局部双链的5’端为封闭的双链，所述双链为所述多重上游发卡结构引物的茎部分。 4.权利要求1-3任一项的多重上游发卡结构引物，所述茎结构的稳定温度是62℃-66℃，例如59-64℃，优选63℃-65℃；所述茎结构的解链稳定是70℃-78℃，例如70-76℃，优选 71℃-74℃。 5.权利要求1-4任一项的多重上游发卡结构引物，所述A4序列的碱基个数为2-4个。 6.权利要求1-5任一项的多重上游发卡结构引物，所述A5序列由12个碱基序列构成，但是碱基的个数可以根据扩增子的通量进行增减。 7.权利要求1-6任一项的多重上游发卡结构引物，所述A6序列是Illumina测序接头P5序列的全长序列或去除部分5’序列的Illumina测序接头P5序列。 8.一种使用权利要求1-7任一项的多重上游发卡结构引物提高基因低频突变检测灵敏度的扩增子文库构建方法，所述方法包括以下步骤： S1：采用多重上游发卡结构引物和带通用序列的多重下游引物进行第1轮多重PCR反应，得到扩增子，同时将A5条码序列和A6序列引入到扩增子序列的5’端；将下一轮PCR中P7接头引物识别的互补序列引入到扩增子序列的3’端； S2：向上一轮反应体系中加入蛋白酶灭活第1轮多重PCR反应的DNA聚合酶，然后将所述蛋白酶灭活； S3：进行第2轮接头序列PCR反应，以第1轮扩增产物为模板，以Illumuna P5接头序列为上游引物，P7接头序列为下游引物，将P5和P7序列分别引入到扩增子的两侧，得到扩增子文库； S4：采用磁珠对S3步骤的文库进行纯化，定量后进行二代测序。 9.权利要求10的方法，在所述方法的步骤S1中，PCR反应体系中所用的上游引物为权利要求1-7任一项的多重上游发卡结构引物，下游引物序列分为两个部分，其3’端序列为特异性序列，能够与目标区域序列互补配对；其5’端序列为通用序列，能够被第2轮PCR反应中的P7引物互补配对。 10.权利要求8或9的方法，在步骤S2中，所述蛋白酶为蛋白酶K。
说明书全文	一种提高基因低频突变检测灵敏度的扩增子文库构建方法技术领域 [0001] 本发明属于高通量测序领域，具体而言，本发明涉及一种提高基因突变检测灵敏度的扩增子文库构建方法。背景技术 [0002] 扩增子捕获测序技术是一种靶向捕获测序技术，主要利用多重PCR技术同时对多个目标区域序列进行特异性扩增和富集，得到扩增子文库，然后采用二代测序技术对扩增子文库进行测序，从而获取目标区域的序列信息。扩增子捕获测序技术因组合(panel)设计灵活、通量高、经济快速等优势，已经成为靶向捕获测序领域的主流技术，广泛应用于生物基础研究和临床疾病诊断。 [0003] 尽管扩增子捕获测序技术应用广泛，但是它在基因低频突变检测领域的表现却差强人意，检测结果易出现假阳性，因此面临着严峻挑战。大量研究结果表明，出现假阳性的结果主要由以下两个原因造成：第一，Illumina测序平台测序过程中单个碱基的读取错误-7 -5率为0.2％，DNA聚合酶引入错误碱基的错误率为10 -10 ，基于此原因，扩增子捕获测序技术检测突变基因的灵敏度约为1％；第二，肿瘤gDNA或者ctDNA，因为含有大量异质性的DNA，导致突变基因的占比极低，突变频率通常介于0.01％-1％之间。因此，扩增子捕获测序技术因检测灵敏度低于目标位点突变的频率，导致检测结果极易出现假阳性。为了解决该问题，科研人员借鉴液相捕获测序技术解决该问题的思路，在目标区域序列与测序接头序列(adapter)之间引入一段12个简并碱基组成的条码序列(barcode)，作为分子标签来辨别真正的自然突变，力求提高检测的灵敏度，降低假阳性。相关实验结果显示，该策略的确提高了检测的灵敏度，但是由于12个简并碱基的存在，导致引物序列之间互补配对形成大量的引物二聚体以及非特异性扩增条带，致使文库的测序质量下降、比对率下降、捕获率下降、均一性下降、测序噪音增加、测序成本增高，反而制约了扩增子捕获测序技术在该领域的应用。 [0004] 因此，基因低频突变检测领域急需灵敏度更高的扩增子捕获测序技术。发明内容 [0005] 为了解决现有技术存在的问题，本发明改进了条码序列引入到扩增子文库的方式，提供了一种提高基因低频突变检测灵敏度的扩增子文库构建方法。该方法在提高基因突变检测灵敏度的同时，仍然可以保持扩增子文库的通量高、覆盖率高、捕获率高、均一性好等优势。 [0006] 本发明的内容包含两个方面，第一方面是设计了一种用于扩增子文库扩增和富集时使用的多重上游发卡结构引物，所述引物从3’端至5’端包括序列A1-A7： [0007] A1序列为特异性序列，与目标区域序列互补配对，引发扩增子的特异性扩增和富集； [0008] A2序列为发卡结构的稳定序列，由两个以上连续的C和G碱基构成； [0009] A3序列为5’端A7序列的反向互补序列； [0010] A4序列为发卡结构的去稳定序列，碱基个数为2-8个，碱基序列中A和T多于G和C； [0011] A5序列为条码序列，由8-16个简并碱基构成； [0012] A6序列为测序接头序列； [0013] A7序列为5’端序列，与A3序列反向互补； [0014] A3和A7互补配对，形成所述多重上游发卡结构引物的茎结构； [0015] A4、A5和A6形成所述多重上游发卡结构引物的环部分。 [0016] 在优选实施方案中，所述A1特异性序列依照引物设计原则进行设计。 [0017] 在优选实施方案中，在所述A2序列中，稳定序列通常由两个以上连续的C和G碱基构成，但碱基的个数和序列不受限制，优选20个以下，更优选10个以下，最优选5个以下。 [0018] 在优选实施方案中，A3序列和A7序列形成局部双链的5’端可以为单链，也可以为封闭的双链(在局部双链的5’端为封闭的双链的情况下，A2序列与A7序列的5’端互补)，所述双链为所述多重上游发卡结构引物的茎部分。A3和A7形成局部双链的碱基和个数没有要求，但是局部双链结构在55℃-67℃，例如59-64℃之间稳定，优选62℃时稳定，在70℃-78℃，例如70-76℃之间解链，优选71℃-74℃时能够解链为单链。 [0019] 在优选实施方案中，在所述A4序列中，去稳定序列的碱基个数通常优选为2-4个，碱基序列中A和T多于G和C，优选全部为A或T。 [0020] 在优选实施方案中，在所述A5序列中，条码序列通常由12个碱基(NNNNNNNNNNNN,N表示A、T、G、C中的任何一种)序列构成，但是碱基的个数可以根据扩增子的通量进行增减。 [0021] 在优选实施方案中，所述A6序列是Illumina测序接头P5序列的全长序列或去除部分5’序列的Illumina测序接头P5序列。 [0022] 在优选实施方案中，所述A7序列可以是A6序列5’的部分序列，或者是其他序列。 [0023] 在优选实施方案中，A5和A6形成所述多重上游发卡结构引物的环部分。 [0024] 本发明的第二方面提供了一种提高基因低频突变检测灵敏度的扩增子文库构建方法，所述方法包括以下步骤： [0025] S1：采用多重上游发卡结构引物和带通用序列的多重下游引物进行第1轮多重PCR反应，得到扩增子，同时将A5条码序列和A6序列引入到扩增子序列的5’端；将下一轮PCR中P7接头引物识别的互补序列引入到扩增子序列的3’端； [0026] S2：向上一轮反应体系中加入蛋白酶，62℃孵育15min，灭活DNA聚合酶，然后在94℃下孵育15min，灭活蛋白酶； [0027] S3：进行第2轮接头序列PCR反应，以第1轮扩增产物为模板，以Illumina P5接头序列为上游引物，P7接头序列为下游引物，将P5和P7序列分别引入到扩增子的两侧，得到扩增子文库； [0028] S4：采用磁珠对S3步骤的文库进行纯化，定量后进行二代测序。 [0029] 在优选实验方案中，在所述方法的步骤S1中，PCR反应体系中所用的上游引物为本发明第1部分设计的发卡结构引物，下游引物序列分为两个部分，其3’端序列为特异性序列，能够与目标区域序列互补配对；其5’端序列为通用序列，能够被第2轮PCR反应中的P7引物互补配对。上下游引物在反应体系中的终浓度通常在20nM-120nM之间，具体浓度与扩增子通量相关。PCR反应体系中所用模板通常为DNA，DNA聚合酶为市售的高保真聚合酶。 [0030] 在优选实施方案中，在所述方法的步骤S1中，PCR反应的循环数通常为2-4个，反应条件如下：95℃预变性3min30s；98℃变性20s，64℃退火6min 30s，72℃延伸45s；最后一步72℃延伸5min。反应条件根据模板的起始量和文库的通量可以做相应的调整。 [0031] 在优选实施方案中，在所述方法的步骤S2中，蛋白酶通常采用市售的蛋白酶K。 [0032] 在优选实施方案中，在所述方法的步骤S3中，PCR反应体系中以部分第1轮的扩增产物为模板，测序接头P5和P7序列作为引物，DNA酶采用市售的高保真DNA聚合酶。PCR的反应条件如下：95℃预变性3min 30s；98℃变性20s，72℃退火4min，扩增18-25个循环；最后72℃延伸5min。反应条件根据模板的起始量和文库的通量做相应的调整。附图说明 [0033] 通过以下附图对本发明内容进行说明： [0034] 图1示出多重上游发卡引物的序列组成和结构； [0035] 图2示出扩增子文库的构建流程； [0036] 图3示出示例性多重上游发卡引物A2-A7的序列信息； [0037] 图4示出50重扩增子文库的质检结果。具体实施方式 [0038] 为了解决现有技术存在的问题，本发明改进了条码序列引入到扩增子文库的方式，提供了一种提高基因低频突变检测灵敏度的扩增子文库构建方法。该方法在提高基因突变检测灵敏度的同时，仍然可以保持扩增子文库的通量高、覆盖率高、捕获率高、均一性好等优势。 [0039] 本发明的内容包含两个方面，第一方面是设计了一种用于扩增子文库扩增和富集时使用的多重上游发卡结构引物，所述引物从3’端至5’端包括序列A1-A7(参见图1)： [0040] A1序列特异性序列，与目标区域序列互补配对，引发扩增子的特异性扩增和富集； [0041] A2序列为发卡结构的稳定序列； [0042] A3序列为5’端A7序列的互补序列； [0043] A4序列为发卡结构的去稳定序列； [0044] A5序列为条码序列，通常由12个简并碱基构成； [0045] A6序列为Illumina测序平台中使用的P5接头序列； [0046] A7序列为5’端序列，与A3序列反向互补； [0047] A3序列为A7的5’端序列的反向互补序列，A3与A7互补配对，形成发卡结构引物中的局部双链结构； [0048] 对于所述A1特异性序列，引物的设计原则和方式优选如下文所述； [0049] 在所述A2序列中，稳定序列通常由两个连续的C和G碱基构成，但碱基的个数和序列不受限制； [0050] 在所述A3序列中，A3序列为5’端A7序列的反向互补序列，两者形成局部双链的5’端可以为单链，也可以为封闭的双链(在局部双链的5’端为封闭的双链的情况下，A2序列与A7序列的5’端互补)，所述双链为所述多重上游发卡结构引物的茎部分。A3和A7形成局部双链的碱基和个数没有要求，但是局部双链的结构在55℃-67℃稳定，优选62℃时稳定，在70℃-78℃解链，优选70℃-74℃时能够解链为单链； [0051] 在所述A4序列中，去稳定序列的碱基个数通常为2-4个，碱基序列通常为A或T； [0052] 在所述A5序列中，条码序列通常由12个碱基序列(NNNNNNNNNNNN,N表示A、T、G、C中的任何一种)构成，但是碱基的个数可以根据扩增子的通量进行增减； [0053] 所述A6序列是Illumina测序接头P5序列的全长序列或去除部分5’序列的Illumina测序接头P5序列 [0054] 在优选实施方案中，所述A7序列可以是A6序列5’的部分序列，或者是其他序列。 [0055] A4、A5和A6形成所述多重上游发卡结构引物的环部分。 [0056] 本发明的第二方面提供了一种提高基因低频突变检测灵敏度的扩增子文库构建方法，所述方法包括以下步骤： [0057] S1：采用多重上游发卡结构引物和带通用序列的多重下游引物进行第1轮多重PCR反应，得到扩增子，同时将A5条码序列和A6序列引入到扩增子序列的5’端；将下一轮PCR中P7接头引物识别的互补序列引入到扩增子序列的3’端； [0058] S2：向上一轮反应体系中加入蛋白酶灭活第1轮多重PCR反应的DNA聚合酶，然后将所述蛋白酶灭活； [0059] S3：进行第2轮接头序列PCR反应，以第1轮扩增产物为模板，以Illmuna P5接头序列为上游引物，P7接头序列为下游引物，将P5和P7序列分别引入到扩增子的两侧，得到扩增子文库； [0060] S4：采用磁珠对S3步骤的文库进行纯化进行测序。 [0061] 在一个具体的实施方案中，所述特异性引物包括针对目标序列的特异性序列，所有特异性序列之间满足如下条件：(1)每个特异性序列与目标序列之外的序列不发生扩增，(2)特异性序列之间不形成二聚体，(3)特异性序列不形成发卡结构； [0062] 在一个具体的实施方案中，所述特异性序列之间满足如下条件：(1)所述特异性序列与目标区域的Tm–与非目标区域的Tm≥5℃，优选≥10℃；(2)所述特异性序列与目标区域的Tm–与其他特异性序列形成二聚体的Tm≥5℃，优选≥10℃；(3)所述特异性序列与目标区域的Tm–形成发卡结构的Tm≥5℃，优选≥10℃，优选Tm的值基于SantaLucia2007热力学参数表的最邻近法计算。 [0063] 在一个具体的实施方案中，在所述特异性序列的3’端的碱基处有增加空间位阻的修饰，所述修饰不阻断其与所述特异性序列完全匹配的模板的结合与延伸，但基本阻断其与不完全匹配的模板的结合与延伸。优选地，所述特异性序列的3’端的碱基处修饰包括在所述特异性序列的3’端-2、-3位碱基、核糖或磷酸二酯键上；在优选的实施方案中，所述特异性序列的3’端的5个碱基的GC含量大于50％，即有三个或三个以上的碱基为C或G，所述特异性序列的3’端的碱基处修饰还包括在所述特异性序列的3’端-4位碱基、核糖或磷酸二酯键处。即，在优选的实施方案中，在所述特异性序列的3’端的5个碱基的GC含量大于50％的情况下，即有三个或三个以上的碱基为C或G，所述特异性序列的3’端的碱基处修饰还包括在所述特异性序列的3’端-2、-3、-4处位碱基、核糖或磷酸二酯键处。 [0064] 在一个具体的实施方案中，所述增加空间位阻的修饰选自：脱氧次黄嘌呤(dI)、脱氧尿嘧啶(dU)、5-Methyl dC、2'-O-Me-dC、磷酸基团、硫代基团、地高辛、生物素、AminolinkerC7、BHQ1、BHQ2、Dabcyl、JOE、ROX、FAM、TAMRA、烷基基团、氟代基团、氨基基团和Thiol-C3S-S。 [0065] 在一个具体的实施方案中，所述3’端的碱基处增加空间位阻的修饰包括3’端-1、-2、-3位碱基处的硫代修饰。 [0066] 在一个具体的实施方案中，所述特异性序列的3’端的5个碱基的GC含量大于50％，在所述特异性序列的3’端-4位碱基处有硫代修饰。 [0067] 在一个具体的实施方案中，所述特异性引物序列有一致的热力学参数，优选Tm标准差≤5℃；更优选Tm标准差≤2℃；最优选Tm标准差≤1℃。Tm标准差是所述所有特异性引物序列与相应目标DNA序列之间的Tm的标准差。 [0068] 在优选实施方案中，在所述方法的步骤S1中，PCR反应体系中所用的上游引物为本发明第1部分设计的发卡结构引物，下游引物序列分为两个部分，其3’端序列为特异性序列，能够与目标区域序列互补配对；其5’端序列为通用序列，能够被第2轮PCR反应中的P7引物互补配对。上下游引物在反应体系中的终浓度通常在20nM-120nM之间，具体浓度与扩增子通量相关。PCR反应体系中所用模板通常为DNA，DNA聚合酶为市售的高保真聚合酶。 [0069] 在优选实施方案中，在所述方法的步骤S1中，PCR反应的循环数通常为2-4个，反应条件如下：95℃预变性3min 30s；98℃变性20s，64℃退火6min 30s，72℃延伸45s；最后一步72℃延伸5min。反应条件根据模板的起始量和文库的通量可以做相应的调整。 [0070] 在优选实施方案中，在所述方法的步骤S2中，蛋白酶通常采用市售的蛋白酶K。 [0071] 在优选实施方案中，在所述方法的步骤S3中，PCR反应体系中以部分第1轮的扩增产物为模板，测序接头P5和P7序列作为引物，DNA酶采用市售的高保真DNA聚合酶。PCR的反应条件如下：95℃预变性3min 30s；98℃变性20s，72℃退火4min，扩增18-25个循环；最后72℃延伸5min。反应条件根据模板的起始量和文库的通量做相应的调整。 [0072] 实施例 [0073] 利用该方法构建单个反应管50重扩增子文库的实施例1如下所示。 [0074] 第1步：50重PCR反应扩增靶向产物 [0075] 1.1 50重PCR的反应体系如下表1所示：DNA聚合酶，缓冲液和dNTP均为NEB的产品(货号M0493L)；模板是Horizon公司的标准品(货号HD728)与野生型gDNA混合制备的gDNA；多重引物的浓度为0.188μM/条，终浓度为30nM/条。所有多重上游引物均为发卡引物(如图1所示)，它们的A1序列(3’端特异性序列)如表2所示,A2-A7序列一致，如下图3所示，其中A5序列由10个简并碱基组成。所有多重下游引物的序列由5’端通用序列和3’端的特异性序列组成；5’端通用序列为 [0076] 5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT3’，3’端的特异性序列如下表2所示。 [0077] 表1 50重PCR的反应体系 [0078]试剂体积(μl) 无核酸酶水 10.3 5×Q5Reaction Buffer 5 dNTPs(10mM) 0.5 引物混合物(0.188μM/条) 4 模板DNA(10ng/μl) 5 Q5 Hot Start High-Fidelity DNA聚合酶(2U/μl) 0.2 [0079] 表2 50重引物的序列信息(SEQID NO.1-100) [0080] [0081] [0082] 1.2 50重PCR反应按照下表3进行操作 [0083] 表3 50重PCR的反应条件 [0084] [0085] 第2步：蛋白酶消化DNA聚合酶，终止多重PCR反应 [0086] 第1轮多重PCR反应结束后，向PCR反应体系内加入5μl蛋白酶K(180μg/ml)，振荡混匀后，64℃孵育15min，消化DNA聚合酶；94℃孵育15min，使蛋白酶失活。 [0087] 第3步：第2轮接头PCR反应 [0088] 3.1第2轮接头PCR的反应体系如下表4所示，DNA聚合酶为KAPA Biosystems公司的产品(货号KK2600)；上下游引物分别为Illumina测序平台的接头序列P5和P7；DNA模板为第2步的反应产物，即被蛋白酶K消化后得到的多重PCR产物； [0089] 表4第2轮接头PCR的反应体系 [0090]试剂体积(μl) KAPA HiFi HotStart ReadyMix(2X) 12.5 正向引物P5(10μM) 1 反向引物P7(10μM) 1 DNA模板 10.5 [0091] 3.2接头PCR反应按照下表的条件运行： [0092] 表5接头PCR的反应条件 [0093] [0094] 第4步：磁珠纯化第2轮PCR产物 [0095] 4.1向25μl PCR产物中加入25μl室温平衡后的AMPure XP磁珠，用移液器吸打混匀数次； [0096] 4.2室温孵育10min后，将PCR管置于DynaMag-96Side磁力架上3min； [0097] 4.3移除上清，PCR管继续放置在磁力架上，向管内加入180μl 80％乙醇溶液，静置30s； [0098] 4.4移除上清，再加入180μl 80％乙醇溶液，静置30s后彻底移除上清(使用10μl移液器移除底部残留乙醇溶液)； [0099] 4.5室温静置10min，使残留乙醇彻底挥发； [0100] 4.6将PCR管从磁力架取下，加入22μl无核酸酶水，移液器轻轻吸打重悬磁珠,避免产生气泡，室温静置2min； [0101] 4.7将PCR管重新置于磁力架上，静置4min； [0102] 4.8用移液器吸取20μl上清液，转移到新的200μl PCR管内，管内上清液为构建好的多重文库。 [0103] 第5步：对扩增子文库进行浓度测量 [0104] 取2μl文库使用 3.0Fluorometer(Qubit dsDNA HS Assay Kit)进行浓度测量，得到的文库浓度为6.12ng/μl； [0105] 第6步：对扩增子文库的片段分布进行质检 [0106] 取2μl扩增子文库使用Qsep100全自动核酸蛋白分析系统(厚泽生物)进行质检，得到的质检峰图如图4所示：文库的靶条带位置正确，分布250-400bp之间，主峰位置在301bp；文库中在150bp处有微量引物二聚体；在500bp以后存在微量的杂峰，两者基本上均不影响文库的测序质量。 [0107] 第7步：对文库进行二代测序并进行数据分析 [0108] 采用Illumina公司的Next-seq 500测序平台对上述文库进行二代测序，对得到的测序数据进行统计分析，结果如下表6所示：文库的碱基质量评分(％)为85.72％，比对率为93.42％，覆盖率为100％，20％平均测序深度为96.75％，均一性高。文库的各项数据指标表现优异。 [0109] 表6 50重扩增子文库的测序数据统计结果 [0110] [0111] 第8步：突变位点的频率分析 [0112] 本实施例使用的模板为Horizon标准品(货号HD728)与野生型gDNA混合得到的gDNA。该gDNA中有12个突变位点被本次的50重文库Panel所覆盖。12个突变位点的理论突变频率与本次的检测频率如表7所示。检出的突变频率基本上与理论的突变频率一致，结果准确，没有假阳性。 [0113] 表7 12个突变位点的理论突变频率和检出的突变频率 [0114]

意见反馈