首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 生成基因特异性的文库的方法

生成基因特异性的文库的方法

申请号 CN200980144005.9 申请日 2009-09-09 公开(公告)号 CN102203273A 公开(公告)日 2011-09-28
申请人 生命技术公司; 发明人 C·K·雷蒙德;
摘要 本 发明 提供了用于生成靶物富集的、测序就绪的文库的组合物和方法,所述文库用于重新测序来自含有核酸的样品的至少一个目标靶区域。
权利要求

1.一种生成DNA分子群体的方法,每个DNA分子包含核酸插入区,所述核酸插入区侧接第一引物结合区和第二引物结合区,所述方法包括:
(a)将起始DNA分子群体分裂成片段化的插入DNA分子群体;
(b)在连接反应中,组合步骤(a)的片段化的插入DNA分子群体和:
(i)多个第一茎-环接头寡核苷酸,其包含与第一引物结合区互补的序列,和(ii)多个第二茎-环接头寡核苷酸,其包含与第二引物结合区互补的序列;
(c)在适合合成与所述第一和第二茎-环接头相对应的互补链的条件下,使步骤(b)的连接反应接触聚合酶,由此生成多个双链DNA分子,每个DNA分子包含插入区,所述插入区侧接第一引物结合区和第二引物结合区;和
(d)使用结合所述第一引物结合区的多个第一PCR引物和结合所述第二引物结合区的多个第二PCR引物,在步骤(c)的双链分子上进行聚合酶链式反应,以选择性地扩增包含插入片段的DNA分子群体,所述插入片段侧接第一茎-环接头寡核苷酸和第二茎-环接头寡核苷酸。
2.如权利要求1所述的方法,其中所述起始DNA分子群体包含从来自含有核酸的样品的多个靶物-特异性的扩增子扩增的PCR产物。
3.如权利要求2所述的方法,其中所述PCR产物包含至少一个目标靶基因的多个外显子区域。
4.如权利要求1所述的方法,其中所述起始DNA分子群体包括总基因组DNA。
5.如权利要求1所述的方法,其中所述起始DNA分子群体包括cDNA。
6.如权利要求5所述的方法,其中使用寡核苷酸群体生成所述cDNA,所述寡核苷酸群体选择成在确定的条件下杂交mRNA分子群体,但是在所述确定的条件下不杂交核糖体RNA。
7.如权利要求1所述的方法,其中所述片段化的插入DNA分子群体具有50个核苷酸至
10,000个核苷酸的平均长度。
8.如权利要求1所述的方法,其中所述片段化的插入DNA分子群体具有50个核苷酸至
500个核苷酸的平均长度。
9.如权利要求1所述的方法,其中在适合生成随机的双链核酸断裂物的条件下,在锰存在下,用DNA酶I片段化所述DNA分子。
10.如权利要求1所述的方法,其中所述第一或第二茎-环接头寡核苷酸另外包含用于结合高通量测序平台的序列。
11.如权利要求1所述的方法,其中所述第一或第二茎-环接头寡核苷酸另外包含分子条形码
12.如权利要求1所述的方法,其中所述第一和第二茎-环接头寡核苷酸具有至少40个核苷酸的长度。
13.如权利要求4或权利要求5所述的方法,其中所述方法另外包括:
(e)使根据步骤(d)扩增的核酸分子与多个靶物捕获探针退火,每个靶物捕获探针包含:
(i)由核酸序列组成的靶物-特异性的结合区,所述核酸序列与目标靶插入物的有义或反义链的至少一部分具有至少95%同一性;和
(ii)用于结合捕获试剂的区域,
(f)加入结合所述靶物捕获探针的捕获试剂,以生成多个核酸分子/靶物捕获探针/捕获试剂复合物,
(g)使用结合所述捕获试剂的拣选装置,从混合物取出所述复合物;和(h)从捕获的复合物洗脱所述核酸序列,其中所述多个洗脱的核酸序列富集了目标靶区域。
14.如权利要求13所述的方法,其中所述方法另外包括,测序来自步骤(h)的DNA分子群体的至少一部分。
15.根据权利要求1所述的方法生成的包含核酸插入区的双链DNA分子群体,所述核酸插入区侧接第一引物结合区和第二引物结合区。
16.一种就目标靶核酸区域富集文库的方法,所述方法包括:
(a)在允许捕获寡核苷酸和目标核酸靶区域结合的条件下,使DNA分子文库接触捕获探针集合,以形成包含目标靶区域和捕获探针之间的多个复合物的混合物,所述DNA分子文库包含侧接第一引物结合区和第二引物结合区的目标核酸靶插入序列的亚群,所述亚群位于侧接所述第一引物结合区和第二引物结合区的核酸插入序列的更大的群体内,所述捕获探针集合包含多个捕获寡核苷酸,每个捕获寡核苷酸包含第一靶序列-特异性的结合区和第二捕获试剂结合区;
(b)使步骤(a)的混合物接触捕获试剂,并从所述混合物分离捕获试剂结合的复合物;

(c)从所述捕获试剂结合的复合物洗脱侧接第一引物结合区和第二引物结合区的目标靶区域。
17.如权利要求16所述的方法,其中所述第二捕获试剂结合区直接结合所述捕获试剂。
18.如权利要求16所述的方法,其中所述第二捕获试剂结合区结合接头捕获寡核苷酸,所述接头捕获寡核苷酸包含结合所述捕获试剂的区域;其中所述方法另外包括:使步骤(a)的混合物接触多个接头捕获寡核苷酸。
19.如权利要求16所述的方法,其中在包含100mM至2M NaCl的溶液中进行步骤(a)。
20.如权利要求16所述的方法,其另外包括:在步骤(c)之前,用包含小于10mM NaCl的洗涤溶液洗涤分离的捕获试剂结合的复合物。
21.如权利要求17所述的方法,其中所述洗涤溶液另外包含15%-30%甲酰胺。
22.如权利要求13所述的方法,其中所述捕获探针集合包含多个捕获寡核苷酸,每个捕获探针包含第一靶物-特异性的结合区,所述第一靶物-特异性的结合区与至少5个不同基因中的外显子的有义或反义链的至少一部分具有至少95%同一性。
23.如权利要求16所述的方法,其中所述捕获探针集合包含多个捕获寡核苷酸,每个捕获寡核苷酸包含第一靶物-特异性的结合区,所述第一靶物-特异性的结合区与至少70个不同基因中的外显子的有义或反义链的至少一部分具有至少95%同一性。
24.如权利要求16所述的方法,其另外包括:使用结合所述第一和第二引物结合区的正向PCR引物和反向PCR引物,扩增洗脱的侧接所述第一引物结合区和第二引物结合区的目标靶区域,以生成就目标靶区域一次富集的文库。
25.如权利要求24所述的方法,其另外包括:
(d)在允许所述捕获寡核苷酸和所述目标核酸靶区域结合的条件下,使所述就目标靶区域一次富集的文库接触所述捕获探针集合,以在目标靶区域和捕获探针之间形成多个复合物;
(e)使步骤(d)的混合物接触捕获试剂,并从所述混合物分离所述捕获试剂结合的复合物;和
(f)从所述捕获试剂结合的复合物洗脱侧接所述第一引物结合区和第二引物结合区的目标靶区域。
26.如权利要求25所述的方法,其另外包括:使用结合所述第一和第二引物结合区的正向PCR引物和反向PCR引物,扩增洗脱的侧接所述第一引物结合区和第二引物结合区的目标靶区域,以生成就目标靶区域二次富集的文库。
27.一种生成靶物富集的、测序就绪的文库的方法,所述文库用于重新测序来自含有核酸的样品的至少一个目标靶区域,所述方法包括:
(a)提供文库,所述文库包含侧接第一引物结合区和第二引物结合区的片段化的核酸分子;和
(b)用包含多个捕获寡核苷酸的捕获探针集合就靶序列富集所述文库,每个捕获寡核苷酸包含第一靶物-特异性的结合区和第二捕获试剂结合区,由此生成用于重新测序至少一个目标靶区域的富集的测序就绪的文库。
28.如权利要求27所述的方法,其另外包括:使用结合所述第一引物结合区和第二引物结合区的PCR引物,PCR扩增所述富集的文库,以生成扩增的产物。
29.如权利要求27所述的方法,其中第一茎-环接头或第二茎-环接头寡核苷酸中的至少一个包含分子条形码。
30.如权利要求27或权利要求28所述的方法,其另外包括测序所述富集的文库的至少一部分,以测定目标区域的序列。
31.如权利要求27所述的方法,其中从由人受试者得到的核酸生成所述文库。

说明书全文

生成基因特异性的文库的方法

背景技术

[0001] 准确地且快速地测序脱核糖核酸(DNA)的能正在变革生物学和医学。药物基因组学挑战是广泛地鉴别与药物反应中的变化性有关的基因和功能多态性。在给定的基因型和特定疾病之间建立联系之前,需要在大到足以产生统计上显著的数据的群体中进行众多遗传标记物的筛选。
[0002] 复杂的基因组的研究尤其是人类中疾病的遗传基础的搜索,需要大规模地基因分型,这需要大量的成本、时间和劳动。当采用的方法学包含单个DNA样品的系列分析(即,单个样品的单独反应)时,如此高成本的需要甚至更大。基因组中与疾病发展相关的多态区域的重新测序,将极大地促进对诸如癌症等疾病的理解和治疗剂开发。因而,需要生成核酸文库的准确的、高通量的方法,以用于选择性地重新测序用于药物遗传学用途和遗传疾病关联研究的基因组和/或转录组的靶区域。发明内容
[0003] 提供本概要来以简化形式介绍概念的选择,所述概念在下面的具体实施方式中进一步描述。本概要无意鉴别要求保护的主题的关键特征,也无意用作确定要求保护的主题的范围的辅助。
[0004] 在一个方面,本发明提供了生成DNA分子群体的方法,每个DNA分子包含核酸插入区,所述核酸插入区侧接第一引物结合区和第二引物结合区,所述方法包括:(a)将起始DNA分子群体破碎片段化的插入DNA分子群体;(b)在连接反应中,组合步骤(a)的片段化的插入DNA分子群体和:(i)多个第一茎-环接头寡核苷酸,其包含与第一引物结合区互补的序列,和(ii)多个第二茎-环接头寡核苷酸,其包含与第二引物结合区互补的序列;(c)在适合合成与第一和第二茎-环接头相对应的互补链的条件下,使步骤(b)的连接反应物接触聚合酶,由此生成多个双链DNA分子,每个DNA分子包含插入区,所述插入区侧接第一引物结合区和第二引物结合区;和(d)在步骤(c)的双链分子上进行聚合酶链式反应,其中使用结合第一引物结合区的多个第一PCR引物和结合第二引物结合区的多个第二PCR引物,以选择性地扩增包含插入片段的DNA分子群体,所述插入片段侧接第一茎-环接头寡核苷酸和第二茎-环接头寡核苷酸。根据本发明该方面的方法可用于,例如,生成测序就绪的DNA分子文库,其可以用作高通量测序平台中的模板。
[0005] 在另一个方面,本发明提供了就目标靶核酸区域来富集文库的方法。根据本发明该方面的方法包括:(a)在允许捕获寡核苷酸和目标核酸靶区域之间结合的条件下,使DNA分子文库接触捕获探针集合,以在目标靶区域和捕获探针之间形成多个复合物,所述DNA分子文库包含侧接第一引物结合区和第二引物结合区的目标核酸靶插入序列亚群,该亚群在侧接第一引物结合区和第二引物结合区的更大的核酸插入序列群体内,所述捕获探针集合包含多个捕获寡核苷酸,每个捕获寡核苷酸包含第一靶序列-特异性的结合区和第二捕获试剂结合区;(b)使步骤(a)的混合物接触捕获试剂,并从混合物分离捕获试剂结合的复合物;和(c)从捕获试剂结合的复合物洗脱侧接第一引物结合区和第二引物结合区的目标靶区域。在一些实施方案中,所述方法另外包括:使用结合第一和第二引物结合区的正向PCR引物和反向PCR引物,扩增洗脱的侧接第一引物结合区和第二引物结合区的目标靶区域,以生成富集了目标靶区域的文库。
[0006] 在另一个方面,本发明提供了生成靶物富集的、测序就绪的文库的方法,所述文库用于重新测序来自含有核酸的样品的至少一个目标靶区域。根据本发明该方面的方法包括:(a)提供文库,所述文库包含侧接第一引物结合区和第二引物结合区的片段化的核酸分子;和(b)用包含多个捕获寡核苷酸的捕获探针集合就靶序列富集所述文库,每个捕获寡核苷酸包含第一靶物-特异性的结合区和第二捕获试剂结合区,由此生成富集的测序就绪的用于重新测序至少一个目标靶区域的文库。
[0007] 本发明的方法可用于产生可用于多种目的的核酸分子群体(在本领域中也称作核酸分子的“文库”),诸如重新测序目标靶区域。附图说明
[0008] 参考下面的详细描述,结合附图,将更容易地明白和更好地理解本发明的前述方面和许多附随的优点,在附图中:
[0009] 图1解释了生成包含核酸插入区的DNA分子群体的方法的一个实施方案,所述核酸插入区侧接第一引物结合区和第二引物结合区,如实施例1所述;
[0010] 图2A显示了5个基因各自的扩增子(列)的条形码(行)组的密度,证实了具有条形码的DNA分子群体(其包含核酸插入区,所述核酸插入区侧接第一引物结合区和第二引物结合区)产生与没有条形码的DNA分子群体等效的序列,如实施例1所述;
[0011] 图2B显示了预期的和观察到的测序读数分布,证实了具有条形码的序列结果与正确样品的准确关联,这是根据生成包含核酸插入区的DNA分子群体的方法的一个实施方案,所述核酸插入区侧接第一引物结合区和第二引物结合区,如实施例1所述;
[0012] 图3的流程图显示了从起始DNA分子群体生成测序就绪文库的方法的步骤,根据本发明方法的不同实施方案,具有使用基于溶液的捕获方法就靶序列来富集文库的任选步骤;
[0013] 图4解释了使用捕获探针就目标靶区域来富集DNA分子群体的方法的一个实施方案,所述DNA分子包含侧接第一引物结合区和第二引物结合区的核酸插入区,所述捕获探针包含直接结合捕获试剂的捕获结合区,如实施例3所述;
[0014] 图5解释了使用捕获探针就目标靶区域来富集DNA分子群体的方法的一个实施方案,所述捕获探针包含间接结合捕获试剂的捕获结合区,如实施例4所述;
[0015] 图6的流程图是根据本发明方法的不同实施方案的基于溶液的捕获的步骤;
[0016] 图7解释了从使用间接溶液捕获富集的文库得到的示例性的基因靶物PIK3CA中的外显子的测序读数深度,所述间接溶液捕获采用与这些外显子互补的捕获寡物(oligo),证实了沿着所有被靶向的外显子的高读数密度(例如,1,000个读数),如实施例4所述;
[0017] 图8解释了在77-基因实验中的示例性基因靶物AKT 1基因的外显子的测序读数深度,如实施例5所述;
[0018] 图9图解了在特定测序读数深度测序的靶基的百分比,所述靶碱基来自根据本发明方法的一个实施方案使用3轮基于溶液的捕获富集的文库,如实施例5所述;
[0019] 图10A解释了用于测定染色体上一个区域的拷贝数变化的读数密度图谱,其来自根据本发明方法的一个实施方案生成的测序就绪文库的序列分析,如实施例6所述;
[0020] 图10B显示了进行的实验的结果,该实验使用根据本发明方法的一个实施方案生成的测序就绪文库,测量正常人受试者染色体14的一个区域的拷贝数变化,如实施例6所述;
[0021] 图11A显示了含有2个鉴别出的SNP(SNPA和SNPB)的染色体9p21的1500Kb区域上的心血管险基因座的转录分析结果,表明包括关联的SNPA和SNPB的正链转录显示跨大约800Kb,箭头显示潜在的转录单元,如实施例7所述;和
[0022] 图11B显示了从非如此随机(not-so-random)引物产生的测序就绪的文库的产生,所述文库扩增自整个转录组,并用捕获探针(箭头)就图11A所示的包括SNPA和SNPB的风险相关的基因座进行富集,如实施例所述7。

具体实施方式

[0023] 本部分呈现了本文公开的发明的许多不同方面和代表性实施方案的详细描述。本描述是通过几个示例性的例证,它们具有不同的细节和特异性。从本文提供的其它描述(包括不同的实施例)可以明白这些实施方案的其它特征和优点。提供的实施例例证了可用于实施本发明的不同实施方案的不同的组分和方法学。所述实施例无意限制要求保护的发明。基于本公开内容,普通技术人员可以鉴别和采用可用于实施本发明的其它组分和方法学。
[0024] I.定义
[0025] 除非另有定义,本文使用的所有技术和科学术语具有本发明所属领域的普通技术人员通常理解的含义。关于本领域的定义和术语,实践人员具体参考:Sambrook等人,“Molecular Cloning:A Laboratory Manual,”第2版,Cold Spring Harbor Press,Plainsview,New York(1989);和 Ausubel 等 人,“Current Protocols in Molecular Biology,”(增刊47),John Wiley & Sons,New York(1999)。
[0026] 预见到,在本发明的上下文中,术语“约”的使用意味着精确测量特定要素、特征或其它特性时的固有问题。因而,在要求保护的本发明的上下文中,本文使用的术语“约”只是表示这样的量或测量,其考虑了单个的或共同的校准和通常与测定该量或测量有关的其它标准化的误差。例如,“约”100mM Tris的浓度可以包括100mM±0.5mM的量,如果0.5mM表示达到该浓度的共同误差条。因而,在本申请中提及的任意测量或量可以与术语“约”一起使用,只要该测量或量易于发生与校准或测量设备(诸如天平、吸量器(pipetteman)、吸量管、刻度量筒等)有关的误差。
[0027] 当在权利要求和/或说明书中与术语“包含”一起使用时,词语“一个(a)”或“一个(an)”的使用可以是指“一个”,但是它也与“一个或多个”、“至少一个”和“一个或超过一个”的含义相一致。
[0028] 本文使用的术语“核酸分子”包括脱氧核糖核苷酸和核糖核苷酸,是指包括2个或更多个核苷酸单体的核苷酸聚合形式。核苷酸可以是天然存在的、人工的和/或修饰的核苷酸。
[0029] 本文使用的“分离的核酸”是这样的核酸分子,其以不同于在自然界发现的相同序列的任意核酸分子的物理形式存在;“分离的”不要求(尽管也不禁止)所述的核酸自身已从它的天然环境物理地取出。例如,当它包括在自然界中不存在的核苷酸和/或核苷间键时,可以称核酸是“分离的”。当相反由磷酸二酯键中的天然核苷组成时,在下述情况下可以称核酸是“分离的”:当它以在自然界中不存在的纯度存在时,其中可以如下判断纯度:关于其它序列的核酸的存在、关于蛋白的存在、关于脂类的存在或关于生物细胞的任意其它组分的存在,或当所述核酸缺少侧接生物的基因组中的其它相同序列的序列时,或当所述核酸具有在自然界中非相同存在的序列时。按照这样的定义,“分离的核酸”包括在异源位点处整合进宿主细胞染色体中的核酸、天然片段与异源序列的重组融合体、作为附加体存在的或整合进宿主细胞染色体中的重组载体。
[0030] 本文使用的“受试者”是指生物体或由其衍生出的细胞样品、组织样品或器官样品,包括,例如,培养的细胞系、活组织检查样本(biopsy)、血液样品或含有细胞的流体样品。例如,生物体可以是动物,包括但不限于,诸如、猪、小鼠、大鼠、鸡、猫、狗等动物,且通常是诸如人等哺乳动物
[0031] 本文使用的术语“特异性地结合”是指2个组分(例如,靶物-特异性的结合区和靶物)彼此充分结合(例如,杂交、退火、络合),使得足以进行想要的捕获和富集步骤。本文使用的术语“特异性的”是指2个组分(例如,靶物-特异性的结合区和靶物)的选择性的结合,且通常不指不意在结合主题组分的其它组分。
[0032] 本文使用的术语“高严格性杂交条件”表示,当核酸分子和它的结合配偶体的核酸序列之间存在至少95%、优选约97%-100%核苷酸互补性(同一性)时,将发生杂交的任意条件。但是,根据希望的目的,杂交条件可以是“中等严格性杂交”,可以选择这种要求更低的互补性的杂交条件,该互补性诸如从约50%至约90%(例如,60%、70%、80%、85%)。使用Karlin和Altschul(Proc.Natl.Acad.Sci.USA 87:2264-2268(1990))的数学算法,如在Karlin和Altschul(Proc.Natl.Acad.Sci.USA 90:5873-5877(1993))中所改进的,可以进行2个序列之间的序列对比和同一性百分比的测定。这样的算法包含在Altschul等人(J.Mol.Biol.215:403-410(1990))的NBLAST和XBLAST程序中。
[0033] 本文使用的术语“互补的”是指,能够根据标准的Watson-Crick互补法则进行碱基配对的核酸序列。也就是说,较大的嘌呤将与较小的嘧啶进行碱基配对,以形成下述组合:嘌呤与胞嘧啶配对(G:C),腺嘌呤与胸腺嘧啶配对(A:T)(在DNA的情况下),或腺嘌呤与尿嘧啶配对(A:U)(在RNA的情况下)。
[0034] 本文使用的术语“靶物”是指这样的核酸分子或多核苷酸,希望测定它的存在和/或量和/或序列,且其具有对给定的靶物捕获探针的亲和力。靶物的实例包括基因组DNA的区域、从RNA或DNA衍生出的PCR扩增的产物、从RNA或DNA衍生出的DNA、EST、cDNA和它们的突变、变体或修饰。
[0035] 本文使用的术语“重新测序”是指这样的技术,其使用已经测定的参照序列来测定生物的基因组的序列。应当理解,可以在生物的整个基因组/转录组上,或在大到足以包括生物的遗传改变(作为选择的结果)的基因组/转录组的一部分上,进行重新测序。可以使用不同的测序方法,诸如适合生成DNA测序读数(其可以与参照基因组比对)的任意测序平台,进行重新测序,且通常是基于高度平行的技术,例如,双脱氧法“Sanger”测序,在珠子上的焦磷酸测序(例如,在美国专利号7,211,390中描述,该专利受让人是454 Life Sciences Corporation,Brandord,Connecticut),在珠子上的基于连接的测序(例如,Applied Biosystems Inc,/Invitrogen),在载玻片(例如,Illumina基因组分析仪系统,其基于在WO 98/44151(Mayer,P.,和Farinelli L.)中所述的技术)、微阵列或荧光标记的微珠上的测序。
[0036] II.本发明的方面和实施方案
[0037] 根据前述内容,在一个方面,本发明提供了生成可以用于重新测序分析的DNA分子群体(即,文库)的方法。所述DNA分子群体中的每个DNA分子包含核酸插入区,所述核酸插入区侧接第一引物结合区和第二引物结合区。所述方法包括:(a)将起始DNA分子群体破碎成片段化的插入DNA分子群体;和(b)在连接反应中,组合步骤(a)的片段化的插入DNA分子群体和:(i)多个第一茎-环接头寡核苷酸,其包含与第一引物结合区互补的序列,和(ii)多个第二茎-环接头寡核苷酸,其包含与第二引物结合区互补的序列;(c)在适合合成与第一和第二茎-环接头相对应的互补链的条件下,使步骤(b)的连接反应物接触聚合酶,由此生成多个双链DNA分子,每个DNA分子包含插入区,所述插入区侧接第一引物结合区和第二引物结合区;和(d)在步骤(c)的双链分子上进行聚合酶链式反应,其中使用结合第一引物结合区的多个第一PCR引物和结合第二引物结合区的多个第二PCR引物,以选择性地扩增包含插入片段的DNA分子群体,所述插入片段侧接第一茎-环接头寡核苷酸和第二茎-环接头寡核苷酸。
[0038] 本发明该方面的方法可以用于生成文库,其适用于基因组或转录组分析,例如,片段化的插入物的重新测序分析。
[0039] 图1,步骤D(PCR产物)解释了根据本发明该方面的方法生成的示例性的DNA分子50A、50B,其包含侧接第一茎-环接头寡核苷酸20和第二茎-环接头寡核苷酸30的插入片段10。
[0040] 图3解释了根据本发明该方面生成测序就绪的文库的方法600的一个示例性实施方案,所述文库包含多个DNA分子50A、50B。如图3所示,在步骤610,将含有一个或多个目标靶序列的起始DNA分子群体片段化。在步骤620,将多个第一茎-环接头寡核苷酸(各自包含与第一引物结合区互补的序列)和多个第二茎-环接头寡核苷酸(各自包含与第二引物结合区互补的序列)连接到DNA片段(插入物)的末端。在步骤630,装入连接混合物,并用结合第一和第二引物结合区的引物进行PCR扩增,以产生双链DNA分子群体,每个DNA分子包含插入区,所述插入区侧接第一引物结合区和第二引物结合区(即,文库)。在步骤640,可以任选地对文库测序,或可以根据图3、图6所示的并在本文中进一步描述的步骤650-670就目标靶序列富集所述文库。
[0041] 起始核酸分子群体
[0042] 用于本发明该方面的方法中的含有一个或多个目标靶序列的起始核酸分子群体的实例包括基因组DNA、mRNA、tRNA、rRNA、cRNA、寡核苷酸、从RNA或DNA衍生出的DNA、EST、cDNA、从非如此随机引发的总RNA产生的cDNA(例如,如实施例7所述)、从RNA或DNA衍生出的PCR扩增产物、microRNA、shRNA、siRNA和它们的突变、变体或修饰。
[0043] 起始核酸分子可以分离自受试者,诸如由其衍生出的细胞样品、组织样品或器官样品,包括,例如,培养的细胞系、活组织检查样本、血液样品或含有细胞的流体样品。所述受试者可以是动物,包括但不限于,诸如牛、猪、小鼠、大鼠、鸡、猫、狗等动物,且通常是诸如人等哺乳动物。
[0044] 本文使用的术语“靶核苷酸”是指起始核酸分子群体中的具有靶序列的核酸分子或多核苷酸,所述靶序列为:希望测定它的存在和/或量和/或核苷酸序列,且其具有对给定的靶物捕获探针的亲和力。
[0045] 本文使用的术语“靶序列”通常是指在核酸的一条链上的核酸序列。靶序列可以是基因的一部分、调节序列、基因组DNA、cDNA、RNA(包括mRNA和rRNA)或其它。靶序列可以是来自样品的靶序列或第二靶物(诸如扩增反应的产物)。
[0046] 在一些实施方案中,起始核酸分子群体包含从来自含有核酸的样品的多个靶物-特异性的扩增子扩增的PCR产物,如实施例1所述。在其它实施方案中,起始核酸分子群体包含全部基因组DNA,如实施例2所述。在一些实施方案中,起始核酸分子群体表示整个转录组,如实施例7所述。
[0047] 起始核酸分子群体被破碎成具有一个或多个特定大小范围的片段化的插入DNA分子群体。在一个实施方案中,对于哺乳动物大小的基因组,从至少约1个基因组当量的起始DNA,诸如至少约10个基因组当量的DNA、诸如至少约100个基因组当量的DNA、诸如至少约1,000个基因组当量的DNA、诸如至少约10,000个基因组当量的DNA、诸如至少约100,000个基因组当量的DNA、诸如至少约300,000个基因组当量的DNA,生成片段。
[0048] 该片段化可以通过本领域已知的方法来实现,包括化学的、酶的和机械的片段化。在一个实施方案中,所述片段的长度是约10至约10,000个核苷酸。在另一个实施方案中,所述片段的长度是约50至约2,000个核苷酸。在另一个实施方案中,所述片段的长度是约
10-1,000、10-800、10-500、50-500、50-250、50-150个核苷酸。在另一个实施方案中,所述片段的长度小于500个核苷酸,诸如小于400个核苷酸、小于300个核苷酸、小于200个核苷酸或小于150个核苷酸。在一个实施方案中,通过使用超声处理,机械地实现所述片段化。
++
在一个实施方案中,通过DNA酶I消化来实现所述片段化,所述DNA酶I在没有Mg 存在且++
有Mn 存在下诱导DNA中的随机的双链断裂,如实施例1所述。在一些实施方案中,所述方法可以包括下述步骤:通过标准方法,诸如柱纯化或从琼脂糖凝胶分离,对片段进行大小选择。
[0049] 在一些实施方案中,在连接到茎-环接头上之前,对片段化的DNA分子进行平端补齐(polish)。通过与合适的酶温育,诸如T4聚合酶(其具有3′至5′外切核酸酶活性和5′至3′聚合酶活性),可以完成平端补齐步骤。在连接到茎-环接头上之前,可以任选地磷酸化片段化的DNA分子,例如,使用T4多核苷酸激酶。
[0050] 茎-环寡核苷酸接头
[0051] 如图1步骤A所示,第一茎-环接头寡核苷酸20包含5′区域24和插入区域26,所述5′区域24具有与位于3′区域28中的序列互补的序列,形成茎结构,且在5′和3′区域之间的所述插入区域26形成环结构。在第一茎-环接头寡核苷酸20中还存在与第一引物结合区82互补的的序列22,其可以位于插入区域26中或茎区域中。在非变性条件下,5′区域24和3′区域28杂交到一起,产生茎-环接头寡核苷酸20结构,其具有双链的茎
24和28和形成环结构的插入区域26。
[0052] 类似地,如在图1步骤A中进一步显示的,第二茎-环接头寡核苷酸30包含5′区域34和插入区域36,所述5′区域34具有与位于3′区域38中的序列互补的序列,形成茎结构,且在5′和3′区域之间的所述插入区域36形成环结构。在第二茎-环接头寡核苷酸30中还存在与第二引物结合区92互补的的序列32,其可以位于插入区域36中或茎区域中。在非变性条件下,5′区域34和3′区域38杂交到一起,产生茎-环接头寡核苷酸30结构,其具有双链的茎34和38和形成环结构的插入区域36。
[0053] 每个茎-环接头20、30的长度通常是至少40个核苷酸,诸如至少45个核苷酸、至少50个核苷酸、至少55个核苷酸、至少60个核苷酸、至少65个核苷酸、至少70个核苷酸、直到约200个核苷酸的最大长度。在所述方法的一些实施方案中,所述茎-环接头的长度各自是约45个核苷酸至约70个核苷酸。
[0054] 在第一茎-环接头20中的5′互补区域24和3′互补区域28以及在第二茎-环接头30中的5′互补区域34和3′互补区域38的长度可以是约5个核苷酸至100个核苷酸或更多,诸如10个核苷酸、15个核苷酸、20个核苷酸或更多,且可以使用多种不同的序列来设计,所述序列导致每个茎-环接头上的互补区域之间的杂交,产生双链DNA的局部区域(即,茎)。例如,可以使用长度为15-18个核苷酸的茎序列,其显示出相同的G:C和A:T碱基对。预测这样的茎序列在它们的预测的~45℃的解链温度以下会形成稳定的dsDNA结构。
[0055] 在第一和第二茎-环接头中的插入环区域26、36的长度可以是约10个核苷酸、20个核苷酸、30个核苷酸、40个核苷酸或更多。为了便利随后的PCR扩增和测序,在一些实施方案中,插入环区域26、36包括大小为约10个核苷酸至约30个核苷酸的核酸序列22、32,其与第一和第二PCR引物结合序列82、92互补。与第一和第二引物结合序列互补的区域可以包含在茎-环接头的任意其它部分中。
[0056] 第一PCR引物结合区82和第二PCR引物结合区92含有彼此不同的序列,且所述序列设计成,在测序就绪文库的多个DNA分子中提供通用的第一引物结合位点和通用的第二引物结合位点,用于结合第一和第二PCR引物,以实现插入的插入物序列的PCR扩增。
[0057] 在一些实施方案中,所述茎-环接头寡核苷酸还包含一个或多个另外的特征,诸如限制酶位点和/或用于连接到测序平台上的锚探针结合位点,所述测序平台诸如用于大量平行测序的流动池(例如,Illumina,Inc.)。例如,Illumina基因组分析仪系统是基于在WO 98/44151(通过引用并入本文)中所述的技术,其中DNA分子通过锚探针结合位点(或者称作流动池结合位点)结合到测序平台(流动池)上,并在载玻片上原位扩增。然后使DNA分子与测序引物退火,并使用可逆的终止子方案,平行地逐个碱基测序。Illumina基因组分析仪系统使用具有8个通道的流动池,产生长度为18-36个碱基的测序读数,每次运行产生>1.3Gbp的高质量数据(参见http://www.illumina.com)。
[0058] 在一些实施方案中,第一茎-环接头20和第二茎-环接头30各自含有用于结合到测序平台(例如,上述的流动池)上的锚探针结合位点。在一些实施方案中,第一PCR引物结合位点82和第二PCR引物结合位点92包含这样的序列,其也用作结合到测序平台上的锚探针结合位点。在一些实施方案中,第一茎-环接头寡核苷酸20或第二茎-环接头寡核苷酸30中的至少一个另外包含用于与测序引物退火的序列。在一些实施方案中,第一茎-环接头寡核苷酸20包含用于与测序引物退火的序列。
[0059] 包含分子条形码的茎-环接头寡核苷酸
[0060] 在一些实施方案中,茎-环接头寡核苷酸中的至少一个(例如,20或30)另外包含一个或多个分子条形码序列(例如,长度为1、2、3、4或更多个核苷酸的核苷酸标签),其可以用于鉴别具有条形码的样品的混合物中插入物序列10的来源。在一些实施方案中,所述分子条形码序列用于建立具有共同特征的多核苷酸的组。例如,这样的特征可以包括起源的来源/样品,用于产生多核苷酸的加工条件等,如在实施例1中进一步描述的。
[0061] 茎-环接头与插入片段的连接
[0062] 根据本发明该方面的方法,在连接反应中,使用合适的酶诸如T4DNA连接酶,使双链核酸片段10结合第一茎-环接头寡核苷酸20和第二茎-环接头寡核苷酸30。如图1步骤A所示,每个茎-环接头20、30的茎区域形成平端的、双链DNA区段,其适合连接到平端的、双链核酸片段10上,产生连接的结构,其具有与双链DNA插入物10的5′末端共价连接的茎-环接头20或30的3′末端。使用PCR前填充反应(使用合适的聚合酶,诸如Taq聚合酶)将序列信息从连接的插入物:茎-环接头拷贝到互补链,产生图1步骤C所示的填充连接产物。
[0063] 如图1步骤C所示,连接反应产生连接产物的混合物,所述连接产物包括靶连接产物和连接副产物,所述靶连接产物包含插入物10,该插入物10在每个末端上侧接在第一个方向50A和第二个方向50B的一对异源茎-环接头20、30,所述连接副产物包含插入物10,该插入物10在每个末端上侧接一对同源茎-环接头20、20(如连接副产物60所示)或30、30(如连接副产物70所示)。
[0064] 用于选择性地扩增靶连接产物的抑制PCR
[0065] 如图1步骤C所示,连接产物的起始群体包括侧接异源接头末端50A、50B的插入物和侧接同源接头末端60、70的插入物的混合物。使用称作抑制PCR (P.D.Siebert等人,Nucleic Acids Res.23:1087-1088(1995))的现象来选择性地富集侧接异源接头末端50A、50B的插入物。如在实施例1中所证实的,难以扩增延长的茎-环结构(例如,大于40个核苷酸),因为双链茎封闭PCR引物的结合。因此,如图1步骤D所示,不希望的连接副产物60、70难以进行PCR扩增,这是因为第一茎-环接头寡核苷酸和第二茎-环接头寡核苷酸都大于40个核苷酸。因此,如图3步骤630所示,使用与第一PCR引物结合位点82杂交的第一PCR引物52和与第二PCR引物结合位点92杂交的第二PCR引物54,在聚合酶链式反应(PCR)中扩增连接混合物,以产生测序就绪的文库,其包含多个核酸分子50A、50B,所述核酸分子含有从起始DNA分子群体衍生出的多个插入物(如图1步骤D“PCR产物”所示)。
[0066] 聚合酶链式反应(PCR)是众所周知的技术,且包括使用与热循环组合的引物延伸来扩增靶序列。一般而言,聚合酶链式反应中的扩增循环的数目越大,得到的扩增的DNA产物的量越大。在一些实施方案中,在抑制PCR扩增(参见图3)步骤630中使用的扩增循环的希望数目是2-60个循环,诸如10-30个循环,诸如约20个循环。
[0067] 得到的扩增产物包含多个双链核酸分子50A、50B的文库,每个核酸分子包含核酸插入区,所述核酸插入区侧接第一引物结合区和第二引物结合区。文库中的多个核酸插入区包括一个或多个靶序列,且可以包括足够的不同的核酸序列,以覆盖(即,代表)来源核酸的一部分或全部,所述来源核酸包括、但不限于,生物基因组、基因组基因座、cDNA文库、生物的完整转录组等。例如,这样的双链核酸分子文库可以覆盖至少约50%、或至少约60%、或至少约70%、或至少约80%、或至少约90%、或至少约95%、直至约100%的来源核酸。
[0068] 根据本发明的方法产生的这种文库可以直接用于流动池测序平台,诸如Illumina基因组分析仪,用于序列分析,或使用其它标准方法进行测序,因此被称作“测序就绪的”文库。
[0069] 在一个实施方案中,使用Illumina基因组分析仪系统,使用本发明的方法来产生用于序列分析的测序就绪的文库,且接头20、30中的至少一个包括至少一个锚探针结合位点(或者称作流动池结合位点)和用于与测序引物退火的序列。在序列分析之前,使文库在室温变性(即,在0.2MNaOH中)5分钟,并结合至流动池。
[0070] 可以单独地分析这样的测序就绪文库,或者,如果改进成含有分子条形码,可以将多个文库作为混合物组合成文库的单个集合,并分析。当在合并的具有条形码的文库上进行反应时,反应仅需进行一次。当作为文库集合进行分析时,所述分析可以包括分子条形码的检测(诸如测序)。
[0071] 如图3所示,可以在步骤640中测序根据本发明的方法制备的文库或文库集合,或可以使用基于溶液的捕获方法,进一步就目标靶序列进行富集(如图3步骤650-670所示),并如下面详细描述地进行分析。
[0072] 用于就目标靶序列富集文库的基于溶液的捕获
[0073] 在另一个方面,本发明提供了就目标靶核酸区域富集文库的方法。根据本发明该方面的方法包括:(a)在允许捕获寡核苷酸和目标核酸靶区域之间结合的条件下,使DNA分子文库接触捕获探针集合,以在目标靶区域和捕获探针之间形成多个复合物,所述DNA分子文库包含侧接第一引物结合区和第二引物结合区的目标核酸靶插入序列的亚群,所述亚群在侧接第一引物结合区和第二引物结合区的核酸插入序列的更大群体内,所述捕获探针集合包含多个捕获寡核苷酸,每个捕获寡核苷酸包含第一靶序列-特异性的结合区和第二捕获试剂结合区;(b)使步骤(a)的混合物接触捕获试剂,并从混合物分离捕获试剂结合的复合物;和(c)从捕获试剂结合的复合物洗脱侧接第一引物结合区和第二引物结合区的目标靶区域。
[0074] 使用本发明该方面的方法,可以就靶序列富集任意DNA分子文库,所述DNA分子文库包含侧接第一引物结合区和第二引物结合区的目标核酸靶插入序列的亚群,所述亚群在侧接第一引物结合区和第二引物结合区的核酸插入序列的更大群体内。在所述方法的一个实施方案中,使用本发明该方面的方法,富集使用本发明的方法生成的DNA分子文库,所述DNA分子文库包含侧接第一引物结合区和第二引物结合区的目标核酸靶插入序列的亚群,所述亚群在侧接第一引物结合区和第二引物结合区的核酸插入序列的更大群体内,如图3(步骤610-630)所示和上文所述。使用基于溶液的捕获来富集文库,允许有效地建立主要由靶序列组成的重新测序样品(测序就绪文库),如在实施例3-7中所证实的。
[0075] 靶物捕获探针
[0076] 如图4所示,在一个实施方案中,有义靶物捕获探针100或反义靶物捕获探针100′各自包含靶序列-特异性的结合区102、102′和连接到用于结合捕获试剂400的部分
110上的捕获试剂结合区104。在操作中,如图4步骤B所示,有义靶物捕获探针100或反义靶物捕获探针100′的靶物-特异性的结合区102结合到包含于文库中的核酸分子50的插入区10或10′的互补的或基本上互补的核酸序列上。然后使连接到捕获探针100、100′上的部分110(例如,生物素)接触具有结合区410(例如,抗生蛋白链菌素涂层)的捕获试剂400(例如,磁珠),并用结合捕获试剂400的拣选装置500(例如,磁体)从溶液中拉出复合物。
[0077] 捕获探针的长度通常是10个核苷酸至约200个核苷酸的范围,诸如约20个核苷酸至约150个核苷酸,诸如约30个核苷酸至约100个核苷酸和诸如约40个核苷酸至约80个核苷酸。
[0078] 靶物捕获探针的靶物-特异性的结合区102、102′的长度通常是约25至约150个核苷酸(例如,50个核苷酸、100个核苷酸),且选择成特异性地杂交目标靶序列。在一个实施方案中,所述靶物-特异性的结合区包含与目标靶序列基本上互补的(即,具有至少90%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性或100%同一性)的序列。
[0079] 在一个实施方案中,所述捕获探针的长度是约70个核苷酸,其包含长度为约35个核苷酸的靶物-特异性的区域。
[0080] 本领域技术人员可以使用本领域公认的方法来测定靶物结合区的特征,所述靶物结合区以最小非特异性杂交与靶物杂交。例如,技术人员可以实验地测定下述特征,诸如长度、碱基组成和使核酸分子(例如,靶物捕获探针的靶物-特异性的结合区)能够在选定的严格性条件下与另一个核酸分子(例如,核酸靶物)特异性地杂交的互补性程度,同时使与其它物质或分子的非特异性杂交最小化。例如,对于目标外显子靶物,从诸如GenBank等公开的数据库获取靶基因序列,并搜索该序列中25-150碱基对的区段,其含有具有45%至55%的GC含量的互补序列。也可以扫描鉴别出的序列,以确保不存在潜在的二级结构,且也可以针对公开的数据库进行搜索(例如,BLAST搜索),以确保缺少与其它基因的互补性。
[0081] 可以将捕获寡核苷酸设计成在选定的位置结合靶区域,所述位置在靶区域上以不同的间隔隔开。捕获寡物设计和靶物选择过程也可以考虑靶区域的基因组特征,诸如基因变化、G:C含量、预测的寡物Tm等。
[0082] 在一些实施方案中,使用本发明的方法来捕获和测序修饰的或突变的靶物,诸如测定特定单核苷酸多态性(SNP)的存在或缺失、添加或其它修饰。根据这样的实施方案,通常将靶物捕获探针集合设计为,使得存在非常密集的捕获探针阵列,所述捕获探针紧密地排列在一起,使得单个靶序列(其可以含有突变)被与靶序列重叠的多个捕获探针结合。例如,可以设计这样的捕获探针,其覆盖一条或两条链的靶区域上的每个碱基(即,头至尾),或其在序列区域上以每2、3、4、5、10、15、20、40、50、90、100或更多个碱基的间隔隔开。
[0083] 作为另一个实例,目标靶区域上的靶物捕获探针的选择是基于靶区域的大小。例如,对于长度小于100个核苷酸的靶区域,通常将捕获探针(有义的、反义的或二者)设计成与靶序列杂交,所述靶序列间隔0-100个核苷酸,诸如每45个核苷酸。作为另一个实例,对于大于200个核苷酸的靶区域,通常将捕获探针(有义的、反义的或二者)设计成与靶序列杂交,所述靶序列间隔0-200个核苷酸,诸如以45-65个核苷酸间隔。在一个实施方案中,对于大于200个核苷酸的靶区域(例如,200,000-核苷酸的靶区域),通常设计有义和反义捕获探针集合,所述每个捕获探针的长度是约35个核苷酸,并在靶区域上间隔约45个核苷酸(交替有义/反义),以便使该区域饱和(例如,在目标区域上“铺瓦”)。
[0084] 在所述方法的一些实施方案中,将捕获探针集合设计成特异性地结合多个靶区域,诸如单个基因或多个基因的外显子,诸如至少5个基因、至少10个基因、至少20个基因、至少50个基因、至少75个基因或更多。
[0085] 在所述方法的一些实施方案中,将捕获探针集合设计成特异性地结合跨基因组位置(诸如跨染色体区域)的靶序列,并使捕获探针接触来自总基因组文库的核酸分子。
[0086] 在所述方法的一些实施方案中,将捕获探针集合设计成特异性地结合跨基因组位置(诸如跨染色体区域)的靶序列,并使捕获探针接触在整个转录组文库中的核酸,以便分析跨选择的基因组基因座的整个转录组,如实施例7所述。
[0087] 在所述方法的一些实施方案中,将捕获探针集合设计成特异性地结合已知与临床结果或疾病或疾病风险有关的基因组基因座,例如,如实施例8所述。
[0088] 如图4所示,在一个实施方案中,所述靶物捕获探针100、100′包含捕获试剂结合区104,后者连接到用于结合捕获试剂400的部分110上。本领域技术人员会理解,基于溶液的捕获方法利用连接(直接地或间接地)到捕获探针100、100′上的部分110和捕获试剂400之间的结合相互作用,以实现捕获的序列(结合到捕获探针上)从捕获的和未捕获的DNA分子的主体溶液的选择性分离。部分110和捕获试剂400可以是任意合适的结合配偶体,例如,生物素/抗生蛋白链菌素、表位/抗体或DNA杂交配偶体。
[0089] 在一个实施方案中,所述部分110是生物素,且所述捕获试剂400是抗生蛋白链菌素-包被的珠子400,该珠子400使用磁性拣选装置500分选出来。尽管在图4中显示的部分110位于捕获探针的5′末端,但本领域技术人员会理解,所述部分可以替代性地位于靶物捕获探针100的3′末端。
[0090] 作为另一个实例,所述部分110和捕获试剂400可以是表位/抗体对,诸如与地高辛抗体结合的地高辛部分、或与荧光抗体结合的荧光素部分、或其它小的表位/抗体结构。
[0091] 作为另一个实例,所述部分110和捕获试剂400可以是DNA杂交配偶体。例如,在捕获探针上的部分110可以是与固定在珠子400上的寡核苷酸互补的序列。
[0092] 如图5所示,在本发明该方面的方法的另一个实施方案中,捕获探针200包含靶物-序列特异性的结合区202、202′和捕获试剂结合区204,所述捕获试剂结合区杂交通用接头寡核苷酸300,后者包含结合捕获试剂400的部分310。在操作中,如图5步骤B所示,有义靶物捕获探针200或反义靶物捕获探针200′的靶物-特异性的结合区202结合包含于文库的核酸分子50的插入区10或10′中的基本上互补的核酸序列。通用接头寡核苷酸300以与捕获探针200相同的浓度存在,并杂交捕获试剂结合区204。然后使连接到通用寡物接头300上的部分310(例如,生物素)接触具有结合区410(例如,抗生蛋白链菌素涂层)的捕获试剂400(例如,磁珠),并用结合捕获试剂400的拣选装置500(例如,磁体)从溶液中拉出复合物。
[0093] 如图6所示,基于溶液的捕获方法650包括步骤652,该步骤提供核酸分子文库,所述核酸分子包含在一端侧接第一引物结合区并在另一端侧接第二引物结合区的目标核酸靶插入序列(例如,如图3的步骤630所示生成)。
[0094] 在步骤654中,使核酸分子50A、50B的文库与捕获探针集合退火,每个捕获探针包含与包含于文库插入物中的靶序列杂交的区域。在一个实施方案中,捕获探针100包含用于结合捕获试剂400(例如,抗生蛋白链菌素-包被的珠子)的部分110(例如,生物素化的部分)。在另一个实施方案中,使核酸分子50A、50B的文库与捕获探针200集合的组合退火,每个捕获探针包含与通用接头寡物300杂交的区域204和等摩尔量的通用接头寡物300,所述寡物包含用于结合捕获试剂400的部分310。
[0095] 通过在包含100mM至2M NaCl的高盐溶液(同渗浓度同渗浓度=200-4,000摩尔)中混合摩尔过量的捕获探针(或捕获探针+通用接头寡物)和文库(或具有表形码的文库的集合),进行退火步骤654。一种示例性的用于退火的高盐溶液是10mM Tris pH 7.6、0.1mM EDTA、1M NaCl(同渗浓度=2,000摩尔)。然后使混合物中的核酸分子变性(即,通过加热至94度),并冷却至室温。在一个实施方案中,在高盐溶液中进行退火步骤,所述高盐溶液包含100mM至2M NaCl,并加入了0.1%triton X100(或吐温或NP40)非离子型去污剂。
[0096] 在步骤655中,将足以产生多个复合物的量的捕获试剂加入到退火的混合物中,每个复合物含有核酸分子、捕获探针(或捕获探针和通用接头寡物)和捕获试剂。在包含100mM至2M NaCl的高盐溶液(同渗浓度=200-4,000摩尔)中进行该步骤。一种示例性的用于退火的高盐溶液是10mM Tris pH 7.6、0.1mM EDTA、1M NaCl(同渗浓度=2,000摩尔)。然后在混合下在室温温育混合物约15分钟。
[0097] 在步骤656,使用拣选装置500(例如,磁体),从溶液分离或隔离出在步骤655中形成的复合物,所述拣选装置从溶液中拉出或分选出捕获试剂400。
[0098] 在步骤658中,用低盐洗涤缓冲液(小于10mM NaCl,更优选地没有NaCl)洗涤结合到捕获试剂400上的分选的复合物,以除去非-靶核酸。一种示例性的低盐洗涤缓冲液是10mM Tris pH 7.6、0.1mM EDTA(同渗浓度=10毫摩尔)。在一些实施方案中,所述低盐洗液任选地含有15%-30%甲酰胺,诸如25%甲酰胺(同渗浓度=6.3摩尔)。对于每个洗涤步骤,将结合到复合物(即,磁珠)上的捕获试剂400重新悬浮于低盐洗涤缓冲液中,并摇动5分钟,然后用拣选装置(磁体)再次分选。所述洗涤步骤可以重复2-4次。
[0099] 在步骤660中,如下从结合到捕获试剂上的复合物洗脱含有靶序列的核酸分子。将经洗涤的结合到捕获试剂400上的复合物重新悬浮于中,或低盐缓冲液(即,同渗浓度小于100毫摩尔)中,加热至94℃30秒,使用拣选装置(即,磁体)拉出捕获试剂(即,磁珠),并收集含有靶核酸分子的上清液(洗脱液)。
[0100] 在步骤670中,使用结合第一接头中的第一引物结合位点的第一PCR引物和结合第二接头中的第二引物结合位点的第二PCR引物,在PCR反应中扩增洗脱液,生成一次富集的文库,所述文库可以任选地在步骤680中测序。
[0101] 如图6所示,在序列分析之前,可以在每一轮富集中使用相同的捕获探针集合,根据步骤654-670进一步处理一次富集的文库,以产生就目标靶序列二次富集的或三次富集等的文库。
[0102] 在一个实施方案中,第一和第二轮富集中DNA靶物的浓度与捕获寡物的浓度之比是:浓度为约500ng/ml的DNA靶物:浓度范围为约1nM-10nM的捕获寡物。在一个实施方案中,第三轮富集中DNA靶物的浓度与捕获寡物的浓度之比是:浓度为约500ng/ml的二次富集的文库:浓度为约1nM的捕获寡物。
[0103] 在一个实施方案中,使用设计成靶向第一靶物集合的第一捕获探针集合,进行第1轮富集(图6中所示的步骤654-670),随后使用设计成靶向第二靶物集合的第二捕获探针集合,进行第2轮富集。
[0104] 在一个实施方案中,所述捕获试剂(400)包含抗生蛋白链菌素包被的磁珠,每个珠子具有大约50pmol生物素化的双链DNA/50μl珠子的结合容量。在一个实施方案中,在步骤655中,将约50μl抗生蛋白链菌素包被的磁珠加入约5μg退火的核酸中(例如,在第一和第二轮富集中)。在一个实施方案中,在步骤655中,将约5μl抗生蛋白链菌素包被的磁珠加入约5μg退火的核酸中(例如,在第三轮富集中)。
[0105] 如实施例3-5所述,根据本文所述的不同实施方案的基于溶液的捕获方法可用于产生一定水平的靶物片段特异性的富集,在第一轮富集中的范围是500至900倍,在第二轮中具有高50倍的富集水平(即,25,000至45,000倍总富集水平)。
[0106] 在一个实施方案中,最后一轮富集可以使用有限量的针对文库的捕获探针来进行,以便允许标准化或均化富集的文库中的靶基因序列,使得扩增的靶物的频率存在宽的分布。
[0107] 寡核苷酸合成
[0108] 通过任 一种 本领域 公认的 化学方 法,包 括磷酸 二酯、磷 酸三 酯(phosphotriester)、磷酸三酯(phosphate triester)或N-膦酸酯和亚磷酰胺化学方法(参见例如,Froehler等人,Nucleic Acid Res.14:5399-5407,1986;McBride等人,Tetrahedron Lett.24:246-248,1983),可以进行本发明的不同的寡核苷酸(例如,茎-环接头、捕获探针和通用接头寡核苷酸)的DNA合成。寡核苷酸合成方法是本领域众所周知的,且通常包括,将核苷酸的3′羟基上的活化的磷衍生物与核酸分子的5′羟基偶联(参见,例如,Gait,“Oligonucleotide Synthesis:A Practical Approach,”IRL Press,1984)。
[0109] 在一些实施方案中,合成捕获探针100、100′,以包括RNA残基(即,DNA/RNA杂合体分子)和/或非天然的碱基诸如肌苷,其具有改变的碱基配对和/或具有修饰的主链序列诸如硫代磷酸酯。
[0110] 下面的实施例仅例证了现在预见到的用于实施本发明的最佳方式,但是不应当解释为限制本发明。
[0111] 实施例1
[0112] 本实施例描述了基于PCR的方案用于产生5个目标基因的外显子扩增子的测序就绪的文库的应用,其中进行任选的进一步修改,以包括分子条形码序列的使用。
[0113] 原理
[0114] 诸如Illumina测序平台(Illumina,Inc.,San Diego,California)等高度平行的测序技术的一个用途是,经过测序的基因组(诸如人基因组)的特定区域的靶向重新测序。在本实施例中,被靶向的区域是5个人基因-AKT1、KRAS、PIK3CA、PTEN和TP53-的编码外显子。使用PCR来获取源自这5个基因的52个外显子区域,本文描述了将这些DNA扩增子转化成片段化的样品的方法,所述样品侧接含有适合测序的引物结合位点的接头。来自诸如Illumina平台等系统的序列输出有足够的量,足以一次测序几个样品。为了同时分析样品,每个样品必须被独特地标记。在本实施例中验证过的一种标记方法是,在测序起始位点和要测序的片段化的文库区段之间添加特定核苷酸序列,每个添加的序列是每个样品独有的。以此方式,序列的前面少数碱基独特地鉴别样品,而剩余的序列则源自该样品中待分析的靶区域。在本实施例中,将3个核苷酸的分子条形码标签添加到独特的测序文库上,并将这些代码的所有64种可能的组合都合并进单个测序文库中。输出序列的分析证实,每个代码独特地结合适当的文库序列。通过延伸,把代码的长度变成n个碱基,使得可以产生(n)4 个代码。
[0115] 本实施例证实,在测序的合并的PCR片段中包括的所有区域都被成功地转化成片段,所述片段侧接产生序列信息的接头。此外,本实施例也表明,分子条形码可用于将多路样品合并成单个测序反应,随后可以通过计算分析,从所述反应提取每个样品独有的序列信息。
[0116] 用于外显子扩增的引物对的选择和初步评价
[0117] A.引物对的选择
[0118] 使用可在http://genome.ucsc.edu/从UCSC基因组生物信息学浏览器上得到的标题为“Exon Primer”的外显子引物选择软件,选择下述5个基因-AKT1、KRAS、PIK3CA、PTEN和TP53-的PCR引物对。最初为每个外显子选择5对PCR引物,用于评价5个基因的集合中每个外显子的PCR扩增。
[0119] 使用下面的标准,选择PCR引物:
[0120] (1)引物和外显子/内含子边界之间的最小距离是35个碱基对(产生70个碱基对的引物区域)。
[0121] (2)最大靶外显子大小是500个碱基对,具有50个碱基对的重叠,使得大于最大靶大小的外显子分成2个引物集合。在内含子较小的情况下,选择引物来跨超过1个外显子进行扩增。
[0122] (3)靶引物退火温度是60℃,具有GC夹,它在3′引物末端包含一个或多个G:C碱基对,且意在稳定化引物:模板双链体的末端。
[0123] (4)引物长度是17个核苷酸至27个核苷酸,诸如24至27个核苷酸。
[0124] (5)最大长度为4个核苷酸的单核苷酸重复序列(例如,AAAA)。
[0125] (6)也针对在人基因组中发现的常见重复元件遮蔽引物序列,从而除去具有扩增基因组的多个区段的潜力的引物对。
[0126] 使用上述标准,选择最初的PCR引物集合,并按照如下所述进行测试。以100μl100μM储液,在10个单独的96孔平板中递送引物。在水中1∶50稀释储液引物,以建立
2μM的工作引物。在-20℃保藏储液引物和工作引物。
[0127] B.外显子的PCR扩增
[0128] 使用如下所述的候选引物集合,进行PCR反应,并在琼脂糖凝胶上评价反应,以确定是否产生了正确大小的PCR产物。
[0129] PCR反应条件:
[0130] 3.5μl H2O
[0131] 2μl 5X缓冲液 (由生产 商Expand High Fidelity PLUS,Roche Applied Sciences,Indianapolis,IN提供)
[0132] 2μl正向外显子特异性的引物(2μM)
[0133] 2μl反向外显子特异性的引物(2μM)
[0134] 0.2μl基因组DNA(100ng/μl)
[0135] 0.2μldNTP(10mM)
[0136] 0.1μl酶(Expand High Fidelity PLUS)
[0137] 共计10μl
[0138] PCR循环条件:
[0139] 1个循环
[0140] 94℃2分钟
[0141] 10个循环:
[0142] 94℃30秒
[0143] 60℃30秒
[0144] 72℃1分钟
[0145] 25个循环:
[0146] 94℃30秒
[0147] 60℃30秒
[0148] 72℃1分钟+10秒/循环
[0149] 72℃7分钟
[0150] 4℃保持
[0151] 结果
[0152] 在琼脂糖凝胶上就预期大小的PCR产物的存在和产物的量分析结果。在下面的表1中总结了结果。
[0153] 表1:使用就外显子扩增所测试的候选PCR引物对的初步结果的总结
[0154]
[0155]
[0156] 如在表1中所总结的,对于许多外显子,尝试的所有PCR引物对在尝试的第一个PCR反应中失败。对于某些外显子,仅一个PCR引物对或几个PCR引物对产生任意PCR产物。因此,结论是,需要改变PCR反应条件,以增加成功率和反应的稳健性。
[0157] C.增加PCR产物的产率和特异性的方法
[0158] 方法
[0159] 改变PCR反应条件,以测试MgCl2浓度(1.5mM或3.0mM)、DMSO(5%)和甜菜碱(1.5M)对外显子PCR产物产率和特异性的影响,其中使用靶基因AKT1的候选引物对集合,它们的设计如上所述。
[0160] 如下面的表2所述,建立10μl PCR反应。PCR循环条件如上所示,具有55℃退火温度。对于在表2中显示的样品集合,测试了5个引物对,它们以前从AKT1引物生成了良好产物至没有产物的结果,如在表1中所总结的。
[0161] 表2:AKT外显子-特异性的扩增的PCR条件和结果
[0162]
[0163]
[0164] 结果
[0165] 关于预期的产物大小、单个或多个(非特异性的)带的存在和产物的量,在2%琼脂糖凝胶上分析了上面表2所述的PCR反应。如表2所示,观察到,在低MgCl2浓度(例如,1.5mM),仅含有DMSO的PCR反应生成了产物,与模板的量无关。在测试的更高的MgCl2浓度(3.0mM),所有PCR反应生成产物;但是,在没有添加剂(DMSO或甜菜碱)的PCR反应中观察到非-特异性的产物,它们在存在5%DMSO或1.5M甜菜碱时被抑制。因此,结论是,DMSO是最可靠的添加剂,并增加了产物的产率和特异性。3.0mM MgCl2也与DMSO组合地增加产率。因此,选择高MgCl2(3.0mM)和1.5M甜菜碱或5%DMSO作为外显子扩增的最佳组合。
[0166] 在PCR反应中使用产生在表1中总结的结果的相同引物集合,使用高MgCl2(3.0mM)和5%DMSO、20ng模板和55℃的退火温度。在这些条件下,每个外显子的5个引物对中的至少一个生成预期大小的单个PCR带(>98%成功率)。
[0167] 在下面的表3中,提供了经测定会成功地扩增5个靶基因的60个外显子扩增子的PCR引物对集合。
[0168] 表3:用于扩增外显子扩增子的外显子特异性的引物对和PCR条件
[0169]
[0170]
[0171]
[0172]
[0173]
[0174]
[0175]
[0176]
[0177] D.PCR外显子扩增子集合的DNA酶I片段化
[0178] 使用表3所示的引物对和条件,从基因组DNA通过PCR扩增51个外显子扩增子。然后合并这些PCR产物,并经 柱(Qiagen)纯化,其除去小于大约40个碱基对
的DNA片段。纯化的合并的PCR产物以50ng/μl存在,大小范围是大约50个碱基对至900个碱基对。
[0179] DNA酶I消化
[0180] 经测定,牛胰脱氧核糖核酸酶I(DNA酶I)在没有Mg++存在且有Mn++存在下诱导DNA中的随机的双链断裂(Anderson,S.,Nucleic Acids Res.9(13):3015-3027(1981);Melgar,E.,等人,J.Biol.Chem.243(17):4409-16(1968))。因此,使用牛胰DNA酶I(New England Biolabs目录号M0303S)来随机地片段化外显子扩增子集合,以产生下述的测序文库。
[0181] 在每μl 0.004U、0.002U和0.001U的浓度范围内(在没有Mg++存在且有MnCl2存在下),测试牛胰DNA酶I处理,以便鉴别适合从PCR扩增的外显子集合产生约50至约500个碱基对的平均片段大小的DNA酶I消化条件。
[0182] DNA酶I消化:
[0183] 2μl 50ng DNA(PCR扩增的外显子集合)/反应:
[0184] 1μl 10X缓冲液(500mM Tris pH 7.6,0.5mg/ml乙酰化的BSA)
[0185] 1.25μl40mM MnCl2
[0186] 4.75μlH2O
[0187] 1.0μl牛胰DNA酶I(N.E.B.#M0303S)(2U/μl稀释至0.004、0.002和0.001U/μl)
[0188] 10.0μl
[0189] 在室温温育DNA酶I反应物10分钟,用0.2体积的100mM EDTA停止,并跑琼脂糖凝胶,以测定由DNA酶I消化产生的大小范围。
[0190] 结果
[0191] 琼脂糖凝胶分析证实,测试的DNA酶I酶浓度范围产生了大小范围为从完全消化(例如,长度为二核苷酸或三核苷酸)至轻微片段化的外显子扩增子集合(例如,长度为850个核苷酸,数据未显示)的消化产物。从该分析可以确定,1∶1,000至1∶1,500稀释度范围的DNA酶I(2U/μl储液)处理导致约50至约500个碱基对的希望范围内的DNA片段的生成。
[0192] 然后在上述条件下将DNA酶I反应放大,以消化10μg合并的总PCR片段。将DNA酶I消化过的物质跑 柱(除去小于约50个碱基对的片段)。然后通过组合200μl纯化的DNA、20μl3M醋酸钠、3μl Glyco-blue和500μl 100%ETOH来用乙醇沉淀法浓缩纯化的DNA。共回收4.5μg DNA(45ng/μl,100μl总体积)。
[0193] E.平端补齐DNA酶I消化的片段
[0194] 根据生产商的说明书,使用Quick 试剂盒(New EnglandBiolabs,目录号E1201L),末端补齐40μl(1.8μg)纯化的、DNA酶I消化的片段集合。Quick试剂盒包括含有T4聚合酶(其具有3′至5′外切核酸酶活性和5′至3′聚合酶活性)和T4多核苷酸激酶(用于平端化的DNA的磷酸化,从而随后连接到茎-环接头上)的反应混合物,产生40ng/μl的最终片段浓度。
[0195] 平端补齐反应:
[0196] 10μl 纯化的DNA酶I处理过的DNA(45ng/μl)
[0197] 2μl 10X平端缓冲液(与试剂盒一起提供)
[0198] 5.2μl H2O
[0199] 2μl 1mM dNTP
[0200] 0.8μl酶(T4聚合酶和T4多核苷酸激酶的混合物)
[0201] 共20μl
[0202] 在室温温育反应混合物30分钟,然后在70℃温育10分钟。如下将该平端补齐的DNA连接到茎-环接头上。
[0203] F.茎-环接头与片段的连接
[0204] 原理
[0205] 为了促进随后的PCR扩增和测序,将含有PCR引物结合位点的寡核苷酸接头(称作茎-环接头)连接到平端化的文库片段上。将寡物接头设计成单DNA寡核苷酸,其能自我退火,以形成茎-环二级结构。所述茎形成平端化的dsDNA区段,其适合连接到平端文库片段上。在本实施例中,使用长度为15至18个核苷酸的茎序列,其显示具有大致相等的G:C和A:T碱基对。预测这样的茎序列在它们的预测解链温度~45℃以下会形成稳定的dsDNA结构。此外,可连接的dsDNA茎的形成是非常有效的自我:自我分子间反应,且每个接头仅具有一个能连接的dsDNA末端。原则上,在茎环接头中可以包括大小范围为5个核苷酸至>100个核苷酸的自我退火茎结构。
[0206] 如图1步骤A所示,设计了一对茎-环接头寡核苷酸(显示为第一茎-环接头20和第二茎-环接头30),用于连接到每个DNA酶I消化的和平端-补齐的双链DNA片段10的末端上。该连接反应产生包括靶物分子50A和50B的连接产物和不希望的副产物连接产物60、70的混合物,所述靶物分子50A和50B包含在一端侧接第一茎-环接头20且在另一端侧接第二茎-环接头30的多个DNA插入物10,所述副产物连接产物60、70包含在两端侧接第一茎-环接头20或在两端侧接第二茎-环接头30的多个DNA插入物10,如图1步骤D所示。
[0207] 如图1步骤A进一步所示,第一茎-环接头寡核苷酸20包含5′区域24(其具有与位于3′区域28中的序列互补的序列)和在5′和3′区域之间形成环结构的插入区域26。在第一茎-环接头寡核苷酸20中也存在与第一引物结合区82互补的序列22,其可以位于插入区域26中或茎区域中。在非变性条件下,5′区域24和3′区域28杂交到一起,产生茎-环接头寡核苷酸20结构,其具有双链茎24和28和形成环结构的插入区域26。
[0208] 类似地,如在图1步骤A中进一步显示的,第二茎-环接头寡核苷酸30包含5′区域34(其具有与位于3′区域38中的序列互补的序列)和在5′和3′区域之间形成环结构的插入区域36。在第二茎-环接头寡核苷酸30中还存在与第二引物结合区92互补的的序列32,其可以位于插入区域36中或茎区域中。
[0209] 在非变性条件下,5′区域34和3′区域38杂交到一起,产生茎-环接头寡核苷酸30结构,其具有双链茎34和38以及形成环结构的插入区域36。
[0210] 序列22、32是与第一和第二引物结合区82、92互补的,所述引物结合区含有用于结合正向和反向PCR引物的引物结合位点,如下面更详细地描述的。
[0211] 每个茎-环接头20、30的总长度通常是至少40个核苷酸,诸如至少45个核苷酸、至少50个核苷酸、至少55个核苷酸、至少60个核苷酸、至少65个核苷酸、至少70个核苷酸、直到约200个核苷酸的最大长度。在本文所述方法的一些实施方案中,所述茎-环接头的长度是约45个核苷酸至约70个核苷酸。
[0212] 5′和3′茎-环接头的使用是文库构建的关键要素,因为它们提供用于随后PCR的通用引物结合位点,且可以含有用于测序簇产生的引物结合位点/锚点,它们可以用于引入用于样品多路化的条形码。
[0213] 如下面更详细地描述的,抑制PCR可用于制备测序就绪的文库,其富含靶物分子50A和50B,所述靶物分子在每个插入物末端包含异源茎-环接头,如图1步骤D的PCR产物所示。
[0214] 如在图1步骤A中进一步解释的,至少一个茎-环接头(例如,20)可以任选地包括条形码序列40。如图1所示,条形码序列40可以位于接头20的3′末端,使得它在连接后邻近插入物10。如图1所示,互补序列40′存在于接头20的5′末端上。
[0215] 下面显示的茎-环接头20、30的一个示例性集合用于下述实验中。
[0216] 第一茎-环接头#(20)
[0217] 5′AGATCGGAAGAGCGT CACTCTTTCCCTACACGACGCTCTTCCGATCT3′(SEQ ID NO:105)
[0218] SEQ ID NO:105具有67个核苷酸的总长度,由5′15个核苷酸茎杂交区域24(标有下划线)、37个核苷酸插入环区域26和3′15个核苷酸茎杂交区域28(标有下划线)组成,含有与第一PCR引物结合区82互补的序列22(以斜体字显示)。
[0219] 第二茎-环接头#1(30)
[0220] 5 ′ A G A T C G G A A G A G C T CGAGCTCTTCCGATCT3′(SEQ ID NO:106)。
[0221] SEQ ID NO:106具有49个核苷酸的总长度,由5′15个核苷酸茎杂交区域34(标有下划线)、19个核苷酸插入环区域36和3′15个核苷酸茎杂交区域38(标有下划线)组成,含有与第二PCR引物结合区92互补的序列32(以斜体字显示)。
[0222] 第二茎-环接头#2(30)
[0223] 5 ′ A G A T C G G A A G A G C T CGAGCTCTTCCGATCT3′(SEQ ID NO:107)。
[0224] SEQ ID NO:107具有49个核苷酸的总长度,由15个核苷酸茎杂交区域34(标有下划线)、19个核苷酸插入环区域36和3′15个核苷酸茎杂交区域38(标有下划线)组成,含有与第二PCR引物结合区92互补的序列32(以斜体字显示)。
[0225] 在片段化PCR产物后,如下所述将一对第一茎-环接头寡核苷酸20和第二茎-环接头寡核苷酸30连接到平端-补齐的片段10上。
[0226] 茎-环接头的去磷酸化
[0227] 进行测试实验,以确定将茎-环接头连接到具有磷酸化的平端的双链DNA片段上的条件。
[0228] 用PvuII消化实验载体pCR2.1(Invitrogen,Carlsbad California),以产生平端。以酶与接头的30至50倍比例,在37℃在去磷酸化缓冲液中温育茎-环接头(SEQ ID NO:105和SEQ ID NO:107)和南极碱性磷酸酶(New England Biolabs,目录号M0289S)1小时。在65℃热灭活去磷酸化酶5分钟。用在20μl连接反应物中的去磷酸化的茎-环接头(SEQ IDNO:105和SEQ ID NO:107)(4μl),连接PvuII消化的质粒(1μl),PCR扩增(25个循环)连接物,并在琼脂糖凝胶上检查PCR反应的等分试样。
[0229] 结果
[0230] 观察到,在最高量的磷酸酶处理过的接头(8μg和4μg),存在一些接头:二聚体PCR带(数据未显示)。但是,在连接之前去磷酸化茎-环接头并稀释茎-环接头,会完全消除接头:二聚体PCR制造物。
[0231] G.用平端-补齐的DNA酶I处理过的外显子扩增子集合连接去磷酸化的茎-环接头
[0232] 建立一系列连接反应,以确定用平端-补齐的DNA酶I片段化的外显子扩增子集合连接茎-环接头从而产生测序文库的能力。
[0233] 经测定,去磷酸化茎-环接头(例如,SEQ ID NO:105和SEQ IDNO:107),随后将去磷酸化的茎-环接头(SEQ ID NO:105和107)连接到DNA酶I消化的平端填充的外显子扩增子集合上,产生这样的连接结构:其含有连接到双链片段的第一链的5′末端上的茎-环接头寡核苷酸和连接到双链片段的第二链的5′末端上的茎-环接头寡核苷酸,所述第二链是第一链的反向互补物,如图1步骤B所示。
[0234] 连接混合物:
[0235] 10μl 2X缓冲液(N.E.B.快速连接试剂盒#M2200S)
[0236] 2μl DNA酶I处理过的且平端补齐的基因组DNA(40ng/μl)
[0237] 4μl去磷酸化的正向茎-环接头(10μM)(SEQ ID NO:105)
[0238] 4μl去磷酸化的反向茎-环接头(10μM)(SEQ ID NO:107)
[0239] 1μl Quick连接酶(N.E.B.快速连接试剂盒#M2200S)
[0240] 共20μl
[0241] 在室温温育连接混合物10分钟,用180μl TEzero(10mM TrispH 7.6和0.1mM EDTA)稀释,并在下述抑制PCR反应中用作模板。
[0242] PCR前填充反应
[0243] 如图1步骤B进一步显示的,第一茎-环接头20向双链插入物10的5′末端添加信息;但是,该信息是在PCR扩增中有用的错误链上,因此该信息需要拷贝到3′末端上,以建立引物结合位点。这通过使用Taq聚合酶的PCR前填充反应来实现。如下所述,在标准的PCR之前在72℃温育反应混合物1分钟,以便将接头信息转移至互补链,产生图1B步骤C所示的填充产物50和50′。
[0244] H.用于选择性地扩增靶连接产物的抑制PCR
[0245] 原理
[0246] 接头连接的主要目的之一是,就靶物分子50A和50B富集文库,如图1步骤D(PCR产物)所示,其在插入物10的每个末端上具有不同的茎-环接头20、30。在连接反应期间,茎-环接头随机地连接到文库片段上,产生初步的连接产物群体,其中一半连接产物在每个末端上具有相同的接头末端(同源接头末端),且一半连接产物具有不同的接头末端(异源接头末端)。在本实施例中使用抑制PCR现象(P.D.Siebert等人,Nucleic Acids Res.23:1087-1088(1995)),以选择性地富集具有异源接头末端的文库片段。简而言之,抑制PCR是指这样的现象,即在它们的末端含有超过40个核苷酸的完美反向重复序列的DNA区段是PCR扩增的差底物。概念模型是,这些分子形成自发的分子内茎-环结构,其封闭PCR引物结合和随后的扩增。经验观察是,与具有异源末端的类似DNA片段相比,具有≥40个核苷酸的完美反向重复序列末端的分子较差地扩增。在这里,我们利用下述事实,即我们的茎环接头将50、67或73个核苷酸的额外序列添加到连接的DNA片段的末端上。在具有同源末端的分子中,这些添加的序列的长度足以诱发抑制PCR效应;因此,具有异源末端的分子(例如,50A、50B)被优先扩增,且因此在连接茎-环接头后进行的PCR反应会使文库就测序就绪的靶物分子50A、50B被富集,产生富含测序就绪的靶物分子的文库。
[0247] 如图1步骤A进一步所示的,预见到第一茎-环接头20(例如,SEQID NO:105)和第二茎-环接头30(例如,SEQ ID NO:106)向平端片段10的连接会产生下述连接产物的混合物:大约50%的具有异源末端的靶物分子50A、50B(包括25%的第一接头-插入物-第二引物50A和25%的第二引物-插入物-第一引物50B);和50%的副产物(包括25%的第一引物-插入物-第一引物60和25%的第二引物-插入物-第二引物70)。为了除去50%的在两个末端具有相同引物序列的副产物连接产物60、70,如下所述使用抑制PCR,以便选择性地扩增靶物50A、50B连接产物,从而产生适合直接用作测序模板(即,测序就绪的)的核酸分子文库。
[0248] 已知,延长的茎环结构(例如,大于40个核苷酸)难以扩增,因为双链茎封闭引物的结合。该现象已经称作“抑制PCR效应”。如图1步骤D所示,不希望的50%的连接副产物60、70难以进行PCR扩增,因为第一茎-环接头寡核苷酸(例如,SEQ ID NO:105)和第二茎-环接头寡核苷酸(例如,SEQ ID NO:106)太长(即,大于40个核苷酸),并产生含有片段插入物10作为插入区域的茎-环结构,其中通过杂交接头区域形成茎。因此,如下使用连接后PCR扩增步骤来选择性地富集具有希望的靶结构50A、50B(其具有异源接头末端)的连接产物(在图1步骤D中显示为PCR产物)。
[0249] 参阅图1步骤D,分别使用与第一PCR引物结合位点82杂交的第一PCR引物52和与第二PCR引物结合位点92(在接头20和30的PCR填充反应过程中在第二链中生成)杂交的第二PCR引物54,以选择性地扩增具有靶结构50A、50B的连接产物。
[0250] 第一PCR引物52:5′-AATGATACGGCGACCACCGA-3′(SEQ IDNO:109)
[0251] 第二PCR引物54:5′-CAAGCAGAAGACGGCATACG-3′(SEQ IDNO:110)
[0252] PCR反应混合物(含有5%DMSO):
[0253] 10μlDNA模板(来自上面步骤G的连接混合物)
[0254] 20μl5X缓冲液(由 试剂盒的生产商Roche提供)
[0255] 10μl25mM MgCl2
[0256] 10μl 10μM第一PCR引物(SEQ ID NO:109)
[0257] 10μl 10μM第二PCR引物(SEQ ID NO:110)
[0258] 5μlDMSO
[0259] 5μldNTP(10mM每种dNTP)
[0260] 30μlH2O
[0261] 1μlTaq聚合酶(天然Taq 5U/μl,Invitrogen)
[0262] 聚合酶(5U/μl,Roche)
[0263] 共100μl
[0264] PCR循环条件:
[0265] 1个循环:
[0266] 72℃1分钟;94℃2分钟。(注:该步骤将来自连接的茎-环接头的序列拷贝到互补链)
[0267] 10个循环:
[0268] 94℃30秒
[0269] 60℃30秒
[0270] 72℃1分钟
[0271] 10个循环:
[0272] 94℃30秒
[0273] 60℃30秒
[0274] 72℃1分钟+10秒/循环
[0275] 1个循环:
[0276] 72℃7分钟
[0277] 4℃保持
[0278] I.PCR集合的构建
[0279] 如下所述构建8个独特的PCR集合。
[0280] 如上所述产生来自5个基因-AKT1、KRAS、PIK3CA、PTEN和TP53-的扩增子,并合并成8个独特的结构。如下面表4所示,8个集合组中的每个集合具有独特的外显子扩增子组成。将这8个独特的集合中的每一个片段化,平端化,然后使用茎-环第一接头(SEQ ID NO:105),使每个集合自身连接到合成的8个具有条形码的茎-环接头集合上,将额外的3核苷酸序列标签(分子条形码)添加到茎-环接头的3′末端上。以此方式,使8个独特集合中的每一个连接到8个条形码集合上,产生表5所示的64个具有条形码的样品的完整集合。
[0281] 表4:扩增子集合的组成
[0282]
[0283]
[0284] 注:符号“-”表示该集合在该PCR产物中不存在。
[0285] 例如,一个代表性的具有条形码的正向茎-环接头寡核苷酸(在表5中指定为集合#1中的第一个条形码(“AAA”)(以斜体字显示))被添加到SEQ ID NO:105上,产生下述序列:
[0286] 5′TTTAGATCGGAAGAGCGTAATGATACGGCGACCACCGACACTCTTTCCCTACACGACGCTCTTCCGATCTAAA3′(SEQ IDNO:108)。
[0287] 将该8个独特样品集合与8个组中的所有64个3核苷酸代码配对,如下面表5所示。
[0288] 表5:条形码
[0289]
[0290] 如实施例1所述,通过产生针对5个选择的基因的扩增子,制备8个集合,使用它们如下制备8个独特集合:(1)省去8行PCR片段中的一行,并合并20μl剩余的样品,(2)加入额外的100μl弱扩增的产物(除非它们被指定为省去),并(3)将200μl独特的PCR片段加入到每个集合中。所述集合经4个 柱纯化。在每个柱在60μl洗脱缓冲液中洗脱样品,产生约200μl。通过nanodrop进行DNA定量,揭示120至150ng/μl的DNA浓度范围,总产量为24-30μg。
[0291] 含有条形码标签的茎-环接头的去磷酸化
[0292] 合成了64个具有条形码的茎-环接头寡核苷酸,其含有SEQ IDNO:105的序列和添加在SEQ ID NO:105的3′末端上的3个额外的核苷酸(如表5所示),例如,在集合#1中的第一个条形码(“AAA”)=SEQ IDNO:108。
[0293] 将64个具有条形码的茎-环接头寡物悬浮于水中至100μM,然后通过将20μl储液寡物加入到180μl水中,制备10μM的等分试样。
[0294] 磷酸酶反应
[0295] 5μl(10μM茎-环接头)
[0296] 5μl10X去磷酸化缓冲液
[0297] 5μl磷酸酶
[0298] 35μlH2O
[0299] 在37℃温育反应物1小时,然后在65℃温育5分钟。
[0300] 用于连接的扩增子集合的制备++
[0301] 如表4所示,混合8个包含不同的扩增子组合的集合。如实施例1所述,在有Mn存在下,用DNA酶I处理扩增子集合,以产生DNA酶I消化的片段,然后将其经柱(Qiagen Corp.)纯化,以产生长度平均大小范围为约50个碱基对至约500个碱基对的片段集合。然后如实施例1所述,根据生产商的说明书,用Quick 试剂盒(New
England Biolabs,目录号E1201L)填充纯化的片段。Quick 试剂盒包括含有T4
聚合酶(其具有3′至5′外切核酸酶活性和5′至3′聚合酶活性)和T4多核苷酸激酶(用于磷酸化平端化的DNA,从而随后连接到茎-环接头上)的反应混合物。在室温温育反应物30分钟,然后在70℃温育10分钟。
[0302] 茎-环接头向扩增子片段集合的连接
[0303] 对于每个集合(8个集合中的),首先制备主混合物:
[0304] 20μl平端(填充)、片段化的扩增子集合DNA
[0305] 40μl第二茎-环接头#1(SEQ ID NO:106)
[0306] 100μl 2X连接缓冲液
[0307] 160μl总体积的主混合物
[0308] 将16μl主混合物等分到一系列8个具有条形码的正向茎-环接头中的每一个中:
[0309] (例如,集合1=SEQ ID NO:105+表5所示的第1个至第8个条形码序列)。然后将1μl连接酶加入每个试管,并温育10分钟。然后将20μl连接混合物稀释10倍到TEzero,并将2μl该溶液加入下述的随后的20μlPCR反应物中。
[0310] 用于选择性地扩增靶连接产物的连接后PCR反应(抑制PCR)
[0311] 如下运行80x 20μlPCR反应:
[0312] 2μl稀释的连接混合物(例如,对于集合1:SEQ ID NO:105+3核苷酸接头第1个至第8个条形码序列-集合1扩增子--SEQ ID NO:106,相反朝向,和连接副产物)[0313] 4μl5x缓冲液(由 试剂盒的生产商Roche提供)
[0314] 1.2μl25mM MgCl2
[0315] 0.4μldNTP(10mM每种dNTP)
[0316] 1μlDMSO
[0317] 2μl(4μM)第一PCR引物:5′-AATGATACGGCGACCACCGA-3′(SEQ ID NO:109)[0318] 2μl(4μM)第二PCR引物:5′-CAAGCAGAAGACGGCATACG-3′(SEQ ID NO:110)[0319] 1.0μl酶(Roche 和InVitrogen Taq的1∶1混合物)
[0320] 7μl水
[0321] 共20μl
[0322] PCR循环条件:
[0323] 1个循环:
[0324] 72℃1分钟;94℃1分钟。(注:该步骤将来自连接的茎-环接头的序列拷贝到互补链)
[0325] 10个循环:
[0326] 94℃30秒
[0327] 55℃或60℃30秒
[0328] 72℃30秒
[0329] 15个循环:
[0330] 94℃30秒
[0331] 55℃或60℃30秒
[0332] 72℃30秒+10秒/循环
[0333] 72℃7分钟
[0334] 4℃保持
[0335] 在琼脂糖凝胶上分析5μl每种PCR产物。将剩余物质的10μl等分试样合并到单个试管中,经 柱纯化,并用于测序。
[0336] 结果
[0337] 琼脂糖凝胶分析证实,在DNA酶I消化之前的扩增子集合具有离散的带型。如预期的,在DNA酶I消化和 纯化后,观察到没有离散带型的成片条带(smear),片段大小的截止值小于40个碱基对(由于柱纯化步骤)。重要的是,观察到,添加到茎-环接头上的额外的条形码序列没有改变连接反应,如通过琼脂糖凝胶上的连接产物的并行对比所测定的。
[0338] 合并64个单个的样品,并在Illumina 测序仪器上测序。共得到3,901,100个测序读数,它们可以独特地回来比对靶区域。为了确定条形码是否准确地结合正确的样品,对读数进行二维分选,如图2A所示。在图2A中,每一行对应着与特定3核苷酸条形码序列有关的测序读数密度(即,测序读数的数目),每一列对应着与每个基因外显子区域(序列读数与其比对)有关的测序读数。在图2A中,如果检测到大量测序读数(所有条形码上的≥80%的平均读数计数),则框是白色的(没有阴影),如果检测到少量读数(所有条形码上的≤10%的平均计数),则框是黑色的(有阴影)。图2A显示了预期的和观察到的读数分布,其表现出相同的分布,且因此显示在一个图中。值得注意的是,大量的和未被充分代表的读数的模式与所有与集合1和集合2相关的条形码并(尽管未显示)与所有8个分析的条形码组完全一致。这些结果证实,连接到集合1或集合2DNA上的所有8个条形码序列表现出该相同的读数密度模式(这也适用于在该实验中使用的64个代码的整个集合--数据未显示)。
[0339] 在图2B中总结了图2A所示的结果,其中显示了具有条形码的样品的每个集合的预期的和观察到的读数比对密度模式。为了得到集合的测序读数密度,总结了形成每个集合的8个条形码的数据,并相对于测序读数的平均密度进行分析。在这里,结果还是可以显示为单个图,因为预期的和观察到的结果是相同的(即,在图2A中显示的结果与如表4所述制备的集合的组成匹配)。
[0340] 如上所述,小量的、但是显著百分比的具有条形码的读数与在集合中不存在的外显子区域比对(相对于包括外显子扩增子的集合,~5%的平均读数密度)。在分配条形码时的该错误率远高于在数据集中观察到的固有测序错误率,表明不正确的读数分配源自不同的来源。目前,据信,茎-环连接接头的碱性磷酸酶处理会以相当显著的频率从3核苷酸代码除去一个或两个碱基。结果是随后误译的截短的代码的连接。因而,降低在分配条形码中观察到的错误率的一种方式是,在应用之前,使用本领域众所周知的标准技术纯化寡核苷酸,以除去部分地截短的条形码序列。
[0341] 本实施例描述了3核苷酸标签(分子条形码)用于每个第一茎-环接头的用途,产生8个集合,每个集合具有8个独特的序列标签,共计64个带标签的来源。例如,集合1是在表4中列出的扩增子的集合,它们使用第一接头茎环引物集合1代码:(AAA;AGA,CAA,CGA,GAA,GGA,TAA,和TGA)产生。本领域技术人员会理解,核苷酸标签的长度的替代性排列可以提供不同水平的复杂性。例如,1核苷酸标签提供4丛;2核苷酸标签提供16丛,3核苷酸标签提供64丛;4核苷酸标签提供256丛,等。
[0342] 如上所述,来自例如Illumina 测序仪的序列信息的输出远远超过单个样品的分析的数据要求。需要多路策略来充分使用这些新出现的测序技术,并增加可以分析的样品的通量。本实施例所述的结果验证了将三核苷酸分子条形码添加到单个样品上的可行性,促进了64个样品的同时分析。条形码复杂性(核苷酸长度)的其它结构可以应用于需要更大或更少序列覆盖的样品。
[0343] 如图3所示,本实施例证实了生成测序就绪的文库的方法600,其包括下述步骤:片段化起始DNA分子群体610,用引物结合位点和任选的条形码连接茎-环接头620,并抑制PCR 630,以产生测序就绪的文库,可以对其测序640。在所述方法的一些实施方案中,起始DNA分子群体是PCR扩增的靶区域;因此,测序就绪文库已经富含目标测序靶物。如图
3进一步所示的,在生成测序就绪的文库的方法600的其它实施方案中,所述方法另外包括下述步骤:基于溶液的捕获650,以富集文库(例如,从总基因组DNA或完整扩增的转录组产生的文库),用于在测序之前测序目标靶物,如实施例3-8所述,并如图6所示。
[0344] 实施例2
[0345] 本实施例描述了基因组DNA插入物的测序就绪的文库的产生。这样的文库可以用于下述的基于溶液的捕获靶向重新测序方法,用于分析基于序列的染色体拷贝数变化或用于生物标记筛选/发现。
[0346] 原理
[0347] 尽管PCR理想地适合重新测序适当数目的样品中的小量靶物,但大规模重新测序研究的逻辑复杂性随着靶物大小和样品数目扩大而变得难以处理。实际上,这样的实验的大小和复杂性随着扩增子和待分析的样品的数目而扩大。为了适应数百样品中的数百基因的重新测序,需要靶向的重新测序的不同实验方案,其中可以在单个操作中从每种样品收集重新测序靶物。为了进行该操作,使与靶物重新测序区域互补的寡核苷酸集合与整个基因组片段文库退火。然后可以通过测序来表征结合这些探针的序列的集合。整个程序称作“基于溶液的捕获”,是可以放大到非常大的重新测序区域的PCR的一个替代方案。本实施例描述了要在这样的程序中使用的基因组DNA文库的构建和表征。
[0348] 参照图3,本实施例描述了生成测序就绪的文库的方法600的一个实施方案,其中片段化起始基因组DNA群体610,将茎-环接头连接到DNA片段上620,抑制PCR以就具有异源接头的连接产物富集文库630,随后进行一轮或多轮基于溶液的捕获650,以富集用于测序目标靶物的文库。
[0349] 在本实施例中,将基因组DNA用作文库的起始材料,尽管cDNA也可以用作产生文库的起始材料。除了用于产生文库的插入物的起始材料以外,使用茎-环接头来产生文库的过程与实施例1所述过程几乎相同。
[0350] 方法
[0351] A.基因组文库构建
[0352] 文库构建包括,通过基因组DNA或cDNA的片段化来产生插入物,随后将5′和3′茎-环接头平端补齐,并连接到平端插入物上。5′和3′茎-环接头是文库构建的关键元件,因为它们提供用于随后PCR和任选的测序簇产生的通用锚点,它们可以用于引入用于样品多路化的条形码,如实施例1所述,且抑制PCR可以用于富集在插入物的每个末端含有异源茎-环接头的文库,如图1步骤C所示,它们可以用作测序的模板。
[0353] 茎-环接头的制备
[0354] 在实施例1中描述了茎-环接头的序列设计。在本实施例中使用的一个示例性的茎-环接头集合是SEQ ID NO:105(第一茎-环接头#1)和SEQID NO:107(第二茎-环接头#2)。
[0355] 如下条形码化正向茎-环接头(SEQ ID NO:105):
[0356] 在本实验中使用4个条形码,选择它们来表示3个碱基位置中的每一个处的所有4种碱基,并避免同聚物。
[0357] 为了减小引物-二聚体背景材料的水平,在连接之前,用南极碱性磷酸酶(New England Biolabs目录号M0289S)预处理茎-环接头,如实施例1所述。
[0358] 去磷酸化100μM茎-环接头(SEQ ID NO:105和SEQ ID NO:107),并如下重新浓缩至大约10μM:
[0359] 20μl100μM(SEQ ID NO:105)
[0360] 20μl100μM(SEQ ID NO:107)
[0361] 100μl10X磷酸酶缓冲液(由生产商提供,New England Biolabs)
[0362] 800μl水
[0363] 80μl南极磷酸酶。
[0364] 在37℃温育反应物1小时,并在65℃热灭活5分钟。然后将反应混合物分到2个试管中,并通过向每个试管中加入3μlGlyco-blue(Ambion目录号AM9516)、60μl3M NaOAc pH 5.2和1200μl乙醇进行沉淀,混合,并在12K、在4℃离心20分钟。从沉淀物吸出溶剂,将沉淀物重新悬浮于100μl水中。寡物接头的回收率是大约50%,终浓度为约10μM,这通过nanodrop测定。
[0365] 超声处理
[0366] 在本发明方法的一些实施方案中,如下通过在DNA酶I处理之前进行超声处理来片段化基因组DNA。
[0367] 在水中,或在没有EDTA且没有Mn++的Tris缓冲液中,稀释基因组DNA(2μg DNA,++500μL 50mM Tris)(注:EDTA将螯合下一步的DNA酶I所需要的Mn 离子)。如果在超声处理缓冲液中存在EDTA,则在DNA酶I处理之前,使用清除步骤(例如,Qiagen
柱)来除去EDTA。
[0368] 在1.5mL试管中,在水混合物中进行超声处理,使得超声处理仪器尖插入含有DNA的溶液,深度为100ul标志。超声处理每个样品4分钟,波幅为45%,开启脉冲=20秒,关闭脉冲=50秒。
[0369] 然后如下所述用DNA酶I处理超声处理过的样品。
[0370] B.基因组DNA的DNA酶I处理
[0371] 如实施例1所述,经测定,在没有Mg++存在且有Mn++存在下,牛胰脱氧核糖核酸酶I(DNA酶I)会诱导DNA中的随机的双链断裂。
[0372] DNA酶I消化:
[0373] 20μl (2μg)总人基因组DNA(Clontech)
[0374] 10μl 10X反应缓冲液(50mM Tris pH 7.60.5mg/ml乙酰化的BSA)
[0375] 12.5μl 40mM MnCl2
[0376] 47.5μl水
[0377] 10μl DNA酶I(N.E.B.目录号M0303S),在1X缓冲液(100μl 10X缓冲液,125μl MnCl2,和775μl水)中1∶1500*稀释
[0378] 100μl总体积
[0379] 在室温温育DNA酶I反应物10分钟,并通过加入0.2体积的100mM EDTA来停止,立即转移到冰上。
[0380] *选择DNA酶的稀释,以产生平均长度为约50至约500个碱基对的片段,这使用如实施例1所述的DNA酶I系列稀释液进行测定。
[0381] 然后将反应混合物经 旋转柱(Qiagen)纯化,在约200μl输入DNA中的回收率是约40%,大小截止值低于约40个碱基对。然后通过沉淀浓缩柱纯化的DNA,并重新悬浮于水中,至80ng/μl的终浓度。
[0382] C.靶连接产物的平端补齐、连接和PCR
[0383] (i)如下平端处理DNA酶I处理过的基因组DNA:
[0384] 10μlDNA酶处理过的基因组DNA(80ng/μl)
[0385] 10μl2X平端缓冲液(NEB快速平端反应#E120S)
[0386] 4μl10X平端缓冲液(NEB快速平端反应#E120S)
[0387] 4μldNTP(10mM每种dNTP)
[0388] 10.4μlH2O
[0389] 1.6μl T4聚合酶+T4多核苷酸激酶
[0390] 共40μl
[0391] 在室温温育反应物30分钟,然后在70℃加热10分钟,以产生大约至少40ng/μl的DNA酶I处理过的且平端-补齐的基因组DNA,其已经准备好用于连接茎-环接头。
[0392] (ii)如下进行磷酸酶处理过的茎-环接头和DNA酶I处理过的基因组DNA之间的连接:
[0393] 10μl2X缓冲液(NEB快速连接试剂盒(#M2200S)
[0394] 2μlDNA酶I处理过的和平端补齐的gDNA(40ng/μl)
[0395] 4μl(SEQ ID NO:105)第一茎-环接头#1,经磷酸酶处理
[0396] 过(10μM)(注:使用每种独特地条形码化的茎-环接头#1,进行单独的连接反应)
[0397] 4μl(SEQ ID NO:107)第二茎-环接头#2,经磷酸酶处理过(10μM)
[0398] 1μl Quick (NEB快速连接试剂盒)(#M2200S)
[0399] 共20μl
[0400] 在室温温育连接反应物10分钟(未热灭活),然后用180μlTEzero(10mM Tris pH7.6和0.1mM EDTA)稀释,并在-20℃保藏,或用于下述的PCR扩增步骤。
[0401] (注:为了有效连接,载体和插入物的总浓度优选地为1-10μg/ml。对于单次插入的连接产物,2∶1至6∶1的载体:插入物之比是优选的。观察到,低于2∶1的载体:插入物之比导致更低的连接效率,而超过6∶1的载体:插入物之比促进多个插入物。)[0402] (iii)连接反应物的PCR扩增(抑制PCR)
[0403] 使用PCR来产生>5μg产物,其用于第1轮基于溶液的靶物捕获和富集。为了产生该量的产物,对于每个产生的文库,进行4X 100μlPCR反应。
[0404] 第一PCR引物:5′-AATGATACGGCGACCACCGA-3′(SEQ IDNO:109)
[0405] 第二PCR引物:5′-CAAGCAGAAGACGGCATACG-3′(SEQ IDNO:110)
[0406] 含有5%DMSO的PCR反应混合物:
[0407] 10μlDNA模板(用TEzero10倍稀释的上述连接混合物)
[0408] 20μl5X缓冲液(由 试剂盒的生产商Roche提供)
[0409] 10μl25mM MgCl2
[0410] 10μl10μM第一PCR引物(SEQ ID NO:109)
[0411] 10μl10μM第二PCR引物(SEQ ID NO:110)
[0412] 5μlDMSO(100%)
[0413] 5μldNTP(10mM每种dNTP)
[0414] 30μlH2O
[0415] 1μlTaq聚合酶(Invitrogen)
[0416] 聚合酶(Roche)
[0417] 共100μl
[0418] PCR循环条件:
[0419] 1个循环:
[0420] 72℃1分钟;94℃2分钟。(注:该步骤将来自茎-环接头的序列拷贝到互补链。)[0421] 10个循环:
[0422] 94℃30秒
[0423] 60℃30秒
[0424] 72℃1分钟
[0425] 10个循环:
[0426] 94℃30秒
[0427] 60℃30秒
[0428] 72℃1分钟+10秒/循环
[0429] 1个循环:
[0430] 72℃7分钟
[0431] 4℃保持
[0432] D.文库质量的评价
[0433] 使用2个标准模式来评价文库质量。第一个是,将100ng纯化的文库PCR产物装载上2%琼脂糖凝胶,随后目检文库的大小分布。预期文库的最小大小范围≥130个碱基对,这是在PCR后剩下的接头序列(90个碱基对)和40个碱基对的最小插入物大小的总和。更小的带指示连接的接头二聚体,并淘汰含有可检测量的该物质的文库。我们预见到大量文库物质是大小范围为140个碱基对至800个碱基对的成片条带。由比该大小范围更长的片段占优势的文库表现出差的捕获性能,且得到的序列分布在大面积上,需要过度测序来得到希望的测序深度。
[0434] 尽管目检提供了关于主体文库特征的信息,但它不能用于评估存在的序列的含量。
[0435] 为了评估文库的特定基因含量,如下进行含有 测定的实时PCR。
[0436] 作为一个典型实例,将100μl PCR反应混合物经 柱(Qiagen)纯化,并定量DNA。如图3所示,纯化的DNA包含测序就绪文库(在步骤630),其可以直接测序(在步骤640),或就靶序列进行富集(如图3步骤650-670所示),然后进行序列分析。
[0437] 测量了文库的基因含量,并使用qPCR与参照基因组DNA样品进行对比。使用了4个基因-特异性的定量PCR(qPCR)测定的集合(AKT1、KRAS、PIK3CA和PTEN)。在测量之前,将文库和参照基因组DNA调节至均一的10ng/μl浓度。
[0438] qPCR反应混合物:
[0439] 200μl2X TaqMan主混合物(由生产商Applied Biosystems提供)
[0440] 100μl H2O
[0441] 20μl引物/探针
[0442] 共220μl
[0443] 然后将8μl qPCR反应混合物等分进384孔qPCR平板的孔中。加入2μl DNA模板。使用生产商推荐的PCR条件,以384孔格式,在ABI 7900实时仪器上进行qPCR反应超过40个循环。
[0444] qPCR结果:
[0445] 使用下式将计数(ct)转化成粗量:
[0446] 粗量=10((log10(1/2)*Ct)+10)
[0447] 然后计算文库样品相对于参照基因组DNA的%粗丰度。观察到,文库中的基因含量的丰度低于基因含量的参照值。不希望受到理论的约束,认为其原因是双重的:首先,酶剪切产生在qPCR TaqMan引物结合位点内发生消化的高可能性,因此预期剪切过的DNA具有比未剪切过的参照基因组DNA对照更低的基因-特异性的活性;其次,茎-环接头代表文库中的主体量(例如,在含有100个碱基对插入物的文库中,半数文库物质是接头)。因此,文库DNA的物质的主要部分由连接的接头组成。
[0448] 表6显示了插入物大小、由接头组成的文库的%和检测的TaqMan信号之间的关系。评估文库质量的关键点是,基因含量可容易地检测出(靶基因组DNA存在于起始文库中,且插入物大小≥50个碱基对),且插入物大小不是过度的,如通过与qPCR组合的凝胶表现所判断的。
[0449] 表6:PCR信号随着插入物大小的降低而降低
[0450]平均插入物大小 %茎-环接头 gDNA信号的%
10 91 0.00
20 83 0.28
平均插入物大小 %茎-环接头 gDNA信号的%
25 80 0.8
30 77 1.5
40 71 4
50 67 7
60 63 10
70 59 13
80 56 16
100 50 22
150 40 35
200 33 45
400 20 65
1000 9 84
[0451]
[0452] 将这些质量评估应用于本实施例所述的9个样品文库。琼脂糖凝胶(未显示)产生希望的片段大小分布,大小范围为≥130个碱基对至≤800个碱基对;大多数片段是在200-400个碱基对大小范围。
[0453] 在下面的表7中显示了使用4个基因对文库进行qPCR的结果。
[0454] 表7:代表性文库的基因含量的qPCR结果
[0455]
[0456]
[0457] 将在表7的行中显示的基因的qPCR信号报道为在未剪切的基因组DNA中检测出的信号的百分比。在列中显示了4个基因的合并值和每个文库的数字平均值。100+对照和200+对照对应于确定地表征的具有已知插入物大小和基因含量的基因组文库。在这里可以看出,作为一个实例,报道的9个文库都产生与有用文库的建立相一致的qPCR测量结果。凝胶分析表明希望的片段大小分布,且qPCR产生一致的结果,表明与2种确定地表征的对照样品相当的基因含量度量。这些结果表明,使用这些方法产生的基因组文库具有希望的插入物大小和基因含量,它们代表起始基因组DNA。
[0458] 实施例3
[0459] 本实施例描述了来自测序就绪的文库的基于溶液的捕获的应用,所述文库使用生物素化的捕获寡物从基因组DNA产生,以便富集来自用于随后的重新测序研究的5个靶基因的52个编码外显子。
[0460] 原理
[0461] 不同于使用PCR-产生的起始材料产生重新测序文库(例如,如实施例1所述),在产生基因组文库后进行基于溶液的序列捕获,不需要单独地PCR-扩增目标区域的起始步骤。因此,如图3所示,基于溶液的捕获的使用需要在重新测序文库构建方法中操作单个样品,与感兴趣的靶区域的大小或复杂性无关。另一个优点是,靶序列的捕获可以应用于几轮中,在步骤之间进行富集的文库级分的PCR扩增。这允许建立主要由靶序列组成的重新测序样品。
[0462] 如图4所示,基于溶液的直接捕获的中心基础是,包含连接产物50A、50B的文库与有义捕获探针100和反义捕获探针100′的退火,由此在靶物链(例如,50A)和靶插入序列-特异性的捕获探针100(其包含结合捕获试剂400的部分110)之间形成多个双分子DNA复合物(在步骤B)。在退火后,这些双分子DNA复合物被捕获试剂400(诸如抗生蛋白链菌素-包被的410顺磁珠子)结合,它们然后通过磁性固位从主体溶液纯化至磁性源500上。
[0463] 例如,如在图4步骤A中更详细地显示的,显示了代表性的核酸分子50A,它是包含双链核酸分子50A、50B群体的文库的一个成员。所述文库中的每个双链核酸分子50A、50B包含插入物10,其具有侧接第一接头区域20和第二接头区域30的候选核酸序列。
[0464] 尽管本实施例是使用片段化的基因组DNA制成的文库进行的,但本领域技术人员会理解,从基因组DNA或cDNA(如实施例2所述)或从PCR产物(如实施例1所述),可以产生具有用于基于溶液的捕获的候选核酸序列的插入物10的群体。
[0465] 如图4步骤A所示,将有义靶物捕获探针100的群体和反义靶物捕获探针100′的群体与包含有义核酸分子50A、50B和反义核酸分子50A′,50B′的变性文库混合。每个有义靶物捕获探针100包含靶物-特异性的结合区102和区域104,所述结合区102具有与目标靶插入物10的有义链基本上互补的核酸序列,所述区域104用于连接部分110,所述部分110用于结合捕获试剂400(例如,抗生蛋白链菌素-包被的磁珠)。
[0466] 类似地,每个反义靶物捕获探针100′包含靶物-特异性的结合区102′和区域104,所述结合区102′具有与目标靶插入物10′的反义链基本上互补的核酸序列,所述区域104用于连接部分110,所述部分110用于结合捕获试剂400(例如,抗生蛋白链菌素-包被的磁珠)。
[0467] 在操作中,如图4步骤B所示,有义靶物捕获探针100或反义靶物捕获探针100′的靶物-特异性的结合区102结合包含于文库的核酸分子50的插入区10或10′中的基本上互补的核酸序列。然后使连接到捕获探针100、100′上的部分110(例如,生物素)接触具有结合区410(例如,抗生蛋白链菌素涂层)的捕获试剂400(例如,磁珠),并用结合捕获试剂400的拣选装置500(诸如磁体)从溶液中拉出。
[0468] 基于溶液的捕获方法可以用于就目标靶序列富集文库。例如,如图3所示,从总基因组DNA 630产生的测序就绪的文库(使用上述方法产生)包括双链核酸分子50的群体,每个双链核酸分子50包含插入物10,所述插入物10具有侧接第一接头区域20和第二接头区域30的候选核酸序列。在文库的双链核酸分子50的群体内,存在含有插入物10(其具有靶核酸序列)的分子50的亚群,它在含有插入物10(其具有非靶核酸序列)的分子50的更大群体内。使用捕获探针,可以在来自起始未富集的基因组文库的溶液中捕获含有插入物10(其具有靶核酸序列)的分子50的亚群,剩下含有插入物10(其具有非靶序列)的分子50的更大群体。
[0469] 继续参照图3,在第1轮靶物捕获中使用的未富集的起始基因组DNA文库630通常含有非常少的靶序列10(与非靶序列相比)。在基于溶液的捕获方法中,在650处,在第一轮富集中,捕获寡物探针通常以摩尔过量存在于第1轮和第2轮富集中。也可以进行一个任选的第三轮富集,该第三轮富集含有多余量的捕获寡物探针,该量从在第二轮富集中使用的捕获寡物探针的量减少约10倍。或者,可以用有限量的捕获探针进行第三轮富集,以便标准化文库的含量(数据未显示)。
[0470] 方法
[0471] 如上面实施例2所述,如下建立含有核酸分子的文库,所述核酸分子具有含有目标靶序列的插入物:从基因组DNA开始,DNA酶I处理,平端补齐,并连接到茎-环接头(SEQ ID NO:105和SEQ ID NO:107)上,继之以20个PCR循环并在 柱上纯化。
[0472] 使用生物素化的序列特异性的寡核苷酸捕获探针的基于溶液的捕获:
[0473] 捕获探针
[0474] 建立一组有义和反义生物素化的捕获寡物,其靶向下面表8所示的5-基因集合-AKT1、KRAS、PIK3CA、PTEN和TP53-中的外显子。对于长度小于70个核苷酸的外显子,合成了2个有义寡物。对于中等大小的外显子(例如,70个核苷酸至200个核苷酸)(称作“100+”),选择均匀地分布在相对链上的交替靶向寡物。对于大于200个核苷酸的区域(称作“200+”),选择以约45个核苷酸至65个核苷酸的间隔分布的交替靶向寡物。就与人参照基因组的多个位置退火的序列筛选捕获寡物序列的潜在集合。从合成列表中除去这样的寡物,并替换为预期与具有更独特序列特征的附近位点退火的寡物。
[0475] 由Operon合成寡物,并以100μM的浓度提供。合并生物素化的寡物,用于随后的基于溶液的捕获方法的验证。
[0476] 表8:用于直接捕获的生物素化的捕获寡物(50-聚体)
[0477]
[0478]
[0479]
[0480]
[0481]
[0482]
[0483]
[0484]
[0485]
[0486]
[0487] (BioTEG表示,上述寡核苷酸在5′末端生物素化)。
[0488] 珠子的制备
[0489] 使 用 InVitrogen的 Dynabeads 抗 生 蛋 白 链 菌 素 C1 磁 珠(InVitrogen#650-01)(其具有~50pmol生物素化的dsDNA/50μl珠子的结合容量)。将
120μl珠子与500μl 2X结合缓冲液(20mM Tris pH 7.6,0.2mM EDTA,2M NaCl)和380μl水组合。用磁体拉出珠子,并用1ml1X结合缓冲液洗涤2次,重新悬浮于1200μl1X结合缓冲液中。
[0490] A.使用生物素化的序列特异性的寡物探针进行第1轮基于溶液的捕获,以产生一次富集的基因组DNA文库
[0491] 在下述浓度(10pmol、1pmol、100阿托摩尔、10阿托摩尔、1阿托摩尔、无寡物对照),测试一系列合并的生物素化的靶物-特异性的捕获寡物(SEQ ID NO:111-231)。也测试了2种不同的洗涤缓冲液:(1X结合缓冲液;(高盐):10mM Tris pH 7.6,0.1mM EDTA,1M NaCl)(同渗浓度=2000摩尔)或TEzero(10mM Tris pH 7.6和0.1mM EDTA)=低盐(无NaCl)(同渗浓度=10毫摩尔)。
[0492] 如下建立稀释系列。使用222μl(10μg)PCR产物(基因组文库)、277.5μl 2X结合缓冲液(20mM Tris pH 7.6、0.2mM EDTA、2M NaCl)、22.2μl 1μM合并的生物素化的寡物(20pmol)和33.3μl水,制备第一反应混合物。使用200μl PCR产物、250μl 2X结合缓冲液和50μl水,准备4个试管。然后通过4个不含生物素的试管系列,用含有生物素化的寡物的55μl第一反应混合物制备系列10倍稀释液。使用200μl PCR产物、250μl2X结合缓冲液和50μl水,制备对照。
[0493] 对于基于溶液的捕获,将10μl 1μM合并的捕获寡物与50μl100ng/μl基因组文库(或含有625ng每种8个基因组文库(连接到特定条形码上)的基因组文库集合)、125μl 2X结合缓冲液和65μl水组合,总体积为250μl。
[0494] 如下使反应混合物退火:
[0495] 94℃30秒
[0496] 90℃30秒
[0497] 85℃30秒
[0498] 80℃30秒
[0499] 75℃30秒
[0500] 70℃30秒
[0501] 65℃30秒
[0502] 60℃30秒
[0503] 55℃30秒
[0504] 50℃30秒
[0505] 45℃30秒
[0506] 40℃30秒
[0507] 在最后一个退火温度后,使循环仪达到室温。将250μl退火的混合物与100μl洗涤的珠子和150μl 1X结合缓冲液组合,并在室温温育15分钟。使用磁体,从混合物中拉出珠子。然后用下述缓冲液洗涤珠子4次:
[0508] (1)500μl 1X结合缓冲液(10mM Tris pH 7.6,0.1mM EDTA,1M NaCl);或[0509] (2)500μl TEzero(10mM Tris pH 7.6和0.1mM EDTA,无NaCl)
[0510] 对于洗涤,将珠子重新悬浮于1X结合缓冲液或TEzero中,并摇动5分钟,然后下拉。该洗涤过程进行4次。然后通过如下洗脱洗过的珠子:将它们重新悬浮于50μl水中,加热至94℃30秒,然后用磁体拉珠子,并除去上清液。用另外50μl水重复该洗脱过程,产生总体积为100μl的洗脱液,其含有富集的片段文库。
[0511] B.扩增洗脱的一次富集的文库,以产生扩增的一次富集的基因组DNA文库[0512] 如下PCR扩增含有富集的片段文库的洗脱液:
[0513] PCR反应混合物(5%DMSO):
[0514] 28μl H2O
[0515] 20μl 5X缓冲液(由 试剂盒的生产商Roche提供)
[0516] 10μl 25mM MgCl2
[0517] 10μl 模板(一次富集的文库的总洗脱液的1/10)
[0518] 5μl dNTP(10mM每种dNTP)
[0519] 5μl DMSO
[0520] 10μl 10μM正向PCR引物(SEQ ID NO:109)
[0521] 10μl 10μM反向PCR引物(SEQ ID NO:110)
[0522] 1μl Taq聚合酶
[0523] 1μl 聚合酶,Roche
[0524] 100μl总体积
[0525] PCR循环条件
[0526] 1个循环:
[0527] 94℃2分钟
[0528] 10个循环:
[0529] 94℃30秒
[0530] 60℃30秒
[0531] 72℃1分钟
[0532] 15个循环:
[0533] 94℃30秒
[0534] 60℃30秒
[0535] 72℃1分钟+10秒/循环
[0536] 1个循环:
[0537] 72℃7分钟
[0538] 4℃保持
[0539] PCR反应产物经 柱纯化,并定量。
[0540] 在2%琼脂糖凝胶上分析1μlPCR产物。
[0541] 分析
[0542] 通过基因特异性的qPCR测定分析PCR产物,以测定富集的、扩增的文库中靶物片段的比活。
[0543] 表9:基于溶液的捕获之后文库中靶物-特异性的片段的增加
[0544]
[0545] 结果
[0546] 也测试了2种不同的洗涤缓冲液:1X结合缓冲液(高盐):10mM Tris pH 7.6,0.1mM EDTA,1M NaCl)(同渗浓度=2000摩尔)或TEzero(10mM Tris pH 7.6和0.1mM EDTA)=低盐(无NaCl)(同渗浓度=10毫摩尔)。
[0547] 如上面表9所示,使用高捕获寡物浓度(10pmol至10amol)和高盐洗液(1X结合缓冲液(高盐):10mM Tris pH 7.6,0.1mM EDTA,1M NaCl)(同渗浓度=2000摩尔),观察到适度富集。也观察到,低盐洗液TEzero(10mM Tris pH 7.6和0.1mM EDTA)=低盐(无NaCl)(同渗浓度=10毫摩尔)产生显著的富集特异性差异,它是寡物浓度依赖性的,且在5个TaqMan测定中是非常均匀的。在这方面,应当指出,TE(低盐条件)中的Tris缓冲液稳定化溶液pH和DNA双链体,但是不具有添加一价阳离子阴离子(诸如NaCl)的静电效应。
相反,观察到一价阳离子阴离子NaCl对严格性和富集具有负面效应。
[0548] 本实验数据表明,在1.0至10pmol范围的捕获寡核苷酸浓度对于5μg输入基因组DNA的捕获而言是最佳的。鉴于捕获是在1ml中进行的,这对应于500ng/ml DNA靶物和1nM至10nM捕获寡物的浓度。该数据也表明,低盐洗液(TE(10mM Tris pH 7.6,0.1mM EDTA)是比高盐洗液(10mM Tris pH 7.6,0.1mM EDTA,1M NaCl)更优良的洗涤缓冲液。
[0549] 富集倍数的理论最大值是是3,000,000Kbp-人基因组/20Kb靶区域=150,000倍。如上面表9所示,使用低盐缓冲液洗涤条件在一轮捕获后达到的靶物片段特异性的富集水平是在500至900倍范围。这促成了下述实验:其中测定使用第1轮物质作为输入的第2轮捕获是否会进一步富集靶序列。在下面的实验中,在退火步骤中,也使用低盐条件TEzero(10mM Tris pH 7.6和0.1mM EDTA)=低盐(无NaCl)(同渗浓度=10毫摩尔)。下面的结果表明,基因组DNA文库与高盐缓冲液(1X结合缓冲液(高盐):10mM Tris pH 7.6,0.1mM EDTA,1M NaCl)(同渗浓度=2000摩尔)中的捕获寡物退火,继之以在低盐洗涤缓冲液TEzero(10mMTris pH 7.6和0.1mM EDTA)=低盐(无NaCl)(同渗浓度=10毫摩尔)中洗涤结合的物质,对于富集靶序列效果最佳。另外,且重要的是,经测定,连续轮的捕获导致产生高度富集的靶序列。
[0550] C.使用生物素化的序列特异性的寡物探针进行第2轮基于溶液的捕获,以产生二次富集的基因组DNA文库
[0551] 捕获珠子的制备
[0552] 如下制备2组捕获珠子。
[0553] 组1:低盐:将20μl珠子与480μlTEzero(10mM Tris pH 7.6,0.1mM EDTA)组合。用磁体拉出珠子,用500μlTEzero洗涤2次,并重新悬浮于500μlTEzero低盐缓冲液(10mM Tris pH 7.6和0.1mMEDTA)=低盐(无NaCl)(同渗浓度=10毫摩尔)中。使用250μl洗过的珠子/反应。
[0554] 组2:高盐:将20μl珠子与2502X结合缓冲液(1M NaCl)和230μl水组合。用磁体拉出珠子,用500μl 1X结合缓冲液洗涤2次,并重新悬浮于500μl 1X结合缓冲液(高盐):10mM Tris pH 7.6,0.1mM EDTA,1M NaCl)(同渗浓度=2000摩尔)中。使用250μl洗过的珠子/反应。
[0555] 使用下述文库,制备用于基于溶液的直接捕获的4个样品。
[0556] 1.在高盐(1M NaCl)中退火的一次富集的文库(TE/10pmol-表9)。将10μl 1μM合并的生物素化的捕获寡物(SEQ ID NO:111-231)与67μl75ng/μl一次富集的gDNA文库(共5μg DNA,在20个循环中产生)、125μl 2X结合缓冲液和48μl水组合,总体积为250μl。
[0557] 2.在高盐(1M NaCl)中退火的起始基因组DNA文库(未富集)。将10μl1μM合并的生物素化的捕获寡物(SEQ ID NO:111-231)与100μl50ng/μl起始基因组、未富集的文库(共5μg DNA,在20个循环中产生)、125μl2X结合缓冲液和15μl水组合,总体积为250μl。
[0558] 3.在低盐中退火的一次富集的文库(TE/10pmol-表9)。将10μl1μM合并的生物素化的捕获寡物(SEQ ID NO:111-231)与67μl75ng/μl一次富集的gDNA文库(共5μg DNA,在20个循环中产生)和173μlTEzero组合,总体积为250μl。
[0559] 4.在低盐中退火的起始基因组DNA文库(未富集)。将10μl1μM合并的生物素化的捕获寡物(SEQ ID NO:111-231)与100μl50ng/μl起始基因组、未富集的文库(共5μg DNA,在20个循环中产生)和140μlTEzero组合,总体积为250μl。
[0560] 如下使每种反应混合物退火。
[0561] 94℃30秒
[0562] 85℃30秒
[0563] 80℃30秒
[0564] 75℃30秒
[0565] 70℃30秒
[0566] 65℃30秒
[0567] 60℃30秒
[0568] 55℃30秒
[0569] 50℃30秒
[0570] 45℃30秒
[0571] 40℃30秒
[0572] 35℃30秒
[0573] 捕获
[0574] 将250μl退火的混合物与250μl组1的珠子(在低盐中洗涤)或250μl组2的珠子(在高盐中洗涤)组合。在搅拌下,在室温温育混合物15分钟。用磁体拉出珠子,并用500μl TEzero洗涤4次。对于每个洗涤步骤,重新悬浮珠子,并摇动5分钟,然后用磁体拉下。
[0575] 洗脱
[0576] 将洗过的珠子重新悬浮于50μl水中,加热至94℃30秒,用磁体拉下,并收集含有结合的DNA的上清液。用另外50μl重复该过程,总洗脱液体积为100μl。
[0577] 洗脱液的扩增:
[0578] PCR反应混合物(5%DMSO):
[0579] 28μl H2O
[0580] 20μl 5X缓冲液(由 试剂盒的生产商Roche提供)
[0581] 10μl 25mM MgCl2
[0582] 10μl模板(来自二次富集的文库的总洗脱物的1/10)
[0583] 5μldNTP(10mM每种dNTP)
[0584] 5μlDMSO
[0585] 10μl10μM正向PCR引物(SEQ ID NO:109)
[0586] 10μl10μM反向PCR引物(SEQ ID NO:110)
[0587] 1μlTaq聚合酶
[0588] 1μl扩增聚合酶
[0589] 100μl总体积
[0590] PCR循环条件
[0591] 1个循环:
[0592] 94℃2分钟
[0593] 10个循环:
[0594] 94℃30秒
[0595] 60℃30秒
[0596] 72℃1分钟
[0597] 10或15个循环:
[0598] 94℃30秒
[0599] 60℃30秒
[0600] 72℃1分钟+10秒/循环
[0601] 1个循环:
[0602] 72℃7分钟
[0603] 4℃保持
[0604] 将PCR反应产物经Qiaquick柱纯化,并定量。
[0605] 在2%琼脂糖凝胶上分析1μlPCR产物。
[0606] D.来自下述文库的序列-特异性的捕获的对比:(1)基因组DNA起始文库,(2)一次富集的基因组DNA文库,和(3)二次富集的基因组DNA文库
[0607] 使用qPCR,分析如上所述产生的样品,以测定达到的富集水平和盐浓度对洗涤步骤的影响。
[0608] 如下通过qPCR分析20ng起始gDNA文库(未富集)和20pg一次或二次富集的样品:
[0609] 1.无模板对照
[0610] 2.起始材料:gDNA文库(扩增,未富集)
[0611] 3.起始材料:一次富集的gDNA文库(表9:TE/10pmol)稀释1000倍))
[0612] 4.低盐退火的、二次富集的(稀释1000倍)
[0613] 5.低盐退火的、一次富集的(稀释1000倍)
[0614] 6.高盐退火的、二次富集的(稀释1000倍)
[0615] 7.高盐退火的、一次富集的(稀释1000倍)
[0616] 将上述样品跑2%琼脂糖凝胶,并观察到,所有文库具有合理的大小分布,片段长度>约130个核苷酸(数据未显示)。
[0617] 如下处理来自在上述样品上进行的5-基因qPCR测定的TaqMan数据。将粗计数(log10(1/2)*Ct+10)(Ct)转化成粗量,使用下述通式计算:10 。
[0618] 将在下面的表10中显示的结果调节1000倍,用20ng样品标准化。
[0619] 表10:qPCR数据(标准化的计数)
[0620]
[0621]
[0622] 在表11中显示的结果是在表10中显示的值的比,如在该表的第一列中所述的,以便显示富集倍数水平。
[0623] 表11:不同文库的基因靶物含量的富集倍数
[0624]
[0625] 结果的讨论
[0626] 如上面表10所示,与在低盐(10mM Tris pH 7.6,0.1mM EDTA)中退火相比,在高盐(1X结合缓冲液:10mM Tris pH 7.6,0.1mM EDTA,1M NaCl)中的退火对于文库富集的效果好得多。
[0627] 如上面表11所示,行数1是高盐退火的一次富集的基因组集合/gDNA的比,它是从起始基因组文库(未富集)向富集的文库的单轮富集的度量,显示了5个基因的大约500倍的平均靶物富集水平,这是非常好的。
[0628] 表11的行数2显示了与起始未富集的文库相比,高盐退火的、二次富集的基因组文库中约50,000倍靶物富集的平均值。这是令人惊奇的成功的成就,鉴于理论完成(30亿碱基人基因组/20kb靶物)是150,000倍富集,这仅是3-6倍差异的因子。还应当指出,大约50,000倍富集在5个基因之间是合理地均匀的。
[0629] 表11的行数3表明,第二轮富集实质地促成总靶物富集过程,与单独的单轮相比,促成高50倍的纯化。
[0630] 表10和11中的数据证实的另一个重要的特征是,所有5个被监测的靶物(在该研究中的5个基因之间选择)被相当均匀地富集(在2倍内或更少)。不同于使用这些方法观察到的结果,存在几个这样的报道,即基于序列的捕获受到靶序列的不相等表示的严重阻碍。参见,例如,Albert,T.J.,等人,Nature Methods 4(11):903-905(2007);Okou,D.T.,等人,Nature Methods 4(11):907-909(2007);Porreca,G.J.,等人,Nature Methods4(11):931-6(2007);和Hodges,E.,等人,Nature Genetics39:1522-2527(2007)。
[0631] 上述的第1轮和第2轮富集都用500ng/ml DNA靶物和1nM至10nM捕获寡物的浓度进行。
[0632] 任选的第三轮富集
[0633] 通过对二次富集的文库进行更多一轮基于溶液的捕获,在序列分析之前可以任选地进一步富集二次富集的文库。另一轮生物素捕获在扩增的和富集的物质上的应用,用于消除更多可能已经穿过富集过程的脱靶(off-target)序列,且也可以用于校准或标准化文库中的片段表示。
[0634] 方法
[0635] 以前测知,1pmol寡物(1μl 1μM溶液)足以结合使用茎-环接头产生的文库中-6的靶序列。5μg具有5x10 g/(160个碱基对平均片段大小x 660g/mol-bp)=47pmol dsDNA文库片段。因此,使用5μg(500ng/ml)二次富集的文库与1pmol(1nM)生物素化的捕获寡物集合的杂交。
[0636] 将5μg(39μl)高盐退火的、二次富集的文库与1μl 1μM生物素化的捕获寡物集合(SEQ ID NO:111-231)、125μl2X结合缓冲液和85μl水组合,总体积为250μl。
[0637] 如下使反应混合物退火:
[0638] 94℃30秒
[0639] 90℃30秒
[0640] 85℃30秒
[0641] 80℃30秒
[0642] 75℃30秒
[0643] 70℃30秒
[0644] 65℃30秒
[0645] 60℃30秒
[0646] 55℃30秒
[0647] 50℃30秒
[0648] 45℃30秒
[0649] 40℃30秒
[0650] 捕获
[0651] 通过组合10μl珠子、125μl2X结合缓冲液和115μl水,制备洗过的珠子。用磁体拉出珠子,用250μl1X结合缓冲液洗涤2次,并重新悬浮于250μl1X结合缓冲液中。
[0652] 将退火的250μl混合物与250μl洗过的珠子组合,混合15分钟,用磁体拉出珠子,并倾析上清液。然后用TEzero(低盐)洗涤珠子4次。
[0653] 洗脱
[0654] 如下用50μl水的2份等分试样洗脱结合的珠子:在94℃温育30秒,拉下珠子,并除去洗脱液,总洗脱液体积为100μl。假定100%捕获,纯化的物质应当具有1pmol文库/100μl=10amol/μl。使用可从Illumina得到的流动池簇测序平台,测序2μl。
[0655] 第三轮富集的结果
[0656] 源自二次富集的集合的序列的生物信息分析与三次富集的集合之对比表明,第三轮富集促成靶序列的额外2倍富集/纯化。在一个实验中,观察到,25%的来自二次富集的集合的测序读数与总靶区域对齐,而50%的来自三次富集的集合的测序读数与靶区域对齐。
[0657] 实施例4
[0658] 本实施例描述了使用经嵌合捕获寡物的间接捕获的基于溶液的捕获,所述嵌合捕获寡物含有基因-特异性的区域和与通用的生物素化的接头寡物杂交的区域,其使用对一组5个目标基因特异性的间接寡物集合。
[0659] 原理
[0660] 如上面在实施例3中所证实的,使用生物素化的基因序列特异性的寡核苷酸的靶向的序列捕获的方法,对于它的产生测序文库的预期目的而言效果良好。但是,使用生物素化的基因序列特异性的寡核苷酸的缺点是,生物素化的寡物是生产成本昂贵的试剂,它们的合成需要长时间,且寡核苷酸的产率通常较低和不可预测地变化。一个替代方案是,使用嵌合的捕获寡核苷酸,其中捕获寡核苷酸的一部分杂交靶序列,且一部分杂交共同的、生物素化的寡核苷酸,如图5所示。未生物素化的嵌合的捕获寡核苷酸的生成是直截了当的,且通用的(即,共同的)生物素化的寡物在单一大批次中容易地生成。不同于用直接生物素化的寡核苷酸捕获,间接捕获方案的优点是,仅需要合成单个生物素化的寡核苷酸序列,且嵌合的寡物是纯的DNA寡物,它们的合成是相对便宜的。
[0661] 如图5所示,基因组文库的靶基因富集的一个替代方案是使用间接捕获,其中通过下述进行:使用杂交文库中的靶核酸序列10、10′的第一区域202和杂交通用的生物素化的寡物300的第二区域204,生成嵌合的捕获探针200、200′;在杂交条件下混合所述嵌合的寡物、通用的生物素化的寡物和含有多个核酸分子50的文库,以形成三分子复合物(即,50/200/300);并使用抗生蛋白链菌素410包被的磁珠400来结合通用寡物300的生物素化的区域310,并使用磁体400把结合在复合物中的靶序列50拉到嵌合的捕获探针200上。
[0662] 该实验对比了使用用于直接捕获的生物素化的捕获寡物100和嵌合捕获寡物200的文库富集,所述嵌合捕获寡物200具有与靶序列杂交的第一区域和与通用的生物素化的寡物杂交的第二区域。
[0663] 方法
[0664] 寡核苷酸
[0665] 使用通用的5′生物素化的寡物:
[0666] 5′[BioTEG]TAATTGCTCGAAGGGGTCCACATCCGCCACGCGT 3′(SEQ IDNO:232)[0667] 产生了未生物素化的嵌合的捕获寡物的集合,所述寡物靶向AKT1、KRAS、PIK3CA、PTEN和TP53,且具有含有与上面表8所示的寡物相同的序列的第一5′区域和由下面的额外序列组成的第二3′区域,所述额外序列杂交通用寡物:
[0668] 5′ACGCGTGGCGGATGTGGACCCCTTCGAGCAATTA 3′(SEQID NO:233)
[0669] 下面在表12中提供了示例性的嵌合的捕获寡物的集合,所述寡物靶向AKT1、KRAS、PIK3CA、PTEN和TP53,且含有5′第一区域(35个核苷酸),所述第一区域含有杂交靶基因AKT1的序列,该寡物还含有杂交通用生物素化的捕获寡物(SEQ ID NO:233)的3′区域(SEQ ID NO:232)(34个核苷酸)。
[0670] 表12:靶向5个目标基因的嵌合的捕获寡物
[0671]
[0672]
[0673]
[0674]
[0675]
[0676]
[0677]
[0678]
[0679] 直接和间接基于溶液的捕获方法的对比
[0680] 寡物集合的制备
[0681] 建立所有直接捕获寡物(50-聚体)(SEQ ID NO:111-231)的100μM集合,称作“D寡物集合”。
[0682] 建立所有间接捕获嵌合寡物(69-聚体)(SEQ ID NO:234-354)的100μM集合,称作“I寡物集合”。将1μM生物素化的接头捕获寡物(SEQID NO:232)加入到I寡物集合中,称作“I寡物集合+捕获接头寡物”。
[0683] 表13:测试的捕获探针
[0684]
[0685] 捕获混合物
[0686] 如下制备上面的稀释系列:
[0687] 通过组合36μg(545μl 66ng/μl集合)gDNA文库(未富集)(如实施例2所述用异源茎环接头制备)、900μl 2X结合缓冲液和355μl水,制备1800μl主混合物。从主混合物取等分试样,2个试管是300μl,4个试管是270μl。将12.5μl直接生物素化的寡物集合(1μM D寡物集合)或间接的嵌合的寡物集合(1μM I寡物集合+通用接头)(加入含有300μl和30μl的试管中)系列转移至剩余的试管中,以建立表13所示的稀释系列。在如下的捕获方法中使用250μl每种样品:
[0688] 如下使反应混合物退火:
[0689] 94℃1分钟
[0690] 90℃1分钟
[0691] 85℃1分钟
[0692] 80℃1分钟
[0693] 75℃1分钟
[0694] 70℃1分钟
[0695] 65℃1分钟
[0696] 60℃1分钟
[0697] 55℃1分钟
[0698] 50℃1分钟
[0699] 45℃1分钟
[0700] 40℃1分钟
[0701] 捕获试剂
[0702] 通过组合66μl珠子、500μl2X结合缓冲液和440μl水,制备洗过的珠子。用磁体拉出珠子,并用1ml 1X结合缓冲液洗涤2次,重新悬浮于600μl1X结合缓冲液中。将100μl洗过的珠子转移至单个试管,并加入150μl1X结合缓冲液(10mM Tris pH 7.6,
0.1mM EDTA,1MNaCl),总体积为250μl。
[0703] 第1轮捕获
[0704] 将退火的250μl混合物与250μl洗过的珠子组合。混合15分钟,用磁体拉出珠子,并倾析上清液。然后用500μl TEzero(低盐=10mMTris pH 7.6,0.1mM EDTA)洗涤珠子4次。
[0705] 洗脱
[0706] 如下用50μl水的2份等分试样洗脱结合到珠子上的DNA:在94℃温育30秒,拉下珠子,并除去洗脱液,总洗脱液体积为100μl。
[0707] 洗脱液的扩增(一次富集的文库)
[0708] PCR反应混合物(5%DMSO)
[0709] 29μl H2O
[0710] 20μl 5X缓冲液(由 试剂盒的生产商Roche提供)
[0711] 10μl 25mM MgCl2
[0712] 10μl 模板(来自一次富集的片段文库的洗脱液的1/10)
[0713] 5μl dNTP(10nM每种dNTP)
[0714] 5μl DMSO
[0715] 10μl 10μM正向PCR引物(SEQ ID NO:109)
[0716] 10μl 10μM反向PCR引物(SEQ ID NO:110
[0717] 1μl 聚合酶(Roche)
[0718] 100μl总体积
[0719] PCR循环条件:
[0720] 1个循环:
[0721] 94℃2分钟
[0722] 10个循环:
[0723] 94℃30秒
[0724] 60℃30秒
[0725] 72℃1分钟
[0726] 10或15个循环:
[0727] 94℃30秒
[0728] 60℃30秒
[0729] 72℃1分钟+10秒/循环
[0730] 1个循环:
[0731] 72℃7分钟
[0732] 4℃保持
[0733] PCR反应产物经Qiaquick柱纯化,并定量。
[0734] 在2%琼脂糖凝胶上分离1μlPCR产物。
[0735] 第2轮捕获
[0736] 将5μg第1轮PCR产物与捕获寡物(D-10∶10pmol D寡物);(I-10∶10pmol I寡物集合+接头寡物)(在1X结合缓冲液(高盐=10mMTris pH 7.6,0.1mM EDTA,1M NaCl)中)混合,至总最后体积250μl,并在上面显示的第1轮捕获相同的温度下退火。
[0737] 然后如上所述,将退火的混合物与10μl洗过的珠子混合。在TEzero(低盐=10mM Tris pH 7.6,0.1mM EDTA)中洗涤珠子4次。通过如上所述将珠子重新悬浮于水中而洗脱捕获的DNA,得到总体积为100μl的洗脱液(二次富集)。在与上面显示的相同条件下,在100μl PCR反应中扩增10μl洗脱液,并经 柱纯化。
[0738] 第三轮捕获和富集
[0739] 将5μg PCR扩增的第2轮捕获物(50pmol片段)与在500μl 1X结合缓冲液中的1pmol捕获寡物组合。如上面关于第1轮和第2轮捕获所述,进行温育、洗涤和洗脱步骤。
[0740] 表14:通过直接或间接基于溶液的捕获富集的文库的qPCR分析
[0741]样品 AKT1 KRAS PIK3CA PTEN TP53
无模板对照 0 0 0 0 0
gDNA 201 323 122 172 895
D10 55,618 99,723 42,283 75,788 331,250
D1 248,767 295,648 103,156 163,626 1,015,336
D0.1 151,637 179,229 47,130 106,709 804,054
I10 112,928 141,126 88,792 143,495 734,659
I1 115,325 127,103 26,589 81,358 592,030
I0.1 30,071 35,305 10,799 30,060 176,812
D10-2轮 15,539,150 22,955,591 9,332,159 7,222,279 31,904,829
I10-2轮 29,133,566 27,469,246 11,444,918 13,423,041 83,868,123[0742] 表15:富集的信号与起始gDNA物质的比,其显示了在用于直接和间接捕获方法的基于溶液的捕获过程中的每个基因的富集倍数
[0743]
[0744] 如上面在表14和15中所示,直接捕获和间接捕获效果同样好。还重要的是观察到,使用两种方法,对于所有5种基因靶物观察到的富集倍数是类似的,表明没有特定序列的优先富集。
[0745] 富集的文库的序列验证
[0746] 在这方面,在本实施例中,使用5个qPCR测定来评估基因富集,每个qPCR测定位于每个基因的几个外显子之一内。设计了捕获寡核苷酸集合来富集共56个外显子序列。为了确立已经在靶向基因的所有外显子上发生富集,将已经用10pmol间接捕获寡物二次富集的样品应用于Illumina测序流动池,并得到36个核苷酸各自的3,272,895个可比对的测序读数。在它们中,35%独特地对应到5个靶基因区域。这些测序读数大部分发生在编码外显子的编码区域内,或在附近的侧接内含子区段内,正如进行基于序列的捕获来富集靶区段所预见到的。
[0747] 在图7中显示了与PIK3CA基因的代表性的比对。图7的上面部分的图显示了测序读数的数目(y-轴),其对应PIK3CA基因的每个碱基(沿着X-轴显示)。图7的下面部分显示了PIK3CA的外显子结构,实心框表示剪接成PIK3CA mRNA的每个编码外显子。如图7所示,PIK3CA基因中的所有靶向的外显子(以及其它4个基因中的其它靶向的外显子,未显示)在每个靶向的外显子碱基位置处表现出>1000读数的读数密度。这些数据确定性地证实,使用间接捕获策略进行基因重新测序的靶向捕获是有效的。
[0748] 实施例5
[0749] 本实施例描述了基于溶液的间接捕获,其使用3,229个嵌合的捕获寡物群体,所述嵌合的捕获寡物具有与77个靶基因之一的外显子区域的序列基本上互补的第一区域和用于结合通用的生物素化的寡物的第二区域,所述寡物又结合捕获试剂。
[0750] 原理
[0751] 本实施例描述了从5个基因靶物、56个外显子和121个寡核苷酸靶向的13,267个碱基对的靶序列(如实施例4所述)向77个基因、1,221个外显子和3,229个捕获探针靶向的304,161个碱基对的靶序列的放大。如在本实施例中进一步描述的,在该技术的放大过程中,发现通过三分子捕获复合物的更严格的洗涤,实质上增加靶物富集的量级。
[0752] 捕获探针的制备
[0753] 鉴别出了在PI3K激酶途径中重要的77个基因的集合,如下面表16所示。鉴别出了该组77个基因的所有外显子,共有1,221个外显子,包括替代性剪接的外显子,总靶区域是182,061个碱基。然后应用算法来挑选交替的有义和反义链嵌合寡物,其具有5′靶物-特异性的区域(35个核苷酸)(其含有杂交这些外显子中的每一个的有义或反义链的序列)和3′区域(SEQ ID NO:233)(其杂交生物素化的接头捕获寡物(SEQ IDNO:232)),产生共3,229个寡物。
[0754] 如下选择这些捕获寡核苷酸。对于长度小于69个核苷酸的外显子,选择2个寡核苷酸,二者都靶向相同链并朝向相同方向,且它们的序列彼此重叠不超过10个核苷酸。在外显子非常短(即,<60个核苷酸)的有些情况下,这些捕获寡核苷酸包括侧接外显子序列。
[0755] 对于长度在70至115个核苷酸的外显子,选择靶向相对的Watson和Crick链并朝向相反方向的2个寡核苷酸。第一寡核苷酸覆盖外显子碱基位置1-35,且第二寡核苷酸的位置从碱基位置80-115,其经常包括侧接内含子序列,使得寡物的长度各自是约35个核苷酸,并间隔约45个核苷酸。
[0756] 对于长度大于115个核苷酸的外显子序列,第一捕获寡核苷酸位于外显子位置1-35,且连续的寡物以交替的朝向放置,在寡核苷酸之间间隔45个核苷酸。
[0757] 不受本实施例的约束,预见到,捕获寡核苷酸可以间隔许多不同的间距,具有许多不同的长度,且放置过程可以考虑基因组特征,诸如遗传变异、G:C含量、预测的寡物Tm等。
[0758] 通过Operon合成如上所述设计的寡物,并以100μM提供在平板中,使用Biomek自动机械合并成单个50ml样品。然后将合并的3,229个捕获寡物稀释至10μM和1μM。
[0759] 表16:3,299个捕获寡物的集合的概述
[0760]
[0761]
[0762]
[0763] 为10个基因(AKT1、BRAF、CTNNB1、EGFR、KRAS、PIK3CA、PTEN、RET、TP53和YWHAH)开发了TaqMan测定,如表16所示。也为用作阴性对照的脱靶基因ANKHD和MKRN1开发了TaqMan测定。这些基因不被捕获寡核苷酸靶向,且证实在靶物文库富集过程中,它们的表现减少。
[0764] 文库产生
[0765] 如上所述产生基因组DNA文库,将1/100DNA酶I处理过的文库(更小的大小分布)和1/200DNA酶I处理过的文库(更大的插入物大小分布)、正向茎环接头(SEQ ID NO:105)和反向茎环接头(SEQ ID NO:7)连接到插入物上,然后用PCR正向引物(SEQ ID NO:
109)和PCR反向引物(SEQID NO:110)PCR扩增20个循环,然后经Qiaquick柱纯化PCR产物。
[0766] 基于溶液的捕获和就靶序列富集文库
[0767] 在初步实验中,经测定,尽管5-基因捕获在上述条件下效果良好,但77-基因捕获表现出更高水平的非-特异性结合。不希望受到理论的约束,增加的寡物多样性(从121个寡物增加到3,229个寡物)建立更多样的序列情况,其可能造成非-特异性的结合效应。
[0768] 也观察到,某些类型的塑料微量离心机试管对于用于磁珠MyOneTM抗生蛋白链菌素C1(InVitrogen#650-01)不是最佳的。经测定,微量离心机Axygen M-175C试管对于使用这些珠子的磁性捕获而言效果良好。
[0769] 如本实施例所述,经测定,将25%甲酰胺加入低盐洗涤缓冲液(10mM Tris pH7.6,0.1mM EDTA)中,可有效地增加77-基因捕获环境中的结合特异性。
[0770] 在一个相关的实验中,进一步确定,在退火阶段加入0.1%triton X100(或吐温或NP40)非离子型去污剂,会使结合特异性增加一个数量级(数据未显示)。
[0771] 捕获试剂
[0772] 将10μM的表16所述的77个候选基因的3,229个捕获寡物与10μM生物素化的接头寡物(SEQ ID NO:232)混合。如实施例2所述,制备基因组文库DNA。
[0773] 捕获混合物
[0774] 125μl 2X结合缓冲液(2M NaCl,20mM Tris pH 7.6,0.2mMEDTA)、60μl(4.3μg)gDNA文库、5μl捕获寡物集合(50pM 10μM3229个寡物集合+接头寡物)和60μl水,总体积为250μl。
[0775] 如下使反应混合物退火:
[0776] 94℃1分钟
[0777] 90℃1分钟
[0778] 85℃1分钟
[0779] 80℃1分钟
[0780] 75℃1分钟
[0781] 70℃1分钟
[0782] 65℃1分钟
[0783] 60℃1分钟
[0784] 55℃1分钟
[0785] 50℃1分钟
[0786] 45℃1分钟
[0787] 40℃1分钟
[0788] 25℃-保持
[0789] 注:在另一个实验中测得,捕获寡物和靶物DNA之间更长的退火时间(15分钟/5℃步骤)会进一步提高捕获实验的质量(数据未显示)。
[0790] 捕获试剂
[0791] 通过组合50μl珠子的6个等分试样(原则上,每50μl珠子能结合50pmol dsDNA复合物)、500μl2X结合缓冲液和440μl水,制备洗过的珠子。用磁体拉出珠子,并用1ml1X结合缓冲液洗涤2次。
[0792] 第1轮捕获/富集
[0793] 将洗过的寡物的等分试样与退火的寡物组合,形成总体积1ml 1X结合缓冲液,并轻轻混合15分钟。
[0794] 洗涤溶液
[0795] 测试了含有递增的甲酰胺的一系列洗涤缓冲液,各自含有100mMTris pH 7.6、1mM EDTA和范围为15%、20%、25%、30%和50%的甲酰胺。
[0796] 以前测得,20mM NaCl在10mM Tris pH 7.6、1mM EDTA缓冲液中的存在会增加非-特异性的结合(数据未显示);因此,在该实验的洗涤缓冲液中消除了NaCl。
[0797] 使用包括甲酰胺的上述洗涤缓冲液洗涤捕获寡物/文库/珠子复合物4次,每次1ml,洗涤持续5分钟。
[0798] 洗脱
[0799] 如下用50μl水的2份等分试样洗脱结合到珠子上的DNA:在94℃各自温育1分钟,拉下珠子,并除去洗脱液,总洗脱液体积为100μl。
[0800] 洗脱液的扩增
[0801] 如实施例5所述,通过20个PCR循环,扩增洗脱的物质。
[0802] 分析
[0803] 对于表16所示的10个基因,进行qPCR分析。在不同的洗涤条件下观察到的富集倍数如表17所示。
[0804] 表17:gDNA文库中的靶物的富集倍数,洗涤缓冲液含有递增量的甲酰胺[0805]
[0806] 如上面表17所示,将甲酰胺加入洗涤缓冲液,对一轮捕获后观察到的富集倍数具有显著的积极影响。因为目标是文库中所有靶物的均匀富集,在本文所述的方法中使用25%甲酰胺洗过的珠子,因为观察到较小的标准差。
[0807] 第2轮捕获/富集
[0808] 扩增从在25%甲酰胺中洗过的珠子得到的洗脱物,并如下对5μg纯化的PCR产物进行第2轮寡物捕获:
[0809] 125μl 2X结合缓冲液(2M NaCl,20mM Tris pH 7.6,0.2mMEDTA)、5μg PCR产物(一次富集的)、5μl(50pmol 50pM 10μM 3229个嵌合的间接捕获寡物集合+接头捕获寡物)、水,至终体积250μl。如关于第1轮捕获所述,进行退火。在1ml洗涤缓冲液(12.5ml甲酰胺、500μl 1M Tris pH 7.6、10μl 0.5M EDTA和37ml水,共50ml洗涤溶液,含有25%甲酰胺)中洗涤结合的复合物4次。
[0810] 洗脱
[0811] 如下用50μl水的2份等分试样洗脱结合到珠子上的DNA:在94℃各自温育1分钟,拉下珠子,并除去洗脱液,总洗脱液体积为100μl。然后使用上面关于一次富集的洗脱液所述的PCR条件,通过20个循环,PCR扩增洗脱的二次富集的物质。
[0812] 第三轮捕获/富集
[0813] 如下使10μg纯化的二次富集的PCR扩增的产物(约100nmol片段)与5μl1μM(5pmol)捕获寡物集合退火:
[0814] 125μl 2X结合缓冲液、10μg PCR产物、2μl(2pmol)1μM间接候选寡物集合+接头寡物,用水加至总体积250μl。使捕获的复合物与5μl如上所述的洗过的珠子退火。如上对于第1轮和第2轮捕获所述进行在25%甲酰胺缓冲液中的洗涤。使用2个25μl水等分试样,从珠子洗脱捕获的核酸,各自在94℃进行1分钟。在第三轮捕获/富集中,捕获寡物的量减少至5pmol(而不是第1轮和第2轮中的50pM)。在2轮富集后,PCR产物的溶液含有过量的靶向的片段。当将有限量的捕获寡物加入过量的片段中时,捕获寡物变得饱和。因此,在第三轮富集中,以相同的摩尔丰度加入捕获寡物,使得测序物质的组成以几乎相同的量表示。
[0815] 将珠子的量减少至5μl(而不是第1轮和第2轮捕获中的50μl),以便提供刚好足够的珠子来结合存在的所有复合物,从而使在第三轮捕获中使用过量的珠子可能发生的任何非-特异性的结合效应最小化。
[0816] 分析
[0817] 通过qPCR,分析起始gDNA文库、一次富集的和二次富集的文库,并呈递给序列分析。在表18中显示了qPCR结果,其监测1个外显子,各自在10个靶基因(共1,221个靶向的外显子之中的:AKT1、BRAF、CTNNB1、EGFR、KRAS、PIK3CA、PRET、PTEN、TP53和YWHAH)内和1个外显子,各自在2个非靶向的基因(ANKHD和MKRN1)内。如上所述,捕获了对照参照人基因组DNA的更短的插入物(100+)和更长的插入物(200+)文库。表19显示了每个单个基因的富集倍数和所有10个靶基因的平均值。更短的插入物(100+)文库表现出所有10个基因平均的4,650倍富集和非靶向的基因的显著消除。更长的插入物文库(200+)表现出轻微较少的富集,3,756倍,正如关于在基因组上更分散的更长的靶物所预期的。
[0818] 表18:2个文库(100+和200+)上10个靶向的和2个非靶向的基因的粗qPCR值和每个文库2个富集步骤
[0819]
[0820] 表19:就更短的插入物(100+)和更长的插入物(200+)文库的第1轮和第2轮富集后超过起始粗基因组DNA文库的富集倍数值
[0821]
[0822] 序列分析
[0823] 如表20所示建立测序流动池,以便测定随着文库富集和标准化而变化的靶基因的具体覆盖。
[0824] 表20:通过流动池进行测序分析
[0825]
[0826] 表21:测序读数与靶区域的比对
[0827]
[0828] 为了评估77-基因靶向文库的总特征,将100+二次富集的处理过的文库应用于Illumina测序流动池的一个道。如上面表21所示,对于100+短插入物文库,二次富集的且标准化的(第3轮富集)样品(#4)中大约50%的总测序读数与基因靶区域(在特定基因周围的所有序列位置)对齐,而32%的这样的读数特异性地与靶外显子区域对齐。这证实,67%(1,428,594/2,144,103x 100%)的对应到基因区域的测序读数是在靶外显子内。进一步分析表明,剩余的33%的基因区域对应的测序读数与紧挨着外显子的内含子区域对齐(数据未显示)。
[0829] 对于200+更长的插入物文库,二次富集的且标准化的样品(第3轮富集)(#8)中大约43%的总测序读数与基因靶区域对齐,而24%的这样的读数特异性地与靶外显子区域对齐。这证实,55%(933,503/1,697,263x 100%)的对应到基因区域的测序读数是在靶外显子内,且45%的读数对应到邻近的内含子,正如关于延伸进内含子区域中的更长的插入物所预期的。
[0830] 关于在单个基因水平的序列覆盖,如图8所示,为示例性的基因AKT1测定了来自100+短插入物二次富集的且标准化的(第3轮富集)文库的逐碱基(base-by-base)读数深度。图8显示了AKT1的外显子结构,实线框表示外显子,虚线表示内含子区域。按照从
0至20读数的标度,绘制逐碱基测序读数深度。如图8所示,每个外显子区域被至少20个读数的测序读数深度覆盖,而被测序的内含子区域都簇集在目标外显子靶物周围。
[0831] 为了解决靶区域的测序覆盖的均匀性问题,更详细地分析了100+短插入物二次富集的文库(在表21中的样品#4)的性能。图9显示了该数据的总特征,X-轴显示测序覆盖深度,定义为在比对的序列中发现每个单个碱基的次数。y-轴显示碱基的百分比,定义为具有≥在x-轴上显示的覆盖深度的碱基的百分比。将靶碱基的百分比绘制为序列覆盖深度(即,测序读数的数目)的函数。在图9中绘制的线表明,99%的靶碱基被至少一个测序读数覆盖,且箭头表明,90%的靶碱基被16个或更多个测序读数覆盖。该结果是重要的,因为≥16的测序读数深度是可靠地揭示单核苷酸多态性(SNP)所必需的。因此,该总体覆盖分析表明,从给定样品上的一个流动池道得到的数据(~4,000,000读数),存在足够的序列覆盖深度,从而在>90%的靶物捕获区域上可靠地测定小核苷酸多态性(SNP)的存在。
[0832] 考虑到这些结果,选择捕获探针序列的另一个标准是,扫描候选捕获探针序列中任意已知重复区域的存在,并避免使用它们。另一个方案是,设计捕获探针,以选择性地与感兴趣的特定基因组区域对齐,该区域诸如人基因组的小于100万个碱基的区域。
[0833] 总之,已经证实,生成目标靶区域的富集文库的方法对于高通量重新测序而言是非常有用的。具体地,已经证实,已经使用本文所述的靶物捕获方法二次富集的且标准化的(第3轮富集)的基因组文库,会提供测序模板的高度富集的级分,所述测序模板含有我们努力要测序的靶区域。
[0834] 实施例6
[0835] 本实施例描述了基于溶液的捕获方法用于来自测序就绪的文库(从总基因组文库制备)的拷贝数变化的序列分析的应用。
[0836] 原理
[0837] 不同于实施例3-5所述的方法(其中通过在几轮基于溶液的捕获中捕获靶序列来有利地就靶序列富集文库),在本实施例中,概念是,产生总基因组文库的低覆盖度鸟枪法测序,所述总基因组文库含有代表起始样品的靶区域的数目,并测序文库。然后通过将测序读数对应回与样品类型相对应的参照基因组的大的、500Kb间隔,产生读数密度图。本实施例描述了该方法对于人受试者的染色体14的应用。
[0838] 方法
[0839] 如实施例2所述建立总基因组DNA插入物的测序就绪的文库,其中从分离自健康人受试者的基因组DNA开始,DNA酶I处理,平端补齐,并连接到茎-环接头(SEQ ID NO:105和SEQ ID NO:107)上,然后是20个PCR循环,并经 柱纯化。
[0840] 分析
[0841] 通过将一次富集的文库的测序读数对应回人染色体14的测序的87.3Mb部分的大的、500Kb间隔,产生读数密度图。
[0842] 图10A解释了使用低覆盖度基因组测序和分子核型分型对拷贝数变化的测量,沿着x-轴绘制的每100Kb的比对测序读数的密度显示为表观拷贝数。图10A显示了含有正常二倍体染色体区域的样品(显示在左侧),其在整个区域上表现出测序读数的均匀的2n密度。相反,如图10A进一步所示的,含有1个正常染色体和1个具有缺失和串联重复的染色体的样品(显示在右侧)会产生异常低的读数密度(在缺失的区域上“浸”入1n)和异常高的读数密度(在重复区域上“突出”3n)。
[0843] 图10B显示了染色体14的87.3Mb测序部分的实际分子核型,它显示了使用本实施例所述的方法对来自正常人受试者的均匀的2n覆盖。在显示的线上绘制了每100Kb区域的比对读数的密度。
[0844] 本实施例中的结果证实了所述方法用于分析来自受试者的目标基因组DNA的靶区域的拷贝数变化的应用。
[0845] 实施例7
[0846] 本实施例描述了整个转录组扩增的组合,扩增的整个转录组的测序就绪的文库生产,目标靶序列的文库的富集,和文库的靶向重新测序。
[0847] 原理
[0848] 最近的全基因组关联研究(其尝试将多个具有特定表型的受试者与特定遗传变化相关联)已经产生了令人迷惑的结果;超过半数的迄今为止已经报道的统计上可辩护的关联(截止2007年中期,>170个报告)对应到缺乏任意已知基因的染色体区域。
[0849] 本实施例描述了从整个转录组扩增的核酸产生的测序就绪的文库的生产,所述核酸富含目标靶基因座,以便以节省成本的方式提供特定染色体位置的足够的测序覆盖度。
[0850] 为了证实合并的方案的概念的证据,我们聚焦于图11A所示的染色体9p21上的心血管病风险基因座(Helgadottir等人,Science 316:1491(2007),其含有2个与心血管风险有关的SNP(显示为SNPA和SNPB)。
[0851] 方法
[0852] 用于全-转录组文库的cDNA合成
[0853] 首先如美国专利申请公开号2008/0187969(通过引用并入本文)所述,建立全-转录组文库。简单地总结为,所述方法包括,使用寡核苷酸群体来引发在更大的核酸分子群体内的靶核酸分子群体的扩增,其中每个寡核苷酸包含杂交部分,其中所述杂交部分由6、7或8个核苷酸之一组成;且选择这样的寡核苷酸群体,其在确定的条件下杂交靶核酸群体的第一亚群(即,从人受试者得到的mRNA分子),但是在确定的条件下不杂交靶核酸群体的第二亚群(即,核糖体RNA)。使用能扩增除了18S和28S转录物之外的所有转录物的非如此随机寡核苷酸群体来引发mRNA的扩增,并如在美国专利申请公开号2008/0187969中所述产生。
[0854] 从人受试者提取总RNA,并将逆转录酶用于从模板RNA合成第一链cDNA,其中使用非如此随机引物集合。然后进行第二链cDNA合成,并将双链cDNA用作制备测序就绪文库的起始材料,如实施例2所述。
[0855] 捕获寡核苷酸
[0856] 使用通用的5′生物素化的寡物:
[0857] 5′[BioTEG]TAATTGCTCGAAGGGGTCCACATCCGCCACGCGT 3′(SEQ IDNO:232)[0858] 产生一系列紧密间隔的嵌合的捕获寡物,其跨包括SNPA和SNPB的染色体9p21的区段的200Kb区域,如图11B所示。嵌合的寡物未生物素化,且各自具有杂交染色体9p21的靶区域的第一5′区域和由下述额外序列(其杂交通用寡物)组成的第二3′区域:
[0859] 5′ACGCGTGGCGGATGTGGACCCCTTCGAGCAATTA 3′(SEQID NO:233)
[0860] 基于溶液的捕获
[0861] 如实施例3所述进行3轮基于溶液的捕获。然后测序文库(粗文库,第1轮富集的物质,第2轮富集的物质,和第3轮富集的物质)的每个级分,并如下所述分析。
[0862] 分析
[0863] 尽管非常少的EST对应到染色体9p21上的心血管病风险基因座,但是,从测序就绪的文库(其使用非如此随机引物扩增方法从整个转录组扩增产生)得到的测序数据,如本实施例所述,提供了证据证明:在疾病-相关的SNPA和SNPB周围的大区段被有活性地转录。如图11A所示,该目标区域的展开图显示出覆盖>800Kb的转录活性,其在转录上可以分配给1或2个转录单位。
[0864] 如图11B所示,通过增加来自该区域的转录物-衍生的序列的强度,可以可靠地绘制转录物结构。基于该信息,可以开发这样的测定法:其查询该区域在组织中的表达模式(例如,身体地图集),以测定这样的基因座的表达是否与患者表型相关联。
[0865] 实施例8
[0866] 本实施例描述了基于溶液的捕获方法用于分离自临床患者样品的基因组DNA的序列分析的应用,以便鉴别出预示治疗结果的基因标记。
[0867] 原理
[0868] 尽管将全基因组关联研究应用于在临床试验期间从患者得到的样品具有指出可能预示治疗结果的基因标记的潜力,但这样的关联经常较弱。该弱关联的一种解释是,尽管基因分型的SNP可能与重要的遗传变化相关,但它自身不可能成为观察到的表型的原因。此外,尽管基因分型的SNP可能是共同的变体,但它也可能与罕见的、尚未发现的变化相关,所述变化与表型特性更强烈得多地相关。因此,靶向的重新测序可以用于揭露罕见的遗传变体,例如,在以前鉴别出的SNP周围的基因组区域中。
[0869] 方法
[0870] 从临床样品分离出核酸(DNA或RNA),所述样品从正在接受特定治疗的受试者得到,或从表现出特定目标表型的一组受试者得到。从分离的核酸制备测序就绪的文库,然后就特定目标靶区域富集文库。例如,目标靶区域可以包括在已知的SNP周围的区域,诸如与罕见的且不利的负面事件弱相关的常见的SNP“A”。在该SNP周围的~40Kb区域的靶向重新测序揭露了罕见的C→T SNP,其与该不利事件更强烈地相关。治疗群体中罕见的T变体的基因分型能使医师排除易受不利结果影响的受试者。
[0871] 本实施例所述的方法可以在多个含有核酸的样品上进行,所述样品在一段时间内从人受试者得到,以便监测受试者的目标靶区域中的遗传突变,或监测特定治疗方案对受试者的影响。
[0872] 尽管已经解释和描述了本发明的优选实施方案,但应当理解,可以在其中做出不同的变化,而不脱离本发明的精神和范围。
[0873] 如下定义本发明的实施方案,其中要求保护排它的所有权或特权。
QQ群二维码
意见反馈