首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 用于多态性的高通量鉴定和检测的策略

用于多态性的高通量鉴定和检测的策略

申请号 CN200680025630.8 申请日 2006-06-23 公开(公告)号 CN101641449B 公开(公告)日 2014-01-29
申请人 科因股份有限公司; 发明人 M·J·T·范艾克; H·J·A·范德珀尔;
摘要 本 发明 涉及用于高通量鉴定单核苷酸多态性的方法,该方法通过对两个或多个样本进行复杂度降低以生成两个或多个文库,对所述文库的至少部分进行测序,比对经鉴定的序列并且测定任一假定的单核苷酸多态性,确认任一假定的单核苷酸多态性,产生用于确认单核苷酸多态性的检测探针,对测试样品进行相同的复杂度降低以提供测试文库并用检测探针筛选该测试文库,以检测单核苷酸多态性存在或缺失。
权利要求

1.鉴定一个或多个多态性的非诊断性方法,所述方法包括步骤:
a)提供第一目的核酸样品;
b)对第一目的核酸样品进行复杂度降低以提供第一核酸样品的第一文库;
c)用第二或更多目的核酸样品连续地或同时地进行步骤a)和b),以获得第二或更多目的核酸样品的第二或更多文库;
d)测序第一文库和第二或更多文库的至少一部分,其中测序在固体支持物上进行;
e)比对在步骤d)中获得的序列;
f)确定在步骤e)的比对中第一核酸样品和第二或更多核酸样品间的一个或多个多态性;
g)用在步骤f)中确定的所述一个或多个多态性设计检测探针;
h)提供目的测试样品核酸;
i)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样品核酸的测试文库;
j)用在步骤g)中设计的检测探针对测试文库进行高通量筛选以鉴定在步骤f)中确定的多态性的存在或不存在;
其中步骤(b)的复杂度降低是通过下述进行的:
-用至少一种限制性核酸内切酶消化核酸样品以将其片段化为限制性片段;
-用具有可与限制性片段的一个或两个末端相连接的一个末端的至少一种合成的双链寡核苷酸接头连接获得的限制性片段,以产生接头-连接的限制性片段;
-将所述接头-连接的限制性片段与一个或多个寡核苷酸引物在杂交条件下接触;和-通过所述一个或多个寡核苷酸引物的延伸来扩增所述接头-连接的限制性片段,其中所述一个或多个寡核苷酸引物的至少一个包括具有与在所述接头-连接的限制性片段的末端处的链的末端部分的核苷酸序列相同的核苷酸序列,包括参与所述限制性核酸内切酶的目标序列的形成的核苷酸并且包括存在于接头中的核苷酸的至少一部分。
2.鉴定一个或多个多态性的非诊断性方法,所述方法包括步骤:
a)提供第一目的核酸样品;
b)对第一目的核酸样品进行复杂度降低以提供第一核酸样品的第一文库;
c)用第二或更多目的核酸样品连续地或同时地进行步骤a)和b),以获得第二或更多目的核酸样品的第二或更多文库;
d)测序第一文库和第二或更多文库的至少一部分,其中测序在固体支持物上进行;
e)比对在步骤d)中获得的序列;
f)确定在步骤e)的比对中第一核酸样品和第二或更多核酸样品间的一个或多个多态性;
g)用在步骤f)中确定的所述一个或多个多态性设计检测探针;
h)提供目的测试样品核酸;
i)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样品核酸的测试文库;
j)用在步骤g)中设计的检测探针对测试文库进行高通量筛选以鉴定在步骤f)中确定的多态性的数量;
其中步骤(b)的复杂度降低是通过下述进行的:
-用至少一种限制性核酸内切酶消化核酸样品以将其片段化为限制性片段;
-用具有可与限制性片段的一个或两个末端相连接的一个末端的至少一种合成的双链寡核苷酸接头连接获得的限制性片段,以产生接头-连接的限制性片段;
-将所述接头-连接的限制性片段与一个或多个寡核苷酸引物在杂交条件下接触;和-通过所述一个或多个寡核苷酸引物的延伸来扩增所述接头-连接的限制性片段,其中所述一个或多个寡核苷酸引物的至少一个包括具有与在所述接头-连接的限制性片段的末端处的链的末端部分的核苷酸序列相同的核苷酸序列,包括参与所述限制性核酸内切酶的目标序列的形成的核苷酸并且包括存在于接头中的核苷酸的至少一部分。
3.根据权利要求1或2的方法,其中所述接头和/或引物包括标签。
4.根据权利要求3的方法,其中所述标签为标识子序列。
5.根据权利要求1或2的方法,其中至少一种所述引物被磷酸化
6.根据权利要求1或2中任一项的方法,其中所述固体支持物为珠子。
7.根据权利要求1或2中任一项的方法,其中测序基于双脱链终止测序法。
8.根据权利要求1或2的方法,其中测序包含步骤:
-将接头-连接的片段退火到珠子,其中各个珠子与单一的接头-连接的片段退火;
-在油包微反应器中乳化珠子,各个油包水微反应器包含单一的珠子;
-将珠子加载于孔中,各个孔包含单一的珠子;和
-产生焦磷酸信号
9.根据权利要求8的方法,其中,在退火步骤之前,测序接头连接到加标签的第一文库和加标签的第二文库或组合文库中的片段上。
10.根据权利要求9的方法,其中测序接头携带3’-T突出端。
11.根据权利要求1或2中任一项的方法,其中高通量筛选通过如此来进行,即将在步骤h)中设计的探针固定于阵列上,之后将包含探针的阵列与测试文库在杂交条件下接触。
12.用于鉴定一个或多个多态性的方法,所述方法包括步骤:
a)提供多个目的核酸样品;
b)对各个样品进行复杂度降低以提供多个核酸样品文库,其中进行复杂度降低,通过-用至少一种限制性核酸内切酶消化各个核酸样品将其片段化为限制性片段;
-用至少一种具有可与限制性片段的一个或两个末端相连接的一个末端的合成的双链寡核苷酸接头连接获得的限制性片段,以产生接头-连接的限制性片段;
-将所述接头-连接的限制性片段与一个或多个磷酸化的寡核苷酸引物在杂交条件下接触;和
-通过所述一个或多个寡核苷酸引物的延伸来扩增所述接头-连接的限制性片段,其中所述一个或多个寡核苷酸引物的至少一个包括具有与在所述接头-连接的限制性片段的末端处的链的末端部分的核苷酸序列相同的核苷酸序列,包括参与所述限制性核酸内切酶的目标序列的形成的核苷酸并且包括存在于接头中的核苷酸的至少一部分,其中接头和/或引物包含标签;
c)组合所述的文库为组合文库;
d)将能够与珠子退火的测序接头与组合文库中扩增的接头-加帽的片段连接,使用携带3’-T突出端的测序接头并且使珠子-退火的片段进行乳液聚合;
e)对组合文库的至少一部分测序;
f)对比来自步骤e)中获得的各个样品的序列;
g)确定在步骤f)的对比中的多个核酸样品间的一个或多个多态性;
h)用在步骤g)中确定的所述一个或多个多态性设计检测探针;
i)提供目的测试样品核酸;
j)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样品核酸的测试文库;
k)用在步骤h)中设计的检测探针高通量筛选测试文库以鉴定在步骤g)中确定的多态性的存在或不存在。
13.用于鉴定一个或多个多态性的非诊断性方法,所述方法包括步骤:
a)提供多个目的核酸样品;
b)对各个样品进行复杂度降低以提供多个核酸样品文库,其中进行复杂度降低,通过-用至少一种限制性核酸内切酶消化各个核酸样品将其片段化为限制性片段;
-用至少一种具有可与限制性片段的一个或两个末端相连接的一个末端的合成的双链寡核苷酸接头连接获得的限制性片段,以产生接头-连接的限制性片段;
-将所述接头-连接的限制性片段与一个或多个磷酸化的寡核苷酸引物在杂交条件下接触;和
-通过所述一个或多个寡核苷酸引物的延伸来扩增所述接头-连接的限制性片段,其中所述一个或多个寡核苷酸引物的至少一个包括具有与在所述接头-连接的限制性片段的末端处的链的末端部分的核苷酸序列相同的核苷酸序列,包括参与所述限制性核酸内切酶的目标序列的形成的核苷酸并且包括存在于接头中的核苷酸的至少一部分,其中接头和/或引物包含标签;
c)组合所述的文库为组合文库;
d)将能够与珠子退火的测序接头与组合文库中扩增的接头-加帽的片段连接,使用携带3’-T突出端的测序接头并且使珠子-退火的片段进行乳液聚合;
e)对组合文库的至少一部分测序;
f)对比来自步骤e)中获得的各个样品的序列;
g)确定在步骤f)的对比中的多个核酸样品间的一个或多个多态性;
h)用在步骤g)中确定的所述一个或多个多态性设计检测探针;
i)提供目的测试样品核酸;
j)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样品核酸的测试文库;
k)用在步骤h)中设计的检测探针高通量筛选测试文库以鉴定在步骤g)中确定的多态性的数量。
14.权利要求1-13的方法的用途,其用于筛选富集的微卫星文库、进行转录作谱cDNA-AFLP、复杂基因组的测序、表达序列标签文库的测序、微小RNA发现、小插入片段文库的测序、细菌人造染色体的测序、与AFLP/cDNA-AFLP组合的分离群体分组分析法或AFLP片段的常规检测。

说明书全文

用于多态性的高通量鉴定和检测的策略

技术领域

[0001] 本发明涉及分子生物学和遗传学领域。本发明涉及快速鉴定核酸样品中的多个多态性。经鉴定的多态性可以用于针对测试样品中的多态性的高通量筛选系统的开发。

背景技术

[0002] 长期以来,基因组DNA探查被科学团体特别是医学团体所期望。基因组DNA是鉴定、诊断和治疗疾病,例如癌症和阿尔兹氏疾病的关键。除疾病鉴定和治疗以外,基因组DNA的探查可以在植物和动物育种研究中带来显著的优势,其可以对全世界的食品及营养问题提供答案。
[0003] 已知许多疾病与特定的基因元件有关,特别地,与特定基因中的多态性有关。大量样品例如基因组的多态性的鉴定,在目前是一项艰苦而耗时的工作。然而,该鉴定对于下述领域例如生物医学的研究,开发药学产品、组织分型、基因分型和群体研究具有重大价值。
[0004] 发明概述
[0005] 本发明提供了使用高通量方法的组合以快速而经济的方式在复杂的例如非常大量的核酸样品(例如DNA或RNA)中,有效地鉴定并且可靠地检测多态性的方法。
[0006] 这种高通量方法的整合提供了一种平台,其特别适用于高度复杂的核酸样品中的多态性的快速且可靠的鉴定和检测,其中传统的多态性的鉴定和绘图是艰苦且耗时的。
[0007] 本发明人的发现之一是用于多态性,优选单核苷酸多态性的鉴定的解决方案,而且同样可用于(微)卫星和/或插入/缺失特别是在大基因组中(微)卫星和/或插入/缺失的鉴定的解决方案。该方法的独特之处在于它对大的或小的基因组的适用性相同,并且对大基因组特别是多倍体物种尤其具有优势。
[0008] 为了鉴定SNP(和随后检测经鉴定的SNP),本领域有几种可以采用的可能方法。首选方案中,对完整基因组进行测序,并且这可以对几个个体进行。这主要是理论上的实验,因为这是麻烦而且昂贵的,并且,尽管技术快速发展,这虽然简单但对用于每一个生物体是不可行的,尤其是对具有大基因组的生物体是不可行的。次选方案是利用可获得的(片段化的)序列信息,例如EST文库。其允许生成使PCR引物,重新测序和个体间的比较。此外,其要求初始的序列信息不可得或仅仅是有限量的。进一步必须开发分别针对各个区域的PCR-分析,其增加了巨大的成本和开发时间。
[0009] 第三个选择是限定自身到各个个体的基因组的部分。困难在于,为了提供用于成功的SNP鉴定的可比较的结果,所提供的基因组的部分必须对不同个体是相同的。本发明人现在已经解决了这一难题,通过整合用于筛选部分的基因组的高度重现性方法集合和用于多态性鉴定的高通量测序,其整合于样品制备和高通量鉴定平台。本发明加速了多态性发现的进程并且在后续的用于所发现的多态性开发的过程中,使用相同的要件(element)可以有效且可靠地进行高通量的基因分型。
[0010] 进一步设想的本发明的方法的应用,包括筛选富集的微卫星文库,进行转录作谱cDNA-AFLP(数字化Northern)、复杂基因组的测序,EST文库测序(对完整cDNA或cDNA-AFLP)、微小RNA发现(小的插入文库的测序)、细菌人造染色体(BAC)(重叠群)的测序、批量分离分析法AFLP/cDNA-AFLP、AFLP片段的常规检测,例如,标记辅助的回交(MABC)等等。
[0011] 定义
[0012] 在下面的描述和实施例中使用了大量术语。为了提供对说明书权利要求包括这些术语给定的范围的清楚而一致的理解,给出下面的定义。除非在此另有定义,此处所有使用的技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同的意义。所有出版物、专利应用、专利和其他参考文献的公开内容以其整体作为参与引入此处。
[0013] 多态性:多态性指群体中核苷酸序列存在的两个或多个变体。多态性可以包含一个或多个基置换、插入、重复或缺失。多态性包括,例如,简单的序列重复(SSR)和单核苷酸多态性(SNP),其是一变异,发生于当单核苷:腺嘌呤(A),胸腺嘧啶(T),胞嘧啶(C)或嘌呤(G)-改变时。变异必需在群体中通常出现至少1%才被认为是SNP。SNP构成例如所有人类遗传变异的90%,并且在人类基因组中每100至300个碱基就有发生。每三个SNP中的两个是胸腺嘧啶(T)取代胞嘧啶(C)。例如人或植物的DNA序列中的变异可以影响它们如何应对疾病、细菌、病毒、化学制品、药物等。
[0014] 核酸:本发明的核酸可以包括任何嘧啶和嘌呤碱基,优选分别为胞嘧啶、胸腺嘧啶、和尿嘧啶,及腺嘌呤和鸟嘌呤的多聚物或低聚体,(参见Albert L.Lehninger,Principles of Biochemistry,at793-800(Worth Pub.1982)其引入此处作为参考。本发明设想任何脱核糖核苷酸、核糖核苷酸或肽核酸组成,及其任何化学变体,例如这些碱基的甲基化、羟甲基化或糖基化形式等等。多聚物或低聚体在组合物中可以是异源的或同源的,也可以分离自天然存在的来源或可以是人工或合成生产的。另外,核酸可以是DNA或RNA或其混合物,并且可以在单链或双链形式包括同源双链、异源双链和杂交形式中永久地或瞬时性地存在。
[0015] 复杂度降低(complexity reduction):术语复杂度降低用于表示一种方法,其中核酸样品例如基因组DNA的复杂度通过样品的子集的产生而降低。子集可以是对完整(即复杂的)样品有代表性的,并且优选是可重现的子集。可重现的在上下文中的含义为,当相同样品用相同方法在复杂度上降低时,即获得相同的或至少可比的子集。用于复杂度降低的方法可以是本领域已知的任何用于复杂度降低的方法。复杂度降低的方法的例子包括例如AFLP (Keygene N.V.,theNetherlands;参见例如EP 0534858),Dong所描述的方法(见于例如WO 03/012118,WO 00/24939),索引连接(Unrau et al.,vide infra)等。本发明中所用的复杂度降低的方法的相同之处在它们是可重现的。可重现的意味着当相同样品以相同方式在复杂度上降低时,就获得了样品的相同的子集,以避免更多的随机的复杂度降低,例如显微解剖或使用代表选择的组织中转录的基因组部分的mRNA(cDNA)的使用,因为其可重现性依赖于组织、分离时间等的选择。
[0016] 加标签:术语加标签指将标签添加到核酸样品,以便能够区别它与第二或更多的核酸样品。标记能够例如通过在复杂度降低过程中序列标识子的添加或通过任何本领域已知的方法进行。这样的序列标识子可以是例如具有变化组限定了长度的唯一性地用于标识特定核酸样品的独特的碱基序列。其典型的例子为例如ZIP序列。用这样的标签,样品的来源可以在进一步的加工中被检测。要是组合来源于不同核酸样品的加工的产品,不同的核酸样品应该用不同的标签鉴定。
[0017] 经标签的文库:术语经标签的文库指加标签的核酸的文库。
[0018] 测序:术语测序指核酸样品,例如DNA或RNA中核苷酸的列(碱基序列)的检测。
[0019] 比对和对比:术语“比对”和“对比”含义为基于相同或相似的核苷酸的短的或长的伸出的存在的两个或多个核苷酸序列的比较。用于核苷酸序列的对比的几种方法是本技术领域已知的,如将在下面进一步说明的一样。
[0020] 检测探针:术语“检测探针”用于表示为检测特定的核酸序列而设计的探针,特别地,序列包含一个或多个多态性。
[0021] 高通量筛选:高通量筛选,通常简称为HTS,是用于科学实验的方法,尤其是与生物和化学领域相关。通过现代机器人技术和其他专业的实验室硬件的组合,它允许研究人员可以有效地同时筛选大量样品。
[0022] 测试样品核酸:术语“测试样品核酸”用来指示用本发明的方法进行多态性研究的核酸样品。
[0023] 限制性核酸内切酶:限制性核酸内切酶或限制性酶是在双链DNA分子中识别特定核酸序列(目标位点)的酶,并且可以在DNA分子的两条链的每个目标位点处修整。
[0024] 限制性片段:用限制性核酸内切酶消化产生的DNA分子被称为限制性片段。任何给定的基因组(或核酸,无论其来源)将通过特定的限制性核酸内切酶消化为限制性片段的离散集(discrete set)。由限制性核酸内切酶消化产生的DNA片段可以进一步用于多种技术并且例如能够通过凝胶电泳被检测。
[0025] 凝胶电泳:为了检测限制性片段,用于在尺寸基质上分级双链DNA分子的方法是必须的。最常用的用于实现所述分级的方法是(毛细管)凝胶电泳。DNA片段在这种凝胶中移动的速率取决于它们的分子量;因此,移动的距离随片段长度增加而减少。通过凝胶电泳分级的DNA片段可以通过染色过程,例如染色或溴化乙啶染色直接可视,如果包括在图谱中的片段的数量足够小。备选地,进一步的DNA片段的处理可以在片段中的掺入可检测的标记,例如荧光放射性标记。
[0026] 连接:通过连接酶催化的酶反应中,两个双链的DNA分子被共价连接在一起被称为连接。一般地,两个DNA链被共价连接在一起,但是通过链的末端之一的化学或酶修饰,两个链之一的连接也可以被阻止。如果那样的话,共价连接将只在两个DNA链的一个中发生。
[0027] 合成的寡核苷酸:具有优选大约10-大约50个碱基的单链DNA分子,其可以用化学方法合成而被称为合成的寡核苷酸。一般地,这些合成DNA分子被设计为具有独特的或期望的核苷酸序列,尽管合成具有有关的序列和其在核苷酸序列中的特定位点具有不同核苷酸组成的分子家族是可能的。术语合成的寡核苷酸可以用于指具有设计的或期望的核苷酸序列的DNA分子。
[0028] 接头:具有有限量的碱基对的短的双链DNA分子,例如,长度大约10到大约30个碱基对,其被设计为它们可以连接到限制性片段的末端。接头一般由两个合成的寡核苷酸组成,其具有部分地相互互补的核苷酸序列。当在溶液中在适当条件下混合两种合成的寡核苷酸时,它们可以相互退火形成双链结构。退火后,接头分子的一端设计为与限制性片段末端相兼容并且能够被连接其上;接头的另一端可以被设计为其不能被连接,但是这不是必须的(双连接的接头)。
[0029] 接头-连接的限制性片段:已经被接头加帽的限制性片段。
[0030] 引物:一般地,术语引物指能够引导DNA的合成的DNA链。没有引物,DNA聚合酶不能从头(de novo)合成DNA:其只能在反应中延伸现有的DNA链,在反应中互补链用作模板以指导被组装的核苷酸的排列。我们可以称用在聚合酶链式反应(PCR)中的合成的寡核苷酸分子为引物。
[0031] DNA扩增:一般,术语DNA扩增可以被用于表示使用PCR的双链DNA分子的体外合成。应当注意,还存在其他扩增方法并且它们可以被用于本发明,而不违反主旨。
[0032] 发明详述
[0033] 本发明提供了用于鉴定一个或多个多态性的方法,所述的方法包括步骤:
[0034] a)提供第一目的核酸样品;
[0035] b)对第一目的核酸样品进行复杂度降低,以提供第一核酸样品的第一文库;
[0036] c)连续地或同时地对第二或更多的目的核酸样品进行步骤a)和b),以获得第二或更多目的核酸样品的第二或更多文库;
[0037] d)测序第一文库和第二或更多的文库的至少部分;
[0038] e)比对在步骤d)中获得的序列;
[0039] f)确定在步骤e)的比对中第一核酸样品和第二或更多核酸样品间的一个或多个多态性;
[0040] g)用在步骤f)中确定的一个或多个多态性设计一个或多个检测探针;
[0041] h)提供目的测试样品核酸;
[0042] i)对目的测试样品进行步骤b)的复杂度降低以提供测试样品核酸的测试文库;
[0043] j)用在步骤g)中设计的一个或多个检测探针对测试文库进行高通量筛选以鉴定在步骤f)中确定的多态性的存在、缺失或数量;
[0044] 步骤a)中,提供第一目的核酸样品。所述的第一目的核酸样品优选为复杂核酸样品例如总基因组DNA或cDNA文库。优选的,复杂核酸样品为总基因组DNA。
[0045] 步骤b)中,对第一目的核酸样品进行复杂度降低以提供第一核酸样品的第一文库。
[0046] 发明的一个具体实施方式,核酸样品的复杂度降低的步骤包括催化性切割核酸样品为限制性片段,分离限制性片段并选择特殊的限制性片段库。任选的,经选择的片段然后与包含PCR引物模版/结合序列的接头序列相连接。
[0047] 复杂度降低的具体实施方式中,IIs型核酸内切酶用于消化核酸样品并且限制性片段选择性地连接于接头序列。接头序列可以在将被连接的突出端包含不同的核苷酸,并且只有具有与突出端中核苷酸匹配设置的接头连接到该片段并且随后被扩增。这一技术在本领域被描述为‘索引连接器’。尤其,这一原理的例子可以在Unrau P.and DeugauK.V.(1994)Gene 145:163-169中看到。
[0048] 在另一具体实施方式中,复杂度降低的方法利用两个具有不同的目标位点和频率的限制性核酸内切酶和两个不同的接头序列。
[0049] 发明的另一具体实施方式中,复杂度降低的步骤包括对样品进行任意引物PCR。
[0050] 在发明的另一个具体实施方式中,复杂度降低的步骤包括通过变性和重退火DNA去除重复序列,然后去除双链的双链(double-strandedduplexes)。
[0051] 在发明的另一个具体实施方式中,复杂度降低的步骤包括核酸样品与磁珠杂交,磁珠连接于包含期望的序列的寡核苷酸探针。这一具体实施方式可以进一步包括将杂交的样品暴露于单链DNA核酸酶以除去单链DNA,连接包含IIs类限制性酶的接头序列以释放磁珠。这一具体实施方式可以包括或可以不包括分离的DNA序列的扩增。进一步,接头序列可以或可以不作为模版用于PCR寡核苷酸引物。在这个具体实施方式中,接头序列可以含有或可以不合有序列标识子(identifier)或标记。
[0052] 另一具体实施方式中,复杂度降低的方法包括将DNA样品暴露于错配结合蛋白(mismatch binding protein)并且用3’-5’核酸外切酶消化样品,然后用单链核酸酶消化样品。这一具体实施方式中可以包括或可以不包括结合于错配结合蛋白的磁珠的使用。
[0053] 本发明的另一具体实施方式中,复杂度降低包括在此或在别处描述的CHIP方法或对保守基序例如SSR、NBS区(核酸结合序列)、启动子/增强子序列、调聚物一致性序列、MADS盒基因、ATP-酶基因家族和其他基因家族的PCR引物的设计。
[0054] 在步骤c)中,连续地或同时地对第二或更多的目的核酸样品进行步骤a)和b)以获得第二或更多的目的核酸样品的第二或更多的文库。优选的,所述的第二或更多的目的核酸样品也可以是复杂核酸样品例如总基因组DNA。这同样是优选的,所述的第二或更多的核酸样品是与第一核酸样品相关的。第一核酸样品和第二或更多核酸可以是例如不同的植物品系,例如不同的胡椒品系,或不同的变体。步骤a)和b)不仅可以对第二目的核酸样品进行,还可以对第三、第四、第五等目的核酸样品进行。
[0055] 应当指出,当用相同方法和在基本相同,优选相同的条件下对第一核酸样品和第二或更多核酸样品进行复杂度降低时,依照本发明的方法将非常有用。在这样的条件下,将获得(复杂)核酸样品的相似(可比较的)级分。
[0056] 在步骤d)中,测序至少部分的第一文库和第二或更多的文库。来自第一文库和第二或更多文库的序列片段的重叠量至少是50%,更优选至少60%,更优选至少70%,甚至更优选至少80%,更优选至少90%,并且更优选至少95%。
[0057] 测序原则上可以通过本领域已知的任何方法进行,例如脱氧链终止法。不过优选测序用高通量测序方法进行。例如,在WO 03/004690,WO 03/054142,WO 2004/069849,WO2004/070005,WO 2004/070007,和WO 2005/003375(全部以454公司的名义),by Seo等人(2004)Proc.Natl.Acad.Sci.USA 101:5488-93,和Helios,Solexa,USGenomics等等中描述的方法,其被引入此处作为参考。更优选地,测序用在WO 03/004690,WO 03/054142,WO 2004/069849,WO2004/070005,WO 2004/070007,和WO 2005/003375(全部以454公司的名义)中公开的设备和/或方法进行,其被引入此处作为参考。在单个循环中,所描述的技术使得400000000碱基的测序可以进行并且比竞争技术快100倍且便宜100倍。测序技术大概由4个步骤组成:1)对单链DNA(ssDNA)的文库的DNA的片断化和特定接头的连接;2)退火ssDNA到珠子和在油包微反应器中的珠子的乳化;3)在PicoTiterPlate 中携带DNA的珠子的沉淀;和4)通过焦磷酸酯光信号的生产,在100000个孔中同时测序。该方法可以在下面更详细地解释。
[0058] 在步骤e)中,对在步骤d)中获得的序列进行比对以提供对比结果。用于对比目的的序列的对比的方法是本领域公知的。不同过程和对比运算法则在下面描述:Smith and Waterman(1981)Adv.Appl.Math.2:482;Needleman and Wunsch(1970)J.Mol.Biol.48:443;Pearson and Lipman(1988)Proc.Natl.Acad.Sci.USA 85:2444;Higgins and.Sharp(1988)Gene 73:237-244;Higgins and Sharp(1989)CABIOS 5:151-153;Corpet et al.(1988)Nucl.Acids Res.16:10881-90;Huang et al.(1992)Computer Appl.in the Biosci.8:155-65;and Pearson et al.(1994)Meth.Mol.Biol.24:307-31,其被引入引处用作参考。Altschul等人(1994)Nature Genet.6:119-29(其被引入此处用作参考)提供了序列对比方法和同源性计算的详细描述。
[0059] NCBI基础本地对比搜索工具(BLAST)(Altschul et al.,1990)可以从几个来源获得,包括生物学信息国家中心(NCBI,Bethesda,Md.)和在Internet上,为了与序列分析程序blastp,blastn,blastx,tblastn和tblastx相联接使用。可以进入http://www.ncbi.nlm.nih.gov/BLAST/。使用这个程序如何检测序列同一性的描述可以获自http://www.ncbi.nlm.nih.gov/BLAST/blast_help.html。进一步可以应用在微卫星采集(参见Varshney等人(2005)Trends inBiotechn.23(1):48-55中。
[0060] 通常,对已经用接头/引物和/或标识子修饰过的序列数据进行对比,例如仅用来自来源于核酸样品的片段的序列数据。通常,获得的序列数据用于鉴定片段的来源(例如来自哪个样品),衍生自接头和/或标识子的序列被从数据中除去并且在这个修饰的位置进行比对。
[0061] 在步骤f)中,确定第一核酸样品和第二或更多核酸样品间的一个或多个多态性。所述比对可以如此完成:使衍生自第一核酸样品和第二或更多核酸样品的序列可以进行比较。然后反映多态性的区别可以被鉴定。
[0062] 在步骤g)中,步骤g)中检测到的一个或多个多态性用于设计检测探针,例如用于通过DNA芯片上的杂交或基于珠子的检测平台进行的检测。检测探针设计成这样使得多态性可以被其反映。在单核苷酸多态性(SNP)的情况下,检测探针一般在中心位置含有不同的SNP等位基因,会以最大化等位基因的辨别。这样的探针可以方便地用于筛选具有某种多态性的检验样品。探针可以用本领域已知的任何方法合成。探针一般被设计为适合于高通量筛选方法。
[0063] 在步骤h)中,提供目的测试样品核酸。测试样品核酸可以是任何样品,但是优选为用来对多态性作图的另一株或变体。一般地,代表研究的生物体的种质的测试样品的收集物用于实验验证(SN)多态性是真实的和可检测的,并且用于计算观察到的等位基因的等位基因发生频率。任选的,在验证步骤中包括基因作图群体的样品,以还检测多态性的基因作图位置。
[0064] 在步骤i)中,对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样品核酸的测试文库。更优选的,全部依照本发明的方法的用于复杂度降低的相同方法以基本相同的,优选同一的条件使用,从而覆盖样品的相似级分。然而,获得加标签的测试文库并非必须的,尽管标记可以存在于测试文库中的片段上。
[0065] 在步骤j)中,测试文库经高通量筛选以鉴定用步骤g)中设计的检测探针在步骤f)中确定的多态性的存在、缺失或数量。本领域技术人员已知一些用来使用探针进行高通量筛选的方法。优选利用步骤g)中获得的信息设计的一个或多个探针固定于阵列,例如DNA芯片上,而且上述阵列随后在杂交条件下与测试文库接触。互补于一个或多个阵列中的探针的测试文库中的DNA片段在上述条件下与上述探针杂交,并且从而可以被检测。另一种高通量筛选方法也在本发明的范围内,例如步骤j)中获得的测试文库的固定和所述固定的测试文库与步骤h)中设计的探针在杂交条件下接触。
[0066] 另一种高通量测序筛选技术除Affymetrix提供的使用基于芯片的SNP检测外,还有Illumina提供的珠子技术。
[0067] 在更优的具体实施方式中,根据本发明的方法中的步骤b)进一步包括文库的加标签步骤以获得加标签的文库,并且所述方法进一步包括组合第一加标签的文库和第二或更多加标签的文库的步骤c1)以获得组合文库。
[0068] 优选的,在复杂度降低步骤中进行加标签以减少用于获得第一核酸样品的第一标签文库所需步骤的数量。上述同时的加标签可以是例如通过AFLP,用含有对于每个样品独特的(核苷酸)标识子的接头实现。
[0069] 进行标签的目的在于区分不同来源的样品,例如,获自不同植物株,当使两个或多个核酸样品的文库组合以获得组合文库时。因此,优选地,不同的标签用于制备第一核酸样品和第二或更多核酸样品的加标签的文库。例如,当使用五个核酸样品时,意欲获得五个不同的加标签的文库,所述五种不同的标签指示分别来源的样品。
[0070] 标签可以是本领域已知的用于区别核酸样品的任何标签,但是优选短的标识子序列。这样的标识子序列可以是例如,用于指示通过复杂度降低所获得的文库的来源的不同长度的独特的碱基序列。
[0071] 优选的具体实施方式,对第一文库和第二或更多文库的加标签用不同的标签进行。如上所述,优选的,核酸样品的各个文库可通过它自己的标签来鉴定。测试样品核酸不需要加标签。
[0072] 在本发明的优选的具体实施方式中,复杂度降低通过AFLP 方法(Keygene N.V.,the Netherlands;参见例如EP 0 534 858和Vos等人(1995)进行。AFLP:用于DNA指纹识别的新技术,Nucleic AcidsResearch,vol.23,no.21,4407-4414,在此引入全文作为参考)。
[0073] AFLP是一种用于选择性扩增限制性片断的方法。AFLP没有任何预先的序列信息并且能够在任何起始DNA中进行。一般而言,AFLP包括步骤:
[0074] (a)用一个或多个特异性限制性核酸内切酶消化核酸,特别是DNA或cDNA,以将DNA片段化为相应的一系列限制性片段;
[0075] (b)将这样获得的限制性片段与双链的合成寡核苷酸头(它的一个末端与限制性片段的一个末端或两个末端相兼容)连接,由此产生接头-连接的、优选被标记的起始DNA的限制性片段;
[0076] (c)在杂交条件下,使接头-连接的,优选加标签的,限制性片段与至少一个在其3’-末端含有至少一个选择性核苷酸的寡核苷酸引物接触;
[0077] (d)通过PCR或类似的技术扩增与引物杂交的接头-连接的,优选加标签的限制性片段,以使杂交的引物沿着引物所杂交的起始DNA的限制性片段进一步延伸;和[0078] (e)检测,鉴定或回收由此获得的扩增的或延伸的DNA片段。
[0079] 从而AFLP提供了可再生的接头-连接的片段的子集。用于复杂度降低的另一种合适的方法是Chromatine Immuno Precipitation(ChiP)。这表示核DNA被分离,同时蛋白例如转录因子与DNA结合。对于ChiP方法,首先抗体用于抗蛋白,得到Ab-蛋白-DNA复合体。通过纯化这一复合体并沉淀它,该蛋白结合的DNA被选出。随后,DNA可以用于文库构建和测序。即,这是针对特定功能区域(在本实施例中是特定的转录因子)以非随机的方式进行复杂度降低的方法。
[0080] AFLP技术的一种有用的变形使用了非选择性核苷酸(即+0/+0引物)并且有时被称为连接子PCR。也提供它用来非常适合的复杂度降低。
[0081] 为了进一步描述AFLP,它的优点、它的具体实施方式和其中使用的技术、酶、接头、引物和进一步的化合物和工具,参见US 6,045,994,EP-B-0 534 858,EP 976835和EP974672,WO01/88189和Vos etal.Nucleic Acids Research,1995,23,4407-4414,在此整体引入作为参考。
[0082] 因此,在本发明的方法的优选的具体实施方式中,复杂度降低通过如下进行:
[0083] -用至少一种限制性内切酶消化核酸样品以将其片段化为限制性片段;
[0084] 将获得的限制性片段与至少一个合成的双链寡核苷酸接头(它的一个末端与限制性片段的一个末端或两个末端相兼容)连接以产生接头-连接限制性片段;
[0085] -将所述接头-连接的限制性片段与一个或多个寡核苷酸引物在杂交条件下接触;和
[0086] -通过一个或多个寡核苷酸引物的延伸来扩增所述接头-连接的限制性片段,[0087] 其中一个或多个寡核苷酸引物的至少一个包括具有与所述接头-连接的限制性片段的末端的链的末端部分相同的核苷酸序列的核苷酸序列,包括用于所述限制性核酸内切酶的参与目标序列的形成的核苷酸并且包括在接头中存在的核苷酸的至少一部分,其中,任选的,至少一种所述引物在其3’末端包括经选择的序列,其包含与用于所述限制性核酸内切酶的参与目标序列的形成的核苷酸紧邻定位的至少一个核苷酸。
[0088] AFLP是用于复杂度降低的高度可重现的方法,并且因此特别适用于依照本发明的方法。
[0089] 在根据本发明的方法的优选的具体实施方式中,接头或引物包含标签。这对于多态性的实际鉴定(标签对区分衍生自分离的文库的序列而言很重要)的情况下更是如此。在接头或引物中引入寡核苷酸标签是非常方便的,因为其对文库加标签不需要额外的步骤。
[0090] 在另一个具体实施方式中,标签为标识子序列。如上文讨论的,这样的标识子序列4
可以根据将要比较的核酸样品的数量而具有不同的长度。大约4个碱基(4 =256种可能的不同的标签序列)的长度足以区别有限数量(达256)的样品的来源,尽管优选标签序列在将要进行区分的样品间有一个以上碱基的不同。如需要,标签序列的长度可以相应地调节。
[0091] 在一个具体实施方式中,在固相支持物,例如珠子上进行测序(参见例如WO03/004690,WO 03/054142,WO 2004/069849,WO2004/070005,WO 2004/070007, 和 WO
2005/003375(全部以454公司的名义),其被引入此处作为参考)。这种测序方法特别适合对多种样品同时进行廉价且有效的测序。
[0092] 在优选的具体实施方式中,测序包括步骤:
[0093] -退火接头-连接的片段到珠子,退火的各个珠子具有单一的接头-连接的片段;
[0094] -在油包水微反应器中使珠子乳化,各个油包水微反应器包括单个的珠子;
[0095] -将珠子加载到孔中,各个孔包含单个的珠子;和
[0096] -产生焦磷酸信号。
[0097] 在第一步中,测序接头(seqencing adaptor)连接于组合文库中的片段上。所述的测序接头至少包括用于退火到珠子的“关键(key)”区域、测序引物区域和PCR引物区域。由此,获得接头连接的片段。
[0098] 在进一步的步骤中,接头-连接的片段退火到珠子,各个珠子退火使之具有单一的接头-连接的片段。对于接头-连接的片段的集合,加入过量的珠子以确保对于大部分珠子,每个珠子上退火一个单个的接头-连接的片段(Poisson分布)。
[0099] 在下一步中,在油包水的微反应器中珠子被乳化,各个油包水微反应器包含单个的珠子。PCR试剂存在于油包水微反应器中使在微反应器中发生PCR反应。随后,破碎微反应器,并且富集含有DNA的珠子(DNA阳性珠子)。
[0100] 在之后的步骤中,珠子加载于孔中,各个孔含有单一的珠子。所述孔优选为TMPicoTiter Plate的部分,使得大量的片段同时地测序。
[0101] 加入载酶珠子(enzyme-carrying bead)后,片段的序列用焦磷酸测序检测。在继续的步骤中,皮克滴定板(Picotiterplate)和珠子及其中的酶珠子在常规的测序试剂存在下经不同的脱氧核糖核苷酸处理,并且当掺入脱氧核糖核苷酸时产生可以被记录的光信号。掺入正确的核苷酸将会产生可以被检测的焦磷酸测序信号。
[0102] 焦磷酸测序本身在本领域是已知的并且除了在www.biotagebio.com;www.pyrosequencing.com/tab technology上描述外,该技术还进一步在例如WO 03/004690,WO03/054142,WO2004/069849,WO 2004/070005,WO 2004/070007和WO 2005/003375(全部以
454公司的名义)中使用,其被引入此处作为参考。
[0103] 优选的,步骤k)的高通量筛选通过步骤h)中设计的探针固定于阵列上,之后使含有探针的阵列与测试文库在杂交条件下接触来进行。优选的,接触步骤在严格杂交条件(参见Kennedy et al.(2003)Nat.Biotech.;published online 7 September 2003:1-5)下进行。本领域技术人员知道合适的用于探针在阵列上的固定的方法并且也知道在杂交条件下接触的方法。适用于该目的的代表性的技术参见Kennedy et al.(2003)Nat.Biotech.;published online 7September 2003:1-5。
[0104] 在多倍体农作物育种中,发现了一个特别有用的应用。通过用具有高覆盖、鉴别性的SNP和不同等位基因和开发用于等位基因特异性扩增的探针进行的多倍体农作物测序,多倍体农作物的育种可以取得显著的进步。
[0105] 作为发明的一部分,为了在此描述的用于有效和高通量的多态性鉴定的方法的进一步改进,已经发现对多种样品采用选择性扩增而生成的随机选择的子集和高通量测序技术的组合存在某些必须解决的复杂问题。更详细地,已经发现当进行复杂度降低后,多个(例如第一和第二或更多的)样品组合于集合中时出现了问题,很多片段似乎源自两个样品或不同的放置,很多鉴定的片段其不能被唯一地指定到一个样品并且因此不能用在鉴定多态性的方法中。这导致方法的可靠性降低并且较少的多态性(SNP,插入/缺失,SSR)可以被充分鉴定。
[0106] 在仔细而详细地分析不能被指定的片段的全部核苷酸序列后,发现这些片段含有包含两种不同的标签的接头,并且可能是在复杂度降低的样品的生成和测序接头的连接之间形成的。该现象被描述为“混合的标签”。描述为“混合的标签”的现象,如在此使用的,因此指的是这样的片段,一方面所述片段含有与一个样品相关的标签,然而另一方面该片段含有与另一个样品相关的标签。因此,一个片段看起来源自两个样品(不同)。这导致错误的多态性的鉴定并且因此而不被期望。
[0107] 两个样品间的异源双链核酸片段的形成造成这一异常已经被理论化。
[0108] 这一问题的解决方法已经在用于样品转化的策略的重新设计中被发现,其中可以在高通量测序前扩增复杂性被降低的样品的被退火到珠子的片段。在这个具体实施方式中,各个样品经复杂度降低和任选的纯化。在此之后,使各个样品成为平末端(末端平滑化),之后连接能够退火到珠子的测序接头。然后,样品的测序接头-连接的片段被组合并连接到用于乳液聚合和随后的高通量测序的珠子。
[0109] 作为该发明的更进一步的部分,发现串联体的片段妨碍了正确的多态性的鉴定。串联体被看作在复杂度降低产物已经被‘钝化(blunting)’或‘平滑化’(例如通过T4 DNA聚合酶)后形成的片段,并且代替可以退火到珠子的接头的连接,而相互连接,因此产生串联体,即,串联体是平末端片段的二聚化的结果。
[0110] 在某些特定的经修饰的接头的使用中发现了这个问题的解决方案。由于不具有3’-5’核酸外切酶校对阅读活性的某些优选的聚合酶的特征,由复杂度降低获得的扩增的片段通常包含3’-A突出端。上述3’-A突出端的存在也是为何片段在接头连接之前被钝化的原因。通过提供可以退火到珠子的接头,其中接头含有3’-T突出端,发现可以在一个步骤中解决‘混合的标签’和串联体这两个问题。用这些经修饰的接头的进一步优点在于可以省略常规的‘末端钝化’步骤和随后的磷酸化步骤。
[0111] 因此,在进一步优选的具体实施方式中,各个样品的复杂度降低步骤之后,在获自复杂度降低步骤的扩增的接头-连接的限制性片段上进行的一个步骤,由此,测序接头连接到这些片段,其测序接头包含3’-T突出端并且能够退火到珠子。
[0112] 进一步发现,当在复杂度降低步骤中使用的引物被磷酸化时,可以避免在连接前的末端平滑化(钝化)步骤和中间体磷酸化。
[0113] 因此,在本发明的更优选的具体实施方式中,发明涉及用于鉴定一个或多个多态性的方法,所述的方法包括步骤:
[0114] a)提供多个目的核酸样品;
[0115] b)对各个样品进行复杂度降低以提供多个核酸样品的文库,其中复杂度降低通过:
[0116] -用至少一种限制性核酸内切酶消化各个核酸样品以将其片段化为限制性片段;
[0117] -将获得的限制性片段与具有与限制性片段的一个或两个末端相兼容的一个末端的至少一种合成的双链寡核苷酸接头连接以产生接头-连接的限制性片段;
[0118] -将所述接头-连接的限制性片段与一个或多个磷酸化的寡核苷酸引物在杂交条件下接触;和
[0119] -通过一个或更多寡核苷酸引物的延伸扩增所述的接头连接的限制性片段,其中一个或多个寡核苷酸引物的至少一个包括具有与所述接头-连接的限制性片段的末端的链的末端部分相同的核苷酸序列的核苷酸序列,包括用于所述限制性核酸内切酶的参与目标序列的形成的核苷酸并且包括在接头中存在的核苷酸的至少一部分,其中,任选的,至少一种所述引物在其3’末端包括经选择的序列,其包含与用于所述限制性核酸内切酶的参与目标序列的形成的核苷酸紧邻定位的至少一个核苷酸,并且其中接头和/或引物包含标签;
[0120] c)组合所述文库为组合文库;
[0121] d)用携带3’-T突出端的测序接头将能够退火到珠子的测序接头连接到组合文库中的扩增的接头-加帽的片段,并且使珠子-退火的片段进行乳液聚合;
[0122] e)对组合文库的至少一部分测序;
[0123] f)比对来自步骤e)中获得的各个样品的序列;
[0124] g)确定在步骤f)比对中的多个核酸样品间的一个或多个多态性;
[0125] h)用步骤g)中确定的一个或多个多态性设计探针;
[0126] i)提供目的核酸的测试样品;
[0127] j)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样品核酸的测试文库;
[0128] k)用步骤h)中设计的探针高通量筛选测试文库以鉴定在步骤g)中确定的多态性的存在、缺失或数量。
[0129] 附图简述
[0130] 图1A显示了根据本发明退火到珠子(‘454珠子’)上的片段和用于两种胡椒品系的预-扩增的引物序列。‘DNA片段’表示用限制性核酸内切酶消化后获得的片段,‘关键基因接头’表示为用于产生文库的(磷酸化的)寡核苷酸引物提供连接位点的接头,‘KRS’表示标识子序列(标签),‘454 SEQ接头’表示测序接头,并且‘454 PCR接头’表示可以用于DNA片段乳液扩增的接头。PCR接头可以用于退火到珠子和用于扩增并且可以含有3’-T突出端。
[0131] 图1B显示了复杂度降低步骤中使用的引物的图示。上述引物一般包含(2)所示的识别位点区,可以包括如(1)所示的标签部分的恒定区和在其3’末端如(3)所示的选择性区域中的一个或多个选择性的核苷酸。
[0132] 图2显示了用2%琼脂糖凝胶电泳进行的DNA浓度估测。S1表示PSP11;S2表示PI201234。对于估测的S1和S2的DNA总量,50、100、250和500ng分别表示50ng、100ng、250ng和500ng。图2C和2D显示了使用Nanodrop分光光度测定法的DNA浓度检测。
[0133] 图3显示了实施例3的中间质量分析结果。
[0134] 图4显示了序列数据加工管线的示意图,即从测序数据的产生到推定的SNP、SSR和插入/缺失的鉴定的步骤,在修整&加标签的去除已知的序列信息步骤后,得到经修整的序列数据,该数据被聚类&汇编以产生重叠群(contig)和单拷贝序列(不能汇编在重叠群中的片段),之后可以对推定的多态性进行鉴定和评估。图4B进一步详细说明了多态性采集的方法。
[0135] 图5提出了混合的标签的问题并且在图示1中提供了混合标签的例子,携带的标签与样品1(MS1)和样品2(MS2)连接。图示2提供了该现象的示意性说明。衍生自样品1(S1)和样品2(S2)的AFLP限制性片段在携带样品特异性标签S1和S2的两个末端与接头(″关键基因接头″)连接。经扩增和测序后,期望的片段是具有S1-S1标签和S2-S2标签的片段。另外的出乎意料地观察到的是携带S1-S2或S2-S1标签的片段。图示3解释了推想的产生混合的标签,由此来自样品1和2的片段形成异源双链核酸产物的原因。随后,由于T4 DNA多聚酶或Klenow的3’-5’外切酶活性,使异源双链核酸不具有3’-突出端。聚合过程中,用核苷酸填充该缺口,并且引入错误的标签。该操作针对具有大约相同长度的异源双链核酸(顶部图示)但是也针对具有更多不同长度的异源双链核酸。图示4的左边提供了导致混合的标签形成的常规的实验流程并且在右边提供了改良的实验流程。
[0136] 图6提出了串联体形成这一问题,由此,在图示1中给出了典型的串联体的例子,由此下划线标记不同的接头和标签部分进行并注明它们的来源(即MS1,MS2,ES1和ES2分别对应于来自样品1的MseI限制性位点-接头,来自样品2的MseI限制性位点-接头,来自样品1的EcoRI限制性位点-接头,来自样品2的EcoRI限制性位点-接头)。图示2阐释了所期待的携带S1-S1标签和S2-S2标签的片段和观察到的但并非期望的S1-S1-S2-S2(以来自样品1和样品2的片段的串联体的形式)。图示3为避免生成串联体和混合的标签而推想的解决方案,其包括通过在AFLP接头中引入突出端,修饰的测序接头和连接测序接头时省略末端平滑化步骤。因为ALP片段不能相互连接而发现没有串联体形成,并且因为省略末端平滑化步骤而没有出现混合的片段。图示4提供利用修饰的接头的改良的实验流程以避免串联体形成和混合的标签。
[0137] 图7包含推定的单核苷酸多态性(SNP)的胡椒AFLP片段序列的“10037_CL989contig2”多重比对。请注意SNP(通过黑色箭头所示),由通过凭借上面两个读取序列的MS1标签的存在指出的样品1(PSP11)两个读取序列中的A等位基因的存在和通过凭借下面两个读取序列的MS2标签的存在指出的样32(PI201234)中G等位基因的存在进行定义。读取序列的名称显示于左边。该多重比对的一致的序列为(5’-3’):
[0138] TAACACGACTTTGAACAAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA[A/G]TGTTGGTTTT[0139] GGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG.
[0140] 图8A用于目标单序列重复(SSR)的富集策略与用于从头SSR发现的高通量测序相组合的图示。
[0141] 图8B:用SNPWave检测的胡椒中的G/A SNP的确认。P1=PSP11;P2=PI201234。八种RIL后代通过数字1-8表示。
[0142] 实施例
[0143] 实施例1
[0144] EcoRI/MseI限制性连接混合物(1)产生自胡椒品系PSP-11和PI20234的基因组DNA。限制性连接混合物被稀释10倍并且5微升各样品用EcoRI+1(A)和MseI+1(C)引物(组I)预扩增(2)。扩增后,两种胡椒样品的预扩增产物的性质用1%琼脂糖凝胶检测。预扩增产物被20倍稀释,之后进行KRSEcoRI+1(A)和KRSMseI+2(CA)AFLP预扩增。下面的引物序列SEQ ID 1-4中将KRS(标识子)片段用下划线标记,并且在所述序列的3’-末端的经选择的核苷酸为粗体。扩增后,两种胡椒样品的预扩增产物的性质用1%琼脂糖凝胶和通过EcoRI+3(A)和MseI+3(C)(3)AFLP指纹(4)检测。两种胡椒品系的预扩增产物分别在QiagenPCR柱(5)上纯化。样品浓度在Nanodrop中测量。将全部的5006.4ng的PSP-11和5006.4ng的PI20234混合并测序。
[0145] 用于预扩增PSP-11的引物组I
[0146] E01LKRS1 5′-CGTCAGACTGCGTACCAATTC -3′[SEQ ID 1]
[0147] M15KKRS1 5′-TGGTGATGAGTCCTGAGTAA -3′[SEQ ID 2]
[0148] 用于预扩增PI20234的引物组II
[0149] E01LKRS2 5′-CAAGAGACTGCGTACCAATTC -3′[SEQ ID 3]
[0150] M15KKRS2 5′-AGCCGATGAGTCCTGAGTAA -3′[SEQ ID 4]
[0151] (1)EcoRI/MseI限制性连接混合物
[0152] 限制性混合物(40ul/样品)
[0153] DNA 6μl(±300ng)
[0154] ECoRI(5U) 0.1μl
[0155] MseI(2U) 0.05μl
[0156] 5xRL 8μl
[0157] MQ 25.85μl
[0158] 总计 40μl
[0159] 在37℃温育1小时
[0160] 加入:
[0161] 连接混合物(10μl/样品)
[0162] 10mM ATP 1μl
[0163] T4 DNA连接酶 1μl
[0164] ECoRI接头(5pmol/μl) 1μl
[0165] Msel接头(50pmol/μl) 1μl
[0166] 5xRL 2μl
[0167] MQ 4μl
[0168] 总计 10μl
[0169] 在37℃温育3小时
[0170] EcoRI-接头
[0171] 91M35/91M36:*-CTCGTAGACTGCGTACC :91M35[SEQ ID 5]
[0172] ±bio CATCTGACGCATGGTTAA :91M36[SEQ ID 6]
[0173] MseI-接头
[0174] 92A18/92A19:5-GACGATGAGTCCTGAG-3 :92A18[SEQ ID 7]
[0175] 3-TACTCAGGACTCAT-5 :92A19[SEQ ID 8]
[0176] (2)预扩增
[0177] 预扩增(A/C):
[0178] RL-混合物(10x) 5μl
[0179] EcoRI-pr E01L(50ng/ul) 0.6μl
[0180] MseI-pr M02K(50ng/ul) 0.6μl
[0181] dNTPs(25mM) 0.16μl
[0182] Taq.pol.(5U) 0.08μl
[0183] 10XPCR 2.0μl
[0184] MQ 11.56μl
[0185] 总计 20μl/反应
[0186] 预扩增热反应(thermal profile)
[0187] 在50μl的反应体积中进行选择性的预扩增。在PE GeneAmp PCR系统9700中进行PCR并且20个循环反应以30秒的94℃变性步骤开始,之后56℃退火步骤60秒和72℃延伸步骤60秒。
[0188] EcoRI+1(A)1
[0189] E01 L 92R11:5-AGACTGCGTACCAATTCA-3[SEQ ID 9]
[0190] MseI +1(C)1
[0191] M02k 93E42:5-GATGAGTCCTGAGTAAC-3[SEQ ID 10]
[0192] 预扩增A/CA:
[0193] PA+1/+1-mix(20x): 5μl
[0194] EcoRI-pr: 1.5μl
[0195] MseI-pr.: 1.5μl
[0196] dNTPs(25mM): 0.4μl
[0197] Taq.pol.(5U): 0.2μl
[0198] 10XPCR: 5μl
[0199] MQ: 36.3μl
[0200] 总计: 50μl
[0201] 在50μl反应体积中进行选择性预扩增。PCR在PE GeneAmp PCRSystem 9700中进行并且30次循环反应,开始为94℃变性步骤30秒,之后是56℃退火步骤60秒和72℃延伸步骤60秒。
[0202] (3)KRSEcoRI+1(A)和KRSMseI+2(CA)2
[0203] 05F212 E01LKRS1 CGTCAGACTGCGTACCAATTC -3′[SEQ ID 11][0204] 05F213 E01LKRS2 CAAGAGACTGCGTACCAATTC -3′[SEQ ID 12][0205] 05F214 M15KKRS1 TGGTGATGAGTCCTGAGTAA -3′[SEQ ID 13][0206] 05F215 M15KKRS2 AGCCGATGAGTCCTGAGTAA -3′[SEQ ID 14][0207] 粗体部分为选择的核苷酸并且用下划线表示标签(KRS)部分
[0208] 样品PSP11 :E01LKRS1/M15KKRS1
[0209] 样品PI120234 :E01LKRS2/M15KKRS2
[0210] (4)AFLP实验流程
[0211] 选择性扩增在20μl反应体积中进行。PCR在PE GeneAmp PCR系统9700中进行。13次循环反应,开始为94℃变性步骤30秒,之后65℃退火步骤30秒,用下探阶段,其中退火温度每次循环降低0.7℃,和72℃延伸步骤60秒。该反应之后是23次循环反应,以94℃变性步骤30秒,之后56℃退火步骤30秒和72℃延伸步骤60秒。
[0212] EcoRI+3(AAC)和MseI+3(CAG)
[0213] E32 92+02:5-GACTGCGTACCAATTC -3[SEQ ID 15]
[0214] M49 92G23:5-GATGAGTCCTGAGTAA -3[SEQ ID 16]
[0215] (5)Qiagen柱
[0216] 根据产品说明书进行Qiagen纯化:QIAquick Spin手册
[0217] (http://www1.qiagen.com/literature/handbooks/PDF/DNACleanupAndConcent[0218] ration/QQ Spin/1021422 HBQQSpin 072002WW.pdf)
[0219] 实施例2:胡椒
[0220] 通过使用AFLP Keygene识别位点特异性引物将来自胡椒品系PSP-11和PI20234的DNA用来产生AFLP产物。(这些AFLP引物基本上与常规AFLP引物相同,例如在EP 0534 858中描述的,并且一般可以含有识别位点区,恒定区和选择性区域中的一个或多个选择性的核苷酸。
[0221] 来自胡椒品系PSP-11或PI20234的150ng DNA用限制性核酸内切酶EcoRI(5U/反应)和MseI(2U/反应)在37℃消化1小时,之后在80℃灭活10分钟。获得的限制性片段与合成的双链寡核苷酸接头连接,所述接头的一个末端与EcoRI和/或MseI限制性片段的一个末端或两个末端相兼容。对10倍稀释的限制性连接混合物进行使用+1/+1 AFLP*引物的AFLP预扩增反应(20μl/反应)。PCR反应:20(30秒在94℃+60秒在56℃+120秒在72℃)。对20倍稀释的+1/+1EcoRI/MseI AFLP预扩增产物进行用不同的+1 EcoRI和+2 MseI AFLPKeygene识别位点特异性引物的(下表,粗体为标签,下划线为选择性核苷*
酸)另外的AFLP反应(50μl/反应)。PCR反应:30(30秒在94℃+60秒在56℃+120秒在72℃)。AFLP产物通过用QIAquick PCR纯化试剂盒(QIAGEN)纯化,按照QIAquickSpin手册07/2002第18页并且用Nanodrop ND-1000分光光度计测量浓度。5μg+1/+2 PSP-I1AFLP产物和5μg+1/+2 PI20234 AFLP产物汇总到一起并溶于23.3μl TE中。最后,获得具有430ng/μl浓度的+1/+2 AFLP产物的混合物。
[0222] 表
[0223]
[0224] 实施例3:玉米
[0225] 来自玉米品系B73和M017的DNA用于产生AFLP产物,通过使用AFLP Keygene识别位点特异性引物。(这些AFLP引物基本上与常规的AFLP引物相同,例如EP 0 534 858中描述的,并且一般可以包含识别位点区、恒定区和在其3’末端的一个或多个选择性核苷酸)。
[0226] 来自胡椒品系B73或M017的DNA用限制性核酸内切酶TaqI(5U/反应)在65℃反应1小时和MseI(2U/反应)在37℃反应1小时之后在80℃灭活10分钟。获得的限制性片段与双链合成的寡核苷酸接头结合,其一个末端与TaqI和/或MseI限制性片段的一个或两个末端相兼容。
[0227] 对10倍稀释的限制性连接混合物进行使用+1/+1 AFLP引物的AFLP预扩增反应*(20μl/反应)。PCR反应:20(30秒在94℃+60秒在56℃+120秒在72℃)。用不同的+2TaqI和MseI AFLP关键基因识别位点引物(下表,标签用粗体表示,选择性核苷酸用下划线表示)对20倍稀释的+1/+TaqI/MseI AFLP扩增产物进行额外的AFLP反应(50μl/反应)。AFLP产物通过用QIAquick PCR纯化试剂盒(QIAGEN)按照QIAquick Spin手册
07/2002 18页纯化,用Nanodrop ND-1000分光光度计测量浓度。总共1.25μg各个不同B73+2/+2 AFLP产物和1.25μg各个不同M017+2/+2 AFLP产物放在一起,并溶解于30μl TE中。最后获得具有混合物333ng/μl浓度的+2/+2 AFLP产物。
[0228] 表
[0229]
[0230] 最后,4 P1-样品和4 P2-样品被混合并浓缩。获得总量25μl的DNA产物且终浓度为400ng/ul(总量10μg)。中间性质评估在图3中给出。
[0231] 通过454测序
[0232] 按照上文所述制备的胡椒和玉米AFLP片段样品通过如所述的454Life Sciences处理(Margulies et al.,2005.Genome sequencing inmicrofabricated high-density picolitre reactors.Nature 437(7057):376-80.Epub July 31,2005)。
[0234] 处理流程:
[0235] 数据输入
[0236] 收到各轮的原始序列数据:
[0237] -200000-400000个读取
[0238] -碱基呼叫(base calling)质量得分
[0239] 修整和加标签
[0240] 在读取的数据的起始和末端,分析这些序列数据以得到关键基因识别位点(KRS)。这些KRS序列包含AFLP-接头和样品标签序列并且对组合到某些样品上的某些AFLP引物是特异的。KRS序列通过BLAST鉴定并且修整及储存限制性位点。读取的数据用标签标记,用于KRS起源的鉴定。经修整的序列对长度(最小33nt)进行选择以参加进一步的过程。
[0241] 聚类和汇编
[0242] 对全部大小-选择性的,经修整的读取数据进行MegaBlast分析以获得同源序列的群组。连续地,所有群组用CAP3汇编以得到汇编的重叠群。鉴定来自两个步骤的单拷贝序列读取,其不与任何其他读取匹配。这些读取标记为单拷贝序列。
[0243] 进行在此之前描述的步骤的处理流程在图4A中表示。
[0244] 多态性采集和性质评估
[0245] 来自汇编分析的终重叠群形成多态性检测的基础。各个群组的对比中,各个‘错配’为潜在的多态性。定义选择标准以获得性质得分:
[0246] -每个重叠群的读取数
[0247] -每个样品‘等位基因’的频率
[0248] -同聚物序列的发生
[0249] -邻近多态性的发生
[0250] 鉴定性质得分在阈值之上的SNP和插入/缺失为推定的多态性。为了SSR采集,我们利用MISA(MIcroSAtellite鉴定)工具(http://pgrc.ipk-gatersleben.de/misa)。该工具用预先设定的标准识别二-、三-、四核苷酸和复合型SSR基序并且总结这些SSR的发生。
[0251] 多态性采集和质量评估过程示于图4B。
[0252] 结果
[0253] 下表总结了得自组合的胡椒样品的2个454测序和组合的玉米样品的2个测序的序列的联合分析的结果。
[0254]胡椒 玉米
读取总数 457178 492145
修整的读取数 399623 411008
单拷贝序列(singleton)数 105253 313280
重叠群数 31863 14588
重叠群中的读取数 294370 97728
包含SSR的序列总数 611 202
不同的包含SSR的序列数 104 65
不同的SSR基序的数(二、三、四和复合的) 49 40
Q得分≥0.3的SNP数* 1636 782
插入/缺失数* 4090 943
[0255] *两者都针对邻近SNP选择,至少12bp的侧翼序列并且不发生于大于3个核苷酸的同聚物序列中。
[0256] 实施例4:在胡椒中的单核苷酸多态性(SNP)的发现
[0257] DNA分离
[0258] 基因组DNA分离自胡椒重组近交(RIL)群体的两种亲本品系和10RIL后代。亲本品系为PSP11和PI201234。基因组DNA分离自单独的种苗的叶材料,其采用Stuart和Via描述的改良的CTAB方法(Stuart,CN.,Jr and Via,L.E.(1993)Arapid CTAB DNA isolationtechnique useful for RAPD fingeprinting and other PCRapplications.Biotechniques,14,748-750)。DNA样品在TE(10mMTris-HCl pH 8.0,1mM EDTA)中稀释到浓度为100ng/μl并且在-20℃贮存。
[0259] 用加标签的AFLP引物制备AFLP模板
[0260] 如 Zabeau & Vos,1993:Selective restriction fragmentamplification;a general method for DNA fingerprinting.EP0534858-A1,B1;US patent 6045994)和Vos等人(Vos,P.,Hogers,R.,Bleeker,M.,Reijans,M.,van de Lee,T.,Hornes,M.,Frijters,A.,Pot,J.,Peleman,J.,Kuiper,M.et al.(1995)AFLP:a new technique for DNA fingerprinting.Nucl.Acids Res.,21,4407-4414)所述,使用EcoRI/MseI限制性核酸内切酶组合制备胡椒亲本品系PSP11和PI201234的AFLP模板。
[0261] 特别地,EcoRI和MseI的基因组DNA限制性消化按照如下进行:
[0262] DNA限制性消化
[0263] DNA 100-500ng
[0264] EcoRI 5单位
[0265] MseI 2单位
[0266] 5xRL缓冲液 8μl
[0267] 加MilliQ水至 40μl
[0268] 在37℃温育1小时。酶限制性消化后,80℃温育10分钟使酶失活。
[0269] 接头的连接
[0270] 10mM ATP 1μl
[0271] T4 DNA连接酶 1μl
[0272] EcoRI接头(5pmol/μl) 1μl
[0273] Msel接头(50pmol/μl) 1μl
[0274] 5xRL缓冲液 2μl
[0275] 加MilliQ水至40μl
[0276] 在37℃温育3小时。
[0277] 选择性的AFLP扩增
[0278] 限制性消化-连接后,限制性消化/连接反应物用T10E0.1稀释10倍并且将5μl稀释的混合物用作选择性扩增步骤中的模板。注意,因为想要的是+1/+2选择性扩增,所以首先进行+1/+1选择性预扩增步骤(用标准AFLP引物)。+1/+1(+A/+C)扩增的反应条件如下。
[0279] 限制性消化-连接混合物(10倍稀释) 5μl
[0280] EcoRI-引物+1(50ng/μl): 0.6μl
[0281] MseI-引物+1(50ng/μl) 0.6μl
[0282] dNTPs(20mM) 0.2μl
[0283] Taq聚合酶(5U/μl Amplitaq,PE) 0.08μl
[0284] 10XPCR缓冲液 2.0μl
[0285] 加MilliQ水到 20μl
[0286] 引物序列为:
[0287] EcoRI+1:5′-AGACTGCGTACCAATTCA-3′[SEQ ID 9]和
[0288] MseI+1:5′-GATGAGTCCTGAGTAAC-3′[SEQ ID 10]
[0289] PCR扩增用具有金或银单元(block)的PE9700进行,用以下条件:20次(94℃30秒,56℃60秒和72℃120秒)。
[0290] 在1%琼脂糖凝胶中检测产生的+1/+1预扩增产物的质量,使用100碱基对分子量标记和1Kb分子量标记以检测片段长度分布。+1/+1选择性扩增后,反应物用T10E0.1稀释20倍并且使用5μl稀释混合物作为+1/+2选择性扩增步骤中的模板,使用加标签的AFLP引物。
[0291] 最后,进行+1/+2(A/+CA)选择性AFLP扩增:
[0292] +1/+1选择性扩增产物(20-倍稀释) 5.0μl
[0293] KRS EcoRI-引物+A(50ng/μl) 1.5μl
[0294] KRS MseI-引物+CA(50ng/μl) 1.5μl
[0295] dNTPs(20mM) 0.5μl
[0296] Taq聚合酶(5U/μl Amplitaq,Perkin Elmer) 0.2μl
[0297] 10X PCR缓冲液 5.0μl
[0298] 加MQ至 50μl
[0299] 加标签的AFLP引物序列为:
[0300] PSP11:
[0301] 05F212:EcoRI+1:5′-CGTCAGACTGCGTACCAATTCA-3′[SEQ ID 1]和[0302] 05F214:MseI+2:5′-TGGTGATGAGTCCTGAGTAACA-3′[SEQ ID 2]
[0303] PI201234:
[0304] 05F213:EcoRI+1:5′-CAAGAGACTGCGTACCAATTCA-3′[SEQ ID 3]和[0305] 05F215:MseI+1:5′-AGCCGATGAGTCCTGAGTAACA-3′[SEQ ID 4]
[0306] 注意,在测序过程结束时,这些引物在它们的5引物末端包含4bp标签(tag)(上面下划线的)用于在测序过程结束时区分源于各自的胡椒品系的扩增产物。
[0307] 用含有4bp 5引物标记序列的AFLP引物扩增后,胡椒AFLP+1/+2扩增产物的图示[0308] EcoRI标签 MseI标签[0309] PSP 11:5′-CGTC -------------------------------------ACCA-3′[0310] 3′-GCAG---------------------------------------TGGT-5′[0311] PI201234 5′-CAAG------------------------------------GGCT-3′[0312] 3′-GTTC------------------------------------CCGA-5′[0313] 用具有金或银单元(block)的PE9700进行PCR扩增(24每样品),使用如下条件:30次(94℃30秒+56℃60秒+72℃120秒)。
[0314] 在1%琼脂糖凝胶中检测产生的扩增产物的质量,使用100碱基对分子量标记和1Kb分子量标记,以检测片段长度的分布。
[0315] AFLP反应物纯化和量化
[0316] 在汇集每种胡椒样品的两个50微升+1/+2选择性AFLP反应物之后,得到的12个100μl AFLP反应产物用QIAquick PCR纯化试剂盒(QIAGEN)纯化,按照QIAquick Spin手册(18页)。每个柱上最大填装100μl产物。扩增产物在T10E0.1中洗脱。在1%琼脂糖凝胶上检测纯化产物的质量并且在Nanodrop上测量浓度(图2)。
[0317] Nanodrop浓度测量用于调节每种纯化的PCR产物的终浓度至300纳克每微升。混合5微克PSP11的纯化的扩增的产物和5微克PI201234以产生10微克模板材料,用于制备454测序文库。
[0318] 序列文库制备和高通量测序
[0319] 对来自两种胡椒品系的混合的扩增产物高通量测序,使用454Life Scienees测序技术,如Margulies等人所述(Margulies等人,Nature 437,pp.376-380 and Online Supplements)。特别地,首先,AFLP PCR产物末端平滑化,随后连接到接头以促进乳液-PCR扩增和随后的片段测序,如Margulies和其同事所描述的。454接头序列,乳液PCR引物,测序引物和测序运行条件都如Margulies和其同事所述。在454测序过程中,在琼脂糖珠上的扩增的乳液PCR片段中,功能性元件的线性顺序如下面图1A中所示例:
[0320] 454 PCR接头-454测序接头-4bp AFLP引物标签1-包含选择性核苷酸的AFLP引物序列1-AFLP片段内序列-包含选择性核苷酸的AFLP引物序列2,4bp AFLP引物标签2-454测序接头-454 PCR接头-琼脂糖珠
[0321] 通过454 Life Sciences(Branford,CT;United States ofAmerica)进行两个高通量454测序反应。
[0322] 454测序运行数据处理:
[0323] 来自2个454测序反应的测序数据结果用生物信息学流水线(Keygene N.V.)处理。特别地,原始的454碱基呼叫序列读取转变为FASTA格式并且用BLAST运算法则检查是否有标记的AFLP接头序列的存在。在与已知的标记的AFLP引物序列高置信度匹配后,对序列进行修整,限制性核酸内切酶位点重建并被指定适当的标签(分别的,样品1 EcoRI(ES1),样品1 MseI(MS1),样品2 EcoRI(ES2)或样品2 MseI(MS2))。接下来,用基于全部序列同源的megaBLAST程序,聚类分析所有经修整的大于33碱基的序列。接下来,用CAP3多重对比运算法则,将聚类组合为每个聚类一个或多个重叠群和/或一个或多个单拷贝序列(singleton)。检查包含多于一个序列的重叠群的序列错配,代表推测的多态性。基于如下标准给予序列错配质量分数,:
[0324] *重叠群中的读取数
[0325] *观察到的等位基因分布
[0326] *上述两个标准构成了对每个推定的SNP/插入/缺失给予的所谓的Q得分的基础。Q得分范围为0到1;只有在两个等位基因被观察到至少两次的情况下,才能得到0.3的Q得分。
[0327] *某长度的同聚物中的定位(可调节的;缺失设置为避免在3碱基或更长的同聚物中存在多态性)。
[0328] *聚类中的重叠群数
[0329] *最近的相邻序列错配的距离(可调节的;对于某些种类型的基因分型分析探测侧翼序列重要)
[0330] *关于样品1或样品2的观察到的等位基因相关水平;如果等位基因的推定的多态性与样品1及样品2之间一致、完美相关的情况下,多态性(SNP)表示为“优良的”推定的多态性(SNP)。如果在发现过程中使用两种纯合品系,则优良的多态性被认为具有定位于单个的或低拷贝基因组序列的高概率。相反地,样品来源的多态性的弱相关带来下述高险,即已经发现的是源自重叠群中非等位基因序列的比对的假的多态性。
[0331] 包含SSR基序的序列用MISA搜索工具鉴定(MIcroSAtellelite鉴定工具;可得自http://pgrc.ipk-gatersleben.de/misa/
[0332] 反应的全部统计数据如下表所示。
[0333] 表 对胡椒中的SNP发现的454测序反应全部统计数据
[0334]酶组合 运行
修整
所有读取序列 254308
假的 5293(2%)
正确 249015(98%)
串联体 2156(8.5%)
混合的标签 1120(0.4%)
正确的读取
经修整的一个末端 240817(97%)
经修整的两个末端 8198(3%)
样品1的读取数 136990(55%)
样品2的读取数 112025(45%)
聚类
重叠群数 21918
重叠群中的读取 190861
每重叠群的平均读取数 8.7
SNP采集
Q得分≥0.3的SNP* 1483
Q得分≥0.3的插入/缺失 3300
SSR采集
鉴定的SSR基序的总数 359
包含一个或多个SSR基序的读取数 353
具有单位大小1的SSR基序数 0
(同聚物)
具有单位大小2的SSR基序数 102
具有单位大小3的SSR基序数 240
具有单位大小4的SSR基序数 17
[0335] *SNP/插入/缺失采集标准如下:
[0336] 在各侧上12个碱基中具有大于0.1Q得分的非邻近多态性在3或多个碱基的同聚物中不存在。采集标准不考虑对样品1和2的相关一致性。即SNP和插入/缺失不是优良的推定的SNPs/插入/缺失所必需的。
[0337] 含有优良的推定的单核苷酸多态性的多重比对的例子如图7所示。
[0338] 实施例5通过PCR扩增和Sanger测序证实SNP
[0339] 为了证实在实施例1中鉴定的推定的A/G SNP,使用侧翼PCR引物设计了用于这一SNP的测序加标签位点(STS)。PCR引物序列如下:
[0340] 引物 _1.2f:5′-AAACCCAAACTCCCCCAATC-3′,[SEQ ID 37]和
[0341] 引物 _1.2r:5′-AGCGGATAACAATTTCACACAGGA
[0342] CAAAAATAGAGCAAAACAGTAGTG-3′[SEQ ID 38]
[0343] 注意,引物1.2r包含一个M13测序引物结合位点,并且在它的5′引导端含长度填充片段。PCR扩增用如实施例4中所述制备的PSP11和PI210234的+A/+CA AFLP扩增产物作为模板。PCR条件如下:
[0344] 对1 PCR反应,混合如下组分:
[0345] 5μl 1/10稀释的AFLP混合物(app.10ng/μl)
[0346] 5μl 1pmol/μl引物1.2f(直接稀释自500μM母液)
[0347] 5μl 1pmol/μl引物1.2r(直接稀释至500μM母液)
[0348] 5μl PCR混合液
[0349] -2μl 10x PCR缓冲液
[0350] -1μl 5mM dNTPs
[0351] -1.5μl 25mM MgCl2
[0352] -0.5μl H2O
[0353] 5μl酶混合液:
[0354] -0.5μl 10x PCR缓冲液(Applied Biosystems)
[0355] -0.1μl 5U/μl AmpliTaq DNA聚合酶(Applied Biosystems)
[0356] -4.4μl H2O
[0357] 使用如下PCR反应条件:
[0358] 循环1 2′; 94℃
[0359] 循环2-34 20″; 94℃
[0360] 30″; 56℃
[0361] 2′30″; 72℃
[0362] 循环35 7′; 72℃
[0363] ∞; 4℃
[0364] PCR产物用TA克隆方法克隆到载体pCR2.1中(TA克隆试剂盒:Invitrogen),并且转化到INVαF′感受态E.coli细胞中。对转化株进行蓝/白筛选。为了用于分离质粒,选出各自针对PSP11和PI-201234的三个独立的白色转化株并且在液体选择培养基中O/N培养。
[0365] 用QIAprep Spin Miniprep试剂盒(QIAGEN)分离质粒。随后,对这些质粒的插入序列按照如下方法测序并且用MegaBACE1000(Amersham)分辨。检查获得的测序结果中SNP等位基因的存在。两种分别的含有PI-201234插入序列的质粒和一种含有PSP11插入序列的质粒包含期望的相同的SNP侧翼序列。包含期望的A(下划线的)等位基因的衍生自PSP11片段的序列和包含期望的G等位基因(双下划线的)的衍生自PI-201234片段的序列:
[0366] PSP11(序列1):(5′-3′)
[0367] AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACAATGTTGGTTTTGGTGCTAACTTCAA[0368] CCCCACTACTGTTTTGCTCTATTTTTGT[SEQ ID 39]
[0369] PI-201234(序列1):(5′-3′)
[0370] AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA TGTTGGTTTTGGTGCTAACTTCAA[0371] CCCCACTACTGTTTTGCTCTATTTTTG[SEQ ID 40]
[0372] PI-201234(序列2):(5′-3′)
[0373] AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA TGTTGGTTTTGGTGCTAACTTCAA[0374] CCCCACTACTGTTTTGCTCTATTTTTG[SEQ ID 41]
[0375] 这一结果表明推定的胡椒A/G SNP表现为可以用设计的STS分析检测到的真正的基因组多态性。
[0376] 实施例6:通过SNPWave检测证实SNP
[0377] 为了证实在实施例1中鉴定的推定的A/G SNP,采用一致性序列使SNPWave连接探针组界定这个SNP的两个等位基因。连接探针的序列如下:
[0378] SNPWave 探针序列(5′-3′):
[0379] 06A162 GATGAGTCCTGAGTAACCCAATCGATTTCAAACCTAGAACAA(42个碱基)[0380] [SEQ ID 42]
[0381] 06A163 GATGAGTCCTGAGTAACCACCAATCGATTTCAAACCTAGAACAG(44个碱基)[0382] [SEQ ID 43]
[0383] 06A164磷酸化的-
[0384] TGTTGGTTTTGGTGCTAACTTCAACCAACATCTGGAATTGGTACGCAGTC(52个碱基)[SEQ ID[0385] 44]
[0386] 注意,针对A和G等位基因的等位基因特异探针06A162和06A163分别在大小上相差2个碱基,这样,连接到共同定位特异探针06A164之上,得到连接产物大小为94(42+54)和96(44+52)个碱基。
[0387] 进行SNPWave连接和PCR反应,如Van Eijk和其同事所描述的(M.J.T.van Eijk,J.L.N.Broekhof,H.J.A.van der Poel,R.C.J.Hogers,H.Schneiders,J.Kamerbeek,E.Verstege,J.W.vanAart,H.Geerlings,J.B.Buntjer,A.J.Van Oeveren,and P.Vos.TM(2004)。SNPWave :一种灵活的多元的SNP基因分型方法。核酸研究32:e47),使用100ng作为起始材料的胡椒品系PSP11和PI201234和8RIL后代的基因组DNA。PCR引物序列为:
[0388] 93L01FAM(E00k):5-GACTGCGTACCAATTC-3′[SEQ ID 45]
[0389] 93E40(M00k):5-GATGAGTCCTGAGTAA-3′[SEQ ID 46]
[0390] PCR扩增之后,PCR产物纯化和MegaBACE1000中的检测如van Eijk和同事(vide supra)描述的。获自PSP11、PI201234和8RIL后代的扩增产物的伪-凝胶成像(pseudo-gel image)如图8B所示。
[0391] SNPWave的结果清楚地表示A/G SNP通过SNPWave分析检测,得到关于P1(PSP11)和RIL 1、2、3、4、6和7代)的92bp产物(=AA纯合子基因型),和关于P2(PI201233)和RIL 5和8代的94bp产物(=GG纯合子基因型)。
[0392] 实施例7:用于富集针对低拷贝序列的AFLP片段文库的策略
[0393] 为了增加如实施例4中描述的优良的多态性的数量,该实施例描述了几个针对独特的基因组序列的目标低拷贝的富集方法。所述方法可以分为4类:
[0394] 1)针对制备高质量基因组DNA(叶绿体序列除外)的方法。
[0395] 这里提出,制备核DNA代替实施例4中所述的完整基因组DNA,排除大量叶绿体DNA共分离物,其可以使植物基因组DNA序列数量减少,依靠在片段文库制备方法中使用的限制性核酸内切酶和选择性AFLP引物。用于高纯度番茄核DNA分离的方法已经由Peterson,DG.,Boehm,K.S.& Stack S.M.(1997)描述。Isolation of MilligramQuantities of Nuclear DNA From Tomato(Lycopersiconesculentum),A Plant Containing High Levels of PolyphenolicCompounds.Plant Molecular Biology Reporter 15(2),pages148-153。
[0396] 2)针对在AFLP模板制备过程中使用限制性核酸内切酶的方法,其被期望可以使低拷贝序列的水平提高
[0397] 在此提出,在AFLP模板制备过程中,用某种限制性核酸内切酶,其期望针对于低拷贝或独特的基因组序列,以得到关于多态性的富集的片段文库,其具有增强转换为基因分型分析的能。针对植物基因组中低拷贝序列的限制性核酸内切酶的例子为PstI。优选地,其他甲基化敏感性限制性核酸内切酶也可以针对低拷贝或独特的基因组序列。
[0398] 3)基于相对于低拷贝序列的重复序列的重退火动力学的选择性去除高重复的序列的方法
[0399] 在此提出,在选择性扩增之前,选择性地去除来自各个完整基因组DNA样品或来自(cDNA-)AFLP模板材料的高复制的(重复)序列。
[0400] 3a)高-Cot DNA制备是一种一般用于富集来自复杂植物基因组DNA混合物的慢退火的低拷贝序列的方法(Yuan等人2003;High-Cotsequence analysis of the maize genome.Plant J.34:249-255)。其表示用高-Cot而非完整基因组DNA作为起始材料用于富集定位于低拷贝序列中的多态性。
[0401] 3b)替代费力的高-Cot制备,可以将变性且重退火的dsDNA,与新的来自Kamchatka crab的核酸酶一起温育,所述酶以相比于非优选的配对的DNA双链更快的速度来消化短的、优选配对的DNA双链,如Zhulidov和其同事(2004;Simple cDNA normalization usingKamchatka crab duplex-specific nuclease.Nucleic AcidsResearch 32,e37)和Shagin和其同事(2006;a novel method forSNP detection using a new duplex-specific nuclease from crabhepatopancreas.Genome Research12:1935-1942)所描述的。特别地,建议AFLP限制性/连接混合物和这个核酸内切酶温育以减少高度复制的序列的混合物,之后进行残留的低拷贝或独特的基因组序列的选择性AFLP扩增。
[0402] 3c)甲基过滤是一种富集低甲基化的基因组DNA片段的方法,用限制性核酸内切酶McrBC,其切割甲基化DNA,在序列[A/G]C中,其中C被甲基化(参见Pablo D.Rabinowicz,Robert Citek,MuhammadA.Budiman,Andrew Nunberg,Joseph A.Bedell,Nathan Lakey,Andrew L.O ′Shaughnessy,Lidia U.Nascimento,W.RichardMcCombie and Robert A.Martienssen.Differential methylationof genes and repeats in land plants.Genome Research15:1431-1440,2005)。McrBC可以用于富集作为用于多态性发现的起始材料的基因组的低拷贝序列片段。
[0403] 4)为了得到目标基因序列,使用相对于基因组DNA的cDNA
[0404] 最后,在此建议,作为相对于多态性发现的起始材料的基因组DNA使用oligodT-引发的cDNA,任选的,组合使用在上述3b中所述的Crab双链-特异核酸酶用于标准化。注意使用oligodT引发的cDNA也把叶绿体序列排除在外。可选择地,cDNA-AFLP模板替代oligodT-引发的cDNA用来在类似于AFLP的方法中促进扩增残留的低拷贝序列(也见于上文的3b)。
[0405] 实施例8:用于单个序列重复富集的策略
[0406] 本实施例描述了建议的用于单个序列重复序列的发现的策略,类似于在实施例4中所描述的SNP的发现。
[0407] 特别地,进行两种或多种样品的基因组DNA的限制性-连接,例如,用限制性核酸内切酶PstI/MseI。进行如实施例4中所述的选择性AFLP扩增。之后,通过两种方法中的一种富集含有经选择的SSR基序的片段:
[0408] 1)对含有与目标SSR基序(例如(CA)15如果富集CA/GT重复)匹配的寡核苷酸的过滤物Southern blot杂交,之后扩增结合片段,以如Armour和其同事(Armour,J.,Sismani,C.,Patsalis,P.,andCross,G.(2000)Measurement of locus copy number byhybridization with amplifiable probes.Nucleic Acids Researchvol 28,no.2,pp.605-609)所描述的类似的方式;或通过
[0409] 2)使用生物素化的捕获寡核苷酸杂交探针以捕获溶液中的(AFLP)片段的富集,如Kijas和其同事所述(Kijas,J.M,.Fowler,J.C,Garbett CA.,and Thomas,M.R.,(1994).Enrichment ofmicrosatellites from the citrus genome using biotinylatedoligonucleotide sequences bound to streptavidin-coatedmagnetic particles.Biotechniques,vol.16,pp.656-662.
[0410] 之后,SSR基序富集的AFLP片段用与预扩增步骤中使用的相同的AFLP引物扩增,以产生序列文库。扩增片段的等分(aliqout)为克隆的T/A和96克隆测序以评估阳性克隆的部分(含有目的SSR基序的克隆,例如,大于5个重复单元的CA/GT基序)。富集的AFLP片段混合物的另一个等分测试样品通过聚丙烯酰胺凝胶电泳(PAGE)检测,任选的,之前进一步进行选择性扩增以获得可读的指纹,以此来可视化检查含有SSR的片段是否被富集。成功完成这些控制步骤后,序列文库进行高通量454测序。
[0411] 上述用于从头SSR发现的策略在图8A中示意性描述,并且可以通过相应地替换捕获寡核苷酸序列从而适用于其他基序。
[0412] 实施例9用于避免混合的标签的策略
[0413] 混合的标签指的是这一现象,每个样品除了期望的加标签的AFLP引物组合外,还观察到少量的序列级分,其在一个末端含有样品1标签,并且在另一个末端含有样品2标签(见实施例4中的表1)。示意性地,含有混合的标签的序列的结构如下列所描述的。
[0414] 代表期望的样品标签组合的示意图
[0415] EcoRI标签 MseI标签[0416] PSP11:5′-CGTC -------------------------------------------ACCA-3′[0417] 3′-GCAG--------------------------------------------TGGT-5′[0418] PI-201234 5′-CAAG---------------------------------------GGCT-3′[0419] 3′-GTTC---------------------------------------CCGA-5′[0420] 代表混合的标签的示意图
[0421] EcoRI标签 MseI标签[0422] 5′-CGTC--------------------------------------------------GGCT-3′[0423] 3′-GCAG--------------------------------------------------CCGA-5′[0424] 5′-CAAG--------------------------------------------------ACCA-3′[0425] 3′-GTTC------------------------------------------------- TGGT-5′[0426] 观察到的混合的标签妨碍了PSP11或PI-201234的序列的正确指定。
[0427] 胡椒测序中观察到的混合的标签序列的例子在实施例4中描述,如图5A所示。观察到的含有预料到的标签和混合的标签的片段的整体情况示于图5A的图示2中。
[0428] 关于混合的标签的提出的分子解释为在序列文库制备步骤中,在接头连接之前,用T4 DNA聚合酶或Klenow使DNA片段变为平末端以去除3引物突出端(Margulies等人,2005)。处理单个的DNA样品时,能够很好地完成这一操作,但是如果用两个或多个样品加不同标签的DNA样品的混合物通过聚合酶来填充的时候,结果当在衍生自不同样品的互补链之间形成异源双链核酸分子时,引入了错误的标签序列(图5B图示3混合的标签)。发现在454序列文库构建中接头连接后的纯化步骤后富集样品的解决方法,如图5C图示4所示。
[0429] 实施例10使用454序列文库制备的改良设计来避免混合的标签和串联体的策略[0430] 除了观察到如实施例9所述的含有混合的标签的序列读取以外,还观察到了低频率串联的AFLP片段的序列读取。
[0431] 衍生自串联体的序列读取的例子描述于图6A图示1中。示意性地,含有期望的标签和串联体的序列的结构描述于图6A图示2中。
[0432] 关于串联的AFLP片段的发生而提出的分子解释是:454序列文库制备步骤中,在接头连接之前(Margulies et al.,2005),DNA片段用T4 DNA聚合酶或Klenow酶使其为平末端,以除去3引物突出端。结果,在连接步骤中,平末端样品DNA片段与接头竞争,并且在被连接到接头之前可以相互连接。这一现象事实上不依赖于是否文库制备步骤中包括的是单个DNA样品或是多个(加标签的)样品的混合物,并且因此也可以在常规测序方法,如Margulies和其同事所描述的方法中发生。如果使用如实施例4中所述的多个加标签的样品,串联体复杂化了对基于标记信息的样品的序列读取的正确指定,并且因此应予消除。
[0433] 对串联体(和混合的标签)形成所提出的方法是用含有3引发T突出端的接头的连接取代平末端接头连接,类似于PCR产物的T/A克隆,如图6B图示3所述。方便地,建议在这些经修饰的含3’引发T突出端的接头在相对的3’末端含有C突出端(其不能与样品DNA片段连接,防止接头序列的平末端串联体形成(见图6B图示3)。使用经修饰的接头的方法时,最终的序列文库构建方法的适当的流程示意性地描述于图6C图示4中。
QQ群二维码
意见反馈