用于多态性的高通量鉴定和检测的策略

申请号 CN200680025630.8 申请日 2006-06-23 公开(公告)号 CN101641449A 公开(公告)日 2010-02-03
申请人 科因股份有限公司; 发明人 M·J·T·范艾克; H·J·A·范德珀尔;
摘要 本 发明 涉及用于高通量鉴定单核苷酸多态性的方法,该方法通过对两个或多个样本进行复杂度降低以生成两个或多个文库,对所述文库的至少部分进行测序,比对经鉴定的序列并且测定任一假定的单核苷酸多态性,确认任一假定的单核苷酸多态性,产生用于确认单核苷酸多态性的检测探针,对测试样品进行相同的复杂度降低以提供测试文库并用检测探针筛选该测试文库,以检测单核苷酸多态性存在或缺失。
权利要求

1.鉴定一个或多个多态性的方法,所述方法包括步骤:
a)提供第一目的核酸样品;
b)对第一目的核酸样品进行复杂度降低以提供第一核酸样品的 第一文库;
c)用第二或更多目的核酸样品连续地或同时地进行步骤a)和 b),以获得第二或更多目的核酸样品的第二或更多文库;
d)测序第一文库和第二或更多文库的至少一部分;
e)比对在步骤d)中获得的序列;
f)确定在步骤e)的比对中第一核酸样品和第二或更多核酸样品 间的一个或多个多态性;
g)用在步骤f)中确定的所述一个或多个多态性设计检测探针;
h)提供目的测试样品核酸;
i)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样 品核酸的测试文库;
j)用在步骤g)中设计的检测探针对测试文库进行高通量筛选以 鉴定在步骤f)中确定的多态性的存在、不存在或数量。
2.根据权利要求1的方法,步骤b)进一步包括标记文库的步骤以 获得加标签的文库,并且所述方法进一步包括组合加标签的第一文库和 加标签的第二或更多文库以获得组合文库的步骤c1)。
3.根据权利要求2的方法,其中第一目的核酸样品和第二或更多 目的核酸样品的加标签过程利用对各个样品不同的标签进行。
4.根据上述任一权利要求的方法,其中进行复杂度降低,通过
-用至少一种限制性核酸内切酶消化核酸样品以将其片段化为限制 性片段;
-用具有与限制性片段的一个或两个末端相兼容的一个末端的至少 一种合成的双链寡核苷酸接头连接获得的限制性片段,以产生接头-连 接的限制性片段;
-将所述接头-连接的限制性片段与一个或多个寡核苷酸引物在杂 交条件下接触;和
-通过所述一个或多个寡核苷酸引物的延伸来扩增所述接头-连接 的限制性片段,
-其中所述一个或多个寡核苷酸引物的至少一个包括具有与在所述 接头-连接的限制性片段的末端处的链的末端部分的核苷酸序列相同 的核苷酸序列,包括参与所述限制性核酸内切酶的目标序列的形成的核 苷酸并且包括存在于接头中的核苷酸的至少一部分,其中,任选地,至 少一种所述引物在其3’末端包括经选择的序列,其包含与参与所述限 制性核酸内切酶的目标序列的形成的核苷酸紧邻的至少一个核苷酸。
5.根据权利要求4的方法,其中所述接头和/或引物包括标签。
6.根据权利要求5的方法,其中所述标签为标识子序列。
7.根据权利要求4的方法,其中至少一种所述引物被磷酸化
8.根据上述任一项权利要求的方法,其中测序在固体支持物例如 珠子上进行。
9.根据上述任一项权利要求的方法,其中测序基于双脱链终止 测序法。
10.根据权利要求8的方法,其中测序包含步骤:
-将接头-连接的片段退火到珠子,退火的各个珠子具有单一的接头 -连接的片段;
-在油包微反应器中乳化珠子,各个油包水微反应器包含单一的 珠子;
-将珠子加载于孔中,各个孔包含单一的珠子;和
-产生焦磷酸信号
11.根据权利要求10的方法,其中,在退火步骤之前,测序接头 连接到加标签的第一文库和加标签的第二文库或组合文库中的片段上。
12.根据权利要求11的方法,其中测序接头携带3’-T突出端。
13.根据上述任一项权利要求的方法,其中高通量筛选通过如此 来进行,即将在步骤h)中设计的探针固定于阵列上,之后将包含探针 的阵列与测试文库在杂交条件下接触。
14.用于鉴定一个或多个多态性的方法,所述方法包括步骤:
a)提供多个目的核酸样品;
b)对各个样品进行复杂度降低以提供多个核酸样品文库,其中进 行复杂度降低,通过
-用至少一种限制性核酸内切酶消化各个核酸样品将其片段化为 限制性片段;
-用至少一种具有与限制性片段的一个或两个末端相兼容的一个 末端的合成的双链寡核苷酸接头连接获得的限制性片段,以产生接头- 连接的限制性片段;
-将所述接头-连接的限制性片段与一个或多个磷酸化的寡核苷 酸引物在杂交条件下接触;和
-通过所述一个或多个寡核苷酸引物的延伸来扩增所述接头-连 接的限制性片段,其中所述一个或多个寡核苷酸引物的至少一个包括具 有与在所述接头-连接的限制性片段的末端处的链的末端部分的核苷 酸序列相同的核苷酸序列,包括参与所述限制性核酸内切酶的目标序列 的形成的核苷酸并且包括存在于接头中的核苷酸的至少一部分,其中, 任选地,至少一种所述引物在其3’末端包括经选择的序列,其包含与 参与所述限制性核酸内切酶的目标序列的形成的核苷酸紧邻的至少一 个核苷酸,并且其中接头和/或引物包含标签;
c)组合所述的文库为组合文库;
d)将能够与珠子退火的测序接头与组合文库中扩增的接头-加帽 的片段连接,使用携带3’-T突出端的测序接头并且使珠子-退火的片 段进行乳液聚合;
e)对组合文库的至少一部分测序;
f)对比来自步骤e)中获得的各个样品的序列;
g)确定在步骤f)的对比中的多个核酸样品间的一个或多个多态 性;
h)用在步骤g)中确定的所述一个或多个多态性设计检测探针;
i)提供目的测试样品核酸;
j)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样 品核酸的测试文库;
k)用在步骤h)中设计的检测探针高通量筛选测试文库以鉴定在 步骤g)中确定的多态性的存在、不存在或数量。
15.权利要求1-11的方法的用途,其用于筛选富集的微卫星文库、 进行转录作谱cDNA-AFLP(数字化Northern)复杂基因组的测序、表达 序列标签文库的测序(对全部cDNA或cDNA-AFLP)、微小RNA发现(小插 入片段文库的测序)、细菌人造染色体(重叠群)的测序、与 AFLP/cDNA-AFLP组合的分离群体分组分析法、AFLP片段的常规检测(标 记-辅助的回交)。

说明书全文

技术领域

发明涉及分子生物学和遗传学领域。本发明涉及快速鉴定核酸 样品中的多个多态性。经鉴定的多态性可以用于针对测试样品中的多 态性的高通量筛选系统的开发。

背景技术

长期以来,基因组DNA探查被科学团体特别是医学团体所期望。 基因组DNA是鉴定、诊断和治疗疾病,例如癌症和阿尔兹氏疾病的关 键。除疾病鉴定和治疗以外,基因组DNA的探查可以在植物和动物育 种研究中带来显著的优势,其可以对全世界的食品及营养问题提供答 案。
已知许多疾病与特定的基因元件有关,特别地,与特定基因中的 多态性有关。大量样品例如基因组的多态性的鉴定,在目前是一项艰 苦而耗时的工作。然而,该鉴定对于下述领域例如生物医学的研究, 开发药学产品、组织分型、基因分型和群体研究具有重大价值。
发明概述
本发明提供了使用高通量方法的组合以快速而经济的方式在复杂 的例如非常大量的核酸样品(例如DNA或RNA)中,有效地鉴定并且 可靠地检测多态性的方法。
这种高通量方法的整合提供了一种平台,其特别适用于高度复杂 的核酸样品中的多态性的快速且可靠的鉴定和检测,其中传统的多态 性的鉴定和绘图是艰苦且耗时的。
发明人的发现之一是用于多态性,优选单核苷酸多态性的鉴定 的解决方案,而且同样可用于(微)卫星和/或插入/缺失特别是在大 基因组中(微)卫星和/或插入/缺失的鉴定的解决方案。该方法的独 特之处在于它对大的或小的基因组的适用性相同,并且对大基因组特 别是多倍体物种尤其具有优势。
为了鉴定SNP(和随后检测经鉴定的SNP),本领域有几种可以采 用的可能方法。首选方案中,对完整基因组进行测序,并且这可以对 几个个体进行。这主要是理论上的实验,因为这是麻烦而且昂贵的, 并且,尽管技术快速发展,这虽然简单但对用于每一个生物体是不可 行的,尤其是对具有大基因组的生物体是不可行的。次选方案是利用 可获得的(片段化的)序列信息,例如EST文库。其允许生成使PCR 引物,重新测序和个体间的比较。此外,其要求初始的序列信息不可 得或仅仅是有限量的。进一步必须开发分别针对各个区域的PCR-分 析,其增加了巨大的成本和开发时间。
第三个选择是限定自身到各个个体的基因组的部分。困难在于, 为了提供用于成功的SNP鉴定的可比较的结果,所提供的基因组的部 分必须对不同个体是相同的。本发明人现在已经解决了这一难题,通 过整合用于筛选部分的基因组的高度重现性方法集合和用于多态性鉴 定的高通量测序,其整合于样品制备和高通量鉴定平台。本发明加速 了多态性发现的进程并且在后续的用于所发现的多态性开发的过程 中,使用相同的要件(element)可以有效且可靠地进行高通量的基因 分型。
进一步设想的本发明的方法的应用,包括筛选富集的微卫星文库, 进行转录作谱cDNA-AFLP(数字化Northern)、复杂基因组的测序, EST文库测序(对完整cDNA或cDNA-AFLP)、微小RNA发现(小的插 入文库的测序)、细菌人造染色体(BAC)(重叠群)的测序、批量分 离分析法AFLP/cDNA-AFLP、AFLP片段的常规检测,例如,标记辅助 的回交(MABC)等等。
定义
在下面的描述和实施例中使用了大量术语。为了提供对说明书权利要求包括这些术语给定的范围的清楚而一致的理解,给出下面的 定义。除非在此另有定义,此处所有使用的技术和科学术语具有与本 发明所属领域的普通技术人员通常所理解的相同的意义。所有出版物、 专利应用、专利和其他参考文献的公开内容以其整体作为参与引入此 处。
多态性:多态性指群体中核苷酸序列存在的两个或多个变体。多 态性可以包含一个或多个基置换、插入、重复或缺失。多态性包括, 例如,简单的序列重复(SSR)和单核苷酸多态性(SNP),其是一变 异,发生于当单核苷:腺嘌呤(A),胸腺嘧啶(T),胞嘧啶(C)或 嘌呤(G)-改变时。变异必需在群体中通常出现至少1%才被认为 是SNP。SNP构成例如所有人类遗传变异的90%,并且在人类基因组中 每100至300个碱基就有发生。每三个SNP中的两个是胸腺嘧啶(T) 取代胞嘧啶(C)。例如人或植物的DNA序列中的变异可以影响它们如 何应对疾病、细菌、病毒、化学制品、药物等。
核酸:本发明的核酸可以包括任何嘧啶和嘌呤碱基,优选分别为 胞嘧啶、胸腺嘧啶、和尿嘧啶,及腺嘌呤和鸟嘌呤的多聚物或低聚体, (参见Albert L.Lehninger,Principles of Biochemistry,at 793-800(Worth Pub.1982)其引入此处作为参考。本发明设想任何脱 核糖核苷酸、核糖核苷酸或肽核酸组成,及其任何化学变体,例如 这些碱基的甲基化、羟甲基化或糖基化形式等等。多聚物或低聚体在 组合物中可以是异源的或同源的,也可以分离自天然存在的来源或可 以是人工或合成生产的。另外,核酸可以是DNA或RNA或其混合物, 并且可以在单链或双链形式包括同源双链、异源双链和杂交形式中永 久地或瞬时性地存在。
复杂度降低(complexity reduction):术语复杂度降低用于表 示一种方法,其中核酸样品例如基因组DNA的复杂度通过样品的子集 的产生而降低。子集可以是对完整(即复杂的)样品有代表性的,并 且优选是可重现的子集。可重现的在上下文中的含义为,当相同样品 用相同方法在复杂度上降低时,即获得相同的或至少可比的子集。用 于复杂度降低的方法可以是本领域已知的任何用于复杂度降低的方 法。复杂度降低的方法的例子包括例如(Keygene N.V.,the Netherlands;参见例如EP 0534858),Dong所描述的方法(见于例如 WO 03/012118,WO 00/24939),索引连接(Unrau et al.,vide infra) 等。本发明中所用的复杂度降低的方法的相同之处在它们是可重现的。 可重现的意味着当相同样品以相同方式在复杂度上降低时,就获得了 样品的相同的子集,以避免更多的随机的复杂度降低,例如显微解剖 或使用代表选择的组织中转录的基因组部分的mRNA(cDNA)的使用, 因为其可重现性依赖于组织、分离时间等的选择。
加标签:术语加标签指将标签添加到核酸样品,以便能够区别它 与第二或更多的核酸样品。标记能够例如通过在复杂度降低过程中序 列标识子的添加或通过任何本领域已知的方法进行。这样的序列标识 子可以是例如具有变化组限定了长度的唯一性地用于标识特定核酸样 品的独特的碱基序列。其典型的例子为例如ZIP序列。用这样的标签, 样品的来源可以在进一步的加工中被检测。要是组合来源于不同核酸 样品的加工的产品,不同的核酸样品应该用不同的标签鉴定。
经标签的文库:术语经标签的文库指加标签的核酸的文库。
测序:术语测序指核酸样品,例如DNA或RNA中核苷酸的列(碱 基序列)的检测。
比对和对比:术语“比对”和“对比”含义为基于相同或相似的 核苷酸的短的或长的伸出的存在的两个或多个核苷酸序列的比较。用 于核苷酸序列的对比的几种方法是本技术领域已知的,如将在下面进 一步说明的一样。
检测探针:术语“检测探针”用于表示为检测特定的核酸序列而 设计的探针,特别地,序列包含一个或多个多态性。
高通量筛选:高通量筛选,通常简称为HTS,是用于科学实验的 方法,尤其是与生物和化学领域相关。通过现代机器人技术和其他专 业的实验室硬件的组合,它允许研究人员可以有效地同时筛选大量样 品。
测试样品核酸:术语“测试样品核酸”用来指示用本发明的方法 进行多态性研究的核酸样品。
限制性核酸内切酶:限制性核酸内切酶或限制性酶是在双链DNA 分子中识别特定核酸序列(目标位点)的酶,并且可以在DNA分子的 两条链的每个目标位点处修整。
限制性片段:用限制性核酸内切酶消化产生的DNA分子被称为限 制性片段。任何给定的基因组(或核酸,无论其来源)将通过特定的 限制性核酸内切酶消化为限制性片段的离散集(discrete set)。由 限制性核酸内切酶消化产生的DNA片段可以进一步用于多种技术并且 例如能够通过凝胶电泳被检测。
凝胶电泳:为了检测限制性片段,用于在尺寸基质上分级双链DNA 分子的方法是必须的。最常用的用于实现所述分级的方法是(毛细管) 凝胶电泳。DNA片段在这种凝胶中移动的速率取决于它们的分子量; 因此,移动的距离随片段长度增加而减少。通过凝胶电泳分级的DNA 片段可以通过染色过程,例如染色或溴化乙啶染色直接可视,如果 包括在图谱中的片段的数量足够小。备选地,进一步的DNA片段的处 理可以在片段中的掺入可检测的标记,例如荧光放射性标记。
连接:通过连接酶催化的酶反应中,两个双链的DNA分子被共价 连接在一起被称为连接。一般地,两个DNA链被共价连接在一起,但 是通过链的末端之一的化学或酶修饰,两个链之一的连接也可以被阻 止。如果那样的话,共价连接将只在两个DNA链的一个中发生。
合成的寡核苷酸:具有优选大约10-大约50个碱基的单链DNA 分子,其可以用化学方法合成而被称为合成的寡核苷酸。一般地,这 些合成DNA分子被设计为具有独特的或期望的核苷酸序列,尽管合成 具有有关的序列和其在核苷酸序列中的特定位点具有不同核苷酸组成 的分子家族是可能的。术语合成的寡核苷酸可以用于指具有设计的或 期望的核苷酸序列的DNA分子。
接头:具有有限量的碱基对的短的双链DNA分子,例如,长度大 约10到大约30个碱基对,其被设计为它们可以连接到限制性片段的 末端。接头一般由两个合成的寡核苷酸组成,其具有部分地相互互补 的核苷酸序列。当在溶液中在适当条件下混合两种合成的寡核苷酸时, 它们可以相互退火形成双链结构。退火后,接头分子的一端设计为与 限制性片段末端相兼容并且能够被连接其上;接头的另一端可以被设 计为其不能被连接,但是这不是必须的(双连接的接头)。
接头-连接的限制性片段:已经被接头加帽的限制性片段。
引物:一般地,术语引物指能够引导DNA的合成的DNA链。没有 引物,DNA聚合酶不能从头(de novo)合成DNA:其只能在反应中延 伸现有的DNA链,在反应中互补链用作模板以指导被组装的核苷酸的 排列。我们可以称用在聚合酶链式反应(PCR)中的合成的寡核苷酸分 子为引物。
DNA扩增:一般,术语DNA扩增可以被用于表示使用PCR的双链 DNA分子的体外合成。应当注意,还存在其他扩增方法并且它们可以 被用于本发明,而不违反主旨。
发明详述
本发明提供了用于鉴定一个或多个多态性的方法,所述的方法包 括步骤:
a)提供第一目的核酸样品;
b)对第一目的核酸样品进行复杂度降低,以提供第一核酸样品的 第一文库;
c)连续地或同时地对第二或更多的目的核酸样品进行步骤a)和 b),以获得第二或更多目的核酸样品的第二或更多文库;
d)测序第一文库和第二或更多的文库的至少部分;
e)比对在步骤d)中获得的序列;
f)确定在步骤e)的比对中第一核酸样品和第二或更多核酸样品 间的一个或多个多态性;
g)用在步骤f)中确定的一个或多个多态性设计一个或多个检测 探针;
h)提供目的测试样品核酸;
i)对目的测试样品进行步骤b)的复杂度降低以提供测试样品核 酸的测试文库;
j)用在步骤g)中设计的一个或多个检测探针对测试文库进行高 通量筛选以鉴定在步骤f)中确定的多态性的存在、缺失或数量;
步骤a)中,提供第一目的核酸样品。所述的第一目的核酸样品优 选为复杂核酸样品例如总基因组DNA或cDNA文库。优选的,复杂核酸 样品为总基因组DNA。
步骤b)中,对第一目的核酸样品进行复杂度降低以提供第一核酸 样品的第一文库。
发明的一个具体实施方式,核酸样品的复杂度降低的步骤包括催 化性切割核酸样品为限制性片段,分离限制性片段并选择特殊的限制 性片段库。任选的,经选择的片段然后与包含PCR引物模版/结合序列 的接头序列相连接。
复杂度降低的具体实施方式中,IIs型核酸内切酶用于消化核酸 样品并且限制性片段选择性地连接于接头序列。接头序列可以在将被 连接的突出端包含不同的核苷酸,并且只有具有与突出端中核苷酸匹 配设置的接头连接到该片段并且随后被扩增。这一技术在本领域被描 述为‘索引连接器’。尤其,这一原理的例子可以在Unrau P.and Deugau K.V.(1994)Gene 145:163-169中看到。
在另一具体实施方式中,复杂度降低的方法利用两个具有不同的 目标位点和频率的限制性核酸内切酶和两个不同的接头序列。
发明的另一具体实施方式中,复杂度降低的步骤包括对样品进行 任意引物PCR。
在发明的另一个具体实施方式中,复杂度降低的步骤包括通过变 性和重退火DNA去除重复序列,然后去除双链的双链(double-stranded duplexes)。
在发明的另一个具体实施方式中,复杂度降低的步骤包括核酸样 品与磁珠杂交,磁珠连接于包含期望的序列的寡核苷酸探针。这一具 体实施方式可以进一步包括将杂交的样品暴露于单链DNA核酸酶以除 去单链DNA,连接包含IIs类限制性酶的接头序列以释放磁珠。这一 具体实施方式可以包括或可以不包括分离的DNA序列的扩增。进一步, 接头序列可以或可以不作为模版用于PCR寡核苷酸引物。在这个具体实 施方式中,接头序列可以含有或可以不含有序列标识子(identifier)或 标记。
另一具体实施方式中,复杂度降低的方法包括将DNA样品暴露于 错配结合蛋白(mismatch binding protein)并且用3’-5’核酸外 切酶消化样品,然后用单链核酸酶消化样品。这一具体实施方式中可 以包括或可以不包括结合于错配结合蛋白的磁珠的使用。
本发明的另一具体实施方式中,复杂度降低包括在此或在别处描 述的CHIP方法或对保守基序例如SSR、NBS区(核酸结合序列)、启 动子/增强子序列、调聚物一致性序列、MADS盒基因、ATP-酶基因家 族和其他基因家族的PCR引物的设计。
在步骤c)中,连续地或同时地对第二或更多的目的核酸样品进 行步骤a)和b)以获得第二或更多的目的核酸样品的第二或更多的文 库。优选的,所述的第二或更多的目的核酸样品也可以是复杂核酸样 品例如总基因组DNA。这同样是优选的,所述的第二或更多的核酸样 品是与第一核酸样品相关的。第一核酸样品和第二或更多核酸可以是 例如不同的植物品系,例如不同的胡椒品系,或不同的变体。步骤a) 和b)不仅可以对第二目的核酸样品进行,还可以对第三、第四、第 五等目的核酸样品进行。
应当指出,当用相同方法和在基本相同,优选相同的条件下对第 一核酸样品和第二或更多核酸样品进行复杂度降低时,依照本发明的 方法将非常有用。在这样的条件下,将获得(复杂)核酸样品的相似 (可比较的)级分。
在步骤d)中,测序至少部分的第一文库和第二或更多的文库。 来自第一文库和第二或更多文库的序列片段的重叠量至少是50%,更 优选至少60%,更优选至少70%,甚至更优选至少80%,更优选至少90%, 并且更优选至少95%。
测序原则上可以通过本领域已知的任何方法进行,例如脱氧链终 止法。不过优选测序用高通量测序方法进行。例如,在WO 03/004690, WO 03/054142,WO 2004/069849,WO 2004/070005,WO 2004/070007, 和WO 2005/003375(全部以454公司的名义),by Seo等人(2004) Proc.Natl.Acad.Sci.USA 101:5488-93,和Helios,Solexa,US Genomics等等中描述的方法,其被引入此处作为参考。更优选地,测 序用在WO 03/004690,WO 03/054142,WO 2004/069849,WO 2004/070005,WO 2004/070007,和WO 2005/003375(全部以454公 司的名义)中公开的设备和/或方法进行,其被引入此处作为参考。在 单个循环中,所描述的技术使得400000000碱基的测序可以进行并且 比竞争技术快100倍且便宜100倍。测序技术大概由4个步骤组成:1) 对单链DNA(ssDNA)的文库的DNA的片断化和特定接头的连接;2) 退火ssDNA到珠子和在油包微反应器中的珠子的乳化;3)在 中携带DNA的珠子的沉淀;和4)通过焦磷酸酯光信 号的生产,在100000个孔中同时测序。该方法可以在下面更详细地解 释。
在步骤e)中,对在步骤d)中获得的序列进行比对以提供对比结 果。用于对比目的的序列的对比的方法是本领域公知的。不同过程和 对比运算法则在下面描述:Smith and Waterman(1981)Adv.Appl. Math.2:482;Needleman and Wunsch(1970)J.Mol.Biol.48:443; Pearson and Lipman(1988)Proc.Natl.Aca d.Sci.USA 85:2444; Higgins and.Sharp(1988)Gene 73:237-244;Higgins and Sharp (1989)CABIOS 5:151-153;Corpet et al.(1988)Nucl.Acids Res. 16:10881-90;Huang et al.(1992)Computer Appl.in the Biosci. 8:155-65;and Pearson et al.(1994)Meth.Mol.Biol.24:307-31, 其被引入引处用作参考。Altschul等人(1994)Nature Genet. 6:119-29(其被引入此处用作参考)提供了序列对比方法和同源性计 算的详细描述。
NCBI基础本地对比搜索工具(BLAST)(Altschul et al.,1990)可 以从几个来源获得,包括生物学信息国家中心(NCBI,Bethesda,Md.) 和在Internet上,为了与序列分析程序blastp,blastn,blastx, tblastn和tblastx相联接使用。可以进入http://www.ncbi.nlm. nih.gov/BLAST/。使用这个程序如何检测序列同一性的描述可以获自 http://www.ncbi.nlm.nih.gov/BLAST/blast_help.html。进一步可 以应用在微卫星采集(参见Varshney等人(2005)Trends in Biotechn.23(1):48-55中。
通常,对已经用接头/引物和/或标识子修饰过的序列数据进行对 比,例如仅用来自来源于核酸样品的片段的序列数据。通常,获得的 序列数据用于鉴定片段的来源(例如来自哪个样品),衍生自接头和/ 或标识子的序列被从数据中除去并且在这个修饰的位置进行比对。
在步骤f)中,确定第一核酸样品和第二或更多核酸样品间的一 个或多个多态性。所述比对可以如此完成:使衍生自第一核酸样品和 第二或更多核酸样品的序列可以进行比较。然后反映多态性的区别可 以被鉴定。
在步骤g)中,步骤g)中检测到的一个或多个多态性用于设计检 测探针,例如用于通过DNA芯片上的杂交或基于珠子的检测平台进行 的检测。检测探针设计成这样使得多态性可以被其反映。在单核苷酸 多态性(SNP)的情况下,检测探针一般在中心位置含有不同的SNP 等位基因,会以最大化等位基因的辨别。这样的探针可以方便地用于 筛选具有某种多态性的检验样品。探针可以用本领域已知的任何方法 合成。探针一般被设计为适合于高通量筛选方法。
在步骤h)中,提供目的测试样品核酸。测试样品核酸可以是任 何样品,但是优选为用来对多态性作图的另一株或变体。一般地,代 表研究的生物体的种质的测试样品的收集物用于实验验证(SN)多态 性是真实的和可检测的,并且用于计算观察到的等位基因的等位基因 发生频率。任选的,在验证步骤中包括基因作图群体的样品,以还检 测多态性的基因作图位置。
在步骤i)中,对目的测试样品核酸进行步骤b)的复杂度降低以 提供测试样品核酸的测试文库。更优选的,全部依照本发明的方法的 用于复杂度降低的相同方法以基本相同的,优选同一的条件使用,从 而覆盖样品的相似级分。然而,获得加标签的测试文库并非必须的, 尽管标记可以存在于测试文库中的片段上。
在步骤j)中,测试文库经高通量筛选以鉴定用步骤g)中设计的 检测探针在步骤f)中确定的多态性的存在、缺失或数量。本领域技 术人员已知一些用来使用探针进行高通量筛选的方法。优选利用步骤 g)中获得的信息设计的一个或多个探针固定于阵列,例如DNA芯片上, 而且上述阵列随后在杂交条件下与测试文库接触。互补于一个或多个 阵列中的探针的测试文库中的DNA片段在上述条件下与上述探针杂 交,并且从而可以被检测。另一种高通量筛选方法也在本发明的范围 内,例如步骤j)中获得的测试文库的固定和所述固定的测试文库与 步骤h)中设计的探针在杂交条件下接触。
另一种高通量测序筛选技术除Affymetrix提供的使用基于芯片 的SNP检测外,还有Illumina提供的珠子技术。
在更优的具体实施方式中,根据本发明的方法中的步骤b)进一 步包括文库的加标签步骤以获得加标签的文库,并且所述方法进一步 包括组合第一加标签的文库和第二或更多加标签的文库的步骤c1)以 获得组合文库。
优选的,在复杂度降低步骤中进行加标签以减少用于获得第一核 酸样品的第一标签文库所需步骤的数量。上述同时的加标签可以是例 如通过AFLP,用含有对于每个样品独特的(核苷酸)标识子的接头实 现。
进行标签的目的在于区分不同来源的样品,例如,获自不同植物 株,当使两个或多个核酸样品的文库组合以获得组合文库时。因此, 优选地,不同的标签用于制备第一核酸样品和第二或更多核酸样品的 加标签的文库。例如,当使用五个核酸样品时,意欲获得五个不同的 加标签的文库,所述五种不同的标签指示分别来源的样品。
标签可以是本领域已知的用于区别核酸样品的任何标签,但是优 选短的标识子序列。这样的标识子序列可以是例如,用于指示通过复 杂度降低所获得的文库的来源的不同长度的独特的碱基序列。
优选的具体实施方式,对第一文库和第二或更多文库的加标签用 不同的标签进行。如上所述,优选的,核酸样品的各个文库可通过它 自己的标签来鉴定。测试样品核酸不需要加标签。
在本发明的优选的具体实施方式中,复杂度降低通过方法 (Keygene N.V.,the Netherlands;参见例如EP 0534858和Vos等 人(1995)进行。AFLP:用于DNA指纹识别的新技术,Nucleic Acids Research,vol.23,no.21,4407-4414,在此引入全文作为参考)。
AFLP是一种用于选择性扩增限制性片断的方法。AFLP没有任何预 先的序列信息并且能够在任何起始DNA中进行。一般而言,AFLP包括 步骤:
(a)用一个或多个特异性限制性核酸内切酶消化核酸,特别是 DNA或cDNA,以将DNA片段化为相应的一系列限制性片段;
(b)将这样获得的限制性片段与双链的合成寡核苷酸头(它的一 个末端与限制性片段的一个末端或两个末端相兼容)连接,由此产生 接头-连接的、优选被标记的起始DNA的限制性片段;
(c)在杂交条件下,使接头-连接的,优选加标签的,限制性片 段与至少一个在其3’-末端含有至少一个选择性核苷酸的寡核苷酸引 物接触;
(d)通过PCR或类似的技术扩增与引物杂交的接头-连接的,优 选加标签的限制性片段,以使杂交的引物沿着引物所杂交的起始DNA 的限制性片段进一步延伸;和
(e)检测,鉴定或回收由此获得的扩增的或延伸的DNA片段。
从而AFLP提供了可再生的接头-连接的片段的子集。用于复杂度 降低的另一种合适的方法是Chromatine Immuno Precipitation (ChiP)。这表示核DNA被分离,同时蛋白例如转录因子与DNA结合。 对于ChiP方法,首先抗体用于抗蛋白,得到Ab-蛋白-DNA复合体。 通过纯化这一复合体并沉淀它,该蛋白结合的DNA被选出。随后,DNA 可以用于文库构建和测序。即,这是针对特定功能区域(在本实施例 中是特定的转录因子)以非随机的方式进行复杂度降低的方法。
AFLP技术的一种有用的变形使用了非选择性核苷酸(即+0/+0 引物)并且有时被称为连接子PCR。也提供它用来非常适合的复杂度 降低。
为了进一步描述AFLP,它的优点、它的具体实施方式和其中使用 的技术、酶、接头、引物和进一步的化合物和工具,参见US 6,045,994, EP-B-0534858,EP 976835和EP 974672,WO 01/88189和Voset al.Nucleic Acids Research,1995,23,4407-4414,在此整体引入 作为参考。
因此,在本发明的方法的优选的具体实施方式中,复杂度降低通 过如下进行:
-用至少一种限制性内切酶消化核酸样品以将其片段化为限制性 片段;
将获得的限制性片段与至少一个合成的双链寡核苷酸接头(它的 一个末端与限制性片段的一个末端或两个末端相兼容)连接以产生接 头-连接限制性片段;
-将所述接头-连接的限制性片段与一个或多个寡核苷酸引物在 杂交条件下接触;和
-通过一个或多个寡核苷酸引物的延伸来扩增所述接头-连接的 限制性片段,
其中一个或多个寡核苷酸引物的至少一个包括具有与所述接头- 连接的限制性片段的末端的链的末端部分相同的核苷酸序列的核苷酸 序列,包括用于所述限制性核酸内切酶的参与目标序列的形成的核苷 酸并且包括在接头中存在的核苷酸的至少一部分,其中,任选的,至 少一种所述引物在其3’末端包括经选择的序列,其包含与用于所述 限制性核酸内切酶的参与目标序列的形成的核苷酸紧邻定位的至少一 个核苷酸。
AFLP是用于复杂度降低的高度可重现的方法,并且因此特别适用 于依照本发明的方法。
在根据本发明的方法的优选的具体实施方式中,接头或引物包含 标签。这对于多态性的实际鉴定(标签对区分衍生自分离的文库的序 列而言很重要)的情况下更是如此。在接头或引物中引入寡核苷酸标 签是非常方便的,因为其对文库加标签不需要额外的步骤。
在另一个具体实施方式中,标签为标识子序列。如上文讨论的, 这样的标识子序列可以根据将要比较的核酸样品的数量而具有不同的 长度。大约4个碱基(44=256种可能的不同的标签序列)的长度足以 区别有限数量(达256)的样品的来源,尽管优选标签序列在将要进 行区分的样品间有一个以上碱基的不同。如需要,标签序列的长度可 以相应地调节。
在一个具体实施方式中,在固相支持物,例如珠子上进行测序(参 见例如WO 03/004690,WO 03/054142,WO 2004/069849,WO 2004/070005,WO 2004/070007,和WO 2005/003375(全部以454公 司的名义),其被引入此处作为参考)。这种测序方法特别适合对多种 样品同时进行廉价且有效的测序。
在优选的具体实施方式中,测序包括步骤:
-退火接头-连接的片段到珠子,退火的各个珠子具有单一的接头 -连接的片段;
-在油包水微反应器中使珠子乳化,各个油包水微反应器包括单 个的珠子;
-将珠子加载到孔中,各个孔包含单个的珠子;和
-产生焦磷酸信号
在第一步中,测序接头(seqencing adaptor)连接于组合文库中 的片段上。所述的测序接头至少包括用于退火到珠子的“关键(key)” 区域、测序引物区域和PCR引物区域。由此,获得接头连接的片段。
在进一步的步骤中,接头-连接的片段退火到珠子,各个珠子退火 使之具有单一的接头-连接的片段。对于接头-连接的片段的集合,加 入过量的珠子以确保对于大部分珠子,每个珠子上退火一个单个的接 头-连接的片段(Poisson分布)。
在下一步中,在油包水的微反应器中珠子被乳化,各个油包水微 反应器包含单个的珠子。PCR试剂存在于油包水微反应器中使在微反 应器中发生PCR反应。随后,破碎微反应器,并且富集含有DNA的珠 子(DNA阳性珠子)。
在之后的步骤中,珠子加载于孔中,各个孔含有单一的珠子。所 述孔优选为PicoTiterTM Plate的部分,使得大量的片段同时地测序。
加入载酶珠子(enzyme-carrying bead)后,片段的序列用焦磷 酸测序检测。在继续的步骤中,皮克滴定板(Picotiterplate)和珠子 及其中的酶珠子在常规的测序试剂存在下经不同的脱氧核糖核苷酸处 理,并且当掺入脱氧核糖核苷酸时产生可以被记录的光信号。掺入正 确的核苷酸将会产生可以被检测的焦磷酸测序信号。
焦磷酸测序本身在本领域是已知的并且除了在 www.biotagebio.com;www.pyrosequencing.com/tab technology 上描述外,该技术还进一步在例如WO 03/004690,WO 03/054142,WO 2004/069849,WO 2004/070005,WO 2004/070007和WO 2005/003375 (全部以454公司的名义)中使用,其被引入此处作为参考。
优选的,步骤k)的高通量筛选通过步骤h)中设计的探针固定于 阵列上,之后使含有探针的阵列与测试文库在杂交条件下接触来进行。 优选的,接触步骤在严格杂交条件(参见Kennedy et al.(2003)Nat. Biotech.;published online 7 September 2003:1-5)下进行。本 领域技术人员知道合适的用于探针在阵列上的固定的方法并且也知道 在杂交条件下接触的方法。适用于该目的的代表性的技术参见 Kennedy et al.(2003)Nat.Biotech.;published online 7 September 2003:1-5。
在多倍体农作物育种中,发现了一个特别有用的应用。通过用具 有高覆盖、鉴别性的SNP和不同等位基因和开发用于等位基因特异性 扩增的探针进行的多倍体农作物测序,多倍体农作物的育种可以取得 显著的进步。
作为发明的一部分,为了在此描述的用于有效和高通量的多态性 鉴定的方法的进一步改进,已经发现对多种样品采用选择性扩增而生 成的随机选择的子集和高通量测序技术的组合存在某些必须解决的复 杂问题。更详细地,已经发现当进行复杂度降低后,多个(例如第一 和第二或更多的)样品组合于集合中时出现了问题,很多片段似乎源 自两个样品或不同的放置,很多鉴定的片段其不能被唯一地指定到一 个样品并且因此不能用在鉴定多态性的方法中。这导致方法的可靠性 降低并且较少的多态性(SNP,插入/缺失,SSR)可以被充分鉴定。
在仔细而详细地分析不能被指定的片段的全部核苷酸序列后,发 现这些片段含有包含两种不同的标签的接头,并且可能是在复杂度降 低的样品的生成和测序接头的连接之间形成的。该现象被描述为“混 合的标签”。描述为“混合的标签”的现象,如在此使用的,因此指 的是这样的片段,一方面所述片段含有与一个样品相关的标签,然而 另一方面该片段含有与另一个样品相关的标签。因此,一个片段看起 来源自两个样品(不同)。这导致错误的多态性的鉴定并且因此而不 被期望。
两个样品间的异源双链核酸片段的形成造成这一异常已经被理论 化。
这一问题的解决方法已经在用于样品转化的策略的重新设计中被 发现,其中可以在高通量测序前扩增复杂性被降低的样品的被退火到 珠子的片段。在这个具体实施方式中,各个样品经复杂度降低和任选 的纯化。在此之后,使各个样品成为平末端(末端平滑化),之后连 接能够退火到珠子的测序接头。然后,样品的测序接头-连接的片段 被组合并连接到用于乳液聚合和随后的高通量测序的珠子。
作为该发明的更进一步的部分,发现串联体的片段妨碍了正确的 多态性的鉴定。串联体被看作在复杂度降低产物已经被‘钝化 (blunting)’或‘平滑化’(例如通过T4DNA聚合酶)后形成的片 段,并且代替可以退火到珠子的接头的连接,而相互连接,因此产生 串联体,即,串联体是平末端片段的二聚化的结果。
在某些特定的经修饰的接头的使用中发现了这个问题的解决方 案。由于不具有3’-5’核酸外切酶校对阅读活性的某些优选的聚合 酶的特征,由复杂度降低获得的扩增的片段通常包含3’-A突出端。 上述3’-A突出端的存在也是为何片段在接头连接之前被钝化的原因。 通过提供可以退火到珠子的接头,其中接头含有3’-T突出端,发现 可以在一个步骤中解决‘混合的标签’和串联体这两个问题。用这些 经修饰的接头的进一步优点在于可以省略常规的‘末端钝化’步骤和 随后的磷酸化步骤。
因此,在进一步优选的具体实施方式中,各个样品的复杂度降低 步骤之后,在获自复杂度降低步骤的扩增的接头-连接的限制性片段 上进行的一个步骤,由此,测序接头连接到这些片段,其测序接头包 含3’-T突出端并且能够退火到珠子。
进一步发现,当在复杂度降低步骤中使用的引物被磷酸化时,可 以避免在连接前的末端平滑化(钝化)步骤和中间体磷酸化。
因此,在本发明的更优选的具体实施方式中,发明涉及用于鉴定 一个或多个多态性的方法,所述的方法包括步骤:
a)提供多个目的核酸样品;
b)对各个样品进行复杂度降低以提供多个核酸样品的文库,其中 复杂度降低通过:
-用至少一种限制性核酸内切酶消化各个核酸样品以将其片段化 为限制性片段;
-将获得的限制性片段与具有与限制性片段的一个或两个末端相 兼容的一个末端的至少一种合成的双链寡核苷酸接头连接以产生接头 -连接的限制性片段;
-将所述接头-连接的限制性片段与一个或多个磷酸化的寡核苷 酸引物在杂交条件下接触;和
-通过一个或更多寡核苷酸引物的延伸扩增所述的接头连接的限 制性片段,其中一个或多个寡核苷酸引物的至少一个包括具有与所述 接头-连接的限制性片段的末端的链的末端部分相同的核苷酸序列的 核苷酸序列,包括用于所述限制性核酸内切酶的参与目标序列的形成 的核苷酸并且包括在接头中存在的核苷酸的至少一部分,其中,任选 的,至少一种所述引物在其3’末端包括经选择的序列,其包含与用 于所述限制性核酸内切酶的参与目标序列的形成的核苷酸紧邻定位的 至少一个核苷酸,并且其中接头和/或引物包含标签;
c)组合所述文库为组合文库;
d)用携带3’-T突出端的测序接头将能够退火到珠子的测序接头 连接到组合文库中的扩增的接头-加帽的片段,并且使珠子-退火的 片段进行乳液聚合;
e)对组合文库的至少一部分测序;
f)比对来自步骤e)中获得的各个样品的序列;
g)确定在步骤f)比对中的多个核酸样品间的一个或多个多态性;
h)用步骤g)中确定的一个或多个多态性设计探针;
i)提供目的核酸的测试样品;
j)对目的测试样品核酸进行步骤b)的复杂度降低以提供测试样 品核酸的测试文库;
k)用步骤h)中设计的探针高通量筛选测试文库以鉴定在步骤g) 中确定的多态性的存在、缺失或数量。
附图简述
图1A显示了根据本发明退火到珠子(‘454珠子’)上的片段和 用于两种胡椒品系的预-扩增的引物序列。‘DNA片段’表示用限制 性核酸内切酶消化后获得的片段,‘关键基因接头’表示为用于产生 文库的(磷酸化的)寡核苷酸引物提供连接位点的接头,‘KRS’表示 标识子序列(标签),‘454SEQ接头’表示测序接头,并且‘454PCR 接头’表示可以用于DNA片段乳液扩增的接头。PCR接头可以用于退 火到珠子和用于扩增并且可以含有3’-T突出端。
图1B显示了复杂度降低步骤中使用的引物的图示。上述引物一般 包含(2)所示的识别位点区,可以包括如(1)所示的标签部分的恒 定区和在其3’末端如(3)所示的选择性区域中的一个或多个选择性 的核苷酸。
图2显示了用2%琼脂糖凝胶电泳进行的DNA浓度估测。S1表示 PSP11;S2表示PI201234。对于估测的S1和S2的DNA总量,50、100、 250和500ng分别表示50ng、100ng、250ng和500ng。图2C和2D显 示了使用Nanodrop分光光度测定法的DNA浓度检测。
图3显示了实施例3的中间质量分析结果。
图4显示了序列数据加工管线的示意图,即从测序数据的产生到 推定的SNP、SSR和插入/缺失的鉴定的步骤,在修整&加标签的去除已 知的序列信息步骤后,得到经修整的序列数据,该数据被聚类&汇编 以产生重叠群(contig)和单拷贝序列(不能汇编在重叠群中的片段), 之后可以对推定的多态性进行鉴定和评估。图4B进一步详细说明了多 态性采集的方法。
图5提出了混合的标签的问题并且在图示1中提供了混合标签的 例子,携带的标签与样品1(MS1)和样品2(MS2)连接。图示2提供 了该现象的示意性说明。衍生自样品1(S1)和样品2(S2)的AFLP 限制性片段在携带样品特异性标签S1和S2的两个末端与接头(″关键 基因接头″)连接。经扩增和测序后,期望的片段是具有S1-S1标签和 S2-S2标签的片段。另外的出乎意料地观察到的是携带S1-S2或S2-S1 标签的片段。图示3解释了推想的产生混合的标签,由此来自样品1 和2的片段形成异源双链核酸产物的原因。随后,由于T4DNA多聚酶 或Klenow的3’-5’外切酶活性,使异源双链核酸不具有3’-突出端。 聚合过程中,用核苷酸填充该缺口,并且引入错误的标签。该操作针 对具有大约相同长度的异源双链核酸(顶部图示)但是也针对具有更 多不同长度的异源双链核酸。图示4的左边提供了导致混合的标签形 成的常规的实验流程并且在右边提供了改良的实验流程。
图6提出了串联体形成这一问题,由此,在图示1中给出了典型 的串联体的例子,由此下划线标记不同的接头和标签部分进行并注明 它们的来源(即MS1,MS2,ES1和ES2分别对应于来自样品1的MseI 限制性位点-接头,来自样品2的MseI限制性位点-接头,来自样品 1的EcoRI限制性位点-接头,来自样品2的EcoRI限制性位点-接 头)。图示2阐释了所期待的携带S1-S1标签和S2-S2标签的片段和 观察到的但并非期望的S1-S1-S2-S2(以来自样品1和样品2的片段 的串联体的形式)。图示3为避免生成串联体和混合的标签而推想的 解决方案,其包括通过在AFLP接头中引入突出端,修饰的测序接头和 连接测序接头时省略末端平滑化步骤。因为ALP片段不能相互连接而 发现没有串联体形成,并且因为省略末端平滑化步骤而没有出现混合 的片段。图示4提供利用修饰的接头的改良的实验流程以避免串联体 形成和混合的标签。
图7包含推定的单核苷酸多态性(SNP)的胡椒AFLP片段序列的 “10037_CL989contig2”多重比对。请注意SNP(通过黑色箭头所示), 由通过凭借上面两个读取序列的MS1标签的存在指出的样品1(PSP11) 两个读取序列中的A等位基因的存在和通过凭借下面两个读取序列的 MS2标签的存在指出的样品2(PI201234)中G等位基因的存在进行定 义。读取序列的名称显示于左边。该多重比对的一致的序列为(5’-3’):
TAACACGACTTTGAACAAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA[A/G]TGTTGGTTTT GGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG.
图8A用于目标单序列重复(SSR)的富集策略与用于从头SSR发 现的高通量测序相组合的图示。
图8B:用SNPWave检测的胡椒中的G/A SNP的确认。P1=PSP11; P2=PI201234。八种RIL后代通过数字1-8表示。
实施例
实施例1
EcoRI/MseI限制性连接混合物(1)产生自胡椒品系PSP-11和 PI20234的基因组DNA。限制性连接混合物被稀释10倍并且5微升各 样品用EcoRI+1(A)和MseI+1(C)引物(组I)预扩增(2)。扩增后, 两种胡椒样品的预扩增产物的性质用1%琼脂糖凝胶检测。预扩增产物 被20倍稀释,之后进行KRSEcoRI+1(A)和KRSMseI+2(CA)AFLP 预扩增。下面的引物序列SEQ ID 1-4中将KRS(标识子)片段用下划 线标记,并且在所述序列的3’-末端的经选择的核苷酸为粗体。扩增 后,两种胡椒样品的预扩增产物的性质用1%琼脂糖凝胶和通过EcoRI +3(A)和MseI+3(C)(3)AFLP指纹(4)检测。两种胡椒品系的 预扩增产物分别在QiagenPCR柱(5)上纯化。样品浓度在Nanodrop 中测量。将全部的5006.4ng的PSP-11和5006.4ng的PI20234混合 并测序。
用于预扩增PSP-11的引物组I
E01LKRS1 5′-CGTCAGACTGCGTACCAATTC-3′[SEQ ID 1]
M15KKRS1 5′-TGGTGATGAGTCCTGAGTAA-3′[SEQ ID 2]
用于预扩增PI20234的引物组II
E01LKRS2 5′-CAAGAGACTGCGTACCAATTC-3′[SEQ ID 3]
M15KKRS2 5′-AGCCGATGAGTCCTGAGTAA-3′[SEQ ID 4]
(1)EcoRI/MseI限制性连接混合物
限制性混合物(40ul/样品)
DNA            6μl(±300ng)
ECoRI          (5U)0.1μl
MseI(2U)       0.05μl
5xRL           8μl
MQ             25.85μl
总计           40μl
在37℃温育1小时
加入:
连接混合物(10μl/样品)
10mM ATP                     1μl
T4DNA连接酶                  1μl
ECoRI接头(5pmol/μl)         1μl
Msel接头(50pmol/μl)         1μl
5xRL                         2μl
MQ                           4μl
总计                         10μl
在37℃温育3小时
EcoRI-接头
91M35/91M36:*-CTCGTAGACTGCGTACC:91M35[SEQ ID 5]
±bio        CATCTGACGCATGGTTAA:91M36[SEQ ID 6]
MseI-接头
92A18/92A19:5-GACGATGAGTCCTGAG-3:92A18[SEQ ID 7]
3-TACTCAGGACTCAT-5:92A19[SEQ ID 8]
(2)预扩增
预扩增(A/C):
RL-混合物(10x)           5μl
EcoRI-pr E01L(50ng/ul)   0.6μl
MseI-pr M02K(50ng/ul)    0.6μl
dNTPs(25mM)              0.16μl
Taq.pol.(5U)             0.08μl
10XPCR                   2.0μl
MQ                       11.56μl
总计                     20μl/反应
预扩增热反应(thermal profile)
在50μl的反应体积中进行选择性的预扩增。在PE GeneAmp PCR 系统9700中进行PCR并且20个循环反应以30秒的94℃变性步骤开 始,之后56℃退火步骤60秒和72℃延伸步骤60秒。
EcoRI+1(A)1
E01L    92R11:5-AGACTGCGTACCAATTCA-3[SEQ ID 9]
MseI+1(C)1
M02k    93E42:5-GATGAGTCCTGAGTAAC-3[SEQ ID 10]
预扩增A/CA:
PA+1/+1-mix(20x):     5μl
EcoRI-pr:             1.5μl
MseI-pr.:             1.5μl
dNTPs  (25mM):        0.4μl
Taq.pol.(5U):         0.2μl
10XPCR:               5μl
MQ:                   36.3μl
总计:                 50μl
在50μl反应体积中进行选择性预扩增。PCR在PE GeneAmp PCR System 9700中进行并且30次循环反应,开始为94℃变性步骤30秒, 之后是56℃退火步骤60秒和72℃延伸步骤60秒。
(3)KRSEcoRI+1(A)和KRSMse I+2(CA)2
 05F212   E01LKRS1   CGTCAGACTGCGTACCAATTC-3′[SEQ ID 11]
 05F213   E01LKRS2   CAAGAGACTGCGTACCAATTC-3′[SEQ ID 12]
 05F214   M15KKRS1   TGGTGATGAGTCCTGAGTAA-3′[SEQ ID 13]
05F215    M15KKRS2   AGCCGATGAGTCCTGAGTAA-3′[SEQ ID 14]
粗体部分为选择的核苷酸并且用下划线表示标签(KRS)部分
样品PSP11:E01LKR/M15KKR
样品PI120234:E01LKR/M15KKR
(4)AFLP实验流程
选择性扩增在20μl反应体积中进行。PCR在PE GeneAmp PCR系 统9700中进行。13次循环反应,开始为94℃变性步骤30秒,之后 65℃退火步骤30秒,用下探阶段,其中退火温度每次循环降低0.7℃, 和72℃延伸步骤60秒。该反应之后是23次循环反应,以94℃变性步 骤30秒,之后56℃退火步骤30秒和72℃延伸步骤60秒。
EcoRI+3(AAC)和MseI+3(CAG)
E32  92S02:5-GACTGCGTACCAATTC-3[SEQ ID 15]
M49  92G23:5-GATGAGTCCTGAGTAA-3[SEQ ID 16]
(5)Qiagen柱
根据产品说明书进行Qiagen纯化:Spin手册
(http://wwwl.qiagen.com/literature/handbooks/PDF/DNACleanupAndConcent ration/QQ Spin/1021422 HBQQSpin 072002WW.pdf)
实施例2:胡椒
通过使用AFLP Keygene识别位点特异性引物将来自胡椒品系 PSP-11和PI20234的DNA用来产生AFLP产物。(这些AFLP引物基 本上与常规AFLP引物相同,例如在EP 0534858中描述的,并且一 般可以含有识别位点区,恒定区和选择性区域中的一个或多个选择性 的核苷酸。
来自胡椒品系PSP-11或PI20234的150ng DNA用限制性核酸内 切酶EcoRI(5U/反应)和MseI(2U/反应)在37℃消化1小时,之后 在80℃灭活10分钟。获得的限制性片段与合成的双链寡核苷酸接头 连接,所述接头的一个末端与EcoRI和/或MseI限制性片段的一个 末端或两个末端相兼容。对10倍稀释的限制性连接混合物进行使用 +1/+1AFLP引物的AFLP预扩增反应(20μl/反应)。PCR反应:20*(30 秒在94℃+60秒在56℃+120秒在72℃)。对20倍稀释的+1/+1 EcoRI/MseI AFLP预扩增产物进行用不同的+1EcoRI和+2MseI AFLP Keygene识别位点特异性引物的(下表,粗体为标签,下划线为选择 性核苷酸)另外的AFLP反应(50μl/反应)。PCR反应:30*(30秒在94 ℃+60秒在56℃+120秒在72℃)。AFLP产物通过用QIAquick PCR 纯化试剂盒(QIAGEN)纯化,按照Spin手册07/2002第18 页并且用ND-1000分光光度计测量浓度。5μg+1/+2PSP-I1 AFLP产物和5μg+1/+2 PI20234AFLP产物汇总到一起并溶于23.3 μl TE中。最后,获得具有430ng/μl浓度的+1/+2AFLP产物的混合 物。


实施例3:玉米
来自玉米品系B73和M017的DNA用于产生AFLP产物,通过使用 AFLP Keygene识别位点特异性引物。(这些AFLP引物基本上与常规的 AFLP引物相同,例如EP 0534858中描述的,并且一般可以包含识别 位点区、恒定区和在其3’末端的一个或多个选择性核苷酸)。
来自胡椒品系B73或M017的DNA用限制性核酸内切酶TaqI(5U/反 应)在65℃反应1小时和MseI(2U/反应)在37℃反应1小时之后在80 ℃灭活10分钟。获得的限制性片段与双链合成的寡核苷酸接头结合,其 一个末端与TaqI和/或MseI限制性片段的一个或两个末端相兼容。
对10倍稀释的限制性连接混合物进行使用+1/+1AFLP引物的AFLP 预扩增反应(20μl/反应)。PCR反应:20*(30秒在94℃+60秒在 56℃+120秒在72℃)。用不同的+2TaqI和MseI AFLP关键基因识别 位点引物(下表,标签用粗体表示,选择性核苷酸用下划线表示)对20 倍稀释的+1/+TaqI/MseI AFLP扩增产物进行额外的AFLP反应(50μl/ 反应)。AFLP产物通过用QIAquick PCR纯化试剂盒(QIAGEN)按照 Spin手册07/200218页纯化,用ND-1000分光 光度计测量浓度。总共1.25μg各个不同B73+2/+2AFLP产物和1.25 μg各个不同M017+2/+2AFLP产物放在一起,并溶解于30μl TE中。 最后获得具有混合物333ng/μl浓度的+2/+2AFLP产物。


最后,4P1-样品和4P2-样品被混合并浓缩。获得总量25μl的 DNA产物且终浓度为400ng/ul(总量10μg)。中间性质评估在图3中 给出。
通过454测序
按照上文所述制备的胡椒和玉米AFLP片段样品通过如所述的454 Life Sciences处理(Margulies et al.,2005.Genome sequencing in microfabricated high-density picolitre reactors.Nature 437 (7057):376-80.Epub July 31,2005)。
数据处理
处理流程:
数据输入
收到各轮的原始序列数据:
-200000-400000个读取
-碱基呼叫(base calling)质量得分
修整和加标签
在读取的数据的起始和末端,分析这些序列数据以得到关键基因 识别位点(KRS)。这些KRS序列包含AFLP-接头和样品标签序列并且 对组合到某些样品上的某些AFLP引物是特异的。KRS序列通过BLAST 鉴定并且修整及储存限制性位点。读取的数据用标签标记,用于KRS 起源的鉴定。经修整的序列对长度(最小33nt)进行选择以参加进一 步的过程。
聚类和汇编
对全部大小-选择性的,经修整的读取数据进行MegaBlast分析 以获得同源序列的群组。连续地,所有群组用CAP3汇编以得到汇编的 重叠群。鉴定来自两个步骤的单拷贝序列读取,其不与任何其他读取 匹配。这些读取标记为单拷贝序列。
进行在此之前描述的步骤的处理流程在图4A中表示。
多态性采集和性质评估
来自汇编分析的终重叠群形成多态性检测的基础。各个群组的对 比中,各个‘错配’为潜在的多态性。定义选择标准以获得性质得分:
-每个重叠群的读取数
-每个样品‘等位基因’的频率
-同聚物序列的发生
-邻近多态性的发生
鉴定性质得分在阈值之上的SNP和插入/缺失为推定的多态性。为 了SSR采集,我们利用MISA(MIcroSAtellite鉴定)工具 (http://pgrc.ipk-gatersleben.de/misa)。该工具用预先设定的标 准识别二-、三-、四核苷酸和复合型SSR基序并且总结这些SSR的 发生。
多态性采集和质量评估过程示于图4B。
结果
下表总结了得自组合的胡椒样品的2个454测序和组合的玉米样 品的2个测序的序列的联合分析的结果。
  胡椒   玉米 读取总数   457178   492145 修整的读取数   399623   411008 单拷贝序列(singleton)数   105253   313280 重叠群数   31863   14588 重叠群中的读取数   294370   97728 包含SSR的序列总数   611   202 不同的包含SSR的序列数   104   65 不同的SSR基序的数(二、三、四和复合的)   49   40 Q得分≥0.3的SNP数*   1636   782 插入/缺失数*   4090   943
*两者都针对邻近SNP选择,至少12bp的侧翼序列并且不发生于大于 3个核苷酸的同聚物序列中。
实施例4:在胡椒中的单核苷酸多态性(SNP)的发现
DNA分离
基因组DNA分离自胡椒重组近交(RIL)群体的两种亲本品系和 10RIL后代。亲本品系为PSP11和PI201234。基因组DNA分离自单 独的种苗的叶材料,其采用Stuart和Via描述的改良的CTAB方法 (Stuart,CN.,Jrand Via,L.E.(1993)Arapid CTAB DNA isolation technique useful for RAPD fingeprinting and other PCR applications.Biotechniques,14,748-750)。DNA样品在TE(10mM Tris-HCl pH 8.0,1mM EDTA)中稀释到浓度为100ng/μl并且在-20℃ 贮存。
用加标签的AFLP引物制备AFLP模板
如Zabeau&Vos,1993:Selective restriction fragment amplification;a general method for DNA fingerprinting.EP 0534858-A1,B1;US patent 6045994)和Vos等人(Vos,P., Hogers,R.,Bleeker,M.,Reijans,M.,van de Lee,T.,Hornes,M., Frijters,A.,Pot,J.,Peleman,J.,Kuiper,M.et al.(1995)AFLP: a new technique for DNA fingerprinting.Nucl.Acids Res.,21, 4407-4414)所述,使用EcoRI/MseI限制性核酸内切酶组合制备胡椒亲 本品系PSP11和PI201234的AFLP模板。
特别地,EcoRI和MseI的基因组DNA限制性消化按照如下进行:
DNA限制性消化
DNA           100-500ng
EcoRI         5单位
MseI          2单位
5xRL缓冲液    8μl
加MilliQ水至  40μl
在37℃温育1小时。酶限制性消化后,80℃温育10分钟使酶失 活。
接头的连接
10mM ATP                 1μl
T4DNA连接酶              1μl
EcoRI接头(5pmol/μl)     1μl
Msel接头(50pmol/μl)     1μl
5xRL缓冲液               2μl
加MilliQ水至             40μl
在37℃温育3小时。
选择性的AFLP扩增
限制性消化-连接后,限制性消化/连接反应物用T10E0.1稀释10倍 并且将5μl稀释的混合物用作选择性扩增步骤中的模板。注意,因为 想要的是+1/+2选择性扩增,所以首先进行+1/+1选择性预扩增步骤 (用标准AFLP引物)。+1/+1(+A/+C)扩增的反应条件如下。
限制性消化-连接混合物(10倍稀释)    5μl
EcoRI-引物+1(50ng/μl):           0.6μl
MseI-引物+1(50ng/μl)              0.6μl
dNTPs(20mM)                        0.2μl
Taq聚合酶(5U/μl Amplitaq,PE)     0.08μl
10XPCR缓冲液      2.0μl
加MilliQ水到      20μl
引物序列为:
EcoRI+1:5′-AGACTGCGTACCAATTCA-3′[SEQ ID 9]
MseI+1:5′-GATGAGTCCTGAGTAAC-3′[SEQ ID 10]
PCR扩增用具有金或银单元(block)的PE 9700进行,用以下条 件:20次(94℃30秒,56℃60秒和72℃120秒)。
在1%琼脂糖凝胶中检测产生的+1/+1预扩增产物的质量,使用100 碱基对分子量标记和1Kb分子量标记以检测片段长度分布。+1/+1选 择性扩增后,反应物用T10E0.1稀释20倍并且使用5μl稀释混合物作 为+1/+2选择性扩增步骤中的模板,使用加标签的AFLP引物。
最后,进行+1/+2(A/+CA)选择性AFLP扩增:
+1/+1选择性扩增产物(20-倍稀释)             5.0μl
KRS EcoRI-引物+A(50ng/μl)                 1.5μl
KRS MseI-引物+CA(50ng/μl)                 1.5μl
dNTPs(20mM)                                0.5μl
Taq聚合酶(5U/μl Amplitaq,Perkin Elmer)   0.2μl
10X PCR缓冲液                              5.0μl
加MQ至                                     50μl
加标签的AFLP引物序列为:
PSP11:
05F212:EcoRI+1:5′-CGTCAGACTGCGTACCAATTCA-3′[SEQ ID 1]和
05F214:MseI+2:5′-TGGTGATGAGTCCTGAGTAACA-3′[SEQ ID 2]
PI201234:
05F213:EcoRI+1:5′-CAAGAGACTGCGTACCAATTCA-3′[SEQ ID 3]和
05F215:MseI+1:5′-AGCCGATGAGTCCTGAGTAACA-3′[SEQ ID 4]
注意,在测序过程结束时,这些引物在它们的5引物末端包含4bp 标签(tag)(上面下划线的)用于在测序过程结束时区分源于各自的 胡椒品系的扩增产物。
用含有4bp 5引物标记序列的AFLP引物扩增后,胡椒AFLP+1/+2 扩增产物的图示
EcoRI标签                                            MseI标签
PSP 11:5′-CGTC-------------------------------------ACCA-3′
3′-GCAG---------------------------------------------TGGT-5′
PI2012345′-CAAG-------------------------------------GGCT-3′
3′-GTTC---------------------------------------------CCGA-5′
用具有金或银单元(block)的PE9700进行PCR扩增(24每样品), 使用如下条件:30次(94℃30秒+56℃60秒+72℃120秒)。
在1%琼脂糖凝胶中检测产生的扩增产物的质量,使用100碱基对 分子量标记和1Kb分子量标记,以检测片段长度的分布。
AFLP反应物纯化和量化
在汇集每种胡椒样品的两个50微升+1/+2选择性AFLP反应物之 后,得到的12个100μl AFLP反应产物用QIAquick PCR纯化试剂盒 (QIAGEN)纯化,按照Spin手册(18页)。每个柱上最大填 装100μl产物。扩增产物在T10E0.1中洗脱。在1%琼脂糖凝胶上检测纯 化产物的质量并且在Nanodrop上测量浓度(图2)。
Nanodrop浓度测量用于调节每种纯化的PCR产物的终浓度至300 纳克每微升。混合5微克PSP11的纯化的扩增的产物和5微克PI201234 以产生10微克模板材料,用于制备454测序文库。
序列文库制备和高通量测序
对来自两种胡椒品系的混合的扩增产物高通量测序,使用454 Life Sciences测序技术,如Margulies等人所述(Margulies等人, Nature 437,pp.376-380 and Online Supplements)。特别地,首 先,AFLP PCR产物末端平滑化,随后连接到接头以促进乳液-PCR扩增 和随后的片段测序,如Margulies和其同事所描述的。454接头序列, 乳液PCR引物,测序引物和测序运行条件都如Margulies和其同事所 述。在454测序过程中,在琼脂糖珠上的扩增的乳液PCR片段中,功 能性元件的线性顺序如下面图1A中所示例:
454PCR接头-454测序接头-4bp AFLP引物标签1-包含选择性 核苷酸的AFLP引物序列1-AFLP片段内序列-包含选择性核苷酸的 AFLP引物序列2,4bp AFLP引物标签2-454测序接头-454PCR接头 -琼脂糖珠
通过454 Life Sciences(Branford,CT;United States of America)进行两个高通量454测序反应。
454测序运行数据处理:
来自2个454测序反应的测序数据结果用生物信息学流水线 (Keygene N.V.)处理。特别地,原始的454碱基呼叫序列读取转变 为FASTA格式并且用BLAST运算法则检查是否有标记的AFLP接头序列 的存在。在与已知的标记的AFLP引物序列高置信度匹配后,对序列进 行修整,限制性核酸内切酶位点重建并被指定适当的标签(分别的,样 品1EcoRI(ES1),样品1MseI(MS1),样品2EcoRI(ES2)或样 品2MseI(MS2))。接下来,用基于全部序列同源的megaBLAST程序, 聚类分析所有经修整的大于33碱基的序列。接下来,用CAP3多重对 比运算法则,将聚类组合为每个聚类一个或多个重叠群和/或一个或多 个单拷贝序列(singleton)。检查包含多于一个序列的重叠群的序列 错配,代表推测的多态性。基于如下标准给予序列错配质量分数,:
*重叠群中的读取数
*观察到的等位基因分布
*上述两个标准构成了对每个推定的SNP/插入/缺失给予的所谓的 Q得分的基础。Q得分范围为0到1;只有在两个等位基因被观察到至 少两次的情况下,才能得到0.3的Q得分。
*某长度的同聚物中的定位(可调节的;缺失设置为避免在3碱基 或更长的同聚物中存在多态性)。
*聚类中的重叠群数
*最近的相邻序列错配的距离(可调节的;对于某些种类型的基因 分型分析探测侧翼序列重要)
*关于样品1或样品2的观察到的等位基因相关水平;如果等位基 因的推定的多态性与样品1及样品2之间一致、完美相关的情况下, 多态性(SNP)表示为“优良的”推定的多态性(SNP)。如果在发现 过程中使用两种纯合品系,则优良的多态性被认为具有定位于单个的 或低拷贝基因组序列的高概率。相反地,样品来源的多态性的弱相关 带来下述高险,即已经发现的是源自重叠群中非等位基因序列的比 对的假的多态性。
包含SSR基序的序列用MISA搜索工具鉴定(MIcroSAtellelite鉴 定工具;可得自http://pgrc.ipk-gatersleben.de/misa/
反应的全部统计数据如下表所示。
表对胡椒中的SNP发现的454测序反应全部统计数据
酶组合   运行 修整 所有读取序列   254308 假的   5293(2%) 正确   249015(98%) 串联体   2156(8.5%) 混合的标签   1120(0.4%) 正确的读取 经修整的一个末端   240817(97%) 经修整的两个末端   8198(3%) 样品1的读取数   136990(55%) 样品2的读取数   112025(45%) 聚类 重叠群数   21918 重叠群中的读取   190861 每重叠群的平均读取数   8.7 SNP采集 Q得分≥0.3的SNP*   1483 Q得分≥0.3的插入/缺失*   3300 SSR采集 鉴定的SSR基序的总数   359 包含一个或多个SSR基序的读取数   353 具有单位大小1的SSR基序数 (同聚物)   0 具有单位大小2的SSR基序数   102 具有单位大小3的SSR基序数   240 具有单位大小4的SSR基序数   17
*SNP/插入/缺失采集标准如下:
在各侧上12个碱基中具有大于0.1Q得分的非邻近多态性在3 或多个碱基的同聚物中不存在。采集标准不考虑对样品1和2的相关 一致性。即SNP和插入/缺失不是优良的推定的SNPs/插入/缺失所必 需的。
含有优良的推定的单核苷酸多态性的多重比对的例子如图7所 示。
实施例5通过PCR扩增和Sanger测序证实SNP
为了证实在实施例1中鉴定的推定的A/G SNP,使用侧翼PCR引 物设计了用于这一SNP的测序加标签位点(STS)。PCR引物序列如下:
引物_1.2f:5′-AAACCCAAACTCCCCCAATC-3′,[SEQ ID 37]和
引物_1.2r:5′-AGCGGATAACAATTTCACACAGGA CAAAAATAGAGCAAAACAGTAGTG-3′[SEQ ID 38]
注意,引物1.2r包含一个M13测序引物结合位点,并且在它的 5′引导端含长度填充片段。PCR扩增用如实施例4中所述制备的PSP11 和PI210234的+A/+CA AFLP扩增产物作为模板。PCR条件如下:
对1PCR反应,混合如下组分:
5μl 1/10稀释的AFLP混合物(app.10ng/μl)
5μl 1pmol/μl引物1.2f(直接稀释自500μM母液)
5μl 1pmol/μl引物1.2r(直接稀释至500μM母液)
5μl PCR混合液
-2μl 10x PCR缓冲液
-1μl  5mM dNTPs
-1.5μl 25mM MgCl2
-0.5μl  H2O
5μl酶混合液:
-0.5μl 10x PCR缓冲液(Applied Biosystems)
-0.1μl 5U/μl Ampli Taq DNA聚合酶(Applied Biosystems)
-4.4μl H2O
使用如下PCR反应条件:
循环1      2′;     94℃
循环2-34   20″;    94℃
         30″;   56℃
         2′30″;72℃
循环35   7′;    72℃
         ∞;     4℃
PCR产物用TA克隆方法克隆到载体pCR2.1中(TA克隆试剂盒; Invitrogen),并且转化到INVαF′感受态E.coli细胞中。对转化株 进行蓝/白筛选。为了用于分离质粒,选出各自针对PSP11和PI-201234 的三个独立的白色转化株并且在液体选择培养基中O/N培养。
用QIAprep Spin Miniprep试剂盒(QIAGEN)分离质粒。随后,对 这些质粒的插入序列按照如下方法测序并且用MegaBACE 1000(Amersham)分辨。检查获得的测序结果中SNP等位基因的存在。 两种分别的含有PI-201234插入序列的质粒和一种含有PSP11插入序 列的质粒包含期望的相同的SNP侧翼序列。包含期望的A(下划线的) 等位基因的衍生自PSP11片段的序列和包含期望的G等位基因(双下 划线的)的衍生自PI-201234片段的序列:
PSP11(序列1):(5′-3′)
AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACAATGTTGGTTTTGGTGCTAACTTCAA CCCCACTACTGTTTTGCTCTATTTTTGT[SEQ ID 39]
PI-201234(序列1):(5′-3′)
AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACATGTTGGTTTTGGTGCTAACTTCAA CCCCACTACTGTTTTGCTCTATTTTTG[SEQ ID 40]
PI-201234(序列2):(5′-3′)
AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACATGTTGGTTTTGGTGCTAACTTCAA CCCCACTACTGTTTTGCTCTATTTTTG[SEQ ID 41]
这一结果表明推定的胡椒A/G SNP表现为可以用设计的STS分析 检测到的真正的基因组多态性。
实施例6:通过SNPWave检测证实SNP
为了证实在实施例1中鉴定的推定的A/G SNP,采用一致性序列 使SNPWave连接探针组界定这个SNP的两个等位基因。连接探针的序 列如下:
SNPWave探针序列(5′-3′):
06A162GATGAGTCCTGAGTAACCCAATCGATTTCAAACCTAGAACAA(42个碱基) [SEQ ID 42]
06A163GATGAGTCCTGAGTAACCACCAATCGATTTCAAACCTAGAACAG(44个碱基) [SEQ ID 43]
06A264磷酸化的-
TGTTGGTTTTGGTGCTAACTTCAACCAACATCTGGAATTGGTACGCAGTC(52个碱基)[SEQ ID 44]
注意,针对A和G等位基因的等位基因特异探针06A162和06A163 分别在大小上相差2个碱基,这样,连接到共同定位特异探针06A164 之上,得到连接产物大小为94(42+54)和96(44+52)个碱基。
进行SNPWave连接和PCR反应,如Van Eijk和其同事所描述的(M. J.T.van Eijk,J.L.N.Broekhof,H.J.A.van der Poel,R.C. J.Hogers,H.Schneiders,J.Kamerbeek,E.Verstege,J.W.van Aart,H.Geerlings,J.B.Buntjer,A.J.van Oeveren,and P. Vos.(2004)。SNPWaveTM:一种灵活的多元的SNP基因分型方法。核 酸研究32:e47),使用100ng作为起始材料的胡椒品系PSP11和 PI201234和8RIL后代的基因组DNA。PCR引物序列为:
93L01FAM(E00k):5-GACTGCGTACCAATTC-3′[SEQ ID 45]
93E40(M00k):5-GATGAGTCCTGAGTAA-3′[SEQ ID 46]
PCR扩增之后,PCR产物纯化和Me gaBACE1000中的检测如van Eijk 和同事(vide supra)描述的。获自PSP11、PI201234和8RIL后代的 扩增产物的伪-凝胶成像(pseudo-gel image)如图8B所示。
SNPWave的结果清楚地表示A/G SNP通过SNPWave分析检测,得 到关于P1(PSP11)和RIL1、2、3、4、6和7代)的92bp产物(= AA纯合子基因型),和关于P2(PI201233)和RIL 5和8代的94bp 产物(=GG纯合子基因型)。
实施例7:用于富集针对低拷贝序列的AFLP片段文库的策略
为了增加如实施例4中描述的优良的多态性的数量,该实施例描 述了几个针对独特的基因组序列的目标低拷贝的富集方法。所述方法 可以分为4类:
1)针对制备高质量基因组DNA(叶绿体序列除外)的方法。
这里提出,制备核DNA代替实施例4中所述的完整基因组DNA, 排除大量叶绿体DNA共分离物,其可以使植物基因组DNA序列数量减 少,依靠在片段文库制备方法中使用的限制性核酸内切酶和选择性 AFLP引物。用于高纯度番茄核DNA分离的方法已经由Peterson,DG., Boehm,K.S.&Stack S.M.(1997)描述。Isolation of Milligram Quantities of Nuclear DNA From Tomato(Lycopersicon esculentum),A Plant Containing High Levels of Polyphenolic Compounds.Plant Molecular Biology Reporter 15(2),pages 148-153。
2)针对在AFLP模板制备过程中使用限制性核酸内切酶的方法, 其被期望可以使低拷贝序列的水平提高
在此提出,在AFLP模板制备过程中,用某种限制性核酸内切酶, 其期望针对于低拷贝或独特的基因组序列,以得到关于多态性的富集 的片段文库,其具有增强转换为基因分型分析的能。针对植物基因 组中低拷贝序列的限制性核酸内切酶的例子为PstI。优选地,其他甲 基化敏感性限制性核酸内切酶也可以针对低拷贝或独特的基因组序 列。
3)基于相对于低拷贝序列的重复序列的重退火动力学的选择性去 除高重复的序列的方法
在此提出,在选择性扩增之前,选择性地去除来自各个完整基因 组DNA样品或来自(cDNA-)AFLP模板材料的高复制的(重复)序列。
3a)高-Cot DNA制备是一种一般用于富集来自复杂植物基因组 DNA混合物的慢退火的低拷贝序列的方法(Yuan等人2003;High-Cot sequence analysis of the maize genome.Plant J.34:249-255)。 其表示用高-Cot而非完整基因组DNA作为起始材料用于富集定位于低 拷贝序列中的多态性。
3b)替代费力的高-Cot制备,可以将变性且重退火的dsDNA,与 新的来自Kamchatka crab的核酸酶一起温育,所述酶以相比于非优选 的配对的DNA双链更快的速度来消化短的、优选配对的DNA双链,如 Zhulidov和其同事(2004;Simple cDNA normalization using Kamchatka crab duplex-specific nuclease.Nucleic Acids Research 32,e37)和Shagin和其同事(2006;a novel method for SNP detection using a new duplex-specific nuclease from crab hepatopancreas.Genome Research 12:1935-1942)所描述的。特 别地,建议AFLP限制性/连接混合物和这个核酸内切酶温育以减少高 度复制的序列的混合物,之后进行残留的低拷贝或独特的基因组序列 的选择性AFLP扩增。
3c)甲基过滤是一种富集低甲基化的基因组DNA片段的方法,用 限制性核酸内切酶McrBC,其切割甲基化DNA,在序列[A/G]C中,其 中C被甲基化(参见Pablo D.Rabinowicz,Robert Citek,Muhammad A.Budiman,Andrew Nunberg,Joseph A.Bedell,Nathan Lakey, Andrew L.O′Shaughnessy,Lidia U.Nascimento,W.Richard McCombie and Robert A.Martienssen.Differential methylation of genes and repeats in land plants.Genome Research 15:1431-1440,2005)。McrBC可以用于富集作为用于多态性发现的 起始材料的基因组的低拷贝序列片段。
4)为了得到目标基因序列,使用相对于基因组DNA的cDNA
最后,在此建议,作为相对于多态性发现的起始材料的基因组DNA 使用oligodT-引发的cDNA,任选的,组合使用在上述3b中所述的Crab 双链-特异核酸酶用于标准化。注意使用oligodT引发的cDNA也把叶 绿体序列排除在外。可选择地,cDNA-AFLP模板替代olliodT-引发的 cDNA用来在类似于AFLP的方法中促进扩增残留的低拷贝序列(也见 于上文的3b)。
实施例8:用于单个序列重复富集的策略
本实施例描述了建议的用于单个序列重复序列的发现的策略,类 似于在实施例4中所描述的SNP的发现。
特别地,进行两种或多种样品的基因组DNA的限制性-连接,例 如,用限制性核酸内切酶PstI/MseI。进行如实施例4中所述的选择 性AFLP扩增。之后,通过两种方法中的一种富集含有经选择的SSR 基序的片段:
1)对含有与目标SSR基序(例如(CA)15如果富集CA/GT重复)匹 配的寡核苷酸的过滤物Southern blot杂交,之后扩增结合片段,以 如Armour和其同事(Armour,J.,Sismani,C.,Patsalis,P.,and Cross,G.(2000)Measurement of locus copy number by hybridization with amplifiable probes.Nucleic Acids Research vol 28,no.2,pp.605-609)所描述的类似的方式;或通过
2)使用生物素化的捕获寡核苷酸杂交探针以捕获溶液中的(AFLP) 片段的富集,如Kijas和其同事所述(Kijas,J.M,.Fowler,J.C, Garbett CA.,and Thomas,M.R.,(1994).Enrichment of microsatellites from the citrus genome using biotinylated oligonucleotide sequences bound to streptavidin-coated magnetic particles.Biotechniques,vol.16,pp.656-662.
之后,SSR基序富集的AFLP片段用与预扩增步骤中使用的相同 的AFLP引物扩增,以产生序列文库。扩增片段的等分(aliqout)为 克隆的T/A和96克隆测序以评估阳性克隆的部分(含有目的SSR基序 的克隆,例如,大于5个重复单元的CA/GT基序)。富集的AFLP片段混 合物的另一个等分测试样品通过聚丙烯酰胺凝胶电泳(PAGE)检测, 任选的,之前进一步进行选择性扩增以获得可读的指纹,以此来可视 化检查含有SSR的片段是否被富集。成功完成这些控制步骤后,序列 文库进行高通量454测序。
上述用于从头SSR发现的策略在图8A中示意性描述,并且可以通 过相应地替换捕获寡核苷酸序列从而适用于其他基序。
实施例9用于避免混合的标签的策略
混合的标签指的是这一现象,每个样品除了期望的加标签的AFLP 引物组合外,还观察到少量的序列级分,其在一个末端含有样品1标 签,并且在另一个末端含有样品2标签(见实施例4中的表1)。示 意性地,含有混合的标签的序列的结构如下列所描述的。
代表期望的样品标签组合的示意图
EcoRI标签                                                  MseI标签
PSP 11:5′-CGTC-------------------------------------------ACCA-3′
3′-GCAG---------------------------------------------------TGGT-5′
PI-2012345′-CAAG------------------------------------------GGCT-3′
3′-GTTC---------------------------------------------------CCGA-5′
代表混合的标签的示意图
EcoRI标签                                                  MseI标签
5′-CGTC---------------------------------------------------GGCT-3′
3′-GCAG---------------------------------------------------CCGA-5′
5′-CAAG---------------------------------------------------ACCA-3′
3′-GTTC---------------------------------------------------TGGT-5′
观察到的混合的标签妨碍了PSP11或PI-201234的序列的正确指 定。
胡椒测序中观察到的混合的标签序列的例子在实施例4中描述, 如图5A所示。观察到的含有预料到的标签和混合的标签的片段的整体 情况示于图5A的图示2中。
关于混合的标签的提出的分子解释为在序列文库制备步骤中,在 接头连接之前,用T4DNA聚合酶或Klenow使DNA片段变为平末端以 去除3引物突出端(Margulies等人,2005)。处理单个的DNA样品 时,能够很好地完成这一操作,但是如果用两个或多个样品加不同标 签的DNA样品的混合物通过聚合酶来填充的时候,结果当在衍生自不 同样品的互补链之间形成异源双链核酸分子时,引入了错误的标签序 列(图5B图示3混合的标签)。发现在454序列文库构建中接头连 接后的纯化步骤后富集样品的解决方法,如图5C图示4所示。
实施例10使用454序列文库制备的改良设计来避免混合的标签 和串联体的策略
除了观察到如实施例9所述的含有混合的标签的序列读取以外, 还观察到了低频率串联的AFLP片段的序列读取。
衍生自串联体的序列读取的例子描述于图6A图示1中。示意性 地,含有期望的标签和串联体的序列的结构描述于图6A图示2中。
关于串联的AFLP片段的发生而提出的分子解释是:454序列文 库制备步骤中,在接头连接之前(Margulies et al.,2005),DNA片 段用T4DNA聚合酶或Klenow酶使其为平末端,以除去3引物突出端。 结果,在连接步骤中,平末端样品DNA片段与接头竞争,并且在被连 接到接头之前可以相互连接。这一现象事实上不依赖于是否文库制备 步骤中包括的是单个DNA样品或是多个(加标签的)样品的混合物, 并且因此也可以在常规测序方法,如Margulies和其同事所描述的方 法中发生。如果使用如实施例4中所述的多个加标签的样品,串联体 复杂化了对基于标记信息的样品的序列读取的正确指定,并且因此应 予消除。
对串联体(和混合的标签)形成所提出的方法是用含有3引发T 突出端的接头的连接取代平末端接头连接,类似于PCR产物的T/A克隆, 如图6B图示3所述。方便地,建议在这些经修饰的含3’引发T突出端 的接头在相对的3’末端含有C突出端(其不能与样品DNA片段连接,防 止接头序列的平末端串联体形成(见图6B图示3)。使用经修饰的接 头的方法时,最终的序列文库构建方法的适当的流程示意性地描述于 图6C图示4中。
序列表
<110>Keygene NV
<120>用于多态性的高通量鉴定和检测策略
<130>P27819PC00
<160>46
<170>PatentIn version 3.3
<210>1
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>1
cgtcagactg cgtaccaatt ca    22
<210>2
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>2
tggtgatgag tcctgagtaa ca    22
<210>3
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>3
caagagactg cgtaccaatt ca    22
<210>4
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>4
agccgatgag tcctgagtaa ca    22
<210>5
<211>17
<212>DNA
<213>人工序列
<220>
<223>接头
<400>5
ctcgtagact gcgtacc    17
<210>6
<211>18
<212>DNA
<213>人工序列
<220>
<223>接头
<400>6
aattggtacg cagtctac    18
<210>7
<211>16
<212>DNA
<213>人工序列
<220>
<223>接头
<400>7
gacgatgagt cctgag    16
<210>8
<211>14
<212>DNA
<213>人工序列
<220>
<223>接头
<400>8
tactcaggac tcat    14
<210>9
<211>18
<212>DNA
<213>人工序列
<220>
<223>引物
<400>9
agactgcgta ccaattca    18
<210>10
<211>17
<212>DNA
<213>人工序列
<220>
<223>引物
<400>10
gatgagtcct gagtaac    17
<210>11
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>11
cgtcagactg cgtaccaatt ca    22
<210>12
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>12
caagagactg cgtaccaatt ca    22
<210>13
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>13
tggtgatgag tcctgagtaa ca    22
<210>14
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>14
agccgatgag tcctgagtaa ca    22
<210>15
<211>19
<212>DNA
<213>人工序列
<220>
<223>引物
<400>15
gactgcgtac caattcaac    19
<210>16
<211>19
<212>DNA
<213>人工序列
<220>
<223>引物
<400>16
gatgagtcct gagtaacag    19
<210>17
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>17
cgtcagactg cgtaccaatt ca    22
<210>18
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>18
tggtgatgag tcctgagtaa ca    22
<210>19
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>19
caagagactg cgtaccaatt ca    22
<210>20
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>20
caagagactg cgtaccaatt ca    22
<210>21
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>21
acgtgtagac tgcgtaccga aa    22
<210>22
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>22
acgtgatgag tcctgagtaa ca    22
<210>23
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>23
cgtagtagac tgcgtaccga ac    22
<210>24
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>24
cgtagatgag tcctgagtaa ca    22
<210>25
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>25
gtacgtagac tgcgtaccga ag    22
<210>26
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>26
gtacgatgag tcctgagtaa ca    22
<210>27
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>27
tacggtagac tgcgtaccga at    22
<210>28
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>28
tacggatgag tcctgagtaa ca    22
<210>29
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>29
agtcgtagac tgcgtaccga aa    22
<210>30
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>30
agtcgatgag tcctgagtaa ca    22
<210>31
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>31
catggtagac tgcgtaccga ac    22
<210>32
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>32
catggatgag tcctgagtaa ca    22
<210>33
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>33
gagcgtagac tgcgtaccga ag    22
<210>34
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>34
gagcgatgag tcctgagtaa ca    22
<210>35
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>35
tgatgtagac tgcgtaccga at    22
<210>36
<211>22
<212>DNA
<213>人工序列
<220>
<223>引物
<400>36
tgatgatgag tcctgagtaa ca    22
<210>37
<211>20
<212>DNA
<213>人工序列
<220>
<223>引物
<400>37
aaacccaaac tcccccaatc    20
<210>38
<211>68
<212>DNA
<213>人工序列
<220>
<223>引物
<400>38
agcggataac aatttcacac aggacatcag tagtcacact ggtacaaaaa tagagcaaaa    60
cagtagtg                                                             68
<210>39
<211>91
<212>DNA
<213>人工序列
<220>
<223>探针
<400>39
aaacccaaac tcccccaatc gatttcaaac ctagaacaat gttggttttg gtgctaactt    60
caaccccact actgttttgc tctatttttg t                                   91
<210>40
<211>90
<212>DNA
<213>人工序列
<220>
<223>含有PI-201234SNP的序列
<400>40
aaacccaaac tcccccaatc gatttcaaac ctagaacagt gttggttttg gtgctaactt    60
caaccccact actgttttgc tctatttttg                                     90
<210>41
<211>90
<212>DNA
<213>人工序列
<220>
<223>PI-201234SNP
<400>41
aaacccaaac tcccccaatc gatttcaaac ctagaacagt gttggttttg gtgctaactt    60
caaccccact actgttttgc tctatttttg                                     90
<210>42
<211>42
<212>DNA
<213>人工序列
<220>
<223>SNPWave探针
<400>42
gatgagtcct gagtaaccca atcgatttca aacctagaac aa 42
<210>43
<211>44
<212>DNA
<213>人工序列
<220>
<223>SNPWave探针
<400>43
gatgagtcct gagtaaccac caatcgattt caaacctaga acag 44
<210>44
<211>50
<212>DNA
<213>人工序列
<220>
<223>snpwave探针
<400>44
tgttggtttt ggtgctaact tcaaccaaca tctggaattg gtacgcagtc    50
<210>45
<211>16
<212>DNA
<213>人工序列
<220>
<223>引物
<400>45
gactgcgtac caattc    16
<210>46
<211>16
<212>DNA
<213>人工序列
<220>
<223>引物
<400>46
gatgagtcct gagtaa    16
QQ群二维码
意见反馈