用于分选和鉴定的寡核苷酸标记物

申请号 CN96196135.X 申请日 1996-06-06 公开(公告)号 CN1146668C 公开(公告)日 2004-04-21
申请人 林克斯治疗公司; 发明人 S·布兰内尔; G·阿尔布勒池特;
摘要 本 发明 提供了使用寡核苷酸标记物示踪,鉴定和/或分选分子的类或亚群的方法。本发明的寡核苷酸标记物含有选自最少交叉杂交套的寡核苷酸,优选这种寡核苷酸中的每一种由多种长度为3-9个核苷酸的亚单位组成,最少交叉杂交套的亚单位与相同套的任何其他亚单位的互补物形成具有两个或多个错配的双螺旋或三螺旋。在特殊实施方案中所用的寡核苷酸标记物的数目取决于每一标记物的亚单位数目和亚单位的长度。本发明重要的一方面是寡核苷酸标记物通过将结合在聚核苷酸上的标记物与固相支持物上它们的互补物特异性杂交以分选聚核苷酸的应用,这一实施方案提供了易于自动化的处理和分选聚核苷酸的系统,它对大规模的平行操作特别有用,如大规模的DNA测序,mRNA指纹技术等等,其中可同时测定许多靶聚核苷酸或单个靶聚核苷酸的许多 片段 的序列。
权利要求

1.将聚核苷酸群中的聚核苷酸分选至一种或多种固相支持物上的 方法,此方法包括以下步骤:
(a)将标记物所有组成成分中的寡核苷酸标记物与聚核苷酸群 中的每种聚核苷酸结合以使所有组成成分中的每种寡核苷酸标记物选 自相同的最少交叉杂交套;
(b)对取样聚核苷酸群进行取样检验以使实质上该群中所有不 同的聚核苷酸结合有不同的寡核苷酸标记物;
(c)通过将寡核苷酸标记物与它们各自的互补物特异性杂交分 选该群中的聚核苷酸,可以识别同一类型序列的寡核苷酸标记物的互补 物作为实质上相同的寡核苷酸的均匀群体被结合至一种或多种固相支 持物上的空间分离的区域。
2.权利要求1的方法,其中所述寡核苷酸标记物是单链。
3.权利要求2的方法,其中所述寡核苷酸标记物的所述互补物是 单链。
4.权利要求3的方法,其中所述寡核苷酸标记物由多种亚单位组 成,每种亚单位由长度为3-9个核苷酸的寡核苷酸组成,每种亚单位 选自相同的最少交叉杂交套。
5.权利要求4的方法,其中所述寡核苷酸标记物的所述所有组成 成分含有至少1000个所述寡核苷酸标记物。
6.权利要求5的方法,其中每种所述寡核苷酸标记物与所述最少 交叉杂交套的每种其他寡核苷酸标记物至少有3个核苷酸的差异。
7.权利要求6的方法,其中每种所述寡核苷酸标记物的长度范围 为12-60个核苷酸。
8.权利要求7的方法,其中所述的一种或多种固相支持物是微粒。
9.权利要求7的方法,其中所述所有组成成分含有至少10,000个 所述寡核苷酸标记物。
10.权利要求7的方法,其中所述一种或多种固相支持物中的每一 种为具有多种空间分离的表面区域的平面基质,这种表面区域中的每一 种结合有实质上相同的所述互补物的均一群体。
11.权利要求10的方法,其中所述所有组成成分含有至少100个 所述寡核苷酸标记物。
12.权利要求11的方法,其中所述寡核苷酸标记物中的每一种与 其他寡核苷酸标记物中的每一种至少有6个核苷酸的差异。
13.权利要求12的方法,其中所述所有组成成分含有至少1000个 所述寡核苷酸标记物。
14.权利要求1的方法,其中所述寡核苷酸标记物为双链。
15.权利要求14的方法,其中所述寡核苷酸标记物具有第一条链 和第二条链以使第一条链为高嘧啶,第二条链为高嘌呤。
16.权利要求15的方法,其中所述互补物为高嘧啶。
17.权利要求16的方法,其中所述寡核苷酸标记物的所述所有组 成成分含有至少100个所述寡核苷酸标记物。
18.权利要求17的方法,其中每种所述寡核苷酸标记物与所述最 少交叉杂交套的每种其他寡核苷酸标记物至少有3个基对的差异。
19.权利要求18的方法,其中每种所述寡核苷酸标记物的长度范 围为12-60个核苷酸。
20.权利要求19的方法,其中所述的一种或多种固相支持物是微 粒。
21.权利要求20的方法,其中所述微粒的直径范围为5-40μm。
22.权利要求21的方法,其中所述所有组成成分含有至少1000个 所述寡核苷酸标记物。
23.权利要求22的方法,其中所述一种或多种固相支持物中的每 一种为具有多种空间分离的表面区域的平面基质,这种表面区域中的每 一种结合有实质上相同的所述互补物的均匀群体。
24.权利要求23的方法,其中所述所有组成成分含有至少10个所 述寡核苷酸标记物。
25.权利要求24的方法,其中每种所述寡核苷酸标记物与每种其 他寡核苷酸标记物至少有6个碱基对的差异。
26.权利要求25的方法,其中所述所有组成成分含有至少100个 所述寡核苷酸标记物。
27.鉴定mRNA分子群的方法,此方法包括以下步骤:
由mRNA分子群形成cDNA分子群以使每种cDNA分子结合有寡 核苷酸标记物,寡核苷酸标记物选自相同的最少交叉杂交套;
对cDNA分子群进行取样检验以使实质上所有不同的cDNA分子 结合有不同的寡核苷酸标记物;
通过将寡核苷酸标记物与它们各自的互补物特异性杂交以分选 cDNA分子,各自的互补物作为实质上相同的互补物的均匀群体被结合 至一种或多种固相支持物上的空间分离的区域;
测定被分选的每种cDNA分子部分的核苷酸序列;
通过cDNA分子序列部分的频率分布鉴定mRNA分子群。
28.权利要求27的方法,其中所述寡核苷酸标记物是单链。
29.权利要求28的方法,其中所述寡核苷酸标记物的所述互补物 是单链。
30.权利要求29的方法,其中所述寡核苷酸标记物由多种亚单位 组成,每种亚单位由长度为3-9个核苷酸的寡核苷酸组成,每种亚单 位选自相同的最少交叉杂交套。
31.权利要求29的方法,其中实质上所有所述的不同寡核苷酸标 记物相互之间的差异表现为至少具有两个不同的所述亚单位。
32.权利要求31的方法,其中所述一个或多个固相支持物是微粒, 其中所述的将所述cDNA分子分选至微粒上的步骤产生了荷载微粒的 亚群和无荷载微粒的亚群。
33.权利要求32的方法,进一步包括从所述无荷载的微粒中分离 所述荷载微粒的步骤。
34.权利要求33的方法,进一步包括重复所述的取样、分选和分 离步骤直至将大量所述荷载微粒积累为至少10,000个的步骤。
35.权利要求33的方法,进一步包括重复所述的取样、分选和分 离步骤直至将大量所述荷载微粒积累为足以估计所述群中以0.1%- 5%,95%置信限为不大于所述群的0.1%的频率范围存在的cDNA分子 的相对丰度的步骤。
36.检测靶聚核苷酸中大量选定的靶序列存在与否的方法,此方法 包括以下步骤:
在靶聚核苷酸中加入大量连接探针,每种连接探针包括第一种寡核 苷酸和第二种寡核苷酸,所述第二种寡核苷酸与靶聚核苷酸中的一种选 定的靶序列的相邻部分的序列互补,第一种寡核苷酸结合有寡核苷酸标 记物,每种寡核苷酸标记物选自相同的最少交叉杂交套,每种连接探针 具有不同的寡核苷酸标记物;
将连接探针与靶聚核苷酸杂交;
每当第一和第二种寡核苷酸与相邻的靶序列形成完全匹配的双螺 旋时,在能有效连接第一和第二种寡核苷酸的条件下处理经杂交的第一 和第二种寡核苷酸;
从未连接的第一和第二种寡核苷酸中分离连接的第一和第二种寡 核苷酸;
通过将寡核苷酸标记物与它们各自的互补物特异性杂交以分选连 接的第一和第二种寡核苷酸,各自的互补物作为实质上相同的寡核苷酸 的均匀群体被结合至一种或多种固相支持物上的空间分离的区域;
通过在一种或多种固相支持物上连接的第一和第二种寡核苷酸的 存在与否检测选定靶序列的存在与否。
37.权利要求36的方法,其中所述第二种寡核苷酸包括捕获成分 和报道成分。
38.权利要求37的方法,其中所述一种或多种固相支持物为具有 多种空间上可标明位置的分离的表面区域的平面基质,这种表面区域中 的每一种结合有实质上相同的所述互补物的均匀群体。
39.权利要求38的方法,其中所述捕获成分是生物素。
40.权利要求39的方法,其中所述多种为至少20种。
41.鉴定聚核苷酸的方法,此方法包括以下步骤:
(a)提供复杂性实质上比聚核苷酸群的复杂性大的寡核苷酸标 记物的所有组成成分,寡核苷酸标记物选自相同的最少交叉杂交套;
(b)将寡核苷酸标记物的所有组成成分与聚核苷酸群连接以形 成标记物-聚核苷酸缀合物的混合物;
(c)对标记物-聚核苷酸缀合物的混合物进行取样检验得到标 记物-聚核苷酸缀合物的亚群以使实质上所有具有不同聚核苷酸的标 记物-聚核苷酸缀合物都有不同的寡核苷酸标记物;
(d)通过将寡核苷酸标记物与它们各自的互补物特异性杂交鉴 定标记物-聚核苷酸缀合物亚群的聚核苷酸。
42.权利要求41的方法,其中所述寡核苷酸标记物是单链。
43.权利要求42的方法,其中所述寡核苷酸标记物的所述互补物 是单链。
44.权利要求43的方法,其中所述寡核苷酸标记物由多种亚单位 组成,每种亚单位由长度为3-9个核苷酸的寡核苷酸组成,每种亚单 位选自相同的最少交叉杂交套。
45.权利要求44的方法,其中所述所有组成成分的所述复杂性至 少为所述聚核苷酸群的所述复杂性的10倍。
46.权利要求45的方法,其中每一种所述寡核苷酸标记物的长度 范围为12-60个核苷酸。
47.权利要求46的方法,其中所述一种或多种固相支持物是微粒。
48.权利要求47的方法,其中所述一种或多种固相支持物中的每 一种为具有多种空间分离的表面区域的平面基质,这种表面区域中的每 一种结合有实质上相同的所述互补物的均匀群体。
49.权利要求48的方法,其中所述寡核苷酸标记物中的每一种与 其他寡核苷酸标记物中的每一种至少有6个核苷酸的差异。
50.权利要求49的方法,其中所述寡核苷酸标记物的所述互补物 作为实质上相同的寡核苷酸的均匀群体被结合至一种或多种固相支持 物上的空间上被标明位置的区域。
51.权利要求41的方法,其中所述寡核苷酸标记物是双链。
52.权利要求51的方法,其中所述寡核苷酸标记物具有第一条链 和第二条链以使第一条链为高嘧啶,第二条链为高嘌呤。
53.权利要求52的方法,其中所述互补物为高嘧啶。
54.权利要求53的方法,其中所述寡核苷酸标记物由多种亚单位 组成,每种亚单位由长度为4-10个碱基对长的寡核苷酸组成,每种亚 单位选自相同的最少交叉杂交套。
55.寡核苷酸标记物的所有组成成分,该所有组成成分选自由
                        S1S2S3...Sn 形式的寡核苷酸组成的组,其中S1至Sn的每一种为亚单位,所述亚单 位由长度为3-9个核苷酸的寡核苷酸组成,并选自最少交叉杂交套;
n的范围为4-10,条件是所有组成成分的寡核苷酸标记物的长度 范围为12-60个核苷酸或碱基对;
其中所有组成成分中至少有100个寡核苷酸标记物。
56.长度范围为12-30个核苷酸或碱基对的寡核苷酸标记物的所 有组成成分,所有组成成分的寡核苷酸标记物选自相同的最少交叉杂交 套,所有组成成分的寡核苷酸标记物相互之间至少有6个核苷酸或碱基 对的差异。

说明书全文

                       本发明领域

本发明一般涉及用寡核苷酸标记物鉴定、分选、和/或示踪分子, 尤其是聚核苷酸的方法,更具体地涉及通过标记物与它们的互补物特异 性杂交而分选和分析这种经标记的聚核苷酸的方法。

                         背景

寡核苷酸与它们的类似物的特异性杂交是十分重要的方法,它被广 泛应用于多种研究、医学和工业领域,包括在诊断试验中鉴定与疾病相 关的聚核苷酸,筛选新的靶聚核苷酸的克隆,在聚核苷酸混合物印迹中 鉴定特殊的聚核苷酸,扩增特殊的靶聚核苷酸,在治疗上阻断未适当表 达的基因,DNA测序等等,例如Sambrook et al,Molecular Cloning:A Laboratory Manual,2nd Edition(Cold Spring Harbor Laboratory,New York,1989);Keller and Manak,DNA Probes,2nd Edition(Stockton Press,New York,1993);Milligan et al,J.Med.Chem.,36:1923-1937 (1993);Drmanac et al,Science,260:1649-1652(1993);Bains,J.DNA Sequencing and Mapping,4:143-150(1993)。

已有人建议使用特异性杂交法示踪,恢复和鉴定被寡核苷酸标记物 标记的化合物。例如,在多重DNA测序中,使用寡核苷酸标记物鉴定 凝胶上电泳分离的带,所述带由相同测序反应中产生的DNA片段组 成。在此方法中,得自许多测序反应中的DNA片段被分离于凝胶的相 同泳道上,然后将凝胶印迹于分离的固相物质上,用与互补的标记物特 异性杂交的寡核苷酸探针可在固相物质上观察到来自分离的测序反应 中的片段带,Church et al,Science,240:185-188(1988)。寡核苷酸 标记物的类似用途也已被建议用于鉴定炸药,潜在的污染物,如原油, 和预防及检测假冒物的流传,例见Dollinger,page265-274,Mullis et al, editors,The P0lymerase Chain Reaction(Birkhauser,Boston,1994)。 最近,使用寡核苷酸标记物的系统也已被建议为在多重组合化学文库中 处理和鉴定各个分子的方法,例如,可有助于筛选这种候选药物文库, Brenner and Lerner,Proc.Natl.Acad.Sci.,89:5381-5383(1992);Alper、 Science,264:1399-1401(1994);和Needels et al,Proc.Natl.Acad.Sci., 90:10700-10704(1993)。

这种标记计划的成功实现多半取决于能否使标记物和其互补探针 之间的特异性杂交成功地进行,即对于能成功鉴定物质的寡核苷酸标记 物而言,错误的阳性和错误的阴性信号的数目必须减至最少。不幸的是 由于双螺旋或三螺旋结构的核苷酸中配对和碱基堆积自由能差异 很大,因此这种假信号很常见。例如,由与其互补物结合的腺苷(A) 和胸苷(T)重复序列组成的双螺旋同由与含错配的部分互补靶结合的 苷(G)和胞苷(C)重复序列组成的等长双螺旋相比,稳定性较 差。因此,如果得自大的组合化学文库的所需化合物被前一个寡核苷酸 标记,一个值得注意的可能性会存在,即在经设计用于检测完全匹配的 富含AT的双螺旋的杂交条件下,被富含GC的寡核苷酸标记的不需要 的化合物(甚至在错配的双螺旋中)将会与由富含AT的标记物组成的 完全匹配的双螺旋一起被检测。在由Brenner等人(上述)建议的分子 标记系统中,通过使用所谓的“无逗号”(comma-less)密码解决了 与密切相关的标记物的错误杂交相关的问题,这可保证与其互补标记物 有关的未对齐的(或移码的)探针会导致其每五个或更多个三碱基信息 或“密码子”具有一个或多个错配的双螺旋。

即使可使用如氯化四甲铵的试剂来消除寡核苷酸双螺旋的碱基特 异性稳定性差异,但这种试剂的作用经常受限制,它们的存在会与选定 的化合物不相容,或使选定化合物的进一步操作,如通过聚合酶链反应 (PCR)扩增等变得更加复杂。

这种难题使得在分析多重或复合遗传基因座中同时使用多重杂交 探针,如通过多重PCR,反向点印迹等等变得十分困难,结果,对某 些基因座,如HLA基因的直接测序法已经被加速开发以作为使用特异 性杂交鉴定基因型的间接方法的可靠替代物,例见Gyllensten et al,Proc. Natl.Acad.Sci.,85:7652-7656(1988)。

将经克隆和相同标记的DNA片段分选至不同的固相支持物的能 会促进这种测序,特别是当与对平行的许多样品同时使用不以凝胶为基 础的测序方法相结合时更是如此。

鉴于上文所述的内容,一种以寡核苷酸为基础的标记系统是有用 的,所述系统可提供大量的标记物所有组成成分,但不需使用特殊试剂 改变天然碱基配对和碱基堆积自由能差异即可使错误的阳性和错误的 阴性信号的发生率减至最低。这种标记系统可应用于很多领域,包括组 合化学文库的构建和使用、DNA的大规模图谱测定和测序、基因鉴 定、医疗诊断等等。

                       发明概述

本发明的目的之一是提供示踪、恢复和鉴定化合物的分子标记系 统。

本发明的另一个目的是提供通过寡核苷酸标记物和其互补物的特 异性杂交将同一分子,或分子的亚类,尤其是聚核苷酸分选至固相物质 的表面的方法。

本发明的另一个目的是提供分析患病和正常组织中基因表达模式 的方法。

本发明的另一个目的是提供靶聚核苷酸数以千计的片段,特另是随 机重叠的片段的标记和分选系统以供同时分析和/或测序。

本发明的另一个目的是提供对靶聚核苷酸测序的快速和可靠的方 法,所述靶聚核苷酸的长度为几百个碱基对至几万个碱基对。

本发明的另一个目的是提供降低大量测序项目中所需的独立模板 制备步骤的数目的方法,所述测序项目使用常规的以Sanger法为基础 的测序技术。

本发明通过提供使用寡核苷酸标记物示踪、鉴定、和/或分选分子 的类或亚群的方法和物质来实现这些和其他目的。本发明的一个重要特 征是寡核苷酸标记物为最少交叉杂交的一套寡核苷酸的成员,此套寡核 苷酸的序列与相同套的所有其他成员的序列至少有两个核苷酸的差 异,因此,此套的每一成员不能与具有两个以下错配的任何其他成员的 互补物形成双螺旋(或三螺旋)。本发明寡核苷酸标记物的互补物(本 文被称为“标记互补物”)可含有天然的核苷酸或非天然的核苷酸类似 物,优选标记互补物与固相支持物结合。这种寡核苷酸标记物当与它们 的相应标记互补物一起使用时可提供增强杂交特异性的方法以分选、示 踪、或标记分子,尤其是聚核苷酸。

各套最少交叉杂交的寡核苷酸标记物和标记物互补物可以组合合 成,也可以分别合成,这取决于所需套的大小以及试图使交叉杂交减少 的程度(或换句话说,试图使特异性增强的程度)。例如,最少交叉杂 交套可由一套分别合成的相互间至少有4个核苷酸差异的10-聚体序 列组成,此套最大为332(当由3种核苷酸组成,并使用如附录Ic所 公开的计算机程序计数时)。另外,一套最少交叉杂交的寡核苷酸标记 物也可以由亚单位组合装配而成,所述亚单位自身选自最少交叉杂交 套。例如,可通过装配3个亚单位合成一套相互之间至少有3个核苷酸 差异的最少交叉杂交的12-聚体,所述亚单位选自一套相互之间至少 有3个核苷酸差异的最少交叉杂交的4-聚体。这一实施方案给出93 个,或729个,12-聚体的最大套。数目9是附录Ia的计算机程序列 出的寡核苷酸数目,如对于10-聚体而言,它假定仅使用了4种不同 类型的核苷酸中的3种。此套被描述为“最大套”,因为附录Ia-c的计 算机程序提供了给定输入(如长度、组成、成员间核苷酸数目的差异) 的最大套,其他最少交叉杂交套可以从这种经计算套的亚套中形成。

寡核苷酸标记物可以是单链,并被设计成通过形成双螺旋以与单链 标记互补物特异性杂交,或通过形成三螺旋以与双链标记互补物特异性 杂交。寡核苷酸标记物也可以是双链,并被设计成通过形成三螺旋以与 单链标记互补物特异性杂交。

当组合合成时,本发明的寡核苷酸标记物优选由许多亚单位组成, 每一亚单位由长度为3至9个核苷酸的寡核苷酸组成,其中每一亚单位 选自相同的最少交叉杂交套。在此实施方案中,所用寡核苷酸标记物的 数目取决于每一标记物中亚单位的数目以及亚单位的长度,数目一般比 所有可能的序列数目小很多,对于n个核苷酸长的标记物而言,标记物 的长度为4n。

在本发明的一个方面,使用与固相支持物结合的寡核苷酸标记物的 互补物从各自含有标记物的聚核苷酸混合物中分选聚核苷酸。在此实施 方案中,在固相支持物,如微珠或单个支持物上一排合成位置中的特殊 位置的表面合成寡核苷酸标记物的互补物,以使相同序列群在特殊的区 域产生,即在微珠的情况下每一支持物的表面,或在一排的情况下每一 区域的表面仅被一种类型的具有特殊序列的互补物衍生化。这种微珠或 区域群含有不同序列的互补物的所有组成成分。本文所用的与寡核苷酸 标记物和标记互补物相关的术语“所有组成成分”是指在特殊实施方案 中组成标记物的一套最少交叉杂交的寡核苷酸或相应的一套标记互补 物。

每种欲被分选的聚核苷酸都具有结合的寡核苷酸标记物,以使不同 的聚核苷酸有不同的标记物。下文将更详细的解释,通过使用实质上比 聚核苷酸群更大的标记物所有组成成分并通过从全体被标记的聚核苷 酸中取出被标记的聚核苷酸的足够少的样品可以达到这一条件。取样之 后,当支持物和聚核苷酸群在允许寡核苷酸标记物与其各自的互补物特 异性杂交的条件下相混合时,同一聚核苷酸分选至特殊的微珠或区域 上。然后通过微生化技术在固相支持物上操作被分选的聚核苷酸群。

本发明的方法一般包括下列步骤:(a)将得自标记物所有组成成 分的寡核苷酸标记物与分子群中的每一分子结合(i)以使分子群中实 质上所有不同的分子或不同的分子亚群结合有不同的寡核苷酸标记物 和(ii)以使得自所有组成成分的每一寡核苷酸标记物选自相同的最少 交叉杂交套;(b)通过使寡核苷酸标记物与这种支持物上结合的它们 各自的互补物特异性杂交以将此群分子分选至一种或多种固相支持物 上。

本发明重要的一方面是使用寡核苷酸标记物分选聚核苷酸以平行 地进行序列测定。这种测序优选通过下列步骤进行:(a)从靶聚核苷 酸中产生大量覆盖靶聚核苷酸的片段;(b)将得自标记物所有组成成 分的寡核苷酸标记物与大量片段中的每一片段结合(i)以使实质上所 有不同的片段结合有不同的寡核苷酸标记物和(ii)以使得自所有组成 成分的每一寡核苷酸标记物选自相同的最少交叉杂交套;(c)通过使 寡核苷酸标记物与固相支持物上结合的它们各自的互补物特异性杂交 以将此片段分选至一种或多种固相支持物上;(d)优选通过下文所述 的单碱基测序法测定大量片段中的每一片段部分的核苷酸序列;(e) 通过整理片段的序列测定靶聚核苷酸的核苷酸序列。

本发明的另一个重要的方面是测定给定组织或细胞类型表达的基 因的分布图或频率分布,其中通过其部分序列鉴定每一个这种基因,优 选通过下列步骤测定这种频率分布:(a)由mRNA分子群形成cDNA 文库,cDNA文库中的每一cDNA分子结合有寡核苷酸标记物,(i) 以使实质上所有不同的cDNA分子结合有不同的寡核苷酸标记物和 (ii)以使得自所有组成成分的每一寡核苷酸标记物选自相同的最少交 叉杂交套;(b)通过使寡核苷酸标记物与结合在一种或多种固相支持 物上的它们各自的互补物特异性杂交以分选cDNA分子;(c)测定每 一被分选的cDNA分子部分的核苷酸序列;(d)从被分选的cDNA分 子部分的核苷酸序列形成mRNA分子的频率分布。

本发明克服了目前用寡核苷酸标记分子的方法的主要缺陷:通过编 码本发明之标记物的序列,标记物和另一个标记物的互补物之间任何错 配的双螺旋或三螺旋的稳定性比标记物与其自身互补物之间的任何完 全匹配的双螺旋的稳定性低很多,因此,可以消除因富含GC的标记物 的错配双螺旋比完全匹配的富含AT的标记物更加稳定造成的错误分选 问题。

当与固相支持物如微珠联合使用时,本发明提供了容易进行自动化 的系统以用于处理和分选聚核苷酸,所述系统对大量平行操作,如大量 DNA测序特别有用,其中许多靶聚核苷酸或单个靶聚核苷酸的许多片 段被同时测序和/或分析。

                      附图简述

图1是阐明产生最少交叉杂交套的一般算法流程图

图2图解阐明了根据本发明进行平行操作如聚核苷酸测序的装 置。

图3阐明了通过将经连接的探针分选至固相支持物上以进行基因 定型的实施方案。

                         定义

本文所用的与寡核苷酸标记物有关的“互补物”或“标记互补物” 是指寡核苷酸标记物可特异性地与之杂交形成完全匹配的双螺旋或三 螺旋的寡核苷酸。在特异性杂交形成三螺旋的实施方案中,可选择双链 或单链的寡核苷酸标记物,因此,在形成三螺旋的场合下,术语“互补 物”可包括单链寡核苷酸标记物的双链互补物,也可以包括双链寡核苷 酸标记物的单链互补物。

本文所用的术语“寡核苷酸”包括天然或经修饰的单体或键的线性 寡聚体,所述单体或键包括脱核苷、核苷、其端基异构形式、肽核酸 (PNA)等等,它们能利用单体与单体相互作用的规则模式,如 Watson-Crick型碱基配对、碱基堆积、Hoogsteen或反向Hoogsteen型 碱基配对等等、与靶聚核苷酸特异性结合。一般通过磷酸二酯键或其类 似物连接单体以形成大小范围为几个单体单位,如3-4至几十个单体 单位的寡核苷酸。每当寡核苷酸以字母顺序,如“ATGCCTG”表示时, 应理解除非另外说明,核苷酸从左至右为5′→3′方向,“A”表示脱 氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,“T”表示胸 苷。磷酸二酯键的类似物包括硫代磷酸酯、二硫代磷酸酯、 phosphoranilidate、基磷酸酯等等。本发明的寡核苷酸通常包括四种 天然的核苷酸;然而,它们也可包括非天然的核苷酸类似物。本领域的 技术人员清楚地知道何时使用具有天然或非天然核苷酸的寡核苷酸,例 如,需要通过酶加工时,通常需要由天然核苷酸组成的寡核苷酸。

与双螺旋有关的“完全匹配”指的是组成双螺旋的聚-或寡核苷酸 链相互之间形成了双链结构,以致每一链中的每一个核苷酸与其他链中 的核苷酸发生了Watson-Crick碱基配对。此术语也包含可能会被使用的 核苷类似物,如肌苷、具有2-嘌呤碱基的核苷等等的配对。至于三螺 旋,此术语指的是由完全匹配的双螺旋和第三条链组成的三螺旋,在第 三条链中,每一个核苷酸与完全匹配的双螺旋碱基对之间发生 Hoogsteen或反向Hoogsteen联系。相反,标记物和寡核苷酸之间双螺 旋中的“错配”指的是双螺旋或三螺旋中的核苷酸对或三联体不发生 Watson-Crick和/或Hoogsteen和/或反向Hoogsteen结合。

本文所用的“核苷”包括天然核苷,包括2-脱氧和2’-羟基形式, 例见Kornberg and Baker,DNA Replication,2nd Ed.(Freeman,San Francisco,1992)。与核苷有关的“类似物”包括具有经修饰的碱基组 成成分和/或经修饰的糖基组成成分的合成核苷,例见Scheit,Nucleotide Analogs(John Wiley,New York,1980);Uhlman and Peyman, Chemical Reviews,90:543-584(1990),等等,仅有的附加条件是它 们应能特异性杂交。这种类似物包括被设计用于增强结合特性、降低复 杂性、增加特异性等等的合成核苷。

本文所用的与聚核苷酸有关的“序列测定”或“测定核苷酸序列” 包括测定聚核苷酸的部分以及全部的序列信息。即此术语包括有关靶聚 核苷酸的序列比较、指纹测定、和类似信息平,以及靶聚核苷酸中的 核苷,通常为每个核苷的确切鉴定和定序。此术语也包括在靶聚核苷酸 内鉴定、定序和定位四种类型核苷酸中的一、二或三种的确定。例如, 在一些实施例中,可通过鉴定一种类型的核苷酸如胞嘧啶在靶聚核苷酸 “CATCGC…”中的顺序和位置,使其序列被表示为二元密码子,如 用“100101…”表示“C-(非C)-(非C)-C-(非C)-C…”等来 实现序列测定。

本文所用的与聚核苷酸群有关的术语“复杂性”指的是该群中存在 的不同类分子的数目。

                     发明的详细描述

本发明提供了通过使用寡核苷酸标记物标记和分选分子,尤其是聚 核苷酸的方法。本发明的寡核苷酸标记物属于若干套最少交叉杂交的寡 核苷酸,因此,所有组成成分的任何两个寡核苷酸标记物的序列永远不 会比两个核苷酸的差异“更接近”。在特殊的实施方案中,所有组成成 分的任何两个寡核苷酸标记物的序列甚至可能“进一步”分离,例如, 可通过设计最少交叉杂交套以使寡核苷酸不能与具有三个以下错配核 苷酸的相同套的另一个成员的互补物形成双螺旋或三螺旋等。在这些实 施方案中,获得了更高的特异性,但标记物的所有组成成分的总量变小 了。因此,对于给定长度的标记物而言,必须在所需的特异性水平和所 需的所有组成成分的大小之间权衡。本发明对于标记和分选聚核苷酸以 平行操作,如测序、指纹测定或其他类型的分析特别有用。

             寡核苷酸标记物和标记物互补物

通过根据图3所示的一般算法的简单计算机程序,如其源密码示于 附录Ia和Ib的程序便于阐明一套最少交叉杂交的寡核苷酸的核苷酸序 列。附录Ia的程序minhx计算了具有4一聚体亚单位的所有最少交叉 杂交套,所述亚单位由三种类型的核苷酸组成。附录Ib的程序tagN阐 明了最少交叉杂交套的较长的寡核苷酸。容易写出用于列出针对本发明 任何实施方案的最少交叉杂交套的寡核苷酸的类似算法和计算机程 序。对于指定的长度和核苷酸差异的数目,下表I提供了对若干套最少 交叉杂交的寡核苷酸的大小的指导,上述计算机程序被用于得出数目。

                          表I

寡核苷酸    最少交叉杂交  最大的最少    具有4个词语   具有5个词语

词语长度    套的寡核苷酸  交叉杂交套    的所有组成    的所有组成

            之间核苷酸的  大小          成分的大小    成分的大小

            差异

4                3             9          65561       55.90×104

6                3             27        5.3×105    1.43×101

7                4             27        5.3×105    1.43×101

7                5             8          4096        3.28×104

8                3             190       1.30×109   2.48×1011

8                4             62        1.48×101   9.16×108

8                5             18        1.05×105   1.89×106

9                5             39        2.31×106   9.02×10′

10               5             332       1.21×1010

10               6             28        6.15×105   1.72×101

11               5             187

18               6           ≈25000

18               12            24

对于本发明的一些不需要标记物的极大的所有组成成分的实施方 案,可以分开合成最少交叉杂交套的寡核苷酸标记物。通过很多平行合 成法可直接合成含有几百至几千,或甚至几万个寡核苷酸的套,所述方 法例见Frank et al,美国专利4,689,405;Frank et al,Nucleic Acids Research,11:4365-4377(1983);Matson et al,Aral.Biochem., 224:110-116(1995);Fodor et al,国际专利申请PCT/US93/04145; Pease et al,Proc.Natl.Acad.Sci.,91:5022-5026(1994);Southern et al, J.Biotechnology,35:217-227(1994);Brennan,国际专利申请 PCT/US94/05896;Lashkari et al,Proc.Natl.Acad.Sci.,92:7912-7915 (1995);等等。

本发明的寡核苷酸标记物优选由长度为三和六个核苷酸之间的亚 单位组合合成,并优选选自相同的最少交叉杂交套。对于此范围内的寡 核苷酸,通过以图3算法为基础的计算机程序可阐明此套的成员。

通过首先确定最少交叉杂交套亚单位的特征,即长度、成员间碱基 差异的数目和组成,如它们是否由两个、三个或四个碱基组成,即可实 行图3的算法。制表Mn,n=1(100),它由给定长度和组成的所有可 能的序列组成,选择最初的亚单位S1并与直至表末的相继亚单位Si, i=n+1相比较(120)。每当相继的亚单位具有所需数目的错配以成为 最少交叉杂交套的成员时,将之储存于新表Mn+1中(125),该表也 含有在先前经过的步骤120中预先选择的亚单位。例如,在第一套比较 中,M2会含有S1;在第二套比较中,M3会含有S1和S2;在第三套比 较中,M4会含有S1、S2和S3;等等。类似地,表Mj中的比较在Sj 和Mj中所有相继亚单位之间进行。注意由于在相继经过的步骤130中 消除了亚单位,因此每一个相继的表Mn+1比其前任要小一些。比较完 表Mn中的每一个亚单位后(140),用新表Mn+1替代旧表,并开始下 一轮比较。当表Mn达到不再含有能与选定亚单位Si比较的相继亚单位 时,即Mn=Mn+1时,停止进程(160)。

最少交叉杂交套优选含有的亚单位与该套中每一个其他亚单位有 大致相等的双螺旋稳定性贡献,籍此,每一个亚单位和其互补物之间的 完全匹配的双螺旋的稳定性大致相等。已出版的选择最适PCR引物和 计算双螺旋稳定性的技术可提供选择这种套的指导,例见Rychlik et al, Nucleic Acids Research,17:8543-8551(1989)和18:6409-6412 (1990);Breslauer et al,Proc.Natl.Acad.Sci.,83:3746-3750 (1986);Wetmur.Crit Rev.Biochem.Mol.Biol.,26:227-259 (1991);等等。对于较短的标记物,如约30个或更少的核苷酸,优 选Rychlik和Wetmur描述的算法,对于较长的标记物,如约30-35 个或更多的核苷酸,便于使用Suggs et al,page683-693,Brown,editor, ICN-UCLA Symp.Dev.Biol.,Vol.23(Academic Press,New York, 1981)公开的算法。显然,本领域技术人员可以用很多方法设计在本 发明范围内的最少交叉杂交亚单位套,例如,为了将亚单位组装时末端 核苷酸的不同碱基堆积能的影响减至最小,可提供具有相同末端核苷酸 的亚单位。籍此,当亚单位被连接时,所有贴近的末端核苷酸的碱基堆 积能的总和相同,从而减少或消除标记物解链温度的不同。

下文斜体字表示的末端核苷酸“词语”(word)可以被加至标记 物的每一末端以使它与任何其他标记物互补物中的类似末端“词语”之 间总能形成完全的匹配。这种增加的标记物可以具有下列形式:     W   W1 W2…  Wk-1   Wk     W     W′   W1′ W2′…Wk-1′   Wk′     W′ 其中加撇的W′表示互补物。由于标记物的末端总是形成完全匹配的双 螺旋,因此所有错配的词语皆为内部错配,从而降低了否则在其末端具 有错配词语的标记物-互补物双螺旋的稳定性。众所周知,具有内部错 配的双螺旋比在末端具有相同错配的双螺旋明显地较不稳定。

最少交叉杂交套的优选实施方案是其亚单位由四种天然核苷酸中 的三种组成。寡核苷酸标记物中一种类型核苷酸的缺乏允许通过使用 DNA聚合酶的5’→3’外切核酸酶活性将靶聚核苷酸荷载于固相支持 物上,这一点下文将作更全面的讨论,下文是最少交叉杂交亚单位套的 例子,每个都含有选自A、G和T的四个核苷酸:

                      表II

  词语          W1       W2        W3        W4

  序列         GATT      TGAT       TAGA       TTTG

  词语          W5       W6        W7        W8

  序列         GTAA      AGTA       ATGT       AAAG 在此套中,每一成员与每一其他成员的互补物会形成具有三个错配碱基 的双螺旋。

另一些最少交叉杂交套的例子示于下表III。显然,通过替换不同 组的核苷酸,或通过使用已知最少交叉杂交套的亚套,可产生附加的 套。

                         表III

            4-聚体亚单位最少交叉杂交套的例子

    第1套  第2套   第3套  第4套   第5套   第6套

    CATT    ACCC     AAAC    AAAG     AACA     AACG

    CTAA    AGGG     ACCA    ACCA     ACAC     ACAA

    TCAT    CACG     AGGG    AGGC     AGGG     AGGC

    ACTA    CCGA     CACG    CACC     CAAG     CAAC

    TACA    CGAC     CCGC    CCGG     CCGC     CCGG

    TTTC    GAGC     CGAA    CGAA     CGCA     CGCA

    ATCT    GCAG     GAGA    GAGA     GAGA     GAGA

    AAAC    GGCA     GCAG    GCAC     GCCG     GCCC

            AAAA     GGCC    GGCG     GGAC     GGAG

    第7套  第8套   第9套  第10套  第11套  第12套

    AAGA    AAGC     AAGG    ACAG     ACCG     ACGA

    ACAC    ACAA     ACAA    AACA     AAAA     AAAC

    AGCG    AGCG     AGCC    AGGC     AGGC     AGCG

    CAAG    CAAG     CAAC    CAAC     CACC     CACA

    CCCA    CCCC     CCCG    CCGA     CCGA     CCAG

    CGGC    CGGA     CGGA    CGCG     CGAG     CGGC

    GACC    GACA     GACA    GAGG     GAGG     GAGG

    GCGG    GCGG     GCGC    GCCC     GCAC     GCCC

    GGAA    GGAC     GGAG    GGAA     GGCA     GGAA

使用标准的化学,如亚磷酰胺化学(公开于如下文献:Beaucage and Iyer,Tetrahedron,48:2223-2311(1992);Molko et al,美国专利 4,980,460;Koster et al,美国专利4,725,677;Caruthers et al,美国专 利4,415,732;4,458,066;和4,973,679;等等),便于在自动化的DNA 合成仪,如Applied Biosystem,Inc.(Foster City,California)392或394 型DNA/RNA合成仪中合成本发明的寡核苷酸标记物和它们的互补 物。也可以使用其他的化学,如可产生非天然骨架基团,如硫代磷酸酯, 磷酰胺酯等的化学,条件是所得的寡核苷酸能够特异性杂交。在一些实 施方案中,标记物可含有允许通过酶加工或处理的天然存在的核苷酸, 而相应的标记物互补物可含有能在分选过程中促使更加稳定的双螺旋 形成的非天然核苷酸类似物,如肽核酸,或类似化合物。

当使用微粒作为支持物时,可通过使用“割裂和混合”技术(例见 Shortle et al,国际专利申请PCT/US93/03418或Lyttle et al, Biotechniques,19:274-280(1995))的分亚单位合成法产生寡核苷酸 标记物和标记物互补物的所有组成成分,简单地说,合成的基本单位是 寡核苷酸标记物的亚单位。优选使用亚磷酰胺化学,为最少交叉杂交套 中的每一个亚单位制备3’亚磷酰胺寡核苷酸,例如,对于上文列出的 第一套,为8个4-聚体3’亚磷酰胺。按Shortle等人公开的方法或按 与使用核苷单体产生多种寡核苷酸文库所用的技术(例见Telenius et al, Genomics,13:718-725(1992);Welsh et al,Nucleic Acids Research, 19:5275-5279(1991);Grothues et al,Nucleic Acids Research, 21:1321-1322(1993);Hartley,欧洲专利申请90304496.4;Lam et al, Nature,354:82-84(1991);Zuckerman et al,Int.J.Pept.Protein Research,40:498-507(1992);等等)直接类似的方法进行合成。这 些技术一般只简单地需要在偶联步骤中将被激活的单体混合物应用到 正在增长的寡核苷酸中,优选在具有很多合成室的DNA合成仪中合成 寡核苷酸标记物和标记物互补物,所述合成室的数目比构建标记物所用 的不同种词语的数目大或与之相等,即优选对应于每种类型的词语有一 个合成室。在此实施方案中,一个核苷酸一个核苷酸地加入词语,以使 如果一个词语由五个核苷酸组成,在每个合成室中有五个单体偶联。当 词语被完全合成后,从室中取出合成支持物,混合,并重新放回室中以 供加入词语的下一轮循环使用。后一实施方案利用了如亚磷酰胺化学中 的单体增加的高的偶联产量。

通过分开合成互补链,然后在允许双螺旋形成的条件下混合,可制 备标记物的双链形式。另外,通过首先合成与作为引物结合位点的已知 寡核苷酸序列连接的单链所有组成成分也可以形成双链标记物,然后, 通过混合单链所有组成成分和引物并用聚合酶延伸可合成第二条链。后 一方法描述于Oliphant et al,Gene,44:177-183(1986)。然后可将这 种双螺旋标记物与靶聚核苷酸一起插入克隆载体以分选和处理根据本 发明的靶聚核苷酸。

当使用由结合特性增强的核苷酸,如PNA或寡核苷酸N3’→P5’ 磷酰胺酯组成的标记物互补物时,可通过在含有天然核苷酸的标记物与 它们的PNA或磷酰胺酯互补物之间形成D-环来实行分选,此方法可替 代使用DNA聚合酶的3’→5’外切核酸酶活性以使标记物为单链的“删 除”(“stripping”)反应。

本发明的寡核苷酸标记物大小范围为12至60个核苷酸或碱基对, 优选寡核苷酸标记物大小范围为18至40个核苷酸或碱基对,更优选寡 核苷酸标记物大小范围为25至40个核苷酸或碱基对。根据优选和更优 选的亚单位数目,这些范围表示如下:

                        表IV

            优选实施方案中标记物的亚单位数目

亚单位的单体            寡核苷酸标记物中的核苷酸

               (12-60)         (18-40)        (25-40)

     3        4-20亚单位      6-13亚单位     8-13亚单位

     4        3-15亚单位      3-15亚单位     6-10亚单位

     5        2-12亚单位      3-8亚单位      5-8亚单位

     6        2-10亚单位      3-6亚单位      4-6亚单位 最优选寡核苷酸标记物为单链,并通过Watson-Crick配对与标记物互补 物特异性杂交。

本发明的单链寡核苷酸标记物的所有组成成分优选含有至少100 个成员;这种标记物的所有组成成分更优选含有至少1000个成员;这 种标记物的所有组成成分最优选含有至少10,000个成员。

                     三螺旋标记物

在通过形成三螺旋发生特异性杂交的实施方案中,编码标记物序列 遵从的原则与形成双螺旋的标记物相同;然而,有关亚单位序列的选择 有进一步的强制。一般沿着双链靶中的高嘧啶-高嘌呤轨道,通过 Hoogsteen型结合的第三条链缔合最为稳定。通常在T-A*T或C-G*C基 元中形成碱基三联体(其中“-”表示Watson-Crick配对,“*”表示 Hoogsteen型结合);然而,其他的基元也是可能的,例如,根据条件 和链的组成,Hoogsteen碱基配对允许第三条链(Hoogsteen链)和与 第三条链结合的双螺旋的富含嘌呤的链之间平行和反平行定向。在文献 中有广泛的指导有关选择适当的序列、方向、条件、核苷类型(如使用 核糖核苷还是脱氧核糖核苷)、碱基修饰(如甲基化的胞嘧啶,等等) 以按特殊实施方案的需要最大化,或要不然调节三螺旋的稳定性,例见 Roberts et al,Proc.Natl.Acad.Sci.,88:9397-9401(1991);Roberts et al, Science,258:1463-1466(1992);Roberts et al,Proc.Natl.Acad.Sci., 93:4320-4325(1996);Distefano et al,Proc.Natl.Acad.Sci., 90:1179-1183(1993);Mergny et al,Biochemistry,30:9791-9798 (1991);Cheng et al,J.A m.Chem.Soc.,114:4465-4474(1992); Beal and Dervan,Nucleic Acids Research,20:2773-2776(1992);Beal and Dervan,J.Am.Chem.Soc.,114:4976-4982(1992);Giovannangeli et al,Proc.Natl.Acad.Sci.,89:8631-8635(1992);Moser and Dervan, Science,238:645-650(1987);McShan et al,J.Biol.Chem., 267:5712-5721(1992);Yoon et al,Proc.Natl.Acad.Sci.,89:3840-3844 (1992);Blume et al,Nucleic Acids Research,20:1777-1784(1992); Thuong and Helene,Angew.Chem.Int.Ed.Engl.32:666-690(1993); Escude et al,Proc.Natl.Acad.Sci.,93:4365-4369(1996);等等。将单 链或双螺旋标记物与它们的单链或双螺旋互补物退火的条件是众所周 知的,例见Ji et al,Anal.Chem.65:1323-1328(1993);Cantor et al,美 国专利5,482,836;等等。使用三螺旋标记物的好处是不需要聚合酶的 “删除”反应以暴露标记物与其互补物退火。

本发明使用三螺旋杂交的寡核苷酸标记物优选为双链DNA,相应 的标记物互补物为单链,更优选使用5-甲基胞嘧啶取代标记物互补物 中的胞嘧啶以使标记物和其互补物之间形成的三螺旋的pH稳定性的范 围变宽。形成三螺旋的优选条件完全公开于上述文献中。简单地说,在 如1.0M NaCl,1.0M醋酸等的浓缩盐溶液中,在低于5.5(使用5-甲 基胞嘧啶时为6.5)的pH值下进行杂交,杂交温度取决于标记物的长 度和组成;然而,对于较长的18-20聚体的标记物,在室温下杂交即 已足够。用较稀的盐溶液,如10mM醋酸钠,100mM MgCl2,pH5.8在 室温下进行洗涤,通过在pH9.0的类似盐溶液中保温,从它们的标记物 互补物上将标记物洗脱下来。

通过附录Ic的计算机程序或类似程序可产生形成三螺旋的最少交 叉杂交套的寡核苷酸标记物。一套举例用的双链8-聚体词语列于下 表,以大写字母表示,其相应的互补物以小写字母表示。每一个这种词 语与该套中的每一个其他词语有三个碱基对的差异。

                           表V

            双链8-聚体标记物的最少交叉杂交套的例子

  5′-AAGGAGAG        5′-AAAGGGGA       5′-AGAGAAGA        5′-AGGGGGGG

  3′-TTCCTCTC        3′-TTTCCCCT       3′-TCTCTTCT        3′-TCCCCCCC

  3′-ttcctctc        3′-tttcccct       3′-tctcttct        3′-tccccccc

  5′-AAAAAAAA        5′-AAGAGAGA       5′-AGGAAAAG        5′-GAAAGGAG

  3′-TTTTTTTT        3′-TTCTCTCT       3′-TCCTTTTC        3′-CTTTCCTC

  3′-tttttttt        3′-ttctctct       3′-tccttttc        3′-ctttcctc

  5′-AAAAAGGG        5′-AGAAGAGG       5′-AGGAAGGA        5′-GAAGAAGG

  3′-TTTTTCCC        3′-TCTTCTCC       3′-TCCTTCCT        3′-CTTCTTCC

  3′-tttttccc        3′-tcttctcc       3′-tccttcct        3′-cttcttcc

  5′-AAAGGAAG        5′-AGAAGGAA       5′-AGGGGAAA        5′-GAAGAGAA

  3′-TTTCCTTC        3′-TCTTCCTT       3′-TCCCCTTT        3′-CTTCTCTT

  3′-tttccttc        3′-tcttcctt       3′-tccccttt        3′-cttctctt

                                表VI

                 与其标记物互补物形成三螺旋的多种

                  双链标记物的所有组成成分的大小

寡核苷酸    最少交叉杂交    最大的最少    具有4个词语   具有5个词语

词语长度    套的寡核苷酸    交叉杂交套    的所有组成    的所有组成

            之间核苷酸的    大小          成分的大小    成分的大小

            差异

  4              2               8          4096         3.2×104

  6              3               8          4096         3.2×104

  8              3               16       6.5×104      1.05×106

  10             5               8          4096

  15             5               92

  20             6               765

  20             8               92

  20             10              22

本发明的双链寡核苷酸标记物的所有组成成分优选含有至少10个 成员;这种标记物的所有组成成分更优选含有至少100个成员。对组合 合成的双链寡核苷酸标记物来说,词语优选为4-8个核苷酸长寡核苷 酸标记物优选为12-60个碱基对长,更优选这种标记物为18-40个 碱基对长。

                       固相支持物

本发明所使用的固相支持物可以有多种形式,包括微粒、珠、和膜、 载玻片或平板、金属板,微量机制的片屑等等。本发明的固相支持物也 可以包括多种组合物,所述组合物中包括玻璃、塑料、、链烷硫醇盐 衍生的金、纤维素、轻度交联和高度交联的聚苯乙烯、硅胶、聚酰胺等 等。优选或者使用分离的颗粒群以使每一个颗粒具有均匀的涂层,或者 将相同标记物(没有其他的标记物)的互补序列群,或单个或几个支持 物群与各含有均匀涂层的空间分离区域,或相同标记物(没有其他的标 记物)的互补序列群一起使用。在后一个实施方案中,可根据特殊的应 用改变区域的面积;区域的面积范围通常为几个μm2,如3-5至几百 个μm2,如100-500,优选这种区域在空间上分离以使由如荧光发射 的事件在相邻区域产生的信号能被所使用的检测系统分辨。在一些应用 中,合乎需要的区域具有一个以上标记物互补物的均匀涂层,如供同时 进行序列分析,或使分别标记的分子更加接近。

标记物互补物可以与固相支持物一起使用,所述标记物互补物在所 述固相支持物上合成,也可以被分开合成并结合于固相支持物上以供使 用,例见Lund et al,Nucleic Acids Research,16:10861-10880(1988); Albretsen et al,Anal.Biochem.,189:40-50(1990);Wolfet al,Nucleic Acids Research,15:2911-2926(1987);或Ghosh et al,Nucleic Acids Research,15:5353-5372(1987)。优选标记物互补物在其上合成和与 之一起使用的固相支持物是相同的,所述固相支持物可含有多种形式并 包括多种连接成分。这种支持物可含有某些区域的微粒或行列,或矩 阵,这些区域中合成均匀的标记物互补物群。本发明中可使用大量的微 粒支持物,包括由可控孔玻璃(CPG)制成的微粒,高度交联的聚苯 乙烯,丙烯酸类共聚物,纤维素,尼龙,葡聚糖,乳胶,聚丙烯等等, 例见下列文献:Meth.Enzymol.,Section A,pagesll-147,vol.44 (Academic Press,New York,1976);美国专利4,678,814;4,413,070; 和4,046,720;和Pon,Chapter 19,in Agrawal,editor,Methods in Molecular Biology,Vol.20,(Hummana Press,Totowa,NJ,1993)。微粒支持物进 一步包括可商购的核苷衍生的CPG和聚苯乙烯珠(如可购自Applied Biosystems,Foster City,CA);衍生化的磁性珠;接枝有聚乙二醇的聚 苯乙烯(如TentaGelTM,Rapp Polymere,Tubingen Germany);等等。 如材料,多孔性,大小,形状等等的支持物特征以及所用的连接成分类 型的选择取决于标记物被使用的条件,例如,在涉及用酶连续加工的应 用中,优选能使酶的位阻减至最小并便于接近底物的支持物和接头。在 选择最适当的微粒支持物时应考虑的其他重要因素包括大小的一致 性,作为合成支持物的效力,表面积已知的程度,和光学特性,例如下 文将要更全面描述的:当处理表面上大量的珠时,干净光滑的珠可提供 仪器上的便利。

用于在微粒表面结合和/或合成标记物的连接成分的例子公开于 Pon et al,Biotechniques,6:768-775(1988);Webb,美国专利 4,659,774;Barany et al,国际专利申请PCT/US91/06103;Brown et al, J.Chem.Soc.Commun.,1989:891-893;Damha et al,Nucleic Acids Research,18:3813-3821(1990);Beattie et al,Clinical Chemistry, 39:719-722(1993);Maskos and Southern,Nucleic Acids Research, 20:1679-1684(1992);等等。

如上所述,也可以在单个(或几个)固相支持物上合成标记物互补 物以形成被标记物互补物均匀包被的区域行列,即在此行列中的每一个 区域中合成了相同的标记物互补物。合成这种行列的技术公开于 McGall et al,国际专利申请PCT/US93/03767;Pease et al,Proc.Natl. Acad.Sci.,91:5022-5026(1994);Southern and Maskos,国际专利申 请PCT/GB89/01114;Maskos and Southern(上述);Southern et al, Genomics,13:1008-1017(1992);和Maskos and Southern,Nucleic Acids Research,21:4663-4669(1993)。

优选使用被相同标记物序列的互补物均匀包被的微粒或珠来实现 本发明,微粒支持物以及寡核苷酸与微粒支持物表面共价或非共价连接 的方法是众所周知的,例见下列文献:Beaucage and Iyer(上述); Gait,editor,Oligonucleotide Synthesis:A Practical Approach(IRL Press,Oxford,1984);和上述文献。一般无需苛求微粒的大小和形状; 但是优选微粒的大小范围为直径几个,如1-2至几百个,如200- 1000μm,因为它们所用的试剂和样品最少,便于寡核苷酸标记物大的 所有组成成分的构建和操作。

在一些优选的应用中,可将商购的可控孔玻璃(CPG)或聚苯乙 烯支持物用作本发明的固相支持物,还可使用具有碱基不稳定性接头并 结合有最先的核苷的这种支持物,例如,Applied Biosystems(Foster City,CA)。优选使用孔径大小为500-1000埃的微粒。

在其他优选的应用中,无孔微粒因其光学特性得以应用,当在如显 微镜载玻片的平面支持物上示踪大量微粒时使用它们较为有利。特别优 选的无孔微粒是得自Bangs Laboratories(Carmel,IN)的甲基丙烯酸 缩水甘油酯(GMA)珠,很多种大小的这种微粒都是有用的,可用多 种连接基团使之衍生化以合成标记物或标记物互补物。当大规模平行操 作经标记的微粒时,优选使用直径为5μm的GMA珠。

将标记物与聚核苷酸结合以分选至固相支持物上

本发明重要的方面是将例如得自cDNA文库的聚核苷酸群分选和 结合至固相支持物上的微粒或分离区域以使每种微粒或区域实质上只 结合有一种类型的聚核苷酸。通过确证实质上所用不同的聚核苷酸结合 有不同的标记物可以实现这一目的。通过在所有的标记物-聚核苷酸缀 合物全体中取出一个样品以供分析可以达到这一条件(相同的聚核苷酸 具有不同的标记物也可以接受,因为它仅仅导致相同的聚核苷酸在两个 不同的位置被操作或分析两次)。或者在标记物已与聚核苷酸结合之后 额外地(例如,通过从较大量的混合物中取出少量)进行取样,它可 作为加工聚核苷酸和标记物所用技术的次要效果而内在地进行,或者既 额外地进行取样又作为加工步骤的内在部分进行取样。

在构建实质上所有不同的cDNA具有不同标记物的cDNA文库时, 优选使用的标记物所有组成成分的复杂性,或不同标记物的数目大大超 过了提取自细胞或组织样品的mRNA的总数。优选标记物所有组成成 分的复杂性至少为聚核苷酸群的10倍;更优选标记物所有组成成分的 复杂性至少为聚核苷酸群的100倍。下文公开了使用引物混合物构建 cDNA文库的方案,所述引物混合物含有例如9-词语标记物的全部组 成成分。这种含标记物的引物混合物的复杂性为89,或约为1.34×108。 如Winslow et al,Nucleic Acids Research,19:3251-3253(1991)所述, 可从少至10-100个哺乳动物细胞中提取mRNA以构建文库。由于单 个哺乳动物细胞约含有约3.4×104种不同类型的mRNA分子约5×105 拷贝,故通过标准技术可从约100个细胞中分离mRNA,或(理论上 为)约5×107个mRNA分子。此数目与引物混合物的复杂性的比较显 示出无需任何多余的步骤,甚至假定mRNA以极好的效率(准确地说 为1%或更低的效率)转化成cDNA,cDNA文库构建的方案产生了含 有不超过不同标记物总数37%的群,即无需任何额外的取样步骤,此方 案内在地产生了含有37%,或低于37%的标记物所有组成成分的样品。 在这些条件下得到双倍的概率约为5%,这在优选的范围之内。对于得 自10个细胞的mRNA来说,甚至假定所有的加工步骤以100%的效率 发生,取样的标记物所有组成成分的份额降低至仅为3.7%。实际上, 构建cDNA文库的加工步骤的效率非常低,粗略地估计为好的文库应含 有提取自106个哺乳动物细胞的mRNA的约108个cDNA克隆。

在上述方案中使用较大量的mRNA,或一般而言为较大量的聚核 苷酸,其中所述这两种分子的数目超过了标记物所有组成成分的复杂 性,标记物-聚核苷酸缀合物混合物潜在地含有标记物和mRNA或聚 核苷酸类型的每一种可能的配对。此时,通过在连续稀释标记物-聚核 苷酸缀合物的起始混合物之后取出一部分样品可实现额外取样,所需稀 释的量取决于易于估算的起始物质的量和加工步骤的效率。

如果mRNA提取自106个细胞(它相当于约0.5μg的poly (A)+RNA),并且引物以约10-100倍过量的浓度存在,这是典型的方案 中所需的,例见Sambrook et al,Molecular Cloning,Second Edition,page 8.61[10μL浓度为1mg/mL的1.8kb mRNA约等于1.68×10-11摩尔, 10μL浓度为1mg/mL的18-聚体引物约等于1.68×10-9摩尔],那么 cDNA文库中的标记物-聚核苷酸缀合物的总数仅仅等于或少于 mRNA的起始数目,或约为5×1011个含有标记物-聚核苷酸缀合物的 载体(这次又假定cDNA构建中的每一步-第一条链的合成,第二条链 的合成,连接至载体-以极好的效率进行),这是很保守的估计,准确 的数目明显较低。

如果从反应混合物中随机取出n个标记物-聚核苷酸缀合物的样 品(通过取出一部分样品可实现这一步),取出具有相同标记物的缀合 物的概率由Poisson分布描述,即P(r)=e-λ(λ)r/r,其中r是具有相同标 记物的缀合物的数目,λ=np,其中p是给定标记物被选择的概率。如 果n=106,p=1/(1.34×108),那么λ=.00746,P(2)=2.76×10-5。因此, 一百万个分子的样品产生了完全在优选范围内的所期望的双倍数目。按 下述易于得到这种样品:假定5×1011mRNA完全转变为5×1011个含有 标记物-cDNA缀合物作为插入物的载体,体积为100μl的反应溶液中 有5×1011个载体。通过从原始溶液中转移10μl放入含90μl适当缓冲液 如TE的容器中可进行四次10倍连续稀释。可重复此方法以进行三次 额外的稀释,得到每μl含5×105个载体分子的100μl溶液。得自此溶液 的2μl的等分试样产生了106个含有标记物-cDNA缀合物作为插入物 的载体。然后通过直接转化感受态的宿主细胞,再培养以扩增此样品。

当然如上所述,上述方法中无一步骤能以极好的效率进行,具体地 说,当使用载体扩增标记物-聚核苷酸缀合物的样品时,转化宿主这一 步的效率很低,通常不超过1%的载体能被宿主摄取和复制,因此对于 这种扩增方法而言,仅需要更少的稀释就能得到106个缀合物的样品。

用多种方法,包括直接酶促连接,扩增,例如通过使用含标记物序 列的引物的PCR等等,可使寡核苷酸标记物的所有组成成分与聚核苷 酸群缀合。开始的连接步骤产生了很大的标记物-聚核苷酸缀合物群, 使单个标记物通常结合有许多不同的聚核苷酸。然而如上所述,通过取 出足够小量的缀合物样品,得到“双倍”(即相同的标记物在两个不同 的聚核苷酸上)的概率可以变得微不足道。一般来说,样品量越大,得 到“双倍”的概率就越大。因此应权衡下列两种计划,即是选择标记物 -聚核苷酸缀合物的较大样品还是选择其较小的样品,前者例如可保证 在鸟枪法测序操作中靶聚核苷酸的充分覆盖或快速变化的mRNA库的 充分表现度,后者可保证只存在最少数目的双倍。在大多数实施方案 中,双倍的存在仅仅增加了噪音额外的来源,或在测序的情况下,对扫 描和信号处理增加了一点混乱,这是因为可简单地忽略发出多种荧光信 号的微粒。

本文所用的标记物与分子,特别是聚核苷酸的结合有关的术语“实 质上所有的”反映了用于得到实质上不含双倍的标记物-分子缀合物群 的取样方法的统计学特性。从标记物-分子缀合物实际的百分率来说, 实质上所有的意思取决于标记物被使用的方式。对于核酸测序而言,优 选实质上所有的意思是至少百分之八十的聚核苷酸结合有独特的标记 物,更优选的意思是至少百分之九十的聚核苷酸结合有独特的标记物, 进一步更优选的意思是百分之九十五的聚核苷酸结合有独特的标记 物,最优选的意思是至少百分之九十九的聚核苷酸结合有独特的标记 物。

当聚核苷酸群由信使RNA(mRNA)组成时,优选通过用一套优 选含有标记物序列的互补物的引物逆转录mRNA来结合寡核苷酸标记 物。这种引物套的典型例子可具有下列序列:

5′-mRNA-[A]n-3′

         [T]19GG[W,W,W,C]9AC CAGCTGATC-5′-生物素 其中“[W,W,W,C]9”表示四个核苷酸中每一种的九个亚单位的寡核苷 酸标记物序列,“[W,W,W,C]”表示上文列出的亚单位序列,即“W” 表示T或A。如果使用的话,下划线序列识别可选择的限制性核酸内 切酶位点,该位点可用于将聚核苷酸从它通过生物素与固相支持物的结 合中释放出来。对于上述引物而言,与微粒结合的互补物具有下列形 式:

    5′-[G,W,W,W]9TGG-接头-微粒

逆转录后,例如可通过RNase H消化除去mRNA,使用例如下列 形式的引物合成cDNA的第二条链:

           5′-NRRGATCYNNN-3′ 其中N是A,T,G或C中的任一种;R是含嘌呤的核苷酸,Y是含嘧 啶的核苷酸。这一特殊的引物在最终的双链DNA中产生了Bst Yl限制 性位点,该位点与Sal I位点一起便于克隆到含有例如Bam HI和Xho I 位点的载体中。经Bst Y1和Sal I消化之后,典型的缀合物含具有下列 形式:

   5′-RCGACCA[C,W,W,W]9GG[T]19-cDNA-NNNR

         GGT[G,W,W,W]9CC[A]19-rDNA-NNNYCTAG-5′ 然后可使用标准的分子生物学技术处理聚核苷酸-标记物缀合物,例 如,可将上述缀合物(实际上是混合物)插入可商购的克隆载体,如 Stratagene Cloning System(La Jolla,CA);转染至宿主,如可商购的宿主 细菌;然后培养上述细菌以增加缀合物的数目,然后可使用标准技术, Sambrook et al,Molecular Cloning,Second Edition(Cold Spring Harbor Laboratory,New York,1989)分离克隆载体,或者可使用适当的衔接子和 引物以便通过PCR可增加缀合物群。

当使用以连接酶为基础的测序方法时,优选将经Bst Y1和Sal I消 化的片段克隆到经BamH I/Xho I消化的载体中,所述载体具有下列单 一拷贝的限制性位点: 5′-GA GGATGCCTTTAT GGATCCA CTCGAGATCCCAATCCA-3′

   FokI          BamHI    XhoI 这里增加了Fok I位点,该位点允许下文将更详细讨论的测序过程的起 始。

通过标准的克隆方法可使标记物缀合到现存文库的eDNA上。从它 们现存的载体上切割cDNA,分离,然后连接到含标记物所有组成成分 的载体上。优选通过用两种限制性酶裂解使含标记物的载体线性化以使 切割下的cDNA能以预定的方向被连接。线性化的含标记物的载体浓 度与cDNA插入物的浓度相比实质上是过量的以便连接可提供标记物 的内在取样。

扩增之后暴露单链标记物的一般方法涉及用T4 DNA聚合酶或类 似酶的5′→3′核酸外切酶的活性消化含有靶聚核苷酸的缀合物。当在单 个脱氧核苷三磷酸存在的情况下使用时,这种聚合酶会从双链片段的非 模板链上存在的3′凹端处裂解核苷酸直至单个脱氧核苷三磷酸的互补 物到达模板链。当这种核苷酸到达时,5′→3′的消化有效地停止了,因 为聚合酶的延伸活性增加核苷酸的速率比切割活性除去核苷酸的速率 高,结果,易于制备用三个核苷酸构建的单链标记物以负载于固相支持 物上。

也可使用此技术优先使靶聚核苷酸内部的Fok I位点甲基化,而使 聚核苷酸末端的单个Fok I位点非甲基化。首先使用聚合酶用脱氧胞苷 三磷酸使末端的Fok I位点变为单链,然后使片段的双链部分甲基化, 再在所有四种核苷三磷酸存在的条件下借助于DNA聚合酶填充单链末 端,从而再产生Fok I位点,显然,此方法还可推广至除Fok I外的核 酸内切酶。

当如上所述通过将它们变为单链以制备特异性杂交所用的寡核苷 酸标记物之后,在有利于标记物和其互补物之间形成完全匹配的双螺旋 的条件下将聚核苷酸与含有标记物互补序列的微粒相混合。文献中有产 生这些条件的深入指导,可提供这种指导的文献例子包括Wetmur, Critical Reviews in Biochemistry and Molecular Biology,26:227-259 (1991);Sambrook et al,Molecular Cloning:A Laboratory Manual,2nd Edition(Cold Spring Harbor Laboratory,New Youk,1989);等等。优选 杂交条件足够严紧以使仅完全匹配的序列形成稳定的双螺旋。在这种条 件下,通过其标记物特异性杂交的聚核苷酸可以与微粒上结合的互补序 列连接,最后洗涤微粒以除去带有未连接和/或错配标记物的聚核苷 酸。

当使用常规用作合成支持物的CPG微粒时,微粒表面的标记物互 补物密度典型地要比一些测序操作法中需要的要大,即在需要用多种酶 连续处理结合的聚核苷酸的测序方法中,密集间隔的聚核苷酸会趋于阻 止相对庞大的酶接近聚核苷酸。在这种情况下优选将聚核苷酸与微粒相 混合以使标记物互补物与聚核苷酸相比,以显著的过量存在,例如10∶1 -100∶1或更高,这可以保证微粒表面的聚核苷酸密度不至于高到抑制 酶接近的程度。优选微粒表面聚核苷酸之间的平均间隔为大约30- 100nm。有关标准的CPG支持物和Ballotini珠(一种固体玻璃支持物) 的比率的选择的指导例见Maskos and Southern,Nucleic Acids Research, 20:1679-1684(1992)。对于测序应用而言,优选直径范围为20-50μm 的标准CPG珠荷载约105个聚核苷酸,直径范围为5-10μm的GMA 珠荷载几万个聚核苷酸,如4×104-6×104。

在优选的实施方案中,在微粒上组合合成标记物互补物,因此在合 成的末期可得到微粒的复合混合物,从中可取出样品以荷载经标记的聚 核苷酸。微粒样品的大小取决于几个因素,包括标记物互补物所有组成 成分的大小,用于观察荷载微粒的装置的性质,如其容积、对多拷贝具 有相同标记物互补物的微粒(即“双倍珠”)的耐受性等等。下表提供 的指导有关微粒样品的大小、微粒的直径以及不同直径的微粒的排成队 形的行列的大致物理线度。

  微粒直径        5μm        10μm       20μm        40μm

  10-5平方埃的               3×105     1.26×106   5×106

  面积上荷载的

  聚核苷酸的最

  大数目

  106微粒单层   .45×45cm    1×1cm      2×2cm       4×4cm

  的大致面积 如下表所述微粒样品含有指定标记物互补物或以多拷贝存在的概率由 Poisson分布描述。

                          表VII

样品中微粒的     样品中存在的    样品中结合有独    样品中与一个其他

数目(在所有      标记物互补物    特的标记物互补    微粒携有相同的标

组成成分大小     的所有组成      物的微粒的份额    记物互补物的微粒

中所占的份额)    成分的份额                        (“双倍珠”)的份额

     m              l-e-m          m(e-m)/2           m2(e-m)/2

  1.000             0.63              0.37                0.18

   .693             0.50              0.35                0.12

   .405             0.33              0.27                0.05

   .285             0.25              0.21                0.03

   .223             0.20              0.18                0.02

   .105             0.10              0.09                0.005

   .010             0.01              0.01

                  高特异性分选和淘选

分选的动力学取决于寡核苷酸标记物与它们的标记物互补物的杂 交率,而该杂交率又取决于杂交反应中标记物的复杂性。因此应在分选 率和标记物复杂性之间权衡以使分选率得以提高,代价是杂交反应所涉 及的标记物的复杂性有所降低。如下文的解释,通过“淘洗”可改善权 衡的后果。

通过取足够少的样品以使样品中高百分比的标记物为独一无二的 且样品中实质上所有的标记物的最邻近的邻居至少有两个词语的差 异,可增加杂交的特异性。通过取出所含标记物-聚核苷酸缀合物的数 目约为所用的所有组成成分大小的0.1%或以下的样品可满足后一条 件。例如,如果使用选自表II的8个词语构建标记物,可产生88,或 约1.67×107个标记物和标记物互补物的所有组成成分。在上述的标记物 -cDNA缀合物文库中,0.1%的样品指的是存在约16,700个不同的标 记物,如果将它直接荷载于微粒的所有组成成分等价物上。或在此实施 例中为1.67×107个微粒的样品上,那么仅有很少的被取样的微粒亚套会 被荷载。通过进行“淘选”步骤可增加荷载微粒的密度(例如以供更有 效的测序),在淘选步骤中使用被取样的标记物-cDNA缀合物从未荷 载的微粒中分离荷载的微粒。因此在上述实施例中,即使“0.1%”的 样品仅含有16,700个cDNA,也可重复取样和淘选步骤直至积累如所 需的一样多的荷载微粒。

通过提供标记物-cDNA缀合物样品可进行淘选步骤,所述每个样 品在寡核苷酸标记物的相反端或远端含有捕获组成成分。优选捕获组成 成分为可从标记物-cDNA缀合物中释放的类型,以便通过单个碱基测 序法可测定标记物-cDNA缀合物的序列。这种组成成分可含有生物素, 洋地黄毒苷或类似配体,三螺旋结合区域等等,优选这种捕获组成成分 含有生物素组分。可通过大量标准技术将生物素与标记物-cDNA缀合 物结合。如果含有PCR引物结合位点的适当衔接子与标记物-cDNA缀 合物结合,可通过在取样后的扩增中使用生物素化的引物使生物素被结 合。或者,如果标记物-cDNA缀合物为克隆载体的插入物,通过用适 当的限制性酶消化切割标记物-cDNA缀合物,然后分离并在生物素化 的尿嘧啶三磷酸存在的条件下,借助于DNA聚合酶填充标记物远端的 突出链之后可使生物素被结合。

标记物-cDNA缀合物被捕获之后,可通过多种方法从生物素组成 成分中将之释放下来,例如可通过还原裂解(如Herman et al,Anal. Biochem.,156:48-55(1986))或光化学裂解(如Olejnik et al,Nucleic Acids Research,24:361-366(1996)),或在PCR引物中引入限制性位点 以酶促裂解化学键来做到这一点。通过考虑上述标记物-聚核苷酸缀合 物文库可举例说明后一实施方案: 5′-RCGACCA[C,W,W,W]9GG[T]19-cDNA  -NNNR

    GGT[G,W,W,W]9CC[A]19-rDNA  -NNNYCTAG-5′ 可将下述衔接子连接到这些片段的末端以允许通过PCR扩增:

          5′-XXXXXXXXXXXXXXXXXXXXXX

              XXXXXXXXXXXXXXXXXXXXXXYGAT

                   右衔接子

          GATCZZACTAGTZZZZZZZZZZZZ-3′

              ZZTGATCAZZZZZZZZZZZZ

                   左衔接子

          ZZTGATCAZZZZZZZZZZZZ-5′-生物素

                    左引物 其中“ACTAGT”是Spe I识别位点(它可产生为单个碱基测序准备的 交错切割),X′和Z′是经选择可使各个引物的退火和解离温度大致相 同的核苷酸。在衔接子连接和通过使用生物素化的引物的PCR扩增之 后,通过T4 DNA聚合酶的外切核酸酶活性使缀合物的标记物变成单 链,缀合物与结合有标记物互补物的微粒样品,如所有组成成分的等价 物联合。在严紧条件下退火(以使标记物的错误结合减至最少)后,优 选将缀合物与其标记物互补物连接,通过用亲和素化的磁性珠捕获或类 似的捕获技术从未荷载的微粒中分离荷载的微粒。

回到实施例,此方法导致约10,500(=16,700×63)个具有不同标 记物的荷载微粒的积累,通过用Spe I裂解可从磁性珠上将之释放。用 微粒和标记物-cDNA缀合物的新样品重复此方法40-50次,收集被释 放的微粒可积累4-5×105 cDNA,然后通过单个碱基测序技术同时测定 收集的微粒的序列。

决定重复多少次取样和淘洗步骤,或更一般地,决定分析多少 cDNA,取决于人们的目的,如果目的是监测相对共用序列,例如组成 5%或以上的序列的丰度的变化,那么相对少的样品,即总群大小的一 小份就可允许在统计学意义上估计相对丰度。另一方面,如果想监测稀 有序列,如组成某群的0.1%或以下的序列的丰度,那么就需要大量样 品。一般在样品大小和以样品为基础的相对丰度的估计值的可靠性之间 有直接的关系。关于决定适当的样品大小以作出可靠的统计学估计,文 献中有深入的指导,如Koller et al,Nucleic Acids Research,23:185-191 (1994);Good,Biometrika,40:16-264(1953);Bunge et al,J.Am.Stat. Assoc.,88:364-373(1993);等等。为了基于分析一系列含有3.0-3.5×104 个不同序列的105-108个独立克隆的cDNA文库以监测基因表达的变 化,优选积累至少104个序列的样品以分析每个文库,更优选积累至少 105个序列的样品以分析每个文库;最优选积累至少5×105个序列的样 品以分析每个文库。或者被取样的序列数目优选足以估计以频率范围为 0.1%-5%,95%的置信限为不大于该群大小的0.1%存在的序列的相 对丰度。

                    单个碱基DNA测序

用DNA测序的常规方法(例见Hultman et al,Nucleic acids Research, 17:4937-4946(1989))可使用本发明,然而为了平行地或同时测定多种 聚核苷酸的序列,优选一种DNA测序方法,该方法既不需要电泳分离 大小相近的DNA片段,也不必通过如肽测序中所用的独立的分析步骤 分析裂解的核苷酸,优选此方法可允许通过处理和检测连续的循环逐步 鉴定序列中的核苷酸,通常一次鉴定一个。这种方法学在本文中被称作 “单个碱基”测序法。单个碱基法公开于下列文献:Cheesemam,美国 专利5,302,509;Tsien et al,国际专利申请WO 91/06678;Rosenthal et al, 国际专利申请WO 93/21340;Canard et al,Gene,148:1-6(1994);和 Metzker et al,Nucleic acids Research,22:4259-4267(1994)。

国际专利申请PCT/US 95/03678中描述了适于与本发明一起使用 并不需要电泳分离DNA片段的DNA测序“单个碱基”法。简单地说, 此方法包括下列步骤:(a)将探针与具有突出链的聚核苷酸末端连接 以形成连接的复合物,所述探针具有聚核苷酸的互补突出链,探针还具 有核酸酶识别位点;(b)从连接的复合物中除去未连接的探针;(c) 通过鉴定连接的探针鉴定聚核苷酸突出链中的一个或多个核苷酸; (d)用核酸酶裂解连接的复合物;和(e)重复步骤(a)-(d) 直至测定完聚核苷酸或其部分的核苷酸序列。

当在平行测序操作中测定不同的空间上可标明位置的固相支持 物,如被固定的微粒上结合的几个不同靶聚核苷酸的序列时可使用产生 单个信号的组成成分,如单个荧光染料。通过提供四套探针可实行这一 点,所述探针连续应用于不同微粒上的多种靶聚核苷酸。这种探针套的 例子示于下表:

     第1套               第2套              第3套              第4套

 ANNNN...NN         dANNNN...NN        dANNNN...NN        dANNNN...NN

     N...NNTT...T*    d N...NNTT...T       N...NNTT...T       N...NNTT...T

dCNNNN...NN          CNNNN...NN        dCNNNN...NN        dCNNNN...NN

     N...NNTT...T        N...NNTT...T*     N...NNTT...T       N...NNTT...T

dGNNNN...NN         dGNNNN...NN        GNNNN...NN         dGNNNN...NN

     N...NNTT...T        N...NNTT...T       N...NNTT...T*     N...NNTT...T

dTNNNN...NN         dTNNNN...NN        dTNNNN...NN         TNNNN...NN

     N...NNTT...T        N...NNTT...T       N...NNTT...T       N...NNTT...T* 其中所列的每个探针表示43=64个寡核苷酸的混合物,以使顶端链3′ 末端核苷酸的身份被固定,由核苷酸的每个3-聚体变换或复杂性降低 的类似物填充突出链的其他位置。所列探针也显示出具有单链poly-T 尾,与末端胸苷结合的产生信号的组成成分(以“T*”表示)。未被 标记的探针上的“d”指的是阻断连接的组成成分或缺乏3′-羟基,这 可以防止未标记的探针被连接,优选这种3′-末端的核苷酸是双脱氧核 苷酸。在此实施方案中,第1套探针首先被用于多种靶聚核苷酸并经过 连接酶处理以使靶聚核苷酸被连接,所述靶聚核苷酸具有与经标记探针 的3′末端腺苷互补的胸苷。将未被标记的探针同时应用以使不适当的连 接最少化。通过探针上携带的标记物产生的信号鉴别与以“A”终止 的探针形成连接复合物的靶聚核苷酸的位置。洗涤和裂解之后,使用第 2套探针,此时,通过位置鉴别与以“C”终止的探针形成连接复合物 的靶聚核苷酸,类似地,使用第3和第4套探针鉴别阳性信号的位置。 连续进行持续使用这四套探针的此方法直至鉴定出靶聚核苷酸上所需 数目的核苷酸。显然,普通技术人员可以构建出具有许多变化的类似套 探针,如具有不同长度的突出链,阻断未标记探针的连接的不同组成成 分,标记探针的不同方式等等。

                观察微粒表面的酶促进程

                  和/或结合事件的装置

本发明的目的是通过标记物与其互补物特异性杂交以将同一分 子,特别是聚核苷酸分选至微粒表面。一旦这种分选已经发生,可使用 多种方法检测分子的存在或在它们上面进行的操作,所述方法的选择取 决于经标记分子的性质,是分开还是“分批”检测微粒,是否需要重复 测量等等。典型地,将被分选的分子暴露于供结合的配体,如在药物开 发中,或经受化学或酶促过程,如在聚核苷酸测序中。在这两种应用中 常常需要同时观察大量微粒上对应于这种事件或过程的信号。如Lam 等人(上述)所述,给这种大规模的平行操作提供了携有经分选的分子 的微粒(本文被称为“荷载”微粒)。

每当使用发光信号,如化学发光,荧光等以检测事件或过程时,优 选荷载微粒分布于平面基质,如玻璃载玻片上以用扫描系统检查,如国 际专利申请PCT/US91/09217,PCT/NL90/00081和PCT/US95/01886中有 述。扫描系统应能可再现地扫描基质并能利用同等系统限定预定区域中 每个微粒的位置。在聚核苷酸测序应用中,重要的是在连续扫描步骤中 微粒的位置鉴定是可重复的。

可由商购的组件构建这种扫描系统,例如由数字计算机控制的x-y 译码平台,与之同时使用的检测系统例如用于激起,收集和分选荧光信 号,所述检测系统含有一种或多种光电倍增管,或CCD列阵和适当的 镜片。在一些实施方案中,也可使用共焦点的光学系统,图5中图解阐 明了适用于四-色测序的扫描系统的例子。将基质300,如固定有微粒 的显微镜载玻片置于x-y译码平台302上,所述译码平台与适当的数字 程序计算机304相连接并受后者的控制,所述计算机可以是多种商用个 人计算机中的任一种,例如Apple Computer(Cupertino,CA)的486 机器或PowerPC 7100或8100型。National Instruments的商用实验室软 件,如Lab Windows可提供有关平台译码和数据收集功能的计算机软 件。

基质300和平台302与显微镜306有效地相连,所述显微镜具有一 个或多个物镜308,该物镜能将光收集并传递给基质300上固定的微 粒。从光源312发出的激发光束310(优选为激光)被导向光束分离设 备314(例如分光镜),它能重新引导光束穿过显微镜306和物镜308, 所述物镜依次将光束聚焦于基质300上。物镜308收集由微粒发出的荧 光316并引导它穿过光束分离设备314到达信号分配镜片318,镜片 318又将荧光导入一个或多个适当的光电子装置,以将一些荧光特性, 如强度,寿命等转换成电信号。信号分配镜片318可含有多种本技术领 域中的标准配件,如带通滤波器,纤维镜片,旋转镜,位置固定的镜和 透镜,绕射光栅等。如图5所示,信号分配镜片318将荧光316导向 四个分开的光电倍增管330,332,334和336,这些光电倍增管的输 出信号再被导向前置放大器光子计数器350,352,354和356,光 子计数器的输出信号由计算机304收集,贮存,分析,在图象360上可 以看见。或者,信号分配镜片318可以是绕射光栅,该光栅能将荧光信 号318导向CCD列阵。

扫描中位置确定的稳定性和可再现性在很大程度上将决定分开紧 密间隔的微粒的分辨率,优选此扫描系统应能分辨例如由一个颗粒的直 径或更小间隔分开的紧密间隔的微粒。因此对于大多数应用而言,例如 使用CPG微粒,扫描系统应至少具有分辨约为10-100m的物体的能 力。在一些实施方案中甚至需要更高的分辨率,但是随着分辨率的增 加,完全扫描基质所需的时间也会增加;因此,在一些实施方案中,不 得不在速度和分辨率之间作出选择。例如与原先的全部扫描相比,仅扫 描已知有微粒存在的位置的系统可使扫描时间增加,优选将微粒大小和 扫描系统的分辨率选择为允许分辨以约104-105个微粒/cm2的密度随 机排列于平面上的经荧光标记的微粒。

在测序应用中,可用多种方法将荷载微粒固定在基质的表面,所述 固定应足够牢固以使微粒经受试剂暴露和洗涤的连续循环后不会有显 著的损耗。当基质是玻璃时,可使用商用试剂,如Pierce Chemical的试 剂用烷基氨基接头使玻璃表面衍生化,再使用常规化学试剂使衍生化的 表面依次与亲和素交联以形成亲和素化的表面。可用多种方法将生物素 组成成分引进荷载微粒,例如改造用于使标记物与聚核苷酸结合的克隆 载体的组分(如10-15%)以之含有独特的限制性位点(通过消化提 供粘性未端),所述位点与标记物对面聚核苷酸末端的聚核苷酸插入物 紧密相邻,用聚核苷酸和标记物切除该位点以荷载于微粒上。荷载后约 10-15%的荷载聚核苷酸会具有远离微粒表面的独特的限制性位点, 用相关的限制性核酸内切酶消化后,将含生物素组成成分的适当双链衔 接子连接到粘性末端,然后将所得微粒平铺于亲和素化的玻璃表面,通 过生物素-亲和素连键微粒被固定于玻璃表面。

任选和优选当通过连接进行测序时,在起始的连接步骤中将探针混 合物应用于荷载微粒:探针的组分含有测序法所需的IIs型限制性识别 位点,或探针的组分不含这种识别位点,但取而代之的是在其非连接的 末端含有生物素组成成分,优选此混合物含有约10-15%生物素化的 探针。

任选当荷载DNA的微粒被应用于玻璃基质时,将DNA非特异性 地吸附于玻璃表面达几小时以上,如24小时,保温以产生足够牢固的 键可允许重复地暴露于试剂和洗涤而不会显著损耗微粒。优选这种玻璃 基质是流动池,该流动池含有浸蚀至玻璃载玻片内的通道,优选这种通 道靠得很近以使液体穿过它被出,所述通道具有的深度足以与微粒的 直径接近以使微粒单层被封在限定的观察区域内。

                     平行测序

本发明的标记系统可以与单个碱基测序法一起使用以测定长度为 几千个碱基以上的聚核苷酸的序列,此标记系统允许靶聚核苷酸成千上 万的片段被分选至一个或多个固相支撑物上并同时被测序。根据此方法 较优选的实施方案,联合上述的扫描系统或图像分析系统,可在固定于 共同基质(如显微镜载玻片)上的成千上万个荷载微粒中的每一个上以 分步的方式测定每个被分选片段部分的序列。被测序的片段部分的大小 取决于几个因素,如产生和分选的片段数目,靶聚核苷酸的长度,所用 单个碱基法的速度和准确性,同时被监测的微粒和/或分离区域的数目 等等。优选每个微粒或区域鉴定12-50个碱基;更优选每个微粒或区 域鉴定18-30个碱基。由于这些信息,通过其重叠区域核对12-50 个碱基的片段即可测定靶聚核苷酸的序列,如美国专利5,002,867中有 述。下列文献为测定必须被测序以成功地再构建给定长度的靶聚核苷酸 的片段部分的序列提供了额外的指导:Lander and Waterman,Genomics, 2:231-239(1988);Drmanac et al,Genomics,4:114-128(1989);Bains, DNA Sequencing and Mapping,4:143-150(1993);Bains,Genomics, 11:294-301(1991);Drmanac et al,J.Biomolecular Structure and Dynamics, 8:1085-1102(1991);and Pevzner,J.Biomolecular Structure and Dynamics, 7:63-73(1989)。优选靶聚核苷酸的长度为1000-50000个碱基,更优 选长度为10000-40000个碱基。Lander和Waterman(上述)提供的 指导涉及被测序的片段数目(即样品大小),得自每个片段的序列信息 的量和由无缺口或“岛”的部分序列重新构建靶聚核苷酸的可能性之间 的关系。对于本发明而言,下表列出了对于给定样品大小和片段序列大 小得到的最大聚核苷酸的大小:

    样品大小          大致的最长靶聚核苷酸长度

                    30碱基/片段        50碱基/片段

     1,000            3千碱基           4千碱基

    10,000            22千碱基          32千碱基

    20,000            40千碱基          65千碱基

    30,000            60千碱基          85千碱基

   100,000            180千碱基         300千碱基

可用多种方法由靶聚核苷酸产生片段,包括所谓的“直接”法,其 中人们试图产生可覆盖靶聚核苷酸的具有最少重叠的片段套,所谓的 “鸟枪”法中产生了随机重叠的片段,“鸟枪”法因其简单易行和内在 的丰余而被优选使用以产生片段,例如在下述常规的“鸟枪”测序法(如 Sambrook et al(上述)中产生了可覆盖靶聚核苷酸的随机重叠片段。 本文所用的“覆盖”在上下文中指的是以每个大小范围的所产生片段如 长度为100-200个碱基对的所有片段表示靶聚核苷酸序列的每一部 分。简单地说,开始以靶聚核酸酶作为插入物插入适当的克隆载体,如 噬菌体,然后扩增载体,纯化之并用适当的限制性酶消化以产生约10 -15μg纯化的插入物,此方法典型地会产生约500-1000个亚克隆/ 微克起始DNA。通过制备性凝胶电泳从载体片段中分离插入物,通过 常规方法从凝胶中取出插入物并重新悬浮于标准缓冲液,如TE (Tris-EDTA)。经选择用于从载体上切割下插入物的限制性酶使插入 物呈现出匹配的粘性末端,以使插入物在制备时可自身连接产生随机重 叠的片段。如Sambrook等人(上文所述)所解释的,在下文使用的产 生片段的方法中,环化的DNA比线性的DNA产生了较好的片段随机 分布。例如使用常规方法用T4连接酶将自身连接之后,通过标准方法, 如超声处理或在Mn++的存在下用DNase I消化可使纯化的经连接的插 入物片段化,片段化之后,如接Sambrook等人(上述)所述修复片段 末端,使用凝胶电泳以大小分离经修复的片段,选择300-500个碱基 对范围的片段,通过常规方法从凝胶中洗脱所述片段,如上所述将该片 段连接到携有标记物的载体中以形成标记物-片段缀合物文库。

如上所述,从文库中取出含有几千个标记物-片段缀合物的样品并 扩增,然后如上所述从载体上切割下标记物-片段插入物,制备之以与 微粒上的标记物互补物特异性杂交。根据靶聚核苷酸的大小,从标记物 -片段文库中取出各种样品并分开扩增,荷载于微粒上并测序。如上文 所讨论的,选定的双倍数目将取决于样品中表现的标记物所有组成成分 的组分。(得到三倍-具有相同标记物的三个不同的聚核苷酸-或更多 倍的概率可被安全地忽略不计)。如上所述,可由Poisson分布p(双 倍)=m2e-m/2估计出样品中双倍的可能性,其中m是样品中标记物所 有组成成分的份额。下表VI列出了给定标记物大小,样品大小和所有 组成成分多样性的情况下在样品中得到双倍的概率。

                          表VIII

8词语套中     标记物所有               被取样的所

标记物的      组成成分      样品的     有组成成分     双倍的

词语数目      的大小        大小       的份额         概率

  7           2.1×106     3000       1.43×10-3     10-6

  8           1.68×107    3×104   1.78×10-3    1.6×10-6

                            3000       1.78×10-4    1.6×10-8

  9           1.34×108     3×105    2.24×10-3    2.5×10-6

                            3×104    2.24×10-4    2.5×10-8

  10          1.07×109    3×106    2.8×10-3     3.9×10-6

                            3×105    2.8×10-4     3.9×10-8 在任何情况下,将荷载微粒分散于玻璃显微镜载玻片上,优选通过亲和 素-生物素偶联使荷载微粒固定于上述载玻片上。优选使用单个碱基法 同时测定每个随机片段的至少15-20个核苷酸的序列,然后通过利用 它们的重叠部分核对随机片段的部分序列重新构建靶聚核苷酸的序 列,所用算法规则类似于装配重叠群所用的那些算法规则,或者如上述 文献所公开的,与经开发用于通过杂交来测序的算法规则相同

                 实施本发明方法的试剂盒

本发明包括进行本发明多种实施方案的试剂盒,优选本发明的试剂 盒包括与固相支持物结合的标记物互补物的所有组成成分。另外,本发 明的试剂盒也可包括标记物的相应所有组成成分,例如作为引物以扩增 欲被分选的聚核苷酸,或作为克隆载体的因子,所述载体也可以用于扩 增欲被分选的聚核苷酸,优选标记物互补物的所有组成成分与微粒结 合。试剂盒也可以含有供酶促加工使用的适当的缓冲液,检测用的化学 试剂,如荧光或化学发光标记物等等,使用说明,加工酶,如连接酶, 聚合酶,转移酶等等。在用于测序的重要实施方案中,试剂盒也可含有 基质,如亲和素化的显微镜载玻片以固定荷载微粒用于加工。

             鉴定cDNA文库中新的聚核苷酸

如上所述,通过构建与微粒结合的cDNA分子的文库,可鉴定cDNA 文库中新的聚核苷酸,然后可平行地测定所述文库大的组分或甚至整个 文库的部分序列。分离mRNA之后,可能该群的正常化如Soares et al, Proc.Natl.Acad.Sci.,91:9228-9232(1994)或类似文献所述,可使下列 引物与poly A尾杂交以使用常规方法借助于逆转录酶合成第一条链:

5′-mRNA-[A]n-3′

         [T]19-[引物位点]-GG[W,W,W,C]9ACCAGCTGATC-5′ 其中[W,W,W,C]9表示上文所述的标记物,“ACCAGCTGATC”是任 选的以双链形式形成限制性位点的序列,“引物位点”是所述文库中所 有成员共有的序列,后来被用作引物结合位点以通过PCR扩增感兴趣 的聚核苷酸。

通过常规技术逆转录和合成第二条链之后,如上所述将双链片段插 入克隆载体扩增。然后取样经扩增的文库并扩增样品,从经扩增的样品 中分离克隆载体,切下经标记的cDNA片段并纯化之。如上所述用聚合 酶使标记物变成单链,使片段甲基化并分选至根据本发明的微粒上。如 上所述,优选构建克隆载体以使借助于核酸内切酶如Fok I可切下经标 记的cDNA,这可以允许在分选和连接至微粒之后,通过优选的单个碱 基法立即测序。

然后根据本发明对整个文库或所述文库的一个或多个大的组分同 时进行分步测序直至鉴定出每一cDNA上足够数目的核苷酸以在文库 来源生物体基因组上有独特表现度。例如。如果文库由哺乳动物的 mRNA衍生而来,则希望随机选择的14-15个核苷酸等的序列在典型 哺乳动物基因组的2-3千兆碱基中具有独特的表现度。当然为了在来 源于细菌,或其他较低级生物体的文库中有独特的表现度,鉴定很少的 核苷酸就足够了,优选鉴定至少20-30个核苷酸以保证独特的表现度 和允许如下所述构建适当的引物,然后将列表显示的序列与已知序列比 较以鉴定独特的cDNA。

然后通过常规技术分离独特的cDNA,所述技术如由PCR扩增子 构建探针,所述扩增子是用针对起动位点和已测定序列的cDNA部分的 引物产生的。然后使用常规的筛选方法将探针用于鉴定文库中的 cDNA。

在分开测量或动态变化群的上下文中,鉴定新cDNA的上述方法也 可以被用于mRNA群的指纹法,如上文方法所述,可从结合于分离的 微粒上的cDNA的大量样品,如10-100000,或更多个样品中同时得 到部分序列信息。部分序列的频率分布可鉴定不同类型的细胞或组织以 及患病(如癌症)组织的mRNA群,这种mRNA指纹技术可用于监测 和诊断疾病状态,如国际专利申请PCT/US95/21944中描述了为与上相 同的目的使用表达序列标记物(EST)。

       在荷载了经分选的聚核苷酸的微粒上循环测序

根据本发明用需要产生和分离经标记的DNA片段的常规测序技术 实现平行测序,具体地说,通过循环测序可将荷载有同一群模板的经分 离微粒用于产生经标记的延伸产物。循环测序是DNA测序基本的 Sanger法的众所周知的变体,在下列文献中有完整地描述:Craxton, Methods,Vol.2(1991年2月);Wozny,欧洲专利公开0 409 078 A2 (1991年1月23日);Fuller,国际专利申请PCT/US92/07303;和Fuller, 国际专利申请PCT/US94/03264。简而言之,在标准的测序反应混合物 中使用了热稳定性的聚合酶以使在相同的模板上进行重复的延伸反 应,这允许少量模板产生足够量的延伸产物以供电泳分离后检测。典型 地,循环测序包括步骤(a)提供含有模板,引物,核苷三磷酸,链- 终止的核苷三磷酸和热稳定性DNA聚合酶的测序反应混合物:(b) 使模板变性,(c)将引物与变性的模板退火,(d)延伸引物以形成 延伸产物,和(e)重复步骤(b)-(d)直至积累足够量的延伸产 物以使它们可以通过分离被鉴定。循环重复的次数取决于多种因素,包 括起始模板的数量和质量,所用的检测系统,所用的分离系统等等。常 规下操作,典型地将延伸循环重复10-100次;模板数量的范围为少 至几十个飞(10-15)摩尔至几十个皮(10-12)摩尔;通过将反应混合 物加热至92-95℃的温度范围进行变性步骤;退火步骤在35-75℃ 的温度范围内进行;延伸步骤在65-85℃的温度范围内,用热稳定性 的DNA聚合酶,如Taq或Vent(分别购自Perkin-Elmer Corp.,Norwalk, CT,和New England Biolabs)进行。

如Albretsen et al,Anal.Biochem.,189:40-50(1990)所述,在磁性微 粒上制备标记物互补物,可使几飞摩尔标记物互补物荷载于直径为 4.5μm的磁性珠上。标记物互补物通过其5′或3′末端与微粒结合,如果 通过5′末端结合,那么通过在其3′末端的标记物的特异性杂交可分选模 板。如下所示在此实施方案中,模板在其5′末端具有引物互补物:

3′-[寡核苷酸标记物]-[模板]-[引物互补物]-5′ 然后使标记物互补物延伸至模板的长度以得到模板的互补物,所述模板 互补物与微粒共价结合。通过加热除去模板并洗去微粒,例如通过流式 分选分离微粒之后,进行退火引物,延伸和变性的重复循环。

如果标记物互补物通过其3′末端与微粒结合,可允许直接在微粒上 方便地合成,如下所示,寡核苷酸标记物和引物互补物的次序正好相 反:

      5′-[寡核苷酸标记物]-[模板]-[引物互补物]-3′ 例如可使用商购试剂使标记物互补物的5′末端磷酸化。通过寡核苷酸标 记物特异性杂交之后,将引物与模板3′末端的引物互补物退火,并用缺 乏3′→ 5′核酸外切酶活性的DNA聚合酶延伸,然后连接此延伸反应留 下的切口,通过加热除去原始模板,分离微粒之后,按上述方法进行循 环测序。

通过流式分选可进行荷载微粒的分离,其中通过喷嘴使悬浮微粒被 拖拽着穿过单个纵列,在液体喷嘴中所述微粒被分解成规则系列的带电 液滴,所述液滴被导向基质上预定的靶容器,孔或其他反应位置。使用 光散射可在喷嘴中方便地检测微粒,散射的大小被用来测定液滴是不 含,还是含一个或多个微粒。对这种流式分选和测序试剂的传送特别有 利的装置公开于Brennan,国际专利申请PCT/US94/05896。一旦各个荷 载微粒被分布于多个合适当测序试剂的反应位点或孔,可将反应收集物 一起热循环以产生延伸产物。当循环完成之后,通过电泳分离延伸产 物,优选通过在无凝胶分离基质中的毛细管电泳进行电泳分离,这可以 使延伸片段被方便地荷载和快速地分离。也可以使用允许通过大数目样 品的四色荧光实质上同时检测的装置,例见Mathies and Huang,Nature, 359:167-169(1992);Huang et al,Anal.Chem.,64:2149-2154(1992); Huang et al,Anal.Chem.,64:967-972(1992);等等。优选同时进行几千个 测序反应循环,更优选将模板混合物分选至具有1000-10000种不同 类型的寡核苷酸标记物所有组成成分的微粒群上。

             分选多基因座探针以分析基因型

许多疾病状况和/或疾病易感性和复杂的遗传性状和/或突变模式相 关,例如HLA型,许多癌症中p53基因的突变模式,囊性纤维化基因, Lesch-Nyhan综合症,Duchenne肌营养不良等等,Lander et al,Science, 265:2037-2048(1994);Collins,Science,256:774-779(1992);Tsui et al,国 际专利申请PCT/CA90/00267;Hedrum et al,Biotechniques,17:118-129 (1994);Santamaria et al,国际专利申请PCT/US92/01675;Chamberlain et al,Nucleic Acids Research,16:11141-11156(1988);等等。构建这种复杂 的遗传性状的便利检测的一种方法是使用所谓的复合PCR或复合连接 测定法,例见Chamberlain et al(上述)或Grossman et al,国际专利申 请PCT/US93/03229。通常这种技术需要在相同反应混合物中同时扩增 多个基因序列,然后特异性检测感兴趣的序列。本发明的寡核苷酸标记 物可提供一种简单而便利的方法以鉴定在此试验中扩增的基因序列,通 过使寡核苷酸标记物与复合PCR中所用的PCR引物相结合可类似最简 单的形式实现本发明的这一实施方案。如上所述此对的一个引物携有寡 核苷酸标记物,此对中的另一个引物携有捕获组成成分,这可允许被成 功扩增的序列的分离以及随后的释放。释放之后,将此序列应用于固相 支持物,该支持物具有一套在预先限定的空间上被标明的位置处结合的 标记物互补物,然后检测标记物特异性杂交的模式以鉴定样品的基因 型。

在优选的实施方案中,使用PCR扩增感兴趣的基因序列,所述序 列含有多个靶位点,即出现突变或与疾病相关的序列的多个位点。优选 仅使用两对或很少几对引物以扩增靶序列从而避免与多重PCR有关的 难题,如权衡靶长度,引物退火温度等等。扩增后,按与Grossman et al (上述)和Grossman et al,美国专利5,514,543所述相似的方法检测特 异的基因型,所述文献提供的指导有关PCR和连接反应条件的选择, 连接探针大小等等,在那些文献中,靶序列被类似地扩增,然后在DNA 连接酶的存在下使用连接探针的收集物。连接探针由两个分离的序列组 成,这两个序列都与被分析的样品中可能存在的靶互补:一个与电泳迁 移率的修饰物结合,另一个与荧光标记物结合。如果两个探针与样品中 的靶序列形成了完全匹配的双螺旋,将它们连接起来以使修饰迁移率的 组成成分现在能通过与靶互补的经连接序列与荧光标记物结合,然后电 泳分离混合物的成分以使凝胶上荧光带的模式可指示样品中存在的靶 的基因型。如图3所示,可使用本发明的寡核苷酸标记物代替电泳迁移 率修饰物,通过将经连接的序列分选至固相支持物上特殊的位置可实现 空间上的分离。回到图3,优选通过PCR扩增靶序列(200),然后 将连接探针的收集物(206-216)应用于(204)变性的扩增子。在 此实施方案,连接探针含有寡核苷酸标记物(206),与靶序列互补的 第一序列(208),与靶序列互补并与第一序列邻接(以使如果两个都 与靶序列完全互补,它们能够被连接)的第二序列(210),携有产生 信号的工具(214)的尾部(212),优选产生信号的工具(214)是 荧光标记物,优选通过DNA连接酶连接连接探针的第一和第二序列; 因此邻接序列(216)的5′末端必须通过例如Urdea等人在U.S.专利 5,332,845中描述的磷酸化试剂被磷酸化。应用连接探针和连接酶之后, 共价连接能与靶序列形成完全匹配的双螺旋的探针(218&220),然 后使探针-靶双螺旋变性并应用于(222)固相支持物,所述固相支持 物在针对从t1至tk的每一个标记物的准确限定的空间位置处结合有标 记物互补物。洗下非特异性结合的序列之后,如图3的226和228所示, 寡核苷酸标记物ti和tj的标记物互补物相应的空间位置被照亮,所述标 记物互补物与荧光标记物连接。固相支持物上发光的荧光团模式表明样 品中靶序列的基因型。在本发明的此实施方案中,优选在标记物和固相 支持物上的空间上被标明的位置之间有一一对应的关系,进一步优选使 用此实施方案同时鉴定至少20个基因靶;更优选使用此实施方案同时 检测至少50个基因靶。

通常本发明的此实施方案可按下列步骤进行以检测靶聚核苷酸中 多种选定靶序列存在与否:(1)在靶聚核苷酸中加入多种连接探针, 每种连接探针包括与靶聚核苷酸中选定的一个靶序列的相邻部分的序 列互补的第一种寡核苷酸和第二种寡核苷酸,第一种寡核苷酸结合有寡 核苷酸标记物,每个寡核苷酸标记物选自相同的最少交叉-杂交套,每 个连接探针具有不同的寡核苷酸标记物;(2)将连接探针与靶聚核苷 酸杂交;(3)每当第一和第二种寡核苷酸可与相邻靶序列形成完全匹 配的双螺旋,在能有效连接第一和第二种寡核苷酸的条件下处理经杂交 的第一和第二种寡核苷酸;(4)从未连接的第一和第二种寡核苷酸中 分离经连接的第一和第二种寡核苷酸;(5)通过寡核苷酸标记物与它 们各自的互补物特异性地杂交以分选经连接的第一和第二种寡核苷 酸,各自的互补物作为同一群实质上相同的寡核苷酸被结合到一个或多 个固相支持物上的空间上分离的区域;和(6)通过在一个或多个固相 支持物上经连接的第一和第二种寡核苷酸的存在与否测定选定靶序列 的存在与否。

                      实施例1

            分选得自pUC19的多种靶聚核苷酸

按下述得到3种靶聚核苷酸-标记物缀合物的混合物,首先,合 成下列6种寡核苷酸,分对联合以形成标记物1,标记物2和标记物3: 5′-pTCGACC(w1)(w2)(w3)(w4)(w5)(w6)(w7)(w8)(w1)A

     GG(**)(**)(**)(**)(**)(**)(**)(**)(**)TTCGAp-5′

                      标记物1 5′-pTCGACC(w6)(w7)(w8)(w1)(w2)(w6)(w4)(w2)(w1)A

     GG(**)(**)(**)(**)(**)(**)(**)(**)(**)TTCGAp-5′

                      标记物2 5′-pTCGACC(w3)(w2)(w1)(w1)(w5)(w8)(w8)(w4)(w4)A

     GG(**)(**)(**)(**)(**)(**)(**)(**)(**)TTCGAp-5′

                      标记物3 其中“p”表示单磷酸,Wi表示表II限定的亚单位,标记“(**)”表 示它们各自的互补物,用Sal I和Hind III消化pUC19,纯化大片段, 分别与标记物1,2,3连接形成pUC19-1,pUC19-2,pUC19-3。分别扩增 和分离这三个重组子,然后用Hind III和Aat I消化pUC19-1,用Hind III 和Ssp I消化pUC19-2,用Hind III和Xmn I消化pUC19-3,使用常规 方法分离小片段得到长度分别约为250,375和575个碱基对的3个双链 片段,每个片段都具有与标记物相邻的3′凹链和在相反的末端具有平的 或3′突出链。在厂家推荐的含有33M脱氧胞嘧啶三磷酸的反应缓冲液 中将约12nmole的每种片段与5个单位的T4 DNA聚合酶混合,将反应 混合物在37℃下保温30分钟,然后通过置于上来终止反应,再通过 常规方法纯化片段。

用Maskos and Southern,Nucleic Acids Research,20:1679-1684(1992) 公开的接头使CPG微粒(37-74mm颗粒大小,500埃孔径大小, Pierce Chemical)衍生化,分成三等份之后,使用常规的自动化DNA 合成仪(如392型DNA合成仪,Allpied Biosystems,Foster City,CA) 在微粒上合成标记物1,2和3的互补物,在分开的容器内放入大约1mg 以不同方式衍生化的每种微粒。

将从pUC19-1,-2和-3上切下的经T4 DNA聚合酶处理的片段重新 悬浮于50L厂家推荐的适用于Taq DNA连接酶的缓冲液中(New England Biolabs),然后将混合物等分于三个含1mg每种衍生化的CPG 微粒的容器中,在每个容器中加入5个单位的Taq DNA连接酶,然后 在55℃保温15分钟,通过置于冰上来终止反应,通过重复离心和重悬 浮于TE将微粒洗涤几次,最终将微粒重新悬浮于Nde I反应缓冲液 (New England Biolabs)中,其中经结合的聚核苷酸已被消化。从微 粒中分离之后,通过与Sequenase DNA聚合酶和荧光素标记的胸苷三磷 酸(Applied Biosystems,Foster City,CA)一起保温使得由Nde I消化释 放的聚核苷酸片段被荧光标记,然后使用Applied Biosystems 373型 DNA合成仪在未变性的聚丙烯酰胺凝胶上分开合成片段。

                      实施例2

               平行测定SV40片段的序列

由选自表II的9个4-核苷酸亚单位组成的36-聚体标记物的所 有组成成分的制备是如上所述,通过割裂和混合法分开合成标记物和标 记物互补物得以实现的。合成所有组成成分以允许连接到经Sma I/Hind III消化的M13mp19中,因此与实施例1中相同,一套寡核苷酸由加入 A开始,然后进行9轮割裂和混合合成,其中寡核苷酸通过3′-亚磷酰 胺衍生的相当于表II中亚单位的4-聚体以亚单位的形式延伸,然后例 如通过得自Clontech Laboratories(Palo Alto,CA)的Phosphate-ON试 剂,一个核苷酸一个核苷酸地加入Sma I识别位点的一半(GGG), 两个C和5′-单磷酸以完成合成。其他套的寡核苷酸以加入三个C (Sma I识别位点的一部分)和两个G开始,然后进行9轮割裂和混合 合成,其中寡核苷酸通过3′-亚磷酰胺衍生的相当于表II中亚单位的互 补物的4-聚体延伸。合成是通过一个核苷酸一个核苷酸地加入Hind III 识别位点和5′-单磷酸得以完成的。从合成支持物上分离后,在允许形 成下列双螺旋的条件下混合寡核苷酸: 5′-pGGGCC(wi)(wi)(wi)(wi)(wi)(wi)(wi)(wi)(wi)A

 CCCGG(**)(**)(**)(**)(**)(**)(**)(**)(**)TTCGAp-5′ 然后将双螺旋的混合物连接到经Sma I/Hind III消化的M13mp19中。如 上所述在CPG微粒上合成标记物互补物的所有组成成分。

接着制备下列衔接子,它含有Fok I位点和Eco RI和Sma I位点的 部分

         5′- pAATTCGGATGATGCATGCATCGACCC

                   G CCTACTACGTACGTAGCTGGGp-5′

         Eco RI       Fok I            Sma I

如上所述将衔接子连接到经Eco RI/Sma I消化的M13中。

通过在Sambrook等人(上述)所述方法之后经超声处理使SV40 DNA分开被片段化,使用标准方法修复所得片段并通过大小分离之。 选择300-500个碱基对的片段并连接到上述经Sma I消化的M13中 以形成片段-标记物缀合物文库,然后扩增此文库。从文库中取出含有 几千个不同的片段-标记物缀合物的样品,进一步扩增,通过用Eco RI 和Hind III消化切下片段-标记物插入物,如实施例1所述,在脱氧胞 苷三磷酸的存在下用T4 DNA聚合酶处理被切下的片段-标记物缀合 物以暴露寡核苷酸标记物,使之与CPG微粒特异性杂交。

如实施例1所述,杂交和连接之后,用Fok I处理荷载微粒以产生 预定序列的4-核苷酸突出链。将下列探针的10∶1混合物(探针1:探 针2)与微粒上的聚核苷酸连接。

探针1    FAM-ATCGGATGAC

             TAGCCTACTGAGCT

探针2    生物素-ATCCAATGAC

                TAGGTTACTGAGCT FAM表示通过购自Applied Biosystems的氨基磷酸接头 (Aminolinker)与探针1顶端链的5′-羟基结合的荧光素染料,通过 Aminolinker组成成分也可结合生物素,任选通过聚环氧乙烷接头使生 物素进一步被延伸,例见Jaschke et al(上述)。

然后将荷载微粒存放于亲和素化的玻璃载玻片表面,所述载玻片可 使试剂被分送于其上,也可使洗涤溶液从其上被除去。用扫描荧光显微 镜(例如用Newport PM500-C型运动控制器,可产生488nm的激发光 束的Spectra-Physics 2020型氩离子激光发生器和只允许520nm波长的 光通过的发射光滤波器等装配的Zeiss Axioskop)检查结合有微粒的亲 和素化的载玻片,分别通过相同的物镜传递和收集激发光束和荧光发 射。通过分光镜分离激发光束和收集到的荧光,所述分光镜引导收集到 的荧光穿过一系列的带通滤波器到达与被监测的荧光团相对应的光子 计数装置,所述计数装置例如可含有Hamamatru 9403-02型光电倍增 管,Stanfbrd Research Systems SR445型放大器和SR430型多频计数器 和数字计算机,如486型计算机。计算机产生了记录下微粒位置的载玻 片的二维图像。

用Fok I裂解除去最初的探针之后,根据下文所述的优选的单个碱 基测序方法学,使经结合的微粒上的聚核苷酸经受20次探针连接,洗 涤,检测,裂解和洗涤的循环。在每一个检测步骤中,扫描系统记录下 了在每个微粒上被鉴定的碱基相应的荧光发射情况。除非另有说明,一 般用厂家(New England Biolabs′)推荐的适用于所用酶的缓冲液进行 以下的反应和洗涤,Sambrook等人(上述)也描述了标准的缓冲液。

提供了下列四套混合探针以加到靶聚核苷酸中:

          TAMRA-ATCGGATGACATCAAC

                TAGCCTACTGTAGTTGANNN

            FAM-ATCGGATGACATCAAC

                TAGCCTACTGTAGTTGCNNN

            ROX-ATCGGATGACATCAAC

                TAGCCTACTGTAGTTGGNNN

            JOE-ATCGGATGACATCAAC

                TAGCCTACTGTAGTTGTNNN 其中TAMRA,FAM,ROX和JOE是利用AminolinkerII结合的光谱可分 辨的荧光标记物(都可购自Applied Biosystems,Inc.,Foster City, California);黑体的核苷酸是Fok I核酸内切酶的识别位点,“N”表 示四种核苷酸A,C,G,T中的任何一个,Fung et al,U.S.专利4,855,225 中也描述了TAMRA(四甲基罗丹明),FAM(荧光素),ROX(罗 丹明X),和JOE(2′,7′-二甲氧基-4′,5′-二氯荧光素)以及它们 与寡核苷酸的结合。

将上述探针在大约5摩尔过量的靶聚核苷酸中保温,按下述结束此 过程:在16℃下将探针与200单位的T4 DNA连接酶和于T4 DNA连 接酶缓冲液中的锚着的靶聚核苷酸一起保温60分钟;洗涤后,在37℃ 下于厂家推荐的缓冲液中将靶聚核苷酸与100单位的T4聚核苷酸激酶 一起保温30分钟,洗涤,再在16℃下,与200单位的T4 DNA连接酶 和于T4 DNA连接酶缓冲液中的锚着的靶聚核苷酸一起保温30分钟, 通过在载玻片上连续流过洗涤缓冲液(如Sambrook等人(上述)公开 的TE)体积以实现洗涤,在连接-磷酸化-连接循环和最终的洗涤之 后,扫描经结合的微粒以确定荧光标记物的存在,所述荧光标记物的位 置和特性由扫描系统记录,然后在37℃下,在厂家推荐的缓冲液中将 经标记的靶聚核苷酸,即经连接的复合物与10单位的Fok I一起保温 30分钟,然后在TE中洗涤,结果靶聚核苷酸在每条链上都缩短了一个 核苷酸以备下一个连接和裂解的循环。继续此过程直至鉴定出20个核 苷酸。

                      实施例3

                   标记物文库的构建

按下述构建一例标记物文库以形成化学合成的由下式限定的核苷 酸A,G和T的9-词语标记物:

     3′-TGGC-[4(A,G,T)9]-CCCCp 其中“[4(A,G,T)9]”表示标记物混合物,其中每个标记物由A,G和T 的9个4-聚体词语组成;“p”表示5′磷酸。将此混合物连接到下列 右和左引物结合区域: 5′-AGTGGCTGGGCATCGGACCG      5′-GGGGCCCAGTCAGCGTCGAT

TCACCGACCCGTAGCCp                 GCGTCAGTCGCAGCTA

        左                              右 将右和左引物结合区域连接到上述标记物混合物上,然后借助于DNA 聚合酶使经连接结构的单链部分被填平,再与下列所示的右和左引物混 合并扩增以得到标记物文库。

         左引物 5′- AGTGGCTGGGCATCGGACCG 5′- AGTGGCTGGGCATCGGACCG- [4((A,G,T)9]-GGGGCCCAGTCAGCGTCGAT

 TCACCGACCCGTA GCCTGGC -[4((A,G,T)9]-C CCCGGGTCAGT CGCAGCTA

                                      CCCCGGGTCAGTCGCAGCTA-5′

                                             右引物 左引物结合区域的下划线部分表示Rsr II识别位点,右引物结合区域最 左的下划线区域表示Bsp 120I,Apa I和Eco O 109I的识别位点和Hga I 的裂解位点,右引物结合区域最右的下划线区域表示Hga I的识别位 点,任选右或左引物被合成为结合有生物素的形式)使用常规试剂,如 得自Clontech Laboratories,Palo Alto,CA的试剂)以便于扩增和/或裂解 之后的纯化。

                          实施例4

          构建标记物-聚核苷酸缀合物的质粒文库

                  以供cDNA“特征”测序

通过常规方法,使用pGGCCCT15(A或G或C)作为引物以供锚 着于mRNA的poly A区域的边界合成第一条链,使用N8(A或T) GATC作为引物以合成第二条链,即可从mRNA样品中产生cDNA。 即这两个引物都是简并引物以致于第二条链的引物以两种形式存在,第 一条链的引物以三种形式存在。第二条链的引物中的GATC序列相当于 Mbo I的识别位点;也可以使用其他四个碱基的识别位点,如Bam HI, Sph I,Eco RI等的识别位点。在第二条链的引物的限制性位点的相邻处 存在A和T保证了在下一步骤中可使用删除和交换反应以产生5′端5 个碱基的突出“GGCCC”。将第一条链的引物与mRNA样品退火并 借助于逆转录酶延伸,然后通过逆转录酶的RNaseH活性降解RNA链 以剩下单链cDNA,使用常规方法使第二条链的引物退火并借助于DNA 聚合酶延伸,第二条链合成之后,按厂家的方案使用CpG甲基化酶 (New England Biolabs,Beverly,MA)使所得cDNA甲基化。在dATP 和dTTP的存在下,使用T4 DNA聚合酶,用上述删除和交换反应截短 cDNA的3′链,然后将cDNA连接到预先经Hga I切割的实施例3的标 记物文库上,得到了下列构建体:

例如从可商购质粒,如Bluescript噬粒(Stratagene,La Jolla,CA)起始 分开构建下列克隆载体。

用Ppu MI和Pme I裂解质粒(以得到Rsr II-相容末端和平端从而使插 入物定向),然后用DAM甲基从化酶使之甲基化。用RsrII裂解含标 记物的构建体,然后连接到开环质粒上,再用Mbo I和Bam HI裂解缀 合物以允许质粒连接和靠近,然后根据本发明扩增,分离和使用质粒。

                           附录Ia

              产生最少交叉杂交套的计算机程序例

              (单链标记物/单链标记物互补物)

Program minxh c c c    integer*2 subl(6),mset1(1000,6),mset2(1000,6)    dimension nbase(6) c c    write(*,*) ′ENTER SUBUNIT LENGTH′    read(*,100)nsub 100 format (il)    open (1,file=′sub4.dat′,form=′formatted′,status=′new′) c c    nset=0    do 7000 m1=1,3    do 7000 m2=1,3    do 7000 m3=1,3    do 7000 m4=1,3    subl(1)=m1    subl(2)=m2    subl(3)=m3    subl(4)=m4 c c    ndiff=3 c c c Generate set of subunits differing from c subl by at least ndiff nucleotides. c Save in mset1. c c    jj=1    do 900 j=1,nsub 900 mset1(1,j)=subl(j) c c    do 1000 k1=1,3    do 1000 k2=1,3    do 1000 k3=1,3    do 1000 k4=1,3    nbase(1)=k1    nbase(2)=k2    nbase(3)=k3    nbase(4)=k4 c    n=0    do 1200 j=1,nsub    if(subl(j).eq.1 .and. nbase(j).ne.1 .or.    1 subl(j).eq.2 .and. nbase(j).ne.2 .or.    3 subl(j).eq.3 .and. nbase(j).ne.3)then    n=n+1    endif 1200 continue c c    if(n.ge.ndiff)then c c c If number of mismatches c is greater than or equal c to ndiff then record c subunit in matrix mset c c    jj=jj+1    do 1100 i=1,nsub 1100 mset1(jj,i)=nbase(i)    endif c c 1000 continue c c    do 1325 j2=1,nsub    mset2(1,j2)=mset1(1,j2) 1325 mset2(2,j2)=mset1(2,j2) c c c Compare subunit 2 from c mset1 with each successive c subunit in mset1,i.e.3, c 4,5,...etc.Save those c with mismatches.ge.ndiff c in matrix mset2 starting at c position 2. c Next transfer contents c of mset2 into mset1 and c start c comparisons again this time c starting with subunit 3. c Continue until all subunits c undergo the comparisons. c c    npass=0 c c 1700 continue    kk=npass+2    npass=npass+1 c c    do 1500 m=npass+2,jj    n=0    do 1600 j=1,nsub    if(mset1(npass+1,j).eq.1.and.mset1(m,j).ne.1.or.    mset1(npass+1,j).eq.2.and.mset1(m,j).ne.2.or.    mset1(npass+1,j).eq.3.and.mset1(m,j).ne.3)then    n=n+1    endif 1600 continue    if(n.ge.ndiff)then    kk=kk+1    do 1625 i=1,nsub 1625 mset2 (kk,i)=mset1(m,i)    endif 1500 continue c c kk is the number of subunits c stored in mset2 c c Transfer contents of mset2 c into mset1 for next pass. c c    do 2000 k=1,kk    do 2000 m=1,nsub 2000 mset1(k,m)=mset2(k,m)    if(kk.lt.jj)then    jj=kk    goto 1700    endif c c    nset=nset+1    write(1,7009) 7009 format(/)    do 7008 k=1,kk 7008 write(i,7010)(mset1(k,m),m=1,nsub) 7010 format(4il)    write(*,*)    write(*,120)kk,nset 120 format(1x,′Subunits in set=′,i5,2x, ′Set No=′,i5) 7000 continue    close(1) c c    end c ********************************* c *********************************

                      附录Ib

           产生最少交叉杂交套的计算机程序例

           (单链标记物/单链标记物互补物)

Program tagN c c c Program tagN generates minimally cross-hybridizing c sets of subunits given i)N--subunit length,and ii) c an initial subunit sequence.tagN assumes that only c 3 of the four natural nucleotides are used in the tags. c c    character*1 subl(20)    integer*2 mset(10000,20),nbase(20) c c    write(*,*)′ENTER SUBUNIT LENGTH′    read(*,100)nsub 100 format(i2) c c    write(*,*) ′ENTER SUBUNIT SEQUENCE′    read(*,110)(subl(k),k=1,nsub) 110 format(20al) c c    ndiff=10 c c c Let a=1 c=2 g=3 & t=4 c c    do 800 kk=1,nsub    if(subl(kk).eq.′a′)then    mset(1,kk)=1    endif    if(subl(kk).eq.′c′) then    mset(1,kk)=2    endif    if(subl(kk).eq.′g′)then    mset(1, kk)=3    endif    if(subl(kk).eq.′t′)then    mset(1,kk)=4    endif 800 continue c c c Generate set of subunits differing from c subl by at least ndiff nucleotides. c c    jj=1    do 1000 k1=1,3    do 1000 k2=1,3    do 1000 k3=1,3    do 1000 k4=1,3    do 1000 k5=1,3    do 1000 k6=1,3    do 1000 k7=1,3    do 1000 k8=1,3    do 1000 k9=1,3    do 1000 k10=1,3    do 1000 k11=1,3    do 1000 k12=1,3    do 1000 k13=1,3    do 1000 k14=1,3    do 1000 k15=1,3    do 1000 k16=1,3    do 1000 k17=1,3    do 1000 k18=1,3    do 1000 k19=1,3    do 1000 k20=1,3 c c    nbase(1)=k1    nbase(2)=k2    nbase(3)=k3    nbase(4)=k4    nbase(5)=k5    nbase(6)=k6    nbase(7)=k7    nbase(8)=k8    nbase(9)=k9    nbase(10)=k10    nbase(11)=k11    nbase(12)=k12    nbase(13)=k13    nbase(14)=k14    nbase(15)=k15    nbase(16)=k16    nbase(17)=k17    nbase(18)=k18    nbase(19)=k19    nbase(20)=k20 c c    do 1250 nn=1,jj c    n=0    do 1200 j=1,nsub    if(mset(nn,j).eq.1.and.nbase(j).ne.1.or.    1 mset(nn,j).eq.2.and.nbase(j).ne.2.or.    2 mset(nn,j).eq.3.and.nbase(j).ne.3.or.    3 mset(nn,j).eq.4.and.nbase(j).ne.4)then    n=n+1    endif 1200 continue c c    if(n.lt.ndiff) then    goto 1000    endif 1250 continue c c    jj=jj+1    write(*,130)(nbase(i),i=1,nsub),jj    do 1100 i=1,nsub    mset(jj,i) =nbase(i) 1100 continue c c 1000 continue c c    write(*,*) 130 format(10x,20(1x,il),5x,i5)    write(*,*)    write(*,120)jj 120 format(1x,′Number of words=′,i5) c c    end c c ******************************************** c ********************************************

                          附录Ic

              产生最少交叉杂交套的计算机程序例

               (双链标记物/单链标记物互补物)

Program 3tagN c c c Program 3tagN generates minimally cross-hybridizing c sets of duplex subunits given i)N--subunit length, c and ii)an initial homopurine sequence. c c    character*1 subl(20)    integer*2 mset(10000,20),nbase(20) c c    write(*,*)′ENTER SUBUNIT LENGTH′    read(*,100)nsub 100 format(i2) c c    write(*,*)′ENTER SUBUNIT SEQUENCE a & g only′    read(*,110)(subl(k),k=1,nsub) 110 format(20al) c c    ndiff=10 c c c Let a=1 and g=2 c c    do 800 kk=1,nsub    if(subl(kk).eq.′a′) then    mset (1,kk)=1    endif    if(subl(kk).eq.′g′)then    mset(1,kk)=2    endif 800 continue c c    jj=1 c c    do 1000 k1=1,3    do 1000 k2=1,3    do 1000 k3=1,3    do 1000 k4=1,3    do 1000 k5=1,3    do 1000 k6=1,3    do 1000 k7=1, 3    do 1000 k8=1,3    do 1000 k9=1,3    do 1000 k10=1,3    do 1000 k11=1,3    do 1000 k12=1,3    do 1000 k13=1,3    do 1000 k14=1,3    do 1000 k15=1,3    do 1000 k16=1,3    do 1000 k17=1,3    do 1000 k18=1,3    do 1000 k19=1,3    do 1000 k20=1,3 c c    nbase(1)=k1    nbase(2)=k2    nbase(3)=k3    nbase(4)=k4    nbase(5)=k5    nbase(6)=k6    nbase(7)=k7    nbase(8)=k8    nbase(9)=k9    nbase(10)=k10    nbase(11)=k11    nbase(12)=k12    nbase(13)=k13    nbase(14)=k14    nbase(15)=k15    nbase(16)=k16    nbase(17)=k17     nbase(18)=k18    nbase(19)=k19    nbase(20)=k20 c c    do 1250 nn=1,jj c    n=0    do 1200 j=1,nsub    if(mset(nn,j).eq.1.and.nbase(j).ne.1.or.    1 mset(nn,j).eq.2.and.nbase(j).ne.2.or.    2 mset(nn,j).eq.3.and.nbase(j).ne.3.or.    3 mset(nn,j).eq.4.and.nbase(j).ne.4)then    n=n+1    endif 1200 continue c c    if(n.lt.ndiff)then    goto 1000    endif 1250 continue c    jj=jj+1    write(*,130)(nbase(i),i=1,nsub),jj    do 1100 i=1,nsub    mset(jj,i)=nbase(i) 1100 continue c 1000 continue c    write(*,*) 130 format(10x,20(1x,i1),5x,i5)    write(*,*)    write(*,120)jj 120 format(1x,′Number of words=′,i5) c c    end

                               序列表

(1)一般资料:

(i)申请人:Sydney Brenner

(ii)发明名称:用于分选和鉴定的寡核苷酸标记物

(iii)序列数目:16

(iv)联系地址:

    (A)联系人:Stephen C.Macevicz,Spectragen,Inc.

    (B)街道:3832 Bay Center Place

    (C)城市:Hayward

    (D)州:California

    (E)国家:USA

    (F)邮编:94545

(v)计算机可读形式:

    (A)介质类型:3.5英寸磁盘

    (B)计算机:IBM兼容机

    (C)操作系统:Windows 3.1

    (D)软件:Microsoft Word 5.1

(vi)本申请资料:

    (A)申请号:

    (B)申请日:

    (C)分类号:

(vii)在先申请资料:

    (A)申请号:PCT/US95/12791

    (B)申请日:12-OCT-95

(vii)在先申请资料:

    (A)申请号:08/478,238

    (B)申请日:07-JUN-95

(vii)在先申请资料:

    (A)申请号:08/485,105

    (B)申请日:07-JUN-95

(vii)在先申请资料:

    (A)申请号:PCT/US95/12791

    (B)申请日:12-OCT-95

(viii)代理机构/代理人资料:

    (A)姓名:Stephen C.Macevicz

    (B)登记号:30,285

    (C)参考/文档号:cbd4wo

(ix)电讯资料:

    (A)电话:(510)670-9365

    (B)传真:(510)670-9302

(2)SEQ ID NO:1的资料:

(i)序列特征:

    (A)长度:38个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:1:

GAGGATGCCT TTATGGATCC ACTCGAGATC CCAATCCA                       38

(2)SEQ ID NO:2的资料:

(i)序列特征:

    (A)长度:26个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:2:

AATTCGGATG ATGCATGCAT CGACCC                                    26

(2)SEQ ID NO:3的资料:

(i)序列特征:

    (A)长度:14个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:3:

                                                                14

TAGCCTACTG AGCT    

(2)SEQ ID NO:4的资料:

(i)序列特征:

    (A)长度:16个核苷酸

    (B)类型:核酸

    (C)链型:双链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:4:

ATCGGATGAC ATCAAC                                               16

(2)SEQ ID NO:5的资料:

(i)序列特征:

    (A)长度:11个核苷酸

    (B)类型:核酸

    (C)链型:双链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:5:

ACCAGCTGAT C                                                    11

(2)SEQ ID NO:5的资料:

(i)序列特征:

    (A)长度:11个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:5:

CTAGTCGACC A                                                    11

(2)SEQ ID NO:6的资料:

(i)序列特征:

    (A)长度:11个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:6:

NRRGATCYNN N                                                    11

(2)SEQ ID NO:7的资料:

(i)序列特征:

    (A)长度:22个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:7:

GGGTCGATGC ATGCATCATC CG                                        22

(2)SEQ ID NO:8的资料:

(i)序列特征:

    (A)长度:10个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:8:

ATCGGATGAC                                                      10

(2)SEQ ID NO:9的资料:

(i)序列特征:

    (A)长度:10个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:9:

ATCNNNNNAC                                                      10

(2)SEQ ID NO:10的资料:

(i)序列特征:

    (A)长度:14个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:10:

TCGAGTNNNN NGAT                                                 14

(2)SEQ ID NO:11的资料:

(i)序列特征:

    (A)长度:16个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:11:

ATCGGATGAC ATCAAC                                              16

(2)SEQ ID NO:12的资料:

(i)序列特征:

    (A)长度:20个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:12:

NNNAGTTGAT GTCATCCGAT                                          20

(2)SEQ ID NO:13的资料:

(i)序列特征:

    (A)长度:20个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:13:

NNNCGTTGAT GTCATCCGAT                                         20

(2)SEQ ID NO:14的资料:

(i)序列特征:

    (A)长度:20个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:14:

NNNGGTTGAT GTCATCCGAT                                        20

(2)SEQ ID NO:15的资料:

(i)序列特征:

    (A)长度:20个核苷酸

    (B)类型:核酸

    (C)链型:单链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:15:

NNNTGTTGAT GTCATCCGAT                                           20

(2)SEQ ID NO:16的资料:

(i)序列特征:

    (A)长度:37个核苷酸

    (B)类型:核酸

    (C)链型:双链

    (D)拓扑结构:线性

(xi)序列描述:SEQ ID NO:16:

NNNNNGGATG NNNNNNNNNN NNNTNNNNNN NNNNNNN                        37--

QQ群二维码
意见反馈