合成多核苷酸变体的方法

申请号 CN200980122093.2 申请日 2009-06-11 公开(公告)号 CN102066561B 公开(公告)日 2013-09-25
申请人 科德克希思公司; 发明人 杰弗里·科尔贝克; 本杰明·米杰茨; 洛林·杰·吉尔; 理查德·J·福克斯;
摘要 本公开内容涉及用于产生多核苷酸变体文库的方法,所述多核苷酸变体包含相对于参考多核苷酸的限定的核苷酸差异。
权利要求

1.一种合成多种多核苷酸变体的方法,所述多种多核苷酸变体每种具有相对于单一参考多核苷酸序列的至少一种限定的核苷酸差异,所述方法包括:
(a)用多对正向诱变引物和反向诱变引物的每一对分别扩增单一参考多核苷酸模板,其中所述多对正向引物和反向引物包含多种限定的核苷酸差异,其中每对产生扩增子,所述扩增子包含能够与至少一种其他扩增子的邻接重叠序列结合的序列,其中所述多对正向诱变引物和反向诱变引物的序列通过如下步骤产生:
(i)鉴定所述多核苷酸变体的序列中与参考序列相比的第一限定的差异,并确定所述多核苷酸变体的序列中最邻近的限定的差异的相近度;
(ii)选择具有包含所述第一限定的差异的序列的正向引物;
(iii)鉴定所述多核苷酸变体的序列中与所述参考序列相比的下一限定的差异,并确定所述多核苷酸变体的序列中最邻近的限定的差异的相近度,或者鉴定已经到达所述多核苷酸变体的末端;
(iv)选择具有包含所述下一限定的差异的序列的反向引物;
(v)对于所述多核苷酸变体的序列中的每种限定的差异,重复步骤(iii)至(iv)以便使所有限定的差异均存在于引物上;
(b)纯化所述扩增子;
(c)分别装配多组所述纯化的扩增子,其中每组包含具有邻接重叠序列的扩增子,所述邻接重叠序列能够结合形成全长参考多核苷酸序列,其中所述序列包含通过所述引物引入的突变;和
(d)复制装配的所述多组扩增子,从而合成多种多核苷酸变体,其中所述多种多核苷酸变体包含至少10种不同的多核苷酸变体并且其中所合成的多种多核苷酸变体的至少75%包含正确序列。
2.如权利要求1所述的方法,其中所述单一参考多核苷酸编码参考多肽,并且所述多种多核苷酸变体的每一种编码具有至少一种基酸序列差异的多肽。
3.如权利要求2所述的方法,其中所述方法还包括将所述多种多核苷酸变体的每一种克隆到表达载体中的步骤。
4.如权利要求3所述的方法,其中所述方法还包括用所述表达载体转化细胞。
5.如权利要求4所述的方法,其中所述方法还包括筛选所转化的细胞的由所述多核苷酸变体编码的所述多肽的活性。
6.如权利要求5所述的方法,其中所述方法还包括分离至少一种由所述多核苷酸变体编码的多肽。
7.如权利要求1所述的方法,其中所述多种多核苷酸变体包含至少40种不同的多核苷酸变体。
8.如权利要求1所述的方法,其中所述多种多核苷酸变体的每一种包含相对于所述参考多核苷酸序列的至少3种限定的核苷酸差异。
9.如权利要求1所述的方法,其中所述多种多核苷酸变体的至少一种包含相对于所述参考多核苷酸序列的至少9种限定的核苷酸差异。
10.如权利要求1所述的方法,其中所述多组扩增子的至少一组包含至少3种不同的扩增子。
11.如权利要求1所述的方法,其中所述多组扩增子的至少一组包含至少5种不同的扩增子。
12.如权利要求1所述的方法,其中所述多组扩增子的至少一组包含不具有相对于所述参考多核苷酸序列的核苷酸差异的桥接多核苷酸。
13.如权利要求1所述的方法,其中所述正向引物和反向引物的长度为20至50个核苷酸。
14.如权利要求1所述的方法,其中所述正向引物和反向引物的长度为25至35个核苷酸。
15.如权利要求1所述的方法,其中所合成的多种多核苷酸变体的至少85%包含正确序列。
16.如权利要求1所述的方法,其中所述参考多核苷酸序列的长度为至少1000bp。
17.如权利要求1所述的方法,其中所述参考多核苷酸序列的长度为至少1500bp。
18.如权利要求1所述的方法,其中所述多对正向引物和反向引物包含6至50个差异寡核苷酸。
19.如权利要求1所述的方法,其中所述多对正向引物和反向引物包含6至25个差异寡核苷酸。
20.如权利要求1所述的方法,其中在步骤(ii)中,如果任何最邻近的限定的差异接近所述第一限定的差异则在同一正向引物中包含所述最邻近的限定的差异。
21.如权利要求1所述的方法,其中在步骤(iv)中,如果任何最邻近的限定的差异接近所述下一限定的差异则在同一正向引物中包含所述最邻近的限定的差异。
22.如权利要求1所述的方法,其中在步骤(ii)中,如果任何最邻近的限定的差异接近所述第一限定的差异则在同一正向引物中包含所述最邻近的限定的差异;并且在步骤(iv)中,如果任何最邻近的限定的差异接近所述下一限定的差异则在同一正向引物中包含所述最邻近的限定的差异。
23.如权利要求1所述的方法,其中所述方法还包括选择不由(ii)和(iv)的正向引物和反向引物限定的多核苷酸区段的非诱变的反向寡核苷酸引物和正向寡核苷酸引物。
24.如权利要求1所述的方法,其中扩增和复制是通过聚合酶链式反应进行的。
25.如权利要求1所述的方法,其中每种多核苷酸变体在阵列的已知位置装配。
26.一种可寻址的多核苷酸变体文库,所述可寻址的多核苷酸变体文库包含根据权利要求1所述的方法合成的多种多核苷酸变体。
27.一种扩增子的可寻址文库,其中扩增子的所述文库的每个成员包含相对于参考多核苷酸序列的至少一种限定的核苷酸差异和重叠邻接区,所述重叠邻接区能够结合所述文库中至少一种其他扩增子的重叠邻接区,其中多种扩增子包含能够结合形成全长的参考多核苷酸序列的至少一组扩增子,其中所述扩增子的可寻址文库的扩增子通过权利要求1所述的方法的步骤(a)制备。
28.如权利要求27所述的可寻址文库,其中所述多种扩增子包含用于装配两种或更多种不同的多核苷酸变体的成员,所述两种或更多种不同的多核苷酸变体包含相对于所述参考多核苷酸序列的限定的核苷酸差异。
29.如权利要求27所述的可寻址文库,其中所述参考多核苷酸序列编码参考多肽并且所述多种扩增子包含足以装配编码选择的多种氨基酸残基差异的所有可能的核苷酸差异的成员。

说明书全文

合成多核苷酸变体的方法

[0001] 技术领域
[0002] 本发明涉及合成多核苷酸变体的方法。
[0003] 背景
[0004] 基于计算机模拟(in silico)和体外的多种技术的蛋白质功能定向演变容许产生具有新颖特性的蛋白质。例如,细胞色素P450酶演变为具有针对通常不被天然存在的酶识别的底物的活性(参见,例如Landwehr等人,2007,Chem Biol 14(3):269-78;Kubo等人,2006,Chemistry 12(4):1216-20.)。通常,为了产生这种新的酶,对编码诸如野生型酶等参考多肽的多核苷酸进行诱变以产生编码具有基酸序列改变的多肽变体的多核苷酸。筛选变体的期望特性,如酶稳定性或针对新底物的活性的改善,容许鉴定与改变的特性相关的氨基酸残基。然而,并不是突变的所有组合都将存在于筛选的变体群中。例如,与酶的热稳定性相关的突变可能不会伴随与底物特异性改变相关的突变出现。群体中的这种偏倚可能由多种因素引起,包括:尤其是由用于诱变的多核苷酸所编码的亲本氨基酸序列、对在体内多核苷酸增殖期间的组合的可能选择、以及用于诱变的技术上的偏倚(例如,使用聚合酶引入错误)。
[0005] 由于在参考多肽序列的限定的氨基酸残基位置的突变可以提供很多关于多肽的生物活性的信息,所以,在突变最初被鉴定后,期望的是制备在初始的筛选突变体组中不出现的突变的多种组合,可以对所述多种组合进行期望特性测试。基于计算机模拟的限定突变或突变组的选择提供了产生大量可能的突变组合的框架。例如,影响底物特异性的突变可以与影响其他酶特性的突变组合,其他酶特性尤其包括酶活性、热稳定性和抑制剂抗性。通常,产生具有突变的新颖组合的这些多肽的方法是合成单独的种类(即,合成编码突变基因的每种多核苷酸)。这可以通过多核苷酸的化学合成和/或酶合成联合标准重组技术来完成。这种从头合成的技术需要每种多核苷酸变体的全基因合成和/或大量之后用于合成完整的多核苷酸变体的寡核苷酸引物的合成(即,经由ION-PCR)。这些技术需要较多的寡 核苷酸合成并且导致具有正确序列的变体产率较低。结果,如果突变的数据组很大,则产生突变组合的成本和效率可能限制筛选大量新颖组合的能。因此,产生编码限定突变的组合的多核苷酸的有效的和有成本效益的方法是期望的。
[0006] 概述
[0007] 本公开内容涉及有效地产生多核苷酸的方法,所述多核苷酸与参考多核苷酸序列相比具有限定的序列改变(例如,期望的氨基酸突变)的不同组合。该方法基于多核苷酸片段(即,扩增子)文库的使用,所述多核苷酸片段具有重叠邻接区以便可以装配一组多核苷酸片段以产生各自具有一组限定的序列改变的多种多核苷酸变体。使用选择的正向和反向引物通过扩增参考多核苷酸模板来引入序列改变,并从而产生包含限定的序列改变的多核苷酸片段。文库被设计成具有足够的多核苷酸片段以便装配至少两种不同的多核苷酸变体序列。在一些实施方案中,多核苷酸片段文库包含与参考序列相比具有所有限定的多核苷酸序列差异(例如,期望的核苷酸改变)的成员以便可以装配所有的序列排列。在一些实施方案中,可以将多核苷酸设计成编码与参考氨基酸序列相比具有限定的氨基酸序列差异的多肽。
[0008] 本公开内容的方法能够产生具有限定的核苷酸差异的多核苷酸变体序列的大文库(例如,10、50、100、150或更多种变体的文库,每种具有1、2、3、5、9、12、15或更多种期望的改变),该文库具有相对较少(例如,与全基因合成方法相比)和相对较短(例如,35-mer或更少)的寡核苷酸,并且其中正确序列的平均百分比出乎意料地高(例如,至少65%、75%、85%、95%或更高)。
[0009] 在一些实施方案中,形成编码多肽变体的多核苷酸的方法可以包括:选择相对于参考氨基酸序列的多个限定的氨基酸残基差异;限定编码具有差异氨基酸序列或参考氨基酸序列的多肽的多核苷酸序列的重叠区段,每个区段由一组正向和反向引物结合序列界定,并且其中编码多种氨基酸残基差异的每一种的多核苷酸序列差异被涵盖在该引物结合序列中;用该组正向和反向引物扩增每个区段以产生包含编码氨基酸残基差异的成员的扩增子文库,其中选择的正向和/或反向引物含有多核苷酸序列差异,并且其中所述文库包含用于装配限定的氨基酸差异的两种或更多种不同的氨基酸序列排列的成员;从文库装配一组具有互补重叠邻接区的扩增子,其中该组扩增子一起编码具有限定的氨基酸序列排列的多肽,所述限定的氨基酸序列排列具有一种或多种氨基酸残基差异;并且复制这组装配的扩增子以合成编码多肽的多核苷酸。
[0010] 本文还描述了产生多核苷酸片段文库的方法,其中所述方法包括:(a)基于与参考氨基酸序列的多种限定的氨基酸残基差异产生与参考氨基酸序列不同的多种氨基酸序列排列,并且对于每种排列,(i)根据参考多核苷酸序列确定编码氨基酸序列排列的多核苷酸序列;(ii)鉴定编码与参考氨基酸序列相比的氨基酸残基差异的多核苷酸序列改变,并且确定编码氨基酸序列排列中另一氨基酸残基差异的多核苷酸序列中最邻近的改变的相近度(proximity);(iii)选择具有编码氨基酸残基差异的序列的正向寡核苷酸引物,并且任选地如果多核苷酸序列的最邻近的改变接近多核苷酸序列的第一改变则在同一正向寡核苷酸引物中包括所述最邻近的改变;(iv)鉴定多核苷酸序列中的下一改变或直至到达多核苷酸的末端,并用正向寡核苷酸引物选择用于扩增多核苷酸片段的反向寡核苷酸引物,其中反向引物任选编码氨基酸残基差异中的下一改变;(v)对于编码氨基酸残基差异的多核苷酸序列中的每种改变,重复步骤(ii)至(iv)以便使多核苷酸序列中的所有改变都存在于寡核苷酸引物上;以及(b)用各组正向和反向寡核苷酸引物扩增以产生具有编码氨基酸残基差异的成员的重叠扩增子的文库。
[0011] 在另一方面,本公开内容提供了用于装配多核苷酸的这种多核苷酸片段(即,扩增子)的文库。在一些实施方案中,多种多核苷酸片段包含具有重叠邻接区的多核苷酸片段,每种多核苷酸片段由正向和反向引物的引物结合序列界定,其中所述多种多核苷酸片段具有在引物结合序列中编码特定氨基酸残基差异的成员,所述特定氨基酸残基差异来自相对于参考氨基酸序列的限定的多种氨基酸残基差异,以便使多种多核苷酸片段编码来自限定的多种氨基酸残基差异的所有选择的多种氨基酸残基差异;并且其 中所述多种多核苷酸片段包含用于装配限定的氨基酸差异的两种或更多种不同氨基酸序列排列的成员。在一些实施方案中,多种多核苷酸片段包含足以装配具有选择的多种氨基酸残基差异的所有可能的氨基酸序列排列的成员。
[0012] 在另一方面,本公开内容提供合成多种多核苷酸变体的方法,所述多种多核苷酸变体每种具有相对于参考多核苷酸序列的限定的核苷酸差异,其中所述方法包括:(a)用多对正向和反向引物的每一对分别扩增参考多核苷酸模板,其中所述多对正向和反向引物包含多种限定的核苷酸差异并且其中每对产生扩增子,所述扩增子包含能够结合至少一种其他扩增子的邻接重叠序列的序列;(b)分别装配多组扩增子,其中每组包含具有能够结合形成全长参考多核苷酸序列的邻接重叠序列的扩增子;以及(c)复制多组装配的扩增子,从而合成多种多核苷酸变体。
[0013] 在另一实施方案中,本公开内容提供合成多种多核苷酸变体的方法,所述多核苷酸变体每种具有相对于参考多核苷酸序列的限定的核苷酸差异,所述方法包括:(a)选择相对于参考多核苷酸序列的多种限定的核苷酸差异;(b)限定参考多核苷酸序列的多个区段,其中每个区段与至少一个邻接区段重叠并且由一对正向和反向引物结合序列界定,其中所述正向和/或反向引物包含多种限定的核苷酸差异的至少一种;(c)用多对正向和反向引物的每一对分别扩增参考多核苷酸模板,其中每对引物包含多种限定的核苷酸差异的至少一种,从而产生可寻址的扩增子文库,每个扩增子对应于具有限定的核苷酸差异的参考多核苷酸序列的区段;(d)从可寻址的扩增子文库分别装配多组扩增子,其中每组包含对应于构成全长参考多核苷酸序列的重叠邻接区段的扩增子;以及(e)复制多组装配的扩增子,从而合成多种多核苷酸变体。
[0014] 在本文所公开的合成多种多核苷酸变体的方法的一些实施方案中,可以实施如下方法:其中参考多核苷酸编码参考多肽并且多种多核苷酸变体的每一种编码具有至少一种氨基酸序列差异的多肽。在其他实施方案中,可以实施其中还包括下列步骤的方法:(i)将多种多核苷酸变体的每一种克隆到表达载体中;(ii)用表达载体转化细胞;(iii)筛选转化的细胞的由多核 苷酸变体编码的多肽活性;或(iv)分离由多核苷酸变体编码的至少一种多肽。此外,可以实施其中在阵列上的已知位置装配每种多核苷酸变体的方法。 [0015] 在本文所公开的合成多种多核苷酸变体的方法的一些实施方案中,可以实施如下方法,其中多种正向和反向引物序列的序列通过下列步骤产生:(i)鉴定多核苷酸变体序列中与参考序列相比的第一限定差异,并确定多核苷酸序列中最邻近的限定的差异的相近度;(ii)选择具有包含第一限定的核苷酸差异的序列的正向引物,并且任选地如果任何最邻近的限定的差异接近所述第一限定的核苷酸差异则在同一正向引物中包含所述最邻近的限定的差异的话;(iii)鉴定多核苷酸变体序列中与参考序列相比的下一限定的差异,并确定多核苷酸序列中最邻近的限定的差异的相近度,或者鉴定已到达多核苷酸变体的末端;(iv)选择具有包含下一限定的核苷酸差异的序列的反向引物,并且任选地如果任何最邻近的限定的差异接近下一限定的核苷酸差异则在同一正向引物中包含所述最邻近的限定的差异;以及(v)对于多核苷酸变体序列中的每种限定的差异,重复步骤(iii)至(iv)以便使所有限定的差异均存在于引物上。
[0016] 在本文公开的合成多种多核苷酸变体的方法的一些实施方案中,多种多核苷酸变体包含至少10种、25种、35种、50种、75种、90种、120种、150种、180种或甚至更多种不同的多核苷酸变体。
[0017] 在本文公开的合成多种多核苷酸变体的方法的一些实施方案中,多种多核苷酸变体的至少一种包含至少2种、3种、6种、9种、12种、15种、18种、21种、24种、27种、30种、或甚至更多种相对于参考多核苷酸序列的限定的核苷酸差异。在一些实施方案中,多种多核苷酸变体的两种或更多种,或者在一些实施方案中,多种多核苷酸变体的每一种包含至少1种、2种、3种、6种、9种、12种、15种、18种、21种、24种、27种、30种、或甚至更多种相对于参考多核苷酸序列的限定的核苷酸差异。
[0018] 在本文公开的合成多种多核苷酸变体的方法的一些实施方案中,多组扩增子的至少一组包含至少3种、至少5种、至少7种、至少10种、或更多种不同的扩增子。在一些实施方案中,多组扩增子的两组或更多组或 在一些实施方案中,多组扩增子的每一组包含至少3种、至少5种、至少7种、至少10种、或更多种不同的扩增子。
[0019] 在本文公开的合成多种多核苷酸变体的方法的一些实施方案中,参考多核苷酸序列的长度为至少500bp、750bp、1000bp、1250bp、1500bp、或甚至更长。
[0020] 在本文公开的合成多种多核苷酸变体的方法的一些实施方案中,多对正向和反向引物包含400或更少、300或更少、200或更少、100或更少、50或更少、或甚至25或更少。在一些实施方案中,多对正向和反向引物包含6至约200种、6至约150种、6至约100种、
6至约50种、6至约40种、6至约30种、6至约25种、6至约20种、6至约15种或甚至更少的不同的寡核苷酸,并且其中寡核苷酸的长度为约20至约50个核苷酸、约20至约40个核苷酸或约25至约35个核苷酸。
[0021] 在本文公开的合成多种多核苷酸变体的方法的一些实施方案中,合成的多种包含正确序列的多核苷酸变体的平均百分比是至少约65%、75%、85%、或95%或更多。 [0022] 在一些实施方案中,本公开内容提供合成多种多核苷酸变体的方法,其中将上述参数的任一种(例如,变体数目、限定的核苷酸差异的数目、参考多核苷酸序列的长度、正向和反向引物对数目、引物寡核苷酸长度和/或全长完美序列的百分比)组合。
[0023] 除了上述方法外,本公开内容还提供了多核苷酸变体的可寻址文库,所述可寻址文库包含根据上述方法的任一种合成的多种多核苷酸变体或扩增子。因此,在一些实施方案中,本公开内容提供了扩增子的可寻址文库,其中扩增子文库的每个成员包含相对于参考多核苷酸序列的至少一种限定的核苷酸差异和重叠邻接区,该重叠邻接区能够结合该文库中至少另一种扩增子的重叠邻接区,并且其中所述多种扩增子包含能够结合形成全长的参考多核苷酸序列的至少一组扩增子。在一些实施方案中,扩增子的可寻址文库包含用于装配两种或更多种不同的多核苷酸变体的成员,所述两种或多种不同的多核苷酸变体包含相对于参考多核苷酸序列的限定的核苷酸差异。在扩增子的可寻址的文库的一些实施方案中,参考多核苷酸序列编码参考多肽并且多种扩增子包括足以装配编码选择的多种氨基酸残基差异的所有可能的核苷酸差异的成员。
[0024] 本文还提供了用于实施本文所述的方法的多个步骤的计算机实现方法。 [0025] 附图简述
[0026] 图1显示用于产生编码限定的多肽变体的多核苷酸的标准技术(左侧)与本文所述的使用重叠多核苷酸片段文库的方法(右侧)比较。
[0027] 图2提供用于基于产生多核苷酸重叠区段的寡核苷酸引物以及在PCR反应中使用寡核苷酸产生重叠多核苷酸片段文库来产生重叠多核苷酸片段文库的样品工作流程图解。 [0028] 图3显示由装配重叠多核苷酸片段和复制装配的多核苷酸片段以合成编码期望的多肽变体的多核苷酸变体所得到的96个样品(和8个对照)的琼脂糖凝胶。几乎每一个显示了指示预期长度序列的单个强条带的凝胶都存在。
[0029] 图4显示通过使用重叠多核苷酸片段文库产生编码变体的多核苷酸的流程图。 [0030] 图5显示产生寡核苷酸引物文库的流程图,所述寡核苷酸引物文库用于产生每个氨基酸序列排列的重叠多核苷酸扩增子文库。
[0031] 图6显示说明寡核苷酸引物和重叠寡核苷酸片段的自动产生和选择的流程图。 [0032] 详细说明
[0033] 如说明书和所附权利要求书中所用的单数形式“一个(a)”、“一种(an)”和“所述”包括多个指示物,除非文中清楚地指出并非如此。因此,例如,提及“蛋白”包括多于一种的蛋白,并且提及“化合物”是指多于一种的化合物。
[0034] 并且,除非另外说明,否则“或”的使用意指“和/或”。类似地,“包含”(“comprise”、“comprises”、“comprising”)、“包括”(“include”、“includes”和“including”)可互换使用并且不旨在限制。
[0035] 还应理解在多个实施方案的说明使用术语“包含”时,本领域的那些技术人员将理解在一些特定的情况下,实施方案可以使用语言“基本上由......组成”或“由......组成”替代性描述。
[0036] 本文所用的小节标题仅是为了组织的目的并且不应被理解为限制所述的主题。如本文所用,下列术语旨在具有下列含义。
[0037] 定义
[0038] 如本文所用的“扩增”(“Amplifying”和“amplification”)采纳其常见用法并且是指用于产生或检测适合于体内或体外扩增的任何重组的或天然表达的多核苷酸的任何合适的扩增方法的使用,如通过聚合酶链式反应(PCR)。
[0039] “扩增子”是指通过一对扩增引物中任一条或两条的延伸产生的扩增反应的产物。如果所采用的两条引物均与靶序列杂交,则扩增子可以含有指数扩增的核酸。可选择地,如果所采用的引物之一不与靶序列杂交,则扩增子可以通过线性扩增产生。因此,此术语在本文中被一般性地使用并且不意味着存在指数扩增的核酸。
[0040] “退火”或“杂交”是指一种核苷基(nucleobase)聚合物与另一种之间的碱基配对相互作用,该作用导致双链结构、三链结构或四链结构的形成。退火或杂交可以经由沃森-克里克碱基配对相互作用发生,但是可以通过其他氢键键合相互作用介导,如Hoogsteen碱基配对。
[0041] “装配”是指在多核苷酸之间的互补区可以退火形成杂交复合体的条件下将多个多核苷酸片段(例如,扩增子)聚在一起,例如所述杂交复合体具有双链杂交区和非互补区的突出。可以装配多个多核苷酸以形成编码感兴趣的多肽的较大的多核苷酸。
[0042] “桥接多核苷酸”是指在末端区具有互补区使得一种多核苷酸可以与一种末端区退火并且另一种多核苷酸可以与桥接多核苷酸的另一末端区退火的多核苷酸。
[0043] “编码序列”是指编码蛋白的氨基酸序列的那部分核酸(例如,基因)。“密码子优化的”是指将编码蛋白的多核苷酸密码子改变为在特定生物体中优先使用的那些密码子以便使所编码的蛋白在感兴趣的生物体中有效地表达。尽管由于大部分氨基酸由几种密码子(称为“同义物”或“同义”密码子)代表而使遗传密码是简并的,但熟知的是特定生物体的密码子使用是非随机的并且偏爱特定的密码子三联体。这种密码子使用偏好关于给定基因、具有常见功能的基因或祖源(ancestra origin)基因、相对于低拷贝数蛋白的高表达蛋白和生物体基因组的聚集蛋白编码区可能是更高的。
[0044] “互补”是指核苷酸或核酸之间的杂交或碱基配对,诸如例如,双链DNA分子的两条链之间或寡核苷酸引物与待测序或待扩增的单链多核苷酸上的引物结合位点之间。互补核苷酸一般是A与T(或A与U)或C与G。当多核苷酸(RNA或DNA)链在选择性的杂交条件下与其互补链杂交时将两条单链RNA或DNA分子说成是基本上互补的。通常,当在至少
14至25个核苷酸的一段序列上存在至少约65%互补,优选至少约75%互补,更优选至少约90%互补时,发生选择性杂交。参见,例如,M.Kanehisa,1984,Nucleic Acids Res.12:
203,通过引用并入本文。本文所用的“与......互补”意指互补序列与参考多核苷酸序列的全部或部分的反向互补链基本上相同或相同或者意指一条链内的每个核苷酸能够与相反链内的核苷酸或其类似物形成碱基对。
[0045] “保守的氨基酸取代”是指具有相似侧链的残基的可互换性,并且因此通常包括用相同或相似的定义的氨基酸类中的氨基酸取代多肽中的氨基酸。举例来说但是不旨在限制,具有脂肪族侧链的氨基酸可以用如下的另一脂肪族氨基酸取代:例如,丙氨酸、缬氨酸、亮氨酸、异亮氨酸、以及蛋氨酸;具有羟基侧链的氨基酸用具有羟基侧链的另一氨基酸如丝氨酸和苏氨酸取代;具有芳族侧链的氨基酸用具有芳族侧链的另一氨基酸如苯丙氨酸、酪氨酸、色氨酸和组氨酸取代;具有碱性侧链的氨基酸用具有碱性 侧链的另一氨基酸如赖氨酸、精氨酸和组氨酸取代;具有酸性侧链的氨基酸用具有酸性侧链的另一氨基酸如天冬氨酸或谷氨酸取代;以及疏或亲水氨基酸分别用另一疏水或亲水氨基酸取代。
[0046] “控制序列”是指如下多核苷酸序列:用于实现它们所缔合的编码序列和非编码序列的表达的多核苷酸序列。这种控制序列的性质依据宿主生物体而不同。控制序列一般包括启动子、核糖体结合位点和转录终止序列。术语“控制序列”旨在包括其存在可以影响表达的组分,并且还可以包括其存在是有利的其他组分,例如前导序列和融合配偶体序列。 [0047] 如本文在针对多核苷酸或多肽序列的突变的上下文中所用的“限定的差异”是指事先指定的、选择的和/或期望的序列改变(例如,在多核苷酸序列的选择位置中从c至g的核苷酸改变,该改变在编码多肽的期望位置产生不同氨基酸)。
[0048] 关于多肽或多核苷酸的“缺失”是指从参考多肽或多核苷酸分别移除一个或多个氨基酸或核苷酸。缺失可以包括移除1个或多个氨基酸或核苷酸、2个或更多个氨基酸或核苷酸、3个或更多个氨基酸或核苷酸、5个或更多个氨基酸、6个或更多个氨基酸或核苷酸、10个或更多个氨基酸或核苷酸、15个或更多个氨基酸或核苷酸、或20个或更多个氨基酸或核苷酸、最多氨基酸或核苷酸总数的10%、或最多构成参考多肽或参考多核苷酸的氨基酸或核苷酸总数的20%。缺失可以针对多肽或多核苷酸的内部和/或端部。在多个实施方案中,缺失可以包含连续的区段或者可以是不连续的。
[0049] 当是指核酸或多肽时所用的“异源的”表示如下序列:所述序列包含的两种或多种子序列彼此之间的关系不同于正常天然发现的关系,或者序列被重组地工程化以便其表达水平或与细胞中的其他核酸或其他分子的物理关系不是正常天然发现的关系。例如,异源核酸通常是重组制备的,它具有来自不相关基因的以非天然发现的方式安排的两种或更多种序列;例如插入到表达盒如载体中的与启动子序列可操作地连接的本发明的核酸开放阅读框(ORF)。
[0050] “插入”或“添加”是指与参考序列诸如例如野生型序列相比分别通过添加一个或多个核苷酸或氨基酸残基的核苷酸序列或氨基酸序列的改变。
[0051] “文库”是指一组(例如,多种)异源多肽或核酸。文库由具有单一多肽序列或核酸序列的成员构成。在这个程度上,“文库”与“所有组成成分”同义。文库成员之间的序列差异是文库中存在多样性的原因。文库可以采取多肽或核酸的简单混合物的形式,或者可以是用核酸文库转化的生物体或细胞的形式,例如细菌、病毒、动物或植物细胞以及类似物。
[0052] “非保守取代”是指用具有显著不同的侧链特性的氨基酸进行的多肽中氨基酸的取代。非保守取代可以使用限定组之间而不是限定组之内的氨基酸并且影响(a)取代区域中肽骨架的结构(例如,脯氨酸取代甘氨酸)(b)电荷或疏水性、或(c)侧链体积(side chain bulk)。举例来说但是不旨在限制,示例性的非保守取代可以是用碱性氨基酸或脂肪族氨基酸取代酸性氨基酸;用小氨基酸取代芳族氨基酸;以及用疏水性氨基酸取代亲水性氨基酸。
[0053] “天然存在的”或“野生型”是指在自然界中发现的形式。例如,天然存在的或野生型多肽或多核苷酸序列是在生物体中存在的可以从自然界来源分离的序列并且该序列没有被故意地通过人类操作修饰。
[0054] “核苷碱基”或“碱基”是指对于使用核酸或多核苷酸技术或使用聚酰胺或肽核酸技术从而产生能够以序列特异性方式与多核苷酸杂交的聚合物的人员来说通常已知的那些天然存在的和合成的杂环部分。合适的核苷碱基的非限制性实例包括:腺嘌呤、胞嘧啶、嘌呤、胸腺嘧啶、尿嘧啶、5-丙炔基-尿嘧啶、2-硫代-5-丙炔基-尿嘧啶、5-甲基胞嘧啶、假异胞嘧啶、2-硫尿嘧啶和2-硫胸腺嘧啶、2-氨基嘌呤、N9-(2-氨基-6-氯嘌呤)、N9-(2,6-二氨基嘌呤)、次黄嘌呤、N9-(7-脱氮-鸟嘌呤)、N9-(7-脱氮-8-氮杂-鸟嘌呤)和N8-(7-脱氮-8-氮杂-腺嘌呤)。合适的核苷碱基的其他非限制性实例包括在Buchardt等人(WO 92/20702或W092/20703)的图2(A)和2(B)中图示的那些核苷碱基。
[0055] “核苷碱基聚合物”或“寡聚物”是指通过键连接的两个或更多个核苷碱基,其容许所得核苷碱基聚合物或寡聚物与具有互补核苷碱基序列的多核苷酸杂交。核苷碱基聚合物或寡聚物包括但不限于多核苷酸和寡核苷酸(例如,DNA和RNA的聚合物和寡聚物)、多核苷酸类似物和寡核苷酸 类似物以及多核苷酸模拟物和寡核苷酸模拟物,如聚酰胺或肽核酸。核苷碱基聚合物或寡聚物的大小可以从几个核苷碱基、2至40个核苷碱基,至几百个核苷碱基、至几千个核苷碱基或更多个核苷碱基变化。
[0056] “可操作地连接”是指两个或更多个核酸(例如,DNA)区段之间的功能关系。在一些实施方案中,它是指转录调节序列与转录序列之间的功能关系。例如,如果启动子(在下文定义)刺激或调控编码序列如本发明的核酸在适当的宿主细胞或其他表达系统中的转录,则该启动子与该编码序列可操作地连接。一般地,与转录序列可操作地连接的启动子转录调节序列与转录序列是物理上邻接的,即,它们是顺式作用的。然而,诸如增强子等一些转录调节序列不需要与它们增强转录的编码序列邻接或在它们增强转录的编码序列极为接近处定位。在一些实施方案中,调节序列是与编码序列连接的翻译调节序列。 [0057] “重叠区”是指第一多核苷酸与第二多核苷酸互补的区域,其中所述重叠区能够彼此退火形成杂交复合体。一般地,第一多核苷酸和第二多核苷酸将部分重叠以便使多核苷酸具有在两个多核苷酸之间不退火的非互补区。
[0058] “排列”是指来自给出的有限组的要素(例如,取代突变)的安排。在本文用于描述多肽和多核苷酸的上下文中,氨基酸残基或核苷酸残基与参考序列之间的差异通常被表征为“突变”,它们能够以多种组合方式被安排在序列中以形成突变组的排列。排列包括单突变以及来可能自限定的组的突变的每种组合。
[0059] “多核苷酸”或“寡核苷酸”是指其中核苷碱基通过糖磷酸酯键(糖-磷酸酯骨架)连接的核苷碱基聚合物或寡聚物。示例性的多核苷酸和寡核苷酸包括2’脱核糖核酸(DNA)的聚合物和核糖核酸(RNA)的聚合物。多核苷酸可以完全由核糖核酸构成、完全由2’脱氧核糖核酸构成或由它们的组合构成。
[0060] “多核苷酸”或“寡核苷酸类似物”是指其中核苷碱基通过包含一个或多个糖磷酸酯类似物的糖磷酸酯骨架连接的核苷碱基聚合物或寡聚物。典型的糖磷酸酯类似物包括但不限于:糖烷基膦酸酯、糖亚磷酰胺、糖烷基烷 基磷酸三酯或取代的烷基磷酸三酯、糖硫代磷酸酯、糖二硫代磷酸酯、其中糖是非2’脱氧核糖或核糖的糖磷酸酯和糖磷酸酯类似物、具有带正电的糖-胍基互连的核苷碱基聚合物,如在美国专利第6,013,785号和美国专利第5,696,253号中描述的那些(还参见,Dagani 1995,Chem.Eng.News4-5:1153;Dempey等人,1995,J Am Chem Soc 117:6140-6141)。其中糖是2’-脱氧核糖的这种带正电荷的类似物被称为“DNG”,而其中糖是核糖的那些被称为“RNG”。在多核苷酸和寡核苷酸类似物的定义中特别包括的是定核酸(LNA;参见,例如Elayadi等人,
2002,Biochemistry 41:9973-9981;Koshkin等人,1998,J Am Chem Soc 120:13252-3;
Koshkin等人,1998,Tetrahedron Letters 39:4381-4384;Jumar等人,1998,Bioorganic & MedicinalChemistry Letters 8:2219-2222;Singh和Wengel,1998,Chem.Commun.,12:
1247-1248;WO 00/56746;WO 02/28875;和WO 01/48190;它们全部通过引用整体并入本文)。
[0061] “引物”是指具有与通常称为引物结合序列的靶序列互补的序列的寡核苷酸。引物的互补部分可以是支持在反应条件下引物与靶序列之间的特异和稳定的杂交的任何长度。引物可以为约5至60个核苷酸长、约10至35个核苷酸长或者可以来自并且具体是10、11、
12、13、14、15、16、17、18、19和/或20个核苷酸长。一般地,用于通过聚合酶复制的引物在引物与靶序列退火时能够通过聚合酶支持延伸。“扩增引物”是指用于靶核酸序列扩增的寡核苷酸引物。
[0062] “正向引物”和“反向引物”是指一组扩增引物,其中一种引物与靶(模板链)的3’端退火而另一种引物与互补的靶链的3’端退火以扩增扩增子。
[0063] “接近”是指限定的碱基(例如,第一核苷酸突变)与第二限定的碱基(例如,第二核苷酸突变)的核苷酸距离,其中第一突变和第二突变可以容纳在用于扩增目的的单个寡核苷酸引物(例如,正向引物或反向引物)中。因此,在一些实施方案中,术语“接近”是关于引物的长度而确定的。在一些实施方案中,如果两个突变被1、2、3、4、5、6、8、10、12、14、16、18、20或25个核苷酸碱基隔开并且在引物中,则它们可以是接近的。在一些实施方案中,突变相对于引物的3’端的定位使得与模板链退火的寡核苷酸可以通过聚合酶进行延伸,如在下文详细描述的。
[0064] “蛋白”、“多肽”、“寡肽”和“肽”可互换使用,表示通过酰胺键共价连接的至少两个氨基酸的聚合物,而与长度或翻译后修饰(例如,糖基化、磷酸化、脂化、十四烷基化、泛素化等)无关。此定义中包括D-氨基酸和L-氨基酸以及D-氨基酸和L-氨基酸的混合物。 [0065] 当指例如细胞、核酸、多肽、表达盒或载体时所用的“重组体”是指通过重组技术引入新部分或改变已有部分而被修饰的材料或对应于该材料的天然形式或固有形式的材料,或者与材料的天然形式或固有形式相同但是产生或源自于使用重组技术的合成材料。例如,重组细胞表达在固有(非重组)形式的细胞中没有发现的基因(即,“外源核酸”)或表达以不同的水平另外表达的固有基因,通常是表达降低或几乎不表达。
[0066] “参考序列”是指用作序列比较的基础的定义的序列。参考序列可以是较大序列的子序列,例如全长基因或多肽序列的区段。一般地,参考序列是至少20个核苷酸或氨基酸残基长、至少25个残基长、至少50个残基长、或全长的核酸或多肽。由于两条多核苷酸或多肽可以各自(1)包含两个序列之间相似的序列(即,完整序列的一部分)并且(2)还可以包含两个序列之间的差异序列,所以两条(或更多条)多核苷酸或多肽之间的序列比较通常通过在“比较窗口”内比较两条多核苷酸或多肽的序列以鉴定和比较局部区域的序列相似性来进行。
[0067] “复制”是指拷贝靶多核苷酸序列以合成多核苷酸的反向互补拷贝。一般地,复制是通过聚合酶进行的,其拷贝模板多核苷酸而合成靶多核苷酸序列的反向互补序列。 [0068] “区段”是指是较大多核苷酸序列的一部分的序列。较大多核苷酸序列可以被分为多个区段,其中所述区段的组合构成了全长的较大多核苷酸序列。
[0069] 如本文所用的“多肽变体”或“多肽类似物”是指由具有功能活性的区段构成的多肽,其保留或不保留任何改良的特性,并且与参考多肽的一部分具有实质的同一性。在一些实施方案中,类似物多肽包含相对于参考序列的保守的或非保守的氨基酸取代或一个或多个氨基酸残基的添加或缺失。
[0070] “沃森/克里克碱基-配对”是指通过序列特异性氢键结合在一起的核苷碱基和类似物的特异性配对模式,如A与T和U配对,以及G与C配对。
[0071] “取代”是指与诸如野生型序列等参考序列相比一个或多个核苷酸或氨基酸分别被不同的核苷酸或氨基酸替代。
[0072] “基底”、“支持体”、“固体支持体”、“固体载体”或“树脂”是可互换的术语并且是指任何固相材料。基底还涵盖诸如“固相”、“表面”和/或“膜”等术语。固体支持体可以由诸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯和聚丙烯酰胺等有机聚合物以及共聚物及其接枝物(graft)构成。固体支持体还可以是无机的,如玻璃、二氧化、可控孔度玻璃(controlled pore glass,CPG)、反相二氧化硅或金属如金或铂。基底的构造可以是珠子、球体、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平坦的、基本上平坦的或不平坦的。固体支持体可以是多孔的或无孔的并且可以具有溶胀或非溶胀特征。固体支持体可以被构造为孔、凹陷或其他容器、器皿、器件或定位的形式。可以将多个支持体以不同的定位构造在阵列上,所述不同的定位对于自动的试剂递送是可寻址的或可通过检测方法和/或仪器寻址。
[0073] “阵列”是指剂(例如,蛋白、抗体、可复制的遗传包(genetic package))在基底上位置不同的定位中的安排。在一些实施方案中,阵列上的剂是空间编码的以便使剂的身份可以由其在阵列上的定位来确定。“微阵列”一般是指其中检测需要使用显微检测来检测与基底上的剂形成的复合体的阵列。阵列上的“定位”是指在包含剂的阵列表面上的局部区域,它们每一个被定义为使得它可以与邻近定位区别开(例如,位于整个阵列上或具有容许该定位与其他定位区别开的某种可检测的特征)。定位可以具有任何方便的形状(例如,圆形、矩形、椭圆形或楔形)。定位的大小或区域可以显著变化。阵列可以在基底上构建,如玻璃或塑料的显微镜载玻片,并且被构造为孔、凹陷、滴或其他容器或反应器皿如微量培养板孔形式。一般而言,阵列的形式没有限制,只要剂所安放的单个位置可以被定位和鉴定即可。
[0074] “反应室”意指其中剂和/或反应组分发生的环境。商购获得的反应器皿含有至少一个反应室,但是可以含有8个、24个、96个或384个反应室。为了本公开内容的目的,“反应室”、“孔”、“反应位点”可互换使用。反应室的实例是在96孔微量滴定板中的微量滴定孔之一。
[0075] “引物阵列”是指用于基底(例如阵列基底)上位置不同的定位中的扩增反应的引物或引物组的阵列。一般地,引物组包含用于扩增扩增子的一对正向引物和反向引物。 [0076] “扩增子阵列”是指扩增的多核苷酸在基底(例如,阵列基底)上位置不同的定位中的安排。在一些实施方案中,扩增子阵列可以具有与引物阵列相同的位置安排,例如在引物阵列中进行扩增反应以产生扩增的多核苷酸时。
[0077] “质粒”、“载体”和“盒”是指通常携带基因并且通常为环状双链DNA分子形式的染色体外元件。这种元件可以是源自任何来源的自动复制的序列、基因组整合序列、噬菌体或核苷酸序列、直链或环状的单链或双链DNA或RNA,其中大量核苷酸序列被结合或重组为独特的构建体,该构建体能够将启动子片段和选择的基因产物的DNA序列连同适当的3′非翻译序列一起引入细胞。“表达盒”是指含有外来基因并且除外来基因外具有容许该基因在宿主中表达的元件的特定载体。
[0078] 合成多核苷酸变体的方法
[0079] 本公开内容提供产生多核苷酸变体的方法,所述多核苷酸变体具有不同于参考多核苷酸序列的一组限定的序列差异。在一些实施方案中,该方法可应用于产生编码多肽变体的多核苷酸,所述多肽变体具有与参考多肽相比较限定的氨基酸序列差异。在一些实施方案中,多核苷酸变体在非编码区具有一组限定的核苷酸差异,例如沉默突变。多核苷酸通过使用多核苷酸片段文库被有效地产生,其中文库的成员编码与参考多肽序列相比的一个或多个氨基酸差异,并且所述多核苷酸片段被设计为具有重叠邻接 区,以便使对具有和不具有突变的一组适当片段的选择容许它们装配为多核苷酸变体,例如编码期望的多肽变体的多核苷酸。
[0080] 在一些实施方案中,用于产生编码具有一种或多种限定的氨基酸残基差异的氨基酸序列的多肽的多核苷酸的方法包括:(a)选择相对于参考氨基酸序列的多个限定的氨基酸残基差异;(b)限定编码具有差异氨基酸序列的多肽或任选的参考多肽的多核苷酸序列的重叠区段,每个区段被一组正向和反向引物结合序列界定,其中编码多种氨基酸残基差异的每一种的多核苷酸序列差异涵盖在结合引物结合序列的正向和/或反向引物的序列中;(c)用该组正向和反向引物扩增每个区段以产生包含编码限定的氨基酸差异的成员的扩增子文库,其中选择的正向和/或反向引物含有多核苷酸序列差异并且其中所述文库包含足以装配具有限定的氨基酸残基差异的两种或更多种不同的氨基酸序列排列;(d)从文库装配具有互补邻接区的一组扩增子,该组扩增子在一起编码具有含一种或多种限定的氨基酸残基差异的限定的氨基酸序列排列的多肽;以及(e)复制该组装配的扩增子以合成编码多肽的多核苷酸。含有全部限定的氨基酸差异的扩增子文库应容许合成编码所有可能的氨基酸序列排列的多种多核苷酸。
[0081] 如熟练的技术人员明显可知的,选择多种限定的氨基酸残基差异可以从多种来源获得。在一些实施方案中,限定的多肽的氨基酸残基位置和相应突变可以由随机诱变研究获得,诸如在下列文献中描述的:Crameri等人,1998,“DNA shuffling of a family of genes from diverse species accelerates directed evolution(来自不同物种的基因家族的DNA改组加速定向演变),”Nature 391:288-291;Crameri等人,1997,“Molecular evolution ofan arsenate detoxification pathway by DNA shuffling(通过DNA改组的砷酸盐解毒途径的分子演变),”Nature Biotech 15:436-438;Zhang等人,1997,“Directed evolution of an effective fructosidase from a galactosidase by DNA shuffling and screening(通过DNA改组和筛选由半乳糖苷酶向有效的果糖苷酶定向演变),”Proc Natl Acad Sci USA 94:45-4-4509;Crameri等人,1996,“Improved green fluorescent protein by molecular evolution using DNA shuffling(通过使用DNA改组的分子演变改进的绿色荧光蛋白),Nature Biotech 14:315-319;Stemmer,1994,“Rapid evolution of a protein in vitro by DNA shuffling(蛋白质在体外通过DNA改组的快速演变),”Nature 370:389-391;Stemmer,1994,“DNA shuffling by random fragmentation and reassembly:In vitro recombination for molecular evolution(通过随机片段化和装配的DNA改组:分子演变的体外重组),”Proc Natl Acad Sci USA91:10747-10751;WO95/22625;WO 97/0078;WO 97/35966;WO 98/27230;WO 00/42651;WO 01/75767和美国专利6,537,746。所有出版物均通过引用并入本文。
[0082] 通常,表达诱变的多核苷酸文库并且筛选表达的多肽的期望特性性状,并且鉴定与期望的特性改变相关的突变。可以使用这些技术容易地获得影响多肽功能的大量突变。 [0083] 在一些实施方案中,氨基酸残基差异的选择可以由相关蛋白的氨基酸序列例如在序列数据库中发现的那些序列的比较而获得。序列比较可以鉴定位置,例如可能对于蛋白功能很重要的保守残基的位置,然后可以靶向该鉴定的位置以用于限定的氨基酸改变。参见,例如Wankhade等人,2000,J.Biol.Chem.275(38):29701-29708;和Reddy等人,2001,Proteins:Structure,Function,and Genetics(蛋白质:结构、功能和遗传学)42:
148-163。
[0084] 在一些实施方案中,多种限定的氨基酸残基差异可以基于天然发现的序列差异,例如发现的具体基因的多态性。在一些情况下,多态性与特定生物作用和相关表型相关。参见,例如,Bidwell等人,1999,Genes and Immunity 1:3-19;Chen等人,2003,Mol.Biol.Evo.18:1771-1788。多态性的集合可以形成用于限定多种氨基酸残基差异的基础,所述多种氨基酸残基差异用于形成参考氨基酸序列的变体多肽。不同氨基酸多态性的组合可用于检测具体蛋白的功能。
[0085] 当限定了相对于参考序列的多种氨基酸残基差异时,编码参考多肽或多肽变体的多核苷酸可以用作鉴定用于限定扩增子的区段的基础,所述扩增子是为创建多核苷酸片段(即,扩增子)文库而产生的。在一些实施方案中,多核苷酸序列不需要被限制为任何具体序列,只要它编码或可用作产生编码感兴趣的氨基酸序列的多核苷酸的基础即可。多核苷酸可以基于 天然存在的(例如,野生型)序列或被优化以便在感兴趣的具体生物体中表达的序列(例如,密码子优化的)。例如,如果要在大肠杆菌(E.coli.)中表达感兴趣的多肽,则可以使用其中密码子被优化以便在大肠杆菌中表达的多核苷酸序列。密码子优化技术是本领域的那些技术人员熟知的。
[0086] 如熟练的技术人员明显可知的,可以使用本领域中熟知的技术来完成将多核苷酸分割为用于扩增的限定的区段。在一些实施方案中,由于区段是由引物结合序列限定的,引物结合序列本身用于将突变引入扩增子,所以多核苷酸分割为区段可以首先考虑多核苷酸上突变的定位。多核苷酸分割为区段还可以考虑多核苷酸的总长度、复制效率(例如,区段的扩增)、以及用于装配的扩增子的期望数目。其他考虑因素对于熟练的技术人员将是明显的。
[0087] 可以通过序列、所用的聚合酶类型、引物效率以及不期望的副反应(例如,引物二聚体)来影响扩增反应。因此,在一些实施方案中,依据待装配的多核苷酸的总长度,区段长度可以是2000个碱基或更少、1500个碱基或更少、1200个碱基或更少、1000个碱基或更少、900个碱基或更少、800个碱基或更少、700个碱基或更少、600个碱基或更少、500个碱基或更少、400个碱基或更少、300个碱基或更少、250个碱基或更少、或200个碱基或更少至长度约100个碱基或少至约50个碱基。一般地,区段的长度为约50至约1000个碱基、约200至1000个碱基、约300至700个碱基、或约400至600个碱基,其中约500个碱基为给出用于扩增反应的聚合酶效率的平均有用长度。在多个实施方案中,区段是重叠的以便由它们所产生的扩增子也将具有重叠邻接区(即,重叠互补区)以用于装配多核苷酸。 [0088] 在一些实施方案中,重叠邻接区应具有足够的长度和互补性以容许在多核苷酸装配期间形成稳定的退火的(即,杂交的)扩增子。因此,在一些实施方案中,重叠长度可以是如形成稳定的退火的扩增子的能力所容许的4个或更多个核苷酸、5个或更多个核苷酸、
6个或更多个核苷酸、8个或更多个核苷酸、10个或更多个核苷酸、15个或更多个核苷酸、20个或更多个核苷酸、25个或更多个核苷酸、30个或更多个核苷酸、40个或更 多个核苷酸、
50个或更多个核苷酸、以及长度为100个或更少、90个或更少、80个或更少、70个或更少、
60个或更少的核苷酸。由于重叠区一般包括用于产生扩增子的引物结合序列,所以重叠长度可以说明引物(例如,正向和/或反向)序列的任何差异,所述引物序列的差异用于产生编码待引入的突变的多核苷酸差异。
[0089] 在一些实施方案中,区段由与正向/反向引物退火的引物结合序列界定。在适当时,限定区段的引物结合序列还可以涵盖编码氨基酸序列差异的多核苷酸的位置。引物结合序列可以为足以在扩增反应期间与引物(正向或反向)退火的任何长度。因此,引物结合序列可以是100个碱基或更少、90个碱基或更少、80个碱基或更少、70个碱基或更少、60个碱基或更少、50个碱基或更少、40个碱基或更少、30个碱基或更少、20个碱基或更少15个碱基或更少、至约8个碱基或10个碱基。在一些实施方案中,引物结合序列的长度可以包含约8至50个碱基、约8至40个碱基、约10至30个碱基或约15至25个碱基。引物通常可以包含与上述引物结合序列互补的长度。因此,在一些实施方案中,正向/反向引物的长度可以为约60个核苷酸或更少、50个核苷酸或更少、40个核苷酸或更少、30个核苷酸或更少、20个核苷酸或更少15个核苷酸或更少、至约10个核苷酸或甚至8个核苷酸。在一些实施方案中,正向/反向引物的长度可以是约8至50个核苷酸、约8至40个核苷酸、约10至30个核苷酸或约15至25个核苷酸。
[0090] 在引物含有编码限定的氨基酸差异的序列时,突变可以定位于不干扰引物延伸的引物区域。在一些实施方案中,突变定位于诱变的引物的大约中间处,其中该引物具有足以与模板核酸退火的Tm并且充当聚合酶介导的延伸反应的引物。在一些实施方案中,多核苷酸序列差异可以依据引物长度定位于距引物的3’末端约5个碱基、6个碱基、8个碱基、10个碱基、12个碱基、15个碱基、20个碱基、25个碱基处。因此,在一些实施方案中,正向/反向引物的长度可以是约8至50个核苷酸、约8至40个核苷酸、约10至30个核苷酸、或约15至25个核苷酸,并且它还包含在引物的大约中间处的核苷酸序列差异。因此,在一些实施方案中,正向/反向引物是 约50个核苷酸长,在距3’端约25个核苷酸处具有核苷酸差异;约40个核苷酸长,在距3’端约20个核苷酸处具有核苷酸差异;约30个核苷酸长,在距3’端约15个核苷酸处具有核苷酸差异;约25个核苷酸长,在距3’端约12个核苷酸处具有核苷酸差异;或约20个核苷酸长,在距3’端约10个核苷酸处具有核苷酸差异。 [0091] 寡核苷酸引物的稳定性如热熔解温度取决于离子强度、温度、G/C含量以及离液剂的存在并且可以使用预测熔解温度的已知方法来计算(参见,例如,Baldino等人,Methods Enzymology 168:761-777;Bolton 等 人,1962,Proc.Natl.Acad.Sci.USA 48:1390;
Bresslauer等 人,1986,Proc.Natl.Acad.Sci USA 83:8893-8897;Freier 等 人,1986,Proc.Natl.Acad.Sci USA83:9373-9377;Kierzek 等 人,Biochemistry 25:7840-7846;
Rychlik等人,1990,Nucleic Acids Res 18:6409-6412(勘误,1991,Nucleic Acids Res
19:698);Sambrook等人,2001,Molecular Cloning:A Laboratory Manual(分子克隆:
实验室手册),第三版,Cold Spring Harbor Laboratory Press,NY;Suggs等人,1981,In Developmental Biology Using Purified Genes(在发育生物学中使用纯化的基因)(Brown等人,编辑),第683-693页,Academic Press;以及Wetmur,1991,Crit Rev Biochem Mol Biol 26:227-259。所有出版物均通过引用并入本文)。
[0092] 为了产生扩增子文库,在扩增反应中使用与多核苷酸的各区段的引物结合序列退火的正向和反向引物来产生扩增子。在扩增子具有编码相对于参考序列的限定的氨基酸改变的多核苷酸差异时,正向和/或反向引物的序列被设计成在扩增反应中引入不同的序列(即,突变)。使用正向和反向引物的合适的组合来产生扩增子文库,所述扩增子文库包含可以编码多种氨基酸残基差异的每一种的成员。
[0093] 在一些实施方案中,可以将正向和反向引物组储存在阵列中,如引物阵列,以便它们在需要扩增子来合成编码限定的氨基酸序列排列的多核苷酸时可以容易地被获取。如本领域中将了解的,可以使用寡核苷酸引物引入在限定的多种氨基酸残基差异中选择的任何类型的突变,尤其包括氨基 酸插入、缺失和取代。如由选择的多种氨基酸残基差异所指示的,取代可以是保守的或非保守的突变。
[0094] 在一些实施方案中,在多肽序列中相同的氨基酸残基位置上可以存在多于一种的氨基酸序列差异。在这些实施方案中,可以产生来自相同的重叠区段的不同扩增子,其中每个扩增子是用在相同的残基位置的各限定的突变的正向和反向引物对制备的。为了制备编码在该特定的氨基酸残基位置处的特定序列排列的多核苷酸,选择含有期望突变(即,限定的核苷酸差异)的扩增子之一并将其装配为该组扩增子的成员以产生编码在指定的氨基酸残基位置处含有期望突变的多肽的多核苷酸。
[0095] 在一些实施方案中,可以使用多于一对的引物(例如,一组简并引物)来产生可用于装配一组多核苷酸变体的一组扩增子(即,多核苷酸片段),所述多核苷酸变体编码在特定的限定位置处具有更多氨基酸残基改变(例如,取代)的多肽。由使用简并引物制备的扩增子装配的多核苷酸变体可以在测定它们编码的多肽之前或之后测序以便确定在感兴趣的位置的特定序列。
[0096] 如熟练的技术人员明显可知的,在一些实施方案中,对于多核苷酸序列限定的重叠区段可以不具有任何相关突变。此外,同一区段可以在一个氨基酸序列排列中涵盖指定的突变,但是在一些序列排列中可以不具有与该区段相关的任何突变。因此在一些实施方案中,扩增子文库可以包含与具体区段的参考序列相比不具有任何多核苷酸序列差异的成员。与参考序列相比不具有相关的序列改变的这些桥接多核苷酸可以用作连接体来装配完整的多核苷酸。
[0097] 通过适当的区段选择,扩增子文库包含可用于装配具有相对于参考序列的限定的氨基酸差异的至少两种或更多种不同的氨基酸序列排列。例如,氨基酸残基差异A和B所限定的多种突变可以具有下列排列:单独的A、单独的B或A和B。因此扩增子文库具有足以产生独立地具有A突变或B突变的氨基酸序列排列的成员。在一些实施方案中,扩增子文库具有足以产生相对于参考序列的限定的氨基酸残基差异的每种氨基酸序列排列。因此,对于给定的实例,扩增子文库具有足以产生独立地具有A突变 或B突变或A+B突变的氨基酸序列排列的成员。由于扩增子的大小将对应于区段的大小,所以扩增子可以是长度为2000个碱基或更少、1500个碱基或更少、1200个碱基或更少、1000个碱基或更少、900个碱基或更少、800个碱基或更少、700个碱基或更少、600个碱基或更少、500个碱基或更少、400个碱基或更少、300个碱基或更少、250个碱基或更少、或200个碱基或更少至约100个碱基或少至约50个碱基。一般地,扩增子的长度为约50至约1000个碱基、约200至约1000个碱基、约300至700个碱基、或约400至600个碱基,其中约500个碱基或更少为给出用于扩增反应的聚合酶效率的有用长度。在一些实施方案中,扩增子的长度为约400个碱基或更少。
[0098] 一般地,扩增反应可以使用用于聚合酶介导的延伸反应的任何酶,例如Taq聚合酶、Pfu聚合酶、Pwo聚合酶、Tfl聚合酶、rTth聚合酶、Tli聚合酶、Tma聚合酶和Klenow片段。使用聚合酶链式反应扩增多核苷酸区段的条件可以遵循本领域中已知的标准条件。参见,例如Sambrook等人,2001,Molecular Cloning:A Laboratory Manual(分子克隆:
实验室手册),第3版,Cold Spring Harbor Laboratory Press,NY以及Ausubel等人,
1989,Current Protocols in Molecular Biology(现代分子生物学实验技术),Greene Publishing Associates and Wiley Interscience,N.Y(更新至2008);参考文献通过引用并入本文。
[0099] 在一些实施方案中,可以在单独的反应中进行每种扩增子的扩增,从而将分离一种扩增子产物与另一种扩增子的需要最小化。然而,可以在单个反应中进行两种或更多种扩增子的扩增反应并分离产物,例如通过电泳或色谱分离。在一些实施方案中,可以用核酸外切酶和磷酸酶的多种组合处理扩增反应的产物以移除剩余的引物和游离的核苷酸(例如,核酸外切酶I和碱性磷酸酶的组合)。
[0100] 为了产生编码具有限定的氨基酸序列排列的多肽的多核苷酸,选择具有互补重叠区的一组扩增子并在容许互补重叠区彼此退火的条件下装配该组扩增子。例如,可以使扩增子变性并然后容许其退火形成扩增子的复合体,所述扩增子在一起编码具有限定的氨基酸序列排列的多肽,所述限 定的氨基酸序列排列具有相对于参考序列的一种或更多种氨基酸残基差异。一般地,可以分别地进行每组扩增子的装配以便容易地将编码一种氨基酸序列排列的多核苷酸与编码不同氨基酸序列排列的另一多核苷酸区别开。在一些实施方案中,可以在基底(例如,阵列)上的可寻址的定位中进行装配,以便可以同时产生编码多种限定的氨基酸序列排列的多种多核苷酸。
[0101] 在一些实施方案中,可以制备装配体使得多个(即2个或更多个)扩增子代表同一片段。由这种装配反应所得的产物将含有具有限定的氨基酸序列差异的不同排列的多核苷酸的混合物。可以直接克隆这种混合物并且可以在测定编码的多肽之前或之后对变体测序。
[0102] 使用聚合酶复制装配的扩增子以合成编码感兴趣的多肽的多核苷酸。在一些实施方案中,反应条件可以使用用于扩增反应的相同的条件和聚合酶。装配的扩增子充当引物使得单轮的复制产生两倍的装配的扩增子。一般地,在复制步骤中,可以添加与多核苷酸侧翼(即,5’末端区和3’末端区)的引物结合序列退火的引物以通过进行另外的扩增反应来扩增多核苷酸产物。在一些实施方案中,这些侧翼引物可以含有限制酶的识别序列以便轻易地将合成的多核苷酸产物克隆到质粒或载体中,如表达载体。
[0103] 在一些实施方案中,侧翼引物可以具有如下序列:所述序列容许使用合成蛋白产物的偶联的转录-翻译系统的直接体外表达而不需要转化到宿主生物体中。因此,一些侧翼引物可以含有控制序列来控制多肽编码区的表达。使用这种侧翼引物的扩增反应可以可操作地连接控制序列与感兴趣的多肽编码区。
[0104] 在一些实施方案中,多种氨基酸差异为至少2种。在一些实施方案中,多种氨基酸差异为至少2种、3种、4种、5种、6种、7种、8种、9种、10种、11种、12种、13种、14种、15种或更多种。因此,限定的核苷酸差异的数目可以在2至45的范围内或更多。“n”多种限定的氨基酸残基差异的排列数目由公式n!/(k!(n-k)!得出,其中n是非相互排斥的突变数目并且k是氨基酸差异的数目,n!表示阶乘运算符。在一些实施方案中,例如最少2种氨基酸残基差异的扩增子文库的大小是含有至少3种不同的扩 增子的文库大小。在一些实施方案中,文库的大小为至少5种、6种、7种、8种、9种、10种、11种或甚至更多种不同的扩增子。例如,对于包含至少10种限定的差异的多种变体,假设没有差异被定位接近得使得每个引物包含多于1种差异的差异,则装配具有10种限定的差异的变体每个装配反应使用最多11个扩增子。假设在具有限定差异的多个位置的任一处期望有多种不同的突变,则可以使用更大的扩增子文库。因此,在一些实施方案中,扩增子文库可以包含至少5种、10种、20种、30种、40种、50种、75种、100种或更多种不同的扩增子。
[0105] 一旦合成扩增子文库,便可以使用该扩增子文库制备编码基于多种氨基酸残基差异的指定氨基酸序列排列的任何多核苷酸。在一些实施方案中,产生编码与参考多肽序列相比氨基酸序列具有一种或多种限定的氨基酸残基差异的多肽的多核苷酸的方法包括下列步骤:(a)装配具有互补重叠邻接区的一组扩增子,其中该组装配的扩增子包含编码与参考序列相比具有一种或多种限定的氨基酸残基差异的氨基酸序列的多核苷酸序列,其中所述扩增子选自具有编码多种氨基酸差异的成员的扩增子文库;以及(b)复制这组装配的重叠多核苷酸片段以合成感兴趣的多核苷酸。
[0106] 在一些实施方案中,可以使用扩增子文库来产生编码限定的多种限定的氨基酸差异的任何排列的多核苷酸,所述方法包括:(a)基于与参考氨基酸序列相比的多种限定的氨基酸残基差异产生与参考氨基酸序列不同的氨基酸序列的排列;(b)选择限定的氨基酸序列排列并基于参考序列确定对应的多核苷酸序列;(c)选择编码限定的氨基酸序列排列的一组重叠多核苷酸片段,其中至少每种编码氨基酸差异的重叠多核苷酸片段来自编码不同的已知氨基酸残基差异的多种多核苷酸片段,其中所述多种片段具有足以装配编码至少两种不同的氨基酸序列排列的多核苷酸的成员;(d)装配这组具有互补重叠邻接区的多核苷酸片段;以及(e)复制这组装配的重叠片段以合成编码多肽的多核苷酸。对于每种期望的氨基酸序列排列,可以重复步骤(b)至(e)。
[0107] 用于产生“n”种变体的扩增子的示例性方法显示在图4中。在示例的实施方案中,该方法包括:(a)输入参考序列和与该序列相关的突变列表;(b) 基于突变列表产生排列列表;(c)选择限定的氨基酸序列排列(即,变体1);(d)从扩增子文库(如图5中制备的)中鉴定重叠的多核苷酸片段;(e)确定变体数目,并且如果变体数目小于期望变体的总数,则重复步骤(a)至(d)。
[0108] 对于扩增子文库的有效合成,在扩增反应中使用适当设计的寡核苷酸引物。在一些实施方案中,产生重叠多核苷酸片段文库的方法可以包括:(a)基于与参考氨基酸序列不同的多种限定的氨基酸残基差异产生与参考氨基酸序列不同的氨基酸序列的多种排列,并且对于每种排列,(i)基于参考多核苷酸序列确定编码氨基酸序列的多核苷酸序列;(ii)扫描多核苷酸序列并鉴定编码氨基酸残基差异的多核苷酸序列的改变,并且任选地确定编码氨基酸序列排列中的下一氨基酸残基差异的下一多核苷酸序列改变的相近度;
(iii)选择具有编码氨基酸差异的序列的正向寡核苷酸引物,并且任选地如果多核苷酸序列的下一改变接近所述多核苷酸序列的改变则在同一正向引物中包含所述多核苷酸序列的下一改变;(iv)从正向引物的定位开始扫描多核苷酸序列直到鉴定出所述多核苷酸序列的下一改变或直到所述多核苷酸末端,并用正向寡核苷酸引物选择用于扩增多核苷酸片段的反向寡核苷酸引物,其中所述反向引物具有任选编码氨基酸残基差异的下一改变的序列;(v)对于编码氨基酸残基差异的多核苷酸序列中的每种改变,重复(ii)至(iv)直到所述多核苷酸序列中的所有改变都存在于寡核苷酸引物上并且到达所述多核苷酸序列的末端;以及(g)用每组正向和反向寡核苷酸引物扩增以产生具有编码氨基酸差异的成员的重叠扩增子的文库。在这些实施方案中,当多核苷酸序列的扫描遇到多核苷酸的终点时,可以将侧翼引物与内部引物联合使用来完成扩增子的产生。
[0109] 选择适当的正向和反向引物的示例性方法显示在图5中。在图5中,选择寡核苷酸引物的方法包括:(a)选择变体(氨基酸序列排列)并基于参考序列产生变体对应的多核苷酸序列;(b)制备具有第一突变的片段的正向寡核苷酸引物;(c)从所述第一突变开始扫描序列直至下一突变或至基因末端并制备下一突变的反向寡核苷酸引物;(d)并且如果所述下一突 变接近所述第一突变,则将所述下一突变置于同一正向寡核苷酸引物中;(e)重复步骤(b)至(d)直到达到多核苷酸变体n的末端。
[0110] 如上面所提到的,在其中多核苷酸被分出成为由一组正向和反向引物限定的重叠区段的一些实施方案中,正向和反向引物可以不具有相关的突变。可以出现这种情况的一种背景是如果多核苷酸区段在大小上受限,例如约小于1000个碱基,因为需要有效地合成扩增子以便使得不是所有的区段都具有限定的多核苷酸序列的改变。在一些实施方案中,在基于上述方法的寡核苷酸制备中,例如在选择反向引物的步骤(iv)中可以用约1200个碱基来将序列的检索限制为具体大小“1”。换言之,在基于序列差异鉴定正向引物之后,可以在多核苷酸序列的一个或另一个方向上进行扫描以确定距下一突变的核苷酸距离。如果距离超过了所设置的限度,则可以制备不包括任何突变的区段来桥接含有两个远距离突变的两个区段。可以在下一突变的点上重复扫描过程。
[0111] 如上面所提到的,可以将单独的或成组的寡核苷酸引物(例如,正向和反向寡核苷酸)以及对应的扩增子置于可寻址的基底上以用于自动化和/或储存。可以自动获取在可寻址基底中的寡核苷酸引物以合成用于限定的多种氨基酸差异的任何扩增子文库,在可寻址基底中的寡核苷酸引物在本文中还被描述为引物阵列。同样,可以获取在可寻址基底中的扩增子以产生编码基于限定的多种氨基酸差异的期望氨基酸序列排列的多核苷酸序列,在可寻址基底中的扩增子在本文中还被描述为扩增子阵列。阵列的基底或固体支持体可以由诸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯和聚丙烯酰胺的有机聚合物以及共聚物及其接枝物构成。固体支持体还可以是无机的,如玻璃、二氧化硅、可控孔度玻璃(CPG)、反相二氧化硅或金属如金或铂。基底的构造可以是珠子、球体、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平坦的、基本上平坦的或不平坦的。固体支持体可以是多孔的或无孔的并且可以具有溶胀或非溶胀特征。固体支持体可以被构造为孔、凹陷或其他容器、器皿、器件或定位的形式。可以将多个支持体以不同的定位构造在阵列上,所述不同的定位对于自动的试剂递送是寻址的或可通过检测方法和/或仪器寻址。在一些实施方式中,所述基 底是反应室。商购获得的反应器皿含有至少一个反应室,但是可以含有8个、24个、96个或384个反应室。反应室的实例是在96孔微量滴定板中的96个微量滴定孔之一。 [0112] 在一些实施方案中,可以使用能够从阵列中对引物或引物对取样的自动系统和相关计算机系统将引物或引物对递送至反应室。还可以将用于聚合酶介导的扩增的试剂递送给反应室中的各组引物,随后实施扩增程序(例如在自动的热循环仪中)。这容许基于多核苷酸序列的重叠区段形成含有限定的扩增子的可寻址基底。自动系统可以基于期望的氨基酸序列排列选择适当的扩增子组、选择用于最终多核苷酸产物扩增的侧翼引物,并递送用于装配和扩增反应的试剂。示例性的自动系统提供在图6中。图6中的自动系统包括下列指示:(a)选择用于扩增的区段和相关的扩增子;(b)鉴定选择的片段(即,扩增子)的正向和反向寡核苷酸,将寡核苷酸的数据信息储存在独特寡核苷酸的列表上(例如,96孔微量滴定板),并将该寡核苷酸置于第一可寻址的基底上;(c)将合成的片段的数据信息(例如,在阵列上的位置、序列、所用的寡核苷酸等)存储在独特片段的列表中,并将该寡核苷酸置于第二可寻址的基底上;(d)确定针对装配所需的片段总数的所选择的片段数,并重复步骤(a)至(d)直到选择所有的片段;(e)将装配的基因置于第三可寻址的基底上,并重复步骤(a)至(d)直到产生所有期望的变体。
[0113] 在一些实施方案中,本公开内容还提供了用于装配编码不同的氨基酸序列排列的多种多核苷酸的多核苷酸片段(即,扩增子)文库。在一些实施方案中,多种多核苷酸包含:具有重叠邻接区的多核苷酸片段,每种多核苷酸片段由正向和反向引物的引物结合序列界定,其中所述多种多核苷酸具有在引物结合序列中编码来自相对于参考氨基酸序列的限定的多种氨基酸残基差异的特定氨基酸残基差异的成员,以便使多种多核苷酸片段编码来自限定的多种氨基酸残基差异的全部选择的多种氨基酸残基差异;并且其中所述多种多核苷酸片段包含用于装配限定的氨基酸差异的两种或更多种不同氨基酸序列排列的成员。在一些实施方案中,多种多核苷酸片段包括足以装配选择的多种氨基酸残基差异的所有可能氨基酸序列排 列的成员。在一些实施方案中,多种多核苷酸片段的成员是使用正向和反向引物形成的扩增子。
[0114] 如熟练的技术人员所明显可知的,本文所述的方法可以使用熟练的技术人员可得到的标准技术来实施,例如在下列文献中描述的技术:Sambrook等人,2001,Molecular Cloning:A Laboratory Manual(分子克隆:实验室手册),第3版,Cold Spring Harbor Laboratory Press,NY;以 及Ausubel 等 人,1989,Current Protocols in Molecular Biology(现代分子生物学实验技术),Greene Publishing Associates and Wiley Interscience,N.Y(更新至2008)。可以使用已知的化学方法合成寡核苷酸,例如基于亚磷酰胺固相合成法的那些方法(参见,例如Wright,等人,1993,Tetrahedron Letters 34,3373-3376;Caruthers,1991,Acc.Chem.Res.24,278-284;以及本文引用的参考文献) [0115] 本文还提供了用于执行上述方法的计算机软件形式的计算机实现系统。在一些实施方案中,计算机程序产品包含机器可读的存储介质,该存储介质具有包含编码下列步骤的每一步的程序指令:(a)输入参考序列和与该序列相关的突变列表;(b)基于突变列表产生排列列表;(c)选择限定的氨基酸序列排列;(d)从扩增子文库(如图5中制备的)中鉴定重叠的多核苷酸片段;(e)确定变体数目,并且如果变体数目小于期望变体的总数,则重复步骤(a)至(d)。
[0116] 在一些实施方案中,计算机程序产品包含机器可读的存储介质,该介质具有包含编码下列步骤的每一步的程序指令:(a)选择变体(氨基酸序列排列)并基于参考序列产生变体对应的多核苷酸序列;(b)制备具有第一突变的片段的正向寡核苷酸引物;(c)从所述第一突变开始扫描序列直至下一突变或至基因末端并制备下一突变的反向寡核苷酸引物;(d)并且如果所述下一突变接近所述第一突变,则将所述下一突变置于同一正向寡核苷酸中;(e)重复步骤(b)至(d)直到达到多核苷酸变体n的末端。
[0117] 如在图4、图5和图6的图解中所显示的,可以整合用于扩增子选择、募核苷酸引物选择和以可寻址形式储存的计算机实现程序以容许本公开内容的方法的多个步骤的自动化。
[0118] 如本文所述的,在一些实施方案中,方法可用于合成编码具有限定的一组突变的多肽的多核苷酸,所述限定的一组突变选自不同于参考序列的多种限定的氨基酸残基差异。本文的方法容许基于氨基酸残基差异有效合成多种氨基酸序列排列。编码多种氨基酸序列排列的多核苷酸的有效合成对于多种蛋白质工程化应用是有用的。参见,例如,美国申请公布US20060195947;美国申请公布US20050153417;和美国专利第7,220,566号。在一些实施方案中,方法可用于基于已知影响酶的不同特性的一组突变来合成编码具有改进的特性的酶变体的多核苷酸。例如,一些突变可能尤其影响酶活性、热稳定性、底物特异性、立体选择性、立体特异性、和对产物抑制的不应性。尽管随机诱变的传统技术和蛋白演变技术可以致使影响这些多种酶特性的突变的鉴定,但是这些突变中有许多可以独立于其他突变出现。使用本文的方法,可以作出并筛选影响诸如酶活性、底物特异性和热稳定性等不同性状的突变的多种排列以鉴定具有期望的多种改变的性状的工程化酶。
[0119] 本文提供的方法在产生包含序列改变的多种排列的核苷酸变体大文库中提供了惊人的效率和准确度。例如,可以将来自褐鼠(Rattus norvegicus)(登录号:gi-92090602-sp-P10867.3-GGLO RAT)的古洛糖酸内酯(L-)氧化酶(GLO)的蛋白序列反向翻译以提供可用作设计90种多核苷酸变体的模板的1.3kb DNA序列,所述多核苷酸变体的每一种编码具有3至5种氨基酸取代的不同组合的变体多肽。例如,3至5种氨基酸取代的
90种排列的列表可以选自下列的10种可能取代的列表:T28S、D95A、S156N、G175S、R212D、I251E、F302S、H330I、Y370G和K423N。由多核苷酸变体编码的氨基酸取代的90种不同排列如下:D95A/F302S/H330I/K423N;D95A/F302S/Y370G ;D95A/G175S/H330I;D95A/G175S/H330I/Y370G/K423N;D95A/G175S/R212D/F302S/Y370G;D95A/G175S/R212D/H330I ;D95A/G175S/R212D/Y370G/K423N ;D95A/I251E/F302S/K423N;D95A/I251E/H330I;D95A/I251E/K423N;D95A/I251E/Y370G;D95A/R212D/F302S;D95A/R212D/I251E/F302S;D95A/S156N/F302S/H330I/K423N ;D95A/S156N/G175S ;D95A/S156N/G175S/H330I/Y370G;D95A/S156N/G175S/I251E/F302S; D95A/S156N/I251E/H330I ;D95A/S156N/I251E/K423N ;D95A/S156N/K423N;D95A/S156N/R212D/I251E;F302S/H330I/K423N;G175S/F302S/Y370G/K423N;G175S/H330I/K423N;G175S/I251E/F302S;G175S/R212D/H330I;G175S/R212D/I251E/H330I;G175S/R212D/K423N;G175S/R212D/Y370G ;G175S/R212D/Y370G/K423N ;H330I/Y370G/K423N;I251E/H330I/Y370G;I251E/H330I/Y370G;I251E/Y370G/K423N;R212D/F302S/Y370G/K423N;R212D/H330I/K423N;R212D/I251E/F302S;R212D/I251E/F302S/H330I;R212D/I251E/Y370G;R212D/I251E/Y370G;S156N/F302S/H330I;
S156N/F302S/K423N;S156N/F302S/Y370G ;S156N/G175S/F302S/Y370G ;S156N/G175S/I251E/F302S;S156N/G175S/K423N;S156N/G175S/K423N;S156N/G175S/R212D/F302S/H330I ;S156N/I251E/F302S/H330I ;S156N/I251E/H330I/Y370G ;S156N/I251E/H330I/Y370G/K423N ;S 156N/I251E/Y370G ;S 156N/R212D/F302S/H330I/Y370G ;
S 156N/R212D/K423N ;T28S/D95A/G175S/F302S ;T28S/D95A/G175S/F302S/Y370G;
T28S/D95A/H330I;T28S/D95A/I251E;T28S/D95A/I251E/F302S/K423N ;T28S/D95A/R212D ;T28S/D95A/S156N/H330I/Y370G ;T28S/D95A/S156N/R212D ;T28S/D95A/S156N/R212D ;T28S/D95A/S156N/R212D/Y370G ;T28S/D95A/Y370G;T28S/D95A/Y370G/K423N;T28S/F302S/K423N;T28S/G175S/H330I;T28S/G175S/H330I/Y370G;T28S/G175S/I251E/F302S;T28S/G175S/I251E/F302S/Y370G ;T28S/G175S/I251E/H330I ;T28S/G175S/I251E/K423N ;T28S/H330I/K423N ;T28S/I251E/F302S/H330I/K423N ;T28S/R212D/F302S/H330I ;T28S/R212D/H330I ;T28S/R212D/I251E/F302S ;
T28S/R212D/I251E/Y370G/K423N ;T28S/R212D/Y370G ;T28S/S156N/F302S/H330I/Y370G ;T28S/S156N/F302S/Y370G ;T28S/S156N/F302S/Y370G;T28S/S156N/G175S;
T28S/S156N/G175S;T28S/S156N/G175S/I251E ;T28S/S156N/G175S/I251E/K423N; T28S/S156N/R212D/I251E/H330I;T28S/S156N/R212D/I251E/K423N; 和 T28S/S156N/R212D/K423N。
[0120] 软件(例如在图5-7中所述的)可用于确定具有序列重叠区的多核苷酸变体片段的总计仅55种扩增子,可用于在第2轮SOE-PCR反应中装配90种多核苷酸变体。还可以使用软件来确定在用1.3kb参考多核苷酸作为模板产生必需的55种扩增子的55个独立的第1轮PCR反应中所需的总计仅22种寡核苷酸引物。22种寡核苷酸引物长度仅为30或33个核苷酸,并且包括在序列中间(例如,在核苷酸15-17处)含有核苷酸改变的诱变引物。 [0121] 因此,根据本文所公开的方法,90种不同的多核苷酸变体的构建需要:仅22种相对较短的寡核苷酸(30-mer至33-mer)的合成;产生55种扩增子(即,多核苷酸变体片段)的第1轮PCR反应;以及第2轮SOE-PCR反应,其中所述55种扩增子被汇集在不同的组合中(具有正向和反向侧翼引物)以容许90种多核苷酸变体的SOE-PCR装配。在第2轮SOE-PCR反应的制备中,55种扩增子的每一种可以被平均再利用7.8次,某些片段仅使用一次或两次,其他片段使用多达36次。
[0122] 第1轮和第2轮反应的工作流程可以通过软件产生的工作列表(例如在图4和图6中的)控制,所述工作列表用来运行用于液体处理的Tecan自动装置。用于这种示例性的
90种变体文库构建的工作列表对于用22种引物产生55种扩增子的第1轮PCR反应需要仅110次液体处理操作,并且对于由55种扩增子制备90种全长的多核苷酸变体的第2轮SOE-PCR装配反应需要仅430次液体处理操作。
[0123] 可以通过对来自第2轮反应的多种构建体的每一种进行克隆和测序的另外的步骤来确定本文所公开的方法所提供的多核苷酸变体序列的准确度。如实施例(下文)中所示例的,本文所公开的方法产生了惊人的高水平的正确序列(全长的完美(FLP)序列)-即,具有相对于参考多核苷酸的期望的核苷酸改变的序列。
[0124] 本文所公开的方法的至少一些惊人的优点在于产生的多核苷酸变体大文库的较大准确度。在一些实施方案中,方法可用于制备至少10种不 同的多核苷酸变体的可寻址文库,所述多核苷酸变体每种包含相对于参考多核苷酸序列的至少一种限定的序列差异,其中至少平均75%的多核苷酸变体序列是正确的序列(例如,包含具有通过该方法所用的引物引入的限定的核苷酸差异的全长参考序列的序列)。在一些实施方案中,方法提供至少10种、20种、30种、40种、50种、60种、70种、80种、90种、100种、150种、200种或更多种不同多核苷酸变体的可寻址文库,所述多核苷酸变体每种包含相对于参考多核苷酸序列的至少一种限定的序列差异,其中通过序列分析至少75%、80%、85%、90%、95%或更多的多核苷酸变体序列是正确的-例如FLP。
[0125] 在某些实施方案中,包括使用参考多核苷酸模板的多次第1轮反应和多次第2轮SOE-PCR扩增子装配反应的本文所公开的方法可用于制备至少500bp、750bp、1000bp、1250bp、1500bp或更长的参考多核苷酸的10种或更多种多核苷酸变体的可寻址文库,每种变体包含相对于参考多核苷酸的约1-30种、1-25种、1-20种、1-15种、3-30种、3-20种或
3-15种核苷酸改变,其中所述第1轮PCR反应包含约6-300种、6-200种、6-100种、6-50种、
6-40种、6-30种、6-25种、6-20种、6-15种、或少至6-10种不同的寡核苷酸引物并且至少
75%、80%、85%、90%、95%或更多的多核苷酸变体序列是全长完美的。
[0126] 在一些实施方案中,可以将多核苷酸片段(例如,选自可寻址文库)的多种排列装配成多核苷酸变体的可寻址文库,所述多核苷酸变体每种编码具有限定的氨基酸残基差异的差异变体多肽。然后可以将这些多核苷酸变体的每一种克隆到表达系统中以产生可寻址的克隆文库,每种克隆能够产生差异变体多肽。可以将这种可寻址的克隆文库转化到细胞(例如,大肠杆菌)中用于翻译、以及自动铺板和菌落(即,有活力的转化体)挑取。然后可以进行测序以证实在如此产生的每种变体多肽序列中的突变组合。关于期望的改变性状的变体多肽的测定(例如,经由高通量筛选)可以对所有的变体多肽进行,或任选地仅对通过测序证实为具有期望的突变组合的那些变体多肽进行。
[0127] 可选择地,可以组合(例如,汇集)每种编码具有限定的氨基酸残基差异的差异变体多肽的多核苷酸变体的可寻址文库,并将它们克隆到表达系统中,从而产生汇集的克隆文库。可以将这种汇集的克隆文库转化(例如,在单个转化步骤中)到细胞中用于翻译、铺板和菌落(即,有活力的转化体)挑取。可以在测序之前进行来自这种汇集的克隆文库的菌落的测定(例如经由高通量筛选)以鉴定编码具有期望的改变性状的多肽的多核苷酸变体。一旦鉴定对于改变的性状的这种“命中”,则可以对其测序以确定多核苷酸变体序列中所存在的突变的具体组合。任选地,编码不具有在测定中所探究的期望的改变的性状的多肽的那些变体不必被测序。因此,通过仅需要单次转化而不是一组平行的转化反应,汇集的克隆文库方法可以提供更高的效率。
[0128] 类似地,该方法还可用于产生突变组合的多种排列以检验生物学上重要的蛋白的结构特征。例如,参与胞外分子的信号转导的受体经由与其他受体以及多种胞内蛋白的相互作用而起作用。这些复合体相互作用可以影响来自同一类型的受体分子的不同细胞信号传导过程。同一受体可以启动正信号传导和负信号传导二者。具体实例是G偶联的蛋白受体,它与βγ、Gsα和Giα蛋白相互作用。参见,例如Morris等人,1999,Physiol.Rev.79:1373-1430。由于在受体不同结构域的突变可以具有不同的作用,因此本文的方法提供了用于产生已知影响不同方面的受体功能的突变组合的不同排列的有效方法,从而容许对感兴趣的蛋白的结构和相关生物功能的研究。
[0129] 尽管已经举例说明产生不同的多核苷酸序列排列的方法以用于产生编码来自一组限定的氨基酸残基差异的多种多肽排列的多核苷酸,但是应理解可以为了产生多核苷酸序列排列而一般性地改造该方法。例如,可以使用本文的方法来产生功能多核苷酸的不同排列,例如用于核糖体RNA的基因。在原核生物和真核生物中多种rRNA形成参与蛋白合成的核蛋白复合体。许多抗生素通过破坏核糖体功能起作用并且已知它们与某些rRNA的限定区域相互作用。已经鉴定了影响蛋白合成的多种突变,并且这些区域与和抗生素相互作用的位点相关。参见,例如,Yassin等人,2005,Proc Natl Acad Sci.USA 102(46):16620-16625。
[0130] 使用本文所述的方法,可以合成影响核糖体RNA功能的已知突变的多种排列并且检验某些突变组合的作用。其他应用对于熟练的技术人员将是明显的。
[0131] 实施例
[0132] 实施例1:扩增子的制备
[0133] 寡核苷酸制备.在Axygen HalfDeep 96(1.1mL)板中用无菌水将200μM浓度的寡核苷酸引物稀释为4μM。对于微量滴定板上的大部分位置,添加10μL寡核苷酸至490μL dH2O中便足够。对于寡核苷酸板上的位置A01和D01,可能需要更大体积的普通的正向和反向引物。在下一步骤之前验证在吸取和分配体积部分的输出报告中的最大吸取体积。 [0134] 第1轮-通过PCR形成扩增子.使用Tecan自动装置来将5μL的每种正向和反向寡核苷酸引物等分到BioRad HardShellPCR96板(Tecan脚本输出)并添加40μL预混合物。进行第1轮PCR并使用2%的96孔e-gel验证扩增。用于PCR的试剂如下:5μL10×Herculase缓冲液、1μL 40mMdNTP、1μL 100ng/μL SOE模板、2.5单位Herculase聚合酶(Stratagene,LaJolla,CA,USA)。如下进行PCR:95℃变性2分钟,随后进行95℃30s、
56℃30s、72℃1分钟/Kb的循环。循环数为17。
[0135] 用ExoSAP-it处理.对于第1轮PCR,将25μL反应产物转移到新的96孔板中,并添加2μL ExoSAP-It(USB Corp.,Ohio,USA)加上0.5μLDpnI,并进行循环(手动转移,37℃1小时,80℃15分钟)。通过添加73μL dH2O将样品稀释至终体积为100μL,并使用Tecan脚本将样品汇集到另一BioRad HardShellPCR96PCR板中。
[0136] 实施例2:扩增子装配和产物分析
[0137] 第2轮-装配和SOE-PCR.使用Tecan自动装置将15μL片段汇集物(即,第1轮的扩增子)等分到BioRad HardShellPCR96板(Tecan脚本输出)中并添加35μL预混合物(5μL 10×Herculase缓冲液、1μL 40mM dNTP、0.2μL正向引物、0.2μL反向引物、2.5单位Herculase酶和28.1μLdH2O。进行PCR并使用2%96孔e-gel验证扩增。如下进行PCR:95℃变性2分钟,随后进行95℃30s、56℃30s、72℃1分钟/Kb的循环。循环数为17。 [0138] 96孔板纯化.使用Zymo ZR-96PCR纯化96孔板(进行下列修改的厂家方案)(Zymo Research,CA,USA)纯化所有样品。以2800rpm 10分钟进行所有的离心步骤。为了洗脱DNA,将温度为55℃的25μL dH2O直接施加到二氧化硅膜上,旋转10分钟并重复。使用这种方法回收到48-50μL产物。
[0139] 限制性酶BglI消化.将30μL的每种纯化的插入序列转移到新的半裙边PCR板中,添加20μL BglI消化预混合物(5μL 10×NEB缓冲液3、20单位BglI(New England Biolabs,MA,USA)、13μL dH2O)至所有样品中并在37℃孵育4小时。Bgl消化是为了克隆到表达载体的BglI位点中。
[0140] 96孔板纯化.使用Zymo ZR-96PCR纯化96孔板(进行下列修改的厂家方案)纯化所有样品。以2800rpm 10分钟进行所有的离心步骤。为了洗脱DNA,将温度为55℃的25μL dH2O直接施加到二氧化硅膜上,旋转10分钟并重复。使用这种方法回收到48-50μL产物。使用2%96孔e-gel验证产物回收。
[0141] 与表达载体连接.转移3μL的每种纯化的插入序列到新的板中并添加27μL连接预混合物到样品中。在16℃孵育14小时,随后在65℃孵育15分钟,然后保持在8℃。连接混合物:3μL 10×连接酶缓冲液(NewEngland Biolabs,MA,USA)、1μL BglI消化的载体(50ng/μL)、400单位T4连接酶(New England Biolabs,MA,USA)、22μL dH2O。 [0142] HTP-转化.将2μL的每种连接反应物转移到20μL TSS化学感受态细胞中,并在金属(metal block)中在上孵育至少15分钟。在42℃热击35秒并返回金属块2分钟。添加80μL 37℃的SOC培养基至各样品。在37℃孵育1小时,然后铺板。
[0143] 铺板.使用Tecan将转化混合物铺板至分为48孔的Q-托盘上。使用珠分配器将3个5mm珠子分配到Q-托盘的各孔中。使用Tecan分配40μL/孔的转化混合物。使转化体在37℃生长过夜。
[0144] 挑取和培养.对于序列验证的板,需要挑取每个Q-托盘孔的两个菌落到含有LB,CAM和1%葡萄糖的两个独立的Nunc平底板上。对于非序列验证的变体板,需要挑取每个Q-托盘孔的三个菌落到含有LB,CAM和1%葡萄糖的三个独立的Nunc平底板上。
[0145] 菌落PCR.为了在两个重复的主板之一上进行菌落PCR,添加2μL培养物至标准菌落PCR预混合物并进行菌落PCR。使用ExoSAP-it如下纯化PCR产物:转移5μL PCR样品至含有2μL ExoSAP-it的新PCR板上。在37℃孵育15分钟,以及80℃孵育15分钟。通过添加33μL dH2O将样品稀释至终体积为40μL。
[0146] PCR产物测序.添加4μL 1mM测序引物至测序板。添加4μL纯化的PCR样品。 [0147] 实施例3:各自编码具有相对于参考多肽的单氨基酸改变的多肽的一组190种不同的多核苷酸变体的产生
[0148] 实验设计:选择1359bp的参考多核苷酸(编码453个氨基酸的酶)。基于同源酶中观察到的序列改变选择共190种与参考序列不同的氨基酸残基差异。作为编码待表达和待测试的190种不同蛋白的单独多核苷酸来制备190种变体。通过在SOE反应(下文的第2轮)中组合在重叠区中包含期望的单密码子改变的两种扩增子(如在下文的第1轮中制备的)来装配190种多核苷酸变体的每一种。
[0149] 寡核苷酸制备:设计用于PCR的共382种寡核苷酸引物,并根据标准方法合成。寡核苷酸一般为31个核苷酸(nt)长,具有对位于寡核苷酸引物中间(约碱基15)的感兴趣的密码子的期望改变。在Axygen HalfDeep 96孔(1.1mL)板中用无菌水将所有的寡核苷酸稀释至4μM。
[0150] 第1轮-通过PCR形成扩增子.在PCR反应中产生对应于多核苷酸变体片段的每种扩增子,该PCR反应使用包含1359nt参考多核苷酸的载体作为模板并且使用诱变引物与普通侧翼引物的组合(与不含有突变的基 因的载体上游或下游退火)。反应的工作流程、条件和纯化如实施例1中所描述。
[0151] 第2轮-扩增子装配.汇集来自第1轮的纯化的扩增子使得具有重叠区的2种扩增子包含190种多核苷酸变体的每一种的期望的密码子序列改变,并且如实施例1和2所述将每种汇集物等分到96孔板的孔中。将普通的正向和反应侧翼引物添加到每种汇集物中,并如实施例2中所描述进行PCR,导致扩增子(即,多核苷酸片段)的装配以形成全长的多核苷酸变体。在琼脂糖凝胶上进行装配反应的检查并且发现含有预期大小的产物。(参见,例如图3)
[0152] 多核苷酸变体的序列分析.在使用Xymo ZR-96PCR纯化进行纯化之后,将产物克隆到表达载体中,并且将每种连接物转化到大肠杆菌宿主细胞中。从每个转化挑取两个菌落并制备用于DNA测序的质粒DNA。使用基因内部和侧翼的测序引物对来自每个转化的一个样品测序。在190种多核苷酸变体中,160种(84%)显示仅具有含期望密码子序列改变的全长完美(FLP)序列。通过对不正确的30种变体的第二质粒制备物测序,鉴定了另外25种正确序列。这将整体成功率增至97%的正确序列。(鉴定了期望的190种多核苷酸中的185种。)表达多核苷酸并测定变体多肽。
[0153] 实施例4:各自编码具有相对于参考多肽的三种氨基酸改变的多肽的一组96种不同的多核苷酸变体的产生.
[0154] 实验设计:选择1359nt的参考多核苷酸。设计96种变体,每种变体含有相对于参考序列的三种突变。作为各自编码待表达和待测试的96种不同蛋白之一的单独多核苷酸来制备96种变体。通过在SOE反应(下文的第2轮)中组合在重叠区中包含期望的密码子改变的四种扩增子(如在下文的第1轮中制备的)来装配96种多核苷酸变体的每一种。 [0155] 寡核苷酸制备:设计共130种寡核苷酸引物,并根据标准方法合成。寡核苷酸一般为31nt长,具有对寡核苷酸中间(约碱基15)的感兴趣的密码子的期望改变。在Axygen HalfDeep 96孔(1.1mL)板中用无菌水将所有的寡核苷酸稀释至4μM。
[0156] 第1轮-通过PCR形成扩增子:在PCR反应中产生对应于多核苷酸变体片段的每种扩增子,该PCR反应使用包含1359nt参考多核苷酸的载体作为模板并且使用诱变引物与另一诱变引物或普通侧翼引物的组合(与不含有突变的基因的载体上游或下游退火)。反应的工作流程、条件和纯化如实施例1中所描述。
[0157] 第2轮-扩增子装配.汇集来自第1轮的纯化的扩增子使得具有重叠区的4种扩增子包含96种多核苷酸变体的每一种的期望的密码子序列改变,并且如实施例1和2所述将每种汇集物等分到96孔板的孔中。将普通的正向和反应侧翼引物添加到每种汇集物中,并如实施例2中所描述进行PCR,导致扩增子(即,多核苷酸片段)的装配以形成全长的多核苷酸变体。在琼脂糖凝胶上进行装配反应的检查并且发现含有预期大小的产物。(参见,例如图3)
[0158] 多核苷酸产物的序列分析.在使用Xymo ZR-96PCR纯化进行纯化之后,将产物克隆到表达载体中,并且将每种连接产物转化到大肠杆菌宿主细胞中。从每个转化挑取两个菌落并制备用于DNA测序的质粒DNA。使用基因内部和侧翼的测序引物对来自每个转化的一个样品测序。在96种多核苷酸变体中,82种(85%)被测定出仅具有含期望改变的正确FLP序列。
[0159] 实施例5:各自编码具有相对于参考多肽的1至6个氨基酸改变的多肽的一组96种不同的多核苷酸变体的产生
[0160] 实验设计:选择1056nt的参考多核苷酸。设计96种变体,每种含有与参考序列相比的一(1)至六(6)种突变。作为每种编码待表达和待测试的96种不同蛋白之一的单独多核苷酸来制备96种变体。通过在SOE反应(下文的第2轮)中组合在重叠区中包含期望的密码子改变的二种(例如,对于编码单个氨基酸改变的变体)至七种(例如,对于编码六种氨基酸改变的变体)扩增子(如在下文的第1轮中制备的)来装配96种多核苷酸变体的每一种。
[0161] 寡核苷酸制备.设计共108种寡核苷酸引物,并根据标准方法合成。寡核苷酸一般为31nt长,具有对寡核苷酸中间(约碱基15)的感兴趣的 密码子的期望改变。如果两种氨基酸改变靠近在一起,则设计较长的寡核苷酸来编码要并入的两种改变。在Axygen HalfDeep 96孔(1.1mL)板中用无菌水将所有的寡核苷酸稀释至4μM。
[0162] 第1轮-通过PCR形成扩增子.在PCR反应中产生对应于多核苷酸变体片段的每种扩增子,该PCR反应使用包含1056nt参考多核苷酸的载体作为模板并且使用诱变引物与另一诱变引物或普通侧翼引物的组合(与不含有突变的基因的载体上游或下游退火)。反应的工作流程、条件和纯化如实施例1中所描述。
[0163] 第2轮-扩增子装配.如实施例1所述将纯化的汇集的扩增子(2至7种扩增子/多核苷酸)等分到板中。添加普通的正向和反向侧翼引物并如实施例1中所述进行PCR。 [0164] 多核苷酸产物的序列分析.在使用Xymo ZR-96PCR纯化进行纯化之后,将产物克隆到表达载体中,并且将每种连接物转化到大肠杆菌宿主细胞中。从每个转化挑取两个菌落并制备用于DNA测序的质粒DNA。使用基因内部和侧翼的测序引物对来自每个转化的一个样品测序。如表1(下面)中显示,在96种多核苷酸变体中,72种(75%)显示出仅具有含期望的2-7种密码子改变的正确FLP序列。
[0165] 表1:构建的96种变体-制备最终板所需的88种变体
[0166]测序组 1(n=96) 2(n=96) 3(n=16)
完全正确 72 84 92
测序失败 5 3 2
交叉污染 5 2 0
编码突变 8 2 0
插入/缺失 6 4 2
[0167] 本申请中所引用的所有出版物、专利、专利申请和其他文件均为了所有的目的通过引用整体并入本文,与各单独的出版物、专利、专利申请或其他文件被指明是为了所有的目的通过引用单独并入的程度一样。
[0168] 尽管示例和描述了多种具体的实施方案,但是应了解可以作出多种改变而不背离本发明的精神和范围。
QQ群二维码
意见反馈