鉴定具有相互作用的组分的生物分子的方法、系统和软件

申请号 CN201480018421.5 申请日 2014-01-29 公开(公告)号 CN105144190A 公开(公告)日 2015-12-09
申请人 科德克希思公司; 发明人 格雷戈里·艾伦·科普;
摘要 本 发明 提供了用于快速并有效搜索 生物 学上相关的数据空间的方法。更特别地,本发明提供了用于从复杂的生物分子文库或多组此类文库的中鉴定具有期望的特性的生物分子或最适于获得此类特性的生物分子的方法。本发明还提供了用于对序列-活性关系建模的方法,包括但不限于递加或递减技术(stepwise addition or substraction techniques)、贝叶斯回归、集成回归(ensemble regression)和其他方法。本发明还提供了用于执行本文提供的方法的数字化系统和 软件 。
权利要求

1.一种用于鉴定影响期望活性的生物分子方法,所述方法包括:
(a)接收针对多个生物分子的序列和活性数据;
(b)由所述序列和活性数据制作基础模型,其中所述基础模型将活性预测为所述序列的亚单位的存在或不存在的函数;
(c)通过对所述基础模型加上或减去至少一个新交互作用项来制作至少一个新模型,其中所述新交互作用项代表两个或更多个相互作用的亚单位之间的相互作用;
(d)确定所述至少一个新模型将活性预测为所述亚单位的存在或不存在的函数的能;以及
(e)基于在(d)中确定的所述至少一个新模型的预测活性的能力以及对包括另外的新交互作用项的偏倚来决定是否对所述基础模型加上或减去所述新交互作用项。
2.根据权利要求1所述的方法,其中(c)中的制作至少一个新模型包括利用先验信息来确定所述新模型的后验概率分布。
3.根据权利要求2所述的方法,其中制作基础模型和/或新模型包括利用吉布斯抽样使模型符合所述序列和活性数据。
4.根据权利要求1所述的方法,其中所述至少一个新模型包括各自包含不同的交互作用项的两个或更多个新模型。
5.根据权利要求4所述的方法,所述方法还包括基于所述两个或更多个新模型制作集成模型,其中
所述集成模型包括来自所述两个或更多个新模型的交互作用项,并且
所述交互作用项通过(d)中确定的所述两个或更多个新模型预测活性的能力被加权。
6.根据权利要求1所述的方法,其中对所述基础模型加上或减去所述新交互作用项以产生更新的模型,所述方法还包括:
(f)使用所述更新的模型代替所述基础模型来重复(c),并加上或减去与(c)中加上或减去的交互作用项不同的交互作用项;以及
(g)使用所述更新的模型代替所述基础模型来重复(d)和(e);
7.根据权利要求6所述的方法,所述方法还包括;
(h)使用另外的更新的模型重复(f)和(g)。
8.根据权利要求1所述的方法,其中(d)中的所述至少一个新模型预测活性的能力通过赤池信息准则或贝叶斯信息准则来测量。
9.根据权利要求1所述的方法,其中所述序列为完整的基因组、完整的染色体、染色体片段、对于相互作用基因的基因序列的集合、基因或蛋白。
10.根据权利要求1中任一项所述的方法,其中所述亚单位为染色体、染色体片段、单体型、基因、核苷酸、密码子、突变、基酸或残基。
11.根据权利要求1所述的方法,其中所述多个生物分子构成蛋白变体文库的训练组。
一种计算机程序产品,所述计算机程序产品包括具有计算机可执行指令存储于其上的一个或更多个计算机可读的非瞬时储存介质,所述计算机可执行指令当被计算机系统的一个或更多个处理器执行时,使得所述计算机系统执行用于鉴定影响期望活性的生物分子的方法,所述方法包括:
(a)接收针对多个生物分子的序列和活性数据;
(b)从所述序列和活性数据制作基础模型,其中所述基础模型将活性预测为序列的亚单位的存在或不存在的函数;
(c)通过将对所述基础模型加上或减去至少一个新交互作用项来制作至少一个新模型,其中所述新交互作用项表现两个或更多个相互作用的亚单位之间的相互作用;
(d)确定所述至少一个新模型将活性预测为所述亚单位的存在或不存在的函数的能力;以及
(e)基于在(d)中确定的所述至少一个新模型的预测活性的能力以及对包括另外的新交互作用项的偏倚来确定是否对所述基础模型加上或减去所述新交互作用项。
12.一种计算机系统,所述计算机系统包括:
一个或更多个处理器;
系统存储器;以及
具有计算机可执行指令存储于其上的一个或更多个计算机可读的存储介质,当所述计算机可执行指令被所述一个或更多个处理器执行时,使得所述计算机系统执行用于引导生物分子的定向进化的方法,所述方法包括:
(a)接收针对多个生物分子的序列和活性数据;
(b)由所述序列和活性数据制作基础模型,其中所述基础模型将活性预测为所述序列的亚单位的存在或不存在的函数;
(c)通过对所述基础模型加上或减去至少一个新交互作用项来制作至少一个新模型,其中所述新交互作用项代表两个或更多个相互作用的亚单位之间的相互作用;
(d)确定所述至少一个新模型将活性预测为所述亚单位的存在或不存在的函数的能力;以及
(e)基于在(d)中确定的所述至少一个新模型的预测活性的能力以及对包括另外的交互作用项的偏倚来确定是否对所述基础模型加上或减去所述新交互作用项。

说明书全文

鉴定具有相互作用的组分的生物分子的方法、系统和软件

[0001] 相关申请的交叉引用
[0002] 该申请基于35U.S.C.§119(e)要求2013年1月31日提交的题为“鉴定具有相互作用的组分的生物分子的方法、系统和软件”的美国临时专利申请号61/759,276和2013
年3月15日提交的题为“使用乘法型模型(MODEL OF MULTIPLICATIVE FORM)鉴定生物分
子的方法、系统和软件”的美国临时专利申请号61/799,377的权益,其被为了所有目的通过
引用全部并入本文。
[0003] 背景
[0004] 本公开内容涉及分子生物学、分子进化、生物信息学和数字化系统的领域。更具体地,本公开内容涉及用于通过计算预测生物分子的活性和/或指导定向进化的方法。还提
供了用于执行这些方法的系统,包括数字化系统和系统软件。本公开内容的方法在优化用
于工业和治疗用途的蛋白方面具备实用性。
[0005] 蛋白设计长久以来被认为是艰巨的任务,只因为一个原因,构成可搜索的序列空间的可能分子的激增。蛋白的序列空间是巨大的并且利用本领域已知的现有方法不可能探
索详尽。由于这种复杂性,很多近似的方法已被用于设计更好的蛋白;其中首当其冲的是定
向进化法。如今,蛋白的定向进化被通过往往迭代进行的多种高通量筛选和重组方式来主
导。
[0006] 并行地,已提出了多种计算技术用于搜索序列-活性空间。虽然每种计算技术在特定情况下具有优势,但是有效地搜索序列空间以鉴定功能性蛋白的新方法是高度期望
的。
[0007] 概述
[0008] 本公开内容展现了用于生成并利用序列-活性模型的技术,所述序列-活性模型使用非线性项,特别是解释序列中的两个或更多个亚单位之间的相互作用的项。序列-活
性模型将生物分子的活性、特征或特性描述为多个生物序列的函数。这些非线性项可以是
涉及两个或更多个变量的乘法的“交叉乘积”项,所述两个或更多个变量中的每一个代表参
与相互作用的亚单位的存在(或不存在)。一些实施方案涉及选择最佳地描述序列的活性
的非线性项的技术。注意,存在远多于亚单位之间存在的实际相互作用的可能的非线性交
互作用项。因此,为了避免过度拟合,通常只有有限数目的非线性项被考虑并且所使用的那
些非线性项应反映明显地影响活性的相互作用。
[0009] 本公开内容的一方面提供了制作序列-活性模型的方法,所述序列-活性模型能够帮助鉴定具有增强的期望活性的生物分子,所述方法包括:(a)接收针对多个生物分子
的序列和活性数据;(b)由所述序列和活性数据制作基础模型,其中所述基础模型将活性
预测为序列的亚单位的存在或不存在的函数;(c)通过对所述基础模型加上或减去至少一
个新交互作用项来制作至少一个新模型,其中所述新交互作用项代表两个或更多个相互作
用的亚单位之间的相互作用;(d)确定所述至少一个新模型将活性预测为亚单位的存在或
不存在的函数的能;和(e)基于在(d)中确定的所述至少一个新模型的预测活性的能力
以及对添加新交互作用项的偏倚来决定是否对所述基础模型加上或减去所述新交互作用
项。然后所得到的模型可被用于多种应用,诸如用于蛋白文库的定向进化以鉴定具有期望
的生物活性和特性的蛋白。
[0010] 在一些实施方案中,其中所述方法确定了新的交互作用项应被添加至基础模型以产生更新的模型,所述方法还包括搜索能进一步改进更新的模型的另外的交互作用项的另
外的步骤。特别地,所述方法包括:(f)使用更新的模型代替基础模型来重复(c),并加上或
减去与(c)中加上或减去的交互作用项不同的交互作用项;以及(g)使用更新的模型代替
基础模型来重复(d)和(e)。在一些实施方案中,所述方法还包括(h)使用另外的更新的模
型重复(f)和(g)。在多个实施方案中,序列可以是完整的基因组、完整的染色体、染色体片
段、对于相互作用的基因的基因序列的集合、基因、核酸序列、蛋白、多糖等。在一个或更多
个实施方案中,序列的亚单位可以是染色体、染色体片段单体型、基因、核苷酸、密码子、突
变、基酸、化合物(单体、二体、三体或寡聚)等。
[0011] 在符合实施方案的一个或更多个实施方式中,提供了用于找出蛋白变体文库中待被修饰的氨基酸残基的方法。在这些实施方案中,多个生物分子构成蛋白变体文库的训练
组(training set)。蛋白变体文库可包括来自多种来源的蛋白。在一个实例中,成员包
括天然存在的蛋白,诸如由一个基因家族的成员编码的蛋白。在另一个实例中,序列包括
通过利用基于重组的多样性生成机制获得的蛋白。例如,可对编码用于该目的的一种或更
多种天然存在的亲本蛋白的全长或部分的核酸进行DNA片段化介导的重组、合成的寡核
苷酸介导的重组或其组合。又在另一个实例中,这些成员可通过实施鉴定系统地变异的
(systematically varied)序列的实验设计(DOE)方案获得。
[0012] 在一些实施方案中,至少一个交互作用项是交叉乘积项,包含代表一个相互作用残基的存在的一个变量和代表另一个相互作用残基的存在的另一个变量的乘积。序列-活
性模型的形式可以是至少一个交叉乘积项和一个或更多个线性项的和,每个线性项代表蛋
白变体文库的训练组中的可变残基的作用。所述至少一个交叉乘积项可通过包括递加或递
减多个项(而不是置换)的多种技术从一组可能的交叉乘积项中选择。
[0013] 在一个或更多个实施方案中,利用贝叶斯回归技术,包括交叉乘积项的模型被应用至给定的数据,其中先前的知识被用于确定该模型的后验概率分布。
[0014] 在一个或更多个实施方案中,生成了两个或更多个新模型,其各自包括至少一个不同的交互作用项。在此类实施方案中,所述方法还包括制作基于两个或更多个新模型的
集成模型。所述集成模型包括来自所述两个或更多个新模型的交互作用项。集成模型根据
所述两个或更多个新模型预测感兴趣的活性的能力对交互作用项加权。
[0015] 序列-活性模型可通过很多不同的技术由训练组产生。在某些实施方案中,所述模型为回归模型,诸如偏最小二乘模型、贝叶斯回归模型或主成分回归模型。在另一个实施
方案中,所述模型为神经网络。
[0016] 使用序列-活性模型鉴定固定的或变异的残基可涉及很多不同的可能的分析技术中的任一种。在一些情形中,“参考序列”被用来定义变异。此类序列可以是通过所述模
型预测的具有期望活性的最高值(或多个最高值中的一个)的序列。在另一种情形中,参
考序列可以是初始蛋白变体文库的成员。根据参考序列,所述方法可选择实现变异的子序
列。另外地或可选地,序列-活性模型按影响期望的活性的次序排列残基的位置(或处于
定位置的特定残基)。
[0017] 该方法的一个目的可以是为了生成新的蛋白变体文库。作为该过程的一部分,该方法可鉴定待被用来生成该新的文库的序列。此类序列包括在以上(e)、(g)或(h)中鉴
定的残基上的变异,或者此类序列是被用来随后引入这些变异的前体。这些序列可通过进
行诱变或基于重组的多样性生成机制来修饰以生成新的蛋白变体文库。这可形成定向进化
程序的一部分。新的文库还可被用于开发新的序列-活性模型。分析新的蛋白变体文库以
评价对特定活性,诸如稳定性、催化活性、治疗活性、对病原体或毒素的耐受性、毒性等的影
响。
[0018] 在一些实施方案中,所述方法涉及选择用于产生新的蛋白变体文库的一个或更多个成员。然后可在表达系统中合成和/或表达这些成员中的一个或更多个。在特定的实施
方案中,所述方法以以下方式继续:(i)提供表达系统,新的蛋白变体文库的选定的成员可
由该表达系统表达;以及(ii)表达新的蛋白变体文库的该选定的成员。
[0019] 在一些实施方案中,所述方法采用核苷酸序列产生这些模型并预测活性,而不使用氨基酸序列。多组核苷酸例如密码子中的变异影响这些核苷酸序列编码的多肽的活性。
在一些实施方案中,所述模型可提供取决于所采用的表达肽的宿主的对优先表达(与编码
相同氨基酸的其他密码子相比)的密码子的偏好。
[0020] 本公开内容的另一方面涉及包括机器可读的介质的设备和计算机程序产品,用于执行以上描述的方法和软件系统的程序指令和/或数据排列被提供于所述机器可读的介
质上。经常地,程序指令作为用于执行特定方法的操作的代码提供。如果被用来实现本公
开内容的特征,数据则可作为数据结构、数据库表、数据对象或其他合适地设置的特定信息
提供。本文描述的任何方法或系统可整体地或部分地呈现为被提供在任何合适的机器可读
的介质上的此类程序指令和/或数据。
[0021] 这些和其他特征在下文的详述中并且结合以下附图被更详细地描述。
[0022] 附图简述
[0023] 图1示出了用于制作序列-活性模型的常规逐步法。
[0024] 图2是描绘生成一代或更多代蛋白变体文库的操作顺序的流程图,其中所述操作利用序列活性模型,诸如图1中获得的那些序列-活性模型中之一,指导蛋白变体文库的生
成。所生成的变体文库可提供序列和活性数据以制作一个或更多个新的序列-活性模型,
形成被指导的进化的建模-搜索循环。
[0025] 图3A-3H是展示比较特定线性和非线性模型的预测性能力的实例的图。
[0026] 图4A-4B示出了实施递加和递减法来制作序列-活性模型的程序的流程图。图4A示出了用于制作模型的递加法的特定实例;而图4B示出了用于制作模型的递减法的特定
实例。
[0027] 图5根据一个实施方案示出了在序列变体的定向进化中执行贝叶斯回归的程序的流程图。
[0028] 图6根据一个实施方案示出了在序列变体的定向进化中执行集成回归的程序的流程图。
[0029] 图7是根据一个实施方案描绘生成蛋白变体文库的靴襻(bootstrap)p-值法的流程图。
[0030] 图8是示例性数字化装置的示意图。
[0031] 详述
[0032] I.定义
[0033] 除非本文另外定义,否则本文使用的所有技术和科学术语具有如本领域普通技术人员通常理解的相同含义。包含本文包括的术语的多本科学词典是本领域技术人员熟知并
可获得的。与本文描述的方法和材料相似或等同的任何方法和材料在本文公开的实施方案
的实践中具备实用性。
[0034] 通过整体地参考说明书更充分地理解下文紧接着定义的术语。这些定义只是为了描述特定的实施方案并帮助理解本说明书中描述的复杂概念的目的。这些定义并非意图限
制本公开内容的全部范围。特别地,应理解,本公开内容不限于所描述的特定序列、组合物、
算法、系统、方法学、操作说明和试剂,因为这些可根据本领域技术人员使用它们的背景而
变化。
[0035] 如本说明书和所附的权利要求书中使用的单数形式“一个(a)”、“一个(an)”和“该(the)”包括复数的指代对象,除非该部分内容和上下文明确相反指示。因此,例如,提
及“一个装置(a device)”包括两个或更多个此类装置的组合,诸如此类。
[0036] 除非另外指明,“或”的连接意图以其作为布尔逻辑算符的正确含义使用,包括交替地选择特征(A或B,其中相互地,选择A则排除B)和一起选择特征(A或B,其中A和B
均被选择)。在该文本中的一些地方,术语“和/或”被用于相同的目的,其将不应被解释为
意味着,“或”被用来指相互排除的选择项。
[0037] “生物分子(bio-molecule)”或“生物分子(biological molecule)”指通常在生物有机体中发现的分子。在一些实施方案中,生物分子包含具有多个亚单位的聚合生物大分
子(即,“生物聚合物”)。典型的生物分子包括但不限于,与天然存在的聚合物诸如RNA(由
核苷酸亚单位形成)、DNA(由核苷酸亚单位形成)和肽或多肽(由氨基酸亚单位形成)共
有一些结构特征的分子,包括例如RNA、RNA类似物、DNA、DNA类似物、多肽、多肽类似物、肽
核酸(PNA)、RNA和DNA的组合(例如,嵌合体(chimeraplast))等。不期望生物分子局
限于任何特定的分子,因为任何合适的生物分子在本发明中具备实用性,包括但不限于,例
如,脂质、碳水化合物或由一种或更多种遗传学上可编码的分子(例如,一种或更多种酶或
酶通路)组成的其他有机分子等。
[0038] 术语“多核苷酸”和“核酸”指,脱核糖核苷酸或核糖核苷酸及其单链或双链形式的聚合物(例如,寡核苷酸、多核苷酸等)。这些术语包括但不限于单链、双链或三链的DNA,
基因组DNA,cDNA,RNA,DNA-RNA杂合体,包含嘌呤和嘧啶基的聚合物,和/或其他天然
的、化学上或生物化学上修饰的碱基、非天然的或衍生的核苷酸碱基。以下为多核苷酸的非
限制性实例:基因、基因片段、染色体片段、EST、外显子、内含子、mRNA、tRNA、rRNA、核糖体、cDNA、重组多核苷酸、支化的多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离
的RNA、核酸探针和引物。在一些实施方案中,多核苷酸包括修饰的核苷酸,诸如甲基化的核
苷酸和核苷酸类似物、尿嘧啶(uracyl)、其它糖类和连接基团诸如氟核糖(fluororibose)
和硫代酯(thioate)和/或核苷酸分支。在一些可选的实施方案中,核苷酸的序列被非核
苷酸组分中断。
[0039] 除非被明确限制,该术语包括含有与参考核酸具有相似的结合特性并且以与天然存在的核苷酸相似的方式被代谢的天然核苷酸的已知类似物的核酸。除非另外指明,特定
的核酸序列还隐含地包括其保守性修饰的变体(例如,简并密码子的替换)和互补序列以
及明确指示的序列。特别地,简并密码子替换可通过生成其中一个或更多个选择的(或全
部的)密码子的第三位被混合碱基和/或脱氧肌苷残基取代的序列来实现(Batzer等人
(1991)Nucleic Acid Res.19:5081;Ohtsuka 等 人 (1985)J.Biol.Chem.260:2605-2608;
Rossolini等人(1994)Mol.Cell.Probes 8:91-98)。术语核酸与例如寡核苷酸、多核苷酸、
cDNA和mRNA可互换地使用。
[0040] 术语“蛋白”、“多肽”和“肽”在可互换地用来表示,不管长度或翻译后修饰(例如,糖基化、磷酸化、脂质化、豆蔻酰化、泛素化等)如何,通过酰胺键共价连接的至少两个氨基酸的聚合物。在一些情形中,所述聚合物具有至少约30个氨基酸残基,并且通常至少约50
个氨基酸残基。更通常地,它们含有至少约100个氨基酸残基。这些术语包括常规被认为
是全长蛋白或肽的片段的组合物。D-氨基酸和L-氨基酸以及D-氨基酸和L-氨基酸的混
合物被包括在该定义内。本文所述的多肽不局限于遗传学编码的氨基酸。事实上,除了遗
传学编码的氨基酸,本文所述的多肽可以全部或部分地由天然存在的和/或合成的非编码
的氨基酸组成。在一些实施方案中,多肽为全长的原型(ancestral)多肽或亲本多肽的一
部分,与全长亲本多肽的氨基酸序列相比包含氨基酸添加或缺失(例如,空位)或取代,同
时仍然保持功能活性(例如,催化活性)。
[0041] 如本文所用,术语“纤维素酶”是指能够将纤维素(β-1,4-葡聚糖或β-D-葡糖苷键)水解成较短的纤维素链、低聚糖、纤维二糖和/或葡萄糖的一类酶。在一些实施方案
中,术语“纤维素酶”包括β-葡糖苷酶、内切葡聚糖酶、纤维二糖水解酶、纤维二糖脱氢酶、
内切木聚糖酶、β-木糖苷酶、阿拉伯呋喃糖酶、α-葡糖酸酶、乙酰基木聚糖酯酶、阿魏
酸酯酶、和/或α-葡糖醛酸酯酶(alpha-glucuronyl esterase)。
[0042] 在一些实施方案中,术语“纤维素酶”包括半纤维素水解酶,包括但不限于内切木聚糖酶、β-木糖苷酶、阿拉伯呋喃糖酶、α-葡糖醛酸酶、乙酰基木聚糖酯酶、阿魏酸酯酶
和α-葡糖醛酸酯酶。“产生纤维素酶的真菌细胞”为表达并分泌至少一种纤维素水解酶的
真菌细胞。在一些实施方案中,产生纤维素酶的真菌细胞表达并分泌纤维素水解酶的混合
物。“分解纤维素的”、“纤维素水解的”、“纤维素降解的”和相似的术语指协同地起到将纤
维素分解成可溶性二糖或低聚糖诸如纤维二糖(其然后被β-葡糖苷酶进一步水解成葡萄
糖)的作用的酶,诸如内切葡聚糖酶或纤维二糖水解酶(后者也称为“外切葡聚糖酶”)。在
一些实施方案中,纤维素酶为选自β-葡糖苷酶(BGL)、1型纤维二糖水解酶(CBH1)、2型纤
维二糖水解酶(CBH2)、糖苷水解酶61s(GH61)和/或内切葡聚糖酶(EG)的重组纤维素酶。
在一些实施方案中,纤维素酶为选自β-葡糖苷酶(BGL)、1型纤维二糖水解酶(CBH1)、2型
纤维二糖水解酶(CBH2)、糖苷水解酶61s(GH61)和/或内切葡聚糖酶(EG)的重组毁丝霉属
(Myceliophthora)纤维素酶。在一些另外的实施方案中,纤维素酶为选自EG1b、EG2、EG3、
EG4、EG5、EG6、CBH1a、CBH1b、CBH2a、CBH2b、GH61a和/或BGL的重组纤维素酶。
[0043] 本文使用的术语“序列”指包括但不限于以下的任何生物序列的顺序和身份:完整的基因组、完整的染色体、染色体片段、对于相互作用的基因的基因序列的集合、基因、核酸
序列、蛋白、多糖等。在一些背景中,序列指蛋白中的氨基酸残基的顺序和身份(即,蛋白序
列或蛋白字符串),或指核酸中核苷酸的顺序和身份(即,核酸序列或核酸字符串)。序列
可由字符串表示。“核酸序列”指构成核酸的核苷酸的顺序和身份。“蛋白序列”指构成蛋
白或肽的氨基酸的顺序和身份。
[0044] “密码子”指三个连续的核苷酸的特定序列,其为遗传密码的一部分并限定蛋白中的特定氨基酸或者蛋白合成的起始或终止。
[0045] “天然序列”或“野生型序列”指从天然存在的来源分离的多核苷酸或多肽。具有与天然形式相同的序列的天然多肽或多核苷酸的重组形式被包括在“天然序列”内。
[0046] 术语“基因”被广泛地用来指DNA或与生物功能有关的其他核酸的任何片段。因此,基因包括编码序列以及任选地其表达所需的调控序列。基因还任选地包括,例如,形成
其他蛋白的识别序列的未被表达的核酸片段。基因可从多种来源获得,包括从感兴趣的来
源克隆或从已知的或预测的序列信息合成,并且可包含被设计为具有期望的参数的序列。
[0047] “基序”指在生物分子内或之间的亚单位形式。例如,术语“基序”可被用来指,非编码的生物分子的亚单位形式或编码呈现的生物分子的亚单位形式。
[0048] 术语“染色体”被用来指细胞中存在的DNA及相关蛋白的有组织的结构,包括含有许多基因、调控元件和其它核苷酸序列的单片缠绕的DNA。该术语还被用来指具有结构的
DNA序列。
[0049] “筛选”指确定一个或更多个生物分子的一个或更多个特性的方法。例如,典型的筛选方法包括确定一个或更多个文库的一个或更多个成员的一个或更多个特性的那些筛
选方法。“表达系统”是用于表达由基因或其它核酸编码的蛋白或肽的系统。
[0050] “宿主细胞”或“重组宿主细胞”指含有至少一个重组核酸分子的细胞。因此,例如在一些实施方案中,重组宿主细胞表达在天然形式的(即,非重组的)细胞内未发现的基
因。
[0051] “定向进化”、“导向进化”或“人工进化”指通过人工选择、重组或其他操作人工地改变一个或更多个生物分子的序列(或表示该序列的字符串)的体外或体内方法。在一些
实施方案中,定向进化发生在繁殖性群体中,其中存在(1)个体差异,有一些差异是(2)可
遗传的,其中一些差异(3)在适应性(fitness)方面不同。繁殖成功通过选择预先确定的
特性诸如有益特性的结果来确定。繁殖性群体可以是例如,物质群体或计算机系统中的虚
拟群体。
[0052] 在某些实施方案中,定向进化方法通过重组编码亲本蛋白变体文库的变体的基因来生成蛋白变体文库。所述方法可使用含有编码亲代变体文库的蛋白的序列或亚序列的寡
核苷酸。亲代变体文库的一些寡核苷酸可以是密切相关的,只在选择替代性氨基酸的密码
子方面不同,所述替代氨基酸被选择为通过与其他变体重组而被改变。所述方法可被执行
一个或多个循环,直到实现期望的结果。如果使用多个循环,则每个循环包括筛选步骤以鉴
定待用于随后的重组循环的具有可接受表现的那些变体。
[0053] “重排”和“基因重排”指通过重组亲本多核苷酸的片段的集合通过一系列链延伸循环来引入多样性的定向进化方法。在某些实施方案中,一个或更多个链延伸循环是自引
发的;即,除了片段自身之外不添加引物而进行。每个循环包括,通过杂交使单链片段退火
随后通过链延伸延长退火的片段,以及变性。在重排进程中,在有时被称作“模板转换”的
过程中,增长的核酸链通常暴露于多个不同的退火配偶体(partner)。如本文使用的,“模板
转换”指使来自一个核酸的一个核酸结构域与来自第二核酸的第二结构域转换的能力(即,
第一核酸和第二核酸在重排程序中充当模板)。
[0054] 模板转换经常产生嵌合序列,所述嵌合序列因不同起源的片段之间的交叉的引入造成。交叉通过转换的模板在多个循环的退火、延伸和变性期间的重组产生。因此,重排通
常导致变体多核苷酸序列的产生。在一些实施方案中,变体序列构成变体的“文库”。在这
些文库的一些实施方案中,变体包含来自两个或更多个亲本多核苷酸的序列片段。
[0055] 当使用两个或更多个亲本多核苷酸时,各个亲本多核苷酸是足够同源的以使得来自不同亲本的片段在重排循环中使用的退火条件下杂交。在一些实施方案中,重排允许具
有相对有限的同源性的亲本多核苷酸重组。经常地,各个亲本多核苷酸具有不同的和/或
独特的结构域和/或感兴趣的其他序列特征。当使用具有不同的序列特征的亲本多核苷酸
时,重排可产生高度多样性的变体多核苷酸。
[0056] 多种重排技术在本领域是已知的。参见,例如,美国专利号6,917,882、7,776,598、8,029,988、7,024,312和7,795,030,其都被通过引用全部并入本文。
[0057] “片段”为核苷酸或氨基酸序列的任何部分。片段可利用本领域已知的任何合适的方法产生,包括但不限于,裂解多肽或多核苷酸序列。在一些实施方案中,片段通过使用裂
解多核苷酸的核酸酶产生。在一些另外的实施方案中,片段利用化学技术和/或生物合成
技术生成。在一些实施方案中,片段包含至少一个亲本序列的亚序列,所述亚序列利用互补
核酸的部分链延长生成。
[0058] “亲本多肽”、“亲本多核苷酸”、“亲本核酸”和“亲本”通常被用来指在多样性生成程序诸如定向进化中用作起点的野生型多肽、野生型多核苷酸或变体。在一些实施方案中,亲本本身经由重排或其他多样性生成程序产生。在一些实施方案中,定向进化中使用的突
变体与亲本多肽直接相关。在一些实施方案中,亲本多肽在暴露于极端温度、pH和/或溶
剂条件时是稳定的并可充当生成用于重排的变体的基础。在一些实施方案中,亲本多肽对
于极端温度、pH和/或溶剂条件是不稳定的,并且亲本多肽被演变以制备稳健的变体。
[0059] “亲本核酸”编码亲本多肽。
[0060] 如本文使用的“突变体”、“变体”和“变体序列”指在一些方面与标准或参考序列不同的生物序列。差异可被称为“突变”。在一些实施方案中,突变体为已通过至少一个取代、
插入、交换(cross-over)、缺失和/或其他遗传操作被改变的氨基酸(即,多肽)序列或多
核苷酸序列。为了本公开内容的目的,突变体和变体不限于特定的产生所述突变体和变体
的方法。在一些实施方案中,突变体或变体序列与亲本序列相比具有增加的、减少的或基本
上相似的活性或特性。在一些实施方案中,变体多肽与野生型多肽(例如亲本多肽)的氨
基酸序列相比包含一个或更多个已突变的氨基酸残基。在一些实施方案中,在变体多肽占
多数时,与亲本多肽相比,所述多肽的一个或更多个氨基酸残基被保持不变、是不变的、或
未被突变。在一些实施方案中,亲本多肽被用作生成具有提高的稳定性、活性或其他特性的
变体的基础。
[0061] “诱变”是将突变引入标准或参考序列,例如亲本核酸或亲本多肽的程序。
[0062] “文库”或“群体”指至少两个不同分子、字符串和/或模型,诸如核酸序列(例如,基因、寡核苷酸等)或来自其的表达产物(例如,酶或其他蛋白)的集合。文库或群体通常
包括很多不同的分子。例如,文库或群体通常包括至少约10个不同的分子。大的文库通常
包括至少约100个不同的分子,更通常地至少约1000个不同的分子。对于一些应用,文库
包括至少约10000或更多个不同的分子。在某些实施方案中,文库包括通过定向进化程序
产生的很多变异或嵌合的核酸或蛋白。
[0063] 当来自两种核酸的每一种的序列被组合在子代核酸中时,所述两种核酸被“重组”。当两种核酸均是重组的底物时,所述两种核酸被“直接”重组。
[0064] “选择”是指,其中一种或更多种生物分子被鉴定为具有一种或更多种感兴趣的特性的程序。因此,例如,技术人员可筛选文库以确定一个或更多个文库成员的一种或更多种
特性。如果一个或更多个该文库的成员被鉴定为拥有感兴趣的特性,则其被选择。选择可包
括对文库成员的分离,但所述分离不是必需的。另外,选择和筛选可以并且经常是同时的。
[0065] “因变量”表示输出或结果,或者被测试以查看其是否是所述结果。“自变量”表示输入或原因,或被测试以查看其是否是所述原因。因变量可被研究以查看其是否随着自变
量变化而变化以及变化多少。
[0066] 在如下的简单的随机线性模型中:
[0067] yi=a+bxi+ei,
[0068] 其中,项yi是因变量的第i个值并且xi是自变量的第i个值。项ei被称为“误差”且包含不由自变量解释的因变量的变异性。
[0069] 自变量也被称为“预测变量”、“回归量”、“控制变量”、“操纵变量”、“解释变量”或“输入变量”。
[0070] “正交的/正交性”指与模型中的其他自变量或其他关系不相关的自变量。
[0071] 术语“序列-活性模型”指描述一方面的生物分子的活性、特征或特性与另一方面的多种生物序列之间的关系的任何数学模型。
[0072] 术语“编码字符串”指对生物分子的一种表示方式,所述表示方式保存了关于该分子的序列/结构信息。在一些实施方案中,编码字符串包含关于变体文库中的序列突变的
信息。生物分子的编码字符串连同生物分子的活性信息可被用作序列活性模型的训练组。
生物分子的非序列特性可被储存或以其他方式与针对生物分子的编码字符串相关。
[0073] “参考序列”为从其产生序列变异的序列。在一些情形中,“参考序列”被用来限定变异。此类序列可以是被模型预测为具有期望的活性的最高值(或最高值中的一个)的序
列。在另一种情形中,参考序列可以是原始蛋白变体文库的成员。在特定实施方案中,参考
序列为亲本蛋白或亲本核酸的序列。
[0074] “训练组”指一个或更多个模型所符合或基于其建立的一组序列活性数据或观察值。例如,对于蛋白序列-活性模型,训练组包括原始的或改进的蛋白变体文库的残基序
列。通常,这些数据包括完整的或部分的残基序列信息,以及文库中每个蛋白的活性值。在
一些情形中,在训练组中同时提供有多种类型的活性(例如,速率常数数据和热稳定性
据)。所述活性有时是有益的特性。
[0075] 术语“观察值”是关于蛋白或其他生物实体的的信息,所述信息可被用于训练组来生成诸如序列活性模型的模型。术语“观察值”可指任何测序的且测定的生物分子,包括蛋
白变体。在特定实施方案中,每个观察值是对于文库中变体的活性值和相关序列。通常,生
成序列-活性模型使用的观察值越多,该序列-活性模型的预测力越好。
[0076] 如本文使用的,术语“有益特性”意图指为蛋白或目的组合物或与蛋白有关的方法提供某种益处的表型或其他可鉴定的特征。有益特性的实例包括当与亲本蛋白比较时,变
体蛋白的催化特性、结合特性、暴露于极端温度、pH等时的稳定性、对刺激的敏感性、抑制力
等特性的增加或降低。其他有益特性可包括响应特定刺激改变的曲线。下文列出了有益特
性的另外的实例。有益特性的值可用作用于序列活性模型的训练组中使用的观察对象的活
性值。
[0077] “下一代测序”或“高通量测序”是使测序过程并行化的测序技术,一次产生数千计或数百万计的序列。合适的下一代测序方法的实例包括但不限于,单分子
实时测序(例如,Pacific Biosciences,Menlo Park,California)、离子半导体
序(例如,Ion Torrent,South San Francisco,California)、焦磷 酸测 序(例 如,
454,Branford,Connecticut)、连接测序(例如,SOLid sequencing of Life Technolo
gies,Carlsbad,California)、合成测序和可逆性末端终止测序(例如,Illumina,San
Diego,California)、诸如透射电子显微术的核酸成像技术等。在本公开内容的详述中描述
了对示例性技术的进一步说明。
[0078] “预测力”指一种模型在多种条件下正确地预测数据的因变量的值的能力。例如,序列活性模型的预测力指模型由序列信息预测活性的能力。
[0079] “交叉验证”指,用于测试模型预测感兴趣的值(即自变量的值)的能力的普遍性的方法。所述方法利用一组数据制作模型,并利用不同的一组数据测试模型的误差。第一
组数据被视为训练组,而第二组数据为验证组。
[0080] “系统方差”指以不同的组合被改变的一个项或一组项的不同描述符。
[0081] “系统地变化的数据”指由以不同的组合被改变的一个项或一组项的不同描述符产生、推导或得到的数据。很多不同的描述符可同时但以不同的组合被改变。例如,从其中
氨基酸的组合已被改变的多肽收集的活性数据是系统地变化的数据。
[0082] 如本文使用的,术语“系统地变异的序列”指其中每个残基见于多种背景的一组序列。原则上,系统变异的水平可通过序列彼此正交(即,与平均值相比最大程度地不同)的
程度来定量。
[0083] 术语“切换(toggling)”指将多个氨基酸残基类型引入优化的文库中的蛋白变体序列中的特定位置。
[0084] 术语“回归”和“回归分析”指用来理解自变量中与因变量有关的那些自变量,并被用来探索这些关系的形式的技术。在有限的情形中,回归分析可被用来推导自变量和因
变量之间的因果关系。它是用于估计变量之间的关系的统计技术。当焦点是关于因变量和
一个或更多个自变量之间的关系时,其包括很多用于对若干个变量建模和分析的技术。更
特别地,回归分析帮助技术人员理解当任一个自变量变化而其他自变量保持固定时,因变
量的典型值(typical value)如何改变。回归技术可被用于从包括多个观察值的训练组生
成序列活性模型,所述多个观察值可包括序列和活性信息。
[0085] 偏最小二乘法或PLS是通过将预测变量(例如,活性)和可观察变量(例如,序列)投射到新的空间而发现线性回归模型的方法族。PLS也被称为潜在结构投射法。X(自
变量)和Y(因变量)数据均被投射至新的空间。PLS被用来找出两个矩阵(X和Y)之间
的基本关系。潜在变量方法被用来对X和Y空间中的协方差结构建模。PLS模型将尝试找
出在X空间中的多维方向,所述多维方向解释Y空间中的最大多维变化的方向。当预测器
(predictor)的矩阵具有比观察值更多的变量时并且当在X中存在多重共线性时,PLS回归
是特别适合的。
[0086] “描述符”指用来描述或辨识一个项的事物。例如,字符串中的字符可以是该字符串表示的多肽中的氨基酸的描述符。
[0087] 在回归模型中,因变量通过项的和与自变量相关。每个项包括自变量和相关回归系数的乘积。在纯粹的线性回归模型的实例中,回归系数由以下表达形式中的β表示:
[0088] yi=β1xi1+...+βpxip+εi=xiTβ+εi
[0089] 其中yi是因变量,xi是自变量,εi是误差变量,并且T表示转置矩阵(transpose),即向量xi和β的内积。
[0090] “主成分回归”(PCR)指估计回归系数时使用主成分分析的回归分析。在PCR中,使用自变量的主成分,而不是直接将因变量对自变量回归。PCR在回归中通常只使用主成分
的子集。
[0091] “主成分分析”(PCA)指使用正交变换将可能相关的变量的一组观察值转换成称为主成分的线性不相关的变量的一组值的数学程序。主成分的数目小于或等于最初变量的数
目。该转换以使得第一主成分具有最大的可能方差(即,在数据中占尽可能多的变化性),
并且每个之后的成分在其与之前的成分正交(即,与之不相关)的约束下转而具有最高的
可能方差的方式被定义。
[0092] “神经网络”为含有互相连接的处理单元或“神经元”的组的模型,所述处理单元或“神经元”使用联结法(connectionist approach)计算处理信息。神经网络被用来对输入
和输出之间的复杂关系建模并被用来找出数据中的模式。大多数神经网络以非线性、分散
式、平行的方式处理数据。在大多数情形中,神经网络是在学习阶段期间改变其结构的自适
应系统(adaptive system)。处理元件统一且平行地执行多种功能,而不存在对被分配了多
个单元的子任务的清晰描述。
[0093] 通常,神经网络包括简单处理单元的网络,所述网络呈现出通过处理元件和元件参数之间的关系确定的复杂性整体行为。神经网络与被设计为改变网络中的联系强度的算
法一起使用以产生期望的信号流。所述强度在训练或学习期间被改变。
[0094] “随机森林”指分类树预测因子的组合,使得每棵树依赖于独立取样的随机向量的值,并且森林中所有的树具有相同的分布。随机森林是由在决策树的每个分叉处具有随机
选择特征的许多未修剪的学习决策树组成的学习整体。随机森林生长出大量的分类树,每
个分类树对最受欢迎的类别投票。然后随机森林通过从森林中的所有预测树中选取最受欢
迎的投票类别来对变量分类。
[0095] 具有不确定的量p的“先验概率分布”或“先验”是在感兴趣的数据(例如,蛋白序列的训练组)被考虑之前表示关于p的不确定性的概率分布。未知的量可以是参数、系
数、变量、潜在变量等(例如,多元回归模型中的系数)。
[0096] 不确定的量p的“后验概率分布”或“后验”是在感兴趣的数据被考虑之后表示关于p的不确定性的概率分布。
[0097] 术语“贝叶斯线性回归”指,其中在贝叶斯推理的背景中进行统计分析的线性回归方法。将关于线性回归模型的先验知识(prior belief),包括模型参数的先验概率分布函
数与根据贝叶斯定理的数据的似然函数结合以获得关于参数的后验概率分布。
[0098] “过度拟合”指当统计模型描述随机误差或噪声时,而不是描述潜在关系时发生的情况。过度拟合通常发生当模型极度复杂时,诸如相对于观察对象的数目具有太多的参数。
已被过度拟合的模型通常将具有差的预测性能,因为其会夸大数据中的小幅波动。在一些
实施方案中,数学模型被用来描述一个或更多个自变量(IV)和一个因变量(DV)之间关系。
该模型可被写为DV=IV的代数表达式。“代数表达式”可包括变量、系数、常数和运算符
2
号,诸如加号和减号。4x+3xy+7y+5为二变量代数表达式。
[0099] 在一些实施方案中,代数表达式或数学模型的“项”为被加号或减号隔开的元素。2 2
在该上下文中,以上实例具有四个项4x、3xy、7y和5。项可由变量和系数(4x、3xy和7y)
或常数(5)组成。在代数表达式中,变量可具有多个值来表示系统的变化情况。例如,其可
以是表示行驶中的汽车的速度的连续变量,或表示氨基酸类型的具有多个非连续值的离散
变量。变量可以是表示实体的存在或不存在,例如特定位置处特定类型的残基的存在或不
存在的比特值变量。在以上代数表达式中,变量为x和y。
[0100] 在一些实施方案中,表达式的“项”可以是表达式的由其他符号诸如由乘号划分开的元素。
[0101] “系数”指被因变量或含有因变量的表达式乘的标量值。在以上实例中,“系数”为2
代数表达式中的项的数字部分。在4x+3xy+7y+5中,第一项的系数为4。第二项的系数为
3,且第三项的系数为7。如果一个项只由变量组成,则其系数为1。
[0102] “常数”为在代数表达式中只含有数字的项。即,其为无变量的项。在表达式2
4x+3xy+7y+5中,常数项为“5”。
[0103] “线性项”为具有1的次的项,或升至1的幂的单变量。在以上实例中,项7y为线1 2
性项,因为其次为1(y或仅y)。与之相比,项4x 是二次项,因为x具有2的次,并且3xy为
二元二次项,因为x和y各自具有1的次,乘积导致2的次。
[0104] 在文本的一些地方,“线性项”和“非交互作用项”在本文可互换使用来指回归模型的包含单自变量和相关系数的乘积的项,其中单个IV表示单个残基的存在/不存在。
[0105] 在一些实施方案中,当“非线性项”、“交叉乘积项”和“交互作用项”指包含回归模型的两个或更多个自变量和相关系数的乘积的项时,它们在本公开内容中可互换使用。更
通常地,“非线性项”被用来指示具有多于或少于1的次的项,例如自变量的幂函数或指数
2 1/3 y x
函数。非线性项的一些实例包括xy、x、x 、x和e 。因此,在该文本的一些地方,“非线性
项”涉及比包括两个自变量的乘积的项更广的含义。
[0106] 在一些实施方案中,交互作用项可体现为包括两个或更多个IV的非线性函数的项,所述非线性函数例如乘积函数、幂函数或两个或更多个IV的指数函数,每个IV表示在
特定位置处特定类型的残基的存在。例如,在y=ax1+bx2+cx1x2中,变量x1和x2可表示在
一个特定位置处两个特定残基的存在/不存在,并且项cx1x2为表示两个特定残基的相互作
用的影响的交互作用项。在其他实施方案中,交互作用项可体现为包括表示两个或更多个
残基的相互作用的单IV的项。例如,在y=ax1+bx2+cz中,变量x1和x2可表示在特定位置
处两个特定残基的存在/不存在,并且项cz为表示这两个特定残基的相互作用的影响的交
互作用项。在该在后的实例中,交互作用项cz不是交叉乘积项。尽管在技术上cz为线性
项,但是其在本文中不被如此标记以避免与线性项、非线性项ax1和bx2混淆。如本公开内
容使用的,术语“线性模型”指只包括线性项的模型。与之相比,术语“非线性模型”指包含
线性和非线性项两者的模型。在一些实施方案中,非线性模型包括以交叉乘积项体现的交
互作用项。
[0107] 更通常地,线性模型或线性系统满足次1的叠加原理和齐次性。叠加原理规定,对于所有的线性系统,在给定的地点和时间由两个或更多个刺激引起的净响应是每个刺激单
独引起的响应的和。这也被称为相加性。如果输入A产生响应X,而输入B产生响应Y,那
么输入(A+B)产生响应(X+Y)。次1的齐次性指,其输出或因变量(DV)随其输入或自变量
成比例地改变的任何模型。相反地,“非线性模型”是不满足次1的叠加原理或齐次性的模
型。
[0108] “相互作用亚单位”指对序列的模拟活性具有协同作用的该序列的两个或更多个亚单位,所述协同作用区分且不同于亚单位对模拟活性的单独影响。
[0109] 术语“基础模型”被用来指,在改进模型的过程开始时提供的序列-活性模型。
[0110] 术语“更新的模型”被用来指,从基础模型直接或间接地获得的序列-活性模型,其与基础模型和/或其所来源的另一个模型相比具有提高的预测力。
[0111] 模型的“似然函数”或“似然性”为统计模型的参数的函数。提供某些观察结果的一组参数值的似然性等于提供那些参数值的那些观察结果的概率,即L(θ|x)=P(x|θ)。
[0112] “蒙特卡罗模拟”为依赖大量的随机抽样获得模仿真实现象的数值结果的模拟。例如,从区间(0,1]抽取大量的伪随机均匀变量,并将小于或等于0.50的值指定正面而将
大于0.05的值指定为反面,是对重复掷硬币行为的蒙特卡罗模拟。
[0113] “Metropolis算法”或“Metropolis–Hastings算法”为用于从概率分布获得随机样品的序列的尔可夫链蒙特卡罗(MCMC)法,对于概率分布,直接抽样是困难的。该
抽样序列可被用来估计所述分布(即,生成直方图),或用来计算积分(例如,期望值)。
Metropolis–Hastings或其他MCMC算法通常被用于从多维分布中抽样,特别是当维数高
时。Metropolis–Hastings算法的目的是,渐进地生成根据期望分布P(x)的状态x并利
用随机过程实现它。该算法的思想是调节该随机过程以使得其渐进地收敛至独特的分布
P(x)。
[0114] “马尔可夫链”是具有马尔可夫特性的随机变量X1,X2,X3...的序列。换言之,给定当前状态,则未来和过去状态是独立的。形式上是,
[0115] Pr(Xn+1=x|X1=x1,X2=x2....,Xn=xn)=Pr(Xn+1=x|Xn=xn).
[0116] Xi的可能值形成称为链的状态空间的可计算组S。“马尔可夫链”系统是在有限的或可计算数目的可能状态之间经历从一个状态转换成另一个状态的数学系统。它是通常
表征为无记忆的随机过程:下一个状态只取决于当前的状态而不取决于其之前的事件的序
列。
[0117] “赤池信息量准则”(AIC)是对统计模型的相对拟合优度的测量,并且其经常被用作在有限组的模型中选择模型的标准。AIC建立在信息熵的概念上,事实上当给定的模型
被用来描述真实性时提供对信息丢失的相对测量。其可被说成是描述模型结构中偏差和方
差之间的权衡,或不严格地讲,模型的准确性和复杂性之间的权衡。AIC可如以下被计算:
AIC=-2logeL+2k,其中L是函数的最大似然性且k是待建立的模型的自由参数的数目。
[0118] “贝叶斯信息准则”为在有限组的模型中选择模型的准则,且与AIC紧密相关。BIC可按照下式计算:BIC=-2logeL+kloge(n),其中n为数据观察值的数目。由于观察值的数
目增加,BIC往往比AIC对更多的自由参数的额外数目罚分。
[0119] “遗传算法”是模仿进化过程的程序。遗传算法(GA)被用于很多领域来解决未被完全表征或太复杂以致不能被完全表征的问题,但是对于所述问题一些分析评价是可获得
的。即,GA被用来解决可通过一些对解的相对值(或至少一个可能的解相对于另一个解的
相对值)的定量测量来评价的问题。在本公开内容的上下文中,遗传算法为在计算机中选
择或操作字符串的过程,通常其中该字符串对应于一个或更多个生物分子(例如,核酸、蛋
白等)。
[0120] 术语“遗传操作”(或GO)指生物的和/或计算的遗传操作,其中任何类型的字符串的任何群体中(以及由此而来的由此类字符编码的物理对象的任何物理特性中)的所有
改变可被描述为随机和/或预先确定地应用有限组的逻辑代数函数的结果。GO的实例包括
但不限于扩增、交换、重组、突变、连接、片段化等。
[0121] “集成模型”为其项包括一组模型的所有项的模型,其中集成模型的项的系数基于该组中的各个模型的相应项的加权系数。系数的加权基于各个模型的预测力和/或符合
度。
[0122] II.生成改进的蛋白变体文库
[0123] 在探索蛋白序列的引导型进化方法中,序列-活性模型被用来引导蛋白变体的生成。本公开内容的一方面提供了用于制备序列-活性模型的多种方法,所述多种方法基于
蛋白文库并可用来搜寻新的且改进了的蛋白文库。该部分首先提供了用于搜寻新的且改进
了的蛋白的方法的概览,然后提供了与选择起始文库、建立序列-活性模型和使用该模型
引导新蛋白的探索有关的问题的进一步的细节。
[0124] 该公开内容提供了涉及氨基酸残基序列和蛋白活性的示例性实例,但应当理解,本文描述的方法还可对其他生物序列和活性实施。例如,在多个实施方案中,序列可以是完
整的基因组、完整的染色体、染色体片段、对于相互作用的基因的基因序列的集合、基因、核
酸序列、蛋白、多糖等。在一个或更多个实施方案中,序列的亚单位可以是染色体、染色体片
段、单倍型、基因、核苷酸、密码子、突变体、氨基酸、单体碳水化合物、二聚碳水化合物、三聚碳水化合物或寡聚碳水化合物等。
[0125] 通常,在特定的一轮序列定向进化的开始,获得待测序或测定的蛋白变体的训练组。既定的一轮定向进化产生很多变体蛋白,所述变体蛋白与该轮定向进化开始时使用的
亲本肽或多个亲本肽相比发生一个或更多个突变而不同。测定该轮定向进化期间产生的变
体蛋白的活性。选择具有期望的活性和/或与亲本肽相比具有提高的活性的那些肽被用于
至少另外的一轮定向进化。
[0126] 被测序和测定的蛋白变体还可用来制作序列-活性模型。通常,如果事实上对它们进行测序,则它们将被用于序列活性模型。每个被测序和测定的蛋白变体被称为“观察对
象”。通常,生成序列-活性模型使用的观察对象越多,该序列-活性模型的预测力越好。
[0127] 在下一代大规模平行测序技术出现之前,经济地对任何一轮定量进化中产生的多于10至30个变体肽测序是困难的。现在随着下一代测序的应用,在一轮定向进化中产生
的许多更多的变体蛋白可被测序。结果,可使用大得多的训练组数据的集制作序列活-性
模型。现在,序列活性模型可使用这样的训练组产生,其不仅包括一轮中表现最好的肽,而
且包括进一步的多轮定向进化不感兴趣但是其序列活性信息可被应用于制作更稳健的序
列活性模型的一些肽。
[0128] 在一些实施方案中,通常期望制作具有良好的预测任意序列的活性的能力的序列-活性模型。预测力可通过预测的精确性以及模型精确地预测活性的一致性来表征。另
外,可通过其在宽广范围的序列空间精确地预测活性的能力来表征模型。例如,预测力可根
据对于肽的给定的测试和/或验证组,计算的和实际的活性之间的残差(residual)来表
征。具有较高的普遍性预测力的模型往往遍布不同的验证数据组产生较小且更一致的残
差。与测试数据组过度符合的模型往往对于验证数据产生较大且不太一致的残差,如通过
以下实例表明的。本公开内容的一方面提供了有效地找出遍布不同的数据组具有高的预测
力的模型的方法。
[0129] A.搜寻改进的蛋白变体的程序的概述
[0130] 如本文描述的序列-活性模型可被用来协助鉴定经历定向进化的起始变体文库中的一个或更多个亲本“基因”。在一轮进化进行之后,鉴定新的变体文库,提供新的一组观
察值,然后新的一组观察值可作为数据反馈以制作新的或精化的序列-活性模型。这种在
基于新的观察值制作序列-活性模型和基于序列-活性模型进行定向进化之间交替的程序
可形成建模-探索的迭代循环,该程序可被重复直到得到期望的蛋白和文库。
[0131] 由于序列-活性模型和变体文库之间的反馈循环,在探索具有改进的活性的蛋白中,更好的模型和更好的变体文库彼此依赖。因此,建模和/或测序领域的瓶颈和改进可影
响到这两个领域。在本发明的一些实施方案中,因更好的建模技术得到的建模效率的改进
提供更好的模型以引导序列探寻。在一些实施方案中,下一代测序技术被用来改进体外(in
vitro)测序速率,以及被用来提供交叉验证数据以经由计算机模拟(in silico)改进计算
模型。
[0132] 在本发明的一些实施方案中,有用的序列-活性模型需要稳健的数学建模技术和大量的“观察值”。这些观察值是训练组中提供的用于模型的数据。特别地,每个观察值是
文库中变体的活性值和相关序列。在过去,测序是开发大的训练组的限制步骤,并且因此也
是开发更加稳健的序列-活性模型的限制步骤。在目前通常使用的方法中,生成了可能具
有数以百计的变体的变体文库。但是,事实上这些变体中只有少部分被测序。在一轮典型
的定向进化中,事实上只有具有最高活性的约10至30个变体被测序。理想地,文库中更大
比例的变体会被测序,包括具有相对低的活性的一些变体。下一代测序工具已经大大改进
了测序速率,使得在训练组中包括低活性的变体和高活性的变体成为可能。在一些实施方
案中,包括具有一定范围的活性水平的变体导致产生表现更好的模型和/或在对宽广范围
的序列和活性空间的预测能力方面更好的模型。
[0133] 本文提及的一些线性序列-活性回归模型包括不同的残基作为自变量来预测任何感兴趣的活性。这些线性序列-活性回归模型不包括解释两个或更多个残基之间的相互
作用的项。如果两个残基之间的相互作用对活性具有协同作用,那么线性模型可提供与这
两个相互作用残基相关的系数的人为地夸大的值。结果,使用模型工作的人员可能错误地
得出结论,通过简单地按照相对高的系数值建议的进行残基取代,得到的肽的活性将高于
预期。这是因为,由于使用线性模型,研究者不能理解,与残基取代关联的增加的活性主要
是该取代与另一取代相互作用的结果。如果研究者理解了这种相互作用的重要性,那么他
或她会同时进行这两个取代并得到线性模型所暗示的活性的增加。
[0134] 如果两个残基相互作用以非线性方式抑制活性,那么线性模型将比如果以单纯地彼此分离的方式考虑这两个残基将会是适当的值低的值归因于与这两个残基有关的系数。
换言之,对于相互作用的残基进行一种取代而不进行另一个将产生比线性模型所暗示的大
的活性的结果。
[0135] 由于当残基间相互作用对活性具有强烈影响时,线性模型可能是不恰当的,所以具有解释残基间的相互作用的非线性交互作用项的非线性模型对于活性的精确预测经常
是必需的。然而,利用非线性项的模型提出了计算方面的挑战和对经验主义的挑战。最值
得注意的是,在开发/利用模型方面存在有许许多多可能的交互作用项要考虑,这需要相
当大量的计算。更大的限制是,制作具有相当数量的残基-残基交互作用项的模型所需的
观察值的潜在数目。另外,给定特定数目的可得的观察值,对于模型创建技术可能存在过度
拟合数据的倾向。为了解决该挑战,谨慎地选择并限制序列-活性模型中提供的交互作用
项是很多模型的开发中重要考虑的。
[0136] 图1展示了,显示制作序列-活性模型的程序的一种实施方式的流程图。如所描绘的,程序100在提供变体基因的序列和活性数据(“观察值”)的模103处开始。序列
数据可例如从包含原始的或改进的蛋白变体文库的残基序列的训练组获得。通常,这些数
据包括完整的或部分的残基序列信息,以及文库中每个蛋白的活性值。在一些情形中,多种
类型的活性(例如,速率常数数据和热稳定性数据)被共同提供在训练组中。由期望的结
果确定的其他的数据来源也可被考虑。一些合适的数据来源包括但不限于,描述与正在构
建的序列活性模型有关的特定肽的信息的参考文献。另外的信息来源包括但不限于同一项
目中的较早的或不同的多轮定向进化。事实上,期望的是(利用任何合适的方法,包括但不
限于本文提供的那些方法)源自先前的多轮定向进化的信息将在后期产生的文库、变体等
的开发方面具备实用性。
[0137] 在很多实施方案中,蛋白变体文库的个体成员体现大量的序列和活性。这有利于生成在序列空间的广泛区域可应用的序列-活性模型。用于生成如此多样化的文库的技
术包括但不限于蛋白序列的系统变异和如本文描述的定向进化技术。但是,在一些可选的
实施方案中,从特定基因家族(例如,在多个物种或有机体中发现的特定激酶)的基因序列
产生模型是期望的。由于在该家族的所有成员中很多残基将是相同的,该模型仅描述变异
的那些残基。因此,在一些实施方案中,基于此类相对小的训练组(与所有可能变体的组相
比)的统计模型在局部上是有效的。即,这些模型只对给定变体的给定观察值有效。在一
些实施方案中,目标不是找到全部符合的函数,因为应认识到,在一些模型中,这超出了所
考虑的模型系统的能力和/或需要。
[0138] 活性数据可利用本领域已知的任何合适的方法获得,包括但不限于被得当地设计以计算感兴趣的一种活性/多种活性的量级(magnitude)的测定和/或筛选方法。此类技
术是熟知的并且对于本发明不是必需的。设计合适的测定或筛选方法的原理是本领域广泛
理解和知晓的。用于获得蛋白序列的技术也是熟知的且对于本发明不是关键的。如所提到
的,可使用下一代测序技术。用在本文描述的实施方案上的活性可以是蛋白的稳定性(例
如,热稳定性)。但是,很多重要的实施方案考虑其他的活性诸如催化活性、对病原体和/或
毒素的抗性、治疗活性、毒性等。事实上,不期望本发明被限制于任何特定的测定/筛选方
法和/或测序方法,因为本领域已知的任何合适的方法在本发明中具备实用性。
[0139] 在已生成或获得训练组数据之后,所述程序利用它生成将活性预测为序列信息的函数的基础序列活性模型。参见模块105。该模型当被提供以特定蛋白的序列信息时,其是
预测该蛋白的相对活性的方程式、算法或其他工具。换言之,蛋白序列信息是输入,而活性
预测是输出。在一些实施方案中,基础模型不包括任何交互作用项。在此类情形中,基础模
型可被描述为“线性模型”。在其他实施方案中,基础模型包括所有可获得的交互作用项,在
该情形中,基础模型可被描述为非线性模型或交互作用模型。
[0140] 对于很多实施方案,基础模型可对多个残基对活性的贡献排序。下文讨论了全部落在机器学习的范畴之下的产生此类模型的方法(例如,偏最小二乘回归(PLS)、主成分回
归(PCR)和多元线性回归(MLR)、贝叶斯线性回归),以及自变量的形式(序列信息)、因变
量的形式(活性)和模型自身的形式(例如,线性一阶表达式)。
[0141] 产生基础序列活性模型之后,所述程序对基础模型项迭代地加上或减去来自可用的交互作用项的集合的交互作用项,并评价所得到的新模型相比基础模型的改进以产生最
终模型。参见模块107。当基础模型包括所有可用的交互作用项时,所述程序以逐步的方式
减去这些项。当基础模型不包括交互作用项时,所述程序以逐步的方式加上这些项。
[0142] 在评价新的模型时,本公开内容的方法不只考虑了模型对于给定的一组数据考虑的方差,还考虑了该模型预测新数据的能力。在一些实施方案中,该模型的选择途径对与具
有较少系数/参数的模型相比具有较多系数/参数的等同模型罚分,以避免将该模型过度
符合到给定的数据组。选择方法的实例包括但不限于赤池信息量准则(AIC)和贝叶斯信息
准则(BIC)及其变化形式。
[0143] 在一系列嵌套模型中,如在具有渐进地多于基础模型的交互作用项(和相关系数)的回归模型中,即使额外的系数是假的,较复杂的模型也提供与较简单的模型同样好
或比之更好的拟合,因为较复杂的模型享有额外的自由度。本公开内容的某些实施方案采
用在拟合优度的增益超过被假参数的消耗所抵消的程度上对较复杂的模型的模型选择方
法罚分。
[0144] 下文展示了按照模块105和107中的运算产生序列-活性模型的示例性算法。此类技术包括但不限于对模型中包括另外的交互作用项有偏倚的逐步技术(step-wise
techniques)。但是,不期望本公开内容被限制于这些特定的实例。
[0145] 在一方面,本公开内容提供了制作能有助于鉴定影响期望的活性的生物分子的序列活性模型的方法。在一些实施方案中,所述方法包括:(a)接收针对多个生物分子的序列
数据和活性数据;(b)根据序列数据和活性数据制作基础模型,其中所述基础模型将活性
预测为序列的亚单位的存在或不存在的函数;(c)通过对所述基础模型加上或减去至少一
个新的交互作用项来制作至少一个新模型,其中所述新的交互作用项代表两个或更多个相
互作用的亚单位之间的相互作用;(d)确定所述至少一个新模型将活性预测为亚单位的存
在或不存在的函数的能力;和(e)基于在(d)中确定的所述至少一个新模型的预测活性的
能力以及对添加所述新的交互作用项的偏倚来决定是否对所述基础模型加上或减去所述
新交互作用项。然后所得到的模型可被用于多种应用,诸如用于蛋白文库的定向进化以鉴
定具有期望的生物活性和特性的蛋白。
[0146] 在一些实施方中,其中所述方法确定了新的交互作用项应被添加至基础模型以产生更新的模型,所述方法还包括:(f)使用更新的模型取代基础模型重复(c),并加上或减
去与(c)中加上或减去的交互作用项不同的交互作用项;以及(g)使用更新的模型取代基
础模型重复(d)和(e)。在一些实施方案中,所述方法还包括:(h)利用进一步更新的模型
重复(f)和(g)。
[0147] 在选择用于训练组的观察对象并选择用于产生序列-活性模型的数学技术之后,基础模型被创建。基础模型的制备通常不考虑其预测能力。如本文所描述的,其按照用于
从可用的多个观察对象(即,观察对象组)产生基础模型所定义的程序简单地产生。如以
上指出的,序列模型可描述多种序列,虽然在一些实施方案中,该模型描述了蛋白。在后一
种情形中,基础模型仅仅是具有针对用于生成训练组的肽的集合中存在的每个突变的一个
项的线性模型。在这些实施方案中,基础模型不包括任何代表肽中的残基之间的相互作用
的项。在一些实施方案中,基础模型不包括单独的针对观察组中存在的每个和各个突变的
项。
[0148] 在替代性方法中,基础模型不仅包括孤立地描述每个突变的项,还另外地包括针对所有潜在的相互作用残基的项。在极端的情形中,所指出的突变之间的每个可想到的相
互作用被用于基础模型。这包括针对突变之间的每种和各种成对相互作用的项,以及针对
每个和各个可能的三残基相互作用的项,以及针对各个可能的四残基相互作用的项等。一
些实施方案只包括成对相互作用,或包括成对相互作用和三向相互作用。三向相互作用为
三个不同的亚单位之间的影响活性的相互作用。
[0149] 在使用简单线性模型作为基础模型的一个或更多个实施方案中,随后的改进该模型的努力包括添加代表不同的相互作用的新的项。在替代性实施方案中,其中基础模型包
括所有的线性和非线性项,随后改进该模型的努力包括选择性地去除一些非线性、交互作
用项。
[0150] 在本发明的一个或更多个实施方案中,改进基础模型的程序在确定所得到的模型是否充分地改进了该模型的质量时包括对基础模型迭代地加或减交互作用项。在每个迭代
中,当前模型的预测力被确定并与另一个模型例如基础模型或更新的模型相比较。
[0151] 在预测力的测量已经考虑了模型推广到其他数据组的能力的实施方案中,单独的该测量即可确定候选模型是否应被选择。例如,诸如AIC或BIC的测量考虑模型的似然性
(或剩余误差)和参数数目两者。模型的“似然函数”或“似然性”是统计模型的参数的函
数。提供一些观察结果的一组参数值的似然性等于提供那些参数值的那些观察结果的概
率,即L(θ|x)=P(x|θ)。模型似然性的示例性计算被描述下文以下的一个部分。如果具
有较多参数的模型捕获与具有较少参数的模型相同量的数据差异性,则诸如AIC和BIC的
测量偏倚具有较多参数的模型。如果预测力的测量只考虑剩余误差,那么剩余误差改进的
量级必须被考虑以确定是否将与当前迭代相关的改变整合到目前最佳的更新的模型中。这
可通过将改进的量级与阈值相比来完成。如果量级小于阈值,则在当前迭代中正在考虑的
改变不被接受。可选地,如果改进的量级超过阈值,那么正在考虑的改变被整合到更新的模
型中并且所述更新的模型充当新的最佳模型继续用于剩余的迭代。
[0152] 在某些实施方案中,每个迭代考虑对正在考虑的当前最佳模型加或减单一迭代项。在相加模型的情形中,即基础模型只包含线性项的情形,所有可用的交互作用项的集可
被考虑。这些交互作用项中的每一个被连续地考虑,直到所述程序完成并最终获得最佳模
型。
[0153] 在一些情形中,在确定所述程序已经有效地收敛并且不可能进一步改进之后,所述模型生成程序终止于所述集中的所有可用的交互作用项被考虑之前。
[0154] 图2示出了在一个程序(参见,200)中,为了探索蛋白序列和活性空间的目的,模型如何能够被反复地用于引导新的蛋白变体文库的创建。在最终的模型产生之后,该最终
模型被用于鉴定被预测为影响活性的多个残基位置(例如,位置35)或特定的残基值(例
如,在位置35处的谷氨酸)。参见模块207。除了鉴定此类位置之外,该模型可被用来对这
些残基位置或残基值基于其对期望的活性(多种活性?)的贡献“排序”。例如,该模型可
预测位置35处的谷氨酸对活性具有最显著的、积极的影响;位置208处的苯丙氨酸对活性
具有第二最显著的、积极的影响等。在下文描述的一种特定方法中,PLS或PCR回归系数被
采用对特定残基的重要性排序。在另一种特定的方法中,PLS荷载矩阵被用来对特定残基
位置的重要性排序。
[0155] 在所述程序已鉴定到影响活性的残基之后,它们中的一些被选择用于如在模块209所示(图2)的变异。这是为了探索序列空间的目的而进行的。残基使用很多不同的
选择方案中的任一种方案来选择,下文描述了这些方案中的一些方案。在一个例证性实例
中,被预测为对活性具有最有利的影响的特定残基被保留(即,未变异的)。然而,一定数
目的被预测为具有较小影响的其他残基被选择用于变异。在另一个例证性实例中,发现对
活性具有最大影响的残基位置被选择用于变异,但是只在其被发现在训练组的高表现成员
中不同时。例如,在该方法中,如果所述模型预测残基位置197对活性具有最大的影响,但
是所有的或大多数的具有高活性的蛋白在该位置具有亮氨酸,则位置197不被选择用于变
异。换言之,下一代文库中所有的或大多数蛋白会在位置197处具有亮氨酸。但是,如果一
些“好的”蛋白在该位置处具有缬氨酸但是其他的蛋白具有亮氨酸,那么该程序会选择改变
该位置处的氨基酸。在一些情形中,会发现两个或更多个相互作用残基的组合对活性具有
最大影响。因此,在一些策略中,这些残基是被共同改变的。
[0156] 在鉴定了用于变异的残基后,所述方法接下来产生具有指定的残基变异的新的变体文库。参见模块211(图2)。多种方法学可用于该目的。在一个实例中,进行基于体外或
体内重组的多样性生成机制产生新的变体文库。这些程序可使用含有用于编码亲代变体文
库的蛋白的序列或亚序列的寡核苷酸。这些寡核苷酸中的一些是密切相关的,只是在选择
被选定的用于在209处的改变的替代氨基酸的密码子的方面不同。基于重组的多样性生成
机制可进行一个或多个循环。如果使用多个循环,则每个循环都包括筛选步骤以鉴定哪些
变体具有待用于随后的重组循环的可接受的表现。这是一种形式的定向进化。但是,不期
望本发明被局限于基于重组的多样性生成方法的任何特定方法,因为任何合适的方法/技
术在本发明中具备实用性。
[0157] 在另外的例证性实例中,选择“参考”蛋白序列并且在图2的209处被选择的残基被“切换”以鉴定变体文库的各个成员。如此鉴定的新蛋白通过适当的技术合成以产生新
的文库。在一个实例中,参考序列可以是训练组的表现最佳的成员或是通过PLS或PCR模
型预测的“最佳”序列。
[0158] 在另一个例证性实例中,在一个亲本序列中选择一轮定向进化中用于变异的残基。亲本可利用从在先的一轮定向进化得到的模型或通过利用鉴定具有最佳测定表现的文
库成员的数据来鉴定。用于下一轮定向进化的寡核苷酸可被限定为包括所选择的亲本的骨
架的部分,具有通过用于当前的一轮进化的序列活性模型根据算法预测的一个或更多个突
变。这些寡核苷酸可利用任何合适的方法产生,包括但不限于合成方法。
[0159] 新的文库产生之后,如在模块213中所示(图2),针对活性对其进行筛选。理想地,新的文库提供活性优于之前的文库中观察到的活性的一个或更多个成员。但是,即使没
有该优势,新的文库可提供有益的信息。其成员可被用于生成解释209中选择的变异的影
响的改进的模型(图2),并且从而跨越序列空间的更宽的区域更精确地预测活性。另外,所
述文库可代表序列空间从局部最优通向整体最优(例如,在活性方面)的渠道。
[0160] 取决于程序200(图2)的目标,在一些实施方案中,产生一系列新的蛋白变体文库是期望的,每一个蛋白变体文库提供训练组的新成员。然后,更新的训练组被用于产生改进
的模型。为了获得该改进的模型,程序200被示为具有如模块215中所示的决策操作,该决
策操作决定是否还应产生另一个蛋白变体文库。多种准则可被用于做该决定。决策准则的
实例包括但不限于,至今为止产生的蛋白变体文库的数目、来自当前文库的最佳蛋白的活
性、期望的活性的量级和在目前的新文库中观察到的提高的度。
[0161] 假定所述序程被用来继续处理新文库,所述程序则返回到操作模块100(图2),在这里由针对当前的蛋白变体文库而获得的序列和活性数据产生新的序列活性模型。换言
之,针对当前的蛋白变体文库的序列和活性数据用作新的模型的训练组的一部分(或其可
作为完整训练组)。其后,按照上文描述的执行模块207、209、211、213和215中所示的操作
(图2),但是是对于新的模型。
[0162] 当确定该方法已达到终点时,图2中示出的循环结束且不产生新的文库。在那时,所述程序完全终止,或在一些实施方案中,选择来自一个或更多个文库的一个或更多个序
列用于开发和/或生产。参见模块217。
[0163] B.产生观察值
[0164] 蛋白变体文库是多种蛋白的组,文库中的这些蛋白具有一个或更多个因成员而异的残基。这些文库可利用本文描述的方法和/或本领域已知的任何合适的方式产生。
这些文库在提供用来产生根据本发明的多个实施方案的序列活性模型的训练组的数据方
面具备实用性。蛋白变体文库中包含的蛋白的数目往往取决于与其生成相关的应用程式
(application)和花费。不期望本发明受限于本发明的方法中使用的蛋白文库中的任何特
定数目的蛋白。也不期望本发明受限于任何特定的一个或多个蛋白变体文库。
[0165] 在一个实例中,蛋白变体文库由一种或更多种天然存在的蛋白产生,所述蛋白可由一个基因家族编码。可使用其他起点,包括但不限于已知蛋白或新型合成蛋白的重组体。
文库可通过多种技术从这些种子(seed)蛋白或起始蛋白产生。在一种情形中,文库通过如
Stemmer(1994)Proceedings of the National Academy of Sciences,USA,10747-10751和
WO 95/22625(其均被通过引用并入本文)中描述的DNA片段化介导的重组、如Ness等人
(2002)Nature Biotechnology 20:1251-1255和WO 00/42561(其均被通过引用并入本文)
中描述的合成的寡核苷酸介导的重组、或编码一个或更多个亲本蛋白的一部分或全长的核
酸来产生。也可利用这些方法的组合(例如,DNA片段和合成的寡核苷酸的重组)以及例
如均被通过引用并入本文的WO97/20078和WO98/27230中描述的其他基于重组的方法。用
于产生蛋白变体文库的任何合适的方法在本发明中具备实用性。实际上,不期望本发明受
限于用于产生变体文库的任何特定方法。
[0166] 在一些实施方案中,单个的“起始”序列(其可以是“祖”序列)可被采用用于定义建模过程中使用的一组突变体的目的。在一些实施方案中,至少一个起始序列是野生型
序列。
[0167] 在某些实施方案中,突变(a)在文献中被鉴定为影响底物特异性、选择性、稳定性或其它有利特性,和/或(b)通过计算被预测为改进蛋白的折叠形式(例如,压紧蛋白的
内部残基)、配体结合、亚基相互作用、多个不同的同源体之间的家族重排等。可选地,突
变可自然地地引入起始序列并表达待筛选有利特性的产物。定点诱变是对于引入突变有
用的技术的一个实例,但是任何合适的方法具备实用性。因此,可选地或另外,突变可通过
基因合成、饱和随机诱变、残基的半合成组合文库、定向进化、重现性序列重组(recursive
sequence recombination)(“RSR”)(参见例如美国专利申请号2006/0223143,其被通过引
用全部并入本文)、基因重排、易错PCR和/或任何其他合适的方法来提供。合适的饱和诱
变程序的一个实例被描述于美国公布的专利申请号20100093560,其被通过引用全部并入
本文。
[0168] 起始序列不必与野生型蛋白的氨基酸序列相同。但是,在一些实施方案中,起始序列是野生型蛋白的序列。在一些实施方案中,起始序列包含野生型蛋白中不存在的突变。在
一些实施方案中,起始序列是源自具有共同特性的一组蛋白,例如一个家族的蛋白的共有
序列。
[0169] 可用作亲本序列来源的多个家族或多种类别的酶的非限制性的代表性清单包括但不限于以下:氧化还原酶(E.C.1);转移酶(E.C.2);水解酶(E.C.3)、裂解酶(E.C.4);异
构酶(E.C.5)和连接酶(E.C.6)。氧化还原酶的更具体但非限制性的亚组包括,脱氢酶(例
如,醇脱氢酶(羰基还原酶)、木糖还原酶、醛还原酶、法尼醇脱氢酶、乳酸脱氢酶、阿拉伯
糖脱氢酶、葡萄糖脱氢酶、果糖脱氢酶、木糖还原酶和琥珀酸盐/酯脱氢酶)、氧化酶(例如,
葡萄糖氧化酶、己糖氧化酶、半乳糖氧化酶和漆酶)、单胺氧化酶、脂肪氧合酶、过氧物酶、醛
脱氢酶、还原酶、长链酰基-[酰基-载体-蛋白]还原酶、酰基-CoA脱氢酶、烯-还原酶、
合酶(例如,谷氨酸合酶)、硝酸盐还原酶、单加氧酶和双加氧酶和过氧化氢酶。转移酶的更
具体但非限制性的亚组包括甲基转移酶、脒基转移酶和羧基转移酶、转酮醇酶、转醛缩酶、
酰基转移酶、糖基转移酶、转氨酶、转谷氨酰胺酶和聚合酶。水解酶的更具体但非限制性的
亚组包括酯水解酶、肽酶、糖基化酶、淀粉酶、纤维素酶、半纤维素酶、木聚糖酶、几丁质酶、
葡萄糖苷酶、葡聚糖酶、葡糖淀粉酶、酰化酶、半乳糖苷酶、支链淀粉酶、植酸酶、乳糖酶、阿
拉伯糖苷酶、核苷酶、腈水解酶、磷酸酶、脂酶、磷脂酶、蛋白酶、ATP酶和脱卤酶。裂解酶的
更具体但非限制性的亚组包括脱羧酶、醛缩酶、水合酶、脱水酶(例如,碳酸酐酶)、合酶(例
如,异戊二烯、蒎烯和法呢烯合成酶)、果胶酶(例如,果胶裂解酶)和卤代醇脱氢酶。异构
酶的更具体但非限制性的亚组包括消旋酶、差向异构酶、异构酶(例如,木糖异构酶、阿拉
伯糖异构酶、核糖异构酶、葡萄糖异构酶、半乳糖异构酶和甘露糖异构酶)、互变异构酶和变
位酶(例如酰基转移变位酶、磷酸变位酶和氨基变位酶)。连接酶的更具体但非限制性的亚
组包括酯合成酶。可被用作亲本序列的来源的其他家族或类别的酶包括,转氨酶、蛋白酶、
激酶和合成酶。该清单虽然例示了本公开内容的可能的酶的某些特定方面,但是仍未考虑
详尽并且没有描述对本公开内容的限制或限制本公开内容的范围。
[0170] 在一些情形中,在本文描述的在所述方法中有用的候选酶能催化对映选择性反应,诸如,例如对映选择性还原反应。此类酶可被用来制备在例如药物化合物的合成中有用
的中间体。
[0171] 在一些实施方案中,候选酶选自内切木聚糖酶(EC 3.2.1.8)、β-木糖苷酶(EC3.2.1.37)、α-L-阿拉伯呋喃糖苷酶(EC 3.2.1.55)、α-葡糖醛酸酶(EC3.2.1.139)、乙
酰基木聚糖酯酶(EC 3.1.1.72)、阿魏酰酯酶(EC 3.1.1.73)、香豆酰酯酶(EC 3.1.1.73)、
α-半乳糖苷酶(EC 3.2.1.22)、β-半乳糖苷酶(EC3.2.1.23)、β-甘露聚糖酶(EC
3.2.1.78)、β-甘露糖苷酶(EC 3.2.1.25)、内切-聚半乳糖醛酸酶(EC 3.2.1.15)、
果胶甲基酯酶(EC 3.1.1.11)、内切-半乳聚糖酶(EC 3.2.1.89)、果胶乙酰基酯酶(EC
3.1.1.6)、内切-果胶裂解酶(EC4.2.2.10)、果胶酸裂解酶(EC 4.2.2.2)、α鼠李糖苷酶
(EC 3.2.1.40)、外切-聚-α-半乳糖醛酸苷酶(EC 3.2.1.82)、1,4-α-半乳糖醛酸苷酶
(EC 3.2.1.67)、外切聚半乳糖醛酸裂解酶(EC 4.2.2.9)、鼠李糖半乳糖醛酸聚糖内切裂解
酶(EC 4.2.2.B3)、鼠李糖半乳糖醛酸聚糖乙酰酯酶(EC 3.2.1.B11)、鼠李糖半乳糖醛酸
聚糖半乳糖醛酸水解酶(rhamnogalacturonan galacturonohydrolase)(EC 3.2.1.B11)、
内切-阿拉伯聚糖酶(EC 3.2.1.99)、漆酶(EC 1.10.3.2)、锰依赖型过氧化物酶(EC
1.10.3.2)、淀粉酶(EC 3.2.1.1)、葡萄糖淀粉酶(EC 3.2.1.3)、蛋白酶、脂酶和木质素过
氧化物酶(EC1.11.1.14)。1种、2种、3种、4种、5种、或多于5种的酶的任何组合在本发明
的组合物中具备实用性。
[0172] 在本发明的一个或更多个实施方案中,一种起始序列以多种方式被修饰以产生文库。在一些实施方案中,文库通过系统地改变起始序列的各个残基来产生。在一个例证性
实例中,实验设计(DOE)方法学被用以鉴定被系统地改变的序列。在另一个实例中,“湿实
验室”(wet lab)程序诸如寡核苷酸介导的重组被用来引入一定程度的系统变异。不期望
本发明被限制于用于产生系统地变异的序列的任何特定方法,因为任何合适的方法具备实
用性。
[0173] 如本文使用的,术语“系统地变异的序列”指,其中每个残基见于多种背景的一组序列。原则上,系统变异的水平可通过这些序列彼此正交的程度(即,与平均值相比最大程
度地不同)来定量。在一些实施方案中,该程序不依赖于具有最大程度地正交的序列。但
是,模型的质量的改进将与所测试的序列空间的正交性成正比关系。在简单的例证性实例
中,通过鉴定两个残基位置,每个残基位置可具有两个不同的氨基酸中的一个,则肽序列被
系统地变异。最大程度地不同的文库包括所有四种可能的序列。此类最大程度的系统变异
随可变异的位置的数目以指数形式增加;例如当在N个残基位置中的每一个处有2个选择
N
时,最大程度的系统变异以2增加。但是,本领域技术人员将容易地认识到,并不需要最大
程度的系统变异。系统变异提供了提供良好的序列空间抽样的相对小的待测试序列组的机
制。
[0174] 具有系统地变异的序列的蛋白变体可利用本领域普通技术人员所熟知的技术以很多种方式获得。如所指出的,合适的方法包括但不限于基于一个或更多个“亲本”多核苷
酸序列生成变体的基于重组的方法。多核苷酸序列可利用多种技术重组,包括例如DNA酶
消化待重组的多核苷酸,接下来是核酸的连接和/或PCR重装配。这些方法包括但不限于在
例如以下文献中描述的那些方法:Stemmer(1994)Proceedings of the National Academy
of Sciences USA,91:10747-10751;美国专利号5,605,793,“Methods for In Vitro
Recombination”;美国专利号5,811,238,“Methods for Generating Polynucleotides
having Desired Characteristics by Iterative Selection and Recombination”;美国
专利号5,830,721;“DNA Mutagenesis by Random Fragmentation and Reassembly”;美国
专利号5,834,252,“End Complementary Polymerase Reaction”;美国专利号5,837,458,
“Methods and Compositions for Cellular and Metabolic Engineering”;WO98/42832,
“Recombination of Polynucleotide Sequences Using Random or Defined Primers”;WO
98/27230,“Methods and Compositions for Polypeptide Engineering”;WO 99/29902,
“Method for Creating Polynucleotide and Polypeptide Sequences”等,其均被通过引
用并入本文。
[0175] 合成重组方法也特别适于产生具有系统变异的蛋白变体文库。在合成重组方法中,共同编码待重组的多个基因的多个寡核苷酸被合成。在一些实施方案中,寡核苷
酸共同编码源自同源亲本基因的序列。例如,使用利用序列比对程序,诸如BLAST(参见
例如,Atschul,等人,Journal of Molecular Biology,215:403-410(1990)比对感兴
趣的同源基因。同源体之间的相应氨基酸变异的核苷酸被指出。这些变异任选地被进
一步局限于基于亲本序列的共变异分析、亲本序列的功能信息、亲本序列之间的保守性
或非保守性改变的选择或其他合适的准则的全部可能变异的子集。任选地将变异进一
步增加至编码通过亲本序列的共变异分析、亲本序列的功能信息、亲本序列之间的保守
性或非保守性改变的选择或变异位置的表观公差(apparent tolerance)鉴定的位置处
的另外的氨基酸多样性。结果是简并基因序列编码源自亲本基因序列的共有氨基酸序
列,简并核苷酸位于编码氨基酸变异的位置。设计这样的寡核苷酸:含有聚集简并基因
中存在的多样性所需的核苷酸。关于此类方法的细节可在下列文献中找到:例如,Ness
等 人 (2002),Nature Biotechnology,20:1251-1255;WO 00/42561,“Oligonucleotide
Mediated Nucleic Acid Recombination”;WO 00/42560,“Methods for Making Character
Strings,Polynucleotides and Polypeptides having Desired Characteristics,”;WO
01/75767,“In Silico Cross-Over Site Selection”和WO01/64864,“Single-Stranded
Nucleic Acid Template-Mediated Recombination and Nucleic Acid Fragment
Isolation”,其各自被通过引用并入本文。所鉴定的多核苷酸变异序列可在体外或体内转
录和翻译,创建蛋白变异序列的组或文库。
[0176] 系统地变异的序列的组也可利用限定数据组中的序列的实验设计(DOE)方法学通过推理设计。对DOE方法的描述可在Diamond,W.J.(2001)Practical
Experiment Designs:for Engineers and Scientists,John Wiley&Sons 中 和
William J Drummond(1981) 的“Practical Experimental Design for Engineers
and Scientists”Van Nostrand Reinhold Co New York、“Statistics for
experimenters”George E.P.Box,William G Hunter 和 J.Stuart Hunter(1978)、John
Wiley和Sons,New York中找到或例如在万维网itl.nist.gov/div898/handbook/上找到。
存在可用来进行相关数学运算的若干计算包,包括Statistics Toolbox( )、
、 和 DESIGN 。结果是序列的系统地
变异的和正交分布的数据组,所述数据组适于建立本发明的序列-活性模型。基于DOE的
数据组也可利用如本领域已知的Plackett-Burman或Fractional Factorial Designs容
易地产生。Diamond,W.J.(2001)。
[0177] 在工程化和化学科学中,与完全析因设计相比,分式析因设计被用来定义较少的实验。在这些方法中,因子是在两种或更多种水平之间变化(即,“切换”)。优化技术被用
来确保所选择的实验在解释因子空间变化方面是信息量最大的。相同的设计方法(例如,
分式析因设计、D-型最适设计)可被应用于蛋白工程以构建较少的序列,在这些序列中给
定数目的位置在两个或更多个残基之间切换。在一些实施方案中,该序列组提供了对正在
研究的蛋白序列中存在的系统性变异的最佳描述。
[0178] 应用于蛋白工程化的DOE方法的例证性实例包括以下操作:
[0179] 1)基于本文描述的原则鉴定待切换的位置(例如,在亲本序列中存在的位置、保守度等);
[0180] 2)利用通常可获得的一种统计软件包通过限定因子的数目(即,可变异的位置)、度(level)的数目(即,在每个位置的选择)和运行的实验数目来创建DOE实验以提供输
出矩阵。输出矩阵的信息内容(通常由代表每个位置处的残基选择的1和0组成)直接地
取决于待运行的实验的数目(通常地,越多越好)。
[0181] 3)使用编码返回至每个位置处的特定残基选择的1和0的输出矩阵创建蛋白比对结果。
[0182] 4)合成编码蛋白比对结果中呈现的蛋白的基因。
[0183] 5)在相关测定中测试所合成的基因编码的蛋白。
[0184] 6)基于所测试的基因/蛋白建立模型。
[0185] 7)按照本文描述的步骤来鉴定重要位置并建立具有提高的符合度的一个或更多个后续文库。
[0186] 在例证性实例中,研究了这样的蛋白,其中20个位置处的功能最佳的氨基酸残基待被确定(例如,其中在每个位置处有2个可能的氨基酸可选)。在该实例中,分辨度IV析
因设计将是合适的。分辨度IV设计被定义为,能阐明所有单变量的影响而没有双因素效应
与之重叠(with no two-factor effects overlapping them)的设计。然后,所述设计将
20
指定覆盖总多样性为2 (~1百万)个可能的序列中的40个特定氨基酸序列的组。然后
利用任何标准基因合成方案制备这些序列并确定这些克隆的功能和适合性。
[0187] 以上方法的替代方法是采用一些或所有可用的序列(例如, 数据库和其他公共资源)来提供蛋白变体文库。该方法提供了对感兴趣的序列空间区域的指
示。
[0188] C.测序方法
[0189] 在过去,测序是开发大的训练组和由其得来的越来越稳健的序列活性模型的限制步骤。对变体测序所需的高昂的花费和漫长的时间将观察值的数目限制到几十个变体。下
一代测序工具具有大大地降低的花费以及增加的测序速度和容量,使得训练组中包括低活
性变体和高活性变体两者成为可能。
[0190] 下一代测序工具可花费不多地在一次运行中对大量的碱基对(例如,至少约1,000,000,000个碱基对)测序。这种能力可用于当在单次运行中对通常长度仅几千碱基
对的变异蛋白测序时。下一代测序工具往往被优化以便在单次运行中测序单个的大基因组
(例如,人基因组),而不是很多较小的序列。为了实现下一代测序工具平行地对很多观察
值测序的潜能,在单次运行中被测序的每个观察值的起始点应被独特地鉴定。在一些实施
方案中,条形码标识的序列被用在被供给到下一代测序仪进行单次运行的每个和各个片段
上。在一个实例中,条形码独特地鉴定特定平板(例如,96孔板)上的特定孔。在这些实
施方案中的一些中,每个板的每个孔含有一个独特的变体。通过对每个变体或更特别地对
每个变体的每个片段标以条形码,多个不同变体的基因序列可在单次运行中被测序并被鉴
定。在所述过程中,具有相同条形码的所有片段读段通过确定变体的序列长度的算法被一
起鉴定并处理。
[0191] 在一些实施方案中,从给定的孔中具有变体的细胞提取DNA,然后将其片段化。然后对这些片段标以条形码以鉴定至少与该变体有关的孔,并且有时候是与该变体有关的孔
和板。然后对所得到的片段进行尺寸选择以产生具有适当长度的序列用于下一代测序仪。
在一个例证性实例中,读段长度为约200碱基对。在一些实施方案中,直到来自板的多个孔
的DNA片段被第一次收集之后才应用板条形码。然后对所收集的DNA标以条形码以辨识所
述板。在一些实施方案中,每个片段将具有相同的板条形码,不论所述每个片段源自哪个
孔。但是,在一些替代实施方案中,这些片段具有不同的条形码。另外,可应用孔条形码和
板条形码以辨识从给定的孔中提取的DNA。
[0192] 在一个或更多个实施方案中,序列数据可利用被认为是第一代测序方法的大量(bulk)测序方法来获得,包括例如桑格测序或Maxam-Gilbert测序。涉及使用带标
记的双脱氧链终止剂的桑格测序是本领域熟知的;参见例如,Sanger等人,Proceedings
of the National Academy of Sciences of the United States of America
74,5463-5467(1997)。涉及在核酸样品的部分上进行多个部分化学降解反应,接者检测并
分析这些片段来推断序列的Maxam-Gilbert测序也是本领域熟知的;参见例如Maxam等
人,Proceedings of the National Academy of Sciences of the United States of
America 74,560-564(1977)。另一种大量测量方法是通过杂交测序,其中样品的序列基
于其在例如微阵列或基因芯片上与多个序列的杂交特性来推导;参见,例如,Drmanac等
人,Nature Biotechnology 16,54-58(1998)。
[0193] 在一个或更多个实施方案中,序列数据利用下一代测序方法来获得。下一代测序也被称为“高通量测序”。这些技术使测序过程平行化,一次产生数以千计或数百万计
的序列。合适的下一代测序方法的实例包括但不限于,单分子实时测序(例如,Pacific
Biosciences,Menlo Park,California)、离子半导体测序(例如,Ion Torrent,South San
Francisco,California)、焦磷酸测序(例如,454,Branford,Connecticut)、连接测序(例
如,SOLid sequencing of Life Technologies,Carlsbad,California)、合成测序和可逆性
末端终止测序(例如,Illumina,San Diego,California)、核酸成像技术诸如透射电子显微
术,等等。
[0194] 一般地,下一代测序方法通常利用体外克隆步骤以扩增各个DNA分子。乳液PCR(emPCR)分离伴随在油相内的水滴中的引物所包被的珠中的各个DNA分子。PCR产
生与珠上的引物结合的DNA分子的拷贝,接着被固定用于稍后的测序。emPCR被用于
Marguilis等人(由454Life Sciences,Branford,CT商业化)、Shendure和Porreca等
人(也被称为“聚合酶克隆测序”)以及SOLiD测序(Applied Biosystems Inc.,Foster
City,CA)的 方 法 中。 参 见M.Margulies 等 人,例 如 (2005)“Genome sequencing
in microfabricated high-density picolitre reactors”Nature 437:376–380;
J.Shendure 等 人 (2005)“Accurate Multiplex Polony Sequencing of an Evolved
Bacterial Genome”Science 309(5741):1728–1732。体外克隆扩增还可通过“桥式PCR”
进行,在所述“桥式PCR”中,片段在引物连接至固体表面后被扩增。Braslavsky等人开发
了省去该扩增步骤、直接将DNA分子固定至表面的单分子方法(由Helicos Biosciences
Corp.,Cambridge,MA商业化)。I.Braslavsky等人(2003)“Sequence information can
be obtained from single DNA molecules”Proceedings of the National Academy of
Sciences of the United States of America 100:3960-3964。
[0195] 与表面自然结合的DNA分子可被平行地测序。在“合成测序”中,基于模板链的序列使用DNA聚合酶形成互补链,如染料-终止电泳测序,“可逆”终止剂法(由
Illumina,Inc.,San Diego,CA和Helicos Biosciences Corp.,Cambridge,MA商业化)
利用可逆形式的染料-终止剂,通过重复移除封端基团来以允许另一个核苷酸的聚合而
一次添加一个核苷酸,并实时检测每个位置处的荧光。“焦磷酸测序”也利用DNA聚合,一
次添加一个核苷酸并通过由所连接的焦磷酸的释放发射的光来检测和定量被添加到给定
位置的核苷酸的数目(由454Life Sciences,Branford,CT商业化)。参见M.Ronaghi,
等 人 (1996).“Real-time DNA sequencing using detection of pyrophosphate
release”Analytical Biochemistry 242:84-89。
[0196] 下文更详细地描述了下一代测序方法的具体实例。本发明的一个或更多个实施方案可利用以下测序方法的一种或更多种而不背离本发明的原理。
[0197] 单分子实时测序(也被称为SMRT)是Pacific Biosciences开发的通过并行化单分子DNA合成测序技术。单分子实时测序利用零模式波导(ZMW)。一个DNA聚合酶被附着
在ZMW的底部,一分子的DNA作为模板。ZMW是创建足够小以观察被DNA聚合酶并入的DNA
的仅一个核苷酸(也被称为碱基)的照射的观察体积的结构。四种DNA碱基的每个被连接
至四种不同的荧光染料中的一种。当核苷酸被DNA聚合酶并入时,荧光标签被裂解并从ZMW
的观察区域扩散出来,而其荧光不再能够观察得到。检测器检测核苷酸并入的荧光信号,并
根据相应的染料荧光进行序时碱基响应(base call)。
[0198] 另一种可 应用的单分 子测序技术 是Helicos True Single MoleculeSequencing(tSMS)技术(例如,如Harris T.D.等人,Science 320:106-109[2008]中描
述的)。在tSMS技术中,DNA样品断裂成约100至200个核苷酸的链,并将多聚A序列添
加至每条DNA链的3’末端。通过添加荧光标记的腺苷核苷酸来标记每条链。然后使DNA
链与流动池杂交,所述流动池包含数以百万计的被固定至所述流通池表面的寡聚T捕获位
2
点。在某些实施方案中,模板可以是约1亿模板/cm的密度。然后将流动池装载至设备例
TM
如HeliScope 测序仪,并且激光照亮流通池的表面,揭示每条模板的位置。CCD摄像机可
制模板在流动池表面上的位置。然后模板荧光标签被裂解掉并被冲走。测序反应通过引
入DNA聚合酶和荧光标记的核苷酸开始。寡聚T核酸作为引物。聚合酶以模板指导的方式
将带标记的核苷酸整合至引物上。聚合酶和未并入的核苷酸被去除。具有荧光标记的核苷
酸的指导性并入的模板通过对流通池表面成像来识别。成像后,裂解步骤去除荧光标签,并
且用其他的荧光标记的核苷酸重复该程序直到达到期望的读段长度。随着每个核苷酸的添
加步骤收集序列信息。在测序文库的制备中,借助于单分子测序技术的整个基因组测序不
包括或通常排除基于PCR的扩增,并且所述方法允许直接测量样品,而不是测量该样品的
拷贝。
[0199] 离子半导体测序是基于检测DNA的聚合期间释放的氢离子的DNA测序方法。这是“合成测序”房法,在该方法期间,互补链基于模板链的序列形成。将包含待测序的模板DNA
链的微孔用单一种类的脱氧核糖核苷酸三磷酸(dNTP)充满。如果所引入的dNTP与引导性
模板核苷酸互补,则其被并入正在增长的互补链。这导致引发ISFET离子传感器的氢离子
的释放,所述氢离子的释放指示反应已经发生。如果均聚物的重复片段存在于模板序列中,
则多个dNTP分子将在单循环中被并入。这导致相应数目的释放的氢和成比例地更高的电
子信号。该技术不同于其他测序技术,因为没有使用被修饰的核苷酸或光学。离子半导体
测序也可被称作离子激流测序(ion torrent sequencing)、pH介导的测序、测序或半导
体测序。
[0200] 在焦磷酸测序中,聚合反应释放的焦磷酸根离子通过ATP硫酸化酶与腺苷5'磷酰硫酸反应以产生ATP;然后ATP驱动荧光素通过荧光素酶转化为氧化荧光素加光。由于荧
光是瞬时的,所以在该方法中不需要单独的消除荧光的步骤。一次添加一种类型的脱氧核
糖核苷酸三磷酸(dNTP),并根据哪种dNTP在反应位点产生明显信号来识别序列信息。市
购可得的Roche GS FLX仪器利用这种方法获得序列。例如在Ronaghi等人,Analytical
Biochemistry 242,84-89(1996)和Margulies等人,Nature 437,376-380(2005)(勘误表
在Nature 441,120(2006))中详细地讨论了该技术及其应用。市购可得的焦磷酸测序技术
为454测序(Roche)(例如,如在Margulies,M.等人Nature 437:376-380[2005]中描述
的)。
[0201] 在连接测序中,连接酶被用来将具有突出端的部分双链的寡核苷酸连接至具有突出端的正被测序的核酸;为了使连接发生,这些突出端必须是互补的。部分双链的寡核苷
酸的突出端中的碱基可根据偶联至该部分双链的寡核苷酸和/或偶联至与该部分双链的
寡核苷酸的另一部分杂交的第二寡核苷酸的荧光团而被鉴定。在获得荧光数据之后,连接
复合体在连接位点上游被裂解,诸如通过在离其识别位点(其被包含于该部分双链的
寡核苷酸中)固定距离的位点处切割的II型限制酶例如Bbvl,Bbvl。该裂解反应使刚好
在之前的突出端上游的新突出端暴露,并重复所述程序。例如,在Brenner等人,Nature
Biotechnology 18,630-634(2000)中详细讨论了该技术及其应用。在一些实施方案中,连
接测序通过获得环状核酸分子的滚环扩增产物并将该滚环扩增产物用作连接测序的模板
而适合于本发明的方法。
[0202] 连接测序技术的商业上可用的实例是SOLiDTM技术(Applied Biosystems)。在TM
SOLiD 连接测序中,基因组DNA被剪切成片段,并且衔接子被连接至片段的5’和3’末端以
产生片段文库。可选地,内部衔接子可通过以下步骤而被引入:将衔接子连接至片段的5’
和3’末端、使片段环化、消化环化的片段以产生内部衔接子,并将衔接子连接至所得到的片
段的5’和3’末端以产生配对文库。接下来,在包含珠、引物、模板和PCR组分的微反应器
中制备克隆珠群。伴随PCR,模板被变性并且珠被富集以分离带有延伸的模板的珠。对所选
择的珠上的模板进行3’修饰,所述3'修饰允许与载玻片结合。序列可通过特定的荧光团
被鉴定的部分随机的寡核苷酸与中心的已确定的碱基(或碱基对)顺序性杂交和连接来确
定。记录颜色之后,连接的寡核苷酸被裂解和去除,然后重复该程序。
[0203] 在可逆终止测序中,荧光染料标记的核苷酸类似物(由于封端基团的存在而成为可逆的链终止剂)被掺入单碱基延伸反应。碱基的身份(identity)根据荧光团来确
定;换言之,每个碱基与不同的荧光团配对。获得荧光/序列数据之后,荧光团和封端
基团通过化学方法被去除,并重复该循环以获得序列信息的下一个碱基。Illumina GA
仪器通过该方法运行。例如,Ruparel等人,Proceedings of the National Academy
of Sciences of the United States of America 102,5932-5937(2005)和Harris等
人,Science320,106-109(2008)中详细讨论了该技术及其应用。
[0204] 可逆终止剂测序方法的商业上可获得的实例是Illumina的合成测序和基于可逆终止剂的测序(例如,在Bentley等人,Nature 6:53-59[2009]中描述的)。Illumina的
测序技术依赖于片段化的基因组DNA与平面,任选地其上结合寡核苷酸锚的透明表面的连
接。模板DNA的末端被修复以生成5'磷酸化的平末端,并且Klenow片段的聚合酶活性被
用来将单个A碱基添加至平端的磷酸化DNA片段的3'末端。该添加制备了连接至寡核苷
酸衔接子的DNA片段,所述寡核苷酸衔接子在其3'末端具有单个T碱基的突出端以增加
连接效率。衔接子寡核苷酸与流动池的锚互补。在有限稀释条件下,衔接子修饰的单链模
板DNA被添加至流动池并通过与锚的杂交而被固定。连接的DNA片段被延伸并被桥式扩
增以生成具有数以亿计的簇的超高密度测序流动池,每个簇包含相同模板的~1,000个拷
贝。这些模板利用稳健的四色DNA合成测序技术来测序,所述四色DNA合成测序技术采用
具有可移除的荧光染料的可逆终止剂。高密度荧光检测利用激光激发和全内反射光学来完
成。将约20-40bp例如36bp的短序列读段与重复片段-掩盖的(repeat-masked)参考基
因组比对,并利用专开发的数据分析流水线软件鉴定短序列读段在参考基因组上的独特
位置。也可使用非重复片段-掩盖的参考基因组。不论使用重复片段-掩盖的参考基因组
或非重复片段-掩盖的参考基因组,只计算独特地匹配至参考基因组的读段。第一次读取
完成以后,可通过计算机模拟(in situ)重新生成模板使得能够进行来自片段的相反末端
的第二次读取。因此,可使用DNA片段的单末端或成对末端测序。进行对存在于样品中的
DNA片段的部分测序,并对被绘制至已知参考基因组的包含预定长度例如36bp的读段的序
列标签计数。
[0205] 在纳米孔测序中,例如利用电泳驱动力使单链核酸分子穿过孔,并通过分析单链核酸分子通过孔时获得的数据来推导序列。数据可以是离子电流数据,其中每个碱基,通过
例如部分地阻断通过孔的电流来将电流改变至不同的可辨别的程度,来改变电流。
[0206] 在另一个示例性但非限制性实施方案中,本文描述的方法包括利用透射电子显微术(TEM)获得序列信息。所述方法包括,利用选择性标记有重原子标记物的高分子量
(150kb或更大)DNA的单原子分辨率透射电子显微成像,并将这些分子以具有一致的碱基
间间距的超密(链和链之间3nm)平行阵列排列在超薄的膜上。电镜被用来对薄膜上的分
子成像,以确定重原子标记物的位置并提取DNA中的碱基序列信息。所述方法被进一步描
述于PCT专利公布WO 2009/046445中。
[0207] 在另一个示例性但非限制性实施方案中,本文描述的方法包括,利用第三代测序获得序列信息。在第三代测序中,具有很多小的(~50nm)孔的涂层的玻片
被用作零模式波导(参见,例如,Levene等人,Science 299,682-686(2003))。铝表
面防止DNA聚合酶通过聚磷酸酯化学例如聚乙烯膦酸酯化学(参见例如Korlach等
人,Proceedings of the National Academy of Sciences of the United States of
America105,1176-1181(2008))附着。这导致DNA聚合酶分子优先附着至铝涂层的孔中暴
露的硅。该设置允许待使用的渐失波现象(evanescent wave phenomena)减少荧光背景,
允许使用较高浓度的荧光标记的dNTP。荧光团被连接至dNTP的末端磷酸根,以使得荧光在
并入dNTP后释放,但荧光团不保持与新并入的核苷酸连接,意味着复合体立即准备好另一
轮并入。通过该方法,dNTP至铝涂层的孔中存在的各个引物-模板复合体的并入可被检测
到。参见例如Eid等人,Science323,133-138(2009)。
[0208] D.产生序列-活性模型
[0209] 如以上所述,用于本文的实施方案的序列-活性模型将蛋白序列信息和蛋白活性联系起来。该模型使用的蛋白序列信息可采取很多种形式。在一些实施方案中,其是蛋白
中的氨基酸残基的完整序列(例如,HGPVFSTGGA…)。但是,在一些实施方案中,完整的氨基
酸序列是不必要的。例如,在一些实施方案中,只提供在特定的研究工作中是改变的那些残
基已足够。在一些涉及后续研究阶段的实施方案中,很多残基是固定的,并且只有有限的序
列空间的区域仍有待探索。在此类情况的一些中,提供这样的序列活性模型是方便的:作为
输入,其只需要鉴定蛋白的需继续探索的区域中的那些残基。在一些另外的实施方案中,这
些模型不要求知晓所述残基位置处的残基的准确身份。在一些此类实施方案中,表征特定
残基位置处的氨基酸的一个或更多个物理或化学特性被鉴定。在一个示例性实例中,模型
需要通过体积、疏水性、酸性等说明残基位置。此外,在一些模型中,采用此类特性的组合。
事实上,不期望本发明被限于任何特定方法,因为这些模型对于序列信息、活性信息和/或
其他物理特性(例如,疏水性等)的多种设置具备实用性。
[0210] 因此,序列-活性模型的形式可极大地变化,只要其如所期望的基于序列信息提供用于正确地评估蛋白的相对活性的工具。在一些实施方案中,这些模型通常把活性当作
因变量,而把序列/残基值当作自变量。模型的数学/逻辑形式的实例包括,多阶的线性和
非线性数学表达、神经网络、分类和回归树/图、聚类方法、递归分区、支持向量机等。在一
个实施方案中,模型的形式是线性相加模型,在所述线性可加模型中,系数和残基值的乘积
被相加。在另一个实施方案中,模型的形式是多个序列/残基项的非线性乘积,包括某些残
基的交叉乘积(其表示残基间的交互作用项)。事实上,不期望所公开的实施方案局限于任
何特定的格式,因为如本文所述,任何合适的形式具备实用性。
[0211] 在一些实施方案中,模型由提供活性和序列之间的数学/逻辑关系的活性对序列信息的训练组开发。该关系通常在用于预测新的序列的活性或残基对感兴趣的活性的影响
之前被验证。
[0212] 用于生成模型的多种技术是可获得的并且在本发明中具备实用性。在一些实施方案中,这些技术涉及优化模型或使模型误差最小化。具体实例包括偏最小二乘法、集成回
归、随机森林、多种其他回归技术以及神经网络技术、递归分区、支持向量机技术、CART(分
类和回归树)等。通常,所述技术应产生能将对活性具有显著影响的残基与那些对活性没
有显著影响的残基区分开的模型。在一些实施方案中,这些模型还对各个残基或残基位置
基于其对活性的影响排序。不期望本发明局限于用于产生模型的任何特定技术,因为本领
域已知的任何合适的方法在本发明中具备实用性。
[0213] 在一些实施方案中,模型通过回归技术产生,所述回归技术鉴定训练组中自变量和因变量的共同改变。多种回归技术是已知的并被广泛地使用。实例包括多元线性回归
(MLR)、主成分回归(PCR)和偏最小二乘回归(PLS)。在一些实施方案中,模型利用涉及多个
组分的技术,包括但不限于集成回归和随机森林产生。这些方法和任何其他合适的方法在
本发明中具备实用性。不期望本发明局限于任何特定的技术。
[0214] MLR是这些技术中最基础的。其被用于简单地对训练组的成员的一组系数方程求解。每个方程涉及随特定位置处特定残基的存在或不存(即,自变量)的改变训练组成员
的活性(即,因变量)。取决于训练组中残基选择的数目,这些方程的数目可以是相当大的。
[0215] 像MLR一样,PLS和PCR从将序列活性和残基值联系起来的方程产生模型。但是,这些技术以不同的方式产生模型。它们先进行坐标转换来减少自变量的数目。然后它们进
行对所转换的变量的回归。在MLR中,存在可能非常大量的自变量:在训练组内变异的每个
残基位置有两个或三个自变量。假定感兴趣的蛋白和肽往往相当大并且训练组可提供很多
不同的序列,那么自变量的数目可能迅速地变得非常大。通过减少变量的数目以集中在数
据组中提供最多变异的那些变量上,PLS和PCR通常需要较少的样品并简化了参与产生模
型的步骤。
[0216] 实际的回归针对通过原始自变量(即,残基值)的坐标转换获得的相对少数目的潜在变量进行,在这方面PCR与PLS回归相似。PLS和PCR之间的不同在于,PCR中的潜
在变量通过最大化自变量(即,残基值)之间的共变来构建。在PLS回归中,潜在变量以
最大化自变量和因变量(即,活性值)之间的共变的方式来构建。偏最小二乘回归被描
述于Hand,D.J.,等人(2001)Principles of Data Mining(Adaptive Computation and
Machine Learning),Boston,MA,MIT Press和Geladi等人(1986)“Partial Least-Squares
Regression:a Tutorial,”Analytica Chimica Acta,198:1-17中。这些参考均为了所有
的目被通过引用并入本文。
[0217] 在PCR和PLS中,回归分析的直接结果是活性是加权的潜在变量的函数的表达式。通过进行将潜在变量转变回初始自变量的坐标转换,该表达式可转换成活性作为初始自变
量的函数的表达式。
[0218] 大体上,PCR和PLS两者均先减少训练组中包含的信息的维度,然后对已被转换以产生的新的自变量但保留了初始因变量值的经转换的数据组进行回归分析。转换形式的数
据组可产生仅相对少的用于进行回归分析的表达式。在未进行维度减少的方案中,必须考
虑可能存在变异的每个单独的残基。这会是相当大的一组系数(例如,对于双向相互作用
N
为2个系数,其中N为在训练组中可能变异的残基位置的数目)。在典型的主成分分析中,
只采用3、4、5、6个主成分。
[0219] 机器学习技术拟合训练数据的能力往往被称为“模型拟合”,并且在诸如MLR、PCR和PLS的回归技术中,模型拟合通常通过测量值和预测值之间的方差和来测量。对于给定
的训练组,最优的模型拟合将利用MLR来完成,而PCR和PLS往往具有较差的模型拟合(较
高的测量和预测之间的误差平方和)。但是,利用潜在变量回归技术诸如PCR和PLS的主要
优势在于此类模型的预测能力。获得具有很小的误差平方和的模型拟合绝对不能保证模型
将能精确地预测训练组中未观察到的新样本-事实上,往往是相反的情况,特别是当存在
很多变量并且只有少数观察值(即样本)时。因此潜在变量回归技术(例如,PCR、PLS)虽
然往往具有对训练数据较差的模型拟合,但通常更稳健并且能更精确地预测训练组之外的
新样本。
[0220] 能被用于产生根据本公开内容的模型的另一种工具类型是支持向量机(SVM)。这些数学工具将已基于活性分类成两个或更多个组的训练组序列作为输入。支持向量机通过
根据训练组的不同成员如何接近超平面界面来不同地加权训练组的不同成员,所述超平面
界面将训练组的“活性”和“非活性”成员分隔开。该技术需要科学家先决定将哪些训练组
成员置于“活性”组以及将哪些训练组成员置于“非活性”组。在一些实施方案中,这通过选
择针对活性水平的适当数值来完成,所述数值作为训练组的“活性”和“非活性”成员之间的
分界线。支持向量机根据该分类生成向量W,其可为限定训练组中的活性和非活性组的成员
的序列的各个自变量提供系数值。这些系数可被用于对如本文其他处描述的各个残基“排
序”。该技术被用于鉴定超平面,所述超平面将超平面的相反侧最靠近的训练组成员之间的
距离最大化。在另一个实施方案中,进行支持向量回归建模。在该情形中,因变量为连续的
活性值的向量。支持向量回归模型产生系数向量W,其可被用来对各个体残基排序。
[0221] 在很多研究中SVM已被用来检查大的数据组,并且已广泛地与DNA微阵列一起应用。其潜在优势包括细微地辨别(通过加权)将样本彼此分开的因素的能力。在SVM能
够精确地梳理出哪些残基对功能有贡献的程度上,其可以成为对残基排序特别有用的工
具。SVM被描述于S.Gunn(1998)“Support Vector Machines for Classification and
Regressions”技术报告,南安普敦大学工程与应用科学学院电子和计算机科学系,其为了
所有目的被通过引用并入本文。
[0222] 在本发明的一些实施方案中,能用于产生模型的另一类工具基于分类树的集成利用随机输入来分类和回归,其实例是随机森林。参见Breiman(2001).“Random
Forests”Machine Learning 45(1):5-32。随机森林是树预测器的组合,以使得每个树取决
于独立取样的随机向量的值并且森林中所有的树具有相同的分布。随机森林是由在决策树
的每个分叉处具有随机选择特征的许多未修剪的决策树学习者组成的学习集成。随着森林
中树的数目变大,森林的泛化误差收敛至极限值。
[0223] 随机森林可由下方式构建:
[0224] 1)如果训练组中案例的数目为N,随机地对N个案例抽样-但伴随从原始数据置换。该样本将是用于使树生长的训练组。
[0225] 2)如果有M个输入自变量,指定数值m<节点处,m个变量被随机地从M个变量随机选择出来并且对这些m的最佳分割被用于分割所述节点。m的值
在森林生长期间保持恒定。
[0226] 3)在一些实施方案中,每个树生长至可能的最大程度。无修剪。
[0227] 4)然后产生大量的树,k=1,…,K(通常K>=100)。
[0228] 5)在大量的树产生之后,其全部对感兴趣的变量的类别投票。例如,其可各自促成活性或特定突变的贡献的最终预测。
[0229] 6)然后随机森林通过从森林中的所有树预测器选取最受欢迎的投票类别来对x(例如,突变或其他自变量的序列)分类。
[0230] 森林误差率取决于森林中任何两个树之间的相关性。增加相关性会增加森林误差率。森林误差率取决于森林中每个单独的树的强度。具有低的误差率的树是强的分类器
(classifier)。增加各个树的强度会减小森林误差率。减少m会减少相关性和强度两者。
增加m会增加两者。介于两者之间的是m的“最佳”范围-通常是相当宽的。
[0231] 随机森林技术可用于类别变量以及回归模型中的连续变量。在本发明的一些实施方案中,随机森林模型具有与SVM和神经网络模型相当的预测力,但是往往具有较高的计
算效率,因为除了其他原因之外,交叉验证被构建到建模程序中且交叉验证的单独程序不
是必要的。
[0232] i)线性模型
[0233] 虽然本公开内容针对非线性模型,但是这些非线性模型在序列对活性的线性模型的背景下可更容易地被理解。另外,在一些实施方案中,线性模型被用作产生非线性模型的
逐步过程中的“基本”模型。通常,活性对序列的线性回归模型具有以下形式:
[0234]
[0235] 在该线性表达式中,y为预测的响应,而cij和xij分别为序列中位置i处的回归系数和用于表示残基选择的比特值或哑变量。在蛋白变体文库的序列中存在N个残基位置,
并且这些残基位置中的每个可被一种或更多种残基占据。在任何给定的位置处,可能存在j
=1至M个单独的残基类型。该模型假定每个位置处的残基之间的线性(相加)关系。方
程1的展开形式如下:
[0236] y=c0+c11x11+c12x12+…c1Mx1M+c21x21+c22x22+…c2Mx2M+...+cNMxNM
[0237] 如所示的,活性和序列信息的形式的数据源自初始蛋白变体文库并被用于确定模型的回归系数。哑变量首先被从蛋白变异序列的比对中鉴定。氨基酸残基位置被从蛋白变
异序列中鉴定,在所述蛋白变异序列中那些位置的氨基酸残基因序列而异。在这些可变残
基位置的一些或全部位置的氨基酸残基信息可被整合到序列-活性模型中。
[0238] 表I包含对于10个例证性变体蛋白的可变残基位置和残基类型的形式的序列信息,以及对应于每个变体蛋白的活性值。这些是生成足以解决所有系数的方程式所需的更
大的组的代表性成员。因此,例如,对于表I中的例证性蛋白变体序列,位置10、166、175和
340为可变残基位置并且所有其他位置,即在该表中未示出的那些位置,包含在变体1-10
之间相同的残基。
[0239] 在该实例中,10个变体可包含或可不包含野生型骨架序列。在一些实施方案中,被开发以考虑包含野生型骨架序列的所有变体的数据的模型可能引出完美多重共线性或哑
变量陷阱的问题。该问题可通过多种技术来解决。一些实施方案可在开发该模型时将野生
型骨架数据排除在外。一些实施方案可放弃代表野生型骨架的那些系数。一些实施方案可
使用诸如PLS回归的技术来解决多重共线性。
[0240] 表I:示例性序列和活性数据
[0241]
[0242] 因此,基于方程式1,回归模型可从表1中的系统变异的文库推导出。
[0243] y=c0+c10Alax10Ala+c10Aspx10Asp+c10Lysx10Lys+c166Serx166Ser+c166Phex166Phe+c166Leux166Leu+c166Ilex166Ile+c175Glyx175Gly+c175Valx175Val+c340Phex340Phe+c340Alax340Ala (方程2)
[0244] 比特值(x哑变量)可表示为反映所指定的氨基酸残基的存在或不存在的1或0,或者可选地1或-1,或一些其他替代表示。例如,使用1或0指定方式,x10Ala对于变体1可
以为“1”而对于变体2可以为“0”。使用1或-1指示,x10Ala对于变体1可以为“1”而对于
变体2可以为“-1”。回归系数可由此基于针对文库中的所有变体的序列活性信息从回归方
程推导出。对于变体1-10的此类方程(对于x使用1或0指示)的实例遵循:
[0245] y1=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)
[0246] y2=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)
[0247] y3=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(0)+c166Phe(0)+c166Leu(1)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(0)+c340Ala(1)
[0248] y4=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(0)+c166Ile(1)+c175Gly(0)+c175Val(1)+c340Phe(1)+c340Ala(0)
[0249] y5=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(0)+c166Ile(1)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)
[0250] y6=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)
[0251] y7=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)
[0252] y8=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)
[0253] y9=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)
[0254] y10=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(1)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1)
[0255] 方程的全集可利用任何合适的回归技术(例如,PCR、PLS或MLR)容易地解决,以确定相应于感兴趣的每个残基和位置的回归系数的值。在该实例中,回归系数的相对量级
与特定位置处的特定残基对活性的贡献的相对量级相互关联。然后可对回归系数排序或以
其他方式分类以确定哪些残基更可能对期望的活性做出有有利的贡献。表II提供了相应
于表I中示例的系统变异文库的例证性回归系数值:
[0256] 表II:回归系数的示例性排列次序
[0257]
[0258] 回归系数的排列次序表可被用于构建对于期望的活性被优化的新的蛋白变体文库(即,改进的符合度)。这可以多种方式进行。在一个实施方案中,其通过保留具有最高观
察值的系数的氨基酸残基来完成。这些氨基酸残基是被回归模型指示对期望的活性贡献最
多的残基。如果采用负描述符来鉴定残基(例如,对于亮氨酸为1以及对于甘氨酸为-1),
则基于系数的绝对值排列残基位置变得成为必要。注意在此类情况中,对于每个残基通常
只有一个系数。系数量级的绝对值提供对相应的残基位置的排序。然后,考虑各个残基的
符号来确定它们中的每个在期望的活性方面是否是有害的或有益的变得成为必要。
[0259] ii)非线性模型
[0260] 采用非线性建模来解释蛋白中对活性有贡献的残基-残基相互作用。N-K格局(landscape)描述了这个问题。参数N指在相关多肽序列的集合中可变残基的数目。参
数K表示在这些多肽的每个的各个残基之间的相互作用。相互作用通常是在多肽的初
级、二级或三级结构中多个残基之间的紧密物理接近度的结果。相互作用可归因于直接
相互作用、间接相互作用、物理化学相互作用、由折叠中间体引起的相互作用、平移效应
(translational effect)等。参见Kauffman,S.和Levin,S.(1987),"Towards a general
theory of adaptive walks on rugged landscapes",Journal of Theoretical Biology
128(1)11–45。
[0261] 参数K被定义为使得对于值K=1,每个可变残基(例如,它们中有20个可变残基)恰好与其序列中的一个其他残基相互作用。在所有的残基与所有其他残基的影响物理
地且化学地分隔开的情况中,K的值为0。明显地,取决于多肽的结构,K可具有大量不同的
值。对于正在研究的多肽的难以解决的结构,K的值可被评估。但是,往往并非如此。
[0262] 多肽活性的纯线性、相加模型(如以上描述的)可通过包括表示2个或更多个残基之间的特定相互作用的一个或更多个非线性、交互作用项来改进。在以上呈现的模型形
式的背景中,这些项被描述为“交叉乘积”,所述“交叉乘积”包含表示相互作用而对活性具
有显著的有利或不利影响的两个或更多个特定残基(每个与序列中的特定位置有关)的两
个或更多个哑变量。例如,交叉乘积项可具有cabxaxb的形式,其中xa为哑变量,表示序列中
特定位置处特定残基的存在或不存在,并且变量xb表示多肽序列中不同位置(其与第一个
位置相互作用的位置)处特定残基的存在。下文展示了该模型的详细示例形式。
[0263] 交叉乘积项中表示的所有残基(即,在特别鉴定的位置处两个或更多个特定类型的残基中的每个)的存在影响多肽的整体活性。所述影响可以以很多种方式表现。例如,
各个相互作用残基的每一个当单独存在于多肽中时,可能对活性具有不利影响,但是当它
们都存在于多肽中时,整体影响是有利的。在其他情形中,相反的情况可能是正确的。另
外,可能产生协同效应,其中各个残基的每一个单独地对活性具有相对有限的影响,但当它
们都存在时,对活性的影响大于所有单独残基的累积影响。
[0264] 在一些实施方案中,非线性模型包括对于序列中相互作用的可变残基的每种可能的组合的交叉乘积项。但是,这并不代表物理现实(physical reality),因为事实上只有
可变残基的子集彼此相互作用。另外,这会导致“过度拟合”而产生提供虚假结果的模型,
所述虚假结果是用来创建模型的特定多肽的表现方式并且不代表多肽内的真实相互作用。
代表物理现实并避免过度拟合的模型的交叉乘积项的正确数目通过K值指定。例如,如果
K=1,则交叉乘积交互作用项的数目等于N。
[0265] 在构建非线性模型时,在一些实施方案中,鉴定代表对活性具有显著影响的真实结构相互作用的那些交叉乘积交互作用项是重要的。这可通过多种方式完成,包括
但不限于正向相加(forward addition),其中候选交叉乘积项被一次一个地添加至初
始的只有线性项的模型直到项的添加不再是统计学上显著的;以及反向相减(reverse
substraction),其中所有可能的交叉乘积项被提供在初始模型中并一次去除一个。以下呈
现的示例性实例涉及使用逐步加法和减法技术以鉴定有用的非线性交互作用项。
[0266] 在一些实施方案中,产生包含此类交互作用项的非线性模型的方法与以上描述的用于产生线性模型的方法相同。换言之,采用训练组将数据“拟合”成模型。但是,一个或
更多个非线性项,优选地以上讨论的交叉乘积项被加至模型。进一步地,可采用所得到的非
线性模型,如以上描述的线性模型,来对多个残基对多肽的整体活性的重要性排序。多种技
术可用来鉴定由非线性方程预测的可变残基的最佳组合。下文描述了对残基排序的方法。
在一些实施方案中,即使当局限于仅由两个残基导致的相互作用时,使用了非常大数量的
对于可变残基的可能的交叉乘积项。随着更多的相互作用发生,非线性模型要考虑的潜在
的相互作用的数目以指数方式生长。如果该模型包括包含三个或更多个残基的相互作用的
可能性,则潜在项的数目生长得甚至更快。
[0267] 在简单的示例性实例中,其中存在20个可变残基并且K=1(该实例假设每个可变残基与一个其他的可变残基相互作用),该模型中应有20个交互作用项(交叉乘积)。如
果存在任何更少的交互作用项,则该模型将不能充分描述这些相互作用(尽管一些相互作
用可能对活性不具有显著影响)。相比而言,如果有任何更多的交互作用项,则该模型可能
过度拟合所述数据组。在该实例中,存在N*(N-1)/2或190个可能的相互作用对。找到描
述序列中的20种相互作用的20个独特的对的组合是重要的计算问题,因为存在约5.48x
26
10 种可能的组合。
[0268] 可采用很多技术来鉴定相关的交叉乘积项。取决于问题的容量和可用的计算力,探索所有可能的组合并从而鉴定出最佳符合数据的一个模型是可能的。但是,往往问题在
计算方面是高要求的。因此,在一些实施方案中,其利用有效搜索算法或近似法。如本文表
明的,一种合适的搜索技术是逐步技术。但是,不期望本发明被限于用于鉴定相关交叉乘积
项的任何特定方法。
[0269] 示例性实例在以下表III中展示,显示了并入到从序列信息预测活性的模型中的非线性交叉乘积项的值。该实例是这样的非线性模型:其中假定在序列中的每个可变位置
处只有两个残基选项。在该实例中,通过使用哑变量将蛋白序列映射到编码序列中,所述哑
变量分别使用+1和-1对应选择A或选择B。该模型不受任意地选择哪些数值用于指定每
个残基选择的影响。表III第一行中显示的变量位置不指示蛋白序列的实际序列位置。相
反,它们是代表蛋白序列中可具有如表III对于残基选择A和残基选择B在第二和第三行
显示的两种选项之一的变化的任意10个假定位置的任意标记。
[0270] 表III:在每个具有两种选择的位置处的编码残基的实例
[0271]可变位置标记 1 2 3 4 5 6 7 8 9 10
残基选择A I L L M G W K C S F
残基选择B V A I P H N R T A Y
蛋白残基选择 V A L P G W K T S F
模型代码值 -1 -1 1 -1 1 1 1 -1 1 1
[0272] 对于该编码方案,用于将蛋白序列与活性联系起来的线性模型可如下书写:
[0273] y=c1x1+c2x2+c3x3...+cnxn+...+cNxN+c0 (方程3)
[0274] 其中y为响应(活性),cn是在位置n处残基选择的回归系数,x是在位置n处对于残基选择的哑变量编码(+1/-1),且c0是响应的平均值。这种形式的模型假定不存在可
变残基之间的相互作用(即,每个残基选择独立地对蛋白的整体适合性做出贡献)。
[0275] 非线性模型包括一定数目的(尚未确定的)交叉乘积项来考虑残基之间的相互作用:
[0276] y=c1x1+c2x2+c3x3+...+cnxn+c1,2x1x2+c1,3x1x3+c2,3x2x3+...+c0(方程4)
[0277] 其中变量与在方程(3)中的那些变量相同,但是现在存在非线性项,例如,c1,2为可变位置1和2之间相互作用的回归系数。
[0278] 为了评价线性和非线性模型的性能,使用被称为NK格局的合成数据来源(Kauffman和Levin,1987)。如以上提到的,N为模拟蛋白中可变位置的数目并且K为残基
之间的强性偶联(epistatic coupling)。另外,合成数据组通过计算机模拟产生。
[0279] 该数据组被用来产生S=40个合成样本、N=20个可变位置并且K=1(再次重申,对于K=1,每个可变位置与一个其他可变位置功能性地偶联)的初始训练组。在产生
随机蛋白时,每个可变位置具有相等的含有哑变量+1或-1的概率。对于合成训练组的每
个成员,残基-残基相互作用(通过交叉乘积表示)和实际活性是已知的。产生另外的V
=100个样本用于验证。再次地,对于验证组的每个成员,残基-残基相互作用和活性是已
知的。
[0280] 训练组被用于构建线性和非线性模型。生成选择交叉乘积项的一些非线性模型并生成不选择此类项的另外的非线性模型。图3A-F的模型利用遗传逻辑建模方法生成,而图
G-H的模型利用逐步建模方法生成。尽管具有线性项和非线性项两者的模型相对于只具有
线性项的模型的量性优势在遗传逻辑建模方法和逐步建模方法间不同,但是不论是哪种建
模方法,结果表明具有非线性项的模型的概括能力的优势。事实上,不期望本发明被限于任
何特定的方法,因为任何合适的建模方法在本发明中具备适应性。
[0281] 对于以上描述的S=40的训练组容量,线性模型能相当好地关联测量值和预测值,但是当未对在训练组中未见到的数据进行验证时,线性模型显示出较弱的关联性(参
见图3A)。如显示的,暗数据点代表40个训练数据点的观察到的活性对线性模型所做的预
测。亮数据点代表从40个训练样本构建并用来预测验证样本V的相同模型进行的预测,所
述验证样本无一见于初始训练组。验证组提供了对模型的实际预测能力的良好测量,与训
练组相反,其可能经受模型过度拟合的问题,特别是对于以下描述的非线性情况。
[0282] 考虑到线性模型被用于模拟非线性符合度情形,以上描述的S=40的训练组的这种结果是值得注意的。在该情形中,线性模型最多能捕获选择给定残基对符合度的平均贡
献。假定组合考虑足够数目的平均贡献,线性模型粗略地预测了实际测量到的响应。当训
练组大小增加至S=100时,线性模型的验证结果稍微转好(参见图3B)。相对简单的模型
不充分拟合数据的趋势被称为“偏差”。
[0283] 当使用只有S=40个样本训练非线性模型时,训练组成员的相关性是很好的(参见图3C)。不幸的是,在该示例性实例中,模型在训练组外提供有限的预测力,如通过其在验
证组中与测量值的有限相关性所证实的。当存在很多(210种可能)潜在的变量,而有助于
鉴定合适的交叉乘积项的训练数据有限时,该非线性模型基本上只能记住其被训练的数据
组。这种高复杂性模型过度拟合数据的趋势被称为“方差”。偏差-方差权衡代表了机器学
习中的基本问题,并且当处理新的或非典型的机器学习问题时几乎总是需要一些形式的验
证来解决它。
[0284] 但是,当利用如在图3D中显示的较大的训练组(S=100)训练非线性模型时,对于训练预测和更重要的验证预测两者,非线性模型表现得均极为出色。验证预测是足够精
确的以致于大部分的数据点被用于标绘训练组的黑圆圈遮盖。
[0285] 为了比较的目的,图3E和3F显示了未仔细挑选交叉乘积项时所制作的非线性模型的性能。不像图3C和3D中的模型,每个可能的交叉乘积项被选择(即,对于N=20,190
个交叉乘积项)。如在这些图中显示的,预测验证组活性的能力与仔细挑选交叉乘积项时生
成的非线性模型的能力相比相对差。这种差的预测验证数据的能力是过度拟合的体现。
[0286] 图3G和3H分别显示了对于计算机模拟的数据,线性模型和逐步、非线性模型的通过剩余误差指示的预测力。逐步非线性模型如以上概括性地描述的以及以下更具体地描述
的实施。
[0287] 为了测试这些模型,创建模拟数据。随机数发生器R基于具有平均数MN和标准偏差SD的正态分布创建。然后限定10个突变的组。这些突变的命名为M1、M2…M10(该命名
方案是任意的)。该步骤模拟多样性的生成。
[0288] 每个突变代表蛋白序列中给定位置处的氨基酸变化,并且每个位置独立于其他位置。以上每个突变具有基于R(MN=0、SD=0.2)分配的随机活性值A。选择以上的6个
突变被并一起配对成三对P。这些对代表突变之间的强性相互作用。
[0289] 基于R(MN=0、SD=0.2)对每对P分配活性值AP。构建50个变体的文库L,其中每个变体包含随机数目的以上限定的突变M-突变M的随机数目由经四舍五入的R(MN=
4、S=0.25)的绝对值限定。该步骤模拟文库构建和测序。
[0290] L中每个变体的活性通过以下步骤来计算:首先将来自每个成对突变(如果两个突变均存在)的活性值AP加至1.0(野生型、无突变序列的限定活性),然后加上剩余的单
突变的值(A)。测定噪音通过将来自R(MN=0、SD=0.005)的随机值加至针对每个变体
的最终值来模拟。该步骤模拟变体的筛选。
[0291] 线性模型LM基于来自最后的步骤的数据构建。该模型含有10个自变量/系数,每个代表M的一个突变。然后线性模型利用普通的最小二乘回归和以上获得的数据拟合。
[0292] 递加法被用来基于以上获得的数据选择模型MM、基础模型为LM、利用AIC作为选择标准,并且选择只含有代表单突变和成对相互作用的系数的模型。对于模型选择方法的
详细描述,参见以下的模型选择说明。通过AIC选择的最佳模型利用普通最小二乘回归拟
合。
[0293] 为了评价线性模型和非线性模型的预测能力,重复以上描述的程序20次。针对模拟数据测算模型的预测力,其中图3G显示了线性模型并且图3H显示了逐步非线性模型。以
上描述了用来预测单突变的值的模型。该预测通过利用预测只含有一个感兴趣的突变并减
去1.0(野生型)的变体的模型来进行。如从图3G和3H明显看出的,非线性模型更精确地
预测具有较大线性度趋势和较小残差的值。
[0294] iii)模型选择
[0295] 在一些实施方案中,递加法或递减法被用来制作具有非线性交互作用项的模型。通过实施图1的模块107中显示的操作,具有高预测力、包含交互作用项的最终模型通过从
基础模型逐步添加或减去交互作用项来提供。图4A提供了通过将交互作用项加至基础模
型并评价新的模型来产生最终的最佳模型来实施图1的模块107的操作的流程图。
[0296] 在该实例中,基础序列模型不包括交互作用项。所述方法首先将当前序列模型和最佳序列模型设定为基础序列模型,模块409。所述方法定义了序列变体的交互作用项的
集。这些交互作用项可包括任何数目的两个或更多个氨基酸残基的配对或更高级别的相互
作用。参见模块411。尽管模块409被例证为在模块411之前发生,但是两个步骤的次序
并不重要。在一些实施方案中,交互作用项的集包括所有感兴趣的氨基酸残基的析因组合
(factorial combination)。在一些另外的实施方案中,至少所有成对的交互作用项被包
括。在一些另外的实施方案中,成对的和三向交互作用项被包括。
[0297] 创建基础模型之后,所述方法从所述集中选择尚未经测定的交互作用项。然后所述方法通过将所选择的交互作用项加至当前序列模型来形成新的序列模型。参见模块413。
然后所述方法利用对包括另外的交互作用项偏倚的模型选择方法来评价新的序列模型的
预测力。参见模块415。所述方法确定新的序列模型的预测力是否比最佳序列模型的预测
力大。参见模块417。例如,所述方法可使用采用“似然性”测定(例如,AIC)作为模型选
择准则的技术。在此类情况中,只有具有比之前测定的模型小的AIC值的模型被认为具有
较高的预测力。
[0298] 在一些实施方案中,所述选择方法倾向于具有更多参数的模型。此类选择方法的实例包括但不限于赤池信息量准则(AIC)和贝叶斯信息准则(BIC),及其变化形式。例如,
AIC可如下计算:
[0299] AIC=-2logeL+2k
[0300] 其中L为给出数据组的模型的似然性,并且k为模型中自由参数的数目。
[0301] 在一些实施方案中,给出数据组的模型的似然性可通过多种方法计算,包括但不限于最大似然性法。例如,对于二进制因变量(其中对于一个观察值,活性可以是存在的或
不存在的),模型的似然性可如下计算:
[0302]
[0303] 其中n为数据组中数据点的总数;ai和bi为包含第i种条件的观察到的试验的数目;p为所述模型预测到正在观察的因变量的概率。
[0304] 在包括一系列嵌套模型的一些实施方案中,如在具有比基础模型渐进地增多的交互作用项(和相关系数)的回归模型中,较复杂的模型提供比较简单的模型同样好或更好
的拟合,即使额外的系数是假的,因为较复杂的模型享有额外的自由度。在一些实施方案
中,AIC在拟合优度的增益超出被假参数的消耗所抵消的程度上对较复杂的模型罚分。在
模型选择中,较小的AIC值指示了较好的模型。
[0305] 在图4A中显示的实例中,如果新的序列模型的预测力大于最佳序列模型的预测力,那么所述方法将新的模型设定为最佳模型。参见模块419。然后,所述方法检查尚未测
试的集中是否遗留有任何另外的交互作用项。参见模块421。如果是,程序返回至模块413,
从而形成内循环以测试相互作用集中所有可用的交互作用项。通过迭代的内循环,可找到
一个最佳交互作用项并将其添加至模型。
[0306] 在所有的交互作用项已被测试并且内循环结束之后,假定存在具有比之前的最佳模型大的预测力的模型,找出具有一个另外的交互作用项的最佳模型。参见模块423。在此
类实施方案中,所述方法将当前模型设定为最佳模型,并将该最佳模型的交互作用项从交
互作用项的可用集中排除。参见模块425。然后,所述方法回环至模块413。该外循环搜索
可改进模型的预测力的下一个最佳交互作用项。如果发现这样的交互作用项,则在外循环
中继续下一个最佳交互作用项的搜寻,直到没有具有比之前的最佳序列模型的预测力大的
预测力的新的模型被鉴定到。
[0307] 当不在能找到改进所述模型的更多交互作用项时,所述方法将最佳模型设定为最终模型。参见模块427。提供序列和活性数据的最佳模型的搜索结束。然后该模型被用来
预测新序列的活性。此类预测可指导用于进一步的变异和测试的序列的选择。
[0308] 在某些实施方案中,交互作用项的集中每个可用的交互作用项被视为对模型的质量或预测力具有可能相等的影响。换言之,在实施时,所述集中的每个可用交互作用项平等
地可能被选择为在特定的迭代期间考虑。在一些实施方案中,可用的交互作用项可随机地
或以一些任意的次序被选择。在一些其他实施方案中,交互作用项以这样的方式被偏倚或
加权:在给定的迭代期间一些项比其他项更可能被选择为被考虑。在某些实施方案中,偏倚
或加权可基于关于相互作用的物理或理论信息被应用。例如,可能已知的是在蛋白的两个
特定区域中的突变可能自然地彼此靠近并且从而相互作用。与这两个常规区域中的残基有
关的交互作用项可能是精化模型的迭代过程期间偏爱的。
[0309] 与图4A的虚拟码相似的例证过程的虚拟码如下:
[0310]
[0311] 项1将测试交互作用项加至回归模型
[0312] 项2代表赤池信息准则(AIC)、贝叶斯信息准则(BIC)、交叉验证(平均误差)、ANOVA或系数贡献(coefficient contribution)中的一个或更多个的模型比较。
[0313] 项3被提供为避免重复的交互作用项测试。
[0314] 图4B提供了显示图1的模块107中显示的操作的实施方案的流程图。在该程序中,交互作用项被从基础模型中减去以形成最终的最佳模型,所述基础模型包括来自这些
项的集中的所有可能的交互作用项。
[0315] 在该实施方案中,基础序列模型包括所限定的集中的所有交互作用项。所述方法首先将当前序列模型和最佳序列模型设定为与程序开始时的基础序列模型相同,模块439。
该实施方案与以上描述的最后一个模型相似,因为交互作用项的整个集可包括两个或更多
个氨基酸残基的任何数目的配对或更高级别的相互作用。在一些实施方案中,交互作用项
的集包括所有感兴趣的氨基酸残基的因子组合。
[0316] 创建基础模型之后,所述方法从已被包括在基础模型中的项的集中选择尚未经测定的交互作用项。然后所述方法通过将所选择的相互作用从当前序列模型减去来形成新的
序列模型。参见模块441。然后所述方法利用对另外的交互作用项偏倚的模型选择方法来
评价新的序列模型的预测力。参见模块443。所述方法评价新的序列模型的预测力是否比
最佳序列模型的预测力大。参见模块445中显示的决策操作。在一些实施方案中,AIC被
用作模型选择准则,以使得具有比之前测定的模型小的AIC值的模型被认为具有较高的预
测力。
[0317] 在该示例性实例中,如果新的序列模型的预测力大于最佳序列模型的预测力,那么所述方法将该新的模型设定为最佳模型。参见模块447。接下来,所述方法检查所述集中
是否遗留有尚未测试的任何另外的交互作用项(即,从当前序列模型减去)。参见模块449。
如果存在任何未测试的项,所述方法返回至模块441,从而形成内循环以测试相互作用集中
所有可用的交互作用项。通过迭代的内循环,一个交互作用项被鉴定。将其从模型除去在
最大程度上改进了模型(并且如果AIC被用来测量模型的预测力,则通过最大限度地降低
AIC)。
[0318] 在所有的交互作用项已被测试并且内循环结束之后,假定存在具有比之前的最佳模型大的预测力的模型,找出具有少一个交互作用项的最佳模型。参见模块451。在该情形
中,所述方法将当前模型设定为最佳模型。参见模块453。然后,所述方法回环至模块441。
该外循环搜索可以最大限度地提高模型的预测力的下一个交互作用项。如果发现这样的交
互作用项,则在外循环中继续搜寻下一个待减去的交互作用项,直到没有具有比之前的最
佳序列模型的预测力大的预测力的新模型被鉴定到。
[0319] 当内循环完成并且不能发现待减去的更多交互作用项以改进模型(即,模块451中显示的决策操作被否定回答)时,所述方法将最后的最佳模型设定为最终模型。参见模
块455。对提供序列和活性数据的最佳模型的搜索结束。
[0320] iv)可选的建模选项
[0321] 关于上述方法的多种另外的变化形式在本公开内容的范围内。事实上,不期望本发明被限制于任何特定的模型,因为任何合适的模型在本发明中具备实用性。作为一个示
例性实例,xij变量为氨基酸的物理或化学特性的表现-而不是氨基酸自身(亮氨酸对缬氨
酸对脯氨酸...)的确切身份。此类特性的实例包括亲油性、体积和电子特性(例如,形成
电荷、与部分电荷有关的范德瓦斯表面积等)。为了实施该方法,代表氨基酸残基的xij
值可以其特性或由这些特性构建的主成分的形式呈现。不期望本发明被限制于氨基酸、肽
和/或多肽的任何特定的特性,因为任何合适的特性在本发明的方法中具备实用性。
[0322] 在一些另外的实施方案中,xij变量代表核苷酸,而不是氨基酸残基。在这些实施方案中,目标是为了鉴定编码用于蛋白变体文库的蛋白的核苷酸序列。通过使用核苷酸而
不是氨基酸,可如所期望的优化除了活性之外的参数(例如,比活性)。例如,在特定宿主
或载体中的蛋白表达可以是核苷酸序列的函数。两种不同的核苷酸序列可编码具有相同氨
基酸序列的蛋白,但是一种核苷酸序列可导致更大量的蛋白的产生和/或所述蛋白活性更
大。通过使用核苷酸序列而不是氨基酸序列,本文描述的方法可被用来优化表现出改进的
基因表达特性和/或改进的特性(例如,比活性、稳定性等)的微生物菌株。
[0323] 在一些实施方案中,核苷酸序列被表示为密码子的序列。在一些实施方案中,模型将密码子用作核苷酸序列的基本单位,以使得所预测的活性是存在于核苷酸序列中的多种
密码子的函数。每个密码子连同其在整个核苷酸序列中的位置充当用于生成序列-活性模
型的自变量。应注意在一些情形中,对于给定的氨基酸的不同密码子在给定的生物体中表
达不同。在一些实施方案中,对于给定的氨基酸,每个生物体具有偏好的密码子或密码子的
频率分布。通过将密码子用作自变量,该实施方案解释了这些偏好。因此,该实施方案可被
用来生成表达变体的文库(例如,其中“活性”包括特定宿主生物体的基因表达水平)。
[0324] 在一些实施方案中,所述方法包括以下操作:(a)接收表征蛋白变体文库的训练组的数据;(b)基于在(a)中获得的数据开发这样的非线性序列-活性模型:将活性预测为
核苷酸类型和核苷酸序列中的相应位置的函数。(c)利用序列-活性模型对核苷酸序列中
的位置和/或核苷酸序列中特定位置处的核苷酸类型按照对期望的活性的影响的次序排
序;以及(d)利用该排序来鉴定核苷酸序列中待被改变或固定的一个或更多个核苷酸,以
提高期望的活性。如所述的,在一些实施方案中,待改变的核苷酸编码特定的氨基酸。
[0325] 在一些其他的实施方案中,所述方法包括利用不同的技术用于排序或以其他方式表征残基与特定特性相关的重要性。如以上针对线性模型描述的,回归系数的量级被用来
对残基排序。具有大的量级的系数的残基(例如,166Ile)被视为排序高的残基。该表征被
用来决定是否在生成新的、改进的蛋白变体文库时改变特定的残基。如本文描述的,对于非
线性模型,敏感性分析更复杂。
[0326] PLS和其他技术提供除了回归系数量级以外的另外的信息,所述另外的信息可被用来对特定残基或残基位置排序。诸如PLS和主成分分析(PCA)或PCR的技术以主成分或
潜在向量的形式提供信息。这些技术通过多维数据组,诸如本文公开的本发明的实施方案
采用的蛋白序列-活性空间,表示最大变异的方向或向量。这些潜在向量为多个序列维度,
即,构成蛋白序列的各个残基或残基位置的函数,所述蛋白序列构成被用来构建训练组的
变体文库。因此潜在向量包括来自训练组中的每个残基位置的贡献的和。一些位置对向量
的方向贡献更强。这些贡献通过相对大的“载荷(load)”,即,用来描述向量的系数来表现。
作为一个简单的示例性实例,训练组可包括三肽。在该实例中,第一潜在向量包括来自所有
三个残基的贡献。
[0327] 向量1=a1(残基位置1)+a2(残基位置2)+a3(残基位置3)
[0328] 系数a1、a2、和a3为载荷。因为这些载荷反应了相应的残基位置对数据组中的变异的重要性,所以它们可被用来按照如上所述的对各个残基位置对于“切换”决策的目的的
重要性排序。载荷像回归系数一样可被用来对每个切换位置处的残基排序。多个参数描述
这些载荷的重要性。一些实施方案使用诸如变量重要性投影(VIP)的方法来利用载荷矩
阵。该载荷矩阵包括取自训练组的多个潜在变量的载荷。在PLS变量重要性投影(Variable
Importance for PLS Projection)方法中,变量(例如,残基位置)的重要性通过计算VIP
2 2
来计算。对于给定的PLS维度a,(VIN)ak等于变量的PLS权重的平方(wak)乘以该PLS维
度的y(因变量,例如特定函数)解释的可变性百分比。对所有的PLS维度(成分)的(VIN)
2
ak求和。然后通过将所述和除以PLS模型解释的y的总变异性百分比,并乘以模型中变量
的数目来计算VIP。具有大于1的VIP的变量是对于关联特定函数(y)最相关的,并且因此
对于做转换决策的目的的排名最高。
[0329] 在很多实施方案中,本发明利用常规线性回归方法鉴定组合文库中的突变对感兴趣的序列-活性的影响。可选的建模选项和技术例如贝叶斯回归、集成回归、靴襻法
(bootstrapping)可被用于联合或取代以上所述的方法。事实上,不期望本发明限制于任何
特定的建模选择和/或技术,因为任何合适的方法在本发明中具备适应性。
[0330] 贝叶斯线性回归
[0331] 在本发明的一些实施方案中,贝叶斯线性回归具备实用性。该方法是一种线性回归方法,其中在贝叶斯推理的背景中进行统计分析。当回归模型具有具备正态分布的误差
时,并且如果假定特定形式的先验分布,则模型的参数的后验概率分布可利用贝叶斯推理
技术来确定。
[0332] 线性回归模型的普通最小二乘解基于数据的似然性函数利用诸如Moore-Penrose伪逆(Moore-Penrose pseudo inverse)的分析计算方法来评价系数向量和模型误差。这
是频概论方法,其假定存在足够的数据观察值来代表对于所有序列的序列-活性关系。但
是,样本的实际观察值几乎从来都不足以代表群体中的所有成员。当样本(或训练组)容
量有限时,这特别成问题。在贝叶斯方法中,对样本数据补充先验概率分布形式的另外的信
息。将关于参数的先验知识与根据贝叶斯定理的数据的似然性函数结合来获得关于参数的
后验知识。先验知识可取决于领域和可用的先验信息而采用不同的函数形式。
[0333] 例如在一些实施方案中,贝叶斯回归可在模型拟合之前使用先验信息来对系数加权。在一些实施方案中,取自之前的一轮定向进化,例如使用亲本骨架或参考骨架和在之前
的多轮中使用的至少一些突变进行的一轮定向进化的序列/活性数据可被用来对线性系
数加权。另外,对两个或更多个突变之间的强性关系的预测可被用来对非线性交互作用系
数加权。该方法的主要优势之一是纳入先验信息来指导模型预测。
[0334] 先验信息的来源的一个示例性实例是具有针对参考骨架的多个突变中的每一个的独立项和交互作用项的模型。在一些实施方案中,数据获取自每个变体包含一个突变的
变体的集合。
[0335] 在本发明中具备实用性的先验信息的另外的实例包括但不限于关于某些突变或突变类型的作用的直观或物理信息。不论来源,先验信息充当对序列和活性之间关系的预
先设想的见解。
[0336] 在用于评估模型的参数的一些实施方案中,贝叶斯线性回归利用蒙特卡罗模拟诸如吉布斯抽样或Metropolis算法来基于数据拟合模型。当直接抽样困难时,吉布斯抽样是
马尔可夫蒙特卡罗算法,以便获得由特定的多变量概率分布(即,由两个或更多个随机变
量的联合概率分布)估算的一系列观察值。
[0337] 图5为例证贝叶斯回归在变体文库的引导进化中的使用的流程图。每轮序列进化包括基于来自之前的一轮的序列的突变,所述之前的一轮序列进化可通过对诸如序列-活
性模型的知识引导。例如,如在模块501中,在第n轮进化中,每个变体有一个突变。下一
轮或第n+1轮进化为当前的轮,如在模块503中显示的。对于每个变体有至少一个新的突
变,总计每变体两个或更多个突变。在该示例性实例中,贝叶斯回归在该轮实施。
[0338] 第n+1轮的序列变体为新模型提供数据训练组。新模型可包括基础模型或完成的模型,所述基础模型只包括对于各个残基的线性项,所述完成的模型包含所有的可能交互
作用项/系数,如在模块507中所示。新模型还可包括通过多种技术选择的模型,包括以上
解释的逐步添加或减去技术,参见模块505。可选地,可使用以下讨论的遗传算法或靴襻技
术被选择模型。这些模型全部基于来自第n+1轮的训练组数据的当前/新数据。贝叶斯推
理技术可应用于这些模型,以使得模型基于当前数据的概率函数和先验信息的分布两者。
先验信息可来自之前的一轮,如模块501所示的第n轮的序列变体的数据。信息还可来自
之前的任何一轮进化的序列-活性数据或其他先验直观知识,如模块513所示。由模块509
所示的贝叶斯回归模型基于由当前数据和先验信息提供的信息预测活性,参见模块511。尽
管图5只例证了贝叶斯回归技术对第n+1轮的应用,但是贝叶斯回归技术可应用在多个阶
段。也不期望本发明被限制于图5中提供的特定步骤,因为任何合适的方法在本发明中具
备实用性。
[0339] 整体回归
[0340] 在一些实施方案中,本发明利用集成回归技术制作序列-活性模型。集成回归模型基于若干回归模型。每个模型的预测值基于特定信息准则(IC)被加权,并且集成预测值
是其包含的所有模型的预测值的加权和。在一些实施方案中,模型开发从包含所有线性项
的基础模型开始。随后的模型通过以一些或所有可能的组合添加交互作用系数来构建。在
一些实施方案中,交互作用系数以逐步的程序被添加。每个模型拟合数据并生成IC。对每
个模型的加权基于IC,所述IC可以是IC自身或转换形式,例如对数值、否定值(negated
value)等。预测可通过以下步骤针对观察值进行:产生所述集中的每个模型的预测值,并
通过采用来自每个模型的预测值的加权均值来确定集成预测值。完整的集包含所有可能的
模型,但可被修剪以通过对其包含的模型数目或基于IC设定阈值来去除表现差的模型。
[0341] 所述集的成分模型可利用多种技术产生。例如,在一些实施方案中,使用遗传算法来形成成分模型。序列/活性数据被用来产生多个回归模型,每个回归模型具有其自己的
系数组。根据符合度准则(例如,AIC或BIC)选择最佳模型。这些模型被“配对”以产生新
的混合模型,然后评价所述混合模型的符合度并并相应地做出选择。在一些实施方案中,该
程序被重复多轮“计算进化”以产生最佳模型的集。可选地,在一些实施方案中,集的组分
通过以上描述的逐步回归形成,并选择最佳的n个模型以形成所述集。
[0342] 图6提供了根据本发明的实施方案的在序列变体的定向进化中实施集成回归的过程的流程图。在该实施方案中,集成回归技术可被应用在多轮序列进化轮的任何阶段。例
如,在第n轮,模块601中显示的序列变体提供了用于多个模型的训练组数据以形成如模块
603所示的模型集。模型集中的模型可以是通过遗传算法和/或逐步选择法生成的模型。
在其他实施方案中,模型集包括n折交叉验证模型和/或靴襻模型。在一些实施方案中,只
有基于多种模型选择准则诸如AIC或BIC具有较好预测力的模型被选择进入所述集。
[0343] 可选地或另外地,在一些实施方案中,尚未通过模型选择筛选的模型也进入模型集。在一个实施方案中,具有所有线性或非线性项的所有模型均进入模型集。对于大量的
残基以及更大量的残基间的析因相互作用,该实施方案可能是计算十分密集的。在一些可
选的实施方案中,只有包含线性项和成对的交互作用项的模型进入所述模型集。不论模型
集的纳入方法如何,集成模型包括其成分的所有项。模型集可包含任何数目的模型,包括但
不限于贝叶斯模型,就该模型来讲,先验信息可被并入所述集。
[0344] 在一些实施方案中,所述集基于所述集中的每个模型的系数的加权平均值预测序列活性,其中如模块605所示的,权重通过相应的模型的预测力确定。
[0345] 在一些实施方案中,集成回归利用以下工作流程:(1)提供空的集;(2)选择为1或更大的组容量n;(3)将数据点分类为具有容积为为n的组,其中数据点被无置换地分组;
和(4)制作预测各个系数和交互作用系数的集成模型。在一些实施方案中,制作集成模型
的步骤(4)还包括:a)移除每个组的数据点,其中剩余的数据形成训练组并且删除的数据
形成验证组;b)通过利用逐步回归拟合训练组来制作模型;c)使用验证组测试该模型,这
提供了对模型预测能力的指示;d)将该模型添加至用来生成如以上所述的集成模型的模
型集。
[0346] 靴襻法
[0347] 用于表征正在考虑的模型在给定的迭代中的预测力的其他技术在本发明中具备实用性。在一些实施方案中,这些技术包括交叉验证技术或靴襻技术。在一些实施方案中,
交叉验证采用用来生成模型的一组观察值而删除评价模型的强度的一些观察值。在一些实
施方案中,靴襻技术包括利用被置换地测定的一组样本。在一些实施方案中,通过交叉验证
或靴襻法生成的模型可被组合到如上描述的集成模型中。
[0348] 在一些另外的实施方案中,这些方法不仅通过残基对活性的预测的贡献的量级来对残基排序,而且还通过那些预测的贡献的置信度对残基排序。在一些情形中,研究者关注
模型从一组数据到另一组数据的概括能力。换言之,研究者想知道系数或主成分的值是否
是假的。交叉验证和靴襻技术提供了指示模型概括多个数据能力的置信水平的测量。
[0349] 在一些实施方案中,利用统计上更严格的方法,在所述方法中排序基于量级和分布的组合。在这些实施方案的一些中,具有高量级和紧密分布两者的系数提供最高排名。
在一些情形中,具有比另一个低的量级的一个系数由于具有较少的变异可被给予较高的排
名。因此,一些实施方案基于量级和标准偏差或方差两者对氨基酸残基或核苷酸排序。多种
技术可被用来完成排序。事实上,不期望本发明被限制于任何特定的用于排序的技术。利
用靴襻p值方法的一个实施方案在以下被描述。
[0350] 采用靴襻法的方法的示例性实例在图7中被描绘。如图7中显示的,方法725开始于模块727,在模块727中提供了初始数据组S。在一些实施方案中,如以上描述的,这是
训练组。例如在一些实施方案中,其通过以任何方式(例如,如以上描述的)系统地改变起
始序列的各个残基来生成。在由方法725示例的情况中,数据组S具有M个不同的数据点
(从氨基酸或核苷酸序列收集的活性和序列信息)用于在分析中使用。
[0351] 由数据组S创建多个靴襻组B。这些靴襻组中的每个通过以置换的方式从组S抽样以形成具有M个成员-全部取自初始组S的新组来获得。参见模块729。“以置换的方
式”的条件产生对初始组S的改变。有时候,新的靴襻组B将包含来自S的重复样本。在一
些情况中,靴襻组B也不包含原始被包含于S的某些样本。
[0352] 作为示例性实例,提供了具有100条序列的组S。靴襻组B通过从初始组S中的100条序列中随机选择100个成员序列来创建。被用于所述方法的每个靴襻组B包括100
条序列。因此,一些序列将被多于一次地被选择并且其他序列将根本不被选择是可能的。所
述方法接下来利用从来自组S的100条序列产生的靴襻组B建立模型。参见模块731。如
以上描述的,所述模型可利用PLS、PCR、SVM、逐步回归等建立。事实上,期望任何合适的方
法将在建立该模型中具备实用性。该模型提供对来自组B的多个样本中出现的残基或核苷
酸的排序的系数或其它指标。如在模块733显示的,这些系数或其他指标被记录以便随后
使用。
[0353] 接下来,在决策模块735,所述方法确定是否应创建另一个靴襻组。如果是,所述方法返回至模块729,在模块729中如以上描述的创建新的靴襻组B。如果否,所述方法进行
至以下讨论的模块737。模块735处的决策转向关于在评价那些值的贡献时要使用多少不
同组的系数值。组B的数目应足以产生精确统计。在一些实施方案中,制作并分析100至
1000个靴襻组。这通过约100至1000次通过方法725的模块729、731和733体现。但是,
不期望本发明被限制于任何特定数目的靴襻组,因为适于期望的分析的任何数目具备实用
性。
[0354] 在制作并分析足够数目的靴襻组B之后,决定735被回答否定。如所示,所述方法然后进行至模块737。此处,对于每个残基或核苷酸(包括密码子)使用系数值(例如,100
至1000个值,每个靴襻组一个)计算系数(或由模型产生的其他指标)的平均值或标准偏
差。所述方法可从该信息计算t统计值并确定测量值不同于0的置信区间。所述方法从t
统计值计算针对置信区间的p值。在该示例性情形中,p值越小,所测量的不同于0的回归
系数越可信。
[0355] 要注意的是,p值不过是可对残基重要性的系数或其他指标的统计学变化做出解释的很多不同类型的表征方式中的一种。实例包括但不限于计算回归系数的95%置信区间
并排除考虑95%置信区间穿过零线的任何回归系数。基本上,在一些实施方案中,对数据贡
献的标准偏差、方差或其他统计上的相关测量做出解释的任何表征方式具备实用性。在一
些实施方案中,该表征步骤还对系数的量级做出解释。
[0356] 在一些实施方案中,得到大的标准偏差。该大的标准偏差可归因于多种原因,包括但不限于数据组中差的测量值,和/或初始数据组中的特定残基或核苷酸的有限的代表
性。在后一种情况中,一些靴襻组将不包括特定残基或核苷酸的存在。在此类情况中,该残
基的系数的值将为0。其他的靴襻组将包括所述残基或核苷酸的至少部分存在并给予非0
值的相应系数。但是给予0值的组将导致系数的标准偏差变得相对大。这降低了系数值的
置信度并导致较低的排名。但是如果关于所包括的残基或核苷酸存在相对少的数据,这则
是意料之中的。
[0357] 接下来,在模块739处,所述方法将回归系数(或其他指标)从最低的(最佳的)p值到最高的(最差的)p值排序。该排名与回归系数自身的绝对值高度相关,因为事实上
绝对值越大,越大的标准偏差远离0。因此,对于给定的标准偏差,随着回归系数变大,p值
变小。但是,绝对排名将不会总是与p值法和纯粹的量级法两者相同,特别是当在组S中可
用来开始的数据点相对少时。
[0358] 最后,如模块741显示的,所述方法基于在模块739的操作中观察到的排名固定和切换某些残基。这本质上是对以上对于其他实施方案描述的排序方法的相同应用。在一个
方法中,所述方法固定最佳残基(目前具有最低的p值的那些残基)而切换其他残基(具
有最高p值的那些残基)。
[0359] 已显示该方法725在计算机模拟中表现良好。而且,在一些实施方案中,p值排名方法天然地处理单个或极少的偶现残基(instance residue):p值通常将较高(较差),因
为在靴襻程序中初始数据组中不常出现的那些残基将不太可能被随机选取。即使其系数
大,其可变性(以标准偏差衡量)也将是相当高的。在一些实施方案中,这是期望的结果,
因为未被很好地代表(即,未以足够的频率被观察到或具有较低的回归系数)的那些残基
在下一轮文库设计中可能是用于切换的好的候选物。
[0360] E.通过修饰模型预测的序列产生优化的蛋白变体文库
[0361] 本发明的目标之一是,通过定向进化产生成优化的蛋白变体文库。本发明的一些实施方案提供了利用所产生的序列-活性模型指导蛋白变体的定向进化的方法。根据以上
描述的方法制作并精化的多种序列-活性模型适于指导蛋白或生物分子的定向进化。作为
该程序的一部分,所述方法可鉴定待被用于产生新的蛋白变体文库的序列。此类序列包括
对以上鉴定的特定残基的变异,或者是用来随后引入此类变异的前体。可通过进行诱变或
基于重组的多样性生成机制来修饰这些序列,以生成新的蛋白变体文库。该新的文库还可
被用于开发新的序列活性模型。
[0362] 在一些实施方案中,寡核苷酸或核酸序列的制备通过利用核酸合成仪合成所述寡核苷酸或核酸序列来完成。本发明的一些实施方案包括利用所制备的寡核苷酸或蛋白序列
作为用于定向进化的组成模块(building block)进行一轮定向进化。本发明的多个实施
方案可将重组和/或诱变应用于这些组成部件以产生多样性。
[0363] 作为一个具体的实例,一些实施方案应用寡核苷酸重组技术。在这些实施方案中,所述方法包括通过评价序列-活性模型的项的系数来选择用于一轮定向进化的一个或更
多个突变。突变从特定位置处的特定氨基酸或特定类型的核苷酸的组合中基于通过所述模
型预测的它们对蛋白活性的贡献选择。在一些实施方案中,突变的选择包括鉴定被确定为
比其他系数大的一个或更多个系数,以及选择由如此鉴定的一个或更多个系数表示的特定
位置处的特定氨基酸或核苷酸。在一些实施方案中,在根据序列-活性模型选择突变之后,
所述方法包括制备含有或编码所述一个或更多个突变的多个寡核苷酸,并利用所制备的寡
核苷进行一轮定向进化。在一些实施方案中,定向进化技术包括组合和/或重组所述寡核
苷酸。
[0364] 本发明的其他实施方案应用蛋白序列重组技术。在一些实施方案中,所述方法包括鉴定新的蛋白序列或新的核酸序列,以及制备并测定所述新的蛋白或由所述新的核酸序
列编码的蛋白。在一些实施方案中,所述方法还包括使用所述新的蛋白或由所述新的核酸
序列编码的蛋白作为用于进一步的定向进化的起始点。在一些实施方案中,定向进化过程
包括片段化并重组由模型预测的具有期望的活性水平蛋白序列。
[0365] 在一些实施方案中,所述方法基于被所述模型预测为重要的各个突变来鉴定和/或制备新的蛋白或新的核酸序列。这些方法包括:通过评价序列-活性模型的项的系数选
择一个或更多个突变,以鉴定对活性有贡献的特定位置处的一个或更多个特定的氨基酸或
核苷酸;鉴定包含以上选择的一个或更多个突变的新蛋白序列或新核酸序列,并制备和测
定所述新蛋白或由所述新核酸序列编码的蛋白。
[0366] 在其他的实施方案中,所述方法基于整个序列(而不是各个突变)的预测活性来鉴定和/或制备新蛋白或新核酸序列。在这些实施方案的一些中,所述方法包括将多个蛋
白序列或多个氨基酸序列应用于序列-活性模型,以及确定所述序列-活性模型预测的对
于所述多个蛋白序列或核酸序列中的每一个的活性值。所述方法还包括通过评价由所述序
列-活性模型针对多个序列预测的活性值,从以上应用的多个蛋白序列或多个氨基酸序列
中选择新蛋白序列或新核酸序列。所述方法还包括制备并测定具有所述新蛋白序列的蛋白
或由所述新核酸序列编码的蛋白。
[0367] 在一些实施方案中,不是简单地合成单个最佳预测蛋白,而是基于对蛋白中每个位置处的残基选择的最佳改变的敏感性分析产生组合的蛋白文库。在该实施方案中,对于
所预测的蛋白给定的残基选择越敏感,预测到的符合度改变将更大。在一些实施方案中,这
些敏感性从最高至最低并且敏感性得分被用于在随后的轮次中创建组合蛋白文库(即,通
过基于敏感性并入那些残基)。在一些实施方案中,其中使用线性模型,通过简单地考虑与
该模型中给定的残基项相关的系数的大小来确定敏感性。但是,对于非线性模型这是不可
能的。相反,在利用非线性模型的实施方案中,残基敏感性通过使用模型计算当“最佳”预
测的序列中单个残基被改变时的活性改变来确定。
[0368] 本发明的一些实施方案包括选择蛋白序列或核酸序列中的一个或更多个位置,以及在如此鉴定的一个或更多个位置处进行饱和诱变。在一些实施方案中,这些位置通过评
价序列-活性模型的项的系数来选择,以鉴定对活性有贡献的特定位置处的一个或更多
个特定的氨基酸或核苷酸。相应地,在一些实施方案中,一轮定向进化包括在使用所述序
列-活性模型选择的位置处对蛋白序列进行饱和诱变。在一些涉及包括一个或更多个交
互作用项的模型的实施方案中,所述方法包括在两个或更多个相互作用残基处同时应用诱
变。
[0369] 在一些实施方案中,残基以其排列顺序被考虑。在一些实施方案中,对于所考虑的每个残基,所述程序确定是否“切换”那个残基。术语“切换(toggling)”指,将多种氨基
酸残基类型引入优化的文库中的蛋白变体的序列中的特定位置。例如,丝氨酸可出现在一
个蛋白变体的位置166,然而苯丙氨酸可出现在相同文库的另一个蛋白变体的位置166。在
训练组中的蛋白变体序列之间不发生变化的氨基酸残基在优化的文库中通常保持固定。但
是,情况并非总是这样,因为在优化的文库中可能存在变异。
[0370] 在一些实施方案中,优化的蛋白变体文库被设计成使得所有被鉴定的回归系数排序“高”的残基被固定,而剩余的回归系数排序较低的残基被切换。该实施方案的基本原理
是,‘最佳’预测的蛋白周围的局部空间应被搜索。应注意,其中切换被引入的起点“骨架”
可能是模型预测的最佳蛋白和/或已经被验证为被筛选的文库中的‘最佳’蛋白。事实上,
不期望起点骨架被限制于任何特定蛋白。
[0371] 在可选的实施方案中,至少一个或更多个(但并非全部的被鉴定的回归系数排序高的残基)在优选的文库中保持固定,而其他的残基被切换。在一些实施方案中,如果不
期望通过一次性并入太多改变而显著地改变其他氨基酸残基的背景,则推荐该方法。再次
地,用于切换的起点可以是所述模型预测的最佳的残基组、来自现有文库的最佳验证的蛋
白或模拟得很好的“平均”克隆。在后一种情况中,切换被预测为较高重要性的残基可能
是期望的,因为在对之前被从抽样中遗漏的活性峰的搜索中应探索更大的空间。该类型的
文库通常在早期的多轮文库制备中更为重要,因为其产生了对随后的轮次的更精确的描绘
(picture)。不期望起始点骨架被限于任何特定蛋白。
[0372] 以上实施方案的一些备选方案涉及在确定切换哪些残基时使用残基重要性(排名)的不同程序。在一个这样的备选实施方案中,排名较高的残基位置是切换更强烈地偏
爱的。该方法中所需的信息包括来自训练组的最佳蛋白的序列、PLS或PCR预测的最佳基
序列和来自PLS或PCR模型的残基排名。“最佳”蛋白为数据组中经湿实验室验证的“最佳”
克隆(即,具有最高的测量功能但是由于其相对接近交叉验证的预测值仍模拟得很好的克
隆)。所述方法将来自该蛋白的每个残基与来自具有期望活性的最高值的“最佳预测”序列
的相应残基比较。如果具有最高载荷或回归系数的残基不存在于‘最佳’克隆中,则所述方
法将引入该位置作为切换位置用于随后的文库。如果所述残基存在于最佳克隆中,则所述
方法不将该位置视作切换位置,并且将按顺序移至下一个位置。对多个残基重复该程序,连
续地穿过较低的载荷值,直到生成具有足够容量的文库。
[0373] 在一些实施方案中,待保留的残基的回归系数的数值和待切换的残基的回归系数的数值是变化的。决定待切换的哪些残基以及待保留的哪些残基基于多个因素,包括但不
限于期望的文库容量、回归系数之间差异的量级和认为将存在的非线性度的程度。保留具
有小的(中性)系数的残基可能在随后的进化轮次中揭露重要的非线性度。在一些实施
N
方案中,优化的蛋白变体文库包括约2个蛋白变体,其中N代表在两个残基之间切换的位
置的数目。换言之,通过每个另外的切换增加的多样性使文库的容量翻倍,使得10个切换
位置产生~1,000个克隆(1,024),13个位置~10,000个克隆(8,192)而20个位置~
1,000,000个克隆(1,048,576)。适当的文库容量取决于诸如筛选成本、格局(landscape)
的强度、优选的空间抽样百分比等的因素。在一些情形中,已发现相对大数目的改变的残基
产生非常大百分比的无功能的克隆的文库。因此,在一些实施方案中,用于切换的残基的数
30 9
目从约2至约30变化;即,文库容量在约4和2 ~10 个克隆之间变化。
[0374] 另外,设想到多个随后轮次的文库策略被同时利用,一些策略更有挑战性(固定更多的“有利”残基)而其他策略更为保守(为了更彻底地探索空间的目的,固定较少的“有
利”残基)。
[0375] 在一些实施方案中,在大多数天然存在或以其他形式成功的肽中存在的基团或残基或“基序”被鉴定和/或保留,因为它们可能在蛋白的功能性(例如,活性、稳定性等)方
面是重要的。例如,可能发现在天然存在的肽中,可变位置3处的Ile总是与可变位置11
处的Val成对。因此,在一个实施方案中,在任何切换策略中需要保留此类组。换言之,仅
有的被接受的切换是在基础蛋白中保留了特定组合(grouping)的那些切换或者生成不同
的也被发现于有活性的蛋白的组合的那些切换。在后一种情况中,切换两个或更多个残基
是必要的。
[0376] 在一些另外的实施方案中,湿实验室验证的当前优化的文库中的‘最佳’(或几个最佳的之一)蛋白(即,具有测量功能最高的、或几个最高的之一的、仍很好地模拟,即,相
对接近交叉验证中的预测值的蛋白)被用作其中多个改变被并入的骨架。在另一个方法
中,湿实验室验证的当前最优文库中的‘最佳’(或几个最佳的之一)的、可能模拟不好的
蛋白被用作其中多个改变被并入的骨架。在一些其他的方法中,序列-活性模型预测为具
有最高的期望活性值(或最高值之一)的序列被用作为骨架。在这些方法中,用于“下一
代”文库(以及可能地相应的模型)的数据组通过改变一个或几个最佳蛋白中的残基来获
得。在一个实施方案中,这些改变构成骨架中的残基的系统变异。在一些情形中,这些改变
包括各种诱变、重组和/或亚序列选择技术。这些改变中的每个可体外、体内和/或提供计
算机模拟进行。事实上,不期望本发明被限于任何特定的形式,因为任何合适的格式具备实
用性。
[0377] 在一些实施方式中,虽然由线性模型预测的最优序列可如以上描述的通过检验来鉴定,但是对于非线性模型其实不然。在线性项和交叉乘积项中均出现的某些残基及其在
其他残基的很多可能的组合的背景下对活性的整体影响是有疑问的。因此,正如对于非线
性模型的交叉乘积项的选择,由非线性模型预测的最优序列可通过用该模型测试所有可能
的序列(假定计算资源足够)或通过利用搜索算法诸如逐步算法来鉴定。
[0378] 在一些实施方案中,在计算机中获得的信息-按照如上所述鉴定的进化的蛋白被用来合成新型蛋白并基于物理测定测试它们。精确的对实际的湿实验室确定的适应性功能
的计算机模拟表示方式允许研究者减少进化循环的数目和/或实验室中需筛选的变体的
数目。在一些实施方案中,优化的蛋白变异文库利用本文描述的重组方法或可选地通过基
因合成方法随后通过体内或体外表达来产生。在一些实施方案中,在优化的蛋白变体文库
被筛选期望的活性之后,对其测序。如以上在对图1和2的讨论中指出的,来自优化的蛋白
变体文库的活性和序列信息可被采用以生成另一个序列-活性模型,可利用本文描述的方
法由所述另一个序列-活性模型设计进一步优化的文库。在一个实施方案中,所有来自该
新文库的蛋白被用作数据组的一部分。
[0379] (III).数字化装置和系统
[0380] 明显的是,本文描述的实施方案采用在指令的控制下行动的程序和/或储存在一个或更多个计算机系统中或经其转换的数据。本文公开的实施方案还涉及用于进行这些操
作的装置。在一些实施方案中,所述装置针对所需的目的而被专门设计和/或构建,或其可
以是通过计算机程序和/或储存于计算机中的数据结构选择性地激活或重新配置的通用
型计算机。本发明提供的程序并不固有地与任何特定的计算机或其他特定装置有关。具体
地,多种通用型机器在根据本文的教导书写的程序中具备实用性。但是,在一些实施方案
中,构建专门的装置以进行所需方法的操作。下文描述了用于各种各样的这些机器的特定
结构的一个实施方案。
[0381] 另外,本发明的某些实施方案涉及包括用于进行多种计算机实施的操作的程序指令和/或数据(包括数据结构)的计算机可读介质或计算机程序产品。计算机可读介质的
实例包括但不限于磁性介质,诸如硬盘软盘、磁带;光学介质,诸如CD-ROM设备或全息设
备;磁光介质;半导体存储器装置;和被特别地配置以储存并执行程序指令的硬件设备,诸
只读存储器装置(RPM)和随机存取存储器(RAM)、专用集成电路(ASIC)、和可编程的逻辑
装置(PLD)。数据和程序指令还可体现在载波或其他传输介质(例如,光学线路、电子线路
和/或空中电波)上。事实上,不期望本发明被限制于包含用于执行计算机实施的操作的
指令和/或数据的任何特定的计算机可读介质或任何其他计算机程序产品。
[0382] 程序指令的实例包括但不限于诸如由编译器产生的低阶码和可由计算机利用解释器执行的包含较高阶代码的文件。另外,程序指令包括但不限于直接或间接地控制根据
本发明的计算机的操作的机器代码、源代码和任何其他代码。代码可规定输入、输出、计算、
条件式、分支、迭代循环等。
[0383] 在一个示例性实施方案中,本文公开的表现方法在含有逻辑指令和/或数据的固定的介质或可传输程序部件中体现,所述逻辑指令和/或数据当被加载到合适地配置的计
算装置时导致所述装置对一个或更多个字符串进行模拟的遗传操作(GO)。图8显示了示例
性数字化装置800,其是一种逻辑装置,能够从介质817、网络端口819、用户输入键盘809、
用户输入811或其他输入装置读取指令。之后装置800能利用那些指令在数据空间中指
导统计操作,例如构建一个或更多个数据组(例如,确定数据空间的多个代表性成员)。可
体现所公开的实施方案的一种类型的逻辑装置是如包括CPU 807、光学用户键盘输入设备
809和GUI定点设备811,以及周围部件诸如磁盘驱动器815和监视器805(其显示GO修
饰的字符串并提供用户对此类字符串的子集的简化的选择的计算机系统800的计算机系
统。固定介质817被任选地用来为整个系统提供程序并可包括例如,盘式光学或磁性介质
(disk-type optical or magnetic media)或其他电子存储元件。通信端口819可被用来
为系统提供程序并可代表任何类型的通信连接。
[0384] 在一些实施方案中,本公开内容提供了包括一个或更多个处理器、系统存储器和计算机可执行指令存储于其上的一个或更多个计算机可读存储介质的计算机系统,当所述
计算机可执行指令被一个或更多个处理器执行时,导致计算机系统执行用于进行生物分子
的定向进化的方法。在一些实施方案中,所述方法包括:(a)接收针对多个生物分子的序列
和活性数据;(b)根据所述序列和活性数据制作基础模型,其中所述基础模型将活性预测
为序列的亚单位的存在或不存在的函数;(c)通过对所述基础模型加上或减去至少一个新
的交互作用项来制作至少一个新的模型,其中所述新的交互作用项代表两个或更多个相互
作用的亚单位之间的相互作用;(d)确定所述至少一个新的模型将活性预测为亚单位的存
在或不存在的函数的能力;(e)基于(d)中确定的所述至少一个新模型的预测活性的能力
以及对包括另外的新交互作用项的偏倚来确定是否对所述基础模型加上或减去所述新的
交互作用项。
[0385] 某些实施方案还可体现于专用集成电路(ASIC)或可编程的逻辑设备(PLD)的电路中。在该情况中,所述实施方案以可被用来生成ASIC或PLD的计算机可读描述符实施。
本发明的一些实施方案在各种各样的其他数字化装置的电路或逻辑处理器,例如PDA、笔记
本电脑系统、显示器、图像编辑设备等内实施。
[0386] 在一些实施方案中,本发明涉及包括计算机可执行指令存储于其上的一个或更多个计算机可读存储介质的计算机程序产品,所述计算机可执行指令当被计算机系统的一个
或更多个处理器执行时,导致计算机系统实施用于鉴定影响期望活性的生物分子方法。该
方法是本文描述的任何方法,诸如由附图和伪代码涵盖的那些方法。在一些实施方案中,所
述方法接收对于多个生物分子的序列和活性数据,并从所述序列和活性数据制作基础模型
和改进的模型。在一些实施方案中,所述模型将活性预测为序列的亚单位的存在或不存在
的函数。
[0387] 在本发明的一些实施方案中,由计算机程序产品实施的方法通过对基础模型加上或减去至少一个新的交互作用项来制作至少一个新的模型,其中所述新的交互作用项代表
两个或更多个相互作用的亚单位之间的相互作用。在一些实施方案中,所述方法确定所述
至少一个新的模型将活性预测为亚单位的存在或不存在的函数的能力。该方法还基于如以
上确定的所述至少一个新的模型预测活性的能力以及以对包括新的交互作用项的偏倚来
决定是否对基础模型加上或减去所述新的交互作用项。
[0388] 虽然前面已经为了清楚和理解的目的以一定的细节进行了描述,但对于本领域技术人员通过阅读该公开内容将清楚的是,可进行多种形式和细节上的多种改变而不偏离本
公开内容的真实范围。例如,以上描述的所有技术和装置可以多种组合利用。本申请中提
到的所有出版物、专利、专利申请或其他文件,在如同每个单独的出版物、专利、专利申请和
其他文件被单独地指明为了所有目的被通过引用并入的程度上,被为了所有目的通过引用
全部并入。
QQ群二维码
意见反馈