首页 / 专利库 / 生物化学 / 次级代谢产物 / 用于改进大肠杆菌的HTP基因工程改造平台

用于改进大肠杆菌的HTP基因工程改造平台

阅读:837发布:2020-05-08

专利汇可以提供用于改进大肠杆菌的HTP基因工程改造平台专利检索,专利查询,专利分析的服务。并且本 发明 提供一种用于改进大肠杆菌的HTP基因工程改造平台,其以计算方式驱动且整合了分子 生物 学、自动化和先进 机器学习 方案。这个集成平台利用一套HTP分子工具集以创建HTP基因设计文库,所述基因设计文库尤其来源于科学见解和 迭代 模式识别 。,下面是用于改进大肠杆菌的HTP基因工程改造平台专利的具体信息内容。

1.一种使大肠杆菌生物进化以获得所期望表型的高通量(HTP)基因工程改造方法,其包括:
a.扰动多种具有相同基因组菌株背景的初始大肠杆菌微生物的基因组,借此创建包括具有独特基因变异的个别大肠杆菌菌株的初始HTP基因设计大肠杆菌菌株文库;
b.针对所述所期望表型来筛选和选择所述初始HTP基因设计大肠杆菌菌株文库的个别菌株;
c.提供各自包括基因变异独特组合的后续多种大肠杆菌微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别大肠杆菌菌株中所存在的基因变异,借此创建后续HTP基因设计大肠杆菌菌株文库;
d.针对所述所期望表型来筛选和选择所述后续HTP基因设计大肠杆菌菌株文库的个别大肠杆菌菌株;和
e.以线性或非线性方式重复步骤c)-d)一或多次,直到大肠杆菌微生物已经获得所述所期望表型为止,其中每次后续迭代创建新的HTP基因设计大肠杆菌菌株文库,所述新的HTP基因设计大肠杆菌菌株文库包括具有独特基因变异的个别大肠杆菌菌株,所述独特基因变异是选自前一个HTP基因设计大肠杆菌菌株文库的至少两种个别大肠杆菌菌株的基因变异的组合。
2.根据权利要求1所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括选自由以下组成的群组的至少一个文库:启动子交换微生物菌株文库、SNP交换微生物菌株文库、起始/终止密码子微生物菌株文库、优化序列微生物菌株文库、终止子交换微生物菌株文库、蛋白质溶解性标签微生物菌株文库、蛋白质降解标签微生物菌株文库和其任何组合。
3.根据权利要求1所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括启动子交换微生物菌株文库。
4.根据权利要求1或2所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括含有至少一种双顺反子设计(BCD)调控序列的启动子交换微生物菌株文库。
5.根据权利要求1所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括SNP交换微生物菌株文库。
6.根据权利要求1或2所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括含以下的微生物菌株文库:
a.编码嵌合生物合成酶的至少一种多核苷酸,其中所述嵌合生物合成酶包括与能够结合DNA结合位点的DNA结合结构域翻译性融合的涉及大肠杆菌中的调控路径的酶;和b.包括所述DNA结合位点的至少一个DNA骨架序列。
7.根据权利要求1所述的HTP基因工程改造方法,其中所述后续HTP基因设计大肠杆菌菌株文库是来源于所述初始HTP基因设计大肠杆菌菌株文库中的基因变异的完全组合性菌株文库。
8.根据权利要求1所述的HTP基因工程改造方法,其中所述后续HTP基因设计大肠杆菌菌株文库是来源于所述初始HTP基因设计大肠杆菌菌株文库中的基因变异的完全组合性菌株文库的子集。
9.根据权利要求1所述的HTP基因工程改造方法,其中所述后续HTP基因设计大肠杆菌菌株文库是来源于前一个HTP基因设计大肠杆菌菌株文库中的完全组合性菌株文库。
10.根据权利要求1所述的HTP基因工程改造方法,其中所述后续HTP基因设计大肠杆菌菌株文库是来源于前一个HTP基因设计大肠杆菌菌株文库中的基因变异的完全组合性菌株文库的子集。
11.根据权利要求1所述的HTP基因工程改造方法,其中扰动所述基因组包括利用至少一种选自由以下组成的群组的方法:随机突变诱发、靶向序列插入、靶向序列缺失、靶向序列置换和其任何组合。
12.根据权利要求1所述的HTP基因工程改造方法,其中所述多种初始大肠杆菌微生物包括来源于工业生产性大肠杆菌菌株的独特基因变异。
13.根据权利要求1所述的HTP基因工程改造方法,其中所述多种初始大肠杆菌微生物包括工业生产菌株微生物,表示为S1Gen1;和来源于其的任何数量的后续微生物后代,表示为SnGenn。
14.一种用于产生SNP交换大肠杆菌菌株文库的方法,其包括以下步骤:
a.提供参考大肠杆菌菌株和第二大肠杆菌菌株,其中所述第二大肠杆菌菌株包括选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴定基因变异,所述基因变异不存在于所述参考大肠杆菌菌株中;和
b.扰动所述参考大肠杆菌菌株或所述第二大肠杆菌菌株的基因组,借此创建包括多种个别大肠杆菌菌株的初始SNP交换大肠杆菌菌株文库,在所述多种个别菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自所述参考大肠杆菌菌株与所述第二大肠杆菌菌株之间的多种已鉴定基因变异的单一基因变异。
15.根据权利要求14所述的用于产生SNP交换大肠杆菌菌株文库的方法,其中扰动所述参考大肠杆菌菌株的基因组以添加在所述第二大肠杆菌菌株中所发现的所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
16.根据权利要求14所述的用于产生SNP交换大肠杆菌菌株文库的方法,其中扰动所述第二大肠杆菌菌株的基因组,以去除未在所述参考大肠杆菌菌株中发现的所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
17.根据权利要求14至16中任一权利要求所述的用于产生SNP交换大肠杆菌菌株文库的方法,其中所得具有独特基因变异的多种个别大肠杆菌菌株一起包括在所述参考大肠杆菌菌株与所述第二大肠杆菌菌株之间的所有所述已鉴定基因变异的完全组合性文库。
18.根据权利要求14至16中任一权利要求所述的用于产生SNP交换大肠杆菌菌株文库的方法,其中所得具有独特基因变异的多种个别大肠杆菌菌株一起包括在所述参考大肠杆菌菌株与所述第二大肠杆菌菌株之间的所有所述已鉴定基因变异的完全组合性文库的子集。
19.一种用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其包括以下步骤:
a.提供亲本谱系大肠杆菌菌株和来源于其的生产性大肠杆菌菌株,其中所述生产性大肠杆菌菌株包括选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴定基因变异,所述基因变异不存在于所述亲本谱系菌株中;
b.扰动所述亲本谱系大肠杆菌菌株或所述生产性大肠杆菌菌株的基因组,以创建初始大肠杆菌菌株文库,其中所述初始文库中的每种菌株包括来自所述亲本谱系大肠杆菌菌株与所述生产性大肠杆菌菌株之间的所述多种已鉴定基因变异的独特基因变异;
c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始文库的个别菌株,借此鉴定赋予表型性能改进的独特基因变异;
d.提供各自包括来自基因变异的独特基因变异组合的后续多种大肠杆菌微生物,所述基因变异存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中,借此创建后续大肠杆菌菌株文库;
e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续文库的个别菌株,借此鉴定赋予额外表型性能改进的基因变异独特组合;和
f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于所述生产性大肠杆菌菌株的表型性能,大肠杆菌菌株呈现所期望平的已改进的表型性能,其中每次后续迭代创建新的微生物菌株文库,其中所述新文库中的每种菌株包括基因变异,所述基因变异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组合。
20.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述初始大肠杆菌菌株文库是包括所述亲本谱系大肠杆菌菌株与所述生产性大肠杆菌菌株之间的所有所述已鉴定基因变异的完全组合性文库。
21.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述初始大肠杆菌菌株文库是包括所述亲本谱系大肠杆菌菌株与所述生产性大肠杆菌菌株之间的所述已鉴定基因变异的子集的完全组合性文库的子集。
22.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述后续大肠杆菌菌株文库是所述初始文库的完全组合性文库。
23.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述后续大肠杆菌菌株文库是所述初始文库的完全组合性文库的子集。
24.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述后续大肠杆菌菌株文库是前一个文库的完全组合性文库。
25.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述后续大肠杆菌菌株文库是前一个文库的完全组合性文库的子集。
26.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中扰动所述亲本谱系大肠杆菌菌株的基因组以添加在所述生产性大肠杆菌菌株中发现的所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一或多个。
27.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中扰动所述亲本谱系大肠杆菌菌株的基因组以去除未在所述亲本谱系大肠杆菌菌株中发现的所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一或多个。
28.根据权利要求19至25中任一权利要求所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中扰动所述基因组包括利用至少一种选自由以下组成的群组的方法:随机突变诱发、靶向序列插入、靶向序列缺失、靶向序列置换和其组合。
29.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少10%为止。
30.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少一倍为止。
31.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:所关注产物的体积生产率、所关注产物的比生产率、所关注产物的产量、所关注产物的效价和其组合。
32.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中步骤f)的所述已改进的表型性能是:所关注产物的生产增加或更有效,所述所关注产物选自由以下组成的群组:小分子、酶、肽、基酸、有机酸、合成化合物、燃料乙醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
33.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述已鉴定基因变异进一步包括来自启动子交换文库的人工启动子交换基因变异。
34.根据权利要求19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其进一步包括:
对以下任一个的至少一种微生物菌株的基因组进行工程改造:
所述初始大肠杆菌菌株文库,或
后续大肠杆菌菌株文库,
以包括来自与内源大肠杆菌目标基因可操作地连接的启动子梯的一或多种启动子。
35.一种用于产生启动子交换大肠杆菌菌株文库的方法,其包括以下步骤:
a.提供对于基本大肠杆菌菌株为内源的多种目标基因和启动子梯,其中所述启动子梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种启动子;和
b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始启动子交换大肠杆菌菌株文库,在所述多种个别大肠杆菌菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与对于所述基本大肠杆菌菌株为内源的所述目标基因中的一个可操作地连接的所述启动子梯的一或多种启动子。
36.根据权利要求35所述的用于产生启动子交换大肠杆菌菌株文库的方法,其中所述多种启动子中的至少一种包括双顺反子设计(BCD)调控序列。
37.一种用于改进生产性大肠杆菌菌株的表型性能的方法,其包括以下步骤:
a.提供对于基本大肠杆菌菌株为内源的多种目标基因和启动子梯,其中所述启动子梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种启动子;
b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始启动子交换大肠杆菌菌株文库,在所述多种个别大肠杆菌菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与对于所述基本大肠杆菌菌株为内源的所述目标基因中的一个可操作地连接的所述启动子梯的一或多种启动子;
c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始启动子交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予表型性能改进的独特基因变异;
d.提供各自包括来自基因变异的独特基因变异组合的后续多种大肠杆菌微生物,所述基因变异存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中,借此创建后续启动子交换大肠杆菌菌株文库;
e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续启动子交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基因变异独特组合;和
f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于所述生产性大肠杆菌菌株的表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能为止,其中每次后续迭代创建新的微生物菌株启动子交换大肠杆菌菌株文库,其中所述新文库中的每种菌株包括基因变异,所述基因变异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组合。
38.根据权利要求37所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述后续启动子交换大肠杆菌菌株文库是所述初始启动子交换大肠杆菌菌株文库的完全组合性文库。
39.根据权利要求37所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述后续启动子交换大肠杆菌菌株文库是所述初始启动子交换大肠杆菌菌株文库的完全组合性文库的子集。
40.根据权利要求37所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述后续启动子交换大肠杆菌菌株文库是前一个启动子交换大肠杆菌菌株文库的完全组合性文库。
41.根据权利要求37所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述后续启动子交换大肠杆菌菌株文库是前一个启动子交换大肠杆菌菌株文库的完全组合性文库的子集。
42.根据权利要求37至41中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续启动子交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少10%为止。
43.根据权利要求37至41中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续启动子交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少一倍为止。
44.根据权利要求37所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:所关注产物的体积生产率、所关注产物的比生产率、所关注产物的产量、所关注产物的效价和其组合。
45.根据权利要求37所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中步骤f)的所述已改进的表型性能是:所关注产物的生产增加或更有效,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、乙醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
46.一种用于产生终止子交换大肠杆菌菌株文库的方法,其包括以下步骤:
a.提供对于基本大肠杆菌菌株为内源的多种目标基因和终止子梯,其中所述终止子梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种终止子;和
b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始终止子交换大肠杆菌菌株文库,在所述多种个别大肠杆菌菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与对于所述基本大肠杆菌菌株为内源的所述目标基因中的一个可操作地连接的所述终止子梯的一或多种终止子。
47.一种用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其包括以下步骤:
a.提供对于基本大肠杆菌菌株为内源的多种目标基因和终止子梯,其中所述终止子梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种终止子;
b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始终止子交换大肠杆菌菌株文库,在所述多种个别大肠杆菌菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与对于所述基本大肠杆菌菌株为内源的所述目标基因中的一个可操作地连接的所述终止子梯的一或多种终止子。
c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始终止子交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予表型性能改进的独特基因变异;
d.提供各自包括来自基因变异的独特基因变异组合的后续多种大肠杆菌微生物,所述基因变异存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中,借此创建后续终止子交换大肠杆菌菌株文库;
e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续终止子交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基因变异独特组合;和
f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于所述生产性大肠杆菌菌株的表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能,其中每次后续迭代创建新的微生物菌株终止子交换大肠杆菌菌株文库,其中所述新文库中的每种菌株包括基因变异,所述基因变异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组合。
48.根据权利要求47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中所述后续终止子交换大肠杆菌菌株文库是所述初始终止子交换大肠杆菌菌株文库的完全组合性文库。
49.根据权利要求47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中所述后续终止子交换大肠杆菌菌株文库是所述初始终止子交换大肠杆菌菌株文库的完全组合性文库的子集。
50.根据权利要求47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中所述后续终止子交换大肠杆菌菌株文库是前一个终止子交换大肠杆菌菌株文库的完全组合性文库。
51.根据权利要求47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中所述后续终止子交换大肠杆菌菌株文库是前一个终止子交换大肠杆菌菌株文库的完全组合性文库的子集。
52.根据权利要求47至51中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续终止子交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少10%。
53.根据权利要求47至51中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续终止子交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少一倍为止。
54.根据权利要求47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:所关注产物的体积生产率、所关注产物的比生产率、所关注产物的产量、所关注产物的效价和其组合。
55.根据权利要求47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中步骤f)的所述已改进的表型性能是:所关注产物的生产增加或更有效,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、乙醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
56.一种用于共定位来自大肠杆菌宿主细胞中的生物合成路径的生物合成酶的系统,所述系统包括:
a.涉及酶反应的两种或更多种嵌合酶蛋白,每一种嵌合酶蛋白包括与DNA结合结构域部分偶联的酶部分;和
b.DNA骨架,其包括
i.一或多个亚基,每一个亚基包括通过至少一个核酸间隔子隔开的两个或更多个不同DNA结合位点;
其中所述嵌合酶蛋白通过其偶联的DNA结合结构域部分募集到所述DNA骨架,所述偶联的DNA结合结构域部分中的每一个结合所述DNA骨架中的至少一个DNA结合位点。
57.根据权利要求56所述的系统,其中所述嵌合酶蛋白的所述DNA结合结构域部分包括锌指DNA结合结构域,且所述DNA骨架的所述DNA结合位点包括对应锌指结合序列。
58.根据权利要求56所述的系统,其中所述两种或更多种嵌合酶蛋白中的每一个的所述酶部分通过多肽连接子序列与其相应DNA结合结构域部分偶联。
59.根据权利要求56所述的系统,其中所述两种或更多种嵌合酶蛋白中的每一个的所述酶部分通过其氨基端或其羧基端与其相应DNA结合结构域部分偶联。
60.根据权利要求56所述的系统,其中所述两种或更多种嵌合酶蛋白包括氨基酸生物合成路径的酶。
61.一种双顺反子设计调控(BCD)序列,所述BCD序列依次包括:
a.与其可操作地连接的启动子;
b.第一核糖体结合位点(SD1);
c.第一顺反子序列(Cis1);
d.第二核糖体结合位点(SD2);
其中所述BCD序列与目标基因序列(Cis2)可操作地连接。
62.根据权利要求61所述的BCD,其中SD1和SD2各自包括NNNGGANNN的序列。
63.根据权利要求61所述的BCD,其中SD1和SD2不同。
64.根据权利要求61所述的BCD,其中Cis1包括终止密码子,且其中Cis2包括起始密码子,且其中所述Cis1终止密码子和所述Cis2起始密码子重叠至少1个核苷酸。
65.根据权利要求61所述的BCD,其中SD2完全包埋在Cis1内。
66.一种用于在宿主生物体中表达两种目标基因蛋白的方法,所述方法包括以下步骤:
a.将编码第一目标基因蛋白的第一多核苷酸引入到所述宿主生物体中,其中所述第一多核苷酸与根据权利要求61所述的第一双顺反子设计调控(BCD)序列可操作地连接;和b.将编码第二目标基因蛋白的第二多核苷酸引入到所述宿主生物体中,所述第二多核苷酸与根据权利要求61所述的第二BCD可操作地连接;
其中除其相应Cis1序列以外,所述第一BCD和所述第二BCD一致,且其中所述目标基因蛋白分别以第一和第二表达水平在所述宿主生物体中表达。
67.根据权利要求66所述的方法,其中所述第一表达水平在所述第二表达水平的1.5倍内。
68.根据权利要求66所述的方法,其中相较于其中所述第一多核苷酸和所述第二多核苷酸通过一致BCD表达的对照宿主细胞,所述第一多核苷酸和所述第二多核苷酸在所述宿主细胞中经历更低水平的同源重组。
69.一种用于产生蛋白质溶解性标签交换大肠杆菌菌株文库的方法,其包括以下步骤:
a.提供对于基本大肠杆菌菌株为内源的多种目标基因和溶解性标签梯,其中所述溶解性标签梯包括在所述基本大肠杆菌菌株中呈现不同溶解性概况的多种溶解性标签;和b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始溶解性标签交换大肠杆菌菌株文库,在所述多种个别大肠杆菌菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与对于所述基本大肠杆菌菌株为内源的所述目标基因中的一个可操作地连接的所述溶解性标签梯的一或多种溶解性标签。
70.一种用于改进生产性大肠杆菌菌株的表型性能的蛋白质溶解性标签交换方法,其包括以下步骤:
a.提供对于基本大肠杆菌菌株为内源的多种目标基因和溶解性标签梯,其中所述溶解性标签梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种溶解性标签;
b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始溶解性标签交换大肠杆菌菌株文库,在所述多种个别大肠杆菌菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与对于所述基本大肠杆菌菌株为内源的所述目标基因中的一个可操作地连接的所述溶解性标签梯的一或多种溶解性标签;
c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始溶解性标签交换大肠杆菌菌株文库的个别菌株,借此鉴定赋予表型性能改进的独特基因变异;
d.提供后续多种大肠杆菌微生物,其各自包括来自存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中的所述基因变异的独特基因变异组合,借此创建后续溶解性标签交换大肠杆菌菌株文库;
e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续溶解性标签交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基因变异独特组合;和
f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于所述生产性大肠杆菌菌株的所述表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能为止,其中每次后续迭代创建新的微生物菌株溶解性标签交换大肠杆菌菌株文库,其中所述新文库中的每种菌株包括基因变异,所述基因变异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组合。
71.根据权利要求70所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中所述后续溶解性标签交换大肠杆菌菌株文库是所述初始溶解性标签交换大肠杆菌菌株文库的完全组合性文库。
72.根据权利要求70所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中所述后续溶解性标签交换大肠杆菌菌株文库是所述初始溶解性标签交换大肠杆菌菌株文库的完全组合性文库的子集。
73.根据权利要求70所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中所述后续溶解性标签交换大肠杆菌菌株文库是前一个溶解性标签交换大肠杆菌菌株文库的完全组合性文库。
74.根据权利要求70所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中所述后续溶解性标签交换大肠杆菌菌株文库是前一个溶解性标签交换大肠杆菌菌株文库的完全组合性文库的子集。
75.根据权利要求70至74中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续溶解性标签交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少10%为止。
76.根据权利要求70至74中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续溶解性标签交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少一倍为止。
77.根据权利要求70至74中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:所关注产物的体积生产率、所关注产物的比生产率、所关注产物的产量、所关注产物的效价和其组合。
78.根据权利要求70至74中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中步骤f)的所述已改进的表型性能是:所关注产物的生产增加或更有效,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、乙醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
79.一种用于产生蛋白质降解标签交换大肠杆菌菌株文库的方法,其包括以下步骤:
a.提供对于基本大肠杆菌菌株为内源的多种目标基因和降解标签梯,其中所述降解标签梯包括在所述基本大肠杆菌菌株中呈现不同溶解性概况的多种降解标签;和
b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始降解标签交换大肠杆菌菌株文库,在所述多种个别大肠杆菌菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与对于所述基本大肠杆菌菌株为内源的所述目标基因中的一个可操作地连接的所述降解标签梯的一或多种降解标签。
80.一种用于改进生产性大肠杆菌菌株的表型性能的蛋白质降解标签交换方法,其包括以下步骤:
a.提供对于基本大肠杆菌菌株为内源的多种目标基因和降解标签梯,其中所述降解标签梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种降解标签;
b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始降解标签交换大肠杆菌菌株文库,在所述多种个别大肠杆菌菌株的每种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与对于所述基本大肠杆菌菌株为内源的所述目标基因中的一个可操作地连接的所述降解标签梯的一或多种降解标签;
c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始降解标签交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予表型性能改进的独特基因变异;
d.提供后续多种大肠杆菌微生物,其各自包括来自存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中的所述基因变异的独特基因变异组合,借此创建后续降解标签交换大肠杆菌菌株文库;
e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续降解标签交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基因变异独特组合;和
f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于所述生产性大肠杆菌菌株的所述表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能为止,其中每次后续迭代创建新的微生物菌株降解标签交换大肠杆菌菌株文库,其中所述新文库中的每种菌株包括基因变异,所述基因变异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组合。
81.根据权利要求80所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中所述后续降解标签交换大肠杆菌菌株文库是所述初始降解标签交换大肠杆菌菌株文库的完全组合性文库。
82.根据权利要求80所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中所述后续降解标签交换大肠杆菌菌株文库是所述初始降解标签交换大肠杆菌菌株文库的完全组合性文库的子集。
83.根据权利要求80所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中所述后续降解标签交换大肠杆菌菌株文库是前一个降解标签交换大肠杆菌菌株文库的完全组合性文库。
84.根据权利要求80所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中所述后续降解标签交换大肠杆菌菌株文库是前一个降解标签交换大肠杆菌菌株文库的完全组合性文库的子集。
85.根据权利要求80至84中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续降解标签交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少10%为止。
86.根据权利要求80至84中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续降解标签交换大肠杆菌菌株文库的大肠杆菌菌株的表型性能呈现出所测量的表型变量增加至少一倍为止。
87.根据权利要求80至84中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:
所关注产物的体积生产率、所关注产物的比生产率、所关注产物的产量、所关注产物的效价和其组合。
88.根据权利要求80至84中任一权利要求所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中步骤f)的所述已改进的表型性能是:所关注产物的生产增加或更有效,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、乙醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
89.一种用于在微生物宿主细胞中表达的与异源基因可操作地连接的嵌合合成启动子,其中所述嵌合合成启动子的长度为60-90个核苷酸且由以下组成:λ噬菌体pR启动子的远端部分、λ噬菌体pL和pR启动子的长度各自为六个核苷酸的可变-35和-10区、λ噬菌体pL和pR启动子的核心部分和λ噬菌体pR启动子的5'UTR/核糖体结合位点RBS部分。
90.根据权利要求89所述的嵌合合成启动子,其中以下各项的核酸序列选自见于表1.5中的核酸序列:所述λ噬菌体pR启动子的所述远端部分、所述λ噬菌体pL和pR启动子的所述可变-35和-10区、所述λ噬菌体pL和pR启动子的所述核心部分和所述λ噬菌体pR启动子的5'UTR/核糖体结合位点RBS部分。
91.一种用于在微生物宿主细胞中表达的与异源基因可操作地连接的嵌合合成启动子,其中所述嵌合合成启动子的长度为60-90个核苷酸且由以下组成:λ噬菌体pR启动子的远端部分、λ噬菌体pL和pR启动子的长度各自为六个核苷酸的可变-35和-10区、λ噬菌体pL和pR启动子的核心部分和大肠杆菌acs基因的启动子的5'UTR/核糖体结合位点RBS部分。
92.根据权利要求91所述的嵌合合成启动子,其中以下各项的核酸序列选自见于表1.5中的核酸序列:所述λ噬菌体pR启动子的所述远端部分、所述λ噬菌体pL和pR启动子的所述可变-35和-10区、所述λ噬菌体pL和pR启动子的所述核心部分和所述大肠杆菌acs基因的启动子的所述5'UTR/核糖体结合位点RBS部分。
93.根据权利要求89至90中任一权利要求所述的嵌合合成启动子,其中所述嵌合合成启动子由选自以下的核酸序列组成:SEQ ID NO.132-152、159-160、162、165、174-175、188、
190、199-201或207。
94.根据权利要求91至92中任一权利要求所述的嵌合合成启动子,其中所述嵌合合成启动子由选自以下的核酸序列组成:SEQ ID NO.153-158、161、163-164、166-173、176-187、
189、191-198或202-206。
95.根据权利要求89至92中任一权利要求所述的嵌合合成启动子,其中所述微生物宿主细胞是大肠杆菌。
96.根据权利要求95所述的嵌合合成启动子,其中所述异源基因编码见于表2中的所关注蛋白质产物。
97.根据权利要求95所述的嵌合合成启动子,其中所述异源基因是赖氨酸生物合成路径的一部分的基因。
98.根据权利要求97所述的嵌合合成启动子,其中所述异源基因选自以下:asd基因、ask基因、hom基因、dapA基因、dapB基因、dapD基因、ddh基因、argD基因、dapE基因、dapF基因、lysA基因、lysE基因、zwf基因、pgi基因、ktk基因、fbp基因、ppc基因、pck基因、ddx基因、pyc基因或icd基因。
99.根据权利要求95所述的嵌合合成启动子,其中所述异源基因是番茄红素生物合成路径的一部分的基因。
100.根据权利要求99所述的嵌合合成启动子,其中所述异源基因选自以下:dxs基因、ispC基因、ispE基因、ispD基因、ispF基因、ispG基因、ispH基因、idi基因、ispA基因、ispB基因、crtE基因、crtB基因、crtI基因、crtY基因、ymgA基因、dxr基因、elbA基因、gdhA基因、appY基因、elbB基因或ymgB基因。
101.根据权利要求95所述的嵌合合成启动子,其中所述异源基因编码生物药剂或是用于产生生物药剂的路径中的基因。
102.根据权利要求99所述的嵌合合成启动子,其中所述生物药剂选自以下:优泌林(rh胰岛素)、intronA(干扰素α2b)、罗扰素(干扰素α2a)、优猛茁(索托品rh生长激素)、优保津(非格司亭)、德塔扰素(干扰素β-1b)、优泌乐(快速作用胰岛素)、瑞普森(瑞替普酶)、干复津(干扰素阿尔法康-1)、升糖素、贝若曼(他索纳明)、恩塔克(地尼白介素)、兰德仕(长效甘精胰岛素)、肯瑞特(阿那白滞素)、纳翠可(奈西立肽)、索玛维特(派格索曼)、降血素(重组鲑降血钙素)、乐舒晴(兰尼珠单抗)、普瑞他(人类甲状旁腺激素)、可瑞斯谢(聚乙二醇化的rh尿酸盐化酶)、尼维斯替姆(非格司亭,rhGCSF)、沃瑞夏兹(谷卡皮酶)或匹瑞斯(甲状旁腺激素)。
103.一种异源基因,其与具有选自SEQ ID NO.132-207的核酸序列的嵌合合成启动子可操作地连接。
104.根据权利要求103所述的异源基因,其中所述异源基因编码见于表2中的所关注蛋白质产物。
105.根据权利要求103所述的异源基因,其中所述异源基因是赖氨酸生物合成路径的一部分的基因。
106.根据权利要求105所述的异源基因,其中所述异源基因选自以下:asd基因、ask基因、hom基因、dapA基因、dapB基因、dapD基因、ddh基因、argD基因、dapE基因、dapF基因、lysA基因、lysE基因、zwf基因、pgi基因、ktk基因、fbp基因、ppc基因、pck基因、ddx基因、pyc基因或icd基因。
107.根据权利要求103所述的异源基因,其中所述异源基因是番茄红素生物合成路径的一部分的基因。
108.根据权利要求107所述的异源基因,其中所述异源基因选自以下:dxs基因、ispC基因、ispE基因、ispD基因、ispF基因、ispG基因、ispH基因、idi基因、ispA基因、ispB基因、crtE基因、crtB基因、crtI基因、crtY基因、ymgA基因、dxr基因、elbA基因、gdhA基因、appY基因、elbB基因或ymgB基因。
109.根据权利要求103所述的异源基因,其中所述异源基因编码生物药剂或是用于产生生物药剂的路径中的基因。
110.根据权利要求109所述的异源基因,其中所述生物药剂选自以下:优泌林(rh胰岛素)、intronA(干扰素α2b)、罗扰素(干扰素α2a)、优猛茁(索马托品rh生长激素)、优保津(非格司亭)、德塔扰素(干扰素β-1b)、优泌乐(快速作用胰岛素)、瑞普森(瑞替普酶)、干复津(干扰素阿尔法康-1)、升糖素、贝若曼(他索纳明)、恩塔克(地尼白介素)、兰德仕(长效甘精胰岛素)、肯瑞特(阿那白滞素)、纳翠可(奈西立肽)、索玛维特(派格索曼)、降血钙素(重组鲑降血钙素)、乐舒晴(兰尼珠单抗)、普瑞他(人类甲状旁腺激素)、可瑞斯谢(聚乙二醇化的rh尿酸盐氧化酶)、尼维斯替姆(非格司亭,rhGCSF)、沃瑞夏兹(谷卡皮酶)或匹瑞斯(甲状旁腺激素)。

说明书全文

用于改进大肠杆菌的HTP基因工程改造平台

[0001] 相关申请的交叉引用
[0002] 本申请案主张2017年6月6日提交的第62/515,870号美国临时申请的优先权,出于所有目的其以全文引用的方式并入本文中。

技术领域

[0003] 本发明涉及针对大肠杆菌(Escherichia coli)的高通量(HTP)生物基因工程改造。所公开的HTP基因工程改造平台由计算机驱动且整合了分子生物学、自动化和先进机器
学习方案。这个集成平台利用一套HTP分子工具集创建HTP基因设计文库,所述基因设计文
库尤其利用科学见解和迭代模式识别得到。
[0004] 关于序列表声明
[0005] 以文本格式代替纸本拷贝提供与本申请案相关的序列表,且在此以引用的方式并入本说明书中。含有序列表的文本文件的名称是ZYMR_012_01WO_SeqList_ST25.txt。文本
文件是≈127KB,创建于2018年6月6日,且通过EFS-Web用电子方式提交。

背景技术

[0006] 人类利用微生物细胞生物合成路径产生所关注的产物的能已有一千年,所述产物的最古老实例包含醇、醋、奶酪和酵母乳。这些产物在当今仍然存在巨大的需求且还伴随
着微生物所能产生的产物谱系的不断增大。基因工程改造技术的出现使得科学家能够设计
出多种生物体内的新颖生物合成路径且对其进行编程,从而产生广泛范围的工业、医疗和
消费产品。的确,微生物细胞培养物现在用于产生小分子、抗生素、疫苗杀虫剂、酶、燃料和工业化学品范围内的产物。
[0007] 鉴于现代工业微生物产生的产物多种多样,因此工程师们承受着提高所指定微生物能够产生目标产物的速度和效率的巨大压力是不令人惊讶的。已经使用多种方法,通过
“改进”所涉及的微生物来改进基于生物学的工业工艺的经济性。举例来说,许多医药和化
学工业依赖于微生物菌株改进程序,其中使微生物培养物的亲代菌株通过暴露于化学品或
UV辐射而连续发生突变且随后针对性能增强(如生产力、产率和效价)进行筛选。广泛地重
复这种突变诱发过程直到菌株展现产物性能的适当增强为止。接着使用后续“改进”菌株进
行商业生产。通过突变诱发来鉴定改进的工业微生物菌株耗时且效率低。所述过程就其本
质来说是偶然的且依赖于意外的在产物输出上具有所期望结果的突变。传统的微生物菌株
改进程序不仅效率低,而且所述过程还会产生具有较高程度的有害突变诱发负荷的工业菌
株。经受这些类型的程序的工业菌株中的突变积累会变得明显且可能导致性能改进速率出
现最终的停滞。
[0008] 对于传统菌株改进程序导致的停滞,可能不存在比大肠杆菌更好的实例,所述大肠杆菌是现有工程改造最多的微生物宿主系统中的一个。微生物已经受前述传统的微生物
菌株改进方法数十年。尽管对工程改造大肠杆菌已进行大量努力,但微生物仍拥有巨大的
未被开发的潜能。这是因为大肠杆菌对于研究人员出于生产目的试图改进微生物呈现独特
的挑战。这些挑战已对大肠杆菌的基因工程改造领域造成阻碍,且妨碍研究人员利用这种
微生物系统的全部潜能。
[0009] 特定来说,业界尚未研发出一种用于大肠杆菌的基因工程改造的高通量系统。显而易见的是,传统的菌株改进方法已经达到关于这种生物体系统的平台期,但研究人员不
具有穿越这个平台期所需要的基因工程改造工具。
[0010] 因此,在所属领域中极需要出于生产目的工程改造大肠杆菌的新颖方法,所述大肠杆菌不受前述传统菌株改进程序所固有的缺点困扰。具体来说,用于探索和合并大肠杆
菌中的有益突变的高通量系统将彻底改变所述领域且允许研究人员采用这种生物体的全
部潜能。

发明内容

[0011] 本公开提供一种针对大肠杆菌的高通量(HTP)微生物基因工程改造平台,其不受与传统微生物菌株改进程序相关的多种问题困扰。
[0012] 此外,本文所教示的HTP平台能够修复大肠杆菌菌株,所述大肠杆菌菌株通过数十年的基于随机突变诱发的菌株改进程序已经积累了非有益突变。
[0013] 本公开还提供独特基因工程改造工具集和程序,其加强了大肠杆菌系统中HTP平台的功能性。
[0014] 所公开的HTP基因工程改造平台由计算机驱动且整合了分子生物学、自动化和先进机器学习方案。这个集成平台利用一套HTP分子工具集创建HTP基因设计文库,所述基因
设计文库尤其利用科学见解和迭代模式识别得到。
[0015] 通过提供用于在大肠杆菌中测试的特定基因组变异文库,所教示的HTP基因设计文库充当基因工程改造过程的驱动器。利用特定文库或文库组合加以工程改造的微生物是
针对所得结果(例如所关注产物的产生),以HTP方式高效筛选。利用HTP基因设计文库界定
用于在微生物中测试的特定基因组变异,且接着随后筛选具有所述变异的宿主微生物基因
组是以有效且迭代的方式实施。在一些方面中,基因工程改造活动的迭代循环或“轮次”可
以是至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更多个迭代/循环/轮次。
[0016] 因此,在一些方面中,本发明教示在大肠杆菌宿主系统中进行至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、
33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、50、51、52、53、54、55、56、
57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、
82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、125、150、175、200、
225、250、275、300、325、350、375、400、425、450、475、500、525、550、575、600、625、650、675、
700、725、750、775、800、825、850、875、900、925、950、975、1000或更多“轮次”的HTP基因工程改造(例如,SNP交换、PRO交换、STOP交换或其组合的轮次)。
[0017] 在一些实施例中,本公开教示一种线性方法,其中每一轮后续HTP基因工程改造是基于前一轮基因工程改造中所鉴定的基因变异。在其它实施例中,本公开教示一种非线性
方法,其中每一轮后续HTP基因工程改造是基于任何前一轮基因工程改造(包含先前进行的
分析,和单独的HTP基因工程改造分支)中所鉴定的基因变异。
[0018] 这些迭代循环的数据使得能够进行大规模数据分析和模式识别,从而被集成平台利用以告知后续多轮HTP基因设计文库实施方案。因此,所教示平台中使用的HTP基因设计
文库是高度动态工具,其受益于大规模数据模式识别算法且通过每轮迭代微生物工程改造
而变得信息更丰富。从未研发出针对大肠杆菌的这种系统且在所属领域中迫切需要所述系
统。
[0019] 在一些实施例中,本公开的基因设计库包括至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、
38、39、40、41、42、43、44、45、46、47、48、49、50、50、51、52、53、54、55、56、57、58、59、60、61、
62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、
87、88、89、90、91、92、93、94、95、96、97、98、99、100、125、150、175、200、225、250、275、300、
325、350、375、400、425、450、475、500、525、550、575、600、625、650、675、700、725、750、775、
800、825、850、875、900、925、950、975、1000或更多种个别基因变化(例如,PRO交换文库中的至少X个启动子:基因组合)。
[0020] 在一些实施例中,本公开教示一种使大肠杆菌菌株进化以获得所期望表型的高通量(HTP)基因工程改造方法,其包括:a)扰动具有相同菌株背景的初始多种大肠杆菌菌株的
基因组,借此创建包括具有独特基因变异的个别菌株的初始HTP基因设计大肠杆菌菌株文
库;b)针对所期望的表型来筛选和选择初始HTP基因设计大肠杆菌菌株文库中的个别菌株;
c)提供各自包括基因变异独特组合的后续多种大肠杆菌微生物,所述基因变异选自前一步
骤所筛选的至少两种个别大肠杆菌菌株中所存在的基因变异,借此创建后续HTP基因设计
大肠杆菌菌株文库;d)针对所期望的表型来筛选和选择后续HTP基因设计大肠杆菌菌株文
库中的个别大肠杆菌菌株;e)以线性或非线性方式重复步骤c)-d)一或多次,直到大肠杆菌
菌株已获得所期望表型为止,其中每次后续迭代创建新的HTP基因设计大肠杆菌菌株文库,
所述新文库包括具有独特基因变异的个别大肠杆菌菌株,所述独特基因变异是选自前一个
HTP基因设计大肠杆菌菌株文库中的至少两种个别大肠杆菌菌株的基因变异组合。
[0021] 在一些实施例中,本公开教示,所述初始HTP基因设计大肠杆菌菌株文库是选自由以下组成的群组的至少一个文库:启动子交换微生物菌株文库、SNP交换微生物菌株文库、
起始/终止密码子微生物菌株文库、优化序列微生物菌株文库、终止子交换微生物菌株文
库、蛋白质溶解性标签微生物菌株文库、蛋白质降解标签微生物菌株文库和其任何组合。
[0022] 在一些实施例中,本公开教示制备各自包括基因变异独特组合的后续多种大肠杆菌菌株的方法,其中所组合的基因变异中的每一个来源于初始HTP基因设计大肠杆菌菌株
文库或前一步骤的HTP基因设计大肠杆菌菌株文库。
[0023] 在一些实施例中,后续多种大肠杆菌菌株中的基因变异组合将包括初始HTP基因设计大肠杆菌菌株文库或前一步骤的HTP基因设计大肠杆菌菌株文库中的所有可能的基因
变异组合的子集。
[0024] 在一些实施例中,本公开教示,后续HTP基因设计大肠杆菌菌株文库是来源于初始HTP基因设计大肠杆菌菌株文库或前一步骤的HTP基因设计大肠杆菌菌株文库中的基因变
异的完全组合性菌株文库。
[0025] 举例来说,如果先前HTP基因设计大肠杆菌菌株文库仅具有基因变异A、B、C和D,那么所述变异的部分组合性文库可包含含三种菌株的后续HTP基因设计大肠杆菌菌株文库,
所述三种菌株各自包括AB、AC或AD基因变异独特组合(所表示突变的次序是不重要的)。来
源于前一步骤的HTP基因设计文库的基因变异的完全组合性大肠杆菌菌株文库将包含六种
微生物,其各自包括AB、AC、AD、BC、BD或CD基因变异独特组合。
[0026] 在一些实施例中,本公开的方法教示利用至少一种选自由以下组成的群组的方法扰动大肠杆菌的基因组:随机突变诱发、靶向序列插入、靶向序列缺失、靶向序列置换或其
任何组合。
[0027] 在本公开方法的一些实施例中,初始多种大肠杆菌包括来源于工业生产性大肠杆菌菌株的独特基因变异。
[0028] 在本公开方法的一些实施例中,初始多种大肠杆菌包括表示为S1Gen1的工业生产性大肠杆菌菌株和来源于其的表示为SnGenn的任何数量的后续微生物世代。
[0029] 在一些实施例中,本公开教示一种用于产生SNP交换大肠杆菌菌株文库的方法,其包括以下步骤:a)提供参考大肠杆菌菌株和第二大肠杆菌菌株,其中第二大肠杆菌菌株包
括选自单核苷酸多态性、DNA插入和DNA缺失的多个已鉴定基因变异,所述已鉴定基因变异
不存在于参考菌株中;b)扰动参考菌株或第二菌株的基因组,借此创建包括多种个别大肠
杆菌菌株的初始SNP交换大肠杆菌菌株文库,所述多种个别菌株的每种菌株内发现有独特
基因变异,其中所述独特基因变异中的每一种对应于选自参考菌株与第二菌株之间的多种
已鉴定基因变异的单一基因变异。
[0030] 在SNP交换文库的一些实施例中,扰动所述参考大肠杆菌菌株的基因组以添加在所述第二大肠杆菌菌株中所发现的所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一
或多种。
[0031] 在SNP交换文库的一些实施例中,扰动所述第二大肠杆菌菌株的基因组,以去除未在所述参考大肠杆菌菌株中发现的所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一
或多种。
[0032] 在一些实施例中,SNP交换文库中的基因变异将包括参考大肠杆菌菌株与第二大肠杆菌菌株之间的所有已鉴定基因变异的子集。
[0033] 在一些实施例中,SNP交换文库的基因变异将包括参考大肠杆菌菌株与第二大肠杆菌菌株之间鉴定的所有已鉴定基因变异。
[0034] 在一些实施例中,本公开教示一种用于修复和改进工业大肠杆菌菌株的表型性能的方法,其包括以下步骤:a)提供亲本谱系大肠杆菌菌株和来源于其的工业大肠杆菌菌株,
其中所述工业菌株包括选自单核苷酸多态性、DNA插入和DNA缺失的多个已鉴定基因变异,
所述基因变异不存在于亲本谱系菌株中;b)扰动亲本谱系菌株或工业菌株的基因组,借此
创建包括多种个别菌株的初始SNP交换大肠杆菌菌株文库,所述多种个别菌株的每种菌株
内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自亲本谱系菌株与工
业菌株之间的多种已鉴定基因变异的单一基因变异;c)针对优于参考大肠杆菌菌株的表型
性能改进来筛选和选择初始SNP交换大肠杆菌菌株文库的个别菌株,借此鉴定赋予所述大
肠杆菌菌株表型性能改进的独特基因变异;d)提供各自包括基因变异独特组合的后续多种
大肠杆菌菌株,所述基因变异选自存在于前一步骤中筛选的至少两种个别菌株中的基因变
异,借此创建后续SNP交换大肠杆菌菌株文库;e)针对优于参考菌株的表型性能改进来筛选
和选择后续SNP交换大肠杆菌菌株文库的个别菌株,借此鉴定赋予所述大肠杆菌菌株额外
表型性能改进的基因变异独特组合;和f)以线性或非线性方式重复步骤d)-e)一或多次,直
到相较于工业大肠杆菌菌株的表型性能,菌株呈现所期望平的已改进的表型性能为止,
其中每次后续迭代创建新的SNP交换大肠杆菌菌株文库,所述新文库包括具有独特基因变
异的个别微生物菌株,所述独特基因变异是选自前一个SNP交换大肠杆菌菌株文库的至少
两种个别微生物菌株的基因变异组合。
[0035] 在一些实施例中,本公开教示用于修复和改进工业大肠杆菌菌株的表型性能的方法,其中扰动所述亲本谱系大肠杆菌菌株的基因组以添加在生产性大肠杆菌菌株中发现的
所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一或多个。
[0036] 在一些实施例中,本公开教示用于修复和改进工业大肠杆菌菌株的表型性能的方法,其中扰动所述工业大肠杆菌菌株的基因组以去除未在亲本谱系大肠杆菌菌株中发现的
所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一或多个。
[0037] 在一些实施例中,本公开教示一种用于产生启动子交换大肠杆菌菌株文库的方法,所述方法包括以下步骤:a)提供基本大肠杆菌菌株的多种内源目标基因和启动子梯,其
中所述启动子梯包括在基本大肠杆菌菌株中呈现不同表达谱的多种启动子;b)对基本大肠
杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始启动子交换
大肠杆菌菌株文库,所述多种个别菌株的每种菌株内发现有独特的基因变异,其中所述独
特基因变异中的每一种包括来自与基本大肠杆菌菌株的内源目标基因中的一个可操作地
连接的启动子梯的一个启动子。
[0038] 在一些实施例中,本公开教示一种使大肠杆菌菌株进化以获得所期望表型的基因工程改造启动子交换方法,所述方法包括以下步骤:a)提供基本大肠杆菌菌株的多种内源
目标基因和启动子梯,其中所述启动子梯包括在基本大肠杆菌菌株中呈现不同表达谱的多
种启动子;b)对基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆
菌菌株的初始启动子交换大肠杆菌菌株文库,所述多种个别菌株的每种菌株内发现有独特
基因变异,其中所述独特基因变异中的每一种包括来自与基本大肠杆菌菌株的内源目标基
因中的一个可操作地连接的启动子梯的一个启动子;c)针对所期望的表型来筛选和选择初
始启动子交换大肠杆菌菌株文库的个别菌株;d)提供各自包括基因变异独特组合的后续多
种大肠杆菌菌株,所述基因变异选自前一步骤中所筛选的至少两种个别菌株中所存在的基
因变异,借此创建后续启动子交换大肠杆菌菌株文库;e)针对所期望表型来筛选和选择后
续启动子交换大肠杆菌菌株文库的个别菌株;f)以线性或非线性方式重复步骤d)-e)一或
多次,直到微生物已获得所期望表型为止,其中每次后续迭代创建新的启动子交换大肠杆
菌菌株文库,所述新文库包括具有独特基因变异的个别菌株,所述独特基因变异是选自前
一个启动子交换大肠杆菌菌株文库中的至少两种个别菌株的基因变异组合。
[0039] 在一些实施例中,本公开教示一种用于产生终止子交换大肠杆菌菌株文库的方法,所述方法包括以下步骤:a)提供基本大肠杆菌菌株的多种内源目标基因和终止子梯,其
中所述终止子梯包括在基本大肠杆菌菌株中呈现不同表达谱的多种终止子;b)对基本大肠
杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始终止子交换
大肠杆菌菌株文库,所述多种个别菌株的每种菌株内发现有独特基因变异,其中所述独特
基因变异中的每一种包括来自与基本大肠杆菌菌株的内源目标基因中的一个可操作地连
接的终止子梯中的一或多个。
[0040] 在一些实施例中,本公开教示一种使大肠杆菌菌株进化以获得所期望表型的基因工程改造终止子交换方法,所述方法包括以下步骤:a)提供基本大肠杆菌菌株的多种内源
目标基因和终止子梯,其中所述终止子梯包括在基本大肠杆菌菌株中呈现不同表达谱的多
种终止子;b)对基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆
菌菌株的初始终止子交换大肠杆菌菌株文库,所述多种个别菌株的每种菌株内发现有独特
基因变异,其中所述独特基因变异中的每一种包括与来自终止子梯的一或多个终止子可操
作地连接的基本大肠杆菌菌株的内源目标基因中的一个;c)针对所期望表型来筛选和选择
初始终止子交换大肠杆菌菌株文库的个别微生物菌株;d)提供各自包括基因变异独特组合
的后续多种大肠杆菌菌株,所述基因变异选自前一步骤中所筛选的至少两种个别菌株中所
存在的基因变异,借此创建后续终止子交换大肠杆菌菌株文库;e)针对所期望表型来筛选
和选择后续终止子交换大肠杆菌菌株文库的个别菌株;f)以线性或非线性方式重复步骤
d)-e)一或多次,直到微生物已获得所期望表型为止,其中每次后续迭代创建新的终止子交
换大肠杆菌菌株文库,所述新文库包括具有独特基因变异的个别菌株,所述独特基因变异
是选自前一个终止子交换大肠杆菌菌株文库中的至少两种个别菌株的基因变异组合。
[0041] 在一些实施例中,本公开教示通过以下来迭代地改进候选大肠杆菌菌株的设计:(a)进入填有训练集的预测模型,所述训练集包括(1)输入代表相对于一或多种背景大肠杆
菌菌株的基因变化和(2)对应性能测量;(b)将代表基因变化的测试输入应用于预测模型,
所述测试输入对应于并入那些基因变化的候选大肠杆菌菌株;(c)至少部分地基于预测模
型,预测候选大肠杆菌菌株的表型性能;(d)至少部分地基于其预测性能,选择第一子集的
候选大肠杆菌菌株;(e)获得第一子集的候选大肠杆菌菌株的所测量表型性能;(f)至少部
分基于其测量表型性能,选择第二子集的候选大肠杆菌菌株;(g)向预测模型的训练集添加
(1)对应于所选择第二子集的候选大肠杆菌菌株的输入以及(2)对应所选择第二子集的候
选大肠杆菌菌株的所测量性能的输入;和(h)重复(b)-(g),直到至少一个候选大肠杆菌菌
株的所测量表型性能满足性能度量为止。在一些情况下,在将测试输入第一应用于预测模
型期间,由测试输入代表的基因变化包括相对于一或多个背景大肠杆菌菌株的基因变化;
和在后续应用测试输入期间,由测试输入代表的基因变化包括相对于先前选择的第二子集
的候选大肠杆菌菌株内的候选大肠杆菌菌株的基因变化。
[0042] 在一些实施例中,第一子集的选择可以基于上位效应。这可通过以下来得以实现:在第一子集的首次选择期间:测定一或多个背景大肠杆菌菌株的性能测量之间的差异程
度,所述性能测量响应于应用代表相对于一或多个背景大肠杆菌菌株的基因变化的多种相
应输入;以及至少部分地基于一或多个背景大肠杆菌菌株的性能测量的差异程度来选择至
少两种候选大肠杆菌菌株纳入第一子集,所述性能测量响应于应用并入所述至少两种候选
大肠杆菌菌株中的基因变化。
[0043] 在一些实施例中,本发明教示在候选大肠杆菌菌株的迭代改进中应用上位效应,所述方法包括:获得代表所测量性能的数据,所述所测量性能响应于至少一种背景大肠杆
菌菌株所产生的对应基因变化;至少部分地基于至少两种基因变化的对应响应性性能测量
之间的差异程度来选择至少两种基因变化,其中差异程度是指所述至少两种基因变化通过
不同生物学路径影响其对应响应性性能测量的程度;和设计相对于背景大肠杆菌菌株的基
因变化,包含所选基因变化。在一些情况下,针对其设计至少两种所选择基因变化的背景大
肠杆菌菌株,与获得其表示所测量响应性性能的数据的至少一种背景大肠杆菌菌株相同。
[0044] 在一些实施例中,本公开教示仅利用单一类型的基因文库进行的大肠杆菌菌株改进方法。举例来说,在一些实施例中,本公开教示仅利用SNP交换文库进行的HTP大肠杆菌菌
株改进方法。在其它实施例中,本公开教示仅利用PRO交换文库进行的HTP大肠杆菌菌株改
进方法。在一些实施例中,本公开教示仅利用STOP交换文库进行的HTP大肠杆菌菌株改进方
法。在一些实施例中,本公开教示仅利用起始/终止密码子交换文库进行的HTP大肠杆菌菌
株改进方法。
[0045] 在其它实施例中,本公开教示利用两种或更多种类型的基因文库进行的HTP大肠杆菌菌株改进方法。举例来说,在一些实施例中,本公开教示将SNP交换与PRO交换文库组合
的HTP大肠杆菌菌株改进方法。在一些实施例中,本公开教示将SNP交换与STOP交换文库组
合的HTP大肠杆菌菌株改进方法。在一些实施例中,本公开教示将PRO交换与STOP交换文库
组合的HTP大肠杆菌菌株改进方法。
[0046] 在其它实施例中,本公开教示利用多种类型的基因文库进行的HTP大肠杆菌菌株改进方法(参见例如图5)。在一些实施例中,将基因文库组合以产生组合突变(例如应用于
一或多种基因的启动子/终止子组合梯)。在又其它实施例中,可以将本公开的HTP大肠杆菌
菌株改进方法与一或多种传统的菌株改进方法组合。
[0047] 在一些实施例中,本公开的HTP大肠杆菌菌株改进方法产生改进的大肠杆菌宿主细胞。即,本公开教示改进一或多种大肠杆菌宿主细胞特性的方法。在一些实施例中,已改
进的大肠杆菌宿主细胞特性选自由以下组成的群组:由大肠杆菌宿主细胞产生的所关注产
物的体积生产力、比生产力、产量或滴度。在一些实施例中,已改进的大肠杆菌宿主细胞特
性是体积生产力。在一些实施例中,已改进的大肠杆菌宿主细胞特性是比生产力。在一些实
施例中,已改进的大肠杆菌宿主细胞特性是产量。
[0048] 在一些实施例中,本公开的HTP大肠杆菌菌株改进方法产生一种呈现优于未经受HTP菌株改进方法的对照大肠杆菌宿主细胞的至少一种大肠杆菌宿主细胞特性的以下改进
的大肠杆菌宿主细胞:1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、
14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、
29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、
44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、
59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、
74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、
89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、
250%、300%或更多(例如所关注生物分子的产量或产率改进X%,并入其间的任何范围和
子范围)。在一些实施例中,本公开的HTP大肠杆菌菌株改进方法选自由以下组成的群组:
SNP交换、PRO交换、STOP交换、溶解性TAG交换、降解TAG交换和其组合。
[0049] 因此,在一些实施例中,本公开的SNP交换方法产生呈现优于未经受SNP交换方法的对照大肠杆菌宿主细胞的至少一种大肠杆菌宿主细胞特性的以下改进的大肠杆菌宿主
细胞:1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、
17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、
32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、
47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、
62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、
77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、
92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、250%、300%或更多(例如所关注生物分子的产量或产率改进X%,并入其间的任何范围和子范围)。
[0050] 因此,在一些实施例中,本公开的PRO交换方法产生呈现优于未经受PRO交换方法的对照大肠杆菌宿主细胞的至少一种大肠杆菌宿主细胞特性的以下改进的大肠杆菌宿主
细胞:1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、
17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、
32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、
47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、
62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、
77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、
92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、250%、300%或更多(例如所关注生物分子的产量或产率改进X%,并入其间的任何范围和子范围)。
[0051] 因此,在一些实施例中,本公开的终止子交换方法产生呈现优于未经受终止子交换方法的对照大肠杆菌宿主细胞的至少一种大肠杆菌宿主细胞特性的以下改进的大肠杆
菌宿主细胞:1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、
16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、
31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、
46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、
61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、
76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、
91%、92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、250%、300%或更多(例如所关注生物分子的产量或产率改进X%,并入其间的任何范围和子范围)。
[0052] 因此,在一些实施例中,本公开的溶解性标签交换方法产生呈现优于未经受溶解性标签交换方法的对照大肠杆菌宿主细胞的至少一种大肠杆菌宿主细胞特性的以下改进
的大肠杆菌宿主细胞:1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、
14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、
29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、
44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、
59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、
74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、
89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、
250%、300%或更多(例如所关注生物分子的产量或产率改进X%,并入其间的任何范围和
子范围)。
[0053] 因此,在一些实施例中,本公开的降解标签交换方法产生呈现优于未经受降解标签交换方法的对照大肠杆菌宿主细胞的至少一种大肠杆菌宿主细胞特性的以下改进的大
肠杆菌宿主细胞:1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、
15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、
30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、
45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、
60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、
75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、
90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%、150%、200%、250%、
300%或更多(例如所关注生物分子的产量或产率改进X%,并入其间的任何范围和子范
围)。
[0054] 在一些实施例中,本公开教示一种用于产生蛋白质溶解性标签交换大肠杆菌菌株文库的方法,所述方法包括以下步骤:a.提供基本大肠杆菌菌株的多种内源目标基因和溶
解性标签梯,其中所述溶解性标签梯包括在基本大肠杆菌菌株中呈现不同溶解性概况的多
种溶解性标签;和b.对基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别
大肠杆菌菌株的初始溶解性标签交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每
种菌株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与基本大肠杆
菌菌株的内源目标基因中的一个可操作地连接的溶解性标签梯的溶解性标签中的一或多
个。
[0055] 在一些实施例中,本公开教示一种用于改进生产性大肠杆菌菌株的表型性能的蛋白质溶解性标签交换方法,其包括以下步骤:提供基本大肠杆菌菌株的多种内源目标基因
和溶解性标签梯,其中所述溶解性标签梯包括在基本大肠杆菌菌株中呈现不同表达谱的多
种溶解性标签;工程改造基本大肠杆菌菌株的基因组,借此创建包括多种个别大肠杆菌菌
株的初始溶解性标签交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株内发
现有独特基因变异,其中所述独特基因变异中的每一种包括来自与基本大肠杆菌菌株的内
源目标基因中的一个可操作地连接的溶解性标签梯的溶解性标签中的一或多个;针对优于
参考大肠杆菌菌株的表型性能改进来筛选和选择初始溶解性标签交换大肠杆菌菌株文库
的个别大肠杆菌菌株,借此鉴定赋予表型性能改进的独特基因变异;提供各自包括独特基
因变异组合的后续多种大肠杆菌微生物,所述基因变异来自存在于前一步骤中筛选的至少
两种个别大肠杆菌菌株中的基因变异,借此创建后续溶解性标签交换大肠杆菌菌株文库;
针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择后续溶解性标签交换大肠杆菌
菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基因变异独特组合;和
以线性或非线性方式重复步骤d)-e)一或多次,直到相较于生产性大肠杆菌菌株的表型性
能,大肠杆菌菌株呈现所期望水平的已改进的表型性能为止,其中每次后续迭代创建新的
微生物菌株溶解性标签交换大肠杆菌菌株文库,所述新文库中的每种菌株包括基因变异,
所述基因变异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组合。
[0056] 在一些实施例中,后续溶解性标签交换大肠杆菌菌株文库是初始溶解性标签交换大肠杆菌菌株文库的完全组合性文库。
[0057] 在一些实施例中,后续溶解性标签交换大肠杆菌菌株文库是初始溶解性标签交换大肠杆菌菌株文库的完全组合性文库的子集。
[0058] 在一些实施例中,后续溶解性标签交换大肠杆菌菌株文库是前一个溶解性标签交换大肠杆菌菌株文库的完全组合性文库。
[0059] 在一些实施例中,后续溶解性标签交换大肠杆菌菌株文库是前一个溶解性标签交换大肠杆菌菌株文库的完全组合性文库的子集。
[0060] 在一些实施例中,重复步骤d)-e),直到相较于生产性大肠杆菌菌株的表型性能,后续溶解性标签交换大肠杆菌菌株文库的大肠杆菌菌株的表型性能呈现出所测量的表型
变量增加至少10%为止。
[0061] 在一些实施例中,重复步骤d)-e),直到相较于生产性大肠杆菌菌株的表型性能,后续溶解性标签交换大肠杆菌菌株文库的大肠杆菌菌株的表型性能呈现出所测量的表型
变量增加至少一倍为止。
[0062] 在一些实施例中,步骤f)的已改进的表型性能选自由以下组成的群组:所关注产物的体积生产力、所关注产物的比生产力、所关注产物的产量、所关注产物的效价和其组
合。
[0063] 在一些实施例中,步骤f)的已改进的表型性能是:增加所关注产物或更有效地生产所关注产物,所述所关注产物选自由以下组成的群组:小分子、酶、肽、基酸、有机酸、合成化合物、燃料、醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
[0064] 在一些实施例中,本公开教示一种用于产生蛋白质降解标签交换大肠杆菌菌株文库的方法,所述方法包括以下步骤:a.提供基本大肠杆菌菌株的多种内源目标基因和降解
标签梯,其中所述降解标签梯包括在基本大肠杆菌菌株中呈现不同溶解性概况的多种降解
标签;和b.对基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌
菌株的初始降解标签交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株内发
现有独特基因变异,其中所述独特基因变异中的每一种包括来自与基本大肠杆菌菌株的内
源目标基因中的一个可操作地连接的降解标签梯的降解标签中的一或多个。
[0065] 在一些实施例中,本公开教示一种用于改进生产性大肠杆菌菌株的表型性能的蛋白质降解标签交换方法,其包括以下步骤:提供基本大肠杆菌菌株的多种内源目标基因和
降解标签梯,其中所述降解标签梯包括在基本大肠杆菌菌株中呈现不同表达谱的多种降解
标签;工程改造基本大肠杆菌菌株的基因组,借此创建包括多种个别大肠杆菌菌株的初始
降解标签交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株内发现有独特基
因变异,其中所述独特基因变异中的每一种包括来自与基本大肠杆菌菌株的内源目标基因
中的一个可操作地连接的降解标签梯的降解标签中的一或多个;针对优于参考大肠杆菌菌
株的表型性能改进来筛选和选择初始降解标签交换大肠杆菌菌株文库的个别大肠杆菌菌
株,借此鉴定赋予表型性能改进的独特基因变异;提供各自包括独特基因变异组合的后续
多种大肠杆菌微生物,所述基因变异来自存在于前一步骤中筛选的至少两种个别大肠杆菌
菌株中的基因变异,借此创建后续降解标签交换大肠杆菌菌株文库;针对优于参考大肠杆
菌菌株的表型性能改进来筛选和选择后续降解标签交换大肠杆菌菌株文库的个别大肠杆
菌菌株,借此鉴定赋予额外表型性能改进的基因变异独特组合;和以线性或非线性方式重
复步骤d)-e)一或多次,直到相较于生产性大肠杆菌菌株的表型性能,大肠杆菌菌株呈现所
期望水平的已改进的表型性能为止,其中每次后续迭代创建新的微生物菌株降解标签交换
大肠杆菌菌株文库,所述新文库中的每种菌株包括基因变异,所述基因变异是选自前一个
文库的至少两种个别大肠杆菌菌株的基因变异组合。
[0066] 在一些实施例中,后续降解标签交换大肠杆菌菌株文库是初始降解标签交换大肠杆菌菌株文库的完全组合性文库。
[0067] 在一些实施例中,后续降解标签交换大肠杆菌菌株文库是初始降解标签交换大肠杆菌菌株文库的完全组合性文库的子集。
[0068] 在一些实施例中,后续降解标签交换大肠杆菌菌株文库是前一个降解标签交换大肠杆菌菌株文库的完全组合性文库。
[0069] 在一些实施例中,后续降解标签交换大肠杆菌菌株文库是前一个降解标签交换大肠杆菌菌株文库的完全组合性文库的子集。
[0070] 在一些实施例中,重复步骤d)-e),直到相较于生产性大肠杆菌菌株的表型性能,后续降解标签交换大肠杆菌菌株文库的大肠杆菌菌株的表型性能呈现出所测量的表型变
量增加至少10%为止。
[0071] 在一些实施例中,重复步骤d)-e),直到相较于生产性大肠杆菌菌株的表型性能,后续降解标签交换大肠杆菌菌株文库的大肠杆菌菌株的表型性能呈现出所测量的表型变
量增加至少一倍为止。
[0072] 在一些实施例中,步骤f)的已改进的表型性能选自由以下组成的群组:所关注产物的体积生产力、所关注产物的比生产力、所关注产物的产量、所关注产物的效价和其组
合。
[0073] 在一些实施例中,步骤f)的已改进的表型性能是:增加所关注产物或更有效地生产所关注产物,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
[0074] 在一些实施例中,本公开教示一种用于在微生物宿主细胞中表达的与异源基因可操作地连接的嵌合合成启动子,其中所述嵌合合成启动子是60-90个核苷酸长且由以下组
成:λ噬菌体pR启动子的远端部分、λ噬菌体pL和pR启动子的各自长度为六个核苷酸的可变-
35和-10区、λ噬菌体pL和pR启动子的核心部分和λ噬菌体pR启动子的5'UTR/核糖体结合位点(RBS)部分。
[0075] 在一些实施例中,以下的核酸序列选自见于表1.5中的核酸序列:λ噬菌体pR启动子的远端部分、λ噬菌体pL和pR启动子的可变-35和-10区、λ噬菌体pL和pR启动子的核心部分和λ噬菌体pR启动子的5'UTR/核糖体结合位点(RBS)部分。
[0076] 在一些实施例中,本公开教示一种用于在微生物宿主细胞中表达的与异源基因可操作地连接的嵌合合成启动子,其中所述嵌合合成启动子是60-90个核苷酸长且由以下组
成:λ噬菌体pR启动子的远端部分、λ噬菌体pL和pR启动子的各自长度是六个核苷酸的可变-
35和-10区、λ噬菌体pL和pR启动子的核心部分和大肠杆菌acs基因的启动子的5'UTR/核糖体
结合位点(RBS)部分。
[0077] 在一些实施例中,以下的核酸序列选自见于表1.5中的核酸序列:λ噬菌体pR启动子的远端部分、λ噬菌体pL和pR启动子的可变-35和-10区、λ噬菌体pL和pR启动子的核心部分和大肠杆菌acs基因的启动子的5'UTR/核糖体结合位点(RBS)部分。
[0078] 在一些实施例中,嵌合合成启动子由选自以下的核酸序列组成:SEQ ID NO.132-152、159-160、162、165、174-175、188、190、199-201或207。
[0079] 在一些实施例中,嵌合合成启动子由选自以下的核酸序列组成:SEQ ID NO.153-158、161、163-164、166-173、176-187、189、191-198或202-206。
[0080] 在一些实施例中,微生物宿主细胞是大肠杆菌。
[0081] 在一些实施例中,异源基因编码见于表2中的所关注蛋白质产物。
[0082] 在一些实施例中,异源基因是为赖氨酸生物合成路径的一部分的基因。
[0083] 在一些实施例中,异源基因选自以下:asd基因、ask基因、hom基因、dapA基因、dapB基因、dapD基因、ddh基因、argD基因、dapE基因、dapF基因、lysA基因、lysE基因、zwf基因、pgi基因、ktk基因、fbp基因、ppc基因、pck基因、ddx基因、pyc基因或icd基因。
[0084] 在一些实施例中,异源基因是为番茄红素生物合成路径的一部分的基因。
[0085] 在一些实施例中,异源基因选自以下:dxs基因、ispC基因、ispE基因、ispD基因、ispF基因、ispG基因、ispH基因、idi基因、ispA基因、ispB基因、crtE基因、crtB基因、crtI基因、crtY基因、ymgA基因、dxr基因、elbA基因、gdhA基因、appY基因、elbB基因或ymgB基因。
[0086] 在一些实施例中,异源基因编码生物药剂或是用于产生生物药剂的路径中的基因。
[0087] 在一些实施例中,生物药剂选自以下:优泌林(humulin)(rh胰岛素)、intronA(干扰素α2b)、罗扰素(roferon)(干扰素α2a)、优猛茁(humatrope)(索托品(somatropin)rh
生长激素)、优保津(neupogen)(非格司亭(filgrastim))、德塔扰素(detaferon)(干扰素β-
1b)、优泌乐(lispro)(快速作用胰岛素)、瑞普森(rapilysin)(瑞替普酶(reteplase))、干
复津(infergen)(干扰素阿尔法康(alfacon)-1)、升糖素(glucagon)、贝若曼(beromun)(他
索纳明(tasonermin))、恩塔克(ontak)(地尼白介素(denileukin diftitox))、兰德仕
(lantus)(长效甘精胰岛素)、肯瑞特(kineret)(阿那白滞素(anakinra))、纳翠可
(natrecor)(奈西立肽(nesiritide))、索玛维特(somavert)(派格索曼(pegvisomant))、降
素(重组鲑降血钙素)、乐舒晴(lucentis)(兰尼珠单抗(ranibizumab))、普瑞他
(preotact)(人类甲状旁腺激素)、可瑞斯谢(kyrstexxal)(聚乙二醇化的rh尿酸盐
酶)、尼维斯替姆(nivestim)(非格司亭,rhGCSF)、沃瑞夏兹(voraxaze)(谷卡皮酶
(glucarpidase))或匹瑞斯(preos)(甲状旁腺激素)。
[0088] 在一些实施例中,本公开教示一种异源基因,其与具有选自SEQ ID NO.132-207的核酸序列的嵌合合成启动子可操作地连接。
[0089] 在一些实施例中,异源基因编码见于表2中的所关注蛋白质产物。
[0090] 在一些实施例中,异源基因是为赖氨酸生物合成路径的一部分的基因。
[0091] 在一些实施例中,异源基因选自以下:asd基因、ask基因、hom基因、dapA基因、dapB基因、dapD基因、ddh基因、argD基因、dapE基因、dapF基因、lysA基因、lysE基因、zwf基因、pgi基因、ktk基因、fbp基因、ppc基因、pck基因、ddx基因、pyc基因或icd基因。
[0092] 在一些实施例中,异源基因是为番茄红素生物合成路径的一部分的基因。
[0093] 在一些实施例中,异源基因选自以下:dxs基因、ispC基因、ispE基因、ispD基因、ispF基因、ispG基因、ispH基因、idi基因、ispA基因、ispB基因、crtE基因、crtB基因、crtI基因、crtY基因、ymgA基因、dxr基因、elbA基因、gdhA基因、appY基因、elbB基因或ymgB基因。
[0094] 在一些实施例中,异源基因编码生物药剂或是用于产生生物药剂的路径中的基因。
[0095] 在一些实施例中,生物药剂选自以下:优泌林(rh胰岛素)、intronA(干扰素α2b)、罗扰素(干扰素α2a)、优猛茁(索马托品rh生长激素)、优保津(非格司亭)、德塔扰素(干扰素β-1b)、优泌乐(快速作用胰岛素)、瑞普森(瑞替普酶)、干复津(干扰素阿尔法康-1)、升糖
素、贝若曼(他索纳明)、恩塔克(地尼白介素)、兰德仕(长效甘精胰岛素)、肯瑞特(阿那白滞素)、纳翠可(奈西立肽)、索玛维特(派格索曼)、降血钙素(重组鲑降血钙素)、乐舒晴(兰尼
珠单抗)、普瑞他(人类甲状旁腺激素)、可瑞斯谢(聚乙二醇化的rh尿酸盐氧化酶)、尼维斯
替姆(非格司亭,rhGCSF)、沃瑞夏兹(谷卡皮酶)或匹瑞斯(甲状旁腺激素)。
附图说明
[0096] 图1描绘用于增加多样性池中的变异的本公开DNA重组方法。DNA区段(如来自相关物种的基因组区)可以通过物理或酶促/化学手段切割。使所切割的DNA区解链且允许其再
粘接,以便重叠的基因区引发聚合酶延伸反应。进行后续的解链/延伸反应,直到产物再组
装成嵌合DNA为止,所述嵌合DNA包括来自一或多种起始序列的元件。
[0097] 图2概述用于产生新颖宿主大肠杆菌菌株的本公开方法,所述新颖宿主大肠杆菌菌株具有所选择的序列修饰(例如交换100个SNP)。简单来说,所述方法包括(1)设计出所期
望的DNA插入物且通过在组装反应中合并一或多个合成寡核苷酸来产生所述DNA插入物;
(2)将DNA插入物克隆到转化质粒中;(3)将完成的质粒转移到所期望的生产菌株中,所述质
粒在所述所期望的生产菌株中整合到宿主菌株基因组中;以及(4)选择标记和其它非所需
DNA元件环出宿主菌株。每个DNA组装步骤可以涉及额外的质量控制(QC)步骤,如将质粒克
隆到大肠杆菌细菌中用于扩增和测序。
[0098] 图3描绘本公开的转化质粒的组装和其整合到宿主大肠杆菌中。插入DNA是通过在组装反应中合并一或多个合成寡核苷酸来产生。含有所期望序列的DNA插入物侧接与基因
组的靶向区同源的DNA区。这些同源区促使基因组整合,且一旦整合,则形成直接重复区,所述直接重复区是为了在后续步骤中使载体主链DNA环出而设计。所组装的质粒含有插入DNA
且任选地含有一或多个选择标记。
[0099] 图4描绘用于从宿主大肠杆菌菌株环出选定的DNA区的程序。所插入DNA和宿主基因组的直接重复区可以在重组事件中“环出”。选择标记反向选择的细胞含有直接重复区所
侧接的环DNA的缺失。
[0100] 图5描绘本公开的大肠杆菌菌株改进方法的实施例。测试含有基因修饰(基因设计)的宿主菌株序列在不同菌株背景下的菌株性能改进(菌株建构)。分析(命中ID和分析)
呈现有益突变的菌株且将数据存储于文库中用于进一步分析(例如SNP交换文库、PRO交换
文库和其组合等等)。本公开的选择规则基于组合来自一或多个文库的元件的额外迭代分
析的预测结果来产生新提出的大肠杆菌宿主菌株序列。
[0101] 图6A-B描绘DNA组装、转化和本公开的实施例中的一个的大肠杆菌菌株筛选步骤。图6A描绘建构DNA片段、将所述DNA片段克隆到载体中、使所述载体转化到宿主大肠杆菌菌
株中和通过反向选择来环出选择序列的步骤。图6B描绘用于高通量培养、筛选和评价所选
择大肠杆菌宿主菌株的步骤。这个图还描绘在培养槽罐中培养、筛选和评价所选择大肠杆
菌菌株的任选步骤。
[0102] 图7描绘本公开的自动化系统的一个实施例。本公开教示自动化机器人系统的使用,所述机器人系统具有能够对宿主大肠杆菌进行克隆、转化、培养、筛选和/或测序的各种模
[0103] 图8描绘本公开的大肠杆菌菌株改进程序的实施例的概述。
[0104] 图9是包括约3.2百万个基对的谷氨酸棒状杆菌(Corynebacterium glutamicum)的基因组的图示。
[0105] 图10描绘本公开的转化实验的结果。目标是将在0.5kb到5.0kb范围内的DNA插入物插入谷氨酸棒状杆菌基因组的不同区(显示为相对位置1-24)中。浅颜色表示成功整合,
而较深颜色表示插入失败。
[0106] 图11描绘第二轮HTP工程改造PRO交换程序的结果。根据本公开的方法分析第一轮PRO交换期间所鉴定的最佳启动子::基因组合,以鉴定可能会对宿主性能呈现相加或组合
有益效果的所述突变的组合。第二轮PRO交换突变体因此包括各种启动子::基因突变的成
对组合。针对所选生物分子在宿主细胞中的产量的差异,对所得第二轮突变体进行筛选。已
预测呈现有益效果的突变组合对用圆圈加强显示。
[0107] 图12描绘实验的结果,所述实验测试在转化到大肠杆菌中的质粒成功地进行质粒组装。挑选四个菌落足以使含有1和2kb插入序列的质粒达到13%失败率。较大插入可能需
要额外的菌落筛选以达到一致结果。
[0108] 图13描绘实验的结果,所述实验测试成功用插入载体转化谷氨酸棒状杆菌。2和5kb的DNA插入物尺寸呈现高转化率和低组装失败率。
[0109] 图14描绘谷氨酸棒状杆菌中的环出选择的结果。所转化细菌的蔗糖抗性指示sacB选择标记的环出。DNA插入物尺寸似乎不影响环出效率。
[0110] 图15是利用相关度所计算的相似度矩阵。所述矩阵是SNP变体之间的功能相似度的图示。功能相似度低的SNP的合并预期具有改进菌株性能的较高可能性,而较高功能相似
度的SNP的合并则相反。
[0111] 图16A-B描绘上位性映射实验的结果。功能相似度低的SNP与PRO交换的组合使得菌株性能改进。图16A描绘根据所有SNP/PRO交换的功能相似度聚类的树状图。图16B描绘如
通过产物产量所测量的所合并SNP的宿主菌株性能。较大的聚类距离与宿主菌株的合并性
能改进相关。
[0112] 图17A-B描绘多样性池中的菌株变体之间的SNP差异。图17A描绘这个实验的菌株之间的关系。菌株A是野生型宿主菌株。菌株B是已工程改造的中间菌株。菌株C是工业生产
菌株。图17B是鉴定每种菌株的独特和共享SNP的数量的图。
[0113] 图18描绘根据本公开方法的第一轮SNP交换实验。(1)将来自C的所有SNP个别地且/或组合地克隆到基本A菌株中(A“向上波动”到C)。(2)将来自C的所有SNP个别地且/或组
合地从商业菌株C中去除(C“向下波动”到A)。(3)将来自B的所有SNP个别地且/或组合地克
隆到基本A菌株中(A向上波动到B)。(4)将来自B的所有SNP个别地且/或组合地从商业菌株B
中去除(B向下波动到A)。(5)将C独有的所有SNP个别地且/或组合地克隆到商业B菌株中(B
向上波动到C)。(6)将C独有的所有SNP个别地且/或组合地从商业菌株C中去除(C向下波动
到B)。
[0114] 图19说明启动子交换方法中所用的实例基因目标。4个带下划线的是目标可为下调的转移基因,而路径基因上的剩余19个的目标可为过度表达。
[0115] 图20说明针对已鉴定基因目标用于进行启动子交换方法的示例性启动子文库。PRO交换(即,启动子交换)方法中所用的启动子是P1-P8,其序列和身份标识可见于表1中。
[0116] 图21说明视所靶向基因是包括其自身的启动子还是为操纵子的一部分而定,启动子交换的不同可用方法。
[0117] 图22描绘示例性HTP启动子交换数据,其显示显著影响赖氨酸产量性能的修饰。X轴表示启动子交换基因设计微生物菌株文库内的不同菌株,且Y轴包含每种菌株的相对赖
氨酸产量值。图上的每个字母表示PRO交换目标基因。每个数据点表示一重复。数据表明,如本文所描述的适合于HTP应用的分子工具(即PRO交换)能够有效地创建和优化微生物菌株
生产所关注化合物或分子的性能。在这种情况下,所关注化合物是赖氨酸;然而,能够利用
所教示的PRO交换分子工具优化和/或增加所关注的任何化合物的生产。所属领域的技术人
员将了解如何选择编码所期望化合物生产的目标基因且接着使用所教示的PRO交换程序。
所属领域的技术人员将容易了解,本文所教示的举例说明赖氨酸产量增加的证明数据以及
本申请中所呈现的详细公开内容,使得PRO交换分子工具能够在HTP基因工程改造中成为广
泛适用的进展。
[0118] 图23说明考虑输入数据,相对菌株性能的分布。相对性能为零指示,工程改造的菌株与培养板内基本菌株的性能同样好。本文所描述的方法被设计成鉴定性能可能显著高于
零的菌株。
[0119] 图24说明线性回归系数值,其描绘与并入所描绘菌株中的每个基因变化相关的相对菌株性能的平均变化(增加或降低)。
[0120] 图25说明前100种预测菌株设计的变化组成。x轴列举潜在基因变化池(dss突变是SNP交换,且Pcg突变是PRO交换),且y轴显示排名次序。黑色细胞表示候选设计中存在特定
变化,而白色细胞表示那种变化不存在。在这个特定实例中,所有前100种设计均含有变化
pcg3121_pgi、pcg1860_pyc、dss_339和pcg0007_39_lysa。另外,所述最佳候选设计含有变
化dss_034、dss_009。
[0121] 图26描绘本公开的一个实施例的DNA组装和转化步骤。流程图描绘建构DNA片段、将所述DNA片段克隆到载体中、使所述载体转化到宿主大肠杆菌菌株中和通过反向选择来
环出选择序列的步骤。
[0122] 图27描绘用于高通量培养、筛选和评价所选择宿主大肠杆菌菌株的步骤。这个图还描绘在培养槽罐中培养、筛选和评价所选择大肠杆菌菌株的任选步骤。
[0123] 图28描绘说明性启动子的表达谱,其根据本公开的启动子梯呈现调控表达的范围。启动子A表达在细菌培养的停滞期达到峰值,而启动子B和C分别在指数期和稳定期达到
峰值。
[0124] 图29描绘说明性启动子的表达谱,其根据本公开的启动子梯呈现调控表达的范围。启动子A表达在添加所选择底物后立即达到峰值,但随着底物浓度降低而快速返回到不
可检测的水平。启动子B表达在添加所选底物后立即达到峰值,且缓慢降回到不可检测的水
平且底物出现对应减少。启动子C表达在所选择底物添加后达到峰值,且在整个培养期间保
持高度表达,即使在底物已消耗之后。
[0125] 图30描绘说明性启动子的表达谱,其根据本公开的启动子梯呈现组成性表达水平的范围。启动子A呈现最低表达,继之分别为启动子B和C的表达水平增加。
[0126] 图31图示用于大肠杆菌菌株改进的本公开LIMS系统的实施例。
[0127] 图32图示本公开LIMS系统的实施例的计算实施方案。
[0128] 图33描绘本公开的迭代预测菌株设计工作流程的实施例。
[0129] 图34图示根据根据本公开的实施例的计算机系统的实施例。
[0130] 图35描绘根据本公开的一个实施例的与DNA组装相关的工作流程。这个方法分成4个阶段:部件产生、质粒组装、质粒QC,和质粒制备用于转化。在部件产生期间,从寡核苷酸测序供应商订购实验室信息管理系统(Laboratory Information Management System,
LIMS)所设计的寡核苷酸,且用于通过PCR扩增来自宿主生物体的目标序列。对这些PCR部件
进行清洁以去除污染物且利用片段分析、通过片段尺寸观测值与理论值的比较进行的计算
机质量控制和DNA量化来评定成功性。将所述部件连同组装载体一起转化到酵母中且通过
同源重组组装成质粒。从酵母中分离出所组装的质粒且转化到大肠杆菌中用于后续组装质
量控制和扩增。在质粒组装质量控制期间,分离出每种质粒的若干个复制品,使用滚环扩增
(RCA)进行扩增,且利用酶消化和片段分析来评定正确组装。对在QC过程期间所鉴定的正确
组装的质粒进行命中挑选以产生永久性储备液,且在转化到目标宿主生物体中之前,对质
粒DNA进行萃取和量化。
[0131] 图36描绘实验的结果,其表征终止子T1-T8在两种培养基中在两个时间点的效果。条件A和C表示BHI培养基的两个时间点,而B和D点表示HTP测试培养基的两个时间点。
[0132] 图37描绘实验的结果,所述实验对传统菌株改进方法(如UV突变诱发)的效果与本公开的HTP工程改造方法的效果进行比较。绝大部分的UV突变未使宿主细胞性能产生明显
的增强。相比之下,本公开的PRO交换方法产生了高比例的突变体,所述突变体呈现宿主细
胞性能增强1.2到2倍。
[0133] 图38描绘第一轮HTP工程改造SNP交换程序的结果。鉴定出186种个别SNP突变且个别地克隆到基本菌株中。针对所选生物分子在宿主细胞中的产量的差异,对所得突变体进
行筛选。
[0134] 图39描绘第二轮HTP工程改造SNP交换程序的结果。将来自第一轮SNP交换程序的176种个别SNP突变个别地克隆到第二轮宿主细胞菌株中,所述第二轮宿主细胞菌株含有在
第一轮SNP程序期间所鉴定的有益SNP。所得突变体因此表示两个突变组合对的影响。显示
针对所选生物分子在宿主细胞中的产量(Y轴)和产率(X轴)的差异的筛选结果。
[0135] 图40描绘槽罐发酵验证实验的结果。在发酵槽罐中培养来自第二轮HTP SNP交换的最佳突变对。显示所选择生物分子(即,赖氨酸)的宿主细胞产量和产率的结果。如可看
出,在一轮基因工程改造中,本发明人使用PRO交换程序确定特定PRO交换突变体(zwf)相较
于基本菌株呈现所选生物分子的产量增加(即,对基本菌株与基本菌株+zwf进行比较)。接
着,本发明人进行另一轮基因工程改造,其中使用SNP交换程序测定可能影响生物分子产量
的有益SNP突变(当与所述PRO交换突变体组合时)。PRO交换程序与SNP交换程序的组合产生
产量甚至高于先前的单独PRO交换突变体的突变体(即,对基本菌株+zwf+SNP121与先前论
述的基本菌株+zwf进行比较)。这个图说明产量的显著改进可以通过将本公开的PRO交换与
SNP交换程序组合来实现。在各方面中,将PRO交换基因工程改造活动与SNP交换基因工程改
造活动组合可以使所关注生物分子/产物的产量和/或产率相对于基本菌株增加1%、2%、
3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、40%、45%、50%或更多。
[0136] 图41描绘第一轮HTP工程改造PRO交换程序的结果。根据本公开的方法,将相信与宿主性能相关的所选基因与启动子梯组合,以创建第一轮PRO交换文库。针对所选生物分子
(即,赖氨酸)在宿主细胞中的产量的差异,对所得突变体进行筛选。
[0137] 图42是流程图,其根据本公开的实施例的说明在选择用于设计微生物菌株的突变时考虑上位效应。
[0138] 图43描绘根据本公开的双顺反子设计(BCD)调控序列。在一些实施例中,本公开教示,BCD可用于置放传统启动子以便改进PRO交换中的不同启动子::目标基因组合之间的表
达一致性。在一些实施例中,BCD包括启动子、第一核糖体结合位点(SD1)、第一顺反子序列
(Cis1)、与所关注目标基因(Cis2)可操作地连接的第二核糖体结合位点(SD2)。在一些实施
例中,本公开教示,Cis1可以是任何肽编码序列。关于BCD设计和使用的额外信息在说明书
的稍后章节中提供。
[0139] 图44是通过重组DNA结合结构域进行的路径酶共定位的说明。已工程改造的细胞编码具有DNA结合结构域的路径酶Enz1-3。当表达时,这些酶与骨架DNA或其它目标位置结
合,所述骨架DNA或其它目标位置包括由与路径酶融合的重组DNA结合结构域识别的DNA基
序。当所融合的DNA结合结构域与骨架质粒上的其同源DNA基序连接时,酶在空间上限制为
彼此靠近,这可提高路径的产率。
[0140] 图45是将编码DNA结合结构域的核苷酸序列并入到路径酶中的示意图。GOI编码路径酶。大肠杆菌细胞用编码突变型式的GOI的质粒转化,所述突变型式的GOI包含编码DNA结
合结构域(用星形表示)的核苷酸序列。质粒还编码允许选择环入细胞的的抗生素抗性标记
(Ab)和允许后续反向选择环出细胞的反向选择标记(反向物(Counter))。在“环入”步骤中,通过同源重组(HR),将包含突变体GOI的整个质粒并入基因组中。在“环出”步骤期间,一些细胞将通过HR恢复为原生GOI序列,而其它将经历使突变体GOI保留在基因组中的HR事件。
[0141] 图46是本公开的产量模型的训练数据的预测性能相对于所测量性能的点阵图。下方模型是核岭回归模型(Kernel Ridge Regression model)(具有4阶多项式内核)。利用
1864个独特基因构筑体和相关表型性能对模型进行训练。所拟合模型具有0.52的r2值。
[0142] 图47描绘利用本公开的预测算法所产生的候选设计的基因组成。提交这些候选设计用于HTP建构和分析。在此,候选设计定义为亲代菌株id与所引入突变的组合。
[0143] 图48是利用本公开的预测算法所产生且根据本公开的HTP建构方法所建构的候选设计的预测性能相对于所测量性能的点阵图。这个图表明,所述模型可以在可接受的准确
度程度内预测候选菌株性能。
[0144] 图49是盒须图,其描绘候选菌株相对于亲代菌株的产量百分比变化。在y轴上,0.01的值对应于1%。这个图表明,利用计算机模型(浅灰色)所设计的菌株相对于其对应亲
代菌株实现了可测量的改进。另外,所述图表明,这些模型基本菌株改进在量值上与人类专
家所设计的菌株所实现的改进相当。
[0145] 图50说明利用计算机模型(深灰色)和由人类专家(浅灰色)设计的菌株的产量性能分布。计算机设计的菌株呈现较紧密的分布和较高的中值增加。
[0146] 图51是盒须图,其描绘利用计算机(浅灰色)或由人类专家(深灰色)产生的候选菌株的绝对产量。将亲代菌株的结果汇总。
[0147] 图52是大肠杆菌基因组(其包括约4.6百万碱基对)的表示。
[0148] 图53说明载体主链中的隔离子和终止子部件对于转化效率和质粒整合的影响。
[0149] 图54说明来自表1.4的合成启动子-5′UTR序列的组合性设计。
[0150] 图55描绘说明载体1主链的组分的质粒图谱。
[0151] 图56描绘说明载体2主链的组分的质粒图谱。
[0152] 图57描绘说明载体3主链的组分的质粒图谱。
[0153] 图58描绘说明载体4主链的组分的质粒图谱。
[0154] 图59描绘大肠杆菌番茄红素生物合成路径。
[0155] 图60描绘在番茄红素路径目标idi和ymgA处的终止子编辑。终止子TyjbE表明相对于对照降低的菌株性能,因此突显这些文库类型对于鉴定关键路径目标的效用。
[0156] 图61描绘在多个番茄红素路径目标处的终止子编辑。
[0157] 图62描绘在番茄红素路径目标dxs处的启动子(用于比较)、降解标签和终止子交换。ssrA_LAA降解标签表明相对于对照改进的菌株性能。这是出人意料的,因为这个菌株是
在单一路径目标处的PROSWP与降解标签的组合。预期初始PROSWP将增加蛋白质丰度,且预
期降解标签将降低蛋白质丰度,因此证明文库类型的组合对于调节最优菌株性能的效用。
[0158] 图63描绘在番茄红素路径目标gdhA处的溶解性标签、启动子和终止子交换。溶解性标签FH8表明相对于对照改进的菌株性能,但GB1溶解性标签则不,因此证明对于评价每
一种修饰类型的文库的必要性。

具体实施方式

[0159] 定义
[0160] 尽管相信所属领域的一般技术人员充分理解以下术语,但仍阐述以下定义以便于对本发明所公开的主题进行阐释。
[0161] 术语“一(a/an)”是指所述实体中的一或多个,即可以指多个提及物。因此,术语“一”、“一或多个(种)”和“至少一个(种)”在本文中可互换地使用。此外,通过不定冠词“一(a/an)”提及“一元件”并不排除存在多于一个元件的可能性,除非上下文明确要求存在一
个且仅存在一个元件。
[0162] 如本文所用,术语“细胞生物体”、“微生物体”或“微生物”应该在广义上理解。这些术语可互换地使用且包含(但不限于)两种原核生物域:细菌和古细菌,以及某些真核生物真菌和原生生物。在一些实施例中,本公开是指本公开所存在的列表/表格和图式中的“微
生物体”或“细胞生物体”或“微生物”。这种表征不仅可以指所述表格和图式的已鉴定类属,且还指已鉴定的类种,以及所述表格或图式中的各种新颖和最新鉴定或设计的任何生物体
菌株。对于这些术语在本说明书的其它部分(如实例)中的叙述来说,相同表征保持成立。
[0163] 术语“原核生物”在所属领域内为认可的且是指不含细胞核或其它细胞器的细胞。原核生物通常归类在以下两个域的一者中:细菌和古细菌。古细菌和细菌域生物体之间的
决定性差异是基于16S核糖体RNA中的核苷酸碱基序列的基本差异。
[0164] 术语“古细菌”是指疵壁菌(Mendosicutes)的生物体类别,其典型地发现于异常环境中且根据若干标准而与原核生物的其余部分区别开来,所述若干标准包括核糖体蛋白
的数量和细胞壁中的胞壁酸的缺乏。基于ssrRNA分析,古细菌由两个系统发生学不同的群
组组成:嗜泉古菌界(Crenarchaeota)和广古生菌界(Euryarchaeota)。古细菌基于其生理
学可以组织成三种类型:产甲烷菌(产生甲烷的原核生物);极端嗜盐菌(extreme 
halophiles)(在极高浓度的盐(NaCl)下生活的原核生物);和极端(超)嗜热菌(extreme
(hyper)thermophilus)(在极高温度下生活的原核生物)。除区别于细菌的统一古细菌特点
(即,细胞壁中没有胞壁质、酯连接的膜脂质等)之外,这些原核生物呈现出使其适应其特定
栖息地的独特结构或生物化学属性。嗜泉古菌界主要由极端嗜热性硫依赖性原核生物组
成,且广古生菌界含有产甲烷菌和极端嗜盐菌。
[0165] “细菌”或“真细菌”是指原核生物体域。细菌包含如下至少11种不同群组:(1)革兰氏阳性(革兰+)细菌,其存在两大亚门:(1)高G+C群组(放线菌(Actinomycetes)、分枝杆菌(Mycobacteria)、微球菌(Micrococcus)等),(2)低G+C群组(芽孢杆菌(Bacillus)、梭菌
(Clostridia)、乳杆菌(Lactobacillus)、葡萄球菌(Staphylococci)、链球菌
(Streptococci)、霉浆菌(Mycoplasmas));(2)变形菌门,例如紫色光合+非光合革兰氏阴性
细菌(包含最“常见”的革兰氏阴性细菌);(3)蓝细菌,例如有氧光养型;(4)螺旋菌和相关物种;(5)浮霉状菌;(6)拟杆菌、黄杆菌(Flavobacteria);(7)衣原体(Chlamydia);(8)绿色硫细菌;(9)绿色非硫细菌(也是厌氧性光养型);(10)耐放射性微球菌和相关菌种;(11)栖热
孢菌(Thermotoga)和嗜热性热袍菌(Thermosipho thermophiles)。
[0166] “真核生物”是其细胞含有细胞核和封闭于膜内的其它细胞器的任何生物体。真核生物属于真核或真核生物分类群。将真核细胞与原核细胞(前述细菌和古细菌)区分开来的
限定性特点是其具有膜结合的细胞器,尤其是含有遗传物质且被核被膜封闭的细胞核。
[0167] 术语“经过基因修饰的宿主细胞”、“重组宿主细胞”和“重组菌株”在本文中可互换地使用,且是指已经利用本公开的克隆和转化方法进行基因修饰的宿主细胞。因此,所述术语包含宿主细胞(例如细菌、酵母细胞、真菌细胞、CHO、人类细胞等),相较于其所来源的天然存在的生物体,所述宿主细胞已进行遗传改变、修饰或工程改造,使得其呈现已改变、修
饰或不同的基因型和/或表型(例如当基因修饰影响微生物体的编码核酸序列时)。应理解,
在一些实施例中,所述术语不仅指所讨论的特定重组宿主细胞,且还指这种宿主细胞的后
代或潜在后代。
[0168] 术语“野生型微生物体”或“野生型宿主细胞”描述自然界中存在的细胞,即尚未经过基因修饰的细胞。
[0169] 术语“基因工程改造”可指代对于宿主细胞的基因组的任何操纵(例如通过插入、缺失、突变或置换核酸)。
[0170] 术语“对照”或“对照宿主细胞”是指用于测定基因修饰或实验处理的效果的适当的比较宿主细胞。在一些实施例中,对照宿主细胞是野生型细胞。在其它实施例中,对照宿
主细胞在基因上除了基因修饰之外,与经过基因修饰的宿主细胞相同,从而有别于处理宿
主细胞。在一些实施例中,本发明教示一种亲代菌株作为对照宿主细胞(例如使用S1菌株作
为菌株改进程序的基础)的用途。在其它实施例中,宿主细胞可以是基因上相同的细胞,其
缺乏处理宿主细胞中所测试的特定启动子或SNP。
[0171] 如本文所用,术语“等位基因”意指基因的一或多种替代形式中的任一种,其所有等位基因涉及至少一种性状或特征。在二倍体细胞中,所指定基因的两个等位基因占据一
对同源染色体上的对应基因座。
[0172] 如本文所用,术语“基因座(locus)”(基因座(loci)的复数形式)意指发现有例如基因或基因标记的染色体上的一或多个特定位置或一位点。
[0173] 如本文所用,术语“以基因方式连接”是指在育种期间,两种或更多种性状以高比率共同遗传,使得其难以通过杂交来分离。
[0174] 如本文所用,“重组”或“重组事件”是指染色体交换或独立分类。
[0175] 如本文所用,术语“表型”是指个别细胞、细胞培养物、生物体或生物体群组的可观测特征,其由那个个体的基因组成(即基因型)与环境之间的相互相用产生。
[0176] 如本文所用,术语“嵌合”或“重组”当描述核酸序列或蛋白质序列时,是指使至少两个异源多核苷酸或两个异源多肽连接成单一大分子或使至少一种天然核酸或蛋白质序列的一或多个元件重排的核酸或蛋白质序列。举例来说,术语“重组”可以指序列中两个以
其它方式分离的区段例如通过化学合成或通过基因工程改造技术操纵核酸中的分离区段
进行的人工组合。
[0177] 如本文所用,“合成核苷酸序列”或“合成多核苷酸序列”是已知不存在于自然界中或不是天然存在的核苷酸序列。一般来说,当相较于任何其它天然存在的核苷酸序列时,这种合成核苷酸序列将包括至少一个核苷酸差异。
[0178] 如本文所用,术语“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式或其类似物。这个这一术语是指分子的一级结构,且因此包含双链和单链
DNA,以及双链和单链RNA。其还包含已修饰的核酸,如甲基化和/或封端核酸、含有已修饰的碱基、主链修饰的核酸和其类似物。术语“核酸”和“核苷酸序列”可互换地使用。
[0179] 如本文所用,术语“DNA骨架”或“核酸骨架”是指人工产生的核酸骨架或用作骨架的天然存在的序列。在本发明的一个实施例中,核酸骨架是合成脱氧核糖核酸骨架。合成骨
架的脱氧核糖核苷酸可包括嘌呤和嘧啶碱基或其它天然、化学或生物化学修饰的、非天然
或衍生的脱氧核糖核苷酸碱基。如本文中更详细描述,本发明的核酸骨架用于在空间和时
间上组装,且固定涉及生物学路径的两种或更多种蛋白质,即生物合成酶,以产生功能复合
物。每种生物学路径蛋白质在骨架上的组装和固定通过骨架的蛋白质结合序列(即蛋白质
对接点)中的一个与嵌合生物合成酶的对应DNA结合部分之间的结合相互作用进行。因此,
核酸骨架包括一或多个亚基,每个亚基包括两个或更多个蛋白质结合序列,以适应两种或
更多种不同嵌合生物路径蛋白质的结合。
[0180] 如本文所用,“DNA结合序列”或“DNA结合位点”是指由通过本公开的已修饰基因编码的嵌合生物合成基因(例如嵌合生物合成酶)的DNA结合结构域部分识别且结合的特定核酸序列。许多DNA结合结构域和其同源结合伴侣DNA识别位点(即,DNA结合位点)为所属领域
中众所周知的。举例来说,多种锌指结合结构域和其对应DNA结合目标位点是所属领域中已
知的且适用于本发明。其它DNA结合结构域包含(但不限于):亮氨酸拉链结合结构域和其对
应DNA结合位点、翼形螺旋DNA结合结构域和其对应DNA结合位点、翼形螺旋-转-螺旋DNA
结合结构域和其对应DNA结合位点、HMG-box DNA结合结构域和其对应DNA结合序列、螺旋-
环-螺旋DNA结合结构域和其对应DNA结合序列以及螺旋-转角-螺旋DNA结合结构域和其对
应DNA结合序列。其它已知的具有已知DNA结合序列的DNA结合结构域包含免疫球蛋白DNA结
构域、B3DNA结合结构域和TAL效应DNA结合结构域。本发明的核酸骨架亚基可包括前述DNA
结合位点中的任何两个或更多个。
[0181] 如本文所用,术语“基因”是指与生物功能相关的任何DNA区段。因此,基因包含(但不限于)编码序列和/或其表达所需的调控序列。基因还可包含未表达的DNA区段,例如形成针对其它蛋白质的识别序列。基因可从多种来源获得,包含从所关注来源克隆或从已知或
预测的序列信息合成,且可包含设计成具有所期望参数的序列。
[0182] 如本文所用,术语“同源(homologous)”或“同源物(homologue)”或“直系同源物(ortholog/orthologue)”在所属领域中已知,且是指共有共同祖先或家族成员且基于序列
一致性程度确定的相关序列。术语“同源性”、“同源”、“大体上类似”和“大体上对应”在本文中可互换地使用。其是指核酸片段,其中一或多个核苷酸碱基的变化不影响所述核酸片段
介导基因表达或产生某种表型的能力。这些术语也指本公开的核酸片段的修饰,如缺失或
插入一或多个核苷酸,所述缺失或插入与初始、未经修饰的片段相比不显著改变所得核酸
片段的功能特性。因此,应理解,如所属领域的技术人员应了解,本公开不只涵盖特定示例
性序列。这些术语描述一种物种、亚种、变种、栽培品种或品系中所发现的基因与另一种物
种、亚种、变种、栽培品种或品系中的对应或等效基因之间的关系。出于本公开的目的,对同源序列进行比较。“同源序列”或“同源物”或“直系同源物”被认为、相信或已知在功能上是相关的。功能关系可以用多种方式中的任一种指示,包含(但不限于):(a)序列一致性程度
和/或(b)相同或类似的生物功能。优选地,指示(a)和(b)两个。可使用所属领域中容易获得
软件程序测定同源性,如现代分子生物学实验技术(Current Protocols in Molecular 
Biology)(F.M.奥斯贝(F.M.Ausubel)等人编,1987)增刊30,章节7.718,表7.71中所论述的
那些软件程序。一些比对程序是MacVector(津分子有限公司(Oxford Molecular Ltd),
英国牛津(Oxford,U.K.))、ALIGN Plus(科学和教育软件(Scientific and Educational 
Software),宾夕法尼亚州(Pennsylvania))以及AlignX(Vector NTI,英杰公司
(Invitrogen),加利福尼亚州卡尔斯巴德(Carlsbad,CA))。另一种比对程序是Sequencher
(Gene Codes,密歇根安娜堡(Ann Arbor,Michigan),其使用默认参数。
[0183] 如本文所用,术语“内源”或“内源基因”是指天然存在的基因,在其所处位置发现其天然地存在于宿主细胞基因组内。在本公开的情形下,将异源启动子与内源基因可操作地连接意指以基因方式将异源启动子序列插入现有基因之前,处于那个基因天然存在的位
置。如本文所描述的内源基因可包含天然存在的基因的等位基因,所述等位基因已经根据
本公开的任一种方法发生突变。
[0184] 如本文所用,术语“外源”与术语“异源”可互换地使用且是指来自不同于其原生来源的一些来源的物质。举例来说,术语“外源蛋白质”或“外源基因”是指来自非原生来源或位置且已经通过人工方式提供到生物系统中的蛋白质或基因。
[0185] 如本文所用,术语“核苷酸变化”是指例如核苷酸取代、缺失和/或插入,如所属领域中充分理解。举例来说,突变含有产生沉默取代、添加或缺失,但不改变所编码的蛋白质
的特性或活性或如何制得蛋白质的变化。
[0186] 如本文所用,术语“蛋白质修饰”是指例如氨基酸取代、氨基酸修饰、缺失和/或插入,如在所属领域中充分理解。
[0187] 如本文所用,术语核酸或多肽的“至少一部分”或“片段”意指具有这类序列的最小尺寸特征的部分,或全长分子的任何较大的片段,最多是且包含全长分子。本公开的多核苷酸片段可编码基因调控元件的生物活性部分。基因调控元件的生物活性部分可通过分离本
公开的多核苷酸之一的包括基因调控元件的一部分且如本文所描述评定活性来制备。类似
地,多肽的一部分可以是4个氨基酸、5个氨基酸、6个氨基酸、7个氨基酸等,最多是全长多
肽。待使用的所述部分的长度将视特定应用而定。适用作杂交探针的核酸的一部分可以短
到12个核苷酸;在一些实施例中,其是20个核苷酸。适用作抗原决定基的多肽的一部分可短
到4个氨基酸。多肽中发挥全长多肽功能的部分将通常长于4个氨基酸。
[0188] 变体多核苷酸还涵盖来源于突变诱发和诱重组程序(如DNA改组)的序列。这类DNA改组的策略是所属领域中已知的。参见例如施特默尔(Stemmer)(1994)《美国国家科学院院
刊(PNAS)》91:10747-10751;施特默尔(1994)《自然(Nature)》370:389-391;凯默瑞
(Crameri)等人(1997)《自然生物技术(Nature Biotech.)》15:436-438;穆尔(Moore)等人
(1997)《分子生物学杂志(J.Mol.Biol.)》272:336-347;张(Zhang)等人(1997)《美国国家科学院院刊》94:4504-4509;凯默瑞等人(1998)《自然》391:288-291;和第5,605,793号与第5,
837,458号美国专利
[0189] 就PCR扩增本文所公开的多核苷酸来说,可以设计用于PCR反应中的寡核苷酸引物以由从所关注的任何生物体提取的cDNA或基因组DNA扩增对应DNA序列。用于设计PCR引物
和PCR克隆的方法是所属领域中通常已知的且公开于萨布鲁克(Sambrook)等人(2001),《分
子克隆:实验指南(Molecular Cloning:A Laboratory Manual)》(第3版,冷泉港实验室出
版社(Cold Spring Harbor Laboratory Press),纽约普莱恩维尤(Plainview,New York))
中。还参见英尼斯(Innis)等人编(1990)《PCR方案:方法和应用指导(PCR Protocols:A 
Guide to Methods and Applications)》(学术出版社(Academic Press),纽约);英尼斯和
吉尔凡(Gelfand)编(1995)《PCR策略(PCR Strategies)》(学术出版社,纽约);以及英尼斯
和吉尔凡编(1999)《PCR方法手册(PCR Methods Manual)》(学术出版社,纽约)。已知的PCR
方法包含(但不限于)使用成对引物、巢式引物、单特异性引物、简并引物、基因特异性引物、载体特异性引物、部分错配引物等的方法。
[0190] 如本文所用,术语“引物”是指一种寡核苷酸,其当放置在诱导引物延伸产物合成的条件下时(即,在核苷酸和聚合药剂(如DNA聚合酶)存在下且在适合温度和pH下),能够与
扩增目标粘接,从而允许DNA聚合酶附着,借此充当DNA合成的起始点。(扩增)引物优选是单
链以获得最大的扩增效率。优选地,引物是寡脱氧核苷酸。引物必须足够长以在聚合药剂存
在下引发延伸产物的合成。引物的精确长度将视多种因素而定,包含引物的温度和组成(A/
T与G/C含量)。一对双向引物由如DNA扩增(如PCR扩增)领域中所常用的一个正向和一个反
向引物组成。
[0191] 如本文所用,“启动子”是指能够控制编码序列或功能RNA的表达的DNA序列。在一些实施例中,启动子序列由近端和更远端上游元件组成,后者元件通常被称作增强子。因
此,“增强子”是可以刺激启动子活性的DNA序列,且可以是启动子的固有元件或被插入以增强启动子的水平或组织特异性的异源元件。启动子可完全来源于原生基因,或由来源于自
然界中所发现的不同启动子的不同元件构成,或甚至包括合成DNA区段。所属领域的技术人
员应理解,不同启动子可引导基因在不同组织或细胞类型中或在不同的发育阶段或响应于
不同的环境条件来表达。另外应认识到,由于在大多数情况下,调控序列的精确边界尚未完
全界定,因此一些变异的DNA片段可以具有相同的启动子活性。
[0192] 如本文所用,短语“重组构筑体”、“表达构筑体”、“嵌合构筑体”、“构筑体”和“重组DNA构筑体”在本文中可互换地使用。重组构筑体包括核酸片段的人工组合,例如自然界中未一同发现的调控和编码序列。举例来说,嵌合构筑体可包括来源于不同来源的调控序列
和编码序列,或来源于同一来源的调控序列和编码序列,但其以与在自然界中发现的方式
不同的方式排列。这类构筑体可以单独使用或可以与载体结合使用。如所属领域的技术人
员众所周知,如果使用载体,那么载体的选择视将用于转化宿主细胞的方法而定。举例来
说,可以使用质粒载体。所属领域的技术人员深知,为了成功地转化、选择和繁殖包括本公
开的任一个已分离核酸片段的宿主细胞,遗传元件必须存在于载体上。所属领域的技术人
员还将认识到,不同的独立转化事件将引起不同的表达水平和模式(琼斯(Jones)等人,
(1985),《欧洲分子生物学杂志(EMBO J.)》4:2411-2418;德阿尔梅达(De Almeida)等人,
(1989),《分子基因遗传学(Mol.Gen.Genetics)》218:78-86),且因此必须对多个事件进行
筛选以便获得呈现所期望表达水平和模式的株系。这类筛选可以通过DNA印迹分析
(Southern analysis of DNA)、mRNA表达印迹分析(Northern analysis of mRNA 
expression)、蛋白质表达的免疫印迹分析或表型分析等来完成。载体可以是质粒、病毒、噬菌体、前病毒、噬菌粒、转座子、人工染色体和其类似物,其自主地复制且能整合到宿主细胞的染色体中。载体还可以是非自主复制的裸RNA多核苷酸、裸DNA多核苷酸、由同一链内的
DNA和RNA构成的多核苷酸、聚赖氨酸结合的DNA或RNA、肽结合的DNA或RNA、脂质粒结合的
DNA或其类似物。如本文所用,术语“表达”是指功能性最终产物(例如mRNA或蛋白质(前体或成熟物))产生的。
[0193] 在本文中,“可操作地连接”意指根据本公开的启动子多核苷酸与其它寡核苷酸或多核苷酸的依序排列,从而引起所述其它多核苷酸的转录。
[0194] 如本文所用,术语“所关注产物”或“生物分子”是指由原料中的微生物产生的任何产物。在一些情况下,所关注产物可以是小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、醇等。举例来说,所关注产物或生物分子可以是任何初级或次级胞外代谢物。初级代谢物尤其可以是乙醇柠檬酸、乳酸、谷氨酸、谷氨酸盐、赖氨酸、苏氨酸、色氨酸和其它氨基酸、维生素、多糖等。次级代谢物尤其可以是:抗生素化合物,如青霉素;或免疫抑制剂,如环孢菌素A(cyclosporin A);植物激素,如赤霉素;士他汀药物(statin drug),如洛伐他汀
(lovastatin);杀真菌剂,如灰黄霉素(griseofulvin)等。所关注产物或生物分子也可以是
微生物产生的任何胞内组分,如:微生物酶,包含:催化酶、淀粉酶、蛋白酶、果胶酶、葡萄糖异构酶、纤维素酶、半纤维素酶、脂肪酶、乳糖酶、链激酶和其它多种。胞内组分也可包含重组蛋白,如:胰岛素、B型肝炎疫苗、干扰素、粒细胞集落刺激因子、链激酶等。
[0195] 术语“源”一般是指适用作供细胞生长用的碳的来源的物质。碳源包含(但不限于)生物质水解产物、淀粉、蔗糖、纤维素、半纤维素、木糖和木质素,以及这些底物的单体组分。碳源可包括各种形式的各种有机化合物,包含(但不限于)聚合物、碳水化合物、酸、醇、、氨基酸、肽等。这些包含例如各种单糖,如葡萄糖、右旋糖(D-葡萄糖)、麦芽糖、寡糖;
多糖;饱和或不饱和脂肪酸;丁二酸盐;乳酸盐;乙酸盐;乙醇等,或其混合物。光合生物体可以另外产生光合成产物形式的碳源。在一些实施例中,碳源可以选自生物质水解产物和葡
萄糖。
[0196] 术语“原料”定义为供应给微生物体或发酵工艺的原材料或原材料混合物,利用所述工艺可制备其它产物。举例来说,碳源,如生物质或来源于生物质的碳化合物,是供微生
物体在发酵工艺中产生所关注产物(例如小分子、肽、合成化合物、燃料、醇等)的原料。然
而,原料可含有除碳源以外的营养物。
[0197] 术语“体积生产力”或“生产速率”定义为每体积培养基每单位时间形成的产物的量。体积生产力可以克/升/小时(g/L/h)为单位来报告。
[0198] 术语“比生产力”定义为产物的形成速率。比生产力在本文中进一步定义为以产物克数/细胞干重(CDW)克数/小时(g/g CDW/h)为单位的比生产力。使用指定微生物体的CDW
相对于OD600的关系,比生产力也可表述为产物克数/升培养基/600nm下培养液的光密度
(OD)/小时(g/L/h/OD)。
[0199] 术语“产量”定义为每单位重量的原材料的所得的产物的量,且可表述为产物克数/底物克数(g/g)。产量可表述为理论产量的百分比。“理论产量”定义为每指定量的底物
能够产生的最大产物量,如根据用于制备产物的代谢路径的化学计量学所指定。
[0200] 术语“滴度”或“效价”定义为溶液的浓度或溶液中的物质的浓度。举例来说,将所关注产物(例如小分子、肽、合成化合物、燃料、醇等)在发酵培养液中的滴度描述为溶液中的所关注产物克数/升发酵培养液(g/L)。
[0201] 术语“总效价”定义为工艺中所产生的全部所关注产物的总和,包含(但不限于)溶液中的所关注产物、气相(如果适用)中的所关注产物和从工艺中去除且相对于工艺中的初
始体积或工艺中的操作体积所回收的任何所关注产物。
[0202] 如本文所用,术语“HTP基因设计文库”或“文库”是指根据本公开的基因扰动的集合。在一些实施例中,本发明的文库可以显示为i)数据库或其它计算机文件中的序列信息
的集合;ii)编码前述系列的遗传元件的基因构筑体的集合;或iii)包括所述遗传元件的宿
主细胞菌株。在一些实施例中,本公开的文库可指代个别元件的集合(例如PRO交换文库的
启动子的集合、STOP交换文库的终止子的集合、溶解性标签交换文库的蛋白质溶解性标签
的集合或降解标签交换文库的蛋白质降解标签的集合)。在其它实施例中,本公开的文库也
可以指遗传元件的组合,如启动子::基因、基因:终止子或甚至启动子:基因:终止子的组
合。在一些实施例中,本公开的文库可以指启动子、终止子、蛋白质溶解性标签和/或蛋白质降解标签的组合。在一些实施例中,本公开的文库进一步包括与文库中的每个成员应用于
宿主生物体中的效果相关的元数据。举例来说,如本文所用的文库可包含启动子::基因序
列组合的集合,以及那些组合对特定物种的一或多种表型所产生的影响,从而在未来的启
动子交换中利用所述组合来改进未来预测值。
[0203] 如本文所用,术语“SNP”是指小核多态性。在一些实施例中,本公开的SNP应广义地理解,且包含单核苷酸多态性、序列插入、缺失、倒位和其它序列置换。如本文所用,术语“非同义”或“非同义SNP”是指引起宿主细胞蛋白中的编码变化的突变。
[0204] “高通量(HTP)”基因工程改造方法可能涉及使用自动化设备(例如液体处理机或平板处理机)的至少一个零件来进行所述方法的至少一个步骤。
[0205] 传统的菌株改进方法
[0206] 传统的菌株改进方法可以广泛地分类为两类方法:定向菌株工程改造和随机突变诱发。
[0207] 菌株改进的定向工程改造方法涉及对特定生物体的少数遗传元件进行计划性扰动。这些方法通常集中于调节特定生物合成或发育程序,且依赖于对影响所述路径的基因
和代谢因素的先验了解。在其最简单的实施例中,定向工程改造涉及将一种生物体的特征
化性状(例如基因、启动子或能够产生可测量表型的其它遗传元件)转移到相同或不同物种
的另一生物体。
[0208] 菌株工程改造的随机方法涉及对亲代菌株进行随机突变诱发,以及设计成鉴定性能改进的广泛筛选。产生这些随机突变的方法包括暴露于紫外辐射,或突变诱发化学品,如
甲烷磺酸乙酯。虽然是随机且很大程度上不可预测的,但是这种传统的菌株改进方法相较
于更定向的基因操纵具有若干优势。首先,许多工业生物体就其基因和代谢谱系来说具有
(且保持)不良的特征,以致替代的定向改进方法困难(如果并非不可能)。
[0209] 其次,即使在表征相对充分的系统中,也难以预测引起工业性能改进的基因型变化,且所述基因型变化有时仅以上位表型显示自身,这要求在许多基因中具有已知和未知
功能的累积突变。
[0210] 另外,多年来,在指定工业生物体中产生定向基因组突变所需的的基因工具不可用,或使用非常缓慢和/或困难。
[0211] 然而,传统菌株改进程序的扩展应用在指定菌株谱系中产生的增益逐渐降低,且最终导致提升菌株效率的可能性耗尽。有益随机突变是相对罕见的事件,且需要较大筛选
池和高突变率。这不可避免地引起许多中性和/或有害(或部分有害)突变在“已改进”菌株
中的无意积累,最终阻碍了未来效率增加。
[0212] 传统累积改进方法的另一种局限是,关于任何特定突变对任何菌株度量的影响的已知信息极少到没有。这在根本上限制了研究人员将有益突变组合和合并或去除中性或有
害突变诱发“包袱”的能力。
[0213] 存在着将突变诱发谱系内的菌株之间的突变随机重组的其它方法和技术。举例来说,用于迭代序列重组的一些形式和实例(有时称为DNA改组、进化或分子育种)已经描述于
美国专利申请第08/198,431号(1994年2月17日提交)、第PCT/US95/02126号(1995年2月17
日提交)、第08/425,684号(1995年4月18日提交)、第08/537,874号(1995年10月30日提交)、
第08/564,955号(1995年11月30日提交)、第08/621,859号(1996年3月25日提交)、第08/
621,430号(1996年3月25日提交)、第PCT/US96/05480号(1996年4月18日提交)、第08/650,
400号(1996年5月20日提交)、第08/675,502号(1996年7月3日提交)、第08/721,824号(1996
年9月27日提交)和第08/722,660号(1996年9月27日提交);施特默尔,《科学(Science)》
270:1510(1995);施特默尔等人,《基因(Gene)》164:49-53(1995);施特默尔,《生物技术(Bio/Technology)》13:549-553(1995);施特默尔,《美国国家科学院院刊》91:10747-10751(1994);施特默尔,《自然》370:389-391(1994);凯默瑞等人,《自然·医学》2(1):1-3
(1996);凯默瑞等人,《自然·生物技术》14:315-319(1996),出于所有目的,所述文献各自以全文引用的方式并入本文中。
[0214] 这些包含促进在整个突变型菌株中的基因组重组的技术,如原生质粒融合和全基因组改组。对于一些工业微生物体(如酵母和丝状真菌)来说,也可利用天然配对循环进行
成对基因组重组。以这种方式,可通过与亲本菌株产生‘回交’突变体且合并有益突变来去
除有害突变。此外,能够潜在地将来自两种不同菌株谱系的有益突变组合,从而相对于使单
一菌株谱系自身发生突变而可能获得的改进可能性,产生额外的改进可能性。然而,这些方
法受到许多限制,使用本公开方法规避了这些限制。
[0215] 举例来说,如上文所描述的传统重组方法缓慢且依赖于相对少量的随机重组交换事件来交换突变,且因此在可以在任何指定循环或时间段中尝试的组合数量上存在限制。
此外,虽然现有技术中的天然重组事件基本上是随机的,但是其也服从基因组位置偏好。
[0216] 最重要的是,传统方法还提供极少关于个别突变影响的信息,且由于重组突变的随机分布,因此无法产生且评价许多特定组合。
[0217] 为了克服与传统菌株改进程序相关的许多前述问题,本公开阐述一种由计算机驱动且整合分子生物学、自动化、数据分析和机器学习方案的独特HTP基因工程改造平台。这
个集成平台利用一套HTP分子工具集,所述工具集用于构筑HTP基因设计文库。这些基因设
计文库将在下文详细说明。图8描绘本公开的大肠杆菌菌株改进程序的实施例的概述。
[0218] 本发明所公开的HTP平台和其独特微生物基因设计文库在根本上转变了微生物菌株发育和进化的范例。举例来说,基于突变诱发来开发工业微生物菌株的传统方法最终将
产生背负沉重突变诱发负荷的微生物,所述负荷是在多年的随机突变诱发期间积累起来
的。
[0219] 解决这个问题(即去除这些微生物所积累的基因包袱)的能力已困惑微生物研究人员数十年。然而,利用本文公开的HTP平台,可“修复”这些工业菌株且可鉴定和去除有害的基因突变。鉴定为有益的基因突变宜能够保持,且在一些情况下能够据以改进。所得微生
物菌株相较于其亲本菌株呈现优良的表型性状(例如所关注化合物的产量提高)。
[0220] 此外,本文教示的HTP平台能够鉴定、表征和量化个别突变对微生物菌株性能的影响。这个信息,即所指定基因变化x对宿主细胞表型y(例如所关注化合物或产物的产量)的
影响,能够产生且接着存储于下文论述的微生物HTP基因设计文库中。即,每种基因排列的
序列信息和其对宿主细胞表型的影响存储于一或多个数据库中,且可供后续分析使用(例
如上位性映射,如下文所论述)。本发明还教示在物理上保存/存储有价值的基因排列的方
法,所述基因排列呈基因插入构筑体形式或呈含有所述基因排列的一或多种宿主细胞生物
体形式(例如参见下文论述的文库)。
[0221] 当将这些HTP基因设计文库结合到与复杂数据分析和机器学习程序集成的迭代程序中时,一种用于改进宿主细胞的显著不同方法便问世了。因此,所教示的平台在根本上不
同于先前论述的开发宿主细胞菌株的传统方法。所教示的HTP平台不受与此前方法相关的
许多缺点困扰。参照下文论述的HTP分子工具集和所衍生的基因设计文库将显而易知这些
和其它优势。
[0222] 基因设计和微生物工程改造:利用一套HTP分子工具和HTP基因设计文库进行菌株改进的系统性组合方法
[0223] 如前所述,本公开提供一种通过迭代系统性引入和去除整个菌株中的基因变化对微生物生物体进行工程改造的新颖HTP平台和基因设计策略。所述平台由一套分子工具提
供支持,其能够创建HTP基因设计文库且允许对所指定的宿主菌株有效实施基因变异。
[0224] 本公开的HTP基因设计文库充当可引入到特定微生物菌株背景中的可能基因变异的来源。以这种方式,HTP基因设计文库是基因多样性的存储库,或基因扰动的集合,其可应用于对所指定的微生物菌株进行初始或进一步的工程改造。在待决的第15/140,296号美国
专利申请案和待决的第PCT/US17/29725号国际申请案,标题为“用于改进大规模生产工程
改造的核苷酸序列的微生物菌株设计系统和方法(Microbial Strain Design System and 
Methods for Improved Large Scale Production of Engineered Nucleotide 
Sequences)”中,描述用于对实施于宿主菌株的基因设计进行编程的技术,所述文献的每一
个以全文引用的方式并入本文中。
[0225] 这个平台中使用的HTP分子工具集尤其可包含:(1)启动子交换(PRO交换),(2)SNP交换,(3)起始/终止密码子交换,(4)STOP交换,(5)序列优化,(6)溶解性标签交换和(7)降
解标签交换。本公开的HTP方法还教示指导HTP工具集的合并/组合使用的方法,包括(8)上
位性映射方案。如前所述,单独或组合的这套分子工具能够创建HTP基因设计宿主细胞文
库。
[0226] 如将证明,在所教示的HTP微生物工程改造平台的情形下使用前述HTP基因设计文库使得能够鉴定和合并有益的“致病”突变或基因区段,且还能够鉴定和去除消极或有害突
变或基因区段。这种新方法允许对菌株性能进行快速改进,而传统的随机突变诱发或定向
基因工程改造则无法实现快速改进。去除基因负荷或将有益变化合并到无基因负荷的菌株
中还向能够实现进一步改进的额外随机突变诱发提供新颖、稳固的起点。
[0227] 在一些实施例中,本公开教示当鉴定出在整个突变诱发菌株谱系中的不同离散分支的正交有益变化时,还能够将其快速地合并到性能更佳的菌株中。还能够将这些突变合
并到不是突变诱发谱系一部分的菌株中,如通过定向基因工程改造获得改进的菌株。
[0228] 在一些实施例中,本公开与已知的菌株改进方法的不同之处在于,其分析在多个不同基因组区域(包含已表达和未表达的遗传元件)中的突变的全基因组组合影响,且使用
所搜集的信息(例如实验结果)预测预期会产生菌株增强的突变组合。
[0229] 在一些实施例中,本公开教示:i)容许通过本发明得到改进的工业微生物和其它宿主细胞;ii)产生多样性池用于下游分析;iii)用于对较大变体池进行高通量筛选和测序
的方法和硬件;iv)用于机器学习计算分析和预测全基因组突变的协同效果的方法和硬件;
以及v)高通量菌株工程改造的方法。
[0230] 以下分子工具和文库结合说明性微生物实例来论述。所属领域中的技术人员将认识到,本公开的HTP分子工具与任何宿主细胞(包含真核细胞和更高级的生命形式)相容。此
外,在棒状杆菌中进行许多所说明的实施例;然而,可在大肠杆菌中使用相同的原理和方
法。
[0231] 现将论述已鉴定的HTP分子工具集中的每一种,其能够创建微生物工程改造平台中所用的各种HTP基因设计文库。
[0232] 1.启动子交换:用于衍生启动子交换微生物菌株库的分子工具
[0233] 在一些实施例中,本公开教示选择具有最优表达特性的启动子以对整体宿主菌株表型(例如产量或生产力)产生有益效果的方法。
[0234] 举例来说,在一些实施例中,本公开教示鉴定一或多种启动子和/或在宿主细胞内产生一或多种启动子的变体的方法,所述启动子呈现一系列表达强度(例如下文论述的启
动子梯)或优良调控特性(例如针对所选择基因的更紧密调控)。已鉴定和/或产生的这些启
动子的特定组合可分组在一起作为启动子梯,其在下文更详细地解释。
[0235] 接着使所讨论的启动子梯与所关注的指定基因关联。因此,如果具有启动子P1-P8(表示已鉴定和/或产生以呈现一系列表达强度的八种启动子)且使启动子梯与微生物中所
关注的单一基因关联(即,通过与指定目标基因可操作地连接的指定启动子来对微生物进
行基因工程改造),那么可通过表征由每种组合尝试产生的每种工程改造菌株来确认八种
启动子的每种组合的效果,条件是除与目标基因关联的特定启动子之外,工程改造的微生
物在其它方面具有一致的基因背景。
[0236] 通过这种方法进行工程改造的所得微生物形成HTP基因设计文库。
[0237] HTP基因设计文库可以指通过这种方法形成的真实实体微生物菌株集合,其中每种成员菌株表示在其它方面一致基因背景下与特定目标基因可操作地连接的指定启动子,
所述文库称为“启动子交换微生物菌株文库”。在特定大肠杆菌情形下,文库可称为“启动子交换大肠杆菌菌株文库”,但所述术语可同义地使用,因为大肠杆菌是微生物的一种具体实
例。
[0238] 此外,HTP基因设计文库可以指基因扰动的集合,在这种情况下,指定启动子x与指定基因y可操作地连接,所述集合称为“启动子交换文库”。
[0239] 此外,人们可使用包括启动子P1-P8的相同启动子梯来对微生物进行工程改造,其中8种启动子中的每一种与10个不同基因目标可操作地连接。这个程序将得到80种微生物,
除与所关注目标基因可操作地连接的特定启动子以外,所述微生物在其它方面基因上呈现
一致。可对这80种微生物进行适当筛选和表征且产生另一个HTP基因设计文库。表征HTP基
因设计文库中的微生物菌株产生的信息和数据可存储于任何数据存储构筑体中,包含关系
型数据库、面向对象数据库或高度分布式NoSQL数据库。这个数据/信息可以是例如指定启
动子(例如P1-P8)在与指定基因目标可操作地连接时的效果。这个数据/信息也可是通过将
启动子P1-P8中的两个或更多个与指定基因目标可操作地连接而产生的组合效果的更宽集
合。
[0240] 八种启动子和10种目标基因的前述实例仅是说明性的,这是因为所述概念可以应用于基于一系列表达强度的呈现而已经分组在一起的任何指定数量的启动子和任何指定
数量的目标基因。所属领域中的技术人员还将认识到两个或更多个启动子能够可操作地连
接于任何基因目标之前。因此,在一些实施例中,本公开教示启动子交换文库,其中来自启
动子梯的1、2、3或更多个启动子与一或多种基因可操作地连接。
[0241] 总之,利用各种启动子来驱动各种基因在生物体中的表达是一种优化所关注性状的强大工具。本发明人所开发的启动子交换分子工具使用启动子序列梯,已经证明其可改
变至少一个基因座在至少一种条件下的表达。接着,利用高通量基因组工程改造将这种梯
系统性地应用于生物体中的一组基因。基于多种方法中的任一种方法,确定这组基因影响
所关注性状的可能性较高。这些方法可包含基于已知功能或对所关注性状的影响而进行的
选择,或基于先前测定的有益基因多样性而进行的算法选择。在一些实施例中,基因的选择
可包含指定宿主中的所有基因。在其它实施例中,基因的选择可以是指定宿主中的所有基
因的随机选择的子集。
[0242] 接着对含有与基因连接的启动子序列的生物体的所得HTP基因设计微生物菌株文库在高通量筛选模型中的性能进行评定,且确定引起性能增强的启动子-基因连接且将信
息存储于数据库中。基因扰动的集合(即,与指定基因y可操作地连接的指定启动子x)形成
“启动子交换文库”,其可以用作用于微生物工程改造处理中的潜在基因变异的来源。随着
时间推移,当针对宿主细胞背景的更大多样性实施基因扰动的更大集合时,每个文库作为
实验上被确认的数据的主体而变得更强大,其能用于针对所关注的任何背景更精确地且可
预测地设计出定向变化。
[0243] 生物体中的基因转录水平是影响生物体行为的控制关键点。转录与翻译(蛋白质表达)紧密关联,且哪种蛋白质以什么数量表达决定了生物体行为。细胞表达数千种不同类
型的蛋白质,且这些蛋白质以多种复杂的方式相互作用以产生功能。通过系统地改变一组
蛋白质的表达水平,可以多种方式改变功能,由于复杂性,所述方式难以预测。一些变异可
增强性能,且因此与用于评定性能的机制关联,这项技术允许产生功能改进的生物体。
[0244] 在小分子合成路径的情形下,酶通过其小分子底物与产物,在始于底物且终于所关注小分子的直链或支链中发生相互作用。由于这些相互作用依序关联,因此此系统呈现
分布式控制,且增强一种酶的表达仅能增加路径通量直到另一种酶变成速率限制型为止。
[0245] 代谢控制分析(MCA)是一种根据实验数据和第一原理确定哪种或哪些酶是速率限制的方法。然而,MCA受到限制,原因是其在每种表达水平变化之后需要广泛的实验以确定
新的速率限制酶。在这种情形下,启动子交换是有利的,原因是通过将启动子梯应用于路径
中的每种酶,发现限制酶,且同一件事可以随后进行多轮以找到变成速率限制的新酶。此
外,由于功能读数最好是所关注小分子的产量,因此确定哪种酶是限制的实验与提高产量
的工程改造相同,从而缩短开发时间。在一些实施例中,本公开教示将PRO交换应用于编码
多单元酶的个别亚基的基因。在又其它实施例中,本公开教示对负责调控个别酶或整个生
物合成路径的基因应用PRO交换技术的方法。
[0246] 在一些实施例中,本公开的启动子交换工具用于鉴定所选基因目标的最优表达。在一些实施例中,启动子交换的目标可以是增强目标基因的表达,以降低代谢或遗传路径
中的瓶颈。在其它实施例中,启动子交换的目标可以是减少目标基因的表达,以便在不需要
所述目标基因的表达时,避免宿主细胞中不必要的能量消耗。
[0247] 在其它细胞系统(如转录、转运或信号传导)的情形下,可以使用各种合理方法先验地尝试且找出哪种蛋白质是表达变化的目标和那种变化应该是什么变化。这些合理方法
减少了扰动数量,所述扰动必须进行测试以找到改进性能的扰动,但是这样做的成本相当
大。基因缺失研究鉴定出其存在对特定功能关键的蛋白质,且接着可以过度表达重要基因。
由于蛋白质相互作用的复杂性,因此这对于增强性能而言通常无效。已经开发出不同类型
的模型,其试图根据第一原理描述转录或信号传导行为与细胞中的蛋白质含量的关系。这
些模型通常表明其中表达变化的目标可以产生不同或改进的功能。这些模型所基于的假设
过分简单化且参数难以测量,因此其所产生的预测通常不正确,尤其对于非模型生物体来
说。在基因缺失与建模的情况下,确定如何影响某种基因所需的实验不同于产生使性能改
进的变化的后续工作。启动子交换避开了这些挑战,原因是突显了特定扰动的重要性的所
构筑菌株也已经是改进的菌株。
[0248] 因此,在特定实施例中,启动子交换是一种多步骤方法,其包括:
[0249] 1.选择一组“x”个启动子充当“梯”。理想的是,这些启动子已经显示引起在多个基因组基因座中的高度可变表达,但唯一的要求是其以某种方式扰动基因表达。
[0250] 2.针对目标选择一组“n”个基因。这个集合可以是基因组中的每个开放阅读框架(ORF)或ORF的子集。可以使用与功能相关ORF的注释、根据与先前证实的有益扰动(先前启
动子交换或先前SNP交换)的关系、通过基于先前所产生的扰动之间的上位相互作用而进行
的算法选择、基于与针对目标的有益ORF有关的假设的其它选择标准或通过随机选择来选
择子集。在其它实施例中,“n”个靶向基因可包括非蛋白质编码基因,包括非编码RNA。
[0251] 3.快速且在一些实施例中平行进行以下基因修饰的高通量菌株工程改造:当原生启动子存在于目标基因n之前且其序列已知时,用所述梯中的x个启动子中的每一种置换原
生启动子。当原生启动子不存在或其序列未知时,将所述梯中的x个启动子中的每一种插入
基因n之前(参见例如图21)。以这种方式构筑菌株“文库”(也称为HTP基因设计文库),其中
文库的每个成员是与n目标可操作地连接的x启动子在其它方面相同的基因背景下的例子。
如此前所述,可以插入启动子组合,从而在构筑文库时,扩大组合可能性的范围。
[0252] 4.在依据一或多种度量的菌株性能指示性能优化的情形下,高通量筛选菌株文库。
[0253] 尤其可以扩展此基本方法以提供菌株性能的进一步改进:(1)将多个有益扰动合并到单一菌株背景中,以互动式程序一次一个进行;或作为多个变化在单一步骤中进行。多
个扰动可以是一组特定的定义变化或部分随机化的变化组合文库。举例来说,如果目标集
是路径中的每个基因,那么使扰动文库在先前菌株文库的改进成员中依序再生可优化路径
中的每个基因的表达水平,而不论哪种基因在任一次指定迭代时是速率限制;(2)将由文库
的个别和组合产生所得到的性能数据馈送到算法中,所述算法使用那个数据基于每个扰动
的相互作用来预测最优的扰动集合;以及(3)实施上述两种方法的组合(参见图20)。
[0254] 上文所论述的分子工具或技术的特征为启动子交换,但不限于启动子且可包含系统地改变一组目标的表达水平的其它序列变化。用于改变一组基因的表达水平的其它方法
可包含:a)核糖体结合位点梯(或真核生物中的Kozak序列);b)用其它起始密码子中的每一
种置换每个目标的起始密码子(即,下文论述的起始/终止密码子交换);c)将各种mRNA稳定
化或去稳定化序列连接到转录物的5'或3'端或任何其它位置;d)将各种蛋白质稳定化或去
稳定化序列在蛋白质中的任何位置连接(即,下文论述的降解或溶解标签交换)。
[0255] 所述方法举工业微生物体为例说明于本公开中,但适用于可在基因突变体群体中鉴定出所期望性状的任何生物体。举例来说,这可以用于改进CHO细胞、酵母、昆虫细胞、藻类以及多细胞生物体(如植物)的性能。
[0256] 2.SNP交换:用于衍生SNP交换微生物菌株库的分子工具
[0257] 在某些实施例中,SNP交换不是一种改进微生物菌株的随机突变诱发方法,而是涉及系统性地引入或去除整个菌株中的个别小核多态性核苷酸突变(即SNP)(因此称为“SNP
交换”)。
[0258] 通过这种方法进行工程改造的所得微生物形成HTP基因设计文库。
[0259] HTP基因设计文库可以指通过这个方法形成的真实实体微生物菌株集合,其中每个成员菌株代表指定SNP在其它方面相同基因背景下的存在与否,所述文库称为“SNP交换
微生物菌株文库”。在特定大肠杆菌情形下,文库可称为“SNP交换大肠杆菌菌株文库”,但所述术语可同义地使用,因为大肠杆菌是微生物的一种具体实例。
[0260] 此外,HTP基因设计文库可以指遗传扰动的集合,在这种情况下,指定的SNP存在或指定的SNP不存在,所述集合称为“SNP交换文库”。
[0261] 在一些实施例中,SNP交换涉及重新构筑具有目标SNP“构建模块”与已鉴定的有益性能效果的最优组合的宿主生物体。因此,在一些实施例中,SNP交换涉及将多个有益突变
合并到单一菌株背景中,以迭代程序一次一个进行;或作为多个变化在单个步骤中进行。多
个变化可以是一组特定的定义变化或部分随机化的突变组合文库。
[0262] 在其它实施例中,SNP交换还涉及从菌株中去除鉴定为有害的多个突变,按迭代程序一次一个进行;或作为多个变化在单个步骤中进行。多个变化可以是一组特定的定义变
化或部分随机化的突变组合文库。在一些实施例中,本公开的SNP交换方法包含添加有益
SNP和去除有害和/或中性突变。
[0263] SNP交换是一种在经历突变诱发和选择以改进所关注性状的菌株谱系中鉴定和利用有益和有害突变的强大工具。SNP交换是利用高通量基因组工程改造技术系统地确定突
变诱发谱系中的个别突变的影响。测定在具有已知性能改进的突变诱发谱系中的一或多个
世代中的菌株的基因组序列。接着系统地利用高通量基因组工程改造在早期谱系菌株中再
现已改进菌株的突变,和/或使后期菌株中的突变恢复为早期菌株序列。接着评价这些菌株
的性能,且可以确定每种个别突变对改进的所关注表型的贡献。如前所述,对这个方法所得
的微生物菌株进行分析/表征且形成SNP交换基因设计文库的基础,所述文库可以告知在整
个宿主菌株中的微生物菌株改进。
[0264] 有害突变的去除可以提供直接的性能改进,且将有益突变合并在未经受突变诱发负荷的菌株背景中可以快速且极大地改进菌株性能。通过SNP交换方法所产生的各种微生
物菌株形成HTP基因设计SNP交换文库,其是包括各种所添加/缺失/或合并SNP的微生物菌
株,但是其它方面具有相同的基因背景。
[0265] 如先前所论述,供性能改进用的随机突变诱发和后续筛选是一种改进工业菌株的常用技术,且当前用于大规模制造的许多菌株已经使用这种方法以迭代方式开发历时多
年,有时数十年。产生基因组突变的随机方法(如暴露于UV辐射或化学诱变剂,如甲烷磺酸
乙酯)是用于改进工业菌株的优选方法,原因是:1)工业生物体可能在基因或代谢上具有不
良的特征,使得定向改进方法的目标选择困难或不可能;2)即使在表征相对充分的系统中,
也难以预测引起工业性能改进的变化且可能需要扰动无已知功能的基因;以及3)在指定工
业生物体中产生定向基因组突变的遗传工具无法获得或非常缓慢和/或难以使用。
[0266] 然而,尽管此程序存在前述益处,但是也存在多种已知缺点。有益突变是相对罕见的事件,且为了在固定的筛选能力下发现这些突变,突变率必须足够的高。这通常引起非所
需的中性突变和部分有害的突变连同有益变化一起并入菌株中。随着时间推移,这个‘突变
诱发负荷’积累,产生在总体稳定性和关键性状(如生长速率)上具有缺陷的菌株。最终,‘突变诱发负荷’性能越来越难以或不可能通过随机突变诱发获得进一步改进。在不使用适合
的工具的情况下,将菌株谱系的离散和并联分支中所发现的有益突变合并是不可能的。
[0267] SNP交换是一种克服这些限制的方法,其通过系统地再现或恢复当比较突变诱发谱系内的菌株时所观测到的一些或所有突变来实现。以这种方式,可鉴定和合并有益(‘致
病’)突变,且/或可鉴定和去除有害突变。这允许对菌株性能进行快速改进,而通过进一步
随机突变诱发或定向基因工程改造则无法实现。
[0268] 去除基因负荷或将有益变化合并到无基因负荷的菌株中还向能够实现进一步改进的额外随机突变诱发提供新颖、稳固的起点。
[0269] 另外,当在突变诱发菌株谱系的各种离散分支中鉴定正交有益变化时,可将其快速地合并到性能更佳的菌株中。还能够将这些突变合并到不是突变诱发谱系一部分的菌株
中,如通过定向基因工程改造获得改进的菌株。
[0270] 存在着将突变诱发谱系内的菌株之间的突变随机重组的其它方法和技术。这些包含促进在整个突变型菌株中的基因组重组的技术,如原生质粒融合和全基因组改组。对于
一些工业微生物体(如酵母和丝状真菌)来说,也可利用天然配对循环进行成对基因组重
组。以这种方式,可通过与亲本菌株产生‘回交’突变体且合并有益突变来去除有害突变。然而,这些方法受到许多限制,使用本公开的SNP交换方法规避了这些限制。
[0271] 举例来说,由于这些方法依赖于相对少量的随机重组交换事件来交换突变,因此可以采取许多重组和筛选循环来优化菌株性能。另外,虽然天然重组事件基本上是随机的,
但是其也服从基因组位置偏好且可能难以解决一些突变。在无额外基因组测序和分析的情
况下,这些方法还提供极少关于个别突变影响的信息。SNP交换克服了这些基本限制,因为
其不是随机方法,而是系统性地引入或去除整个菌株中的个别突变。
[0272] 在一些实施例中,本公开教示用于鉴定多样性池的生物体中所存在的SNP序列多样性的方法。多样性池可以是指定数量n个分析所用微生物,其中所述微生物的基因组代表
“多样性池”。
[0273] 在特定方面中,多样性池可以是初始亲代菌株(S1),其在特定时间点具有“基线”或“参考”基因序列(S1Gen1),且接着是任何数量的衍生/开发自所述S1菌株的后续子代菌株(S2-n),其具有不同于S1基线基因组的基因组(S2-nGen2-n)。
[0274] 举例来说,在一些实施例中,本公开教示对多样性池中的微生物基因组进行测序以鉴定每种菌株中存在的SNP。在一个实施例中,多样性池中的菌株是历史上的微生物生产
菌株。因此,本公开的多样性池可包含例如工业参考菌株,和通过传统菌株改进程序所产生
的一或多种突变型工业菌株。
[0275] 在一些实施例中,多样性池内的SNP是参考“参考菌株”测定。在一些实施例中,参考菌株是野生型菌株。在其它实施例中,参考菌株是在经历任何突变诱发之前的初始工业
菌株。参考菌株可以由从业者定义且不一定是初始野生型菌株或初始工业菌株。基本菌株
仅代表被视为“基本”、“参考”或初始基因背景的菌株,借此与由所述参考菌株衍生或开发的后续菌株比较。
[0276] 一旦鉴定出多样性池中的所有SNP后,本公开教示用SNP交换方法和筛选方法描绘(即,量化和表征)个别和/或群组中的SNP的效果(例如所关注的表型的产生)的方法。
[0277] 在一些实施例中,本公开的SNP交换方法包括将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴定的一或多种SNP引入参考菌株(S1Gen1)或野生型菌株的步骤(“向上波动”)。
[0278] 在其它实施例中,本公开的SNP交换方法包括将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴定的一或多种SNP去除的步骤(“向下波动”)。
[0279] 在一些实施例中,根据本公开的一或多个标准(例如所关注化学品或产物的产生),对包括一或多种SNP变化(引入或去除)的每种所产生菌株进行培养和分析。使来自每
种所分析宿主菌株的数据与存在于宿主菌株中的特定SNP或SNP群组相关联或相关,且记录
下来供未来使用。因此,本公开能够创建大型且高度注释的HTP基因设计微生物菌株文库,
所述菌株文库能够鉴定指定SNP对任何数量的所关注微生物基因或表型性状的影响。将这
些HTP基因设计文库中所存储的信息告知HTP基因组工程改造平台的机器学习算法且指导
所述程序的未来迭代,最终产生具有高度所期望特性/性状的进化微生物生物体。
[0280] 3.起始/终止密码子交换:用于衍生起始/终止密码子微生物菌株库的分子工具
[0281] 在一些实施例中,本公开教示交换起始和终止密码子变体的方法。举例来说,酿酒酵母(S.cerevisiae)和哺乳动物的典型终止密码子分别是TAA(UAA)和TGA(UGA)。单子叶植
物的典型终止密码子是TGA(UGA),而昆虫和大肠杆菌通常使用TAA(UAA)作为终止密码子
(达尔芬(Dalphin)等人(1996),《核酸研究(Nucl.Acids Res.)》24:216-218)。在其它实施
例中,本公开教示一种TAG(UAG)终止密码子的用途。
[0282] 本公开类似地教示交换起始密码子。在一些实施例中,本公开教示一种大部分生物体(尤其真核生物)所使用的ATG(AUG)起始密码子的用途。在一些实施例中,本公开教示,
原核生物大部分使用ATG(AUG),继之为GTG(GUG)和TTG(UUG)。
[0283] 在其它实施例中,本发明教示用TTG置换ATG起始密码子。在一些实施例中,本发明教示用GTG置换ATG起始密码子。在一些实施例中,本发明教示用ATG置换GTG起始密码子。在
一些实施例中,本发明教示用TTG置换GTG起始密码子。在一些实施例中,本发明教示用ATG
置换TTG起始密码子。在一些实施例中,本发明教示用GTG置换TTG起始密码子。
[0284] 在其它实施例中,本发明教示用TAG置换TAA终止密码子。在一些实施例中,本发明教示用TGA置换TAA终止密码子。在一些实施例中,本发明教示用TAA置换TGA终止密码子。在
一些实施例中,本发明教示用TAG置换TGA终止密码子。在一些实施例中,本发明教示用TAA
置换TAG终止密码子。在一些实施例中,本发明教示用TGA置换TAG终止密码子。
[0285] 4.Stop交换:用于衍生STOP交换微生物菌株文库的分子工具
[0286] 在一些实施例中,本公开教示通过优化细胞基因转录来提高宿主细胞生产力的方法。基因转录是若干种不同生物学现象的结果,包含转录起始(RNAp募集和转录复合物形
成),伸长(链合成/延伸),和转录终止(RNAp脱离和终止)。虽然已经倾注了大量注意力来通
过基因的转录调节(例如通过改变启动子,或诱导调控转录因子)来控制基因表达,但是通
过基因终止序列的调节获得转录调节的成果相对较少。
[0287] 转录影响基因表达水平的最明显方式是通过Pol II起始速率,其可以通过启动子或增强子浓度与反式活化因子的组合来调节(卡顿加JT(Kadonaga,JT),2004,“通过序列特
异性DNA结合因子对RNA聚合酶II转录的调节(Regulation of RNA polymerase II 
transcription by sequence-specific DNA binding factors)”《,细胞(Cell)》,2004年1月23日;116(2):247-57)。在真核生物中,伸长率也可以通过影响替代性剪接来决定基因表
达模式(克拉默P.(Cramer P.)等人,1997“启动子结构与转录物替代性拼接之间的功能联
系(Functional association between promoter structure and transcript 
alternative splicing)”,《美国国家科学院院刊(Proc Natl Acad Sci U S A)》,1997年
10月14日;94(21):11456-60)。基因上的终止失效可以通过减少启动子到Pol II的可及性
来消弱下游基因的表达(格莱吉IH(Greger IH)等人,2000“酿酒酵母的GAL7启动子的转录
干扰和起始之间的平衡(Balancing transcriptional interference and initiation on 
the GAL7 promoter of Saccharomyces cerevisiae)”,《美国国家科学院院刊》,2000年7月18日;97(15):8415-20)。这种过程(称为转录干扰)与低级真核生物尤其相关,因为其通
常具有紧密间隔的基因。
[0288] 终止序列还能够影响所述序列所属的基因的表达。举例来说,研究显示,真核生物中的低效转录终止引起未剪接的前mRNA积累(参见韦斯特S.(West,S.)和普洛德弗N.J.
(Proudfoot,N.J.),2009“转录终止使人类细胞中的蛋白质表达增强(Transcriptional 
Termination Enhances Protein Expression in Human Cells)”,《分子细胞(Mol 
Cell)》,2009年2月13日;33(3-9);354-364)。其它研究也已显示,3'端处理可以通过低效终止来延迟(韦斯特S等人,2008“哺乳动物RNA聚合酶II转录终止的分子剥离(Molecular 
dissection of mammalian RNA polymerase II transcriptional termination)”,《分子
细胞》,2008年3月14日;29(5):600-10)。转录终止还能够通过从合成位点释放转录物来影
响mRNA稳定性。此外,强力终止序列可增加mRNA稳定性,因此增加蛋白质丰度和总体路径活
性。
[0289] 真核生物中的转录机制的终止
[0290] 真核生物中的转录终止通过终止子信号操作,所述终止子信号被与RNA聚合酶II相关的蛋白质因子识别。在一些实施例中,裂解和聚腺苷酸化特异性因子(CPSF)和裂解刺
激因子(CstF)从RNA聚合酶II的羧基端域转移到poly-A信号。在一些实施例中,CPSF和CstF
因子也将其它蛋白质募集到终止位点,其接着使转录物裂解且使mRNA从转录复合物中释
放。终止也触发mRNA转录物的聚腺苷酸化。已验证的真核生物终止因子和其保守结构的说
明性实例论述于本文的后续部分中。
[0291] 原核生物中的转录的终止
[0292] 在原核生物中,称为Rho非依赖性和Rho依赖性终止的两种主要机制介导转录终止。Rho非依赖性终止信号不需要外来的转录终止因子,原因是由这些序列转录的RNA中的
茎-环结构的形成连同一系列尿苷(U)残基一起促进RNA链从转录复合物中的释放。另一方
面,Rho依赖性终止需要mRNA上的称为Rho的转录终止因子和顺式作用元件。Rho的初始结合
位点(Rho利用(rut)位点)是延伸的(~70个核苷酸,有时80-100个核苷酸)单链区域,其特
征在于高胞苷/低苷含量和所合成的RNA中的位于实际终止子序列上游的二级结构相对
稀少。当遇到聚合酶暂停位点时,发生终止,且通过Rho的解螺旋酶活性来释放转录物。
[0293] 终止子交换(STOP交换)
[0294] 在一些实施例中,本公开教示选择具有最优表达特性的终止序列(“终止子”)以对整体宿主菌株生产力产生有益效果的方法。
[0295] 举例来说,在一些实施例中,本公开教示鉴定一或多种终止子和/或在宿主细胞内产生一或多种终止子的变体的方法,其呈现一系列表达强度(例如下文论述的终止子梯)。
已鉴定和/或产生的这些终止子的特定组合可分组在一起作为终止子梯,其在下文更详细
地解释。
[0296] 接着使所讨论的终止子梯与所关注的指定基因关联。因此,如果具有终止子T1-T8(表示已鉴定和/或产生以便在与一或多种启动子组合时呈现一系列表达强度的八种终止
子)且使终止子梯与宿主细胞中所关注的单一基因关联(即,通过使指定终止子与指定目标
基因的3'末端可操作地连接而对宿主细胞进行基因工程改造),那么可以通过表征由每种
组合尝试产生的每种工程改造的菌株来确定终止子的每种组合的效果,条件是除与目标基
因相关的特定启动子之外,工程改造的宿主细胞在其它方面具有相同的基因背景。通过这
种方法进行工程改造的所得宿主细胞形成HTP基因设计文库。
[0297] HTP基因设计文库可以指通过这个方法形成的真实实体微生物菌株集合,其中每个成员菌株代表指定的终止子在其它方面相同的基因背景下与特定目标基因可操作地连
接,所述文库称为“终止子交换微生物菌株文库”或“STOP交换微生物菌株文库”。在特定大肠杆菌情形下,文库可称为“终止子交换大肠杆菌菌株文库”或“STOP交换大肠杆菌菌株文
库”,但所述术语可同义地使用,因为大肠杆菌是微生物的一种具体实例。
[0298] 此外,HTP基因设计文库可以指基因扰动的集合,在这种情况下为与指定基因y可操作地连接的指定终止子x,所述集合称为“终止子交换文库”或“STOP交换文库”。
[0299] 此外,人们可使用包括终止子T1-T8的相同终止子梯来对微生物进行工程改造,其中八种终止子中的每一种与10个不同基因目标可操作地连接。这个程序得到80种宿主细胞
菌株,除与所关注目标基因可操作地连接的特定终止子之外,所述菌株在其它方面基因上
呈现一致。可对这80种宿主细胞菌株进行适当筛选和表征且产生另一个HTP基因设计文库。
表征HTP基因设计文库中的微生物菌株产生的信息和数据可存储于任何数据库中,包括(但
不限于)关系型数据库、面向对象数据库或高度分布式NoSQL数据库。这个数据/信息可包含
例如指定终止子(例如T1-T8)在与指定基因目标可操作地连接时的效果。这个数据/信息也
可是通过将两个或更多个启动子(例如T1-T8)与指定基因目标可操作地连接而产生的组合
效果的更宽集合。
[0300] 八种终止子和10种目标基因的前述实例仅是说明性的,这是因为所述概念可以应用于基于一系列表达强度的呈现而已经分组在一起的任何指定数量的终止子和任何指定
数量的目标基因。举例来说,可用于本文所提供的方法(例如STOP交换)的另一组终止子是
见于表1.2中具有核酸SEQ ID No 225、226、227、228、229或230的终止子集合。
[0301] 总之,利用各种终止子来调节各种基因在生物体中的表达是一种优化所关注性状的强大工具。本发明人所开发的终止子交换分子工具是使用终止子序列梯,其已经证明可
改变至少一个基因座在至少一种条件下的表达。接着,利用高通量基因组工程改造将这种
梯系统性地应用于生物体中的一组基因。基于多种方法中的任一种方法,确定这组基因影
响所关注性状的可能性较高。这些方法可包含基于已知功能或对所关注性状的影响而进行
的选择,或基于先前测定的有益基因多样性而进行的算法选择。
[0302] 接着对含有与基因连接的终止子序列的生物体的所得HTP基因设计微生物菌株文库在高通量筛选模型中的性能进行评定,且确定引起性能增强的启动子-基因连接且将信
息存储于数据库中。基因扰动的集合(即,与指定基因y可操作地连接的指定终止子x)形成
“终止子交换文库”,其可以用作用于微生物工程改造处理中的潜在基因变异的来源。随着
时间推移,当针对微生物背景的更大多样性实施基因扰动的更大集合时,每个文库作为实
验上被确认的数据的主体而变得更强大,其能用于针对所关注的任何背景更精确地且可预
测地设计出定向变化。即,在一些实施例中,本公开教示基于先前实验结果将一或多个基因
变化引入到宿主细胞中,所述先前实验结果嵌入与本发明的任一基因设计文库有关的元数
据内。
[0303] 因此,在特定实施例中,终止子交换是一种多步骤方法,其包括:
[0304] 1.选择一组“x”个终止子充当“梯”。理想的是,这些终止子已经显示引起在多个基因组基因座中的高度可变化表达,但唯一的要求是其一定程度上扰动基因表达。
[0305] 2.针对目标选择一组“n”个基因。这个集合可以是基因组中的每个ORF或ORF的子集。可以使用与功能相关ORF的注释、根据与先前证实的有益扰动(先前启动子交换、STOP交
换、溶解性标签交换、降解标签交换或SNP交换)的关系、通过基于先前所产生的扰动之间的
上位相互作用而进行的算法选择、基于与针对目标的有益ORF有关的假设的其它选择标准
或通过随机选择来选择子集。在其它实施例中,“n”个靶向基因可包括非蛋白质编码基因,包括非编码RNA。
[0306] 3.快速且平行进行以下基因修饰的高通量菌株工程改造:当原生终止子存在于目标基因n的3'端且其序列已知时,用所述梯中的x个终止子中的每一种置换原生终止子。当
原生终止子不存在或其序列未知时,将所述梯中的x个终止子中的每一种插入基因终止密
码子之后。
[0307] 以这种方式构筑菌株“文库”(也称为HTP基因设计文库),其中文库的每个成员是与n目标连接的x终止子在其它方面相同基因背景下的例子。如先前所描述,可以插入终止
子组合,从而在构筑文库时,扩大组合可能性的范围。
[0308] 4.在依据一或多种度量的菌株性能指示性能优化的情形下,高通量筛选菌株文库。
[0309] 尤其可以扩展此基本方法以提供菌株性能的进一步改进:(1)将多个有益扰动合并到单一菌株背景中,以互动式程序一次一个进行;或作为多个变化在单一步骤中进行。多
个扰动可以是一组特定的定义变化或部分随机化的变化组合文库。举例来说,如果目标集
是路径中的每个基因,那么使扰动文库在先前菌株文库的改进成员中依序再生可优化路径
中的每个基因的表达水平,而不论哪种基因在任一次指定迭代时是速率限制;(2)将由文库
的个别和组合产生所得到的性能数据馈送到算法中,所述算法使用那个数据基于每个扰动
的相互作用来预测最优的扰动集合;以及(3)实施上述两种方法的组合。
[0310] 所述方法举工业微生物体为例说明于本公开中,但适用于可在基因突变体群体中鉴定出所期望性状的任何生物体。举例来说,这可以用于改进CHO细胞、酵母、昆虫细胞、藻类以及多细胞生物体(如植物)的性能。
[0311] 5.序列优化:用于衍生优化序列微生物菌株文库的分子工具
[0312] 在一个实施例中,本公开的方法包括对宿主生物体所表达的一或多种基因进行密码子优化。用于优化密码子以提高各种宿主中的表达的方法在所属领域中已知且描述于文
献(参见第2007/0292918号美国专利申请公开案,其以全文引用的方式并入本文中)中。可
以制备含有特定原核生物或真核生物宿主优选的密码子的优化编码序列(也参见莫雷
(Murray)等人(1989),《核酸研究(Nucl.Acids Res.)》17:477-508),以例如提高翻译速率
或产生具有期望特性的重组RNA转录物,如相比于由非优化序列产生的转录物,更长的半衰
期。
[0313] 蛋白质表达由大量因素控制,包含影响转录、mRNA加工以及翻译的稳定性和起始的那些因素。因此,优化可解决任何特定基因的多个序列特征中的任一个。作为一特定实
例,稀有密码子诱导的翻译暂停可引起蛋白质表达减少。稀有密码子诱导的翻译暂停包含
所关注多核苷酸中的很少用于宿主生物体中的密码子的存在因其在可利用的tRNA池中的
稀缺性而可能对蛋白质翻译产生负面影响。
[0314] 替代翻译起始也可引起异源蛋白质表达减少。替代翻译起始可包含合成多核苷酸序列,其不经意间含有能够充当核糖体结合位点(RBS)的基序。这些位点可以起始所截短蛋
白质从基因内部位点的翻译。一种减少产生截短蛋白质(其在纯化期间可能难以去除)的可
能性的方法包含将推定的内部RBS序列从优化的多核苷酸中消除。
[0315] 重复诱导的聚合酶滑移可引起异源蛋白质表达减少。重复诱导的聚合酶滑移涉及核苷酸序列重复,其已经显示引起DNA聚合酶滑移或停顿,这会引起移框突变。这类重复也
可引起RNA聚合酶滑移。在具有高G+C含量偏好的生物体中,可以存在由G或C核苷酸重复构
成的较高程度的重复。因此,一种减少诱导RNA聚合酶滑移的可能性的方法包含改变G或C核
苷酸的延长重复。
[0316] 干扰二级结构还可引起异源蛋白质表达减少。二级结构可掩蔽RBS序列或起始密码子且已与蛋白质表达的减少相关。茎环结构也可涉及转录暂停和减弱。优化的多核苷酸
序列可在核苷酸序列的RBS和基因编码区中含有极少的二级结构以允许转录与翻译改进。
[0317] 举例来说,优化方法可以始于鉴定由宿主表达的所期望氨基酸序列。根据所述氨基酸序列,可以设计候选多核苷酸或DNA序列。在合成DNA序列的设计期间,可以对密码子使
频率与宿主表达生物体的密码子使用进行比较且可以从合成序列中去除罕见的宿主密
码子。另外,可以修饰合成候选DNA序列以便去除非期望的酶限制位点和添加或去除任何所
期望的信号序列、连接子或非翻译区。可以分析合成DNA序列中的可能会干扰翻译过程的二
级结构的存在,如G/C重复和茎-环结构。
[0318] 6.溶解性标签交换:用于衍生溶解性标签交换微生物菌株文库的分子工具
[0319] 在一些实施例中,本公开教示通过优化翻译后机制来提高宿主细胞生产力的方法。传统菌株改进可通常通过过度表达产生一些所关注分子的路径基因来实现。通常,可重
复已知路径基因,或可插入强力启动子以驱动这些基因的表达,且因此增加mRNA转录水平,
目的是增加路径蛋白质丰度以实现来自指定路径的速率、效价或产量提高。可在全基因组
级别上系统地应用这种方法,以鉴定可改进菌株性能的所有基因。另一频繁应用的方法可
以是缺失潜在地竞争性路径基因,目的是完全消除可从所期望路径转移碳的蛋白质产物。
然而,所属领域中已知的这些过度表达和/或缺失菌株改进方法可能具有若干限制。
[0320] 从路径复制或强力启动子插入开始,增加mRNA转录水平的预期效果可能未必会引起蛋白质丰度增加。各种蛋白质产物在其生产中可能具有各种速率限制步骤,且这个速率
限制步骤可能不是mRNA转录水平。在mRNA转录不是速率限制步骤的情形下,有可能的是,翻
译后机制可能影响整体蛋白质丰度。举例来说,蛋白质溶解性标签的存在可用于增加正确
折叠的活性蛋白质的丰度,所述蛋白质可有助于产生目标分子,然而简单增加mRNA转录水
平可能仅导致错误折叠的无活性蛋白质增加。视所使用的溶解性标签的序列而定,也可使
蛋白质溶解性标签所发挥的效果是可调的,使得能够精确优化目标表型。
[0321] 蛋白质溶解性标签交换(溶解性标签交换)
[0322] 在一些实施例中,本公开教示选择具有最优蛋白质溶解性特性的蛋白质溶解性标签序列(“溶解性标签”)以对整体宿主菌株生产力产生有益效果的方法。
[0323] 举例来说,在一些实施例中,本公开教示鉴定一或多种蛋白质溶解性标签和/或在宿主细胞内产生一或多种蛋白质溶解性标签的变体的方法,所述标签呈现一系列溶解性强
度(例如下文论述的蛋白质溶解性标签)。已鉴定和/或产生的这些蛋白质溶解性标签的特
定组合可分组在一起作为蛋白质溶解性标签梯,其在下文更详细地解释。
[0324] 接着使所讨论的蛋白质溶解性标签梯与所关注的指定基因关联。因此,如果具有用于增强蛋白质溶解性的蛋白质溶解性标签PST1-PST4(表示已根据科斯塔(Costa)等人,
《前沿微生物学(Front Microbiol)》,2014;5:63鉴定的蛋白质溶解性标签的子集)(参见表
17)且还小于100个氨基酸,并且使蛋白质溶解性标签梯与宿主细胞中的单一所关注基因相
关联(即,以基因方式工程改造宿主细胞具有与指定目标基因可操作地连接的指定蛋白质
溶解性标签,以在N端或C端处产生标记的目标蛋白)。可通过表征由每一组合尝试产生的工
程改造的菌株中的每一种,来确认蛋白质溶解性标签的每一种组合的效果,条件是除与目
标基因相关联的特定溶解性标签以外,工程改造的宿主细胞在其它方面具有相同的基因背
景。通过这种方法进行工程改造的所得宿主细胞形成HTP基因设计文库。
[0325] HTP基因设计文库可以指通过这个方法形成的真实实体微生物菌株集合,其中每个成员菌株代表指定的蛋白质溶解性标签在其它方面相同的基因背景下与特定目标蛋白
可操作地连接,所述文库称为“溶解性标签交换微生物菌株文库(solubility tag swap 
microbial strain library/SOLUBILITY TAG swap microbial strain library)”。在特
定大肠杆菌情形下,文库可称为“溶解性标签交换大肠杆菌菌株文库(SOLUBILITY TAG 
swap E.coli strain library/SOLUBILITY TAG swap E.coli strain library)”,但所述
术语可同义地使用,因为大肠杆菌是微生物的一种具体实例。
[0326] 此外,HTP基因设计文库可以指基因扰动的集合,在这种情况下为与指定基因y可操作地连接的指定蛋白质溶解性标签x,所述集合称为“蛋白质溶解性标签交换文库”或“溶解性标签交换文库”。
[0327] 此外,人们可使用包括蛋白质溶解性标签PST1-PST4的相同蛋白质溶解性标签梯来对微生物进行工程改造,其中四种蛋白质溶解性标签中的每一种与10种不同基因目标可操
作地连接。这个程序得到40种宿主细胞菌株,除与所关注目标基因可操作地连接的特定蛋
白质溶解性标签之外,所述菌株在其它方面基因上呈现一致。可对这40种宿主细胞菌株进
行适当筛选和表征且产生另一个HTP基因设计文库。表征HTP基因设计文库中的微生物菌株
产生的信息和数据可存储于任何数据库中,包括(但不限于)关系型数据库、面向对象数据
库或高度分布式NoSQL数据库。这个数据/信息可包含例如指定蛋白质溶解性标签(例如
PST1-PST4)在与指定基因目标可操作地连接时的效果。这个数据/信息也可是通过将两个或
更多个溶解性标签(例如PST1-PST4)与指定基因目标可操作地连接而产生的组合效果的更
宽集合。
[0328] 四种蛋白质溶解性标签和10种目标基因的前述实例仅是说明性的,这是因为所述概念可以应用于基于一系列溶解性强度的呈现而已经分组在一起的任何指定数量的蛋白
质溶解性标签和任何指定数量的目标基因。
[0329] 总之,利用各种蛋白质溶解性标签来调节各种蛋白质在生物体中的溶解性是一种优化所关注性状的强大工具。本发明人所开发的蛋白质溶解性标签交换分子工具使用蛋白
质溶解性标签序列梯,已经证明其可改变(例如增强)至少一种蛋白质在至少一种条件下的
溶解性。接着,利用高通量基因组工程改造将这种梯系统性地应用于生物体中的一组基因。
基于多种方法中的任一种方法,确定这组基因影响所关注性状的可能性较高。这些方法可
包含基于已知功能或对所关注性状的影响而进行的选择,或基于先前测定的有益基因多样
性而进行的算法选择。
[0330] 接着,评定含有与基因连接的蛋白质溶解性标记物序列的生物体的所得HTP基因设计微生物文库关于在高通量筛选模型中的性能,且测定引起性能提高的蛋白质溶解性标
签-基因连接且将信息存储于数据库中。基因扰动的集合(即,与指定基因y可操作地连接的
指定蛋白质溶解性标签x)形成“蛋白质溶解性标签交换文库”,其可以用作用于微生物工程
改造处理中的潜在基因变异的来源。随着时间推移,当针对微生物背景的更大多样性实施
基因扰动的更大集合时,每个文库作为实验上被确认的数据的主体而变得更强大,其能用
于针对所关注的任何背景更精确地且可预测地设计出定向变化。即,在一些实施例中,本公
开教示基于先前实验结果将一或多个基因变化引入到宿主细胞中,所述先前实验结果嵌入
与本发明的任一基因设计文库有关的元数据内。
[0331] 因此,在特定实施例中,蛋白质溶解性标签交换是一种多步骤方法,其包括:
[0332] 1.选择一组“x”个蛋白质溶解性标签充当“梯”。理想的是,这些蛋白质溶解性标签已经显示引起在多个基因组基因座中的蛋白质溶解性增强,但唯一的要求是其一定程度上扰动溶解性。
[0333] 2.针对目标选择一组“n”个基因。这个集合可以是基因组中的每个ORF或ORF的子集。可以使用与功能相关ORF的注释、根据与先前证实的有益扰动(先前启动子交换、STOP交
换、降解标签交换或SNP交换)的关系、通过基于先前所产生的扰动之间的上位相互作用而
进行的算法选择、基于与针对目标的有益ORF有关的假设的其它选择标准或通过随机选择
来选择子集。
[0334] 3.快速且平行进行以下基因修饰的高通量菌株工程改造:当原生蛋白质溶解性标签存在于目标基因n内且其序列已知时,用所述梯中的x个蛋白质溶解性标签中的每一种置
换原生蛋白质溶解性标签。当原生蛋白质溶解性标签不存在或其序列未知时,将x个蛋白质
溶解性标签中的每一种插入梯中。
[0335] 以这种方式构筑菌株“文库”(也称为HTP基因设计文库),其中文库中的每个成员是与n目标连接的x蛋白质溶解性标签在其它方面相同基因背景下的例子。如先前所描述,
可以插入蛋白质溶解性标签组合,从而在构筑文库时,扩大组合可能性的范围。
[0336] 4.在依据一或多种度量的菌株性能指示性能优化的情形下,高通量筛选菌株文库。
[0337] 尤其可以扩展此基本方法以提供菌株性能的进一步改进:(1)将多个有益扰动合并到单一菌株背景中,以互动式程序一次一个进行;或作为多个变化在单一步骤中进行。多
个扰动可以是一组特定的定义变化或部分随机化的变化组合文库。举例来说,如果目标集
是路径中的每个基因,那么使扰动文库在先前菌株文库的改进成员中依序再生可优化路径
中的每个基因的表达水平,而不论哪种基因在任一次指定迭代时是速率限制;(2)将由文库
的个别和组合产生所得到的性能数据馈送到算法中,所述算法使用那个数据基于每个扰动
的相互作用来预测最优的扰动集合;以及(3)实施上述两种方法的组合。
[0338] 所述方法举工业微生物体为例说明于本公开中,但适用于可在基因突变体群体中鉴定出所期望性状的任何生物体。举例来说,这可以用于改进CHO细胞、酵母、昆虫细胞、藻类以及多细胞生物体(如植物)的性能。
[0339] 7.降解标签交换:用于衍生降解标签交换微生物菌株文库的分子工具
[0340] 除以上关于用于通过优化翻译后机制来改进宿主细胞生产力的方法的实施例以外,基因缺失策略也可能具有可通过本发明的蛋白质降解标签(以及终止子和蛋白质溶解
性标签)解决的缺点。在一些情况下,成批缺失基因和其对应蛋白质产物,可对于细胞施加
激烈的修饰。更精确和可调的反应可通过靶向以可变速率降解的蛋白质的蛋白质降解标签
文库来实现。这种方法也可具有允许调节可能为细胞存活所必需且在完全缺失时将不能存
活的蛋白质产物的益处。由于这些降解标签也在翻译后水平上起作用,所以其可以能够解
决其中mRNA转录水平改变不引起蛋白质水平改变的情形,如上文所描述。
[0341] 蛋白质降解标签交换(降解标签交换)
[0342] 在一些实施例中,本公开教示选择具有最优蛋白质降解或蛋白质水平调节特性的蛋白质降解标签序列(“降解标签”)以对于整体宿主菌株生产力产生有益效果的方法。
[0343] 举例来说,在一些实施例中,本公开教示鉴定一或多种蛋白质降解标签和/或在宿主细胞内产生一或多种蛋白质降解标签的变体的方法,所述标签呈现一系列降解强度或调
节目标蛋白质的水平(例如下文论述的蛋白质降解标签)。已鉴定和/或产生的这些蛋白质
降解标签的特定组合可分组在一起作为蛋白质降解标签梯,其在下文更详细地解释。
[0344] 接着使所讨论的蛋白质降解标签梯与所关注的指定基因关联。因此,如果具有蛋白质降解标签PDT1-PDT8(表示已从各种来源鉴定出的蛋白质降解标签的子集,如在表18中
详述)(参见表18)且使蛋白质降解标签梯与宿主细胞中的所关注的单一基因相关联(即,以
基因方式工程改造宿主细胞具有与指定目标基因可操作地连接的指定蛋白质降解标签),
那么可通过表征由每种组合尝试产生的每种工程改造的菌株来确认蛋白质降解标签的每
种组合的效果,条件是除与目标基因相关联的特定降解标签之外,工程改造的宿主细胞在
其它方面具有相同的基因背景。通过这种方法进行工程改造的所得宿主细胞形成HTP基因
设计文库。
[0345] HTP基因设计文库可以指通过这个方法形成的真实实体微生物菌株集合,其中每个成员菌株代表指定的蛋白质降解标签在其它方面相同的基因背景下与特定目标蛋白可
操作地连接,所述文库称为“降解标签交换微生物菌株文库(degradation tag swap 
microbial strain library/DEGRADATION TAG swap microbial strain library)”。在特
定大肠杆菌情形下,文库可称为“降解标签交换大肠杆菌菌株文库(DEGRADATION TAG swap 
E.coli strain library/DEGRADATION TAG swap E.coli strain library)”,但所述术语
可同义地使用,因为大肠杆菌是微生物的一种具体实例。
[0346] 此外,HTP基因设计文库可以指基因扰动的集合,在这种情况下为与指定基因y可操作地连接的指定蛋白质降解标签x,所述集合称为“蛋白质降解标签交换文库”或“降解标签交换文库”。
[0347] 此外,人们可使用包括蛋白质降解标签PDT1-PDT8的相同蛋白质降解标签梯来对微生物进行工程改造,其中八种蛋白质降解标签中的每一种与10个不同基因目标可操作地连
接。这个程序得到80种宿主细胞菌株,除与所关注目标基因可操作地连接的特定蛋白质降
解标签之外,所述菌株在其它方面基因上呈现一致。可对这80种宿主细胞菌株进行适当筛
选和表征且产生另一个HTP基因设计文库。表征HTP基因设计文库中的微生物菌株产生的信
息和数据可存储于任何数据库中,包括(但不限于)关系型数据库、面向对象数据库或高度
分布式NoSQL数据库。这个数据/信息可包含例如指定蛋白质降解标签(例如PDT1-PDT8)在与
指定基因目标可操作地连接时的效果。这个数据/信息也可是通过将两个或更多个降解标
签(例如PDT1-PDT8)与指定基因目标可操作地连接而产生的组合效果的更宽集合。
[0348] 八种蛋白质降解标签和10种目标基因的前述实例仅是说明性的,这是因为所述概念可以应用于基于一系列降解强度的呈现而已经分组在一起的任何指定数量的蛋白质降
解标签和任何指定数量的目标基因。
[0349] 总之,利用各种蛋白质降解标签来调节各种蛋白质在生物体中的降解是一种优化所关注性状的强大工具。本发明人所开发的蛋白质降解标签交换分子工具使用蛋白质降解
标签序列梯,已经证明其可改变(例如增强)至少一种蛋白质在至少一种条件下的降解。接
着,利用高通量基因组工程改造将这种梯系统性地应用于生物体中的一组基因。基于多种
方法中的任一种方法,确定这组基因影响所关注性状的可能性较高。这些方法可包含基于
已知功能或对所关注性状的影响而进行的选择,或基于先前测定的有益基因多样性而进行
的算法选择。
[0350] 接着,评定含有与基因连接的蛋白质降解标签序列的生物体的所得HTP基因设计微生物文库关于在高通量筛选模型中的性能,且测定引起性能提高的蛋白质降解标签-基
因连接且将信息存储于数据库中。基因扰动的集合(即,与指定基因y可操作地连接的指定
蛋白质降解标签x)形成“蛋白质降解标签交换文库”,其可以用作用于微生物工程改造处理
中的潜在基因变异的来源。随着时间推移,当针对微生物背景的更大多样性实施基因扰动
的更大集合时,每个文库作为实验上被确认的数据的主体而变得更强大,其能用于针对所
关注的任何背景更精确地且可预测地设计出定向变化。即,在一些实施例中,本公开教示基
于先前实验结果将一或多个基因变化引入到宿主细胞中,所述先前实验结果嵌入与本发明
的任一基因设计文库有关的元数据内。
[0351] 因此,在特定实施例中,蛋白质降解标签交换是一种多步骤方法,其包括:
[0352] 1.选择一组“x”个蛋白质降解标签充当“梯”。理想的是,这些蛋白质降解标签已经显示引起在多个基因组基因座中的蛋白质降解增强,但唯一的要求是其一定程度上扰动降解。
[0353] 2.针对目标选择一组“n”个基因。这个集合可以是基因组中的每个ORF或ORF的子集。可以使用与功能相关ORF的注释、根据与先前证实的有益扰动(先前启动子交换、STOP交
换、溶解性标签交换或SNP交换)的关系、通过基于先前所产生的扰动之间的上位相互作用
而进行的算法选择、基于与针对目标的有益ORF有关的假设的其它选择标准或通过随机选
择来选择子集。
[0354] 3.快速且平行进行以下基因修饰的高通量菌株工程改造:当原生蛋白质降解标签存在于目标基因n内且其序列已知时,用所述梯中的x个蛋白质降解标签中的每一种置换原
生蛋白质降解标签。当原生蛋白质降解标签不存在或其序列未知时,将x个蛋白质降解标签
中的每一种插入梯中。
[0355] 以这种方式构筑菌株“文库”(也称为HTP基因设计文库),其中文库中的每个成员是在其它方面相同基因背景下与n目标连接的x蛋白质降解标签的例子。如先前所描述,可
以插入蛋白质降解标签组合,从而在构筑文库时,扩大组合可能性的范围。
[0356] 4.在依据一或多种度量的菌株性能指示性能优化的情形下,高通量筛选菌株文库。
[0357] 尤其可以扩展此基本方法以提供菌株性能的进一步改进:(1)将多个有益扰动合并到单一菌株背景中,以互动式程序一次一个进行;或作为多个变化在单一步骤中进行。多
个扰动可以是一组特定的定义变化或部分随机化的变化组合文库。举例来说,如果目标集
是路径中的每个基因,那么使扰动文库在先前菌株文库的改进成员中依序再生可优化路径
中的每个基因的表达水平,而不论哪种基因在任一次指定迭代时是速率限制;(2)将由文库
的个别和组合产生所得到的性能数据馈送到算法中,所述算法使用那个数据基于每个扰动
的相互作用来预测最优的扰动集合;以及(3)实施上述两种方法的组合。
[0358] 所述方法举工业微生物体为例说明于本公开中,但适用于可在基因突变体群体中鉴定出所期望性状的任何生物体。举例来说,这可以用于改进CHO细胞、酵母、昆虫细胞、藻类以及多细胞生物体(如植物)的性能。
[0359] 8.上位性映射:使得能够进行有益基因合并的预测分析工具
[0360] 在一些实施例中,本公开教示用于预测有益基因变异且将其组合到宿主细胞中的上位性映射方法。基因变异可由前述HTP分子工具集中的任一种(例如启动子交换、SNP交
换、起始/终止密码子交换、序列优化、蛋白质溶解性标签交换、蛋白质降解标签交换和STOP交换)产生,且那些基因变异的效果将根据表征所衍生的HTP基因设计微生物菌株文库来了
解。因此,如本文所用,术语上位性映射包含鉴定可能产生宿主性能增强的基因变异组合
(例如有益SNP或有益启动子/目标基因关联)的方法。
[0361] 在实施例中,本公开的上位性映射方法是基于如下想法:相较于来自同一功能组的突变组合,来自两种不同功能组的有益突变的组合更可能改进宿主性能。参见例如考斯
坦佐(Costanzo),细胞的基因前景(The Genetic Landscape of a Cell),《科学》,第327
卷,第5964期,2010年1月22日,第425-431页(以全文引用的方式并入本文中)。
[0362] 来自同一功能组的突变更可能通过相同机制来运作,且因此更可能对整体宿主性能呈现负上位或中性上位效应。相比之下,来自不同功能组的突变更可能通过非依赖性机
制来运作,这能够引起宿主性能改进且在一些情况下产生协同效果。举例来说,参见图19,
lysA和zwf是在不同路径中运作以实现赖氨酸产生的基因。基于那些基因的个别性能的差
异性,使用那些基因的基因变化应该引起相加的合并效果。这体现于对lysA与zwf组合的合
并效果的实际测量中,如图16B和实例6中所示。
[0363] 因此,在一些实施例中,本公开教示分析SNP突变以鉴定预测属于不同功能组的SNP的方法。在一些实施例中,通过计算突变相互作用概况的余弦相似度(类似于相关系数,
参见图16A)来测定SNP功能组相似度。本公开还说明通过突变相似度矩阵(参见例如图15在
棒状杆菌中进行的分析)或树状图(参见例如图16A在棒状杆菌中进行的分析)来比较SNP。
[0364] 因此,上位性映射程序提供一种对在一或多种基因背景下所施加的多种多样的基因突变进行分组和/或排名的方法,目的是为了将所述突变高效且有效地合并到一或多种
基因背景中。
[0365] 在各方面中,进行合并,其目标是产生针对目标生物分子的产生进行优化的新颖菌株。通过所教示的上位性映射程序,有可能鉴定突变的功能分组,且这类功能分组使得能
够进行使非期望的上位效应降到最低的合并策略。
[0366] 如先前所解释,供工业发酵使用的微生物的优化是一个重要的难题,其广泛牵涉到经济、社会和自然界。传统上,已经通过缓慢且不定的随机突变诱发方法进行微生物工程
改造。这类方法利用细胞的天然进化能力来适应人工施加的选择压力。这类方法还受到以
下限制:有益突变的稀有性、潜在健康前景的稳固性,且更一般来说,未充分利用细胞和分
子生物学的现有技术水平。
[0367] 现代方法利用在机制水平对细胞功能的新理解且利用新的分子生物学工具对特定的表型目的进行靶向基因操纵。实际上,这类合理方法因生物学的潜在复杂性而发生混
淆。对因果机制的理解不充分,尤其当尝试将各自具有所观测到的有益效果的两种或更多
种变化进行组合时。有时,基因变化的这类合并产生积极结果(通过所期望表型活性增强所
测量),但是净积极结果可能低于预期且在一些情况下高于预期。在其它情况下,所述组合
产生净中性效果或净负面效果。这种现象称为上位,且是微生物工程改造(和一般基因工程
改造)的基本挑战之一。
[0368] 如前所述,本发明的HTP基因组工程改造平台解决与传统微生物工程改造方法相关的许多问题。本发明HTP平台使用自动化技术来一次进行数百或数千个基因突变。在特定
方面中,不同于上文所描述的合理方法,所公开的HTP平台能够平行构筑数千个突变体以更
有效地探究相关基因组空间的较大子集,如第15/140,296号美国申请(标题为:用于改进工
程改造的核苷酸序列的大规模生产的微生物菌株设计系统和方法(Microbial Strain 
Design System And Methods For Improved Large-Scale Production Of Engineered 
Nucleotide Sequences),其以全文引用的方式并入本文中)中所公开。通过尝试“所有事
物”,本发明HTP平台避开了我们的有限生物学理解所引起的困难。
[0369] 然而,同时,本发明HTP平台面对的问题是根本上局限于基因组空间的组合爆发性规模,以及计算机技术解释所产生的数据集的有效性(鉴于基因相互作用的复杂性)。需要
以使产生所期望结果的组合的非随机选择达到最大的方式探究广大组合空间的子集的技
术。
[0370] 在酶优化的情况下,在某种程度上相似的HTP方法已证明是有效的。在这个小生境问题中,所关注的基因组序列(约1000个碱基)编码物理构形有些复杂的蛋白质链。精确构
形是利用其组成性原子组分之间的集体电磁相互作用来确定。短基因组序列与物理上受约
束的折叠问题的这种组合使得其自身特别渴望优化策略。也就是说,有可能使序列在每个
残基处发生个别的突变且使所得突变体改组,以与序列活性响应(Sequence Activity 
Response)建模兼容的分辨率有效地对局部序列空间取样。
[0371] 然而,针对生物分子进行完全基因组优化时,这类以残基为中心的方法因一些重要原因而不充分。第一个原因是与生物分子的基因组优化有关的相关序列空间呈指数级增
加。第二个原因是生物分子合成中的调节、表达和代谢相互作用的复杂性增加。本发明人已
经通过所教示的上位性映射程序解决了这些问题。
[0372] 出于更高效且有效地将一组突变合并到一或多种基因背景中的目的,用于对所述突变之间的上位相互作用建模的所教示方法在所属领域中具有开创性且是非常需要的。
[0373] 在描述上位性映射程序时,术语“更高效”和“更有效”是指对于特定表型目标,避免合并菌株间的非期望上位相互作用。
[0374] 由于所述方法已经在上文大体详细说明,因此现将描述更具体的工作流程实例。
[0375] 第一,以M个突变的文库和一或多种基因背景(例如亲代细菌菌株)开始。文库的选择和基因背景的选择对于在此所描述的方法均不具有特异性。但在特定实施方案中,突变
文库可以排他地或组合性地包含:SNP交换文库、启动子交换文库,或本文所描述的任何其
它突变文库。
[0376] 在一个实施方案中,仅提供单一基因背景。在这种情况下,首先根据这个单一背景产生不同基因背景(微生物突变体)的集合。这可通过以下来实现:将突变初始文库(或其一
些子集)应用于所指定的背景,例如将特定SNP的HTP基因设计文库或特定启动子的HTP基因
设计文库应用于所指定的基因背景,以在相同的基因背景下产生微生物突变体群体(可能
100个或1,000个),不同之处为其中并入来自所指定的HTP基因设计文库的特定基因变异。
如下详述,这个实施例可以产生组合性文库或成对文库。
[0377] 在另一实施方案中,可以简单地得到不同的已知基因背景的集合。如下详述,这个实施例可以产生组合性文库的子集。
[0378] 在一特定实施方案中,为了使这种方法的效果达到最大,测定基因背景的数量和这些背景之间的基因多样性(在突变数量或序列剪辑距离或其类似方面所测量)。
[0379] 基因背景可以是天然的、原生的或野生型菌株或突变型工程改造菌株。N种不同背景菌株可以由向量b表示。在一个实例中,背景b可表示通过以下形成的工程改造的背景:将
N个初始突变m0=(m1,m2,…mN)施加于野生型背景菌株b0以形成N种突变背景菌株b=m0 b0
=(m1b0,m2b0,…mN b0),其中mib0表示将突变mi施加于背景菌株b0。
[0380] 在任一种情况(即,单一提供的基因背景,或基因背景的集合)下,结果是N种不同基因背景的集合。测量每一背景的相关表型。
[0381] 第二,将M个突变m1的集合中的每一突变施加于N种背景菌株b的集合内的每一背景,以形成M×N个突变体的集合。在其中N个背景本身通过施加突变m0的初始集合而获得
(如上文所描述)的实施方案中,所得突变体集合有时称为组合性文库或成对文库。在其中
已经明确提供已知背景集合的另一实施方案中,所得突变体集合可称为组合性文库的子
集。类似于产生工程改造的背景向量,在实施例中,输入界面202(参见图31)接收突变向量
m1和背景向量b和规定操作,如叉积。
[0382] 继续以上述工程改造背景为例,形成M×N组合性文库可以由m1×m0 b0形成的矩阵(m1应用于b=m0 b0的N个背景的叉积)表示,其中将m1中的每个突变施加于b内的每种背景
菌株。所得M×N矩阵中的每一第i行表示将m1内的第i个突变施加于背景集合b内的所有菌
株。在一个实施例中,m1=m0且矩阵表示将相同突变成对施加于起始菌株b0。在这种情况下,矩阵围绕其对角线(M=N)是对称的,且在任何分析中可以忽略对角线,因为其表示相同突
变施加两次。
[0383] 在实施例中,形成M×N矩阵可以通过向输入界面202(参见图31)中输入混合表达式m1×m0b0来实现。表达式的分量向量可以与明确规定的其元素一起,通过一或多种DNA规
格直接输入,或调用到文库206以使得能够在解译器204解译期间进行向量的撷取。如第15/
140,296号美国专利申请(标题为“用于改进工程改造的核苷酸序列的大规模生产的微生物
菌株设计系统和方法(Microbial Strain Design System and Methods for Improved 
Large Scale Production of Engineered Nucleotide Sequences)”)中所描述,LIMS系统
200通过解译器204、执行引擎207、发订单引擎208和工厂210产生由输入表达式指定的微生
物菌株。
[0384] 第三,参考图42,分析设备214(参见图31)测量M×N组合性文库矩阵内的每种突变体的表型响应(4202)。因此,响应的集合可以理解为M×N响应矩阵R。R中的每一元素可以表
示为rij=y(mi,mj),其中y表示工程改造的集合b内的背景菌株bj的响应(性能),如通过突变mi而发生突变。为了简单和实用性起见,我们采用成对突变,其中m1=m0。如在此,在突变集合表示成对突变文库的情况下(如本文),所得矩阵也可称为基因相互作用矩阵或更具体地
说,突变相互作用矩阵。
[0385] 所属领域的技术人员应认识到,在一些实施例中,与上位效应和预测菌株设计有关的运算可以完全通过LIMS系统200的自动化方式进行,例如通过分析设备214(参见图31)
或通过人工实施方案,或通过自动化与人工方式的组合。当运算并非完全自动进行时,LIMS
系统200的元件(例如分析设备214)可以例如接收人工执行运算的结果,而非通过其自身的
运算能力而产生结果。如本文在其它地方所描述,LIMS系统200的组件(如分析设备214)可
以完全或部分地通过一或多种计算机系统来实施。在一些实施例中,尤其在与预测菌株设
计有关的运算是通过自动化方式与人工方式的组合来执行的情况下,分析设备214不仅可
包含计算机硬件、软件或固件(或其组合),且还包含由操作人员操作的设备,如下表5中所
列的设备,例如在“评价性能”类别下所列的设备。
[0386] 第四,分析设备212(参见图31)将响应矩阵归一化。归一化由以下组成:出于去除偏好和/或分离出这个方法所特有的效果的相关部分的目的,调节所测量响应值的人工过
程和/或在这个实施例中为自动化过程。就图42来说,第一步骤4202可包含获得归一化的所
测量数据。一般来说,在针对预测菌株设计和上位性映射的技术方案中,术语“性能测量”或“所测量性能”或其类似术语可用于描述一种度量,其反映了所测量数据(不论未处理或以
某种方式处理),例如归一化数据。在一特定实施方案中,归一化可以通过从所测量响应值
中减去先前测量的背景响应来执行。在所述实施方案中,所得响应元素可以形成为rij=y
(mi,mj)-y(mj),其中y(mj)是由向亲代菌株b0施加初始突变mj引起的工程改造的集合b内的
工程改造的背景菌株bj的响应。应注意归一化的响应矩阵内的每一行是作为其对应突变的
响应曲线来处理。也就是说,第i行描述施加于j=1到N的所有背景菌株bj的对应突变mi的相
对效果。
[0387] 就成对突变的实例来说,由两种突变引起的菌株的组合性能/响应可以大于、小于或等于每一种突变个别引起的菌株的性能/响应。这种效应称为“上位”,且在一些实施例
中,可以表示为eij=y(mi,mj)-(y(mi)+y(mj))。这种数学表示可以存在变化形式,且可以取决于例如个别变化如何在生物学上发生相互作用。如上文所指出,来自同一功能组的突变
更可能通过相同机制来运作,且因此更可能对整体宿主性能呈现负上位或中性上位效应。
相比之下,来自不同功能组的突变更可能通过非依赖性机制来运作,这能够通过例如减少
冗余突变效果而引起宿主性能改进。因此,产生差异响应的突变比产生类似响应的突变更
可能以相加方式组合。这引起在下一步骤中计算相似度。
[0388] 第五,分析设备214测量响应间的相似度,在成对突变实例中,是响应矩阵内的第i个突变与第j(例如初始)突变的效果之间的相似度(4204)。请记住:R中的第i行表示第i个
突变mi施加于N种背景菌株的性能效果,其中的每一种本身可以是如上文所描述工程改造
突变的结果。因此,第i个和第j个突变的效应之间的相似度可以分别由第i行ρi与第j行ρj之间的相似度sij表示,以形成相似度矩阵S,其实例说明于图15中。相似度可以使用多种已知
技术测量,如交叉相关或绝对余弦相似度,例如sij=abs(cos(ρi,ρj))。
[0389] 作为度量(如余弦相似度)的一替代或补充方案,可以对相应概况进行聚类以测定相似程度。聚类可以使用基于距离的聚类算法(例如k均值、分层聚合等)、结合适合的距离
测量(例如欧几里德(Euclidean)、汉明(Hamming)等)来进行。可替代地,可以使用基于相似
度的聚类算法(例如谱、最小切割等)以及适合的相似度测量(例如余弦、相关等)来进行聚
类。当然,可以通过任何数量的标准函数运算(例如指数函数)来使距离测量映射到相似度
测量且反之亦然。在一个实施方案中,分层聚合聚类可以结合绝对余弦相似度来使用。(参
见例如图16A在棒状杆菌中进行的分析)。
[0390] 作为聚类的一实例,假设C是进入k独特集群的突变mi聚类。假设C是聚类成员资格矩阵,其中cij是突变i属于聚类j的程度,一个在0与1之间的值。接着利用Ci×Cj(C的第i行
与第j行的点积)得到突变i与j之间的基于聚类的相似度。一般来说,基于聚类的相似度矩
阵由CCT给定(即,C乘以C转置矩阵)。在硬聚类(突变恰好属于一个聚类)的情况下,两个突
变之间的相似度是1(如果其属于同一聚类)和0(如果不)。
[0391] 如考斯坦佐(Costanzo),细胞的基因前景(The Genetic Landscape of a Cell),《科学》,第327卷,第5964期,2010年1月22日,第425-431页(以全文引用的方式并入本文中)所描述,突变响应曲线的这种聚类是指细胞潜在功能组织的大致定位。也就是说,聚类在一
起的突变倾向于与潜在的生物过程或代谢路径相关。这类突变在本文中称为“功能组”。这
种方法的关键观测在于,如果两个突变通过相同的生物过程或路径来运作,那么所观测到
的效果(和尤其所观测到的效益)可能是冗余的。反之,如果两个突变通过远端机制来运作,
那么有益效果不大可能是冗余的。
[0392] 第六,基于上位效应,分析设备214选择产生差异响应的突变对,例如其余弦相似度度量低于相似度阈值,或其响应属于充分分隔的聚类中(例如图15和图16A在棒状杆菌中
进行的分析),如图42(4206)所示。优于相似对,所选突变对应该基于其差异性而合并到背
景菌株中。
[0393] 基于产生充分差异响应的所选突变对,可以利用LIMS系统(例如解译器204、执行引擎207、下单器208和工厂210)设计具有那些所选突变的微生物菌株(4208)。在实施例中,
如下文和本文其它地方所描述,上位效应可以建构成预测模型或与其结合使用,以对菌株
选择进行加权或过滤。
[0394] 假定,有可能通过一些优选的预测模型估计假想菌株的性能(也称为评分),所述假想菌株是通过将来自文库的突变集合合并到特定背景中来获得。教示方法中所用的代表
性预测模型提供于标题为“预测菌株设计”的下述章节中,所述章节见于更大章节:“全基因组基因设计标准的计算分析和效果预测”。
[0395] 当使用预测菌株设计技术(如线性回归)时,分析设备214可以例如通过过滤回归结果以仅保留具有充分差异性的突变,将模型限制到具有低相似度测量的突变。可替代地,
预测模型可通过相似度矩阵进行加权。举例来说,一些实施例可以采用已加权的最小二乘
方回归,其使用相似度矩阵来表征所提出突变的相互依赖性。作为一实例,可以通过将“内
核”策略应用于回归模型来进行加权。(就“内核策略”一般用于多种机器学习建模方法来
说,这种再加权策略不限于线性回归。)
[0396] 所属领域的技术人员已知这类方法。在实施例中,内核是具有元素1-w×sij的矩阵,其中1是单位矩阵的元素,且w是0与1之间的实值。当w=0时,这简化为标准回归模型。实际上,当针对成对组合构筑体和其关联效果y(mi,mj)评价时,w值将与预测模型的准确度(r2
2
值或均方根误差(RMSE))相关。在一个简单的实施方案中,w定义为w=1-r。在这种情况下,
当模型完全可预测时,w=1-r2=0且合并仅基于预测模型且上位性映射程序不起作用。另
一方面,当预测模型完全不可预测时,w=1-r2=1且合并仅基于上位性映射程序。在每次迭
代期间,可以评定准确度以确定模型性能是否改进。
[0397] 应该明确,本文所描述的上位性映射程序不取决于分析设备214使用哪种模型。鉴于这种预测模型,有可能对通过组合合并可近接突变文库的所有假想菌株评分和排名。
[0398] 在一些实施例中,为了考虑上位效应,分析设备214可以利用差异突变响应曲线来增加与得自预测模型的每种假想菌株相关的评分和排名。这种程序可以广泛地被认为是评
分的再加权,以便有利于具有差异响应曲线的候选菌株(例如从多种多样的聚类中抽取
菌株)。在一个简单的实施方案中,菌株的评分可以由不满足差异性阈值或从同一聚类抽取
的组成性突变(具有适合权重)的数量降低。在一特定实施方案中,假想菌株的性能估计值
可通过与所有组成性突变对相关的相似度矩阵中的各项的总和降低,所述组成性突变与假
想菌株(再次具有适合权重)相关。可以使用这些增加的评分对假想菌株进行再排名。实际
上,这类再加权计算可以结合初始计分估计来进行。
[0399] 结果是假想菌株的集合,其评分和排名增加以更有效地避免令人混淆的上位相互作用。此时可以构筑假想菌株,或可以将其传送到另一计算方法供后续分析或使用。
[0400] 所属领域的技术人员应认识到,如本文所描述的上位性映射和迭代预测菌株设计不限于仅使用成对突变,而是可以扩展到将许多更多的突变同时施加到背景菌株。在另一
实施例中,可以将额外突变依序施加到已经使用根据本文所描述的预测方法选择的突变发
生突变的菌株。在另一实施例中,上位效应通过以下来估算:将相同的基因突变施加到彼此
略微不同的多种菌株背景,且记录已修饰的菌株背景间的正响应曲线的任何显著性差异。
[0401] 适合于基因设计的生物体
[0402] 所公开的HTP基因工程改造平台虽然以工业微生物细胞培养物(例如棒状杆菌)为例说明,但是适用于任何宿主细胞生物体,其中可在基因突变体群体中鉴定出所期望的性
状。
[0403] 此外,如引入中所阐述,本公开提供一种用于在大肠杆菌系统中改进宿主细胞特征的HTP基因工程改造平台,且解决先前阻止这种系统在大肠杆菌中发展的许多问题。
[0404] 因此,如本文所用,术语“微生物体”应广义地理解。其包含(但不限于)两种原核生物域:细菌和古细菌,以及某些真核生物真菌和原生生物。然而,在某些方面中,本文教示的方法中可以使用“更高级”的真核生物体,如昆虫、植物和动物。
[0405] 适合的宿主细胞包含(但不限于):细菌细胞、藻类细胞、植物细胞、真菌细胞、昆虫细胞和哺乳动物细胞。在一个示例性实施例中,适合的宿主细胞包含大肠杆菌(例如SHuffleTM感受态大肠杆菌,其获自马萨诸塞州伊普威治的新英格兰生物实验室(New 
England BioLabs,Ipswich,Mass.))。大肠杆菌基因组的大小是4,646,332bp(参见图52)。
[0406] 大肠杆菌物种的适合宿主菌株包括:产肠毒素大肠杆菌(ETEC)、肠致病性大肠杆菌(EPEC)、肠侵袭性大肠杆菌(EIEC)、肠出血性大肠杆菌(EHEC)、尿道致病性大肠杆菌
(UPEC)、产生维罗毒素(Verotoxin)的大肠杆菌、大肠杆菌O157:H7、大肠杆菌O104:H4、大肠杆菌O121、大肠杆菌O104:H21、大肠杆菌K1和大肠杆菌NC101。在一些实施例中,本公开教示大肠杆菌K12、大肠杆菌B和大肠杆菌C的基因工程改造。
[0407] 在一些实施例中,本公开教示以下大肠杆菌菌株的基因工程改造:NCTC 12757、NCTC 12779、NCTC 12790、NCTC 12796、NCTC 12811、ATCC 11229、ATCC 25922、ATCC 8739、DSM 30083、BC 5849、BC 8265、BC 8267、BC 8268、BC 8270、BC 8271、BC 8272、BC 8273、BC 
8276、BC 8277、BC 8278、BC 8279、BC 8312、BC 8317、BC 8319、BC 8320、BC 8321、BC 8322、BC 8326、BC 8327、BC 8331、BC 8335、BC 8338、BC 8341、BC 8344、BC 8345、BC 8346、BC 
8347、BC 8348、BC 8863和BC 8864。
[0408] 在一些实施例中,本公开教示产维罗毒素大肠杆菌(VTEC),如以下菌株:BC 4734(O26:H11)、BC 4735(O157:H-)、BC 4736、BC 4737(n.d.)、BC 4738(O157:H7)、BC 4945
(O26:H-)、BC 4946(O157:H7)、BC 4947(O111:H-)、BC 4948(O157:H)、BC 4949(O5)、BC 
5579(O157:H7)、BC 5580(O157:H7)、BC 5582(O3:H)、BC 5643(O2:H5)、BC 5644(O128)、BC 
5645(O55:H-)、BC 5646(O69:H-)、BC 5647(O101:H9)、BC 5648(O103:H2)、BC 5850(O22:
H8)、BC 5851(O55:H-)、BC 5852(O48:H21)、BC 5853(O26:H11)、BC 5854(O157:H7)、BC 
5855(O157:H-)、BC 5856(O26:H-)、BC 5857(O103:H2)、BC 5858(O26:H11)、BC 7832、BC 
7833(O原始形式:H-)、BC 7834(ONT:H-)、BC 7835(O103:H2)、BC 7836(O57:H-)、BC 7837
(ONT:H-)、BC 7838、BC 7839(O128:H2)、BC 7840(O157:H-)、BC 7841(O23:H-)、BC 7842
(O157:H-)、BC 7843、BC 7844(O157:H-)、BC 7845(O103:H2)、BC 7846(O26:H11)、BC 7847(O145:H-)、BC 7848(O157:H-)、BC 7849(O156:H47)、BC 7850、BC 7851(O157:H-)、BC 7852(O157:H-)、BC 7853(O5:H-)、BC 7854(O157:H7)、BC 7855(O157:H7)、BC 7856(O26:H-)、BC 
7857、BC 7858、BC 7859(ONT:H-)、BC 7860(O129:H-)、BC 7861、BC 7862(O103:H2)、BC 
7863、BC 7864(O原始形式:H-)、BC 7865、BC 7866(O26:H-)、BC 7867(O原始形式:H-)、BC 
7868、BC 7869(ONT:H-)、BC 7870(O113:H-)、BC 7871(ONT:H-)、BC 7872(ONT:H-)、BC 
7873、BC 7874(O原始形式:H-)、BC 7875(O157:H-)、BC 7876(O111:H-)、BC 7877(O146:
H21)、BC 7878(O145:H-)、BC 7879(O22:H8)、BC 7880(O原始形式:H-)、BC 7881(O145:H-)、BC 8275(O157:H7)、BC 8318(O55:K-:H-)、BC 8325(O157:H7)和BC 8332(ONT)、BC 8333。
[0409] 在一些实施例中,本公开教示肠侵袭性大肠杆菌(EIEC),如以下菌株:BC 8246(O152:K-:H-)、BC 8247(O124:K(72):H3)、BC 8248(O124)、BC 8249(O112)、BC 8250(O136:
K(78):H-)、BC 8251(O124:H-)、BC 8252(O144:K-:H-)、BC 8253(O143:K:H-)、BC 8254
(O143)、BC 8255(O112)、BC 8256(O28a.e)、BC 8257(O124:H-)、BC 8258(O143)、BC 8259
(O167:K-:H5)、BC 8260(O128a.c.:H35)、BC 8261(O164)、BC 8262(O164:K-:H-)、BC 8263
(O164)和BC 8264(O124)。
[0410] 在一些实施例中,本公开教示产肠毒素大肠杆菌(ETEC),如以下菌株:BC 5581(O78:H11)、BC 5583(O2:K1)、BC 8221(O118)、BC 8222(O148:H-)、BC 8223(O111)、BC 8224(O110:H-)、BC 8225(O148)、BC 8226(O118)、BC 8227(O25:H42)、BC 8229(O6)、BC 8231
(O153:H45)、BC 8232(O9)、BC 8233(O148)、BC 8234(O128)、BC 8235(O118)、BC 8237
(O111)、BC 8238(O110:H17)、BC 8240(O148)、BC 8241(O6H16)、BC 8243(O153)、BC 8244
(O15:H-)、BC 8245(O20)、BC 8269(O125a.c:H-)、BC 8313(O6:H6)、BC 8315(O153:H-)、BC 
8329、BC 8334(O118:H12)和BC 8339。
[0411] 在一些实施例中,本公开教示肠致病性大肠杆菌(EPEC),如以下菌株:BC 7567(O86)、BC 7568(O128)、BC 7571(O114)、BC 7572(O119)、BC 7573(O125)、BC 7574(O124)、BC 7576(O127a)、BC 7577(O126)、BC 7578(O142)、BC 7579(O26)、BC 7580(OK26)、BC 7581(O142)、BC 7582(O55)、BC 7583(O158)、BC 7584(O-)、BC 7585(O-)、BC 7586(O-)、BC 
8330、BC 8550(O26)、BC 8551(O55)、BC 8552(O158)、BC 8553(O26)、BC 8554(O158)、BC 
8555(O86)、BC 8556(O128)、BC 8557(OK26)、BC 8558(O55)、BC 8560(O158)、BC 8561
(O158)、BC 8562(O114)、BC 8563(O86)、BC 8564(O128)、BC 8565(O158)、BC 8566(O158)、BC 8567(O158)、BC 8568(O111)、BC 8569(O128)、BC 8570(O114)、BC 8571(O128)、BC 8572(O128)、BC 8573(O158)、BC 8574(O158)、BC 8575(O158)、BC 8576(O158)、BC 8577(O158)、BC 8578(O158)、BC 8581(O158)、BC 8583(O128)、BC 8584(O158)、BC 8585(O128)、BC 8586(O158)、BC 8588(O26)、BC 8589(O86)、BC 8590(O127)、BC 8591(O128)、BC 8592(O114)、BC 
8593(O114)、BC 8594(O114)、BC 8595(O125)、BC 8596(O158)、BC 8597(O26)、BC 8598
(O26)、BC 8599(O158)、BC 8605(O158)、BC 8606(O158)、BC 8607(O158)、BC 8608(O128)、BC 8609(O55)、BC 8610(O114)、BC 8615(O158)、BC 8616(O128)、BC 8617(O26)、BC 8618
(O86)、BC 8619、BC 8620、BC 8621、BC 8622、BC 8623、BC 8624(O158)和BC 8625(O158)。
[0412] 在一些实施例中,本公开还教示用于工程改造志贺氏菌属(Shigella)生物体(包含弗氏志贺杆菌(Shigella flexneri)、痢疾志贺杆菌(Shigella dysenteriae)、鲍氏志贺
杆菌(Shigella boydii)和索氏志贺杆菌(Shigella sonnei))的方法。
[0413] 产生基因多样性池以用于在基因设计和HTP微生物工程改造平台中使用
[0414] 在一些实施例中,本公开的方法的特征为基因设计。如本文所用,术语基因设计是指通过鉴定和选择特定基因、基因的一部分、启动子、终止密码子、5'UTR、3'UTR或其它DNA序列的最优变体来重新构筑或改变宿主生物体的基因组,以设计和产生新颖的优良宿主细
胞。
[0415] 在一些实施例中,本公开的基因设计方法中的第一步骤是获得具有多种序列变异的初始基因多样性池群体,由所述群体可重新构筑新的宿主基因组。
[0416] 在一些实施例中,本文所教示的基因设计方法中的后续步骤将使用前述HTP分子工具集中的一或多个(例如SNP交换、启动子交换、终止子交换、蛋白质溶解性标签交换或蛋
白质降解标签交换),以构筑HTP基因设计文库,通过提供特定基因组变化的文库以用于在
宿主细胞测试中,所述文库接着用作基因工程改造方法的驱动器。
[0417] 利用来自现有野生型菌株的多样性池
[0418] 在一些实施例中,本公开教示用于鉴定指定野生型群体的微生物中存在的序列多样性的方法。因此,多样性池可以是指定数量n个分析所用微生物,其中所述微生物的基因
组代表“多样性池”。
[0419] 在一些实施例中,多样性池可以是所述野生型微生物中的天然基因变异中所存在的现有多样性的结果。这种变异可以由指定宿主细胞的菌株变体产生或可以是微生物是完
全不同物种的结果。基因变异可包含菌株的基因序列中的任何差异,不论天然存在或不存
在。在一些实施例中,基因变异可包含SNP交换、PRO交换、起始/终止密码子交换、溶解性标签交换、降解标签交换或STOP交换等。
[0420] 利用来自现有工业菌株变体的多样性池
[0421] 在本公开的其它实施例中,多样性池是在传统菌株改进过程期间所产生的菌株变体(例如通过随机突变而产生且多年来选用于提高产量的一或多种宿主生物体菌株)。因
此,在一些实施例中,多样性池或宿主生物体可包括历史上的生产菌株的集合。
[0422] 在特定方面中,多样性池可以是初始亲代微生物菌株(S1),其在特定时间点具有“基线”或“参考”基因序列(S1Gen1),且接着是任何数量的衍生/开发自所述S1菌株的后续子代菌株(S2,S3,S4,S5等,可泛化为S2-n),其具有不同于S1基线基因组的基因组(S2-nGen2-n)。
[0423] 举例来说,在一些实施例中,本公开教示对多样性池中的微生物基因组进行测序以鉴定每种菌株中存在的SNP。在一个实施例中,多样性池中的菌株是历史上的微生物生产
菌株。因此,本公开的多样性池可包含例如工业基本菌株,和通过传统菌株改进程序所产生
的一或多种突变型工业菌株。
[0424] 一旦鉴定出多样性池中的所有SNP后,本公开教示用SNP交换方法和筛选方法描绘(即,量化和表征)个别和群组中的SNP的效果(例如所关注的表型的产生)的方法。因此,如
前所述,所教示平台中的初始步骤可以是获得具有多种序列变异(例如SNP)的初始基因多
样性池群体。接着,所教示平台中的后续步骤可以是使用一或多种前述HTP分子工具集(例
如SNP交换)构筑HTP基因设计文库,其接着通过提供用于在微生物中测试的特定基因组改
变文库来充当基因工程改造过程的驱动器。
[0425] 在一些实施例中,本公开的SNP交换方法包括将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴定的一或多种SNP引入基本菌株(S1Gen1)或野生型菌株的步骤。
[0426] 在其它实施例中,本公开的SNP交换方法包括将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴定的一或多种SNP去除的步骤。
[0427] 通过突变诱发建立多样性池
[0428] 在一些实施例中,指定多样性池细胞群中的所关注突变可通过使菌株发生突变的任何手段(包含突变诱发化学品或辐射)人工产生。术语“突变诱发”在本文中用于指一种用
于诱导细胞核酸材料发生一或多种基因修饰的方法。
[0429] 术语“基因修饰”是指DNA的任何改变。代表性基因修饰包含核苷酸插入、缺失、取代和其组合,且可以小到单个碱基或大到数万个碱基。因此,术语“基因修饰”涵盖核苷酸序列的倒位和其它染色体重排,从而改变包括染色体区域的DNA的位置或取向。染色体重排可
包括染色体内重排或染色体间重排。
[0430] 在一个实施例中,本发明所主张的主题中所用的突变诱发方法大体上是随机的,以使得基因修饰可以在待突变诱发的核酸材料内的任何可用核苷酸位置处发生。换句话
说,在一个实施例中,突变诱发不显示在特定核苷酸序列处发生的偏好或频率增加。
[0431] 本公开的方法可采用任何诱变剂,包含(但不限于):紫外光、X射线辐射、γ辐射、N-乙基-N-亚硝基脲(ENU)、甲基亚硝基脲(MNU)、丙卡巴肼(procarbazine,PRC)、三亚乙基
三聚氰胺(TEM)、丙烯酰胺单体(AA)、苯丁酸氮芥(chlorambucil,CHL)、美法仑(melphalan,MLP)、环磷酰胺(cyclophosphamide,CPP)、硫酸二乙酯(DES)、甲烷磺酸乙酯(EMS)、甲烷磺酸甲酯(MMS)、6-巯基嘌呤(6-mercaptopurine,6-MP)、丝裂霉素-C(mitomycin-C,MMC)、N-甲基-N'-硝基-N-亚硝基胍(MNNG)、3H2O和氨基甲酸酯(UR)(参见例如林奇克(Rinchik),
1991;马克(Marker)等人,1997;和拉塞尔(Russell),1990)。额外诱变剂已为所属领域中的技术人员所熟知,包括http://www.iephb.nw.ru/~spirov/hazard/mutagen_lst.html中
所描述的那些。
[0432] 术语“突变诱发”还涵盖用于改变(例如通过靶向突变)或调节细胞功能,借此增强突变诱发的速率、质量或程度的方法。举例来说,可以改变或调节细胞,借此使其在DNA修
复、诱变剂代谢、诱变剂敏感性、基因组稳定性或其组合方面出现功能异常或缺陷。因此,通常维持基因组稳定性的基因功能的干扰可用于增强突变诱发。干扰的代表性目标包含(但
不限于)DNA连接酶I(本特雷(Bentley)等人,2002)和酪蛋白激酶I(第6,060,296号美国专
利)。
[0433] 在一些实施例中,使用位点特异性突变诱发(例如使用市售试剂盒(如转化者定点突变诱发试剂盒(Transformer Site Directed mutagenesis kit)(克隆科技公司
(Clontech)))进行的引物定向突变诱发)在整个核酸序列中产生多种变化,以便产生编码
本公开的裂解酶的核酸。
[0434] 暴露于一或多种诱变剂后发生基因修饰的频率可以通过改变处理剂量和/或重复次数来调节,且可以根据特定应用来调适。
[0435] 因此,在一些实施例中,如本文所用,“突变诱发”包括所属领域中已知的用于诱导突变的所有技术,包含易错PCR突变诱发、寡核苷酸定向突变诱发、定点突变诱发,以及利用本文所描述的任何技术进行的迭代序列重组。
[0436] 产生多样性的单一基因座突变
[0437] 在一些实施例中,本公开教示通过引入、缺失或置换基因组DNA的所选部分来使细胞群发生突变。因此,在一些实施例中,本公开教示用于针对特定基因座靶向突变的方法。
在其它实施例中,本公开教示用途基因编辑技术(如ZFN、TALENS、Lambda Red或CRISPR)选
择性地编辑目标DNA区域。
[0438] 在其它实施例中,本公开教示使宿主生物体外部的所选DNA区域发生突变且接着将突变序列插回到宿主生物体中。举例来说,在一些实施例中,本公开教示使原生或合成启
动子发生突变,以产生具有各种表达特性的一系列启动子变体(参见下文的启动子梯)。在
其它实施例中,本公开与单基因优化技术兼容,如ProSAR(福克斯(Fox)等人,2007,“通过
ProSAR驱动型酶演变来改进催化功能(Improving catalytic function by ProSAR-
driven enzyme evolution)”,《自然·生物技术(Nature Biotechnology)》第25(3)卷338-
343,所述文献以引用的方式并入本文中)。
[0439] 在一些实施例中,通过天然变体的基因改组或用合成寡核苷酸改组、质粒-质粒重组、病毒质粒重组、病毒-病毒重组,来在活体外产生DNA的所选区域。在其它实施例中,通过易错PCR来产生基因组区域。
[0440] 在一些实施例中,通过“再组装PCR”来实现在所选择基因区域中产生突变。简单来说,合成寡核苷酸引物(寡核苷酸)用于对所关注的核酸序列区段进行PCR扩增,使得寡核苷
酸的序列重叠两个区段的接合点。重叠区域的长度典型地是约10到100个核苷酸。每一区段
用一组所述引物扩增。接着根据组装方案“再组装”PCR产物。简单来说,在组装方案中,首先通过例如凝胶电泳或尺寸排阻色谱从引物中纯化出PCR产物。将纯化产物混合在一起且在
聚合酶和三磷酸脱氧核苷(dNTP)和适当缓冲盐存在下、在不存在额外引物的情况下(“自引
导”)经历约1-10个循环的变性、再粘接和延伸。利用后续PCR(其中引物侧接基因)扩增完全
再组装和改组的基因的产量。
[0441] 在本公开的一些实施例中,突变的DNA区域(如上文所论述的那些)中富集了突变序列,使得更高效地对多个突变谱(即,可能的突变组合)取样。在一些实施例中,通过mutS
蛋白质亲和力基质(瓦格纳(Wagner)等人,《核酸研究(Nucleic Acids Res.)》23(19):
3944-3948(1995);苏(Su)等人,《美国国家科学院院刊》,83:5057-5061(1986))鉴定突变序列,其中优选在组装反应之前活体外扩增亲和性纯化材料的步骤。接着将这个扩增材料置
于组装或再组装PCR反应中,如本申请案的后续部分中所描述。
[0442] 启动子梯
[0443] 启动子调节基因转录的速率且可以通过多种方式影响转录。举例来说,不论内部或外部细胞条件,组成性启动子均引导其关联基因以恒定速率转录,而可调控启动子增加
或降低基因转录的速率却取决于内部和/或外部细胞条件,例如生长速率、温度、对特定环
境化学品的反应和其类似条件。启动子可以从其正常细胞情境中分离出来且进行工程改造
以调节几乎任何基因的表达,使得能够有效修改细胞生长、产物产量和/或所关注的其它表
型。
[0444] 在一些实施例中,本公开教示用于产生启动子梯文库以供下游基因设计方法使用的方法。举例来说,在一些实施例中,本公开教示鉴定一或多种启动子和/或在宿主细胞内
产生一或多种启动子的变体的方法,所述变体呈现一系列的表达强度或优良的调控特性。
已鉴定和/或产生的这些启动子的特定组合可分组在一起作为启动子梯,其在下文更详细
地解释。
[0445] 在一些实施例中,本公开教示使用启动子梯。在一些实施例中,本公开的启动子梯包括呈现连续范围的表达谱的启动子。举例来说,在一些实施例中,通过鉴定响应于刺激而
呈现一系列表达强度的天然、原生或野生型启动子,或通过组成性表达来产生启动子梯(参
见例如图20和图28-30)。这些已鉴定的启动子可分组在一起作为启动子梯。
[0446] 在其它实施例中,本公开教示产生在不同条件中呈现一系列表达谱的启动子梯。举例来说,在一些实施例中,本公开教示启动子梯的产生,所述启动子梯具有遍布在发酵的
不同阶段期间的表达峰(参见例如图28)。在其它实施例中,本公开教示启动子梯的产生,其
具有响应于特定刺激的不同表达峰动力学(参见例如图29)。所属领域的技术人员将认识
到,本公开的调控性启动子梯可以代表任何一或多种调控曲线。
[0447] 在一些实施例中,本公开的启动子梯被设计成以可预测的方式、在整个连续范围的响应中扰动基因表达。在一些实施例中,启动子梯的连续性质赋予菌株改进程序额外的
预测能力。举例来说,在一些实施例中,所选代谢路径的交换启动子或终止序列可以产生宿
主细胞性能曲线,其鉴定最优表达率或概况;产生如下菌株,其中靶向基因不再是特定反应
或基因级联的限制因素,同时还避免了在不适当情形下发生的不必要过度表达或错误表
达。在一些实施例中,启动子梯通过如下产生:鉴定呈现所期望曲线的天然、原生或野生型
启动子。用于本文所提供的方法中的原生启动子的实例可见于表1.4中。在其它实施例中,
通过使天然存在的启动子发生突变以得到多种突变启动子序列来产生启动子梯。测试这些
突变启动子中的每一种对于目标基因表达的影响。在一些实施例中,测试所编辑的启动子
在多种条件中的表达活性,从而记录/表征/注释每种启动子变体的活性且存储于数据库
中。随后将所得所编辑的启动子变体组织成基于其表达强度而排列的启动子梯(例如高表
达性变体靠近顶部,且减弱的表达靠近底部,因此产生术语“梯”)。用于本文所提供的方法中的合成启动子的实例可见于表1.4中。
[0448] 在一些实施例中,本公开教示启动子梯,其是已鉴定的天然存在的启动子与突变变体启动子的组合。
[0449] 在一些实施例中,本公开教示鉴定满足以下两个标准的天然、原生或野生型启动子的方法:1)表示组成性启动子梯;和2)可以由短DNA序列(理想的是,小于100个碱基对)编
码。在一些实施例中,本公开的组成性启动子呈现在两种所选生长条件中的恒定基因表达
(典型地在工业培养期间所经历的条件间进行比较)。使用本文提供的不同启动子检查基因
表达的实例可见于实例12中。在一些实施例中,本公开的启动子将由~60个碱基对核心启
动子和长度在26个碱基对与40个碱基对之间的5'UTR组成。
[0450] 用于包含在用于本文所提供的PROSWP方法中的启动子梯中的原生启动子,可基于所述原生启动子在相关基因的表达中显示极少变化来选择。此外,原生启动子可为60-90bp
长,且可由位于推定转录起始位点50bp前的序列和任选地最多但不包含推定起始密码子的
序列组成。用于本文所提供的方法中的原生启动子的实例可见于表1.4中。特定来说,用于
本文所提供的方法中的原生启动子可选自来自表1.4的核酸SEQ ID NO71-131。
[0451] 在一些实施例中,选择前述已鉴定的天然存在的启动子序列中的一或多种用于基因编辑。在一些实施例中,通过上文所描述的任一种突变方法来编辑天然启动子。在其它实
施例中,通过合成具有所期望序列的新启动子变体来编辑本公开的启动子。
[0452] 用于包含在用于本文所提供的PROSWP方法中的启动子梯中的合成启动子,可以是长度在60-90bp的嵌合序列。用于在本文中使用的合成启动子文库可包括一组或多种合成
启动子,所述启动子可以使得其与彼此相比可能组成性表达和/或表示一系列表达强度的
方式来设计和构筑。此外,可以使得合成启动子不太可能结合存在于大肠杆菌中的任何调
控元件且因此驱动组成性基因表达的方式,来设计和构筑所述合成启动子。
[0453] 为了实现这些设计目标,嵌合合成启动子可包括见于表1.5中的所有元件或元件组合。特定来说,相对于转录起始位点,合成启动子可包括或由以下组成:远端区、-35区、核心区、-10区和5'UTR/核糖体结合位点(RBS)区,如图54中所示。远端区可恰好位于-35区的
上游,而核心区可位于-35与-10区之间,如图54所示。远端和核心区两个对于结合调控元件
均是重要的(参见考克斯(Cox)等人,《分子系统生物学(Mol Syst Biol)》,2007;3:145)。由于预期λ噬菌体pR启动子驱动组成性表达,来自这个启动子的所以远端和核心区可用于设
计策略中。出于相同原因,还包括λ噬菌体pL启动子的核心区,以及向文库中添加额外变种。
[0454] 可包括-35和-10区,原因是已知其在原核生物中对于结合RNA聚合酶尤其重要,且因此对于调节表达程度可能是关键的。在一个实施例中,使用来自λ噬菌体pR启动子和pL启
动子的-35和-10区。可使用来自pR和pL的-35和-10区,这是由于预期其驱动强力表达。另外,可使用发现于许多原生大肠杆菌启动子中的-35和-10区,从而所述-35和-10区表示相对于
pR和pL的小变异,且可预期与pR和pL相比,将降低启动子强度。构成-35和-10区的可变6bp序列可选自见于表1.5中的-35和-10序列。
[0455] 除以上元件以外,嵌合合成启动子可包括5'非翻译区(5'-UTR),其包含核糖体结合位点(RBS),所述核糖体结合位点可在原核生物中对于结合核糖体尤其重要且因此对于
调节蛋白质表达的程度是关键的。在一个实施例中,来自原生大肠杆菌基因acs的5'-UTR/
RBS可用于向文库中添加额外变种。在另一实施例中,可使用来自λ噬菌体pR启动子的5'
UTR/RBS。
[0456] 用于本文所提供的方法中的合成启动子的实例可见于表1.4中。特定来说,用于本文所提供的方法中的合成启动子可选自来自表1.4的核酸SEQ ID NO 132-207。
[0457] 出于所有目的,2015年12月07日提交的第62/264,232号美国专利申请的整个公开内容以全文引用的方式并入本文中。
[0458] 本公开的启动子的非穷尽性列表提供于下表1和/或表1.4中。启动子序列中的每一种可称为异源启动子或异源启动子多核苷酸。
[0459] 表1.本公开的所选启动子序列.
[0460] SEQ ID No. 启动子简称 启动子名称1 P1 Pcg0007_lib_39
2 P2 Pcg0007
3 P3 Pcg1860
4 P4 Pcg0755
5 P5 Pcg0007_265
6 P6 Pcg3381
7 P7 Pcg0007_119
8 P8 Pcg3121
[0461] 表1.4本公开的额外启动子序列.
[0462]
[0463]
[0464]
[0465]
[0466] *来自大肠杆菌的原生启动子
[0467] 表1.5.用于组合性合成启动子-5'UTR文库中的序列部件
[0468]
[0469] 在一些实施例中,本公开的启动子呈现与来自上表1和/或表1.4的启动子具有至少100%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、
86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%或75%的序列一致性。
[0470] 双顺反子调控元件设计
[0471] 对于有效且可调式HTP基因设计的一个屏障是缺乏可以新颖组合可靠地再使用的标准部件。在大肠杆菌内的许多实例,突显表面上简单的基因功能如何在不同情况中不同
表现。举例来说,在一些实施例中,起始一个编码序列的翻译的原核生物核糖体结合位点
(RBS)元件可能不能与另一编码序列起作用(参见莎莉丝H.M.(Salis,H.M.)等人,“用于控
制蛋白质表达的合成核糖体结合位点的自动化设计(Automated design of synthetic 
ribosome binding sites to control protein expression)”《自然·生物技术》,第27卷
946-950(2009))。如果编码控制中心细胞过程(如转录与翻译)的遗传元件不能可靠地再使
用,那么从这类基础元件编码的高阶目标在较大规模系统中是可信赖的的机会极少。在一
些实施例中,本公开的方法通过使用双顺反子设计调控序列克服这些前述挑战。
[0472] 在一些实施例中,本公开的双顺反子设计可极大地降低多种编码基因的指定启动子的表达强度中的背景相关的变化性(context dependent variability)(穆塔利克
(Mutalik)等人,“通过标准转录与翻译起始元件的精确和可信赖的基因表达(Precise and 
reliable gene expression via standard transcription and translation 
initiation elements)”《自然·生物技术》,第10(4)卷第354-368页(2013))。在一些实施
例中,本公开教示,双顺反子设计(BCD)是核苷酸序列,其中启动子驱动两种编码序列的表
达,其中第一编码序列(顺反子1)终止且第二编码序列在同一核苷酸碱基处起始(顺反子2/
目标基因)。这个策略提供一种避免由于启动子与第二编码序列之间的不可预测的相互作
用所致的第二编码序列的表达强度的变化性的手段。
[0473] 在一些实施例中本公开的启动子是在双顺反子设计后的复合调控序列。也就是说,在一些实施例中,本公开的启动子梯中的启动子是较大调控序列,其包括:i)与ii)第一核糖体结合位点(SD1)可操作地连接的启动子,所述第一核糖体结合位点与iii)第一顺反
子序列(Cis1)可操作地连接,其中Cis1与iv)第二核糖体结合位点(SD2)重叠,所述第二核
糖体结合位点接着与v)目标基因编码序列(Cis2)可操作地连接(参见图43)。在一些实施例
中,本公开涉及作为“双顺反子设计”或“双顺反子设计调控序列(BCD)”的元件i)-iv)的组合。
[0474] 在一些实施例中,本公开的BCD可与任何目标基因可操作地连接。因此,在一些实施例中,本公开的BCD可置于传统启动子中使用。在一些实施例中,本公开教示,在PRO交换
工具槽罐中使用BCD增加与所翻译的表达转录物的一致性。不希望受任何一种理论束缚,本
发明人认为,存在与目标基因可操作地连接的SD1和Cis1前导序列募集活性核糖体复合物,
所述复合物接着能够通过SD2核糖体结合位点一致地重新起始目标基因的翻译。
[0475] 已报告启动子与双顺反子设计元件的集合可用于HTP基因组工程改造(参见穆塔利克等人,“通过标准转录与翻译起始元件进行精确和可信赖的基因表达(Precise and 
reliable gene expression via standard transcription and translation 
initiation elements)”,《自然·生物技术》,第10(4)卷第354-368页(2013))。然而,这些报告的序列全部均在48个核苷酸调控双顺反子设计序列的首个35个核苷酸中含有一致DNA
序列(参见图43中的穆塔利克的目前先进技术序列)。
[0476] 在一些实施例中,本公开教示,穆塔利克等人的BCD可能不能用于有效地工程改造单一生物体中的多个目标基因。也就是说,在一些实施例中,本公开教示针对将穆塔利克
BCD多整合到宿主细胞的基因组中。不希望受任何一种理论束缚,本发明人认为,重复使用
穆塔利克等人BCD将引起通过基因组中的高度同源序列的存在触发的非期望同源重组(HR)
的比率增加。
[0477] 在一些实施例中,本公开通过描述具有非一致核苷酸序列的新颖BCD来解决这个问题。这些新颖BCD可用于大肠杆菌中的HTP基因组工程改造,以独立于这些基因的编码序
列在单一基因组内的多个基因的表达中提供可预测变化,而不诱导非期望同源重组。
[0478] 在一些实施例中,本公开教示以相对类似水平在宿主生物体中表达两种目标基因蛋白质的方法。因此,在一些实施例中,本公开教示彼此在0.2、0.4、0.6、0.8、1、1.2、1.4、
1.6、1.8、2、2.2、2.4、2.6、2.8或3倍内的两种或更多种目标基因蛋白质的表达。
[0479] 在一些实施例中,本公开教示以类似水平在宿主生物体中表达两种目标基因蛋白质、同时降低因使用一致调控序列触发的非期望同源重组(HR)事件的险的方法。因此,在
一些实施例中,本公开教示以保持表达水平的方式改变BCD序列、同时降低HR的风险的方
法。也就是说,在一些实施例中,本公开教示通过除了其Cis1序列之外一致的BCD表达编码
蛋白质的两种或更多种基因。
[0480] BCD启动子
[0481] 在一些实施例中,本公开的BCD包括启动子序列。在一些实施例中,包括在BCD中的启动子可以是能够在宿主细胞中表达的任何启动子。因此,在一些实施例中,启动子可以是
在说明书中公开的任何启动子。在一些实施例中,启动子可以是已知在大肠杆菌中起作用
的任何启动子。在其它实施例中,启动子可以是在表1和/或表1.4中公开的任何启动子。
[0482] 第一和第二核糖体结合位点(SD1和SD2)
[0483] 在一些实施例中,本公开的BCD包括第一和第二核糖体结合位点,分别称为SD1和SD2。在一些实施例中,SD1和SD2的序列可以是相同的。在其它实施例中,SD1和SD2的序列可以是不同的。
[0484] 在一些实施例中,SD序列可以是在HTP基因工程改造下在宿主中起作用的任何已知核糖体结合位点。在其它实施例中,本公开教示一种NNNGGANNN的SD序列,其中N是指任何
核苷酸。在其它实施例中,本公开教示选自在表1.1中公开的序列的SD序列。
[0485] 表1.1-适用于SD1和SD2用途的核糖体结合位点的非限制性列表。
[0486]
[0487]
[0488] 应该明确,本文所描述的上位性映射程序不取决于分析设备214使用哪种模型。鉴于这种预测模型,有可能对通过组合合并可近接突变文库的所有假想菌株评分和排名。
[0489] 在一些实施例中,本公开教示,改变BCD中的个别SD序列将影响BCD的整体表达。一些SD序列可用来增加或降低BCD的整体表达潜能。然而,预期,每一种BCD在组合在不同目标
基因Cis2序列上时将呈现一致的表达结果。
[0490] 在一些实施例中,SD2序列完全嵌入于第一顺反子序列的编码序列内。也就是说,在一些实施例中,SD2序列整合于Cis2的编码序列中。不希望受任何一种理论束缚,本发明
人认为,其中目标基因的核糖体结合位点(SD2)完全嵌入于上游基因的编码序列(Cis1)中
的BCD排列,引起Cis1和Cis2肽的翻译偶联。更具体地说,本发明人假设,核糖体到达上游
Cis1序列的终止密码子的固有解螺旋酶活性消除将另外干扰下游Cis2目标基因的翻译起
始的抑制性RNA结构。
[0491] 第一顺反子序列(Cis1)
[0492] 在一些实施例中,本公开的第一顺反子序列Cis1可以是编码连续肽的任何序列。举例来说,在一些实施例中,Cis1序列编码长度在以下的肽:4、5、6、7、8、9、10、11、12、13、
14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、
39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、250、300、350、400、450、500、550、
600、650、700、750、800、850、900、950、1000或更多个氨基酸,包含其中的任何范围和子范围。在一些实施例中,Cis1不需要编码功能肽。
[0493] 在一些实施例中,Cis1序列编码16氨基酸前导肽。在一些实施例中,Cis1核苷酸序列是:
[0494] 5'-ATGAAAGCAATTTTCGTACTGAAACATCTTAATCATGCACAGGAGACTTTCTAA-3'(SEQ ID No.17)。
[0495] 在其它实施例中,本公开教示,Cis1序列可以是5'-ATGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN-3',其中N可以是任何核酸,只要Cis1编码肽即可。
[0496] 在一些实施例中,本公开教示,Cis1的终止密码子和Cis2的起始密码子必须极为接近或重叠。举例来说,在一些实施例中,Cis1的终止密码子必须在Cis2的起始密码子的1、
2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、
30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸内,包含其中的所有范围和子范围。
[0497] 在一些实施例中,Cis1序列与Cis2序列重叠1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、
39、40、41、42、43、44、45、46、47、48、49、50、100或更多个核苷酸,包含其中的所有范围和子范围。在其它实施例中,设计本公开的BCD,以使得Cis1序列与Cis2目标基因编码序列重叠1
个核苷酸,使得最后几个核苷酸通过-1框移编码终止和起始密码子两个(参见图43)。在一
些实施例中,Cis1和Cis2序列必须在不同开放阅读框架上编码,以便预防形成组合Cis1与
Cis2的序列的嵌合蛋白。
[0498] 在一些实施例中,本公开教示,Cis1序列的起始密码子可以是任何功能性起始密码子。在一些实施例中,本公开教示,原核生物使用最常见的起始密码子ATG(AUG),继之为
GTG(GUG)和TTG(UUG)。
[0499] 在一些实施例中,本公开教示,Cis1序列不具有任何提前终止密码子。在其它实施例中,本公开教示,Cis1序列中的罕见密码子会降低Cis2的翻译效率。因此,在一些实施例
中,Cis1将编码不具有任何罕见密码子的肽以达到最大表达。在其它实施例中,Cis1将编码
具有一或多个罕见密码子的肽以便调节Cis2的表达。
[0500] 在其它实施例中,本公开教示,Cis1序列中的多个密码子重复会降低Cis2的翻译效率。因此,在一些实施例中,Cis1将编码不具有任何密码子重复的肽以达到最大表达。在
其它实施例中,Cis1将编码具有一或多个密码子重复的肽以便调节Cis2的表达。
[0501] 第二顺反子序列(Cis2-目标基因)
[0502] 在一些实施例中,本公开教示,以与PRO-交换文库的启动子与目标序列可操作地连接差不多的方式,将本公开的BCD与Cis2目标基因序列可操作地连接。也就是说,在一些
实施例中,本公开的BCD可取代PRO-交换文库和本公开方法中的传统启动子。在一些实施例
中,Cis2序列可以是任何所关注序列。
[0503] 本公开教示,在一些实施例中,编码多肽的目标基因将比通过启动子而更有效地通过BCD来调节。也就是说,在一些实施例中,BCD将不会比启动子更能调节非编码RNA的表
达。
[0504] 终止子梯
[0505] 在一些实施例中,本公开教示通过在RNA编码元件末端的3'位置提供一或多种转录终止序列来改进基因工程改造的宿主菌株的方法。在一些实施例中,本公开教示,添加终
止序列提高在基因工程改造的宿主中所选基因的RNA转录效率。在其它实施例中,本公开教
示,添加终止序列降低在基因工程改造的宿主中所选基因的RNA转录效率。因此,在一些实
施例中,本公开的终止子梯包括呈现一系列转录效率的一系列终止序列(例如一个弱终止
子、一个普通终止子和一个强启动子)。
[0506] 转录终止序列可以是任何核苷酸序列,其当以转录方式放置于编码开放阅读框架的核苷酸序列的下游时,使得开放阅读框架的转录终止。这类序列在所属领域中已知且可
以具有原核、真核或噬菌体来源。终止子序列的实例包含(但不限于)PTH终止子、pET-T7终
止子、 终止子、pBR322-P4终止子、水疱性口炎病毒终止子、rrnB-T1终止子、rrnC终止
子、TTadc转录终止子和酵母识别的终止序列,如Matα(α因子)转录终止子、原生α因子转录终止序列、ADR1转录终止序列、ADH2转录终止序列和GAPD转录终止序列。转录终止子序列的
非穷尽性列表可以见于iGEM注册表,其可获得于:http://partsregistry.org/
Terminators/Catalog。
[0507] 在一些实施例中,转录终止序列可以具有聚合酶特异性或非特异性的,然而,选用于本发明实施例中的转录终止子应该与所选启动子形成‘功能性组合’,这意味着终止子序
列应该能够通过在启动子处起始的RNA聚合酶类型来终止转录。举例来说,在一些实施例
中,本公开教示,真核RNA pol II启动子和真核RNA pol II终止子、T7启动子和T7终止子、
T3启动子和T3终止子、酵母识别的启动子和酵母识别的终止序列等通常会形成功能性组
合。所用转录终止序列的一致性也可以基于从所指定启动子终止转录的效率来选择。举例
来说,异源转录终止子序列可以转录方式提供于RNA编码元件的下游,以实现从所指定启动
子开始的至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少
92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的终止效率。
[0508] 在一些实施例中,从工程改造的表达构筑体的RNA转录的效率可以通过提供在RNA编码元件末端的3'位置形成包括两个或更多个发夹的二级结构的核酸序列来提高。不希望
受特定理论的束缚,二级结构使转录延伸复合物不稳定且使得聚合酶从DNA模板中解离,借
此使非功能性序列的非生产性转录最低且增加所期望RNA的转录。因此,可以提供形成包括
两个或更多个相邻发夹的二级结构的终止序列。一般来说,发夹可以由回文核苷酸序列形
成,所述回文核苷酸序列可以回折于自身而形成成对的茎区,所述茎区的臂通过单链环
连接。在一些实施例中,终止序列包括2、3、4、5、6、7、8、9、10个或更多个相邻发夹。在一些实施例中,相邻发夹相隔0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个不成对核苷酸。在一些实施例中,发夹茎在长度上包括4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、
22、23、24、25、26、27、28、29、30个或更多个碱基对。在某些实施例中,发夹茎长度是12到30个碱基对。在某些实施例中,终止序列包括两个或更多个中等尺寸的发夹,其具有包括约9
到25个碱基对的茎区域。在一些实施例中,发夹包括1、2、3、4、5、6、7、8、9或10个核苷酸的环形成区域。在一些实施例中,环形成区域包括4-8个核苷酸。不希望受到特定理论的束缚,二级结构的稳定性可与终止效率相关。发夹稳定性由其长度、其所含的错配或凸起的数量以
及成对区域的碱基组成决定。鸟嘌呤与胞嘧啶之间的配对具有三个氢键且比仅具有两个氢
键的腺嘌呤-胸腺嘧啶配对更稳定。形成发夹的回文核苷酸序列的G/C含量可以是至少
60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或更多。在一些实施例中,形成发夹的回文核苷酸序列的G/C含量是至少80%。在一些实施例中,终止序列来源于
具有原核、真核或噬菌体来源的一或多种转录终止子序列。在一些实施例中,编码一系列4、
5、6、7、8、9、10个或更多个腺嘌呤(A)的核苷酸序列提供于终止序列的3'处。
[0509] 在一些实施例中,本公开教示一系列串联终止序列的使用。在一些实施例中,一系列2、3、4、5、6、7个或更多个中的第一转录终止子序列可以直接放置于dsRNA编码元件的最后核苷酸的3'处或与dsRNA编码元件的最后核苷酸的3'处相隔至少1-5、5-10、10-15、15-
20、20-25、25-30、30-35、35-40、40-45、45-50、50-100、100-150、150-200、200-300、300-
400、400-500、500-1,000或更多个核苷酸的距离。串联转录终止子序列之间的核苷酸数量
可以不同,例如转录终止子序列可以相隔0、1、2、3、4、5、6、7、8、9、10、10-15、15-20、20-25、
25-30、30-35、35-40、40-45、45-50或更多个核苷酸。在一些实施例中,转录终止子序列可以基于其预测二级结构(如通过结构预测算法所测定)来选择。结构预测程序在所属领域中是
众所周知的且包含例如CLC主工作台
[0510] 所属领域中的技术人员将认识到,本公开的方法与任何终止序列兼容。在一些实施例中,本公开教示使用如以下文献中所公开的注释的谷氨酸棒状杆菌终止子:普法伊费
尔-桑卡(Pfeifer-Sancar)等人,2013,“使用改进的RNAseq技术对谷氨酸棒状杆菌转录组
的综合分析(Comprehensive analysis of the Corynebacterium glutamicum 
transcriptome using an improved RNAseq technique)”普法伊费尔-桑卡等人《,BMC基
因组学(BMC Genomics)》2013,14:888)。在其它实施例中,本公开教示使用iGEM注册表中所
发现的转录终止子序列,所述iGEM注册表可获得于:http://partsregistry.org/
Terminators/Catalog。本公开的转录终止子序列的非穷尽性列表提供于下表1.2中。
[0511] 表1.2.本公开的终止序列的非穷尽性列表。
[0512]
[0513]
[0514] 蛋白质溶解性标签梯
[0515] 在一些实施例中,本公开教示通过提供与来源于目标基因的目标蛋白可操作地连接的一或多种蛋白质溶解性标签序列来改进基因工程改造的宿主菌株的方法。溶解性标签
可以是在目标蛋白的N端或C端上与目标蛋白可操作地连接的融合伴侣。在一些实施例中,
本公开教示,添加溶解性标签序列提高在基因工程改造的宿主中从所选基因翻译的蛋白质
的溶解性。在其它实施例中,溶解性标签还可用以帮助对目标蛋白进行纯化。
[0516] 用于本公开的蛋白质溶解性标签梯中的有效标签可以是所属领域中已知的形成非依赖性良好折叠的结构域、高度可溶的结构域的任何溶解性标签。这些结构域可通过相
加效应有助于其目标蛋白的溶解,或当用作N端标签时,可在从核糖体出现之后快速折叠且
空间上阻断出现的目标蛋白的氨基酸链与其它细胞组分相互作用,所述相互作用可导致错
误折叠。此外,用于包含在溶解性标签梯中的溶解性标签可具有共同特性,如是小的紧密折
叠的结构域或是已知为高度可溶的蛋白质的前导序列。蛋白质溶解性标签序列可以是所属
领域中已知的任何这类标签,例如科斯塔(Costa)等人,《前沿微生物学(Front 
Microbiol)》2014;5:63中发现的任一种标签,所述文献的内容以全文引用的方式并入本文
中。在一个实施例中,溶解性标签序列包含见于表17中的标签。
[0517] 在一个实施例中,蛋白质溶解性标签是融合伴侣。融合伴侣编码基因可存在于本文提供的任一种载体(例如穿梭载体)中,使得将目标蛋白的基因整合在载体中,所述载体
将融合伴侣编码基因与目标基因可操作地连接。包括供本文使用的溶解性标签的大肠杆菌
表达载体,可在溶解性标签融合伴侣编码基因与目标蛋白编码基因之间包括可根据需要允
许标签去除的蛋白酶识别序列。用于本文所提供的溶解性交换方法中的融合伴侣的选择可
取决于:
[0518] (i)融合的目的:其是用于溶解性改进还是用于亲和力纯化?呈现不同目的的多种融合标签是可获得的,且可设计含有溶解性和亲和力标签(如双重六聚组氨酸(His6)-MBP
标签)的系统,以便得到一种快速“一步”蛋白质生产。一些蛋白质标签也可起亲和力和溶解性两个作用,例如MBP或谷胱甘肽-S-转移酶(GST;埃斯波西托(Esposito)和查特吉
(Chatterjee),《生物技术近期述评(Curr Opin Biotechnol)》,2006年8月;17(4):353-8.电子版2006年6月15日)。
[0519] (ii)氨基酸组成和尺寸:目标蛋白质取决于其应用可能需要较大或较小标签。较大标签可展现主要氨基酸含量的多样性,且可在宿主细胞中施加不同于通过小标签施加的
代谢负荷。
[0520] (iii)所需生产水平:结构研究可能需要较高的蛋白质生产水平,这可用较大融合标签来快速实现,所述较大融合标签具有强翻译起始信号,而生理学相互作用的研究可能
需要较低生产水平和小标签。
[0521] (iv)标签位置:当位于目标蛋白的N端或C端时,融合伴侣可促进不同效果。N端标签可能通常优于C端标签,这是因为:(1)其为有效翻译起始提供可靠的环境,其中融合蛋白
利用标签上的有效翻译起始位点;(2)其可被去除,在目标蛋白的原生N端序列处无保留或
留下几个额外残基,这是由于大部分内切蛋白酶在其识别位点的C端处或附近裂解。
[0522] 表17.本公开的蛋白质溶解性标签序列的非穷尽性列表。
[0523]
[0524]
[0525] 蛋白质降解标签梯
[0526] 在一些实施例中,本公开教示通过提供与来源于目标基因的目标蛋白可操作地连接的一或多种蛋白质降解标签序列来改进基因工程改造的宿主菌株的方法。使用本文提供
的方法添加降解标签序列可标记目标蛋白的降解。标记目标蛋白的降解可降低或调节细胞
内的目标蛋白丰度。通过降低或调节细胞中的目标蛋白水平或丰度,向目标蛋白添加降解
标签序列可最终影响所得菌株的整体表型。
[0527] 用于本公开的蛋白质降解标签梯中的有效标签可以是所属领域中已知的为宿主生物体(例如大肠杆菌)中的已知降解路径的一部分的任何降解标签。举例来说,大肠杆菌
中的已知降解路径可包含clpXP/clpAP系统、HflB系统、ftsH系统和lon系统。因此,用于本
文所提供的降解标签交换方法中的降解标签可包含已知在这些大肠杆菌蛋白质降解系统
中的任一种中起作用的任何标签。在一些情况下,降解标签可以使得赋予所得突变体标签
调整其活性的能力的方式突变。举例来说,ssrA类的标签可进行突变,使得突变型ssrA降解
标签标记已标记蛋白质的通过ClpXP降解路径以不同效率程度的降解。在一个实例中,ssrA
标签可在AANDENYALAA共有序列的最后三个残基中含有单个氨基酸突变,使得包括C端突变
型ssrA标签的目标蛋白质可以不同的效率水平通过某些胞内尾部特异性蛋白酶(例如Tsp
蛋白酶)降解,这取决于哪个氨基酸在ssrA标签共有序列的最后三个残基中突变(参见凯勒
K C(Keiler K C),索尔R T(Sauer R T),通过Tsp蛋白酶对C端底物识别的序列决定子
(Sequence determinants of C-terminal substrate recognition by the Tsp 
protease),《生物化学杂志(J Biol Chem.)》,1996;271:2589-2593,其内容以全文引用的方式并入本文中)。因此,使用本公开的降解标签交换方法,有可能通过构筑携带在Tsp共有
序列中具有微小变化的C端肽标签的变体,而获得具有不同稳定性的目标蛋白质的宿主细
胞菌株。用于本文方法中的突变体ssrA标签的实例可包括氨基酸SEQ ID NO:248、249或
250。
[0528] 用于本文所提供的方法中的突变型ssrA标签的另一实例可以是发现于以下中的DAS标签:麦金尼斯(McGinness)等人,“工程改造可控制的蛋白质降解(Engineering 
Controllable Protein Degradation)”《分子细胞(Mol.Cell)》,第22(5)卷,2006年6月,其内容在此以其全文引用的方式并入。在DAS标签中,置换ssrA标签中的两个残基,从而产生
呈现弱化ClpX结合而不减弱SspB识别的突变型ssrA标签。因此,携带DAS标签的目标蛋白质
可仅当SspB存在时由ClpXP有效地降解,从而允许通过控制SspB水平来调节胞内降解。
[0529] 本公开的蛋白质降解标签序列的非穷尽性列表可见于表18中。
[0530] 表18.本公开的蛋白质降解标签序列的非穷尽性列表。
[0531]
[0532]
[0533] 降解标签可以是在目标蛋白的N端或C端上与目标蛋白可操作地连接的融合伴侣。因此,融合伴侣编码基因可存在于本文提供的任一种载体(例如穿梭载体)中,使得将目标
蛋白的基因整合在载体中,所述载体将融合伴侣编码基因与目标基因可操作地连接,使得
构筑体的翻译产生具有存在于目标蛋白的N端或C端(视需要)上的降解标签的融合蛋白。在
一个实施例中,在目标蛋白的N端或C端放置降解标签(或其突变体)可取决于所使用的标
签。举例来说,与clpXP clpAP系统、HflB系统、ftsH系统相关的降解标签(或其突变体)或
lon系统的sul20标签可在C端与目标蛋白可操作地连接,而lon系统的β20降解标签(或其突
变体)可在N端或内部与目标蛋白可操作地连接。在一个实施例中,降解标签是如在以下中
发现的大肠杆菌的N-降解决定子标签(Ntag):席卡K(Sekar K)、金泰尔AM(Gentile AM)、博
斯蒂克JW(Bostick JW)、蒂奥凯伊(Tyo KEJ)(2016),在大肠杆菌中基于N端的靶向诱导性
蛋白质降解(N-Terminal-Based Targeted,Inducible Protein Degradation in 
Escherichia coli),《公共科学图书馆·综合(PLoS ONE)》11(2):e0149746,其以全文引用
的方式并入本文中。Ntag可置于所关注目标蛋白的N端上,且可用来通过clpXP/clpAP系统
标记大肠杆菌宿主细胞中的所关注目标蛋白的降解。在另一实施例中,降解标签是RepA标
签,其可位于目标蛋白的N端处,如巴兹(Butz)等人《,生物化学(Biochemistry)》,2011,50(40),第8594-8602页中所描述,所述文献以全文引用的方式并入本文中。N端RepA标签可用
来通过clpXP/clpAP系统标记大肠杆菌宿主细胞中的所关注目标蛋白的降解。
[0534] 假设驱动型多样性池和爬山法
[0535] 本公开教示,本公开的HTP基因工程改造方法不需要先验基因了解来实现宿主细胞性能的显著增加。实际上,本公开教示通过功能上不可知的若干种方法(包含随机突变诱
发和鉴定预先存在的宿主细胞变体中的基因多样性(例如在野生型宿主细胞与工业变体之
间的比较))产生多样性池的方法(例如图1)。
[0536] 然而,在一些实施例中,本公开还教示假设驱动型设计基因多样性突变的方法,所述多样性突变将用于下游HTP工程改造。也就是说,在一些实施例中,本公开教示所选突变
的定向设计。在一些实施例中,将定向突变并入本公开的工程改造文库(例如SNP交换、PRO
交换、STOP交换、溶解性标签交换或降解标签交换)中。
[0537] 在一些实施例中,本公开教示基于基因注释、假设(或确认)的基因功能或基因组内的位置来产生定向突变。本公开的多样性池可包含基因中的假设涉及特定代谢或基因路
径的突变,所述特定代谢或基因路径在文献中与宿主细胞的性能增强相关。在其它实施例
中,本公开的多样性池也可包含存在于操纵子中的与改进的宿主性能相关的基因的突变。
在又其它实施例中,本公开的多样性池也可包含基于算法预测函数或其它基因注释的基因
的突变。
[0538] 在一些实施例中,本公开教示一种用于对假设驱动型突变的目标进行优先级排序的基于“壳”的方法。目标优先级排序的壳隐喻是基于如下假设:仅少数初始基因负责宿主
细胞性能的大部分特定方面(例如单一生物分子的产生)。这些初始基因位于壳的核心处,
继之为第二层中的二级效应基因、第三壳中的三级效应以及...等。举例来说,在一个实施
例中,壳的核心可能包括编码所选择代谢路径(例如柠檬酸的产生)内的关键生物合成酶的
基因。位于第二壳上的基因可包括编码生物合成路径内的其它酶的基因,所述酶负责产物
转移或反馈信号传导。依据这个说明性隐喻的第三层基因可能会包括调控基因,其负责调
节生物合成路径的表达或用于调控宿主细胞内的一般碳通量。
[0539] 本公开还教示用于优化来自每种所鉴定突变的性能增加的“爬山”方法。在一些实施例中,本公开教示,HTP多样性文库中的随机、天然或假设驱动型突变可以实现与宿主细
胞性能相关的基因的鉴定。举例来说,本发明方法可以鉴定位于基因编码序列上或附近的
一或多种有益SNP。这个基因可能与宿主细胞性能相关,且可以将其鉴定类比为在生物体的
组合性基因突变空间中发现性能“山”。
[0540] 在一些实施例中,本公开教示探究围绕实施于SNP突变中的已鉴定山的组合性空间的方法。也就是说,在一些实施例中,本公开教示扰动已鉴定的基因和相关调控序列以便
优化由那个基因节点获得的性能增加(即,爬山)。因此,根据本公开的方法,首先可能在来
源于随机突变诱发的多样性文库中鉴定出基因,但是基因稍后可能通过相同基因内的另一
序列的定向突变加以改进以供菌株改进程序使用。
[0541] 爬山的概念还可以扩展超出单一基因序列周围的组合性空间的探索。在一些实施例中,特定基因中的突变可以揭露特定代谢或基因路径对于宿主细胞性能的重要性。举例
来说,在一些实施例中,单一RNA降解基因中的突变引起宿主性能显著增加的发现可以用作
使相关RNA降解基因发生突变的依据,这成为从宿主生物体提取额外性能增益的手段。所属
领域的技术人员将认识到,上文所描述的定向基因设计的壳和爬山方法的变化形式。
[0542] 生物合成路径骨架
[0543] 在一些实施例中,本公开教示,一些生物工业方法的生产力受到宿主细胞内底物、中间物和生物合成酶的随机扩散的限制。在一些实施例中,本公开教示,宿主细胞培养物的
生产力可通过在路径中共定位生物合成酶来增加。因此,在一些实施例中,本公开教示将生
物合成酶系栓到骨架,如DNA或蛋白质骨架。
[0544] 在一些实施例中,共定位通过将DNA结合结构域重组融合于路径中的生物合成酶来实现,所述生物合成酶接着与DNA骨架区域结合,因此强制路径酶在细胞中彼此接近。在
其它实施例中,共定位通过将蛋白质结合结构域重组融合于路径中的生物合成酶来实现,
所述生物合成酶接着与蛋白质骨架区域结合,因此强制路径酶在细胞中彼此接近。在一些
实施例中,共定位增加生产速率且降低细胞中的路径中间物的浓度(参见图44)。
[0545] 在一些实施例中,本公开教示一种用于工程改造大肠杆菌的基因组的高通量方法,其中将编码DNA结合或蛋白质结合结构域的核苷酸序列插入到编码生物合成路径中的
酶的基因中,且将DNA骨架质粒或骨架蛋白质引入到细胞中。根据本发明的一个方面,人们
相信,系栓到生物合成基因的DNA或蛋白质结合结构域将与重组路径酶一起定位到骨架质
粒或肽上,从而使得目标产物的生产力提高。
[0546] 在一些实施例中,本发明通过高通量方法解决基因组工程改造的大肠杆菌细胞中的扩散限制的小分子生产力的问题。目前,DNA骨架定位生物合成酶的唯一报告实例为低通
量方法,其中重组路径酶是编码在质粒上(李(Lee)等人,“通过使用DNA骨架系统提高大肠
杆菌中的L-苏氨酸的生产(Improved Production of L-Threonine in Escherichia coli 
by  Use  of  a  DNA  Scaffold  System)”《应用环境微生物学(App.And 
Environ.Microbiol)》,第79(3)卷,第774-782页(2013))。在一些实施例中,本发明提供一种以高通量方式,将DNA结合结构域并入到染色体编码的路径酶中的手段。
[0547] 在一些实施例中,本公开教示嵌合生物合成酶和骨架DNA和蛋白质。这个技术的各种方面在下文更详细地论述。
[0548] 结合DNA的嵌合蛋白
[0549] 在一些实施例中,本公开教示包括系栓到DNA结合结构域的所选择生物合成酶的嵌合蛋白。根据这些实施例,预期,嵌合生物合成酶将通过DNA骨架的DNA结合结构域募集到
DNA骨架,借此将各种生物合成活性集中到宿主细胞的某一区域。
[0550] 在一些实施例中,将生物合成酶和DNA结合结构域共价连接。在一些实施例中,将生物合成酶与DNA结合结构域翻译地融合。因此,在一些实施例中,通过将DNA结合结构域偶
联到生物合成路径蛋白质的氨基端、羧基端或所述蛋白质内的内部位点,来形成嵌合生物
合成酶。所属领域的技术人员应认识到,需要确保添加DNA结合结构域不大体上降低生物合
成酶的活性。
[0551] 在本公开的一些实施例中,通过短多肽连接子序列,将生物合成酶与其DNA结合结构域偶联。适合的连接子包含长度在约6与约40个氨基酸之间的肽。优选的连接子序列包含
富含甘氨酸(例如G3-5)、富含丝氨酸(例如GSG、GSGS(SEQ ID NO.18)、GSGSG(SEQ ID 
NO.19)、GSNG(SEQ ID NO.20)或富含丙氨酸(例如TSAAA(SEQ ID NO.21))的连接子序列。其
它示例性连接子序列具有甘氨酸、丙氨酸、脯氨酸和甲硫氨酸残基的组合,如AAAGGM(SEQ 
ID NO.22);AAAGGMPPAAAGGM(SEQ ID NO.23);AAAGGM(SEQ ID NO.24);和PPAAAGGMM(SEQ 
ID NO.25)。连接子可具有产生一般柔性嵌合生物学路径蛋白质的几乎任何序列。
[0552] 在一些实施例中,本公开的方法与能够与生物合成酶顺式作用的任何DNA结合结构域兼容。在一些实施例中,DNA结合结构域优选地对于宿主生物体是外源的。在其它实施
例中,本公开教示对具充分选择性的DNA结合结构域进行选择,以避免在所设计的骨架DNA
外部的过多结合。
[0553] 各种DNA结合结构域以及其在DNA中的对应核苷酸识别位点(即,DNA结合位点)是所属领域中已知的,且适用于本发明的系统和方法。举例来说,在本发明的一个实施例中,
嵌合生物学路径蛋白质的DNA结合部分包括亮氨酸拉链DNA结合结构域,其中骨架包括对应
亮氨酸拉链DNA结合序列。在本发明的另一实施例中,嵌合生物学路径蛋白质的DNA结合部
分包括螺旋-环-螺旋DNA结合结构域,其中骨架包括对应螺旋-环-螺旋DNA结合序列。在另
一实施例中,嵌合生物学路径蛋白质的DNA结合部分包括翼形螺旋DNA结合结构域,其中骨
架包括对应翼形螺旋DNA结合序列。在另一实施例中,嵌合生物学路径蛋白质的DNA结合部
分包括翼形螺旋-转角-螺旋DNA结合结构域,其中骨架包括对应翼形螺旋-转角-螺旋DNA结
合序列。在另一实施例中,嵌合生物学路径蛋白质的DNA结合部分包括螺旋-转角-螺旋DNA
结合,其中骨架包括对应螺旋-转角-螺旋DNA结合序列。在另一实施例中,嵌合生物学路径
蛋白质的DNA结合部分包括HMG-盒DNA结合结构域,其中骨架包括对应HMG-盒DNA结合序列。
在另一实施例中,嵌合生物学路径蛋白质的DNA结合部分包括常规设计的TALE DNA结合结
构域,其中骨架包括对应所设计的TALE DNA结合序列。在本发明的另一实施例中,嵌合生物
学路径蛋白质的DNA结合部分包括锌指DNA结合结构域,其中骨架包括对应锌指DNA结合序
列。
[0554] 示例性锌指DNA结合结构域序列和对应DNA结合位点提供于表1.3中。所属领域中已知的其它锌指DNA结合结构域和其对应目标DNA结合序列也适用于本发明(参见例如格雷
斯曼H A(Greisman H A)和帕博C O(Pabo C O),“一种用于选择多种DNA目标位点的高亲和
力锌指蛋白质的通用策略(A General Strategy for Selecting High-Affinity Zinc 
Finger Proteins for Diverse DNA Target Sites)”,《科学》275:657-661(1997);雷巴尔E J(Rebar E J)和帕博C O,“锌指噬菌体:对于具有新颖DNA结合特异性的指的亲和力选择
(Zinc Finger Phage:Affinity Selection of Fingers with New DNA-Binding 
Specificities)”,《科学》263:671-673(1994);梅德(Maeder)等人,“针对高效基因修饰,对定制锌指核酸酶的快速“开源”工程改造(Rapid“Open-Source”Engineering of 
Customized Zinc-Finger Nucleases for Highly Efficient Gene Modification)”,《分
子细胞》,31:294-301(2008);桑德尔(Sander)等人,“无选择的通过背景相关的组装
(Context-Dependent Assembly;CoDA)进行锌指-核酸酶工程改造(Selection-Free Zinc-
Finger-Nuclease Engineering by Context-Dependent Assembly(CoDA))”,《自然·方法
(Nat.Methods)》8:67-69(2011);雷巴尔的第5,5789,538号美国专利;格雷斯曼的第6,410,
248号美国专利;雷巴尔的第7,605,140号美国专利;巴巴斯(Barbas)的第6,140,081号美国
专利;巴巴斯的第7,067,617号美国专利;迈克尔(Michaels)的第6,205,404号美国专利和
荣格(Joung)的第20070178454号美国专利申请公开案,所述每篇文献以全文引用的方式并
入本文中)。
[0555] 用于优化锌指结构域的DNA结合特异性的方法和工程改造合成DNA结合位点的方法也是所属领域中已知的,且可用于本发明中,以产生新颖锌指结合伴侣(参见例如,布雷
克(Bulyk)等人,“利用DNA微阵列探究锌指的DNA结合特异性(Exploring the DNA-binding 
Specificities of Zinc Fingers with DNA Microarrays)”,《美国国家科学院学报
(Proc.Nat'l Acad.Sci.U.S.A.)》,98(13):7158-63(2001)和赫特(Hurt)等人,“通过定向
结构域改组和基于细胞的选择获得的高度特异性锌指蛋白质(Highly Specific Zinc 
Finger Proteins Obtained by Directed Domain Shuffling and Cell-based 
Selection)”,《美国国家科学院学报》,100(21):12271-6(2003);雷巴尔的第5,5789,538号美国专利;格雷斯曼的第6,410,248号美国专利;雷巴尔的第7,605,140号美国专利;巴巴斯
的第6,140,081号美国专利;巴巴斯的第7,067,617号美国专利;迈克尔的第6,205,404号美
国专利和荣格的第20070178454号美国专利申请公开案,所述每一篇文献以全文引用的方
式并入本文中)。
[0556] 表1.3-DNA结合结构域的非限制性列表。
[0557]
[0558]
[0559] 核酸骨架序列
[0560] 在一些实施例中,本公开教示一种DNA骨架,其包括对应于含于嵌合生物合成酶内的DNA结合结构域的DNA结合序列中的一或多个。在一些实施例中,DNA骨架是一种染色体外
的质粒或其它载体。在其它实施例中,DNA骨架是在宿主细胞的基因组内编码。
[0561] 适合的核酸载体包含(但不限于)质粒、杆状病毒载体、噬菌体载体、噬菌粒、粘质粒、F粘粒(fosmid)、细菌性人工染色体、病毒载体(例如,基于牛痘病毒、脊髓灰质炎病毒、腺病毒、腺相关病毒、SV40、单纯疱疹病毒和类似病毒的病毒载体)、人工染色体、酵母质粒、酵母人工染色体和其它载体。在本发明的一些实施例中,适用于原核宿主细胞的载体是优
选的。因此,用于原核生物(如大肠杆菌)中的示例性载体包含(但不限于):pACYC184、
pBeloBacll、pBR332、pBAD33、pBBR1MCS和其衍生物、pSC101、SuperCos(粘质粒)、pWE15(粘质粒)、pTrc99A、pBAD24、含有ColE1复制起点的载体和其衍生物、pUC、pBluescript、pGEM、Ori_Plsmd27(SEQ ID NO.213)、载体主链1(SEQ ID NO.214)、载体主链2(SEQ ID NO.215)、
载体主链3(SEQ ID NO.216)、载体主链4(SEQ ID NO.217)和pTZ载体。
[0562] 在一些实施例中,本公开教示,核酸骨架亚基可包括偶联在一起的2、3、4、5、6、7、8、9、10、15、20、25个或更多个不同DNA结合位点,以便于结合和固定2、3、4、5、6、7、8、9、10、
15、20、25个或更多种不同生物合成路径蛋白质。在一些实施例中,本公开教示,DNA骨架具有针对每一种对应嵌合生物合成蛋白质的单一DNA结合位点。
[0563] 在其它实施例中,核酸骨架可包括同一DNA结合位点的两个或更多个拷贝。这种架构允许对待实现的生物学蛋白质化学计量进行优化。根据本发明的这个实施例,相同DNA结
合位点可偶联在一起,以产生针对特定化学反应的酶促中心。因此,在一些实施例中,DNA骨架包括多组多DNA结合位点,每组对应于特定嵌合生物合成基因/酶。
[0564] 在本发明的一些实施例中,组装合成生物学路径的方法涉及将至少第一嵌合生物合成基因(例如酶)和第二嵌合生物合成酶固定到核酸骨架上。第一嵌合生物合成酶产生第
一产物,所述第一产物为第二嵌合生物学路径蛋白质的底物。将第二嵌合生物合成酶固定
到骨架构筑体上,使得其被定位成与第一嵌合生物合成酶相邻或极接近于第一嵌合生物合
成酶。以这种方式,第一产物的有效浓度是很高的,且第二嵌合生物合成酶可有效地作用于
第一产物。作为一实例,合成核酸骨架已按从骨架构筑体的3′→5′或5′→3′的次序将以下固定在其上:a)第一嵌合生物合成酶,和b)第二嵌合生物合成酶,以形成“骨架亚基”。骨架亚基可在合成核酸骨架内重复两次或更多次。
[0565] 根据本发明的这方面和所有方面,可将每一种嵌合生物合成酶的两个或更多个拷贝(例如二、三、四、五、六、七、八、九、十或更多个分子)固定到骨架亚基上。举例来说,在一些实施例中,骨架亚基已将以下固定在其上:a)第一嵌合生物合成酶的一个分子(拷贝),和
b)第二嵌合生物合成酶的一个分子。在其它实施例中,骨架亚基已将以下固定在其上:a)第
一嵌合生物合成酶的一个分子,和b)第二嵌合生物合成酶的两个或更多个分子(例如二、
三、四、五、六或更多个分子)。因此,生物学路径中的任何指定蛋白质与所述路径中的任何其它蛋白质的比率可变化。仅借助于实例,第一嵌合生物学路径蛋白质与第二嵌合生物学
路径蛋白质的比率可从约0.1:10变化到约10:0.1,例如从约0.1:10到约0.5:10,从约0.5:
10到约1.0:10,从约1.0:10到约2:10,从约2:10到约5:10,从约5:10到约7:10,从约7:10到
约10:10,从约10:7到约10:5,从约10:5到约10:2,从约10:2到约10:1,从约10:1到约10:0.5或从约10:0.5到约10:1。
[0566] 在一些实施例中,将至少三种嵌合生物合成酶固定到合成核酸骨架上以包括骨架亚基。根据本发明的这个实施例,第一嵌合生物合成酶产生第一产物,所述第一产物为第二
嵌合生物合成酶的底物,且第二嵌合生物学路径蛋白质产生第二产物,所述第二产物为第
三嵌合生物合成酶的底物。在这些实施例中,骨架亚基以按从骨架的3′→5′或5′→3′的次序将以下固定在其上:a)第一嵌合生物合成酶,b)第二嵌合生物合成酶,和c)第三生物合成
酶。骨架单元可在核酸构筑体中重复两次或更多次,如上文所描述。
[0567] 在本发明的另一实施例中,将至少四种嵌合生物合成酶固定到核酸骨架上。在本发明的另一实施例中,将至少五种嵌合生物合成酶固定到核酸骨架上。根据这些实例将显
而易见的是,可将第六、第七、第八、第九、第十种等嵌合生物合成酶固定到核酸骨架上,将嵌合蛋白按其在路径中起作用的次序空间固定,和可以一、二、三、四、五、六七、八、九、十或更多个拷贝(或分子)将每种蛋白质固定到骨架上。
[0568] 在一些实施例中,本公开教示骨架核酸内的每一个DNA结合位点的间距。根据本发明的这个方面,两个或更多个DNA结合位点彼此相邻地位于骨架亚基内,彼此串联连接或由
至少一个间隔子核苷酸隔开。两个或更多个DNA结合位点可彼此间隔2、3、4、5、6、7、8、9、10、
11、12 13、14、15、16、17、18、19、20、25、30、35、40、45、50或更多个间隔子核苷酸。在一个骨架单元内的不同DNA结合位点之间的间距可变化(即,第一与第二DNA结合位点之间的间距
可不同于第二与第三DNA结合位点之间的间距)。骨架亚基内的不同DNA结合位点之间的最
优间距将依据生物合成酶需求和重新构筑的生物学路径而变化,且应进行优化以达到最优
生物学路径生产力。
[0569] 肽骨架
[0570] 在一些实施例中,本公开的骨架方法也可应用于细胞内的蛋白质/结构骨架。在一些实施例中,本公开教示应用在第20110008829号美国公开专利申请案中公开的方法,所述
文献以全文引用的方式并入本文中。
[0571] 结合蛋白质的嵌合蛋白
[0572] 在一些实施例中,本公开教示嵌合蛋白,其包括系栓到能够与募集肽结合的一或多个蛋白质结合结构域的所选择生物合成酶。根据这些实施例,预期,嵌合生物合成酶将通
过与含于骨架肽内的募集肽相互作用,而被募集到骨架肽。
[0573] 在一些实施例中,将生物合成酶和蛋白质结合结构域共价连接。在一些实施例中,将生物合成酶与蛋白质结合结构域翻译地融合。因此,在一些实施例中,通过将蛋白质结合
结构域偶联到生物合成路径蛋白质的氨基端、羧基端或所述蛋白质内的内部位点,来形成
嵌合生物合成酶。所属领域的技术人员应认识到,需要确保添加蛋白质结合结构域不大体
上降低生物合成酶的活性。
[0574] 在本公开的一些实施例中,通过如本公开的先前部分中所描述的短多肽连接子序列,将生物合成酶与其蛋白质结合结构域偶联。
[0575] 各种蛋白质结合结构域(PBD)以及其对应募集肽序列是所属领域中已知的,且适用于本发明的系统和方法中。以下为适合的PBD的非限制性说明性论述。
[0576] SH3
[0577] 适合的PBD包含SH3结构域。SH3结构域包含I类SH3结构域;II类SH3结构域;和非常规的SH3结构域。SH3结构域的氨基酸序列是所属领域中已知的。参见例如:提供于基因库登
录号NP.sub.--058431(智人Crk蛋白)中的氨基酸序列的氨基酸136-189;提供于基因库登
录号AAH31149(小家鼠Crk蛋白)中的氨基酸序列的氨基酸136-189;和提供于基因库登录号
P27986(智人磷脂酰肌醇3-激酶的p85亚基)中的氨基酸序列的氨基酸4-77。
[0578] 在一些实施例中,SH3结构域是I类SH3结构域,且包括与氨基酸序列EGYQYRA LYDYKKEREE DIDLHLGDIL TVNKGSLVAL GFSDGQEARP EEIGWLNGYN ETTGERGDFP GTYVEYI(SEQ 
ID NO.44)具有至少约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、
86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%氨基酸序列相似性(包含其间的所有范围和子范围)的氨基酸序列。
[0579] 在一些实施例中,SH3结构域是II类SH3结构域,且包括与氨基酸序列YVRALFDFNGNDEEDLPFKKGDILRIRDKPEEQWWNAEDSEGKRGMIPVPYVEK(SEQ ID NO.45)具有至少约75%、
76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、
91%、92%、93%、94%、95%、96%、97%、98%、99%或100%氨基酸序列相似性的氨基酸序列。作为一个非限制性实例,SH3结构域包括氨基酸序列MAEYVRALFDFNGNDEEDLPFKKGDILRI
RDKPEEQWWNAEDSEGKRGMIPVPYVEKY(SEQ ID NO.46),包含其间的所有范围和子范围。
[0580] SH3结构域结合形成左旋的聚脯氨酸II型螺旋的富含脯氨酸的肽,其中这类肽包括极少共有序列Pro-X-X-Pro。在一些实施例中,每一个Pro前存在脂族残基。在一些实施例
中,募集肽是SH3结构域配位体。SH3结构域结合形成左旋的聚脯氨酸II型螺旋的富含脯氨
酸的肽,其中这类肽包括极少共有序列Pro-X-X-Pro。在一些实施例中,每一个Pro前存在脂
族残基。包括SH3结构域配位体的肽的氨基酸序列的示例性非限制性实例包含:RPLPVAP
(SEQ ID NO.47;由I类SH3结构域结合);PPPALPPKRRRPG(SEQ ID NO.48);和PPPALPPKKR
(SEQ ID NO.49;由II类SH3结构域结合)。
[0581] PDZ
[0582] 适合的PBD包含PDZ结构域。PDZ结构域的氨基酸序列是所属领域中已知的。参见例如,提供于基因库登录号AAC52113(智人突触后密度蛋白质95)中的氨基酸序列的氨基酸
108-191、氨基酸201-287和氨基酸354-434;和提供于基因库登录号NP__033254(小家鼠互
生蛋白)中的氨基酸序列的氨基酸80-161。
[0583] 在一些实施例中,适合的PDZ结构域包括与氨基酸序列EITLERGNSGLGFSIAGGTDNPHIGDDPSIFIT KIIPGGAAAQDGRLRVNDSILFVNEVDVREVTHSAAVEALKEAGSIVRLYV(SEQ ID NO.50)
具有至少约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、
88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%氨基酸序列相似性(包含其间的所有范围和子范围)的氨基酸序列。
[0584] 在 一 些 实 施 例 中 ,适 合 的 P D Z 结 构 域 包 括 与 氨 基 酸 序 列VMEIKLIKGPKGLGFSIAGGVGNQHIPGDN SIYVTKIIEGGAAHKDGRLQ IGDKILAVNSVGLEDVMHEDAVAA
LKNTYDVVYLKVA(SEQ ID NO.51)具有至少约75%、76%、77%、78%、79%、80%、81%、82%、
83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、
98%、99%或100%氨基酸序列相似性(包含其间的所有范围和子范围)的氨基酸序列。
[0585] 在一些实施例中,适合的PDZ结构域包括与氨基酸序列RIVIHRGSTGLGFNIVGGEDGEGIFISFILAGGPA DLSGELRKGDQILSVNGVDLRNASHEQAAIALKNAGQTVTIIAQ(SEQ ID NO.52)具有
至少约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、
89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%氨基酸序列相似性(包含其间的所有范围和子范围)的氨基酸序列。
[0586] 在 一 些 实 施 例 中 ,适 合 的 P D Z 结 构 域 包 括 与 氨 基 酸 序 列RRVTVRKADAGGLGISIKGGRENKMPILISK  IFKGLAADQTEALFVGDAILSVNGED 
LSSATHDEAVQALKKTGKEVVLEVK(SEQ ID NO.53)具有至少约75%、76%、77%、78%、79%、
80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、
95%、96%、97%、98%、99%或100%氨基酸序列相似性(包含其间的所有范围和子范围)的氨基酸序列。举例来说,PDZ结构域可包括氨基酸序列MLQRRRVTVRKADAGGLGISIKGGRENKMPI
LISKIFKGLAADQTEALFVGDAILSVNGEDLSS ATHDEAVQALKKTGKEVVLEVKYMKEVSPYFKGS(SEQ ID 
NO.54)。
[0587] 在一些实施例中,募集肽是PDZ结构域配位体。PDZ结构域与目标蛋白质的C端4-5个残基结合。在一些实施例中,共有PDZ结构域配位体在羧基端处包括疏水性残基,例如Val
或Ile。包括PDZ结构域配位体的肽的氨基酸序列的示例性非限制性实例包含:IESDV(SEQ 
ID NO.55);VKESLV(SEQ ID NO.56);GVKESLV(SEQ ID NO.57);GVKQSLL(SEQ ID NO.58);
GVKESGA(SEQ ID NO.59);YVKESLV(SEQ ID NO.60);和VETDV(SEQ ID NO.61)。
[0588] GBD
[0589] 适合的PBD包含GTP酶结合结构域(GBD),在所属领域中也称为CRIB(Cdc42/Rac交互结合)基序。在一些实施例中,GBD结合Cdc42p状和/或Rho状小GTP酶。GBD的氨基酸序列是
所属领域中已知的。参见例如,提供于基因库登录号NP.sub.--001103835(褐家鼠威-奥二
氏综合征(Wiskott-Aldrich syndrome)状蛋白质(WASP))中的氨基酸序列的氨基酸198-
240;提供于基因库登录号Q13177(智人PAK-2)中的氨基酸序列的氨基酸69-112;和提供于
基因库登录号P35465(褐家鼠PAK-1)中的氨基酸序列的氨基酸70-105。还参见呈现于加勒
德(Garrard)等人(2003),《欧洲分子生物学杂志(EMBO J)》22:1125的图3A中的胺基酸序列
PAK(75-111)、ACK(504-549)和WASP(232-274)。还参见呈现于毕秀普(Bishop)和霍尔
(Hall)(2000),《生物化学杂志(Biochem.J.)》348:241的图1A中的胺基酸序列ACK(505-
531)、WASP(236-258)、PAK1(70-94)、PAK2(71-91)、PAK-4(6-30)。
[0590] 在一些实施例中,适合的GBD包括与氨基酸序列ADI GTPSNFQHIGHVGWDPNTGF DLNNLDPELK NLFDMCGISE(SEQ ID NO.62)具有至少约75%、76%、77%、78%、79%、80%、
81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、
96%、97%、98%、99%或100%氨基酸序列相似性(和其间的所有范围和子范围)的氨基酸
序列。
[0591] 在一些实施例中,适合的GBD包括与氨基酸序列KERPEISLPSDFEHTIHVGFDAVTGEFTGMPEQWAR(SEQ ID NO.63)具有至少约75%、76%、77%、78%、79%、80%、81%、82%、83%、
84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、
99%或100%氨基酸序列相似性(和其间的所有范围和子范围)的氨基酸序列。
[0592] 在一些实施例中,适合的GBD包括与氨基酸序列MTKADIGTPSNFQHIGHVGWDPNTGFDLNNLDPELKNLFDMCGISEAQLKDRETSKVIYDFIEKTGGVEAVKNELRRQAP(SEQ IDNO.64)具有至少约
75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、
90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%氨基酸序列相似性(和其间的所有范围和子范围)的氨基酸序列。
[0593] 在一些实施例中,募集肽是GBD配位体。示例性非限制性GBD配位体包括氨基酸序列LVGALMHVMQKRSRAIHSSDEGEDQAGDEDED(SEQ ID NO.65)。
[0594] 亮氨酸拉链肽
[0595] 适合的PBD包含亮氨酸拉链肽。在一些实施例中,亮氨酸拉链肽是通过卷曲螺旋结构域相互作用的肽。亮氨酸拉链结构域的氨基酸序列是所属领域中已知的。亮氨酸拉链肽
包含EE12RR345L亮氨酸拉链肽;RR12EE354L亮氨酸拉链肽等等。
[0596] 亮氨酸拉链肽的氨基酸序列的实例是氨基酸序列为LEIEAAFLERENTALETRVAELRQRVQRLR NRVSQYRTRYGPLGGGK(SEQ ID NO.66)的EE12RR345L亮
氨酸拉链肽。
[0597] 在一些实施例中,亮氨酸拉链肽包括与氨基酸序列LEIEAA FLERENTALETRVAELRQRVQRLRNRVSQYRTRYGPLGGGK(SEQ ID NO.67)具有至少约75%、76%、77%、78%、79%、80%、
81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、
96%、97%、98%、99%或100%氨基酸序列相似性(和其间的所有范围和子范围)的氨基酸
序列。这种亮氨酸拉链肽可充当PBD或充当募集肽。
[0598] 亮氨酸拉链肽的氨基酸序列的另一非限制性实例是氨基酸序列为LEIRAAFLRQRNTALRT EVAELEQEVQRLENEVSQYETRYGPLGGGK(SEQ ID NO.68)的RR12EE345L亮
氨酸拉链肽。
[0599] 以上描述已描述嵌合生物合成蛋白质的生产,所述嵌合生物合成蛋白质包括被设计成靶向(与其结合)位于骨架多肽上的一或多种募集肽的蛋白质结合结构域。所属领域的
技术人员应了解这种排列上的其它可兼容变异。举例来说,在一些实施例中,本公开教示嵌
合生物合成蛋白质的生产,所述嵌合生物合成蛋白质包括由位于骨架多肽上的蛋白质结合
结构域靶向的募集肽。在其它实施例中,将蛋白质结合结构域和募集肽各自并入两种或更
多种嵌合生物合成蛋白质中,使得嵌合蛋白形成复合物(例如二聚体或异二聚体)。复合物
形成的一个说明性实例是使用置于嵌合生物合成蛋白质上的可兼容亮氨酸拉链结构域,使
得两种或更多种嵌合生物合成蛋白质能够通过亮氨酸拉链结构域形成复合物。
[0600] 骨架多肽
[0601] 在一些实施例中,本公开教示一种将生物合成路径酶组织成功能复合物的骨架多肽。在一些实施例中,本公开的骨架多肽包括两种或更多种募集肽。也就是说,在一些实施
例中,本公开的骨架多肽能够募集两种或更多种嵌合生物合成蛋白质。
[0602] 在一些实施例中,本公开的骨架多肽是引入(例如通过转化编码骨架多肽的DNA序列或直接引入肽)到宿主细胞中的外源肽。在其它实施例中,骨架多肽是宿主细胞内天然存
在的结构。也就是说,在一些实施例中,骨架多肽是细胞器或膜(例如内质网或高尔基体)。
因此,在一些实施例中,本公开的骨架多肽包含由多于一种肽序列构成的宿主细胞结构。
[0603] 在一些实施例中,将骨架多肽内的募集肽序列进行组织,以便优化其酶正被募集的目标生物合成路径。在一些实施例中,对骨架多肽的组织类似于上文关于DNA骨架所描述
的组织。因此,在一些实施例中,骨架多肽含有多组募集肽,以调节各种嵌合生物合成蛋白
质的次序和比率。
[0604] 细胞培养和发酵
[0605] 本公开的细胞可在视需要针对任何所期望的生物合成反应或选择进行修改的常规营养培养基中培养。在一些实施例中,本公开教示在诱导型培养基中培养以用于活化启
动子。在一些实施例中,本公开教示具有选择剂的培养基,所述选择剂包括转化体选择剂
(例如抗生素),或选择适合于在抑制条件(例如高乙醇条件)下生长的生物体。在一些实施
例中,本公开教示使细胞培养物在针对细胞生长优化的培养基中生长。在其它实施例中,本
公开教示使细胞培养物在针对产物产量优化的培养基中生长。在一些实施例中,本公开教
示使培养物在培养基中生长,所述培养基能够诱导细胞生长且还含有最终产物产生所需的
前体(例如高水平的糖用于产生乙醇)。
[0606] 培养条件(如温度、pH和其类似条件)是适合与选用于表达的宿主细胞一起使用的那些条件,且对于所属领域的技术人员将是显而易见的。如所提及,对于许多细胞,包含细
菌、植物、动物(包含哺乳动物)和古细菌来源的细胞的培养和产生的许多参考文献是可获
得的。参见例如萨布鲁克(Sambrook),奥斯贝(Ausubel)(所有均见上文)以及伯杰
(Berger),分子克隆技术指南,酶学方法(Guide to Molecular Cloning Techniques,
Methods in Enzymology),第152卷,学术出版社有限公司(Academic Press,Inc.),加利福
尼亚州圣地亚哥;和弗瑞旭尼(Freshney)(1994),动物细胞的培养:基本技术手册(Culture of Animal Cells,a Manual of Basic Technique),第三版,威立-利斯(Wiley-Liss),纽
约和其中引用的参考文献;多伊尔(Doyle)和格里菲思(Griffiths)(1997),哺乳动物细胞
培养:基本技术(Mammalian Cell Culture:Essential Techniques),约翰·威利父子出版
公司(John Wiley and Sons),纽约;忽玛逊(Humason)(1979),动物组织技术(Animal 
Tissue Techniques),第四版,W.H.弗里曼公司(W.H.Freeman and Company);和里奇埃德
尔(Ricciardelle)等人,(1989),活体外细胞(In Vitro Cell),发育生物学(Dev.Biol.)
25:1016-1024,所有文献以引用的方式并入本文中。关于植物细胞培养和再生,参见派恩
(Payne)等人(1992),液体系统中的植物细胞和组织培养(Plant Cell and Tissue 
Culture in Liquid Systems),约翰·威利父子公司(John Wiley&Sons,Inc.),纽约州纽
约市;冈堡(Gamborg)和菲利浦(Phillips)(编)(1995),植物细胞、组织和器官培养:基本方法施普林格实验室手册(Plant Cell,Tissue and Organ Culture;Fundamental Methods 
Springer Lab Manual),施普林格出版社(Springer-Verlag)(柏林海德堡,纽约);琼斯
(Jones)编(1984),植物基因转移和表达方案(Plant Gene Transfer and Expression 
Protocols),胡马纳出版社(Humana Press),新泽西州特图瓦市(Totowa,N.J.),以及植物
分子生物学(Plant Molecular Biology)(1993)R.R.D.克洛(R.R.D.Croy)编,生物科学出
版社(Bios Scientific Publishers),英国牛津(Oxford,U.K.)ISBN 0 12 198370 6,所有
文献均以引用的方式并入本文中。细胞培养基一般性地阐述于阿特拉斯(Atlas)和帕克斯
(Parks)(编),微生物培养基手册(The Handbook of Microbiological Media)(1993)CRC
出版社,佛罗里达州波卡拉顿(Boca Raton,Fla.),所述文献以引用的方式并入本文中。关
于细胞培养的额外信息见于可获得的商业文献中,如来自西格玛-奥德里奇公司(Sigma-
Aldrich,Inc)(密苏里州圣路易斯(St Louis,Mo.))的生命科学研究细胞培养目录(Life 
Science Research Cell Culture Catalogue)(“西格玛-LSRCCC”),以及例如也来自西格
玛-奥德里奇公司(密苏里州圣路易斯)的植物培养目录和增刊(The Plant Culture 
Catalogue and supplement)(“西格玛-PCCS”),所有文献以引用的方式并入本文中。
[0607] 待用的培养基必须以适合的方式满足相应菌株的需求。用于各种微生物体的培养基的描述存在于美国细菌学学会(American Society for Bacteriology)(美国华盛顿哥
伦比亚特区,1981)的“通用细菌学方法手册(Manual  of Methods for General 
Bacteriology)”中。
[0608] 本公开另外提供一种用于发酵制备所关注产物的方法,其包括以下步骤:a)将根据本公开的微生物体在适合培养基中培养,从而产生发酵培养液;和b)将a)的发酵培养液
中和/或微生物体细胞中的所关注产物浓缩。
[0609] 在一些实施例中,本公开教示,出于产生所期望的有机化合物的目的,所产生的微生物体可以如例如WO 05/021772中所描述连续地培养,或用分批法(分批培育)或分批进料
或重复分批进料法不连续培养。关于已知培养方法的通用性质的概述可获得于希米尔
(Chmiel)的教科书(《生物技术进展1:生物过程技术中的引入(Bioprozeβtechnik.1:Einfü
hrung in die Bioverfahrenstechnik)》(古斯塔夫·费希尔出版社(Gustav Fischer 
Verlag),斯图加特(Stuttgart),1991))或斯托哈思(Storhas)的教科书(《生物反应器和外
围设施(Bioreaktoren and periphere Einrichtungen)》(维尤戈出版社(Vieweg 
Verlag),不伦瑞克(Braunschweig)/威斯巴登(Wiesbaden),1994))。
[0610] 在一些实施例中,本公开的细胞是在分批或连续发酵条件下生长。
[0611] 经典的分批发酵是一种封闭系统,其中在发酵开始时设定培养基的组成且在发酵期间不进行人工改变。分批系统的变化形式是分批进料发酵,其也适用于本公开中。在这种
变化形式中,随着发酵进展,按增量添加底物。当代谢物抑制可能会抑制细胞代谢时且在期
望培养基中的底物的量有限的情况下,分批进料系统是适用的。分批和分批进料发酵是所
属领域中常见且众所周知的。
[0612] 连续发酵是一种系统,其中将成分确定的发酵培养基连续地添加到生物反应器中且同时去除等量的改良性培养基以供处理,且收获所期望的所关注生物分子产物。在一些
实施例中,连续发酵通常使培养物维持在恒定的高密度下,其中细胞主要处于对数生长期。
在一些实施例中,连续发酵通常使培养物维持在稳定或对数后/稳定期生长。连续发酵系统
力求维持稳态生长条件。
[0613] 连续发酵工艺中用于调节营养物和生长因子的方法以及使产物形成速率达到最大的技术是在工业微生物学领域中所熟知的。
[0614] 举例来说,本公开的培养物的碳源的非限制性列表包含糖和碳水化合物,例如葡萄糖、蔗糖、乳糖、果糖、麦芽糖、糖蜜、来自甜菜或甘蔗处理的含蔗糖溶液、淀粉、淀粉水解产物和纤维素;油和脂肪,例如大豆油、葵花油、花生油和椰子脂肪;脂肪酸,例如棕榈酸、硬脂酸和亚油酸;醇,例如甘油、甲醇和乙醇;以及有机酸,例如乙酸或乳酸。
[0615] 用于本公开的培养物的氮源的非限制性列表包含含有机氮的化合物,如蛋白胨、酵母提取物、肉提取物、麦芽提取物、玉米浆、大豆粉和尿素;或无机化合物,如硫酸铵、氯化铵、磷酸铵、碳酸铵和硝酸铵。氮源可以个别地使用或作为混合物使用。
[0616] 用于本公开的培养物的可能磷源的非限制性列表包含磷酸、磷酸二氢或磷酸氢二钾或对应含钠盐。
[0617] 培养基可以另外包括生长所需的盐,例如呈氯化物形式的盐,或金属(例如钠、钾、镁、钙和)硫酸盐,例如硫酸镁或硫酸铁。
[0618] 最后,除上述物质之外,可以使用基本生长因子,如氨基酸,例如高丝氨酸和维生素,例如硫胺、生物素或泛酸。
[0619] 在一些实施例中,培养物的pH可以利用任何酸或碱或缓冲盐(包含(但不限于)氢氧化钠、氢氧化钾、氨或氨水);或酸性化合物(如磷酸或硫酸)以适合方式来控制。在一些实施例中,pH通常调节到6.0到8.5的值,优选6.5到8。
[0620] 在一些实施例中,本公开的培养物可包含消泡剂,例如脂肪酸聚二醇酯。在一些实施例中,本公开的培养物通过添加适合的选择性物质(例如抗生素)来调节以使培养物中的
质粒稳定。
[0621] 在一些实施例中,在好氧条件下进行培养。为了维持这些条件,将氧气或含氧气气体混合物(例如空气)引入到培养物中。同样可以使用富含过氧化氢的液体。适当时,在高压
下,例如在0.03到0.2MPa的高压下进行发酵。培养物的温度通常是20℃到45℃且优选25℃
到40℃,特别优选30℃到37℃。在分批或分批进料工艺中,优选持续培养直到已经形成足以
回收的量的所关注的所要产物(例如有机化合物)为止。这个目标通常可以在10小时到160
小时内实现。在连续工艺中,较长培育时间是可能的。微生物的活性使得所关注的产物在发
酵培养基中和/或在所述微生物体的细胞中聚集(积累)。
[0622] 在一些实施例中,在厌氧条件下进行培养。
[0623] 筛选
[0624] 在一些实施例中,本公开教示高通量初始筛选。在其它实施例中,本公开还教示基于稳定槽罐的对性能数据的验证(参见图6B)。
[0625] 在一些实施例中,高通量筛选过程被设计成预测菌株在生物反应器中的性能。如先前所描述,选择适合于生物体且反映生物反应器条件的培养条件。挑选个别群落且转移
到96孔板中且培育适合的时间量。随后将细胞转移到新的96孔板中以进行额外的种子培养
或产生培养物。持续不同长度的时间培育培养物,其中可以进行多次测量。这些测量可包含
预测菌株在生物反应器中的性能的产物、生物质或其它特征的测量。使用高通量培养结果
预测生物反应器性能。
[0626] 在一些实施例中,使用基于槽罐的性能验证确认利用高通量筛选所分离的菌株的性能。使用实验室规模的发酵反应器(例如本公开的表5中所公开的反应器)筛选候选菌株,
以获得相关菌株性能特征,如生产力或产量。
[0627] 产物回收和量化
[0628] 用于对所关注产物的产生进行筛选的方法是所属领域的技术人员所知的且在本说明书中论述。当筛选本公开菌株时,可以使用这类方法。
[0629] 在一些实施例中,本公开教示改进菌株的方法,所述菌株被设计成产生非分泌性胞内产物。举例来说,本公开教示提高细胞培养物的稳健性、产量、效率或整体合意性的方
法,所述细胞培养物产生胞内酶、油、药品或其它有价值的小分子或肽。非分泌性胞内产物
的回收或分离可以通过所属领域中所熟知的溶解和回收技术(包含本文所描述的那些技
术)来实现。
[0630] 举例来说,在一些实施例中,本公开的细胞可以利用离心、过滤、沉降或其它方法收获。所收获的细胞接着利用任何方便的方法破碎,包含冻融循环、超声处理、机械破碎或
使用细胞溶解剂或所属领域的技术人员熟知的其它方法。
[0631] 所得的所关注产物(例如多肽)可以利用所属领域中已知的多种方法中的任一种来回收/分离且任选地加以纯化。举例来说,可以利用常规程序从营养物培养基中分离出产
物多肽,所述常规程序包含(但不限于):离心、过滤、萃取、喷雾干燥蒸发、色谱(例如离子交换、亲和、疏水性相互作用、色谱焦聚和尺寸排阻)或沉淀。最后,可以在最终纯化步骤中使用高效液相色谱(HPLC)。(参见例如,胞内蛋白质的纯化(Purification  of 
intracellular protein),如帕瑞(Parry)等人,2001,《生物化学杂志(Biochem.J.)》353:
117和洪(Hong)等人,2007,《应用微生物学和生物技术(Appl.Microbiol.Biotechnol.)》
73:1331中所描述,两个文献均以引用的方式并入本文中)。
[0632] 除上文提及的参考文献之外,多种纯化方法是所属领域中众所周知的,包含例如以下文献中所阐述的那些纯化方法:桑德纳(Sandana)(1997)蛋白质的生物分离
(Bioseparation of Proteins),学术出版社有限公司(Academic Press,Inc.);博拉格
(Bollag)等人(1996)蛋白质方法(Protein Methods)第2版,威立-利斯,纽约;沃克
(Walker)(1996)蛋白质方案手册(The Protein Protocols Handbook),胡马纳出版社,新
泽西州;哈里斯(Harris)和安格尔(Angal)(1990)蛋白质纯化应用:实用方法(Protein 
Purification Applications:A Practical Approach),牛津IRL出版社,英国牛津;哈里斯
和安格尔,蛋白质纯化方法:实用方法(Protein Purification Methods:A Practical 
Approach),牛津IRL出版社,英国牛津;斯科普斯(Scopes)(1993)蛋白质纯化:原理和实践
(Protein Purification:Principles and Practice)第3版,斯普林格出版社,纽约;詹森
(Janson)和赖登(Ryden)(1998)蛋白质纯化:原理、高解析度方法和应用(Protein 
Purification:Principles,High Resolution Methods and Applications),第二版,威
立-VCH(Wiley-VCH),纽约;以及沃克(Walker)(1998)CD-ROM的蛋白质方案(Protein 
Protocols on CD-ROM),胡马纳出版社,新泽西州,所有文献以引用的方式并入本文中。
[0633] 在一些实施例中,本公开教示改进菌株的方法,所述菌株被设计成产生分泌性产物。举例来说,本公开教示提高细胞培养物的稳定性、产量、效率或整体合意性的方法,所述细胞培养物产生有价值的小分子或肽。
[0634] 在一些实施例中,免疫方法可用于检测和/或纯化由本公开的细胞产生的分泌性或非分泌性产物。在一种实例方法中,将使用常规方法针对产物分子(例如针对胰岛素多肽
或其免疫原性片段)产生的抗体固定于珠粒上,在使内切葡聚糖酶结合的条件下与细胞培
养基混合,且沉淀。在一些实施例中,本公开教示酶联免疫吸附分析(ELISA)的使用。
[0635] 在其它相关实施例中,使用如以下文献中所公开的免疫色谱法:第5,591,645号美国专利、第4,855,240号美国专利、第4,435,504号美国专利、第4,980,298号美国专利,以及赛旺佩克(Se-Hwan Paek)等人,“一步免疫色谱快速分析方法的开发(Development of 
rapid One-Step Immunochromatographic assay,Methods)”,22,53-60,2000),所述文献各自以引用的方式并入本文中。通用的免疫色谱法通过使用两种抗体来检测样品。第一抗
体存在于测试溶液中或存在于由多孔膜制成的呈大致矩形形状的测试片末端的一部分处,
在所述部分处滴入测试溶液。这种抗体用胶乳颗粒或金胶体颗粒标记(这种抗体在下文中
称为已标记的抗体)。当所滴入的测试溶液包含待检测的样品时,已标记的抗体识别样品以
便与样品结合。样品与已标记的抗体的复合物通过毛细作用流向吸收体,所述吸收体由滤
纸制成且连接到与已包含已标记的抗体的末端相对的末端。在流动期间,样品与已标记的
抗体的复合物被存在于多孔膜中部的第二抗体(其在下文称为轻敲抗体(tapping 
antibody))识别且捕获,且因此,复合物以可见信号的形式出现在多孔膜的检测部件上且
被检测到。
[0636] 在一些实施例中,本公开的筛选方法是基于光度检测技术(吸收、荧光)。举例来说,在一些实施例中,检测可以基于荧光团检测剂(如与抗体结合的GFP)的存在。在其它实
施例中,光度检测可以基于来自细胞培养的所期望产物的积累。在一些实施例中,产物可以
通过培养物的UV或来自所述培养物的提取物来检测。
[0637] 所属领域中的技术人员将认识到,本公开的方法可与产生任何期望的所关注生物分子产物的宿主细胞兼容。下表2呈现本公开范围内所包含的产物类别、生物分子和宿主细
胞的非限制性列表。这些实例是出于说明性目的而提供,且不意图以任何方式限制本发明
所公开的技术的适用性。
[0638] 表2.本公开的所关注宿主细胞和产物的非限制性列表.
[0639]
[0640]
[0641] 所关注的异源基因
[0642] 在一个实施例中,本文提供用于在微生物宿主细胞中表达异源基因的方法。可使用本文所提供的和/或所属领域中已知的方法,将异源基因引入到微生物宿主细胞中,使得
微生物宿主细胞使用异源基因来产生所关注产物。在一个实施例中,微生物宿主细胞是大
肠杆菌菌株。大肠杆菌菌株可以是所属领域中已知和/或本文提供的任何大肠杆菌菌株。异
源基因可以是所述基因的野生型形式或其突变体。可将异源基因与以下可操作地连接:启
动子、终止子、蛋白质溶解性标签、蛋白质降解标签或其任何组合。可使用本公开中所提供
的启动子交换、终止子交换、溶解性标签交换和/或降解交换方法,来实现将异源基因与启
动子、终止子、蛋白质溶解性标签或蛋白质降解标签可操作地连接。
[0643] 在一个实施例中,将异源基因与选自表1的启动子可操作地连接。在一个实施例中,将异源基因与60-90bp嵌合合成启动子序列可操作地连接,其中嵌合合成启动子由以下
组成:λ噬菌体pR启动子的远端部分;λ噬菌体pL和pR启动子的可变-35和-10区;λ噬菌体pL和pR启动子的核心部分;和λ噬菌体pR启动子的5'UTR/核糖体结合位点(RBS)部分或大肠杆菌
acs基因的启动子的5'UTR/核糖体结合位点(RBS)部分。用于嵌合合成启动子中的以下的核
酸序列可选自见于表1.5中的核酸序列:λ噬菌体pR启动子的远端部分、λ噬菌体pL和pR启动子的可变-35和-10区、λ噬菌体pL和pR启动子的核心部分和λ噬菌体pR启动子的5'UTR/核糖
体结合位点(RBS)部分或大肠杆菌acs基因的启动子的所述5'UTR/核糖体结合位点RBS部
分。在一个实施例中,可将异源基因与嵌合合成启动子可操作地连接,所述嵌合合成启动子
具有选自见于表1.4中的SEQ ID NO.132-207的核酸序列。
[0644] 在一个实施例中,将异源基因与选自表1.2的终止子可操作地连接。在另一实施例中,将异源基因与选自表19的终止子序列可操作地连接。
[0645] 在一个实施例中,将异源基因与选自表17的溶解性标签可操作地连接。
[0646] 在一个实施例中,将异源基因与选自表18的降解标签序列可操作地连接。
[0647] 除以上实施例以外,异源基因可以是要求产生见于表2中的所关注产物的任一种基因,或所属领域中已知可表述为在微生物宿主细胞(例如大肠杆菌)中产生所关注产物的
异源基因的任何基因。
[0648] 在一个实施例中,异源基因是为赖氨酸生物合成路径的一部分的基因,如图19所示。除这个实施例以外,异源基因可选自以下:asd基因、ask基因、hom基因、dapA基因、dapB基因、dapD基因、ddh基因、argD基因、dapE基因、dapF基因、lysA基因、lysE基因、zwf基因、pgi基因、ktk基因、fbp基因、ppc基因、pck基因、ddx基因、pyc基因或icd基因。在一个实施例中,将为如本文所提供的赖氨酸路径的一部分的异源基因与嵌合合成启动子可操作地连
接,所述嵌合合成启动子具有选自SEQ ID NO.132-207的核酸序列。
[0649] 在一个实施例中,异源基因是为番茄红素生物合成路径的一部分的基因,例如如图59所说明。除这个实施例以外,异源基因可选自以下:dxs基因、ispC基因、ispE基因、ispD基因、ispF基因、ispG基因、ispH基因、idi基因、ispA基因、ispB基因、crtE基因、crtB基因、crtI基因、crtY基因、ymgA基因、dxr基因、elbA基因、gdhA基因、appY基因、elbB基因或ymgB基因。在一个实施例中,将为如本文所提供的番茄红素路径的一部分的异源基因与嵌合合
成启动子可操作地连接,所述嵌合合成启动子具有选自SEQ ID NO.132-207的核酸序列。
[0650] 在一个实施例中,异源基因是编码生物药剂的基因或是用于产生生物药剂的路径中的基因。在一个实施例中,微生物宿主细胞是大肠杆菌,且生物药剂是已显示待在大肠杆
菌中产生的任何生物药剂。生物药剂可选自以下:优泌林(rh胰岛素)、intronA(干扰素α
2b)、罗扰素(干扰素α2a)、优猛茁(索马托品rh生长激素)、优保津(非格司亭)、德塔扰素(干扰素β-1b)、优泌乐(快速作用胰岛素)、瑞普森(瑞替普酶)、干复津(干扰素阿尔法康-1)、升糖素、贝若曼(他索纳明)、恩塔克(地尼白介素)、兰德仕(长效甘精胰岛素)、肯瑞特(阿那白滞素)、纳翠可(奈西立肽)、索玛维特(派格索曼)、降血钙素(重组鲑降血钙素)、乐舒晴(兰
尼珠单抗)、普瑞他(人类甲状旁腺激素)、可瑞斯谢(聚乙二醇化的rh尿酸盐氧化酶)、尼维
斯替姆(非格司亭,rhGCSF)、沃瑞夏兹(谷卡皮酶)或匹瑞斯(甲状旁腺激素)。在一个实施例
中,将编码生物药剂的异源基因或产生如本文所提供的生物药剂的路径中的基因与嵌合合
成启动子可操作地连接,所述嵌合合成启动子具有选自SEQ ID NO.132-207的核酸序列。
[0651] 选择标准和目标
[0652] 应用于本公开方法的选择标准将根据菌株改进程序的特定目标而变化。本公开可以经调适以满足任何程序目标。举例来说,在一些实施例中,程序目标可以是使单次分批反
应产量达到最大而无即时时间限制。在其它实施例中,程序目标可以是再平衡生物合成产
量以产生特定产物,或产生特定比率的产物。在其它实施例中,程序目标可以是修饰产物的
化学结构,如延长聚合物的碳链。在一些实施例中,程序目标可以是改进性能特征,如产量、效价、生产力、副产物消除、对过程偏移的容许度、最优生长温度和生长速率。在一些实施例中,程序目标是改进宿主性能,如通过微生物所产生的所关注产物的体积生产力、比生产
力、产量或滴度所测量。
[0653] 在其它实施例中,就按输入量计的最终产物产量(例如每磅蔗糖所产生的乙醇的总量)而言,程序目标可以是优化商业菌株的合成效率。在其它实施例中,程序目标可以是
优化合成速度,如例如就分批完成率或连续培养系统的生产率所测量。在其它实施例中,程
序目标可以是增强菌株对特定噬菌体的抗性,或以其它方式增强培养条件下的菌株活力/
稳定性。
[0654] 在一些实施例中,菌株改进项目可以接受多于一个目标。在一些实施例中,菌株项目的目标可以取决于质量、可靠性或整体盈利能力。在一些实施例中,本公开教示使所选突
变或突变群组与上文所描述的一或多种菌株特性相结合的方法。
[0655] 所属领域中的技术人员将认识到如何定制菌株选择标准以满足特定项目目标。举例来说,按照反应饱和度选择菌株单批最大产量可以适合于鉴定具有高单批产量的菌株。
基于在一系列温度和条件下的产量一致性的选择可以适合于鉴定稳定性和可靠性增强的
菌株。
[0656] 在一些实施例中,初始高通量期的选择标准和基于槽罐的验证是相同的。在其它实施例中,基于槽罐的选择可以依据额外和/或不同的选择标准运作。举例来说,在一些实
施例中,高通量菌株选择可能是基于单批反应完成产量,而基于槽罐的选择可以扩展以包
含基于产量的针对反应速度的选择。
[0657] 测序
[0658] 在一些实施例中,本公开教示本文所描述的生物体的全基因组测序。在其它实施例中,本公开还教示质粒、PCR产物和其它寡核苷酸的测序,作为对本公开方法的质量对照。
大型项目和小型项目的测序方法已为所属领域的技术人员所熟知。
[0659] 在一些实施例中,本公开方法中可以使用用于核酸测序的任何高通量技术。在一些实施例中,本公开教示全基因组测序。在其它实施例中,本公开教示用于鉴定基因变异的
扩增子测序超深度测序。在一些实施例中,本公开还教示新颖的文库制备方法,其包含片段
化的同时添加标签(tagmentation)(参见WO/2016/073690)。DNA测序技术包含使用已标记
的终止子或引物且在厚片或毛细管中进行凝胶分离的经典双脱氧测序反应(桑格方法
(Sanger method));使用可逆封端的已标记的核苷酸的边合成边测序、焦磷酸测序;454测
序;与已标记的寡核苷酸探针文库进行等位基因特异性杂交;使用与已标记的克隆文库的
等位基因特异性杂交、随后进行连接的边合成边测序;在聚合步骤期间并入已标记的核苷
酸的实时监视;聚合酶克隆测序(polony sequencing);以及SOLiD测序。
[0660] 在本公开一个方面中,使用高通量测序方法,其包括对在固体表面上的个别分子进行空间分离的步骤,其中在所述固体表面上对所述个别分子进行平行测序。这类固体表
面可包含无孔表面(如索莱萨测序(Solexa sequencing),例如本特雷(Bentley)等人,《自
然》,456:53-59(2008),或全面基因组学测序(Complete Genomics sequencing),例如德尔马纳茨(Drmanac)等人,《科学》,327:78-81(2010));孔阵列,其可包含珠粒或颗粒结合的模板(如用454,例如马古利斯(Margulies)等人《,自然》,437:376-380(2005)或离子激流测序(Ion Torrent sequencing),美国专利公开案2010/0137143或2010/0304982);微机械加工
的膜(如用SMRT测序,例如德(Eid)等人《,科学》,323:133-138(2009)),或珠粒阵列(如用SOLiD测序或聚合酶克隆测序,例如金(Kim)等人,《科学》,316:1481-1414(2007))。
[0661] 在另一个实施例中,本公开的方法包括在对固体表面上的分子进行空间分离之前或之后,对已分离的分子进行扩增。先前扩增可包括基于乳液的扩增,如乳液PCR,或滚环扩增。还教示基于索莱萨的测序,其中对固体表面上的个别模板分子进行空间分离,随后通过
桥式PCR对其进行平行扩增以形成单独的克隆群体或聚类,且接着测序,如本特雷等人(上
文引用)和制造商说明书(例如TruSeqTM样本制备试剂盒和数据表,启迪公司(Illumina,
Inc.),加利福尼亚州圣地亚哥(San Diego,Calif.),2010)中所描述;且进一步如以下参考
文献所描述:美国专利第6,090,592号、第6,300,070号、第7,115,400号;以及EP0972081B1,所述文献均以引用的方式并入本文。
[0662] 在一个实施例中,安置于固体表面上且在固体表面上扩增的个别分子形成密度为每平方厘米至少105个聚类,或密度为每平方厘米至少5×105个,或密度为每平方厘米至少
106个聚类的聚类。在一个实施例中,使用具有相对较高错误率的测序化学物质。在这类实
施例中,由这类化学物质所产生的平均质量评分是序列读段长度的单调下降函数。在一个
实施例中,这类下降对应于0.5%的序列读段在位置1-75中具有至少一个错误;1%的序列
读段在位置76-100中具有至少一个错误;且2%的序列读段在位置101-125中具有至少一个
错误。
[0663] 全基因组基因设计标准的计算分析和效果预测
[0664] 在一些实施例中,本公开教示对并入指定宿主菌株中的特定基因变异的效果进行预测的方法。在其它方面中,本公开提供用于产生所提出的基因变异的方法,所述基因变异
应该并入指定的宿主菌株中,以便所述宿主拥有特定的表型性状或菌株参数。在指定方面
中,本公开提供可以用于设计新颖宿主菌株的预测模型。
[0665] 在一些实施例中,本公开教示分析每一轮筛选的执行结果的方法和用于产生新的所提出的全基因组序列修饰的方法,预测所述全基因组序列修饰可增强菌株在下一轮筛选
中的性能。
[0666] 在一些实施例中,本公开教示,所述系统基于此前筛选结果产生宿主菌株的所提出序列修饰。在一些实施例中,本发明系统的建议是基于刚刚前一次筛选的结果。在其它实
施例中,本发明系统的建议是基于一或多次之前筛选的累积结果。
[0667] 在一些实施例中,本发明系统的建议是基于先前开发的HTP基因设计文库。举例来说,在一些实施例中,本发明系统被设计成存储先前筛选的结果,且将那些结果应用于相同
或不同宿主生物体中的不同项目。
[0668] 在其它实施例中,本发明系统的建议是基于科学见解。举例来说,在一些实施例中,建议是基于基因的已知特性(来自如注释的基因数据库和相关文献的来源)、密码子优
化、转录滑移、uORFs,或其它假设驱动序列和宿主优化。
[0669] 在一些实施例中,由系统或预测模型推荐的宿主菌株的所提出序列修饰是通过利用一或多种所公开的分子工具集来进行,所述分子工具集包括:(1)启动子交换,(2)SNP交
换,(3)起点/终止密码子交换,(4)序列优化,(5)Stop交换,(6)溶解性标签交换,(7)降解标签交换和(8)上位性映射。
[0670] 本文所描述的HTP基因工程改造平台相对于任何特定微生物或表型性状(例如特定化合物的产生)而言是不可知的。也就是说,本文教示的平台和方法可以与任何宿主细胞
一起使用,以对所述宿主细胞进行工程改造,以使其具有任何所期望的表型性状。此外,从
用于产生一种新颖宿主细胞的指定HTP基因工程改造方法中习得的课程可以作为在所教示
方法期间出现的大量工艺参数的存储、表征和分析的结果,应用于任何数量的其它宿主细
胞。
[0671] 如上位性映射章节中所提及,有可能通过一些优选预测模型估计假想菌株的性能(也称为评分),所述假想菌株是通过将来自HTP基因设计文库的突变集合合并到特定背景
中所获得的。鉴于这种预测模型,有可能对通过组合合并可近接突变文库的所有假想菌株
评分和排名。下述章节概述本发明HTP平台中所用的特定模型。
[0672] 预测菌株设计
[0673] 本文描述一种用于预测菌株设计的方法,其包含:描述基因变化和菌株性能、基于菌株中变化的组成来预测菌株性能、推荐预测性能高的候选设计以及过滤预测以针对二级
考虑因素(例如与现有菌株的相似度、上位或预测可信度)进行优化的方法。
[0674] 到菌株设计模型的输入
[0675] 在一个实施例中,出于易于说明起见,输入数据可以包括两种组分:(1)基因变化集和(2)相对菌株性能。所属领域的技术人员将认识到,这种模型能容易扩展以考虑多种输
入,同时考虑到过度拟合的抵消性考虑。除基因变化之外,可以加以调整的一些输入参数
(自变量)是细胞类型(属、种、株系、谱系学表征等)和据以对细胞进行发酵的工艺参数(例
如环境条件、处置设备、修饰技术等)。
[0676] 基因变化集可以来自先前论述的基因扰动集合,称为HTP基因设计文库。相对菌株性能可以基于任何指定的所关注参数或表型性状(例如所关注的化合物、小分子或产物的
产生)来评定。
[0677] 细胞类型可以用通用类别说明,所述通用类别如原核和真核系统、属、种、株系、组织培养物(相对于分散细胞)等。能够加以调整的工艺参数包含温度、压力、反应器配置和培养基组成。反应器配置的实例包含反应器体积,不论所述工艺是分批还是连续的,且如果是
连续的,那么包含体积流量等。也可以指明其上存在细胞的支撑结构(如果存在)。培养基组
成的实例包含电解质浓度、营养物、废产物、酸、pH和其类似方面。
[0678] 待用于随后用于创建预测菌株设计模型的初始线性回归模型的来自所选HTP基因设计文库的基因变化集
[0679] 来自棒状杆菌中的基因变化表的实例条目集如下显示在表3中。每一行表示菌株7000051473中的基因变化,以及关于变化机制的元数据,例如启动子交换或SNP交换。aceE、zwf和py均与柠檬酸循环有关。
[0680] 在这种情况下,菌株7000051473总共具有7种变化。“最后一个变化”意指这种菌株中的变化表示这种菌株谱系中的最新修饰。因此,这种菌株性能与其亲代性能的比较表示
关于“最后一个变化”突变的性能的数据点。
[0681] 表3-菌株7000051473的菌株设计条目表
[0682]
[0683]
[0684] 所建构菌株性能评定
[0685] 所教示模型的目标是基于引入到菌株中的基因变化的组成来预测菌株性能。为了构筑比较标准,首先通过计算每个分析板每种菌株的中值性能,来计算相对于常见参考菌
株的菌株性能。接着,将相对性能计算为同一培养板内的工程改造的菌株与常见参考菌株
之间的平均性能差异。将计算局限于培养板内比较确保,考虑中的样本全部均接受相同实
验条件。
[0686] 图23显示考虑输入数据,棒状杆菌的相对菌株性能的分布。相对性能为零指示,工程改造的菌株与培养板内基本菌株或“参考”菌株的性能同样好。所关注的是预测模型鉴定
性能可能显著高于零的菌株的能力。此外,且更一般来说,所关注的是任何所指定的菌株的
性能根据一些标准是否胜过其亲代。实际上,标准可以是产物效价满足或超过高于亲代水
平的某一阈值,尽管也可以改为使用或另外使用在期望方向上与亲代具有统计学上显著差
异。基本或“参考”菌株的作用简单地是充当供在培养板内或培养板之间进行比较的所添加
归一化因子。
[0687] 值得留意的概念是亲代菌株与参考菌株之间的差异。亲代菌株是当前一轮突变诱发所用的背景。参考菌株是在每个培养板中运作以便于比较的对照菌株,尤其是培养板之
间的比较,且典型地是如上文所提及的“基本菌株”。但是由于所述基本菌株(例如用于基准测试整体性能的野生型或工业菌株)就在所指定一轮的菌株改进中是突变诱发目标而言不
一定是“基本的”,因此更具描述性的术语是“参考菌株”。
[0688] 总之,基本/参考菌株通常是用于对所建构菌株的性能进行基准测试,而亲代菌株是用于对相关基因背景下的特定基因变化的性能进行基准测试。
[0689] 通过线性回归对所建构菌株的性能进行排名
[0690] 所公开的模型的目标是通过描述随引入到所建构菌株中的基因变化的组成变化的相对菌株性能,来对所建构菌株的性能进行排名。如本公开所论述,各种HTP基因设计文
库提供引入到工程改造菌株中的可能基因变化(例如基因扰动/变异)的谱系。线性回归是
当前所描述示例性预测模型的基础。
[0691] 下表(即,表4)含有基于回归的建模的实例输入。相对于常见基本菌株,对随菌株中所含的基因变化的组成变化的菌株性能进行排名。
[0692] 每一栏标题表示基因变化,“1”表示存在变化,而“0”表示不存在变化。“DSS”是指来自特定文库的SNP交换(相对_性能(relative_perf)之后的前3栏)。后3栏是启动子交换,其中pcgXXXX表示特定启动子,且后3个字母表示启动子所应用的基因。所述基因与中心代
谢有关。启动子是来自谷氨酸棒状杆菌(因此记为“cg”)。关于所使用的启动子的其它信息
可见于表1(其列举启动子P1-P8)和本申请的序列表中。此外,关于每种启动子P1-P8的详细
信息可见于2015年12月07日提交且标题为“来自谷氨酸棒状杆菌的启动子(Promoters 
from Corynebacterium glutamicum)”的第62/264,232号美国临时申请中,所述文献以引
用的方式并入本文中。为了易于参考,在下表中,pcg3121=P8;pcg0755=P4;且pcg1860=P3。
[0693] 表4-基因变化和其对相对性能的影响的概述.
[0694] 相对_perf dss_033 dss_034 dss_056 pcg3121_pgi pcg0755_zwf pcg1860_pyc0.1358908 0 0 0 0 0 1
-1.8946985 1 0 0 1 0 1
-0.0222045 0 0 0 1 0 0
0.6342183 1 0 1 0 0 0
-0.0803285 1 1 0 0 0 0
2.6468117 0 0 0 1 0 0
[0695] 表征所建构菌株的线性回归
[0696] 因为易于实施和解释,线性回归是一种用于所描述HTP基因组工程改造平台的诱人方法。所得回归系数可以解释为可归因于每一基因变化的存在的相对菌株性能的平均增
加或降低。
[0697] 举例来说,如图24中所见,这种技术让我们断定:在不存在任何负上位相互作用的情况下,将pgi启动子变成pcg3121使相对菌株性能改进平均约5个单位且因此是潜在的高
度期望变化(注意:输入是无单位归一化值)。
[0698] 所教示的方法因此使用线性回归模型对所建构的菌株进行描述/表征和排名,所述所建构的菌株的基因组中已引入来自各种所教示文库的各种基因扰动。
[0699] 预测设计建模
[0700] 使用来自所构筑菌株的数据的上文所描述的线性回归模型可以用于对尚未建构的菌株进行性能预测。
[0701] 所述程序可以概述如下:通过计算机模拟产生基因变化的所有可能构形→使用回归模型预测相对菌株性能→根据性能订购候选菌株设计。因此,通过利用回归模型预测迄
今尚未建构的菌株的性能,所述方法允许较高性能菌株的产生,同时进行更少的实验。
[0702] 产生构形
[0703] 当构筑模型来预测尚未建构的菌株的性能时,第一步骤是产生设计候选物的序列。这通过固定菌株中的基因变化的总数,且接着界定基因变化的所有可能组合来进行。举
例来说,可以将潜在基因变化/扰动的总数设定为29(例如29种可能SNP,或29种不同启动
子,或其任何组合,只要基因扰动的范围是29即可)且接着决定设计29种潜在基因变化的所
有可能的3员组合,从而产生3,654种候选菌株设计。
[0704] 为了向前述3,654种候选菌株提供背景,设想可以使用n!/((n-r)!*r!)、由n个可能成员计算尺寸r的非冗余分组数目。如果r=3、n=29,则得到3,654。因此,如果设计出29种潜在变化的所有可能的3员组合,那么获得3,654种候选菌株。图25的x轴中存在29种潜在
基因变化。
[0705] 预测新菌株设计的性能
[0706] 使用以组合构形作为输入值的以上所构筑的线性回归,接着可以预测每一候选设计的预期相对性能。图25概述棒状杆菌的前100种预测菌株设计的变化组成。x轴列举潜在
基因变化(29种可能基因变化)池,且y轴显示排名次序。黑色细胞表示候选设计中存在特定
变化,而白色细胞表示那种变化不存在。在这个特定实例中,所有前100种设计均含有变化
pcg3121_pgi、pcg1860_pyc、dss_339和pcg0007_39_lysa。另外,所述最佳候选设计含有变
化dss_034、dss_009。
[0707] 当使用新观测以迭代方式再训练和再拟合模型时,预测准确度应该随时间增加。本发明人的研究结果说明可借以对预测模型以迭代方式进行再训练和改进的方法。图46对
模型预测与所观察到的测量值进行了比较。模型预测质量可以通过若干种方法评定,包含
指示预测值与观察值之间的关联强度的相关系数,或度量平均模型误差的均方根误差。通
过使用选定的度量进行模型评价,所述系统可以界定应该对模型再训练时所用的规则。
[0708] 未陈述的假设与上述模型的联系包含:(1)不存在上位相互作用;和(2)建构预测模型所用的基因变化/扰动(例如来自所建构菌株的数据,如图24中所说明,或使用无论哪
一种数据集参考文献来作为构筑模型)都是在相同棒状杆菌背景下产生,作为所提出的基
因变化组合(例如如图25中所说明)。
[0709] 根据二级特点进行过滤
[0710] 上述说明性实例集中于基于所预测的宿主细胞性能的线性回归预测。在一些实施例中,本发明的线性回归方法还能够应用于非生物分子因素,如饱和生物质、抗性或其它可
测量的宿主细胞特点。因此,本公开的方法还教示在对待建构的候选物进行优先级排序时,
考虑所预测性能外的其它特点。假设存在额外的相关数据,那么所述回归模型中也包含非
线性项。
[0711] 接近现有菌株
[0712] 预测菌株类似于已建构的菌株可以节省时间和成本,尽管不是最佳预测候选物。
[0713] 变化的多样性
[0714] 构筑前述模型时,由于上位相互作用的存在,因此不能确定基因变化真正具有相加性(如根据线性回归所假定且如上述假设所提及)。因此,对基因变化差异性的了解可以
用于提高正相加作用的可能性。如果知道例如来自上述排名靠前的菌株的变化dss_034和
dss_009(是SNP交换)位于相同代谢路径且具有相似的性能特征,那么这个信息可以用于选
择变化组成有差异的另一种排名靠前的菌株。如与上位性映射有关的上述章节中所描述,
可以过滤所预测的最佳基因变化以使选择限于响应曲线有充分差异的突变。可替代地,线
性回归可以是使用相似度矩阵进行权重预测的加权最小二乘方回归。
[0715] 所预测性能的多样性
[0716] 最后,可以选择设计所预测性能居中或不良的菌株,以便验证且随后改进预测模型。
[0717] 迭代菌株设计优化
[0718] 如上述实例所描述,所有前100种菌株设计均含有变化pcg3121_pgi、pcg1860_pyc、dss_339和pcg0007_39_lysa。另外,最佳候选菌株设计含有变化dss_034、dss_009。
[0719] 在实施例中,发订单引擎208将工厂订单提供给工厂210以制造并入最佳候选突变的微生物菌株。在反馈回路方式中,可以利用分析设备214分析结果,以确定哪种微生物呈
现所期望的表型特性(314)。在分析阶段期间,评价已修饰的菌株培养物以确定其性能,即,其所期望的表型特性的表现,包含工业规模生产能力。举例来说,分析阶段尤其使用培养板
的影像数据测量微生物菌落生长作为菌落健康的指标。使用分析设备214使基因变化与表
型性能相关,且将所得基因型-表型相关度数据保存在文库中,其可以存储于文库206中,以
告知未来的微生物生产。
[0720] 具体地说,实际产生足够高的实测性能的候选变化可以成行添加在数据库的表格(如上述表4)中。以这种方式,将最佳性能突变按照有监督的机器学习方式添加到预测菌株
设计模型中。
[0721] LIMS基于由此前工厂运行所开发的相关度,以迭代方式执行设计/建构/测试/分析循环。在后续循环期间,单独或配合操作人员的分析设备214可以选择最佳候选物作为基
本菌株输回到输入界面202中,从而使用相关度数据微调基因修饰以实现更佳的表型性能
和更细的颗粒度。本公开实施例的实验室信息管理系统以这种方式执行了质量改进反馈回
路。
[0722] 总之,参照图33的流程图,迭代预测菌株设计工作流程可以描述如下:
[0723] ·产生输入和输出变量(例如基因变化)的训练集作为输入和性能特点作为输出(3302)。可以由分析设备214基于此前的基因变化和并入那些基因变化的微生物菌株的相
应实测性能来执行产生。
[0724] ·开发基于训练集的初始模型(例如线性回归模型)(3304)。这可以由分析设备214执行。
[0725] ·产生设计候选菌株(3306)
[0726] ο在一个实施例中,分析设备214可以使相对于背景菌株所产生的基因变化的数目以变化组合的形式固定。为了体现这些变化,分析设备214可以向解译器204提供表示那些
变化组合的一或多种DNA规格表述。(这些基因变化或并入那些变化的微生物菌株可以称为
“测试输入”。)解译器204解译一或多种DNA规格,且执行引擎207执行DNA规格以将已解决的输出填入DNA规格,所述输出代表了个别候选设计菌株以获得那些变化。
[0727] ·基于所述模型,分析设备214预测每种候选设计菌株的预期性能(3308)。
[0728] ·分析设备214选择有限数目的具有最高预测性能的候选设计,例如100种(3310)。
[0729] ο如本文在别处针对上位性映射所描述,分析设备214通过例如过滤最佳设计以获得上位效应或将上位纳入预测模型中可以解释二级效应,如上位。
[0730] ·基于发订单引擎208产生的工厂订单建构已过滤的候选菌株(在工厂210)(3312)。
[0731] ·分析设备214测量所选菌株的实际性能,基于优良的实际性能选择有限数目的那些所选菌株(3314),且将设计变化和其所得性能添加到预测模型中(3316)。在线性回归
实例中,将设计变化和其相关性能的集合成行新添加在表4中。
[0732] ·分析设备214接着以迭代方式返回到新设计候选菌株的产生(3306),且继续迭代直到满足中止条件为止。中止条件可以包括例如满足性能度量的至少一种微生物菌株的
实测性能,如产量、生长速率或效价。
[0733] 在以上实例中,菌株设计的迭代优化是利用反馈和线性回归来执行机器学习。一般来说,机器学习可以描述为在利用有限数目个标记数据实例执行信息任务(如分类或回
归)且接着对未知数据执行相同任务时优化性能标准,例如参数、技术或其它特点。在有监
督的机器学习(如上述线性回归实例中的机器学习)中,机器(例如计算装置)例如通过鉴定
训练数据所呈现的图案、类别、统计学关系或其它属性来学习。学习结果接着用于预测新数
据是否呈现相同的图案、类别、统计学关系或其它属性。
[0734] 当训练数据可获得时,本公开的实施例可以使用其它有监督的机器学习技术。在缺乏训练数据的情况下,实施例可以利用无监督的机器学习。可替代地,实施例可以利用半
监督的机器学习,其使用少量的标记数据和大量的未标记数据。实施例也可以利用特点选
择来选择最相关特点的子集以优化机器学习模型的性能。根据所选的机器学习方法的类
型,作为线性回归的替代方案或除线性回归之外,实施例可以利用例如逻辑回归、神经网
络、支持向量机(SVM)、决策树、隐式马尔可夫模型(hidden Markov models)、贝叶斯网络
(Bayesian networks)、Gram Schmidt、基于强化的学习、基于聚类的学习(包含分级聚类)、基因算法,和所属领域中已知的任何其它适合的机器学习。具体地说,实施例可以利用逻辑
回归模型得到分类的概率(例如基因按照不同功能群的分类)以及分类本身。参见例如席维
德(Shevade),使用稀疏逻辑回归进行基因选择的简单高效算法(A simple and efficient 
algorithm for gene selection using sparse logistic regression),《生物信息学
(Bioinformatics)》,第19卷,第17期,2003,第2246-2253页;冷(Leng)等人,对暂时基因表达数据使用功能数据分析的分类(Classification using functional data analysis 
for temporal gene expression data),《生物信息学》,第22卷,第1期,牛津大学出版社(Oxford University Press)(2006),第68-76页,所有文献均以全文引用的方式并入本文。
[0735] 实施例可以利用图形处理单元(GPU)加速架构,已发现其在执行机器学习任务方面越来越流行,尤其是称为深度神经网络(DNN)的形式。本公开的实施例可以利用基于GPU
的机器学习,如以下文献中所描述的机器学习:基于GPU的深度学习推理:性能和能力分析
(GPU-Based Deep Learning Inference:A Performance and Power Analysis),英伟达白
皮书(NVidia Whitepaper),2015年11月;达(Dahl)等人,用于QSAR预测的多任务神经网
络(Multi-task Neural Networks for QSAR Predictions),多伦多大学计算机科学系
(Dept.of Computer Science,Univ.of Toronto),2014年6月(arXiv:1406.1231
[stat.ML]),所有文献均以全文引用的方式并入本文。适用于本公开实施例的机器学习技
术也可以见于其它参考文献中:里伯莱奇特(Libbrecht)等人,机器学习在遗传学和基因组
学中的应用(Machine learning applications in genetics and genomics),《自然评论:
遗传学(Nature Reviews:Genetics)》,第16卷,2015年6月;卡什亚普(Kashyap)等人,生物信息学中的大数据分析:机器学习视角(Big Data Analytics in Bioinformatics:A 
Machine Learning Perspective)《,乳胶类文件杂志(Journal of Latex Class Files)》,第13卷,第9期,2014年9月;普隆浦纳姆(Prompramote)等人,生物信息学中的机器学习
(Machine Learning in  Bioinformatics),生物信息学技术(Bioinformatics 
Technologies)的第5章,第117-153页,《施普林格(Springer)》,柏林海德堡(Berlin 
Heidelberg),2005,所有文献均以全文引用的方式并入本文。
[0736] 迭代预测菌株设计:实例
[0737] 下文提供了上文所概述的迭代预测菌株设计工作流程的实例应用。
[0738] 制备训练输入和输出变量的初始集合。这种集合包括1864种具有所定义基因组成的独特工程改造菌株。每种菌株含有5种与15种之间的工程改造变化。训练集中存在总共
336种独特基因变化。
[0739] 开发初始预测计算机模型。实施方案使用广义线性模型(具有4阶多项式内核的核岭回归)。实施方案对两种不同表型(产量和生产力)建模。将这些表型以加权总和形式组
合,以获得用于排名的单一评分,如下文所示。通过相对于所指定训练数据的k倍交叉验证
来调整各种模型参数,例如正则化因子。
[0740] 实施方案不合并相互作用效应的任何明确分析,如上文上位性映射章节中所描述。然而,如所属领域的技术人员会了解,所建构的广义线性模型可以捕捉内核的二阶、三
阶和四阶项隐含的相互作用效应。
[0741] 根据训练集训练模型。所拟合的模型就产量而言具有0.52的R2值(决定系数)且就生产力而言具有0.67的R2值。图46显示了产量模型相对于训练数据的显著质量拟合。
[0742] 产生候选菌株。这个实例包含与新基因变化引入亲代菌株中相关的一系列建构约束条件(在这个实例中,菌株中一次仅工程改造一个新突变)。在此,不能简单地认为候选物
与所期望的变化数目有关。相反,分析设备214选择此前所设计的具有高性能度量的菌株的
集合作为起点(“种子菌株”)。分析设备214将基因变化个别地施加到每一种种子菌株。所引入的基因变化不包含已经存在于种子菌株中的那些基因变化。因各种技术、生物学或其它
原因,明确需要某些突变,例如opca_4,或明确排除某些突变,例如dss_422。使用166种可利用的种子菌株和336种用模型表征的变化,设计出6239种新颖候选菌株。
[0743] 分析设备214基于所述模型预测候选菌株设计的性能。分析设备214基于针对两种所关注表型(产量和生产力)所预测的性能将候选物按“最佳”到“最差”排名。具体地说,分析设备214使用加权的总和对候选菌株评分。
[0744] 评分=0.8×产量/最大(产量)+0.2×生产力/最大(生产力),
[0745] 其中产量表示候选菌株的预测产量,
[0746] 最大(产量)表示所有候选菌株的最大产量,
[0747] 生产力表示候选菌株的生产力,且
[0748] 最大(生产力)表示所有候选菌株的最大产率。
[0749] 分析设备214通过施加容量约束和操作约束而由候选物的排名列表产生最终的建议集合。在这个实例中,容量限值设定为48种由计算机产生的候选设计菌株。由于操作约
束,因此在这个实例中,96孔板的每一列仅使用一种种子菌株。这意味着在选择种子菌株之
后,那种菌株最多可以建构8种变化,但在任何指定的星期中可以选择仅6种种子菌株。
[0750] 使用训练模型(上述)预测每种候选菌株的预期性能(产量和生产力)。分析设备214使用上文所指定的评分功能对候选菌株排名。施加容量和操作约束以产生48种候选菌
株的过滤集合。已过滤的候选菌株的这个集合描绘于图47中。
[0751] 基于发订单引擎208所产生的工厂订单来建构(在工厂210)已过滤的候选菌株(3312)。订购是基于对应于候选菌株的DNA规格。
[0752] 在实践中,建构方法具有预期的失败率,借此不能建构随机的菌株集合。就此建构循环来说,约20%的候选菌株无法建构,产生37种建构的菌株。
[0753] 使用分析设备214测量所选菌株的实际产量和生产力性能。分析设备214基于三个标准评价模型和所推荐的菌株:模型准确度;菌株性能的改进;和人类专家所产生的设计的
等效物(或改进)。
[0754] 测量所推荐菌株的产量和生产力表型且与利用模型所预测的值进行比较。如图48所示,模型显示适用的预测效用。具体地说,所推荐菌株的预测产量值对于相应的观察结果
具有0.59的皮尔逊-r相关系数(Pearson-r correlation coefficient)。
[0755] 接下来,分析设备214计算每一种所推荐菌株相对于亲代菌株的性能变化百分比。这个数据描绘于图49(浅灰色)。本发明人发现,多种已预测的菌株相对于其直接的亲代实
际上呈现预期的性能增加。具体地说,最佳预测的菌株相对于其直接的亲代显示6%的产量
提高。
[0756] 与上述基于模型的菌株设计方法并行地由人类专家独立设计48种菌株的集合。在这些菌株中,成功地建构和测试37种。这个数据证明,基于模型的菌株设计的性能与人类专
家所设计的菌株相当。这些专家是本发明受让人所雇用或以其它方式雇佣的具有高技能
(例如博士水平)的科学家,且熟悉本公开的实施例。为了比较两种方法,本发明人首先检验
每组的的性能分布(图50)。在这个实验中,基于模型的菌株的平均产量相对于人类专家所
产生的设计显示1%的增加。
[0757] 本发明人接着对人类专家所设计的菌株与计算机模型所设计的根据背景分组的菌株(即,具有相同亲代的新菌株)进行比较(图51)。此外,本发明人发现计算机产生的设计
的性能与人类专家产生的设计相当且在一些情况下更佳,且更倾向于产生较少的可变性。
最后,本发明人对人类专家所设计的菌株与模型设计的菌株相对于亲代菌株的变化百分比
进行了比较(图49)。这些群体再次显示了类似的增加。
[0758] 参见表4.1的呈表格形式的概括统计数据。
[0759] 表4.1.依据预测模型所设计的菌株和依据人类专家参考文献所设计的菌株的实测性能统计数据.
[0760]
[0761] 在每一轮预测→建构→测试循环结束时,本发明人关注于评价模型预测质量和以迭代方式将新数据并入前一模型中。对于前者(模型评价)来说,本发明人关注于通过比较
模型预测与实验测量结果来测量预测准确度。预测准确度可以通过若干种方法评定,包含
指示预测值与观察值之间的关联强度的相关系数,或度量平均模型误差的均方根误差。
[0762] 经过多轮实验,模型预测可能会发生漂移,且可以将新的基因变化添加到训练输入中以改善预测准确度。在这个实例中,将设计变化和其所得性能添加到预测模型中
(3316)。
[0763] 基因组设计和工程改造即服务
[0764] 在本公开的实施例中,图32的LIMS系统软件3210可以按照图32的云计算系统3202建构,以使得多种用户能够设计和建构根据本公开实施例的微生物菌株。图32说明根据本
公开实施例的云计算环境3204。客户端计算机3206,如图32中所说明的那些计算机,通过网
络3208(如因特网)接入LIMS系统。在实施例中,LIMS系统应用软件3210存在于云计算系统
3202中。LIMS系统可以采用使用一或多个处理器的一或多种计算系统,所述计算系统的类
型说明于图32中。云计算系统自身包含网络接口3212,其使LIMS系统应用程序3210通过网
络3208连接到客户端计算机3206。网络接口3212可以包含应用软件编程接口(API)以使客
户端计算机3206的客户应用程序能够访问LIMS系统软件3210。具体地说,通过API,客户端
计算机3206可以访问LIMS系统200的组件,包含(但不限于)运行输入界面202、解译器204、
执行引擎207、发订单引擎208、工厂210以及测试设备212和分析设备214的软件。软件即服
务(SaaS)软件模块3214向客户端计算机3206提供LIMS系统软件3210即服务。云端管理模块
3216管理客户端计算机3206对LIMS系统3210的访问。云端管理模块3216能够实现采用多租
户应用程序、虚拟化的云端架构或所属领域中已知可服务多个用户的其它架构。
[0765] 基因组自动化
[0766] 本公开方法的自动化能够同时对多种测试菌株变体中的目标产物进行高通量表型筛选和鉴定。
[0767] 前述基因组工程改造预测建模平台是以如下事实为前提:以高通量方式构筑数百和数千种突变型菌株。下述机器人和计算机系统是可借以执行这种高通量方法的结构性机
构。
[0768] 在一些实施例中,本公开教示提高宿主细胞生产力或修复工业菌株的方法。作为这种方法的一部分,本公开教示在培养板中组装DNA、建构新菌株、筛选培养物和在模型中
筛选培养物用于槽罐发酵的方法。在一些实施例中,本公开教示利用自动化机器人技术
辅助产生和测试新宿主菌株的一或多种上述方法。
[0769] 在一些实施例中,本公开教示如图6A-B或图26中所描绘的高通量菌株工程改造平台。
[0770] HTP机器人系统
[0771] 在一些实施例中,本公开的自动化方法包括机器人系统。本文概述的系统通常针对96孔或384孔微量滴定盘的使用,但是如所属领域的技术人员将了解,可以使用任何数目
个不同培养板或配置。另外,本文概述的任一个或全部步骤可以自动进行;因此,例如,系统可以完全地或部分地自动化。
[0772] 在一些实施例中,本公开的自动化系统包括一或多个工作模块。举例来说,在一些实施例中,本公开的自动化系统包括DNA合成模块、载体克隆模块、菌株转化模块、筛选模块和测序模块(参见图7)。
[0773] 如所属领域的技术人员将了解,自动化系统可以包含多种组件,包含(但不限于):液体处理器;一或多个机器人臂;用于放置微量板的培养板处理器;培养板密封件、培养板
穿孔机、自动化盖子处理器以去除和置换非交叉污染盘上的孔盖;用一次性吸头进行样本
分布的一次性吸头组合件;用于样本分布的可洗吸头组合件;96孔加载块;一体式热循环
仪;冷却的试剂架;微量滴定盘移液管位置(任选地冷却);用于培养板和吸头的堆叠塔;磁
珠处理站;过滤系统;培养板振荡器条形码阅读器和涂覆器;和计算机系统。
[0774] 在一些实施例中,本公开的机器人系统包含实现了高通量移液的自动化液体和颗粒处理,以执行基因靶向和重组应用工艺中的所有步骤。这包含液体和颗粒操控,如抽吸、
分配、混合、稀释、洗涤、精确体积转移;收回和丢弃移液管吸头;以及利用单次样本抽吸来重复吸移相同体积用于多次递送。这些操控是无交叉污染的液体、颗粒、细胞和生物体转
移。仪器执行微量培养板样本向过滤器、膜和/或子培养板的自动化复制、高密度转移、全盘连续稀释以及高容量操作。
[0775] 在一些实施例中,本公开的定制自动化液体处理系统是TECAN机器(例如定制的TECAN Freedom Evo)。
[0776] 在一些实施例中,本公开的自动化系统与用于多孔板、深孔板、方孔板、试剂槽、试管、小试管、微量离心管、冷冻管、过滤器、微阵列晶片、光纤、珠粒、琼脂糖和丙烯酰胺凝胶的平台兼容,且将其它固相基质或平台容纳于可升级的模块化台板上。在一些实施例中,本公开的自动化系统含有至少一个模块化台板用于多位置工作表面,以便放置源样本和输出
样本、试剂、样本和试剂稀释液、分析板、样本和试剂储集器、移液管吸头和活动的吸头洗涤站。
[0777] 在一些实施例中,本公开的自动化系统包含高通量电穿孔系统。在一些实施例中,高通量电穿孔系统能够在96或384孔板中转化细胞。在一些实施例中,高通量电穿孔系统包
含 高通量电穿孔系统、BTXTM、Bio- 基因脉冲发生器MXcellTM或其它多孔电穿孔
系统。
[0778] 在一些实施例中,一体式热循环仪和/或热调节器用于稳定热交换器的温度,如对培育样本提供从0℃到100℃的精确温度控制的可控块或平台。
[0779] 在一些实施例中,本公开的自动化系统与能够以机器人方式操控液体、颗粒、细胞和多细胞生物体的可更换机器头(单或多通道)兼容,所述机器头具有单个或多个磁性
针、亲和探针、复制器或吸移管管理器。多孔或多管式磁性分离器和过滤站按单个或多个样
本格式操控着液体、颗粒、细胞和生物体。
[0780] 在一些实施例中,本公开的自动化系统与照相视觉和/或光谱仪系统兼容。因此,在一些实施例中,本公开的自动化系统能够检测和记录进行中的细胞培养物的颜色和吸收
变化。
[0781] 在一些实施例中,本公开的自动化系统被设计成可相对于多种硬件附件具有灵活性和可适应性,以允许所述系统执行多种应用。软件程序模块实现了方法的产生、修改和运
行。系统的诊断模块实现了设置、仪器校准和马达操作。定制的工具、实验室器具以及液体
和颗粒转移模式实现了不同应用的程序化执行。数据库实现了方法和参数的存储。机器人
和计算机界面实现了仪器之间的通信。
[0782] 因此,在一些实施例中,本公开教示如图26中所描绘的高通量菌株工程改造平台。
[0783] 所属领域中的技术人员将认识到,各种机器人平台能够执行本公开的HTP工程改造方法。下表5提供了能够执行如图26中所描述的本公开HTP工程改造步骤中的每一步的科
学设备的非排它性列表。
[0784] 表5-与本公开HTP工程改造方法兼容的科学设备的非排它性列表
[0785]
[0786]
[0787]
[0788]
[0789] 计算机系统硬件
[0790] 图34说明根据本公开实施例的计算机系统800的实例,其可以用于执行非暂时性计算机可读媒体(例如存储器)中所存储的程序代码。计算机系统包含输入/输出子系统
802,其可以用于介接人类用户和/或其它计算机系统,这取决于应用。I/O子系统802可以包
含例如键盘鼠标、图形用户界面触摸屏,或用于输入的其它界面,以及例如LED或其它平面屏幕显示器,或用于输出的其它界面,包含应用程序界面(API)。本公开实施例的其它元
件,如LIMS系统的组件,可以用计算机系统(如计算机系统800)实施。
[0791] 程序代码可以存储于非暂时性媒体中,如辅助存储器810或主存储器808或这两者的永久性存储器中。主存储器808可以包含易失性存储器,如随机存取存储器(RAM),或非易
失性存储器,如只读存储器(ROM),以及不同层次的高速缓存存储器用于更快地访问指令和
数据。辅助存储器可以包含永久性存储器,如固态驱动器、硬盘驱动器或光盘。一或多个处
理器804从一或多个非暂时性媒体中读取程序代码且执行所述代码以使计算机系统能够完
成本文实施例所执行的方法。所属领域的技术人员将了解,处理器可以摄取原始码且将原
始码解译或编译成处理器804的硬件门级所能理解的机器代码。处理器804可以包含用于处
理计算密集型任务的图形处理单元(GPU)。特别是在机器学习中,一或多个CPU 804可以将
大量数据的处理分流到一或多个GPU 804。
[0792] 处理器804可以通过一或多个通讯接口807(如网络接口卡、WiFi收发器等)与外部网络通信。总线805使I/O子系统802、处理器804、外围装置806、通信接口807、存储器808和永久性存储器810可通信地耦接。本公开的实施例不限于这种代表性架构。替代实施例可以
采用不同的配置和组件类型,例如用于输入-输出组件和存储器子系统的单独总线。
[0793] 所属领域的技术人员将了解,本公开实施例中的一些或全部元件和其伴随操作可以完全或部分地通过一或多个计算机系统来实施,所述计算机系统包含一或多个处理器和
一或多个存储器系统,如计算机系统800的那些。具体地说,本文所描述的LIMS系统200和任
何机器人和其它自动化系统或装置的元件可以通过计算机实施。举例来说,一些元件和功
能可以在本地实施且其它可以按通过不同服务器的网络分布方式(例如客户-服务器方式)
实施。具体地说,可以使服务器一侧的操作按软件即服务(SaaS)方式供多个客户使用,如图
32中所示。
[0794] 术语组件在此背景中广泛地指软件、硬件或固件(或其任何组合)组件。组件典型地是能够利用所指定的输入来产生适用数据或其它输出的功能组件。组件可以是或可以不
是独立的。应用程序(也称为“应用”)可以包含一或多个组件,或组件可以包含一或多个应
用程序。
[0795] 一些实施例包含所述组件中的一些、全部或悉缺以及其它模块或应用组件。再者,各种实施例可以将这些组件中的两种或更多种合并成单一模块且/或使这些组件中的一或
多种的一部分功能与不同组件关联。
[0796] 术语“存储器”可以是用于存储信息的任何装置或机构。根据本公开的一些实施例,存储器旨在涵盖(但不限于):易失性存储器、非易失性存储器和动态存储器中的任何类
型。举例来说,存储器可以是随机存取存储器、存储器存储装置、光学存储器装置、磁性媒
体、软盘、磁带、硬盘驱动器、SIMM、SDRAM、DIMM、RDRAM、DDR RAM、SODIMMS、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、光盘、DVD和/或类似物。根据一些实施例,存储器可以包含一或多个磁盘驱动器、闪存驱动器、数据库、本地高速缓冲存储器、处理器高速缓存存储器、关系数据库、平面数据库、服务器、基于云端的平台和/或类似物。
另外,所属领域的技术人员将了解,可以使用存储信息的许多其它装置和技术作为存储器。
[0797] 存储器可以用于存储指令以便在处理器上运行一或多个应用程序或模块。举例来说,存储器在一些实施例中可以用于容纳执行本申请中所公开的一或多种模块和/或应用
程序的功能所需的全部或一些指令。
[0798] 基于基因设计预测的HTP微生物菌株工程改造:实例工作流程
[0799] 在一些实施例中,本公开教示基于本公开的计算分析系统的建议对新宿主生物体进行定向工程改造。
[0800] 在一些实施例中,本公开与所有基因设计和克隆方法兼容。即,在一些实施例中,本公开教示传统克隆技术的使用,如聚合酶链反应、限制酶消化、连接、同源重组、RT PCR以及所属领域中通常已知的其它技术,且公开于例如:萨布鲁克(Sambrook)等人(2001),《分
子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)》(第3版,冷泉港实验室
出版社(Cold Spring Harbor Laboratory Press),纽约普莱恩维尤(Plainview,New 
York),所述文献以引用的方式并入本文中。
[0801] 在一些实施例中,所克隆的序列可以包含来自本文所教示的任何HTP基因设计文库的可能性,例如:来自启动子交换文库的启动子、来自SNP交换文库的SNP、来自起始/终止密码子交换文库的起始或终止密码子、来自STOP交换文库的终止子、来自溶解性标签交换
文库的蛋白质溶解性标签、来自降解标签交换文库的蛋白质降解标签,或来自序列优化文
库的序列优化。
[0802] 另外,特定构筑体中应该包含的恰当序列组合可以通过上位性映射功能知悉。
[0803] 在其它实施例中,所克隆的序列还可包含基于合理设计(假设驱动型)的序列和/或基于其它来源(如科学出版物)的序列。
[0804] 在一些实施例中,本公开教示定向工程改造方法,包含如下步骤:i)产生定制的SNP特异性DNA;ii)组装SNP特异性质粒;iii)用SNP特异性DNA转化目标宿主细胞;和iv)使
任何选择标记环出(参见图2)。
[0805] 图6A描绘了本公开的菌株工程改造方法的通用工作流程,包含获取和组装DNA、组装载体、转化宿主细胞和去除选择标记。
[0806] 建构特异性DNA寡核苷酸
[0807] 在一些实施例中,本公开教示插入和/或置换和/或改变和/或缺失宿主细胞生物体中的DNA区段。在一些方面中,本文教示的方法涉及建构将并入宿主生物体基因组中的所
关注寡核苷酸(即,目标DNA区段)。在一些实施例中,本公开的目标DNA区段可以通过所属领
域中已知的任何方法获得,包含:拷贝或从已知模板中切割、突变或DNA合成。在一些实施例中,本公开与用于产生目标DNA序列的市售基因合成产物(例如GeneArtTM、GeneMakerTM、
GenScriptTM、AnagenTM、Blue HeronTM、EntelechonTM,GeNOsys有限公司,或QiagenTM)兼容。
[0808] 在一些实施例中,目标DNA区段被设计成以将SNP并入宿主生物体的所选DNA区域中(例如添加有益SNP)。在其它实施例中,DNA区段被设计成以从宿主生物体的DNA中去除
SNP(例如去除有害或中性SNP)。
[0809] 在一些实施例中,本发明方法中所用的寡核苷酸可以使用所属领域中已知的任何酶或化学合成方法合成。寡核苷酸可以在固体载体上合成,所述固体载体如可控微孔玻璃
(CPG)、聚苯乙烯珠粒,或由可以含有CPG的热塑性聚合物组成的膜。寡核苷酸还能够在并行
的微米尺度上、按阵列方式、使用微流体(田(Tian)等人,《分子生物系统(Mol.BioSyst.)》,
5,714-722(2009))或提供两者组合的已知技术(参见雅各布森(Jacobsen)等人,第2011/
0172127号美国专利申请)合成。
[0810] 按阵列方式或通过微流体方式的合成优于传统固体载体合成之处在于通过减少试剂使用降低了成本。基因合成所需的规模低,因此通过阵列或通过微流体合成的寡核苷
酸产物的规模是可接受的。然而,所合成的寡核苷酸的质量低于使用固体载体合成时(参见
田(Tian),见下文;也参见施泰勒(Staehler)等人,第2010/0216648号美国专利申请)。
[0811] 自从1980年代首次描述传统的四步亚磷酰胺化学方法以来,所述化学方法已经实现大量的进步(参见例如丝兹查勒(Sierzchala)等人,《美国化学学会杂志
(J.Am.Chem.Soc.)》,125,13427-13441(2003),其使用过氧基阴离子脱除保护基;早川
(Hayakawa)等人,美国专利第6,040,439号,其关于替代保护基团;阿杂叶维(Azhayev)等
人,《四面体(Tetrahedron)》57,4977-4986(2001),其关于通用载体;考兹洛维(Kozlov)等人,《核苷、核苷酸和核酸(Nucleosides,Nucleotides,and Nucleic Acids)》,24(5-7),
1037-1041(2005),其关于通过使用大孔隙CPG改进较长寡核苷酸的合成;以及丹哈(Damha)
等人,《核酸研究(NAR)》,18,3813-3821(1990),其关于改进的衍生化)。
[0812] 不论合成的类型,所得寡核苷酸接着可以形成较小的结构单元用于较长的寡核苷酸。在一些实施例中,较小寡核苷酸可以使用所属领域中已知的方案连接在一起,如聚合酶
链组装体(PCA)、连接酶链反应(LCR)和热力学平衡的由内而外合成(TBIO)(参见兹阿尔
(Czar)等人《,生物技术趋势(Trends in Biotechnology)》,27,63-71(2009))。在PCA中,在多个循环(典型地约55个循环)中使跨越所期望较长产物的整个长度的寡核苷酸粘接且延
长以最终获得全长产物。LCR使用连接酶将两个寡核苷酸连接,所述两个寡核苷酸均粘接到
第三寡核苷酸。TBIO合成始于所期望产物的中心且通过使用重叠寡核苷酸而在两个方向上
逐渐地延长,所述重叠寡核苷酸与位于基因的5'端的正向链同源且与位于基因的3'端的反
向链非同源。
[0813] 另一种合成较大双链DNA片段的方法是通过顶端链PCR(TSP)合并较小寡核苷酸。在这个方法中,多种寡核苷酸跨越所期望产物的整个长度且含有相邻寡核苷酸的重叠区
域。可以使用通用正向和反向引物执行扩增,且通过多个循环的扩增来形成全长双链DNA产
物。此产物接着可以经历任选的差错校正和进一步的扩增,产生所期望的双链DNA片段最终
产物。
[0814] 在TSP的一种方法中,进行组合而形成所期望全长产物的较小寡核苷酸集合具有40-200个之间的碱基长度且彼此重叠至少约15-20个碱基。就实用目的来说,重叠区域的最
小长度应该足以确保寡核苷酸的特异性粘接且具有足够高的解链温度(Tm),以便在所用反
应温度下粘接。重叠可以延伸到所指定寡核苷酸被相邻寡核苷酸完全叠覆的点。重叠的量
似乎对最终产物的质量无任何影响。组装体中的第一个和最后一个寡核苷酸结构单元应该
含有正向和反向扩增引物的结合位点。在一个实施例中,第一个和最后一个寡核苷酸的末
端序列含有互补的相同序列以允许使用通用引物。
[0815] 组装/克隆定制质粒
[0816] 在一些实施例中,本公开教示构筑载体的方法,所述载体能够将所期望的目标DNA区段(例如含有特定SNP)插入宿主生物体的基因组中。在一些实施例中,本公开教示克隆载
体的方法,所述载体包括目标DNA、同源臂和至少一个选择标记(参见图3)。
[0817] 在一些实施例中,本公开与适合于转化到宿主生物体中的任何载体相容。在一些实施例中,本公开教示与宿主细胞相容的穿梭载体的使用。在一个实施例中,本文所提供的
方法中使用的穿梭载体是与大肠杆菌和/或棒状杆菌属宿主细胞相容的穿梭载体。本文所
提供的方法中使用的穿梭载体可以包括如本文所描述用于选择和/或反向选择的标记。标
记可以是所属领域中已知和/或本文提供的任何标记。穿梭载体可进一步包括适用于组装
所述穿梭载体的任何调节序列和/或序列,如所属领域已知。穿梭载体可进一步包括任何复
制起点,所述复制起点可以是在如本文所提供的宿主细胞(例如大肠杆菌或谷氨酸棒状杆
菌)中繁殖所需要的。调节序列可以是所属领域中已知或本文提供的任何调节序列,例如宿
主细胞的基因机器所用的启动子、起始、终止、隔离子、信号、分泌和/或终止序列。在某些情况下,可以将目标DNA插入获自任何储存库或目录产物的载体、构筑体或质粒中,如商业载
体(参见例如DNA2.0定制版或 载体)。在某些情况下,可以将目标DNA插入获自
任何储存库或目录产物的载体、构筑体或质粒中,如商业载体(参见例如DNA2.0定制版或
载体)。
[0818] 在一些实施例中,本公开的组装/克隆方法可以采用以下组装策略中的至少一种:i)II型传统克隆;ii)II S型介导或“金门控”克隆(参见例如恩格勒C.(Engler,C.),R.康德兹(R.Kandzia)和S.马里约内(S.Marillonnet),2008,“具有高通量能力的一锅一步精确克
隆方法(A one pot,one step,precision cloning method with high-throughput 
capability)”,《公共科学图书馆综合(PLos One)》卷3:e3647;科特纳I.(Kotera,I.)和T.长井(T.Nagai),2008,“使用DNA聚合酶抑制剂和IIS型限制酶对粗PCR产物的高通量单管式
重组(A high-throughput and single-tube recombination of crude PCR products 
using a DNA polymerase inhibitor and type IIS restriction enzyme)”《,生物技术
杂志(J Biotechnol)》137:1-7.;韦伯E.(Weber,E.),R.格鲁兹勒(R.Gruetzner),S.沃尔纳(S.Werner),C.恩格勒(C.Engler)和S.马里约内(S.Marillonnet),2011,通过金门控克隆
组装设计者TAL效应子(Assembly of Designer TAL Effectors by Golden Gate 
Cloning),《公共科学图书馆综合》卷6:e19722);iii) 重组;iv) 克隆、
核酸外切酶介导组装(艾斯兰迪斯(Aslanidis)和德迥(de Jong),1990,“PCR产物的连接非
依赖性克隆(LIC-PCR)(Ligation-independent cloning of PCR products(LIC-PCR))”,
《核酸研究(Nucleic Acids Research)》,第18卷,第20 6069期);v)同源重组;vi)非同源末端连接;vii)吉布森组装(Gibson assembly)(吉布森(Gibson)等人,2009,“长达数百个千
碱基的DNA分子的酶促组装(Enzymatic assembly of DNA molecules up to several 
hundred kilobases)”,《自然方法(Nature Methods)》,6,343-345)或其组合。基于IIS型的模块化组装策略公开于PCT公开WO 2011/154147中,其公开内容以引用的方式并入本文中。
[0819] 在一些实施例中,本公开教示具有至少一个选择标记的克隆载体。各种选择标记基因在所属领域中已知,其通常编码抗生素抗性功能以便在原核细胞(例如针对安比西林
(ampicillin)、卡那霉素(kanamycin)、四环素(tetracycline)、氯霉素
(chloramphenicol)、匀霉素(zeocin)、观霉素/链霉素(spectinomycin/streptomycin))或
真核细胞(例如遗传霉素(geneticin)、新霉素(neomycin)、潮霉素(hygromycin)、嘌呤霉素
(puromycin)、杀稻瘟菌素(blasticidin)、匀霉素)中、在选择性压力下进行选择。其它标记系统实现了所需或非所需细胞的筛选和鉴定,如众所周知的蓝/白斑筛选系统,其在细菌中
用于在X-gal或荧光报告基因(如成功转导的宿主细胞中所表达的绿色或红色荧光蛋白)存
在下选择阳性克隆。另一类选择标记(其中大部分在原核生物系统中仅具功能性)是指反向
可选标记基因,通常也称为“死亡基因”,其表达杀死生产者细胞的毒性基因产物。这类基因的实例包含sacB、rpsL(strA)、tetAR、pheS、thyA、gata-1或ccdB,其功能描述于(雷拉特
(Reyrat)等人,1998,“反向可选标记:细菌遗传学和发病机理的未使用工具
(Counterselectable Markers:Untapped Tools for Bacterial Genetics and 
Pathogenesis)”,《感染与免疫(Infect Immun.)》,66(9):4011-4017)。
[0820] DNA载体组装,扩增和基因组编辑
[0821] 在一些实施例中,本公开教示对大肠杆菌具有特异性的基因工程改造步骤。在一些实施例中,本公开因此教示构筑构筑体且在大肠杆菌中扩增构筑体的方法,以及工程改
造大肠杆菌的方法。
[0822] 在一些实施例中,本公开的DNA载体包括:i)条件性复制起点(R6K),ii)抗生素抗性基因,iii)一或多个反向选择基因(例如sacb和/或PheS)和iv)酿酒酵母的复制起点。
[0823] 在一些实施例中,本公开教示在营养缺陷型酿酒酵母中组装DNA构筑体的方法。因此,在一些实施例中,本公开的载体包括酿酒酵母的复制起点。这准许载体在组装期间在酿
酒酵母中进行复制。
[0824] 在一些实施例中,本公开教示在含有pir蛋白的大肠杆菌中进行所组装DNA繁殖的方法。因此,在一些实施例中,本公开的载体包括R6K复制起点。在一些实施例中,R6K复制起点的条件是存在pir蛋白。也就是说,在一些实施例中,本发明所公开的包括R6K复制起点的
载体将仅在包括pir基因的宿主细胞中扩增。这允许研究人员在载体构筑和扩增步骤期间
扩增本公开的载体,同时也预防在宿主细胞工程改造步骤期间载体的染色体外表达。
[0825] 在一些实施例中,本公开的载体包括PheS基因。大肠杆菌苯丙氨酰基-tRNA合成酶(PheS)可适用作反向选择标记,这是由于其A294G变体在翻译期间错掺4-氯-苯丙氨酸
(4CP)到细胞蛋白质中,借此导致细胞死亡。在一些实施例中,PheS基因被设计成暂时并入
到宿主细胞的基因组中。在一些实施例中,本公开教示反向选择方法,包括使宿主细胞在具
有4CP的基本培养基中生长。仍包括载体的细胞将并入4CP到蛋白质中且死亡。已环出PheS
序列的细胞存活。
[0826] 在一些实施例中,本公开教示构筑载体、组装和将载体整合到宿主细胞中的方法。在一些实施例中,本公开教示,通过PCR来对同源臂(homL和homR)进行扩增。在一些实施例
中,所期望的基因变化(homL与homR之间的黑色条)存在于homL的反向引物和homR的正向引
物中(参见图3)。在一些实施例中,homL的正向引物和homR的反向引物与骨架质粒具有序列
同源性。在图45中描绘环入和环出过程的进一步说明。
[0827] 在一些实施例中,本公开的载体包括一或多个隔离子序列。隔离子序列可以是所属领域中已知的任何隔离子序列。在一个实施例中,隔离子核酸序列是隔离子1序列(SEQ 
ID NO.218)、隔离子2序列(SEQ ID NO.219)或本文提供的隔离子1和2序列两个。在一个实
施例中,本公开的载体包括侧接同源臂(homL和homR)的隔离子序列。在一个实施例中,本公
开的载体包括侧接同源臂(homL和homR)的隔离子序列和终止子序列。可产生不含限制性核
酸内切酶序列的隔离子序列。
[0828] 在一些实施例中,本公开的载体包括本文提供的元件的组合。在一些情况下,用于本文所提供的方法中的载体可包括R6K复制起点、SacB基因、作为反向选择标记的PheS基因
和URA3酵母营养缺陷型标记,例如载体1(参见图55),其具有SEQ ID NO.214的核酸序列。在
一些情况下,用于本文所提供的方法中的载体可以是载体1的变化形式,例如载体2(参见图
56),其具有SEQ ID NO.215的核酸序列。除先前针对载体1所叙述的元件以外,载体2可进一
步包括见于表15中的元件。用于本文所提供的方法中的额外载体包含载体3(核酸SEQ ID 
NO.216;图57)和载体4(核酸SEQ ID NO.217;图58)。载体3和4均是在载体2背景上建构。然
而,在载体3中,sacB的启动子序列被含有P2-MCD2启动子的启动子(参见穆塔利克等人,《自然方法》,2013年4月;10(4):354-60)和含有T251A/A294G突变的密码子优化形式的原生
pheS基因(参见米亚克K(Miyazaki,K),《生物技术(Biotechniques)》,2015年2月1日;58
(2):86-8)置换,而载体4包括载体3背景,其中URA3选择标记被TRP1标记置换。
[0829] 表15.所选择的载体2的序列元件
[0830]
[0831]
[0832] 根据本公开的一个实施例的与DNA组装相关的通用工作流程在图35中示出。
[0833] 在一些实施例中,主链和插入物(homL和homR)中的DNA组装是通过酵母间隙修复重组在酵母中进行。在一些实施例中,营养缺陷型标记(TRP或URA)存在于骨架质粒中,以用
于选择基本培养基中的所组装的DNA。接着,从酵母培养物中提取出所组装的质粒。
[0834] 在一些实施例中,接下来,将所提取的质粒转化到含有pir基因的大肠杆菌菌株中,以繁殖所期望的质粒以用于随后对所关注菌株进行转化。针对对指定抗生素的抗性,选
择转化体。将挑选转化体用于测序,以选择正确组装的所关注质粒。
[0835] 在一些实施例中,通过电穿孔,将正确组装的质粒转化到宿主细胞中,以用于基因组工程改造。由于目标宿主细胞不含有pir蛋白,所以预期形成于抗生素选择性培养基上的
菌落将已将质粒整合在基因组的所期望基因座处。正确的质粒整合可通过PCR来验证,其中
引物分别在homL和homR外,且引物在内部结合质粒。
[0836] 在一些实施例中,本公开教示从宿主基因组去除质粒主链的环出方法。因此,在一些实施例中,本公开教示,在反向选择性培养基(蔗糖)和/或4CP上的后续选择可用于分离
不含有质粒的主链部分的克隆。因此,在一些实施例中,将所分离的包括正确整合的宿主细
胞接种在LB培养基中,且将培养物涂铺在含有蔗糖和4-p-氯-苯丙胺酸的LB琼脂板(LB+suc
+4CP)上。由于表达sacB基因的细胞对于蔗糖的敏感性和表达PheS的细胞对于4CP的敏感
性,预期形成于LB+suc+4CP琼脂板上的菌落将具有所关注基因的突变体或野生型。目标核
苷酸的PCR扩增和PCR产物的测序允许我们分离具有所期望的基因组修饰的新颖克隆。
[0837] 在一些实施例中,对所得克隆进行测序,以找到具有所期望核苷酸变化的克隆。在一些实施例中,可用液体处理器来进行以上的所有方法。
[0838] 宿主细胞的转化
[0839] 在一些实施例中,可以使用多种技术中的任一种将本公开的载体引入宿主细胞中,所述技术包含转化、转染、转导、病毒感染、基因枪或Ti介导的基因转移(参见克里斯蒂P.J.(Christie,P.J.)和戈登J.E.(Gordon,J.E.),2014“农杆菌Ti质粒(The 
Agrobacterium Ti Plasmids)”,微生物学谱(Microbiol SPectr.),2014;2(6);10.1128)。
特定方法包含磷酸钙转染、DEAE-聚葡萄糖介导转染、脂质粒转染或电穿孔(戴维斯L.
(Davis,L.),迪波乐M.(Dibner,M.),巴特I.(Battey,I.),1986“分子生物学的基本方法
(Basic Methods in Molecular Biology)”)。其它转化方法包含例如乙酸锂转化和电穿
孔。参见例如杰兹(Gietz)等人,《核酸研究(Nucleic Acids Res.)》,27:69-74(1992);伊藤(Ito)等人《,细菌学杂志(J.Bacterol.)》153:163-168(1983);和贝克尔(Becker)和加伦特(Guarente),《酶学方法(Methods in Enzymology)》194:182-187(1991)。在一些实施例中,转化的宿主细胞称为重组宿主菌株。
[0840] 在一些实施例中,本公开教示使用本公开的96孔板机器人平台和液体处理机器高通量转化细胞。
[0841] 在一些实施例中,本公开教示用如上文所描述的一或多种选择标记筛选已转化的细胞。在一个此类实施例中,将用包括卡那霉素抗性标记(KanR)的载体转化的细胞涂铺于
含有有效量的卡那霉素抗生素的培养基上。推测加入卡那霉素的培养基上可见的菌落形成
单位,以将载体盒并入其基因组中。所期望序列的插入可以通过PCR、限制酶分析和/或相关
插入位点的测序来确认。
[0842] 所选序列的环出
[0843] 在一些实施例中,本公开教示使DNA的所选区域从宿主生物体中环出的方法。环出方法可以如中岛(Nakashima)等人,2014“通过基因组编辑和基因静默进行的细菌细胞工程
改造(Bacterial Cellular Engineering by Genome Editing and Gene Silencing)”,
《国际分子科学杂志(Int.J.Mol.Sci.)》15(2),2773-2793中所描述。在一些实施例中,本公开教示使选择标记从阳性转化体中环出。环出缺失技术在所属领域中已知,且描述于(替尔
(Tear)等人,2014“不稳定人工基因特异性反向重复序列的切除介导了大肠杆菌中的无痕
基因缺失(Excision of Unstable Artificial Gene-Specific inverted Repeats 
Mediates Scar-Free Gene Deletions in Escherichia coli)”《,应用生物化学和生物技
术(Appl.Biochem.Biotech.)》175:1858-1867)。本文所提供的方法中使用的环出方法可以
使用单一互换型同源重组或双重互换型同源重组执行。在一个实施例中,所选区域如本文
所描述环出可能需要使用如本文所描述的单一互换型同源重组。
[0844] 首先,将环出载体插入宿主生物体基因组内的所选目标区域中(例如通过同源重组、CRISPR、lambda red介导的重组工程或其它基因编辑技术)。在一个实施例中,单一互换型同源重组是在圆形质粒或载体与宿主细胞基因组之间使用,以便使圆形质粒或载体环
入,如图3中所描绘。所插入的载体可以使用作为现有或邻近引入的宿主序列的直接重复序
列的序列设计,以便直接重复序列侧接预定成环和缺失的DNA区域。一经插入,可以根据选
择区域的缺失来反向选择含有环出质粒或载体的细胞(参见例如图4;缺乏针对选择基因的
抗性)。在图45中描绘环入和环出过程的进一步说明。
[0845] 所属领域中的技术人员将认识到,环出程序的描述仅显示了使非所需区域从基因组中缺失的一种说明性方法。的确,本公开的方法与用于基因组缺失的任何方法兼容,包含
(但不限于)通过lambda red、CRISPR、TALENS、FOK或其它核酸内切酶进行的基因编辑。所属领域的技术人员还将了解通过同源重组技术能够置换基因组的非所需区域。
[0846] Lambda RED介导的基因编辑
[0847] 如本文所提供的,如本文所描述的基因编辑可使用Lambda Red介导的同源重组来进行,如达森科(Datsenko)和万内尔(Wanner),《美国国家科学院院刊(PNAS USA)》97:
6640-6645(2000)所描述,所述文献的内容以全文引用的方式并入本文中。
[0848] lambda red系统来源于lambda red噬菌体,且其用作基因工程改造工具,其可被称为用于同源重组介导的基因工程改造的重组工程-短(recombineering-short)。其可用
于制备一类修饰:插入和缺失可选择和非可选择的序列、点突变或其它小碱基对变化,和添
加蛋白质标签。其还具有用于修饰大肠杆菌染色体、质粒DNA或BAC DNA的柔性。为了使用
lambda red重组工程系统来修饰目标DNA,可将线性供体DNA底物(dsDNA或ssDNA,参见下
文)电穿孔到表达lambda red酶的大肠杆菌中。接着,这些酶催化底物与目标DNA序列进行
同源重组。这意味着相较于基因变化发生在试管中的限制酶克隆,克隆发生在活体内。供体
DNA底物仅需要与目标位点具有~50个核苷酸同源性来进行重组。
[0849] lambda red重组工程系统具有三个组分:1)Exo,2)β和3)Gam。所有三个组分均为与dsDNA底物进行重组工程所需的;然而,在产生ssDNA底物修饰时仅需要β。
[0850] Gam:Gam预防内源性RecBCD和SbcCD核酸酶两个消化引入到大肠杆菌宿主细胞中的线性DNA。
[0851] Exo:Exo是5'→3'dsDNA依赖性核酸外切酶。Exo可从5'端开始降解线性dsDNA,且产生2种可能产物:1)具有单链3'突出端的部分地dsDNA双螺旋或2)(如果dsDNA足够短)
ssDNA,其整个互补链被降解。
[0852] β:β可保护由Exo产生的ssDNA,且促进其粘接到细胞中的互补ssDNA目标。对于与ssDNA寡核苷酸底物进行重组工程,仅需要β表达。
[0853] 对于本文所用,lambda red重组工程方法可能需要设计和产生底物DNA;表达lambda red重组基因;转化(例如电穿孔)底物DNA;使转化体生长;和选择和确认重组克隆。
[0854] 底物DNA设计和产生
[0855] 是使用线性dsDNA底物还是使用ssDNA底物,可取决于实验的目标。dsDNA底物对于大于大约20个核苷酸的插入或缺失可为最佳的,而ssDNA底物对于仅少数碱基对的点突变
或变化可为最佳的。
[0856] dsDNA底物
[0857] 可通过PCR,使用扩增所关注DNA序列且其侧接与靶向插入位点具有同源性的50个碱基对的引物,来制备dsDNA插入物。引物可以是~70个核苷酸长(20个核苷酸粘接到所关
注DNA序列,且50个核苷酸与侧接目标位点的区域具有同源性)。dsDNA插入物可包含:较大
插入或缺失,包含可选择DNA片段(如抗生素抗性基因)以及非可选择DNA片段(如基因置换)
和标签。
[0858] ssDNA底物
[0859] ssDNA底物可以是合成寡核苷酸或短PCR产物。无论哪种方式,底物应为~70-100个核苷酸长,其中所期望的改变位于序列中心。由于当靶向DNA的后滞链时,lambda red具
有较高重组频率,所以最好通过所关注目标区域来确定复制的方向且设计与后滞链互补的
寡核苷酸。在一些情况下,设计靶向两条链的寡核苷酸。两种寡核苷酸中的一种将比另一种
(其可帮助辨识后滞链)以更高的效率重组。
[0860] ssDNA底物可比dsDNA以在0.1%到1%之间的重组频率更高效,且可通过设计避免活化甲基定向错配修复(MMR)系统的寡核苷酸来增加到高达25-50%。MMR的作用是校正在
DNA复制期间发生的DNA错配。MMR的活化可通过以下来避免:1)使用已基因敲除关键MMR蛋
白的细菌菌株或2)专门设计ssDNA寡核苷酸来避免MMR:1)具有失活MMR的大肠杆菌:使用具
有无活性MMR的大肠杆菌明确地在两种选择中更容易,但这些细胞倾向于突变且可具有相
对于其基因组更多非预期变化;2)设计避免MMR活化的ssDNA寡核苷酸。在一个实施例中,在
编辑位点处或在编辑位点的6个碱基对内引入C/C错配。在另一实施例中,所期望的变化侧
接有在变偶密码子中的4-5个沉默变化,即,使相邻4-5个密码子的第三碱基对变化,所述变
化改变核苷酸序列但不改变所翻译蛋白质的氨基酸序列。这些变化可在所期望的变化的5'
或3'处。
[0861] Lambda Red重组基因的表达
[0862] 可通过以下在宿主细胞中表达lambda red重组工程系统:1)从整合缺陷型前噬菌体的细菌,2)从质粒,3)从微型-λ,或4)从lambda red噬菌体自身。控制Red蛋白质的表达对于使Gam表达的毒性效果降到最低和限制当组成性表达Red时发生的自发突变是关键的。您
使用的哪种重组系统取决于您想要编辑何种类型的DNA;然而,BAC DNA可用以下描述的方
法中的任一种来进行修饰。
[0863] 整合有缺陷型前噬菌体的细菌菌株:
[0864] 存在多种大肠杆菌菌株,其由于整合有缺陷型lambda red噬菌体而稳定表达lambda red重组工程基因。这样一个菌株是DY380,其衍生于DH10B大肠杆菌菌株。常用于重
组工程的几种其它细菌菌株可见于以下中:托马森(Thomason)等人(重组工程:使用同源重
组在细菌中进行基因工程改造(Recombineering:Genetic Engineering in Bacteria 
Using Homologous Recombination)《,现代分子生物学实验技术(Current Protocols in 
Molecular Biology)》106:V:1.16:1.16.1-1.16.39)和沙兰(Sharan)等人(重组工程:一种
基于同源重组的基因工程改造方法(Recombineering:A Homologous Recombination-
Based Method of Genetic Engineering),《自然实验手册》,2009;4(2):206-223)。
[0865] 在这些菌株中的一些中,exo、β和gam的表达紧密地通过内源性噬菌体启动子pL和抑制子CI调控。出于重组工程的目的,使用温度敏感性形式的抑制子基因CI857。突变体抑
制子预防重组基因在低温下(30-34℃)表达。将细菌转移到42℃15分钟快速使抑制子失活
且使重组基因表达。在这之后,降低温度,使抑制子恢复且再次抑制exo、β和gam的表达。使用这个方法对于lambda red表达的一个主要优点是,其不需要抗生素选择来维持重组工程
系统的表达。这个设置还可用于修饰染色体基因。在初始编辑事件之后,可通过第二lambda red重组事件,从宿主大肠杆菌的染色体去除缺陷型前噬菌体。可替代地,如果已修饰的等
位基因是可选择的,那么可通过P1转导将其转移到不同基因背景。
[0866] 质粒:
[0867] 从质粒表达lambda red基因允许移动式重组工程系统,但成功实验需要对表达进行紧密调控。常用于控制Red表达的启动子包含IPTG诱导性lac启动子、阿拉伯糖诱导性
pBAD启动子和内源性噬菌体pL启动子。也表达与这些启动子(lacI、araC、cI857)相关的抑
制子的质粒可用于一些情况,以便限制Red系统的渗漏表达。使用质粒来表达lambda重组工
程系统可用于编辑细菌染色体DNA,这是因为在产生重组克隆后易于去除重组工程系统。进
行这个操作的一种简单方式是从具有热敏性复制起点的质粒表达lambda red基因。一旦不
再需要重组工程系统,细菌可通过使其在42℃下生长而“清除(cured)”。
[0868] 微型λ:
[0869] 在使用质粒与稳定整合缺陷型前噬菌体之间的杂交体将使用微型λ,一种缺陷型非复制性环状噬菌体DNA片段,当引入到细菌中时其整合到基因组中。微型λ使用内源性red
启动子pL和cI857抑制子来调控表达。抗生素可用于选择阳性克隆,但因为微型λ稳定地整
合,对于维持不需要进行药物选择。温度偏移到42℃不仅允许重组工程所需的red基因活
化,且还引起负责从宿主的染色体切除微型λ的int和xis基因的表达。在这之后,可如质粒
一样,容易地从细菌中纯化出微型λ。
[0870] 噬菌体:
[0871] 用于表达Red系统的另一选择可以使用携带四环素抗性基因的lambda red噬菌体λTetR,和lambda red抑制子cI857。一旦引入,前噬菌体是稳定的且不再需要进行药物选
择。这个方法的一个缺点是,其需要产生噬菌体,这不是一种常见的分子生物学技术。然而,这个方法的一个优点是,您可以将Red系统稳定地整合到所关注的yoa菌株中,且P1转导可
用以将修饰移动到不同背景中(如果需要)。这个方法最适合于修饰质粒或BAC,这是因为其
使得将噬菌体稳定地整合到大肠杆菌基因组中。
[0872] 重组克隆的选择和确认
[0873] 如果已插入抗生素抗性基因,那么可首先通过抗生素抗性来选择重组体,但所有克隆应进行进一步测试以确认所期望修饰的存在。菌落PCR可用于在大多数情况下筛选阳
性克隆,且限制酶消化可用于针对适当的突变筛选质粒。点突变和其它细微的变化可通过
测序来确认,所述测序也可用于确认所有克隆,不管靶向何种类型的DNA用于修饰:大肠杆
菌染色体、质粒或BAC。
[0874] CRISPR介导的基因编辑
[0875] 在本文提供的一个方面中,宿主细胞的基因组可通过CRISPR进行修饰。用于利用CRISPR/Cas9系统以在大肠杆菌中进行基因编辑的示例性实施例可见于实例18和19中。
[0876] CRISPR/Cas系统是一种赋予外来遗传元件(如存在于质粒和噬菌体内的那些)抗性且提供一种获得性免疫形式的原核免疫系统。CRISPR表示聚类的、规律间隔的短回文重
复序列,且cas表示与CRISPR相关的系统,且是指与CRISPR复合物相关的小型cas基因。
[0877] CRISPR-Cas系统最广泛地表征为1类或2类系统。这两个系统之间的主要区别特征是Cas效应模块的性质。1类系统需要将多种Cas蛋白质组装在复合物(称为“级联复合物”)
中以介导干扰,而2类系统使用大型单一Cas酶来介导干扰。基于特定Cas蛋白质的存在,将1
类和2类系统中的每一种进一步划分成多个CRISPR-Cas类型。举例来说,将1类系统分成以
下三种类型:I型系统,其含有Cas3蛋白质;III型系统,其含有Cas10蛋白质;和推定的IV型系统,其含有Csf1蛋白质,一种Cas8样蛋白质。2类系统一般比1类系统少见且进一步分成以
下三种类型:II型系统,其含有Cas9蛋白质;V型系统,其含有Cas12a蛋白质(此前被称为
Cpf1,且在本文中称为Cpf1)、Cas12b(此前被称为C2c1)、Cas12c(此前被称为C2c3)、Cas12d(此前被称为CasY)和Cas12e(此前被称为CasX);和VI型系统,其含有Cas13a(此前被称为
C2c2)、Cas13b和Cas13c。坡泽夏(Pyzocha)等人,《ACS化学生物学(ACS  Chemical 
Biology)》,第13(2)卷,第347-356页。在一个实施例中,用于本文所提供的方法中的
CRISPR-Cas系统是2类系统。在一个实施例中,用于本文所提供的方法中的CRISPR-Cas系统
是II型、V型或VI型2类系统。在一个实施例中,用于本文所提供的方法中的CRISPR-Cas系统
选自Cas9、Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas13a、Cas13b、Cas13c或其同系物、直系同源物或旁系同源物。
[0878] 本文所公开的方法中所用的CRISPR系统包括Cas效应模块,所述Cas效应模块包括一或多种核酸引导的与CRISPR相关的(Cas)核酸酶,其在本文中称为Cas效应蛋白。在一些
实施例中,Cas蛋白质可包括一或多个核酸酶结构域。Cas效应蛋白可以靶向单链或双链核
酸分子(例如DNA或RNA核酸)且可产生双链或单链断裂。在一些实施例中,Cas效应蛋白是野
生型或天然存在的Cas蛋白质。在一些实施例中,Cas效应蛋白为突变体Cas蛋白质,其中在
WT或天然存在的Cas蛋白质(例如亲本Cas蛋白质)中制备一或多个突变、插入或缺失,以产
生相较于亲本Cas蛋白质具有一或多个改变的特征的Cas蛋白质。
[0879] 在一些情况下,Cas蛋白质为野生型(WT)核酸酶。用于本公开中的适合的Cas蛋白质的非限制性实例包含:C2cl、C2c2、C2c3、Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Cpfl、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx100、Csx16、CsaX、Csx3、Csxl、Csx15、Csf1、Csf2、Csf3、Csf4、MAD1-
20、SmCsm1、其同系物、其直系同源物、其变体、其突变体或其修饰形式。适合的核酸引导的核酸酶(例如Cas  9)可来自以下属的生物体,其包含(但不限于):硫微螺菌属
(Thiomicrospira)、琥珀酸弧菌属(Succinivibrio)、厌氧氨氧菌属(Candidatus)、卟啉单
胞菌属(Porphyromonas)、酸单球菌(Acidomonococcus)、普雷沃氏菌属(Prevotella)、史密
斯菌属(Smithella)、莫拉菌属(Moraxella)、互养菌属(Synergistes)、弗朗西斯氏菌属
(Francisella)、钩端螺旋体属(Leptospira)、链型杆菌属(Catenibacterium)、坎蒂瑞菌属
(Kandleria)、梭菌属(Clostridium)、多尔氏菌属(Dorea)、粪球菌属(Coprococcus)、肠球
菌属(Enterococcus)、果芽孢杆菌属(Fructobacillus)、魏斯氏菌属(Weissella)、小球菌
属(Pediococcus)、棒状杆菌属(Corynebacter)、萨特氏菌属(Sutterella)、军团杆菌属
(Legionella)、密螺旋体属(Treponema)、罗斯氏菌属(Roseburia)、产线菌属
(Filifactor)、真杆菌属(Eubacterium)、链球菌属(Streptococcus)、乳酸菌属
(Lactobacillus)、支原体(Mycoplasma)、拟杆菌(Bacteroides)、弗雷菌(Flaviivola)、黄
杆菌(Flavobacterium)、诗菲氏菌(Sphaerochaeta)、固氮螺旋菌属(Azospirillum)、葡糖
醋杆菌属(Gluconacetobacter)、奈瑟菌属(Neisseria)、罗斯氏菌(Roseburia)、帕维杆菌
(Parvibaculum)、葡萄球菌属(Staphylococcus)、尼菲菌属(Nitratifractor)、支原体
(Mycoplasma)、脂环杆菌属(Alicyclobacillus)、布瑞杆菌(Brevibacilus)、芽孢杆菌
(Bacillus)、拟杆菌属(Bacteroidetes)、布瑞杆菌(Brevibacilus)、肉食杆菌属
(Carnobacterium)、梭状芽孢杆菌(Clostridiaridium)、梭菌属(Clostridium)、脱硫弯曲
杆菌(Desulfonatronum)、脱硫弧菌(Desulfovibrio)、创伤球菌属(Helcococcus)、纤毛菌
属(Leptotrichia)、李斯特菌属(Listeria)、嗜甲烷菌(Methanomethyophilus)、甲基杆菌
(Methylobacterium)、丰祐菌(Opitutaceae)、沼杆菌(Paludibacter)、红细菌属
(Rhodobacter)、诗菲氏菌(Sphaerochaeta)、芽孢乳杆菌(Tuberibacillus)和弯曲杆菌
(Campylobacter)。这类属的生物体的物种可以如本文中另外论述。
[0880] 适合的核酸引导的核酸酶(例如Cas9)可以是来自以下门的生物体,其包含(但不限于):厚壁菌门(Firmicute)、放线菌门(Actinobacteria)、拟杆菌门(Bacteroidetes)、变形菌门(Proteobacteria)、螺旋菌门(Spirochates)和软壁菌门(Tenericutes)。适合的核
酸引导的核酸酶可以是来自以下纲的生物体,其包含(但不限于):丹毒丝菌纲
(Erysipelotrichia)、梭菌纲、杆菌纲、放线菌纲、拟杆菌纲、黄杆菌纲、α变形菌纲、β变形菌纲、γ变形菌纲、δ变形菌纲、变形菌纲、螺旋体纲和柔膜菌纲。适合的核酸引导的核酸酶可以是来自以下目的生物体,其包含(但不限于):梭菌目、乳杆菌目、放线菌目、拟杆菌目、黄杆菌目、根瘤菌目、红螺菌目(Rhodospirillales)、伯克氏菌目(Burkholderiales)、奈瑟菌目(Neisseriales)、军团杆菌目(Legionellales)、纳利菌目(Nautiliales)、弯曲菌目
(Campylobacterales)、螺旋体目(Spirochaetales)、支原体目(Mycoplasmatales)和硫发
菌目(Thiotrichales)。适合的核酸引导的核酸酶可以是来自以下科内的生物体,其包含
(但不限于):毛螺菌科、肠球菌科、明串珠菌科、乳杆菌科、链球菌科、消化链球菌科、葡萄球菌科、优杆菌科、棒杆菌科、拟杆菌科、黄杆菌科、壳优菌科、红菌科、红螺菌科、醋杆菌科、萨特氏菌科、奈瑟菌科、军团菌科、纳利菌科、弯曲菌科、螺旋体科、支原体科和弗朗西斯氏菌科。
[0881] 适用于本公开的方法、系统和组合物的其它核酸引导的核酸酶(例如Cas9)包含来源于以下生物体的那些核酸,如(但不限于):硫微螺菌属XS5、直肠真杆菌、德氏琥珀酸弧菌属(Succinivibrio dextrinosolvens)、白蚁甲烷厌氧氨氧菌属(Candidatus 
Methanoplasma termitum)、腹嗜甲烷厌氧氨氧菌属(Candidatus Methanomethylophilus 
alvus)、柯氏卟啉单胞菌属(Porphyromonas  crevioricanis)、分支黄杆菌
(Flavobacterium branchiophilum)、酸单球菌属、毛螺菌科细菌COE1、短普雷沃氏菌属
ATCC 19188、史密斯菌属SCADC、牛眼莫拉菌属(Moraxella bovoculi)、琼斯氏互养菌属
(Synergistes jonesii)、口类拟杆菌274、土拉弗朗西斯菌(Francisella tularensis)、钩
端螺旋体纳呆血清变型莱姆菌株(Leptospira inadai serovar Lyme str.)10、晶体结构
酸单球菌属(5B43)变形链球菌、无乳球菌(S.agalactiae)、马链球菌(S.equisimilis)、血
链球菌(S.sanguinis)、炎链球菌(S.pneumonia);空肠弯曲杆菌(C.jejuni)、大肠弯曲杆
菌(C.coli);萨莎氏纳利菌(N.salsuginis)、特伽式纳利菌(N.tergarcus);阿瑞氏球菌
(S.auricularis)、卡诺氏球菌(S.carnosus);脑膜炎奈瑟氏菌(N.meningitides)、淋病奈
瑟氏菌(N.gonorrhoeae);单核球增多性李斯特菌(L.monocytogenes)、伊娃李斯特菌
(L.ivanovii);肉毒梭菌(C.botulinum)、艰难梭菌(C.difficile)、破伤风梭菌
(C.tetani)、产气荚膜梭菌(C.sordellii);土拉弗朗西斯菌(Francisella tularensis 
l)、阿尔贝氏普雷沃氏菌(Prevotella albensis)、毛螺菌科细菌MC2017 1、解蛋白丁酸弧
菌(Butyrivibrio proteoclasticus)、异域菌细菌(Peregrinibacteria bacterium)
GW2011_GWA2_33_10、俭菌总门细菌(Parcubacteria bacterium)GW2011_GWC2_44_17、史密
斯菌SCADC、微小吉诺菌(Microgenomates)、氨基酸球菌属BV3L6、毛螺菌科细菌MA2020、白
蚁甲烷厌氧氨氧菌(Candidatus Methanoplasma termitum)、挑剔真杆菌(Eubacterium 
eligens)、牛眼莫拉菌属(Moraxella bovoculi)237、纳呆钩端螺旋体属(Leptospira 
inadai)、毛螺菌科细菌ND2006、柯氏卟啉单胞菌属(Porphyromonas crevioricanis)3、解
糖胨普雷沃氏菌属(Prevotella disiens)、猕猴卟啉单胞菌(Porphyromonas macacae)、链
型杆菌属CAG:290、海豹坎蒂瑞菌(Kandleria vitulina)、梭菌目细菌KA00274、毛螺菌科细
菌3-2、长链多尔氏菌(Dorea longicatena)、灵巧粪球菌(Coprococcus catus)GD/7、鸽形
肠球菌(Enterococcus columbae)DSM 7374、果芽孢杆菌EFBN1、耐盐魏斯氏菌(Weissella 
halotolerans)、乳酸片球菌(Pediococcus acidilactici)、弯曲乳酸菌(Lactobacillus 
curvatus)、酿脓链球菌(Streptococcus pyogenes)、文氏乳酸菌(Lactobacillus 
versmoldensis)和阿氏产线菌(Filifactor alocis)ATCC 35896。参见美国专利第8,697,
359号、第8,771,945号、第8,795,965号、第8,865,406号、第8,871,445号、第8,889,356号、第8,895,308号、第8,906,616号、第8,932,814号、第8,945,839号、第8,993,233号、第8,
999,641号、第9,822,372号、第9,840,713;美国专利申请第13/842,859(US 2014/
0068797A1)号、第9,260,723号、第9,023,649号、第9,834,791号、第9,637,739;美国专利申请第14/683,443(US 2015/0240261 A1)号;美国专利申请第14/743,764(US 2015/0291961 
A1)号、第9,790,490号、第9,688,972号、第9,580,701号、第9,745,562号、第9,816,081号、第9,677,090号、第9,738,687;美国申请第15/632,222(US 2017/0369879 A1)号;美国申请
第15/631,989号;美国申请第15/632,001号;和美国专利第9,896,696号,其中的每一个以
引用的方式并入本文中。
[0882] 在一些实施例中,Cas效应蛋白包括以下活性中的一或多个:
[0883] 切口酶活性,即,使核酸分子的单链裂解的能力;
[0884] 双链核酸酶活性,即,使双链核酸的两条链裂解并且产生双链断裂的能力;
[0885] 核酸内切酶活性;
[0886] 核酸外切酶活性;和/或
[0887] 解螺旋酶活性,即,解开双链核酸的螺旋结构的能力。
[0888] 在本公开的各方面中,术语“引导核酸”是指多核苷酸,其包括:1)能够与目标序列杂交的引导序列(在本文中称为“靶向区段”),和2)能够与如本文所描述的核酸的引导核酸酶相互作用(单独或与tracrRNA分子组合)的骨架序列(在本文中称为“骨架区段”)。引导核
酸可以是DNA。引导核酸可以是RNA。引导核酸可包括DNA和RNA两个。引导核酸可包括修饰的
非天然存在的核苷酸。在引导核酸包括RNA的情况下,RNA引导核酸可由多核苷酸分子上的
DNA序列编码,如本文所公开的质粒、线性构筑体或编辑盒。
[0889] 在一些实施例中,本文所描述的引导核酸是RNA引导核酸(“引导RNA”或“gRNA”),且包括靶向区段和骨架区段。在一些实施例中,gRNA的骨架片段包括于一个RNA分子中且靶向区段包括于另一单独RNA分子中。这类实施例在本文中称为“双分子RNA”或“两分子gRNA”或“双RNA”。在一些实施例中,gRNA为单RNA分子且在本文中称为“单引导RNA”或“sgRNA”。术语“引导RNA”或“gRNA”(包含)是指两分子引导RNA和sgRNA两个。
[0890] gRNA的DNA靶向区段包括与目标核酸序列中的序列互补的核苷酸序列。因此,gRNA的靶向区段通过杂交以序列特异性方式与目标核酸相互作用(即,碱基配对),且靶向区段
的核苷酸序列决定gRNA将结合的目标DNA内的位置。当使用适合的比对算法进行最优比对
时,引导序列与其对应的目标序列之间的互补程度为约或大于约50%、60%、75%、80%、
85%、90%、95%、97.5%、99%或更高。可使用用于比对序列的任何适合算法来确定最优比对。在一些实施方案中,引导序列的长度为约或大于约5、6、7、8、9、10、11、12、13、14、15、16、
17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、
50、75个或更多的核苷酸。在一些实施方案中,引导序列的长度小于约75、50、45、40、35、30、
25、20个核苷酸。在各方面中,引导序列长度为10-30个核苷酸。引导序列的长度可以是15-
20个核苷酸。引导序列的长度可以是15个核苷酸。引导序列的长度可以是16个核苷酸。引导
序列的长度可以是17个核苷酸。引导序列的长度可以是18个核苷酸。引导序列的长度可以
是19个核苷酸。引导序列的长度可以是20个核苷酸。
[0891] 引导RNA的骨架区段与一或多种Cas效应蛋白相互作用,以形成核糖核蛋白复合物(在本文中称为CRISPR-RNP或RNP复合物)。引导RNA通过上文所描述的靶向区段将结合的多
肽引导到目标核酸序列内的特定核苷酸序列。引导RNA的骨架区段包括彼此互补且形成双
链RNA双螺旋的两条核苷酸片段(stretch)。骨架序列内促进形成可靶向的核酸酶复合物的
足够序列可包含沿骨架序列内两个序列区域的长度的互补程度,如参与形成二级结构的一
个或两个序列区域。在一些情况下,一个或两个序列区域包括或编码于相同多核苷酸上。在
一些情况下,一个或两个序列区域包括或编码于单独多核苷酸上。最优比对可由任何适合
比对算法确定,且可进一步考虑二级结构,如在一个或两个序列区域内的自身互补性。在一
些实施例中,当进行最优比对时,沿两个中较短者的长度,一个或两个序列区域之间的互补
性程度为约或大于约25%、30%、40%、50%、60%、70%、80%、90%、95%、97.5%、99%或更高。在一些实施例中,两个序列区域中的至少一个的长度为约或大于约5、6、7、8、9、10、
11、12、13、14、15、16、17、18、19、20、25、30、40、50或更多的核苷酸。
[0892] 个体gRNA的骨架序列可包括二级结构。二级结构可包括假结区域或茎-环结构。在一些实例中,引导核酸与核酸引导的核酸酶的兼容性至少部分地通过引导RNA的二级结构
区域内或邻近于其的序列确定。在一些情况下,部分地通过骨架序列内的二级结构来测定
引导核酸与核酸引导的核酸酶的结合动力学。在一些情况下,部分地通过骨架序列内的核
酸序列来测定引导核酸与核酸引导的核酸酶的结合动力学。
[0893] 可以通过扫描与原生Cas核酸酶基因座相邻的序列发现gRNA-Cas效应蛋白组合的兼容骨架序列。换句话说,原生Cas核酸酶可以编码在接近于对应兼容引导核酸或骨架序列
的基因组上。
[0894] 核酸引导的核酸酶可以与核酸酶内源性宿主内未发现的引导核酸兼容。此类正交引导核酸可以通过经验测试来确定。正交引导核酸可以来自不同细菌物种或以合成或其它
方式工程改造为非天然存在的。与共同核酸引导的核酸酶兼容的正交引导核酸可包括一或
多个共同特征。共同特征可包含假结区域外部的序列。共同特征可包含假结区域。共同特征
可包含一级序列或二级结构。
[0895] 可以通过改变引导序列,使得引导序列与目标序列互补,借此允许引导序列与目标序列之间的杂交,来对引导核酸进行工程改造以靶向所期望的目标序列。具有已工程改
造的引导序列的引导核酸可称为工程改造的引导核酸。工程改造的引导核酸通常是非天然
存在的且未在自然界中发现。
[0896] 在一些实施例中,本发明提供编码gRNA的多核苷酸。在一些实施例中,编码gRNA的核酸包括于表达载体(例如,重组表达载体)中。在一些实施例中,本公开提供一种编码定点
修饰多肽的多核苷酸。在一些实施例中,编码定点修饰多肽的多核苷酸包括于表达载体(例
如,重组表达载体)中。
[0897] 实例
[0898] 以下实例是为了说明本公开的各种实施例而提供且不希望以任何方式限制本公开。所属领域的技术人员将认识到,其中的变化和其它用途涵盖于由权利要求书范围限定
的本公开精神内。
[0899] 特定来说,实例1-9是棒状杆菌中的HTP基因工程改造平台。然而,相似程序已针对大肠杆菌进行定制且由本发明人成功执行。
[0900] 下文提供目录简表仅为了帮助读者。此目录不希望限制本申请的实例或公开内容的范围。
[0901] 表5.1-实例章节的目录
[0902]
[0903]
[0904] 实例1:棒状杆菌的HTP转化和SNP文库创建的证明
[0905] 这个实例说明本公开的HTP基因工程改造方法的实施例。宿主细胞用不同尺寸的多种SNP序列(皆靶向基因组的不同区域)转化。结果证明本公开的方法能够产生在宿主细
胞的整个基因组中的任何种类的快速基因变化。
[0906] A.转化载体的克隆
[0907] 从谷氨酸棒状杆菌(ATCC21300)中随机选择多种SNP且使用酵母同源重组克隆技术克隆到棒状杆菌克隆载体中以组装载体,其中每个SNP侧接直接重复区域,如上文在“组
装/克隆定制质粒”章节中所描述和如图3中所说明。
[0908] 这个实例用的SNP盒被设计成以包含一系列同源性直接重复臂长度,其范围为0.5Kb、1Kb、2Kb和5Kb。此外,针对靶向基因组的多个不同区域的同源重组设计SNP盒,如下文更详细地描述。
[0909] 谷氨酸棒状杆菌基因组的尺寸是3,282,708bp(参见图9)。基因组任意地被分成24个等尺寸基因区域,且SNP盒被设计成可靶向24个区域中的每一个。因此,这个实例总共克
隆96种不同质粒(4种不同插入尺寸×24个不同基因组区域)。
[0910] 每个DNA插入是通过使用商业来源的寡核苷酸和上述宿主菌株基因组DNA作为模板对同源区域进行PCR扩增来产生。引入基因组中的SNP由寡核苷酸尾编码。PCR片段使用在
酵母中进行的同源重组组装成载体主链。
[0911] 每个SNP和同源臂克隆到载体中是根据图6A-B、图3和表5中所描述的HTP工程改造学工作流程进行。
[0912] B.已组装的克隆转化到大肠杆菌中
[0913] 首先使用标准热休克转化技术将载体转化到大肠杆菌中,以便鉴定正确组装的克隆和扩增载体DNA用于棒状杆菌转化。
[0914] 举例来说,针对组装的成功来测试所转化的大肠杆菌细菌。培养得自每个大肠杆菌转化培养板的四个菌落且测试其通过PCR的正确组装。针对24个转化位置中的每一个且
针对4种不同插入尺寸中的每一种(即,针对这个实例的所有96种转化体)重复此过程。这个
实验的结果表示为从针对每种处理(插入尺寸和基因组位置)所测试的四个菌落中鉴定出
的正确菌落的数目(参见图12)。较长的5kb插入序列相较于较短对应物呈现组装效率的降
低(n=96)。
[0915] C.已组装的克隆转化到棒状杆菌中
[0916] 已验证的克隆通过电穿孔转换到谷氨酸棒状杆菌宿主细胞中。针对每次转化,测定每μg DNA的菌落形成单位(CFU)数目与插入尺寸的关系(参见图13)。还分析棒状杆菌基
因组整合与同源臂长度的关系,且结果表明较短的臂具有较低的效率(参见图13)。
[0917] 还相对于谷氨酸棒状杆菌转化体中的目标基因组位置分析基因组整合效率。基因组位置1和2相较于基因组的其余部分呈现稍微降低的整合效率(参见图10)。
[0918] D.使选择标记环出
[0919] 将已鉴定已成功整合插入盒的棒状杆菌培养物在含有5%蔗糖的培养基上培养以进行反向选择,以便使sacb选择基因环出。各种同源性直接重复臂的蔗糖抗性频率未随臂
长度而发生明显改变(参见图14)。这些结果表明环出效率在.5kb到5kb的同源臂长度间保
持稳定。
[0920] 为了进一步验证环出事件,培养呈现蔗糖抗性的菌落且通过测序加以分析。
[0921] 插入基因组区域的测序结果概述于下表6中。
[0922] 表6-环出验证频率
[0923] 结果 频率(取样误差95%置信度)成功环出 13%(9%/20%)
环仍存在 42%(34%/50%)
混合读段 44%(36%/52%)
[0924] 测序结果表明环出效率为10-20%。实际的环出在某种程度上可能取决于插入序列。然而,挑选10-20种蔗糖抗性菌落使得成功率提高。
[0925] E.概述
[0926] 下表7提供对本发明的HTP基因组工程改造方法的效率的量化评定。在10个测试菌落中的近似9个中,酵母同源性方法中的构筑体组装率产生了预期的DNA构筑体。具有2kb同
源臂的SNP构筑体的棒状杆菌转化产生了每微克DNA平均51个菌落形成单位(CFU/μg),其中
98%的所述菌落呈现正确整合的SNP插入(靶向效率)。环出效率保持在细胞的.2%,其当暴
露于蔗糖时变得具有抗性,其中的13%呈现正确环出的序列。
[0927] 表7-谷氨酸棒状杆菌菌株工程改造的结果概述
[0928] QC步骤 2kb同源臂的结果构筑体组装成功 87%
棒状杆菌转化效率 51CFU/μg DNA(+/-15)
靶向效率 98%
环出效率 0.2%(+/-0.03%)
[0929] 实例2:HTP基因组工程改造-实施SNP文库以修复/改进工业微生物菌株
[0930] 这个实例说明本公开的HTP菌株改进程序中的SNP交换文库的若干方面。具体地说,所述实例说明修复当前现有的工业菌株的若干设想方法。这个实例描述探究表型解空
间的向上波动和向下波动方法,所述解空间因“基本”、“中间”和工业菌株之间可能存在的多个基因差异而产生。
[0931] A.多样性池中的SNP的鉴定
[0932] 使用本公开方法的示例性菌株改进程序是针对工业生产微生物菌株(本文称为“C”)进行。此程序用的多样性池菌株由A、B和C表示。菌株A代表任何突变诱发之前的原始生产宿主菌株。菌株C代表当前工业菌株,其已经经历许多年的通过传统菌株改进程序进行的
突变诱发和选择。菌株B代表“折中”菌株,其已经经历一些突变诱发,且是菌株C的前体。(参见图17A)。
[0933] 对菌株A、B和C测序且分析其基因组在各菌株之间的基因差异。总共鉴定332种非同义SNP。其中,133种SNP是C独有的,153种被B和C额外共有,且46种是菌株B独有的(参见图
17B)。这些SNP将作为多样性池用于下游菌株改进循环。
[0934] B.SNP交换分析
[0935] 对实例2的部分A中从多样性池中鉴定出的SNP进行分析以确定其对宿主细胞性能的影响。对菌株性能的初轮“学习”将分解为如下文所描述的六个步骤,且图解于图18中。
[0936] 首先,将来自C的所有SNP个别地和/或组合地克隆到基本A菌株中。这将代表最少286种个别转化体。这些转化体的用途是鉴定有益SNP。
[0937] 第二,将来自C的所有SNP个别地和/或组合地从商业菌株C中去除。这将代表最少286种个别转化体。这些转化体的用途是鉴定中性和有害SNP。任选的额外步骤3-6也描述如
下。从两个基因时间点(基本菌株A和工业菌株C)添加和去除SNP的第一和第二步骤在本文
中称为“波动”,其包括“向上波动”(向基本菌株中添加SNP,第一步骤)和“向下波动”(从工业菌株中去除SNP,第二步骤)。波动概念延伸到SNP的进一步添加/去除。
[0938] 第三,将来自B的所有SNP个别地和/或组合地克隆到基本A菌株中。这将代表最少199种个别转化体。这些转化体的用途是鉴定有益SNP。若干种转化体还充当第一步骤中所
产生的转化体的验证数据。
[0939] 第四,将来自B的所有SNP个别地和/或组合地从商业菌株B中去除。这将代表最少199种个别转化体。这些转化体的用途是鉴定中性和有害SNP。若干种转化体还充当第二步
骤中所产生的转化体的验证数据。
[0940] 第五,将C独有(即,也不存在于B中)的所有SNP个别地和/或组合地克隆到商业B菌株中。这将代表最少46种个别转化体。这些转化体的用途是鉴定有益SNP。若干种转化体还
充当第一和第三步骤中所产生的转化体的验证数据。
[0941] 第六,将C独有的所有SNP个别地和/或组合地从商业菌株C中去除。这将代表最少46种个别转化体。这些转化体的用途是鉴定中性和有害SNP。若干种转化体还充当第二和第
四步骤中所产生的转化体的验证数据。
[0942] 使用从这些步骤中的每一个收集的数据将每种SNP初步分类为有益、中性或有害的。
[0943] C.利用上位性映射确定有益SNP组合
[0944] 通过本公开的上位性映射方法对实例2的部分B中所鉴定的有益SNP进行分析,以便鉴定出当组合时可能会改进宿主性能的SNP。
[0945] 使用实例1的工程改造方法产生工程改造的新菌株变体以根据上位性映射预测测试SNP组合。SNP合并可以依序发生,或者可以在多个分支中交替发生,使得有益SNP的子集
可存在超过一种改进菌株。SNP合并将在多轮菌株改进中持续,直到产生含有有益SNP的最
佳组合而无任何中性或有害SNP包袱的最终菌株为止。
[0946] 实例3:HTP基因组工程改造-实施SNP交换文库以改进棒状杆菌在赖氨酸产生方面的菌株性能
[0947] 这个实例提供了实例2的SNP交换HTP设计菌株改进程序的一部分的说明性实施方案,目标是改进在棒状杆菌中赖氨酸产生的生产产量和生产力。
[0948] 这个实例的章节B进一步说明本公开的HTP菌株改进程序的突变合并步骤。所述实例因此提供本公开的HTP菌株改进方法的第一、第二和第三轮合并的实验结果。
[0949] 第二和第三轮合并中的突变来源于单独的基因文库交换。这些结果因此也说明HTP菌株程序执行多分支并行追踪的能力,且有益突变的“存储器”可以嵌入与本公开的基
因设计文库的各种形式相关的元数据中。
[0950] 如上文所描述,对所提供的基本参考菌株(菌株A)和第二“工程改造”的菌株(菌株C)的基因组进行测序,且鉴定出所有基因差异。基本菌株是尚未经历UV突变诱发的谷氨酸
棒状杆菌变体。工程改造的菌株也是谷氨酸棒状杆菌菌株,其是由基本菌株在数轮传统突
变改进程序之后产生。这个实例提供了菌株A与C之间所鉴定的186种不同的非同义SNP差异
的SNP交换结果。
[0951] A.HTP工程改造和高通量筛选
[0952] 根据本公开的克隆和转化方法,将186种已鉴定的SNP中的每一种个别地添加回到基本菌株中。针对在为了评定产物效价性能而设计的小规模培养中的赖氨酸产量来测试新
产生的包括单一SNP的每种菌株。使用工业规模培养用的培养基进行小规模培养。利用标准
比色分析,在碳耗竭的情况下对产物效价进行光学测量(即,代表单一分批产量)。简单来
说,制备浓缩的分析混合物且添加到发酵样本中,使得试剂的最终浓度是160mM磷酸钠缓冲
液、0.2mM安普莱荧光红(Amplex Red)、0.2U/mL辣根过氧化酶和0.005U/mL赖氨酸氧化酶。
允许反应进行到终点且使用Tecan M1000盘光谱仪在560nm波长下测量光学密度。实验结果
概述于下表8中且描绘于图38中。
[0953] 表8-针对赖氨酸产量的SNP交换菌株工程改造结果的概述
[0954]
[0955]
[0956]
[0957]
[0958]
[0959] B.第二轮HTP工程改造和高通量筛选-将SNP交换文库与所选PRO交换命中合并本公开HTP方法的力量之一是其能够将HTP基因设计文库连同与每种SNP/启动子/终止子/起
始密码子对宿主细胞表型的影响有关的信息一起存储。本发明人此前已进行过启动子交换
实验,所述启动子交换实验已鉴定出谷氨酸棒状杆菌中的对生物合成产量有积极影响的若
干种zwf启动子交换(参见例如图22中的关于目标“N”的结果)。
[0960] 本发明人将这个实例的基本菌株A改造成也包含实例5中的此前所鉴定的zwf启动子交换之一。将上述初始筛选中所鉴定的表8中的前176种SNP再引入这种新基本菌株中以
产生新的SNP交换基因设计微生物文库。如同前一步骤,针对赖氨酸产量来测试新产生的包
括单一SNP的每种菌株。也通过使用上述比色方法测量24小时时的赖氨酸产量来测试所选
SNP突变型菌株的生产力指标。此步骤的结果概述于下表9中且描绘于图39中。
[0961] 表9-根据赖氨酸产量、针对SNP交换菌株工程改造的第二轮筛选
[0962]
[0963]
[0964]
[0965]
[0966] 此第二轮SNP交换的结果鉴定出了若干SNP,在包括zwf启动子交换突变的基本菌株中,所述SNP能够提高基本菌株的赖氨酸产量和生产力(参见例如图39右上方拐角的SNP 
084和SNP 121)。
[0967] C.槽罐培养物验证
[0968] 上述HTP步骤期间所鉴定的含有最佳SNP的菌株在中等尺寸的测试发酵槽中培养。简单来说,使每种菌株的100ml少量培养物生长过夜,且接着用于将等量接种物接种于测试
发酵槽的5升培养液中。根据OD600测量,将接种物进行归一化以含有相同的细胞密度。
[0969] 所引起的槽罐培养允许进行3天,随后收获。利用在发酵期间的不同时点从槽罐中所取的样本中的底物和产物效价来计算产量和生产力测量值。使用适当标准,通过高压液
相色谱来分析样本中的特定小分子浓度。这个实验的结果概述于下表10中且描绘于图40
中。
[0970] 表10-SNP交换微生物的槽罐验证
[0971]
[0972] 如通过小规模高通量培养所预测,相对于基本参考菌株,包括zwf启动子交换与SNP121组合的菌株的更大槽罐培养物呈现产量和生产力的显著增加。相较于基本菌株的
3.29g/L/h生产力,这种菌株的生产力例如跃升到4.5g/L/h(在仅2轮的SNP交换中,生产力
增加37.0%)。
[0973] 实例4:HTP基因组工程改造-实施启动子交换文库以改进工业微生物菌株
[0974] 前述实例已经证明了本公开的HTP菌株改进程序修复工业菌株的能力。实例2和3描述SNP交换技术和文库的建构,从而探究各种基本、中间和工业菌株内的现有基因多样
性。
[0975] 这个实例说明使用本公开的PRO交换技术进行HTP菌株改进程序的实施例。不同于实例3,这个实例教示通过PRO交换文库产生法从头产生突变的方法。
[0976] A.鉴定用于启动子交换的目标
[0977] 正如前述,启动子交换是多步骤方法,其包括选择一组“n”个基因作为目标的步骤。
[0978] 在这个例子中,本发明人已鉴定出可通过本公开的启动子梯方法调节的一组23种潜在路径基因(在产生分子赖氨酸的示例性代谢路径中,19种基因过度表达且4+种转移基
因下调)。(参见图19)。
[0979] B.产生启动子梯
[0980] 实施启动子交换方法中的另一步骤是选择一组“x”个启动子充当“梯”。理想的是,这些启动子已经显示引起在多个基因组基因座中的高度可变表达,但唯一要求是其以某种方式扰动基因表达。
[0981] 在特定实施例中,这些启动子梯如下创建:鉴定与所关注的目标基因相关的天然、原生或野生型启动子且接着使所述启动子发生突变以衍生出多种突变的启动子序列。测试
这些突变启动子中的每一种对于目标基因表达的影响。在一些实施例中,测试所编辑的启
动子在多种条件中的表达活性,从而记录/表征/注释每种启动子变体的活性且存储于数据
库中。随后将所得编辑的启动子变体组织成基于其表达强度而排列的梯(例如高表达性变
体靠近顶部,且减弱的表达靠近底部,因此产生术语“梯”)。
[0982] 在本发明的示例性实施例中,本发明人已经创建了启动子梯:针对图19中所鉴定的每种目标基因的ORF组合。
[0983] C.使来自所述梯的启动子与目标基因关联
[0984] 实施启动子交换方法中的另一步骤是对各种菌株进行HTP工程改造,所述菌株包括来自启动子梯的与特定目标基因关联的指定启动子。
[0985] 如果原生启动子存在于目标基因n之前面且其序列已知,那么可以用梯中的x个启动子中的每一个置换原生启动子。当原生启动子不存在或其序列未知时,那么可以将梯中
的x个启动子中的每一个插入基因n之前。以此方式构筑菌株文库,其中文库中的每个成员
在原本相同的基因背景下是可操作地连接到n目标的x启动子的例子(参见例如图20)。
[0986] D.对菌株进行HTP筛选
[0987] 启动子交换方法中的最后步骤是对前述文库中的菌株进行HTP筛选。所衍生菌株中的每一种代表了在原本相同基因背景下的连接到n目标的x启动子的例子。
[0988] 在根据一或多种度量表征菌株性能的情况下,本发明人通过对每种菌株实施HTP筛选而能够根据所指定的度量确定什么样的启动子/目标基因关系最有益(例如优化所关
注分子的产量)。参见图20(启动子P1-P8对所关注基因的影响)。
[0989] 在图19-22所说明的示例性实施例中,本发明人已经使用启动子交换方法优化赖氨酸的产量。上述Pro交换方法的应用描述于下文实例5中。
[0990] 实例5:HTP基因组工程改造-实施PRO交换文库以改进菌株生产赖氨酸的性能.
[0991] 下述章节提供了本公开的PRO交换HTP设计菌株改进程序工具的说明性实施方案,如实例4中所描述。在这个实例中,对棒状杆菌菌株执行本公开的PRO交换方法以便增加宿
主细胞的赖氨酸产量。
[0992] A.启动子交换
[0993] 如实例4中所描述执行启动子交换。使用启动子P1-P8靶向选自图19中的赖氨酸生物合成路径的基因用于启动子交换。
[0994] B.HTP工程改造和高通量筛选
[0995] 如实例1和3中所描述执行启动子交换的HTP工程改造。所得启动子交换菌株的HTP筛选如实例3中所描述执行。总共执行145次PRO交换。实验结果概述于下表11中且描绘于图
41中。
[0996] 表11-赖氨酸PRO交换文库的HTP筛选
[0997]
[0998]
[0999]
[1000]
[1001] 可视化时,启动子交换文库筛选结果用于鉴定与所度量的性能度量最紧密相关的基因目标。在这种情况下,基因目标pgi、zwf、ppc、pck、fbp和ddh被鉴定为启动子交换引起产量相对于基本菌株产生大幅增加的基因。
[1002] 将选自表11的菌株在小培养板中再培养且如上所述测试赖氨酸产量。此第二筛选的结果提供于图22中。
[1003] 实例6:上位性映射-用于预测有益突变合并的算法工具
[1004] 这个实例描述预测建模技术的一个实施例,其用作本公开的HTP菌株改进程序的一部分。首先鉴定出潜在有益突变(通过使用如上文所描述的基因设计文库)之后,本公开
教示在第二轮、第三轮、第四轮和随后额外多轮HTP菌株改进中合并有益突变的方法。在一
些实施例中,本公开教示突变合并可以基于所述突变中的每一种的个别性能。在其它实施
例中,本公开教示预测两个或更多个突变的可能性的方法,所述突变如果合并到单一宿主
细胞中将呈现相加或协同效应。下述实例说明本公开的预测工具的一个实施例。
[1005] 对选自实例3和5的SNP交换和启动子交换(PRO交换)文库的突变进行分析以鉴定最可能引起菌株宿主性能改进的SNP/PRO交换组合。
[1006] 如本公开的“上位性映射”章节中所描述,使用余弦相似度矩阵对SNP交换文库序列进行互相比较。分析结果产生了每种SNP/PRO交换组合的功能相似度评分。所有SNP/PRO
交换间的功能相似度的视觉表示描绘于图15的热图中。所得功能相似度评分还用于呈现描
绘每一种SNP/PRO交换之间的相似度距离的树状图(图16A)。
[1007] 相同或相似功能组的突变(即,功能相似度高的SNP/PRO交换)更可能通过相同机理来运作,且从而在组合时更可能对总体宿主性能呈现负或中性上位效应。相比之下,来自
不同功能组的突变更可能通过独立机理来运作,且从而更可能对宿主性能产生有益的相加
或组合效应。
[1008] 为了说明生物学路径对上位的影响,将呈现各种功能相似度的SNP和PRO交换进行组合且针对宿主菌株进行测试。将三种SNP/PRO交换组合如实例1中所描述工程改造到谷氨
酸棒状杆菌的基因组中:i)Pcg0007::zwf PRO交换+Pcg1860::pyc PRO交换;ii)Pcg0007::
zwf PRO交换+SNP 309;以及iv)Pcg0007::zwf PRO交换+Pcg0007::lysA PRO交换(关于功
能相似度关系,参见图15和16A)。
[1009] 含有SNP/PRO交换组合的每一种宿主细胞的性能如实例3中所描述加以测试,且与仅含有zwf PRO交换的对照宿主细胞的性能加以比较。下文表12和13概述每一种所述菌株
的宿主细胞产量(96小时测量值)和生产力(24小时测量值)结果。
[1010] 表12-上位性映射实验在24小时时的赖氨酸累计.
[1011]
[1012]
[1013] 表13-上位性映射实验在96小时时的赖氨酸累计.
[1014]SNP/PRO交换 平均赖氨酸(A560) 标准差
6318(zwf) 0.83 0.01
8126(zwf+lysA) 0.94 0.02
8156(zwf+pyc) 0.83 0.06
[1015] 每种SNP/PRO交换组合的宿主产量性能结果也描绘于图16B中。具有呈现较低功能相似度的SNP/PRO交换组合的宿主菌株胜过其中SNP组合在24小时与96小时测量时均呈现
较高功能相似度的菌株。
[1016] 因此,所述上位性映射程序适用于预测/规划/告知所设计基因变化的有效和/或积极合并。得自上位性映射程序的分析见解能够产生可以指导后续多轮微生物菌株开发的
预测规则集。得自上位文库的预测见解可以在多种微生物类型和目标分子类型中使用。
[1017] 实例7:HTP基因组工程改造-Pro交换突变合并和多因子组合性测试
[1018] 前述实例已经说明将少量的预选PRO交换突变与SNP交换文库合并的方法(实例3)。其它实例已经说明用于选择突变合并的上位方法,所述突变合并最可能产生相加或协
同的有益宿主细胞特性(实例6)。这个实例说明本公开的HTP方法能够有效地探究巨大解空
间,所述解空间由多个基因/基因设计文库组合(例如PRO交换文库×SNP文库或PRO交换文
库内的组合)的组合性合并所产生。
[1019] 在本公开的HTP菌株改进方法的这个说明性应用中,将实例5中的鉴定为对宿主性能具有正效应的启动子交换与原始PRO交换文库以二阶组合方式合并。合并PRO交换突变的
决定是基于每种突变对产量或生产力的总体影响,以及两种突变的组合会产生相加或协同
效应的可能性。
[1020] 举例来说,申请人提及了其基于实例6的上位性映射结果选择了组合Pcg0007::zwf和Pcg0007::lysA。
[1021] A.PRO交换菌株工程改造中的合并轮次
[1022] 菌株如前述实例1中所描述进行转化。简单来说,已经含有一个所期望PRO交换突变的菌株再次用第二个所期望PRO交换突变转化。将实例5中的总共145个已测试的PRO交换
合并到53种第二轮合并的菌株中,所述菌株各自包括预期呈现有益相加或协同效应的两个
PRO交换突变。
[1023] 所得第二轮菌株再次如实例3中所描述进行筛选。这个实验的结果概述于下表14中,且描绘于图11中。
[1024] 表14-对第二轮合并的赖氨酸PRO交换文库进行的HTP筛选
[1025]
[1026]
[1027] 如利用上位模型所预测,包括Pcg0007::zwf和Pcg0007::lysA突变的第二轮PRO交换菌株呈现最高产量改进之一,其中产量相对于单独Pcg0007::lysA改进近似30%,且相对
于基本菌株改进35.5%(参见图11中的带圆圈数据点)。
[1028] 用于探究单一和双重合并突变的解空间的HTP方法还能够应用于第三轮、第四轮和后续突变合并。还关注例如所公开的对应于zwf、pyc和lysa的3变化合并菌株,其获自如
上述表14所示且如利用本公开的上位方法所鉴定的2变化合并中所鉴定的最佳命中。这种3
变化合并菌株在槽中进一步验证,相较于亲代或亲代+zwf明显改进(参见上述表10,和图
40)。
[1029] 实例8:HTP基因组工程改造-实施终止子文库以改进工业宿主菌株
[1030] 本实例将本公开的HTP方法应用于其它HTP基因设计文库,包含STOP交换。所述实例进一步说明本公开能够将来自基本基因设计文库(例如PRO交换、SNP交换、STOP交换等)
的元件组合以创建更复杂的基因设计文库(例如PRO-STOP交换文库,其并有启动子和终止
子)。在一些实施例中,本公开教示任何和所有可能的基因设计文库,包含来源于先前公开
的任何基因设计文库的组合的那些文库。
[1031] 在这个实例中,进行小规模实验以证明本发明的STOP交换方法对基因表达的影响。本公开的终止子T1-T8与如下文所描述的两种原生谷氨酸棒状杆菌启动子之一成对,且
分析其影响荧光蛋白质表达的能力。
[1032] A.DNA构筑体的组装
[1033] 终止子T1-T8与表达黄色荧光蛋白质(YFP)的两种原生谷氨酸棒状杆菌启动子(例如Pcg0007或Pcg0047)之一成对。为了促进DNA扩增和组装,用两个部分合成最终启动子-
YFP-终止子序列;第一部分编码(从5'到3')i)载体同源臂、ii)所选启动子和iii)2/3的YFP
基因。第二部分编码(从5'到3')iv)接下来2/3的YFP基因、v)所选终止子和vi)第二个载体
同源臂。每个部分使用合成寡核苷酸扩增且使用凝胶纯化。使用酵母同源重组将凝胶纯化
的扩增子与载体主链组装在一起。
[1034] B.已组装的克隆转化到大肠杆菌中
[1035] 含有启动子-YFP-终止子序列的载体各自个别地转化到大肠杆菌中,以便鉴定正确组装的克隆,以及扩增载体DNA用于棒状杆菌转化。正确组装的载体通过限制酶消化和桑
格法测序来确认。阳性克隆在-20℃储存供将来使用。
[1036] C.已组装的克隆转化到棒状杆菌中
[1037] 将已验证的载体克隆通过电穿孔个别地转化到谷氨酸棒状杆菌宿主细胞中。每种载体被设计成可整合到谷氨酸棒状杆菌基因组内的中性整合位点中,所述整合位点凭经验
确定以允许异源黄色荧光蛋白质表达,但对宿主细胞无害。为了促进整合,表达载体进一步
包括与所期望整合位点同源的约2kbp序列(即,同源臂),借此将上述每个基因盒插入同源
臂的下游。整合到基因组中是通过单一互换型整合来发生。接着通过PCR测试所转化棒状杆
菌的正确整合。针对每种基因构筑体进行的每次转化均重复这个程序。
[1038] D.评价棒状杆菌中的个别终止子构筑体
[1039] 接着测试含有启动子-YFP-终止子构筑体的每种棒状杆菌转化体在两种类型的培养基(脑心浸液-BHI培养基和HTP测试培养基)中、在两个时间点的表型以便评价表达。简单
来说,选择四到六种PCR确认的转化体且在96孔格式中在选择性培养基中培育。接着将初始
培养物分成选择性BHI培养基或选择性种子培养基。在48小时时,将种子培养基中的培养物
接种到选择性HTP测试培养基或BHI培养基中且在代表生长曲线的不同部分的两个时间点
加以分析。HTP测试培养基培养物的时间点是接种之后的48和96小时。选择性BHI培养基中
的培养物是在接种之后的48和72小时加以分析。
[1040] 培养物的分析是使用台式流式细胞仪执行。简单来说,培养物在200μl磷酸盐缓冲盐水(PBS)中1:100稀释。对于每种培养物来说,分析3000到5000个个别事件(即,细胞)的黄
色荧光。台式流式细胞仪绘制了每个“事件”的黄色荧光直方图且计算每个孔内的中值荧
光。图36描绘了每种构筑体(在4-6次生物学复制中)的中值荧光的平均值。误差条表示每个
数据点的95%置信区间。条件A-D各自指单一培养基和单一时间点。因此,条件A和B代表了
BHI培养基的两个时间点,而C和D点代表了HTP测试培养基的两个时间点。应注意,任意单位
(例如AU)表示台式流式细胞仪所记录的中值荧光。
[1041] 结果表明,STOP交换基因设计文库中的终止子1-8引起了一系列连续的YFP表达。这些终止子从而形成能够根据本公开的HTP方法建构到未来基因设计文库中的终止子梯。
[1042] 实例9:对HTP工具集与传统UV突变进行比较
[1043] 这个实例证明了本公开的HTP基因设计文库相对于传统突变型菌株改进程序的效益。本说明书的这个部分中的实验对通过本公开HTP方法所实现的表型改进的量值和速度
相对于传统UV突变诱发的改善进行了量化。
[1044] 本公开教示加快宿主细胞的菌株改进程序的新方法。在一些实施例中,本公开的HTP菌株改进程序依赖于HTP工具集产生和鉴定基因扰动的能力。本发明人尝试着通过执行
小型并行追踪菌株改进程序来量化HTP工具集的效益,所述并行追踪菌株改进程序将本公
开的启动子交换技术相对于传统UV突变方法进行了比较。
[1045] 选择产生所关注的生物化学代谢物的基本参考菌株作为UV与启动子交换基因扰动的起点。
[1046] A.UV突变
[1047] 使基本菌株培养物在BHI培养基中、在OD相对于10的OD600归一化的培养液中生长。将这个培养物等分到无菌皮氏培养皿(petri dish)中且使用小磁性搅拌棒搅拌。接着将
254nm波长的紫外透射仪(UV trans illuminator)倒置在培养物上且在UV曝光的5和9分钟
获取等分试样。这些样本连续10倍稀释且将每种稀释液涂铺到BHI培养基Q托盘上。使用自
动化菌落挑选设备从这些Q托盘中挑选出得自每种UV曝光点的约2500个菌落且如下评价性
能。
[1048] B.启动子交换
[1049] 使用选自表1所述的P1、P3、P4和P8的所有启动子或启动子子集,在基本菌株中产生针对15种基因目标的PRO交换构筑体。所关注产物的生物合成的最终步骤是由使用潜在
速率限制性辅因子S-腺苷甲硫氨酸的O-甲基转移酶催化。PRO交换的基因目标因此是基于
其直接涉及这种辅因子或上游代谢物的生物合成而选择。
[1050] C.UV和启动子交换文库评价
[1051] 根据产生所选生物分子的能力,对这个实例所开发的每种棒状杆菌菌株的表型进行测试。简单来说,选择每种PRO交换菌株的四到六种序列已确认菌落和每种UV菌株的单一
菌落且在96孔格式中在生产液体培养基中繁殖。
[1052] 在96孔微孔板中进行生物质繁殖之后,将细胞块添加到96孔微孔板中的含底物发酵培养基中且允许生物转化进行24小时。使用高效液相色谱法测定24小时时所取样本中的
每种菌株的产物效价。分析每种基因扰动(UV和PRO交换)的效价结果。求每次重复实验的结
果的平均值且指定代表所述菌株的总体性能。接着基于每种突变对实测产量的影响将菌株
分类,所述实测产量用相对于基本菌株产量的比率表示。
[1053] 图37概述这个实验的结果,其呈现为每种菌株改进技术用的菌株数目,所述结果引起:i)产量不变、ii)产量提高1.2到1.4倍、iii)产量提高1.4到1.6倍、iv)产量提高1.6到
1.8倍,或v)产量提高1.8到2倍。
[1054] 结果说明本公开的HTP工具集相对于传统UV突变诱发方法的效益。举例来说,图37的结果证明PRO交换菌株呈现产量积极变化的速率较高,且因此更可能提供可以明显改进
菌株的突变。最惊人的是高度改进菌株的发生率高,PRO交换文库显示1.6、1.8和2倍增加,
而UV文库的已鉴定改进很少直到没有。
[1055] 结果重要的原因也是其突显了本公开的PRO交换方法的改进速率加快。的确,PRO交换文库的结果是基于小于100个启动子::基因扰动,而UV突变结果包含逾4,000种不同突
变型菌株的筛选。因此,本公开的方法大幅度减少了在鉴定出能够赋予菌株高性能增益的
基因扰动之前必须筛选的突变体数目。
[1056] 实例10-HTP基因工程改造-实施转座子突变诱发文库以改进大肠杆菌的菌株性能
[1057] 前述实例说明HTP菌株改进程序对棒状杆菌的应用。这个实例证明相同技术对大肠杆菌细胞的适用性。
[1058] 这个实例描述出于菌株改进的目的,应用转座子突变诱发来产生大肠杆菌随机菌株文库。这些菌株文库可针对所期望表型(例如色氨酸产量)加以筛选,以鉴定性能改进的
变体。
[1059] 本公开描述一种用于通过在大肠杆菌中应用EZ-Tn5转座子系统(中心生物(Epicenter Bio))产生突变体文库的方法。将EZ-Tn5转座酶与侧接花叶元件序列的有效负
载DNA一起培育。在培育后,Ez-Tn5转座酶与DNA复合形成转座体。接着,通过电穿孔,将DNA/蛋白质转座体复合物转化到大肠杆菌中。EZ-Tn5转座酶催化将有效负载DNA随机整合到大
肠杆菌基因组中,因此产生菌株变体的随机文库。
[1060] 可进一步改变有效负载DNA的特定序列以偏向于转座子插入目标基因组所致的功能丧失(LoF)或功能获得(GoF)效应。
[1061] LoF可通过将抗生素选择标记纳入DNA有效负载中来实现。抗生素标记允许选择其中插入生产性转座子的细胞。DNA有效负载的插入可干扰以不同方式插入的DNA的功能,包
含(但不限于)干扰开放阅读框架,从而阻止被干扰的基因翻译。
[1062] GoF可通过将抗生素选择标记和强力启动子纳入DNA有效负载中来实现。抗生素标记允许选择其中插入生产性转座子的细胞。DNA有效负载的插入可以通过强力启动子的作
用来增强邻近于插入位点的基因的表达。
[1063] 除选择标记之外,LoF或GoF型DNA有效负载可以进一步含有反向选择标记,以使得能够进行标记再循环且从而进一步进行多轮工程改造。
[1064] 可针对所期望表型,对通过上文所描述的转座子突变诱发方法产生的菌株变体文库进行筛选。菌株可进行高通量培养和测试,以鉴定出相对于亲代菌株具有改进的所期望
表型的菌株。
[1065] 可以对改进的菌株变体进行额外多轮循环工程改造以进一步改进所期望表型(如色氨酸产量)。额外多轮工程改造可由转座子突变诱发或其它文库类型组成,如SNPSWP、
PROSWP或随机突变诱发。改进的菌株还可以与呈现改进的表型的其它菌株变体合并,以通
过不同有益突变的相加效应产生进一步改进的菌株。
[1066] 本文所描述的方法降低用于建构用于在循环工程改造中筛选的高质量文库的成本。对大肠杆菌应用转座子突变诱发使得能够通过单一反应产生数千个全基因组LoF或GoF
突变体。一种替代性方法是通过单一交叉同源重组(SCHR)构筑数千个指定质粒来对菌株进
行工程改造。另一种替代性方法是通过lambda red重组工程构筑数千个指定线性片段以对
菌株进行工程改造。两个方法的成本高的,因为其需要对于含有预期有效负载DNA和引导重
组到目标基因组的特定位置上的每一突变体产生独特的DNA片段。转座子突变诱发使用单
一DNA有效负载,且通过随机整合于目标基因组中来产生多样性。
[1067] 实例11-HTP基因工程改造-产生用于大肠杆菌中的HTP基因工程改造中的载体主链
[1068] 这个实例描述产生用于供在大肠杆菌中进行重组工程的HTP基因工程改造中的载体,使得所述载体赋予有效转化和质粒整合。
[1069] 产生载体1(核酸SEQ ID NO.214),且其包括R6K复制起点、SacB基因、作为反向选择标记的PheS基因和URA3酵母营养缺陷型标记。为了改进效率和单一交叉同源重组,对载
体1的主链进行修饰以含有表15中的元件,产生载体2(核酸SEQ ID NO.215)。图55中显示的
质粒图谱显示载体1的一般组分。在载体2中,添加随机隔离子序列隔离子1(SEQ ID 
NO.218)和隔离子2(SEQ ID NO.219),从而侧接同源臂,且添加终止子序列T1(核酸SEQ ID 
NO.220;参见欧罗斯(Orosz)等人,《欧洲生物化学杂志(Eur J Biochem.)》,1991年11月1
日;201(3):653-9)和B0015(核酸SEQ ID NO.221)以消除在基因组插入位点处的转录通读。
图56中显示的质粒图谱显示载体2的一般组分。
[1070] 在基因敲除实验中测试载体或质粒的效用。总之,将大肠杆菌接种到LB培养液中且在37℃下在振荡下生长8小时。随后,接着使用隔夜培养物的等分试样来接种较大体积的
LB培养液,且在18℃下在振荡下生长16小时。对于转化,向感受态细胞中添加100-400ng测
试质粒,且通过电穿孔进行转化。在涂铺于具有卡那霉素的LB琼脂上之前,在37℃下培育3
小时,细胞在SOC培养基中恢复。在37℃下培育培养板,以生长具有测试质粒的菌落。
[1071] 待基因敲除的基因目标是大肠杆菌aroA基因。因此,“呈形式1的aroA-KO”(即,载体1)和“呈形式2的aroA-KO”(即,载体2)的测试质粒,通过分别插入大肠杆菌aroA基因的同源臂到载体1(形式1)和载体2(形式2)的主链中来构筑,使得同源臂侧接卡那霉素抗性基
因,以允许在大肠杆菌宿主细胞中进行单一交叉同源重组。这些测试质粒的转化和卡那霉
素选择验证,“呈形式2的aroA-KO”显示转化效率和质粒整合改进(图53)。
[1072] 通过添加PheS序列(表15),对载体2中的载体1主链的进一步修饰允许在含有蔗糖和4-氯苯丙氨酸的培养基中进行有效反向选择。应注意,载体2中的PheS启动子序列由以下
组成:由金卡德(Kincade)和德哈瑟斯(deHaseth)鉴定的噬菌体λPL启动子(参见金卡德和
德哈瑟斯,《基因(Gene)》,1991年1月2日;97(1):7-12),紧接着随后称为B0032的RBS序列,其来自iGEM。此外,在载体2中,sacB基因的启动子序列被含有P5-MCD2启动子(穆塔利克等
人,《自然方法》,2013年4月;10(4):354-60)和额外ATG的启动子置换。这个修饰允许在蔗糖中有效反向选择整合有形式2主链的菌株。为了产生载体3,主链载体1中的谷氨酸棒状杆菌
pheS*基因的启动子序列和CDS被新的启动子序列和CDS置换,具体来说,含有必需突变
(T251A/A294G,参见米亚克K(Miyazaki,K),《生物技术(Biotechniques)》,2015年2月1日;
58(2):86-8))的原生大肠杆菌pheS的密码子最佳化形式(表15)。这个修饰允许在4氯苯丙
氨酸中对整合有载体3主链的菌株的反向选择提高。图57中显示的质粒图谱显示载体3的一
般组分。
[1073] 用于HTP基因工程改造的主链可含有用于质粒组装的各种酵母选择标记。在本公开中,载体3主链的修饰用TRP1标记置换URA3酵母选择标记,得到载体4。图58中显示的质粒
图谱显示载体4的一般组分。
[1074] 实例12-HTP基因工程改造-产生和测试用于改进工业微生物菌株的额外启动子交换文库
[1075] 这个实例描述产生以供稍后用于本文所提供的HTP基因工程改造方法中的额外PROSWP文库,以用于以基因方式工程改造微生物宿主细胞(例如大肠杆菌),以致力于改进
工业菌株性能。
[1076] 在这个实例中,编译多种原生大肠杆菌启动子和合成启动子,以产生见于表1.4中的启动子交换文库。对于原生启动子,从大肠杆菌K-12菌株(即,大肠杆菌W3110)选择一组
长度在60-90bp的启动子序列。特定来说,选择根据在多个生长条件中基于微阵列的表达数
据,显示相关基因的表达具有极少变异的启动子(路易斯等人,《分子系统生物学(Mol Syst Biol)》,2010;6:390)。原生启动子序列由推定转录起始位点之前的50bp以及最多但不包含推定起始密码子的序列组成(参见表1.4)。另外,产生一组嵌合合成启动子序列,其由以下
部分组成:已知λ噬菌体启动子pL和pR、在大肠杆菌基因acs前的启动子和构成-35和-10区的可变6bp序列(图54,表1.5)。合成启动子中的每一种的长度为60-90bp。
[1077] 为了测试见于表1.4中的启动子中的每一种驱动与其可操作地连接的基因的表达的能力,构筑一组低拷贝复制性质粒,每一个所述质粒含有由表1.4中列出的启动子中的一
个驱动的RFP基因。所选低拷贝复制性质粒是称为Ori_Plsmd27的质粒,其具有核酸序列SEQ 
ID NO.213。选择所述载体,这是因为复制性质粒是所期望的,以便尽可能快速地构筑和评
价启动子文库,且低拷贝质粒(如Ori_Plsmd27)将更密切接近仅单一拷贝整合于基因组中
的情形。Ori_Plsmd27是低拷贝,因为其拥有大肠杆菌复制起点p15A。p15A复制起点通常在
每一个细胞中产生大致10个质粒拷贝。与可每个细胞维持>20或甚至数百个质粒拷贝的其
它常见质粒相比,这是“低拷贝”。
[1078] 使用标准分子生物学技术,构筑质粒。具体来说,购买正向PCR引物,其由以下组成:粘接到RFP基因的序列;待引入的启动子序列;和与Ori_Plsmd27重叠的序列。获得单一
反向PCR引物,其由以下组成:粘接到ECK120033737终止子(原生大肠杆菌终止子)的序列和
与Ori_Plsmd27重叠的序列。RFP基因通过用正向引物和反向引物的PCR进行扩增,以产生一
组PCR扩增子,所述扩增子每一个含有RFP基因和表1.4中列出的启动子中的一个。通过用
XhoI限制酶消化Ori_Plsmd27且使用商业DNA组装酶混合物插入对应PCR扩增子,来构筑质
粒。作为阴性对照,产生一种包括放置在RFP基因上游的谷氨酸棒状杆菌Tsod终止子(表16
中的核酸SEQ ID NO.224)的构筑体。
[1079] 通过电穿孔,将质粒转化到大肠杆菌W3110中。对于待评价的每一启动子,挑选四个菌落且接种到96孔培养板中的含有25μg/mL卡那霉素的1mL LB培养液中。使培养物在
1000rpm振荡下在37℃下生长隔夜。使用10μL培养物来接种96孔培养板中的含有25μg/mL卡
那霉素的1mL培养基1(富培养基,其含有葡萄糖、酵母提取物、盐和磷酸盐缓冲液)。使培养
物在1000rpm振荡下在37℃下生长24小时。将培养物稀释于黑壁透明底部96孔板的水中,在
分光光度计上进行两种测量:OD600(在600nm下的光密度)和荧光(554nm激发,590nm发射)。
使用10μL含培养物的培养基1来接种96孔培养板中的含有25μg/mL卡那霉素的1mL培养基2
(富培养基,其含有比培养基1更高的葡萄糖但仅少量酵母提取物,实际上含有作为氮源的
硫酸铵以及微量元素)。同样使含培养物的培养基2在37℃下生长隔夜,且在24小时之后测
量。
[1080] 通过减去空白孔(仅含有培养基的孔)的值,来校正OD600测量。表16显示就校正的OD600归一化的荧光测量。如表16可看出,所得菌株在两种不同培养基中有效地生长且实现
在~5000倍范围内的荧光蛋白质表达。
[1081] 表16.(2)种不同培养基中的启动子-RFP构筑体的RFP表达水平.
[1082]
[1083]
[1084]
[1085]
[1086] *来自大肠杆菌的原生启动子
[1087] 实例13-HTP基因工程改造-测试使用载体2主链,将表1.4的启动子交换文库整合到大肠杆菌基因组中的整合
[1088] 这个实例描述一种与启动子子集组合使用来自实例11的载体2主链,形成表1.4的启动子文库以驱动将异源启动子-基因构筑体的单一拷贝整合到大肠杆菌基因组中的概念
验证。
[1089] 对于这个实例,用来自表1.4中的集合的14个启动子子集建构一组质粒,以在大肠杆菌的两个基因座(nupG和asl)处插入荧光基因RFP和GFP。这将允许那些启动子评价为单
一拷贝整合于基因组中,而非整合在低拷贝复制性质粒(参见实例12)上。
[1090] 质粒将包括侧接RFP或GFP基因的同源臂,以便促使通过如本公开所提供的“环入”而整合到大肠杆菌基因组中。将测试所得菌株的荧光,其将证实,这个来自表1.4的14个启
动子的子集已使用实例11中描述的载体主链进行测试,且可使用本公开中所描述的方法,
用来将异源基因插入到大肠杆菌基因组中。
[1091] 实例14-HTP基因工程改造-使用来源于表1.4的启动子文库,实施PROSWP方法。
[1092] 下述章节提供本公开的PRO交换HTP设计菌株改进程序工具的说明性实施方案,如实例4和5中所描述。在这个实例中,对大肠杆菌菌株进行本公开的PRO交换方法,以便调节
大肠杆菌基因组中的基因的表达。这个实例基于实例12和13的结果建构,这个实例说明在
本公开的PROSWP方法中使用包括来自表1.4的启动子的启动子文库。
[1093] A.启动子交换
[1094] 将如实例4中所描述进行启动子交换。将使用实例13中描述的启动子文库(其包括来自表1.4的14个启动子的子集),对形成大肠杆菌基因组的基因进行启动子交换。在这个
实例中使用的14个启动子的子集将基于如在实例12和13中所测定的其对于基因表达的效
果而选择。
[1095] B.HTP工程改造和高通量筛选
[1096] 将如实例1和3中所描述进行启动子交换的HTP工程改造。所得启动子交换菌株的HTP筛选将如实例3中所描述进行。总共将进行14种PRO交换。最终,将测试这些修饰对于所
关注产物的生产的影响。
[1097] 实例15-HTP基因工程改造-实施终止子交换文库以改进菌株生产番茄红素的性能
[1098] 下述章节提供本公开的终止子交换HTP设计菌株改进程序工具的说明性实施方案。在这个实例中,对大肠杆菌菌株进行本公开的终止子交换方法,以便影响宿主细胞番茄
红素产量。
[1099] 使用本公开中呈现的终止子交换方法,靶向图59中显示的番茄红素生物合成路径中的基因进行终止子交换。如下文所描述设计构筑体,且用CRISPR/Cas9系统介导重组。这
个实例中用于终止子交换的终止子为见于表19中的终止子。
[1100] 表19-这个实例中用于靶向番茄红素生物合成路径中的基因的终止子
[1101]名称 描述 长度(bp)
Spy 终止子(SEQ ID NO.225) 90
pheA 终止子(SEQ ID NO.226) 51
osmE 终止子(SEQ ID NO.227) 42
rpoH 终止子(SEQ ID NO.228) 41
vibE 终止子(SEQ ID NO.229) 71
Thrl_ABC 终止子(SEQ ID NO.230) 57
[1102] 构筑体设计
[1103] 鉴定目标插入序列附近和与NGG PAM序列相邻的20碱基引导RNA,以在所期望位置处切割基因组。意欲插入到基因组中的序列在两端侧接90个同源碱基,使得同源性将引导
原生序列缺失或保留(视需要)。应注意,虽然在这个实例中,通过CRISPR/Cas9系统促进重
组,但也可通过传统单和双交叉同源重组方法以及如本公开中所描述的Lambda Red系统来
建构所有菌株。因此,终止子交换文库类型中的每一种对于构筑/重组方法是不可知的。
[1104] 接种种子培养物
[1105] 挑选编辑来自佩特里(petri)培养板的基本菌株(W3110 pKD46-cas9 pLYC4)的一个菌落,且接种到较大体积的LB clin100 cmp25中且使培养物在30℃下在振荡下生长~16
小时。
[1106] 制备感受态细胞和转化
[1107] 制备隔夜培养物的1:10稀释液且测量OD600。将LB clin100 cmp25接种到0.05的OD600,且在30℃下在振荡下生长~2小时。
[1108] 在2小时之后,周期性地测量OD600,直到达到诱导目标OD为止,且在达到目标后,添加20%阿拉伯糖到0.2%的最终浓度。
[1109] 以5,000×G,在4℃下离心培养物5分钟。倾倒出上清液且再悬浮,到等效于初始培养物体积的最终体积中。
[1110] 重复步骤7以洗涤细胞第三次。
[1111] 在3次洗涤之后,离心(pelleted)细胞且再悬浮于10%甘油中,到约1/250的初始培养物体积。制备再悬浮细胞的1:500稀释液,且再悬浮到所期望的OD600,其中适当体积为
40μl细胞/转化。
[1112] 在弗雷斯塔PCR培养板(或微量离心管)中,将40μL细胞与100ng引导RNA质粒和~4μL纯化的PCR产物修复模板混合。如果使用寡核苷酸作为修复模板,那么添加寡核苷酸到2μM的最终浓度。
[1113] 对细胞进行电穿孔且紧接着再悬浮于LB中,且在振荡下在30℃下于深孔培养板中恢复1小时。
[1114] 稀释所恢复的细胞且涂铺在LB琼脂clin100 kan50 cmp25上且在30℃下24到36小时。通过菌落PCR、测序或表型筛选,来筛选菌落。pKD46-cas9质粒可通过在37℃或更高温度下生长来清除,且pCRISPR2可通过在10%蔗糖上生长来清除。
[1115] HTP工程改造和高通量筛选
[1116] 如实例1和3中所描述进行交换组合的HTP工程改造,不同之处在于使用CRISPR/Cas 9来促进将构筑体同源重组到大肠杆菌基因组中。如实例3中所描述,对所得启动子交
换/终止子交换菌株、启动子交换/降解标签交换菌株、启动子交换/溶解性标签交换菌株和
启动子交换/终止子交换/降解标签交换/溶解性标签交换菌株进行HTP筛选。实验结果描绘
于图60和61中。
[1117] 如图60中所示,使用终止子TyjbE,在番茄红素路径目标idi和ymgA处的终止子交换表明菌株性能相对于对照降低,因此突显这些文库类型用于鉴定关键路径目标的效用。
这个结论受到图61中显示的结果的进一步支持,且在多个番茄红素路径目标上进行终止子
交换。
[1118] 实例16-HTP基因工程改造-与溶解性标签交换文库或降解标签交换文库组合,实施终止子交换文库或PRO交换文库,以改进菌株生产番茄红素的性能
[1119] 下述章节提供本公开的溶解性标签交换和终止子交换HTP设计菌株改进程序工具,以及本公开的PRO交换和降解标签交换设计菌株改进程序工具的说明性实施方案。在这
个实例中,与本公开的降解标签交换方法以及本公开的溶解性标签交换和终止子交换方法
组合,对大肠杆菌菌株进行PRO交换,以便影响宿主细胞番茄红素产量。
[1120] 启动子交换/终止子交换/溶解性标签交换/降解标签交换
[1121] 如实例15中所描述,进行终止子交换,同时基本上如实例4和5中所描述,进行与降解标签交换组合的溶解性标签交换和启动子交换。如下文所描述设计构筑体,且用CRISPR/
Cas9系统介导重组。在这个实例中用于启动子交换的双顺反子启动子是来自穆塔利克等
人《,自然方法》2013年4月;10(4):354-60,且可见于表20中。应注意,本文提供的任一种启动子可在下文所描述的方法中使用。
[1122] 表20-在这个实例中用于启动子交换组合的启动子.
[1123] 名称 长度 SEQ ID NO.P3_BCD1 133 255
P4_BCD22 121 256
P7_BCD19 132 257
P8_BCD15 121 258
P11_BCD17 121 259
P13_BCD8 121 260
[1124] 构筑体设计
[1125] 鉴定目标插入序列附近和与NGG PAM序列相邻的20碱基引导RNA,以在所期望位置处切割基因组。意欲插入到基因组中的序列在两端侧接90个同源碱基,使得同源性将引导
原生序列缺失或保留(视需要)。应注意,虽然在这个实例中,通过CRISPR/Cas9系统促进重
组,但也可通过传统单和双交叉同源重组方法以及如本公开中所描述的Lambda Red系统来
建构所有菌株。同样,单独或组合地,这些文库类型中的每一个(启动子交换、蛋白可溶性标签交换、蛋白降解标签交换和终止子交换),对于构筑/重组方法是不可知的。
[1126] 接种种子培养物
[1127] 挑选编辑来自佩特里培养板的基本菌株(W3110 pKD46-cas9 pLYC4)的一个菌落,且接种到较大体积的LB clin100 cmp25中且使培养物在30℃下在振荡下生长~16小时。
[1128] 制备感受态细胞和转化
[1129] 制备隔夜培养物的1:10稀释液且测量OD600。将LB clin100 cmp25接种到0.05的OD600,且在30℃下在振荡下生长~2小时。
[1130] 在2小时之后,周期性地测量OD600,直到达到诱导目标OD为止,且在达到目标后,添加20%阿拉伯糖到0.2%的最终浓度。
[1131] 以5,000×G,在4℃下离心培养物5分钟。倾倒出上清液且再悬浮,到等效于初始培养物体积的最终体积中。
[1132] 重复步骤7以洗涤细胞第三次。
[1133] 在3次洗涤之后,离心(pelleted)细胞且再悬浮于10%甘油中,到约1/250的初始培养物体积。制备再悬浮细胞的1:500稀释液,且再悬浮到所期望的OD600,其中适当体积为
40μl细胞/转化。
[1134] 在弗雷斯塔PCR培养板(或微量离心管)中,将40μL细胞与100ng引导RNA质粒和~4μL纯化的PCR产物修复模板混合。如果使用寡核苷酸作为修复模板,那么添加寡核苷酸到2μM的最终浓度。
[1135] 对细胞进行电穿孔且紧接着再悬浮于LB中,且在振荡下在30℃下于深孔培养板中恢复1小时。
[1136] 稀释所恢复的细胞且涂铺在LB琼脂clin100 kan50 cmp25上且在30℃下24到36小时。通过菌落PCR、测序或表型筛选,来筛选菌落。pKD46-cas9质粒可通过在37℃或更高温度下生长来清除,且pCRISPR2可通过在10%蔗糖上生长来清除。
[1137] HTP工程改造和高通量筛选
[1138] 如实例1和3中所描述进行交换组合的HTP工程改造,不同之处在于使用CRISPR/Cas 9来促进将构筑体同源重组到大肠杆菌基因组中。如实例3中所描述,对所得启动子交
换/终止子交换菌株、启动子交换/降解标签交换菌株、启动子交换/溶解性标签交换菌株和
启动子交换/终止子交换/降解标签交换/溶解性标签交换菌株进行HTP筛选。
[1139] 应注意,除非另外指出为不同的(如P4_BCD22),否则在所有菌株中使用启动子P3_BCD1,其中在dxs基因座处的修饰是在研究中。在除dxs以外的任何基因座处,除非另外指
出,否则使用原生启动子序列。这意味着,在dxs基因座处描述为ssrA_LAA的菌株,例如还含有P3_BCD1,但在gdhA基因座处描述为ssrA_LAA的菌株使用原生启动子序列。所测试的菌株
的全部内容在下表21中。
[1140] 表21-实例16中产生的菌株的内容.
[1141]
[1142]
[1143] 所概述实验结果描绘于图62和63中。
[1144] 如图62中所示,ssrA_LAA降解标签表明相对于对照改进的菌株性能。这是出人意料的,因为这个菌株是在单一路径目标处的PROSWP与降解标签的组合。预期初始PROSWP将
增加蛋白质丰度,且预期降解标签将降低蛋白质丰度,因此证明文库类型的组合对于调节
最优菌株性能的效用。如图63中所示,溶解性标签FH8表明相对于对照改进的菌株性能,但
GB1溶解性标签则不,因此证明对于评价每一种修饰类型的文库的必要性。
[1145] 总之,这个实例要表明的是,虽然本发明的组分可个别地适用于系统性菌株改进,但其也可与其它方法协同使用。举例来说,在通过终止子修饰改进mRNA稳定性之后,可插入
强力启动子,以进一步增加蛋白质生产超过任一种单独方法的水平。同样,这个新升高的蛋
白质生产水平可通过蛋白质溶解性标签结合其它修饰而进一步改进。当一起且与先前方法
一起使用时,本发明的组分可允许针对目标分子的生产进行更稳固和有效的菌株改进。
[1146] 本公开的其它编号实施例
[1147] 本公开涵盖的其它主题阐述于以下编号的实施例中:
[1148] 1.一种使大肠杆菌微生物进化以获得所期望表型的高通量(HTP)基因工程改造方法,其包括:
[1149] a.扰动多种具有相同基因组菌株背景的初始大肠杆菌微生物的基因组,借此创建包括具有独特基因变异的个别大肠杆菌菌株的初始HTP基因设计大肠杆菌菌株文库;
[1150] b.针对所述所期望表型来筛选和选择所述初始HTP基因设计大肠杆菌菌株文库的个别菌株;
[1151] c.提供各自包括基因变异独特组合的后续多种大肠杆菌微生物,所述基因变异选自所述前一步骤中筛选的至少两种个别大肠杆菌菌株中所存在的基因变异,借此创建后续
HTP基因设计大肠杆菌菌株文库;
[1152] d.针对所述所期望表型来筛选和选择所述后续HTP基因设计大肠杆菌菌株文库的个别大肠杆菌菌株;和
[1153] e.以线性或非线性方式重复步骤c)-d)一或多次,直到大肠杆菌微生物已经获得所述所期望表型为止,其中每次后续迭代创建新的HTP基因设计大肠杆菌菌株文库,所述新
的HTP基因设计大肠杆菌菌株文库包括具有独特基因变异的个别大肠杆菌菌株,所述独特
基因变异是选自前一个HTP基因设计大肠杆菌菌株文库的至少两种个别大肠杆菌菌株的基
因变异的组合。
[1154] 2.根据实施例1所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括选自由以下组成的群组的至少一个文库:启动子交换微生物菌株文库、SNP
交换微生物菌株文库、起始/终止密码子微生物菌株文库、优化序列微生物菌株文库、终止
子交换微生物菌株文库、蛋白质溶解性标签微生物菌株文库、蛋白质降解标签微生物菌株
文库和其任何组合。
[1155] 3.根据实施例1所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括启动子交换微生物菌株文库。
[1156] 4.根据实施例1或2所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括含有至少一种双顺反子设计(BCD)调控序列的启动子交换微生物菌株文
库。
[1157] 4.1根据实施例4所述的HTP基因工程改造方法,其中所述BCD调控序列按次序包括:
[1158] a.与其可操作地连接的启动子;
[1159] b.第一核糖体结合位点(SD1);
[1160] c.第一顺反子序列(Cis1);
[1161] d.第二核糖体结合位点(SD2);
[1162] 其中所述BCD序列与目标基因序列(Cis2)可操作地连接。
[1163] 4.2根据实施例4.1所述的HTP基因工程改造方法,其中SD1和SD2各自包括NNNGGANNN的序列。
[1164] 4.3根据实施例4.1或4.2所述的HTP基因工程改造方法,其中SD1和SD2是不同的。
[1165] 4.4根据实施例4.1至4.3中任一项所述的HTP基因工程改造方法,其中Cis1包括终止密码子,且其中Cis2包括起始密码子,且其中所述Cis1终止密码子和所述Cis2起始密码
子重叠至少1个核苷酸。
[1166] 4.5根据实施例4.1至4.4中任一项所述的HTP基因工程改造方法,其中SD2完全包埋在Cis1内。
[1167] 5.根据实施例1至4.5中任一项所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括SNP交换微生物菌株文库。
[1168] 6.根据实施例1至5中任一项所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括含以下的微生物菌株文库:
[1169] a.编码嵌合生物合成酶的至少一种多核苷酸,其中所述嵌合生物合成酶包括:
[1170] i.涉及大肠杆菌中的调控路径的酶;
[1171] ii.能够结合DNA结合位点的DNA结合结构域翻译性融合;和
[1172] b.至少一种DNA骨架序列,其包括对应于所述嵌合生物合成酶的所述DNA结合结构域的所述DNA结合位点。
[1173] 6.1根据实施例1至5中任一项所述的HTP基因工程改造方法,其中所述初始HTP基因设计大肠杆菌菌株文库包括含以下的微生物菌株文库:
[1174] a.至少一种编码嵌合生物合成酶的多核苷酸,其中所述嵌合生物合成酶包括:
[1175] i.涉及大肠杆菌中的调控路径的酶;
[1176] ii.能够结合募集肽的蛋白质结合结构域翻译性融合;和
[1177] b.至少一种蛋白质骨架序列,其包括对应于所述嵌合生物合成酶的所述蛋白质结合结构域的所述募集肽。
[1178] 7.根据实施例1至6.1中任一项所述的HTP基因工程改造方法,其中所述后续HTP基因设计大肠杆菌菌株文库是来源于所述初始HTP基因设计大肠杆菌菌株文库中的基因变异
的完全组合性菌株文库。
[1179] 8.根据实施例1至6.1中任一项所述的HTP基因工程改造方法,其中所述后续HTP基因设计大肠杆菌菌株文库是来源于所述初始HTP基因设计大肠杆菌菌株文库中的基因变异
的完全组合性菌株文库的子集。
[1180] 9.根据实施例1至6.1中任一项所述的HTP基因工程改造方法,其中所述后续HTP基因设计大肠杆菌菌株文库是来源于前一个HTP基因设计大肠杆菌菌株文库中的完全组合性
菌株文库。
[1181] 10.根据实施例1至6.1中任一项所述的HTP基因工程改造方法,其中所述后续HTP基因设计大肠杆菌菌株文库是来源于前一个HTP基因设计大肠杆菌菌株文库中的基因变异
的完全组合性菌株文库的子集。
[1182] 11.根据实施例1至10中任一项所述的HTP基因工程改造方法,其中扰动所述基因组包括利用至少一种选自由以下组成的群组的方法:随机突变诱发、靶向序列插入、靶向序
列缺失、靶向序列置换和其任何组合。
[1183] 12.根据实施例1至11中任一项所述的HTP基因工程改造方法,其中所述多种初始大肠杆菌微生物包括来源于工业生产性大肠杆菌菌株的独特基因变异。
[1184] 13.根据实施例1至12中任一项所述的HTP基因工程改造方法,其中所述多种初始大肠杆菌微生物包括工业生产菌株微生物,表示为S1Gen1;和来源于其的任何数量的后续微
生物世代,表示为SnGenn。
[1185] 14.一种用于产生SNP交换大肠杆菌菌株文库的方法,其包括以下步骤:
[1186] a.提供参考大肠杆菌菌株和第二大肠杆菌菌株,其中所述第二大肠杆菌菌株包括选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴定基因变异,所述基因变异不存在于
所述参考大肠杆菌菌株中;和
[1187] b.扰动所述参考大肠杆菌菌株或所述第二大肠杆菌菌株的基因组,借此创建包括多种个别大肠杆菌菌株的初始SNP交换大肠杆菌菌株文库,所述多种个别菌株的每种菌株
内发现有独特基因变异,其中所述独特基因变异中的每一种对应于选自所述参考大肠杆菌
菌株与所述第二大肠杆菌菌株之间的多种已鉴定基因变异中的单一基因变异。
[1188] 15.根据实施例14所述的用于产生SNP交换大肠杆菌菌株文库的方法,其中扰动所述参考大肠杆菌菌株的基因组以添加在所述第二大肠杆菌菌株中所发现的所述已鉴定单
核苷酸多态性、DNA插入或DNA缺失中的一或多种。
[1189] 16.根据实施例14或15所述的用于产生SNP交换大肠杆菌菌株文库的方法,其中扰动所述第二大肠杆菌菌株的基因组,以去除未在所述参考大肠杆菌菌株中发现的所述已鉴
定单核苷酸多态性、DNA插入或DNA缺失中的一或多种。
[1190] 17.根据实施例14至16中任一项所述的用于产生SNP交换大肠杆菌菌株文库的方法,其中所得具有独特基因变异的多种个别大肠杆菌菌株一起包括在所述参考大肠杆菌菌
株与所述第二大肠杆菌菌株之间的所有所述已鉴定基因变异的完全组合性文库。
[1191] 18.根据实施例14至16中任一项所述的用于产生SNP交换大肠杆菌菌株文库的方法,其中所得具有独特基因变异的多种个别大肠杆菌菌株一起包括在所述参考大肠杆菌菌
株与所述第二大肠杆菌菌株之间的所有所述已鉴定基因变异的完全组合性文库的子集。
[1192] 19.一种用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其包括以下步骤:
[1193] a.提供亲本谱系大肠杆菌菌株和来源于其的生产性大肠杆菌菌株,其中所述生产性大肠杆菌菌株包括选自单核苷酸多态性、DNA插入和DNA缺失的多种已鉴定基因变异,所
述基因变异不存在于所述亲本谱系菌株中;
[1194] b.扰动所述亲本谱系大肠杆菌菌株或所述生产性大肠杆菌菌株的基因组,以创建初始大肠杆菌菌株文库,其中所述初始文库中的每种菌株包括来自所述亲本谱系大肠杆菌
菌株与所述生产性大肠杆菌菌株之间的所述多种已鉴定基因变异的独特基因变异;
[1195] c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始文库的个别菌株,借此鉴定赋予表型性能改进的独特基因变异;
[1196] d.提供各自包括来自基因变异的独特基因变异组合的后续多种大肠杆菌微生物,所述基因变异存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中,借此创建后续
大肠杆菌菌株文库;
[1197] e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续文库的个别菌株,借此鉴定赋予额外表型性能改进的基因变异独特组合;和
[1198] f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于生产性大肠杆菌菌株的表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能,其中每次后续迭代创
建新的微生物菌株文库,其中所述新文库中的每种微生物菌株包括基因变异,所述基因变
异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组合。
[1199] 20.根据实施例19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述初始大肠杆菌菌株文库是包括所述亲本谱系大肠杆菌菌株与所述生产性大肠
杆菌菌株之间的所有所述已鉴定基因变异的完全组合性文库。
[1200] 21.根据实施例19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述初始大肠杆菌菌株文库是包括所述亲本谱系大肠杆菌菌株与所述生产性大肠
杆菌菌株之间的所述已鉴定基因变异的子集的完全组合性文库的子集。
[1201] 22.根据实施例19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述后续大肠杆菌菌株文库是所述初始文库的完全组合性文库。
[1202] 23.根据实施例19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述后续大肠杆菌菌株文库是所述初始文库的完全组合性文库的子集。
[1203] 24.根据实施例19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述后续大肠杆菌菌株文库是前一个文库的完全组合性文库。
[1204] 25.根据实施例19所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述后续大肠杆菌菌株文库是前一个文库的完全组合性文库的子集。
[1205] 26.根据实施例19至25中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中扰动所述亲本谱系大肠杆菌菌株的基因组以添加在生产性大肠杆菌菌
株中发现的所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一或多个。
[1206] 27.根据实施例19至25中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中扰动所述亲本谱系大肠杆菌菌株的基因组以去除未在亲本谱系大肠杆
菌菌株中发现的所述已鉴定单核苷酸多态性、DNA插入或DNA缺失中的一或多个。
[1207] 28.根据实施例19至27中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中扰动所述基因组包括利用至少一种选自由以下组成的群组的方法:随
机突变诱发、靶向序列插入、靶向序列缺失、靶向序列置换和其组合。
[1208] 29.根据实施例19至28中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性
能,后续文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少10%为
止。
[1209] 30.根据实施例19至28中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性
能,后续文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量增加至少一倍为
止。
[1210] 31.根据实施例19、29和30中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:所关注
产物的体积生产力、所关注产物的比生产力、所关注产物的产量、所关注产物的效价和其组
合。
[1211] 32.根据实施例19、29和30中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中步骤f)的所述已改进的表型性能是:增加所关注产物或更有效地
生产所关注产物,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
[1212] 33.根据实施例19至32中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其中所述已鉴定基因变异进一步包括来自启动子交换文库的人工启动子交
换基因变异。
[1213] 34.根据实施例19至33中任一项所述的用于修复和改进生产性大肠杆菌菌株的表型性能的方法,其进一步包括:
[1214] 对以下任一个的至少一种微生物菌株的基因组进行工程改造:
[1215] 所述初始大肠杆菌菌株文库,或
[1216] 后续大肠杆菌菌株文库,
[1217] 以包括来自与内源大肠杆菌目标基因可操作地连接的启动子梯的一或多种启动子。
[1218] 35.一种用于产生启动子交换大肠杆菌菌株文库的方法,其包括以下步骤:
[1219] a.提供基本大肠杆菌菌株的多种内源目标基因和启动子梯,其中所述启动子梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种启动子;和
[1220] b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始启动子交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株内
发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与所述基本大肠杆菌菌
株内源目标基因中的一个可操作地连接的所述启动子梯的一或多种启动子。
[1221] 36.根据实施例35所述的用于产生启动子交换大肠杆菌菌株文库的方法,其中所述多种启动子中的至少一种包括双顺反子设计(BCD)调控序列。
[1222] 37.一种用于改进生产性大肠杆菌菌株的表型性能的方法,其包括以下步骤:
[1223] a.提供基本大肠杆菌菌株的多种内源目标基因和启动子梯,其中所述启动子梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种启动子;
[1224] b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始启动子交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株内
发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与所述基本大肠杆菌菌
株内源目标基因中的一个可操作地连接的所述启动子梯的一或多种启动子;
[1225] c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始启动子交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予表型性能改进的独特基因变异;
[1226] d.提供各自包括来自基因变异的独特基因变异组合的后续多种大肠杆菌微生物,所述基因变异存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中,借此创建后续
启动子交换大肠杆菌菌株文库;
[1227] e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续启动子交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基因变
异独特组合;和
[1228] f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于生产性大肠杆菌菌株的表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能为止,其中每次后续迭
代创建新的微生物菌株启动子交换大肠杆菌菌株文库,其中所述新文库中的每种菌株包括
基因变异,所述基因变异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组
合。
[1229] 37.1根据实施例37所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述多种启动子中的至少一种包括双顺反子设计(BCD)调控序列。
[1230] 38.根据实施例37或37.1所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述后续启动子交换大肠杆菌菌株文库是所述初始启动子交换大肠杆菌
菌株文库的完全组合性文库。
[1231] 39.根据实施例37或37.1所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述后续启动子交换大肠杆菌菌株文库是所述初始启动子交换大肠杆菌
菌株文库的完全组合性文库的子集。
[1232] 40.根据实施例37或37.1所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述后续启动子交换大肠杆菌菌株库是前一个启动子交换大肠杆菌菌株
文库的完全组合性文库。
[1233] 41.根据实施例37或37.1所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中所述后续启动子交换大肠杆菌菌株库是前一个启动子交换大肠杆菌菌株
文库的完全组合性文库的子集。
[1234] 42.根据实施例37至41中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续
启动子交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量
增加至少10%为止。
[1235] 43.根据实施例37至41中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型性能,后续
启动子交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的表型变量
增加至少一倍为止。
[1236] 44.根据实施例37、41和43中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:所
关注产物的体积生产力、所关注产物的比生产力、所关注产物的产量、所关注产物的效价和
其组合。
[1237] 45.根据实施例37、42和43中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的启动子交换方法,其中步骤f)的所述已改进的表型性能是:增加所关注产物或更有
效地生产所关注产物,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
[1238] 46.一种用于产生终止子交换大肠杆菌菌株文库的方法,其包括以下步骤:
[1239] a.提供基本大肠杆菌菌株的多种内源目标基因和终止子梯,其中所述终止子梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种终止子;和
[1240] b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始终止子交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株内
发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与所述基本大肠杆菌菌
株内源目标基因中的一个可操作地连接的所述终止子梯的一或多种终止子。
[1241] 47.一种用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其包括以下步骤:
[1242] a.提供基本大肠杆菌菌株的多种内源目标基因和终止子梯,其中所述终止子梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种终止子;
[1243] b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始终止子交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株内
发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与所述基本大肠杆菌菌
株内源目标基因中的一个可操作地连接的所述终止子梯的一或多种终止子。
[1244] c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始终止子交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予表型性能改进的独特基因变异;
[1245] d.提供各自包括来自基因变异的独特的基因变异组合的后续多种大肠杆菌微生物,所述基因变异存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中,借此创建
后续终止子交换大肠杆菌菌株文库;
[1246] e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续终止子交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基因变
异独特组合;和
[1247] f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于生产性大肠杆菌菌株的表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能,其中每次后续迭代创
建新的微生物菌株终止子交换大肠杆菌菌株文库,其中所述新文库中的每种菌株包括基因
变异,所述基因变异是选自前一个文库的至少两种个别大肠杆菌菌株的基因变异组合。
[1248] 48.根据实施例47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中所述后续终止子交换大肠杆菌菌株文库是所述初始终止子交换大肠杆菌菌株文
库的完全组合性文库。
[1249] 49.根据实施例47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中所述后续终止子交换大肠杆菌菌株文库是所述初始终止子交换大肠杆菌菌株文
库的完全组合性文库的子集。
[1250] 50.根据实施例47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中所述后续终止子交换大肠杆菌菌株文库是前一个终止子交换大肠杆菌菌株文库
的完全组合性文库。
[1251] 51.根据实施例47所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中所述后续终止子交换大肠杆菌菌株文库是前一个终止子交换大肠杆菌菌株文库
的完全组合性文库的子集。
[1252] 52.根据实施例47至51中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型
性能,后续终止子交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的
表型变量增加至少10%。
[1253] 53.根据实施例47至51中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表型
性能,后续终止子交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测量的
表型变量增加至少一倍为止。
[1254] 54.根据实施例47至51中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:所关注
产物的体积生产力、所关注产物的比生产力、所关注产物的产量、所关注产物的效价和其组
合。
[1255] 55.根据实施例47至51中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的终止子交换方法,其中步骤f)的所述已改进的表型性能是:增加所关注产物或更有效地
生产所关注产物,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
[1256] 56.一种用于共定位来自大肠杆菌宿主细胞中的生物合成路径的生物合成酶的系统,所述系统包括:
[1257] a.涉及酶反应的两种或更多种嵌合酶蛋白,每一种嵌合酶蛋白包括与DNA结合结构域部分偶联的酶部分;
[1258] b.DNA骨架,其包括
[1259] i.一或多个亚基,每一个亚基包括通过至少一个核酸间隔子隔开的两个或更多个不同DNA结合位点;
[1260] 其中所述嵌合酶蛋白通过其偶联的DNA结合结构域部分募集到所述DNA骨架,所述偶联的DNA结合结构域部分中的每一个结合所述DNA骨架中的至少一个DNA结合位点。
[1261] 57.根据实施例56所述的系统,其中所述嵌合酶蛋白的所述DNA结合结构域部分包括锌指DNA结合结构域,且所述DNA骨架的所述DNA结合位点包括对应锌指结合序列。
[1262] 58.根据实施例56或57所述的系统,其中通过多肽连接子序列,所述两种或更多种嵌合酶蛋白中的每一个的所述酶部分与其相应DNA结合结构域部分偶联。
[1263] 59.根据实施例56至58中任一项所述的系统,其中通过其氨基端或其羧基端,所述两种或更多种嵌合酶蛋白中的每一个的所述酶部分与其相应DNA结合结构域部分偶联。
[1264] 60.根据实施例56至59中任一项所述的系统,其中所述两种或更多种嵌合酶蛋白包括氨基酸生物合成路径的酶。
[1265] 61.一种双顺反子设计调控(BCD)序列,所述BCD序列依次包括:
[1266] a.与其可操作地连接的启动子;
[1267] b.第一核糖体结合位点(SD1);
[1268] c.第一顺反子序列(Cis1);
[1269] d.第二核糖体结合位点(SD2);
[1270] 其中所述BCD序列与目标基因序列(Cis2)可操作地连接。
[1271] 62.根据实施例61所述的BCD,其中SD1和SD2各自包括NNNGGANNN的序列。
[1272] 63.根据实施例61或62所述的BCD,其中SD1和SD2不同。
[1273] 64.根据实施例61至63中任一项所述的BCD,其中Cis1包括终止密码子,且其中Cis2包括起始密码子,且其中所述Cis1终止密码子和所述Cis2起始密码子重叠至少1个核
苷酸。
[1274] 65.根据实施例61至63中任一项所述的BCD,其中SD2完全包埋在Cis1内。
[1275] 66.一种用于在宿主生物体中表达两种目标基因蛋白的方法,所述方法包括以下步骤:
[1276] a.将编码第一目标基因蛋白的第一多核苷酸引入到所述宿主生物体中,其中所述第一多核苷酸与根据实施例61至65中任一项所述的第一双顺反子设计调控(BCD)序列可操
作地连接;和
[1277] b.将编码第二目标基因蛋白的第二多核苷酸引入到所述宿主生物体中,所述第二多核苷酸与根据实施例61至65中任一项所述的第二BCD可操作地连接;
[1278] 其中除其相应Cis1序列以外,所述第一BCD和所述第二BCD一致,且其中所述目标基因蛋白分别以第一和第二表达水平在所述宿主生物体中表达。
[1279] 67.根据实施例66所述的方法,其中所述第一表达水平在所述第二表达水平的1.5倍内。
[1280] 68.根据实施例66或67所述的方法,其中相较于其中所述第一多核苷酸和所述多核苷酸通过一致BCD表达的对照宿主细胞,所述第一多核苷酸和所述第二多核苷酸在所述
宿主细胞中经历更低水平的同源重组。
[1281] 69.一种用于产生蛋白质溶解性标签交换大肠杆菌菌株文库的方法,其包括以下步骤:
[1282] a.提供基本大肠杆菌菌株的多种内源目标基因和溶解性标签梯,其中所述溶解性标签梯包括在所述基本大肠杆菌菌株中呈现不同溶解性的多种溶解性标签;和
[1283] b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始溶解性标签交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌
株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与所述基本大肠杆
菌菌株内源目标基因中的一个可操作地连接的所述溶解性标签梯的一或多种溶解性标签。
[1284] 70.一种用于改进生产性大肠杆菌菌株的表型性能的蛋白质溶解性标签交换方法,其包括以下步骤:
[1285] a.提供基本大肠杆菌菌株的多种内源目标基因和溶解性标签梯,其中所述溶解性标签梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种溶解性标签;
[1286] b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始溶解性标签交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌
株内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与所述基本大肠杆
菌菌株内源目标基因中的一个可操作地连接的所述溶解性标签梯的一或多种溶解性标签;
[1287] c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始溶解性标签交换大肠杆菌菌株文库的个别菌株,借此鉴定赋予表型性能改进的独特基因变异;
[1288] d.提供后续多种大肠杆菌微生物,其各自包括来自存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中的所述基因变异的独特基因变异组合,借此创建后续溶解性
标签交换大肠杆菌菌株文库;
[1289] e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续溶解性标签交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基
因变异独特组合;和
[1290] f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于所述生产性大肠杆菌菌株的所述表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能为止,其中每
次后续迭代创建新的微生物菌株溶解性标签交换大肠杆菌菌株文库,其中所述新文库中的
每种菌株包括基因变异,所述基因变异是选自前一个库的至少两种个别大肠杆菌菌株的基
因变异组合。
[1291] 71.根据实施例70所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中所述后续溶解性标签交换大肠杆菌菌株文库是所述初始溶解性标签交换大
肠杆菌菌株文库的完全组合性文库。
[1292] 72.根据实施例70所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中所述后续溶解性标签交换大肠杆菌菌株文库是所述初始溶解性标签交换大
肠杆菌菌株文库的完全组合性文库的子集。
[1293] 73.根据实施例70所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中所述后续溶解性标签交换大肠杆菌菌株文库是前一个溶解性标签交换大肠
杆菌菌株文库的完全组合性文库。
[1294] 74.根据实施例70所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中所述后续溶解性标签交换大肠杆菌菌株文库是前一个溶解性标签交换大肠
杆菌菌株文库的完全组合性文库的子集。
[1295] 75.根据实施例70至74中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述
表型性能,后续溶解性标签交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出
所测量的表型变量增加至少10%为止。
[1296] 76.根据实施例70至74中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述
表型性能,后续溶解性标签交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出
所测量的表型变量增加至少一倍为止。
[1297] 77.根据实施例70、75和76中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群
组:所关注产物的体积生产力、所关注产物的比生产力、所关注产物的产量、所关注产物的
效价和其组合。
[1298] 78.根据实施例70、75和76中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的溶解性标签交换方法,其中步骤f)的所述已改进的表型性能是:增加所关注产物或
更有效地生产所关注产物,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基
酸、有机酸、合成化合物、燃料、醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
[1299] 79.一种用于产生蛋白质降解标签交换大肠杆菌菌株文库的方法,其包括以下步骤:
[1300] a.提供基本大肠杆菌菌株的多种内源目标基因和降解标签梯,其中所述降解标签梯包括在所述基本大肠杆菌菌株中呈现不同溶解性概况的多种降解标签;和
[1301] b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始降解标签交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株
内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与所述基本大肠杆菌
菌株内源目标基因中的一个可操作地连接的所述降解标签梯的一或多种降解标签。
[1302] 80.一种用于改进生产性大肠杆菌菌株的表型性能的蛋白质降解标签交换方法,其包括以下步骤:
[1303] a.提供基本大肠杆菌菌株的多种内源目标基因和降解标签梯,其中所述降解标签梯包括在所述基本大肠杆菌菌株中呈现不同表达谱的多种降解标签;
[1304] b.对所述基本大肠杆菌菌株的基因组进行工程改造,借此创建包括多种个别大肠杆菌菌株的初始降解标签交换大肠杆菌菌株文库,所述多种个别大肠杆菌菌株的每种菌株
内发现有独特基因变异,其中所述独特基因变异中的每一种包括来自与所述基本大肠杆菌
菌株内源目标基因中的一个可操作地连接的所述降解标签梯的一或多种降解标签;
[1305] c.针对优于参考大肠杆菌菌株的表型性能改进来筛选和选择所述初始降解标签交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予表型性能改进的独特基因变
异;
[1306] d.提供后续多种大肠杆菌微生物,其各自包括来自存在于所述前一步骤中筛选的至少两种个别大肠杆菌菌株中的所述基因变异的独特基因变异组合,借此创建后续降解标
签交换大肠杆菌菌株文库;
[1307] e.针对优于所述参考大肠杆菌菌株的表型性能改进来筛选和选择所述后续降解标签交换大肠杆菌菌株文库的个别大肠杆菌菌株,借此鉴定赋予额外表型性能改进的基因
变异独特组合;和
[1308] f.以线性或非线性方式重复步骤d)-e)一或多次,直到相较于所述生产性大肠杆菌菌株的所述表型性能,大肠杆菌菌株呈现所期望水平的已改进的表型性能为止,其中每
次后续迭代创建新的微生物菌株降解标签交换大肠杆菌菌株文库,其中所述新文库中的每
种菌株包括基因变异,所述基因变异是选自前一个库的至少两种个别大肠杆菌菌株的基因
变异组合。
[1309] 81.根据实施例80所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中所述后续降解标签交换大肠杆菌菌株文库是所述初始降解标签交换大肠杆菌
菌株文库的完全组合性文库。
[1310] 82.根据实施例80所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中所述后续降解标签交换大肠杆菌菌株文库是所述初始降解标签交换大肠杆菌
菌株文库的完全组合性文库的子集。
[1311] 83.根据实施例80所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中所述后续降解标签交换大肠杆菌菌株文库是前一个降解标签交换大肠杆菌菌
株文库的完全组合性文库。
[1312] 84.根据实施例80所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中所述后续降解标签交换大肠杆菌菌株文库是前一个降解标签交换大肠杆菌菌
株文库的完全组合性文库的子集。
[1313] 85.根据实施例80至84中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表
型性能,后续降解标签交换大肠杆菌菌株文库的大肠杆菌菌株的所述表型性能呈现出所测
量的表型变量增加至少10%为止。
[1314] 86.根据实施例80至84中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中重复步骤d)-e),直到相较于所述生产性大肠杆菌菌株的所述表
型性能,后续降解标签交换大肠杆菌菌株文库的大肠杆菌菌株的表型性能呈现出所测量的
表型变量增加至少一倍为止。
[1315] 87.根据实施例80、85和86中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中步骤f)的所述已改进的表型性能选自由以下组成的群组:
所关注产物的体积生产力、所关注产物的比生产力、所关注产物的产量、所关注产物的效价
和其组合。
[1316] 88.根据实施例80、85和86中任一项所述的用于改进生产性大肠杆菌菌株的表型性能的降解标签交换方法,其中步骤f)的所述已改进的表型性能是:增加所关注产物或更
有效地生产所关注产物,所述所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、醇、初级胞外代谢物、次级胞外代谢物、胞内组分分子和其组合。
[1317] 89.一种用于在微生物宿主细胞中表达的与异源基因可操作地连接的嵌合合成启动子,其中所述嵌合合成启动子是60-90个核苷酸长且由以下组成:λ噬菌体pR启动子的远
端部分、λ噬菌体pL和pR启动子的各自长度是六个核苷酸的可变-35和-10区、λ噬菌体pL和pR启动子的核心部分和λ噬菌体pR启动子的5'UTR/核糖体结合位点(RBS)部分。
[1318] 90.根据实施例89所述的嵌合合成启动子,其中以下的核酸序列选自见于表1.5中的核酸序列:所述λ噬菌体pR启动子的所述远端部分、所述λ噬菌体pL和pR启动子的所述可
变-35和-10区、所述λ噬菌体pL和pR启动子的所述核心部分和所述λ噬菌体pR启动子的5'
UTR/核糖体结合位点(RBS)部分。
[1319] 91.一种用于在微生物宿主细胞中表达的与异源基因可操作地连接的嵌合合成启动子,其中所述嵌合合成启动子是60-90个核苷酸长且由以下组成:λ噬菌体pR启动子的远
端部分、λ噬菌体pL和pR启动子的各自长度是六个核苷酸的可变-35和-10区、λ噬菌体pL和pR启动子的核心部分和大肠杆菌acs基因的启动子的5'UTR/核糖体结合位点(RBS)部分。
[1320] 92.根据实施例91所述的嵌合合成启动子,其中以下的核酸序列选自见于表1.5中的核酸序列:所述λ噬菌体pR启动子的所述远端部分、所述λ噬菌体pL和pR启动子的所述可
变-35和-10区、所述λ噬菌体pL和pR启动子的所述核心部分和所述大肠杆菌acs基因的启动
子的所述5'UTR/核糖体结合位点(RBS)部分。
[1321] 93.根据实施例89至90中任一项所述的嵌合合成启动子,其中所述嵌合合成启动子由选自以下的核酸序列组成:SEQ ID NO.132-152、159-160、162、165、174-175、188、190、
199-201或207。
[1322] 94.根据实施例91至92中任一项所述的嵌合合成启动子,其中所述嵌合合成启动子由选自以下的核酸序列组成:SEQ ID NO.153-158、161、163-164、166-173、176-187、189、
191-198或202-206。
[1323] 95.根据实施例89至94中任一项所述的嵌合合成启动子,其中所述微生物宿主细胞是大肠杆菌。
[1324] 96.根据实施例95所述的嵌合合成启动子,其中所述异源基因编码见于表2中的所关注蛋白质产物。
[1325] 97.根据实施例95所述的嵌合合成启动子,其中所述异源基因是为赖氨酸生物合成路径的一部分的基因。
[1326] 98.根据实施例97所述的嵌合合成启动子,其中所述异源基因选自以下:asd基因、ask基因、hom基因、dapA基因、dapB基因、dapD基因、ddh基因、argD基因、dapE基因、dapF基因、lysA基因、lysE基因、zwf基因、pgi基因、ktk基因、fbp基因、ppc基因、pck基因、ddx基因、pyc基因或icd基因。
[1327] 99.根据实施例95所述的嵌合合成启动子,其中所述异源基因是为番茄红素生物合成路径的一部分的基因。
[1328] 100.根据实施例99所述的嵌合合成启动子,其中所述异源基因选自以下:dxs基因、ispC基因、ispE基因、ispD基因、ispF基因、ispG基因、ispH基因、idi基因、ispA基因、ispB基因、crtE基因、crtB基因、crtI基因、crtY基因、ymgA基因、dxr基因、elbA基因、gdhA基因、appY基因、elbB基因或ymgB基因。
[1329] 101.根据实施例95所述的嵌合合成启动子,其中所述异源基因编码生物药剂或是用于产生生物药剂的路径中的基因。
[1330] 102.根据实施例101所述的嵌合合成启动子,其中所述生物药剂选自以下:优泌林(rh胰岛素)、intronA(干扰素α2b)、罗扰素(干扰素α2a)、优猛茁(索马托品rh生长激素)、优保津(非格司亭)、德塔扰素(干扰素β-1b)、优泌乐(快速作用胰岛素)、瑞普森(瑞替普酶)、干复津(干扰素阿尔法康-1)、升糖素、贝若曼(他索纳明)、恩塔克(地尼白介素)、兰德仕(长效甘精胰岛素)、肯瑞特(kineret)(阿那白滞素)、纳翠可(奈西立肽)、索玛维特(派格索
曼)、降血钙素(重组鲑降血钙素)、乐舒晴(兰尼珠单抗)、普瑞他(人类甲状旁腺激素)、可瑞斯谢(聚乙二醇化的rh尿酸盐氧化酶)、尼维斯替姆(非格司亭,rhGCSF)、沃瑞夏兹(谷卡皮
酶)或匹瑞斯(甲状旁腺激素)。
[1331] 103.一种异源基因,其与具有选自SEQ ID NO.132-207的核酸序列的嵌合合成启动子可操作地连接。
[1332] 104.根据实施例103所述的异源基因,其中所述异源基因编码见于表2中的所关注蛋白质产物。
[1333] 105.根据实施例103所述的异源基因,其中所述异源基因是为赖氨酸生物合成路径的一部分的基因。
[1334] 106.根据实施例105所述的异源基因,其中所述异源基因选自以下:asd基因、ask基因、hom基因、dapA基因、dapB基因、dapD基因、ddh基因、argD基因、dapE基因、dapF基因、lysA基因、lysE基因、zwf基因、pgi基因、ktk基因、fbp基因、ppc基因、pck基因、ddx基因、pyc基因或icd基因。
[1335] 107.根据实施例103所述的异源基因,其中所述异源基因是为番茄红素生物合成路径的一部分的基因。
[1336] 108.根据实施例107所述的异源基因,其中所述异源基因选自以下:dxs基因、ispC基因、ispE基因、ispD基因、ispF基因、ispG基因、ispH基因、idi基因、ispA基因、ispB基因、crtE基因、crtB基因、crtI基因、crtY基因、ymgA基因、dxr基因、elbA基因、gdhA基因、appY基因、elbB基因或ymgB基因。
[1337] 109.根据实施例103所述的异源基因,其中所述异源基因编码生物药剂或是用于产生生物药剂的路径中的基因。
[1338] 110.根据实施例109所述的异源基因,其中所述生物药剂选自以下:优泌林(rh胰岛素)、intronA(干扰素α2b)、罗扰素(干扰素α2a)、优猛茁(索马托品rh生长激素)、优保津(非格司亭)、德塔扰素(干扰素β-1b)、优泌乐(快速作用胰岛素)、瑞普森(瑞替普酶)、干复津(干扰素阿尔法康-1)、升糖素、贝若曼(他索纳明)、恩塔克(地尼白介素)、兰德仕(长效甘精胰岛素)、肯瑞特(阿那白滞素)、纳翠可(奈西立肽)、索玛维特(派格索曼)、降血钙素(重
组鲑降血钙素)、乐舒晴(兰尼珠单抗)、普瑞他(人类甲状旁腺激素)、可瑞斯谢(聚乙二醇化
的rh尿酸盐氧化酶)、尼维斯替姆(非格司亭,rhGCSF)、沃瑞夏兹(谷卡皮酶)或匹瑞斯(甲状
旁腺激素)。
[1339] 具有SEQ ID NO识别符的本公开序列
[1340]
[1341]
[1342]
[1343]
[1344]
[1345]
[1346]
[1347] *****
[1348] 以引用的方式并入
[1349] 出于所有目的,本文中所引用的所有参考文献、论文、公开、专利、专利公开和专利申请全部均以全文引用的方式并入。然而,提及本文引用的任何参考文献、论文、公开案、专利、专利公开案和专利申请案不是且不应认为是承认或以任何形式暗示其构成有效现有技术或形成世界上任何国家的公共常识的部分。
[1350] 此外,以下特定申请以引用的方式并入本文中:20016年12月30日提交的第15/396,230号美国申请(第US 2017/0159045 A1号美国公开案);2016年12月07日提交的PCT/
US2016/065465(WO 2017/100377 A1);2016年4月27日提交的第15/140,296号美国申请(US 
2017/0316353 A1);2017年4月26日提交的PCT/US2017/029725(WO 2017/189784 A1);2016
年12月07日提交的PCT/US2016/065464(WO 2017/100376 A2);2016年12月07日提交的第
62/431,409号美国临时申请案;2015年12月07日提交的第62/264,232号美国临时申请案;
和2016年7月29日提交的第62/368,786号美国临时申请案。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈