首页 / 专利库 / 生物化学 / 次级代谢产物 / 高通量转座子诱变

高通量转座子诱变

阅读:637发布:2020-05-11

专利汇可以提供高通量转座子诱变专利检索,专利查询,专利分析的服务。并且本公开涉及一种高通量HTP 微 生物 基因组工程改造方法,其利用活体内转座子诱变来建立菌株文库用于微生物表型的扰动。,下面是高通量转座子诱变专利的具体信息内容。

1.一种使生物进化以获得所期望表型的高通量HTP基因组工程改造方法,包含:
a.利用转座子诱变扰动具有相同微生物菌株背景的初始多种微生物的基因组,借此创建包含具有独特基因变异的个别微生物菌株的初始HTP基因设计转座子诱变微生物菌株文库;
b.针对所期望表型来筛选和选择所述初始HTP基因设计转座子诱变微生物菌株文库中的个别菌株;
c.提供各自包含独特基因变异组合的后续多种微生物,所述基因变异选自前一步骤所筛选的至少两种个别菌株中所存在的基因变异,借此创建后续HTP基因设计转座子诱变微生物菌株文库;
d.针对所期望表型来筛选和选择所述后续HTP基因设计转座子诱变微生物菌株文库中的个别微生物菌株;和
e.以线性或非线性方式重复步骤c)-d)一或多次,直到微生物已获得所期望表型为止,其中每次后续迭代创建新的HTP基因设计转座子诱变微生物菌株文库,所述微生物菌株文库包含具有独特基因变异的个别菌株,所述独特基因变异为选自前一个HTP基因设计转座子诱变微生物菌株文库的至少两种个别菌株的基因变异的组合。
2.根据权利要求1所述的HTP基因组工程改造方法,其中所述转座子诱变包含:提供转座酶和DNA有效负载序列。
3.根据权利要求2所述的HTP基因组工程改造方法,其中所述转座酶和DNA有效负载序列形成转座酶-DNA有效负载复合物。
4.根据权利要求1所述的HTP基因组工程改造方法,其中所述转座子诱变使得转座子随机插入所述多种微生物的基因组中。
5.根据权利要求1所述的HTP基因组工程改造方法,其中所述转座子诱变产生功能丧失LoF表型。
6.根据权利要求1所述的HTP基因组工程改造方法,其中所述转座子诱变产生功能获得GoF表型。
7.根据权利要求1所述的HTP基因组工程改造方法,其中所述转座子诱变使含有功能获得GoF型元件的DNA有效负载序列插入所述基因组中。
8.根据权利要求7所述的HTP基因组工程改造方法,其中所述功能获得型元件选自由以下组成的群组:启动子、溶解性标签元件,和反向可选标记。
9.根据权利要求1所述的HTP基因组工程改造方法,其中所述转座子诱变使含有功能丧失LoF型元件的DNA有效负载复合物插入。
10.根据权利要求9所述的HTP基因组工程改造方法,其中所述功能丧失型元件是标记。
11.根据权利要求1所述的HTP基因组工程改造方法,其中所述转座子诱变包含用至少两种转座酶-DNA有效负载复合物转化所述多种微生物,所述至少两种复合物中的一种含有功能获得GoF型元件且一种含有功能丧失LoF型元件。
12.根据权利要求1所述的HTP基因组工程改造方法,其中所述转座子诱变利用EZ-Tn5转座子诱变系统。
13.根据权利要求1所述的HTP基因组工程改造方法,其中所述基因组是通过利用转座子诱变和以下中的至少一种来扰动:SNP交换、启动子交换、终止子交换、序列优化或其任何组合。
14.根据权利要求1所述的HTP基因组工程改造方法,其中所述微生物是原核生物。
15.根据权利要求1所述的HTP基因组工程改造方法,其中所述微生物来自选自由以下组成的群组的属:农杆菌属、脂环酸芽孢杆菌属、念珠藻属、倒囊藻属、不动杆菌属、酸热菌属、节杆菌属、固氮菌属、芽孢杆菌属、双叉杆菌属、短杆菌属、丁酸弧菌属、布赫纳氏菌属、野油菜、弯曲杆菌属、梭菌属、棒状杆菌属、红硫菌属、粪球菌属、埃希氏杆菌属、肠球菌属、肠杆菌属、欧文菌属、梭杆菌属、粪栖杆菌属、弗朗西斯氏菌属、黄杆菌属、土芽孢杆菌属、嗜血杆菌属、螺旋杆菌属、克雷伯氏菌属、乳杆菌属、乳球菌属、泥杆菌属、微球菌属、微杆菌属、中间根瘤菌属、甲基杆菌属、甲基杆菌属、分枝杆菌属、奈瑟菌属、泛菌属、假单胞菌属、原绿球藻属、红细菌属、红假单胞菌属、红假单胞菌属、罗斯氏菌属、红螺菌属、红球菌属、栅列藻属、链霉菌属、链球菌属、聚球藻属、糖单孢菌属、糖多孢菌属、葡萄球菌属、沙雷氏菌属、沙氏菌属、志贺杆菌属、嗜热厌杆菌属、养障体、土拉热菌属、蒂梅丘拉、嗜热聚球藻属、热球菌属、脲原体属、黄单胞菌属、木杆菌属、耶尔森氏菌属和发酵单胞菌属。
16.根据权利要求1所述的HTP基因组工程改造方法,其中所述微生物是刺糖多孢菌。
17.根据权利要求1所述的HTP基因组工程改造方法,其中所述微生物为大肠杆菌。
18.根据权利要求1所述的HTP基因组工程改造方法,其中所述微生物是真核生物。
19.一种产生转座子诱变微生物菌株文库的方法,包含:
a)将转座子引入一或多种基本微生物菌株的微生物细胞群中;以及
b)选择包含随机整合的转座子的至少一种微生物菌株,借此创建包含多种个别微生物菌株的初始转座子诱变微生物菌株文库,在所述多种个别菌株的每种菌株内发现独特基因变异,其中所述独特基因变异各自包含一或多种随机整合的转座子。
20.根据权利要求19所述的方法,进一步包含:
c)从所述转座子诱变微生物菌株文库中选择出所测量表型变量的性能相较于所述基本微生物菌株的表型性能展现增强的菌株。
21.根据权利要求19所述的方法,其中利用转座子和转座酶蛋白质的复合物将所述转座子引入所述基本微生物菌株中,所述复合物允许所述转座子活体内转座至所述基本微生物菌株的基因组中。
22.根据权利要求19所述的方法,其中所述转座酶蛋白质来源于EZ-Tn5转座体系统。
23.根据权利要求19所述的方法,其中所述转座子是功能丧失型LoF转座子或功能获得型GoF转座子。
24.根据权利要求23所述的方法,其中所述功能丧失型转座子包含标记。
25.根据权利要求24所述的方法,其中所述标记是反向可选标记。
26.根据权利要求23所述的方法,其中所述功能获得型转座子包含溶解性标签、启动子或反向选择标记。
27.根据权利要求19所述的方法,其中所述微生物菌株是原核生物。
28.根据权利要求19所述的方法,其中所述微生物菌株来自选自由以下组成的群组的属:农杆菌属、脂环酸芽孢杆菌属、念珠藻属、倒囊藻属、不动杆菌属、酸热菌属、节杆菌属、固氮菌属、芽孢杆菌属、双叉杆菌属、短杆菌属、丁酸弧菌属、布赫纳氏菌属、野油菜、弯曲杆菌属、梭菌属、棒状杆菌属、红硫菌属、粪球菌属、埃希氏杆菌属、肠球菌属、肠杆菌属、欧文菌属、梭杆菌属、粪栖杆菌属、弗朗西斯氏菌属、黄杆菌属、土芽孢杆菌属、嗜血杆菌属、螺旋杆菌属、克雷伯氏菌属、乳杆菌属、乳球菌属、泥杆菌属、微球菌属、微杆菌属、中间根瘤菌属、甲基杆菌属、甲基杆菌属、分枝杆菌属、奈瑟菌属、泛菌属、假单胞菌属、原绿球藻属、红细菌属、红假单胞菌属、红假单胞菌属、罗斯氏菌属、红螺菌属、红球菌属、栅列藻属、链霉菌属、链球菌属、聚球藻属、糖单孢菌属、糖多孢菌属、葡萄球菌属、沙雷氏菌属、沙门氏菌属、志贺杆菌属、嗜热厌氧杆菌属、养障体、土拉热菌属、蒂梅丘拉、嗜热聚球藻属、热球菌属、脲原体属、黄单胞菌属、木杆菌属、耶尔森氏菌属和发酵单胞菌属。
29.根据权利要求19所述的方法,其中所述微生物菌株是刺糖多孢菌。
30.根据权利要求19所述的方法,其中所述微生物菌株是大肠杆菌。
31.根据权利要求19所述的方法,其中所述微生物菌株是真核生物。
32.一种用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,包含以下步骤:
a.通过转座子诱变对基本微生物菌株的基因组进行工程改造,借此创建包含多种个别菌株的初始转座子诱变微生物菌株文库,在所述多种个别菌株的每种菌株内发现独特基因变异,其中所述独特基因变异各自包含一或多种转座子;
b.针对优于参考菌株的表型性能改良,筛选和选择所述初始转座子诱变微生物菌株文库中的个别微生物菌株,借此鉴别赋予表型性能改良的独特基因变异;
c.提供各自包含独特基因变异组合的后续多种微生物菌株,所述独特基因变异来自前一步骤所筛选的至少两种个别菌株中存在的基因变异,借此创建后续转座子诱变微生物菌株文库;
d.针对优于参考微生物菌株的表型性能改良,筛选和选择所述后续转座子诱变微生物菌株文库中的个别菌株,借此鉴别出赋予额外表型性能改良的独特基因变异组合;以及e.以线性或非线性方式重复步骤c)-d)一或多次,直到菌株相较于所述生产性微生物菌株的表型性能展现经改良的表型性能的期望平,其中每次后续迭代创建新的转座子诱变微生物菌株文库,其中新文库中的每种微生物菌株包含基因变异,所述基因变异是选自前一个文库的至少两种个别微生物菌株的基因变异的组合。
33.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述后续转座子诱变微生物菌株文库是所述初始转座子诱变微生物菌株文库的部分组合文库。
34.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述后续转座子诱变微生物菌株文库是所述初始转座子诱变微生物菌株文库的完整组合文库的子集。
35.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述后续转座子诱变微生物菌株文库是前一个转座子诱变微生物菌株文库的部分组合文库。
36.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述后续转座子诱变微生物菌株文库是前一个转座子诱变微生物菌株文库的完整组合文库的子集。
37.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中重复步骤c)-d)直到后续转座子诱变微生物菌株文库的微生物菌株的表型性能在所测量表型变量上相较于所述生产性微生物菌株的表型性能展现至少10%增强。
38.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中重复步骤c)-d)直到后续转座子诱变微生物菌株文库的微生物菌株的表型性能在所测量表型变量上相较于所述生产性微生物菌株的表型性能展现至少一倍的增强。
39.根据权利要求32所述的用于改良生产菌株的表型性能的HTP转座子诱变方法,其中步骤e)的所述经改良的表型性能选自由以下组成的群组:所关注产物的体积生产率、所关注产物的比生产率、所关注产物的产量、所关注产物的效价、所关注产物的生产增加或更有效,所关注的所述产物选自由以下组成的群组:小分子、酶、肽、基酸、有机酸、合成化合物、燃料乙醇、初级细胞外代谢物、次级细胞外代谢物、细胞内组分分子,和其组合。
40.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述转座子是功能丧失型LoF转座子或功能获得型GoF转座子。
41.根据权利要求40所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述功能丧失型转座子含有标记或反向可选标记。
42.根据权利要求40所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述功能获得型转座子含有启动子、溶解性标签,或反向可选标记。
43.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述生产性微生物菌株是原核生物。
44.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述生产性微生物菌株来自选自由以下组成的群组的属:农杆菌属、脂环酸芽孢杆菌属、念珠藻属、倒囊藻属、不动杆菌属、酸热菌属、节杆菌属、固氮菌属、芽孢杆菌属、双叉杆菌属、短杆菌属、丁酸弧菌属、布赫纳氏菌属、野油菜、弯曲杆菌属、梭菌属、棒状杆菌属、红硫菌属、粪球菌属、埃希氏杆菌属、肠球菌属、肠杆菌属、欧文菌属、梭杆菌属、粪栖杆菌属、弗朗西斯氏菌属、黄杆菌属、土芽孢杆菌属、嗜血杆菌属、螺旋杆菌属、克雷伯氏菌属、乳杆菌属、乳球菌属、泥杆菌属、微球菌属、微杆菌属、中间根瘤菌属、甲基杆菌属、甲基杆菌属、分枝杆菌属、奈瑟菌属、泛菌属、假单胞菌属、原绿球藻属、红细菌属、红假单胞菌属、红假单胞菌属、罗斯氏菌属、红螺菌属、红球菌属、栅列藻属、链霉菌属、链球菌属、聚球藻属、糖单孢菌属、糖多孢菌属、葡萄球菌属、沙雷氏菌属、沙门氏菌属、志贺杆菌属、嗜热厌氧杆菌属、养障体、土拉热菌属、蒂梅丘拉、嗜热聚球藻属、热球菌属、脲原体属、黄单胞菌属、木杆菌属、耶尔森氏菌属和发酵单胞菌属。
45.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述生产性微生物菌株是刺糖多孢菌。
46.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述生产性微生物菌株是大肠杆菌。
47.根据权利要求32所述的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述生产性微生物菌株是真核生物。
48.根据权利要求9所述的HTP基因组工程改造方法,其中所述标记是反向可选标记。

说明书全文

高通量转座子诱变

[0001] 相关申请的交叉引用
[0002] 本申请要求2017年6月6日所提交的美国临时申请第62/515,965号的优先权,其内容以全文引用的方式并入本文中。

技术领域

[0003] 本公开涉及一种高通量(HTP)生物基因组工程改造方法,其利用活体内转座子诱变来建立菌株文库用于微生物表型的扰动。
[0004] 关于序列表的表述
[0005] 与本申请相关的序列表是按文本格式提供以代替纸质副本,且以引用的方式并入本说明书中。含有序列表的文本文件的名称是ZYMR_014_01WO_SeqList_ST25.txt。所述文
本文件是14KB,创建于2018年6月6日,且以电子方式通过EFS网提交。

背景技术

[0006] 人类利用微生物细胞生物合成路径产生所关注的产物的能已有一千年,所述产物的最古老实例包括乙醇、醋、奶酪和酵母乳。这些产物在当今仍然存在巨大的需求并且还伴随着微生物所能产生的产物谱系的不断增大。基因工程技术的出现使得科学家能够设计
出多种生物体内的新颖生物合成路径且对其进行编程,从而产生广泛范围的工业、医疗和
消费产品。的确,微生物细胞培养物现在用于产生小分子、抗生素、疫苗杀虫剂、酶、燃料和工业化学品范围内的产物。
[0007] 鉴于现代工业微生物产生的产物多种多样,因此工程师们承受着提高所指定微生物能够产生目标产物的速度和效率的巨大压力是不令人惊讶的。
[0008] 已经使用多种方法,通过“改良”所涉及的微生物来改善基于生物学的工业过程的经济性。举例来说,许多工业依赖于微生物菌株改良程序,其中使微生物培养物的亲代菌株通过暴露于化学品或UV辐射而连续发生突变且随后根据性能增强(如生产率、产量和效价)进行筛选。广泛地重复这种突变诱发过程直到菌株展现产物性能的适当增强为止。接着使
用后续“改良”菌株进行商业生产。
[0009] 然而,通过传统突变诱发方法鉴别改良的工业微生物菌株耗时且效率低。所述方法就其本质来说是偶然的、低效的且缓慢的。
[0010] 因此,所属领域中需要工程改造微生物的新方法,所述新方法加快了发现和合并有益突变的过程。
发明内容
[0011] 本公开通过提供高通量(HTP)微生物基因组工程改造方法来解决所属领域中的这个需求,所述方法相对于所属领域中当前所实施的缓慢低效方法提供显著的改良。
[0012] HTP微生物基因组工程平台是利用HTP工具集推导出微生物菌株文库,其允许快速且有效地鉴别出得到改良的宿主表型的基因扰动。举例来说,本文所述的HTP微生物基因组工程平台是利用活体内转座子诱变来扰动宿主微生物的基因组,由此能够创建多种多样的
微生物菌株文库,所述文库能够用于改良宿主表型。
[0013] 所公开的HTP基因组工程平台由计算机驱动且整合了分子生物学、自动化和先进机器学习方案。这个整合平台使用了一套HTP分子工具集创建HTP基因设计文库,所述基因
设计文库尤其利用科学见解和迭代模式识别得到。
[0014] 正如上文所提及,所教示的HTP基因设计文库通过提供用于在微生物中测试的特定基因组变异文库来充当基因组工程改造过程的驱动器。利用特定文库或文库组合加以工
程改造的微生物是根据所得结果(例如所关注产物的产生),按照HTP方式高效筛选。利用
HTP基因设计文库界定用于在微生物中测试的特定基因组变异且接着随后筛选具有所述变
异的宿主微生物基因组的这种方法是按高效的迭代方式实施。在一些方面中,基因组工程
活动的迭代循环数或“轮数”可以是至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、
90、100或更多个迭代/循环/轮数。
[0015] 因此,在一些方面中,本公开教示了执行至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、
39、40、41、42、43、44、45、46、47、48、49、50、50、51、52、53、54、55、56、57、58、59、60、61、62、
63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、
88、89、90、91、92、93、94、95、96、97、98、99、100、125、150、175、200、225、250、275、300、325、
350、375、400、425、450、475、500、525、550、575、600、625、650、675、700、725、750、775、800、
825、850、875、900、925、950、975、1000或更多“轮”HTP基因工程(例如多轮SNP交换、PRO交换、STOP交换、转座子诱变或其组合)的方法。
[0016] 在一些实施例中,本公开教示了一种线性方法,其中每一轮后续HTP基因工程是基于前一轮基因工程中所鉴别的基因变异。在其它实施例中,本公开教示了一种非线性方法,其中每一轮后续HTP基因工程是基于任何前一轮基因工程(包括此前进行的分析,和单独的
HTP基因工程学分支)中所鉴别的基因变异。
[0017] 这些迭代循环的数据成就了大规模数据分析和模式识别,从而被整合平台利用以知悉后续多轮HTP基因设计文库建构。因此,所教示平台中使用的HTP基因设计文库是高度
动态工具,其受益于大规模数据模式识别算法且通过每轮迭代微生物工程改造而变得信息
更丰富。
[0018] 在一些实施例中,本公开的基因设计文库包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、
37、38、39、40、41、42、43、44、45、46、47、48、49、50、50、51、52、53、54、55、56、57、58、59、60、
61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、
86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、125、150、175、200、225、250、275、
300、325、350、375、400、425、450、475、500、525、550、575、600、625、650、675、700、725、750、
775、800、825、850、875、900、925、950、975、1000或更多个个别基因变化(例如PRO交换文库或转座子功能获得型文库中存在至少X数目个启动子:基因组合)。
[0019] 在一些实施例中,本公开教示了一种使微生物进化以获得所期望表型的高通量(HTP)基因组工程学方法,包含:a)利用转座子诱变扰动具有相同微生物菌株背景的初始多种微生物的基因组,借此创建包含具有独特基因变异的个别微生物菌株的初始HTP基因设
计转座子诱变微生物菌株文库;b)根据所期望的表型来筛选和选择初始HTP基因设计转座
子诱变微生物菌株文库中的个别微生物菌株;c)提供各自包含基因变异独特组合的后续多
种微生物,所述基因变异选自前述步骤所筛选的至少两种个别微生物菌株中所存在的基因
变异,借此创建后续HTP基因设计转座子诱变微生物菌株文库;d)根据所期望的表型来筛选和选择后续HTP基因设计转座子诱变微生物菌株文库中的个别微生物菌株;e)按线性或非
线性方式重复执行步骤c)-d)一或多次,直到微生物已获得所期望的表型为止,其中每次后续迭代创建了新的HTP基因设计转座子诱变微生物菌株文库,所述文库包含具有独特基因
变异的个别微生物菌株,所述独特基因变异是选自前一HTP基因设计转座子诱变微生物菌
株文库中的至少两种个别微生物菌株的基因变异的组合。
[0020] 在一些实施例中,本公开教示了制备各自包含基因变异独特组合的后续多种微生物的方法,其中组合的基因变异各自来源于初始HTP基因设计转座子诱变微生物菌株文库
或前一步骤的HTP基因设计转座子诱变微生物菌株文库。
[0021] 在一些实施例中,后续多种微生物中的基因变异组合将包含初始HTP基因设计转座子诱变微生物菌株文库或前一步骤的HTP基因设计转座子诱变微生物菌株文库中的基因
变异的所有可能组合的子集。
[0022] 在一些实施例中,本公开教示了后续HTP基因设计微生物菌株文库是初始HTP基因设计微生物菌株文库或前一步骤的HTP基因设计微生物菌株文库中的基因变异所衍生的部
分组合微生物菌株文库。
[0023] 举例来说,如果先前HTP基因设计微生物菌株文库仅具有基因变异A、B、C和D,那么所述变异的部分组合可以包括包含三种微生物的后续HTP基因设计微生物菌株文库,所述三种微生物各自包含独特的基因变异组合AB、AC或AD(展现突变的顺序不重要)。前一步骤
的HTP基因设计文库中的基因变异所衍生的完整组合微生物菌株文库包括六种各自包含独
特的基因变异组合AB、AC、AD、BC、BD或CD的微生物。
[0024] 在一些实施例中,本公开的方法教示了利用至少一种选自由以下组成的群组的方法扰动基因组:随机突变诱发、靶向序列插入、靶向序列缺失、靶向序列置换、转座子诱变,或其任何组合。
[0025] 在本公开方法的一些实施例中,初始多种微生物包含来源于工业生产株微生物的独特基因变异。
[0026] 在本发明方法的一些实施例中,初始多种微生物包含表示为S1Gen1的工业生产株微生物和其衍生的表示为SnGenn的任何数目个微生物后代。
[0027] 在一些实施例中,本公开教示了一种进行基因组工程改造而使微生物进化以获得所期望表型的转座子诱变方法,所述方法包含以下步骤:a)提供转座酶和DNA有效负载序
列。在一些实施例中,转座酶和DNA有效负载序列形成转座酶-DNA有效负载复合物。在一些实施例中,转座子诱变使得转座子随机插入多种微生物的基因组中。在一些实施例中,转座酶衍生自EZ-Tn5转座子系统。在一些实施例中,DNA有效负载序列侧接能够被转座酶识别的嵌合元件(ME)。能够改变DNA有效负载的特定序列以偏向于转座子插入目标基因组所致的
功能丧失或功能获得效应。
[0028] 在一些实施例中,转座子诱变产生功能丧失(LoF)或功能获得(GoF)表型。在一些实施例中,DNA有效负载可以是功能丧失(LoF)转座子或功能获得(GoF)转座子。在一些实施例中,DNA有效负载包含选择标记。在一些实施例中,选择标记是抗生素抗性。在一些实施例中,DNA有效负载包含反向选择标记。在一些实施例中,反向选择标记用于促进含有可选标记的DNA有效负载环出,从而能够使标记再循环且从而能够进行其它多轮工程改造。在一些实施例中,GoF转座子包含GoF元件。在一些实施例中,GoF转座子包含启动子序列和/或溶解性标签序列。在一些实施例中,GoF转座子包含抗生素标记和强启动子。在一些实施例中,所述方法进一步包含b)将转座酶与DNA有效负载序列组合以形成复合物,和c)将转座酶-DNA
有效负载复合物转化为微生物菌株,从而使得DNA有效负载序列随机整合于微生物菌株基
因组中。在一些实施例中,包含随机整合的DNA有效负载的菌株形成初始转座子诱变文库。
[0029] 在一些实施例中,所述方法进一步包含d)根据所期望的表型筛选和选择初始转座子诱变微生物菌株文库中的个别微生物菌株。在一些实施例中,所述方法进一步包含e)提
供各自包含基因变异独特组合的后续多种微生物,借此创建后续转座子诱变微生物菌株文
库,所述基因变异选自前一步骤所筛选的至少两种个别微生物菌株中所存在的基因变异。
在一些实施例中,所述方法进一步包含f)根据所期望的表型筛选和选择后续转座子诱变微
生物菌株文库中的个别微生物菌株。在一些实施例中,所述方法进一步包含g)以线性或非
线性方式重复执行步骤e)-f)一或多次,直到微生物已获取所期望表型为止,其中每次后续迭代创建新的转座子诱变微生物菌株文库,所述微生物菌株文库包含具有独特基因变异的
个别微生物菌株,所述独特基因变异为选自前一个转座子诱变微生物菌株文库的至少两种
个别微生物菌株的基因变异的组合。
[0030] 在一些实施例中,本公开教示了以迭代方式如下改良候选微生物菌株的设计:(a)访问用训练集填充的预测模型,所述训练集包含(1)代表了相对于一或多种背景微生物菌
株的基因变化的输入以及(2)相应性能度量;(b)将测试输入应用于代表基因变化的预测模
型,所述测试输入对应于并入那些基因变化的候选微生物菌株;(c)至少部分地基于预测模型来预测候选微生物菌株的表型性能;(d)至少部分地基于其预测性能来选择候选微生物
菌株的第一子集;(e)获得候选微生物菌株的第一子集的实测表型性能;(f)至少部分地基
于其实测表型性能来实现候选微生物菌株的第二子集的选择;(g)向预测模型的训练集中
添加(1)对应于候选微生物菌株的所选第二子集的输入以及(2)候选微生物菌株的所选第
二子集的相应实测性能;以及(h)重复(b)-(g)直到至少一种候选微生物菌株的实测表型性
能满足性能度量标准为止。在一些情况下,在测试输入首次应用于预测模型期间,测试输入所代表的基因变化包含相对于一或多种背景微生物菌株的基因变化;且在测试输入的后续
应用期间,测试输入所代表的基因变化包含相对于候选微生物菌株的此前所选第二子集内
的候选微生物菌株的基因变化。
[0031] 在一些实施例中,第一子集的选择可以基于上位效应。这可以如下实现:在第一子集的首次选择期间:测定一或多种背景微生物菌株的性能度量之间的差异程度,所述性能度量响应于代表相对于一或多种背景微生物菌株的基因变化的多种相应输入的应用;以及
至少部分地基于一或多种背景微生物菌株的性能度量的差异程度来选择至少两种候选微
生物菌株纳入第一子集,所述性能度量响应于并入所述至少两种候选微生物菌株中的基因
变化的应用。
[0032] 在一些实施例中,本公开教示了在候选微生物菌株的迭代改良中应用上位效应,所述方法包含:获得代表实测性能的数据,所述实测性能响应于至少一种背景微生物菌株
所产生的相应基因变化;至少部分地基于至少两种基因变化的相应响应性性能度量之间的
差异程度来实现至少两种基因变化的选择,其中差异程度是指所述至少两种基因变化通过
不同生物学路径影响其相应响应性性能度量的程度;以及设计出相对于背景微生物菌株的
基因变化,包括所选基因变化。在一些情况下,供设计至少两种所选基因变化用的背景微生物菌株与所得数据代表实测响应性性能的至少一种背景微生物菌株相同。
[0033] 在一些实施例中,本公开教示了仅利用单一类型的微生物基因文库进行的HTP菌株改良方法。举例来说,在一些实施例中,本公开教示了仅利用转座子诱变文库进行的HTP菌株改良方法。
[0034] 在其它实施例中,本公开教示了利用两种或更多种类型的微生物基因文库进行的HTP菌株改良方法。举例来说,在一些实施例中,本公开教示了将SNP交换与转座子诱变文库组合的HTP菌株改良方法。在一些实施例中,本公开教示了将PRO交换与转座子诱变文库组
合的HTP菌株改良方法。在一些实施例中,本公开教示了将STOP交换与转座子诱变文库组合的HTP菌株改良方法。在又其它实施例中,可以将本公开的HTP菌株改良方法与一或多种传
统的菌株改良方法组合。
[0035] 在一些实施例中,本公开的HTP菌株改良方法产生改良的宿主细胞。即,本公开教示了改良一或多种宿主细胞特性的方法。在一些实施例中,改良的宿主细胞特性选自由以
下组成的群组:由宿主细胞产生的所关注产物的体积生产率、比生产率、产量或力价。在一些实施例中,改良的宿主细胞特性是体积生产率。在一些实施例中,改良的宿主细胞特性是比生产率。在一些实施例中,改良的宿主细胞特性是产量。
[0036] 在一些实施例中,本公开的HTP菌株改良方法所产生的宿主细胞在至少一种宿主细胞特性上相对于未经历HTP菌株改良方法的对照宿主细胞展现1%、2%、3%、4%、5%、
6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、
22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、
37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、
52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、
67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、
82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、
97%、98%、99%、100%、150%、200%、250%、300%或更大的改良(例如所关注生物分子的产量或生产率提高X%,涵盖其中的任何范围和子范围)。在一些实施例中,本公开的HTP菌株改良方法选自由以下组成的群组:SNP交换、PRO交换、STOP交换、转座子诱变以及其组合。
[0037] 在一些实施例中,本公开的转座子诱变方法所产生的宿主细胞在至少一种宿主细胞特性上相对于未经历转座子诱变方法的对照宿主细胞展现1%、2%、3%、4%、5%、6%、
7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、
23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、
38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、
53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、
68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、
83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、
98%、99%、100%、150%、200%、250%、300%或更大的改良(例如所关注生物分子的产量或生产率提高X%,涵盖其中的任何范围和子范围)。
附图说明
[0038] 图1描绘了用于增加多样性池中的变异的本公开DNA重组方法。DNA区段(如来自相关物种的基因组区域)可以通过物理或酶/化学方式切割。使所切的DNA区域解链且允许其
再粘接,以便重叠的基因区域引发聚合酶延伸反应。执行后续的解链/延伸反应,直到产物再组装成嵌合DNA为止,所述嵌合DNA包含来自一或多种起始序列的元件。
[0039] 图2概述了用于产生新宿主生物体的本公开方法,所述新宿主生物体具有所选的序列修饰(例如交换的100个SNP)。简单来说,所述方法包含(1)设计出所期望的DNA插入序
列且通过在组装反应中合并一或多个合成寡核苷酸来产生所述DNA插入序列;(2)将DNA插
入序列克隆到转化质体中;(3)将完成的质体转移到所期望的生产菌株中,其在生产菌株中整合到宿主菌株基因组中;以及(4)选择标记和其它非所需DNA元件连接成环离开宿主菌
株。每个DNA组装步骤可以涉及额外的质量控制(QC)步骤,如将质体克隆到大肠杆菌细菌中用于扩增和测序。
[0040] 图3描绘了本公开的转化质体的组装和其在宿主生物体中的整合。插入DNA是通过在组装反应中合并一或多个合成寡核苷酸来产生。含有所期望序列的DNA插入序列侧接与
基因组的目标区域同源的DNA区域。这些同源区域促进了基因组整合,且一经整合,则形成直接重复区域,所述直接重复区域是为了在后续步骤中使载体骨架DNA环出而设计。所组装的质体含有插入DNA且任选地含有一或多个选择标记。
[0041] 图4A-B描绘了本公开的一个实施例中的DNA组装、转化和菌株筛选步骤。图4A描绘了建构DNA片段、将所述DNA片段克隆到载体中、使所述载体在宿主菌株中转化以及通过反
向选择来使选择序列环出的步骤。图4B描绘了用于高通量培养、筛选和评估所选宿主菌株
的步骤。此图还描绘了在培养槽中培养、筛选和评估所选菌株的任选步骤。
[0042] 图5描绘了本公开的自动化系统的一个实施例。本公开教示了自动化机器人系统的使用,所述机器人系统具有能够对宿主生物体进行克隆、转化、培养、筛选和/或测序的各种模
[0043] 图6描绘了第二轮HTP工程PRO交换程序的结果。根据本公开的方法分析首轮PRO交换期间所鉴别的最佳启动子::基因组合,以鉴别可能会对宿主性能展现叠加或组合有益效
应的所述突变的组合。第二轮PRO交换突变体因此包含各种启动子::基因突变的成对组合。
根据所选生物分子在宿主细胞中的产量的差异对所得第二轮突变体进行筛选。已预测可展
现有益效应的突变组合对用圆加强显示。
[0044] 图7是利用相关度所计算的相似度矩阵。所述矩阵图示了SNP变异体之间的功能相似度。功能相似度低的SNP的合并预期具有改良菌株性能的较高可能性,而较高功能相似度的SNP的合并则相反。
[0045] 图8A-B描绘了上位定位实验的结果。功能相似度低的SNP与PRO交换的组合使得菌株性能改良。图8A描绘了根据所有SNP/PRO交换的功能相似度聚类的树状图。图8B描绘了如根据产物产量度量的所合并SNP的宿主菌株性能。较大的聚类距离与宿主菌株的合并性能
的改良相关。
[0046] 图9A-B描绘了多样性池中的菌株变异体之间的SNP差异。图9A描绘了这项实验的菌株之间的关系。菌株A是野生型宿主菌株。菌株B是经工程改造的中间菌株。菌株C是工业生产菌株。图9B是鉴别每种菌株的独特和共有SNP的数目的图。
[0047] 图10说明了相对菌株性能在考虑中的输入数据中的分布。相对性能为零表示经工程改造的菌株与盘内基本菌株的性能同样好。本文所述的方法经设计可鉴别性能可能明显
高于零的菌株。
[0048] 图11说明了启动子交换方法中所用的实例基因目标。
[0049] 图12说明了针对已鉴别基因目标用于执行启动子交换方法的示例性启动子文库。PRO交换(即,启动子交换)方法中所用的启动子是P1-P8,其序列和身份可见于表1中。
[0050] 图13说明了启动子交换基因结果取决于所靶向的特定基因。
[0051] 图14说明了前100种预测菌株设计的变化组成。x轴列举了潜在基因变化池(dss突变是SNP交换,且Pcg突变是PRO交换),且y轴表示秩排序。黑色细胞表示候选设计中存在特定变化,而白色细胞表示那种变化不存在。在这个特定实例中,所有前100种设计都含有变化pcg3121_pgi、pcg1860_pyc、dss_339和pcg0007_39_lysa。另外,所述最佳候选设计含有变化dss_034、dss_009。
[0052] 图15描绘了本公开的一个实施例的DNA组装和转化步骤。流程图描绘了建构DNA片段、将所述DNA片段克隆到载体中、使所述载体在宿主菌株中转化以及通过反向选择来使选择序列环出的步骤。
[0053] 图16描绘了用于高通量培养、筛选和评估所选宿主菌株的步骤。此图还描绘了在培养槽中培养、筛选和评估所选菌株的任选步骤。
[0054] 图17描绘了说明性启动子的表达谱,其根据本公开的启动子梯展现了调控表达的范围。启动子A表达在细菌培养物的停滞期达到峰值,而启动子B和C分别在指数期和稳定期达到峰值。
[0055] 图18描绘了说明性启动子的表达谱,其根据本公开的启动子梯展现了调控表达的范围。启动子A表达在添加所选底物后立即达到峰值,但随着底物浓度降低而快速返回到不可检测的平。启动子B表达在添加所选底物后立即达到峰值且缓慢降回到不可检测的水
平且底物出现相应的减少。启动子C表达在所选底物添加后达到峰值,且在整个培养期间保持高度表达,即使在底物已消耗之后。
[0056] 图19描绘了说明性启动子的表达谱,其根据本公开的启动子梯展现了组成性表达水平的范围。启动子A展现了最低表达,继之分别为启动子B和C的表达水平增加。
[0057] 图20图示了用于改良菌株的本公开LIMS系统的一个实施例。
[0058] 图21图示了本公开LIMS系统的实施例的计算实施方案。
[0059] 图22描绘了本公开的迭代预测菌株设计工作流程实施例。
[0060] 图23图示了根据本公开实施例的计算机系统的实施例。
[0061] 图24是流程图,其根据本公开的实施例说明在选择用于设计微生物菌株的突变时考虑上位效应。
[0062] 图25描绘了用于转座子诱发刺糖多孢菌突变的质体的线性图谱。展示了功能丧失(LoF)转座子、功能获得(GoF)转座子,和功能获得(GoF)可再循环转座子。

具体实施方式

[0063] 定义
[0064] 尽管相信所属领域的技术人员充分理解以下术语,但仍阐述以下定义以促进对本公开标的物的解释。
[0065] 术语“一(a/an)”是指所述实体中的一或多个,即可以指多个提及物。因而,术语“一(a或an)”、“一或多个”和“至少一个”在本文中可互换地使用。另外,通过不定冠词“一(a或an)”提及“元件”不排除存在超过一个元件的可能性,除非上下文明确要求存在一个且唯一一个元件。
[0066] 如本文所用,术语“细胞生物体”、“微生物体”或“微生物”应该在宽广的意义上理解。这些术语可互换地使用并且包括(但不限于)两种原核生物结构域:细菌和古细菌,以及某些真核生物真菌和原生生物。在一些实施例中,本公开提及本公开所存在的清单/表格和图式中的“微生物”或“细胞生物体”或“微生物”。这种表征不仅可以指所述表格和图式的已鉴别类属,而且指已鉴别的类种,以及所述表格或图式中的各种新颖和最新鉴别或设计的任何生物体株系。对于这些术语在本说明书的其它部分(如实例)中的叙述来说,相同表征
保持成立。
[0067] 术语“原核生物”在所属领域内已认知且指不含核或其它细胞器的细胞。原核生物通常按照两种结构域之一归类:细菌和古细菌。古细菌和细菌域生物体之间的决定性差异是基于16S核糖体RNA中的核苷酸基序列的基本差异。
[0068] 术语“古细菌”是指疵壁菌(Mendosicutes)的生物体类别,其典型地发现于异常环境中且根据若干个准则而与原核生物的其余部分区分开来,所述若干个准则包括核糖体蛋白的数目和细胞壁中的胞壁酸的缺乏。基于ssrRNA分析,古细菌由系统发生学截然不同
的两种群组组成:嗜泉古菌界(Crenarchaeota)和广古生菌界(Euryarchaeota)。古细菌基
于其生理学可以按三种类型组织:产甲烷菌(产生甲烷的原核生物);极端嗜盐菌(extreme halophiles)(在极高浓度的盐(NaCl)存在下活着的原核生物);和极端(超)嗜热菌
(extreme(hyper)thermophilus)(在极高温度下活着的原核生物)。除有别于细菌的统一古
细菌特点(即,细胞壁中没有胞壁质、酯连型膜脂质等)之外,这些原核生物还展现了使其适应其特定栖息地的独特结构或生物化学属性。嗜泉古菌界主要由极端嗜热性硫依赖性原核
生物组成且广古生菌界含有产甲烷菌和极端嗜盐菌。
[0069] “细菌”或“真细菌”是指原核生物体的结构域。细菌包括如下至少11种不同群组:(1)革兰氏阳性(革兰+)细菌,其存在两大亚门:(1)高G+C群组(放线菌、分枝杆菌、微球菌等),(2)低G+C群组(芽孢杆菌、梭菌、乳杆菌属、葡萄球菌、链球菌、霉浆菌);(2)变形菌,例如紫色光合成+非光合成革兰氏阴性细菌(包括最“常见”的革兰氏阴性细菌);(3)蓝细菌,例如有光养型;(4)螺旋菌和相关菌种;(5)浮霉状菌;(6)拟杆菌、黄杆菌;(7)衣原体;(8)绿色硫细菌;(9)绿色非硫细菌(也是无氧光养生物);(10)耐放射性微球菌和相关菌种;
(11)栖热孢菌和嗜热性热袍菌(Thermosipho thermophiles)。
[0070] “真核生物”是其细胞含有核和封闭于膜内的其它细胞器的任何生物体。真核生物属于真核或真核生物分类群。将真核细胞与原核细胞(前述细菌和古细菌)区分开来的限定性特点是其具有膜结合的细胞器,尤其是含有遗传物质且被核被膜封闭的细胞核。
[0071] 术语“经基因修饰的宿主细胞”、“重组宿主细胞”和“重组菌株”在本文中可互换地使用且是指已经利用本公开的克隆和转化方法经基因修饰的宿主细胞。因此,所述术语包括宿主细胞(例如细菌、酵母细胞、真菌细胞、CHO、人类细胞等),相较于其所来源的天然存在的生物体,所述宿主细胞已经遗传改变、修饰或工程改造,以便其展现经改变、修饰或不同的基因型和/或表型(例如当基因修饰影响微生物的编码核酸序列时)。应了解,在一些实施例中,所述术语不仅指所讨论的特定重组宿主细胞,而且指这种宿主细胞的后代或潜在
后代。
[0072] 术语“野生型微生物”或“野生型宿主细胞”描述自然界中存在的细胞,即尚未经基因修饰的细胞。
[0073] 术语“基因工程”可以指对宿主细胞基因组的任何操控(例如核酸的插入、缺失、突变或置换)。
[0074] 术语“对照”或“对照宿主细胞”是指适当的比较宿主细胞,用于测定基因修饰或实验处理的影响。在一些实施例中,对照宿主细胞是野生型细胞。在其它实施例中,对照宿主细胞在基因上除了基因修饰之外,与经基因修饰的宿主细胞相同,从而有别于处理宿主细胞。在一些实施例中,本公开教示了使用亲代菌株作为对照宿主细胞(例如使用S1菌株作为菌株改良程序的基础)。在其它实施例中,宿主细胞可以是基因相同的细胞,其缺乏处理宿主细胞中所测试的特定启动子或SNP。
[0075] 如本文所用,术语“等位基因”意指基因的一或多种替代形式中的任一种,其所有等位基因涉及至少一种性状或特征。在二倍体细胞中,所指定基因的两个等位基因占据一对同源染色体上的相应基因座。
[0076] 如本文所用,术语“基因座(locus)”(基因座(loci)的复数形式)意指发现有例如基因或基因标记的染色体上的特定位置或位点。
[0077] 如本文所用,术语“基因连接”是指在繁殖期间,两种或更多种性状以高比率共同遗传,以致其难以通过交换来分离。
[0078] 如本文所用,“重组”或“重组事件”是指染色体交换或独立分类。
[0079] 如本文所用,术语“表型”是指个别细胞、细胞培养物、生物体或生物体群组的可观察特征,其由那个个体的基因组成(即基因型)与环境之间的相互相用产生。
[0080] 如本文所用,术语“嵌合”或“重组”当描述核酸序列或蛋白质序列时,是指使至少两个异源聚核苷酸或两个异源多肽连接成单一大分子或使至少一种天然核酸或蛋白质序列的一或多个元件重排的核酸或蛋白质序列。举例来说,术语“重组”可以是指两个以其它方式分离的序列区段例如通过化学合成或通过基因工程技术操控所分离的核酸区段而发
生的人工组合。
[0081] 如本文所用,“合成核苷酸序列”或“合成聚核苷酸序列”是已知不存在于自然界中或天然不存在的核苷酸序列。一般来说,与任何其它天然存在的核苷酸序列相比,这类合成核苷酸序列将包含至少一种核苷酸差异。
[0082] 如本文所用,术语“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)聚合物形式,或其类似物。这一术语是指分子的初级结构,并且因此包括双链和单链DNA,以及双链和单链RNA。其还包括经修饰的核酸,如甲基化和/或封端核酸、含有经修饰的碱基、主链修饰的核酸和其类似物。术语“核酸”和“核苷酸序列”可互换地使用。
[0083] 如本文所用,术语“基因”是指与生物功能相关的任何DNA区段。因此,基因包括(但不限于)编码序列和/或其表达所需的调节序列。基因还可以包括未表达的DNA区段,其例如形成其它蛋白质的识别序列。基因可以从多种来源获得,包括从所关注的来源克隆或利用已知或预测的序列信息合成,并且可以包括经设计具有所期望参数的序列。
[0084] 如本文所用,术语“同源”或“同源物”或“直系同源物”在所属领域中已知并且是指具有共同祖先或家族成员并且基于序列一致性程度测定的相关序列。术语“同源性”、“同源”、“基本上相似”和“基本上对应”在本文中可互换地使用。其是指核酸片段,其中一或多个核苷酸碱基的变化不影响所述核酸片段介导基因表达或产生某种表型的能力。这些术语也指本公开的核酸片段的修饰,如相对于初始、未经修饰的片段,基本上不改变所得核酸片段的功能特性的一或多个核苷酸的缺失或插入。因此应理解,如所属领域的技术人员将了
解,本公开涵盖除所述特定示例性序列之外的序列。这些术语描述了一种物种、亚种、变种、栽培品种或品系中所发现的基因与另一种物种、亚种、变种、栽培品种或品系中的相应或等效基因之间的关系。出于本公开的目的,对同源序列进行比较。“同源序列”或“同源物”或“直系同源物”被认为、相信或已知在功能上是相关的。功能关系可以多种方式中的任一种表示,包括(但不限于):(a)序列一致性程度和/或(b)相同或相似的生物功能。优选(a)和
(b)均有指示。可以使用所属领域中容易获得的软件程序测定同源性,如现代分子生物学实验技术(Current Protocols in Molecular Biology)(F.M.奥斯贝(F.M.Ausubel)等人编,
1987)副刊30,章节7.718,表7.71中所论述的那些软件程序。一些比对程序是MacVector(津分子有限公司(Oxford Molecular Ltd),英国牛津(Oxford,U.K.))、ALIGN Plus(科学和教育软件(Scientific and Educational Software),宾夕法尼亚州(Pennsylvania))以及
AlignX(Vector NTI,英杰公司(Invitrogen),加利福尼亚州卡尔斯巴德(Carlsbad,CA))。
另一种比对程序是使用默认参数的Sequencher(基因代码,密歇根州安娜堡(Ann Arbor,
Michigan))。
[0085] 如本文所用,术语“内源”或“内源基因”是指天然存在的基因,在其所处位置发现其天然地存在于宿主细胞基因组内。在本公开的上下文中,异源启动子可操作地连接到内源基因意指通过遗传方式将异源启动子序列插入现有基因之前,处于那个基因天然存在的
位置。如本文所述的内源基因可以包括天然存在的基因的等位基因,所述等位基因已经根
据本公开的任何方法发生突变。
[0086] 如本文所用,术语“外源”与术语“异源”可互换地使用且指来自不同于其原生来源的一些来源的物质。举例来说,术语“外源蛋白质”或“外源基因”是指来自非原生来源或位置且已经通过人工方式提供到生物系统中的蛋白质或基因。
[0087] 如本文所用,术语“核苷酸变化”是指例如核苷酸取代、缺失和/或插入,如所属领域中充分了解。举例来说,突变所含的变异产生了静默取代、添加或缺失,但不改变所编码蛋白质的特性或活性或蛋白质制造方式。
[0088] 如本文所用,术语“蛋白质修饰”是指例如基酸取代、氨基酸修饰、缺失和/或插入,如所属领域中充分了解。
[0089] 如本文所用,术语核酸或多肽的“至少一部分”或“片段”意指具有这类序列的最小尺寸特征的部分,或全长分子的任何较大片段,最多是并且包括全长分子。本公开的聚核苷酸片段可以编码基因调节元件的生物活性部分。基因调节元件的生物活性部分能够通过分离本公开的聚核苷酸之一的包含基因调节元件的一部分并且如本文中所述评估活性来制
备。类似地,多肽的一部分可以是4个氨基酸、5个氨基酸、6个氨基酸、7个氨基酸等,最多是全长多肽。待使用的所述部分的长度将取决于特定应用。适用作杂交探针的核酸的一部分
可以短到12个核苷酸;在一些实施例中,其是20个核苷酸。适用作抗原决定基的多肽的一部分可以短到4个氨基酸。发挥全长多肽功能的多肽的一部分通常将长于4个氨基酸。
[0090] 变异型聚核苷酸还涵盖来源于突变诱发和重组诱发程序(如DNA改组)的序列。这类DNA改组的策略在所属领域中已知。参见例如施特默尔(Stemmer)(1994)PNAS91:10747-
10751;施特默尔(1994),自然370:389-391;凯默瑞(Crameri)等人(1997)自然生物技术15:
436-438;穆尔(Moore)等人(1997),分子生物学杂志272:336-347;张(Zhang)等人(1997)
PNAS 94:4504-4509;凯默瑞等人(1998),自然391:288-291;以及美国专利第5,605,793号和第5,837,458号。
[0091] 就PCR扩增本文所公开的聚核苷酸来说,可以设计用于PCR反应中的寡核苷酸引物以由从所关注的任何生物体提取的cDNA或基因组DNA扩增相应的DNA序列。用于设计PCR引
物和PCR克隆的方法在所属领域中通常已知并且公开于萨布鲁克(Sambrook)等人(2001),
分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)(第3版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),纽约普莱恩维尤(Plainview,New 
York))。还参见英尼斯(Innis)等人编(1990),PCR方案:方法和应用指南(PCR Protocols:A Guide to Methods and Applications)(学术出版社,纽约);英尼斯和吉尔凡(Gelfand)编(1995),PCR策略(PCR Strategies)(学术出版社,纽约);以及英尼斯和吉尔凡编(1999),PCR方法手册(PCR Methods Manual)(学术出版社,纽约)。已知的PCR方法包括(但不限于)
使用成对引物、巢式引物、单一特异性引物、简并引物、基因特异性引物、载体特异性引物、部分错配引物和其类似物的方法。
[0092] 如本文所用,术语“引物”是指一种寡核苷酸,其当放置在诱导引物延伸产物合成的条件下时(即,在核苷酸和聚合药剂(如DNA聚合酶)存在下且在适合温度和pH下),能够与扩增目标粘接,从而允许DNA聚合酶附著,借此充当DNA合成的起始点。(扩增)引物优选单股以获得最大的扩增效率。引物优选寡脱氧核苷酸。引物长度必须足以在聚合药剂存在下引发延伸产物的合成。引物的确切长度将取决于多种因素,包括引物的温度和组成(A/T相对
于G/C含量)。一对双向引物由一个正向和一个反向引物组成,如DNA扩增(如PCR扩增)领域
中所常用。
[0093] 如本文所用,“启动子”是指能够控制编码序列或功能RNA表达的DNA序列。在一些实施例中,启动子序列由近端和更远端上游元件组成,后者元件通常称为增强子。因此,“增强子”是能够刺激启动子活性的DNA序列,并且可以是启动子的固有元件或为了增强启动子的含量或组织特异性而插入的异源元件。启动子可完全来源于原生基因,或由来源于自然界中所发现的不同启动子的不同元件组成,或甚至包含合成DNA区段。所属领域的技术人员应了解,不同启动子可以引导基因在不同组织或细胞类型中或在不同的发育阶段或响应于
不同的环境条件来表达。另外认识到,由于在大多数情况下,调节序列的确切边界尚未完全界定,因此一些变异的DNA片段可以具有相同的启动子活性。
[0094] 如本文所用,短语“重组构筑体”、“表达构筑体”、“嵌合构筑体”、“构筑体”以及“重组DNA构筑体”在本文中可互换地使用。重组构筑体包含核酸片段的人工组合,例如自然界中未一同发现的调节和编码序列。举例来说,嵌合构筑体可以包含来源于不同来源的调节序列和编码序列,或来源于相同来源的调节序列和编码序列,但其以与自然界中所发现不
同的方式排列。这类构筑体可以单独使用或可以与载体结合使用。如所属领域的技术人员
众所周知,如果使用载体,那么载体的选择取决于用于使宿主细胞转化的方法。举例来说,可以使用质体载体。所属领域的技术人员深知,为了成功地转化、选择和繁殖包含本公开的任一个经分离核酸片段的宿主细胞,基因元件必须存在于载体上。所属领域的技术人员还
将认识到不同的独立转型事件将引起不同的表达水平和模式(琼斯(Jones)等人,(1985),
EMBO J 4:2411-2418;德阿尔梅达(De  Almeida)等人,(1989),分子基因遗传学
(Mol.Gen.Genetics)218:78-86),且因此必须对多个事件进行筛选以便获得呈现所期望表
达水平和模式的株系。这类筛选可以通过DNA的南方分析、mRNA表达的北方分析、蛋白质表达的免疫印迹分析或表型分析等来完成。载体可以是质体、病毒、噬菌体、前病毒、噬菌粒、转座子、人工染色体和其类似物,其自主地复制并且能整合到宿主细胞的染色体中。载体还可以是非自主复制的裸RNA聚核苷酸、裸DNA聚核苷酸、由同一链内的DNA和RNA组成的聚核
苷酸、聚赖氨酸结合的DNA或RNA、肽结合的DNA或RNA、脂质体结合的DNA或其类似物。如本文所用,术语“表达”是指功能性最终产物(例如mRNA或蛋白质(前体或成熟物))的产生。
[0095] 在本文中,“可操作地连接”意指根据本公开的启动子聚核苷酸与其它寡核苷酸或聚核苷酸的依序排列,从而引起所述其它聚核苷酸的转录。
[0096] 如本文所用,术语“所关注产物”或“生物分子”是指由原料中的微生物产生的任何产物。在一些情况下,所关注的产物可以是小分子、酶、肽、氨基酸、、合成化合物、燃料、乙醇等。举例来说,所关注的产物或生物分子可以是任何初级或次级细胞外代谢物。初级代谢物尤其可以是乙醇、柠檬酸、乳酸、谷氨酸、谷氨酸盐、赖氨酸、苏氨酸、色氨酸和其它氨基酸、维生素、多糖等。次级代谢物尤其可以是抗生素化合物,如青霉素,或免疫抑制剂,如环孢菌素A(cyclosporin A);植物激素,如赤霉素;抑制素药物,如洛伐他汀(lovastatin);杀真菌剂,如灰黄霉素(griseofulvin)等。所关注的产物或生物分子也可以是微生物产生的任何细胞内组分,如:微生物酶,包括:催化酶、淀粉酶、蛋白酶、果胶酶、葡萄糖异构酶、纤维素酶、半纤维素酶、脂肪酶、乳糖酶、链激酶和其它多种。细胞内组分还可以包括重组蛋白,如:
胰岛素、B型肝炎疫苗、干扰素、粒细胞群落刺激因子、链激酶和其它。
[0097] 术语“源”通常是指适用作供细胞生长用的碳源的物质。碳源包括(但不限于)生物质水解产物、淀粉、蔗糖、纤维素、半纤维素、木糖和木质素,以及这些底物的单体组分。碳源可以包含各种形式的各种有机化合物,包括(但不限于)聚合物、碳水化合物、酸、醇、、氨基酸、肽等。这些包括例如各种单糖,如葡萄糖、右旋糖(D-葡萄糖)、麦芽糖、寡糖、多糖、饱和或不饱和脂肪酸、丁二酸盐、乳酸盐、乙酸盐、乙醇等,或其混合物。光合成生物体可以另外产生光合成产物形式的碳源。在一些实施例中,碳源可以选自生物质水解产物和葡萄糖。
[0098] 术语“原料”定义为供应给微生物或发酵工艺的原材料或原材料混合物,利用所述工艺能够制备其它产物。举例来说,碳源,如生物质或来源于生物质的碳化合物,是供微生物在发酵工艺中产生所关注产物(例如小分子、肽、合成化合物、燃料、乙醇等)的原料。然而,原料可以含有不同于碳源的营养物。
[0099] 术语“体积生产率”或“生产速率”定义为每体积培养基每单位时间形成的产物的量。体积生产率可以用克/升/小时(g/L/h)报告。
[0100] 术语“比生产率”定义为产物的形成速率。比生产率在本文中进一步定义为以克产物/克细胞干重(CDW)/小时(g/g CDW/h)表示的比生产率。对指定微生物使用CDW与OD600的关系,比生产率还能够用克产物/升培养基/600nm培养液光学密度(OD)/小时(g/L/h/OD)表
示。
[0101] 术语“产量”定义为每单位重量的原材料所得的产物的量且可以用g产物/g底物(g/g)表示。产量可以用理论产量的百分比表示。“理论产量”定义为按指定量的底物计,能够产生的产物的最大量,如根据用于制备产物的代谢途径的化学计量学所指定。
[0102] 术语“力价”或“效价”定义为溶液的浓度或溶液中的物质的浓度。举例来说,所关注产物(例如小分子、肽、合成化合物、燃料、乙醇等)在发酵液中的力价描述为溶液中的所关注产物克数/升发酵液(g/L)。
[0103] 术语“总效价”定义为工艺中所产生的全部所关注产物的总和,包括(但不限于)溶液中的所关注产物、气相(如果适用)中的所关注产物,以及从工艺中去除且相对于工艺中的初始体积或工艺中的操作体积所回收的任何所关注产物。
[0104] 如本文所用,术语“HTP基因设计文库”或“文库”是指根据本公开的基因扰动的集合。在一些实施例中,本公开的文库可以表现为i)数据库或其它计算机文件中的序列信息的集合;ii)编码前述系列的基因元件的基因构筑体的集合;或iii)包含所述基因元件的宿主细胞菌株。在一些实施例中,本公开的文库可以指个别元件的集合(例如用于PRO交换文
库的启动子的集合,或用于STOP交换文库的终止子的集合,或转座子诱变文库)。在其它实施例中,本公开的文库也可以指基因元件的组合,如启动子::基因、基因:终止子、基因缺失或扰动,或甚至启动子:基因:终止子的组合。在一些实施例中,本公开的文库进一步包含与文库中的每个成员应用于宿主生物体中的效果相关的元数据。举例来说,如本文所用的文
库可以包括启动子::基因序列组合的集合,以及那些组合对特定物种的一或多种表型所产
生的影响,从而在未来的启动子交换中利用所述组合来改良未来预测值。
[0105] 如本文所用,术语“SNP”是指小核多态性。在一些实施例中,本公开的SNP应广义理解,且包括单核苷酸多态性、序列插入、缺失、倒位和其它序列置换。如本文所用,术语“非同义”或“非同义SNP”是指引起宿主细胞蛋白中的代码变化的突变。
[0106] “高通量(HTP)”基因组工程改造方法可能涉及使用自动化设备(例如液体处理机或培养盘处理机)的至少一个零件执行所述方法的至少一个步骤。
[0107] 术语“转座子”是指能够从供体多核苷酸(例如载体)中切除且整合到靶点(例如细胞的基因组DNA)中的多核苷酸。转座子可以包括多核苷酸,多述多核苷酸包括侧接位于转
座子末端的顺式作用核苷酸序列的核酸序列。如果至少一个顺式作用核苷酸序列定位于核
酸序列的5'且至少一个顺式作用核苷酸定位于核酸序列的3',则核酸序列“侧接”顺式作用核苷酸序列。侧接顺式作用核苷酸序列的核酸序列在本文中可称为“侧接序列”。顺式作用核苷酸序列包括转座酶所结合的位于转座子的每一端的至少一个反向重复。“侧接的序列”或“转座子有效负载”可以包括充当插入型突变原的一或多个核酸序列。插入型突变原是一种核酸序列,其插入将影响编码区所表达的产物的表达水平或性质,侧接的序列通过转座
插入所述编码区附近或所述编码区中。改变所表达的产物的性质时,核酸称为“干扰序列”。
改变表达水平时,核酸称为“影响序列”。本公开的转座子可以包括一或多种插入型突变原,其可以是干扰和/或影响序列。
[0108] 如本文所用,术语“Pro交换”是指选择具有最优表达特性的启动子对总宿主菌株表型产生有益作用的方法。在一些实施例中,这些方法包括鉴别宿主细胞内的一或多种启
动子和/或产生一或多种启动子的变异体的方法,其展现了一系列表达强度或优良的调节
特性。这些已鉴别和/或产生的启动子的特定组合能够一起归类为启动子梯。
[0109] 如本文所用,术语“SNP交换”是指各菌株的个别小核多形性核苷酸突变(即,SNP)的系统引入或去除。在一些实施例中,通过此方法加以工程改造的所得微生物形成HTP基因设计文库。在一些实施例中,SNP交换涉及重新构筑具有目标SNP“构建模块”与已鉴别的有益性能作用的最佳组合的宿主生物体。因此,在一些实施例中,SNP交换涉及将多个有益突变合并到单一菌株背景中,以迭代程序一次进行一个合并;或作为多个变化在单个步骤中进行。多个变化可以是一组特定的定义变化或部分随机化的突变组合文库。在其它实施例
中,SNP交换还涉及从菌株中去除鉴别为有害的多个突变,按迭代程序进行,一次一个;或作为多个变化在单个步骤中进行。多个变化可以是一组特定的定义变化或部分随机化的突变
组合文库。在一些实施例中,本公开的SNP交换方法包括添加有益SNP和去除有害和/或中性突变。
[0110] 如本文所用,术语“STOP交换”是指通过优化细胞基因转录来提高宿主细胞生产率(例如通过调节转录,通过调节基因终止子序列)的方法。在一些实施例中,本公开教示了选择具有最优表达特性的选择终止序列(“终止子”)以对总宿主菌株生产率产生有益作用的方法。在一些实施例中,这种方法包括鉴别宿主细胞内的一或多种终止子和/或生成一或多种终止子的变异体,其展现一系列表达强度(例如终止子梯)。这些已鉴别和/或产生的终止子的特定组合能够一起归类为终止子梯。
[0111] 传统的菌株改良方法
[0112] 传统的菌株改良方法可以广泛地分类为两类方法:定向菌株工程和随机突变诱发。
[0113] 菌株改良的定向工程改造方法涉及对特定生物体的少数基因元件进行计划性扰动。这些方法典型地集中于调节特定生物合成或发育程序,且依赖于对影响所述路径的基
因和代谢因素的先验了解。在其最简单的实施例中,定向工程涉及将一种生物体的特征化
性状(例如能够产生可测量表型的基因、启动子或其它基因元件)转移到相同或不同物种的
另一生物体。
[0114] 菌株工程改造的随机方法涉及对亲代菌株进行随机突变诱发,以及为了鉴别性能改良而设计的广泛筛选。产生这些随机突变的方法包括暴露于紫外辐射,或突变诱发化学
品,如甲烷磺酸乙酯。虽然是随机且大部分不可预测的,但是这种传统的菌株改良方法具有优于更多定向基因操控术的多项优势。首先,许多工业生物体就其基因和代谢谱系来说具
有(且保持)不良的特征,以致替代的定向改良方法困难(如果并非不可能)。
[0115] 其次,即使在表征相对充分的系统中,也难以预测引起工业性能改良的基因型变化,且所述基因型变化有时仅以上位表型表现自身,这要求在许多基因中具有已知和未知
功能的累积突变。
[0116] 另外,多年来,在指定工业生物体中产生定向基因组突变所需的的基因工具不可获得,或使用非常缓慢和/或困难。
[0117] 然而,传统菌株改良程序的扩展应用在指定菌株谱系中产生的增益逐渐减少,且最终导致提升菌株效率的可能性耗竭。有益随机突变是相对罕见的事件,且需要较大筛选
池和高突变率。这不可避免地引起许多中性和/或有害(或部分有害)突变在“已改良”菌株中的无意积累,最终阻碍了未来效率增加。
[0118] 传统累积改良方法的另一种局限是,关于任何特定突变对任何菌株度量标准的影响的已知信息很少到没有。这在根本上限制了研究人员将有益突变组合和合并或去除中性
或有害突变诱发“包袱”的能力。
[0119] 存在着将突变诱发谱系内的菌株之间的突变随机重组的其它方法和技术。举例来说,用于迭代序列重组的一些形式和实例(有时称为DNA改组、进化或分子育种)已经描述于美国专利申请第08/198,431号(1994年2月17日提交)、第PCT/US95/02126号(1995年2月17
日提交)、第08/425,684号(1995年4月18日提交)、第08/537,874号(1995年10月30日提交)、第08/564,955号(1995年11月30日提交)、第08/621,859号(1996年3月25日提交)、第08/
621,430号(1996年3月25日提交)、第PCT/US96/05480号(1996年4月18日提交)、第08/650,
400号(1996年5月20日提交)、第08/675,502号(1996年7月3日提交)、第08/721,824号(1996年9月27日提交)和第08/722,660号(1996年9月27日提交);施特默尔,科学270:1510
(1995);施特默尔等人,基因164:49-53(1995);施特默尔,生物技术13:549-553(1995);施特默尔,美国国家科学院院刊91:10747-10751(1994);施特默尔,自然370:389-391(1994);
凯默瑞等人,自然·医学2(1):1-3(1996);凯默瑞等人,自然·生物技术14:315-319
(1996),所述文献各自以全文引用的方式并入本文中用于所有目的。
[0120] 这些包括促进跨越突变型菌株的基因组重组的技术,如原生质体融合和全基因组改组。对于一些工业微生物(如酵母和丝状真菌)来说,还能够利用天然配对循环进行成对
基因组重组。以此方式,能够通过与亲代菌株产生‘回复交换’突变体且合并有益突变来去除有害突变。此外,能够潜在地将来自两种不同菌株谱系的有益突变组合,从而相对于使单一菌株谱系自身发生突变而可能获得的改良可能性,产生额外的改良可能性。然而,这些方法受到许多限制,使用本公开方法规避了这些限制。
[0121] 举例来说,如上文所述的传统重组方法缓慢且依赖于相对较少数目个随机重组互换事件来交换突变,且因此在可以在任何指定循环或时间段中尝试的组合数目上存在限
制。另外,虽然现有技术中的天然重组事件基本上是随机的,但是其也服从基因组位置偏
好。
[0122] 最重要的是,传统方法提供的关于个别突变影响的信息也很少且由于重组突变的随机分布,因此无法产生且评估许多特定组合。
[0123] 为了克服与传统菌株改良程序相关的许多前述问题,本公开阐述了由计算机驱动且整合了分子生物学、自动化、数据分析和机器学习方案的独特HTP基因组工程平台。这个整合平台是利用一套HTP分子工具集,所述工具集用于构筑HTP基因设计文库。这些基因设
计文库将详细说明如下。
[0124] 所教示的HTP平台和其独特微生物基因设计文库在根本上转变了微生物菌株开发和进化的范例。举例来说,基于突变诱发来开发工业微生物菌株的传统方法最终将产生背
负沉重突变诱发负荷的微生物,所述负荷是在多年的随机突变诱发期间积累起来的。
[0125] 解决这个问题(即去除这些微生物所积累的基因包袱)的能力已困惑微生物研究人员数十年。然而,利用本文公开的HTP平台,能够“修复”这些工业菌株且能够鉴别出和去除有害的基因突变。鉴别为有益的基因突变宜能够保持,且在一些情况下能够据以改良。所得微生物菌株相较于其亲代菌株展现了优良的表型性状(例如所关注的化合物产量提高)。
[0126] 另外,本文教示的HTP平台能够鉴别、表征和量化个别突变对微生物菌株性能的影响。这个信息,即所指定基因变化x对宿主细胞表型y(例如所关注的化合物或产物的产量)
的影响,能够产生且接着存储于下文论述的微生物HTP基因设计文库中。即,每种基因排列的序列信息和其对宿主细胞表型的影响存储于一或多种数据库中,且可供后续分析使用
(例如上位定位,如下文所论述)。本公开还教示了在物理上保存/存储有价值的基因排列的方法,所述基因排列呈基因插入构筑体形式或呈含有所述基因排列的一或多种宿主细胞生
物体形式(例如参见下文论述的文库)。
[0127] 当将这些HTP基因设计文库结合到与复杂数据分析和机器学习程序集成的迭代程序中时,一种用于改良宿主细胞的显著不同方法便问世了。因此,所教示的平台在根本上不同于此前论述的开发宿主细胞菌株的传统方法。所教示的HTP平台不受扰于与此前方法相
关的许多缺点。参照下文论述的HTP分子工具集和所来源的基因设计文库将显而易知这些
和其它优势。
[0128] 基因设计及微生物工程:利用一套HTP分子工具和HTP基因设计文库进行菌株改良的系统组合方法
[0129] 如前所述,本公开提供了通过迭代系统性引入和去除跨越菌株的基因变化对微生物生物体进行工程改造的新颖HTP平台和基因设计策略。所述平台由一套分子工具提供支
持,其能够产生HTP基因设计文库且允许对所指定的宿主菌株高效实施基因变异。
[0130] 本公开的HTP基因设计文库充当可以引入特定微生物菌株背景中的可能基因变异的来源。以此方式,HTP基因设计文库是基因多样性的存储库,或基因扰动的集合,其能应用于对所指定的微生物菌株进行初始或进一步的工程改造。规划针对宿主菌株实施的基因设
计的技术描述于申请中的美国专利申请第15/140,296号中,其名称为“用于提高经工程改
造的核苷酸序列的大规模产量的微生物菌株设计系统和方法(Microbial Strain Design 
System and Methods for Improved Large Scale Production of Engineered 
Nucleotide Sequences)”,所述申请以全文引用的方式并入本文中。
[0131] 此平台中所用的HTP分子工具集尤其可以包括:(1)启动子交换(PRO交换)、(2)SNP交换、(3)起始/终止密码子交换、(4)STOP交换、(5)序列优化和(6)转座子诱变和其组合。本公开的HTP方法还教示了指导HTP工具集的合并/组合使用的方法,包括(7)上位定位方案。
如前所述,单独或组合的这套分子工具能够产生HTP基因设计宿主细胞文库。
[0132] 如将证明,在所教示的HTP微生物工程平台的背景下使用前述HTP基因设计文库能够鉴别和合并有益的“致病”突变或基因区段并且还能够鉴别和去除消极或有害突变或基
因区段。这种新方法能够对菌株性能进行快速改良,而传统的随机突变诱发或定向基因工
程则无法实现快速改良。去除基因负荷或将有益变化合并到无基因负荷的菌株中还向能够
实现进一步改良的额外随机突变诱发提供新的稳固起点。
[0133] 在一些实施例中,本公开教示了当鉴别出跨越突变诱发菌株谱系的不同离散分支的正交有益变化时,还能够将其快速地合并到性能更佳的菌株中。还能够将这些突变合并
到不是突变诱发谱系一部分的菌株中,如通过定向基因工程获得改良的菌株。
[0134] 在一些实施例中,本公开与已知的菌株改良方法不同之处在于,其分析了跨越多个不同基因组区域的突变的全基因组组合影响,包括已表达和未表达的基因元件,且利用
所聚集的信息(例如实验结果)预测预期会产生菌株增强的突变组合。
[0135] 在一些实施例中,本公开教示:i)能够通过本发明得到改良的工业微生物和其它宿主细胞;ii)产生多样性池用于下游分析;iii)用于对较大变异体池进行高通量筛选和测序的方法和硬件;iv)用于机器学习计算分析和预测全基因组突变的协同作用的方法和硬
件;以及v)高通量菌株工程改造方法。
[0136] 以下分子工具和文库结合说明性微生物实例来论述。所属领域中的技术人员将认识到,本公开的HTP分子工具与任何宿主细胞(包括真核生物细胞和更高级的生命形式)相
容。
[0137] 现将论述已鉴别的HTP分子工具集中的每一种,其能够产生微生物工程平台中所用的各种HTP基因设计文库。
[0138] 1.启动子交换:用于衍生启动子交换微生物菌株文库的分子工具
[0139] 在一些实施例中,本公开教示了选择具有最佳表达特性的启动子以对整体宿主菌株表型(例如产量或生产率)产生有益作用的方法。
[0140] 举例来说,在一些实施例中,本公开教示了鉴别一或多种启动子和/或在宿主细胞内产生一或多种启动子的变异体的方法,所述启动子展现一系列表达强度(例如下文论述
的启动子梯)或优良调节特性(例如针对所选基因的更紧密调控)。已鉴别和/或产生的这些
启动子的特定组合可以归入同类作为启动子梯,其更详细地解释于下文。
[0141] 接着使所讨论的启动子梯与所关注的指定基因关联。因此,如果具有启动子P1-P8(表示已经鉴别和/或产生以展现一系列表达强度的八种启动子)且使启动子梯与微生物中
的所关注单一基因关联(即,通过使所指定启动子可操作地连接到指定靶基因来对微生物
进行基因工程改造),那么能够通过表征由每种组合尝试产生的每种经工程改造菌株来确
认八种启动子的每种组合的作用,条件是除与靶基因关联的特定启动子之外,经工程改造
的微生物具有原本相同的基因背景。
[0142] 通过这种方法加以工程改造的所得微生物形成HTP基因设计文库。
[0143] HTP基因设计文库可以指通过这种方法形成的真实实体微生物菌株集合,其中每种成员菌株代表了在原本相同基因背景下可操作地连接到特定靶基因的指定启动子,所述
文库称为“启动子交换微生物菌株文库”。
[0144] 另外,HTP基因设计文库可以指遗传扰动的集合,在这种情况下,所指定启动子x可操作地连接到所指定基因y,所述集合称为“启动子交换文库”。
[0145] 另外,能够使用包含启动子P1-P8的相同启动子梯对微生物进行工程改造,其中8种启动子中的每一种可操作地连接到10个不同基因目标。此程序得到80种微生物,除可操作地连接到所关注靶基因的特定启动子之外,所述微生物原本呈现相同的基因背景。可以对
这些80种微生物进行适当筛选和表征且产生另一个HTP基因设计文库。表征HTP基因设计文
库中的微生物菌株产生的信息和数据可以存储于任何数据存储构筑体中,包括关系型数据
库、面向对象数据库或高度分布式NoSQL数据库。此数据/信息可以是例如所指定启动子(例如P1-P8)当可操作地连接到所指定基因目标时的作用。此数据/信息还能够是通过使启动子P1-P8中的两种或更多种可操作地连接到所指定基因目标而产生的组合效应的更宽集合。
[0146] 八种启动子和10种靶基因的前述实例仅具说明性,原因是所述概念可以应用于基于一系列表达强度的呈现而已经归入同类的任何指定数目个启动子和任何指定数目个靶
基因。所属领域中的技术人员还将认识到两个或更多个启动子能够可操作地连接于任何基
因目标之前。因此,在一些实施例中,本公开教示了启动子交换文库,其中来自启动子梯的
1、2、3或更多个启动子可操作地连接到一或多种基因。
[0147] 总之,利用各种启动子驱动各种基因在生物体中的表达是一种优化所关注的性状的强大工具。本发明人所开发的启动子交换分子工具是使用启动子序列梯,其已经证明可
改变至少一个基因座在至少一种条件下的表达。接着利用高通量基因组工程学将此梯系统
性地应用于生物体中的一组基因。基于多种方法中的任一种方法确定这组基因影响所关注
性状的可能性较高。这些方法可以包括基于已知功能或对所关注性状的影响而进行的选
择,或基于此前测定的有益遗传多样性而进行的算法选择。在一些实施例中,基因的选择可以包括所指定宿主中的所有基因。在其它实施例中,基因的选择可以是所指定宿主中的所
有基因的随机选择的子集。
[0148] 接着对含有连接到基因的启动子序列的生物体的所得HTP基因设计微生物菌株文库在高通量筛选模型中的性能进行评估,且确定引起性能增强的启动子-基因连接且将信
息存储于数据库中。遗传扰动的集合(即,所指定的启动子x可操作地连接到所指定基因y)
形成“启动子交换文库”,其可以用作微生物工程处理中所用的潜在基因变异的来源。随着时间逝去,当针对宿主细胞背景的更大多样性实施基因扰动的更大集合时,每个文库作为
实验上被证实的数据的宿主而变得更强大,其能用于根据所关注的任何背景更精确地且可
预测地设计出定向变化。
[0149] 生物体中的基因转录水平是影响生物体行为的控制关键点。转录与翻译(蛋白质表达)紧密关联,且哪种蛋白质以什么数量表达决定了生物体行为。细胞表达数千种不同类型的蛋白质,且这些蛋白质以多种复杂的方式发生相互作用以产生功能。通过系统性地改
变蛋白质集合的表达水平,能够使功能改变,由于复杂性,因此难以预测功能改变的方式。
有些变异可以增强性能且因此与用于评估性能的机制关联,这项技术能够产生功能改良的
生物体。
[0150] 在小分子合成路径的背景下,酶通过其小分子底物和产物,在始于底物且终于所关注小分子的直链或支链中发生相互作用。由于这些相互作用依序关联,因此此系统展现
分布式控制,且增强一种酶的表达仅能增加路径通量直到另一种酶变成速率限制型为止。
[0151] 代谢控制分析(MCA)是一种利用实验数据和第一原理确定哪种酶具有速率限制性的方法。然而,MCA受到限制,原因是其在每种表达水平变化之后需要广泛的实验以确定新的速率限制酶。在此背景下,启动子交换是有利的,原因是通过将启动子梯应用于路径中的每种酶,发现限制酶,且同一件事可以随后进行多轮以发现变成速率限制型的新酶。另外,由于功能读数最好是所关注小分子的产量,因此确定哪种酶具限制性的实验与提高产量的
工程学相同,从而缩短开发时间。在一些实施例中,本公开教示了将PRO交换应用于编码多单元酶的个别亚单元的基因。在又其它实施例中,本公开教示了对负责调节个别酶或整个
生物合成路径的基因应用PRO交换技术的方法。
[0152] 在一些实施例中,本公开的启动子交换工具可以用于鉴别所选基因目标的最佳表达。在一些实施例中,启动子交换的目标可以是增强靶基因的表达,以减少代谢或遗传路径中的瓶颈。在其它实施例中,,启动子交换的目标可以是减少靶基因的表达,以便在所述靶基因的表达不需要时,避免宿主细胞中不必要的能量消耗。
[0153] 在其它细胞系统(如转录、转运或信号传导)的背景下,可以利用各种合理方法先验地竭力发现哪种蛋白质是表达变化的目标和那种变化应该是什么变化。这些合理方法减
少了扰动数目,所述扰动必须加以测试以发现改良性能的扰动,但是这样做的成本相当大。
基因缺失研究鉴别出其存在对特定功能具关键作用的蛋白质,且接着可以过度表达重要基
因。由于蛋白质相互作用的复杂性,因此这对于增强性能而言通常无效。已经开发出不同类型的模型,其试图利用第一原理描述转录或信号传导行为与细胞中的蛋白质含量的关系。
这些模型通常表明其中表达变化的目标可以产生不同或改良的功能。这些模型所基于的假
设过分简单化且参数难以测量,因此其所产生的预测通常不正确,尤其对于非模型生物体
来说。在基因缺失与建模的情况下,确定如何影响某种基因所需的实验不同于产生使性能
改良的变化的后续工作。启动子交换避开了这些挑战,原因是突显了特定扰动的重要性的
所构筑菌株也已经是改良的菌株。
[0154] 因此,在特定实施例中,启动子交换是一种多步骤方法,其包含:
[0155] 1.选择一组“x”个启动子充当“梯”。理想的是,这些启动子已经表明可引起跨越多个基因组基因座的高度可变表达,但唯一要求是其以某种方式扰动基因表达。
[0156] 2.针对目标选择一组“n”个基因。这个集合可以是基因组中的每个开放阅读框架(ORF)或ORF的子集。可以利用关于功能相关ORF的注释、根据与此前证实的有益扰动的关系(此前启动子交换或此前SNP交换)、通过基于此前所产生的扰动之间的上位相互作用而进
行的算法选择、基于与针对目标的有益ORF有关的假设的其它选择准则或通过随机选择来
选择所述子集。在其它实施例中,“n”个靶基因可以包含非蛋白质编码基因,包括非编码RNA。
[0157] 3.快速且在一些实施例中并行执行以下基因修饰的高通量菌株工程:当原生启动子存在于靶基因n之前且其序列已知时,用所述梯中的x个启动子中的每一种置换原生启动
子。当原生启动子不存在或其序列未知时,将所述梯中的x个启动子中的每一种插入基因n
之前(参见例如图13)。以此方式构筑菌株“文库”(也称为HTP基因设计文库),其中文库的每个成员是可操作地连接到n目标的x启动子在原本相同的基因背景下的例子。如此前所述,
可以插入启动子组合,从而在构筑文库时,扩大组合可能性的范围。
[0158] 4.在依据一或多种度量标准的菌株性能指示所优化的性能的背景下,高通量筛选菌株文库。
[0159] 尤其可以如下扩展这种基本方法以提供菌株性能的进一步改良:(1)将多个有益扰动合并到单一菌株背景中,按互动式程序进行,一次一个;或作为多个变化在单个步骤中进行。多个扰动可以是一组特定的定义变化或部分随机化的变化组合文库。举例来说,如果目标集是路径中的每个基因,那么使扰动文库在此前菌株文库的改良成员中依序再生能够
优化路径中的每个基因的表达水平,不论哪种基因在任一次指定的迭代时具有速率限制
性;(2)将由文库的个别和组合产生所得到的性能数据馈送到算法中,所述算法使用那个数据基于每个扰动的相互作用来预测最佳的扰动集;以及(3)实施上述两种方法的组合(参见
图12)。
[0160] 上文所论述的分子工具或技术的特征为启动子交换,但不限于启动子且可以包括系统性地改变目标集表达水平的其它序列变化。用于改变一组基因的表达水平的其它方法
可以包括:a)核糖体结合位点梯(或真核生物中的克扎克序列(Kozak sequences));b)用其它起始密码子中的每一种置换每个目标的起始密码子(例如,下文论述的起始/终止密码子
交换);c)使各种mRNA稳定化或去稳定化序列连接到转录物的5'或3'端或任何其它位置;d)使各种蛋白质稳定化或去稳定化序列在蛋白质中的任何位置连接。
[0161] 所述方法举工业微生物为例说明于本公开中,但适用于可以在基因突变体群体中鉴别出所期望性状的任何生物体。举例来说,这可以用于改良CHO细胞、酵母、昆虫细胞、藻类以及多细胞生物体(如植物)的性能。
[0162] 2.SNP交换:用于衍生SNP交换微生物菌株文库的分子工具
[0163] 在某些实施例中,SNP交换不是改良微生物菌株的随机突变诱发方法,而是涉及系统性地引入或去除跨越菌株的个别小核多态性核苷酸突变(即SNP)(因此称为“SNP交换”)。
[0164] 通过这种方法加以工程改造的所得微生物形成HTP基因设计文库。
[0165] HTP基因设计文库可以指通过此方法形成的真实实体微生物菌株集合,其中每个成员菌株代表了所指定SNP在原本相同基因背景下的存在或不存在,所述文库称为“SNP交
换微生物菌株文库”。
[0166] 另外,HTP基因设计文库可以指遗传扰动的集合,在这种情况下,所指定的SNP存在或所指定的SNP不存在,所述集合称为“SNP交换文库”。
[0167] 在一些实施例中,SNP交换涉及重新构筑具有目标SNP“构建模块”与已鉴别的有益性能作用的最佳组合的宿主生物体。因此,在一些实施例中,SNP交换涉及将多个有益突变合并到单一菌株背景中,以迭代程序进行一次一个;或作为多个变化在单个步骤中进行。多个变化可以是一组特定的定义变化或部分随机化的突变组合文库。
[0168] 在其它实施例中,SNP交换还涉及从菌株中去除鉴别为有害的多个突变,按迭代程序进行,一次一个;或作为多个变化在单个步骤中进行。多个变化可以是一组特定的定义变化或部分随机化的突变组合文库。在一些实施例中,本公开的SNP交换方法包括添加有益
SNP和去除有害和/或中性突变。
[0169] SNP交换是一种在经历突变诱发和选择以改良所关注性状的菌株谱系中鉴别和利用有益和有害突变的强大工具。SNP交换是利用高通量基因组工程技术系统地确定突变诱
发谱系中的个别突变的影响。测定跨越突变诱发谱系中的一代或多代的菌株的基因组序
列,所述突变诱发谱系具有已知的性能改良。接着系统地利用高通量基因组工程学在早期
谱系菌株再现已改良菌株的突变,和/或使后期菌株中的突变恢复为早期菌株序列。接着评估这些菌株的性能且可以确定每种个别突变对改良的所关注表型的贡献。如前所述,对此
方法所得的微生物菌株进行分析/表征且形成SNP交换基因设计文库的基础,所述文库可以
告知跨越宿主菌株的微生物菌株改良。
[0170] 有害突变的去除可以提供直接的性能改良,且在未接受突变诱发负荷的菌株背景下合并有益突变可以快速且大大改良菌株性能。通过SNP交换方法所产生的各种微生物菌
株形成了HTP基因设计SNP交换文库,其是包含各种所添加/缺失/或合并SNP的微生物菌株,但是具有原本相同的基因背景。
[0171] 如此前所论述,供性能改良用的随机突变诱发筛选是一种改良工业菌株的常用技术,且当前用于大规模制造的许多菌株已经使用此程序以迭代方式开发历时多年,有时数
十年。产生基因组突变的随机方法(如暴露于UV辐射或化学诱变剂,如甲烷磺酸乙酯)是用
于改良工业菌株的优选方法,原因是:1)工业生物体在遗传或代谢上可能受到不充分的表
征,使得定向改良方法的目标选择困难或不可能;2)即使在表征相对充分的系统中,也难以预测引起工业性能改良的变化且可能需要扰动无已知功能的基因;以及3)在所指定工业生
物体中产生定向基因组突变的遗传工具无法获得或非常缓慢和/或难以使用。
[0172] 然而,尽管此程序存在前述效益,但是也存在多项已知缺点。有益突变是相对罕见的事件,且为了在固定的筛选能力下发现这些突变,突变率必须足够的高。这通常引起非所需的中性突变和部分有害的突变连同有益变化一起并入菌株中。随着时间逝去,此‘突变诱发负荷’积累,产生在总体稳定性和关键性状(如生长速率)上具有缺陷的菌株。最终,‘突变诱发负荷’越来越难以或不可能通过随机突变诱发获得性能的进一步改良。不使用适合的工具不可能将菌株谱系的离散和并联分支中所发现的有益突变合并。
[0173] SNP交换是一种克服这些限制的方法,其通过系统地再现或恢复当比较突变诱发谱系内的菌株时所观察到的一些或所有突变来实现。以此方式,能够鉴别和合并有益(‘致病’)突变,且/或能够鉴别和去除有害突变。这允许对菌株性能进行快速改良,而通过进一步随机突变诱发或靶向基因工程则无法实现。
[0174] 去除基因负荷或将有益变化合并到无基因负荷的菌株中还向能够实现进一步改良的额外随机突变诱发提供新的稳固起点。
[0175] 另外,当跨越突变诱发菌株谱系的各种离散分支鉴别正交有益变化时,能够将其快速地合并到性能更佳的菌株中。还能够将这些突变合并到不是突变诱发谱系一部分的菌
株中,如通过定向基因工程获得改良的菌株。
[0176] 存在着将突变诱发谱系内的菌株之间的突变随机重组的其它方法和技术。这些包括促进跨越突变型菌株的基因组重组的技术,如原生质体融合和全基因组改组。对于一些
工业微生物(如酵母和丝状真菌)来说,还能够利用天然配对循环进行成对基因组重组。以
此方式,能够通过与亲代菌株产生‘回复交换’突变体且合并有益突变来去除有害突变。当期望定向突变变化时,可以使用本公开的SNP交换方法。
[0177] 举例来说,由于这些方法依赖于相对较少数目个随机重组互换事件交换突变,因此可以采取许多循环的重组和筛选来优化菌株性能。另外,虽然天然重组事件基本上是随
机的,但是其也服从基因组位置偏好且可能难以解决一些突变。这些方法不使用额外基因
组测序和分析而提供的关于个别突变影响的信息也是很少的。SNP交换克服了这些基本限
制,因为其不是随机方法,而是系统性地引入或去除跨越菌株的个别突变。
[0178] 在一些实施例中,本公开教示了用于鉴别多样性池的生物体中所存在的SNP序列多样性的方法。多样性池可以是分析所用微生物的指定种数n,其中所述微生物的基因组代表“多样性池”。
[0179] 在特定方面中,多样性池可以是原始亲代菌株(S1),其在特定时间点具有“基线”或“参考”基因序列(S1Gen1),且接着是任何数目个衍生/开发自所述S1菌株的后续子代菌株(S2-n),其具有不同于S1基线基因组的基因组(S2-nGen2-n)。
[0180] 举例来说,在一些实施例中,本公开教示了对多样性池中的微生物基因组进行测序以鉴别每种菌株中存在的SNP。在一个实施例中,多样性池中的菌株是历史上的微生物生产菌株。因此,本公开的多样性池可以包括例如工业参考菌株,和通过传统菌株改良程序所产生的一或多种突变型工业菌株。
[0181] 在一些实施例中,多样性池内的SNP是参照“参考菌株”测定。在一些实施例中,参考菌株是野生型菌株。在其它实施例中,参考菌株是经历任何突变诱发之前的原始工业菌株。参考菌株可以由从业者定义且不一定是原始野生型菌株或原始工业菌株。基本菌株仅
代表被视为“基本”、“参考”或原始基因背景的菌株,借此与由所述参考菌株衍生或开发的后续菌株比较。
[0182] 鉴别出多样性池中的所有SNP后,本公开教示了用SNP交换方法和筛选方法描绘(即,量化和表征)个别和/或群组中的SNP的效应(例如所关注的表型的产生)。
[0183] 在一些实施例中,本公开的SNP交换方法包含将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴别的一或多种SNP引入参考菌株(S1Gen1)或野生型菌株的步骤(“向上波动”)。
[0184] 在其它实施例中,本公开的SNP交换方法包含将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴别的一或多种SNP去除的步骤(“向下波动”)。
[0185] 在一些实施例中,根据本公开的一或多个准则(例如所关注的化学品或产物的产生)对包含一或多种SNP变化(引入或去除)的每种所产生菌株进行培养和分析。使得自每种
所分析宿主菌株的数据与存在于宿主菌株中的特定SNP或SNP群组关联或相关,且记录下来
供未来使用。因此,本公开能够产生高度注释的大型HTP基因设计微生物菌株文库,所述菌株文库能够鉴别所指定SNP对任何数目个所关注微生物基因或表型性状的影响。将这些HTP
基因设计文库中所存储的信息告知HTP基因组工程平台的机器学习算法且指导所述程序的
未来迭代,最终产生具有高度所期望特性/性状的进化微生物生物体。
[0186] 3.起始/终止密码子交换:用于衍生起始/终止密码子微生物菌株文库的分子工具
[0187] 在一些实施例中,本公开教示了交换起始和终止密码子变异体的方法。举例来说,酿酒酵母哺乳动物的典型终止密码子分别是TAA(UAA)和TGA(UGA)。单子叶植物的典型终止密码子是TGA(UGA),而昆虫和大肠杆菌通常使用TAA(UAA)作为终止密码子(达尔芬
(Dalphin)等人(1996),核酸研究(Nucl.Acids Res.)24:216-218)。在其它实施例中,本公开教示了使用TAG(UAG)终止密码子。
[0188] 本公开类似地教示了交换起始密码子。在一些实施例中,本公开教示了使用大部分生物体(尤其真核生物)所使用的ATG(AUG)起始密码子。在一些实施例中,本公开教示了
原核生物大部分使用ATG(AUG),继之为GTG(GUG)和TTG(UUG)。
[0189] 在其它实施例中,本公开教示了用TTG置换ATG起始密码子。在一些实施例中,本公开教示了用GTG置换ATG起始密码子。在一些实施例中,本公开教示了用ATG置换GTG起始密码子。在一些实施例中,本公开教示了用TTG置换GTG起始密码子。在一些实施例中,本公开教示了用ATG置换TTG起始密码子。在一些实施例中,本公开教示了用GTG置换TTG起始密码
子。
[0190] 在其它实施例中,本公开教示了用TAG置换TAA终止密码子。在一些实施例中,本公开教示了用TGA置换TAA终止密码子。在一些实施例中,本公开教示了用TAA置换TGA终止密码子。在一些实施例中,本公开教示了用TAG置换TGA终止密码子。在一些实施例中,本公开教示了用TAA置换TAG终止密码子。在一些实施例中,本公开教示了用TGA置换TAG终止密码
子。
[0191] 4.终止子交换:用于衍生优化序列微生物菌株文库的分子工具
[0192] 在一些实施例中,本公开教示了通过优化细胞基因转录来提高宿主细胞生产率的方法。基因转录是若干种不同生物学现象的结果,包括转录起始(RNAp募集和转录复合物形成)、伸长(链合成/延伸),和转录终止(RNAp脱离和终止)。虽然已经倾注了大量注意力以通过基因的转录调节(例如通过改变启动子,或诱导调节性转录因子)来控制基因表达,但是
通过基因终止序列的调节获得转录调节的成果相对较少。
[0193] 转录影响基因表达水平的最明显方式是通过Pol II起始速率,其可以通过启动子或增强子浓度与反式活化因子的组合来调节(卡顿加JT(Kadonaga,JT),2004,“序列特异性DNA结合因子对RNA聚合酶II转录的调节(Regulation of RNA  polymerase II 
transcription by sequence-specific DNA binding factors)”,细胞,2004年1月23日;
116(2):247-57)。在真核生物中,伸长率也可以通过影响替代性拼接来决定基因表达模式
(克拉默P.(Cramer P.)等人,1997“启动子结构与转录物替代性拼接之间的功能联系
(Functional association between promoter structure and transcript alternative 
splicing)”,美国国家科学院院刊,1997年10月14日;94(21):11456-60)。基因上的终止失效可以通过减少启动子至Pol II的可及性来消弱下游基因的表达(格莱吉IH(Greger IH)
等人,2000“酿酒酵母的GAL7启动子的转录干扰和起始之间的平衡(Balancing 
transcriptional interference and initiation on the GAL7 promoter of 
Saccharomyces cerevisiae)”,美国国家科学院院刊,2000年7月18日;97(15):8415-20)。
这种过程(称为转录干扰)与低级真核生物尤其相关,因为其通常具有紧密间隔的基因。
[0194] 终止序列还能够影响所述序列所属的基因的表达。举例来说,研究表明,真核生物中的低效转录终止引起未拼接的前mRNA积累(参见韦斯特S.(West,S.)和普洛德弗N.J.(Proudfoot,N.J.),2009“转录终止使人类细胞中的蛋白质表达增强(Transcriptional 
Termination Enhances Protein Expression in Human Cells)”,分子细胞,2009年2月13日;33(3-9);354-364)。其它研究也已表明,3'端处理可以通过低效终止来延迟(韦斯特S等人,2008“哺乳动物RNA聚合酶II转录终止的分子剥离(Molecular dissection of 
mammalian RNA polymerase II transcriptional termination)”,分子细胞,2008年3月
14日;29(5):600-10)。转录终止还能够通过使转录物从合成位点释放来影响mRNA稳定性。
[0195] 真核生物中的转录机制的终止
[0196] 真核生物中的转录终止通过终止子信号操作,所述终止子信号被与RNA聚合酶II有关的蛋白质因子识别。在一些实施例中,裂解和聚腺苷酸化特异性因子(CPSF)和裂解刺
激因子(CstF)从RNA聚合酶II的羧基末端域转移到聚A信号。在一些实施例中,CPSF和CstF
因子也将其它蛋白质募集到终止位点,接着使转录物裂解且使mRNA从转录复合物释放。终
止也触发mRNA转录物的聚腺苷酸化。已验证真核生物终止因子和其保守结构的说明性实例
论述于本文的后续部分中。
[0197] 原核生物中的转录终止
[0198] 在原核生物中,称为Rho非依赖性和Rho依赖性终止的两种主要机制介导转录终止。Rho非依赖性终止信号不需要外来的转录终止因子,原因是由这些序列转录的RNA中的
茎-环结构的形成连同一系列尿苷(U)残基一起促进了RNA链从转录复合物中的释放。另一
方面,Rho依赖性终止需要mRNA上存在称为Rho的转录终止因子和顺式作用元件。Rho的初始结合位点(Rho利用(rut)位点)是延伸的(约70个核苷酸,有时为80-100个核苷酸)单股区
域,其特征是高胞苷/低苷含量和所合成的RNA中的位于实际终止子序列上游的二级结构
相对稀少。当遇到聚合酶暂停位点时,发生终止,且通过Rho的解螺旋酶活性来释放转录物。
[0199] 终止子交换(STOP交换)
[0200] 在一些实施例中,本公开教示了选择具有最佳表达特性的选择终止序列(“终止子”)以对整体宿主菌株生产率产生有益作用的方法。
[0201] 举例来说,在一些实施例中,本公开教示了鉴别一或多种终止子和/或在宿主细胞内产生一或多种终止子的变异体的方法,其展现了一系列表达强度(例如下文论述的终止
子梯)。已鉴别和/或产生的这些终止子的特定组合可以归入同类作为终止子梯,其更详细
地解释于下文。
[0202] 接着使所讨论的终止子梯与所关注的指定基因关联。因此,如果具有终止子T1-T8(表示已经鉴别和/或产生以便在与一或多个启动子组合时展现一系列表达强度的八个终
止子)且使终止子梯与所关注的单一基因在宿主细胞中关联(即,通过所指定终止子可操作
地连接到所指定靶基因的3'端而对宿主细胞进行基因工程改造),接着可以通过表征由每
种组合尝试产生的每种工程改造菌株来确认终止子的每种组合的影响,条件是除与靶基因
相关的特定启动子之外,经工程改造的宿主细胞具有另外相同的基因背景。通过此方法加
以工程改造的所得宿主细胞形成了HTP基因设计文库。
[0203] HTP基因设计文库可以指通过此方法形成的真实实体微生物菌株集合,其中每个成员菌株代表所指定的终止子在原本相同的基因背景下可操作地连接到特定靶基因,所述
文库称为“终止子交换微生物菌株文库”或“STOP交换微生物菌株文库”。
[0204] 另外,HTP基因设计文库可以指基因扰动的集合,在这种情况下为可操作地连接到所指定基因y的所指定终止子x,所述集合称为“终止子交换文库”或“STOP交换文库”。
[0205] 另外,能够使用包含终止子T1-T8的相同终止子梯对微生物进行工程改造,其中八种启动子中的每一种可操作地连接到10个不同基因目标。此程序得到80种宿主细胞菌株,
除可操作地连接到所关注靶基因的特定终止子之外,所述菌株原本呈现相同的基因背景。
可以对这些80种宿主细胞菌株进行适当筛选和表征且产生另一个HTP基因设计文库。表征
HTP基因设计文库中的微生物菌株产生的信息和数据可以存储于任何数据库中,包括(但不
限于)关系型数据库、面向对象数据库或高度分布式NoSQL数据库。此数据/信息可以包括例如所指定终止子(例如T1-T8)当可操作地连接到所指定基因目标时的作用。此数据/信息还
能够是通过使终止子T1-T8中的两种或更多种可操作地连接到所指定基因目标而产生的组
合效应的更宽集合。
[0206] 八种启动子和10种靶基因的前述实例仅具说明性,原因是所述概念可以应用于基于一系列表达强度的呈现而已经归入同类的任何指定数目个启动子和任何指定数目个靶
基因。
[0207] 总之,利用各种终止子调节各种基因在生物体中的表达是一种优化所关注的性状的强大工具。本发明人所开发的终止子交换分子工具是使用终止子序列梯,其已经证明可
改变至少一个基因座在至少一种条件下的表达。接着利用高通量基因组工程学将此梯系统
性地应用于生物体中的一组基因。基于多种方法中的任一种方法确定这组基因影响所关注
性状的可能性较高。这些方法可以包括基于已知功能或对所关注性状的影响而进行的选
择,或基于此前测定的有益遗传多样性而进行的算法选择。
[0208] 接着对含有连接到基因的终止子序列的生物体的所得HTP基因设计微生物菌株文库在高通量筛选模型中的性能进行评估,且确定引起性能增强的启动子-基因连接且将信
息存储于数据库中。遗传扰动的集合(即,所指定的终止子x连接到所指定基因y)形成“终止子交换文库”,其可以用作微生物工程处理中所用的潜在基因变异的来源。随着时间逝去,当针对微生物背景的更大多样性实施基因扰动的更大集合时,每个文库作为实验上被证实
的数据的宿主而变得更强大,其能用于根据所关注的任何背景更精确地且可预测地设计出
定向变化。即,在一些实施例中,本公开教示了基于此前实验结果将一或多个基因变化引入宿主细胞,所述此前实验结果嵌入与本发明的任何基因设计文库有关的元数据内。
[0209] 因此,在特定实施例中,终止子交换是一种多步骤方法,其包含:
[0210] 1.选择一组“x”个终止子充当“梯”。理想的是,这些终止子已经表明可引起跨越多个基因组基因座的高度可变表达,但唯一要求是其以某种方式扰动基因表达。
[0211] 2.针对目标选择一组“n”个基因。此集合可以是基因组中的每个ORF或ORF的子集。可以利用关于功能相关ORF的注释、根据与此前证实的有益扰动的关系(此前启动子交换、
STOP交换或SNP交换)、通过基于此前所产生的扰动之间的上位相互作用而进行的算法选
择、基于与针对目标的有益ORF有关的假设的其它选择准则或通过随机选择来选择所述子
集。在其它实施例中,“n”个靶基因可以包含非蛋白质编码基因,包括非编码RNA。
[0212] 3.快速且并行执行以下基因修饰的高通量菌株工程:当原生终止子存在于靶基因n的3'端且其序列已知时,用所述梯中的x个终止子中的每一种置换原生终止子。当原生终
止子不存在或其序列未知时,将所述梯中的x个终止子中的每一种插入基因终止密码子之
后。
[0213] 以此方式构筑菌株“文库”(也称为HTP基因设计文库),其中文库的每个成员是连接到n目标的x终止子在原本相同的基因背景下的例子。如此前所述,可以插入终止子组合,从而在构筑文库时,扩大组合可能性的范围。
[0214] 4.在依据一或多种度量标准的菌株性能指示所优化的性能的背景下,高通量筛选菌株文库。
[0215] 尤其可以如下扩展这种基本方法以提供菌株性能的进一步改良:(1)将多个有益扰动合并到单一菌株背景中,按互动式程序进行,一次一个;或作为多个变化在单个步骤中进行。多个扰动可以是一组特定的定义变化或部分随机化的变化组合文库。举例来说,如果目标集是路径中的每种基因,那么将此前菌株文库的改良成员中的扰动文库依序再生能够
优化路径中的每种基因的表达水平,不论哪种基因在任一次指定的迭代时具有速率限制
性;(2)将由文库的个别和组合产生所得到的性能数据馈送到算法中,所述算法使用那个数据基于每个扰动的相互作用来预测最佳的扰动集;以及(3)实施上述两种方法的组合。
[0216] 所述方法举工业微生物为例说明于本公开中,但适用于可以在基因突变体群体中鉴别出所期望性状的任何生物体。举例来说,这可以用于改良CHO细胞、酵母、昆虫细胞、藻类以及多细胞生物体(如植物)的性能。
[0217] 5.序列优化:用于衍生优化序列微生物菌株文库的分子工具
[0218] 在一个实施例中,本公开的方法包含对宿主生物体所表达的一或多种基因进行密码子优化。用于优化密码子以改善各种宿主中的表达的方法在所属领域中已知且描述于文
献(参见美国专利申请公开第2007/0292918号,所述申请以全文引用的方式并入本文中)
中。可以制备含有由特定原核生物或真核生物宿主优选的密码子的优化编码序列(也参见
莫雷(Murray)等人(1989),核酸研究(Nucl.Acids Res.)17:477-508),例如提高翻译速率
或产生具有期望特性的重组RNA转录物,如半衰期比由非优化序列产生的转录物长。
[0219] 蛋白质表达由大量因素控制,包括影响转录、mRNA处理以及翻译稳定性和起始的那些因素。优化因此可以解决任何特定基因的多个序列特点中的任一个。作为一个特定实
例,稀有密码子诱导的翻译暂停能够引起蛋白质表达减少。稀有密码子诱导的翻译暂停包
括所关注聚核苷酸中的很少用于宿主生物体中的密码子的存在因其在可利用的tRNA池中
的稀缺性而可能对蛋白质翻译产生负面影响。
[0220] 交替翻译起始还会引起异源蛋白质表达减少。交替翻译起始可以包括合成聚核苷酸序列,其不经意间含有能够充当核糖体结合位点(RBS)的基元。这些位点可以起始所截断蛋白质从基因内部位点的翻译。一种减少产生所截断蛋白质(其在提纯期间可能难以去除)
的可能性的方法包括将推定的内部RBS序列从优化的聚核苷酸序列中排除。
[0221] 重复诱导的聚合酶打滑会引起异源蛋白质表达减少。重复诱导的聚合酶打滑涉及核苷酸序列重复,其已经表明可引起DNA聚合酶打滑或停顿,从而会引起移框突变。这类重复还能够引起RNA聚合酶打滑。在具有高G+C含量偏好的生物体中,可以存在由G或C核苷酸
重复组成的较高程度的重复。因此,一种减少诱导RNA聚合酶打滑的可能性的方法包括改变G或C核苷酸的延长重复。
[0222] 干扰二级结构还会引起异源蛋白质表达减少。二级结构能够隔离RBS序列或起始密码子且已经与蛋白质表达的减少相关。茎环结构还会涉及转录暂停和减弱。优化的聚核
苷酸序列可以在核苷酸序列的RBS和基因编码区中含有最少的二级结构以实现转录和翻译
的改善。
[0223] 举例来说,优化程序可以始于鉴别由宿主表达的所期望氨基酸序列。由所述氨基酸序列可以设计候选聚核苷酸或DNA序列。在合成DNA序列的设计期间,可以对密码子使用
频率与宿主表达生物体的密码子使用进行比较且可以从合成序列中去除罕见的宿主密码
子。另外,可以修饰合成候选DNA序列以便去除非期望的酶限制位点和添加或去除任何所期望的信号序列、连接子或未翻译区域。可以分析合成DNA序列中的可能会干扰翻译过程的二级结构的存在,如G/C重复和茎环结构。
[0224] 6.转座子诱变多样性文库:用于推导转座子诱变微生物菌株文库的分子工具
[0225] 本发明的转座子诱变HTP分子工具解决了两个问题:第一,缺乏对基因型-表型关系的了解。即使在充分研究的生物体中,对大部分的基因组概貌的了解仍然不充分。另外,充分了解的基因元件可以未预期的方式发生相互作用。第二,对于缓慢生长或基因顽强的
生物体(尤其具有大基因组的那些生物体)来说,对所有可能的基因目标执行靶向基因扰动
受到时间和/或成本的制约。
[0226] 为了解决这些问题,本公开提供容易且随机地利用活体内转座子诱变来调节/扰动/工程改造宿主生物体基因元件的方法。
[0227] 转座子诱变能够用于创建具有不同基因扰动/变化(例如功能获得或功能丧失)的文库且意指新基因目标以进一步改良宿主表型。
[0228] 不受理论束缚,一般来说,转座子以短(典型地小于50bp)的转座子特异性末端DNA序列为特征。在许多情况下,这些末端序列是相同或紧密相关序列的反向形式。转座酶特异性结合至末端反向重复序列以形成催化转座事件的转座酶-DNA突触复合物。转座子可以进
一步包括任何期望的DNA序列(例如任何有效负载基因、可选标记、启动子、引物结合位点、定点重组位点、T7 RNA聚合酶启动子、报告基因、终止子等)。
[0229] 本公开中所述的某些工具涉及微生物菌株中的基因的现有多态性,但不产生可以适用于改良微生物菌株性能的新颖突变。本公开教示了一种转座子诱变系统,其使有效负
载DNA随机整合到基因组中以产生突变,从所述突变中能够进一步筛选出引起宿主菌株特
征改良的那些突变,所述特征改良继而对总宿主菌株表型(例如产量或生产率)产生有益作
用。
[0230] 举例来说,在一些实施例中,本公开教示了在宿主细胞基因组内产生突变/变异/插入/缺失(即,基因扰动)的方法,这是通过转座子诱变方法来产生的。这个方法中产生的任何特定基因组变化能够一起归类为转座子诱变文库(又称为转座子诱变多样性文库),所
述文库更详细地解释如下。
[0231] 通过这种方法加以工程改造的所得微生物形成HTP基因设计文库。
[0232] HTP基因设计文库可以指通过这种方法形成的真正实体微生物菌株集合,其中每种成员菌株代表了通过转座子诱变所产生的指定突变/变化/插入/缺失(即,基因扰动),在原本相同的基因背景下,菌株文库称为“转座子诱变微生物菌株文库”。
[0233] 另外,HTP基因设计文库可以指基因扰动(在这种情况下,为通过转座子诱变所产生的指定扰动)集合,所述集合称为“转座子诱变文库”。
[0234] 得自转座子诱变微生物菌株文库的微生物可以进行额外多轮HTP。可以对得自转座子诱变微生物菌株文库的微生物进行适当地筛选且表征且产生另外的HTP基因设计文
库。表征HTP基因设计文库中的微生物菌株产生的信息和数据可以存储于任何数据存储构
筑体中,包括关系型数据库、面向对象数据库或高度分布式NoSQL数据库。这种数据/信息可以是例如对宿主细胞生长或宿主细胞中的分子产生造成的基因扰动效应。这种数据/信息
还可以是两种或更多种基因扰动所引起的较宽组合效应集合。
[0235] 可以对转座子诱变微生物菌株文库进行额外多轮循环工程改造以进一步改良所期望表型(例如色氨酸产量)。额外多轮工程改造可以由转座子诱变或本文所述的其它文库
类型组成,例如SNP交换、PRO交换或随机诱变。可以根据所期望表型筛选改良的菌株,以鉴别出具有经改良性能的变异体,并且还可以与展现经改良表型的其它菌株变异体合并以通
过不同有益突变的相加效应产生进一步改良的菌株。
[0236] 所属领域中的技术人员认识到能够将通过转座子诱变所产生的基因扰动与任何其它基因扰动合并。因此,在一些实施例中,本公开教示了转座子诱变微生物菌株文库,其具有通过转座子诱变所产生的1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、
200、300、400、500、600、700、800、900、1000个或更多个基因扰动。
[0237] 总之,利用生物体中通过转座子诱变所产生的不同突变/改变/插入/缺失(也称为基因扰动)是一种优化所关注性状的强大工具。由本发明人开发的利用转座子诱变创建HTP
文库的分子工具是利用对所关注性状具有不同作用的突变/改变/插入/缺失集合。然后利
用高通量基因组工程将此集合系统地应用于生物体。基于多种方法中的任一种方法确定对
所关注性状的影响的可能性较高的这组突变/改变/插入/缺失。这些方法可以包括基于已
知功能或对所关注性状的影响而进行的选择,或基于此前测定的有益遗传多样性而进行的
算法选择。在一些实施例中,突变/改变/插入/缺失的选择可以包括所指定宿主中的所有基因。在其它实施例中,突变/改变/插入/缺失的选择可以是所指定宿主中的所有基因的随机选择的子集。在其它实施例中,突变/改变/插入/缺失的选择可以是涉及指定分子合成的所有基因的子集。
[0238] 然后评估含有通过转座子诱变所产生的基因扰动的生物体的所得HTP基因设计微生物菌株文库在高通量筛选模型中的性能,且确定引起性能增强的基因扰动且将信息存储
于数据库中。基因扰动(例如突变/改变/插入/缺失)集合形成“转座子诱变文库”,其可以在未来微生物工程加工中用作潜在基因改变的来源。随着时间逝去,当针对宿主细胞背景的
更大多样性实施基因扰动的更大集合时,每个文库作为实验上被证实的数据的语料库而变
得更强大,其能用于根据所关注的任何背景更精确地且可预测地设计出定向变化。
[0239] 在一些实施例中,本公开的转座子诱变文库能够用于鉴别基因目标的最优表达。在一些实施例中,目标可以是增强目标基因的活性,以减少代谢或遗传路径中的瓶颈。在其它实施例中,目标可以是减少目标基因的活性,以便在不需要目标基因表达时,避免宿主细胞中发生不必要的能量消耗。
[0240] 因此,在特定实施例中,转座子诱变是一种多步骤方法,包含:
[0241] 1.选择转座子系统用于诱变且将所述系统施加于指定微生物菌株中以产生突变(或任何其它基因扰动,但在本说明书中为了简化而使用突变),所述突变通过转座子引起。
所述系统理想地展示可使得转座子随机整合到所选微生物菌株的基因组中。此类整合在一
定程度上扰动基因表达。
[0242] 2.进行高通量菌株工程改造以快速选择其基因组中整合有转座子的菌株。以此方式构筑菌株“文库”(也称为HTP基因设计文库,即,转座子诱变微生物菌株文库),其中文库中的每个成员是在原本相同的遗传背景下包含转座子突变的菌株。如此前所述,可以合并
突变组合,从而在构筑文库时,扩大组合可能性的范围。
[0243] 3.在依据一或多种度量标准的菌株性能指示所优化的性能的背景下,高通量筛选菌株文库。
[0244] 尤其能够扩展此基本方法以提供菌株性能的进一步改良,尤其是通过:(1)将多个有益扰动合并到单一菌株背景中,按互动式程序进行,一次一个;或作为多个变化在单一步骤中进行。多个扰动(例如突变)可以是所定义变化的特定集合或部分随机化的组合性变化
文库,不论基因功能已被突变修改;(2)将文库的个别和组合产生所得到的性能数据输入算法,所述算法利用那个数据、基于每个扰动的相互作用预测最优的扰动集合;和(3)实施上述两种方法的组合。
[0245] 在一些实施例中,转座子偏好在富GC区域插入。在一些实施例中,转座子在插入位点需要GC碱基。在一些实施例中,转座子的插入位点偏好富AT区域。在一些实施例中,转座子在插入位点需要AT碱基。
[0246] 在一些实施例中,转座子有效负载包括非编码DNA序列,当转座子将核酸序列插入细胞中的那个编码区中或附近时,所述非编码DNA序列能够改变编码区所表达的产物性质。
可以使用将改变存在于细胞中的编码区所表达的产物的性质的任何核苷酸序列。
[0247] 在一些实施例中,转座子有效负载包括非编码DNA序列,当转座子插入细胞中的那个编码区附近时,所述非编码DNA序列能够改变编码区的表达水平。此影响序列可以增加或减少编码区的表达水平。可以使用将改变存在于细胞中的编码区的表达水平的任何核苷酸
序列。
[0248] 在一些实施例中,一或多种非编码或编码DNA序列包括(但不限于)启动子、终止子序列、终止密码子、最优化密码子、剪接受体位点、剪接供体位点、静止子元件、SNP、溶解性标签、条形码、增强子、基质附接序列、转录结合位点、框移突变、可选标记,和反向可选标记。
[0249] 在一些实施例中,转座子有效负载包括可选标记。可以用于本公开的可选标记包括(但不限于)药物抗性标记(例如潮霉素、卡那霉素、β-内酰胺酶抗性、嘌呤霉素,或新霉素类似物G418)、可检测标记(例如荧光蛋白、荧光素酶、氯胺苯醇乙酰基转移酶,和β-半乳糖苷酶)、mFabI、氯胺苯醇抗性,和营养缺陷型标记(例如URA、LYS、cscA)。
[0250] 在一些实施例中,转座子有效负载包括反向可选标记,包括(但不限于)URA3/5-FOA反向选择系统、sacB、tetAR、rpsL、ccdB、pheS和胸苷激酶。
[0251] 可以改变转座子有效负载以诱发多种多样的表型响应。举例来说,在功能丧失(LoF)文库中,有效负载可以包括允许选择成功的转座子整合事件的标记。在另一个实例
中,在功能获得型文库中,有效负载可以包括启动子或溶解性标签。在其它实施例中,有效负载可以包括有助于含有可选标记的有效负载的一部分环出的反向可选标记,从而允许连
续的转座子诱变。
[0252] 在一些实施例中,转座子具有高转座频率。在一些实施例中,转座子具有高转座频率,使得有可能达到饱和诱变(例如基因组中的每个基因插入至少一次)。
[0253] 本公开中可以使用任何适当的转座子系统。在一些实施例中,转座子是剪切粘贴转座子。在一些实施例中,转座子是复制转座子。在一些实施例中,转座子是逆转录元件,其中转座通过涉及逆转录的过程完成。在一些实施例中,转座子和转座酶系统选自包括(但不限于)以下的群组:Tn1、Tn2、Tn3、Tn4、Tn5、Tn6、Tn7、Tn10、mariner、Himar1、Tol2、Frog Prince、P元件、Passport、Tn4001、Ty1、Ty2、Ty3、Ty4、Ty5、合成转座子、Sleeping Beauty、piggyback,或其衍生物。在一些实施例中,转座子系统是Tn5转座体系统。
[0254] 在一些实施例中,转座子是由两个或更多个转座子有效负载构成的复合转座子。在一些实施例中,将一或多个转座子有效负载与转座酶复合。在一些实施例中,复合的转座子有效负载和转座酶允许发生活体内转座。在一些实施例中,复合的转座酶是多肽。在一些实施例中,复合的转座酶是编码转座酶多肽的多核苷酸。在一些实施例中,复合的转座酶是Tn5转座酶。
[0255] 在一些实施例中,转座子包括介导定点整合的多核苷酸。可以用于本公开的定点整合序列包括(但不限于)LoxP(用于Cre重组酶)和FRT(用于FLP重组酶)。
[0256] 在一些实施例中,转座子随机插入基因组。在一些实施例中,转座子随机插入基因组且产生功能丧失型突变。在一些实施例中,转座子插入基因启动子。在一些实施例中,转座子随机插入开放阅读框且阻止中断的基因(例如功能丧失型突变)转录或翻译。在一些实施例中,转座子插入基因的上游调控元件。在一些实施例中,转座子随机插入基因邻近的位点且增强基因表达(例如功能获得型突变)。在一些实施例中,转座子插入启动子或基因上
游调控元件且产生功能获得型突变。在一些实施例中,转座子插入启动子或基因上游调控
元件且产生功能丧失型突变。在一些实施例中,转座子插入基因且产生早期终止型突变。在一些实施例中,早期终止型突变产生功能丧失型突变。
[0257] 在一些实施例中,转座子在插入位点整合于基因组DNA中。在一些实施例中,转座子通过微生物生物体稳定遗传。
[0258] 在一些实施例中,转座子在插入位点插入基因组中的一或多个DNA序列(例如转座子有效负载)。在一些实施例中,转座子包括一或多个中断序列和/或一或多个影响序列,或其组合。
[0259] 在一些实施例中,转座子引起基因组DNA的一部分缺失。在一些实施例中,基因组DNA的一部分缺失是通过Cre催化的DNA切除来完成。
[0260] 转座子可以利用任何适当载体递送到细胞。在一些实施例中,载体可以包括至少一个转座子、至少两个转座子、至少3个转座子、至少4个转座子、至少5个转座子、至少6个转座子、至少7个转座子、至少8个转座子、至少9个转座子、至少10个转座子,或更多。
[0261] 在一些实施例中,载体包括编码转座酶的编码区。如本文所用,术语“转座酶”是指一种多肽,其结合转座子的反向重复或直接重复且催化转座子从供体多核苷酸(例如载体)中切除且随后使转座子整合于细胞基因组DNA中。转座酶可以作为多肽存在。或者,转座酶可以作为包括编码转座酶的编码序列的多核苷酸存在。多核苷酸可以是RNA(例如mRNA)或
DNA。编码转座酶的多核苷酸可以位于载体上,或存在于染色体中。当转座酶作为编码转座酶的编码序列存在时,在本公开的一些方面中,编码序列可以存在于包括转座子的同一多
核苷酸(例如载体)上(即,呈顺式)。在一些实施例中,转座酶编码序列可以存在于上第二多核苷酸(例如载体)上,即,呈反式。
[0262] 本公开提供利用本文所公开的转座子和载体的方法。可以利用所属领域中已知的任何适当方式将载体在目标细胞中转化,评估且克隆。所述方法可以包括观测细胞以确定
表型是否已改变。
[0263] 所公开的方法可以包括对存在于细胞中的转座子的位置进行定位。在一些实施例中,插入区域可以通过序列分析来鉴别。序列分析可以利用所属领域中的任何适当方式执
行,包括(但不限于)基于PCR的技术(例如逆向PCR或连接子介导的PCR技术)。在一些实施例中,序列分析包含使用与任意引物偶联的转座子特异性引物(Tn引物)对转座子界限之一进
行PCR扩增,随后测序以便鉴别紧邻转座子末期序列的目标DNA。在一些实施例中,序列分析包含使用转座子特异性引物和针对微生物基因组中的已知序列设计的引物(例如“足跡
法”)。在一些实施例中,序列分析可以通过分析构建成转座子(例如特异性20聚体或条形
码)的独特序列来执行,所述转座子可以通过杂交来鉴别。在一些实施例中,序列分析包括微阵列分析。在一些实施例中,序列分析包括原位杂交。在一些实施例中,序列分析是利用能够使转座子内的限制位点裂解的限制性核酸内切酶。
[0264] 7.上位定位-能够实现有益基因合并的预测分析工具
[0265] 在一些实施例中,本公开教示了用于预测有益基因变异且将其合并到宿主细胞中的上位定位方法。基因变异可以利用前述HTP分子工具集(例如启动子交换、SNP交换、起始/终止密码子交换、序列优化、转座子诱变)中的任一种产生且根据所衍生的HTP基因设计微
生物菌株文库的表征已知那些基因变异的效应。因此,如本文所用,术语上位定位包括鉴别可能会引起宿主性能增强的基因变异组合(例如有益SNP或有益启动子/靶基因关联,或得
自转座子诱变试验的有益突变)的方法。
[0266] 在实施例中,本公开的上位定位方法是基于如下构思:相较于来自同一功能群组的突变的组合,来自两种不同功能群组的有益突变的组合更可能改良宿主性能。参见例如
考斯坦佐(Costanzo),细胞的基因前景(The Genetic Landscape of a Cell),科学,第327卷,第5964期,2010年1月22日,第425-431页(以全文引用的方式并入本文中)。
[0267] 来自同一功能群组的突变更可能通过相同机制来运作,且因此更可能对总体宿主性能展现负上位或中性上位效应。相比之下,来自不同功能群组的突变更可能通过独立机
制来运作,从而能够引起宿主性能改善且在一些情况下产生协同效应。
[0268] 因此,在一些实施例中,本公开教示了分析SNP突变以鉴别经预测属于不同功能群组的SNP的方法。在一些实施例中,SNP功能群组相似度是通过计算突变相互作用曲线的余
弦相似度(类似于相关系数,参见图8A)来测定。本公开还通过突变相似度矩阵(参见图7)或树状图(参见图8A)来说明SNP的比较。相同概念可以应用于通过转座子诱变所带来的基因
扰动。
[0269] 因此,上位定位程序提供了一种对在一或多种基因背景下所施加的多种多样的基因突变进行分组和/或评级的方法,目的是将所述突变高效且有效地合并到一或多个基因
背景中。
[0270] 在各方面中,进行合并的目标是产生新颖菌株,所述新颖菌株针对目标生物分子的产生经优化。通过所教示的上位定位程序,可以鉴别突变的功能分类,且此功能分类能够实现使不期望的上位效应最小化的合并策略。
[0271] 如此前所解释,供工业发酵使用的微生物的优化是一个重要的难题,其广泛牵涉到经济、社会和自然界。传统上,已经通过随机突变诱发的缓慢和不确定方法进行微生物工程改造。这类方法利用细胞的天然进化能力来适应人工强加的选择压力。这类方法还受到
以下限制:有益突变的稀有性、潜在健康前景的稳固性,且更通常来说,未充分利用细胞和分子生物学的现有技术水平。
[0272] 现代方法利用了在机制层面对细胞功能的新了解且利用新的分子生物学工具对特定的表型末端进行靶向基因操控。在实践中,这类合理方法因生物学的潜在复杂性而发
生混淆。对致病机制的了解不充分,尤其当尝试将各自具有所观察到的有益效应的两个或
更多个变化组合时。有时,基因变化的这类合并产生积极结果(根据所期望的表型活性的增强所测量),但是净积极结果可能低于预期且在一些情况下高于预期。在其他情况下,这类组合产生净中性效果或净消极效果。这种现象称为上位,且是微生物工程(一般是基因工
程)的基本挑战之一。
[0273] 如前所述,本公开的HTP基因组工程平台解决了与传统微生物工程改造方法相关的许多问题。本公开HTP平台利用自动化技术一次执行数百或数千个基因突变。在特定方面中,不同于上述合理方法,所公开的HTP平台能够并行构筑数千个突变体以更有效地探究相关基因组空间的较大子集,如美国申请第15/140,296号(名称为:用于改良经工程改造的核苷酸序列的大规模生产的微生物菌株设计系统和方法,所述申请以全文引用的方式并入本
文中)中所公开。通过尝试“所有事物”,本公开的HTP平台避开了我们的有限生物学了解所引起的困难。
[0274] 然而,同时,本公开的HTP平台面对的问题是根本上局限于基因组空间的组合爆发性规模,以及计算机技术解释所产生的数据集的有效性(鉴于基因相互作用的复杂性)。需
要以使产生所期望结果的组合的非随机选择最大化的方式探究广大组合空间的子集的技
术。
[0275] 在酶优化的情况下,在某种程度上相似的HTP方法已证明是有效的。在这个小生境问题中,所关注的基因组序列(约1000个碱基)编码物理构形有些复杂的蛋白质链。确切的
构形是利用其组成性原子组分之间的整体电磁相互作用来确定。短基因组序列与物理上受
约束的折叠问题的这种组合使得其自身特别渴望优化策略。即,可以使序列在每个残基处
发生个别的突变且使所得突变体改组,从而按照与序列活跃性响应模型相容的分辨率有效
地对局部序列空间取样。
[0276] 然而,针对生物分子进行完整基因组优化时,这类以残基为中心的方法因一些重要原因而不充分。第一个原因是与生物分子的基因组优化有关的相关序列空间呈指数级增
加。第二个原因是生物分子合成中的调节、表达和代谢相互作用的复杂性增加。本发明人已经通过所教示的上位定位程序解决了这些问题。
[0277] 用于对一组突变之间的上位相互作用建立模型以便更高效且有效地将所述突变合并到一或多种基因背景中的所教示方法在所属领域中具有开创性且是非常需要的。
[0278] 描述上位定位程序时,术语“更高效”和“更有效”是指相对于特定表型目标,避免合并菌株间的不期望上位相互作用。
[0279] 由于所述方法已经大体详述如上,因此现将描述更具体的工作流程实例。
[0280] 第一,以M个突变的文库和一或多种基因背景(例如亲代细菌菌株)开始。在此所述的方法既非专门针对文库的选择、亦非专门针对基因背景的选择。但在特定实施方案中,突变文库可以排他地或组合性地包括:SNP交换文库、启动子交换文库、转座子诱变文库,或本文所述的任何其它突变文库,或其任何组合。
[0281] 在一个实施方案中,仅提供单一基因背景。在这种情况下,首先利用此单一背景产生不同基因背景(微生物突变体)的集合。这可以如下实现:将初始突变文库(或其一些子集)应用于所指定的背景,例如将特定SNP的HTP基因设计文库或特定启动子的HTP基因设计
文库应用于所指定的基因背景,从而在相同的基因背景下产生微生物突变体的群体(或许
100个或1,000个),例外之处为其中并入了来自所指定的HTP基因设计文库的特定基因变
异。如下详述,这个实施例可以产生文库或成对文库的组合。
[0282] 在另一个实施方案中,可以简单地得到不同的已知基因背景的集合。如下详述,这个实施例可以产生组合文库的子集。
[0283] 在一个特定实施方案中,为了使这种方法的有效性最大化,测定基因背景的数目和这些背景之间的基因多样性(根据突变数目或序列剪辑距离或其类似方面所测量)。
[0284] 基因背景可以是天然的、原生的或野生型菌株或突变的经工程改造的菌株。N种不同背景菌株可以由向量b表示。在一个实例中,背景b可以代表如下形成的工程背景:将N个初始突变m0=(m1、m2、…mN)施加于野生型背景菌株b0以形成N种突变型背景菌株b=m0 b0=(m1b0、m2b0、…mN b0),其中mib0表示突变mi施加于背景菌株b0。
[0285] 在任一种情况(即,单一提供的基因背景,或基因背景的集合)下,结果是N种不同基因背景的集合。测量每种背景的相关表型。
[0286] 第二,将M突变m1的集合中的每个突变施加于N种背景菌株的集合b内的每种背景,以形成M x N个突变体的集合。在其中N个背景本身通过施加初始突变集合m0而获得(如上
文所述)的实施方案中,所得突变体集合有时称为组合文库或成对文库。在其中已经明确提供已知背景集合的另一个实施方案中,所得突变体集合可以称为组合文库的子集。类似于
工程改造背景的载体的产生,在实施例中,输入界面202接收突变向量m1和背景向量b,以及指定的运算,如向量积。
[0287] 继续以上述工程改造背景为例,形成MxN组合文库可以由m1 x m0 b0形成的矩阵(m1应用于b=m0 b0的N个背景的向量积)表示,其中m1中的每个突变施加于b内的每种背景
菌株。所得MxN矩阵中的每个第i行表示m1内的第i个突变施加于背景集合b内的所有菌株。
在一个实施例中,m1=m0和矩阵表示将相同突变成对施加于初始菌株b0。在这种情况下,矩阵围绕其对线(M=N)是对称的,且在任何分析中可以忽略对角线,因为其表示相同突变
施加两次。
[0288] 在实施例中,形成MxN矩阵可以通过向输入界面202中输入混合表达式m1 x m0b0来实现。表达式的分量向量可以与明确指定的其元件一起、根据一或多种DNA规格直接输入,或读出到文库206以便在解译器204解译期间实现向量的撷取。如美国专利申请第15/140,
296号(名称为“用于改良经工程改造的核苷酸序列的大规模生产的微生物菌株设计系统和
方法”)中所述,LIMS系统200通过解译器204、执行引擎207、发订单引擎208和工厂210产生由输入表达式指定的微生物菌株。
[0289] 第三,参照图24的流程图,分析设备214(图20)测量了MxN组合文库矩阵内的每种突变体的表型响应(4202)。因而,响应的集合可以理解为M x N响应矩阵R。R中的每个元素可以表示为rij=y(mi,mj),其中y表示工程集b内的背景菌株bj的响应(性能),如通过突变mi而发生突变。为了简单和实用性起见,我们采用成对突变,其中m1=m0。在突变集合表示成对突变文库的情况下(如本文),所得矩阵也可以称为基因相互作用矩阵或更具体地说,突变
相互作用矩阵。
[0290] 所属领域的技术人员将认识到,在一些实施例中,与上位效应和预测菌株设计有关的运算完全可以通过LIMS系统200的自动化方式进行,例如通过分析设备214或通过人工
建构,或通过自动化方式与人工方式的组合。当运算并非完全自动进行时,LIMS系统200的元件(例如分析设备214)可以例如接收人工执行运算的结果,而非通过其自身的运算能力
而产生结果。如本文在别处所述,LIMS系统200的组件(如分析设备214)可以完全或部分地
通过一或多种计算机系统来建构。在一些实施例中,尤其在与预测菌株设计有关的运算是
利用自动化方式与人工方式的组合来执行的情况下,分析设备214不仅可以包括计算机硬
件、软件或固件(或其组合),而且包括由操作人员操作的设备,如下表3中所列的设备,例如在“评估性能”类别下所列的设备。
[0291] 第四,分析设备212将响应矩阵归一化。归一化由以下组成:调节实测响应值的人工过程和/或在这个实施例中为自动化过程以便去除偏好和/或分离出此方法所特有的效
果的相关部分。就图24来说,第一步骤4202可以包括获得归一化的实测数据。一般来说,在针对预测菌株设计和上位定位的权利要求书中,术语“性能测量”或“实测性能”或其类似术语可以用于描述一种度量标准,其反映了实测数据(不论未处理或以某种方式处理),例如
归一化数据。在一个特定实施方案中,归一化可以通过从实测响应值中减去此前测量的背
景响应来执行。在那种实施方案中,所得响应元素可以形成为rij=y(mi,mj)-y(mj),其中y(mj)是因向亲代菌株b0施加初始突变mj引起工程集b内的工程背景菌株bj的响应。应注意归一化响应矩阵内的每一行是作为其相应突变的响应分布来处理。即,第i行描述了施加于j
=1到N的所有背景菌株bj的相应突变mi的相对效应。
[0292] 就成对突变的实例来说,由两种突变引起的菌株的组合性能/响应可以大于、小于或等于每一种突变个别引起的菌株的性能/响应。这种效应称为“上位”且在一些实施例中,可以用eij=y(mi,mj)-(y(mi)+y(mj))表示。这种数学表示可以存在变化形式,且可以取决于例如个别变化在生物学上发生相互作用的程度。如上文所提及,来自同一功能群组的突变
更可能通过相同机制来运作,且因此更可能对总体宿主性能展现负上位或中性上位效应。
相比之下,来自不同功能群组的突变更可能通过独立机制来运作,从而能够通过例如减少
冗余突变效应来改良宿主性能。因此,产生差异响应的突变比产生相似响应的突变更可能
按叠加方式组合。由此引起在下一步骤中计算相似度。
[0293] 第五,分析设备214测量了响应间的相似度,在成对突变实例中,这是响应矩阵内的第i个突变与第j(例如初始)突变的效应之间的相似度(4204)。请记住:R中的第i行表示
第i个突变mi施加于N种背景菌株的性能效应,其中的每一种本身可以是如上文所述的工程
改造突变的结果。因此,第i个和第j个突变的效应之间的相似度可以分别由第i行ρi与第j行ρj之间的相似度sij表示,以形成相似度矩阵S,其实例说明于图7中。相似度可以使用多种已知技术测量,如交叉相关或绝对余弦相似度,例如sij=abs(cos(ρi,ρj))。
[0294] 作为度量标准(如余弦相似度)的一个替代或补充方案,可以对响应曲线进行聚类以测定相似度。聚类可以使用基于距离的聚类算法(例如k均值、分层凝聚等)、结合适合的距离测量(例如欧几里德(Euclidean)、汉明(Hamming)等)来进行。或者,可以使用基于相似度的聚类算法(例如光谱、最小切割等)、通过适合的相似度测量(例如余弦、相关度等)来执行聚类。当然,可以通过任何数目个标准函数运算(例如指数函数)来使距离测量对应于相
似度测量且反之亦然。在一个实施方案中,分层凝聚聚类可以结合绝对余弦相似度来使用。
(参见图8A)。
[0295] 举聚类为例,假设C是突变mi按照k个不同簇的聚类。假设C是簇成员矩阵,其中cij是突变i属于簇j的程度(0与1之间的值)。接着利用Ci×Cj(C的第i行与第j行的点积)得到突变i与j之间的基于簇的相似度。一般来说,基于簇的相似度矩阵由CCT给定(即,C乘以C转置矩阵)。在硬聚类(突变恰好属于一个簇)的情况下,两个突变之间的相似度是1(如果其属于同一簇)和0(如果不)。
[0296] 如考斯坦佐(Costanzo),细胞的基因前景,科学,第327卷,第5964期,2010年1月22日,第425-431页(以全文引用的方式并入本文中)所述,突变响应曲线的这种聚类是指细胞潜在功能组织的大致定位。即,聚为同类的突变倾向于与潜在的生物过程或代谢途径相关。这类突变在本文中称为“功能群”。这种方法的关键观察结果在于,如果两个突变通过相同的生物过程或途径来运作,那么所观察到的效应(和值得注意的是所观察到的效益)可能是
冗余的。反之,如果两个突变通过远端机制来运作,那么有益效应不大可能是冗余的。
[0297] 第六,基于上位效应,分析设备214选择产生差异响应的突变对,例如其余弦相似度度量标准低于相似度阈值,或其响应属于充分分隔的簇中(例如图7和图8A),如图24
(4206)所示。优于相似对,所选突变对应该基于其差异性而合并到背景菌株中。
[0298] 基于所选突变对产生充分差异响应,可以利用LIMS系统(例如解译器204、执行引擎207、下单器208和工厂210)设计具有那些所选突变的微生物菌株(4208)。在实施例中,如下文所述和本文别处所述,上位效应可以内置于预测模型中或结合预测模型使用以赋予菌
株选择权重或过滤菌株选择。
[0299] 假定可以通过一些优选的预测模型估计假想菌株的性能(也称为分数),所述假想菌株是通过将来自文库的突变集合合并到特定背景中来获得。教示方法中所用的代表性预
测模型提供于标题为“预测菌株设计(Predictive Strain Design)”的下述章节中,所述章节见于更大章节:“全基因组基因设计准则的计算分析和效果预测(Computational 
Analysis and Prediction of Effects of Genome-Wide Genetic Design Criteria)”。
[0300] 当使用预测菌株设计技术(如线性回归)时,分析设备214可以将模型约束到具有低相似度测量值的突变,例如通过过滤回归结果以便仅保留具有充分差异性的突变。或者,可以利用相似度矩阵赋予预测模型权重。举例来说,一些实施例可以利用加权的最小二乘
法回归,其使用相似度矩阵来表征所提出的突变的相互依赖性。举例来说,可以通过将“内核”策略应用于回归模型来执行加权。(就“内核策略”是多种机器学习建模方法的通用策略来说,这种再加权策略不限于线性回归。)
[0301] 所属领域的技术人员已知这类方法。在实施例中,内核是具有元素1-w*sij的矩阵,其中1是恒等矩阵的元素,且w是0与1之间的实值。当w=0时,此简化为标准回归模型。在实践中,当针对成对组合构筑体和其关联效应y(mi,mj)评估时,w值将与预测模型的精确度(r22
值或均方根误差(RMSE))相关。在一个简单的实施方案中,w定义为w=1-r。在这种情况下,当模型完全可预测时,w=1-r2=0且合并仅基于预测模型且上位定位程序不起作用。另一
方面,当预测模型根本不能预测时,w=1-r2=1且合并仅基于上位定位程序。在每次迭代期间,可以评估精确度以确定模型性能是否改良。
[0302] 应该明确,本文所述的上位定位程序不取决于分析设备214使用哪种模型。鉴于这种预测模型,有可能对通过组合合并可近接突变文库的所有假想菌株评分和评级。
[0303] 在一些实施例中,为了考虑上位效应,分析设备214可以利用差异突变响应曲线来增加与得自预测模型的每种假想菌株相关的分数和等级。这种程序可以广泛地被认为是分
数的再加权,从而有利于具有差异响应曲线的候选菌株(例如从多种多样的簇中抽取的菌
株)。在一个简单的实施方案中,菌株的分数可以因不满足差异性阈值或从同一簇(具有适
合权重)中抽取的组成性突变的数目而降低。在一个特定实施方案中,假想菌株的性能估计值的减小可能是与所有组成性突变对相关的相似度矩阵中的各项的总和,所述组成性突变
与假想菌株相关(再次具有适合权重)。可以利用这些强化分数对假想菌株再评级。在实践
中,这类再加权计算可以结合初始分数评估来进行。
[0304] 结果得到假想菌株的集合,其分数和等级经强化以更有效地避免令人混淆的上位相互作用。此时可以构筑假想菌株,或可以将其传送到另一计算方法供后续分析或使用。
[0305] 所属领域的技术人员将认识到,如本文所述的上位定位和迭代预测菌株设计不限于仅使用成对突变,而是可以扩展到将许多更多的突变同时施加到背景菌株。在另一个实
施例中,可以将额外突变依序施加到已经利用根据本文所述的预测方法所选的突变发生突
变的菌株。在另一个实施例中,上位效应如下推测:将相同的基因突变施加到彼此稍微不同的多种菌株背景,且记录经改造的菌株背景间的正响应曲线的任何显著差异。
[0306] 顺从基因设计的生物体
[0307] 所公开的HTP基因组工程平台虽然以工业微生物细胞培养物(例如棒状杆菌、大肠杆菌、黑曲霉和糖多孢菌属)为例说明,但是适用于任何宿主细胞生物体,其中能够在基因突变体群体中鉴别出所期望的性状。
[0308] 因此,如本文所用,术语“微生物”应在宽广的意义上理解。其包括(但不限于)两个原核生物结构域:细菌和古细菌,以及某些真核生物真菌和原生生物。然而,在某些方面中,本文教示的方法中可以使用“更高级”真核生物体,如昆虫、植物和动物。
[0309] 适合的宿主细胞包括(但不限于):细菌细胞、藻类细胞、植物细胞、真菌细胞、昆虫细胞和哺乳动物细胞。在一个示例性实施例中,适合的宿主细胞包括大肠杆菌(例如SHuffleTM胜任型大肠杆菌,其获自萨诸塞州伊普威治的新英格兰生物实验室(New 
England BioLabs,Ipswich,Mass.))。
[0310] 大肠杆菌种的适合宿主菌株包含:产肠毒素大肠杆菌(ETEC)、肠致病性大肠杆菌(EPEC)、肠侵袭性大肠杆菌(EIEC)、肠出血性大肠杆菌(EHEC)、尿道致病性大肠杆菌
(UPEC)、产生维罗毒素(Verotoxin)的大肠杆菌、大肠杆菌O157:H7、大肠杆菌O104:H4、大肠杆菌O121、大肠杆菌O104:H21、大肠杆菌K1和大肠杆菌NC101。
[0311] 在一些实施例中,本公开教示了大肠杆菌菌株NCTC 12757、NCTC 12779、NCTC 12790、NCTC 12796、NCTC 12811、ATCC 11229、ATCC 25922、ATCC 8739、DSM 30083、BC 
5849、BC 8265、BC 8267、BC 8268、BC 8270、BC 8271、BC 8272、BC 8273、BC 8276、BC 8277、BC 8278、BC 8279、BC 8312、BC 8317、BC 8319、BC 8320、BC 8321、BC 8322、BC 8326、BC 
8327、BC 8331、BC 8335、BC 8338、BC 8341、BC 8344、BC 8345、BC 8346、BC 8347、BC 8348、BC 8863和BC 8864的基因组工程改造。
[0312] 在一些实施例中,本公开教示了产维罗毒素大肠杆菌(VTEC),例如菌株BC 4734(O26:H11)、BC 4735(O157:H-)、BC 4736、BC 4737(n.d.)、BC 4738(O157:H7)、BC 4945
(O26:H-)、BC 4946(O157:H7)、BC 4947(O111:H-)、BC 4948(O157:H)、BC 4949(O5)、BC 
5579(O157:H7)、BC 5580(O157:H7)、BC 5582(O3:H)、BC 5643(O2:H5)、BC 5644(O128)、BC 
5645(O55:H-)、BC 5646(O69:H-)、BC 5647(O101:H9)、BC 5648(O103:H2)、BC 5850(O22:
H8)、BC 5851(O55:H-)、BC 5852(O48:H21)、BC 5853(O26:H11)、BC 5854(O157:H7)、BC 
5855(O157:H-)、BC 5856(O26:H-)、BC 5857(O103:H2)、BC 5858(O26:H11)、BC 7832、BC 
7833(O原始形式:H-)、BC 7834(ONT:H-)、BC 7835(O103:H2)、BC 7836(O57:H-)、BC 7837(ONT:H-)、BC 7838、BC 7839(O128:H2)、BC 7840(O157:H-)、BC 7841(O23:H-)、BC 7842(O157:H-)、BC 7843、BC 7844(O157:H-)、BC 7845(O103:H2)、BC 7846(O26:H11)、BC 7847(O145:H-)、BC 7848(O157:H-)、BC 7849(O156:H47)、BC 7850、BC 7851(O157:H-)、BC 7852(O157:H-)、BC 7853(O5:H-)、BC 7854(O157:H7)、BC 7855(O157:H7)、BC 7856(O26:H-)、BC 
7857、BC 7858、BC 7859(ONT:H-)、BC 7860(O129:H-)、BC 7861、BC 7862(O103:H2)、BC 
7863、BC 7864(O原始形式:H-)、BC 7865、BC 7866(O26:H-)、BC 7867(O原始形式:H-)、BC 
7868、BC 7869(ONT:H-)、BC 7870(O113:H-)、BC 7871(ONT:H-)、BC 7872(ONT:H-)、BC 
7873、BC 7874(O原始形式:H-)、BC 7875(O157:H-)、BC 7876(O111:H-)、BC 7877(O146:
H21)、BC 7878(O145:H-)、BC 7879(O22:H8)、BC 7880(O原始形式:H-)、BC 7881(O145:H-)、BC 8275(O157:H7)、BC 8318(O55:K-:H-)、BC 8325(O157:H7)和BC 8332(ONT)、BC 8333。
[0313] 在一些实施例中,本公开教示了肠侵袭性大肠杆菌(EIEC),例如菌株BC 8246(O152:K-:H-)、BC 8247(O124:K(72):H3)、BC 8248(O124)、BC 8249(O112)、BC 8250(O136:
K(78):H-)、BC 8251(O124:H-)、BC 8252(O144:K-:H-)、BC 8253(O143:K:H-)、BC 8254
(O143)、BC 8255(O112)、BC 8256(O28a.e)、BC 8257(O124:H-)、BC 8258(O143)、BC 8259(O167:K-:H5)、BC 8260(O128a.c.:H35)、BC 8261(O164)、BC 8262(O164:K-:H-)、BC 8263(O164)和BC 8264(O124)。
[0314] 在一些实施例中,本公开教示了产肠毒素大肠杆菌(ETEC),例如菌株BC 5581(O78:H11)、BC 5583(O2:K1)、BC 8221(O118)、BC 8222(O148:H-)、BC 8223(O111)、BC 8224(O110:H-)、BC 8225(O148)、BC 8226(O118)、BC 8227(O25:H42)、BC 8229(O6)、BC 8231(O153:H45)、BC 8232(O9)、BC 8233(O148)、BC 8234(O128)、BC 8235(O118)、BC 8237
(O111)、BC 8238(O110:H17)、BC 8240(O148)、BC 8241(O6H16)、BC 8243(O153)、BC 8244(O15:H-)、BC 8245(O20)、BC 8269(O125a.c:H-)、BC 8313(O6:H6)、BC 8315(O153:H-)、BC 
8329、BC 8334(O118:H12)和BC 8339。
[0315] 在一些实施例中,本公开教示了肠致病性大肠杆菌(EPEC),例如菌株BC 7567(O86)、BC 7568(O128)、BC 7571(O114)、BC 7572(O119)、BC 7573(O125)、BC 7574(O124)、BC 7576(O127a)、BC 7577(O126)、BC 7578(O142)、BC 7579(O26)、BC 7580(OK26)、BC 7581(O142)、BC 7582(O55)、BC 7583(O158)、BC 7584(O-)、BC 7585(O-)、BC 7586(O-)、BC 
8330、BC 8550(O26)、BC 8551(O55)、BC 8552(O158)、BC 8553(O26)、BC 8554(O158)、BC 
8555(O86)、BC 8556(O128)、BC 8557(OK26)、BC 8558(O55)、BC 8560(O158)、BC 8561
(O158)、BC 8562(O114)、BC 8563(O86)、BC 8564(O128)、BC 8565(O158)、BC 8566(O158)、BC 8567(O158)、BC 8568(O111)、BC 8569(O128)、BC 8570(O114)、BC 8571(O128)、BC 8572(O128)、BC 8573(O158)、BC 8574(O158)、BC 8575(O158)、BC 8576(O158)、BC 8577(O158)、BC 8578(O158)、BC 8581(O158)、BC 8583(O128)、BC 8584(O158)、BC 8585(O128)、BC 8586(O158)、BC 8588(O26)、BC 8589(O86)、BC 8590(O127)、BC 8591(O128)、BC 8592(O114)、BC 
8593(O114)、BC 8594(O114)、BC 8595(O125)、BC 8596(O158)、BC 8597(O26)、BC 8598
(O26)、BC 8599(O158)、BC 8605(O158)、BC 8606(O158)、BC 8607(O158)、BC 8608(O128)、BC 8609(O55)、BC 8610(O114)、BC 8615(O158)、BC 8616(O128)、BC 8617(O26)、BC 8618(O86)、BC 8619、BC 8620、BC 8621、BC 8622、BC 8623、BC 8624(O158)和BC 8625(O158)。
[0316] 在一些实施例中,本公开还教示了工程改造志贺氏菌属(Shigella)生物体(包括弗氏志贺杆菌(Shigella flexneri)、痢疾志贺杆菌(Shigella dysenteriae)、鲍氏志贺杆菌(Shigella boydii)和索氏志贺杆菌(Shigella sonnei))的方法。
[0317] 本公开的其它适合宿主生物体包括棒状杆菌属的微生物。在一些实施例中,优选的棒状杆菌菌株/菌种包括:有效棒状杆菌(C.efficiens),寄存型菌株是DSM44549;谷氨酸棒状杆菌(C.glutamicum),寄存型菌株是ATCC13032;以及产氨棒状杆菌
(C.ammoniagenes),寄存型菌株是ATCC6871。在一些实施例中,本公开的优选宿主是谷氨酸棒状杆菌。
[0318] 棒状杆菌属(具体地说,谷氨酸棒状杆菌菌种)中的适合宿主菌株尤其是已知的野生型菌株:谷氨酸棒状杆菌ATCC13032、醋谷棒杆菌(Corynebacterium acetoglutamicum)
ATCC15806、醋麸酸棒状杆菌(Corynebacterium acetoacidophilum)ATCC13870、糖蜜棒状
杆菌(Corynebacterium melassecola)ATCC17965、产热氨棒状杆菌(Corynebacterium 
thermoaminogenes)FERM BP-1539、黄色短杆菌(Brevibacterium flavum)ATCC14067、乳酸发酵短杆菌(Brevibacterium lactofermentum)ATCC13869和分歧短杆菌(Brevibacterium 
divaricatum)ATCC14020;以及由其制备的产L-氨基酸突变体或菌株,例如产L-赖氨酸菌
株:谷氨酸棒状杆菌FERM-P 1709、黄色短杆菌FERM-P 1708、乳酸发酵短杆菌FERM-P 1712、谷氨酸棒状杆菌FERM-P 6463、谷氨酸棒状杆菌FERM-P 6464、谷氨酸棒状杆菌DM58-1、谷氨酸棒状杆菌DG52-5、谷氨酸棒状杆菌DSM5714和谷氨酸棒状杆菌DSM12866。
[0319] 对于谷氨酸棒状杆菌来说,术语“谷氨酸微球菌”也已在使用。菌种有效棒状杆菌的一些代表例在现有技术中也已称为产热氨棒状杆菌,如菌株FERM BP-1539。
[0320] 在一些实施例中,本公开的宿主细胞是真核细胞。适合的真核生物宿主细胞包括(但不限于):真菌细胞、藻类细胞、昆虫细胞、动物细胞和植物细胞。适合的真菌宿主细胞包括(但不限于):子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、半知菌门
(Deuteromycota)、接合菌门(Zygomycota)、不完全菌类(Fungi imperfecti)。某些优选的真菌宿主细胞包括酵母细胞和丝状真菌细胞。适合的丝状真菌宿主细胞包括例如真菌门
(Eumycotina)和卵菌门(Oomycota)亚门的任何丝状形式。(参见例如霍克索斯
(Hawksworth)等人,于恩索斯(Ainsworth)和毕丝巴(Bisby)的真菌词典,第8版,1995年,CAB国际,大学出版社,英国剑桥,该文献以引用的方式并入本文中)。丝状真菌的特征是营养菌丝体,其细胞壁由甲壳素、纤维素和其它复杂多糖组成。丝状真菌宿主细胞在形态上不同于酵母。
[0321] 在某些说明性但非限制性的实施例中,丝状真菌宿主细胞可以是以下菌种的细胞:霉属(Achlya)、枝顶孢属(Acremonium)、曲霉属(Aspergillus)、短梗霉属
(Aureobasidium)、烟管霉属(Bjerkandera)、拟蜡菌属(Ceriporiopsis)、头孢霉属
(Cephalosporium)、金孢霉属(Chrysosporium)、旋孢腔菌属(Cochliobolus)、棒囊壳属
(Corynascus)、隐丛赤壳属(Cryphonectria)、隐球酵母属(Cryptococcus)、鬼伞属
(Coprinus)、革盖菌属(Coriolus)、色二孢属(Diplodia)、内斯菌属(Endothis)、镰孢菌属(Fusarium)、赤霉属(Gibberella)、胶霉属(Gliocladium)、腐殖菌属(Humicola)、肉座菌属(Hypocrea)、毁丝菌属(Myceliophthora)(例如嗜热毁丝霉(Myceliophthora 
thermophila))、白霉菌属(Mucor)、红霉菌属(Neurospora)、青霉属(Penicillium)、柄孢壳属(Podospora)、射脉菌属(Phlebia)、瘤胃壶菌属(Piromyces)、梨胞霉属(Pyricularia)、根毛霉属(Rhizomucor)、根霉属(Rhizopus)、裂殖菌属(Schizophyllum)、革节孢属
(Scytalidium)、孢子丝菌属(Sporotrichum)、踝节菌属(Talaromyces)、嗜热子囊菌属
(Thermoascus)、梭孢壳霉属(Thielavia)、栓菌属(Tramates)、弯颈霉菌属
(Tolypocladium)、木霉属(Trichoderma)、轮枝孢属(Verticillium)、小包脚菇属
(Volvariella),或其有性世代或无性世代,以及其同义词或分类等效物。在一个实施例中,丝状真菌选自由以下组成的群组:构巢曲霉(A.nidulans)、米曲霉(A.oryzae)、酱油曲霉
(A.sojae),和黑曲霉(A.niger)群组的曲霉菌。在一个实施例中,丝状真菌是黑曲霉。
[0322] 在另一个实施例中,本文提供的方法和系统使用真菌物种的特定突变体。在一个实施例中,使用真菌物种的特定突变体,其适用于本文提供的高通量和/或自动化方法和系统。这类突变体的实例可以是原生质体保持非常好的菌株;主要或更偏向仅产生具有单一
细胞核的原生质体的菌株;在微量滴定盘中高效再生的菌株;再生更快的菌株和/或高效吸收聚核苷酸(例如DNA)分子的菌株;产生低粘度培养物的菌株,例如在培养液中产生菌丝的细胞,所述菌丝的缠结不会阻碍单一克隆的分离和/或提高培养物的粘度;随机整合减少的菌株(例如失能的非同源末端连接途径);或其组合。
[0323] 在又另一个实施例中,供本文所提供的方法和系统中使用的特定突变体菌株可以是缺乏可选标记基因的菌株,例如需要尿苷的突变体菌株。这些突变体菌株可以缺乏分别
由pyrG或pyrE基因编码的乳清酸核苷5磷酸脱羧酶(OMPD)或乳清酸磷酸化核糖基转移酶
(OPRT)(T.古森(T.Goosen)等人,现代遗传学,1987,11:499 503;J.贝格瑞特(J.Begueret)等人,基因,1984 32:487 92。
[0324] 在一个实施例中,供本文所提供的方法和系统中使用的特定突变体菌株是具有致密细胞形态的菌株,其特征为菌丝较短和更多酵母样外形。
[0325] 适合的酵母宿主细胞包括(但不限于):念珠菌属(Candida)、汉逊酵母属(Hansenula)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)、毕赤酵母属(Pichia)、克鲁维酵母属(Kluyveromyces)和耶氏酵母属(Yarrowia)。在一些实施例中,酵母细胞是多形汉逊酵母(Hansenula polymorpha)、酿酒酵母(Saccharomyces 
cerevisiae)、卡尔斯伯酵母(Saccaromyces carlsbergensis)、糖化酵母(Saccharomyces diastaticus)、洛本酵母(Saccharomyces norbensis)、克鲁维酵母(Saccharomyces 
kluyveri)、粟酒裂殖酵母(Schizosaccharomyces pombe)、甲醇酵母(Pichia pastoris)、芬兰毕赤酵母(Pichia finlandica)、嗜海藻糖毕赤酵母(Pichia trehalophila)、考达毕
赤酵母(Pichia kodamae)、膜醭毕赤酵母(Pichia membranaefaciens)、幸运毕赤酵母
(Pichia opuntiae)、耐热毕赤酵母(Pichia thermotolerans)、萨利毕赤酵母(Pichia 
salictaria)、松栎毕赤酵母(Pichia quercuum)、皮吉毕赤酵母(Pichia pijperi)、树干毕赤酵母(Pichia stipitis)、嗜甲醇毕赤酵母(Pichia methanolica)、安格斯毕赤酵母
(Pichia angusta)、乳酸克鲁维酵母(Kluyveromyces lactis)、白色念珠菌(Candida 
albicans)或解脂耶罗威亚酵母(Yarrowia lipolytica)。
[0326] 在某些实施例中,宿主细胞是藻类细胞,如衣藻属(Chlamydomonas)(例如莱茵衣藻(C.Reinhardtii))和席藻属(Phormidium)(席藻种ATCC29409)。
[0327] 在其它实施例中,宿主细胞是原核细胞。适合的原核生物细胞包括革兰氏阳性、革兰氏阴性和革兰氏变异性细菌细胞。宿主细胞可以是(但不限于)以下菌种:农杆菌属(Agrobacterium)、脂环酸芽孢杆菌属(Alicyclobacillus)、念珠藻属(Anabaena)、倒囊藻属(Anacystis)、不动杆菌属(Acinetobacter)、酸热菌属(Acidothermus)、节杆菌属
(Arthrobacter)、固氮菌属(Azobacter)、芽孢杆菌属(Bacillus)、双叉杆菌属
(Bifidobacterium)、短杆菌属(Brevibacterium)、丁酸弧菌属(Butyrivibrio)、布赫纳氏菌属(Buchnera)、野油菜(Campestris)、弯曲杆菌属(Camplyobacter)、梭菌属
(Clostridium)、棒状杆菌属(Corynebacterium)、红硫菌属(Chromatium)、粪球菌属
(Coprococcus)、埃希氏杆菌属(Escherichia)、肠球菌属(Enterococcus)、肠杆菌属
(Enterobacter)、欧文菌属(Erwinia)、梭杆菌属(Fusobacterium)、粪栖杆菌属
(Faecalibacterium)、弗朗西斯氏菌属(Francisella)、黄杆菌属(Flavobacterium)、土芽孢杆菌属(Geobacillus)、嗜血杆菌属(Haemophilus)、螺旋杆菌属(Helicobacter)、克雷伯氏菌属(Klebsiella)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、泥杆菌属
(Ilyobacter)、微球菌属(Micrococcus)、微杆菌属(Microbacterium)、中间根瘤菌属
(Mesorhizobium)、甲基杆菌属(Methylobacterium)、甲基杆菌属(Methylobacterium)、分枝杆菌属(Mycobacterium)、奈瑟菌属(Neisseria)、泛菌属(Pantoea)、假单胞菌属
(Pseudomonas)、原绿球藻属(Prochlorococcus)、红细菌属(Rhodobacter)、红假单胞菌属(Rhodopseudomonas)、红假单胞菌属(Rhodopseudomonas)、罗斯氏菌属(Roseburia)、红螺菌属(Rhodospirillum)、红球菌属(Rhodococcus)、栅列藻属(Scenedesmus)、链霉菌属
(Streptomyces)、链球菌属(Streptococcus)、聚球藻属(Synecoccus)、糖单孢菌属
(Saccharomonospora)、糖多孢菌属(Saccharopolyspora)、葡萄球菌属(Staphylococcus)、沙雷氏菌属(Serratia)、沙门氏菌属(Salmonella)、志贺杆菌属(Shigella)、嗜热厌氧杆菌属(Thermoanaerobacterium)、养障体(Tropheryma)、土拉热菌属(Tularensis)、蒂梅丘拉(Temecula)、嗜热聚球藻属(Thermosynechococcus)、热球菌属(Thermococcus)、脲原体属(Ureaplasma)、黄单胞菌属(Xanthomonas)、木杆菌属(Xylella)、耶尔森氏菌属(Yersinia)和发酵单胞菌属(Zymomonas)。在一些实施例中,宿主细胞是谷氨酸棒状杆菌。
[0328] 在一些实施例中,细菌宿主菌株是工业菌株。多种细菌工业菌株已知且适用于本文所述的方法和组合物中。
[0329] 在一些实施例中,细菌宿主细胞是农杆菌种(例如土壤放射杆菌(A.radiobacter)、发根农杆菌(A.rhizogenes)、悬钩子农杆菌(A.rubi))、节杆菌种(例如金黄节杆菌(A.aurescens)、柠檬节杆菌(A.citreus)、球形节杆菌(A.globformis)、裂谷氨酸节杆菌(A.hydrocarboglutamicus)、迈索尔节杆菌(A.mysorens)、烟草节杆菌
(A.nicotianae)、石蜡节杆菌(A.paraffineus)、畏光节杆菌(A.protophonniae)、玫瑰色石蜡节杆菌(A.roseoparaffinus)、硫磺节杆菌(A.sulfureus)、产脲节杆菌
(A.ureafaciens))、芽孢杆菌种(例如苏云金芽孢杆菌(B.thuringiensis)、炭疽芽孢杆菌
(B.anthracis)、巨大芽孢杆菌(B.megaterium)、枯草杆菌(B.subtilis)、迟缓芽胞杆菌
(B.lentus)、环状芽孢杆菌(B.circulars)、短小芽孢杆菌(B.pumilus)、灿烂芽孢杆菌
(B.lautus)、凝结芽孢杆菌(B.coagulans)、短小芽孢杆菌(B.brevis)、强固芽胞杆菌
(B.firmus)、嗜碱芽孢杆菌(B.alkaophius)、地衣芽孢杆菌(B.licheniformis)、克劳氏芽孢杆菌(B.clausii)、嗜热脂肪芽孢杆菌(B.stearothermophilus)、耐盐嗜碱芽孢杆菌
(B.halodurans)和解淀粉芽孢杆菌(B.amyloliquefaciens)。在特定实施例中,宿主细胞是工业芽孢杆菌属菌株,包括(但不限于)枯草杆菌、短小芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、克劳氏芽孢杆菌、嗜热脂肪芽孢杆菌和解淀粉芽孢杆菌。在一些实施例中,宿主细胞是工业梭菌属菌种(例如丙酮丁醇梭菌(C.acetobutylicum)、破伤梭菌E88(C.tetani 
E88)、象牙海岸梭菌(C.lituseburense)、糖丁酸梭菌(C.saccharobutylicum)、产气荚膜梭菌(C.perfringens)、拜氏梭菌(C.beijerinckii))。在一些实施例中,宿主细胞是工业棒状杆菌属菌种(例如谷氨酸棒状杆菌(C.glutamicum)、嗜乙酰乙酸棒状杆菌
(C.acetoacidophilum))。在一些实施例中,宿主细胞是工业埃希氏杆菌属菌种(例如大肠
杆菌)。在一些实施例中,宿主细胞是工业欧文菌属(Erwinia)菌种(例如噬夏孢欧文菌
(E.uredovora)、胡萝卜软腐欧文菌(E.carotovora)、菠萝欧文氏菌(E.ananas)、草生欧文菌(E.herbicola)、点状欧文菌(E.punctata)、土生欧文菌(E.terreus))。在一些实施例中,宿主细胞是工业泛菌属菌种(例如柠檬泛菌(P.citrea)、成团泛菌(P.agglomerans))。在一些实施例中,宿主细胞是工业假单胞菌属(Pseudomonas)菌种(例如恶臭假单胞菌
(P.putida)、绿假单胞菌(P.aeruginosa)、迈氏假单胞菌(P.mevalonii))。在一些实施例中,宿主细胞是工业链球菌属菌种(例如类马链球菌(S.equisimiles)、酿脓链球菌
(S.pyogenes)、乳房链球菌(S.uberis))。在一些实施例中,宿主细胞是工业链霉菌属
(Streptomyces)菌种(例如产二素链霉菌(S.ambofaciens)、不产色链霉菌
(S.achromogenes)、除虫链霉菌(S.avermitilis)、天蓝色链霉菌(S.coelicolor)、金霉素链霉菌(S.aureofaciens)、金黄色葡萄球菌(S.aureus)、杀真菌素链霉菌
(S.fungicidicus)、灰色链霉菌(S.griseus)、变铅青链霉菌(S.lividans))。在一些实施例中,宿主细胞是工业发酵单胞菌属(Zymomonas)菌种(例如运动发酵单胞菌(Z.mobilis)、解脂发酵单胞菌(Z.lipolytica)),和其类似菌种。
[0330] 本公开还适合与多种动物细胞类型一起使用,包括哺乳动物细胞,例如人(包括293、WI38、PER.C6和Bowes黑色素瘤细胞)、小鼠(包括3T3、NS0、NS1、Sp2/0)、仓鼠(CHO、BHK)、猴(COS、FRhL、Vero)和融合瘤细胞系。
[0331] 在各种实施例中,可以用于实施本公开的菌株(包括原核和真核菌株)容易公开获自多个培养物保藏中心,如美国菌种保藏中心(American Type Culture Collection,
ATCC)、德国微生物菌种保藏中心(Deutsche Sammlung von Mikroorganismen and 
Zellkulturen GmbH,DSM)、荷兰微生物菌种保藏中心(Centraalbureau Voor 
Schimmelcultures,CBS)以及美国农业研究菌种保藏中心(Agricultural Research 
Service Patent Culture Collection,Northern Regional Research Center(NRRL))。
[0332] 在一些实施例中,本公开的方法还适用于多细胞生物体。举例来说,所述平台可以用于改良农作物的性能。生物体可以包含多种植物,如禾本亚目(Gramineae)、非突亚科(Fetucoideae)、颇考亚科(Poacoideae)、剪股颖属(Agrostis)、梯牧草属(Phleum)、鸡脚茅属(Dactylis)、高粱(Sorgum)、狗尾草属(Setaria)、玉蜀黍属(Zea)、稻属(Oryza)、小麦属(Triticum)、黑麦属(Secale)、燕麦属(Avena)、大麦属(Hordeum)、蔗属(Saccharum)、早熟禾属(Poa)、羊茅属(Festuca)、钝叶草属(Stenotaphrum)、狗牙根属(Cynodon)、薏苡属
(Coix)、莪利竹族(Olyreae)、原禾族(Phareae)、菊科(Compositae)或豆科(Leguminosae)。
举例来说,植物可以是玉米、稻米、大豆、棉花、小麦、黑麦、燕麦、大麦、豌豆、菜豆、小扁豆、花生、地瓜、豇豆、绒毛豆、三叶草、苜蓿、羽扇豆、野豌豆、莲藕、草木樨、紫藤、香豌豆、高粱、小米、葵花、芥花或其类似物。类似地,生物体可以包括多种动物,如非人类哺乳动物、鱼、昆虫或其类似物。
[0333] 产生基因多样性池供基因设计和HTP微生物工程平台使用
[0334] 在一些实施例中,本公开的方法的特征为基因设计。如本文所用,术语基因设计是指通过鉴别和选择特定基因的最佳变异体、基因的一部分、启动子、终止密码子、5'UTR、3'UTR或其它DNA序列来重建或改变宿主生物体基因组,以设计和产生新的优良宿主细胞。
[0335] 在一些实施例中,本公开的基因设计方法中的第一步骤是获得具有多种序列变异的初始基因多样性池群体,由此群体可以重建新的宿主基因组。
[0336] 在一些实施例中,本文所教示的基因设计方法中的后续步骤将使用前述HTP分子工具集(例如SNP交换或启动子交换或转座子诱变)中的一或多种构筑HTP基因设计文库,所
述HTP基因设计文库接着通过提供用于在宿主细胞中测试的特定基因组变异文库来充当基
因组工程学方法的驱动器。
[0337] 利用来自现有野生型菌株的多样性池
[0338] 在一些实施例中,本公开教示了用于鉴别所指定野生型群体的微生物间所存在的序列多样性的方法。因此,可以将分析所用的野生型微生物的指定种数n赋予多样性池,其中所述微生物基因组代表“多样性池”。
[0339] 在一些实施例中,多样性池可以是所述野生型微生物间的天然基因变异所存在的现有多样性的结果。这种变异可以由所指定宿主细胞的菌株变异体产生或可以是作为完全
不同物种的微生物所产生。基因变异可以包括菌株基因序列的任何差异,不论天然存在或
不存在。在一些实施例中,基因变异可以包括SNP交换、PRO交换、起始/终止密码子交换,或STOP交换等。
[0340] 利用来自现有工业菌株变异体的多样性池
[0341] 在本公开的其它实施例中,多样性池是在传统菌株改良过程中所产生的菌株变异体(例如通过随机突变而产生且选用于多年来提高产量的一或多种宿主生物体菌株)。因
此,在一些实施例中,多样性池或宿主生物体可以包含历史性生产菌株的集合。
[0342] 在特定方面,多样性池可以是原始亲代微生物菌株(S1),其在特定时间点具有“基线”基因序列(S1Gen1);且接着是衍生/开发自所述S1菌株的任何数目个后续子代菌株(S2、S3、S4、S5等,可归纳为S2-n),其相对于S1的基线基因组,具有不同基因组(S2-nGen2-n)。
[0343] 举例来说,在一些实施例中,本公开教示了对多样性池中的微生物基因组进行测序以鉴别每种菌株中存在的SNP。在一个实施例中,多样性池中的菌株是历史上的微生物生产菌株。因此,本公开的多样性池可以包括例如工业基本菌株,和通过传统菌株改良程序所产生的一或多种突变型工业菌株。
[0344] 鉴别出多样性池中的所有SNP后,本公开教示了用SNP交换方法和筛选方法描绘(即,量化和表征)个别和群组中的SNP的效应(例如所关注的表型的产生)。因此,如前所述,所教示平台中的初始步骤可以获得具有多种序列变异(例如SNP)的初始基因多样性池群
体。接着,所教示平台中的后续步骤可以使用一或多种前述HTP分子工具集(例如SNP交换)
构筑HTP基因设计文库,其接着通过提供用于在微生物中测试的特定基因组变异文库来充
当基因组工程学方法的驱动器。
[0345] 在一些实施例中,本公开的SNP交换方法包含将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴别的一或多种SNP引入基本菌株(S1Gen1)或野生型菌株的步骤(“向上波动”)。
[0346] 在其它实施例中,本公开的SNP交换方法包含将突变型菌株(例如来自S2-nGen2-n的菌株)中所鉴别的一或多种SNP去除的步骤。
[0347] 通过突变诱发来产生多样性池
[0348] 在一些实施例中,所指定多样性池细胞群中的所关注突变能够利用使菌株发生突变的任何方式(包括突变诱发化学品或辐射)人工产生。术语“突变诱发”在本文中用于指一种诱导细胞核酸材料发生一或多种基因修饰的方法。
[0349] 术语“基因修饰”是指DNA的任何改变。代表性基因修饰包括核苷酸插入、缺失、取代以及其组合,且可以小如单个碱基或大如数万个碱基。因此,术语“基因修饰”涵盖核苷酸序列的倒位和其它染色体重排,借此改变包含染色体区域的DNA的位置或取向。染色体重排可以包含染色体内重排或染色体间重排。
[0350] 在一个实施例中,本公开标的中所用的突变诱发方法基本上是随机的,以便基因修饰能够在待诱变的核酸材料内的任何可利用核苷酸位置发生。换句话说,在一个实施例
中,突变诱发不展示在特定核苷酸序列处发生的偏好或频率增加。
[0351] 本公开的方法可以使用任何突变诱发剂,包括(但不限于):紫外光、X射线辐射、γ辐射、N-乙基-N-亚硝基脲(ENU)、甲基亚硝基脲(MNU)、丙卡巴肼(procarbazine)(PRC)、三亚乙基三聚氰胺(TEM)、丙烯酰胺单体(AA)、苯丁酸氮芥(CHL)、美法仑(MLP)、环磷酰胺(CPP)、硫酸二乙酯(DES)、甲烷磺酸乙酯(EMS)、甲烷磺酸甲酯(MMS)、6-巯基嘌呤(6-MP)、丝裂霉素-C(MMC)、N-甲基-N'-硝基-N-亚硝基胍(MNNG)、3H2O和氨基甲酸酯(UR)(参见例如林奇克(Rinchik),1991;马克(Marker)等人,1997;和拉塞尔(Russell),1990)。其它突变诱发剂已为所属领域中的技术人员所熟知,包括http://www.iephb.nw.ru/~spirov/hazard/
mutagen_lst.html中所述的那些。
[0352] 术语“突变诱发”还涵盖了用于改变(例如通过靶向突变)或调节细胞功能、借此增强突变诱发速率、质量或程度的方法。举例来说,可以改变或调节细胞,借此使其在DNA修复、诱变剂代谢、诱变剂敏感性、基因组稳定性或其组合方面出现功能异常或缺陷。因此,通常维持基因组稳定性的基因功能的干扰可以用于增强突变诱发。干扰的代表性目标包括(但不限于)DNA连接酶I(本特雷(Bentley)等人,2002)和酪蛋白激酶I(美国专利第6,060,
296号)。
[0353] 在一些实施例中,利用定点突变诱发(例如使用市购试剂盒(如Transformer定点突变诱发试剂盒(克隆科技公司))进行的引物定向突变诱发)在整个核酸序列中产生多种
变化,以便产生编码裂解酶的本公开核酸。
[0354] 暴露于一或多种突变诱发剂后发生基因修饰的频率可以通过改变处理剂量和/或重复次数来调节,且可以根据特定应用来定制。
[0355] 因此,在一些实施例中,如本文所用,“突变诱发”包含所属领域中已知的用于诱导突变的所有技术,包括易错PCR突变诱发、寡核苷酸定向突变诱发、定点突变诱发,以及利用本文所述的任何技术进行的迭代序列重组。
[0356] 产生多样性的单一基因座突变
[0357] 在一些实施例中,本公开教示了通过引入、缺失或置换基因组DNA的所选部分来使细胞群发生突变。因此,在一些实施例中,本公开教示了使突变对准特定基因座的方法。在其它实施例中,本公开教示了利用基因编辑技术(如ZFN、TALENS或CRISPR)选择性地编辑目标DNA区域。
[0358] 在其它实施例中,本公开教示了使宿主生物体外部的所选DNA区域发生突变且接着将突变序列插回到宿主生物体中。举例来说,在一些实施例中,本公开教示了使原生或合成启动子发生突变,以产生具有各种表达特性的一系列启动子变异体(参见下文的启动子
梯)。在其它实施例中,本公开与单基因优化技术兼容,如ProSAR(福克斯(Fox)等人,2007,“通过ProSAR驱动型酶演变来改良催化功能(Improving catalytic function by ProSAR-
driven enzyme evolution)”,自然生物技术(Nature Biotechnology)第25卷(3)338-343,所述文献以引用的方式并入本文中)。
[0359] 在一些实施例中,DNA的所选区域是在试管内通过天然变异体的基因改组或用合成寡核苷酸改组、质体-质体重组、病毒质体重组、病毒-病毒重组来产生。在其它实施例中,基因组区域是通过易错PCR产生(参见例如图1)。
[0360] 在一些实施例中,在所选基因区域中产生突变是利用“再组装PCR”完成。简单来说,合成寡核苷酸引物(寡核苷酸)用于对所关注的核酸序列区段进行PCR扩增,以便寡核苷酸的序列叠覆两个区段的接合点。叠覆区域的长度典型地是约10到100个核苷酸。所述区段各自用一组这样的引物扩增。接着根据组装方案“再组装”PCR产物。简单来说,在组装方案中,首先通过例如凝胶电泳或尺寸排阻色谱而从引物中提纯PCR产物。将提纯的产物混合在一起且在聚合酶和三磷酸脱氧核苷(dNTP's)和适当缓冲盐存在下、在缺乏额外引物的情况
下(“自引导”)经历约1-10个循环的变性、再粘接和延伸。利用后续PCR(以引物侧接基因)扩增经完整再组装和改组的基因的产量。
[0361] 在本公开的一些实施例中,突变的DNA区域(如上文所论述的那些)中富集了突变序列,从而更高效地对多个突变范围(即,可能的突变组合)取样。在一些实施例中,通过
mutS蛋白质亲和基质(瓦格纳(Wagner)等人,核酸研究23(19):3944-3948(1995);苏(Su)等人,美国国家科学院院刊,83:5057-5061(1986))鉴别突变序列,其中优选在组装反应之前进行试管内扩增亲和性提纯材料的步骤。接着使此扩增材料进行组装或再组装PCR反应,如本申请的后续部分中所述。
[0362] 启动子梯
[0363] 启动子调节基因转录速率且可以通过多种方式影响转录。举例来说,不论内部或外部细胞条件,组成性启动子均引导其关联基因按恒定速率转录,而可调节启动子增加或
降低基因转录的速率却取决于内部和/或外部细胞条件,例如生长速率、温度、对特定环境化学品的响应和其类似条件。启动子可以从其正常细胞情境中分离出来且经工程改造可调
节几乎任何基因的表达,从而能够有效修改细胞生长、产物产量和/或所关注的其它表型。
[0364] 在一些实施例中,本公开教示了用于产生启动子梯文库以供下游基因设计方法使用的方法。举例来说,在一些实施例中,本公开教示了鉴别一或多种启动子和/或在宿主细胞内产生一或多种启动子的变异体的方法,其展现了一系列表达强度或优良的调节特性。
已鉴别和/或产生的这些启动子的特定组合可以归入同类作为启动子梯,下文将更详细地
解释。
[0365] 在一些实施例中,本公开教示了启动子梯的使用。在一些实施例中,本公开的启动子梯包含展现连续系列的表达谱的启动子。举例来说,在一些实施例中,通过鉴别响应于刺激而展现一系列表达强度的天然、原生或野生型启动子,或通过组成性表达来产生启动子梯(参见例如图12和图17-19)。这些已鉴别的启动子可以归入同类作为启动子梯。
[0366] 在其它实施例中,本公开教示了启动子梯的产生,所述启动子梯跨越不同条件展现了一系列表达谱。举例来说,在一些实施例中,本公开教示了启动子梯的产生,所述启动子梯具有在发酵的不同阶段期间扩散的表达峰(参见例如图17)。在其它实施例中,本公开
教示了启动子梯的产生,其具有响应于特定刺激的不同表达峰动力学(参见例如图18)。所
属领域的技术人员应明白,本公开的调节性启动子梯可以代表任一或多种调节曲线。
[0367] 在一些实施例中,本公开的启动子梯经设计以可预测的方式、跨越响应的连续范围扰动基因表达。在一些实施例中,启动子梯的连续性质赋予菌株改良程序额外的预测能
力。举例来说,在一些实施例中,所选代谢途径的交换启动子或终止序列可以产生宿主细胞性能曲线,其鉴别最佳表达率或表达谱;产生如下菌株,其中靶向基因不再是特定反应或基因级联的限制因素,同时还避免了在不适当情形下发生的不必要过度表达或错误表达。在
一些实施例中,启动子梯如下产生:鉴别展现所期望曲线的天然、原生或野生型启动子。在其它实施例中,通过使天然存在的启动子发生突变以衍生多种突变启动子序列来产生启动
子梯。测试这些突变启动子中的每一种对靶基因表达的影响。在一些实施例中,测试所编辑的启动子跨越多种条件的表达活性,以便记录/表征/注释每种启动子变异体的活性且存储
于数据库中。随后将所得经编辑的启动子变异体组织成基于其表达强度而排列的启动子梯
(例如高表达性变异体靠近顶部,且减弱的表达靠近底部,因此产生术语“梯”)。
[0368] 在一些实施例中,本公开教示了启动子梯是已鉴别的天然存在的启动子与突变变异体启动子的组合。
[0369] 在一些实施例中,本公开教示了鉴别满足以下准则的天然、原生或野生型启动子的方法:1)呈现为组成性启动子梯;和2)可以由短DNA序列(理想的是,小于100个碱基对)编码。在一些实施例中,本公开的组成性启动子展现跨越两种所选生长条件(典型地在工业培育期间所经历的条件间进行比较)的恒定基因表达。在一些实施例中,本公开的启动子将由约60个碱基对核心启动子和长度在26个碱基对与40个碱基对之间的5'UTR组成。
[0370] 在一些实施例中,选择前述已鉴别的天然存在的启动子序列中的一或多种用于基因编辑。在一些实施例中,通过上文所述的任一种突变方法编辑天然启动子。在其它实施例中,本公开的启动子是通过合成具有所期望序列的新启动子变异体来编辑。
[0371] 2015年12月07日提交的美国专利申请第62/264,232号的整个公开内容以全文引用的方式并入本文中用于所有目的。
[0372] 本公开启动子的非详尽性清单提供于下表1中。启动子序列各自可以称为异源启动子或异源启动子聚核苷酸。
[0373] 表1.本公开的所选启动子序列.
[0374]SEQ ID No. 启动子简称 启动子名称
1 P1 Pcg0007_lib_39
2 P2 Pcg0007
3 P3 Pcg1860
4 P4 Pcg0755
5 P5 Pcg0007_265
6 P6 Pcg3381
7 P7 Pcg0007_119
8 P8 Pcg3121
[0375] 在一些实施例中,本公开的启动子展现与来自上表1的启动子至少100%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、
83%、82%、81%、80%、79%、78%、77%、76%或75%的序列一致性。
[0376] 终止子梯
[0377] 在一些实施例中,本公开教示了通过在RNA编码元件末端的3'位置提供一或多种转录终止序列来改良经基因工程改造的宿主菌株的方法。在一些实施例中,本公开教示了
添加终止序列使所选基因在经基因工程改造的宿主中的RNA转录效率提高。在其它实施例
中,本公开教示了添加终止序列使所选基因在经基因工程改造的宿主中的RNA转录效率降
低。因此在一些实施例中,本公开的终止子梯包含展现一系列转录效率的一系列终止序列
(例如一个弱终止子、一个普通终止子和一个强启动子)。
[0378] 转录终止序列可以是任何核苷酸序列,其当以转录方式放置于编码开放阅读框架的核苷酸序列的下游时,促使开放阅读框架的转录终止。这类序列在所属领域中已知且可
以具有原核、真核或噬菌体来源。终止序列的实例包括(但不限于)PTH终止子、pET-T7终止子、 终止子、pBR322-P4终止子、水疱性口炎病毒终止子、rrnB-T1终止子、rrnC终止
子、TTadc转录终止子,以及酵母识别的终止序列,如Matα(α因子)转录终止子、原生α因子转录终止序列、ADR1转录终止序列、ADH2转录终止序列和GAPD转录终止序列。转录终止序列的非详尽性清单可以见于iGEM注册表,其可获得于:http://partsregistry.org/
Terminators/Catalog。
[0379] 在一些实施例中,转录终止序列可以具有聚合酶特异性或非特异性,然而,选用于本公开实施例中的转录终止子应该与所选启动子形成‘功能性组合’,这意味着终止子序列应该能够通过在启动子起始的RNA聚合酶类型来终止转录。举例来说,在一些实施例中,本公开教示了真核RNA pol II启动子和真核RNA pol II终止子、T7启动子和T7终止子、T3启动子和T3终止子、酵母识别的启动子和酵母识别的终止序列等通常会形成功能性组合。所
用转录终止序列的一致性也可以基于终止从所指定启动子转录的效率来选择。举例来说,
异源转录终止子序列可以转录方式提供于RNA编码元件的下游,以实现从所指定启动子开
始的至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%的终止效率。
[0380] 在一些实施例中,从经工程改造的表达构筑体开始的RNA转录的效率可以通过在RNA编码元件末端的3'位置提供呈包含两个或更多个发夹的二级结构形式的核酸序列来提
高。不希望受到特定理论的束缚,二级结构使转录延伸复合物失去稳定且使得聚合酶从DNA模板中解离,借此使非功能序列的非生产性转录最小化且增加所期望RNA的转录。相应地,可以提供形成包含两个或更多个相邻发夹的二级结构的终止序列。一般来说,发夹可以由
回文核苷酸序列形成,所述回文核苷酸序列可以自身折回而形成成对的茎区域,所述茎区
域的臂通过单链环来连接。在一些实施例中,终止序列包含2、3、4、5、6、7、8、9、10个或更多个相邻发夹。在一些实施例中,相邻发夹相隔0、1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个不成对核苷酸。在一些实施例中,发夹茎包含4、5、6、7、8、9、10、11、12、13、14、15、16、17、
18、19、20、21、22、23、24、25、26、27、28、29、30个或更多个碱基对的长度。在某些实施例中,发夹茎长度是12到30个碱基对。在某些实施例中,终止序列包含两个或更多个中等尺寸的
发夹,其具有包含约9到25个碱基对的茎区域。在一些实施例中,发夹包含1、2、3、4、5、6、7、
8、9或10个核苷酸的成环区域。在一些实施例中,成环区域包含4-8个核苷酸。不希望受到特定理论的束缚,二级结构的稳定性可以与终止效率相关。发夹稳定性由其长度、其所含的错配或凸起数目以及成对区域的碱基组成决定。鸟嘌呤与胞嘧啶之间的配对具有三个氢键且
比仅具有两个氢键的腺嘌呤-胸腺嘧啶对更稳定。形成发夹的回文核苷酸序列的G/C含量可
以是至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或更多。在一些实施例中,形成发夹的回文核苷酸序列的G/C含量是至少80%。在一些实施例中,终止序列来源于具有原核、真核或噬菌体来源的一或多种转录终止序列。在一些实施例中,编码一系列4、5、6、7、8、9、10个或更多个腺嘌呤(A)的核苷酸序列提供于终止序列的3'。
[0381] 在一些实施例中,本公开教示了一系列串联终止序列的使用。在一些实施例中,一系列2、3、4、5、6、7个或更多个中的第一转录终止子序列可以直接放置于dsRNA编码元件的最后核苷酸的3'或与dsRNA编码元件的最后核苷酸的3'相隔至少1-5、5-10、10-15、15-20、20-25、25-30、30-35、35-40、40-45、45-50、50-100、100-150、150-200、200-300、300-400、
400-500、500-1,000或更多个核苷酸的距离。串联转录终止子序列之间的核苷酸数目可以
变化,例如,转录终止子序列可以相隔0、1、2、3、4、5、6、7、8、9、10、10-15、15-20、20-25、25-
30、30-35、35-40、40-45、45-50或更多个核苷酸。在一些实施例中,转录终止子序列可以基于其预测的二级结构(如根据结构预测算法所测定)来选择。结构预测程序在所属领域中是
众所周知的且包括例如CLC主工作台
[0382] 所属领域中的技术人员将认识到本公开的方法与任何终止序列兼容。在一些实施例中,本公开教示了使用如以下文献中所公开的经注释的谷氨酸棒状杆菌终止子:普法伊
费尔-桑卡(Pfeifer-Sancar)等人,2013,“使用改良的RNAseq技术对谷氨酸棒状杆菌转录组的综合分析(Comprehensive analysis of the Corynebacterium glutamicum 
transcriptome using an improved RNAseq technique)”普法伊费尔-桑卡等人,BMC基因组学(BMC Genomics)2013,14:888)。在其它实施例中,本公开教示了使用iGEM注册表中所
发现的转录终止子序列,所述iGEM注册表可获得于:http://partsregistry.org/
Terminators/Catalog。本公开的转录终止子序列的非详尽性清单提供于下表1.1中。
[0383] 表1.1.本公开的终止序列的非详尽性清单.
[0384]
[0385]
[0386]
[0387]
[0388] 假设驱动型多样性池和爬山法
[0389] 本公开的HTP基因组工程学方法不需要先验基因了解来实现宿主细胞性能的显著增加。的确,本公开教示了通过功能上不可知的若干种途经产生多样性池的方法,所述途经包括随机突变诱发和鉴别预先存在的宿主细胞变异体间的基因多样性(例如,如在野生型
宿主细胞与工业变异体之间作出的比较)。
[0390] 然而,在一些实施例中,本公开还教示了假设驱动型设计基因多样性突变的方法,所述多样性突变将用于下游HTP工程。即,在一些实施例中,本公开教示了所选突变的定向设计。在一些实施例中,将定向突变并入本公开的工程文库(例如SNP交换、PRO交换或STOP交换)中。
[0391] 在一些实施例中,本公开教示了基于基因注释、假设(或证实)的基因功能或基因组内的位置来产生定向突变。本公开的多样性池可以包括基因中的假设涉及特定代谢或基
因途径的突变,所述特定代谢或基因途径在文献中与宿主细胞的性能增强相关。在其它实
施例中,本公开的多样性池还可以包括存在于操纵子中的与改良的宿主性能相关的基因突
变。在又其它实施例中,本公开的多样性池还可以包括基于算法预测函数或其它基因注释
的基因突变。
[0392] 在一些实施例中,本公开教示了用于对假设驱动型突变的目标进行优先级排序的基于“壳”的方法。目标优先级排序的壳隐喻是基于如下假设:仅少数初始基因负责宿主细胞性能的大部分特定方面(例如单一生物分子的产生)。这些初始基因位于壳的核心处,继
之为第二层的二级效应基因、第三壳中的三级效应以及...等。举例来说,在一个实施例中,壳的核心可以包含编码所选代谢途径(例如柠檬酸的产生)内的关键生物合成酶的基因。位
于第二壳上的基因可以包含编码生物合成途径内的其它酶的基因,其负责产物转移或反馈
信号传导。依据此说明性隐喻的第三层基因可能会包含调节基因,其负责调节生物合成途
径的表达或用于调节宿主细胞内的一般碳通量。
[0393] 本公开还教示了用于优化每种已鉴别突变所引起的性能增加的“爬山”方法。在一些实施例中,本公开教示了HTP多样性文库中的随机、天然或假设驱动型突变可以实现与宿主细胞性能相关的基因的鉴别。举例来说,本公开方法可以鉴别位于基因编码序列上或靠近基因编码序列的一或多种有益SNP。此基因可能与宿主细胞性能相关,且可以将其鉴别类比为在生物体的组合性基因突变空间中发现性能“山”。
[0394] 在一些实施例中,本公开教示了探究围绕以SNP突变体现的已鉴别山的组合空间的方法。即,在一些实施例中,本公开教示了扰动已鉴别的基因和相关调节序列以便优化由那个基因节点(即,爬山)获得的性能增加。因此,根据本公开的方法,首先可以在来源于随机突变诱发的多样性文库中鉴别出基因,但是随后可以通过相同基因内的另一序列的定向
突变加以改良供菌株改良程序使用。
[0395] 还可以扩展爬山构思而超越围绕单一基因序列的组合空间的探究。在一些实施例中,特定基因中的突变可以揭露特定代谢或基因途径对于宿主细胞性能的重要性。举例来
说,在一些实施例中,单一RNA降解基因中的突变引起宿主性能显著增加的发现可以用作使相关RNA降解基因发生突变的依据,这成为从宿主生物体提取额外性能增益的方式。所属领域中的技术人员将上述壳和爬山方法对于定向基因设计而言存在变化形式。高通量筛选。
[0396] 细胞培养和发酵
[0397] 本公开的细胞可以在适当时经修改的传统营养培养基中培养用于任何所期望的生物合成反应或选择。在一些实施例中,本公开教示了在诱导型培养基中培养用于活化启
动子。在一些实施例中,本公开教示了具有选择剂的培养基,所述选择剂包括转化体选择剂(例如抗生素),或选择适合于在抑制条件(例如高乙醇条件)下生长的生物体。在一些实施
例中,本公开教示了使细胞培养物在中针对细胞生长优化的培养基中生长。在其它实施例
中,本公开教示了使细胞培养物在针对产物产量优化的培养基中生长。在一些实施例中,本公开教示了使培养物在培养基中生长,所述培养基能够诱导细胞生长并且还含有最终产物
产生所需的前体(例如高含量的糖类用于产生乙醇)。
[0398] 培养条件(如温度、pH和其类似条件)是适合与选用于表达的宿主细胞联合使用的那些条件,且对于所属领域的技术人员是显而易见的。如所提及,许多参考文献可供用于培养和产生许多细胞,包括细菌、植物、动物(包括哺乳动物)和古细菌来源的细胞。参见例如萨布鲁克(Sambrook),奥斯贝(Ausubel)(所有均见上文)以及伯杰(Berger),分子克隆技术指南(Guide to Molecular Cloning Techniques),酶学方法(Methods in Enzymology),
第152卷,学术出版社有限公司(Academic Press,Inc.),加利福尼亚州圣地亚哥(San 
Diego,CA);以及弗瑞旭尼(Freshney)(1994),动物细胞的培养:基本技术手册(Culture of Animal Cells,a Manual of Basic Technique),第三版,纽约威立-利斯(Wiley-Liss,New York)和其中引用的参考文献;多伊尔(Doyle)和格里菲思(Griffiths)(1997),哺乳动物细胞培养:基本技术(Mammalian Cell Culture:Essential Techniques),约翰·威利父子出
版公司(John Wiley and Sons),NY;忽玛逊(Humason)(1979),动物组织技术(Animal 
Tissue Techniques),第四版,W.H.弗里曼公司(W.H.Freeman and Company);以及里奇埃德尔(Ricciardelle)等人,(1989),试管内细胞(In Vitro Cell),发育生物学(Dev.Biol.)
25:1016-1024,所有文献均以引用的方式并入本文中。关于植物细胞培养和再生,参见派恩(Payne)等人(1992),液体系统中的植物细胞和组织培养(Plant Cell and Tissue 
Culture in Liquid Systems),约翰·威利父子公司(John Wiley&Sons,Inc.),纽约州纽
约市;冈堡(Gamborg)和菲利浦(Phillips)(编)(1995),植物细胞、组织和器官培养:基本方法(Plant Cell,Tissue and Organ Culture;Fundamental Methods),施普林格实验室手
册(Springer Lab Manual),施普林格出版社(Springer-Verlag)(柏林海德堡,纽约);琼斯(Jones)编(1984),植物基因转移和表达方案(Plant Gene Transfer and Expression 
Protocols),胡马纳出版社(Humana Press),新泽西州特图瓦市(Totowa,N.J.),以及植物分子生物学(Plant Molecular Biology)(1993)R.R.D.克洛(R.R.D.Croy)编,生物科学出
版社(Bios Scientific Publishers),英国牛津(Oxford,U.K.)ISBN 0 12 198370 6,所有文献均以引用的方式并入本文中。细胞培养基一般性地阐述于阿特拉斯(Atlas)和帕克斯
(Parks)(编),微生物培养基手册(The Handbook of Microbiological Media)(1993)CRC
出版社,佛罗里达州波卡拉顿(Boca Raton,Fla.),所述文献以引用的方式并入本文中。用于细胞培养的额外信息见于可获得的商业文献中,如得自西格玛-奥德里奇公司(Sigma-
Aldrich,Inc)(密苏里州圣路易(St Louis,Mo.))的生命科学研究细胞培养目录(Life 
Science Research Cell Culture Catalogue)(“西格马-LSRCCC”)以及例如也得自西格
玛-奥德里奇公司(密苏里州圣路易)的植物培养目录和增刊(The Plant  Culture 
Catalogue and supplement)(“西格马-PCCS”),所述文献都以引用的方式并入本文中。
[0399] 待用的培养基必须以适合方式满足相应菌株的需求。用于各种微生物的培养基的描述存在于美国细菌学学会(American Society for Bacteriology)(美国华盛顿哥伦比
亚特区,1981)的“通用细菌学方法手册(Manual of  Methods  for  General 
Bacteriology)”中。
[0400] 本公开另外提供一种发酵制备所关注产物的方法,包含以下步骤:a)将根据本公开的微生物在适合培养基中培养,从而产生发酵液;和b)将a)和/或微生物细胞的发酵液中的所关注产物浓缩。
[0401] 在一些实施例中,本公开教示了所产生的微生物可以如例如WO 05/021772所述连续地培养,或用分批法(分批培育)或分批进料或重复分批进料法不连续培养,以便产生所
期望的有机化合物。关于已知培育方法的通用性质的概述可获得于Chmiel的教科书
(Bioprozeβtechnik.1:Einführung in die Bioverfahrenstechnik(Gustav Fischer 
Verlag,Stuttgart,1991))或Storhas的教科书(Bioreaktoren和periphere 
Einrichtungen(Vieweg Verlag,Braunschweig/Wiesbaden,1994))。
[0402] 在一些实施例中,本公开的细胞是在分批或连续发酵条件下生长。
[0403] 经典的分批发酵是一种封闭系统,其中在发酵开始时设定培养基的组成且在发酵期间不进行人工改变。分批系统的变化形式是分批进料发酵,其也可用于本公开中。在这种变化形式中,随着发酵进展,按增量添加底物。当代谢物抑制可能会抑制细胞代谢时且在期望培养基中的底物的量有限的情况下,分批进料系统是适用的。分批和分批进料发酵是所
属领域中常见且众所周知的。
[0404] 连续发酵是一种系统,其中将所定义的发酵培养基连续地添加到生物反应器中且同时移出等量的改良性培养基以供处理和收获所关注的期望生物分子产物。在一些实施例
中,连续发酵通常使培养物在恒定的高密度下维持,其中细胞主要处于对数生长期。在一些实施例中,连续发酵通常使培养物维持稳定期或对数后期/稳定期生长。连续发酵系统力求维持稳态生长条件。
[0405] 连续发酵工艺中用于调节营养物和生长因子的方法以及使产物形成速率最大化的技术在工业微生物学领域中是众所周知的。
[0406] 举例来说,本公开的培养物的碳源的非限制性清单包括糖类和碳水化合物,例如葡萄糖、蔗糖、乳糖、果糖、麦芽糖、糖蜜、得自甜菜或甘蔗处理的含蔗糖溶液、淀粉、淀粉水解产物和纤维素;油和脂肪,例如大豆油、葵花油、花生油和椰子脂肪;脂肪酸,例如棕榈酸、硬脂酸和亚油酸;醇类,例如甘油、甲醇和乙醇;以及有机酸,例如乙酸或乳酸。
[0407] 用于本公开的培养物的氮源的非限制性清单包括含有机氮化合物,如蛋白胨、酵母萃取物、肉萃取物、麦芽萃取物、玉米浆、大豆粉和尿素;或无机化合物,如硫酸铵、氯化铵、磷酸铵、碳酸铵和硝酸铵。氮源可以个别地使用或作为混合物使用。
[0408] 用于本公开的培养物的可能磷源的非限制性清单包括磷酸、磷酸二氢或磷酸氢二钾或相应含钠盐。
[0409] 培养基可以另外包含生长所需的盐,例如呈氯化物形式的盐,或金属(例如钠、钾、镁、)硫酸盐,例如硫酸镁或硫酸铁。
[0410] 最后,除上述物质之外,可以使用基本生长因子,如氨基酸,例如高丝氨酸和维生素,例如硫胺、生物素或泛酸。
[0411] 在一些实施例中,培养物的pH可以利用任何酸或碱或缓冲盐(包括(但不限于)氢氧化钠、氢氧化钾、氨或氨水);或酸性化合物(如磷酸或硫酸)通过适合方式来控制。在一些实施例中,pH通常调节到6.0到8.5的值,优选6.5到8。
[0412] 在一些实施例中,本公开的培养物可以包括消泡剂,例如脂肪酸聚二醇酯。在一些实施例中,本公开的培养物通过添加适合的选择性物质(例如抗生素)来调节以使培养物中的质体稳定化。
[0413] 在一些实施例中,在好氧条件下进行培养。为了维持这些条件,将氧气或含氧气气体混合物(例如空气)引入培养物中。同样可以使用富含过氧化氢的液体。适当时,在高压下,例如在0.03到0.2MPa的高压下进行发酵。培养物的温度通常是20℃到45℃且优选25℃
到40℃,特别优选30℃到37℃。在分批或分批进料工艺中,培育优选持续至已经形成足以回收的量的所关注的期望产物(例如有机化合物)为止。此目的通常可以在10小时到160小时
内实现。在连续工艺中,较长培育时间是可能的。微生物的活性使得所关注的产物在发酵培养基中和/或在所述微生物的细胞中浓缩(积累)。
[0414] 在一些实施例中,在厌氧条件下进行培养。
[0415] 筛选
[0416] 在一些实施例中,本公开教示了高通量初始筛选。在其它实施例中,本公开还教示了基于稳定槽的对性能数据的验证(参见图4B)。
[0417] 在一些实施例中,设计高通量筛选方法以预测菌株在生物反应器中的性能。如此前所述,选择适于生物体且反映生物反应器条件的培养条件。挑选个别群落且转移到96孔
盘中且培育适合的时间量。随后将细胞转移到新的96孔盘中用于额外的种子培养或产生培
养物。在可以进行多次测量的情况下,将培养物培育不同的时间长度。这些测量可以包括产物、生物质或其它特征的测量,从而预测菌株在生物反应器中的性能。使用高通量培养结果预测生物反应器性能。
[0418] 在一些实施例中,使用基于槽的性能验证确认利用高通量筛选所分离的菌株的性能。发酵工艺/条件获自客户地点。使用实验室规模的发酵反应器(例如本公开的表3中所公开的反应器)筛选候选菌株以获得相关菌株性能特征,如生产率或产量。
[0419] 产物回收和量化
[0420] 根据所关注的产物产生进行筛选的方法已为所属领域的技术人员所知且在本说明书中论述。当筛选本公开的菌株时可以使用这类方法。
[0421] 在一些实施例中,本公开教示了改良菌株的方法,所述菌株经设计可产生非分泌性细胞内产物。举例来说,本公开教示了提高细胞培养物的稳定性、产量、效率或总体期望度、从而产生细胞内酶、油、医药或其它有价值的小分子或肽的方法。非分泌性细胞内产物的回收或分离可以利用所属领域中众所周知的溶解和回收技术(包括本文所述的那些技
术)实现。
[0422] 举例来说,在一些实施例中,本公开的细胞可以利用离心、过滤、沉降或其它方法收获。所收获的细胞接着利用任何方便的方法破碎,包括冷冻-解冻循环、声波处理、机械破碎或使用细胞溶解剂,或所属领域的技术人员众所周知的其它方法。
[0423] 所关注的所得产物(例如多肽)可以利用所属领域中已知的多种方法中的任一种回收/分离且任选地加以提纯。举例来说,可以利用传统程序从营养物培养基中分离出产物多肽,所述传统程序包括(但不限于):离心、过滤、萃取、喷雾干燥蒸发、色谱(例如离子交换、亲和、疏水性相互作用、色谱焦聚和尺寸排阻),或沉淀。最后,可以在最后提纯步骤中使用高效液相色谱(HPLC)。(参见例如细胞内蛋白质的提纯(Purification  of 
intracellular protein),如帕瑞(Parry)等人,2001,生物化学杂志(Biochem.J.)353:117和洪(Hong)等人,2007,应用微生物学和生物技术(Appl.Microbiol.Biotechnol.)73:1331中所述,两种文献均以引用的方式并入本文中)。
[0424] 除上文提及的参考文献之外,多种提纯方法在所属领域中是众所周知的,包括例如以下文献中所述的提纯方法:桑德纳(Sandana)(1997),蛋白质的生物分离
(Bioseparation of Proteins),学术出版社有限公司(Academic Press,Inc.);博拉格
(Bollag)等人(1996),蛋白质方法(Protein Methods)第2版,纽约州威立-利斯;沃克
(Walker)(1996),蛋白质方案手册(The Protein Protocols Handbook),胡马纳出版社,新泽西州;哈里斯(Harris)和安格尔(Angal)(1990),蛋白质提纯应用:实用方法(Protein 
Purification Applications:A Practical Approach),牛津IRL出版社,英国牛津;哈里斯和安格尔,蛋白质提纯方法:实用方法(Protein Purification Methods:A Practical 
Approach),牛津IRL出版社,英国牛津;斯科普斯(Scopes)(1993),蛋白质提纯:原理和实践(Protein Purification:Principles and Practice)第3版,斯普林格出版社,纽约州;詹森(Janson)和赖登(Ryden)(1998),蛋白质提纯:原理、高分辨率方法和应用(Protein 
Purification:Principles,High Resolution Methods and Applications),第二版,威
立-VCH,纽约州;以及沃克(Walker)(1998),CD-ROM的蛋白质方案(Protein Protocols on CD-ROM),胡马纳出版社,新泽西州,所有文献以引用的方式并入本文中。
[0425] 在一些实施例中,本公开教示了改良菌株的方法,所述菌株经设计可产生分泌性产物。举例来说,本公开教示了提高细胞培养物的稳定性、产量、效率或总体期望度、从而产生有价值的小分子或肽的方法。
[0426] 在一些实施例中,可以利用免疫学方法检测和/或提纯由本公开的细胞产生的分泌性或非分泌性产物。在一种实例方法中,使用传统方法针对产物分子(例如针对胰岛素多肽或其免疫原性片段)产生的抗体固定于珠粒上,在使内切葡聚糖酶结合的条件下与细胞
培养基混合,且沉淀。在一些实施例中,本公开教示了酶联免疫吸附分析(ELISA)的使用。
[0427] 在其它相关实施例中,使用如以下文献中所公开的免疫色谱法:美国专利第5,591,645号、美国专利第4,855,240号、美国专利第4,435,504号、美国专利第4,980,298号,以及赛旺佩克(Se-Hwan Paek)等人,“一步免疫色谱快速分析方法的开发(Development of rapid One-Step Immunochromatographic assay,Methods)”,22,53-60,2000),所述文献各自以引用的方式并入本文中。通用的免疫色谱法通过使用两种抗体来检测试样。第一抗
体存在于测试溶液中或存在于由多孔膜制成的呈大致矩形形状的测试片末端的一部分处,
其中将测试溶液滴落。这种抗体用胶乳颗粒或金胶体颗粒标记(这种抗体在下文中称为标
记抗体)。当所滴落的测试溶液包括待检测的试样时,标记抗体识别试样以便与试样结合。
试样与标记抗体的复合物通过毛细作用流向吸收剂,所述吸收剂由过滤纸制成且附接到与
已包括标记抗体的末端相对的末端。在流动期间,试样与标记抗体的复合物被存在于多孔
膜中部的第二抗体(其在下文中称为轻敲抗体)识别且捕获,且因此,复合物以可见信号的
形式出现在多孔膜的检测部件上且被检测到。
[0428] 在一些实施例中,本公开的筛选方法是基于光度检测技术(吸收,荧光)。举例来说,在一些实施例中,检测可以基于荧光团检测剂(如结合到抗体的GFP)的存在。在其它实施例中,光度检测可以基于得自细胞培养的所期望产物的积累。在一些实施例中,可以通过UV检测到培养物或得自所述培养物的萃取物中的产物。
[0429] 所属领域中的技术人员将认识到,本公开的方法可与产生任何期望的所关注生物分子产物的宿主细胞兼容。下表2呈现了本公开范围内所包括的产物类别、生物分子和宿主细胞的非限制性清单。这些实例是为了说明性目的而提供,且不打算以任何方式限制本公
开所公开的技术的适用性。
[0430] 表2.本公开的所关注宿主细胞和产物的非限制性清单.
[0431]
[0432]
[0433]
[0434] 选择准则和目标
[0435] 应用于本公开方法的选择准则将根据菌株改良程序的特定目标而变。本公开可以经调适以满足任何程序目标。举例来说,在一些实施例中,程序目标可以是最大化单次分批反应产量而无即刻时间限制。在其它实施例中,程序目标可以是重新平衡生物合成产量以
产生特定产物,或产生特定的产物比率。在其它实施例中,程序目标可以是修饰产物的化学结构,如延长聚合物的碳链。在一些实施例中,程序目标可以是改良性能特征,如产量、效价、生产率、副产物消除、对过程偏移的耐受性、最优生长温度和生长速率。在一些实施例中,程序目标是改良宿主性能,如由微生物所产生的所关注产物的体积生产率、比生产率、产量或力价所度量。
[0436] 在其它实施例中,就按输入量计的最终产物产量(例如每磅蔗糖所产生的乙醇的总量)而言,程序目标可以是优化商业菌株的合成效率。在其它实施例中,程序目标可以是优化合成速度,如根据例如分批完成率或连续培养系统的生产率所度量。在其它实施例中,程序目标可以是增强菌株对特定噬菌体的抗性,或以其它方式增强培养条件下的菌株活
力/稳定性。
[0437] 在一些实施例中,菌株改良项目可以接受超过一个目标。在一些实施例中,菌株项目的目标可以取决于质量、可靠性或总体盈利能力。在一些实施例中,本公开教示了进行相关所选突变或突变群组以具有上述一或多种菌株特性的方法。
[0438] 所属领域中的技术人员将认识到如何定制菌株选择准则以满足特定项目目标。举例来说,在反应饱和情形下选择菌株单批最大产量可以适于鉴别具有高单批产量的菌株。
跨越一系列温度和条件、基于产量一致性的选择可以适用于鉴别具有增强的稳健性和可靠
性的菌株。
[0439] 在一些实施例中,初始高通量阶段的选择准则和基于槽的验证是相同的。在其它实施例中,基于槽的选择可以依据额外和/或不同的选择准则运作。举例来说,在一些实施例中,高通量菌株选择可以是基于单批反应完成产量,而基于槽的选择可以扩展以包括基
于产量的针对反应速度的选择。
[0440] 测序
[0441] 在一些实施例中,本公开教示了本文所述生物体的全基因组测序。在其它实施例中,本公开还教示了质体、PCR产物和其它寡核苷酸的测序作为对本公开方法的质量控制。
大项目和小项目的测序方法已为所属领域的技术人员所熟知。
[0442] 在一些实施例中,本公开的方法中可以使用供核酸测序用的任何高通量技术。在一些实施例中,本公开教示了全基因组测序。在其它实施例中,本公开教示了鉴别基因变异的扩增子测序超深度测序。在一些实施例中,本公开还教示了新颖的文库制备方法,包括片段化的同时添加标签(tagmentation)(参见WO/2016/073690)。DNA测序技术包含使用经标
记的终止子或引物且在厚片或毛细管中进行凝胶隔离的经典双脱氧测序反应(桑格方法
(Sanger method));使用可逆封端的经标记的核苷酸的边合成边测序、焦磷酸测序;454测序;与经标记的寡核苷酸探针文库进行等位基因特异性杂交;使用与经标记的克隆文库的
等位基因特异性杂交、随后进行连接的边合成边测序;在聚合步骤期间并入经标记的核苷
酸的实时监视;聚合酶克隆测序(polony sequencing);以及SOLiD测序。
[0443] 在本公开的一个方面中,使用高通量测序方法,其包含对其上执行并行测序的固体表面上的个别分子进行空间分离的步骤。这类固体表面可以包括无孔表面(如Solexa测
序,例如本特雷(Bentley)等人,自然,456:53-59(2008),或全面基因组学测序(Complete Genomics sequencing),例如德尔马纳茨(Drmanac)等人,科学,327:78-81(2010));孔阵列,其可以包括珠粒或颗粒结合的模板(如用454,例如马古利斯(Margulies)等人,自然,
437:376-380(2005)或离子激流测序(Ion Torrent sequencing),美国专利公开2010/
0137143或2010/0304982);微机械加工的膜(如用SMRT测序,例如德(Eid)等人,科学,
323:133-138(2009)),或珠粒阵列(如用SOLiD测序或聚合酶克隆测序,例如金(Kim)等人,科学,316:1481-1414(2007))。
[0444] 在另一个实施例中,本公开的方法包含在对固体表面上的分子进行空间分离之前或之后,将经分离的分子扩增。先前扩增可以包含基于乳液的扩增,如乳液PCR,或滚环扩增。还教示了基于Solexa的测序,其中对固体表面上的个别模板分子进行空间分离,随后通过桥式PCR对其并行扩增以形成单独的克隆群体或簇,且接着测序,如以下文献中所述:本特雷等人(上文引用)和制造商说明书(例如TruSeqTM样品制备试剂盒和数据表,启迪公司
(Illumina,Inc.),加利福尼亚州圣地亚哥(San Diego,Calif.),2010);且进一步如以下参考文献所述:美国专利第6,090,592号、第6,300,070号、第7,115,400号;和EP0972081B1,所述文献均以引用的方式并入本文。
[0445] 在一个实施例中,安置于固体表面上且在固体表面上扩增的个别分子形成密度为每cm2至少个105个簇;或密度为每cm2至少5×105个;或密度为每cm2至少106个簇的簇。在一个实施例中,使用具有相对较高错误率的测序化学物质。在这类实施例中,这类化学物质所产生的平均质量分数是序列读段长度的单调下降函数。在一个实施例中,这类下降相当于
0.5%的序列读段在位置1-75中具有至少一个错误;1%的序列读段在位置76-100中具有至
少一个错误;且2%的序列读段在位置101-125中具有至少一个错误。
[0446] 全基因组基因设计准则的计算分析和效果预测
[0447] 在一些实施例中,本公开教示了对并入所指定宿主菌株中的特定基因变异的效果进行预测的方法。在其它方面中,本公开提供了用于产生所提出的基因变异的方法,所述基因变异应该并入所指定的宿主菌株中,以便所述宿主具有特定的表型性状或菌株参数。在
指定的方面中,本公开提供可以用于设计新颖宿主菌株的预测模型。
[0448] 在一些实施例中,本公开教示了分析每一轮筛选的执行结果的方法以及产生新的所提出的全基因组序列修饰的方法,所述全基因组序列修饰经预测可增强菌株在下一轮筛
选中的性能。
[0449] 在一些实施例中,本公开教示了所述系统基于此前筛选结果对宿主菌株产生所提出的序列修饰。在一些实施例中,本公开系统的建议是基于刚刚前一次筛选的结果。在其它实施例中,本公开系统的建议是基于一或多次之前筛选的累积结果。
[0450] 在一些实施例中,本公开系统的建议是基于此前开发的HTP基因设计文库。举例来说,在一些实施例中,本公开系统经设计可保存此前筛选的结果,且将相同或不同宿主生物体的那些结果应用于不同项目。
[0451] 在其它实施例中,本公开系统的建议是基于科学见解。举例来说,在一些实施例中,建议是基于基因的已知特性(来源如注释的基因数据库和相关文献)、密码子优化、转录打滑、uORFs,或其它假设驱动序列和宿主优化。
[0452] 在一些实施例中,所述系统或预测模型推荐的针对宿主菌株所提出的序列修饰是通过利用一或多种所公开的分子工具集进行,所述分子工具集包含:(1)启动子交换、(2)
SNP交换、(3)起点/终止密码子交换、(4)序列优化、(5)终止密码子交换、(6)转座子诱变和(7)上位定位。
[0453] 本文所述的HTP基因工程平台相对于任何特定微生物或表型性状(例如特定化合物的产生)而言是不可知的。即,本文教示的平台和方法可以结合任何宿主细胞使用,以对所述宿主细胞进行工程改造,从而具有任何所期望的表型性状。另外,由用于产生一种新颖宿主细胞的指定HTP基因工程改造方法中习得的课程可以作为在所教示方法期间出现的大
量工艺参数的存储、表征和分析的结果,应用于任何数目个其它宿主细胞。
[0454] 如上位定位章节中所提及,通过一些优选预测模型可以估计假想菌株的性能(也称为分数),所述假想菌株是通过将来自HTP基因设计文库的突变集合合并到特定背景中所
得。鉴于这种预测模型,有可能对通过组合合并可近接突变文库的所有假想菌株评分和评
级。下述章节概述了本公开HTP平台中所用的特定模型。
[0455] 预测菌株设计
[0456] 本文描述了一种预测菌株设计的方法,包括:描述基因变化和菌株性能、基于菌株中的变化组成来预测菌株性能、推荐预测性能高的候选设计以及过滤预测以针对二级考虑因素(例如与现有菌株的相似度、上位或预测置信度)进行优化的方法。
[0457] 菌株设计模型的输入
[0458] 在一个实施例中,为了易于说明,输入数据可以包含两种分量:(1)基因变化集和(2)相对菌株性能。所属领域的技术人员将认识到,这种模型能容易扩展以考虑多种输入,同时留意过度拟合的抵消性考虑。除基因变化之外,可以加以调整的一些输入参数(自变
量)是细胞类型(属、种、株系、谱系学表征等)和据以对细胞进行发酵的工艺参数(例如环境条件、处理设备、修饰技术等)。
[0459] 基因变化集可以来自此前论述的基因扰动集合,称为HTP基因设计文库。相对菌株性能可以基于任何指定的所关注参数或表型性状(例如所关注的化合物、小分子或产物的
产生)来评估。
[0460] 细胞类型可以用通用类别说明,如原核和真核系统、属、种、株系、组织培养物(相对于分散细胞)等。能够加以调整的工艺参数包括温度、压力、反应器配置和培养基组成。反应器配置的实例包括反应器体积,不论所述工艺是分批或连续的,且如果是连续的,那么包括体积流量等。也可以指明其上存在细胞的载体结构(若存在)。培养基组成的实例包括电解质浓度、营养物、废产物、酸、pH和其类似方面。
[0461] 从所选HTP基因设计文库获得基因变化集,以用于初始线性回归模型,随后用于产生预测菌株设计模型
[0462] 为了产生预测菌株设计模型,首先选择相同微生物物种的菌株的基因变化。还提供了每个基因变化的历史(例如显示这种菌株谱系的最新修饰—“最后一个变化”)。因此,这种菌株性能与其亲代性能的比较代表关于“最后一个变化”突变的性能的数据点。
[0463] 所建构的菌株性能评估
[0464] 所教示模型的目标是基于引入菌株中的基因变化的组成来预测菌株性能。为了构筑比较标准,首先通过计算每个分析盘每种菌株的中值性能,相对于常见参考菌株来计算
菌株性能。接着以同一培养盘内的经工程改造的菌株与常见参考菌株之间的平均性能差异
形式计算相对性能。将计算局限于盘内比较可确保考虑中的样品都接受相同实验条件。
[0465] 图10描绘了相对菌株性能在考虑中的输入数据中的分布的实例。这是通过棒状杆菌属进行的。相对性能为零表示经工程改造的菌株的性能与盘内基本或“参考”菌株同样
好。所关注的是预测模型鉴别性能可能明显高于零的菌株的能力。另外,且更一般来说,所关注的是任何所指定的菌株根据一些准则是否胜过其亲代。在实践中,准则可以是产物效
价满足或超过高于亲代水平的某一阈值,尽管也可以改为利用或另外利用在所期望的方向
上与亲代的统计显著差异。基本或“参考”菌株的作用简单地是充当供在盘内或盘之间进行比较的所添加归一化因子。
[0466] 值得留意的构思是亲代菌株与参考菌株之间的差异。亲代菌株是用于当前一轮突变诱发的背景。参考菌株是在每个培养盘中运作的对照菌株以促进比较,尤其是各盘之间
的比较,且典型地是如上文所提及的“基本菌株”。但是由于所述基本菌株(例如用于基准测试总体性能的野生型或工业菌株)就在所指定一轮的菌株改良中是突变诱发目标而言不一
定是“基本的”,因此更具描述性的术语是“参考菌株”。
[0467] 总之,基本/参考菌株通常是用于对所建构菌株的性能进行基准测试,而亲代菌株是用于对相关基因背景下的特定基因变化的性能进行基准测试。
[0468] 通过线性回归对所建构菌株的性能进行评级
[0469] 所公开的模型的目标是通过描述相对菌株性能与引入所建构菌株中的基因变化的组成的关系来对所建构菌株的性能进行评级。如本公开所论述,各种HTP基因设计文库提供了引入工程改造菌株中的可能基因变化(例如基因扰动/变异)的谱系。线性回归是当前
所述示例性预测模型的基础。
[0470] 然后输入基因变化和其对相对性能的作用以便建立基于回归的模型。相对于常见基本菌株,对与菌株中所含的基因变化的组成有关的菌株性能进行评级。
[0471] 表征所建构菌株的线性回归
[0472] 线性回归由于易于实施和解译而成为一种用于所述HTP基因组工程平台的诱人方法。所得回归系数可以解释为因每种基因变化的存在所致的相对菌株性能的平均增加或降
低。
[0473] 举例来说,在一些实施例中,这种技术让人断定:在不存在任何消极上位相互作用的情况下,将原始启动子变成另一个启动子使相对菌株性能改良平均约1、2、3、4、5、6、7、8、9、10或更多个单位且因此是潜在的高度期望变化(注意:输入是无单位归一化值)。
[0474] 所教示的方法因此使用线性回归模型对所建构的菌株进行描述/表征和评级,所建构的菌株的基因组中已引入来自各种所教示文库的各种基因扰动。
[0475] 预测设计模型建立
[0476] 使用所构筑菌株的数据的上述线性回归模型可以用于对尚未建构的菌株进行性能预测。
[0477] 所述程序可以概述如下:通过计算机模拟产生基因变化的所有可能构形→使用回归模型预测相对菌株性能→根据性能订购候选菌株设计。从而,通过利用回归模型预测迄
今尚未建构的菌株的性能,所述方法实现了较高性能菌株的产生,同时执行更少的实验。
[0478] 产生构形
[0479] 当构筑模型来预测迄今尚未建构的菌株的性能时,第一步骤是产生设计候选物的序列。此如下进行:固定菌株中的基因变化的总数,且接着界定基因变化的所有可能组合。
举例来说,可以将潜在基因变化/扰动的总数设定为29(例如29种可能SNP,或29种不同启动子,或其任何组合,只要基因扰动的范围是29)且接着决定设计29种潜在基因变化的所有可能的3员组合,从而产生3,654种候选菌株设计。
[0480] 为了向前述3,654种候选菌株提供背景,设想可以使用n!/((n-r)!*r!)、由n个可能成员计算尺寸r的非冗余分组数目。如果r=3、n=29,则得到3,654。因此,如果设计出29种潜在变化的所有可能的3员组合,那么获得3,654种候选菌株。图14的x轴中存在29种潜在基因变化。
[0481] 预测新菌株设计的性能
[0482] 使用以组合构形作为输入值所构筑的上述线性回归,接着可以预测每种候选设计的预期相对性能。举例而言,能够用2维地图概括前100种预测菌株设计的变化组成,其中x轴列举了潜在基因变化(29种可能基因变化)池,且y轴展现了秩排序。黑色细胞能够用于表示候选设计中存在特定变化,而白色细胞能够用于表示那种变化不存在。参见图14。
[0483] 当使用新观察结果以迭代方式再训练和再拟合模型时,预测精确度应该随时间增加。本发明人的研究结果说明可借以对预测模型以迭代方式进行再训练和改良的方法。模
型预测质量可以通过若干种方法评估,包括指示预测值与观察值之间的关联强度的相关系
数,或度量平均模型误差的均方根误差。通过使用选定的度量标准进行模型评估,所述系统可以界定应该对模型再训练时所用的规则。
[0484] 未陈述的假设与上述模型的联系包括:(1)不存在上位相互作用;和(2)建构预测模型所用的基因变化/扰动都是在相同背景下作为所提出的基因变化组合产生。
[0485] 根据二级特点进行过滤
[0486] 上述说明性实例集中于基于所预测的宿主细胞性能的线性回归预测。在一些实施例中,本公开的线性回归方法还能够应用于非生物分子因素,如饱和生物质、抗性或其它可测量的宿主细胞特点。因此,本公开的方法还教示了在对待建构的候选物进行优先级排序
时,考虑所预测性能外的其它特点。假设存在额外的相关数据,那么所述回归模型中也包括非线性项。
[0487] 接近现有菌株
[0488] 预测菌株类似于已建构的菌株可以节省时间和成本,尽管不是最佳预测候选物。
[0489] 变化的多样性
[0490] 构筑前述模型时,由于上位相互作用的存在,因此不能确定基因变化真正具有叠加性(如根据线性回归所假定且如上述假设所提及)。因此,对基因变化差异性的了解可以
用于提高正叠加作用的可能性。如果知道例如来自评级靠前的菌株的变化位于相同代谢途
径且具有相似的性能特征,那么这个信息可以用于选择变化组成有差异的另一种评级靠前
的菌株。如与上位定位有关的上述章节中所述,可以过滤所预测的最佳基因变化以使选择
限于响应曲线有充分差异的突变。或者,线性回归可以是使用相似度矩阵进行权重预测的
加权最小二乘法回归。
[0491] 所预测性能的多样性
[0492] 最后,可以选择设计所预测性能居中或不良的菌株,以便验证且随后改良预测模型。
[0493] 迭代菌株设计优化
[0494] 在实施例中,发订单引擎208将工厂订单提供给工厂210以制造并入最佳候选突变的微生物菌株。在反馈回路方式中,可以利用分析设备214分析结果,以确定哪种微生物展现所期望的表型特性(314)。在分析阶段期间,评估经修饰的菌株培养物以确定其性能,即,其所期望的表型特性的表现,包括工业规模生产能力。举例来说,分析阶段尤其使用培养盘的影像数据测量微生物群落生长作为群落健康的指标。使用分析设备214使基因变化与表
型性能相关,且将所得基因型-表型相关度数据保存在文库中,其可以存储于文库206中,以告知未来的微生物生产。
[0495] 具体地说,实际产生足够高的实测性能的候选变化可以成行添加在数据库中。以这种方式,将最佳性能突变按照有监督的机器学习方式添加到预测菌株设计模型中。
[0496] LIMS基于由此前工厂运行所开发的相关度,以迭代方式执行设计/建构/测试/分析循环。在后续循环期间,单独或配合操作人员的分析设备214可以选择最佳候选物作为基本菌株输回到输入界面202中,从而使用相关度数据微调基因修饰以实现更佳的表型性能
和更细的颗粒度。本公开实施例的实验室信息管理系统以这种方式执行了质量改良反馈回
路。
[0497] 总之,参照图22的流程图,迭代预测菌株设计工作流程可以描述如下:
[0498] ·产生输入和输出变量(例如基因变化)的训练集作为输入和性能特点作为输出(3302)。可以由分析设备214基于此前的基因变化和并入那些基因变化的微生物菌株的相
应实测性能来执行产生。
[0499] ·开发基于训练集的初始模型(例如线性回归模型)(3304)。这可以由分析设备214执行。
[0500] ·产生设计候选菌株(3306)
[0501] ·在一个实施例中,分析设备214可以使相对于背景菌株所产生的基因变化的数目以变化组合的形式固定。为了体现这些变化,分析设备214可以向解译器204提供表示那
些变化组合的一或多种DNA规格表述。(这些基因变化或并入那些变化的微生物菌株可以称
为“测试输入”。)解译器204解译一或多种DNA规格,且执行引擎207执行DNA规格以将已解决的输出填入DNA规格,所述输出代表了个别候选设计菌株以获得那些变化。
[0502] ·基于所述模型,分析设备214预测每种候选设计菌株的预期性能(3308)。
[0503] ·分析设备214选择有限数目的具有最高预测性能的候选设计,例如100种(3310)。
[0504] ·如本文在别处针对上位定位所述,分析设备214通过例如过滤最佳设计以获得上位效应或将上位纳入预测模型中可以解释二级效应,如上位。
[0505] ·基于发订单引擎208产生的工厂订单建构已过滤的候选菌株(在工厂210)(3312)。
[0506] ·分析设备214测量所选菌株的实际性能,基于优良的实际性能选择有限数目的那些所选菌株(3314),且将设计变化和其所得性能添加到预测模型中(3316)。
[0507] ·分析设备214接着以迭代方式返回到新设计候选菌株的产生(3306),且继续迭代直到满足中止条件为止。中止条件可以包含例如满足性能度量标准的至少一种微生物菌
株的实测性能,如产量、生长速率或效价。
[0508] 在以上实例中,菌株设计的迭代优化是利用反馈和线性回归来执行机器学习。一般来说,机器学习可以描述为在利用有限数目个标记数据实例执行信息任务(如分类或回
归)且接着对未知数据执行相同任务时优化性能准则,例如参数、技术或其它特点。在有监督的机器学习(如上述线性回归实例中的机器学习)中,机器(例如计算装置)例如通过鉴别
训练数据所展现的图案、类别、统计学关系或其它属性来学习。学习结果接着用于预测新数据是否展现相同的图案、类别、统计学关系或其它属性。
[0509] 当训练数据可获得时,本公开的实施例可以使用其它有监督的机器学习技术。在缺乏训练数据的情况下,实施例可以利用无监督的机器学习。或者,实施例可以利用半监督的机器学习,其使用少量的标记数据和大量的未标记数据。实施例也可以利用特点选择来
选择最相关特点的子集以优化机器学习模型的性能。根据所选的机器学习方法的类型,作
为线性回归的替代方案或除线性回归之外,实施例可以利用例如逻辑回归、神经网络、支持向量机(SVM)、决策树、隐式马尔可夫模型(hidden Markov models)、贝叶斯网络(Bayesian networks)、Gram Schmidt、基于强化的学习、基于簇的学习(包括分级聚类)、基因算法,和所属领域中已知的任何其它适合的机器学习。具体地说,实施例可以利用逻辑回归模型得
到分类的概率(例如基因按照不同功能群的分类)以及分类本身。参见例如席维德
(Shevade),使用稀疏逻辑回归进行基因选择的简单高效算法(A simple and efficient 
algorithm for gene selection using sparse logistic regression),生物信息学
(Bioinformatics),第19卷,第17期,2003,第2246-2253页;冷(Leng)等人,对暂时基因表达数据使用功能数据分析的分类(Classification using functional data analysis for 
temporal gene expression data),生物信息学,第22卷,第1期,牛津大学出版社(Oxford University Press)(2006),第68-76页,所有文献均以全文引用的方式并入本文。
[0510] 实施例可以利用图形处理单元(GPU)加速架构,已发现其在执行机器学习任务方面越来越流行,尤其是称为深度神经网络(DNN)的形式。本公开的实施例可以利用基于GPU
的机器学习,如以下文献中所述的机器学习:基于GPU的深度学习推理:性能和能力分析
(GPU-Based Deep Learning Inference:A Performance and Power Analysis),英伟达白
皮书(NVidia Whitepaper),2015年11月;达(Dahl)等人,用于QSAR预测的多任务神经网络(Multi-task Neural Networks for QSAR Predictions),多伦多大学计算机科学系
(Dept.of Computer Science,Univ.of Toronto),2014年6月(arXiv:1406.1231
[stat.ML]),所有文献均以全文引用的方式并入本文。适用于本公开实施例的机器学习技
术也可以见于其它参考文献中:里伯莱奇特(Libbrecht)等人,机器学习在遗传学和基因组学中的应用(Machine learning applications in genetics and genomics),自然评论:
遗传学(Nature Reviews:Genetics),第16卷,2015年6月;卡什亚普(Kashyap)等人,生物信息学中的大数据分析:机器学习视角(Big Data Analytics in Bioinformatics:A 
Machine Learning Perspective),乳胶类文件杂志(Journal of Latex Class Files),第
13卷,第9期,2014年9月;普隆浦纳姆(Prompramote)等人,生物信息学中的机器学习
(Machine Learning in  Bioinformatics),生物信息学技术(Bioinformatics 
Technologies)的第5章,第117-153页,施普林格(Springer),柏林海德堡(Berlin 
Heidelberg),2005,所有文献均以全文引用的方式并入本文。
[0511] 迭代预测菌株设计:实例
[0512] 下文提供了上文所概述的迭代预测菌株设计工作流程的实例应用。
[0513] 制备训练输入和输出变量的初始集合。这种集合包含1864种具有所定义基因组成的独特工程改造菌株。每种菌株含有5种与15种之间的工程改造变化。训练集中存在总共
336种独特基因变化。
[0514] 开发初始预测计算机模型。实施方案使用广义线性模型(具有4阶多项式内核的核岭回归)。实施方案对两种不同表型(产量和生产率)建模。将这些表型以加权总和形式组
合,以获得用于评级的单一分数,如下文所示。通过相对于所指定训练数据的k倍交叉验证来调整各种模型参数,例如正则化因子。
[0515] 实施方案不合并相互作用效应的任何明确分析,如上文上位定位章节中所述。然而,如所属领域的技术人员会了解,所建构的广义线性模型可以捕捉内核的二阶、三阶和四阶项隐含的相互作用效应。
[0516] 根据训练集训练模型。训练之后,能够展示产量模型相对于训练数据的显著质量拟合。
[0517] 然后产生候选菌株。这个实施例包括与新基因变化引入亲代菌株中相关的一系列建构约束条件。在此,不能简单地认为候选物与所期望的变化数目有关。相反,分析设备214选择此前所设计的具有高性能度量标准的菌株的集合作为起点(“种子菌株”)。分析设备
214将基因变化个别地施加到每一种种子菌株。所引入的基因变化不包括已经存在于种子
菌株中的那些基因变化。因各种技术、生物学或其它原因,明确需要某些突变,或明确排除某些突变。
[0518] 分析设备214基于所述模型预测候选菌株设计的性能。分析设备214基于针对两种所关注表型(产量和生产率)所预测的性能将候选物按“最佳”到“最差”评级。具体地说,分析设备214使用加权的总和对候选菌株评分。
[0519] 分数=0.8*产量/最大(产量)+0.2*生产率/最大(生产率),
[0520] 其中产量表示候选菌株的预测产量,
[0521] 最大(产量)表示所有候选菌株的最大产量,
[0522] 生产率表示候选菌株的生产率,且
[0523] 最大(生产率)表示所有候选菌株的最大产率。
[0524] 分析设备214通过施加容量约束和操作约束而由候选物的评级清单产生最终的建议集合。在一些实施例中,容量限值能够设定为既定的数目,例如48种由计算机产生的候选设计菌株。
[0525] 训练模型(上述)能够用于预测每种候选菌株的预期性能(产量和生产率)。分析设备214能够使用上文所指定的评分函数对候选菌株评级。然后能够施加容量和操作约束以
产生48种候选菌株的过滤集合。然后基于发订单引擎208所产生的工厂订单来建构(在工厂
210)经过滤的候选菌株(3312)。订单可以基于对应于候选菌株的DNA规格。
[0526] 在实践中,建构方法具有预期的失败率,借此不能建构随机的菌株集合。
[0527] 分析设备214还能够用于测量所选菌株的实际产量和生产率性能。分析设备214能够基于三个准则评估模型和所推荐的菌株:模型精确度;菌株性能的改良;和人类专家所产生的设计的等效物(或改良)。
[0528] 能够测量所推荐菌株的产量和生产率表型且与利用模型所预测的值进行比较。
[0529] 预测精确度能够通过若干种方法评估,包括指示预测值与观察值之间的关联强度的相关系数,或度量平均模型误差的均方根误差。经过多轮实验,模型预测可能会发生漂
移,且可以将新的基因变化添加到训练输入中以改善预测精确度。在这个实例中,将设计变化和其所得性能添加到预测模型中(3316)。
[0530] 基因组设计和工程改造服务
[0531] 在本公开的实施例中,图21的LIMS系统软件3210可以按照图21的云计算系统3202建构,以使得多种用户能够设计和建构根据本公开实施例的微生物菌株。图21说明了根据
本公开实施例的云计算环境3204。客户端计算机3206,如图21中所说明的那些计算机,通过网络3208(如因特网)接入LIMS系统。在实施例中,LIMS系统应用软件3210存在于云计算系
统3202中。LIMS系统可以采用使用一或多个处理器的一或多种计算系统,所述计算系统的
类型说明于图21中。云计算系统自身包括网络接口3212,其使LIMS系统应用程序3210通过
网络3208连接到客户端计算机3206。网络接口3212可以包括应用软件编程接口(API)以使
客户端计算机3206的客户应用程序能够访问LIMS系统软件3210。具体地说,通过API,客户端计算机3206可以访问LIMS系统200的组件,包括(但不限于)运行输入界面202、解译器
204、执行引擎207、发订单引擎208、工厂210以及测试设备212和分析设备214的软件。软件即服务(SaaS)软件模块3214向客户端计算机3206提供LIMS系统软件3210即服务。云端管理
模块3216管理客户端计算机3206对LIMS系统3210的访问。云端管理模块3216能够实现采用
多租户应用程序、虚拟化的云端架构或所属领域中已知可服务多个用户的其它架构。
[0532] 基因组自动化
[0533] 本公开方法的自动化能够同时对多种测试菌株变异体中的目标产物进行高通量表型筛选和鉴别。
[0534] 前述基因组工程预测建模平台是以如下事实为前提:以高通量方式构筑数百和数千种突变型菌株。下述机器人和计算机系统是可借以执行这种高通量方法的结构性机构。
[0535] 在一些实施例中,本公开教示了提高宿主细胞生产率或修复工业菌株的方法。作为这种方法的一部分,本公开教示了在培养盘中组装DNA、建构新菌株、筛选培养物和在模型中筛选培养物用于槽发酵的方法。在一些实施例中,本公开教示了利用自动化机器人技
术来辅助产生和测试新宿主菌株的一或多种上述方法。
[0536] HTP机器人系统
[0537] 在一些实施例中,本公开的自动化方法包含机器人系统。本文概述的系统通常针对96孔或384孔微量滴定盘的使用,但是如所属领域的技术人员将了解,可以使用任何数目个不同培养盘或配置。另外,本文概述的任一个或全部步骤可以自动进行;因此,例如,系统可以完全地或部分地自动化。
[0538] 在一些实施例中,本公开的自动化系统包含一或多个工作模块。举例来说,在一些实施例中,本公开的自动化系统包含DNA合成模块、载体克隆模块、菌株转化模块、筛选模块和测序模块(参见图5)。
[0539] 如所属领域的技术人员将了解,自动化系统可以包括多种组件,包括(但不限于):液体处理器;一或多个机器人臂;用于放置微量培养盘的培养盘处理器;培养盘密封件、培养盘穿孔机、自动化盖子处理器以去除和置换非交叉污染盘上的孔盖;用一次性吸头进行
样品分布的一次性吸头组合件;用于样品分布的可洗吸头组合件;96孔加载块;一体式热循环仪;冷却的试剂架;微量滴定盘移液管位置(任选地冷却);用于培养盘和吸头的堆叠塔;
磁珠处理站;过滤系统;培养盘振荡器条形码阅读器和涂覆器;和计算机系统。
[0540] 在一些实施例中,本公开的机器人系统包括实现了高通量移液的自动化液体和颗粒处理,以执行基因靶向和重组应用工艺中的所有步骤。这包括液体和颗粒操控,如抽吸、分配、混合、稀释、洗涤、精确体积转移;收回和丢弃移液管吸头;以及利用单次样品抽吸来重复吸移相同体积用于多次递送。这些操控是无交叉污染的液体、颗粒、细胞和生物体转
移。仪器执行微量盘样品向过滤器、膜和/或子培养盘的自动化复制、高密度转移、全盘连续稀释以及高容量操作。
[0541] 在一些实施例中,本公开的定制自动化液体处理系统是TECAN机器(例如定制的TECAN Freedom Evo)。
[0542] 在一些实施例中,本公开的自动化系统与用于多孔盘、深孔盘、方孔盘、试剂槽、试管、小试管、微量离心管、冷冻管、过滤器、微阵列晶片、光纤、珠粒、琼脂糖和丙烯酰胺凝胶的平台兼容,且将其它固相基质或平台容纳于可升级的模块化台板上。在一些实施例中,本公开的自动化系统含有至少一个模块化台板用于多位置工作表面,以便放置源样品和输出样品、试剂、样品和试剂稀释液、分析盘、样品和试剂储集器、移液管吸头和活动的吸头洗涤站。
[0543] 在一些实施例中,本公开的自动化系统包括高通量电穿孔系统。在一些实施例中,高通量电穿孔系统能够在96或384孔盘中转化细胞。在一些实施例中,高通量电穿孔系统包括 高通量电穿孔系统、BTXTM、 基因脉冲发生器MXcellTM或其它多孔电穿孔系统。
[0544] 在一些实施例中,一体式热循环仪和/或热调节器用于稳定热交换器的温度,如对培育样品提供从0℃到100℃的精确温度控制的可控块或平台。
[0545] 在一些实施例中,本公开的自动化系统与能够以机器人方式操控液体、颗粒、细胞和多细胞生物体的可更换机器头(单或多通道)兼容,所述机器头具有单个或多个磁性探针、亲和探针、复制器或吸移管管理器。多孔或多管式磁性分离器和过滤站按单个或多个样品格式操控着液体、颗粒、细胞和生物体。
[0546] 在一些实施例中,本公开的自动化系统与照相视觉和/或光谱仪系统兼容。因此,在一些实施例中,本公开的自动化系统能够检测和记录进行中的细胞培养物的颜色和吸收
变化。
[0547] 在一些实施例中,本公开的自动化系统经设计可相对于多种硬件附件具有灵活性和可适应性,以允许所述系统执行多种应用。软件程序模块实现了方法的产生、修改和运
行。系统的诊断模块实现了设置、仪器校准和马达操作。定制的工具、实验室器具以及液体和颗粒转移模式实现了不同应用的程序化执行。数据库实现了方法和参数的存储。机器人
和计算机界面实现了仪器之间的通信。
[0548] 因此,在一些实施例中,本公开教示了如图15和16中所描绘的高通量菌株工程平台。
[0549] 所属领域中的技术人员将认识到,各种机器人平台能够执行本公开的HTP工程改造方法。下表3提供了能够执行如图15和16中所述的本公开HTP工程步骤中的每一步的科学
设备的非排它性清单。
[0550] 表3-与本公开HTP工程改造方法兼容的科学设备的非排它性清单
[0551]
[0552]
[0553]
[0554]
[0555] 计算机系统硬件
[0556] 图23说明了根据本公开实施例的计算机系统800的实例,其可以用于执行非暂时性计算机可读媒体(例如存储器)中所存储的程序代码。计算机系统包括输入/输出子系统
802,其可以用于介接人类用户和/或其它计算机系统,这取决于应用。I/O子系统802可以包括例如键盘鼠标、图形用户界面触摸屏,或用于输入的其它界面,以及例如LED或其它平面屏幕显示器,或用于输出的其它界面,包括应用程序界面(API)。本公开实施例的其它元件,如LIMS系统的组件,可以用计算机系统(如计算机系统800)实施。
[0557] 程序代码可以存储于非暂时性媒体中,如辅助存储器810或主存储器808或这两者的永久性存储器中。主存储器808可以包括易失性存储器,如随机存取存储器(RAM),或非易失性存储器,如只读存储器(ROM),以及不同层次的高速缓存存储器用于更快地访问指令和数据。辅助存储器可以包括永久性存储器,如固态驱动器、硬盘驱动器或光盘。一或多个处理器804从一或多个非暂时性媒体中读取程序代码且执行所述代码以使计算机系统能够完
成本文实施例所执行的方法。所属领域的技术人员将了解,处理器可以摄取原始码且将原
始码解译或编译成处理器804的硬件门级所能理解的机器代码。处理器804可以包括用于处
理计算密集型任务的图形处理单元(GPU)。特别是在机器学习中,一或多个CPU 804可以将
大量数据的处理分流到一或多个GPU 804。
[0558] 处理器804可以通过一或多个通讯接口807(如网络接口卡、WiFi收发器等)与外部网络通信。总线805使I/O子系统802、处理器804、周边装置806、通信接口807、存储器808和永久性存储器810可通信地耦接。本公开的实施例不限于此代表性架构。替代实施例可以采用不同的配置和组件类型,例如用于输入-输出组件和存储器子系统的单独总线。
[0559] 所属领域的技术人员将了解,本公开实施例中的一些或全部元件和其伴随操作可以完全或部分地通过一或多个计算机系统来实施,所述计算机系统包括一或多个处理器和
一或多个存储器系统,如计算机系统800的那些。具体地说,本文所述的LIMS系统200和任何机器人和其它自动化系统或装置的元件可以通过计算机实施。举例来说,一些元件和功能
可以在本地实施且其它可以按通过不同服务器的网络分布方式(例如客户-服务器方式)实
施。具体地说,可以使服务器一侧的操作按软件即服务(SaaS)方式供多个客户使用,如图21中所示。
[0560] 术语组件在此背景中广泛地指软件、硬件或固件(或其任何组合)组件。组件典型地是能够利用所指定的输入来产生适用数据或其它输出的功能组件。组件可以是或可以不
是独立的。应用程序(也称为“应用”)可以包括一或多个组件,或组件可以包括一或多个应用程序。
[0561] 一些实施例包括所述组件中的一些、全部或悉缺以及其它模块或应用组件。再者,各种实施例可以将这些组件中的两种或更多种合并成单一模块且/或使这些组件中的一或多种的一部分功能与不同组件关联。
[0562] 术语“存储器”可以是用于存储信息的任何装置或机构。根据本公开的一些实施例,存储器旨在涵盖(但不限于):易失性存储器、非易失性存储器和动态存储器中的任何类型。举例来说,存储器可以是随机存取存储器、存储器存储装置、光学存储器装置、磁性媒体、软盘、磁带、硬盘驱动器、SIMM、SDRAM、DIMM、RDRAM、DDR RAM、SODIMMS、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、光盘、DVD和/或类似物。根据一些实施例,存储器可以包括一或多个磁盘驱动器、闪存驱动器、数据库、本地高速缓冲存储器、处理器高速缓存存储器、关系数据库、平面数据库、服务器、基于云端的平台和/或类似物。
另外,所属领域的技术人员将了解,可以使用存储信息的许多其它装置和技术作为存储器。
[0563] 存储器可以用于存储指令以便在处理器上运行一或多个应用程序或模块。举例来说,存储器在一些实施例中可以用于容纳执行本申请中所公开的一或多种模块和/或应用
程序的功能所需的全部或一些指令。
[0564] 基于基因设计预测的HTP微生物菌株工程:实例工作流程
[0565] 在一些实施例中,本公开教示了基于本公开的计算分析系统的建议对新宿主生物体进行定向工程改造。
[0566] 在一些实施例中,本公开与所有基因设计和克隆方法兼容。即,在一些实施例中,本公开教示了传统克隆技术的使用,如聚合酶链反应、限制酶消化、连接、同源重组、RT PCR以及所属领域中通常已知的其它技术,且公开于例如:萨布鲁克(Sambrook)等人(2001),分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)(第3版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),纽约普莱恩维尤(Plainview,New York),所述文献以引用的方式并入本文中。
[0567] 在一些实施例中,所克隆的序列可以包括来自本文所教示的任何HTP基因设计文库的可能性,例如:来自启动子交换文库的启动子、来自SNP交换文库的SNP、来自起始/终止密码子交换文库的起始或终止密码子、来自STOP交换文库的终止子、来自序列优化文库的
序列优化,或来自转座子诱变文库的转座子。
[0568] 另外,特定构筑体中应该包括的恰当序列组合可以通过上位定位功能知悉。
[0569] 在其它实施例中,所克隆的序列还可包括基于合理设计(假设驱动型)的序列和/或基于其它来源(如科学出版物)的序列。
[0570] 在一些实施例中,本公开教示了定向工程改造方法,包括如下步骤:i)产生定制的SNP特异性DNA;ii)组装SNP特异性质体;iii)用SNP特异性DNA转化目标宿主细胞;和iv)使任何选择标记环出(参见图2)。
[0571] 图4A描绘了本公开的菌株工程改造方法的通用工作流程,包括获取和组装DNA、组装载体、转化宿主细胞和去除选择标记。
[0572] 建构特异性DNA寡核苷酸
[0573] 在一些实施例中,本公开教示了插入和/或置换和/或改变和/或缺失宿主细胞生物体中的DNA区段。在一些方面中,本文教示的方法涉及建构将并入宿主生物体基因组中的所关注寡核苷酸(即,目标DNA区段)。在一些实施例中,本公开的目标DNA区段可以通过所属领域中已知的任何方法获得,包括:拷贝或从已知模板中切割、突变或DNA合成。在一些实施例中,本公开与用于产生目标DNA序列的市售基因合成产物(例如GeneArtTM、GeneMakerTM、GenScriptTM、AnagenTM、Blue HeronTM、EntelechonTM,GeNOsys有限公司,或QiagenTM)兼容。
[0574] 在一些实施例中,目标DNA区段经设计以将SNP并入宿主生物体的所选DNA区域中(例如添加有益SNP)。在其它实施例中,DNA区段经设计以从宿主生物体的DNA中去除SNP(例如去除有害或中性SNP)。
[0575] 在一些实施例中,本发明方法中所用的寡核苷酸可以使用所属领域中已知的任何酶或化学合成方法合成。寡核苷酸可以在固体载体上合成,所述固体载体如可控微孔玻璃
(CPG)、聚苯乙烯珠粒,或由可以含有CPG的热塑性聚合物组成的膜。寡核苷酸还能够在并行的微米尺度上、按阵列方式、使用微流体(田(Tian)等人,分子生物系统(Mol.BioSyst.),5,
714-722(2009))或提供两者组合的已知技术(参见雅各布森(Jacobsen)等人,美国专利申
请第2011/0172127号)合成。
[0576] 按阵列方式或通过微流体方式的合成优于传统固体载体合成之处在于通过减少试剂使用降低了成本。基因合成所需的规模低,因此通过阵列或通过微流体合成的寡核苷
酸产物的规模是可接受的。然而,所合成的寡核苷酸的质量低于使用固体载体合成时(参见田(Tian),见下文;也参见施泰勒(Staehler)等人,美国专利申请第2010/0216648号)。
[0577] 自从二十世纪八十年代首次描述了传统的四步亚磷酰胺化学方法以来,所述化学方法已经实现大量的进步(参见例如丝兹查勒(Sierzchala)等人,美国化学学会杂志
(J.Am.Chem.Soc.),125,13427-13441(2003),其使用过氧基阴离子脱除保护基;早川
(Hayakawa)等人,美国专利第6,040,439号,其关于替代保护基团;阿杂叶维(Azhayev)等
人,四面体(Tetrahedron)57,4977-4986(2001),其关于通用载体;考兹洛维(Kozlov)等人,核苷、核苷酸和核酸(Nucleosides,Nucleotides,and Nucleic Acids),24(5-7),1037-
1041(2005),其关于通过使用大孔隙CPG改良较长寡核苷酸的合成;以及丹哈(Damha)等人,NAR,18,3813-3821(1990),其关于改良的衍生化)。
[0578] 不论合成的类型,所得寡核苷酸接着可以形成较小的结构单元用于较长的寡核苷酸。在一些实施例中,较小寡核苷酸可以使用所属领域中已知的方案连接在一起,如聚合酶链组装体(PCA)、连接酶链反应(LCR)和热力学平衡的由内而外合成(TBIO)(参见兹阿尔
(Czar)等人,生物技术趋势(Trends in Biotechnology),27,63-71(2009))。在PCA中,在多个循环(典型地约55个循环)中使跨越所期望较长产物的整个长度的寡核苷酸粘接且延长
以最终获得全长产物。LCR使用连接酶将两个寡核苷酸连接,所述两个寡核苷酸均粘接到第三寡核苷酸。TBIO合成始于所期望产物的中心且通过使用重叠寡核苷酸而在两个方向上逐
渐地延长,所述重叠寡核苷酸与位于基因的5'端的正向链同源且与位于基因的3'端的反向
链非同源。
[0579] 另一种合成较大双链DNA片段的方法是通过顶端链PCR(TSP)合并较小寡核苷酸。在此方法中,多种寡核苷酸跨越所期望产物的整个长度且含有相邻寡核苷酸的重叠区域。
可以使用通用正向和反向引物执行扩增,且通过多个循环的扩增来形成全长双链DNA产物。
此产物接着可以经历任选的差错校正和进一步的扩增,产生所期望的双链DNA片段最终产
物。
[0580] 在TSP的一种方法中,经组合而形成所期望全长产物的较小寡核苷酸集合具有40-200个之间的碱基长度且彼此重叠至少约15-20个碱基。就实用目的来说,重叠区域的最小
长度应该足以确保寡核苷酸的特异性粘接且具有足够高的解链温度(Tm),以便在所用反应
温度下粘接。重叠可以延伸到所指定寡核苷酸被相邻寡核苷酸完全叠覆的点。重叠的量似
乎对最终产物的质量无任何影响。组装体中的第一个和最后一个寡核苷酸结构单元应该含
有正向和反向扩增引物的结合位点。在一个实施例中,第一个和最后一个寡核苷酸的末端
序列含有互补的相同序列以允许使用通用引物。
[0581] 组装/克隆定制质体
[0582] 在一些实施例中,本公开教示了构筑载体的方法,所述载体能够将所期望的目标DNA区段(例如含有特定SNP或转座子)插入宿主生物体的基因组中。在一些实施例中,本公
开教示了克隆载体的方法,所述载体包含目标DNA、同源臂和至少一个选择标记(参见图3)。
[0583] 在一些实施例中,本公开与适合于转化到宿主生物体中的任何载体相容。在一些实施例中,本公开教示了与宿主细胞相容的穿梭载体的使用。在一个实施例中,本文所提供的方法中使用的穿梭载体是与大肠杆菌和/或棒状杆菌属宿主细胞相容的穿梭载体。本文
所提供的方法中使用的穿梭载体可以包含如本文所述用于选择和/或反向选择的标记。标
记可以是所属领域中已知和/或本文提供的任何标记。穿梭载体可进一步包含适用于组装
所述穿梭载体的任何调节序列和/或序列,如所属领域已知。穿梭载体可进一步包含任何复制起点,所述复制起点可以是在如本文所提供的宿主细胞(例如大肠杆菌或谷氨酸棒状杆
菌)中繁殖所需要的。调节序列可以是所属领域中已知或本文提供的任何调节序列,例如宿主细胞的基因机器所用的启动子、起始、终止、信号、分泌和/或终止序列。在某些情况下,可以将目标DNA插入获自任何储存库或目录产物的载体、构筑体或质体中,如商业载体(参见
例如DNA2.0定制版或 载体)。在某些情况下,可以将目标DNA插入获自任何储
存库或目录产物的载体、构筑体或质体中,如商业载体(参见例如DNA2.0定制版或
载体)。
[0584] 在一些实施例中,本公开的组装/克隆方法可以采用以下组装策略中的至少一种:i)II型传统克隆;ii)II S型介导或“金门控”克隆(参见例如恩格勒C.(Engler,C.),R.康德兹(R.Kandzia)和S.马里约内(S.Marillonnet),2008,“具有高通量能力的一锅一步精确克隆方法(A one pot,one step,precision cloning method with high-throughput 
capability)”,公共科学图书馆综合卷(PLos One)3:e3647;科特纳I.(Kotera,I.)和T.长井(T.Nagai),2008,“使用DNA聚合酶抑制剂和IIS型限制酶对粗PCR产物的高通量单管式重组(A high-throughput and single-tube recombination of crude PCR products 
using a DNA polymerase inhibitor and type IIS restriction enzyme)”,生物技术杂志(J Biotechnol)137:1-7.;韦伯E.(Weber,E.),R.格鲁兹勒(R.Gruetzner),S.沃尔纳
(S.Werner),C.恩格勒(C.Engler)和S.马里约内(S.Marillonnet),2011,通过金门控克隆组装设计者TAL效应子(Assembly of Designer TAL Effectors by Golden Gate 
Cloning),公共科学图书馆综合卷6:e19722);iii) 重组;iv) 克隆、核
酸外切酶介导组装(艾斯兰迪斯(Aslanidis)和德迥(de Jong),1990,“PCR产物的连接非依赖性克隆(LIC-PCR)(Ligation-independent cloning of PCR products(LIC-PCR))”,核
酸研究(Nucleic Acids Research),第18卷,第20 6069期);v)同源重组;vi)非同源末端连接;vii)吉布森组装(Gibson assembly)(吉布森(Gibson)等人,2009,“长达数百个千碱基的DNA分子的酶促组装(Enzymatic assembly of DNA molecules up to several hundred 
kilobases)”,自然方法(Nature Methods),6,343-345)或其组合。基于IIS型的模块化组装策略公开于PCT公开WO 2011/154147中,其公开内容以引用的方式并入本文中。
[0585] 在一些实施例中,本公开教示了具有至少一个选择标记的克隆载体。各种选择标记基因在所属领域中已知,其通常编码抗生素抗性功能以便在原核细胞(例如针对安比西
林(ampicillin)、卡那霉素(kanamycin)、四环素(tetracycline)、氯胺苯醇
(chloramphenicol)、匀霉素(zeocin)、观霉素/链霉素(spectinomycin/streptomycin))或真核细胞(例如遗传霉素(geneticin)、新霉素(neomycin)、潮霉素(hygromycin)、嘌呤霉素(puromycin)、杀稻瘟菌素(blasticidin)、匀霉素)中、在选择性压力下进行选择。其它标记系统实现了所需或非所需细胞的筛选和鉴别,如众所周知的蓝/白斑筛选系统,其在细菌中用于在X-gal或萤光报导子(如成功转导的宿主细胞中所表达的绿色或红色荧光蛋白)存在
下选择阳性克隆。另一类选择标记(其中大部分在原核生物系统中仅具功能性)是指反向可
选标记基因,通常也称为“死亡基因”,其表达杀死生产者细胞的毒性基因产物。这类基因的实例包括sacB、rpsL(strA)、tetAR、pheS、thyA、gata-1或ccdB,其功能描述于(雷拉特
(Reyrat)等人,1998,“反向可选标记:细菌遗传学和发病机理的未使用工具
(Counterselectable Markers:Untapped Tools for Bacterial Genetics and 
Pathogenesis)”,感染与免疫(Infect Immun.),66(9):4011-4017)。
[0586] 原生质体产生方法
[0587] 在一个实施例中,本文提供的方法和系统利用丝状真菌细胞产生原生质体。适用于制备原生质体的程序可以是所属领域中已知的任何程序,包括例如EP 238,023和耶尔顿
(Yelton)等人(1984,美国国家科学院院刊81:1470-1474)中所述的那些程序。在一个实施
例中,原生质体是通过用一或多种溶胞酶或其混合物处理丝状真菌细胞培养物来产生。溶
胞酶可以是β-葡聚糖酶和/或聚半乳糖醛酸苷酶。在一个实施例中,用于产生原生质体的酶混合物是VinoTaste浓缩物。酶处理之后,可以使用所属领域中已知的方法(例如离心)分离出原生质体。
[0588] 可以改变预培育和实际原生质体产生步骤以优化原生质体数目和转化效率。举例来说,可以改变接种物尺寸、接种方法、预培育培养基、预培育时间、预培育温度、混合条件、洗涤缓冲液组成、稀释比率、溶胞酶处理期间的缓冲液组成、所用溶胞酶的类型和/或浓度、与溶胞酶一起培育的时间、原生质体洗涤程序和/或缓冲液、原生质体和/或聚核苷酸和/或转化试剂在实际转化期间的浓度、转化期间的物理参数、转化至所得转化体之后的程序。
[0589] 可以将原生质体再悬浮于渗透性稳定缓冲液中。这类缓冲液的组成可以根据菌种、应用和需要改变。然而,这些缓冲液典型地含有0.5与2M之间的有机组分,如蔗糖、柠檬酸盐、甘露醇或山梨糖醇。更优选0.75与1.5M之间;最优选1M。另外,这些缓冲液含有浓度在
0.1M与1.5M之间的无机渗透性稳定组分,如KCl、MgSO4、NaCl或MgCl2。优选0.2M与0.8M之间;
更优选0.3M与0.6M之间,最优选0.4M。最优选的稳定缓冲液是STC(山梨糖醇,0.8M;CaCl2,
25mM;Tris,25mM;pH 8.0)或KCl-柠檬酸盐(KCl,0.3-0.6M;柠檬酸盐,0.2%(w/v))。原生质体的使用浓度可以在1×105与1×1010个细胞/毫升之间。浓度优选在1×106与1×109个细
胞/毫升之间;浓度更优选在1×107与5×108个细胞/毫升之间;浓度最优选1×108个细胞/
毫升。DNA的使用浓度在0.01μg与10μg之间;优选在0.1μg与5μg之间,甚至更优选在0.25μg与2μg之间;最优选在0.5μg与1μg之间。为了提高转染效率,可以将载剂DNA(如鲑精子DNA或非编码载体DNA)添加到转化混合物中。
[0590] 在一个实施例中,在产生和随后分离之后,将原生质体与一或多种低温保护剂混合。低温保护剂可以是二醇、二甲亚砜(DMSO)、多元醇、糖类、2-甲基-2,4-戊二醇(MPD)、聚乙烯吡咯烷酮(PVP)、甲基纤维素、C连接型防冻糖蛋白(C-AFGP)或其组合。在本文提供的方法和系统中用作低温保护剂的二醇可以选自乙二醇、丙二醇、聚丙二醇(PEG)、甘油或其组合。在本文提供的方法和系统中用作低温保护剂的多元醇可以选自丙-1,2-二醇、丙-1,3-
二醇、1,1,1-三-(羟基甲基)乙烷(THME)和2-乙基-2-(羟基甲基)-丙-1,3-二醇(EHMP)或其
组合。在本文提供的方法和系统中用作低温保护剂的糖类可以选自海藻糖、蔗糖、葡萄糖、棉籽糖、右旋糖或其组合。在一个实施例中,将原生质体与DMSO混合。DMSO可以按至少、至多、小于、大于、等于或约1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、12.5%、15%、
20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%或75%w/v或v/v的最终浓度与原生质体混合。可以将原生质体/低温保护剂(例如DMSO)混合物分布到微量滴定盘中
再储存。原生质体/低温保护剂(例如DMSO)混合物可以在本文提供的任何温度(如-20℃或-
80℃)下储存如本文所提供的长期储存时间(例如数小时、数日、数周、数月、数年)。在一个实施例中,将额外的低温保护剂(例如PEG)添加到原生质体/DMSO混合物中。在又另一个实
施例中,将额外的低温保护剂(例如PEG)添加到原生质体/DMSO混合物中再储存。PEG可以是本文提供的任何PEG且可以在如本文所提供的任何浓度(例如w/v或v/v)下添加。
[0591] 原生质体转化方法
[0592] 在一个实施例中,本文提供的方法和系统需要将核酸如本文所述转移到来源于丝状真菌细胞的原生质体中。在另一个实施例中,本文中提供的方法和系统中所用的转化具
有高通量性质且/或如本文所述是部分或完全自动化的。除此实施例之外,如下执行转化:
将如本文所述的构筑体或表达构筑体添加到微量滴定盘的孔中,随后将利用本文所提供的
方法产生的原生质体等分到微量滴定盘的每个孔中。适用于转化/转染原生质体的程序可
以是所属领域中已知的任何程序,包括例如以下文献中所述的那些程序:国际专利申请
PCT/NL99/00618、PCT/EP99/202516;芬科斯坦(Finkelstein)和波耳(Ball)(编),丝状真菌的生物技术:技术和产物(Biotechnology of filamentous fungi,technology and 
products),巴特沃斯-海涅曼(Butterworth-Heinemann)(1992),班尼特(Bennett)和那苏
尔(Lasure)(编),对真菌的更多基因操控(More Gene Manipulations in fungi),学术出
版社(Academic Press)(1991),特纳(Turner),于:普勒(Puhler)(编),生物技术
(Biotechnology),第二完整修订版,VHC(1992);如EP635574B中所述的原生质体融合以及Ca-PEG介导的原生质体转化。或者,丝状真菌宿主细胞或来源于其的原生质体的转化还能
够利用以下方式执行:电穿孔,例如查克拉波提(Chakraborty)和卡普尔(Kapoor),核酸研究18:6737(1990)中所述的电穿孔;根癌农杆菌介导的转化;生物弹道引入DNA,例如如克里斯丁森(Christiansen)等人,当代遗传学(Curr.Genet.)29:100 102(1995);杜兰德
(Durand)等人,当代遗传学31:158 161(1997);和巴塞罗斯(Barcellos)等人,加拿大微生物学杂志(Can.J.Microbiol.)44:1137 1141(1998)中所述;或“磁力生物弹道”转染细胞,例如美国专利第5,516,670号和第5,753,477号中所述。在一个实施例中,本文提供的方法
和系统中所用的转化程序是如本文所提供的可修正成高通量且/或自动化进行的转化程
序,例如PEG介导的转化。
[0593] 使用本文所述方法产生的原生质体的转化可以通过使用所属领域中已知的任何转化试剂促进。适合的转化试剂可以选自聚乙二醇(PEG)、 HD(得自罗氏
(Roche))、 (得自英杰公司(Invitrogen))、
(得自新英格兰生物实验室(New England Biolabs))、
(得自英伟杰公司(Invivogen))。在一个实施例中,PEG是最优选的转化/转染
试剂。PEG可按不同分子量获得且可以在不同浓度下使用。PEG 4000优选在10%与60%之间使用,更优选在20%与50%之间使用,最优选在30%使用。在一个实施例中,将PEG添加到原生质体中后再储存,如本文所述。
[0594] 宿主细胞的转化
[0595] 在一些实施例中,可以使用多种技术中的任一种将本公开的载体引入宿主细胞中,所述技术包括转化、转染、转导、病毒感染、基因枪或Ti介导的基因转移(参见克里斯蒂P.J.(Christie,P.J.)和戈登J.E.(Gordon,J.E.),2014“农杆菌Ti质体(The 
Agrobacterium Ti Plasmids)”,微生物学谱(Microbiol SPectr.),2014;2(6);10.1128)。
特定方法包括磷酸钙转染、DEAE-聚葡萄糖介导转染、脂质体转染或电穿孔(戴维斯L.
(Davis,L.),迪波乐M.(Dibner,M.),巴特I.(Battey,I.),1986“分子生物学的基本方法
(Basic Methods in Molecular Biology)”)。其它转化方法包括例如乙酸锂转化和电穿
孔。参见例如杰兹(Gietz)等人,核酸研究(Nucleic Acids Res.),27:69-74(1992);伊藤(Ito)等人,细菌学杂志(J.Bacterol.)153:163-168(1983);和贝克尔(Becker)和加伦特
(Guarente),酶学方法(Methods in Enzymology)194:182-187(1991)。在一些实施例中,转化的宿主细胞称为重组宿主菌株。
[0596] 在一些实施例中,本公开教示了使用本公开的96孔盘机器人平台和液体处理机器高通量转化细胞。
[0597] 在一些实施例中,本公开教示了用如上文所述的一或多种选择标记筛选已转化的细胞。在一个此类实施例中,将经包含卡那霉素抗性标记(KanR)的载体转化的细胞涂铺于
含有有效量的卡那霉素抗生素的培养基上。推测加入卡那霉素的培养基上可见的菌落形成
单位,以将载体盒并入其基因组中。所期望序列的插入可以通过PCR、限制酶分析和/或相关插入位点的测序来证实。
[0598] 所选序列的环出
[0599] 在一些实施例中,本公开教示了使DNA的所选区域从宿主生物体中环出的方法。环出方法可以如中岛(Nakashima)等人,2014“通过基因组编辑和基因静默进行的细菌细胞工程改造(Bacterial Cellular Engineering by Genome Editing and Gene Silencing)”,国际分子科学杂志(Int.J.Mol.Sci.)15(2),2773-2793中所述。在一些实施例中,本公开教示了使选择标记从阳性转化体中环出。环出缺失技术在所属领域中已知,且描述于(替尔
(Tear)等人,2014“不稳定人工基因特异性反向重复序列的切除介导了大肠杆菌中的无痕
基因缺失(Excision of Unstable Artificial Gene-Specific inverted Repeats 
Mediates Scar-Free Gene Deletions in Escherichia coli)”,应用生物化学和生物技
术(Appl.Biochem.Biotech.)175:1858-1867)。本文所提供的方法中使用的环出方法可以
使用单一互换型同源重组或双重互换型同源重组执行。在一个实施例中,所选区域如本文
所述环出可能需要使用如本文所述的单一互换型同源重组。
[0600] 首先,将环出载体插入宿主生物体基因组内的所选目标区域中(例如通过同源重组、CRISPR或其它基因编辑技术)。在一个实施例中,单一互换型同源重组是在圆形质体或载体与宿主细胞基因组之间使用,以便使圆形质体或载体环入,如图3中所描绘。所插入的载体可以使用作为现有或邻近引入的宿主序列的直接重复序列的序列设计,以便直接重复
序列侧接预定成环和缺失的DNA区域。一经插入,可以根据选择区域的缺失来反向选择含有环出质体或载体的细胞。
[0601] 所属领域中的技术人员将认识到,环出程序的描述仅展示了使非所需区域从基因组中缺失的一种说明性方法。的确,本公开的方法与用于基因组缺失的任何方法兼容,包括(但不限于)通过CRISPR、TALENS、FOK或其它核酸内切酶进行的基因编辑。所属领域的技术人员还将了解通过同源重组技术能够置换基因组的非所需区域。
[0602] 实例
[0603] 以下实例是为了说明本公开的各种实施例而提供且不希望以任何方式限制本公开。所属领域的技术人员将认识到,其中的变化和其它用途涵盖于由权利要求书范围限定
的本公开精神内。
[0604] 下文提供目录简表仅为了帮助读者。此目录不希望限制本申请的实例或公开内容的范围。
[0605] 表4-实例章节的目录
[0606]
[0607] 实例1-HTP基因组工程-建构转座子诱变文库以改良糖多孢菌属的菌株性能
[0608] 这个实例描述了一种通过活体内转座子诱发刺糖多孢菌突变来产生菌株文库的方法。可以筛选所得文库以鉴别出改良的表型(例如特定化合物(例如刺糖菌素)的效价)的
菌株。
[0609] 菌株能够进一步用于多轮循环工程或解译促成菌株性能的基因型。文库中的菌株还可以与具有不同基因扰动的其它菌株合并使用,以便产生改良的菌株,所述菌株对一或
多种所期望化合物的产生增加。
[0610] 因此,本公开描述了一种利用刺糖多孢菌的EZ-Tn5转座体系统(Epicenter Bio)创建转座子诱变微生物菌株文库的方法。首先将转座酶与侧接镶嵌元件(ME)序列的DNA有
效负载序列复合,且然后使所得蛋白质-DNA复合物在细胞中转化。由此使得DNA有效负载随机整合到生物体基因组DNA中。
[0611] 视所引入的有效负载而定,能够产生功能丧失型(LoF)文库或功能获得型(GoF)文库。
[0612] 功能丧失型(LoF)转座子文库-可以改变有效负载的序列以诱发多种多样的表型响应。在功能丧失型(LoF)文库的基本情况下,这种有效负载包含允许选择成功的转座子整合事件的标记。
[0613] 随机功能丧失型突变可以在微生物中在活体内利用Tn5转座酶系统(EZ-Tn5;)产生以创建转座子诱变文库。EZ-Tn5转座酶系统是稳定的且能够通过电穿孔
引入活微生物中。转座子系统一旦引入细胞中,即被宿主细胞中的Mg2+活化且将转座子随
机插入宿主基因组DNA中。
[0614] 功能获得型(GoF)转座子文库-为了创建GoF文库,根据基本情况构建基因有效负载的更复杂化身,通过并入附加的特征(例如启动子元件或溶解性标签(在这种情况下,称
为功能获得型溶解性标签转座子))和反向可选标记以促进含有可选标记的有效负载的一
部分环出,从而允许连续的转座子诱变(在这种情况下,称为功能获得型可再循环转座子)。
这些实施方案合起来能够创建多种多样的文库以改良宿主表型。
[0615] 用于本公开的转座子的非限制性示例性构筑体展示于图25中,且代表性功能丧失型(LoF)转座子、功能获得型(GoF)转座子、功能获得型可再循环转座子和功能获得型溶解
性标签转座子的序列分别作为SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19和SEQ ID NO:
20提供。
[0616] 这些转座子能够与转座酶复合且在细胞中转化。所得细胞随机整合有DNA有效负载,从而形成转座子诱变微生物菌株文库。可以根据本文所述的HTP程序进一步筛选文库且针对表型改良进行评估。可以根据本公开中所述的任何方法分离具有所期望的表型(由于
转座子整合)的菌株用于进一步表征和进一步工程改造。
[0617] 举例来说,能够针对亲代菌株筛选LoF转座子文库和GoF转座子文库,且能够分析性能数据(刺糖菌素的效价)。这些文库中所产生的一些新菌株相较于亲代菌株将具有改良
的性能。
[0618] 本文所述的方法解决了两个主要问题。首先,即使在充分研究的生物体中,对大部分基因组概貌的了解仍不充分。还已经注意到,充分了解的基因元件可以未预期的方式相互作用。为此目的,本公开提供诱发表型扰动的有效基因工程方法。其次,在缓慢生长或遗传上顽抗的生物体的情况下,尤其是具有大基因组的那些生物体,对所有可能的基因目标
执行靶向基因扰动可能受到时间或成本的制约。本公开提供了产生具有扰动的基因组的有
效方式,其使所述菌株产生所期望化合物的性能改良。因此,本公开通过利用活体内转座子诱变容易且随机调节宿主生物体基因元件的方法解决了这些问题。以这种方式,具有不同
突变(功能获得和功能丧失)的菌株文库能够极快速地制备且能够涉及新基因目标以进一
步改良宿主表型。
[0619] 实例2-HTP基因组工程-建构转座子诱变文库以改良大肠杆菌的菌株性能
[0620] 可以执行转座子诱变以产生大肠杆菌随机菌株文库,从而改良菌株。这些菌株文库能够针对所期望表型(例如色氨酸产量)加以筛选,以鉴别性能改良的突变体。
[0621] 大肠杆菌突变体文库可以通过来应用EZ-Tn5转座子系统来产生。简单来说,将EZ-Tn5转座酶与侧接嵌合元件序列的有效负载DNA一起培育,以使EZ-Tn5转座酶与DNA复合,从而形成转座体。然后通过电穿孔使DNA/蛋白质转座体复合物在大肠杆菌中转化,且EZ-Tn5
转座酶催化有效负载DNA随机整合到大肠杆菌基因组中,从而产生菌株变异体随机文库。
[0622] 能够进一步改变有效负载DNA的特定序列以偏向于转座子插入目标基因组所致的功能丧失(LoF)或功能获得(GoF)效应。功能丧失能够通过将抗生素选择标记纳入DNA有效
负载中来完成。抗生素标记允许选择其中插入生产性转座子的细胞。DNA有效负载的插入可以中断以不同方式插入的DNA的功能,包括(但不限于)中断开放阅读框架,从而阻止被中断的基因翻译。
[0623] 功能获得能够通过将抗生素标记和强启动子纳入DNA有效负载中来完成。抗生素标记允许选择其中插入生产性转座子的细胞。DNA有效负载的插入可以通过强启动子的作
用来增强邻近于插入位点的基因的表达。
[0624] 除选择标记之外,功能丧失或功能获得型DNA有效负载可以进一步含有反向选择标记,以能够进行标记再循环且从而进一步进行多轮工程改造。
[0625] 能够针对所期望表型筛选通过这种转座子诱变所产生的菌株变异体文库。菌株能够高通量培养和测试,以鉴别出相对于亲代菌株具有改良的所期望表型的菌株。
[0626] 可以对改良的菌株变异体进行额外多轮循环工程改造以进一步改良所期望表型(例如色氨酸产量)。额外多轮工程改造可以由转座子诱变或本文所述的其它文库类型组
成,例如SNP交换、PRO交换或随机诱变。改良的菌株还可以与展现改良的表型的其它菌株变异体合并,以通过不同有益突变的相加效应产生进一步改良的菌株。
[0627] 这些类型的转化使得构建用于在循环工程改造时筛选的高质量文库所涉及的成本降低。施加到大肠杆菌的转座子诱变能够通过单一反应产生数千个全基因组功能丧失或
功能获得型突变体。一种替代的方法是通过单一交叉同源重组(SCHR)费力地构筑数千个指
定质体来对菌株进行工程改造。另一种替代方法是通过lambda red重组工程构筑数千个指
定线性片段以对菌株进行工程改造。这两种替代方法都是昂贵的,因为其需要产生含有预
定有效负载DNA的每个突变体的独特DNA片段且需要序列同源性将重组引导到目标基因组
上的特定位置。相反,转座子诱变是利用单一DNA有效负载,通过随机整合于目标基因组中来产生多样性。
[0628] 本公开的编号实施例
[0629] 不管所附权利要求书,本公开阐述了以下编号实施例:
[0630] 使用和创建转座子诱变文库的方法:
[0631] 1.一种使微生物进化以获得所期望表型的高通量(HTP)基因组工程改造方法,包含:
[0632] a.利用转座子诱变扰动具有相同微生物菌株背景的初始多种微生物的基因组,借此创建包含具有独特基因变异的个别微生物菌株的初始HTP基因设计转座子诱变微生物菌
株文库;
[0633] b.根据所期望表型来筛选和选择初始HTP基因设计转座子诱变微生物菌株文库中的个别菌株;
[0634] c.提供各自包含独特基因变异组合的后续多种微生物,所述基因变异选自前一步骤所筛选的至少两种个别菌株中存在的基因变异,借此创建后续HTP基因设计转座子诱变
微生物菌株文库;
[0635] d.根据所期望表型来筛选和选择后续HTP基因设计转座子诱变微生物菌株文库中的个别微生物菌株;和
[0636] e.以线性或非线性方式重复执行步骤c)-d)一或多次,直到微生物已获取所期望表型为止,其中每次后续迭代创建新的HTP基因设计转座子诱变微生物菌株文库,所述微生物菌株文库包含具有独特基因变异的个别菌株,所述独特基因变异为选自前一个HTP基因
设计转座子诱变微生物菌株文库的至少两种个别菌株的基因变异的组合。
[0637] 2.根据实施例1的HTP基因组工程改造方法,其中所述转座子诱变包含提供转座酶和DNA有效负载序列。
[0638] 3.根据任一前述实施例的HTP基因组工程改造方法,其中所述转座酶和DNA有效负载序列形成转座酶-DNA有效负载复合物。
[0639] 4.根据任一前述实施例的HTP基因组工程改造方法,其中所述转座子诱变使得转座子随机插入多种微生物的基因组中。
[0640] 5.根据任一前述实施例的HTP基因组工程改造方法,其中所述转座子诱变产生功能丧失(LoF)表型。
[0641] 6.根据实施例1到4中的任一实施例的HTP基因组工程改造方法,其中所述转座子诱变产生功能获得(GoF)表型。
[0642] 7.根据实施例1到4和6中的任一例的HTP基因组工程改造方法,其中所述转座子诱变使含有功能获得型(GoF)元件的DNA有效负载序列插入所述基因组中。
[0643] 8.根据实施例7的HTP基因组工程改造方法,其中所述功能获得型元件选自由以下组成的群组:启动子、溶解性标签元件,和反向可选标记。
[0644] 9.根据实施例1到5中的任一实施例的HTP基因组工程改造方法,其中所述转座子诱变使含有功能丧失型(LoF)元件的DNA有效负载复合物插入。
[0645] 10.根据实施例9的HTP基因组工程改造方法,其中所述功能丧失型元件是标记。
[0646] 11.根据任一前述实施例的HTP基因组工程改造方法,其中所述转座子诱变包含用至少两种转座酶-DNA有效负载复合物转化所述多种微生物,所述至少两种复合物中的一种
含有功能获得型(GoF)元件且一种含有功能丧失型(LoF)元件。
[0647] 12.根据任一前述实施例的HTP基因组工程改造方法,其中所述转座子诱变是利用EZ-Tn5转座子诱变系统。
[0648] 13.根据任一前述实施例的HTP基因组工程改造方法,其中所述基因组是通过利用转座子诱变和以下中的至少一种来扰动:SNP交换、启动子交换、终止子交换、序列优化或其任何组合。
[0649] 14.一种产生转座子诱变微生物菌株文库的方法,包含
[0650] a)将转座子引入一或多种基本微生物菌株的微生物细胞群中;以及
[0651] b)选择包含随机整合的转座子的至少一种微生物菌株,借此创建包含多种个别微生物菌株的初始转座子诱变微生物菌株文库,所述多种个别菌株的每种菌株内发现独特基
因变异,其中所述独特基因变异各自包含一或多种随机整合的转座子。
[0652] 15.根据实施例14的方法,进一步包含:
[0653] c)从转座子诱变微生物菌株文库中选择出实测表型变量的性能相较于基本微生物菌株表型性能增强的菌株。
[0654] 16.根据实施例14到15中任一实施例的方法,其中利用转座子和转座酶蛋白质的复合物将所述转座子引入所述基本微生物菌株中,所述复合物允许所述转座子活体内转座
至基本微生物菌株的基因组中。
[0655] 17.根据实施例14到16中任一实施例的方法,其中所述转座酶蛋白质来源于EZ-Tn5转座体系统。
[0656] 18.根据实施例14到17中任一实施例的方法,其中所述转座子是功能丧失型(LoF)转座子或功能获得型(GoF)转座子。
[0657] 19.根据实施例18的方法,其中所述功能丧失型转座子包含标记。
[0658] 20.根据实施例19的方法,其中所述标记是反向可选标记。
[0659] 21.根据实施例18的方法,其中所述功能获得型转座子包含溶解性标签、启动子或反向选择标记。
[0660] 22.一种用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,包含以下步骤:
[0661] a.通过转座子诱变对基本微生物菌株的基因组进行工程改造,借此创建包含多种个别菌株的初始转座子诱变微生物菌株文库,所述多种个别菌株的每种菌株内发现独特基
因变异,其中所述独特基因变异各自包含一或多种转座子;
[0662] b.根据相对于参考菌株的表型性能改良,筛选和选择初始转座子诱变微生物菌株文库中的个别微生物菌株,借此鉴别赋予表型性能改良的独特基因变异;
[0663] c.提供各自包含独特基因变异组合的后续多种微生物菌株,所述独特基因变异来自前一步骤所筛选的至少两种个别菌株中存在的基因变异,借此创建后续转座子诱变微生
物菌株文库;
[0664] d.根据相对于参考微生物菌株的表型性能改良,筛选和选择后续转座子诱变微生物菌株文库中的个别菌株,借此鉴别出赋予额外表型性能改良的独特基因变异组合;以及
[0665] e.以线性或非线性方式重复执行步骤c)-d)一或多次,直到菌株相较于生产性微生物菌株的表型性能展现经改良的表型性能的期望水平,其中每次后续迭代创建新的转座
子诱变微生物菌株文库,其中新文库中的每种微生物菌株包含基因变异,所述基因变异是
选自前一个文库的至少两种个别微生物菌株的基因变异组合。
[0666] 23.根据实施例22的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述后续转座子诱变微生物菌株文库是初始转座子诱变微生物菌株文库的部分组
合文库。
[0667] 24.根据实施例22的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述后续转座子诱变微生物菌株文库是初始转座子诱变微生物菌株文库的完整组
合文库的子集。
[0668] 25.根据实施例22或实施例23的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述后续转座子诱变微生物菌株文库是前一个转座子诱变微生物菌株
文库的部分组合文库。
[0669] 26.根据实施例22或实施例24的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述后续转座子诱变微生物菌株文库是前一个转座子诱变微生物菌株
文库的完整组合文库的子集。
[0670] 27.根据实施例22到26中任一实施例的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中重复执行步骤c)-d)直到后续转座子诱变微生物菌株文库的微生
物菌株的表型性能在实测表型变量上相较于生产性微生物菌株的表型性能展现至少10%
增强。
[0671] 28.根据实施例22到27中任一实施例的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中重复执行步骤c)-d)直到后续转座子诱变微生物菌株文库的微生
物菌株的表型性能在实测表型变量上相较于生产性微生物菌株的表型性能展现至少一倍
的增强。
[0672] 29.根据实施例22到28中任一实施例的用于改良生产菌株的表型性能的HTP转座子诱变方法,其中步骤e)的经改良的表型性能选自由以下组成的群组:所关注产物的体积
生产率、所关注产物的比生产率、所关注产物的产量、所关注产物的效价、所关注产物的生产增加或更有效,所关注产物选自由以下组成的群组:小分子、酶、肽、氨基酸、有机酸、合成化合物、燃料、乙醇、初级细胞外代谢物、二级细胞外代谢物、细胞内组分分子,和其组合。
[0673] 30.根据实施例22到29中任一实施例的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述转座子是功能丧失型(LoF)转座子或功能获得型(GoF)转座
子。
[0674] 31.根据实施例30的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述功能丧失型转座子含有标记或反向可选标记。
[0675] 32.根据实施例30的用于改良生产性微生物菌株的表型性能的HTP转座子诱变方法,其中所述功能获得型转座子含有启动子、溶解性标签,或反向可选标记。
[0676] 33.根据实施例9的HTP基因组工程改造方法,其中所述标记是反向可选标记。
[0677] 编号实施例的上述方法能够在原核生物或真核生物中进行。举例来说,所述方法能够在选自以下属的宿主细胞中进行:农杆菌属(Agrobacterium)、脂环酸芽孢杆菌属
(Alicyclobacillus)、念珠藻属(Anabaena)、倒囊藻属(Anacystis)、不动杆菌属
(Acinetobacter)、酸热菌属(Acidothermus)、节杆菌属(Arthrobacter)、固氮菌属
(Azobacter)、芽孢杆菌属(Bacillus)、双叉杆菌属(Bifidobacterium)、短杆菌属
(Brevibacterium)、丁酸弧菌属(Butyrivibrio)、布赫纳氏菌属(Buchnera)、野油菜
(Campestris)、弯曲杆菌属(Camplyobacter)、梭菌属(Clostridium)、棒状杆菌属
(Corynebacterium)、红硫菌属(Chromatium)、粪球菌属(Coprococcus)、埃希氏杆菌属
(Escherichia)、肠球菌属(Enterococcus)、肠杆菌属(Enterobacter)、欧文菌属
(Erwinia)、梭杆菌属(Fusobacterium)、粪栖杆菌属(Faecalibacterium)、弗朗西斯氏菌属(Francisella)、黄杆菌属(Flavobacterium)、土芽孢杆菌属(Geobacillus)、嗜血杆菌属
(Haemophilus)、螺旋杆菌属(Helicobacter)、克雷伯氏菌属(Klebsiella)、乳杆菌属
(Lactobacillus)、乳球菌属(Lactococcus)、泥杆菌属(Ilyobacter)、微球菌属
(Micrococcus)、微杆菌属(Microbacterium)、中间根瘤菌属(Mesorhizobium)、甲基杆菌属(Methylobacterium)、甲基杆菌属(Methylobacterium)、分枝杆菌属(Mycobacterium)、奈瑟菌属(Neisseria)、泛菌属(Pantoea)、假单胞菌属(Pseudomonas)、原绿球藻属
(Prochlorococcus)、红细菌属(Rhodobacter)、红假单胞菌属(Rhodopseudomonas)、红假单胞菌属(Rhodopseudomonas)、罗斯氏菌属(Roseburia)、红螺菌属(Rhodospirillum)、红球菌属(Rhodococcus)、栅列藻属(Scenedesmus)、链霉菌属(Streptomyces)、链球菌属
(Streptococcus)、聚球藻属(Synecoccus)、糖单孢菌属(Saccharomonospora)、糖多孢菌属(Saccharopolyspora)、葡萄球菌属(Staphylococcus)、沙雷氏菌属(Serratia)、沙门氏菌属(Salmonella)、志贺杆菌属(Shigella)、嗜热厌氧杆菌属(Thermoanaerobacterium)、养障体(Tropheryma)、土拉热菌属(Tularensis)、蒂梅丘拉(Temecula)、嗜热聚球藻属
(Thermosynechococcus)、热球菌属(Thermococcus)、脲原体属(Ureaplasma)、黄单胞菌属(Xanthomonas)、木杆菌属(Xylella)、耶尔森氏菌属(Yersinia)和发酵单胞菌属
(Zymomonas)。
[0678] 表5-本公开的序列
[0679]
[0680]
[0681] *****
[0682] 以引用的方式并入
[0683] 本文中所引用的所有参考文献、论文、公开、专利、专利公开以及专利申请以全文引用的方式并入用于所有目的。然而,本文引用的任何参考文献、论文、公开、专利、专利公开以及专利申请的提及不视为并且不应该视为承认或以任何形式表明其构成有效的现有技术或形成世界上任何国家的公共常识的一部分。
[0684] 另外,以下特定申请以引用的方式并入本文中:美国申请第15/396,230号(美国公开第US 2017/0159045A1号);PCT/US2016/065465(WO 2017/100377A1);美国申请第15/
140,296号(US 2017/0316353A1);PCT/US2017/029725(WO 2017/189784A1);PCT/US2016/
065464(WO 2017/100376A2);美国临时申请第62/431,409号;美国临时申请第62/264,232
号;和美国临时申请第62/368,786号。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈