首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 高表达基因组合和其他生物组分组合的计算机模拟预测

高表达基因组合和其他生物组分组合的计算机模拟预测

申请号 CN201180053009.3 申请日 2011-11-03 公开(公告)号 CN103189550A 公开(公告)日 2013-07-03
申请人 先正达参股股份有限公司; 发明人 L·波特; M·努西奥; R·德怀尔;
摘要 描述了用于对影响一种 生物 过程的候选生物组分和/或生物组分组合进行选择的系统和方法。一个计算装置可以使用一个计算机模型来模拟该生物过程并且预测一个表型结果。可以使用该计算机模型来确定候选组分和组合的影响。该计算装置可以确定可产生如通过该计算机模型所预测的该生物过程的一个令人希望的表型结果的生物组分的最佳特征(如表达 水 平)。该计算装置可以执行围绕这些最佳特征的灵敏度分析。该灵敏度分析可以用来确定这些候选组合是否在这些最佳特征的范围内具有鲁棒性。该计算装置可以基于该灵敏度分析和所预测的表型结果来选择各种候选组分和组合。
权利要求

1.一种用于选择各自影响一种生物过程的候选组分组合的计算机实施方法,该方法包括:
对于多个组合中的每一个,其中该多个组合各自包括多个组分,该多个组分各自直接地或间接地影响该生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测,
通过至少一个计算装置的一个或多个处理器,基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定该多个组分中每一个的该最佳特征;
对于该多个组合中的每一个,通过该至少一个计算装置,使用该计算机模型确定该多个组合中的每一个围绕与该相应多个组分中的每一个相关的这些最佳特征的灵敏度;以及出于制造展现出或将展现该表型结果的一种生物产品的目的,基于该表型结果和对应于该多个组合中每一个所测定的灵敏度来选择该多个组合中的一个或多个。
2.如权利要求1所述的计算机实施方法,其中该多个组合各自包括一种基因组合,该多个组分各自包括多个基因,并且这些最佳特征包括该多个基因中每一个的最佳表达平。
3.如权利要求2所述的计算机实施方法,其中该多个基因包括至少两种基因。
4.如权利要求2所述的计算机实施方法,其中该多个基因包括三种或四种基因。
5.如权利要求1所述的计算机实施方法,其中该多个组分中的至少一个包括影响该生物过程的一种酶。
6.如权利要求1所述的计算机实施方法,其中该最佳特征包括以下中的至少一种:表达水平、量、动学性质、结合性质、稳定性、磷酸化状态、甲基化状态、或乙酰化状态。
7.如权利要求1所述的计算机实施方法,其中这些最佳特征各自包括围绕并且包括这些最佳特征的一个窗。
8.如权利要求1所述的计算机实施方法,进一步包括:
通过该至少一个计算装置,确定用于该多个组分中的至少一个的一种选择标准,其中选择该多个组合中的一个或多个是进一步基于所确定的选择标准。
9.如权利要求8所述的计算机实施方法,其中该选择标准包括以下中的一个或多个:
该多个组分中的至少一个在该多个组合中出现的频率;该多个组分中的至少一个的实验性实施的难度水平的指示;或应或不应使用该多个组分中的至少一个的指示。
10.如权利要求1所述的计算机实施方法,进一步包括:
通过该至少一个计算装置,基于该多个组合中的每一个的所预测的表型结果来确定其等级,其中选择该多个组合中的一个或多个是进一步基于该确定的等级。
11.如权利要求1所述的计算机实施方法,进一步包括:
通过该至少一个计算装置,基于该灵敏度分析来确定一个鲁棒性评分,其中选择该多个组合中的一个或多个是进一步基于该鲁棒性评分和一个预定义的截止值。
12.如权利要求1所述的计算机实施方法,进一步包括:
通过该至少一个计算装置,基于该确定的灵敏度来确定该多个组分中每一个的一个第二最佳特征。
13.一种用于选择各自影响一种生物过程的候选组分组合的系统,该系统包括:
包括一个或多个处理器的一个计算装置,该一个或多个处理器被配置成:
对于多个组合中的每一个,其中该多个组合各自包括多个组分,该多个组分各自直接地或间接地影响该生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测,
基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定该多个组分中每一个的该最佳特征;
对于该多个组合中的每一个,使用该计算机模型确定该多个组合中每一个围绕与该相应多个组分中每一个相关的这些最佳特征的灵敏度;以及
出于制造展现出或将展现该表型结果的一种生物产品的目的,基于该表型结果和对应于该多个组合中的每一个所确定的灵敏度来选择该多个组合中的一个或多个。
14.如权利要求13所述的系统,其中该多个组合各自包括一种基因组合,该多个组分各自包括多个基因,并且这些最佳特征包括该多个基因中每一个的最佳表达水平。
15.如权利要求14所述的系统,其中该多个基因包括至少两种基因。
16.如权利要求14所述的系统,其中该多个基因包括三种或四种基因。
17.如权利要求13所述的系统,其中该多个组分中的至少一个包括影响该生物过程的一种酶。
18.如权利要求13所述的系统,其中该最佳特征包括以下中的至少一种:表达水平、量、动力学性质、结合性质、稳定性、磷酸化状态、甲基化状态、或乙酰化状态。
19.如权利要求13所述的系统,其中这些最佳特征各自包括围绕并且包括这些最佳特征的一个窗。
20.如权利要求13所述的系统,该一个或多个处理器进一步被配置成:
确定用于该多个组分中的至少一个的一种选择标准,其中选择该多个组合中的一个或多个是进一步基于该确定的选择标准。
21.如权利要求20所述的系统,其中该选择标准包括以下中的一个或多个:该多个组分中的至少一个在该多个组合中出现的频率;该多个组分中的至少一个的实验性实施的难度水平的指示;或应或不应使用该多个组分中的至少一个的指示。
22.如权利要求13所述的系统,该一个或多个处理器进一步被配置成:
基于该多个组合中每一个的所预测的表型结果来确定其等级,其中选择该多个组合中的一个或多个是进一步基于该确定的等级。
23.如权利要求13所述的系统,该一个或多个处理器进一步被配置成:
基于该灵敏度分析来确定一个鲁棒性评分,其中选择该多个组合中的一个或多个是进一步基于该鲁棒性评分和一个预定义的截止值。
24.如权利要求13所述的系统,该一个或多个处理器进一步被配置成:
基于该确定的灵敏度来确定该多个组分中每一个的一个第二最佳特征。
25.一种用于对影响一种生物过程的候选组分进行选择的计算机实施方法,该方法包括:
对于各个候选组分,其中候选组分各自直接地或间接地影响该生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测,
通过至少一个计算装置的一个或多个处理器,基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定各个候选组分的该最佳特征;
对于各个候选组分,通过该至少一个计算装置,使用该计算机模型测定围绕该最佳特征的灵敏度;以及
出于制造展现出或将展现该表型结果的一种生物产品的目的,基于该表型结果和该确定的灵敏度来选择一种候选组分。
26.如权利要求25所述的计算机实施方法,其中该候选组分包括一种基因并且该最佳特征包括该基因的最佳表达水平。
27.如权利要求25所述的计算机实施方法,其中该候选组分包括影响该生物过程的一种酶。
28.如权利要求25所述的计算机实施方法,其中该最佳特征包括以下中的至少一种:
表达水平、量、动力学性质、结合性质、稳定性、磷酸化状态、甲基化状态、或乙酰化状态。
29.如权利要求25所述的计算机实施方法,其中该最佳特征包括围绕并且包括该最佳特征的一个窗。
30.如权利要求25所述的计算机实施方法,进一步包括:
通过该至少一个计算装置,确定用于该候选组分的一种选择标准,其中选择该候选组分是进一步基于该确定的选择标准。
31.如权利要求25所述的计算机实施方法,进一步包括:
通过该至少一个计算装置,基于这些候选组分中的每一个的所预测的表型结果来确定其等级,其中选择该候选组分是进一步基于该确定的等级。
32.如权利要求25所述的计算机实施方法,进一步包括:
通过该至少一个计算装置,基于该灵敏度分析来确定一个鲁棒性评分,其中选择该候选组分是进一步基于该鲁棒性评分和一个预定义的截止值。
33.如权利要求25所述的计算机实施方法,进一步包括:
通过该至少一个计算装置,基于该确定的灵敏度来确定该多个组分中的每一个的一个第二最佳特征。
34.一种用于对影响一种生物过程的候选组分进行选择并且测试的系统,该系统包括:
包括一个或多个处理器的一个计算装置,该一个或多个处理器被配置成:
对于各个候选组分,其中候选组分各自直接地或间接地影响该生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测,
基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定各个候选组分的该最佳特征;
对于各个候选组分,使用该计算机模型确定围绕该最佳特征的灵敏度;以及出于制造展现出或将展现该表型结果的一种生物产品的目的,基于该表型结果和该确定的灵敏度来选择一种候选组分。
将一种或多种候选组分引入到一种有机体中,并且表达候选组分分析有机体以证明所预测的表型结果
35.如权利要求34所述的系统,其中该候选组分包括一种基因并且该最佳特征包括该基因的最佳表达水平。
36.如权利要求34所述的系统,其中该候选组分包括影响该生物过程的一种酶。
37.如权利要求34所述的系统,其中该最佳特征包括以下中的至少一种:表达水平、量、动力学性质、结合性质、稳定性、磷酸化状态、甲基化状态、或乙酰化状态。
38.如权利要求34所述的系统,其中该最佳特征包括围绕并且包括该最佳特征的一个窗。
39.如权利要求34所述的系统,该一个或多个处理器进一步被配置成:
确定用于该候选组分的一种选择标准,其中选择该候选者组分中的一个或多个是进一步基于该确定的选择标准。
40.如权利要求34所述的系统,该一个或多个处理器进一步被配置成:
基于所预测的表型结果来确定候选组分的等级,其中选择该候选组分是进一步基于该确定的等级。
41.如权利要求34所述的系统,该一个或多个处理器进一步被配置成:
基于该灵敏度分析来确定一个鲁棒性评分,其中选择该候选组分是进一步基于该鲁棒性评分和一个预定义的截止值。
42.如权利要求34所述的系统,该一个或多个处理器进一步被配置成:
基于所确定的灵敏度来确定该多个组分中的每一个的一个第二最佳特征。
43.如权利要求34所述的系统,其中该有机体是一种植物真菌、原核生物、藻类、或除了人类哺乳动物之外的哺乳动物。
44.如权利要求43所述的有机体,包括一种或多种候选组分的表达盒。
45.一种表达盒,包括通过如权利要求1所述的方法选择的候选组分。
46.一种表达盒,包括序列SEQ ID NO.6、SEQ ID NO.7、以及SEQ ID NO.8。
47.一种表达盒,包括序列SEQ ID NO.6、SEQ ID NO.7、以及SEQ ID NO.8中的至少一种。
48.一种表达盒,包括序列SEQ ID NO.9、SEQ ID NO.10、SEQ ID NO.11、以及SEQ ID NO.12。
49.一种表达盒,包括序列SEQ ID NO.9、SEQ ID NO.10、SEQ ID NO.11、以及SEQ ID NO.12中的至少一种。

说明书全文

高表达基因组合和其他生物组分组合的计算机模拟预测

发明领域

[0001] 本披露涉及预测影响生物过程的生物组分,并且更具体地说涉及使用一种生物过程的模型来确定经过预测会产生该生物过程的一个令人希望的表型结果的组分。
[0002] 发明背景
[0003] 常规的主要发现成果典型地集中在一种单一生物组分来改进一个表型结果。例如,常规系统可能集中在获得单一基因来改进各种作物物种的性状。具体来说,各种常规系统集中在单一基因发现来改进复杂性状(如玉米产量),这时常仅取得有限的成功。这种有限的成功至少部分可归因于一种单一组分(如一种基因)对一种生物过程(如一种复杂代谢或基因调节网络)的贡献太小以致不能显著影响性状。例如,因为该单一基因与其他基因组合起作用,所以过度表达或敲低该单一基因可能不对该代谢或基因调节网络具有显著影响。
[0004] 这一问题还可以适于其他生物和/或化学反应,其中多种组分对一个具体结果负责,这样使得修饰一种单独的单一组分可能不会对该具体结果具有作用。例如,影响一种生物过程(如一种生物化学反应)的多种酶可以足够地复杂,以致使一种单一酶的各种特征减弱可能不对该生物化学反应具有显著作用。
[0005] 常规系统还未能确定可产生如通过一个计算机模型所预测的局部或总体最佳的表型结果的单一组分或组分组合的最佳特征。换句话说,常规系统未能优化特征以使得一个计算机模型得以预测局部或总体最大化的(或最小化的)表型结果。
[0006] 需要的是能够鉴定可以影响一种生物过程的一个表型结果的单一组分和/或组分组合。例如,需要的是能够确定哪些基因与其他基因组合可以被过度表达和/或敲低来改进性状。此外,常规发现技术可以集中在仅发现最佳的特征,这些特征典型地未能考虑到与所预测的最佳值的偏差。然而,出于各种原因,典型地无法体外或体内实现这样的最佳值。因此,因为可能无法实现最佳值,所以真实世界的实验可能无法实现所预测的结果。因此,需要的是能够确定在跨越各个最佳值的范围内具有鲁棒性的单一组分或组分组合的最佳值。存在这些和其他问题。
[0007] 发明概述
[0008] 在此描述了用于使用一种生物过程的模型来预测可促进该生物过程的候选组分(如基因)和/或组分组合(如基因组合)的各种系统、计算机程序产品以及方法。
[0009] 根据本发明的各种实现方式,对于多个组合中的每一个,其中该多个组合各自包含多个组分,该多个组分各自直接地或间接地影响一种生物过程的一个表型结果,一种用于选择各自影响该生物过程的候选组分组合的方法可以包括:基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定该多个组分中每一个的该最佳特征。对于该多个组合中的每一个,该方法可以包括:使用该计算机模型确定该多个组合中的每一个围绕与该相应多个组分中的每一个相关的这些最佳特征的灵敏度。出于制造展现出或将展现该表型结果的一种生物产品的目的,该方法可以进一步包括:基于所模拟的表型结果和对应于该多个组合中的每一个所确定的灵敏度来选择该多个组合中的一个或多个。
[0010] 根据本发明的各种实现方式,对于各个候选组分,其中各个候选组分直接地或间接地影响一种生物过程的一个表型结果,其中该表型结果是通过该生物过程的一个计算机模型来预测,一种用于选择影响该生物过程的候选组分的方法可以包括:基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定各个候选组分的该最佳特征。对于各个候选组分,该方法可以包括:使用该计算机模型确定围绕该最佳特征的灵敏度。出于制造展现出或将展现该表型结果的一种生物产品的目的,该方法可以进一步包括:基于该表型结果和该确定的灵敏度来选择一种候选组分。
[0011] 附图简要说明
[0012] 图1是一个框图,展示了根据本发明的各种实现方式被配置成选择可促进一种生物过程的单一候选组分或候选组分组合的一种系统的一个实例。
[0013] 图2是一个流程图,展示了根据本发明的各种实现方式选择可促进一种生物过程的候选组分组合的一种方法的一个实例。
[0014] 图3是一个数据流程图,展示了根据本发明的各种实现方式确定最佳特征的一种方法的一个实例。
[0015] 图4是一个数据流程图,展示了根据本发明的各种实现方式对最佳特征执行灵敏度分析的一种方法的一个实例。
[0016] 图5是一个流程图,展示了根据本发明的各种实现方式选择可促进一种生物过程的单一候选组分的一种方法的一个实例。
[0017] 图6是一个19862的质粒图,显示了一个二元载体中的SoFBP、SoPRK以及ZmPepC表达盒。“pr-”前缀表示一个启动子;“i-”前缀表示一个内含子;“e-”前缀表示一个增强子;“c-”前缀表示一个编码序列;“t-”前缀表示一个终止子。
[0018] 图7是一个19863的质粒图,显示了一个二元载体中的SoFBP、SbPPDK以及SbNADP-MD表达盒。“pr-”前缀表示一个启动子;“i-”前缀表示一个内含子;“e-”前缀表示一个增强子;“c-”前缀表示一个编码序列;“t-”前缀表示一个终止子。
[0019] 发明详细说明
[0020] 图1是一个框图,展示了根据本发明的各种实现方式被配置成对影响一种生物过程的单一候选生物组分或候选生物组分组合进行选择的一种系统100。根据本发明的各种实现方式,系统100除其他之外可以包括一个用户界面102、一个数据库110、一个计算机模型120以及一个计算装置130。在一些实现方式中,计算装置130从以下中选择:各种候选组合140(图1中示为组合140A、140B、……、140N;下文“组合140”),如生物组分104(图1中示为组分104A、104B、104C、……、104N;下文“组分104”)的基因组合,如影响该生物过程的基因。在本发明的一些实现方式中,计算装置130除其他之外可以包括一个处理器
132和一个存储器134。在一些实现方式中,处理器132包括被配置成执行计算装置130的各种功能的一个或多个处理器。在本发明的一些实现方式中,存储器134包括一个或多个有形的(即非暂时性的)计算机可读媒体。存储器134可以包括一个或多个指令,该指令当由处理器132执行时将处理器132配置成执行计算装置130的功能。
[0021] 在一些实现方式中,计算装置130可以确定组分104的最佳特征,其导致该生物过程的如通过计算机模型120所预测的一个令人希望的表型结果。在一些实现方式中,计算机模型120可以包括被配置成预测表型结果或以其他方式模拟一种生物过程的各种数学函数、计算和/或其他指令。在一些实现方式中,计算装置130可以执行围绕这些最佳特征的灵敏度分析。该灵敏度分析可以用来确定候选组合140是否在跨越这些最佳特征的范围内具有鲁棒性。在一些实现方式中,计算装置130可以基于该灵敏度分析和该表型结果从各种候选组合140中选择。该一个或多个所选择的组合(图1中示为所选择的组合150)可以在展现出或将展现所预测的表型结果的一种生物产品中使用。在这些实现方式中,可以选择组分组合,预测这些组分组合可产生一个令人希望的表型结果。
[0022] 在一些实现方式中,计算装置130可以确定一种单一组分104的最佳特征,其导致该生物过程的如通过计算机模型120所预测的一个令人希望的表型结果。在一些实现方式中,计算装置130可以执行围绕这些最佳特征的灵敏度分析。该灵敏度分析可以用来确定单一组分104是否在跨越这些最佳特征的范围内具有鲁棒性。在一些实现方式中,计算装置130可以基于该灵敏度分析和该表型结果从各种候选组分104中选择。该选择的组分(图1中示为所选择的单一组分145)可以在展现出或将展现所预测的表型结果的一种生物产品中使用。在这些实现方式中,可以选择一种单一组分104,预测该单一组分可产生一个令人希望的表型结果。
[0023] 因此,根据本发明的各种实现方式,如在此使用本披露将理解的,计算装置130可以被配置成执行在此描述的各种功能以选择单一组分104和/或组分104的组合140。
[0024] 该生物过程可以包括但不限于由组分104和/或生物组分104的组合140调节或以其他方式受组分104和/或生物组分104的组合140影响的一种过程,如光合成和/或其他过程。因此,在一些实现方式中,代替分析一种单独的组分104和其对该生物过程的影响,可以分析和/或优化不同组合140来确定它们对该生物过程的作用。在一些实现方式中,可以分析一种单独的组分104和其对该生物过程的影响。
[0025] 在一些实现方式中,组分104和/或它们与该生物过程的关联可以被存储在数据库110中。换句话说,数据库110除其他之外可以存储被认为或确定影响或以其他方式影响该生物过程的各种组分104。
[0026] 在一些实现方式中,组分104可以包括但不限于:一种核酸序列,如一种编码基因的序列、mRNA或其他序列;一种基因产物,如一种蛋白质;和/或与其他组分104组合而影响该生物过程的其他生物/化学物质。在一些实现方式中,一种候选组合140包括一种基因组合。在这些实现方式中,组分104包括当与该基因组合中的其他基因组合时一起影响该生物过程的基因。在一些实现方式中,一种候选组合140包括一起调节、参与或以其他方式影响该生物过程的多种蛋白质,如酶。因此,可以选择具体组合140以实现对该生物过程的一种所希望的作用。
[0027] 在本发明的一些实现方式中,组分104可以各自直接地或间接地影响该生物过程的一个表型结果。该表型结果可以包括该生物过程可以被测量、预测或以其他方式观测的结果。例如,该表型结果可以包括光合成生物过程中二的光同化。
[0028] 在一些实现方式中,组分104可以通过参与可影响一个表型结果的一个或多个过程(如生物化学反应)而直接地影响该表型结果。例如,组分104可以包括一种基因,它对可催化一种生物化学反应或以其他方式参与该生物过程的酶进行编码。
[0029] 在一些实现方式中,组分104可以通过影响可影响一个表型结果的另一种生物组分而间接地影响该表型结果。例如,组分104可以调节(如抑制或促进)另一种组分但不直接地参与可影响该表型结果的一个或多个过程。
[0030] 在一些实现方式中,计算机模型120可以模拟该生物过程。在一些实现方式中,计算机模型120可以预测该生物过程的一个表型结果。因此,例如,可以使用计算装置130来对改进光合成期间二氧化碳的光同化的各种组分104和/或组合140进行分析。在组分104包括基因的实现方式中,计算机模型120可以通过基于一种基因型预测一个表型结果来提供该基因型与其表型之间的联系。如将理解的,前文仅是非限制性实例;可以对其他生物过程和表型结果进行建模和/或预测。
[0031] 在一些实现方式中,组分104可以各自与如(例如)以下的各种特征相关:表达平(如一种基因的表达水平)、量(如量或浓度)、动学性质(如催化速率)、结合性质(如结合速率)、稳定性(如降解速率)、磷酸化状态(如磷酸化或脱磷酸化的速率)、基于对一种基因或蛋白质进行化学修饰的其他活性状态、甲基化状态、或乙酰化状态和/或可以影响该生物过程的组分104的其他特征。
[0032] 在一些实现方式中,组分104的特征可以包括是否在计算机模型120中包括组分104。例如,计算机装置130可以用来模拟对一种基因进行“敲除”以确定是否该敲除的基因预测可产生一个令人希望的表型结果。在一些实现方式中,计算机模型120可以将表示该敲除的基因的一种变量从计算机模型120中去除。在一些实现方式中,计算机模型120可以将一个表达水平或其他特征设定成零(或实质上是零)来实现这一作用。以此方式,从该模拟中的敲除或以其他方式消除的特征可以有助于预测敲除对该表型结果的作用。
[0033] 在一些实现方式中,一种组分104的各个特征的变化可以对该生物过程具有不同作用。例如,在其他酶的一种组合中一种具体酶的不同量可以对该生物过程具有不同作用。因此,可以优化组分104的特征,以使得可通过计算机模型120预测对该生物过程的一种令人希望的作用。在一些实现方式中,计算机模型120可以用来预测这样的作用。
[0034] 以此方式,可以预测组合140、组分104、组分的特征和/或输入参数的作用以确定其对该生物过程的单独或组合的作用,以使得可以实现一种所希望的作用。在一些实现方式中,该希望的作用可以测量为一个预定量和/或与该表型结果的一个基线水平的一个比较。例如,可以针对通过模型120所预测的一个具体的二氧化碳同化水平来测量对该生物过程的该希望的作用。在另一个实例中,该希望的作用可以是通过模型120所预测的二氧化碳同化水平相比于一个基线二氧化碳同化水平的一个具体的增加百分比。
[0035] 在本发明的一些实现方式中,计算机模型120除其他之外可以将有待修饰的一种单一候选组分和/或有待修饰的组合140作为输入,并且可以基于该单一候选组分和/或组合140来模拟一种生物过程。例如,计算机模型120可以基于对可以参与光合成的一种单一候选组分的修饰的作用和/或对各自包括可以参与光合成的组分104的各种组合140的修饰的作用来模拟光合成。
[0036] 在本发明的一些实现方式中,计算机模型120可以被配置成接受与组合140和/或组分104相关的各种输入。在本发明的一些实现方式中,这些输入中的至少一部分可以经由用户界面102被接受。因此,系统100的用户可以通过指示一个或多个组分104、与组分104相关的各种特征和/或有待包括在该模拟内的其他输入参数经由用户界面102指定有待测试的一个或多个组合140。以此方式,一名用户可以经由系统100初始化或以其他方式设置计算机模拟地运行的一个实验,这样使得计算装置130可以选择组合140和/或特征,预测该组合和/或特征可对该生物过程产生一种令人希望的作用。
[0037] 在一些实现方式中,计算装置130可以基于是否计算机模型120使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定组分104中每一个的该最佳特征,以使得可以实现对该生物过程的一种所希望的作用。一个“最佳特征”可以包括一种具体变体或包括围绕该最佳特征的一个窗的变体范围,预测该最佳特征可产生比与次最佳特征相关的其他表型结果更令人希望的某一个表型结果。换句话说,该最佳特征(如一个具体的基因表达水平或其他特征)可以包括一个特征,预测该特征可产生比一个非最佳的特征更为所希望的一个表型结果。
[0038] 在一些实现方式中,该希望的表型结果可以包括一个总体或一个局部最佳值。换句话说,各种特征可以致使计算机模型120预测各种表型结果,其中一些可以是局部最佳值(即大于或小于邻近结果的表型结果)或总体最佳值(即大于或小于实质上所有其他结果的表型结果)。在一些实现方式中,局部或总体表型结果表示令人希望的表型结果。因此,当优化特征时,可以取决于特征是否致使计算机模型120预测总体或局部最佳表型结果来将这些特征确定为最佳。在这些实现方式中,当计算机模型120预测总体或局部最佳表型结果时,可以将特征确定为最佳。
[0039] 在一些实现方式中,一个最佳特征可以包括基因表达(它导致(例如)一种蛋白质的表达)的水平或水平范围,预测该水平或水平范围可产生比与一个次最佳表达水平相关的一个表型结果更令人希望的一个表型结果。例如,一种基因的一个最佳表达水平可以包括一种过度表达,该过度表达是通常出现或以其他方式预测为天然出现于一种植物中的基因的表达水平的150%(下文为方便起见1.5×)。
[0040] 在一些实现方式中,可以使用围绕并且包括该最佳特征的一个窗。例如,一个窗可以包括1.5×的最佳过度表达水平以及围绕该最佳水平的一个范围(如1.2×-1.5×、1.2×-1.6×、1.5×-1.7×等等)。如将理解的是,在此实例中,一个最佳表达水平可以高于一个次最佳表达水平,反之亦然。因为计算机模型120可以基于(例如)该基因和其表达水平来预测一个表型结果,所以可以模拟不同表达水平来预测其对该表型结果的作用。以此方式,计算装置130可以确定针对组分104中每一个的产生一个令人希望的表型结果的一个最佳特征或特征范围。
[0041] 在一些实现方式中,该令人希望的表型结果可以包括该表型结果相比于一个基线结果的高于一个预定义的水平的一个增加。如将理解的,该令人希望的表型结果可以包括该表型结果相比于一个基线结果的低于一个预定义的水平的一个减少。在一些实现方式中,该基线结果可以包括当(例如)以正常表达水平表达一种基因组合的基因时通过模型120预测的一个表型结果,这样使得可以对该基因组合的基因的过度表达和/或欠表达的作用进行确定并且针对正常表达水平进行比较。
[0042] 在本发明的一些实现方式中,计算装置130可以执行一种最佳化过程,该最佳化过程确定对于一种单一候选组分和/或组合140的组分104中每一个的一个最佳特征。在一些实现方式中,就图3而进一步描述的最佳化过程可以使用一种演化算法。换句话说,在一些实现方式中,计算装置130可以执行一种最佳化过程(如图3中所示出的过程),该最佳化过程确定对于一种单一候选组分的一个最佳特征。在一些实现方式中,计算装置130可以执行一种最佳化过程(如图3中所示出的过程),该最佳化过程确定对于组合140的组分104中的每一个的一个最佳特征。在一些实现方式中,不论对单一候选组分和/或组合140,该演化算法都可以用来减少对计算装置130的计算负担。然而,如将理解的,可以使用其他最佳化过程。例如,最佳化过程可以包括但不限于一种基于梯度的例程、一种直接检索算法、一种遗传算法、一种粒子群算法、模拟的退火和/或其他最佳化例程。
[0043] 在一些实现方式中,对于一种单一候选组分和/或各个组合140,计算装置130可以使用计算机模型120确定该生物过程围绕与相应组分104中的每一个相关的最佳特征的灵敏度。在本发明的一些实现方式中,计算装置130可以通过执行一种灵敏度分析来确定灵敏度。在一些实现方式中,该灵敏度分析的结果可以用来选择在围绕最佳特征的特征范围内具有鲁棒性反应的单一候选组分和/或组合140。换句话说,可以使用该灵敏度分析的结果将在围绕相应组分104的最佳特征的范围内不展现出一个所希望的表型结果的一种单一候选组分或一种组合140过滤掉,该灵敏度分析就图4而进一步描述。因此,在一些实现方式中,当选择一种单一候选组分时,计算装置130可以执行灵敏度分析(如图4中所展示的灵敏度分析)。在一些实现方式中,当选择一种组合140时,计算装置130可以执行灵敏度分析(如图4中所展示的灵敏度分析)。
[0044] 在一些实现方式中,出于制造展现出或将展现该表型结果的一种生物产品的目的,计算装置130可以基于该表型结果和对应于组合140中的每一个所测定的灵敏度来选择一种单一候选组分或组合140中的一个或多个。该生物产品可以包括一种有机体、一种祖源(如种子)、一种生物构造(如一种细胞或核酸序列)和/或其中所选择的候选组分或组合140可以用来产生该表型结果的其他生物产品。在一些实现方式中,该生物产品可以根据如但不限于以下的常规技术来产生:对一种现有的有机体进行基因修饰或以其他方式工程改造、育种、选择等位基因和/或使用能够制造该生物产品的其他常规技术。
[0045] 在一些实现方式中,该选择的单一候选组分或组合140在最佳特征范围内具有鲁棒性反应。因为可能难以产生展现出该确切的最佳特征或以其他方式包括该确切的最佳特征的一种生物产品,所以该鲁棒性反应可以是所希望的。通过选择在最佳特征范围内具有鲁棒性反应的单一候选组分和/或组合140,尽管未能将这些最佳特征包括在内或以其他方式表现这些最佳特征,但该生物产品可以展现出所希望的表型结果。
[0046] 例如,可以预测对于包括组分104(如基因)的一种组合140(如一种基因组合)的一个令人希望的表型结果。可以基于该基因组合的各个基因的一个最佳表达水平来预测令人希望的表型结果。然而,当制造具有该基因组合的一种生物产品时,实际表达水平可以不同于如所预测的最佳表达水平。如果该基因组合在最佳表达水平内不具有稳定性,那么可能无法在该生物产品中观测到所预测的表型结果。如在此基于本披露将理解的,上述情况可以适用于单一基因候选者。
[0047] 在一些实现方式中,可以测定一种单一候选组分或组合140的灵敏度以确定其在相应组分104的最佳特征范围内的鲁棒性。在以上实例中,可以通过模拟围绕这些基因的各个最佳表达水平的表达水平范围并且预测相应表型结果来确定该基因组合的灵敏度。如果对于围绕各个最佳表达水平的表达水平范围所预测的表型结果在与该最佳表达水平相关的表型结果的预定义的差异内,那么认为该组合140具有鲁棒性。另一方面,当对于围绕各个最佳表达水平的表达水平范围所预测的表型结果超出该预定义的差异时,可以认为该组合140不具有鲁棒性并且因此将它过滤掉。如将理解的,这些差异可以经由平均值、标准偏差和/或与所预测的表型结果相关的其他统计度量来测量。
[0048] 在一些实现方式中,通过执行灵敏度分析,计算装置130可以基于单一候选组分是否在最佳特征范围内具有鲁棒性来选择单一候选组分,以使得该选择的候选组分更有机会展现围绕最佳特征范围的所预测的表型结果。在一些实现方式中,通过执行灵敏度分析,计算装置130可以基于组合140是否在最佳特征范围内具有鲁棒性来选择组合140,以使得所选择的组合140更有机会展现围绕最佳特征范围的所预测的表型结果。在一些实现方式中,计算装置130可以基于该确定的灵敏度来确定该多个组分中每一个的一个第二最佳特征。例如,在确定一个具体特征是否在一个范围内具有鲁棒性时,计算装置130可以确定与该范围中不同的一个最佳特征。在一些实现方式中,该确定的第二最佳特征可以产生如通过计算机模型120所预测的比该最佳特征更令人希望的一个表型结果。
[0049] 在一些实现方式中,计算装置130可以确定选择标准,它可以用来选择可以影响该生物过程的各种单一候选组分。在一些实现方式中,计算装置130可以确定选择标准,它可以用来选择可以影响该生物过程的各种候选组合140。在一些实现方式中,计算装置130可以通过直接地确定该选择标准或以其他方式通过如从一个用户操作的用户界面102接受该选择标准来确定该选择标准。
[0050] 在本发明的一些实现方式中,该选择标准可以包括一种组分104在候选组合140中出现的频率(在选择组合140的实现方式中)、实验性实施的难度水平的指示、应或不应使用组分104的指示和/或可以用来进一步选择单一候选组分或候选组合140的其他标准。
[0051] 在选择组合140的一些实现方式中,该频率可以指示组分104是否是对该生物过程的一个重要影响因素。例如,不同基因组合中频繁地出现、预测可影响一个表型结果的一种基因可能是一种重要基因。在另一个实例中,不同酶组合中出现、预测可影响该表型结果的一种具体酶可以显著影响该表型结果。因此,在一些实现方式中,计算装置130可以基于该频率来选择候选组合,以使得所选择的组合140包括具有一个具体频率的一个或多个组分104,其中组分104是各种组合140的一个成员。
[0052] 在一些实现方式中,计算装置130可以使用实验性实施的难度水平的指示来将组分104过滤掉。在选择组合140的一些实现方式中,计算装置130可以将包括组分104的候选组合140过滤掉。例如,计算装置130可以在接受到组分104(如一种基因)难以操纵的一个指示后将组分104过滤掉。在另一个实例中,计算装置130可以在确定组分104(如一种蛋白质)难以在实验室中纯化或以其他方式以实验方式实施的指示后将组分104过滤掉。在另一个实例中,计算装置130可以基于组分104的阳性或阴性指示将组分104过滤掉或包括在内。例如,在确定因为组分104与所有权相关而不应使用它后,计算装置130可以将组分104过滤掉。另一方面,在确定组分104可自由地供使用后,计算装置130可以将组分104包括在内。如将理解的,这些和其他指示/选择标准可以被存储在数据库110中和/或经由用户界面102来输入。
[0053] 在操作中,计算装置130可以基于其对该生物过程的一个表型结果的所预测的影响来选择各种单一候选基因或各种基因组合。在一些实现方式中,计算装置130可以基于一名用户的输入来作出这一确定。例如,该用户可能希望确定具体基因或基因组合是否可以改进该表型结果。在一些实现方式中,计算装置130可以基于与该生物过程相关的信息来作出这一确定。例如,数据库110可以包括被认为或被确定参与该生物过程的各种组分104。
[0054] 在一些实现方式中,计算装置130可以测定一种候选基因或基因组合的各个基因的最佳过度表达水平。如将理解的,适当时,还可以确定该候选基因或基因组合的各个基因的最佳欠表达水平(包括零表达)。以此方式,可以对预测可产生一个令人希望的表型结果的基因的最佳表达水平进行确定。
[0055] 在一些实现方式中,计算装置130可以执行围绕该候选基因的最佳表达水平的灵敏度分析。在一些实现方式中,计算装置130可以执行围绕对于该基因组合的最佳表达水平的灵敏度分析。该灵敏度分析可以用来确定这些候选基因或基因组合是否在这些最佳表达水平范围内具有鲁棒性。在一些实现方式中,计算装置130可以基于该灵敏度分析和该表型结果来选择各种候选基因或基因组合。以此方式,可以确定这些候选基因或基因组合的鲁棒性,以使得即使当无法实现这些最佳表达水平时,仍然可以展现所预测的表型结果。如将理解的,前述操作仅是出于示意性目的的一个非限制性实例。其他组合140、组分104和/或特征可以用来确定它们对生物过程的其他表型结果的影响。
[0056] 如将理解的,尽管图1中示为与彼此不同,但系统100的各个部分和它们相关的功能可以与其他部分一起包括在内。例如,用户界面102、数据库110和/或计算机模型120可以与计算装置130的一个存储器不同或包括在该存储器内。
[0057] 图2是一个数据流程图,展示了根据本发明的各种实现方式对影响一种生物过程的候选组分组合进行选择的一种方法200。在此更详细地描述了图2中(和其他图式中)所描绘的各种处理操作和/或数据流。可以使用上文详细地描述的一些或所有系统组件来实现对于流程图所描述的操作,并且在本发明的一些实现方式中,可以按不同顺序执行各种操作。根据本发明的各种实现方式,可以与所描绘的流程图中所示的一些或所有操作一起执行另外的操作。在另外的其他实现方式中,可以同时执行一个或多个操作。因此,如所示出(并且下文更详细地描述)的操作性质上是实例,并且因此不应被视作是限制性的。此外,如在此基于本披露将理解的,当选择单一候选组分和/或组合140时,可以应用图2中(和其他图式中)所描绘的各种处理操作和/或数据流。换句话说,在一些实现方式中,当选择单一候选组分时,可以使用图2中(和其他图式中)所描绘的各种处理操作和/或数据流。在一些实现方式中,当选择组合140时,可以使用图2中(和其他图式中)所描绘的各种处理操作和/或数据流。
[0058] 在一些实现方式中,方法200可以对影响一种生物过程的候选组分组合进行选择。在一些实现方式中,该多个组合各自包括多个组分。该多个组分可以各自直接地或间接地影响一个表型结果,其是通过模拟该生物过程的一个计算机模型来预测。
[0059] 在一个操作202中,方法200可以基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定该多个组分中每一个的该最佳特征。例如,可以基于如通过模拟光合成的一个模型所预测的一种基因组合的各个基因对二氧化碳同化的作用来测定它的一个最佳表达水平(以例如酶的量形式观测)。以此方式,一种候选基因组合例如可以包括基因和对应于一个所希望的表型结果的相关的最佳表达水平的组合。当通过该计算机模型所预测的二氧化碳同化水平处于一个总体或一个局部最佳值时,可以认为一个表达水平最佳。
[0060] 在一个操作204中,对于该多个组合中的每一个,方法200可以使用该计算机模型确定对于该多个组合中每一个围绕与该相应多个基因中的每一个相关的最佳特征而言的该生物过程的灵敏度。例如,这些候选基因组合中的每一个的灵敏度分析可以用来确定这些候选基因组合是否对这些相应基因中的每一个的最佳表达水平的变化敏感。
[0061] 在一个操作206中,出于制造展现出或将展现该表型结果的一种生物产品的目的,方法200可以基于该表型结果和对应于该多个组合中的每一个所确定的灵敏度来选择该多个组合中的一个或多个。例如,可以基于其中预测一种基因组合可产生的一个表型结果并且基于该确定灵敏度来选择该候选基因组合。以此方式,即使当在例如实验室实验和/或制造期间未能在该生物产品中实现最佳表达水平时,对最佳表达水平的变化相对不敏感的候选基因组合也可以产生所预测的表型结果或可接受地接近(基于一个预定义的差异)于所预测的表型结果的一个表型结果。
[0062] 图3是一个数据流程图,展示了根据本发明的各种实现方式确定最佳特征的一种方法202的一个实例。在一些实现方式中,方法202使用一种演化算法来确定该最佳特征。在此描述的演化算法可以通过随机地调节(即引入一个变化)一个群体中一种组分或组分组合的一个或多个特征并且预测该调节对如通过一个模型(如计算机模型120)所预测的表型结果的作用来模拟迭代。可以选择基于通过模型的预测具有最大成功(即产生最令人希望的表型结果)的组分或组分的组合140用于下一个迭代或产生组分或组分组合,并且重复该过程直到满足收敛。
[0063] 在一个操作302中,方法202可以确定或以其他方式接受候选组分或组合140。在一些实现方式中,可以选择所有组分或组分104的组合。在这些实现方式中,组分104的数目可以是足够小的,以使得可以处理组分104的所有组合。
[0064] 在一些实现方式中,可以选择对组分104的所有组合的取样。在这些实现方式中,组分104的数目可以是足够大的,以使得处理组分104的所有组合可能是计算上禁止的。在一些实现方式中,可以基于对先前分析的组合140进行加权来对组合140取样。例如,可以使用回归分析来确定权重,其中一种回归因子可以包括对先前分析的组合140进行描述的变量,并且一种回归可以包括针对这些组合140所预测的特征(如表型结果)。在一些实现方式中,可以通过0-1(“虚拟的”)变量来描述组合140,这些变量指示组合140中各个组分104(如一种基因)的存在或不存在。在一些实现方式中,该回归因子可以包括相互作用项,其指示组合140中组分104对的存在或不存在。在一些实现方式中,该回归分析可以包括所测量的性状水平或基于先前对具体组合140的实验室研究所确定的其他特征、衍生自其他计算机模拟方法的预测和/或其他科学假设。在一些实现方式中,根据该回归分析的结果,可以将组合140的至少一些组分104加权成高于与一个令人希望的表型结果无关的其他组分104。然而,如将理解的,假如有足够的计算资源和/或时间,可以处理任何数目的组合140。
[0065] 在一个操作304中,方法202可以将一个随机变化引入一种单一候选组分(如例如表1中所示出)或组合140内的组分104(如例如表2中所示出)的特征中。例如,方法202可以指示在一个迭代中一种酶的表达水平是该酶的基线表达水平的1.2×。在与组合140相关的一些实现方式中,组合140的至少一个组分104的特征可以是变化的。在与组合140相关的一些实现方式中,组合140的各个组分104的特征可以是变化的。在一个操作306中,方法202可以预测(或使得例如通过计算机模型120预测)该变化的表型结果。在以上实例中,方法202可以预测表达水平是基线水平的1.2×的酶的表型结果。
[0066] 在一些实现方式中,一种单一候选组分或组合140内的组分104的特征的随机变化可以被约束在一个具体的值或值的范围。在一些实现方式中,一种基因的表达水平可以被约束在一个可允许的表达范围。在这些实现方式中,在操作304中,方法202可以使最佳表达水平在该可允许的表达范围内变化。在一些实现方式中,一名用户可以使用一个界面(如用户界面102)来输入这些约束条件。例如,一名用户可以输入一个可允许的表达范围,以使得该最佳表达范围的变化不超出该可允许的表达范围。
[0067] 在一个操作308中,方法202确定是否满足收敛。在一些实现方式中,当所预测的表型结果在迭代数目的一个具体公差内从一个迭代到下一个迭代实质上保持相同时,满足收敛。在一些实现方式中,当执行了足够(一个具体数目)的迭代时,这些迭代自动地终止。
[0068] 在操作308中,如果不满足收敛,那么可以使处理进入一个操作310,其中选择有待变化的一个或多个特征。例如,概念上说,选择最合适的一代以便将一个变化引入该最合适的一代中。在一些实现方式中,可以在操作310中选择被预测可产生最好表型结果的一组特征。在选择后,可以使处理返回到操作304,其中将一个变化引入所选择的这个或这些特征中。例如,具有1.3×表达水平的一个特征的一个随机变化可以产生相比于其他所测试的表达水平最好的表型结果。在此实例中,可以在操作310中选择具有1.3×表达水平的随机变化,以使得在操作304中将一个随机变化引入该1.3×表达水平中。
[0069] 返回到操作308,如果满足收敛,那么可以使处理进入一个操作312,其中可以选择对该表型结果具有影响的一个迭代作为最佳特征。在一些实现方式中,可以选择对该表型结果具有影响的最后一个迭代。在一些实现方式中,可以选择对该表型结果具有最大影响的最后一个迭代。
[0070] 例如,参考表1和2,表型结果P被表示为一个数目,其中越高的P值指示越令人希望的表型结果。表1展示了随机地改变一种单一候选组分的一个特征。表2展示了随机地改变组分1、2以及N的组合的特征。P值仅出于示意性目的而使用。在一些实现方式中,越低的P值可能是越令人希望的。在一些实现方式中,P值可以表示任何可测量的表型结果。根据表1,可以将特征的随机变化从一个迭代(I1、I2、……、IN)引入下一个迭代,其相应表型结果P如通过一个计算机模型(如计算机模型120)所预测。
[0071] 在一些实现方式中,可以选择表1的迭代I4作为对应于1.3×过度表达的最佳过度表达水平。在一些实现方式中,可以选择表2的迭代I4作为组分1的1.1×过度表达、组分2的1.0×表达、组分N的0.8×表达的最佳过度表达水平。如将理解的,表1和2中所示出的这些值仅是说明性的。此外,在优化组分组合的实现方式中,各个组分的特征可以在如表2中所示出的一个迭代中分别地随机地变化;或可以在一个迭代中一起随机地变化,以使得各个组分的特征以与彼此相同的方式变化(表2中未示出)。
[0072] 表1.
[0073]
[0074] 表2.
[0075]
[0076] 在一些实现方式中,对于使表型结果增加(即对它具有令人希望的影响)的所有组分或组分组合,可以重复方法202。因为参数空间典型地太大以致无法全面地检查,并且因为引入了特征的随机变化,所以就方法202而描述的演化过程可能不产生总体最佳特征。因此,方法202在它每次运行时可以产生不同结果。通过多次重复方法202,可以实现最佳特征范围,从而接近一个更总体的最佳值。因此,可以选择使用这个总体最佳值对该表型结果具有最大影响的特征作为最佳特征。举例来说,对于方法202的各个再运行,可以将各个组合140的各个组分104的特征、其对该表型结果的所预测的影响、平均值、标准偏差、最大反应、最小反应和/或其他度量与彼此进行比较。在一些实现方式中,可以基于这些比较来确定这些最佳特征和/或候选组合140。
[0077] 如将理解的,可以确定组合140中多个组分104中的一个具体组分104的最佳特征。因此,可以单独地或通过在一个迭代中引入一种组合140的多于一种组分104的变化与组合140内的其他组分104一起优化各个组分104的特征(如表达水平)。
[0078] 图4是一个数据流程图,展示了根据本发明的各种实现方式对最佳特征执行灵敏度分析的一种方法204的一个实例。在一些实现方式中,该灵敏度分析可以用来确定这些最佳特征在一个范围内的鲁棒性,以使得即使当不展现出这些最佳特征时,在该范围内的公差内对表型结果的影响也是实质上相同或至少类似的。换句话说,如果该生物产品展现出如通过该灵敏度分析确定的最佳特征范围内的特征,那么可以在该生物产品中实现所预测的表型。
[0079] 在一个操作402中,对于一种单一候选组分或各个组合140,方法204可以确定与一种组合140的各个组分104的最佳特征相关的表型结果。换句话说,将一种具体单一候选组分或组合140的各个组分104设定成模拟其相应最佳特征,以使得模型120预测该组分或组合140的表型结果。例如,对于一种具体基因候选者,该候选基因的最佳表达水平可以用来预测一个表型结果。在使用基因组合的一个实例中,对于一种具体基因组合,该基因组合的各个基因的最佳表达水平可以用来预测一个表型结果。可以已按一种令人希望的方式(如通过图3中所示出的方法202)基于其对该表型结果的所预测的影响而确定该最佳表达水平。
[0080] 在一个操作404中,方法204可以将该确定的表型结果设定为一个基线表型结果。该基线表型结果可以用作灵敏度分析的一个比较。
[0081] 在一个操作406中,至少一个最佳特征(对应于一种组分104)可以用作一个基线特征并且在围绕该最佳特征的一个范围内变化。在一些实现方式中,组合140的其他组分的最佳特征无变化,以使得可以预测到所变化的特征对表型结果的作用。在一些实现方式中,该范围可以是绝对的或累加的。在一些实现方式中,该范围可以是相对的或倍增的。
[0082] 例如,单一基因候选者或基因组合中的基因的最佳表达水平可以用作该特征的一个基线。该最佳表达水平可以在一个范围内变化,以使得可以针对该特征的该基线比较这些变化。在使用基因组合的一些实现方式中,可以使相同基因组合中其他基因的最佳表达水平保持恒定,以使得可以观测到对于所测试的基因该表型结果作为该变化的最佳表达水平的函数。例如,可以将一种基因在1.2处的最佳表达水平设定为一个基线零点并且与范围+2或围绕该新基线的其他范围进行比较。在此实例中,该表达水平可以在此范围内变化,这样使得这些变化包括范围:[-2.0、-1.9、……、-0.1、0.0、0.1、0.2、……、2]。如将理解的,前文仅出于示意性目的;不同特征可以在不同范围内变化。
[0083] 在一些实现方式中,可以约束一种生物组分104的一个或多个特征,这样使得最佳值必须在这些约束条件内。在一些实现方式中,一种基因的表达水平可以被约束在一个可允许的表达范围。在这些实现方式中,当确定一个最佳表达水平时,计算装置130可以使最佳表达水平在该可允许的表达范围内变化。在一些实现方式中,一名用户可以经由用户界面102来输入这些约束条件。例如,一名用户可以输入一个可允许的表达范围,以使得最佳表达范围的变化不超出该可允许的表达范围。
[0084] 在一个操作408中,可以针对所测试的最佳特征的范围内的各个变化预测(如通过计算机模型120)一个表型结果。以此方式,可以确定与最佳特征的偏差对表型结果的作用。因为以此方式测试各个单一候选组分或一种具体组合140的各个组分104,所以可以确定该单一候选组分或具体组合140在最佳特征范围内的鲁棒性。
[0085] 在一个操作410中,方法204可以针对一种组合140的所有变化确定鲁棒性度量。在一些实现方式中,该鲁棒性度量可以包括但不限于所有变化的平均表型结果、标准偏差、最大值、最小值、范围和/或与一个变化对所预测的表型结果的作用相关的其他度量。
[0086] 在一个操作412中,方法204可以基于该鲁棒性度量来确定一种组合140的最佳特征的鲁棒性。在一些实现方式中,方法204可以因为一种组合140造成所希望的表型结果高于一个预定量的一个平均增加(或一个不需要的表型结果低于一个预定量的平均减少)而确定它是稳定的。在一些实现方式中,当在该灵敏度分析期间所测试的表型结果的变化的标准偏差低于一个预定值时,方法204可以确定一种组合140在特征(如表达水平)范围内具有鲁棒性,这可以表明该表型结果在围绕这些最佳特征的一个范围内稳定。如将理解的,在一些实现方式中,平均值和标准偏差(和/或其他鲁棒性度量)都可以用来确定组合140是否具有鲁棒性。
[0087] 在一些实现方式中,图4中描述的方法204可以用来基于各种单一候选组分的平均表型结果对其进行分级(通过例如计算装置130),以使得与更好的(即更令人希望的)表型结果相关的一种单一候选组分等级高于与更坏的(即不太令人希望的)表型结果相关的其他单一候选组分。
[0088] 在一些实现方式中,图4中描述的方法204可以用来基于各种组合140的平均表型结果对其进行分级(通过例如计算装置130),以使得与更好的(即更令人希望的)表型结果相关的组合140等级高于与更坏的(即不太令人希望的)表型结果相关的其他组合。
[0089] 在一些实现方式中,图4中描述的方法204可以用来将具有高于一个具体截止值的鲁棒性评分(如表型结果的标准差)的单一候选组分过滤掉。换句话说,方法204可以用来将对于与单一候选组分相关的最佳特征的变化敏感的单一候选组分过滤掉。
[0090] 在一些实现方式中,图4中描述的方法204可以用来将具有高于一个具体截止值的鲁棒性评分(如表型结果的标准差)的组合140过滤掉。换句话说,方法204可以用来将对于与组分104相关的最佳特征的变化敏感的组合140过滤掉。在一些实现方式中,图4中描述的方法204可以用来基于该确定的灵敏度来确定该多个组分中的每一个的一个第二最佳特征。在一些实现方式中,该确定的第二最佳特征可以产生比如在一个方法202期间所预测的最佳特征更令人希望的一个表型结果。
[0091] 在一些实现方式中,方法202、方法204和/或其他参数可以用来选择单一候选组分。在一些实现方式中,方法202、方法204和/或其他参数可以用来选择候选组合140。
[0092] 图5是一个流程图,展示了根据本发明的各种实现方式选择可促进一种生物过程的单一候选组分的一种方法500的一个实例。一个计算机模型可以预测一种候选组分(图1中示为例如组分104)对一种生物过程的一个表型结果具有作用。在一个操作502中,方法500可以基于是否该计算机模型使用一个最佳特征预测该表型结果的一个总体或局部最佳值来确定一种候选组分的该最佳特征。例如,可以基于如通过模拟光合成的一个计算机模型所预测的一个表达水平对二氧化碳同化的作用来确定一种候选基因的一个最佳表达水平(以例如酶的量形式观测)。当通过该计算机模型所预测的二氧化碳同化水平相比于其他表达水平和/或其他基因处于一个总体或一个局部最佳值时,可以认为该表达水平最佳。
[0093] 在一个操作504中,对于各个候选组分,方法500可以使用计算机模型确定对于各个候选组分围绕该最佳特征而言该生物过程的灵敏度。例如,各个候选基因的灵敏度分析可以用来确定该候选基因是否对方法502中所确定的最佳表达水平的变化敏感。
[0094] 在一个操作506中,出于制造展现出或将展现该表型结果的一种生物产品的目的,方法500可以基于该表型结果和该确定的灵敏度来选择一种候选组分。例如,可以基于其中预测一种候选基因可产生的一个表型结果并且基于该确定的灵敏度来选择该基因。以此方式,即使当在例如实验室实验和/或制造期间未能在该生物产品中实现最佳表达水平时,对最佳表达水平的变化相对不敏感的一种单一候选基因也可以产生所预测的表型结果或可接受地接近(基于一个预定义的差异)于所预测的表型结果的一个表型结果。
[0095] 在一个实施例中,可以合成或分离通过本发明确定的所选择的这个或这些候选基因的聚核苷酸序列并且引入到表达盒中,其包含遗传调节元件以靶向表达水平和一或多种细胞类型。在一个实施例中,可以将至少一种表达盒引入到一个二元载体中并且转化到植物中。接着可以确定灵敏度和实际表型结果。如以下实例中描述,一个实施例使用本发明来鉴定使用本领域普通技术人员已知的方法引入到表达盒中并且转化到植物中的三种或四种候选基因。这些实例还描述了用于测量这些转基因的植物的表型结果的已知方法。
[0096] 本发明的一个实施例还可以包括包含SEQ ID NO.6、SEQ ID NO.7、以及SEQ ID NO.8的一种表达盒、细胞、植物或哺乳动物
[0097] 本发明的另一个实施例包括包含序列SEQ ID NO.6、SEQ ID NO.7、以及SEQ ID NO.8中的任何两个的一种表达盒、细胞、植物或哺乳动物。
[0098] 本发明的又另一个实施例包括包含序列SEQ ID NO.6、SEQ ID NO.7、以及SEQ ID NO.8之一的一种表达盒、细胞、植物或哺乳动物。
[0099] 本发明包括包含序列SEQ ID NO.6、SEQ ID NO.7或SEQ ID NO.8中的至少一个的一种表达盒、细胞、植物或哺乳动物。
[0100] 本发明的又另一个实施例包括包含序列SEQ ID NO.9、SEQ ID NO.10以及SEQ ID NO.11和SEQ ID NO.12的一种表达盒、细胞、植物或哺乳动物。
[0101] 本发明的另一个实施例包括包含序列SEQ ID NO.9、SEQ ID NO.10以及SEQ ID NO.11和SEQ ID NO.12中的两个的一种表达盒、细胞、植物或哺乳动物。
[0102] 本发明的一个实施例还包括包含序列SEQ ID NO.9、SEQ ID NO.10以及SEQ ID NO.11和SEQ ID NO.12之一的一种表达盒、细胞、植物或哺乳动物。
[0103] 本发明的一个实施例包括包含序列SEQ ID NO.9、SEQ ID NO.10以及SEQ ID NO.11和SEQ ID NO.12中的至少一个的一种表达盒、细胞、植物或哺乳动物。
[0104] 在此描述的前述实例仅出于示意性目的,并且不希望具有限制性。本发明的实现方式可以在硬件固件软件或其任何合适的组合中进行。本发明的实现方式还可以实施为存储在一个机器可读媒体上的指令,其可以通过一个或多个处理器来读取和执行。一个有形的机器可读媒体可以包括用于存储或传输以可由一个机器(例如一个计算装置)读取的形式的信息的任何有形的非暂时性的机构。例如,一个有形的机器可读存储媒体可以包括只读存储器随机存取存储器、磁盘存储媒体、光学存储媒体、快闪存储器装置以及其他有形的存储媒体。无形的机器可读传输媒体可以包括无形的形式的传播信号,如载波、红外信号、数字信号以及其他无形的传输媒体。另外,固件、软件、例程或指令可以就本发明的具体示例性实现方式而描述于以上披露中,并且执行某些作用。然而,将显而易见的是,这些描述仅为方便起见,并且这些作用事实上由计算装置、处理器、控制器或执行固件、软件、例程或指令的其他装置产生。
[0105] 本发明的实现方式可以描述为包括一个具体特色、结构或特征,但每一方面或实现方式可以不一定包括该具体特色、结构或特征。此外,当与一个方面或实现方式结合描述一个具体特色、结构或特征时,应理解,不论是否明确地描述,这个特色、结构或特征都可以与其他实现方式结合包括在内。因此,可以在不偏离本发明的范围和精神的情况下对所提供的描述进行各种改变和修改。因此,说明书和图式应被视为仅是示例性的,并且本发明的范围仅由所附权利要求书确定。
[0106] 以下实例提供了多个示意性实施例。根据本发明和本领域中一般水平的技能,普通技术人员应当理解,以下实例仅仅旨在是示例性的,并且可以在不偏离当前要求的主题的范围的情况下使用许多改变、修改以及更改。
[0107] 除非另外指明,否则出于本发明的目的进行的克隆步骤(如例如限制裂解、琼脂糖凝胶电泳、DNA片段的纯化、DNA片段的连接、大肠杆菌(E.coli)细胞的转化、细菌的生长以及重组DNA的序列分析)是如萨布鲁克(Sambrook)(1989)描述进行的。
[0108] 序列表概述
[0109] SEQ ID NO:1描绘了一种多肽序列,玉米(Zea mays)磷酸烯醇式丙酸羧化酶[0110] SEQ ID NO:2描绘了一种多肽序列,菠菜(Spinacia oleracea)果糖-1,6-二磷酸酯酶
[0111] SEQ ID NO:3描绘了一种多肽序列,菠菜磷酸核酮糖激酶
[0112] SEQ ID NO:4描绘了一种多肽序列,菠菜NADP-苹果酸脱氢酶
[0113] SEQ ID NO:5描绘了一种多肽序列,高粱(Sorghum bicolor)工程改造的丙酮酸正磷酸二激酶
[0114] SEQ ID NO:6描绘了一种聚核苷酸序列,表达盒ZmPRK-1中的SoFBP
[0115] SEQ ID NO:7描绘了一种聚核苷酸序列,表达盒ZmSBP中的SoPRK
[0116] SEQ ID NO:8描绘了一种聚核苷酸序列,表达盒ZmPGK中的ZmPepC
[0117] SEQ ID NO:9描绘了一种聚核苷酸序列,表达盒ZmPRK-2中的SoFBP
[0118] SEQ ID NO:10描绘了一种聚核苷酸序列,表达盒ZmNADPME中的SoPRK
[0119] SEQ ID NO:11描绘了一种聚核苷酸序列,表达盒ZmPEPC中的SbPPDK
[0120] SEQ ID NO:12描绘了一种聚核苷酸序列,表达盒ZmPGK中的SbNADP-MD
[0121] 实例1:确定候选者
[0122] 此实例描述了促进玉米和其他NADP苹果酸型C4物种中的光同化的一种遗传工程改造策略。将本发明的计算机模型输出组织成3和4基因的组合解决方案。对于性状开发各自选择一个3基因的和一个4基因的组合。为了实施此性状,向布伦达(BRENDA)数据库(www.brenda.enzymes.org)查询有关磷酸烯醇式丙酮酸羧化酶(PEPC,EC NO:4.1.1.31)、果糖-1,6-二磷酸酯酶(FBPase,EC NO:3.1.3.11)、磷酸核酮糖激酶(EC NO:2.7.1.19)、NADP-苹果酸脱氢酶(EC NO:1.1.1.82)以及丙酮酸正磷酸二激酶(PPDK,EC NO:2.7.9.1)的序列信息。此分析提供已在功能上进行表征的酶的蛋白质序列。来自该数据库的信息用来获得来自玉米的PEPC、来自菠菜的FBPase、来自菠菜的磷酸核酮糖激酶以及来自高粱的NADP-苹果酸脱氢酶的蛋白质序列。简言之,参考信息用来确定由功能表征数据支持的候选者。各个序列都必须由酶活性证据支持。提供蛋白质序列数据(SEQ ID NO1-4)。尽管有可用的信息和一定数目的公布,但发现玉米PPDK的公开序列数据不完全。因此,使用公开数据来定义高粱PPDK gDNA序列。使用玉米PPDK cDNA和蛋白质序列作为查询从高粱基因组数据库得到高粱gDNA和cDNA序列。经由与相应EST进行比对来扩增高粱cDNA。将这些序列汇集到一个重叠群中,将该重叠群插入外显子中并且与gDNA进行比对。存在19个外显子,并且除一个以外其余所有都定义以GT…AG序列为边界的内含子。存在若干位置,其中高粱PPDK gDNA和cDNA序列趋异;在大多数情况下,cDNA序列取代gDNA序列。还将玉米与高粱蛋白质序列进行比对并且用来进一步优化该gDNA序列。最终,引入布朗黄顶菊(Flaveria brownie)PPDK残基取代。结果是SbPPDK工程改造的序列,SEQ ID NO5。还通过基取代将gDNA序列修饰为沉默XhoI、SanDI、NcoI、SacI、RsrII以及XmaI限制核酸内切酶位点。在翻译起始密码子处加入一个NcoI位点,并且在翻译终止密码子之后加入一个SacI位点。
[0123] 实例2:靶向候选基因表达的调节序列
[0124] 一旦确定了候选基因之后,就选择调节序列以将这些候选基因的表达靶向到适当细胞类型。设计一系列植物表达盒以提供叶肉或维管束鞘细胞中的鲁棒性状基因表达。蛋白质组数据(玛杰仁(Majeran)等人,2005)和表达谱数据的组合用来基于所关心的基因的表达模式鉴定候选调节序列,并且鉴定了六个新的表达盒。各个盒由启动子和终止子序列构成。该启动子由5'-非转录的序列(第一内含子)和一个5'-非翻译的序列(由第一外显子和部分第二外显子构成)组成。另外,该启动子以衍生自烟草镶嵌病毒Ω序列(加利(Gallie)和沃尔巴特(Walbut),1990)和一个玉米优化的克扎克(Kozak)序列(克扎克,2002)的一个翻译增强子结束。该终止子由刚好在翻译终止密码子之后起始的3'-非翻译的序列和3'-非转录的序列组成。
[0125] 进行具体碱基取代以消除内部XhoI、SanDI、NcoI、SacI、RsrII以及XmaI限制核酸内切酶位点。另外,碱基取代用来消除5'-非翻译的序列中的ATG和插入终止密码子。这些启动子在5'端处与XhoI/SanDI侧接并且在3'端上与NcoI侧接。这些终止子在5'端处与SacI侧接并且在3'端上与RsrII/XmaI侧接。将盒依序以RsrII/SanDI片段形式克隆到用RsrII切割的二元载体中。将盒概述于下表中,其包括对相关SEQ ID NO的参考。
[0126] 表3.
[0127]
[0128] 实例3:表达盒和组合
[0129] 含有通过本发明的方法选择的候选基因的一个三基因的和一个四基因的表达盒二元载体将各自用来减少C4光合成模型输出以实践。该三基因的C4光合成增强构建体显示于表4中;该四基因的C4光合成增强构建体显示于表5中。基因编号指示了顺序,在T-DNA的右边界处起始并且延伸到左边界。该三基因的二元载体是19862并且显示于图6中。该四基因的二元载体是19863并且显示于图7中。
[0130] 表4.
[0131]
[0132] 表5.
[0133]
[0134] 实例4:植物转化
[0135] 构建体19862和19863用于农杆菌(Agrobacterium)介导的玉米转化。未成熟的玉米胚的转化基本上如在内格罗托(Negrotto)等人,2000,植物细胞报告(Plant Cell Reports)19:798-803中描述来执行。对于这个实例,所有的培养基成分基本上如在内格罗托等人(同前文献)中描述。然而,本领域内已知的各种培养基成分可以被代替。
[0136] 将用于转化的基因克隆到适用于玉米转化的一个载体中。用于此实例中的载体包含用于选择转基因系(内格罗托等人,同前文献)的磷酸甘露糖异构酶(PMI)基因以及可选择标记草胺膦乙酰转移酶(PAT)(美国专利第5,637,489号)。简言之,使含有一种植物转化质体的农杆菌菌株LBA4404(pSB1)在28°C生长在YEP(酵母提取物(5g/L),蛋白胨9
(10g/L),NaCl(5g/L),15g/l琼脂,pH6.8)固体培养基上2-4天。将约0.8×10 个农杆菌悬浮于补充有100μM As的LS-inf培养基中(内格罗托等人,同前文献)。在此培养基中预诱导细菌30-60分钟。
[0137] 将来自A188或其他合适的基因型的未成熟胚从8-12天大的穗中切除到液体LS-inf+100μM As中。用新鲜的感染培养基漂洗这些胚。然后添加农杆菌溶液,并且将这些胚涡旋30秒并且允许其与细菌一起沉降5分钟。然后将这些胚盾片向上地转移到LSA培养基中,并且在暗处培养两到三天。随后,将每皮氏板(petri plate)20与25个之间的胚转移到补充有头孢噻肟(cefotaxime)(250mg/l)和硝酸(1.6mg/l)的LSDc培养基中,并且在28°C在暗处培养10天。
[0138] 将产生胚性愈伤组织的未成熟的胚转移到LSD1M0.5S培养基中。在此培养基上选择培养物约6周,在约3周时进行继代培养步骤。将存活着的愈伤组织(calli)转移到补充有甘露糖的Reg1培养基中。在亮处培养(16小时亮/8小时暗方案)之后,然后将绿色组织转移到不具有生长调节剂的Reg2培养基中,并且孵育约1-2周。将这些小植株转移到含有Reg3培养基的真塔(Magenta)GA-7盒(伊利诺斯州芝加哥的马真塔公司(Magenta Corp,Chicago Ill.))中,并且使它们在亮处生长。
[0139] 通过塔克曼(TaqMan)分析植物的PMI、PAT、一种候选基因编码序列以及载体主链。将对于PMI、PAT以及该候选基因编码序列为阳性并且对于载体主链为阴性的植物转移到温室中。通过qRT-PCR分析所有性状表达盒的表达。鉴定可孵化的单拷贝事件,并且将其转移到温室中。
[0140] 实例5:表达候选基因的转基因植物的评估
[0141] 可以按若干方法来评估植物光同化。以下预示的实例描述了如何测量上文描述的转基因植物的植物光同化的变化。可以在V3籽苗中比较半合子性状阳性与无效籽苗之间的第一植物生长。在这个分析中,约60个B1植物在4.5英寸盆中发芽并且进行基因分型。在发芽之后约17天,用水使盆土饱和,并且将土表面密封以防止蒸发。在时间零点将一些籽苗杀死以测定芽质量(呈鲜重和干重形式)。每天记录盆质量以评估植物水需求。7天之后,收获芽并且进行称重(鲜重和干重)。使用一个不具有植物的盆来校正植物水利用以报告自然水损失。此方案使得植物生长和水利用能够在性状阳性和无效群组之间得到比较。
改进的光同化可以使得性状阳性植物能够积累相对于无效植物更多的空气生物质量。
[0142] 一种第二方法是使用一个红外气体分析(IRGA)仪器来测量光同化。例如,可以将一个CIRAS-2IRGA装置固定到一个三脚架上,以将气体交换比色皿轻轻夹到叶子并且将由植物处理产生的数据噪音最小化。气孔孔口对触摸和植物移动非常敏感。可以将施加到叶-1片的环境编程以模拟一个生长室环境(400μmol mol CO2;26°C;环境湿度),从而在标准生长条件下评估稳态光合成。以此方式,可以直接地比较性状阳性与无效植物之间的光同化。
[0143] 尽管IRGA是评估光合成活性(例如A/Ci曲线)的一种有力的并且常见的工具,但它具有一些警告。首先,它仅分析一个小叶片并且不提供关于整株植物的和冠层水平的光合成的信息,这些信息是在一种农艺情形下测定性状功能最终所需的。第二,在整个植物发育中需要许多测量来确定A。第三,该光合成器具的一般状态取决于分析哪种叶子,并且当对这种叶子进行分析时,在整个植物中存在变化。最终,它是需要直接接触叶子的一种侵袭性技术。所产生的一种数据组分是叶子对仪器的反应。综合而言,这产生了高(10%-15%)的变化系数。因此,可能不能使用这种装置来检测小但却显著的光同化变化。
[0144] 为了绕过这些限制,我们可以使用安大略省的圭尔夫大学(University of Guelph,Ontario)的受控环境系统研究机构(Controlled Environment Systems Research Facility)中的大低压舱(惠勒(Wheeler)等人,2011)来高精度地监测一个30个植物的群体的植物CO2需求、夜间呼吸以及蒸腾历时持续长达数周的时期。
[0145] 参考文献
[0146] 以下列出的所有参考文献以及在本发明中引用的所有参考文献,包括但不限于所有专利、专利申请及其出版物、科学杂志上的文章以及数据库条目(例如 数据库条目及所有在其中可获得的注释),将其全部内容通过引用结合在此,其结合程度是它们对在此采用的方法、技术和/或组合物进行补充、解释、提供一种背景、或进行传授。
[0147] Gallie,D.R.,Walbot,V.(1992).Nucleic Acids Res(《核 酸 研 究》)20(17):4631-4638.
[0148] Kozak,M.(2002).Gene(《基因》)299:1-34.
[0149] Majeran,W.,Cai,Y.,Sun,Q.,van Wijk,K.J.(2005).Plant Cell(《植物细胞》)17:3111-3140.
[0150] Negrotto et al.(2000).Plant Cell Reports(《植 物 细 胞 报 道》)19:798-803Sambrook & Russell(2001).Molecular Cloning:A Laboratory
Manual.,Third Edition(《分子克隆:实验手册第三版》),Cold Spring Harbor Laboratory Press(冷泉港实验室出版社),Cold Spring Harbor(冷泉港),New York,United States of America(美国纽约).
[0151] Wheeler,R.M.,Wehkamp,C.A.,Stasiak,M.A.,Dixon,M.A.,Rygalov,V.Y.(2011).“Plants survive rapid decompression:implications for bioregenerative life support.(《植物生存迅速减压:对生物再生的生命支持的启示》)”Adv Space Res47:1600-1607.
[0152] 美国专利第5,637,489号
QQ群二维码
意见反馈