首页 / 专利库 / 作物管理 / 非生物胁迫 / 表达调控元件及其用途

表达调控元件及其用途

阅读:809发布:2020-05-12

专利汇可以提供表达调控元件及其用途专利检索,专利查询,专利分析的服务。并且本公开涉及来自 植物 的基因表达调控元件及其在调控一个或多个异源核酸 片段 在植物中的表达中的用途。本公开进一步公开了含有表达调控元件的组合物、多核苷酸构建体、转化的宿主细胞、植物和 种子 ,及其制备和使用方法。,下面是表达调控元件及其用途专利的具体信息内容。

1.一种调控内源多核苷酸在植物细胞中的表达的方法,所述方法包括在所述内源多核
苷酸的调节区中改变一个或多个核苷酸,使得所述多核苷酸的调节区包含具有至少一个拷
贝的多核苷酸序列的表达调控元件,所述多核苷酸序列选自由SEQ ID NO:1-68组成的组。
2.如权利要求1所述的方法,其中通过基因组修饰来改变一个或多个核苷酸。
3.如权利要求1所述的方法,其中所述表达调控元件存在于距所述内源多核苷酸的转
录起始位点约10至约5000bp内。
4.如权利要求1所述的方法,其中所述表达调控元件进一步包含另外拷贝的表达调控
元件,使得约2X至10X拷贝的表达调控元件存在于所述内源多核苷酸的调节区中。
5.如权利要求4所述的方法,其中所述另外拷贝的表达调控元件以选自由以下组成的
组的一种或多种构型存在:头对头、头对尾、尾对头、尾对尾及其组合。
6.如权利要求4所述的方法,其中所述另外拷贝由间隔子序列分开。
7.如权利要求6所述的方法,其中所述间隔子序列包含约1至50个核苷酸。
8.如权利要求1所述的方法,其中所述表达调控元件是植物来源的,并且对于所述内源
多核苷酸是异源的。
9.如权利要求1所述的方法,其中所述表达调控元件以组织优选的方式改变所述多核
苷酸的表达。
10.如权利要求1所述的方法,其中通过在所述内源多核苷酸的调节区中改变不超过2、
3、4、5、6、7、8、9、10、11、12、13、14或15个核苷酸来创建所述表达调控元件。
11.如权利要求4所述的方法,其中通过改变所述内源多核苷酸的调节区中不超过2、3、
4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、
31、32、33、34、35、36、27、38、39或40个核苷酸来创建另外拷贝的表达调控元件。
12.如权利要求1所述的方法,其中所述表达调控元件位于所述内源多核苷酸的转录起
始位点的上游。
13.如权利要求1所述的方法,其中所述表达调控元件位于所述内源多核苷酸的转录起
始位点的下游。
14.如权利要求1所述的方法,其中将所述表达调控元件插入所述内源多核苷酸的调节
区,使得所述表达调控元件可操作地连接到所述内源多核苷酸。
15.如权利要求1所述的方法,其中与不包含可操作地连接到所述内源多核苷酸的所述
表达调控元件的对照植物细胞相比,所述植物细胞中所述内源多核苷酸的表达增加。
16.如权利要求1所述的方法,其中所述植物细胞是玉蜀黍、稻、大豆、向日葵、小麦、卡
诺拉油菜或高粱
17.如权利要求1所述的方法,其中表达调控元件是一个或多个拷贝的异源表达元件的
组合。
18.如权利要求1所述的方法,其中所述内源多核苷酸参与耐旱性、抗病性、除草剂耐受
性、有害生物抗性、产率增加、产率稳定性、氮利用效率或其组合。
19.如权利要求1所述的方法,其中所述内源多核苷酸是微小RNA或微小RNA前体。
20.如权利要求2所述的方法,其中所述基因组修饰是(a)由多核苷酸指导的内切核酸
酶、锌指核酸酶、转录激活子样效应子核酸酶(TALEN)、多核苷酸指导的重组酶或工程化的位点特异性大范围核酸酶或阿尔戈蛋白介导的位点特异性双链断裂(DSB),或(b)由C·G到
T·A或A·T到G·C基编辑脱酶介导的位点特异性碱基编辑。
21.如权利要求1所述的方法,其中将所述表达调控元件可操作地连接到异源最小核心
启动子。
22.如权利要求1所述的方法,其中将所述表达调控元件可操作地连接到异源内含子。
23.一种增加编码多肽的多核苷酸在植物中的表达的方法,所述方法包括通过将所述
多核苷酸与具有至少一个拷贝的选自由SEQ ID NO:1-68组成的组的元件的表达调控元件
可操作地连接来表达所述多核苷酸,其中所述表达调控元件对于所述多核苷酸是异源的,
并且所述表达调控元件对于在植物中起作用的启动子是异源的。
24.如权利要求23所述的方法,其中所述多肽赋予除草剂耐受性。
25.如权利要求23所述的方法,其中所述多肽赋予昆虫抗性。
26.如权利要求23所述的方法,其中所述多肽赋予抗病性。
27.如权利要求23所述的方法,其中所述多肽赋予非生物胁迫耐受性。
28.如权利要求23所述的方法,其中所述植物选自由以下组成的组:玉米、大豆、稻、小
麦、向日葵、高粱和卡诺拉油菜。
29.如权利要求23所述的方法,其中所述表达调控元件包含约2至约10个拷贝。
30.如权利要求23所述的方法,其中通过基因组编辑引入所述表达调控元件。
31.如权利要求23所述的方法,其中所述表达调控元件增加参与植物建筑学结构或植
物成熟的多核苷酸的表达。
32.一种重组DNA构建体,所述重组DNA构建体包含多核苷酸序列,所述多核苷酸序列包
含可操作地连接到至少一个异源核酸序列的SEQ ID NO:1-68中列出的任何序列。
33.一种植物细胞,所述植物细胞包含选自由SEQ ID NO:1-68组成的组的表达调控元
件,其中所述表达调控元件可操作地连接到异源多核苷酸,所述异源多核苷酸编码多肽。
34.一种植物细胞,所述植物细胞包含如权利要求32所述的重组DNA构建体。
35.如权利要求34所述的植物细胞,所述植物细胞是玉蜀黍植物细胞。
36.一种植物,所述植物已经在其基因组中稳定地并入了如权利要求32所述的重组DNA
构建体。
37.如权利要求36所述的植物,其中所述植物是单子叶植物。
38.如权利要求36所述的植物,其中所述植物是玉蜀黍、大豆、稻、小麦、向日葵、花、高粱或卡诺拉油菜。
39.一种由如权利要求7所述的植物产生的种子,其中所述种子包含所述重组DNA构建
体。
40.如权利要求32所述的重组DNA构建体,其中所述至少一个异源核酸序列包含选自由
以下组成的组的遗传序列:植物中的报道基因、选择标志、抗病性基因、除草剂抗性基因、昆虫抗性基因;参与化合物代谢的基因、参与脂肪酸代谢的基因、参与氨基酸代谢的基
因、参与植物发育的基因、参与植物生长调控的基因、参与产率改善的基因、参与抗旱性的基因、参与增加养分利用效率的基因、参与抗寒性的基因、参与抗热性的基因、和参与抗盐性的基因。
41.如权利要求32所述的重组DNA构建体,其中所述至少一个异源序列包含与玉蜀黍基
因的内源调节序列基本上相似的序列。
42.一种在植物中表达编码序列或RNA的方法,所述方法包括表达如权利要求32所述的
重组DNA构建体,其中所述至少一个异源序列包含编码序列或编码功能性RNA。
43.一种调控目的核苷酸序列在植物中的表达的方法,所述方法包括表达可操作地连
接到表达调控元件序列的异源序列,所述表达调控元件序列选自由SEQ ID NO:1-68组成的组。
44.如权利要求43所述的方法,其中所述异源序列赋予农艺学特征,所述农艺学特征选
自由以下组成的组:抗病性、除草剂抗性、昆虫抗性、碳水化合物代谢、脂肪酸代谢、氨基酸代谢、植物发育、植物生长调节、产率改善、抗旱性、耐寒性、抗热性、养分利用效率、氮利用效率和抗盐性。
45.一种调控目的核苷酸序列在植物中的表达的方法,所述方法包括表达可操作地连
接到异源表达调控元件的多核苷酸序列,所述异源表达调控元件与选自由SEQ ID NO:1-68组成的组的序列具有至少95%同一性、与植物细胞中起作用的内含子或5’UTR组合。
46.如权利要求45所述的方法,其中所述内含子是植物内含子。
47.如权利要求45所述的方法,其中所述5’UTR是植物序列。
48.一种用重组DNA构建体稳定转化的植物,所述重组DNA构建体包含选自由SEQ ID 
NO:1-68或与SEQ ID NO:1-68之一具有至少95%同一性的序列组成的组的表达调控元件,其中所述植物包含在所述植物的基因组中可操作地连接到异源核酸的表达调控元件,其中
所述表达调控元件调控所述异源核酸的表达。
49.一种修饰植物的内源基因的表达的方法,所述方法包括引入选自由SEQ ID NO:1-
68或与SEQ ID NO:1-68之一具有至少95%同一性的序列组成的组的表达调控元件,使得所引入的表达调控元件被可操作地连接以修饰所述内源基因的表达。
50.如权利要求49所述的方法,其中通过基因组编辑引入所述表达调控元件。
51.如权利要求50所述的方法,其中通过指导的Cas9内切核酸酶进行所述基因组编辑。
52.如权利要求49所述的方法,其中所述表达调控元件可操作地连接到异源启动子序
列和内含子。
53.如权利要求49所述的方法,其中所述植物是单子叶植物。
54.如权利要求49所述的方法,其中所述植物是玉蜀黍、大豆、稻、小麦、高粱或卡诺拉
油菜。
55.如权利要求49所述的方法,其中所述异源核酸增加产率。
56.如权利要求49所述的方法,其中所述异源核酸增加耐旱性。
57.如权利要求49所述的方法,其中所述异源核酸编码除草剂抗性多肽或昆虫抗性多
肽。
58.一种分离的多核苷酸,所述分离的多核苷酸包含选自由SEQ ID NO:1-68及其组合
组成的组的植物表达调控元件,其中所述表达调控元件可操作地连接到异源启动子序列。
59.如权利要求58所述的分离的多核苷酸,其中所述表达调控元件可操作地连接到异
源编码序列。
60.如权利要求58所述的分离的多核苷酸,其中所述异源启动子序列存在于内源基因
组序列中。
61.如权利要求58所述的分离的多核苷酸,其中所述表达调控元件以多个拷贝存在。
62.一种产生包含一个或多个拷贝的表达调控元件的加激活标签的植物的群体的方
法,所述方法包括用包含一个或多个拷贝的表达调控元件作为激活标签的重组表达盒转化
多种植物,其中所述表达调控元件选自由SEQ ID NO:1-68组成的组;以及产生包含所述激活标签的植物的群体。
63.如权利要求62所述的方法,其中所述植物是玉蜀黍。
64.一种鉴定存在于植物基因组中的一个或多个植物表达调控元件(pEME)的方法,所
述方法包括(a)进行多个调节序列与一个或多个参考表达调控元件(rEME)序列的序列比
对,所述参考表达调控元件选自由SEQ ID NO:1-68组成的组:(b)鉴定所述调节序列的一个或多个区域,所述调节序列表现出与所述rEME序列之一具有零至约五个错配的序列同一
性;和(c)在分离的植物细胞中表达异源多核苷酸,所述异源多核苷酸可操作地连接到一个或多个拷贝的经鉴定的pEME。
65.一种高通量鉴定来源于植物的表达调控元件的方法,所述方法包括:
a)产生含有富集调节序列的多个基因组片段的重组DNA构建体,其中所述基因组片段
可操作地连接到编码报道多肽的异源多核苷酸;
b)在分离的植物细胞中表达所述重组DNA构建体;和
c)基于所述分离的植物细胞中的表达水平,将所述一个或多个基因组片段鉴定为表达
调控元件。
66.一种鉴定植物来源的表达调控元件的方法,所述方法包括(a)确定先前鉴定的非植
物增强子元件的最小区域,所述非植物增强子元件调控植物细胞中的基因表达;(b)用所述最小非植物增强子元件序列进行植物基因组的序列搜索和比对;(c)确定所述最小非植物
增强子元件序列与所述植物基因组的调节区的序列同一性匹配,从而鉴定所述植物来源的
表达调控元件;和(d)在植物细胞中合成所述植物来源的表达调控元件,并用可操作地连接到异源多核苷酸的植物来源的表达调控元件进行基因表达分析。
67.一种增加内源多核苷酸序列的表达的方法,所述方法包括在所述内源多核苷酸序
列的调节区引入包含少于约10个核苷酸变化的多个突变,其中所述多个突变(i)是植物来
源的;(ii)不代表超过7个核苷酸的连续序列;(iii)不会重建至少16个连续核苷酸的完整
病毒或细菌增强子元件;和(iv)位于距所述内源多核苷酸序列的转录起始位点可操作的距
离处。
68.如权利要求67所述的方法,其中通过双链DNA断裂引入所述多个突变。
69.如权利要求65所述的方法,其中大部分的所述调节序列不含具有转录起始位点的
核心启动子序列。
70.一种鉴定植物基因组中的表达调控元件的方法,所述方法包括:
a)在TATA盒或转录起始位点上游约20至约100bp的调节区中鉴定推定的表达调控基
序,其中所述推定的表达调控基序的长度为约10至约30个连续的多核苷酸;
b)评估推定的表达调控基序在植物细胞中的表达调控作用;和
c)如果与不包含所述表达调控元件的对照相比,所述表达调控基序增加或减少可操作
地连接到的启动子的异源多核苷酸在所述植物细胞中的表达,则将所述推定的表达调控基
序鉴定为所述表达调控元件。
71.如权利要求70所述的方法,其中与所述对照相比,所述表达调控元件作为单拷贝将
表达增加为至少3倍。
72.如权利要求70所述的方法,其中所述表达调控基序小于21bp。
73.如权利要求70所述的方法,其中所述表达调控基序存在于所述转录起始位点上游
约50bp内。
74.一种调控内源多核苷酸在植物细胞中的表达的方法,所述方法包括提供与位点特
异性DNA结合多肽可操作地缔合的脱氨酶多肽,由此所述脱氨酶多肽工程化一个或多个碱
基变化,使得在所述内源多核苷酸的调节区中创建包含至少一个拷贝的选自由SEQ ID NO:
1-68组成的组的序列的多核苷酸,从而在所述植物细胞中调控所述内源多核苷酸的表达。
75.如权利要求74所述的方法,其中所述脱氨酶是腺嘌呤脱氨酶。
76.如权利要求74所述的方法,其中所述脱氨酶是胞苷脱氨酶。
77.如权利要求74所述的方法,其中所述位点特异性DNA结合多肽是未激活的Cas内切
核酸酶。
78.如权利要求77所述的方法,其中所述未激活的Cas内切核酸酶是Cas9或Cpf1,其中
所述Cas9或Cpf1不产生双链断裂。
79.如权利要求77所述的方法,其中所述调节区是所述内源多核苷酸的启动子区。
80.如权利要求77所述的方法,其中所述内源多核苷酸编码参与有害生物保护、抗病
性、除草剂耐受性、耐旱性、耐寒性、增加的油和/或蛋白质含量、或改善的农艺学特征的多肽或RNA。

说明书全文

表达调控元件及其用途

技术领域

[0001] 本公开涉及植物调节元件及其片段,以及它们在改变植物中核苷酸序列表达中的用途。
[0002] 以电子方式提交的序列表的引用
[0003] 所述序列表的官方副本经由EFS-Web作为ASCII格式的序列表以电子方式提交,文件名为“7243PCT_ST25.txt”,创建于2018年3月27日,且具有11千字节大小,并且与本说明书同时提交。包括在所述ASCII格式的文件中的序列表是本说明书的一部分并且以其全文
通过引用并入本文。

背景技术

[0004] 植物遗传工程的最新进展已为对植物进行工程化以使其具有改善的特性或性状(例如植物抗病性、昆虫抗性,除草剂抗性和产率改善)打开了新的大。以适当的构型存在
的适合的调节信号有助于获得所需目的基因的表达。这些调节信号通常包括启动子区、5’
非翻译的前导序列、内含子和3’转录终止/聚腺苷酸化序列。
[0005] 需要增加或减少植物中可操作连接的核苷酸序列的表达的表达调控元件,以调控一个或多个目的基因的表达。
发明内容
[0006] 一种调控内源多核苷酸在植物细胞中的表达的方法,所述方法包括在所述内源多核苷酸的调节区中改变一个或多个核苷酸,使得所述多核苷酸的调节区包含具有至少一个
拷贝的多核苷酸序列的表达调控元件(EME),所述多核苷酸序列选自由SEQ ID NO:1-68组
成的组,其中所述表达调控元件对于所述内源多核苷酸是异源的。在一个实施例中,通过基
因组修饰来改变一个或多个核苷酸。
[0007] 在一个实施例中,EME存在于距所述内源多核苷酸的转录起始位点约10至约5000bp内。在一个实施例中,EME进一步包括另外拷贝的表达调控元件,使得约2X至10X拷贝
的EME存在于内源多核苷酸或重组多核苷酸的调节区中。在一个实施例中,当存在多于一个
拷贝的EME时,它能以选自由以下组成的组的构型中的一种或多种存在:头对头、头对尾、尾对头、尾对尾及其组合。在一个实施例中,另外拷贝由间隔子序列隔开,所述间隔子序列可
以包括约1至50个核苷酸。在一个实施例中,EME是一个或多个拷贝的异源表达元件的组合。
[0008] 在一个实施例中,表达调控元件是植物来源的;以组织优选的方式改变多核苷酸的表达量。在一个实施例中,通过在内源多核苷酸的调节区中改变不超过2、3、4、5、6、7、8、
9、10、11、12、13、14或15个核苷酸,在植物细胞的基因组中创建EME。在一个实施例中,当存在一个或多个拷贝的EME时,通过在内源多核苷酸的调节区中改变不超过2、3、4、5、6、7、8、
9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、
35、36、27、38、39或40个核苷酸来创建调节区。
[0009] 在一个实施例中,EME位于内源多核苷酸的转录起始位点的上游或下游。在一个实施例中,将EME插入内源多核苷酸的调节区,使得表达调控元件可操作地连接到内源多核苷
酸。在一个实施例中,与不包含可操作地连接到内源多核苷酸的EME的对照植物细胞相比,
植物细胞中内源多核苷酸的表达增加。
[0010] 在一个实施例中,对于利用EME和包含EME的组合物的方法,合适的植物细胞包括来自单子叶植物和双子叶植物(例如像,玉蜀黍、稻、大豆、向日葵、小麦、卡诺拉油菜
(canola)、花或高粱)的植物细胞。在一个实施例中,内源多核苷酸参与耐旱性、抗病性、除草剂耐受性、有害生物抗性、产率增加、产率稳定性、氮利用效率或其组合。在一个实施例中,内源多核苷酸是微小RNA或微小RNA前体。
[0011] 在一个实施例中,对于其中涉及基因组修饰的利用EME和包含EME的组合物的方法,适合的技术包括:由多核苷酸指导的内切核酸酶、锌指核酸酶、转录激活子样效应子核
酸酶(TALEN)、多核苷酸指导的重组酶或工程化的位点特异性大范围核酸酶或阿尔戈蛋白
(Argonaute)介导的位点特异性双链断裂(DSB);或由C·G到T·A或A·T到G·C基编辑脱
酶介导的位点特异性碱基编辑。
[0012] 在一个实施例中,EME可操作地连接至异源最小核心启动子;异源内含子;异源终止子;异源启动子;异源增强子;异源编码序列;和异源微小RNA序列。
[0013] 一种增加编码多肽的多核苷酸在植物中的表达的方法,所述方法包括通过将所述多核苷酸与具有至少一个拷贝的选自由SEQ ID NO:1-68组成的组的元件的表达调控元件
可操作地连接来表达所述多核苷酸,其中所述表达调控元件对于所述多核苷酸是异源的,
并且所述表达调控元件对于在植物中起作用的启动子是异源的。
[0014] 在一个实施例中,可操作地连接到一个或多个EME的多肽赋予除草剂耐受性、昆虫抗性、抗病性、非生物胁迫耐受性、产率稳定性、产率增加及其组合。在一个实施例中,EME增加或减少参与植物建筑学结构或植物成熟的多核苷酸的表达。
[0015] 在一个实施例中,一种重组DNA构建体,所述重组DNA构建体包含多核苷酸序列,所述多核苷酸序列包含可操作地连接到至少一个异源核酸序列的SEQ ID NO:1-68中列出的
任何序列。
[0016] 在一个实施例中,一种植物细胞,所述植物细胞包括选自由SEQ ID NO:1-68组成的组的EME,其中所述表达调控元件可操作地连接到异源多核苷酸,所述异源多核苷酸编码
多肽。一种细胞,所述细胞包含重组DNA构建体,所述重组DNA构建体包含本文所述的一个或
多个EME;在一个实施例中,所述细胞是植物细胞;细菌细胞(例如农杆菌
(Agrobacterium))。在一个实施例中,一种植物,所述植物已经在其基因组中稳定地并入了
这种重组构建体。在一个实施例中,一种种子,所述种子包括这种重组DNA构建体。
[0017] 在一个实施例中,包含本文所述的一个或多个EME的重组DNA构建体可操作地连接到至少一个包括选自由以下组成的组的遗传序列的异源核酸序列:植物中的报道基因、选
择标志、抗病性基因、除草剂抗性基因、昆虫抗性基因;参与化合物代谢的基因、参与脂肪酸代谢的基因、参与氨基酸代谢的基因、参与植物发育的基因、参与植物生长调节的基
因、参与产率改善的基因、参与抗旱性的基因、参与增加养分利用效率的基因、参与抗寒性
的基因、参与抗热性的基因、和参与抗盐性的基因。在一个实施例中,所述至少一个异源序
列包含与玉蜀黍基因的内源调节序列基本上相似的序列。
[0018] 一种在植物中表达编码序列或RNA的方法,所述方法包括表达具有一个或多个EME的重组DNA构建体,其中所述至少一个异源序列包含编码序列或编码功能性RNA。一种调控
目的核苷酸序列在植物中的表达的方法,所述方法包括表达可操作地连接到表达调控元件
序列的异源序列,所述表达调控元件序列选自由SEQ ID NO:1-68组成的组。在一个实施例
中,异源序列赋予农艺学特征,所述农艺学特征选自由以下组成的组:抗病性、除草剂抗性、昆虫抗性、碳水化合物代谢、脂肪酸代谢、氨基酸代谢、植物发育、植物生长调节、产率改善、抗旱性、抗寒性、抗热性、养分利用效率、氮利用效率和抗盐性。
[0019] 一种调控目的核苷酸序列在植物中的表达的方法,所述方法包括表达可操作地连接到异源表达调控元件的多核苷酸序列,所述异源表达调控元件与选自由SEQ ID NO:1-68
组成的组的序列具有至少95%同一性、与植物细胞中起作用的内含子或5’UTR组合。
[0020] 一种用重组DNA构建体稳定转化的植物,所述重组DNA构建体包含选自由SEQ ID NO:1-68或与SEQ ID NO:1-68中任一者具有至少95%同一性的序列组成的组的EME,其中所
述植物包含在植物的基因组中可操作地连接到异源核酸的EME,其中所述EME调控异源核酸
的表达。
[0021] 一种修饰植物内源基因的表达的方法,所述方法包括引入选自由SEQ ID NO:1-68或与SEQ ID NO:1-68之一具有至少95%同一性的序列组成的组的EME,使得所引入的EME可
操作地连接以修饰所述内源基因的表达。在一个实施例中,通过指导的Cas9内切核酸酶进
行基因组编辑。
[0022] 一种分离的多核苷酸,所述分离的多核苷酸包含选自由SEQ ID NO:1-68及其组合组成的组的植物表达调控元件,其中所述表达调控元件可操作地连接到异源启动子序列。
在一个实施例中,具有表达调控元件的多核苷酸可操作地连接到异源编码序列。在一个实
施例中,异源启动子序列存在于内源基因组序列中。在一个实施例中,EME以多个拷贝存在。
[0023] 一种产生包含一个或多个拷贝的表达调控元件的加激活标签的植物的群体的方法,所述方法包括用包含一个或多个拷贝的表达调控元件作为激活标签的重组表达盒转化
多种植物,其中所述表达调控元件选自由SEQ ID NO:1-68组成的组;以及产生包含所述激
活标签的植物的群体。
[0024] 一种鉴定存在于植物基因组中的一个或多个植物表达调控元件(pEME)的方法,所述方法包括(a)进行多个调节序列与一个或多个参考表达调控元件(rEME)序列的序列比
对,所述参考表达调控元件选自由SEQ ID NO:1-68组成的组;(b)鉴定所述调节序列的一个
或多个区域,所述调节序列表现出与所述rEME序列之一具有零至约五个错配的序列同一
性;和(c)在分离的植物细胞中表达异源多核苷酸,所述异源多核苷酸可操作地连接到一个
或多个拷贝的所述经鉴定的pEME。
[0025] 一种高通量鉴定来源于植物的表达调控元件的方法,所述方法包括:
[0026] a)产生含有多个基因组片段的重组DNA构建体,所述基因组片段富集不含具有转录起始位点的核心启动子序列的调节序列,其中所述基因组片段可操作地连接到编码报道
多肽(reporter polypeptide)的异源多核苷酸;
[0027] b)在分离的植物细胞中表达所述重组DNA构建体;和
[0028] c)基于所述分离的植物细胞中的表达水平,将所述一个或多个基因组片段鉴定为表达调控元件。
[0029] 一种鉴定植物来源的表达调控元件的方法,所述方法包括(a)确定先前鉴定的非植物增强子元件的最小区域,所述非植物增强子元件调控植物细胞中的基因表达;(b)用所
述最小非植物增强子元件序列进行植物基因组的序列搜索和比对;(c)确定所述最小非植
物增强子元件序列与所述植物基因组的调节区的序列同一性匹配,从而鉴定所述植物来源
的表达调控元件;和(d)在植物细胞中合成所述植物来源的表达调控元件,并用可操作地连
接到异源多核苷酸的植物来源的表达调控元件进行基因表达分析。
[0030] 一种增加内源多核苷酸序列的表达的方法,所述方法包括在所述内源多核苷酸序列的调节区引入包含少于约10个核苷酸变化的多个突变,其中所述多个突变(i)是植物来
源的;(ii)不代表超过7个核苷酸的连续序列;(iii)不会重建至少16个连续核苷酸的完整
病毒或细菌增强子元件;和(iv)位于距所述内源多核苷酸序列的转录起始位点可操作的距
离处。
[0031] 在另一个实施例中,本公开涉及改变可销售的植物性状的方法。可销售的植物性状涉及参与抗病性、除草剂抗性、昆虫抗性、碳水化合物代谢、脂肪酸代谢、氨基酸代谢、植物发育、植物生长调节、产率改善、抗旱性、抗寒性、抗热性和抗盐性的基因和蛋白质
[0032] 在另一个实施例中,本公开涉及包含异源核苷酸序列的重组DNA构建体。异源核苷酸序列编码参与植物中的抗病性、除草剂抗性、昆虫抗性;碳水化合物代谢、脂肪酸代谢、氨基酸代谢、植物发育、植物生长调节、产率改善、抗旱性、抗寒性、抗热性或抗盐性的蛋白质。
[0033] 一种鉴定植物基因组中的表达调控元件的方法,所述方法包括:
[0034] a)在TATA盒或转录起始位点上游约20至约100bp的调节区中鉴定推定的表达调控基序,其中所述推定的表达调控基序的长度为约10至约30个连续的多核苷酸;
[0035] b)评估推定的表达调控基序在植物细胞中的表达调控作用;和
[0036] c)如果与不包含所述表达调控元件的对照相比,所述表达调控基序增加或减少可操作地连接到的启动子的异源多核苷酸在所述植物细胞中的表达,则将所述推定的表达调
控基序鉴定为所述表达调控元件。
[0037] 在另一个实施例中,与对照相比,表达调控元件作为单拷贝将表达增加为至少3倍。在另一个实施例中,表达调控基序小于21bp。在另一个实施例中,表达调控基序存在于
转录起始位点上游约50bp内。
[0038] 对于包括本文所述的EME的方法和组合物,如在分离的细胞测定中(例如像,在原生质体测定中)所测量的或如在瞬时表达系统或在植物水平中所测量的(通过重组或基因
组编辑技术),与不含EME的适合的对照相比,表达水平的合适的倍数包括例如约1.3、1.5、
2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、
30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、60、70、75、80、
90、100倍或更多倍。
[0039] 一种调控内源多核苷酸在植物细胞中的表达的方法,所述方法包括提供与位点特异性DNA结合多肽可操作地缔合的脱氨酶多肽,由此所述脱氨酶多肽工程化一个或多个碱
基变化,使得在所述内源多核苷酸的调节区中创建包含至少一个拷贝的选自由SEQ ID NO:
1-68组成的组的序列的多核苷酸,从而在所述植物细胞中调控所述内源多核苷酸的表达。
在一个实施例中,脱氨酶是腺嘌呤脱氨酶或嘌呤脱氨酶。在一个实施例中,位点特异性
DNA结合多肽是未激活的Cas内切核酸酶(例如,dCas9)。在一个实施例中,未激活的Cas内切
核酸酶是Cas9或Cpf1,其中所述Cas9或Cpf1不产生双链断裂,但提供位点特异性结合。在一
个实施例中,脱氨酶与Cas内切核酸酶融合。在一个实施例中,调节区是内源多核苷酸的启
动子区。在一个实施例中,内源多核苷酸编码参与有害生物保护、抗病性、除草剂耐受性、耐旱性、耐寒性、增加的油和/或蛋白质含量、或改善的农艺学特征的多肽或RNA(例如,微小
RNA(miRNA))。
[0040] 附图和序列表的说明
[0041] 从以下详细描述和构成本申请的一部分的附图和序列表(将其通过引用并入本文)可以更全面地理解本公开。
[0042] 图1是表达盒的示意图,显示了EME1插入其中以确定位置影响的可能的位置。标记为1-7的位置对应于表7中参考的位置。
[0043] 图2显示来自植物的基因表达数据,所述植物包含具有表达盒的单拷贝T-DNA,以评估如使用叶组织上的qRTPCR所测量的,EME2对基因表达的效应。计数是指所测定的植物
的数量。将来自UBI1ZM PRO:UBIZM内含子:ZsGreen:SB-GKAF终止子表达盒的结果作为参考显示。如实例8所述,将一个拷贝的EME2插入ZmGOS2启动子中的TATA的-20处。
[0044] 图3显示来自植物的基因表达数据,所述植物包含具有表达盒的单拷贝T-DNA,以评估如使用叶组织上的qRTPCR所测量的,EME1对基因表达的效应。(A)和(B)显示了来自单
独转化的数据,其中T-DNA被随机插入玉蜀黍基因组中。计数是指所测定的植物的数量。将
来自UBI1ZM PRO:UBIZM内含子:ZsGreen:SB-GKAF终止子表达盒的结果作为参考显示。如实例8所述,将1-4个拷贝的EME1插入ZmGOS2启动子中的TATA的-20处。
[0045] 图4显示如使用来自叶的qRTPCR所测量的,表达盒内EME1位置对基因表达的效应。显示了包含具有表达盒的单拷贝T-DNA的植物。计数是指所测定的植物的数量。将来自
UBI1ZM PRO:UBIZM内含子:ZsGreen:SB-GKAF终止子的结果作为参考显示。箱线图下列出的数字表示如图1所示在表达盒中4X EME1插入的位置。
[0046] 图5显示了如实例8所示在玉蜀黍GOS2启动子中插入的2至4个拷贝的EME1或1至3个拷贝的EME2对处于3个不同发育阶段(V6、V8和V12)的T1叶组织中基因表达的效应。将不
含EME的ZmGOS2启动子(EME的数量列为0)用作对照以确定表达变化。通过qRTPCR确定基因
表达,并且按照相对于参考基因的报道基因表达来表述。将来自UBI1ZM PRO:UBIZM内含子:
ZsGreen:SB-GKAF终止子的结果作为对照参考显示。
[0047] 图6显示来自T1单拷贝植物的叶(标记为V10)或根组织的基因表达数据,所述植物含有如实例8所述在玉蜀黍GOS2启动子中插入的2至4个拷贝的EME1或1至3个拷贝的EME2。
将不含EME的ZmGOS2启动子(EME的数量列为0)用作对照以确定表达变化。通过qRTPCR确定
基因表达,并且按照相对于参考基因的报道基因表达来表述。将来自UBI1ZM PRO:UBIZM内
含子:ZsGreen:SB-GKAF终止子的结果作为对照参考显示。
[0048] 序列说明总结了本文所附的序列表,将其通过引用特此并入。如Nucleic Acids Research[核酸研究]13:3021-3030(1985)和Biochemical Journal[生物化学杂志]219
(2):345-373(1984)中所述的IUPAC-IUB标准中所定义的,序列表含有核苷酸序列字符的单
字母代码和氨基酸的单字母和三字母代码。
[0049] 表1:序列表说明
[0050]
[0051]
[0052]

具体实施方式

[0053] 本文引用的所有专利、专利申请、和出版物的公开内容通过引用以其全文并入。
[0054] 除非上下文另外明确指示,否则本文和所附权利要求中所用的单数形式“一个/一种(a/an)”和“所述(the)”包括复数指示物。因此,例如,提及“植物”包括多个此类植物,提及“细胞”包括本领域技术人员已知的一种或多种细胞及其等效物等。
[0055] “分离的多核苷酸”通常是指单链或双链的核糖核苷酸(RNA)或脱核糖核苷酸(DNA)的聚合物,其任选地包含合成的、非天然的或改变的核苷酸碱基。DNA形式的分离的多
核苷酸可以由cDNA、基因组DNA或合成DNA的一个或多个区段组成。
[0056] 术语“多核苷酸”、“多核苷酸序列”、“核酸序列”、“核酸片段”和“分离的核酸片段”在本文中可互换使用。这些术语涵盖核苷酸序列等。多核苷酸可以是单链或双链的RNA或DNA的聚合物,其任选地包含合成的、非天然的或改变的核苷酸碱基。DNA聚合物形式的多核
苷酸可以由cDNA、基因组DNA、合成DNA或其混合物的一个或多个区段组成。核苷酸(通常以
其5’-单磷酸形式被发现)通过单字母名称表示如下:“A”表示腺苷酸或脱氧腺苷酸(分别用于RNA或DNA),“C”表示胞苷酸或脱氧胞苷酸,“G”表示鸟苷酸或脱氧鸟苷酸,“U”表示尿苷酸,“T”表示脱氧胸苷酸,“R”表示嘌呤(A或G),“Y”表示嘧啶(C或T),“K”表示G或T,“H”表示A或C或T,“I”表示肌苷,并且“N”表示任何核苷酸。
[0057] 如本文所用的,“表达调控(modulating/modulation)元件”或“EME”是指上调或下调一个或多个植物基因的表达的核苷酸序列。EME可以具有一个或多个拷贝的相同序列,所述序列以头对头、尾对头或头对尾或其组合构型排列。EME来源于植物序列,或来源于细菌
或病毒增强子元件。
[0058] 调节元件通常是指参与调控核酸分子(例如基因或靶基因)的转录的转录调节元件。调节元件是核酸,并且可以包括启动子、增强子、内含子、5’-非翻译区(5’-UTR,还被称为前导序列)或3’-UTR或其组合。调节元件能以“顺式”或“反式”起作用,并且通常以“顺式”起作用,即其激活位于调节元件所在的相同核酸分子(例如染色体)上的基因的表达。由调
节元件调节的核酸分子不一定必须编码功能性肽或功能性多肽,例如,调节元件可以调控
短干扰RNA或反义RNA的表达。
[0059] 增强子元件是当功能性连接至启动子时(无论其相对位置如何)都可增加核酸分子的转录的任何核酸分子。增强子可以是启动子的固有元件或被插入以增强启动子的水平
或组织特异性的异源元件。
[0060] 将阻遏物(本文中有时也被称为沉默子)定义为当在功能上与启动子连接时(无论相对位置如何)都抑制转录的任何核酸分子。
[0061] “启动子”通常是指能够控制另一核酸片段转录的核酸片段。启动子通常包括核心启动子(也称为最小启动子)序列,所述序列包括最小调节区以启动转录(即转录起始位
点)。通常,核心启动子包括TATA盒和与CAAT盒或CCAAT盒相关的GC富集区域。这些元件起作
用使RNA聚合酶II与启动子结合并辅助聚合酶定位RNA起始位点。一些启动子可能不含TATA
盒或CAAT盒或CCAAT盒,但可以含有用于转录起始位点的起始元件。核心启动子是指导转录
起始所需的最小序列,并且通常不包括增强子或其他UTR。启动子可以全部来源于天然基
因,或者由源自于在自然界发现的不同启动子的不同元件构成,或者甚至包含合成的DNA区
段。本领域技术人员应当理解,不同的启动子可能引导基因在不同组织或细胞类型中、或在
不同发育阶段、或者响应于不同环境条件的表达。通常修饰核心启动子以产生人工、嵌合或
杂合启动子,并且可以进一步与其他调节元件(例如顺式元件、5’UTR、增强子或内含子)组
合使用,所述调节元件对于活性核心启动子是异源的或与其自身部分或完整的调节元件组
合。
[0062] 术语“顺式元件”通常是指影响或调控可操作地连接的可转录的多核苷酸表达的转录调节元件,其中所述可转录的多核苷酸存在于相同DNA序列中。顺式元件可以起到结合
转录因子的作用,所述转录因子是调节转录的反式作用多肽。
[0063] “在植物中具有功能性的启动子”是能够启动植物细胞中的转录的启动子,无论其是否来源于植物细胞。
[0064] “组织特异性启动子”和“组织偏好性启动子”可互换使用,用来指主要但不一定仅在一个组织或器官中表达,但也可以在一个特异性细胞中表达的启动子。
[0065] “受发育调控的启动子”通常指其活性由发育事件决定的启动子。
[0066] “组成型启动子”通常是指在所有或大多数发育阶段的植物的全部或多数组织或细胞类型中起作用的启动子。与分类为“组成型”(例如泛素)的其他启动子一样,绝对表达
水平的某一变异可以存在于不同组织或阶段之间。术语“组成型启动子”或“组织独立性”在本文中可互换使用。
[0067] “异源核苷酸序列”通常是指不与本公开的EME一起天然存在的序列。虽然这种核苷酸序列对EME序列来说是异源的,但相对植物宿主,可以是同源的或天然的、或异源的、或外来的。然而,应当认识到,即时EME可以与其天然编码序列一起使用以增加或减少导致转
化的种子中表型变化的表达。术语“异源核苷酸序列”、“异源序列”、“异源核酸片段”和“异源核酸序列”在本文中可互换使用。
[0068] “功能性片段”是指本公开中描述的序列的部分或子序列,其中保留了调控基因表达的能。可以通过如定点诱变和合成构建的方法获得片段。与本文所述的提供的启动子
序列一样,功能性片段作用为促进可操作地连接的异源核苷酸序列的表达,形成重组DNA构
建体(也称为嵌合基因)。例如,片段可用于设计重组DNA构建体,以在转化的植物中产生所
需表型。可以通过将相对于异源核苷酸序列而言适当方向上的启动子片段连接起来,针对
共阻抑或反义设计重组DNA构建体。
[0069] 功能上等效于本公开的EME的核酸片段是能够以本公开的EME相似的方式调控编码序列或功能性RNA的表达的任何核酸片段。
[0070] 本公开的EME的多核苷酸序列(例如,SEQ ID NO:1-68)可以被修饰或改变以增强其调控特征。如本领域普通技术人员将理解的,修饰或改变也可以在不显著影响基因表达
功能的情况下进行。所述方法是本领域技术人员所熟知的。例如经由任何修饰方法,通过插
入、缺失或替换模板序列可以修饰序列。
[0071] 如本文所用的,“变体启动子”是启动子的序列或包含变化(原始序列的一个或多个核苷酸发生缺失、添加和/或取代)但是基本上维持启动子功能的启动子的功能性片段的
序列。可以向启动子内部插入、缺失或取代一个或多个碱基对。在启动子片段的情况下,变
体启动子可以包括影响与其可操作地连接的最小启动子转录的变化。可以例如通过标准
DNA诱变技术或者通过化学合成变体启动子或其部分来产生变体启动子。
[0072] 用于构建本公开的嵌合EME和变体EME的方法包括但不限于将不同EME的EME元件组合或使一个或多个EME的部分或区域重复。本领域技术人员熟悉标准资源材料,所述材料
描述了大分子(例如,多核苷酸分子和质粒)的构建、操作和分离以及重组生物的产生和多
核苷酸分子的筛选和分离的具体条件和程序。
[0073] 在本公开的一些方面,启动子片段可以包含至少约20个连续核苷酸、或至少约50个连续核苷酸、或至少约75个连续核苷酸、或至少约100个连续核苷酸、或至少约150个连续
核苷酸、或至少约200个连续核苷酸。在本公开的另一方面,启动子片段可以包含至少约250
个连续核苷酸、或至少约300个连续核苷酸、或至少约350个连续核苷酸、或至少约400个连
续核苷酸、或至少约450个连续核苷酸、或至少约500个连续核苷酸、或至少约550个连续核
苷酸、或至少约600个连续核苷酸、或至少约650个连续核苷酸、或至少约700个连续核苷酸、或至少约750个连续核苷酸、或至少约800个连续核苷酸、或至少约850个连续核苷酸、或至
少约900个连续核苷酸、或至少约950个连续核苷酸、或至少约1000个连续核苷酸、或至少约
1050个连续核苷酸、或至少约1200、1300、1400、1500、2000个连续核苷酸,并且进一步可以包括含有SEQ ID NO:1-68之一的EME。另外,这些调节片段包括SEQ ID NO:1、2、3、4、5、6、7、
8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33,
34,35,36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、
59、60、61、62、63、64、65、66、67、或68之一,或其组合。此类片段的核苷酸通常包含特定的启动子序列的TATA识别序列。可以通过使用限制性酶来切割本文公开的天然存在的启动子核
苷酸序列、通过合成来自天然存在的启动子DNA序列的核苷酸序列来获得此类片段,或者可
以通过使用PCR技术来获得此类片段。
[0074] 术语“全互补序列”和“全长互补序列”在本文中互换使用,并且是指给定核苷酸序列的互补序列,其中所述互补序列和核苷酸序列由相同数目的核苷酸组成并且100%互补。
[0075] 如本文所用的术语“基本上相似”和“基本上对应”是指核酸片段,其中一个或多个核苷酸碱基的改变不影响核酸片段介导基因表达或产生某种表型的能力。这些术语还指本公开的核酸片段的修饰,例如相对于初始的、未经修饰的片段,基本上不改变所得核酸片段
的功能性质的一个或多个核苷酸的缺失或插入。因此,应当理解(正如本领域技术人员将会
理解的),本公开不仅仅涵盖所述具体的示例性序列。
[0076] 连接短语“基本上由...组成”通常是指除了字面公开的那些以外还包括材料、步骤、特征、组分、或元素的组合物、方法,前提是这些附加的材料、步骤、特征、组分、或要素不会实质影响所要求保护的主题(例如一个或多个所要求保护的表达调控元件(EME))的一个
或多个基本和新颖特征。
[0077] 可以修饰包含在本公开的重组DNA构建体中的分离的启动子序列,以提供一系列组成型表达水平的异源核苷酸序列。因此,可以利用少于整个启动子的区域并且驱动编码
序列表达的能力被保留。然而,认识到,mRNA的表达水平可能随着启动子序列部分的缺失而
降低。同样,表达的组织独立性、组成性性质可能会改变。
[0078] 本公开的经分离的启动子序列的修饰可以提供异源核苷酸序列的一系列组成型表达。因此,它们可以被修饰为弱组成型启动子或强组成型启动子。通常,“弱启动子”意指以低水平驱动编码序列表达的启动子。“低水平”意指约1/10,000转录物至约1/100,000转
录物至约1/500,000转录物的水平。相反地,强启动子以高水平或者说以约1/10转录物至约
1/100个转录物至约1/1,000转录物的水平驱动编码序列的表达。类似地,“中等组成型”启
动子比强组成型启动子(如玉蜀黍泛素启动子)要弱一些。
[0079] 除了调控基因表达之外,本文公开的表达调控元件还可用作核酸杂交实验中的探针或引物。EME的核酸探针和引物在严格条件下与靶DNA序列杂交。“探针”通常是指分离的/合成的核酸,其上附着常规的可检测标记或报道分子,例如像放射性同位素、配体、化学发
光剂、生物发光分子、荧光标记或染料,或酶。此类可检测标记可以与探针共价连接或以其
他方式在物理上相关联。“引物”通常是指与互补的靶DNA链杂交、随后通过聚合酶(例如DNA聚合酶)沿着所述靶DNA链延伸的分离的/合成的核酸。引物对通常用于例如通过聚合酶链
式反应(PCR)或其他常规核酸扩增方法来扩增靶核酸序列。引物还用于多种测序反应、序列
捕获和其他基于序列的扩增方法。引物的长度通常是约15、20、25个核苷酸或更多个核苷
酸,并且探针也可以更长(约30、40、50和多达几百个碱基对)。根据需要,在高严格杂交条件下或在较低严格条件下,将此类探针和引物用于杂交反应以靶向DNA或RNA序列。
[0080] 此外,本领域技术人员认识到,本公开所涵盖的基本相似的核酸序列还通过其在中度严格条件(例如,0.5X SSC,0.1%SDS,60℃)下与本文示例的序列或本文报道的、与本
公开的启动子功能上等效的核苷酸序列的任何部分杂交的能力来定义。这种同源性的估计
可以通过如本领域技术人员所熟知的在严格条件下的DNA-DNA或DNA-RNA杂交来提供
(Hames和Higgins编辑;在Nucleic Acid Hybridization[核酸杂交]中;IRL Press:
Oxford,U.K.[英国津大学IRL出版社],1985)。可以调整严格条件以筛选适度类似的片段
(例如来自远缘生物体的同源序列),至高度类似的片段(例如复制来自近缘生物体的功能
性酶的基因)。杂交后洗涤部分地确定了严格条件。一组条件使用一系列洗涤,从6X SSC、
0.5%SDS开始,在室温持续15分钟,然后用2X SSC、0.5%SDS在45℃重复30分钟,并且然后
用0.2X SSC、0.5%SDS在50℃持续30分钟,重复两次。另一组严格条件使用更高的温度,其
中洗涤与上述洗涤相同,除了将在0.2X SSC、0.5%SDS中最后两次30分钟的洗涤中的温度
增加至60℃。另一组高度严格条件使用在65℃下在0.1X SSC、0.1%SDS中两次最终洗涤。
[0081] 本公开所涵盖的优选的基本上相似的核酸序列是与本文报道的核酸片段80%同一或与本文报道的核苷酸序列的任何部分80%同一的那些序列。更优选的是与本文报道的
核酸序列90%同一或与本文报道的核苷酸序列的任何部分90%同一的核酸片段。最优选的
是与本文报道的核酸序列95%同一或与本文报道的核苷酸序列的任何部分95%同一的核
酸片段。本领域技术人员非常了解,许多水平的序列同一性可用于鉴定相关的多核苷酸序
列。同一性百分比的有用实例是上面所列出的,或者也优选是从71%到100%的任何整数百
分比,例如71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、
84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、
99%和100%。
[0082] 在一个实施例中,当与SEQ ID NO:1-68的核苷酸序列相比,基于Clustal V比对方法,使用逐对比对默认参数(KTUPLE=2、空位罚分=5、窗口=4和存储的对线(DIAGONALS SAVED)=4),本公开的重组DNA构建体中包含的分离的EME序列包含具有至少71%、72%、
73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、
88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%和100%序列同一性的核苷酸序列。本领域技术人员已知5’UTR区可以被改变(碱基的缺失或取代)或被可替代
的5’UTR替换,同时保持启动子活性。
[0083] “基本上相似的序列”通常是指所公开的序列的变体,例如由定点诱变产生的序列的变体,以及合成来源的序列。本公开的基本上相似的序列通常还涉及本文公开的特定启
动子核苷酸序列的那些片段,其作用为促进可操作地连接的异源核酸片段的组成型表达。
这些启动子片段包含本文公开的特定启动子核苷酸序列或与此类连续序列具有至少95%
至约99%同一性的序列的至少约20个连续核苷酸、至少约50个连续核苷酸、至少约75个连
续核苷酸,优选地至少约100个连续核苷酸。此类片段的核苷酸将通常包括特定启动子序列
的TATA识别序列(或CAAT盒或CCAAT)。可以通过使用限制性酶来切割本文公开的天然存在
的启动子核苷酸序列、通过合成来自天然存在的启动子DNA序列的核苷酸序列来获得此类
片段,或者可以通过使用PCR技术来获得此类片段。这些启动子片段的变体(例如从定点诱
变产生的那些)涵盖于本公开的组合物中。
[0084] “密码子简并性”通常是指允许核苷酸序列变异而不影响经编码的多肽的氨基酸序列的遗传密码上的散度。因此,本公开涉及包含如下核苷酸序列的任何核酸片段,所述核
苷酸序列编码本文所阐述的全部或大部分氨基酸序列。本领域技术人员非常了解特异性宿
主细胞在使用核苷酸密码子以指定给定氨基酸时所表现的“密码子偏倚(codon-bia)”。因
此,当合成核酸片段使其在宿主细胞中具有改善的表达时,理想的是设计这种核酸片段,使
得其密码子使用频率接近宿主细胞的优选密码子的使用频率。
[0085] 序列比对和同一性百分比计算可以使用设计用于检测相似或相同序列的多种比较方法来确定,所述方法包括但不限于 生物信息计算包(
公司( Inc.),麦迪逊(Madison),威斯康星州)的 程序。除非另
外说明,本文提供的序列的多重比对用Clustal V比对方法(Higgins和Sharp(1989),
CABIOS.[计算机在生物学中的应用]5:151-153)和默认参数(空位罚分=10,空位长度罚分
=10)进行。使用Clustal V方法进行逐对比对和蛋白质序列的同一性百分比计算的默认参
数为KTUPLE=1、空位罚分=3、窗口(WINDOW)=5、以及存储的对角线(DIAGONALS SAVED)=
5。对于核酸,这些参数是KTUPLE=2、空位罚分=5、窗口=4、并且存储的对角线=4。使用Clustal V程序比对序列后,通过查看相同程序中的“序列距离”表来获得“同一性百分比”和“散度”值是可能的。除非另外说明,本文提供的和申明的同一性百分比和散度是以该方
式计算的。
[0086] 可替代地,可以使用Clustal W比对方法。Clustal W比对方法(描述于Higgins和Sharp,CABIOS.[计算机在生物学中的应用]5:151-153(1989);Higgins,D.G.等人,
Comput.Appl.Biosci.[计算机应用生物科学]8:189-191(1992))可以在
生物信息计算包( 公司,麦迪逊,威斯康星州)的MegAlignTMv6.1程序中找到。
用于多重比对的默认参数对应于空位罚分=10、空位长度罚分=0.2、延迟发散序列(Delay 
Divergent Sequence)=30%、DNA转换权重=0.5、蛋白质权重矩阵=Gonnet系列、DNA权重
矩阵=IUB。对于逐对比对,默认参数为比对=缓慢-精确(Slow-Accurate)、空位罚分=
10.0、空位长度=0.10、蛋白质权重矩阵=Gonnet 250并且DNA权重矩阵=IUB。用Clustal 
W程序比对序列后,通过查看相同程序中的“序列距离”表来获得“同一性百分比”和“散度”值是可能的。
[0087] 在一个实施例中,在分子(核苷酸或氨基酸)的整个长度上测定序列同一性%。通过本领域技术人员对序列的手动评估,或者使用如BLAST(Altschul,S.F.等人,
J.Mol.Biol.[分子生物学杂志]215:403-410(1993))和空位Blast(Altschul,S.F.等人,
Nucleic Acids Res.[核酸研究]25:3389-3402(1997))等算法的计算机自动序列比较和鉴
定,氨基酸或核苷酸序列的“绝大部分”包括足够的多肽的氨基酸序列或基因的核苷酸序
列,以提供所述多肽或基因的推定鉴定。BLASTN通常是指将核苷酸查询序列与核苷酸序列
数据库进行比较的BLAST程序。
[0088] “基因”包括表达功能性分子(例如但不限于,特异性蛋白质)的核酸片段,包括在编码序列之前(5’非编码序列)和之后(3’非编码序列)的调节序列。“天然基因”通常是指自然界中发现的具有其自身调节序列的基因。
[0089] “突变基因”是通过人为干预已经改变的基因。这种“突变基因”具有通过至少一个核苷酸添加、缺失或取代而与相应的非突变基因的序列不同的序列。在本公开的某些实施例中,所述突变的基因包含由如本文公开的指导多核苷酸/Cas内切核酸酶系统引起的改
变。突变的植物是包含突变基因的植物。
[0090] 可互换使用的“嵌合基因”或“重组表达构建体”包括不是天然基因的任何基因,其包含不是在自然界中一起被发现的调节和编码序列。因此,嵌合基因可以包含来源于不同来源的调节序列和编码序列。
[0091] “编码序列”通常是指编码特异性氨基酸序列的多核苷酸序列。“调节序列”是指位于编码序列的上游(5’非编码序列)、内部或下游(3’非编码序列),并且影响相关编码序列的转录、RNA加工或稳定性、或翻译的核苷酸序列。调节序列可包括但不限于启动子、翻译前导序列、内含子和聚腺苷酸化识别序列。
[0092] “内含子”是转录成RNA、但是然后在产生成熟mRNA的过程中被切除的基因中的间插序列。所述术语也用于切除的RNA序列。“外显子”是经转录的基因的序列的一部分,并且在来源于所述基因的成熟信使RNA中被发现,但不一定是编码最终基因产物的序列的一部
分。
[0093] 5’非翻译区(5’UTR)(也称为翻译前导序列或前导RNA)是直接位于起始密码子上游的mRNA的区域。该区域涉及通过病毒、原核生物和真核生物中的不同机制对转录物的翻
译的调节。
[0094] “3’非编码序列”是指位于编码序列下游的DNA序列,并且包括聚腺苷酸化识别序列和编码能够影响mRNA加工或基因表达的调节信号的其他序列。聚腺苷酸化信号通常表征
为影响聚腺苷酸片添加到mRNA前体的3’端。
[0095] “RNA转录物”通常是指产生自DNA序列的RNA聚合酶催化的转录产物。当RNA转录物是DNA序列的完全互补拷贝时,它被称为初级转录物,或者它可以来源于初级转录物的转录
后加工的RNA序列并被称作成熟RNA。“信使RNA”(“mRNA”)通常是指不含内含子并且可由细胞翻译成蛋白质的RNA。“cDNA”通常是指与mRNA模板互补并且使用逆转录酶从mRNA模板合
成的DNA。cDNA可以是单链的或可以使用DNA聚合酶I的Klenow片段转化成双链。“正义”RNA
通常是指包含mRNA并且因此可以在细胞内或体外翻译成蛋白质的RNA转录物。“反义RNA”通
常是指与靶初级转录物或mRNA的全部或部分互补,并阻断靶基因的表达或转录物积累的
RNA转录物。反义RNA可以与特异性基因转录物的任何部分,即5’非编码序列、3’非编码序
列、内含子、或编码序列互补。“功能性RNA”通常是指反义RNA、核糖酶RNA、或可以不进行翻译但是仍对细胞过程具有作用的其他RNA。
[0096] 术语“可操作地连接”或“功能性地连接”通常是指核酸序列在单个核酸片段上的缔合,这样使得一个核酸片段的功能受到另一个影响。例如,当启动子能够影响编码序列的
表达时,它与编码序列可操作地连接(即编码序列在启动子的转录控制下)。编码序列可以
在正义或反义方向上可操作地连接到调节序列上。
[0097] 术语“启动转录”、“启动表达”、“驱动转录”和“驱动表达”在本文中可互换使用,并且都是指启动子的主要功能。如本公开所详述的,启动子是非编码基因组DNA序列,通常在相关编码序列的上游(5’),并且其主要功能是作为RNA聚合酶的结合位点,并通过RNA聚合
酶启动转录。此外,当经转录的RNA最终被翻译成相应的多肽时,存在RNA(包括功能性RNA)
的“表达”,或可操作地连接的编码核苷酸序列的多肽的表达。
[0098] 如本文所用的,术语“表达”通常是指功能性终产物(例如mRNA或蛋白质(前体或成熟的))的产生。
[0099] 如本文所用的,术语“表达盒”通常是指可以通过分子生物学技术将核酸序列或片段克隆或合成到其中的离散核酸片段。
[0100] 基因的表达或过表达涉及所述基因的转录并将mRNA翻译成前体或成熟蛋白。“反义抑制”通常是指能够阻抑靶蛋白表达的反义RNA转录物的产生。“过表达”通常是指在转基因生物体中的基因产物的生产超过正常或非转化的生物体内的生产水平。“共阻抑”通常是
指能够阻抑相同的或基本上相似的外来或内源基因的表达或转录物积累的正义RNA转录物
的产生(美国专利号5,231,020)。共阻抑的机制可能处于DNA水平(如DNA甲基化)、转录水平
或转录后水平。
[0101] 如本文所述,当与在具有天然酶或蛋白质的非转基因或野生型植物中可检测的酶活性或蛋白质功能性的水平相比时,“阻抑”包括在转基因植物中可检测的酶活性或蛋白质
功能性(例如,与蛋白质相关的表型)水平的降低。具有天然酶的植物中的酶活性水平在本
文中称为“野生型”活性。具有天然蛋白质的植物中的蛋白质功能性的水平在本文中被称为
“野生型”功能性。术语“阻抑”包括调低、降低、下降、减少、抑制、消除和预防。这种降低可能是由于天然mRNA翻译成活性酶或功能性蛋白的减少。这也可能是由于天然DNA转录成mRNA
的量减少和/或天然mRNA的快速降解。术语“天然酶”通常是指在非转基因或野生型细胞中
天然产生的酶。术语“非转基因”和“野生型”在本文中可互换使用。
[0102] “改变表达”或“调控表达”通常是指在植物中以与相应的野生型植物产生的一种或多种基因产物的量显著不同的量或比例产生一种或多种基因产物(即表达增加或减少)。
[0103] 如本文所用的,“转化”通常是指稳定转化和瞬时转化。
[0104] “稳定转化”通常是指将核酸片段引入宿主生物体的基因组中,导致遗传稳定的遗传。一旦经稳定转化,核酸片段稳定地整合入宿主生物体和任何后代的基因组中。含有转化
的核酸片段的宿主生物体被称为“转基因的”生物体。“瞬时转化”通常是指将核酸片段引入宿主生物体的细胞核或含DNA的细胞器中,导致不具遗传稳定遗传的基因表达。
[0105] 术语“引入的”是指向细胞中提供核酸(例如,表达构建体)或蛋白质。引入的包括提到将核酸并入真核细胞或原核细胞中,其中可以将所述核酸并入细胞的基因组中,并且
包括提到核酸或蛋白被瞬时提供至细胞中。引入的包括提到稳定或瞬时转化方法以及有性
杂交。因此,在将核酸片段(例如,重组DNA构建体/表达构建体)插入细胞的上下文中,“引入的”是指“转染”、“转化”或“转导”,并且包括提到将核酸片段并入真核或原核细胞中,其中可以将所述核酸片段并入细胞的基因组(例如,染色体、质粒、质体或线粒体DNA)中,转化成自主复制子或进行瞬时表达(例如,经转染的mRNA)。
[0106] “基因组”(当应用于植物细胞时)不仅涵盖在细胞核内发现的染色体DNA,而且也涵盖在亚细胞组分(例如线粒体,质体)内发现的细胞器DNA。
[0107] “遗传修饰”通常是指通过基因组编辑或通过插入重组核酸(例如作为通过常规转化技术在植物基因组DNA的任何区域中的载体或构建体的一部分),通过内源核苷酸序列中
一个或多个核苷酸的插入、缺失或取代的任何核酸序列或遗传元件的修饰。遗传组分的修
饰的实例包括但不限于启动子区、5’非翻译前导序列、内含子、基因、3’非翻译区和其他调节序列或影响一个或多个核酸序列转录或翻译的序列。
[0108] “植物”包括提到全植物、植物器官、植物组织、种子和植物细胞及其子代。植物细胞包括但不限于得自下列物质的细胞:种子、悬浮培养物、胚、分生区域、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子。
[0109] 术语“单子叶”和“单子叶植物”在本文中可互换使用。本公开的单子叶植物包括禾本科(Gramineae)。
[0110] 术语“双子叶”和“双子叶植物”在本文中可互换使用。本公开的双子叶包括以下家族:十字花科(Brassicaceae)、豆科(Leguminosae)和茄科(Solanaceae)。
[0111] “子代”包括植物的任何后代。
[0112] 异源多核苷酸可以稳定地整合到基因组内,这样使得多核苷酸被传递给连续世代。异源多核苷酸可以单独地或作为重组DNA构建体的部分整合进基因组中。通过常规植物
育种方法,通过不导致外来多核苷酸的插入的基因组编辑程序,或通过天然存在的事件(例
如随机异花受精、非重组病毒感染、非重组细菌转化、非重组转座或自发突变)对基因组(染
色体或染色体外)的改变也是修饰宿主基因组的方法。
[0113] “瞬时表达”通常是指在选择的某些细胞类型的通过转化方法将转基因基因暂时引入其中的宿主生物体中,常规报道基因如β-葡萄糖苷酸酶(GUS)基因,荧光蛋白基因ZS-
GREEN1、ZS-YELLOW1 N1、AM-CYAN1、DS-RED的暂时表达。随后在瞬时基因表达测定后弃去宿主生物体的转化的物质。
[0114] 本文使用的标准重组DNA和分子克隆技术是本领域熟知的并且更全面地描述于以下文献中:Sambrook,J.等人,在Molecular Cloning:A Laboratory Manual[分子克隆:实验室手册]中;第2版;Cold Spring Harbor Laboratory Press:Cold Spring Harbor,New York[冷泉港实验室出版社:冷泉港,纽约],1989(在下文中,“Sambrook等人,1989”)或
Ausubel,F.M.、Brent,R.、Kingston,R.E、Moore,D.D.、Seidman,J.G.、Smith,J.A.和Struhl,K.,编辑;在Current Protocols in Molecular Biology[分子生物学现代方法]
中;John Wiley and Sons[约翰·威利父子出版公司]:纽约,1990(在下文中,“Ausubel等
人,1990”)。
[0115] “PCR”或“聚合酶链式反应”是用于合成由一系列重复循环(珀金埃尔默塞塔斯仪器公司(Perkin Elmer Cetus Instruments),诺沃克(Norwalk),康涅狄格州(CT))组成的
大量特异性DNA区段的技术。典型地,使双链DNA热变性;将与靶区段的3’边界互补的两条引物在低温下退火,并且然后在中间温度下延伸。一组这三个连续步骤构成一个循环。
[0116] 术语“质粒”、“载体”和“盒”意指染色体外元件,其通常携带非细胞中心代谢的一部分的基因,并且通常处于环状双链DNA片段的形式。此类元件可以是来源于任何来源的单链或双链DNA或RNA的线性或环状自主复制序列、基因组整合序列、噬菌体或核苷酸序列,其
中许多核苷酸序列已连接或重组到单一结构中,所述单一结构能够将针对选定基因产物的
启动子片段和DNA序列连同适当3’未翻译序列引入到细胞中。
[0117] 术语“重组DNA构建体”或“重组表达构建体”可互换地使用,并且通常是指可以将核酸序列或片段移动到其中的离散多核苷酸。优选地,它是包含本公开的启动子的质粒载
体或其片段。质粒载体的选择取决于将用于转化宿主植物的方法。本领域技术人员非常了
解必须存在于质粒载体上的遗传元件,以便成功地转化、选择和繁殖含有嵌合基因的宿主
细胞。技术人员还将认识到,不同的独立转化事件将导致不同水平和模式的表达(Jones等
人,EMBO J[欧洲分子生物学学会杂志]4:2411-2418(1985);De Almeida等人,Mol Gen 
Genetics[分子遗传学和普通遗传学]218:78-86(1989)),并且因此必须筛选多个事件,从
而获得显示所需表达水平和模式的品系。这种筛选可以通过DNA的PCR和Southern分析、
mRNA表达的RT-PCR和Northern分析、蛋白质表达的Western分析或表型分析来完成。
[0118] 表型的各种变化是引人关注的,包括但不限于改变植物中的脂肪酸组成、改变植物的氨基酸含量、改变植物的病原体防御机制等。这些结果可以通过提供异源产物的表达
或增加植物中内源产物的表达来实现。可替代地,可以通过提供一种或多种内源产物,特别
是植物中的酶或辅酶因子的表达降低来实现所述结果。这些改变导致转化的植物的表型的
变化。
[0119] 目的基因反映了参与作物发育的那些基因的商业市场和利益。目的作物和市场发生变化,以及随着发展中国家打开国际市场,新作物和技术也将出现。此外,随着我们对农
艺学特征和性状(例如产率和杂种优势)的了解增加,用于转化的基因的选择也会相应变
化。目的基因的一般类别包括但不限于,参与信息传递(例如锌指)的那些基因、参与通信
(例如激酶)的那些基因、以及参与持家(例如热休克蛋白)的那些基因。例如,更具体的类别
包括但不限于,编码对农艺学、昆虫抗性、抗病性、除草剂抗性、不育性、谷物或种子特征以及商业产品而言重要的性状的基因。目的基因通常包括参与油、淀粉、碳水化合物或营养素
代谢的那些基因,以及影响种子大小、植物发育、植物生长调节和产率改善的基因。植物发
育和生长调节也指植物各部分(如花、种子、根、叶和芽)的发育和生长调节。
[0120] 其他商业上需要的性状是赋予抗冷性、抗热性、抗盐性和抗旱性的基因和蛋白质。
[0121] 疾病和/或昆虫抗性基因可以编码对具有高产率抑制(例如像玉米大斑病(Northern Corn Leaf Blight)、丝黑穗病、炭疽病、大豆花叶病毒、大豆异皮线虫、根结线虫、叶褐斑病、霜霉病、紫斑病、烂种和通常由真菌-腐霉属(Pythium)物种、疫霉属
(Phytophthora)物种、丝核菌属(Rhizoctonia)物种、腐皮壳属(Diaporthe)物种引起的苗
病)的有害生物的抗性。细菌性枯萎病是由大豆细菌性斑点病菌(Pseudomonas syringae 
pv.Glycinea)引起的。赋予昆虫抗性的基因包括,例如,苏金芽孢杆菌(Bacillus 
thuringiensis)毒性蛋白基因(美国专利号5,366,892;5,747,450;5,737,514;5,723,756;
5,593,881;以及Geiser等人,(1986)Gene[基因]48:109);凝集素(Van Damme等人,(1994)Plant Mol.Biol.[植物分子生物学]24:825);等等。
[0122] 除草剂抗性性状可以包括编码针对用于抑制乙酰乳酸合酶(ALS),特别是磺酰脲类除草剂(例如含有导致这种抗性的突变(特别是S4和/或HRA突变)的乙酰乳酸合酶ALS基
因)作用的除草剂的抗性的基因。ALS基因突变体编码对除草剂氯磺隆的抗性。草甘膦乙酰
转移酶(GAT)是来自地衣芽孢杆菌(Bacillus licheniformis)的N-乙酰转移酶,其通过基
因改组针对广谱除草剂(草甘膦)的乙酰化进行优化,形成转基因植物中草甘膦耐受性的新
颖机制的基础(Castle等人(2004)Science[科学]304,1151-1154)。
[0123] 已经在植物中鉴定出参与植物生长和发育的基因。参与细胞分裂素生物合成的一种这样的基因是异戊烯基转移酶(IPT)。细胞分裂素通过刺激细胞分裂和细胞分化在植物
生长和发育中起关键作用(Sun等人,(2003),Plant Physiol.[植物生理学]131:167-176)。
[0124] 在某些实施例中,本公开考虑了用不止一个有利的基因对受体细胞进行转化。可以使用不同的转基因编码载体或并入两种或更多种基因编码序列的单一载体在单一转化
事件中供应两种或更多种基因。可以根据需要使用任何描述的任何两种或更多种基因,例
如赋予除草剂、昆虫、疾病(病毒、细菌、真菌和线虫)或旱抗性以及油量和油质的那些基因,或增加产率或营养品质的那些基因。
[0125] 本公开涉及包含分离的核酸片段的重组DNA构建体,所述核酸片段包含组成型EME。本公开还涉及包含启动子的重组DNA构建体,所述启动子基本上由SEQ ID NO:1或2中
列出的核苷酸序列组成;或包含启动子的分离的多核苷酸,其中所述启动子包含SEQ ID 
NO:1-2和5-6中列出的核苷酸序列或SEQ ID NO:1-2和5-6的功能性片段。
[0126] 从本文所阐述的公开内容可以看出,本领域普通技术人员可以进行以下程序:
[0127] 1)将含有EME、内含子或5’UTR序列的核酸片段可操作地连接到合适的报道基因;存在本领域技术人员所熟知的多种报道基因,包括细菌GUS基因;荧火虫荧光素酶基因;以
及蓝绿色、绿色、红色和黄色荧光蛋白基因;可以进行简单且可靠测定的任何基因都可用作
报道基因。
[0128] 2)将EME、内含子或5’UTR序列:报道基因表达盒转化为适合的植物用于表达启动子。存在本领域技术人员所熟知的可以用作转化宿主的各种合适的植物,包括双子叶植物
(拟南芥、烟草、大豆、油菜、花生、向日葵、红花、棉花、西红柿、铃薯、可可)和单子叶植物(玉米、小麦、水稻、大麦和棕榈)。
[0129] 3)测试在转基因植物组织(例如,叶、根、花、种子)的各种细胞类型中EME、内含子或5’UTR序列的表达,所述转基因植物组织是通过测定报道基因产物的表达,用嵌合的EME、内含子或5’UTR序列:报道基因表达盒进行转化的。
[0130] 在另一方面,本公开涉及包含至少一个异源核酸片段的重组DNA构建体,所述异源核酸片段可操作地连接到本公开的任何启动子或启动子元件的组合。重组DNA构建体可以
通过将本公开的EME的核酸片段或与SEQ ID NO:1-56中列出的核苷酸序列的任何部分基本
上相似且功能上相当的片段可操作地连接到异源核酸片段来构建。任何异源核酸片段均可
用于实施本公开。选择将取决于所需引用或待实现的表型。可以操纵各种核酸序列,以便以
适当方向提供核酸序列。据信,如本文所述的启动子元件的各种组合可用于实施本公开。
[0131] 在另一方面,本公开涉及包含至少一种提供耐旱性基因的重组DNA构建体,所述基因可操作地连接到本公开的EME或片段或启动子元件的组合。在另一方面,本公开涉及包含
至少一种提供昆虫抗性基因的重组DNA构建体,所述基因可操作地连接到本公开的EME或片
段或启动子元件的组合。在另一方面,本公开涉及包含至少一种增加氮利用效率和/或产率
的基因的重组DNA构建体,所述基因可操作地连接到本公开的EME或片段或启动子元件的组
合。在另一方面,本公开涉及包含至少一种提供除草剂抗性基因的重组DNA构建体,所述基
因可操作地连接到本公开的EME或片段或启动子元件的组合。
[0132] 在另一个实施例中,本公开涉及包含如本文所述的本公开的重组DNA构建体或如本文所述的本公开的分离的多核苷酸的宿主细胞。可用于实践本公开的宿主细胞的实例包
括但不限于酵母、细菌和植物。
[0133] 可以构建包含本发明重组DNA构建体的质粒载体。质粒载体的选择取决于将用于转化宿主细胞的方法。本领域技术人员非常了解必须存在于质粒载体上的遗传元件,以便
成功地转化、选择和繁殖含有嵌合基因的宿主细胞。
[0134] I.基因编辑
[0135] 在一些实施例中,可以通过在所需改变附近的基因组中在限定位置诱导双链断裂(DSB)来促进基因编辑。可以使用可用的任何DSB诱导剂诱导DSB,所述诱导剂包括但不限
于,TALEN、大范围核酸酶、锌指核酸酶、Cas9-gRNA系统(基于细菌性CRISPR-Cas系统)等。在一些实施例中,可以将DSB的引入与多核苷酸修饰模板的引入组合。
[0136] 可以通过本领域已知的任何方法将多核苷酸修饰模板引入细胞中,所述方法例如但不限于瞬时引入方法、转染、电穿孔、显微注射、颗粒介导的递送、局部施用、晶须介导的递送、经由细胞穿透肽的递送或介孔二氧化纳米颗粒(MSN)介导的直接递送。
[0137] 可以将多核苷酸修饰模板作为单链多核苷酸分子、双链多核苷酸分子或作为环状DNA(载体DNA)的一部分引入细胞中。所述多核苷酸修饰模板还可以与指导RNA和/或Cas内
切核酸酶进行系链。系链的DNA可以允许共定位靶和模板DNA,可用于基因组编辑和靶向的
基因组调控,并且还可以用于靶向有丝分裂后期细胞,在所述细胞中内源HR机制的功能预
计会大大降低(Mali等人2013 Nature Methods[自然方法]第10卷:957-963。)所述多核苷
酸修饰模板可以瞬时地存在于细胞中,或可以经由病毒复制子引入。
[0138] “修饰的核苷酸”或“编辑的核苷酸”是指当与其非修饰的核苷酸序列相比时,包含至少一个改变的目的核苷酸序列。此类“改变”包括,例如:(i)至少一个核苷酸的替换,(ii)至少一个核苷酸的缺失,(iii)至少一个核苷酸的插入,或(iv)(i)-(iii)的任何组合。
[0139] 术语“多核苷酸修饰模板”包括,当与待编辑的核苷酸序列相比时,包含至少一个核苷酸修饰的多核苷酸。核苷酸修饰可以是至少一个核苷酸取代、添加或缺失。任选地,多
核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列,其中侧
翼同源核苷酸序列为待编辑的所需核苷酸序列提供了充足同源性。
[0140] 编辑组合有DSB和修饰模板的基因组序列的过程通常包括:向宿主细胞提供DSB诱导剂或编码DSB诱导剂的核酸(识别染色体序列中的靶序列并且能够诱导基因组序列中的
DSB),和与待编辑的核苷酸序列相比时包含至少一个核苷酸变化的至少一个多核苷酸修饰
模板。多核苷酸修饰模板还可以包含侧翼于所述至少一个核苷酸变化的核苷酸序列,其中
侧翼序列与侧翼于DSB的染色体区域基本同源。
[0141] 内切核酸酶可以通过本领域已知的任何方法提供给细胞,所述方法例如但不限于瞬时引入方法、转染、显微注射、和/或局部施用、或间接经由重组构建体。内切核酸酶可以作为蛋白质或作为指导多核苷酸复合物直接提供给细胞或经由重组构建体间接提供。使用
本领域已知的任何方法,可以瞬时地将内切核酸酶引入细胞中,或可以将内切核酸酶并入
宿主细胞的基因组中。在CRISPR-Cas系统的情况下,如2016年5月12日公开的WO 
2016073433中所述的,可以用细胞穿透肽(CPP)促进内切核酸酶和/或指导多核苷酸摄入进
细胞。
[0142] 如本文所用的,“基因组区域”是存在于靶位点任一侧上的细胞的基因组中的染色体的区段,或者可替代地,还包含靶位点的一部分。基因组区域可以包含至少5-10、5-15、5-
20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-
95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-
1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-
2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基,这样使得基因组区域具有足够的同源性以与相应的同源区域进行同源重组。
[0143] TAL效应子核酸酶(TALEN)是一类序列特异性核酸酶,其可以被用于在植物或其他生物体的基因组中特异性靶序列处造成双链断裂。(Miller等人(2011)Nature 
Biotechnology[自然生物技术]29:143-148)。
[0144] 内切核酸酶是在多核苷酸链内切割磷酸二酯键的酶。内切核酸酶包括限制性内切核酸酶,其在特异性位点处切割DNA而不损坏碱基;并且包括大范围核酸酶,也称为归巢内
切核酸酶(HE酶),其相似于限制性内切核酸酶,在特异性识别位点处结合并且切割,然而对
于大范围核酸酶,识别位点典型地更长,约18bp或更长(于2012年3月22目提交的专利申请
PCT/US12/30061)。基于保守的序列基序将大范围核酸酶分类为四个家族,所述家族是
LAGLIDADG、GIY-YIG、H-N-H、和His-Cys box家族。这些基序参与金属离子的配位和磷酸二
酯键的水解。HE酶的显著之处在于它们的长识别位点,并且还在于耐受其DNA底物中的一些
序列多态性。对于大范围核酸酶的命名约定相似于对其他限制性内切核酸酶的约定。大范
围核酸酶还分别特征在于针对由独立的ORF、内含子、和内含肽编码的酶的前缀F-、I-、或
PI-。在重组过程中的一个步骤涉及在识别位点处或在所述识别位点附近的多核苷酸切割。
可以将切割活性用于产生双链断裂。对于位点特异性重组酶和它们的识别位点的综述,参
见,Sauer(1994)Curr Op Biotechnol[生物技术新见]5:521-7;以及Sadowski(1993)FASEB
[美国实验生物学学会联合会杂志]7:760-7。在一些实例中,重组酶来自整合酶
(Integrase)或解离酶(Resolvase)家族。
[0145] 锌指核酸酶(ZFN)是由锌指DNA结合结构域和双链-断裂-诱导剂结构域组成的工程化双链断裂诱导剂。识别位点特异性由锌指结构域赋予,所述锌指结构域典型地包含两
个、三个、或四个锌指,例如具有C2H2结构,然而其他锌指结构是已知的并且已经被工程化。
锌指结构域适于设计特异性结合所选择的多核苷酸识别序列的多肽。ZFN包括连接至非特
异性内切核酸酶结构域(例如来自IIs型内切核酸酶例如FokI的核酸酶结构域)的工程化
DNA结合锌指结构域。另外的功能性可以融合到锌指结合结构域中,所述另外的功能性包括
转录激活子结构域、转录阻遏物结构域、和甲基化酶。在一些实例中,核酸酶结构域的二聚
化是切割活性所需的。每个锌指在靶DNA中识别三个连续的碱基对。例如,3指结构域识别9
个连续核苷酸的序列,由于所述核酸酶的二聚化需要,因此两组锌指三联体用于结合18个
核苷酸的识别序列。
[0146] 例如在2015年3月19日公开的US 2015-0082478 A1、2015年2月26日公开的WO 2015/026886 A1、2016年1月14日公开的WO 2016007347、以及2016年2月18日公开的WO 
201625131(将其全部通过引用并入本文)中已经描述了使用DSB诱导剂(例如Cas9-gRNA复
合物)进行的基因组编辑。
[0147] 本文中术语“Cas基因”是指在细菌系统中通常与侧翼CRISPR基因座偶联、缔合或接近或在邻近处的基因。术语“Cas基因”,“CRISPR相关的(Cas)基因”在本文中可互换地使用。本文的术语“Cas内切核酸酶”是指由Cas基因编码的蛋白质。当与适合的多核苷酸组分
复合时,本文的Cas内切核酸酶能够识别、结合特异性DNA靶序列的全部或部分、并任选地使
特异性DNA靶序列的全部或部分产生切口或切割特异性DNA靶序列的全部或部分。本文描述
的Cas内切核酸酶包含一个或多个核酸酶结构域。本公开的Cas内切核酸酶包括具有HNH或
HNH-样核酸酶结构域和/或RuvC或RuvC-样核酸酶结构域的那些。本公开的Cas内切核酸酶
包括Cas9蛋白质、Cpf1蛋白质、C2c1蛋白质、C2c2蛋白质、C2c3蛋白质、Cas3、Cas5、Cas7、Cas8、Cas10或这些的复合物。
[0148] 除了双链断裂诱导剂,还可以实现位点特异性碱基转化以工程化一个或多个核苷酸变化,从而在基因组中创建一个或多个本文所述的EME。这些包括例如,由C·G到T·A或
A·T到G·C碱基编辑脱氨酶介导的位点特异性碱基编辑(Gaudelli等人,Programmable 
base editing of A·T to G·C in genomic DNA without DNA cleavage.[基因组DNA中
A·T到G·C的可编程碱基编辑而不进行DNA切割]”Nature[自然](2017);Nishida等人
“Targeted nucleotide editing using hybrid prokaryotic and vertebrate adaptive 
immune systems[使用杂交原核和脊椎动物适应性免疫系统进行靶向核苷酸编辑].”
Science[科学]353(6305)(2016);Komor等人“Programmable editing of a target base 
in genomic DNA without double-stranded DNA cleavage[基因组DNA中的靶碱基的可编
程编辑而不进行双链DNA裂解].”Nature[自然]533(7603)(2016):420-4)。与胞苷脱氨酶或
腺嘌呤脱氨酶蛋白融合的催化死亡的dCas9成为特异性的碱基编辑器,其可以改变DNA碱基
而不会引起DNA断裂。碱基编辑器转换C->T(或在相反链上,G->A)或腺嘌呤碱基编辑器将
腺嘌呤转换为肌苷,从而在gRNA指定的编辑窗口内导致A->G变化。
[0149] 如本文所用的,术语“指导多核苷酸/Cas内切核酸酶复合物”、“指导多核苷酸/Cas内切核酸酶系统”、“指导多核苷酸/Cas复合物”、“指导多核苷酸/Cas系统”、“指导Cas系统”在本文中可互换地使用,并且是指能够形成复合物的至少一种指导多核苷酸和至少一种Cas内切核酸酶,其中所述指导多核苷酸/Cas内切核酸酶复合物可以将Cas内切核酸酶引导
至DNA靶位点,使Cas内切核酸酶能够识别、结合到、并任选地使DNA靶位点产生切口或切割
(引入单链或双链断裂)DNA靶位点。本文中指导多核苷酸/Cas内切核酸酶复合物可以包含
四种已知的CRISPR系统(Horvath和Barrangou,2010,Science[科学]327:167-170)(例如I
型、II型或III型CRISPR系统)中任一种的一种或多种Cas蛋白和一种或多种合适的多核苷
酸组分。Cas内切核酸酶在靶序列处解开DNA双链体并任选地切割至少一条DNA链,如通过由
与Cas蛋白复合的多核苷酸(例如但不限于crRNA或指导RNA)识别靶序列所介导的。如果正
确的前间区序列邻近基序(PAM)位于或相邻于DNA靶序列的3’端,则通过Cas内切核酸酶对
靶序列进行的此类识别和切割典型地会发生。可替代地,本文中的Cas蛋白可能缺乏DNA切
割或切口活性,但是当与合适的RNA组分复合时,仍然可以特异性结合DNA靶序列。(还参见
于2015年3月19日公开的美国专利申请US 2015-0082478 A1和于2015年2月26日公开的US 
2015-0059010 A1,两者均通过引用以其全文特此并入)。
[0150] 指导多核苷酸/Cas内切核酸酶复合物可以切割DNA靶序列的一条或两条链。可以切割DNA靶序列的两条链的指导多核苷酸/Cas内切核酸酶复合物典型地包含具有处于功能
状态的所有其内切核酸酶结构域的Cas蛋白(例如野生型内切核酸酶结构域或其变体在每
个内切核酸酶结构域中保留一些或全部活性)。适合用于本文的Cas9切口酶的非限制性实
例公开于美国专利申请公开号2014/0189896中,其通过引用并入本文。
[0151] 其他Cas内切核酸酶系统已经在2016年5月12日提交的PCT专利申请PCT/US16/32073和2016年5月12日提交的PCT/US16/32028中描述,将这两个申请通过引用并入本文
中。
[0152] 本文中的“Cas9”(以前称为Cas5、Csn1、或Csx12)是指与cr核苷酸和tracr核苷酸或与单指导多核苷酸形成复合物的II型CRISPR系统的Cas内切核酸酶,其用于特异性识别
和切割DNA靶序列的全部或部分。Cas9蛋白包含RuvC核酸酶结构域和HNH(H-N-H)核酸酶结
构域,它们各自可以在靶序列处切割单个DNA链(两个结构域的协同作用导致DNA双链切割,
而一个结构域的活性导致一个切口)。通常,RuvC结构域包含亚结构域I、II和III,其中结构域I位于Cas9的N-末端附近,并且亚结构域II和III位于蛋白质的中间,即位于HNH结构域的
侧翼(Hsu等人,Cell[细胞],157:1262-1278)。II型CRISPR系统包括利用与至少一种多核苷酸组分复合的Cas9内切核酸酶的DNA切割系统。例如,Cas9可以与CRISPR RNA(crRNA)和反
式激活CRISPR RNA(tracrRNA)复合。在另一个实例中,Cas9可以与单一指导RNA复合。
[0153] 任何指导的内切核酸酶可以用于本文公开的方法中。此类内切核酸酶包括但不限于Cas9和Cpf1内切核酸酶。迄今为止已经描述了许多内切核酸酶,其可以识别特异性的PAM
序列(参见例如Jinek等人(2012)Science[科学]337第816-821页;2016年5月12日提交的
PCT专利申请PCT/US16/32073;和2016年5月12日提交的PCT/US16/32028;以及Zetsche B等
人2015.Cell[细胞]163,1013),并且在特异性位置处切割靶DNA。应当理解的是,基于本文
所述的使用指导的Cas系统的方法和实施例,现在人们可以定制这些方法这样使得它们可
以利用任何指导的内切核酸酶系统。
[0154] 如本文所用的,术语“指导多核苷酸”涉及可以与Cas内切核酸酶形成复合物的多核苷酸序列,并且使得Cas内切核酸酶能够识别、结合并任选地切割DNA靶位点。指导多核苷
酸可以是单分子或双分子。指导多核苷酸序列可以是RNA序列、DNA序列或其组合(RNA-DNA
组合序列)。任选地,指导多核苷酸可以包含至少一种核苷酸、磷酸二酯键或连接修饰,例如但不限于核酸(LNA)、5-甲基dC、2,6-二氨基嘌呤、2’-氟代A、2’-氟代U、2’-O-甲基RNA、硫代磷酸酯键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔子18(六乙二醇链)分子
的连接、或导致环化的5’至3’共价连接。仅仅包含核糖核酸的指导多核苷酸也被称为“指导RNA”或“gRNA”(还参见于2015年3月19日公开的美国专利申请US 2015-0082478 A1和2015
年2月26日公开的US 2015-0059010 A1,两者均通过引用以其全文特此并入)。
[0155] 指导多核苷酸也可以是包含连接至tracr核苷酸序列的cr核苷酸序列的单分子(也称为单指导多核苷酸)。单指导多核苷酸包含可以与靶DNA中的核苷酸序列杂交的第一
核苷酸序列结构域(被称为可变靶向结构域或VT结构域)和与Cas内切核酸酶多肽相互作用
的Cas内切核酸酶识别结构域(CER结构域)。“结构域”意指可以为RNA、DNA和/或RNA-DNA组
合序列的核苷酸的连续延伸。单指导多核苷酸的VT结构域和/或CER结构域可以包含RNA序
列、DNA序列或RNA-DNA组合序列。由来自cr核苷酸和tracr核苷酸的序列构成的单指导多核
苷酸可以被称为“单指导RNA”(当由RNA核苷酸的连续延伸构成时)或“单指导DNA”(当由DNA核苷酸的连续延伸构成时)或“单指导RNA-DNA”(当由RNA和DNA核苷酸的组合构成时)。单指
导多核苷酸可以与Cas内切核酸酶形成复合物,其中所述指导多核苷酸/Cas内切核酸酶复
合物(还称为指导多核苷酸/Cas内切核酸酶系统)可以将Cas内切核酸酶引导至基因组靶位
点,使所述Cas内切核酸酶能够识别、结合靶位点、并任选地使靶位点产生切口或切割(引入
单链或双链断裂)靶位点。(还参见于2015年3月19日公开的美国专利申请US 2015-0082478 
A1和于2015年2月26日公开的US 2015-0059010 A1,两者均通过引用以其全文特此并入)。
[0156] 术语“可变靶向结构域”或“VT结构域”在本文中可互换使用,并且包括可以与双链DNA靶位点的一条链(核苷酸序列)杂交(互补)的核苷酸序列。在一些实施例中,可变靶向结构域包含12至30个核苷酸的连续延伸。可变靶向域可以由DNA序列、RNA序列、修饰的DNA序
列、修饰的RNA序列或其任何组合构成。
[0157] 术语(指导多核苷酸的)“Cas内切核酸酶识别结构域”或“CER结构域”在本文中可互换地使用,并且包括与Cas内切核酸酶多肽相互作用的核苷酸序列。CER结构域包含tracr
核苷酸配对序列,随后是tracr核苷酸序列。CER结构域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列(参见例如2015年2月26日公开的US 2015-0059010 A1,其通过引用以
其全文并入本文)或其任何组合构成。
[0158] 连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列可以包含RNA序列、DNA序列或RNA-DNA组合序列。在一个实施例中,连接单指导多核苷酸的cr核苷酸和tracr核
苷酸的核苷酸序列可以是至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、
22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、
47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、
72、73、74、75、76、77、78、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、
96、97、98、99或100个核苷酸的长度。在另一个实施例中,连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列可以包含四核苷酸环序列,例如但不限于GAAA四核苷酸环序
列。
[0159] 术语“单指导RNA”和“sgRNA”在本文中可互换使用,并涉及两个RNA分子的合成融合,其中包含可变靶向结构域(与tracrRNA杂交的tracr配对序列连接)的crRNA(CRISPR 
RNA)与tracrRNA(反式激活CRISPR RNA)融合。单指导RNA可以包含可与II型Cas内切核酸酶
形成复合物的II型CRISPR/Cas系统的crRNA或crRNA片段和tracrRNA或tracrRNA片段,其中
所述指导RNA/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点,使得Cas内切
核酸酶能够识别、结合DNA靶位点、并任选地使DNA靶位点产生切口或切割(引入单链或双链
断裂)DNA靶位点。
[0160] 术语“指导RNA/Cas内切核酸酶复合物”、“指导RNA/Cas内切核酸酶系统”、“指导RNA/Cas复合物”、“指导RNA/Cas系统”、“gRNA/Cas复合物”、“gRNA/Cas系统”、“RNA-指导的内切核酸酶”,“RGEN”在本文中可互换地使用并且意指至少一种RNA组分和至少一种能够形成复合物的Cas内切核酸酶,其中所述指导RNA/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点,使Cas内切核酸酶能够识别、结合DNA靶位点并任选地使DNA靶位点产
生切口或切割(引入单链或双链断裂)DNA靶位点。本文中的指导RNA/Cas内切核酸酶复合物
可以包含四种已知的CRISPR系统(Horvath和Barrangou,2010,Science[科学]327:167-
170)(例如I型、II型或III型CRISPR系统)中任一种的一种或多种Cas蛋白和一种或多种合
适的RNA组分。指导RNA/Cas内切核酸酶复合物可以包括II型Cas9内切核酸酶和至少一种
RNA组分(例如,crRNA和tracrRNA、或gRNA)。(还参见于2015年3月19日公开的美国专利申请
US 2015-0082478 A1和于2015年2月26日公开的US 2015-0059010 A1,两者均通过引用以
其全文特此并入)。
[0161] 使用在本领域已知的任何方法(例如,但不限于,粒子轰击、农杆菌转化或局部施用),可以将作为单链多核苷酸或双链多核苷酸的指导多核苷酸瞬时地引入细胞。指导多核
苷酸还可以通过引入(通过,例如但不限于粒子轰击或农杆菌转化等方法)包含编码指导多
核苷酸的异源核酸片段的重组DNA分子被间接引入细胞,所述重组DNA分子可操作地连接于
能够在所述细胞转录所述指导RNA的特异性启动子。特异性启动子可以是但不限于RNA聚合
酶III启动子,其允许具有精确定义的未修饰的5’-和3’-端的RNA转录(DiCarlo等人,
Nucleic Acids Res.[核酸研究]41:4336-4343;Ma等人,Mol.Ther.Nucleic Acids[分子治
疗-核酸]3:e161),如2016年2月18日公开的WO 2016025131中所述的,其通过引用以其全文
并入本文。
[0162] 术语“靶位点”、“靶序列”、“靶位点序列”、“靶DNA”、“靶基因座”、“基因组靶位点”、“基因组靶序列”、“基因组靶基因座”和“前间区”在本文中可互换地使用,并且意指多核苷酸序列,例如,但不限于,在细胞的染色体、附加体,或基因组中的任何其他DNA分子(包括染色体DNA、叶绿体DNA、线粒体DNA,质粒DNA)上的核苷酸序列,在所述序列处指导多核苷酸/Cas内切核酸酶复合物可以进行识别、结合并任选地产生切口或进行切割。靶位点可以是细
胞的基因组中的内源位点,或者可替代地,靶位点可以与细胞异源并且从而不是天然存在
于细胞的基因组中,或者与在自然界发生的位置相比,可以在异质基因组位置中找到靶位
点。如本文所用的,术语“内源靶序列”和“天然靶序列”在本文中可互换使用,是指对细胞基因组来说是内源的或天然的、并且位于细胞的基因组中所述靶序列的内源或天然位置处的
靶序列。细胞包括但不限于人类、非人类、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞,以及通过本文所述的方法产生的植物和种子。“人工靶位点”或“人工靶序列”在本文中可互换使用,并且是指已经引入细胞的基因组中的靶序列。这种人工靶序列可以在序列
上与细胞的基因组中的内源或天然靶序列相同,但是位于细胞的基因组中的不同位置(即,
非内源的或非天然的位置)处。
[0163] “改变的靶位点”、“改变的靶序列”、“修饰的靶位点”、“修饰的靶序列”在本文中可互换使用,并且是指如本文公开的靶序列,当与非改变的靶序列相比时,所述靶序列包括至少一个改变。此类“改变”包括,例如:(i)至少一个核苷酸的替换,(ii)至少一个核苷酸的缺失,(iii)至少一个核苷酸的插入,或(iv)(i)-(iii)的任何组合。
[0164] 用于“修饰靶位点”和“改变靶位点”的方法在本文中可互换使用,并且是指用于产生改变的靶位点的方法。
[0165] 靶DNA序列(靶位点)的长度可以变化,并且包括例如为至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个核苷酸长度的靶位点。还有可能靶位点可以是回文的,即,一条链上的序列与在互补链上以相反方向的读取相同。切口/切割位
点可以在靶序列内,或者切口/切割位点可以在靶序列之外。在另一种变异中,切割可以发
生在彼此正好相对的核苷酸位置处,以产生平端切割,或者在其他情况下,切口可以交错以
产生单链突出端,也称为“粘性端”,其可以是5’突出端抑或3’突出端。还可以使用基因组靶位点的活性变体。此类活性变体可以包含与给定靶位点至少65%、70%、75%、80%、85%、
90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性,其中所述活性变体保留生物活性,因此能够被Cas内切核酸酶识别和切割。测量由内切核酸酶引起的
靶位点的单链或双链断裂的测定是本领域已知的,并且通常测量试剂在包含识别位点的
DNA底物上的总体活性和特异性。
[0166] 本文中的“前间区邻近基序”(PAM)意指与由本文所述的指导多核苷酸/Cas内切核酸酶系统识别的(靶向的)靶序列(前间区)邻近的短核苷酸序列。如果靶DNA序列不在PAM序
列后面,则Cas内切核酸酶可能无法成功识别所述靶DNA序列。本文中的PAM的序列和长度可
以取决于所使用的Cas蛋白或Cas蛋白复合物而不同。所述PAM序列可以是任何长度,但典型
地是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。
[0167] 术语“靶向”、“基因靶向”和“DNA靶向”在本文中可互换地使用。本文中的DNA靶向可能是在特异性的DNA序列(例如细胞的染色体或质粒)中特异性引入敲除、编辑、或敲入。通常,本文中可以通过在具有与合适的多核苷酸组分缔合的内切核酸酶的细胞中的特异性
DNA序列处切割一条或两条链来进行DNA靶向。这种DNA切割,如果是双链断裂(DSB),可以促
进NHEJ或HDR过程,这可能导致靶位点处的修饰。
[0168] 本文的靶向方法能以例如在所述方法中靶向两个或更多个DNA靶位点的这样的方式进行。这种方法可以任选地被表征为多重方法。在某些实施例中,可以同时靶向两个、三
个、四个、五个、六个、七个、八个、九个、十个或更多个靶位点。多重方法典型地通过本文的靶向方法进行,其中提供了多个不同的RNA组分,每一个被设计成将指导多核苷酸/Cas内切
核酸酶复合物引导到唯一的DNA靶位点。
[0169] 术语“敲除”、“基因敲除”和“遗传敲除”在本文中可互换使用。敲除表示已经通过用Cas蛋白进行靶向使得细胞的DNA序列部分或完全无效;例如,这种DNA序列在敲除之前可能已编码氨基酸序列,或可能已具有调节功能(例如启动子)。可以通过插入缺失(通过NHEJ
在靶DNA序列中插入或缺失核苷酸碱基),或通过特异性去除在靶向位点处或其附近处降低
或完全破坏序列功能的序列来产生敲除。
[0170] 指导多核苷酸/Cas内切核酸酶系统可以与共同递送的多核苷酸修饰模板组合使用以允许编辑(修饰)目的基因组核苷酸序列。(还参见于2015年3月19日公开的美国专利申
请US 2015-0082478 A1和2015年2月26日公开的WO 2015/026886 A1,两者均通过引用以其
全文特此并入)。
[0171] 术语“敲入”、“基因敲入”、“基因插入”和“遗传敲入”在本文中可互换使用。敲入代表通过用Cas蛋白靶向在细胞中的特异性DNA序列处进行的DNA序列的替换或插入(通过HR,其中还使用合适的供体DNA多核苷酸)。敲入的实例是异源氨基酸编码序列在基因的编码区
中的特异性插入,或转录调节元件在遗传基因座中的特异性插入。
[0172] 可以采用不同方法和组合物来获得细胞或生物体,所述细胞或生物体具有插入针对Cas内切核酸酶的靶位点中的目的多核苷酸。此类方法可以采用同源重组以提供目的多
核苷酸在靶位点处的整合。在提供的一个方法中,将在供体DNA构建体中的目的多核苷酸提
供至生物体细胞。如本文所用的,“供体DNA”是包括待插入到Cas内切核酸酶的靶位点的目
的多核苷酸的DNA构建体。供体DNA构建体进一步包含位于目的多核苷酸侧翼的同源的第一
区域和第二区域。供体DNA的同源的第一区域和第二区域分别与存在于细胞或生物体基因
组的靶位点中或位于所述靶位点侧翼的第一和第二基因组区域共享同源性。“同源”意指
DNA序列是相似的。例如,在供体DNA上发现的“与基因组区域同源的区域”是与细胞或生物
体基因组中给定的“基因组序列”具有类似序列的DNA的区域。同源的区域可以具有足以促
进在切割的靶位点处的同源重组的任何长度。例如,同源的区域的长度可以包括至少5-10、
5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-
90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、
5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、
5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基,这样使得同源的区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源
性”表示两个多核苷酸序列具有足够的结构相似性以充当同源重组反应的底物。结构相似
性包括每个多核苷酸片段的总长度以及多核苷酸的序列相似性。序列相似性可以通过在序
列的整个长度上的百分比序列同一性和/或通过包含局部相似性(例如具有100%序列同一
性的连续核苷酸)的保守区域以及在序列长度的一部分上的百分比序列同一性来描述。
[0173] 由靶标和供体多核苷酸共享的序列同一性的量可以变化,并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、
300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-
1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb,或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的
每个整数,例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来
描述,其包括约至少50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、
78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、
93%、94%、95%、96%、97%、98%、99%或100%的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性,和任选地连续核苷酸的保守区域或局部百分比序
列同一性的任何组合,例如,足够的同源性可以被描述为与靶标基因座的区域具有至少
80%序列同一性的75-150bp的区域。足够的同源性也可以通过两个多核苷酸在高严格条件
下特异性杂交的预测能力来描述,参见,例如Sambrook等人(1989)Molecular Cloning:A 
Laboratory Manual,(Cold Spring Harbor Laboratory Press,NY)[分子克隆:实验手册
(纽约州冷泉港实验室出版)];Current Protocols in Molecular Biology[分子生物学现
代方法],Ausubel等人编辑(1994)Current Protocols,(Greene Publishing Associates,
Inc.and John Wiley&Sons,Inc.)[现代方法(格林出版联合公司和约翰威利父子公司)];
以及Tijssen(1993)Laboratory Techniques in Biochemistry and Molecular 
Biology--Hybridization with Nucleic Acid Probes,(Elsevier,New York)[生物化学
和分子生物学实验技术一核酸探针杂交(纽约州爱思唯尔出版社)]。
[0174] 在给定的基因组区域和在供体DNA上发现的相应的同源的区域之间的结构相似性可以是允许同源重组发生的任何程度的序列同一性。例如,由供体DNA的“同源的区域”和生物体基因组的“基因组区域”共享的同源性或序列同一性的量可以是至少50%、55%、60%、
65%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、
92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性,这样使得序列进行同源重组。
[0175] 供体DNA上的同源的区域可以与靶位点侧翼的任何序列具有同源性。虽然在一些实施例中,同源的区域与紧邻靶位点侧翼的基因组序列共享显著的序列同源性,但是应当
认识到同源的区域可以被设计为与可能更靠近靶位点的5’或3’的区域具有足够的同源性。
在又其他实施例中,同源的区域还可以与靶位点的片段以及下游基因组区域具有同源性。
在一个实施例中,第一同源的区域进一步包含靶位点中的第一片段,并且第二同源的区域
包含靶位点中的第二片段,其中第一片段和第二片段不同。
[0176] 如本文所用的,“同源重组”包括在同源的位点处的两个DNA分子之间的DNA片段的交换。
[0177] 指导RNA/Cas内切核酸酶系统的另外的用途已进行了描述(参见2015年3月19日公开的美国专利申请US 2015-0082478 A1、2015年2月26日公开的WO 2015/026886 A1、2015
年2月26日公开的US 2015-0059010 A1、2014年7月07日提交的美国申请62/023246,和2014
年8月13日提交的美国申请62/036,652,将其全部通过引用并入本文),并包括,但不限于修
饰或替换目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因敲除、基因敲入、剪接位
点的修饰和/或引入交替剪接位点、编码目的蛋白的核苷酸序列的修饰、氨基酸和/或蛋白
质融合物、以及通过在目的基因中表达反向重复序列引起的基因沉默。
[0178] 在一个实施例中,通过本文所述的基因组编辑方法以及本领域技术人员可用的那些方法,可以将本文公开的EME的一个或多个调节元件的特异性基序工程化以调控一个或
多个宿主植物内源基因的表达。
[0179] 已经公开了主要通过使用根癌农杆菌(Agrobacterium tumefaciens)转化如下双子叶植物和获得转基因植物的方法,例如棉花(美国专利号5,004,863,美国专利号5,159,
135);大豆(美国专利号5,569,834,美国专利号5,416,011);芸苔属(美国专利号5,463,
174);花生(Cheng等人,Plant Cell Rep.[植物细胞报道]15:653-657(1996),McKently等
人,Plant Cell Rep.[植物细胞报道]14:699-703(1995));木瓜(Ling等人,Bio/
technology[生物/技术]9:752-758(1991));和豌豆(Grant等人,Plant Cell Rep.[植物细
胞报道]15:254-258(1995))。对于其他常用的植物转化方法的综述参见如下文献:Newell,C.A.,Mol.Biotechnol.[分子生物技术]16:53-65(2000)。这些转化方法之一使用发根农杆
菌(Agrobacterium rhizogenes)(Tepfler,M.和Casse-Delbart,F.,Microbiol.Sci.[微生
物科学]4:24-28(1987))。已经公开了采用如下手段使用DNA的直接递送进行的大豆转化:
PEG融合(PCT公开号WO 92/17598)、电穿孔(Chowrira等人,Mol.Biotechnol.[分子生物技
术]3:17-23(1995);Christou等人,Proc.Natl.Acad.Sci.U.S.A.[美国科学院院报]84:
3962-3966(1987))、显微注射、或粒子轰击(McCabe等人,Biotechnology[生物技术]6:923-
926(1988);Christou等人,Plant Physiol.[植物生理学]87:671-674(1988))。
[0180] 有各种各样的方法用于从植物组织再生植物。特定的再生方法将取决于起始植物组织和待再生的特定植物种类。来自单一植物原生质体转化体或来自各种转化的外植体的
植物的再生、发育和培养是本领域所熟知的(Weissbach和Weissbach编辑;Methods for 
Plant Molecular Biology[植物分子生物学方法];Academic Press,Inc.[学术出版社有
限公司]:San Diego,CA[加利福尼亚州圣地亚哥],1988)。这种再生和生长过程典型地包括如下步骤:选择转化的细胞,通过胚性发育的通常阶段或通过生根苗阶段培养那些个体化
细胞。以同样的方式再生转基因胚和种子。然后将所得的转基因生根芽苗种植在合适的植
物生长培养基(如土壤)中。优选地,再生植物自花授粉以提供纯合的转基因植物。或者,将
得自再生植物的花粉与农学上重要的品系的产生种子的植物进行杂交。相反地,将来自这
些重要品系的植物的花粉用于给再生植物授粉。使用本领域技术人员熟知的方法培养含有
所需多肽的本公开的转基因植物。
[0181] 本公开的EME的另一个一般应用是构建嵌合多核苷酸,其可用于增加或减少植物细胞中至少一个异源核酸片段的表达。为了实现这一点,可以通过将片段连接至本公开的
EME来构建被设计用于异源核酸片段的基因沉默的嵌合基因。可替代地,可以通过以相反方
向将片段连接至本公开的EME来构建被设计用于表达异源核酸片段的反义RNA的嵌合基因。
可以经由转化将共阻抑或反义嵌合基因引入植物中。然后选择其中异源核酸片段的表达减
少或消除的转化体。
[0182] 本公开还涉及改变(增加或减少)植物细胞中至少一个异源核酸片段的表达的方法,所述方法包括:
[0183] (a)用本文所述的重组表达构建体转化植物细胞;
[0184] (b)使可育的成熟植物从步骤(a)的转化的植物细胞生长;
[0185] (c)选择含有转化的植物细胞的植物,其中异源核酸片段的表达增加或减少。
[0186] 可以使用本领域技术人员所熟知的方法(包括但不限于本文所述的方法)来实现转化和选择。
[0187] 在一个实施例中,EME存在于距所述内源多核苷酸的转录起始位点约10至约5000bp内。此位置范围还包括距TSS的约11、12、13、14、15、16、17、18、19、20、21、22、23、24、
25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、
50、100、1000、2000、3000、4000和5000个核苷酸。在一个实施例中,EME进一步包括另外拷贝的表达调控元件,使得约2X至10X拷贝的EME存在于内源多核苷酸或重组多核苷酸的调节区
中。基于对更高或更低(取决于例如目的性状)表达特定多核苷酸的需求,另外数目的拷贝
(例如3X、4X、5X、6X、7X、8X、9X)也是合适的。在一个实施例中,当存在多于一个拷贝的EME时,它能以选自由以下组成的组的构型中的一种或多种存在:头对头、头对尾、尾对头、尾对尾及其组合。在一个实施例中,另外拷贝由间隔子序列隔开,所述间隔子序列可以包括约1
至50个核苷酸。在一个实施例中,EME是一个或多个拷贝的异源表达元件的组合。在本公开
的一个或多个EME之间存在的间隔子的合适的长度包括例如,约11、12、13、14、15、16、17、
18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、
43、44、45、46、47、48、49、50、100个或更多个连续的多核苷酸。间隔子序列可以包含内含子元件或其他非编码序列,其不会实质性地改变旨在由EME传达的功能。
[0188] 实例
[0189] 本公开在以下实例中进一步定义,除非另外说明,其中份数和百分数以重量计,并且度数以摄氏度计。除非另外描述,否则本公开中列出的启动子、cDNA、衔接子和引物的序
列均处于5’至3’方向。应当理解,尽管这些实例说明了本公开的优选实施例,但仅以示例的方式给出。从以上的讨论和这些实例中,本领域的技术人员能够确定本公开的本质特性,并
且在不脱离本公开的精神和范围的情况下,可进行本公开的各种变化和修改以使其适应各
种用途和条件。因此,从上述说明书来看,除了本文所示出和描述的那些之外,本公开的各
种修改对于本领域技术人员来说是显而易见的。此类修改也旨在落入所附权利要求的范围
内。
[0190] 本文所示的每个参考文献的公开内容通过引用以其全文并入本文。
[0191] 实例1
[0192] 玉蜀黍原生质体测定和报道基因定量
[0193] 鉴定表达调控元件(EME),并构建具有报道基因(例如,ZsGreen)的适合的转化载体。在玉蜀黍叶原生质体中测试那些载体。这种原生质体表达测定使用此常用方案的修改
版本,以促进将已知质粒DNA递送至从玉蜀黍近交叶的叶肉细胞中分离的细胞。该测定中使
用的转染方法是聚乙二醇40%w/v介导的转染。
[0194] 在原生质体表达测定中使用的定量方法基于BioTek Cytation5倒置显微镜成像仪。使用如基于为实验选择的荧光标志所确定的激发和发射光谱,获取转染的原生质体群
的图像。当需要定量已知元件时,使用双盒表达载体。标准化盒由强组成型启动子Seteria 
UBI以及驱动TagRFP的Seteria UBI内含子组成;该盒还可以用作转染对照以监控转染效
率。实验盒包含用ZsGreen作为报道基因评估的DNA序列。后期成像处理主要在BioTek Gen5
软件中进行。使用TagRFP荧光算法的圆度、大小和存在,鉴定出阳性转染的细胞,并记录基
像素强度的相对荧光。将从GFP通道记录的荧光针对RFP进行标准化,以便基于逐个细胞
进行定量。即使在大多数情况下以较高的严格性确定了显著性(p值<0.0001),也要针对每
个实验实体计算算术平均值,并将其与适合的对照进行比较,以根据p值<0.5确定显著性。
在其他情况下,将针对每个实验实体计算几何平均值,并使用具有α值为5%的Tukey进行
ANOVA。
[0195] 实例2
[0196] 测试的EME的多聚体效应
[0197] 测试了EME的几种构型以确定针对调控基因表达的多聚体效应。以下表2显示了表示为4X EME1、3X EME2、1X EME1、2X EME1和3X EME1的EME的数据。EME1和EME2是从玉蜀黍
基因组序列中鉴定的序列。
[0198] 表2:EME和位置效应
[0199]
[0200] 为了确定EME1(SEQ ID NO:1)是否影响玉蜀黍原生质体测定中的表达水平,构建含有在最小花椰菜花叶病毒(CaMV)35S启动子(其驱动报道基因ZsGreen表达)上游克隆的
1-4X个拷贝的EME1(SEQ ID NO:1)的表达盒。在含有驱动ZsGreen的CaMV 35S最小启动子的
对照构建体中,不存在可检测水平的ZsGreen荧光。当1-4个拷贝的EME1在CaMV 35S最小启
动子的上游克隆时,分别评估到1-6倍增加(表2)。用在含有表达盒的原生质体中观察到的
ZsGreen荧光计算表达的显著变化,所述表达盒具有在CaMV 35S最小启动子的上游克隆的
2-4个拷贝的EME1。
[0201] 除了EME1,以类似的方式用CaMV 35S最小启动子评估了第二玉蜀黍序列(EME2,SEQ ID NO:3)。当1至3个拷贝的EME2(SEQ ID NO:3)或一个拷贝的EME1与单拷贝EME2在最
小CaMV 35S启动子的上游克隆时,确定玉蜀黍原生质体中表达水平的显著差异(其中倍数
变化在约3倍至约72倍),提供了有效的工具试剂盒(tool kit),以使用植物来源的增强子
元件以内源地调控基因表达(表2)。EME1和EME2都增加了测试的调节元件的表达水平以驱
动植物细胞(例如,玉蜀黍细胞)中多核苷酸(例如,ZsGreen)的表达。
[0202] 实例3
[0203] 针对调控中等组成型启动子的表达测试的EME的多聚体效应
[0204] 测试了ZM-AS-1L和Zm-AS2 EME的几种多聚体构型,以确定由中等组成型启动子(Zm-GOS2:SB-Ubi内含子)驱动的基因表达调控。针对ZmGOS2启动子的表达调控测试的EME
序列的1X、2X、3X和4X版本的数据显示在表3中。
[0205] 表3:EME对中等组成型植物启动子的多聚体效应
[0206]
[0207]
[0208] 还用组成型启动于(例如,ZmGOS2,参见例如,美国专利号6,504,083)评估了EME1,以确定在此上下文中ZsGreen的表达水平如何变化。在中等玉蜀黍组成型启动子ZmGOS2中
的转录起始位点(TSS)的-50位置中克隆了1至4个拷贝的EME1(SEQ ID NO:1)。当将不含EME
序列的对照载体转染到玉蜀黍原生质体中时,观察到ZsGreen荧光并对其定量,以建立基
线。当1-4个拷贝的EME1(SEQ ID NO:1)存在于ZmGOS2启动子中时,定量的值比针对对照载
体计算的值增加了2.6-4.6倍(表3)。
[0209] 当1-3个拷贝的EME2(SEQ ID NO:3)在ZmGOS2启动子中TSS上游的-50位置处克隆时,与不含EME2序列的对照载体相比,测量到表达的显著变化(3.9-5.8倍变化,表3)。因此,证明了EME1和EME2都是表达调控元件,当位于距植物细胞转录起始大小可操作的距离处时
增加多核苷酸植物细胞的表达。
[0210] 实例4
[0211] 测试的EME对各种植物启动子的表达调控效应
[0212] 测试了EME的几种构型,以确定各种植物启动子的效应基因表达调控。表4显示了针对以下所述的启动子评估的4X EME1的数据。
[0213] 表4:植物启动子的EME和表达调控
[0214]
[0215]
[0216] 还用三个另外的启动子:强组成型启动子(UBIZM)、弱组成型启动子(ZmADF4)和种子特异性启动子(ZmOLE),在玉蜀黍原生质体中评估了EME1(SEQ ID NO:1)。对于这些启动
子中的每一个,用ZsGreen作为报道基因,将4个拷贝的EME1在TSS的上游-50位置处克隆、转
染到玉蜀黍叶原生质体中并定量,其中结果显示在表4中。即使玉蜀黍UBI启动子以及驱动
ZsGreen的玉蜀黍UBI内含子在玉蜀黍原生质体中显示出强荧光,与驱动报道基因表达的
UBI启动子相比,添加4个拷贝的EME1导致表达的显著增加。总体而言,具有驱动ZsGreen的
高粱UBI内含子的玉蜀黍ADF4启动子导致ZsGreen荧光的表达低于具有相同内含子的玉蜀
黍UBI或玉蜀黍GOS2启动子。在该ZmADF4启动子表达盒中插入4个拷贝的EME1导致ZsGreen
荧光增加3倍。当ZmOLE驱动玉蜀黍叶原生质体中ZsGreen的表达时,没有观察到可见的
ZsGreen荧光。然而,当向该玉蜀黍OLE启动子中插入4个拷贝的EME1时,ZsGreen荧光在玉蜀
黍叶原生质体中是可见的。ZsGreen荧光中的这一显著变化导致相对于对照ZmOLE构建体增
加了35倍。随着用5个不同的启动子独立确定的报道基因表达水平的显著增加,证明EME1是
能够显著调控植物细胞中基因表达的表达调控元件。类似地,EME2还在多种启动子构型中
增加基因表达,这表明EME2在调控基因表达中也有用(例如,图5-6)。
[0217] 实例5
[0218] 测试的EME的截短的序列变异的效应
[0219] 测试了EME2的几种序列变异,以确定针对调控基因表达的序列摆动效应。表5中显示了针对ZmGOS2启动子的表达调控评估的EME2序列变异的数据。
[0220] 表5:EME2的截短效应
[0221] A.第一组序列变异
[0222]
[0223] B.第二组序列变异
[0224]
[0225] 来自农杆菌序列(SEQ ID NO:30)的16-bp回文章鱼碱合酶(ocs)元件以及另一个21bp ocs增强子家族成员序列(SEQ ID NO:39)被纳入以评估与玉蜀黍原生质体中这些元
件相比的玉蜀黍EME2序列变异。通过从序列的每个端顺序去除碱基,创建了一系列大小在
16bp至8bp的EME2序列(SEQ ID NO:4、SEQ ID NO:5、SEQ ID 35、SEQ ID NO:37和SEQ ID NO:38)。通过ZmGOS2启动子的侧翼碱基产生13bp变异,接下来12bp变异重建原始EME2的
13bp序列。如先前所述,将每个EME2变异插入ZmGOS2启动子中TSS的-50位置处。在16bp(SEQ ID NO:4)至14bp(SEQ ID NO:5)长度内的元件EME2显著改变表达(表5A),而其他序列13bp
或更小的EME2序列导致定量的表达水平无显著变化或显著下降。在这些结果之后,通过创
建从16bp到11bp大小的变异来对调节元件进行系统剖析。通过首先从5’端去除碱基从而产
生大小在15bp到14bp的元件来产生变异;通过从3’端去除碱基从而产生与5’系列相同的元
件范围来创建第二系列。通过从EME2的每个端去除核苷酸来产生小于14bp的变异。例如,通
过从5’端去除3个核苷酸和从3’端去除2个核苷酸来创建11bp元件(SEQ ID NO:62)。将每个缩短的EME2序列插入在表达盒(其含有高粱内含子、报道基因(例如,ZsGreen)和高粱γ
kafarin(GKAF)终止子)中的先前所述的ZmGOS2启动子中TSS的-50位置处,并在玉蜀黍叶原
生质体中进行了测试。评估了侧翼于EME变异的玉蜀黍GOS2启动子序列,以确保相邻碱基不
会重建更长的EME版本或类似于16bp ocs增强子序列(SEQ ID NO:47)的序列。在13bp截短
的变异的情况下,一个EME2(SEQ ID 36)显示了表达的显著增加,而其他13bp变异(SEQ ID 
35)导致相比对照显著更低的表达(表5B)。基于这些实验,13-bp EME2序列(SEQ ID NO:36)
是经测试足以调控玉蜀黍中荧光的更小的片段序列。
[0226] 与表5A中其他测试的序列相比,将截短的14bp EME2(SEQ ID NO:5)插入ZmGOS2启动子中TSS的-50处显著增加植物细胞中的基因表达。该变体的侧翼序列具有“T”作为侧翼
序列,所述侧翼序列在该EME2元件的3’末端产生ACGT。因此,如上所述类似地创建一系列构建体,其中在ZmGOS2启动子的TSS上游50bp位置处的15bp EME2的侧翼序列(SEQ ID NO:33)
立即变为“A”或“G”。将这两个变异与“T”相比,后者重建ocs增强子(SEQ IDNO:30)和初始EME216bp序列(SEQ ID NO:4)(其中“C”位于该位置处)。ANOVA显示每次比较的表达中都存
在显著差异(表6)。ocs增强子导致报道基因表达的更大的增加,随后是初始16bp EME2和最
后的碱基位置为“A”的EME,而最后的碱基为“G”导致最低的表达水平。这些结果表明,可以通过改变16bp EME2序列的最后的碱基来调控表达水平。
[0227] 表6:修饰EME2的最后的碱基对基因表达的效应
[0228] SEQ ID 类别 最后的碱基 平均值 显著性分组30 OCS ENH T 6.836 a
4 EME2 C 5.987 b
67 EME2 A 5.146 c
68 EME2 G 3.569 d
[0229] 采用与针对EME2所述类似的方法来确定影响玉蜀黍原生质体表达水平的较短片段EME1序列。将这些EME1变异插入先前所述的表达盒中ZmGOS2启动子中TSS的-50位置处。
AS-1(21bp增强子序列(SEQ ID NO:39))被纳入以评估与玉蜀黍原生质体中的该元件相比
的玉蜀黍EME1序列变异的程度。当与对照(不含EME序列)相比时,ANOVA显示每种EME1变异
显著增加表达(表7)。ocs增强子(SEQ ID:39)在玉蜀黍原生质体中报道基因的表达增加最
大。这些结果表明通过修饰EME的大小(长度),可以调控表达水平。
[0230] 表7:截短的EME1变体对基因表达的效应
[0231]
[0232] 实例6
[0233] 测试的EME的序列变异的效应
[0234] 测试EME2的几种序列变异以确定针对调控基因表达的序列变异效应。表8中显示了针对CaMV35S最小启动子的表达调控而评估的表示为SEQ ID NO:9-19的2X EME2序列变
异的数据。
[0235] 表8:序列变异和EME表达调控
[0236]
[0237] 在测试EME2序列的不同大小的变体后,在14bp EME2序列(SEQ ID NO:5)中碱基位置7和/或碱基位置8(SEQ ID NO:9-19)中进行了一系列修饰。这些变化中的一些在维持回
文序列(SEQ ID NO:12、SEQ ID NO:18和SEQ ID NO:19)的同时改变了这2个位置的核苷酸。
将这些序列变体作为2个拷贝的变体EME2进行测试,所述变体位于先前所述的表达盒(其含
有报道基因和高粱GKAF终止子)中CaMV 35S最小启动子的上游。在玉蜀黍原生质体测定中,
EME序列变体中的每一个均显示报道基因荧光相比对照显著增加,如表8所示。这些结果表
明,基于本文证明的EME的序列变体可用于调控基因表达水平。
[0238] 将增强子(SEQ ID NO:30)用于创建新的一组7个变体,其中两个碱基被系统地改变,同时保持回文序列(SEQ ID NO:20-29)。这些变异被称为“V”系列。例如,碱基1从“A”变为“G”;因此,碱基16从“T”变为“C”,以维持回文序列(SEQ ID NO:20),从而产生15bp版本的EME2(SEQ ID NO:34)。通过在表达盒(其含有高粱内含子、报道基因(例如,ZsGreen)和高粱γkafarin(GKAF)终止子)中ZmGOS2启动子中的TSS的-50位置处插入一个拷贝的变体来测
试这些变体,并然后在玉蜀黍叶原生质体中测定表达水平。测试的变体均未达到类似于
EME2(SEQ ID NO:4)的表达水平(表9);然而它们显示出不同的表达水平。两个变体产生了
显著高于对照的表达水平,所述对照是在ZmGOS2启动子中未插入EME的载体。变体之一是产
生15bp EME2(SEQ ID NO:20)的变体,而另一个变体将碱基7从“G”变为“T”,并将碱基10从“C”变为“A”(SEQ ID NO:26)。碱基3从“G”变为“T”并且碱基14从“C”变为“A”(SEQ ID NO:
22)导致表达水平显著低于对照或测试的其他变体(包括随机回文序列(SEQ ID NO:27)),
所述对照或测试的其他变体被纳入以评估插入回文序列是否会产生效应。消除这些EME中
观察到的表达水平增加的核苷酸变化为哪些碱基在这些元件中对于增加表达水平而言是
至关重要的提供了见解。
[0239] 表9:与不含这些变异的对照相比,“V”系列表达调控系列及其对表达水平的效应。
[0240]
[0241] 实例7
[0242] 测试的EME的位置效应
[0243] 测试了EME的几种构型,以确定针对调控基因表达的位置(location/position)效应。下表10显示了表示为1X EME2和4X EME1的EME的数据。
[0244] 表10:EME和关于转录起始位点的位置效应
[0245]
[0246]
[0247] 为确定如果将EME1或EME2序列(SEQ ID NO:1和SEQ ID NO:4)插入相对于TSS的各种位置,这些序列是否可以改变表达水平,如图1所示制备了一系列表达构建体。该表达盒
包含ZmGOS2启动子以及高粱UBI内含子、报道基因和高粱GKAF终止子。用4个拷贝的EME1
(SEQ ID NO:1)或1个拷贝的EME2(SEQ ID NO:5)测试多达七个不同的位置:位点1:TATA盒
上游的-520;位点2:TATA上游的-20;位点3:高粱UBI内含子上游的5’UTR;位点4:高粱UBI内含子中的插入;位点5:高粱UBI内含子下游的5’UTR;位点6:3’UTR内的插入;以及位点7:转录物外的高粱GKAF终止子的3’UTR。如表10所示,每个构建体在玉蜀黍原生质体的报道基因
表达中均表现出显著变化。当EME1序列插入启动子区时,报道基因的表达水平显著增加,而
在表达盒内的其他5个位置的插入导致报道基因表达的显著减少。当将EME2(SEQ ID NO:5)
插入启动子内、高粱内含子内或高粱内含子后的5’UTR区域的位置中时,观察到基因表达的
显著增加。然而,当将EME2插入高粱内含子之前的5’UTR区域或高粱GKAF终止子内的位置中
时,得出结论是报道基因表达显著增加。表达盒内的任一EME的位置有助于使用这些序列进
行基因表达调控。
[0248] 实例8
[0249] 在转化的玉蜀黍植物中EME的基因表达调控
[0250] 在稳定转化的玉蜀黍植物中验证了在玉蜀黍原生质体测定中评估的表达盒。制备用于农杆菌介导的玉蜀黍转化的适合的构建体,从而导致玉蜀黍基因组内T-DNA的随机插
入。从T0幼苗中采集叶样品,以确定整合在植物基因组中T-DNA的右边界和左边界内不同元
件的拷贝数。仅选择被确定为这些多元件的单拷贝的植物进行表征。从每种被认为是单拷
贝事件的植物中采集另一个叶样品,以通过qRTPCR确定相对于参考基因的报道基因(例如,
ZsGreen)的表达水平。当1-3个拷贝的EME2(SEQ ID NO:3)在ZmGOS2启动子中的TATA盒(或
相对于TSS的-50)上游-20位置处克隆时,当与不含EME2序列的对照载体相比时,在T0叶中
确定表达的变化(2.3-25.8中值相比对照的0.47,图2)。与在玉蜀黍原生质体中观察到的相
似,单拷贝EME2足以比对照更增加报道基因的表达,而另外拷贝的EME2则导致报道基因的
表达水平高于单拷贝EME2。在这些T0转基因植物中,以与针对EME2所述类似的方式评估
EME1。当1-4个拷贝的EME1存在于ZmGOS2启动子中时,定量的相对基因表达值增加超过对照
载体的值(图3)。因此,与原生质体测定一致,这些qRTPCR结果证明,EME可以增加在整个植
物水平上多核苷酸的表达水平,其中已稳定掺入重组DNA构建体。这种稳定整合的基因表达
调控进一步支持以下见解:用位点特异性变化来修饰内源基因组基因座以创建如本文所述
的EME或插入1X、2X、3X或4X拷贝的植物来源的EME预期能调控基因表达。
[0251] 使针对这些构建体(除了1个拷贝的EME1)的T1植物生长,以确认在T0实验中获得的结果。在该实验中,使每个事件中多达16株植物生长(种植两至三个事件/构建体),并在
温室中进行评估。除了不同数量的EME拷贝和不含EME的对照,含有玉蜀黍泛素(UBI)启动子
与驱动报道基因(例如,ZsGreen)的玉蜀黍泛素内含子的转基因植物作为阳性对照纳入,因
为该启动子得到良好表征,并且其表达水平在所评估的根和叶组织中均被认为是高的。玉
蜀黍GOS2启动子在表达水平的强度上是玉蜀黍UBI启动子的约25%。在三个不同的发育阶
段(V6、V8和V12)对叶组织进行采样,而仅在V12采集根样品。对于叶样品,针对mRNA和蛋白
质表达两者评估了报道基因,而在根样品中仅评估了报道基因的mRNA表达。在所有三个发
育阶段中,叶样品的mRNA和蛋白质数据均呈正相关,并且在p<0.0001时,相关性是统计学
显著的(皮尔森(Pearson)线性相关)。对于V6、V8和V12阶段,当与不含EME序列的玉蜀黍
GOS2启动子对照相比,具有包含1X至3X EME2的构建体的植物在叶中表现出显著增加的表
达(图5)。当将2X或3X EME2插入玉蜀黍GOS2启动子时,表达水平显著高于玉蜀黍泛素启动
子所实现的表达水平(表11)。然而,含有2X至4X EME1的植物在叶中未表现与EME2相当水平
的报道基因的表达。含有2X至4X拷贝的EME1的植物在V6叶组织中显示出表达显著增加。除
了V6阶段,植物叶中含有2X至4X个拷贝的EME1的表达水平未导致更高的表达水平。与叶组
织相比,在根组织中EME1对表达具有更大效应(图6)。在根组织中,如前所述在玉蜀黍GOS2
启动子中插入的2X至4X个拷贝的EME1和1X至3X个拷贝的EME2显著增加了报道基因表达(表
12)。在另一个变异中,2X或3X个拷贝的EME2将玉蜀黍GOS2启动子的表达强度增加至如下水
平,所述水平显著高于由含有玉蜀黍UBI内含子的玉蜀黍UBI启动子所实现的表达水平。另
外,mRNA和蛋白质数据在所有三个发育阶段均呈正相关,并且所述相关在p<0.0001时是统
计学显著的。
[0252] 表11:在T1植物中,V12阶段叶组织中的ZsGreen表达水平
[0253]
[0254] 表12:在T1植物中,V12阶段根组织中的ZsGreen表达水平
[0255]
[0256]
[0257] 在T0转基因植物中用4个拷贝的EME1(SEQ ID NO:1)测试六个不同的位置:位点1:TSS上游的-550;位点2:TSS上游的-50;位点3:高粱UBI内含子之前的5’UTR;位点4:高粱UBI内含子中的插入;位点5:高粱UBI内含子之后的5’UTR;以及位点6:3’UTR的转录物内的插入。使用qRTPCR,对来自确定含有单拷贝的适合表达盒的植物的叶样品进行评估。类似于原
生质体数据,当将4X EME1插入ZmGOS2启动子(图4)中的位点2处时评估最高表达,导致中值
从0.47(不含EME的对照)增加到3.56。因此,与原生质体测定一致,这些qRTPCR结果证明,
EME可以在整个植物水平上增加多核苷酸的表达水平。
[0258] 实例9
[0259] 通过基因组编辑的内源基因表达修饰
[0260] 在一个实施例中,可以通过使用双链断裂诱导剂(例如指导Cas9内切核酸酶)的基因组编辑,将SEQ ID NO:1-68中列出的调节元件或其片段或其变体、以及包含所述序列的
组合物与内源基因可操作地连接来插入。基于遗传基因座序列信息的可用性,将指导RNA设
计为靶向特定内源基因。例如,参与改善玉蜀黍植物的农艺学特征的玉蜀黍基因是合适的
靶标。
[0261] 在一个实施例中,在内源多核苷酸中,以位点特异性方式产生SEQ ID NO:1-68中列出的调节元件或其片段或其变体的特异性点突变、插入或缺失,以引入或去除本文所述
的表达调控元件。例如,通过使用双链断裂诱导剂(例如指导Cas9内切核酸酶)的基因组编
辑,4-5个点突变可以在参与产率增加或耐旱性的内源基因中重建SEQ ID NO:1。基于遗传
基因座序列信息的可用性,将指导RNA设计为靶向特定内源基因。
[0262] 指导的Cas9内切核酸酶来源于作为最近描述的DNA基因座的家族的CRISPR基因座(规律间隔成簇短回文重复序列)(也称SPIDR--间隔区散在同向重复序列)。CRISPR基因座
的特征在于部分回文的短而高度保守的DNA重复序列(典型地为24至40bp,重复从1至140
次,也称为CRISPR重复序列)。
[0263] Cas内切核酸酶涉及由Cas基因编码的Cas蛋白质,其中所述Cas蛋白质能够将双链断裂引入DNA靶序列中。Cas内切核酸酶由指导多核苷酸指导以识别并任选地在特异性靶位
点向细胞基因组中引入双链断裂(美国申请公开号2015/0082478)。指导多核苷酸/Cas内切
核酸酶系统包括能够将双链断裂引入DNA靶序列的Cas内切核酸酶和指导多核苷酸的复合
物。如果正确的前间区序列邻近基序(PAM)在靶序列的3’端适当地定向时,Cas内切核酸酶
在基因组靶位点附近极为贴近处解开DNA双链体,并且在通过指导RNA识别靶序列时切割两
条DNA链。
[0264] 在一个实施例中,所述方法包括通过引入本文中与内源基因可操作连接的调节元件来修饰细胞中内源基因的表达。可以使用任何基因组编辑技术(包括但不限于使用双链
断裂诱导剂,例如指导Cas9/CRISPR系统、锌指核酸酶、TALEN)引入与内源基因可操作地连
接的调节元件。参见Ma等人(2014),Scientific Reports[科学报告],4:4489;Daimon等人(2013),Development,Growth,andDifferentiation[发育,生长和分化],56(1):14-25;以及Eggleston等人(2001)BMC Genetics[BMC遗传学],2:11。
[0265] 实例10
[0266] 内源基因表达调控的启动子缺失实验
[0267] 用于鉴定控制启动子表达能力的特征的基序的一种标准方法涉及产生驱动报道基因标志(例如GUS、GFP、萤光素酶、或任何其他合适的荧光蛋白)的一系列序列的截短或缺
失。一个典型的方法是从缺失序列开始,在5’端处开始去除约10%的启动子序列。定量每个截短的标志基因的表达,并观察表达水平的变化。一旦在没有效应的截短和有效应的截短
之间进行了区分,就可以进行缺失序列以进一步弄清楚哪些精确序列对表达水平有影响。
[0268] 例如,如果2kb启动子序列是起始启动序列,具有长度为2kb-1kb的序列显示出一些相同的表达水平,通常预期在测试的组织中没有影响表达的显著基序存在于大多数5’
1kb序列中。如果发现0.4kb以下的截短丧失了全部功能,则确定用于表达的最小启动子为
约0.4kb。然后,创建缺失系列,其中从剩余1kb内顺序地以逐步的方式去除一个100bp的区
域,直到创建了缺失系列,在所述缺失系列中“最小启动子”上游的剩余1KB序列的每个区域已被去除,供测试使用。因此,例如,以与之前相同的方式,构建全部具有长度为约0.9kb
(0.4kb的最小启动子+0.5kb的上游区域)的5个新的缺失系列,供测试使用。
[0269] 可以通过合适植物的稳定转化、通过瞬时表达分析或在分离的原生质体中,对这些缺失系列进行测试。
[0270] 实例11
[0271] 双子叶植物中EME的基因表达调控
[0272] 创建基于T-DNA的二元构建体,所述构建体含有驱动报道基因(例如β-葡糖酸酶(glucoronidase),通常被称为GUS)表达的最小CaMV 35S最小启动子上游的1至3个拷贝的
EME1(SEQ ID NO:17)或EME2(SEQ ID NO:4)。除了含有EME序列的构建体,还转化了两个对
照构建体。一个构建体仅具有驱动报道基因(例如GUS)的最小启动子。期望在处理组织时将
不会观察到报道基因的表达。其他构建体充当阳性对照,因为它包含CaMV 35S启动子及其
驱动报道基因的增强子序列。期望在幼苗的叶和根组织中都观察到报道基因的表达。使用
农杆菌转化拟南芥植物,并然后使用除草剂选择阳性转化体。处理转基因幼苗以评估报道
基因(GUS)的表达。如所期望的,包含最小CaMV35S启动子的植物未显示GUS表达,而阳性对
照植物在根和叶组织中均显示蓝色染色。包含在CaMV 35S最小启动子上游的1至3个拷贝的
EME1的转基因植物主要在根组织中表现出GUS表达。在含有2或3个拷贝的EME1的构建体的
植物中,在叶组织边缘附近也观察到了一些GUS表达。当3个拷贝的EME2存在于最小启动子
的上游时,观察到最强的报道基因表达。在根和叶组织中均观察到GUS染色模式,并且在视
觉上与针对阳性对照观察到的模式相似。因此,在双子叶植物中EME1和EME2均增加基因表
达。
[0273] 除了拟南芥之外,在分离的大豆组织中对包含最小CaMV 35S启动子上游的1至3个拷贝的EME2的这些构建体进行评估。与拟南芥相似,当2X或3X EME2存在于该最小启动子的
上游时,检测蛋白质表达。除了引入CaMV 35S最小启动子外,还通过改变核苷酸以重建EME2
序列(SEQ ID NO:4)将1X至3X EME2引入大豆启动子中,其中当存在多个拷贝的EME2时,天
然启动子序列将EME分开。在具有含EME2的构建体的组织中检测到蛋白质表达的增加。制备
具有两个拷贝的EME2的另一个构建体,在两个拷贝之间没有任何另外的碱基。一个拷贝具
有SEQ ID NO:33,并且另一个拷贝具有SEQ ID NO:4。将该序列组合插入到TSS上游的约-50处,并如本测定所测试的,导致蛋白质表达增加最多。因此,使用本文所述的EME,将多个拷贝的EME2分离的核苷酸对于修饰植物细胞中的基因表达不是必需的。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈