RNA指导的核酸修饰酶及其使用方法专利检索-蠕虫病畜牧业专利检索查询-专利查询网

RNA指导的核酸修饰酶及其使用方法

阅读：905发布：2020-05-15

专利汇可以提供RNA指导的核酸修饰酶及其使用方法专利检索，专利查询，专利分析的服务。并且本公开提供CasY蛋白、编码所述CasY蛋白的核酸，以及包含所述CasY蛋白和/或编码所述CasY蛋白的核酸的经修饰的宿主细胞。CasY蛋白可用于提供的各种应用中。本公开提供与所述CasY蛋白结合并提供针对所述CasY蛋白的序列特异性的CasY指导RNA，编码所述CasY指导RNA的核酸，以及包含所述CasY指导RNA和/或编码所述CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。，下面是RNA指导的核酸修饰酶及其使用方法专利的具体信息内容。

权利要求

1.一种组合物，其包含：
a)CasY多肽或编码所述CasY多肽的核酸分子；以及
b)CasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子。
2.如权利要求1所述的组合物，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50％或更高的同一性的氨基酸序列。
3.如权利要求1或权利要求2所述的组合物，其中所述CasY指导RNA包含与SEQ ID NO:
11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。
4.如权利要求1或权利要求2所述的组合物，其中所述CasY多肽与NLS序列融合。
5.如权利要求1-4中任一项所述的组合物，其中所述组合物包含脂质。
6.如权利要求1-4中任一项所述的组合物，其中a)和b)在脂质体内。
7.如权利要求1-4中任一项所述的组合物，其中a)和b)在颗粒内。
8.如权利要求1-7中任一项所述的组合物，其包含以下中的一种或多种：缓冲液、核酸酶抑制剂和蛋白酶抑制剂。
9.如权利要求1-8中任一项所述的组合物，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85％或更高的同一性的氨基酸序列。
10.如权利要求1-9中任一项所述的组合物，其中所述CasY多肽是切口酶，其仅能切割双链靶核酸分子的一条链。
11.如权利要求1-9中任一项所述的组合物，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
12.如权利要求10或权利要求11所述的组合物，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。
13.如权利要求1-12中任一项所述的组合物，其还包含DNA供体模板。
14.一种CasY融合多肽，其包含：与异源多肽融合的CasY多肽。
15.如权利要求14所述的CasY融合多肽，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50％或更高的同一性的氨基酸序列。
16.如权利要求14所述的CasY融合多肽，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85％或更高的同一性的氨基酸序列。
17.如权利要求14-16中任一项所述的CasY融合多肽，其中所述CasY多肽是切口酶，其仅能切割双链靶核酸分子的一条链。
18.如权利要求14-17中任一项所述的CasY融合多肽，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
19.如权利要求17或权利要求18所述的CasY融合多肽，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。
20.如权利要求14-19中任一项所述的CasY融合多肽，其中所述异源多肽与所述CasY多肽的N末端和/或C末端融合。
21.如权利要求14-20中任一项所述的CasY融合多肽，其包含NLS。
22.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是靶向多肽，其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。
23.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽表现出修饰靶DNA的酶活性。
24.如权利要求23所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
25.如权利要求24所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
26.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
27.如权利要求26所述的CasY融合多肽，其中所述异源多肽表现出组蛋白修饰活性。
28.如权利要求26或权利要求27所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。
29.如权利要求28所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
30.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是内体逃逸多肽。
31.如权利要求30所述的CasY融合多肽，其中所述内体逃逸多肽包含选自以下的氨基酸序列：GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:
95)，其中每个X独立地选自赖氨酸、组氨酸和精氨酸。
32.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是叶绿体转运肽。
33.如权利要求32所述的CasY融合多肽，其中所述叶绿体转运肽包含选自以下的氨基酸序列：MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:
87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAA(SEQ ID NO:92)，和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:93)。
34.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是增加或减少转录的蛋白质。
35.如权利要求34所述的CasY融合多肽，其中所述异源多肽是转录阻遏物结构域。
36.如权利要求34所述CasY融合多肽，其中所述异源多肽是转录激活结构域。
37.如权利要求14-21中任一项所述的CasY融合多肽，其中所述异源多肽是蛋白质结合结构域。
38.一种核酸分子，其编码如权利要求14-37中任一项所述的CasY融合多肽。
39.如权利要求38所述的核酸分子，其中编码所述CasY融合多肽的所述核苷酸序列可操作地连接到启动子。
40.如权利要求39所述的核酸分子，其中所述启动子在真核细胞中是功能性的。
41.如权利要求40所述的核酸分子，其中所述启动子在以下中的一种或多种中是功能性的：植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
42.如权利要求39-41中任一项所述的核酸分子，其中所述启动子是以下中的一种或多种：组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
43.如权利要求38-42中任一项所述的核酸分子，其中所述DNA分子是重组表达载体。
44.如权利要求43所述的核酸分子，其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
45.如权利要求39所述的核酸分子，其中所述启动子在原核细胞中是功能性的。
46.如权利要求38所述的核酸分子，其中所述核酸分子是mRNA。
47.一种或多种核酸分子，其编码：
(a)CasY指导RNA；以及
(b)CasY多肽。
48.如权利要求47所述的一种或多种核酸分子，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50％或更高的同一性的氨基酸序列。
49.如权利要求47所述的一种或多种核酸分子，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85％或更高的同一性的氨基酸序列。
50.如权利要求47-49中任一项所述的一种或多种核酸分子，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。
51.如权利要求47-50中任一项所述的一种或多种核酸分子，其中所述CasY多肽与NLS序列融合。
52.如权利要求47-51中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子包含编码所述CasY指导RNA的核苷酸序列，所述核苷酸序列可操作地连接到启动子。
53.如权利要求47-52中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子包含编码所述CasY多肽的核苷酸序列，所述核苷酸序列可操作地连接到启动子。
54.如权利要求52或权利要求53所述的一种或多种核酸分子，其中可操作地连接到编码所述CasY指导RNA的所述核苷酸序列的所述启动子和/或可操作地连接到编码所述CasY多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。
55.如权利要求54所述的一种或多种核酸分子，其中所述启动子在以下中的一种或多种中是功能性的：植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
56.如权利要求53-55中任一项所述的一种或多种核酸分子，其中所述启动子是以下中的一种或多种：组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
57.如权利要求47-56中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子是一种或多种重组表达载体。
58.如权利要求57所述的一种或多种核酸分子，其中所述一种或多种重组表达载体选自：一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
59.如权利要求53所述的一种或多种核酸分子，其中所述启动子在原核细胞中是功能性的。
60.一种真核细胞，其包含以下中的一种或多种：
a)CasY多肽或编码所述CasY多肽的核酸分子，
b)CasY融合多肽或编码所述CasY融合多肽的核酸分子，以及
c)CasY指导RNA或编码所述CasY指导RNA的核酸分子。
61.如权利要求60所述的真核细胞，其包含编码所述CasY多肽的核酸分子，其中所述核酸分子整合到所述细胞的基因组DNA中。
62.如权利要求60或权利要求61所述的真核细胞，其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
63.一种细胞，其包含CasY融合多肽或编码所述CasY融合多肽的核酸分子。
64.如权利要求63所述的细胞，其中所述细胞是原核细胞。
65.如权利要求63或权利要求64所述的细胞，其包含编码所述CasY融合多肽的核酸分子，其中所述核酸分子整合到所述细胞的基因组DNA中。
66.一种修饰靶核酸的方法，所述方法包括使所述靶核酸与以下物质接触：
a)CasY多肽；以及
b)CasY指导RNA，其包含与所述靶核酸的靶序列杂交的指导序列，
其中所述接触导致通过所述CasY多肽对所述靶核酸的修饰。
67.如权利要求66所述的方法，其中所述修饰是对所述靶核酸的切割。
68.如权利要求66或权利要求67所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
69.如权利要求66-68中任一项所述的方法，其中所述接触在体外在细胞外部发生。
70.如权利要求66-68中任一项所述的方法，其中所述接触在培养物中在细胞内部发生。
71.如权利要求66-68中任一项所述的方法，其中所述接触在体内在细胞内部发生。
72.如权利要求70或权利要求71所述的方法，其中所述细胞是真核细胞。
73.如权利要求72所述的方法，其中所述细胞选自：植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
74.如权利要求70或权利要求71所述的方法，其中所述细胞是原核细胞。
75.如权利要求66-74中任一项所述的方法，其中所述接触导致基因组编辑。
76.如权利要求66-75中任一项所述的方法，其中所述接触包括：将以下物质引入细胞中：(a)所述CasY多肽或编码所述CasY多肽的核酸分子，以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。
77.如权利要求76所述的方法，其中所述接触还包括：将DNA供体模板引入所述细胞中。
78.如权利要求66-77中任一项所述的方法，其中所述CasY指导RNA包含与SEQ ID NO:
11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。
79.如权利要求66-78中任一项所述的方法，其中所述CasY多肽与NLS序列融合。
80.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法，所述方法包括使所述靶核酸与以下物质接触：
a)CasY融合多肽，其包含与异源多肽融合的CasY多肽；以及
b)CasY指导RNA，其包含与所述靶核酸的靶序列杂交的指导序列。
81.如权利要求80所述的方法，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。
82.如权利要求80或权利要求81所述的方法，其中所述CasY融合多肽包含NLS序列。
83.如权利要求80-82中任一项所述的方法，其中所述修饰不是对所述靶核酸的切割。
84.如权利要求80-83中任一项所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
85.如权利要求80-84中任一项所述的方法，其中所述接触在体外在细胞外部发生。
86.如权利要求80-84中任一项所述的方法，其中所述接触在培养物中在细胞内部发生。
87.如权利要求80-84中任一项所述的方法，其中所述接触在体内在细胞内部发生。
88.如权利要求86或权利要求87所述的方法，其中所述细胞是真核细胞。
89.如权利要求88所述的方法，其中所述细胞选自：植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
90.如权利要求86或权利要求87所述的方法，其中所述细胞是原核细胞。
91.如权利要求80-90中任一项所述的方法，其中所述接触包括：将以下物质引入细胞中：(a)所述CasY融合多肽或编码所述CasY融合多肽的核酸分子，以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。
92.如权利要求80-91中任一项所述的方法，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。
93.如权利要求80-92中任一项所述的方法，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。
94.如权利要求80-93中任一项所述的方法，其中所述异源多肽表现出修饰靶DNA的酶活性。
95.如权利要求94所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
96.如权利要求95所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
97.如权利要求80-93中任一项所述的方法，其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
98.如权利要求97所述的方法，其中所述异源多肽表现出组蛋白修饰活性。
99.如权利要求97或权利要求98所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。
100.如权利要求99所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。
101.如权利要求80-93中任一项所述的方法，其中所述异源多肽是增加或减少转录的蛋白质。
102.如权利要求101所述的方法，其中所述异源多肽是转录阻遏物结构域。
103.如权利要求101所述的方法，其中所述异源多肽是转录激活结构域。
104.如权利要求80-93中任一项所述的方法，其中所述异源多肽是蛋白质结合结构域。
105.一种转基因的多细胞非人生物体，其基因组包含转基因，所述转基因包含编码以下中的一种或多种的核苷酸序列：
a)CasY多肽，
b)CasY融合多肽，以及
c)CasY指导RNA。
106.如权利要求105所述的转基因的多细胞非人生物体，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50％或更高的氨基酸序列同一性的氨基酸序列。
107.如权利要求105所述的转基因的多细胞非人生物体，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85％或更高的氨基酸序列同一性的氨基酸序列。
108.如权利要求105-107中任一项所述的转基因的多细胞非人生物体，其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
109.一种系统，其包含：
a)CasY多肽和CasY指导RNA；
b)CasY多肽、CasY指导RNA和DNA供体模板；
c)CasY融合多肽和CasY指导RNA；
d)CasY融合多肽、CasY指导RNA和DNA供体模板；
e)编码CasY多肽的mRNA和CasY指导RNA；
f)编码CasY多肽的mRNA、CasY指导RNA和DNA供体模板；
g)编码CasY融合多肽的mRNA和CasY指导RNA；
h)编码CasY融合多肽的mRNA、CasY指导RNA和DNA供体模板；
i)一种或多种重组表达载体，其包含：i)编码CasY多肽的核苷酸序列，和ii)编码CasY指导RNA的核苷酸序列；
j)一种或多种重组表达载体，其包含：i)编码CasY多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列，和iii)DNA供体模板；
k)一种或多种重组表达载体，其包含：i)编码CasY融合多肽的核苷酸序列，和ii)编码CasY指导RNA的核苷酸序列；以及
l)一种或多种重组表达载体，其包含：i)编码CasY融合多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列，和DNA供体模板。
110.如权利要求109所述的CasY系统，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有50％或更高的氨基酸序列同一性的氨基酸序列。
111.如权利要求109所述的CasY系统，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列具有85％或更高的氨基酸序列同一性的氨基酸序列。
112.如权利要求109-111中任一项所述的CasY系统，其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
113.如权利要求109-111中任一项所述的CasY系统，其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
114.一种试剂盒，其包含如权利要求109-113中任一项所述的CasY系统。
115.如权利要求114所述的试剂盒，其中所述试剂盒的组分在同一容器中。
116.如权利要求114所述的试剂盒，其中所述试剂盒的组分在单独的容器中。
117.一种无菌容器，其包含如权利要求109-116中任一项所述的CasY系统。
118.如权利要求117所述的无菌容器，其中所述容器是注射器。
119.一种可植入装置，其包含如权利要求109-116中任一项所述的CasY系统。
120.如权利要求119所述的可植入装置，其中所述CasY系统在基质内。
121.如权利要求119所述的可植入装置，其中所述CasY系统在储库中。
122.一种鉴定CRISPR RNA指导的内切核酸酶的方法，所述方法包括：
在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列；
检测所述编码Cas1的核苷酸序列附近的CRISPR阵列；
将包含所检测的CRISPR阵列的CRISPR基因座从衍生所述多个宏基因组核苷酸序列的核酸样品克隆到表达载体中以生成重组CRISPR基因座表达载体；
测定所述重组CRISPR基因座表达载体的切割靶核酸的能力，其中具有切割靶核酸的能力的CRISPR基因座包含编码CRISPR RNA指导的内切核酸酶的核苷酸序列。
在所述CRISPR基因座中鉴定编码多肽的开放阅读框，所述多肽与已知的CRISPR RNA指导的内切核酸酶多肽的氨基酸序列具有小于20％的氨基酸序列同一性。
123.如权利要求122所述的方法，其中所述测定包括将所述重组CRISPR基因座表达载体和靶核酸引入细胞中。

说明书全文

RNA指导的核酸修饰酶及其使用方法

[0001] 交叉引用

[0002] 本申请要求2016年9月30日提交的美国临时专利申请号62/402,849的权益，所述申请以引用的方式整体并入本文。

[0003] 以引用的方式并入呈文本文件提供的序列表

[0004] 特此提供2017年9月28日创建的呈文本文件“BERK-343WO_SeqList_ST25.txt”的序列表并且所述序列表具有244KB的大小。文本文件的内容以引用方式整体并入本文。

[0005] 引言

[0006] CRISPR-Cas系统是DNA测序时代之前科学界未知的途径的一个实例，现在被认为赋予细菌和古细菌针对噬菌体和病毒的获得性免疫力。过去十年的密集研究已揭示了此系统的生物化学性。CRISPR-Cas系统由Cas蛋白和CRISPR阵列组成，所述Cas蛋白参与外源DNA或RNA的获取、靶向和切割，所述CRISPR阵列包括将Cas蛋白引导至其靶标的侧接短间隔序列的正向重复序列。第2类CRISPR-Cas是精简型式，其中与RNA结合的单个Cas蛋白负责结合和切割靶向序列。这些最小系统的可编程性质使它们能够用作一种多功能技术，这种技术正在彻底变革基因组操纵领域。

[0007] 当前的CRISPR-Cas技术基于来自培养的细菌的系统，而使得未被分离的绝大多数生物体处于未开发状态。迄今为止，仅发现了少数第2类CRISPR/Cas系统。本领域需要另外的第2类CRISPR/Cas系统(例如，Cas蛋白加指导RNA的组合)。发明内容

[0008] 本公开提供RNA指导的内切核酸酶多肽，在本文中称为“CasY”多肽(也称为“CasY蛋白”)；编码CasY多肽的核酸；以及包含CasY多肽和/或编码CasY多肽的核酸的经修饰的宿主细胞。CasY多肽可用于提供的各种应用中。

[0009] 本公开提供与CasY蛋白结合并提供针对CasY蛋白的序列特异性的指导RNA(在本文中称为“CasY指导RNA”)；编码CasY指导RNA的核酸；以及包含CasY指导RNA和/或编码CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。

[0010] 本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。附图说明

[0011] 图1描绘天然存在的CasY蛋白序列的实例。

[0012] 图2描绘天然存在的CasY蛋白序列的比对。

[0013] 图3(图a至图b)描绘CasY的示意性结构域表示。还示出试图鉴定CasY的同源物的各种检索的结果。还描绘鉴定的含有CasY的CRISPR基因座的部分。

[0014] 图4描绘CasY和C2c3基因座的示意图。干扰蛋白以绿色示出，获取蛋白以红色示出。使用RNA结构折叠的重复序列在右侧示出，揭示在5'末端处的强发夹，从而表明CRISPR阵列通过CasY进行自我加工。

[0015] 图5(图a至图d)描绘为确定CasY的PAM序列而进行的实验(CasY的PAM依赖性质粒干扰)。

[0016] 图6(图a至图b)呈现天然存在的CasY指导RNA的‘重复'序列，以及与靶DNA杂交的示例性CasY指导RNA。(从上到下，SEQ ID NO:11-15和SEQ ID NO:20)

[0017] 图7(图a至图b)呈现来自非培养生物体的新鉴定的CRISPR-Cas系统。a，基于Hug等人的数据，所有细菌和古细菌中具有与没有已分离的代表的主要谱系的比例32。结果突出了这些领域中的大规模尚未研究的生物学。古细菌Cas9和新型CRISPR-CasY仅存在于没有已分离的代表的谱系中。b，新发现的CRISPR-Cas系统的基因座结构。

[0018] 图8(图a至图b)呈现ARMAN-1CRISPR阵列多样性和ARMAN-1Cas9 PAM序列的鉴定。a，由15种不同的AMD样品重建的CRISPR阵列。白色方框表示重复序列，并且有色菱形表示间隔序列(相同的间隔序列颜色相似；独特的间隔序列为黑色)。突出显示阵列的保守区域(右侧)。最近获得的间隔序列(左侧)的多样性表明系统是活跃的。还包括来自读取数据的CRISPR片段的分析在图14中呈现。b，由AMD宏基因组数据重建的单个推定的病毒重叠群含有来自ARMAN-1CRISPR阵列的56个原间隔序列(红色竖直条)。c，序列分析揭示非靶链上的原间隔序列下游的保守‘NGG’PAM基序。

[0019] 图9(图a至图d)呈现示出CasX介导大肠杆菌(E.coli)中的可编程DNA干扰的数据。a，CasX质粒干扰测定图。用含有与CRISPR阵列中的序列匹配的间隔序列的质粒(靶标)或含有非匹配间隔序列的质粒(非靶标)转化表达最小CasX基因座的大肠杆菌。转化之后，对培养物进行铺板并定量菌落形成单位(cfu)。b，表达靶向间隔序列1(sX.1)的浮霉菌门(Planctomycetes)CasX基因座并用指定的靶标转化的大肠杆菌的连续稀释(sX1，CasX间隔序列1；sX2，CasX间隔序列2；NT，非靶标)。c，δ变形菌门(Deltaproteobacteria)CasX的质粒干扰。实验一式三份进行，并且示出平均值±标准差。d，在大肠杆菌中表达的浮霉菌门CasX基因座的PAM缺失测定。与对照文库相比缺失大于30倍的PAM序列用于生成WebLogo。

[0020] 图10(图a至图c)呈现示出CasX是一种双指导的CRISPR复合物的数据。a，环境RNA序列(宏转录组数据)到下图所示的CasX CRISPR基因座的映射(红色箭头，推定的tracrRNA；白色方框，重复序列；绿色菱形，间隔序列)。插图示出第一个重复序列和间隔序列的详细视图。b，CasX双链DNA干扰图。RNA加工的位点用黑色箭头指示。c，使用敲除CasX基因座的推定tracrRNA进行的质粒干扰测定的结果(T，靶标；NT，非靶标)。实验一式三份进行，并且示出平均值±标准差。

[0021] 图11(图a至图c)呈现示出大肠杆菌中CasY基因座的表达足以引起DNA干扰的数据。a，CasY基因座和相邻蛋白质的图。b，相对于对照文库CasY的缺失大于3倍的5′PAM序列的WebLogo。c，表达CasY.1并用含有指示PAM的靶标转化的大肠杆菌的质粒干扰。实验一式三份进行，并且示出平均值±标准差。

[0022] 图12(图a至图b)呈现在已知系统的环境中的新鉴定的CRISPR-Cas。a，通用Cas1蛋白的简化系统发育树。在楔形和分支上记录已知系统的CRISPR类型；新描述的系统以粗体显示。详细的Cas1系统发育在补充数据2中呈现。b，提出的由于II-B型与II-C型基因座之间的重组而产生古细菌II型系统的进化设想。

[0023] 图13呈现来自ARMAN-4的古细菌Cas9存在于具有简并CRISPR阵列的许多重叠群上。来自ARMAN-4的Cas9在16个不同的重叠群上以深红色突出显示。具有推定的结构域或功能的蛋白被标记，而假定蛋白未被标记。所述重叠群中的十五个含有两个简并的正向重复序列(一个bp错配)和一个单一保守间隔序列。剩余的重叠群仅含有一个正向重复序列。与ARMAN-1不同，在ARMAN-4中发现没有另外的Cas蛋白与Cas9相邻。

[0024] 图14呈现ARMAN-1CRISPR阵列的完整重建。包括参考组装序列以及由短DNA读取重建的阵列区段的CRISPR阵列的重建。绿色箭头指示重复序列，并且有色箭头指示CRISPR间隔序列(相同的间隔序列颜色相同，而独特的间隔序列为黑色)。在CRISPR系统中，间隔序列通常是单向添加的，因此左侧的各种各样的间隔序列归因于最近的获得。

[0025] 图15(图a至图b)示出ARMAN-1间隔序列映射到古细菌群落成员的基因组。a，来自ARMAN-1的原间隔序列(红色箭头)映射到ARMAN-2的基因组，所述ARMAN-2是来自同一环境的纳米古细菌。六个原间隔序列独特地映射到侧接两个长末端重复序列(LTR)的基因组的一部分，并且两个另外的原间隔序列在LTR内完美匹配(蓝色和绿色)。此区域可能是转座子，表明ARMAN-1的CRISPR-Cas系统在抑制此元件的可动化中起作用。b，原间隔序列还映射到热源体目(Thermoplasmatales)古细菌(I-plasma)，所述热源体目古细菌是在与ARMAN生物体相同的样品中发现的Richmond Mine 生态系统的另一个成员。原间隔序列在编码短假定蛋白的基因组区域内聚类，表明这也可能代表可动元件。

[0026] 图16(图a至图e)呈现预测的ARMAN-1crRNA和tracrRNA的二级结构。a，CRISPR重复序列和tracrRNA反重复序列以黑色描绘，而间隔序列衍生的序列以一系列绿色N示出。没有明确的终止信号可从基因座预测，因此基于它们的二级结构测试了三种不同的tracrRNA长度-分别为红色、蓝色和粉红色的69、104和179。b，工程化的对应于a中的双指导的单指导RNA。c，在tracrRNA的3'末端有两个不同的发夹(75和122)的ARMAN-4Cas9的双指导。d，工程化的对应于c中的双指导的单指导RNA。e，大肠杆菌体内靶向测定中的测试条件。

[0027] 图17(图a至图b)呈现体外生物化学研究的纯化方案。a，ARMAN-1(AR1)和ARMAN-4(AR4)Cas9在如补充材料中概述的多种条件下进行表达和纯化。在体外测试在蓝色方框中概述的蛋白质的切割活性。b，在10％SDS-PAGE凝胶上分离AR1-Cas9和AR4-Cas9纯化的级分。

[0028] 图18呈现与已知蛋白质相比的新鉴定的CRISPR-Cas系统。基于以下检索的CasX和CasY与已知蛋白质的相似性：(1)针对NCBI的非冗余(NR)蛋白质数据库的Blast检索，(2)针对所有已知蛋白质的HMM数据库的隐马尔科夫模型(HMM)检索和(3)使用HHpred的远同源性检索30。

[0029] 图19(图a至图d)呈现与CasX进行的编程的DNA干扰相关的数据。a，CasX2(浮霉菌门)和CasX1(δ变形菌门)的质粒干扰测定，上接图9图c(sX1，CasX间隔序列1；sX2，CasX间隔序列2；NT，非靶标)。实验一式三份进行，并且示出平均值±标准差。b，表达CasX基因座并用指定靶标转化的大肠杆菌的连续稀释，上接图9图b。c，针对δ变形菌门CasX的PAM缺失测定，以及d，在大肠杆菌中表达的浮霉菌门CasX。与对照文库相比缺失大于指示的PAM缺失值阈值(PDVT)的PAM序列用于生成WebLogo。

[0030] 图20呈现Cas9同源物的进化树。Cas9蛋白的最大似然法系统发育树，示出先前描述的基于系统类型着色的系统：II-A为蓝色，II-B为绿色，并且II-C为紫色。古细菌Cas9与II-C型CRISPR-Cas系统以及来自非培养细菌的两种新描述的细菌Cas9聚类到一起。

[0031] 图21呈现针对来自ARMAN-1和ARMAN-4的Cas9测定的切割条件的表。

[0032] 定义

[0033] 如本文所使用“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如，相对于CasY多肽，异源多肽包含来自除CasY多肽之外的蛋白质的氨基酸序列。在一些情况下，来自一个物种的CasY蛋白的一部分与来自不同物种的CasY蛋白的一部分融合。因此，可认为来自每个物种的CasY序列相对于彼此是异源的。作为另一个实例，CasY蛋白(例如，dCasY蛋白)可与来自非CasY蛋白(例如，组蛋白脱乙酰酶)的活性结构域融合，并且所述活性结构域的序列可被认为是异源多肽(它与CasY蛋白是异源的)。

[0034] 在本文中可互换使用的术语“多核苷酸”和“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核苷酸)的聚合形式。因此，此术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体或包含嘌呤碱基和嘧啶碱基或其他天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。术语“多核苷酸”和“核酸”应理解为包括如可适用于所描述的实施方案的单链(诸如有义链或反义链)和双链多核苷酸。

[0035] 在本文中可互换使用的术语“多肽”、“肽”和“蛋白质”是指具有任何长度的氨基酸的聚合形式，其可包括遗传编码和非遗传编码的氨基酸、化学或生物化学修饰的或衍生的氨基酸以及具有修饰的肽骨架的多肽。所述术语包括：融合蛋白，其包括但不限于具有异源氨基酸序列的融合蛋白，具有异源和同源前导序列、具有或不具有N端甲硫氨酸残基的融合体；免疫标记蛋白；等。

[0036] 如本文所用，适用于核酸、蛋白质、细胞或生物体的术语“天然存在的”是指存在于自然界中的核酸、细胞、蛋白质或生物体。

[0037] 如本文所用，术语“分离的”意在描述处于与多核苷酸、多肽或细胞天然存在的环境不同的环境中的所述多核苷酸、多肽或细胞。分离的遗传修饰的宿主细胞可存在于遗传修饰的宿主细胞的混合群体中。

[0038] 如本文所用，术语“外源核酸”是指在自然界中不是正常或天然存在的核酸和/或不是由给定细菌、生物体或细胞产生的核酸。如本文所用，术语“内源核酸”是指在自然界中正常存在的核酸和/或由给定细菌、生物体或细胞产生的核酸。“内源核酸”也称为“天然核酸”或对于给定细菌、生物体或细胞“天然”的核酸。

[0039] 如本文所用，“重组”意指具体核酸(DNA或RNA)是克隆、限制和/或连接步骤的各种组合的产物，所述步骤产生具有可与天然系统中存在的内源核酸区别开的结构编码序列或非编码序列的构建体。一般而言，编码结构编码序列的DNA序列可由cDNA片段和短寡核苷酸接头或由一系列合成寡核苷酸组装，以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。此类序列可以不被内部非翻译序列或内含子中断的开放阅读框形式提供，所述内部非翻译序列或内含子通常存在于真核基因中。包含相关序列的基因组DNA还可用于重组基因或转录单元的形成中。非翻译DNA的序列可存在于开放读码框的5'端或3'端，其中此类序列不干扰编码区的操作或表达，并且实际上可通过各种机制起到调节所需产物的产生的作用(参见下文的“DNA调节序列”)。

[0040] 因此，例如术语“重组”多核苷酸或“重组”核酸是指非天然存在的多核苷酸或核酸，例如通过人干预由序列的两个另外分开的区段的人工组合制成的多核苷酸或核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段(例如，通过遗传工程化技术)来完成。通常进行这种操作以用编码相同或保守氨基酸的冗余密码子替换密码子，同时通常引入或移除序列识别位点。可替代地，将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段(例如，通过遗传工程化技术)来完成。

[0041] 类似地，术语“重组”多肽是指非天然存在的多肽，例如通过人干预由氨基酸序列的两个另外分开的区段的人工组合制成的多肽。因此，例如，包含异源氨基酸序列的多肽是重组的。

[0042] “构建体”或“载体”意指重组核酸，一般是重组DNA，其是出于表达和/或增殖一个或多个特定核苷酸序列的目的而生成的，或者用于构建其他重组核苷酸序列。

[0043] 在本文中可互换使用的术语“DNA调节序列”、“控制元件”和“调节元件”是指转录和翻译控制序列，诸如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等，所述转录和翻译控制序列在宿主细胞中提供和/或调节编码序列的表达和/或编码的多肽的产生。

[0044] 术语“转化”与“遗传修饰”在本文中可互换使用，并且是指在向细胞中引入新核酸(即，对于所述细胞外源的DNA)之后，在所述细胞中诱导的永久或瞬时的遗传变化。遗传变化(“修饰”)可通过向宿主细胞的基因组中引入新核酸或者通过作为游离基因元件的新核酸的瞬时的或稳定的维持来完成。当细胞为真核细胞时，永久的遗传变化一般通过向所述细胞的基因组中引入新DNA来完成。在原核细胞中，可将永久的变化引入染色体中或通过染色体外元件(诸如质粒和表达载体)引入染色体中，所述染色体外元件可含有一种或多种可选择标记以帮助它们在重组宿主细胞中的维持。遗传修饰的合适方法包括病毒感染、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射等。方法的选择一般取决于待转化的细胞类型和其中发生转化的环境(即体外、离体或体内)。这些方法的一般讨论可见于Ausubel等人,Short Protocols in Molecular Biology,第3版,Wiley&Sons,1995中。

[0045] “可操作地连接”是指其中所述组分处于允许它们以其预期的方式起作用的关系的并置。例如，如果启动子影响编码序列的转录或表达，将启动子可操作地连接至所述编码序列。如本文所用，术语“异源启动子”和“异源控制区”是指通常与自然界中的特定核酸不相关的启动子和其他控制区。例如，“与编码区异源的转录控制区”是通常与自然界中的编码区不相关的转录控制区。

[0046] 如本文所用，“宿主细胞”指代体内或体外真核细胞、原核细胞或作为单细胞实体培养的来自多细胞生物体的细胞(例如，细胞系)，所述真核细胞或原核细胞可用作或已用作核酸(例如，表达载体)的受体，并且包括已通过核酸遗传修饰的原始细胞的子代。应理解由于天然、偶然或有意突变，单细胞的子代可不必在形态或在基因组或总DNA互补序列方面与原始亲本完全相同。“重组宿主细胞”(也称为“遗传修饰的宿主细胞”)是已向其中引入异源核酸(例如，表达载体)的宿主细胞。例如，主题原核宿主细胞是通过将异源核酸引入合适的原核宿主细胞中的遗传修饰的原核宿主细胞(例如，细菌)，所述异源核酸是例如对原核宿主细胞外源(通常在自然界中不存在)的外源核酸或通常在原核宿主细胞中不存在的重组核酸；并且主题真核宿主细胞是通过将异源核酸引入合适的真核宿主细胞中的遗传修饰的真核宿主细胞，所述异源核酸是例如对真核宿主细胞外源的外源核酸或通常在真核宿主细胞中不存在的重组核酸。

[0047] 术语“保守氨基酸取代”是指具有相似侧链的氨基酸残基的蛋白质中的可互换性。例如，具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成；具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成；具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成；具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成；具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成；并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团是：缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。

[0048] 多核苷酸或多肽与另一种多核苷酸或多肽具有一定的“序列同一性”百分比，这意味着当比对时碱基或氨基酸的百分数为相同的，并且当比较两个序列时处于相同的相对位置上。可以许多不同方式确定序列相似性。为了确定序列同一性，可使用包括可通过万维网ncbi.nlm.nih.gov/BLAST获得的BLAST在内的方法和计算机程序来比对序列。参见例如，Altschul等人(1990),J.Mol.Biol.215:403-10。另一种比对算法是FASTA，可从美国威斯康星州麦迪逊市的一家Oxford Molecular Group,Inc.的全资子公司的遗传计算组(GCG)程序包中获得。用于比对的其他技术描述于Methods in Enzymology,第266卷:Computer Methods for Macromolecular Sequence Analysis(1996),Doolittle编,Academic Press,Inc.,Harcourt Brace&Co.的一个部门,San Diego,California,USA。特别感兴趣的是允许序列中存在缺口的比对程序。Smith-Waterman是允许序列比对中存在缺口的一种算法类型。参见Meth.Mol.Biol.70:173-187(1997)。另外，使用Needleman和Wunsch比对方法的GAP程序可用于比对序列。参见J.Mol.Biol.48:443-453(1970)。

[0049] 如本文所用，术语“治疗(treatment、treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言，所述效果可以是预防性的，并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言，所述效果可以是治疗性的。如本文所用，“治疗”覆盖对哺乳动物(例如，人类)的疾病的任何治疗，并且包括：(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生；(b)抑制疾病，即阻止其发展；和(c)缓解疾病，即引起疾病消退。

[0050] 术语“个体”、“受试者”、“宿主”和“患者”在本文中可互换使用，是指个体生物体，例如哺乳动物，包括但不限于鼠类、猿、人类、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。

[0051] 在进一步描述本发明之前，应理解本发明不限于所述的具体实施方案，因此，当然也可有所变化。还应理解，本文所用的术语仅出于描述具体实施方案的目的，并且不意图具有限制性，因为本发明的范围将仅受所附权利要求限制。

[0052] 在提供值的范围的情况下，应理解此范围的上限与下限之间的各介入值(除非上下文另外清楚地指出，否则准确到下限的单位的十分之一)，以及此所述范围内的任何其他所述值或介入值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小的范围内，并且也涵盖在本发明内，从属于所述范围内的任何特定排除的限值。在所述范围包括所述限值中的一个或两个的情况下，排除那些所包括的限值中的任一个或两个的范围也包括在本发明中。

[0053] 除非另外定义，否则本文所用的所有技术和科学术语均具有与本发明所属领域中的普通技术人员通常所理解相同的含义。虽然与本文所述的那些相似或等同的任何方法和材料也可用于实践或测试本发明中，但是现在描述优选的方法和材料。本文提及的所有出版物以引用的方式并入本文，以结合所引用的出版物公开并描述方法和/或材料。

[0054] 必须指出，如在本文和所附权利要求中所用，单数形式“一个(a)/一种(an)”和“所述(the)”包括复数指示物，除非上下文另外清楚地指出。因此，例如，提及“CasY多肽”包括多个此类多肽，并且提及“指导RNA”包括提及本领域的技术人员已知的一种或多种指导RNA及其等效物，等。还应注意，权利要求可拟订成排除任何任选的要素。因而，这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。

[0055] 应理解，出于清晰目的而在单独的实施方案的上下文中所描述的本发明的某些特征也可在单个实施方案中组合提供。相反，为了简明，在单个实施方案的上下文中描述的本发明的各种特征也可分开地或以任一合适的子组合来提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地和明确地公开一样。另外，各种实施方案及其要素的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种此类子组合均单独地和明确地在本文中公开一样。

[0056] 本文中讨论的出版物仅仅提供它们在本申请的提交日期之前的公开内容。本文中的任何内容均不应解释为承认由于先前发明而使本发明无权先于这些出版物。此外，所提供的出版日可能不同于可能需要独立确认的实际出版日期。

具体实施方式

[0057] 本公开提供RNA指导的内切核酸酶多肽，在本文中称为“CasY”多肽(也称为“CasY蛋白”)；编码CasY多肽的核酸；以及包含CasY多肽和/或编码CasY多肽的核酸的经修饰的宿主细胞。CasY多肽可用于提供的各种应用中。

[0058] 本公开提供与CasY蛋白结合并提供针对CasY蛋白的序列特异性的指导RNA(在本文中称为“CasY指导RNA”)；编码CasY指导RNA的核酸；以及包含CasY指导RNA和/或编码CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。

[0059] 本公开提供鉴定CRISPR RNA指导的内切核酸酶的方法。

[0060] 组合物

[0061] CRISPR/CASY蛋白和指导RNA

[0062] CRISPR/Cas内切核酸酶(例如，CasY蛋白)与对应的指导RNA(例如，CasY指导RNA)相互作用(结合)以形成核糖核蛋白(RNP)复合物，其通过指导RNA与靶核酸分子内的靶序列之间的碱基配对来靶向靶核酸中的特定位点。指导RNA包括与靶核酸的序列(靶位点)互补的核苷酸序列(指导序列)。因此，CasY蛋白与CasY指导RNA形成复合物，并且指导RNA通过指导序列为RNP复合物提供序列特异性。复合物的CasY蛋白提供位点特异性活性。换言之，CasY蛋白质由于其与指导RNA的缔合而被指导到靶核酸序列(例如，染色体序列或染色体外序列，例如游离基因序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如，稳定在靶位点)。

[0063] 本公开提供包含CasY多肽(和/或编码CasY多肽的核酸)的组合物(例如，其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)。本公开提供包含CasY指导RNA(和/或编码CasY指导RNA的核酸)的组合物。本公开提供包含以下的组合物：(a)CasY多肽(和/或编码CasY多肽的核酸)(例如，其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)和(b)CasY指导RNA(和/或编码CasY指导RNA的核酸)。本公开提供一种核酸/蛋白质复合物(RNP复合物)，其包含：(a)本公开的CasY多肽(例如，其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)；以及(b)CasY指导RNA。

[0064] CasY蛋白

[0065] CasY多肽(此术语与术语“CasY蛋白”可互换使用)可结合和/或修饰(例如，切割、切口、甲基化、脱甲基化等)靶核酸和/或与靶核酸相关联的多肽(例如，组蛋白尾的甲基化或乙酰化)(例如，在一些情况下，CasY蛋白包括具有活性的融合配偶体，并且在一些情况下，CasY蛋白提供核酸酶活性)。在一些情况下，CasY蛋白是天然存在的蛋白质(例如，天然存在于原核细胞中)。在其他情况下，CasY蛋白不是天然存在的多肽(例如，CasY蛋白是变体CasY蛋白、嵌合蛋白等)。

[0066] 确定给定蛋白质是否与CasY指导RNA相互作用的测定可以是测试蛋白质和核酸之间的结合的任何方便的结合测定。合适的结合测定(例如，凝胶迁移测定)对于本领域的普通技术人员而言是已知的(例如，包括向靶核酸添加CasY指导RNA和蛋白质的测定)。确定蛋白质是否具有活性(例如，确定蛋白质是否具有切割靶核酸的核酸酶活性和/或一些异源活性)的测定可以是任何方便的测定(例如，任何方便的测试核酸切割的核酸切割测定)。合适的测定(例如，切割测定)对于本领域的普通技术人员而言是已知的。

[0067] 天然存在的CasY蛋白起内切核酸酶的作用，其在靶向双链DNA(dsDNA)中的特定序列处催化双链断裂。序列特异性由相关联的指导RNA提供，所述指导RNA与靶DNA内的靶序列杂交。天然存在的CasY指导RNA是crRNA，其中crRNA包含(i)与靶DNA中的靶序列杂交的指导序列和(ii)包含结合CasY蛋白的茎环(发夹–dsRNA双链体)的蛋白质结合区段。

[0068] 在一些实施方案中，主题方法和/或组合物的CasY蛋白是(或衍生自)天然存在的(野生型)蛋白质。天然存在的CasY蛋白的实例描绘于图1中，并且如SEQ ID NO:1-7所示。天然存在的CasY蛋白的实例描绘于图1中，并且如SEQ ID NO:1-8所示。图2中呈现示例性天然存在的CasY蛋白的比对(蛋白质标记为“Y1.”、“Y2.”、“Y3.”等)。7个天然存在的CasY CRISPR基因座的部分DNA 支架(由测序数据组装)如SEQ ID NO:21-27所示。重要的是要注意，与先前鉴定的CRISPR-Cas内切核酸酶相比，这种新发现的蛋白质(CasY)较短，并且因此使用此蛋白质作为替代方案提供编码蛋白质的核苷酸序列相对较短的优点。例如，在其中需要编码CasY蛋白的核酸的情况下，例如在使用病毒载体(例如，AAV载体)的情况下，这可用于递送至诸如真核细胞的细胞(例如，哺乳动物细胞、人细胞、小鼠细胞、体外、离体、体内)用于研究和/或临床应用。本文还指出，携带CasY CRISPR基因座的细菌存在于在低温(例如，10℃-17℃)下采集的环境样品中。因此，预期CasY能够在低温(例如，10℃-14℃、10℃-17℃、10℃-20℃)下良好地起作用(例如，比迄今发现的其他Cas内切核酸酶更好)。

[0069] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、
2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0070] 在一些情况下，CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、
85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:2所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:2所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:2所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0071] 在一些情况下，CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、
85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:3所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:3所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:3所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0072] 在一些情况下，CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、
85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:4所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:4所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:4所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0073] 在一些情况下，CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、
85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:5所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:5所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:5所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0074] 在一些情况下，CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、
85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:6所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:6所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:6所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0075] 在一些情况下，CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、
85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:7所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:7所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:7所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0076] 在一些情况下，CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、
85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:8所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:8所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:8所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0077] 在一些情况下，CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、
85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:9所示的CasY蛋白序列具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:9所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:9所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0078] 在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个具有50％或更高的序列同一性(例如，60％或更高、
70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个具有80％或更高的序列同一性(例如，85％或更高、
90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0079] 在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个具有50％或更高的序列同一性(例如，60％或更高、
70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个具有80％或更高的序列同一性(例如，85％或更高、
90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0080] 在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个具有50％或更高的序列同一性(例如，60％或更高、
70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个具有80％或更高的序列同一性(例如，85％或更高、
90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0081] 在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个具有50％或更高的序列同一性(例如，60％或更高、
70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个具有80％或更高的序列同一性(例如，85％或更高、
90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的氨基酸序列，不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如，1、2或3个氨基酸取代)(例如像，在以下所述的氨基酸位置处)。

[0082] CasY蛋白结构域

[0083] 图3中描绘CasY蛋白的结构域。如在图3的示意图中可看出(氨基酸基于CasY1蛋白(SEQ ID NO:1)编号)，CasY蛋白包含长度大致800-1000个氨基酸(例如，CasY1为约815个并且CasY5为980个)的N末端结构域以及包含3个部分RuvC结构域(RuvC-I、RuvC-II和RuvC-III，在本文中也称为亚结构域)的C末端结构域，所述RuvC结构域相对于CasY蛋白的一级氨基酸序列是不连续的，但在产生蛋白质并折叠时就会形成RuvC结构域。因此，在一些情况下，(主题组合物和/或方法的)CasY蛋白包含长度在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000、或800至950个氨基酸)的具有N末端结构域的氨基酸序列(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)。在一些情况下，(主题组合物和/或方法的)CasY蛋白包含长度在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、
800至1000、或800至950个氨基酸)的氨基酸序列(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，所述氨基酸序列在分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)的N末端。

[0084] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或
100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有
90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或
100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列。

[0085] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸
1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，
95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。
在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-4中的任一个的氨基酸序列的片段。

[0086] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸
1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，
95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。
在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-5中的任一个的氨基酸序列的片段。

[0087] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸
1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，
95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。
在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-7中的任一个的氨基酸序列的片段。

[0088] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸
1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8中的任一个所示的CasY蛋白序列的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，
95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。
在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的SEQ ID NO:1-8中的任一个的氨基酸序列的片段。

[0089] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、
90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、
97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。

[0090] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、
90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、
97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。

[0091] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、
90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、
97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。

[0092] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有80％或更高的序列同一性(例如，85％或更高、
90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有90％或更高的序列同一性(例如，95％或更高、
97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括分开的Ruv C结构域(例如，3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)。

[0093] 在一些实施方案中，(主题组合物和/或方法的)CasY蛋白的分开RuvC结构域包括RuvC-II与RuvC-III亚结构域之间的区域，其大于RuvC-III亚结构域。例如，在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)。在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1)。在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间或者1与1.2之间)。

[0094] 在一些实施方案中(对于主题组合物和/或方法的CasY蛋白)，RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)。例如，在一些情况下，RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)。在一些实施方案中，RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内。

[0095] 在一些情况下(对于主题组合物和/或方法的CasY蛋白)，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1。在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间(例如，1与1.2之间)。

[0096] 在一些情况下(对于主题组合物和/或方法的CasY蛋白)，RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65、68或70个氨基酸)。在一些情况下，RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度。

[0097] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，
1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至
1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-
100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0098] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75％或更高的序列同一性(例如，80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-
110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0099] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85％或更高的序列同一性(例如，90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或
65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0100] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，
1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至
1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-
100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0101] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75％或更高的序列同一性(例如，80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-
110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0102] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85％或更高的序列同一性(例如，90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或
65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0103] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，
1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至
1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-
100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0104] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75％或更高的序列同一性(例如，80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-
110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0105] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85％或更高的序列同一性(例如，90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或
65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0106] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，
1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至
1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-
100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0107] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有75％或更高的序列同一性(例如，80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-
110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0108] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的N末端结构域(例如，图3图a中描绘为CasY1的氨基酸1-812的结构域)具有85％或更高的序列同一性(例如，90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的第一氨基酸序列；以及在第一氨基酸序列的C末端的第二氨基酸序列，其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或
65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0109] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含具有N末端结构域(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)的第一氨基酸序列，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及第二氨基酸序列(在第一氨基酸序列的C末端)，其具有分开的Ruv C结构域(具有3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III)，其中：(i)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大(例如，1.2)；(ii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(iii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.4之间、1与1.3之间、1与1.2之间)；(iv)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小(例如，1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小)；(v)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小(例如，1.4或更小)；(vi)RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2(例如，1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4)的范围内；(vii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1；(viii)RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间(例如，1与1.2之间)；(ix)RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸(例如，长度为至少65个或至少70个氨基酸)；(x)RuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸；
(xi)RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内(例如，在
60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内)的长度；或者(xii)RuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。

[0110] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸
812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1所示的CasY蛋白序列的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-
1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含具有SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的氨基酸序列。

[0111] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

[0112] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

[0113] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

[0114] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。例如，在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)的氨基酸序列。在一些情况下，CasY蛋白包含对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

[0115] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、
60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)。例如，在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至
950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者
800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、
80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至
1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有
80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至
1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸
812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、
775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其具有对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-4所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

[0116] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、
60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)。例如，在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至
950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者
800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、
80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至
1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有
80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至
1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸
812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、
775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其具有对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-5所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

[0117] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、
60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)。例如，在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至
950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者
800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、
80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至
1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有
80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至
1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸
812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、
775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其具有对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-7所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

[0118] 在一些情况下，(主题组合物和/或方法的)CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有20％或更高的序列同一性(例如，30％或更高、40％或更高、50％或更高、
60％或更高、70％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或100％的序列同一性)。例如，在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至
950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者
800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有50％或更高的序列同一性(例如，60％或更高、70％或更高、
80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至
1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸812-1125的结构域)具有
80％或更高的序列同一性(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至
1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其与SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的C末端结构域(例如，图3图a中描绘为CasY1的氨基酸
812-1125的结构域)具有90％或更高的序列同一性(例如，95％或更高、97％或更高、98％或更高、99％或更高或100％的序列同一性)。在一些情况下，CasY蛋白包含第一氨基酸序列(N末端结构域)(例如，不包括任何融合的异源序列，诸如NLS和/或具有催化活性的结构域)，其具有在750至1050个氨基酸范围内(例如，750至1025、750至1000、750至950、775至1050、
775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸)的长度；以及位于第一氨基酸序列的C末端的第二氨基酸序列，其具有对应于SEQ ID NO:1所示的CasY蛋白序列的氨基酸812-1125的SEQ ID NO:1-8所示的CasY蛋白序列中的任一个的氨基酸序列的片段。

[0119] CasY变体

[0120] 当与对应的野生型CasY蛋白的氨基酸序列相比时，变体CasY蛋白具有至少一个氨基酸不同的氨基酸序列(例如，具有缺失、插入、取代、融合)。切割双链靶核酸的一条链但不切割另一条链的CasY蛋白在本文中被称为“切口酶”(例如，“切口酶CasY”)。基本上不具有核酸酶活性的CasY蛋白在本文中被称为死CasY蛋白(“dCasY”)(需要注意的是，核酸酶活性可由异源多肽(融合配偶体)在嵌合CasY蛋白的情况下提供，这在下文更详细地描述)。对于本文所述的任何CasY变体蛋白(例如，切口酶CasY、dCasY、嵌合CasY)，CasY变体可包括具有与上述相同参数(例如，存在的结构域、同一性百分比等)的CasY蛋白序列。

[0121] 变体–催化活性

[0122] 在一些情况下，CasY蛋白是变体CasY蛋白，例如相对于天然存在的催化活性序列突变的蛋白，并且在与对应的天然存在的序列相比时，表现出降低的切割活性(例如，表现出90％或更低、80％或更低、70％或更低、60％或更低、50％或更低、40％或更低或者30％或更低的切割活性)。在一些情况下，这种变体CasY蛋白是催化“死”蛋白(基本上没有切割活性)并且可被称为‘dCasY’。在一些情况下，变体CasY蛋白是切口酶(仅切割双链靶核酸(例如，双链靶DNA)的一条链)。如本文更详细描述的，在一些情况下，CasY蛋白(在一些情况下，是具有野生型切割活性的CasY蛋白质并且在一些情况下，是具有降低的切割活性的变体CasY，例如dCasY或切口酶CasY)与具有感兴趣的活性(例如，感兴趣的催化活性)的异源多肽融合(缀合)以形成融合蛋白(嵌合CasY蛋白)。

[0123] 在根据CasY1(SEQ ID NO:1)编号时，CasY的催化残基包括D828、E914、D1074(对于SEQ ID NO:1，这些残基在图1中用下划线示出)。(参见，例如，图2图a和图b的比对)。

[0124] 因此，在一些情况下，CasY蛋白具有降低的活性，并且一种或多种上述氨基酸(或任何CasY蛋白的一种或多种对应的氨基酸)发生突变(例如，被丙氨酸取代)。在一些情况下，变体CasY蛋白是催化‘死'蛋白(无催化活性)并且被称为‘dCasY'。dCasY蛋白可与提供活性的融合配偶体融合，并且在一些情况下，dCasY(例如，没有提供催化活性的融合配偶体，但在真核细胞中表达时可具有NLS的dCasY)可结合靶DNA并且可阻止RNA聚合酶从靶DNA翻译。在一些情况下，变体CasY蛋白是切口酶(仅切割双链靶核酸(例如，双链靶DNA)的一条链)。

[0125] 变体–嵌合CasY(即，融合蛋白)

[0126] 如上所指出，在一些情况下，CasY蛋白(在一些情况下，是具有野生型切割活性的CasY蛋白质并且在一些情况下，是具有降低的切割活性的变体CasY，例如dCasY或切口酶CasY)与具有感兴趣的活性(例如，感兴趣的催化活性)的异源多肽融合(缀合)以形成融合蛋白(嵌合CasY蛋白)。CasY蛋白可与之融合的异源多肽在本文中被称为“融合配偶体”。

[0127] 在一些情况下，融合配偶体可调节靶DNA的转录(例如，抑制转录、增加转录)。例如，在一些情况下，融合配偶体是抑制转录的蛋白质(或来自蛋白质的结构域)(例如，转录阻遏物，一种通过转录抑制蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等等起作用的蛋白质)。在一些情况下，融合配偶体是增加转录的蛋白质(或来自蛋白质的结构域)(例如，转录激活因子，一种通过转录激活蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等等起作用的蛋白质)。

[0128] 在一些情况下，嵌合CasY蛋白包括具有修饰靶核酸的酶活性(例如，核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)的异源多肽。

[0129] 在一些情况下，嵌合CasY蛋白包括具有修饰与靶核酸相关联的多肽(例如，组蛋白)的酶活性(例如，甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)的异源多肽。

[0130] 可用于增加转录的蛋白质(或其片段)的实例包括但不限于：转录激活因子，诸如VP16、VP64、VP48、VP160、p65亚结构域(例如，来自NFkB)以及EDLL的激活结构域和/或TAL激活结构域(例如，针对植物中的活性)；组蛋白赖氨酸甲基转移酶，诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等；组蛋白赖氨酸脱甲基酶，诸如JHDM2a/b、UTX、JMJD3等；组蛋白乙酰基转移酶，诸如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等；以及DNA脱甲基酶，诸如10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等。

[0131] 可用于减少转录的蛋白质(或其片段)的实例包括但不限于：转录阻遏物，诸如Krüppel相关盒(KRAB或SKD)；KOX1阻遏结构域；Mad mSIN3相互作用结构域(SID)；ERF阻遏物结构域(ERD)、SRDX阻遏结构域(例如，针对植物中的阻遏)等；组蛋白赖氨酸甲基转移酶，诸如Pr-SET7/8、SUV4-20H1、RIZ1等；组蛋白赖氨酸脱甲基酶，诸如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY等；组蛋白赖氨酸脱乙酰酶，诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等；DNA甲基化酶，诸如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等；以及外周募集元件，诸如核纤层蛋白A、核纤层蛋白B等。

[0132] 在一些情况下，融合配偶体具有修饰靶核酸(例如，ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由融合配偶体提供的酶活性的实例包括但不限于：核酸酶活性诸如由限制性酶(例如，FokI核酸酶)提供的活性，甲基转移酶活性诸如由甲基转移酶(例如，HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供的活性；脱甲基酶活性诸如由脱甲基酶(例如，10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等)提供的活性，DNA修复活性，DNA损伤活性，脱氨基活性诸如由脱氨酶(例如，胞嘧啶脱氨酶，诸如大鼠APOBEC1)提供的活性，歧化酶活性，烷基化活性，脱嘌呤活性，氧化活性，嘧啶二聚体形成活性，整合酶活性诸如由整合酶和/或解离酶(例如，Gin转化酶，诸如Gin转化酶的过度活跃突变体，GinH106Y；人类免疫缺陷病毒1型整合酶(IN)；Tn3解离酶等)提供的活性，转座酶活性，重组酶活性诸如由重组酶(例如，Gin重组酶的催化结构域)提供的活性，聚合酶活性，连接酶活性，解旋酶活性，光裂合酶活性和糖基化酶活性)。

[0133] 在一些情况下，融合配偶体具有酶活性，其修饰与靶核酸(例如，ssRNA、dsRNA、ssDNA、dsDNA)相关联的蛋白质(例如，组蛋白、RNA结合蛋白、DNA结合蛋白等)。可由融合配偶体提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于：甲基转移酶活性，诸如由组蛋白甲基转移酶(HMT)(例如，花斑抑制因子3-9同源物1(SUV39H1，也称为KMT1A)、常染色体组蛋白赖氨酸甲基转移酶2(G9A，也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET7/8、SUV4-20H1、EZH2、RIZ1)提供的活性，脱甲基酶活性诸如由组蛋白脱甲基酶(例如，赖氨酸脱甲基酶1A(KDM1A，也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供的活性，乙酰基转移酶活性诸如由组蛋白乙酰基转移酶(例如，人类乙酰基转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HBO1/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核心/片段)提供的活性，脱乙酰酶活性诸如由组蛋白脱乙酰酶(例如，HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供的活性，激酶活性，磷酸酶活性，泛素连接酶活性，去泛素化活性，腺苷酸化活性，脱腺苷酸化活性，SUMO化活性，脱SUMO化活性，核糖基化活性，脱核糖基化活性，豆蔻酰化活性和脱豆蔻酰化活性。

[0134] 合适的融合配偶体的另外的实例是二氢叶酸还原酶(DHFR)去稳定化结构域(例如，以生成化学可控的嵌合CasY蛋白)和叶绿体转运肽。合适的叶绿体转运肽包括但不限于：

[0135] MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKV NTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDI TSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDIT SITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISS SWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPIS SSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANS MLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRT VGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDA TSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLD ITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVK CSAAVTPQASPVISRSAAAA(SEQ ID NO:92)，和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRT VKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:93)。

[0136] 在一些情况下，本公开的CasY融合多肽包含：a)本公开的CasY多肽；和b)叶绿体转运肽。因此，例如，CRISPR-CasY复合物可靶向叶绿体。在一些情况下，这种靶向可通过N末端延伸的存在来实现，所述N末端延伸称为叶绿体转运肽(CTP)或质体转运肽。如果表达的多肽要在植物质体(例如，叶绿体)中区室化，则来自细菌来源的染色体转基因必须具有编码CTP序列的序列，所述CTP序列与编码表达的多肽的序列融合。因此，外源多肽到叶绿体的定位通常通过将编码CTP序列的多核苷酸序列与编码外源多肽的多核苷酸的5’区可操作地连接来实现。在易位到质体的过程中，在加工步骤中去除CTP。然而，加工效率可能受到CTP的氨基酸序列和肽的NH 2末端附近的序列的影响。已经描述的用于靶向叶绿体的其他选择是玉米cab-m7信号序列(美国专利号7,022,896、WO 97/41228)、豌豆谷胱甘肽还原酶信号序列(WO 97/41228)和US2009029861中描述的CTP。

[0137] 在一些情况下，本公开的CasY融合多肽可包含：a)本公开的CasY多肽；和b)内体逃逸肽。在一些情况下，内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)，其中每个X独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下，内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95)。

[0138] 对于在与Cas9蛋白、锌指蛋白和/或TALE蛋白融合的情况(用于位点特异性靶核酸修饰、转录调节和/或靶蛋白修饰，例如，组蛋白修饰)中使用的一些上述融合配偶体(和更多)的实例，参见例如：Nomura等人,J Am Chem Soc.2007年7月18日；129(28):8676-7；Rivenbark等人,Epigenetics.2012年4月；7(4):350-60；Nucleic Acids Res.2016年7月8日；44(12):5615-28；Gilbert等人,Cell.2013年7月18日；154(2):442-51；Kearns等人,Nat Methods.2015年5月；12(5):401-3；Mendenhall等人,Nat Biotechnol.2013年12月；31(12):1133-6；Hilton等人,Nat Biotechnol.2015年5月；33(5):510-7；Gordley等人,Proc Natl Acad Sci U S A.2009年3月31日；106(13):5053-8；Akopian等人,Proc Natl Acad Sci U S A.2003年7月22日；100(15):8688-91；Tan等人,J Virol.2006年2月；80(4):1939-
48；Tan等人,Proc Natl Acad Sci U S A.2003年10月14日；100(21):11997-2002；
Papworth等人,Proc Natl Acad Sci U S A.2003年2月18日；100(4):1621-6；Sanjana等人,Nat Protoc.2012年1月5日；7(1):171-92；Beerli等人,Proc Natl Acad Sci U S A.1998年12月8日；95(25):14628-33；Snowden等人,Curr Biol.2002年12月23日；12(24):
2159-66；Xu等人,Xu等人,Cell Discov.2016年5月3日；2:16009；Komor等人,Nature.2016年4月20日；533(7603):420-4；Chaikind等人,Nucleic Acids Res.2016年8月11日；
Choudhury等人,Oncotarget.2016年6月23日；Du等人,Cold Spring Harb Protoc.2016年1月4日；Pham等人,Methods Mol Biol.2016；1358:43-57；Balboa等人,Stem Cell Reports.2015年9月8日；5(3):448-59；Hara等人,Sci Rep.2015年6月9日；5:11221；Piatek等人,Plant Biotechnol J.2015年5月；13(4):578-89；Hu等人,Nucleic Acids Res.2014年4月；42(7):4375-90；Cheng等人,Cell Res.2013年10月；23(10):1163-71；以及Maeder等人,Nat Methods.2013年10月；10(10):977-9。

[0139] 另外适合的异源多肽包括但不限于直接和/或间接提供靶核酸的增加的转录和/或翻译的多肽(例如，转录激活因子或其片段、募集转录激活因子的蛋白质或其片段、小分子/药物反应性转录和/或翻译调节因子、翻译调节蛋白等)。实现增加或降低的转录的异源多肽的非限制性实例包括转录激活因子结构域和转录阻遏物结构域。在一些此类情况下，嵌合CasY多肽通过指导核酸(指导RNA)靶向靶核酸中的特定位置(即，序列)并且发挥基因座特异性调节的作用，诸如阻断RNA聚合酶与启动子(所述启动子选择性抑制转录激活因子功能)的结合和/或修饰局部染色质状态(例如，在使用融合序列时，修饰靶核酸或修饰与靶核酸相关联的多肽)。在一些情况下，变化是瞬时的(例如，转录阻遏或激活)。在一些情况下，变化是可遗传的(例如，在对靶核酸或与靶核酸相关联的蛋白质(例如，核小体组蛋白)进行表观遗传修饰时)。

[0140] 当靶向ssRNA靶核酸时，使用的异源多肽的非限制性实例包括(但不限于)：剪接因子(例如，RS结构域)；蛋白质翻译组分(例如，翻译起始因子、延伸因子和/或释放因子；例如，eIF4G)；RNA甲基化酶；RNA编辑酶(例如，RNA脱氨酶，例如作用于RNA的腺苷脱氨酶(ADAR)，包括A至I和/或C至U编辑酶)；解旋酶；RNA结合蛋白等。应理解，异源多肽可包括整个蛋白质，或者在一些情况下，可包括蛋白质的片段(例如，功能结构域)。

[0141] 主题嵌合CasY多肽的异源多肽可以是能够与ssRNA(出于本公开的目的，其包括分子内和/或分子间二级结构，例如双链RNA双链体，诸如发夹、茎环等)相互作用的任何结构域，无论是瞬时的还是不可逆的，直接的还是间接的，所述结构域包括但不限于选自由以下组成的组的效应结构域；内切核酸酶(例如RNA酶III、CRR22 DYW结构域、来自诸如SMG5和SMG6的蛋白质的Dicer和PIN(PilT N末端)结构域)；负责刺激RNA切割的蛋白质和蛋白质结构域(例如CPSF、CstF、CFIm和CFIIm)；外切核酸酶(例如XRN-1或外切核酸酶T)；脱腺苷酶(例如HNT3)；负责无义介导的RNA衰变的蛋白质和蛋白质结构域(例如UPF1、UPF2、UPF3、UPF3b、RNP S1、Y14、DEK、REF2和SRm160)；负责稳定RNA的蛋白质和蛋白质结构域(例如PABP)；负责阻遏翻译的蛋白质和蛋白质结构域(例如Ago2和Ago4)；负责刺激翻译的蛋白质和蛋白质结构域(例如Staufen)；负责(例如能够)调节翻译的蛋白质和蛋白质结构域(例如翻译因子，诸如起始因子、延伸因子、释放因子等，例如eIF4G)；负责RNA的聚腺苷酸化的蛋白质和蛋白质结构域(例如PAP1、GLD-2和Star-PAP)；负责RNA的聚尿苷酸化的蛋白质和蛋白质结构域(例如CI D1和末端尿苷酸转移酶)；负责RNA定位的蛋白质和蛋白质结构域(例如来自IMP1、ZBP1、She2p、She3p和Bicaudal-D)；负责RNA的核保留的蛋白质和蛋白质结构域(例如Rrp6)；负责RNA的核输出的蛋白质和蛋白质结构域(例如TAP、NXF1、THO、TREX、REF和Aly)；负责阻遏RNA剪接的蛋白质和蛋白质结构域(例如PTB、Sam68和hnRNP A1)；负责刺激RNA剪接的蛋白质和蛋白质结构域(例如富含丝氨酸/精氨酸(SR)结构域)；负责降低转录效率的蛋白质和蛋白质结构域(例如FUS(TLS))；以及负责刺激转录的蛋白质和蛋白质结构域(例如CDK7和HIV Tat)。可替代地，效应结构域可选自包括以下的组：内切核酸酶；能够刺激RNA切割的蛋白质和蛋白质结构域；外切核酸酶；脱腺苷酶；具有无义介导的RNA衰变活性的蛋白质和蛋白质结构域；能够稳定RNA的蛋白质和蛋白质结构域；能够阻遏翻译的蛋白质和蛋白质结构域；能够刺激翻译的蛋白质和蛋白质结构域；能够调节翻译的蛋白质和蛋白质结构域(例如，翻译因子，诸如起始因子、延伸因子、释放因子等，例如eIF4G)；能够进行RNA的聚腺苷酸化的蛋白质和蛋白质结构域；能够进行RNA的聚尿苷酸化的蛋白质和蛋白质结构域；具有RNA定位活性的蛋白质和蛋白质结构域；能够进行RNA的核保留的蛋白质和蛋白质结构域；具有RNA核输出活性的蛋白质和蛋白质结构域；能够阻遏RNA剪接的蛋白质和蛋白质结构域；能够刺激RNA剪接的蛋白质和蛋白质结构域；能够降低转录效率的蛋白质和蛋白质结构域；以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是PUF RNA结合结构域，其在WO2012068627中更详细地描述，所述文献以引用的方式整体并入本文。

[0142] 可作为嵌合CasY多肽的异源多肽(整体或作为其片段)使用的一些RNA剪接因子具有模块化结构，具有分开的序列特异性RNA结合模块和剪接效应结构域。例如，富含丝氨酸/精氨酸(SR)的蛋白质家族的成员含有N末端RNA识别基序(RRM)，其结合前mRNA和C末端RS结构域中的外显子剪接增强子(ESE)，所述外显子剪接增强子促进外显子包含。作为另一个实例，hnRNP蛋白hnRNP A1通过其RRM结构域与外显子剪接沉默子(ESS)结合，并通过C末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过结合两个替代位点之间的调节序列来调节剪接位点(ss)的替代使用。例如，ASF/SF2可识别ESE并有助于使用内含子近侧位点，而hnRNP A1可结合ESS并将剪接转到使用内含子远侧位点。此类因子的一个应用是生成调节内源基因(特别是疾病相关基因)的替代剪接的ESF。例如，Bcl-x前mRNA产生两种剪接同种型，其具有两个替代的5'剪接位点以编码具有相反功能的蛋白质。长剪接同种型Bcl-xL是在长寿命的有丝分裂后细胞中表达的有效凋亡抑制因子，并且在许多癌细胞中上调，从而保护细胞免于凋亡信号。短同种型Bcl-xS是促凋亡同种型，并且在具有高周转率的细胞(例如，发育中的淋巴细胞)中以高水平表达。两种Bcl-x剪接同种型之比由位于核心外显子区或外显子延伸区(即，两个替代5’剪接位点之间)中的多个元件调节。对于更多实例，参见WO2010075303，其特此以引用的方式整体并入。

[0143] 另外的合适的融合配偶体包括但不限于作为边界元件(例如，CTCF)的蛋白质(或其片段)、提供外周募集的蛋白质及其片段(例如，核纤层蛋白A、核纤层蛋白B等)、蛋白质对接元件(例如，FKBP/FRB、Pil1/Aby1等)。

[0144] 用于主题嵌合CasY多肽的各种另外的合适的异源多肽(或其片段)的实例包括但不限于在以下应用中描述的那些(所述出版物与其他CRISPR内切核酸酶(诸如Cas9)有关，但是描述的融合配偶体也可与CasY一起使用)：美国专利申请：WO2010075303、WO2012068627和WO2013155555，并且可见于例如以下美国专利和专利申请：8,906,616；8,
895,308；8,889,418；8,889,356；8,871,445；8,865,406；8,795,965；8,771,945；8,697,
359；20140068797；20140170753；20140179006；20140179770；20140186843；20140186919；
20140186958；20140189896；20140227787；20140234972；20140242664；20140242699；
20140242700；20140242702；20140248702；20140256046；20140273037；20140273226；
20140273230；20140273231；20140273232；20140273233；20140273234；20140273235；
20140287938；20140295556；20140295557；20140298547；20140304853；20140309487；
20140310828；20140310830；20140315985；20140335063；20140335620；20140342456；
20140342457；20140342458；20140349400；20140349405；20140356867；20140356956；
20140356958；20140356959；20140357523；20140357530；20140364333；和20140377868；所述专利全部特此以引用的方式整体并入。

[0145] 在一些情况下，异源多肽(融合配偶体)提供亚细胞定位，即异源多肽含有亚细胞定位序列(例如，用于靶向细胞核的核定位信号(NLS)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(NES))、将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、ER保留信号等)。在一些实施方案中，CasY融合多肽不包含NLS，使得蛋白质不靶向细胞核(这可能是有利的，例如，在靶核酸是存在于胞质溶胶中的RNA时)。在一些实施方案中，异源多肽可提供便于追踪和/或纯化的标签(即，异源多肽是可检测标记物)(例如，荧光蛋白，例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等；组氨酸标签，例如6XHis标签；血凝素(HA)标签；FLAG标签；Myc标签等)。

[0146] 在一些情况下，CasY蛋白(例如，野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)核定位信号(NLS)(例如，在一些情况下，2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此，在一些情况下，CasY多肽包含一个或多个NLS(例如，2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端和/或C末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)位于C末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(3个或更多个、4个或更多个或者5个或更多个NLS)位于N末端和C末端二者处或附近(例如，在50个氨基酸内)。在一些情况下，NLS位于N末端，并且NLS位于C末端。

[0147] 在一些情况下，CasY蛋白(例如，野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)1与10个之间的NLS(例如，1-9个、1-8个、1-7个、1-6个、1-5个、2-10个、2-9个、2-8个、2-7个、2-6个或2-5个NLS)。在一些情况下，CasY蛋白(例如，野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等)包含(融合到)2与5个之间的NLS(例如，2-4个或2-3个NLS)。

[0148] NLS的非限制性实例包括衍生自以下的NLS序列：SV40病毒大T抗原的NLS，具有氨基酸序列PKKKRKV(SEQ ID NO:96)；来自核质蛋白的NLS(例如，具有序列KRPAATKKAGQAKKKK(SEQ ID NO:97)的核质蛋白二分NLS)；c-myc NLS，具有氨基酸序列PAAKRVKLD(SEQ ID NO:98)或RQRRNELKRSP(SEQ ID NO:99)；hRNPA1 M9 NLS，具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:100)；来自核输入蛋白α(importin-alpha)的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:101)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:102)和PPKKARED(SEQ ID NO:103)；人类p53的序列PQPKKKPL(SEQ ID NO:104)；小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:105)；流感病毒NS1的序列DRLRR(SEQ ID NO:106)和PKQKKRK(SEQ ID NO:107)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:108)；小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:109)；人类聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:110)；以及类固醇激素受体(人类)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:111)。一般来讲，NLS(或多个NLS)具有足够的强度来驱动CasY蛋白在真核细胞的细胞核中以可检测的量积累。可通过任何合适的技术执行细胞核中的积累的检测。例如，可检测标记可与CasY蛋白融合，使得细胞内的位置可被可视化。细胞核也可从细胞中分离，然后可通过任何合适的检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)分析其内容物。也可间接确定细胞核中的积累。

[0149] 在一些情况下，CasY融合多肽包含“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽)，其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜，例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中，PTD与多肽的氨基末端共价连接(例如，与野生型CasY连接以生成融合蛋白，或与变体CasY蛋白(诸如dCasY、切口酶CasY或嵌合CasY蛋白)连接以生成融合蛋白)。在一些实施方案中，PTD与多肽的羧基末端共价连接(例如，与野生型CasY连接以生成融合蛋白，或与变体CasY蛋白(诸如dCasY、切口酶CasY或嵌合CasY蛋白)连接以生成融合蛋白)。在一些情况下，PTD在合适的插入位点处内插在CasY融合多肽中(即，不在CasY融合多肽的N末端或C末端)。在一些情况下，主题CasY融合多肽包含(缀合到、融合到)一个或多个PTD(例如，两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下，PTD包含核定位信号(NLS)(例如，在一些情况下，2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此，在一些情况下，CasY融合多肽包含一个或多个NLS(例如，2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些实施方案中，PTD与核酸(例如，CasY指导核酸、编码CasY指导核酸的多核苷酸、编码CasY融合多肽的多核苷酸、供体多核苷酸等)共价连接。PTD的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR；SEQ ID NO:112的HIV-1TAT的残基47-57)；包含足以引入细胞中的数量的精氨酸(例如，3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列；VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96)；果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes52(7):1732-1737)；截短的人类降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256)；聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008)；RRQRRTSKLMKR(SEQ ID NO:113)；运输蛋白(Transportan)GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:114)；KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:115)；以及RQIKIWFQNRRMKWKK(SEQ ID NO:116)。示例性PTD包括但不限于YGRKKRRQRRR SEQ ID NO:117)、RKKRRQRRR SEQ ID NO:118)；具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物；示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个：YGRKKRRQRRR(SEQ ID NO:119)；RKKRRQRR(SEQ ID NO:120)；
YARAAARQARA(SEQ ID NO:121)；THRLPRRRRRR(SEQ ID NO:122)；以及GGRRARRRRRR(SEQ ID NO:123)。在一些实施方案中，PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月；1(5-6):371-381)。ACPP包括通过可切割接头连接至匹配聚阴离子(例如，Glu9或“E9”)的聚阳离子CPP(例如，Arg9或“R9”)，这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时，释放聚阴离子，局部暴露聚精氨酸和其固有的粘附性，从而“激活”ACPP以横穿膜。

[0150] 接头(例如，用于融合配偶体)

[0151] 在一些实施方案中，主题CasY蛋白可通过接头多肽(例如，一个或多个接头多肽)与融合配偶体融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接，通常具有柔性性质，但不排除其他化学键。合适的接头包括长度在4个氨基酸与40个氨基酸之间或者长度在4个氨基酸与25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸以偶联蛋白质来产生，或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列，应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说，产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为适用。

[0152] 接头多肽的实例包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物(包括例如(GS)n、GSGGSn(SEQ ID NO:124)、GGSGGSn(SEQ ID NO:125)和GGGSn(SEQ ID NO:126)，其中n是至少为1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列，其包括但不限于GGSG(SEQ ID NO:127)、GGSGG(SEQ ID NO:128)、GSGSG(SEQ ID NO:129)、GSGGG(SEQ ID NO:130)、GGGSG(SEQ ID NO:131)、GSSSG(SEQ ID NO:132)等。普通技术人员将认识到，与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头，使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。

[0153] 可检测标记物

[0154] 在一些情况下，本公开的CasY多肽包含可检测标记物。可提供可检测信号的合适的可检测标记物和/或部分可包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。

[0155] 合适的荧光蛋白包括但不限于绿色荧光蛋白(GFP)或其变体、GFP的蓝色荧光变体(BFP)、GFP的青色荧光变体(CFP)、GFP的黄色荧光变体(YFP)、增强型GFP(EGFP)、增强型CFP(ECFP)、增强型YFP(EYFP)、GFPS65T、Emerald、Topaz(TYFP)、Venus、Citrine、mCitrine、GFPuv、去稳定化EGFP(dEGFP)、去稳定化ECFP(dECFP)、去稳定化EYFP(dEYFP)、mCFPm、Cerulean、T-Sapphire、CyPet、YPet、mKO、HcRed、t-HcRed、DsRed、DsRed2、DsRed-单体、J-Red、二聚体2、t-二聚体2(12)、mRFP1、pocilloporin、海肾GFP(Renilla GFP)、Monster GFP、paGFP、Kaede蛋白和点燃蛋白(kindling protein)、藻胆蛋白和藻胆蛋白缀合物(包括B-藻红蛋白、R-藻红蛋白和别藻蓝蛋白)。荧光蛋白的其他实例包括mHoneydew、mBanana、mOrange、dTomato、tdTomato、mTangerine、mStrawberry、mCherry、mGrape1、mRaspberry、mGrape2、mPlum(Shaner等人(2005)Nat.Methods2:905-909)等等。如在例如Matz等人(1999)Nature Biotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。

[0156] 合适的酶包括但不限于辣根过氧化物酶(HRP)、碱性磷酸酶(AP)、β-半乳糖苷酶(GAL)、葡萄糖-6-磷酸脱氢酶、β-N-乙酰氨基葡糖苷酶、β-葡糖醛酸糖苷酶、转化酶、黄嘌呤氧化酶、萤火虫荧光素酶、葡萄糖氧化酶(GO)等。

[0157] 原间隔序列相邻基序(PAM)

[0158] CasY蛋白在由靶向DNA的RNA与靶DNA之间的互补性区域限定的靶序列处与靶DNA结合。与许多CRISPR内切核酸酶的情况一样，双链靶DNA的位点特异性结合(和/或切割)发生在由以下二者确定的位置处：(i)指导RNA与靶DNA之间的碱基配对互补性；和(ii)靶DNA中的短基序[称为原间隔序列相邻基序(PAM)]。

[0159] 在一些实施方案中，CasY蛋白的PAM直接位于靶DNA的非互补链的靶序列的5’端(互补链与指导RNA的指导序列杂交，而非互补链不直接与指导RNA杂交并且是非互补链的反向互补物)。在一些实施方案中(例如，当使用如本文所述的CasY1时)，非互补链的PAM序列为5’-TA-3’(并且在一些情况下为XTA，其中X是C、A或T)。作为示例，参见图5和图7(其中PAM是TA，或者是CTA(如果认为PAM是XTA)，其中X是C、A或T)。在一些实施方案中(例如，当使用如本文所述的CasY1时)，非互补链的PAM序列为5’-TA-3’(并且在一些情况下为HTA，其中H是C、A或T)。作为示例，参见图5和图7(其中PAM是TA，或者是CTA(如果认为PAM是HTA)，其中H是C、A或T)。在一些情况下(例如，当使用如本文所述的CasY2时)，非互补链的PAM序列是靶标5’端的5’-YR-3’侧翼序列(其中Y是T或C并且R是A或G)。在一些情况下(例如，当使用如本文所述的CasY2时)，非互补链的PAM序列是5'-TR-3’(例如，5'-DTR-3')(其中R是A或G并且D是A、G或T)。作为示例，参见图5d。

[0160] 在一些情况下，不同的CasY蛋白(即，来自各种物种的CasY蛋白)可有利地用于各种所提供的方法中以便利用不同CasY蛋白的各种酶特征(例如，用于不同PAM序列偏好；用于增加的或降低的酶活性；用于增加的或降低的细胞毒性水平；用于改变NHEJ、同源定向修复、单链断裂、双链断裂等之间的平衡；利用短的总序列等)。来自不同物种的CasY蛋白可能需要靶DNA中的不同PAM序列。因此，对于所选择的具体CasY蛋白，PAM序列要求可与以上所述的5’-TA-3’(或XTA，HTA)序列不同。用于鉴定适当的PAM序列的各种方法(包括计算机模拟方法和/或湿实验室方法(wet lab methods))是本领域已知且常规的，并且可使用任何方便的方法。使用PAM缺失测定鉴定本文所述的TA(XTA，HTA)PAM序列(例如，参见下文工作实例的图5)。

[0161] CasY指导RNA

[0162] 与CasY蛋白结合形成核糖核蛋白复合物(RNP)并将复合物靶向靶核酸(例如，靶DNA)内的特定位置的核酸分子在本文中称为“CasY指导RNA”或者仅称为“指导RNA”。应理解，在一些情况下，可制备杂交体DNA/RNA，使得CasY指导RNA除RNA碱基外还包含DNA碱基，但术语“CasY指导RNA”仍然用于涵盖本文的这种分子。

[0163] 可以说CasY指导RNA包含两个区段，即靶向区段和蛋白质结合区段。CasY指导RNA的靶向区段包含与靶核酸(例如，靶ssRNA、靶ssDNA、双链靶DNA的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(指导序列)。蛋白质结合区段(或“蛋白质结合序列”)与CasY多肽相互作用(结合)。主题CasY指导RNA的蛋白质结合区段包含彼此杂交以形成双链RNA双链体(dsRNA双链体)的两段互补核苷酸。靶核酸(例如，基因组DNA)的位点特异性结合和/或切割可发生在CasY指导RNA(CasY指导RNA的指导序列)与靶核酸之间的碱基配对互补性确定的位置(例如，靶基因座的靶序列)处。

[0164] CasY指导RNA和CasY蛋白(例如，融合CasY多肽)形成复合物(例如，通过非共价相互作用结合)。CasY指导RNA通过包含靶向区段为复合物提供靶特异性，所述靶向区段包含指导序列(与靶核酸序列互补的核苷酸序列)。复合物的CasY蛋白提供位点特异性活性(例如，由CasY蛋白提供的切割活性和/或在嵌合CasY蛋白的情况下由融合配偶体提供的活性)。换言之，CasY蛋白由于其与CasY指导RNA的缔合而被指导至靶核酸序列(例如，靶序列)。

[0165] 可修饰“指导序列”，也称为CasY指导RNA的“靶向序列”，使得CasY指导RNA可将CasY蛋白(例如，天然存在的CasY蛋白、融合CasY多肽(嵌合CasY)等)靶向任何所需的靶核酸的任何所需序列，除了(例如，如本文所述)可考虑PAM序列之外。因此，例如，CasY指导RNA可具有与真核细胞中的核酸中的序列互补(例如，可与其杂交)的指导序列，所述核酸例如，病毒核酸、真核核酸(例如，真核染色体、染色体序列、真核RNA等)等。

[0166] CasY指导RNA的指导序列

[0167] 主题CasY指导RNA包含指导序列(即，靶向序列)，其是与靶核酸中的序列(靶位点)互补的核苷酸序列。换言之，CasY指导RNA的指导序列可通过杂交(即，碱基配对)以序列特异性方式与靶核酸(例如，双链DNA(dsDNA)、单链DNA(ssDNA)、单链RNA(ssRNA)或双链RNA(dsRNA))相互作用。CasY指导RNA的指导序列可被修饰(例如，通过遗传工程化)/设计成与靶核酸(例如，真核靶核酸，例如基因组DNA)内的任何所需靶序列杂交(例如，当考虑PAM时，例如，当靶向dsDNA靶时)。

[0168] 在一些实施方案中，指导序列与靶核酸的靶位点之间的互补性百分比为60％或更高(例如，65％或更高、70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比为100％。

[0169] 在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在靶核的酸靶位点最3'端的七个连续核苷酸上为100％。

[0170] 在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。
在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为
90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100％。

[0171] 在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、
98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、
99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100％。

[0172] 在一些实施方案中，指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者
100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者
100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100％。

[0173] 在一些实施方案中，指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者
100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者
100％)。在一些情况下，指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100％。

[0174] 在一些情况下，指导序列具有在17-30个核苷酸(nt)(例如，17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些情况下，指导序列具有在17-25个核苷酸(nt)(例如，17-22个、17-20个、19-25个、
19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些情况下，指导序列具有17或更多个nt(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt；19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下，指导序列具有19或更多个nt(例如，20个或更多个、21个或更多个、或者22个或更多个nt；19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下，指导序列具有17个nt的长度。在一些情况下，指导序列具有18个nt的长度。在一些情况下，指导序列具有19个nt的长度。在一些情况下，指导序列具有20个nt的长度。在一些情况下，指导序列具有21个nt的长度。在一些情况下，指导序列具有22个nt的长度。在一些情况下，指导序列具有23个nt的长度。

[0175] CasY指导RNA的蛋白质结合区段

[0176] 主题CasY指导RNA的蛋白质结合区段与CasX蛋白相互作用。CasY指导RNA通过上文提及的指导序列将结合的CasY蛋白指导至靶核酸内的特定核苷酸序列。CasY指导RNA的蛋白质结合区段包含两段核苷酸，它们彼此互补并杂交形成双链RNA双链体(dsRNA双链体)。因此，蛋白质结合区段包含dsRNA双链体。

[0177] 在一些情况下，dsRNA双链体区域包含5-25个碱基对(bp)的范围(例如，5-22个、5-20个、5-18个、5-15个、5-12个、5-10个、5-8个、8-25个、8-22个、8-18个、8-15个、8-12个、12-
25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、
14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp，例如5个bp、
6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下，dsRNA双链体区域包含6-15个碱基对(bp)的范围(例如，6-12个、6-10个或6-8个bp，例如6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下，双链体区域包含5个或更多个bp(例如，6个或更多个、7个或更多个或8个或更多个bp)。在一些情况下，双链体区域包含6个或更多个bp(例如，7个或更多个或8个或更多个bp)。在一些情况下，并非双链体区域的所有核苷酸都是成对的，并且因此双链体形成区域可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸)，其对双链双链体没有贡献，但是被有贡献的核苷酸围绕5'端和3'端，并且因此凸起被认为是双链体区域的一部分。在一些情况下，dsRNA包含1个或多个凸起(例如，2个或更多个、3个或更多个、4个或更多个凸起)。在一些情况下，dsRNA双链体包含2个或更多个凸起(例如，3个或更多个、4个或更多个凸起)。在一些情况下，dsRNA双链体包含1-5个凸起(例如，1-4个、
1-3个、2-5个、2-4个或2-3个凸起)。

[0178] 因此，在一些情况下，彼此杂交形成dsRNA双链体的核苷酸段彼此具有70％-100％的互补性(例如，75％-100％、80％-10％、85％-100％、90％-100％、95％-100％的互补性)。在一些情况下，彼此杂交形成dsRNA双链体的核苷酸段彼此具有70％-100％的互补性(例如，75％-100％、80％-10％、85％-100％、90％-100％、95％-100％的互补性)。在一些情况下，彼此杂交形成dsRNA双链体的核苷酸段彼此具有85％-100％的互补性(例如，90％-
100％、95％-100％的互补性)。在一些情况下，彼此杂交形成dsRNA双链体的核苷酸段彼此具有70％-95％的互补性(例如，75％-95％、80％-95％、85％-95％、90％-95％的互补性)。

[0179] 换言之，在一些实施方案中，dsRNA双链体包含彼此具有70％-100％的互补性(例如，75％-100％、80％-10％、85％-100％、90％-100％、95％-100％的互补性)的两段核苷酸。在一些情况下，dsRNA双链体包含彼此具有85％-100％的互补性(例如，90％-100％、95％-100％的互补性)的两段核苷酸。在一些情况下，dsRNA双链体包含彼此具有70％-95％的互补性(例如，75％-95％、80％-95％、85％-95％、90％-95％的互补性)的两段核苷酸。

[0180] 主题CasY指导RNA的双链体区域可包含相对于天然存在的双链体区域的一个或多个(1个、2个、3个、4个、5个等)突变。例如，在一些情况下，可维持碱基对，同时对每个区段的碱基对有贡献的核苷酸可以是不同的。在一些情况下，与(天然存在的CasY指导RNA的)天然存在的双链体区域相比，主题CasY指导RNA的双链体区域包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或其任何方便的组合。

[0181] 各种Cas9指导RNA的实例可在本领域中找到，并且在一些情况下，与引入Cas9指导RNA中的那些相似的变型也可引入本公开的CasY指导RNA中(例如，对于dsRNA双链体区域的突变、5’或3’末端的延伸以用于增加的稳定性，以便提供与另一种蛋白质的相互作用等)。例如，参见Jinek等人,Science.2012年8月17日；337(6096):816-21；Chylinski等人,RNA Biol.2013年5月；10(5):726-37；Ma等人,Biomed Res Int.2013；2013:270805；Hou等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15644-9；Jinek等人,Elife.2013；
2:e00471；Pattanayak等人,Nat Biotechnol.2013年9月；31(9):839-43；Qi等人,Cell.2013年2月28日；152(5):1173-83；Wang等人,Cell.2013年5月9日；153(4):910-8；
Auer等人,Genome Res.2013年10月31日；Chen等人,Nucleic Acids Res.2013年11月1日；
41(20):e19；Cheng等人,Cell Res.2013年10月；23(10):1163-71；Cho等人,Genetics.2013年11月；195(3):1177-80；DiCarlo等人,Nucleic Acids Res.2013年4月；41(7):4336-43；
Dickinson等人,Nat Methods.2013年10月；10(10):1028-34；Ebina等人,Sci Rep.2013；3:
2510；Fujii等人,Nucleic Acids Res.2013年11月1日；41(20):e187；Hu等人,Cell Res.2013年11月；23(11):1322-5；Jiang等人,Nucleic Acids Res.2013年11月1日；41(20):e188；Larson等人,Nat Protoc.2013年11月；8(11):2180-96；Mali等人,Nat Methods.2013年10月；10(10):957-63；Nakayama等人,Genesis.2013年12月；51(12):835-
43；Ran等人,Nat Protoc.2013年11月；8(11):2281-308；Ran等人,Cell.2013年9月12日；
154(6):1380-9；Upadhyay等人,G3(Bethesda).2013年12月9日；3(12):2233-8；Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15514-5；Xie等人,Mol Plant.2013年10月9日；Yang等人,Cell.2013年9月12日；154(6):1370-9；Briner等人,Mol Cell.2014年10月23日；56(2):333-9；以及美国专利和专利申请：8,906,616；8,895,308；8,889,418；
8,889,356；8,871,445；8,865,406；8,795,965；8,771,945；8,697,359；20140068797；
20140170753；20140179006；20140179770；20140186843；20140186919；20140186958；
20140189896；20140227787；20140234972；20140242664；20140242699；20140242700；
20140242702；20140248702；20140256046；20140273037；20140273226；20140273230；
20140273231；20140273232；20140273233；20140273234；20140273235；20140287938；
20140295556；20140295557；20140298547；20140304853；20140309487；20140310828；
20140310830；20140315985；20140335063；20140335620；20140342456；20140342457；
20140342458；20140349400；20140349405；20140356867；20140356956；20140356958；
20140356959；20140357523；20140357530；20140364333；和20140377868；所述专利全部特此以引用的方式整体并入。

[0182] CasY指导RNA包含指导序列和杂交以形成蛋白质结合区段的dsRNA双链体的两段核苷酸(“双链体形成区段”)两者。给定的CasY指导RNA的特定序列可以是crRNA所存在于的物种的特征。本文提供合适的CasY指导RNA的实例。

[0183] 示例性指导RNA序列

[0184] 图6(图a和图b)中描绘的重复序列(示例性CasY指导RNA的非指导序列部分)来自CasY1-Y5的天然基因座。在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是
CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGAAAGTATCGGGGATAAAGGC(SEQ ID NO:31)[RNA是CUCCGAAAGUAUCGGGGAUAAAGGC(SEQ ID NO:11)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0185] 在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是CACCGAAAUUUGGAGAGGAUAAGGC(SEQ ID NO:12)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是CACCGAAAUUUGGAGAGGAUAAGGC(SEQ ID NO:12)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CACCGAAATTTGGAGAGGATAAGGC(SEQ ID NO:32)[RNA是
CACCGAAAUUUGGAGAGGAUAAGGC(SEQ ID NO:12)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0186] 在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ ID NO:13)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ ID NO:13)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGAATTATCGGGAGGATAAGGC(SEQ ID NO:33)[RNA是
CUCCGAAUUAUCGGGAGGAUAAGGC(SEQ ID NO:13)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0187] 在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是CCCCGAAUAUAGGGGACAAAAAGGC(SEQ ID NO:14)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是CCCCGAAUAUAGGGGACAAAAAGGC(SEQ ID NO:14)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CCCCGAATATAGGGGACAAAAAGGC(SEQ ID NO:34)[RNA是
CCCCGAAUAUAGGGGACAAAAAGGC(SEQ ID NO:14)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0188] 在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ ID NO:15)](例如，参见图6)。在一些情况下，主题CasY指导RNA包含与crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ ID NO:15)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGAC(SEQ ID NO:35)[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGAC(SEQ ID NO:15)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0189] 在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)SEQ ID NO:11-15中的任一个所示的crRNA序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0190] 在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)SEQ ID NO:11-14中的任一个所示的crRNA序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-14中的任一个所示的crRNA序列具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-14中的任一个所示的crRNA序列具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0191] 来自CasY18的天然基因座的重复序列(示例性CasY指导RNA的非指导序列部分)是CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ ID NO:16)]。在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ ID NO:16)]。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ ID NO:16)]具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与crRNA序列CTCCGTGAATACGTGGGGTAAAGGC(SEQ ID NO:36)[RNA是CUCCGUGAAUACGUGGGGUAAAGGC(SEQ ID NO:16)]具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0192] 在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)SEQ ID NO:11-16中的任一个所示的crRNA序列。在一些情况下，主题CasY指导RNA包含(例如，除指导序列之外)与SEQ ID NO:11-16中的任一个所示的crRNA序列具有80％或更高的同一性(例如，85％或更高、90％或更高、93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。在一些情况下，主题CasY指导RNA包含与SEQ ID NO:11-16中的任一个所示的crRNA序列具有90％或更高的同一性(例如，93％或更高、95％或更高、97％或更高、98％或更高或100％的同一性)的核苷酸序列。

[0193] CASY系统

[0194] 本公开提供一种CasY系统。本公开的CasY系统可包含：a)本公开的CasY多肽和CasY指导RNA；b)本公开的CasY多肽、CasY指导RNA和供体模板核酸；c)本公开的CasY融合多肽和CasY指导RNA；d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸；e)编码本公开的CasY多肽的mRNA和CasY指导RNA；f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸；g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA；h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸；i)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；j)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；k)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；l)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；q)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者r)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者(a)到(r)中的一个的某一变型。

[0195] 核酸

[0196] 本公开提供一种或多种核酸，其包含以下中的一种或多种：供体多核苷酸序列、编码CasY多肽(例如，野生型CasY蛋白、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)的核苷酸序列、CasY指导RNA和编码CasY指导RNA的核苷酸序列。本公开提供一种包含编码CasY融合多肽的核苷酸序列的核酸。本公开提供一种包含编码CasY多肽的核苷酸序列的重组表达载体。本公开提供一种包含编码CasY融合多肽的核苷酸序列的重组表达载体。本公开提供一种重组表达载体，其包含：a)编码CasY多肽的核苷酸序列；和b)编码一种或多种CasY指导RNA的核苷酸序列。本公开提供一种重组表达载体，其包含：a)编码CasY融合多肽的核苷酸序列；和b)编码一种或多种CasY指导RNA的核苷酸序列。在一些情况下，编码CasY蛋白的核苷酸序列和/或编码CasY指导RNA的核苷酸序列可操作地连接到可在选择的细胞类型(例如，原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿动物细胞、人细胞等)中操作的启动子。

[0197] 在一些情况下，编码本公开的CasY多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码CasY的核苷酸序列的突变以模拟预期的宿主生物体或细胞的密码子偏好同时编码相同蛋白质。因此，密码子可改变，但编码的蛋白质保持不变。例如，如果预期的靶细胞是人细胞，可使用人密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是小鼠细胞，则可生成小鼠密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是植物细胞，则可生成植物密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是昆虫细胞，则可生成昆虫密码子优化的编码CasY的核苷酸序列。

[0198] 本公开提供一种或多种重组表达载体，其包含(在一些情况下在不同的重组表达载体中，并且在一些情况下在相同的重组表达载体中)：(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如，靶基因组)的靶序列具有同源性的核苷酸序列)；(ii)编码CasY指导RNA的核苷酸序列，所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)；和(iii)编码CasY蛋白的核苷酸序列(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。本公开提供一种或多种重组表达载体，其包含(在一些情况下在不同的重组表达载体中，并且在一些情况下在相同的重组表达载体中)：(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如，靶基因组)的靶序列具有同源性的核苷酸序列)；和(ii)编码CasY指导RNA的核苷酸序列，所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。本公开提供一种或多种重组表达载体，其包含(在一些情况下在不同的重组表达载体中，并且在一些情况下在相同的重组表达载体中)：(i)编码CasY指导RNA的核苷酸序列，所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)；和(ii)编码CasY蛋白的核苷酸序列(例如，可操作地连接到可在靶细胞(诸如真核细胞)中操作的启动子)。

[0199] 合适的表达载体包括病毒表达载体(例如，基于以下病毒的病毒载体：牛痘病毒；脊髓灰质炎病毒；腺病毒(参见例如，Li等人,Invest Opthalmol Vis Sci 35:2543 2549,
1994；Borras等人,Gene Ther 6:515524,1999；Li和Davidson,PNAS 92:7700 7704,1995；
Sakamoto等人,H Gene Ther 5:1088 1097,1999；WO 94/12649、WO 93/03769；WO93/19191；
WO 94/28938；WO 95/11984和WO 95/00655)；腺相关病毒(AAV)(参见例如，Ali等人,Hum Gene Ther 9:81 86,1998；Flannery等人,PNAS 94:6916 6921,1997；Bennett等人,Invest Opthalmol Vis Sci 38:2857 2863,1997；Jomary等人,Gene Ther 4:683 690,1997；
Rolling等人,Hum Gene Ther 10:641 648,1999；Ali等人,Hum Mol Genet 5:591 594,
1996；Srivastava的WO 93/09239，Samulski等人,J.Vir.(1989)63:3822-3828；Mendelson等人,Virol.(1988)166:154-165；以及Flotte等人,PNAS(1993)90:10613-10617)；SV40；单纯疱疹病毒；人类免疫缺陷病毒(参见例如，Miyoshi等人,PNAS 94:10319 23,1997；
Takahashi等人,J Virol 73:7812 7816,1999)；逆转录病毒载体(例如，鼠白血病病毒、脾坏死病毒和源自诸如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人类免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒)等。在一些情况下，本公开的重组表达载体是重组腺相关病毒(AAV)载体。在一些情况下，本公开的重组表达载体是重组慢病毒载体。在一些情况下，本公开的重组表达载体是重组逆转录病毒载体。

[0200] 根据所用的宿主/载体系统，可在表达载体中使用许多合适的转录和翻译控制元件中的任一种，包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。

[0201] 在一些实施方案中，编码CasY指导RNA的核苷酸序列可操作地连接到控制元件，例如转录控制元件，诸如启动子。在一些实施方案中，编码CasY蛋白或CasY融合多肽的核苷酸序列可操作地连接到控制元件，例如转录控制元件，诸如启动子。

[0202] 转录控制元件可以是启动子。在一些情况下，启动子是组成型活性启动子。在一些情况下，启动子是可调节启动子。在一些情况下，启动子是诱导型启动子。在一些情况下，启动子是组织特异性启动子。在一些情况下，启动子是细胞类型特异性启动子。在一些情况下，转录控制元件(例如，启动子)在靶向细胞类型或靶向细胞群中是功能性的。例如，在一些情况下，转录控制元件在真核细胞(例如，造血干细胞(例如，动员的外周血(mPB)CD34(+)细胞、骨髓(BM)CD34(+)细胞等))中可以是功能性的。

[0203] 真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括EF1α，来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如，6xHis标签、血凝素标签、荧光蛋白等)的核苷酸序列，所述蛋白质标签可融合到CasY蛋白，从而产生嵌合CasY多肽。

[0204] 在一些实施方案中，编码CasY指导RNA和/或CasY融合多肽的核苷酸序列可操作地连接到诱导型启动子。在一些实施方案中，编码CasY指导RNA和/或CasY融合蛋白的核苷酸序列可操作地连接到组成型启动子。

[0205] 启动子可以是组成型活性启动子(即，在活性/“ON”状态下组成型的启动子)，它可以是诱导型启动子(即，通过外界刺激例如存在特定温度、化合物或蛋白质控制其状态(活性/“ON”或非活性/“OFF”)的启动子)，它可以是空间限制的启动子(即，转录控制元件、增强子等)(例如，组织特异性启动子、细胞类型特异性启动子等)，并且它可以是时间限制的启动子(即，启动子在胚胎发育的特定阶段过程中或在生物过程(例如，小鼠体内的毛囊周期)的特定阶段过程中处于“ON”状态或“OFF”状态)。

[0206] 合适的启动子可来源于病毒并且可因此称为病毒启动子，或它们可来源于任何生物，包括原核生物或真核生物。合适的启动子可用来通过任何RNA聚合酶(例如，pol I、pol II、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子诸如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人类U6小核启动子(U6)(Miyagishi等人,Nature Biotechnology 20,497-500(2002))、增强的U6启动子(例如，Xia等人,Nucleic Acids Res.2003年9月1日；31(17))、人类H1启动子(H1)等。

[0207] 在一些情况下，编码CasY指导RNA的核苷酸序列可操作地连接到(在其控制下)在真核细胞中可操作的启动子(例如，U6启动子、增强的U6启动子、H1启动子等)。如本领域的普通技术人员所理解的，当使用U6启动子(例如，在真核细胞中)或另一种PolIII启动子由核酸(例如，表达载体)表达RNA(例如，指导RNA)时，如果连续存在若干个T(在RNA中编码U)，则可能需要对RNA进行突变。这是因为DNA中的一串T(例如，5个T)可充当聚合酶III(PolIII)的终止子。因此，为了确保指导RNA在真核细胞中的转录，有时可能需要修饰编码指导RNA的序列以消除T的作用。在一些情况下，编码CasY蛋白(例如，野生型CasY蛋白、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等)的核苷酸序列可操作地连接到在真核细胞中可操作的启动子(例如，CMV启动子、EF1α启动子、雌激素受体调节的启动子等)。

[0208] 诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷(IPTG)调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等。因此，诱导型启动子可通过分子调节，所述分子包括但不限于强力霉素；雌激素和/或雌激素类似物；IPTG等。

[0209] 适合使用的诱导型启动子包括本文所述或本领域的普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调节的启动子和物理调节的启动子，诸如醇调节的启动子、四环素调节的启动子(例如，无水四环素(aTc)-响应性启动子和其他四环素响应性启动子系统，其包括四环素阻遏物蛋白(tetR)、四环素操作序列(tetO)和四环素反式激活因子融合蛋白(tTA))、类固醇调节的启动子(例如，基于大鼠糖皮质激素受体、人类雌激素受体、蛾蜕皮激素受体的启动子以及来自类固醇/类视黄醇/甲状腺受体超家族的启动子)、金属调节的启动子(例如，衍生自来自酵母、小鼠和人类的金属硫蛋白(结合并螯合金属离子的蛋白质)基因的启动子)、发病原调节的启动子(例如，由水杨酸、乙烯或苯并噻二唑(BTH)诱导的启动子)、温度/热诱导型启动子(例如，热休克启动子)和光调节的启动子(例如，来自植物细胞的光响应性启动子)。

[0210] 在一些情况下，启动子是空间限制的启动子(即，细胞类型特异性启动子、组织特异性启动子等)，使得在多细胞生物体中，启动子在特定细胞子集中是活性的(即，“ON”)。空间限制的启动子也可称为增强子、转录控制元件、控制序列等。可使用任何方便的空间限制的启动子，只要启动子在靶向宿主细胞(例如，真核细胞；原核细胞)中是功能性的即可。

[0211] 在一些情况下，启动子是可逆启动子。合适的可逆启动子，包括可逆诱导型启动子，是本领域已知的。此类可逆启动子可分离自并衍生自许多生物体，例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如，第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰是本领域熟知的。此类可逆启动子和基于此类可逆启动子但也包含另外的控制蛋白的系统包括但不限于醇调节的启动子(例如，醇脱氢酶I(alcA)基因启动子、响应于醇反式激活因子蛋白(AlcR)的启动子等)、四环素调节的启动子(例如，启动子系统，包括Tet激活因子、TetON、TetOFF等)、类固醇调节的启动子(例如，大鼠糖皮质激素受体启动子系统、人类雌激素受体启动子系统、类维生素A启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调节的启动子(例如，金属硫蛋白启动子系统等)、发病机理相关的调节启动子(例如，水杨酸调节启动子、乙烯调节启动子、苯并噻二唑调节启动子等)、温度调节启动子(例如，热休克诱导型启动子(例如，HSP-70、HSP-90、大豆热休克启动子等))、光调节启动子、合成诱导型启动子等。

[0212] 将核酸(例如，包含供体多核苷酸序列的核酸、一种或多种编码CasY蛋白和/或CasY指导RNA的核酸等)引入宿主细胞中的方法是本领域已知的，并且可使用任何方便的方法来将核酸(例如，表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。

[0213] 将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。

[0214] 在一些实施方案中，CasY蛋白可作为RNA提供。RNA可通过直接化学合成提供，或者可在体外从DNA(例如，编码CasY蛋白的DNA)转录。一旦合成，可通过用于将核酸引入细胞中的任何熟知的技术(例如，微注射、电穿孔、转染等)将RNA引入细胞中。

[0215] 可使用开发良好的转染技术(参见例如Angel和Yanik(2010)PLoS ONE 5(7):e11756)；以及可从Qiagen商购获得的试剂、从Stemgent可商购获得的
StemfectTMRNA转染试剂盒以及可从Mirus Bio LLC商购获得的转染试
剂盒向细胞提供核酸。还参见Beumer等人(2008)PNAS105(50):19821-19826。

[0216] 可直接向靶宿主细胞提供载体。换言之，使细胞与包含主题核酸的载体(例如，具有供体模板序列并编码CasY指导RNA的重组表达载体；编码CasY蛋白的重组表达载体等)接触，使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)是本领域中熟知的。对于病毒载体递送，可使细胞与包含主题病毒表达载体的病毒颗粒接触。

[0217] 逆转录病毒，例如慢病毒，适用于本公开的方法。通常使用的逆转录病毒载体是“缺陷型的”，即不能产生用于生产性感染所需要的病毒蛋白质。而且载体复制需要在包装细胞系中生长。为了生成包含感兴趣的核酸的病毒颗粒，通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性)，此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性；对包括人类、狗和小鼠的大多数哺乳动物细胞类型的双嗜性；以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法是本领域中熟知的。还可通过直接微注射引入核酸(例如，RNA的注射)。

[0218] 用于向靶宿主细胞提供编码CasY指导RNA和/或CasY多肽的核酸的载体可包括用于驱动感兴趣核酸的表达(即，转录激活)的合适的启动子。换言之，在一些情况下，感兴趣的核酸将可操作地连接到启动子。所述启动子可包括遍在活化型启动子，例如CMV-β-肌动蛋白启动子；或诱导型启动子，诸如在具体细胞群中有活性或对药物(诸如四环素的)存在有反应的启动子。通过转录激活，预期转录将在靶细胞中的基础水平以上增加10倍、100倍、更通常地1000倍。另外，用于向细胞提供编码CasY指导RNA和/或CasY蛋白的核酸的载体可包含如下核酸序列，其在靶细胞中编码可选择标记以便鉴定已经吸收CasY指导RNA和/或CasY蛋白的细胞。

[0219] 包含编码CasY多肽或CasY融合多肽的核苷酸序列的核酸在一些情况下是RNA。因此，可将CasY融合蛋白作为RNA引入细胞中。将RNA引入细胞中的方法是本领域中已知的并且可包括例如直接注射、转染或用于引入DNA的任何其他方法。相反，CasY蛋白可作为多肽向细胞提供。这种多肽可任选地融合到增加产物溶解度的多肽结构域。所述结构域可通过限定的蛋白酶切割位点(例如，通过TEV蛋白酶切割的TEV序列)连接到多肽。接头还可包括一个或多个柔性序列，例如1至10个甘氨酸残基。在一些实施方案中，融合蛋白的切割在维持产物溶解度的缓冲液中进行，例如在0.5至2M尿素存在下、在多肽和/或增加溶解度的多核苷酸的存在下等进行。感兴趣的结构域包括核内体溶解结构域，例如流感HA结构域；和辅助产生的其他多肽，例如IF2结构域、GST结构域、GRPE结构域等。多肽可配制用于改进的稳定性。例如，肽可以是PEG化的，其中聚乙烯氧基提供在血流中的增加的寿命。

[0220] 另外或可替代地，本公开的CasY多肽可融合到多肽穿透结构域以促进被细胞吸收。许多穿透结构域是本领域中已知的并且可用于本公开的非整合多肽，其包括肽、肽模拟物和非肽运载体。例如，穿透肽可衍生自黑腹果蝇转录因子触角足基因(称为穿透蛋白)的第三α螺旋，所述第三α螺旋包含氨基酸序列RQIKIWFQNRRMKWKK(SEQ ID NO:133)。作为另一个实例，穿透肽包含HIV-1tat碱性区域氨基酸序列，所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其他穿透结构域包括聚精氨酸基序，例如HIV-1rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。(参见例如，Futaki等人(2003)Curr Protein Pept Sci.2003年4月；4(2):87-9和446；以及Wender等人(2000)Proc.Natl.Acad.Sci.U.S.A 2000年11月21日；97(24):13003-8；公布的美国专利申请20030220334；20030083256；
20030032593；和20030022831，本文以引用的方式特别并入了易位肽和拟肽的教义)。九精氨酸(R9)序列是已表征的更有效的PTD之一(Wender等人2000；Uemura等人2002)。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最佳位点。

[0221] 本公开的CasY多肽可在体外或通过真核细胞或通过原核细胞产生，并且它可通过解折叠(例如热变性、二硫苏糖醇还原等)进一步加工，并且可使用本领域已知的方法进一步再折叠。

[0222] 不改变一级序列的感兴趣的修饰包括多肽的化学衍生化，例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰，例如通过在其合成和加工过程中或在进一步加工步骤中修饰多肽的糖基化形式而进行的那些修饰；例如通过将多肽暴露于影响糖基化的酶(诸如哺乳动物糖基化酶或脱糖基化酶)而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。

[0223] 还适合包括在本公开的实施方案中的是核酸(例如，编码CasY指导RNA、编码CasY融合蛋白等的核酸)和蛋白质(例如，衍生自野生型蛋白质或变体蛋白质的CasY融合蛋白)，所述核酸和蛋白质已使用普通分子生物学技术和合成化学进行修饰，以便改进它们对蛋白水解降解的抗性，改变靶序列特异性，优化溶解特性，改变蛋白质活性(例如，转录调节活性、酶活性等)或使它们更合适。此类多肽的类似物包括含有除了天然存在的L-氨基酸之外的残基(例如，D-氨基酸或非天然存在的合成氨基酸)的那些多肽。D-氨基酸可取代一些或所有氨基酸残基。

[0224] 可使用如本领域已知的常规方法，通过体外合成制备本公开的CasY多肽。可使用各种商业合成装置，例如Applied Biosystems,Inc.，Beckman等的自动合成仪。通过使用合成仪，天然存在的氨基酸可被非天然氨基酸取代。制备的具体顺序和方式将通过方便性、经济性、所需纯度等来确定。

[0225] 如果需要，可在合成过程中或在表达过程中将各种基团引入肽中，这允许连接到其他分子或表面。因此半胱氨酸可用来制备硫醚、用于连接到金属离子络合物的组氨酸、用于形成酰胺或酯的羧基、用于形成酰胺的氨基等。

[0226] 还可根据重组合成的常规方法分离和纯化本公开的CasY多肽。可由表达宿主制备裂解液，并且使用高效液相色谱法(HPLC)、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解液。大多数情况下，相对于与产物制备及其纯化的方法相关的污染物，所使用的组合物将包含所需产物的20重量％或更多、更通常地75重量％或更多、优选地95重量％，并且出于治疗目的通常为99.5重量％或更多。通常，百分数将基于总蛋白。因此，在一些情况下，本公开的CasY多肽或CasY融合多肽具有至少80％纯度、至少85％纯度、至少90％纯度、至少95％纯度、至少98％纯度或至少99％纯度(例如，不含污染物、非CasY蛋白质或其他大分子等)。

[0227] 为了诱导对靶核酸(例如，基因组DNA)的切割或任何所需的修饰，或对与靶核酸相关联的多肽的任何所需的修饰，向细胞提供本公开的CasY指导RNA和/或CasY多肽和/或供体模板序列，无论它们作为核酸还是多肽引入，持续约30分钟至约24小时，例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其他时间段，这可以约每天至约每4天的频率来重复，例如以每1.5天、每2天、每3天或约每天至约每四天的任何其他频率来重复。可向主题细胞提供一种或多种试剂一次或多次，例如一次、两次、三次或多于三次，并且在每次接触事件之后允许用一种或多种试剂孵育细胞一定时间量，例如16-24小时，在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。

[0228] 在其中向细胞提供两种或更多种不同靶向复合物(例如，与相同或不同靶核酸内的不同序列互补的两种不同CasY指导RNA)的情况下，可同时提供(例如，作为两种多肽和/或核酸)或同时递送所述复合物。可替代地，它们可连续提供，例如首先提供靶向复合物，接着提供第二靶向复合物等，或反之亦然。

[0229] 为了改进DNA载体向靶细胞的递送，可例如通过使用脂质复合物(lipoplex)和聚合复合物(polyplex)保护DNA免受损伤，并且促进DNA进入细胞中。因此，在一些情况下，本公开的核酸(例如，本公开的重组表达载体)可用有组织的结构(像胶束或脂质体)中的脂质覆盖。当有组织的结构与DNA复合时，它被称为脂质复合物。存在三种类型的脂质，阴离子脂质(带负电)、中性脂质或阳离子脂质(带正电)。利用阳离子脂质的脂质复合物已被证明可用于基因转移。阳离子脂质由于其正电荷，与带负电的DNA天然复合。同样由于它们的电荷，它们与细胞膜相互作用。然后发生脂质复合物的内吞作用，并且将DNA释放到细胞质中。阳离子脂质还可防止细胞对DNA的降解。

[0230] 聚合物与DNA的复合物称为聚合复合物。大多数聚合复合物由阳离子聚合物组成，并且它们的产生由离子相互作用调节。聚合复合物与脂质复合物的作用方法之间的一个巨大差异是聚合复合物不能将其DNA负载释放到细胞质中，为此，必须发生与内体溶解剂(溶解内吞作用期间产生的内体，诸如灭活的腺病毒)的共转染。然而，并非总是如此；诸如聚乙烯亚胺的聚合物与壳聚糖和三甲基壳聚糖一样，都有自己的内体破坏方法。

[0231] 树枝状聚合物，一种球形的高度支化的大分子，也可用于遗传修饰干细胞。树枝状聚合物颗粒的表面可被官能化以改变其特性。具体地，可能构建阳离子树枝状聚合物(即，具有正表面电荷的树枝状聚合物)。当存在遗传物质(诸如DNA质粒)时，电荷互补性导致核酸与阳离子树枝状聚合物的暂时缔合。在到达其目的地时，树枝状聚合物-核酸复合物可通过内吞作用被吸收到细胞中。

[0232] 在一些情况下，本公开的核酸(例如，表达载体)包含感兴趣的指导序列的插入位点。例如，核酸可包含感兴趣的指导序列的插入位点，其中所述插入位点紧邻编码CasY指导RNA的部分的核苷酸序列，当指导序列被改变而与所需靶序列杂交(例如，有助于指导RNA的CasY结合方面的序列，例如，有助于CasY指导RNA的一个或多个dsRNA双链体的序列-指导RNA的这个部分也可称为指导RNA的“支架”或“恒定区”)时，CasY指导RNA的所述部分不会改变。因此，在一些情况下，主题核酸(例如，表达载体)包含编码CasY指导RNA的核苷酸序列，不同的是编码指导RNA的指导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的，并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如，在一些情况下，插入位点是多克隆位点(MCS)(例如，包含一个或多个限制性酶识别序列的位点)，用于连接独立克隆的位点，用于基于克隆的重组(例如，基于att位点的重组)的位点，由基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。

[0233] 插入位点可以是任何期望的长度，并且可取决于插入位点的类型(例如，可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列)，位点是否包括CRISPR/Cas蛋白的靶位点等)。在一些情况下，主题核酸的插入位点长度为3个或更多个核苷酸(nt)(例如，长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些情况下，主题核酸的插入位点具有在2至50个核苷酸(nt)的范围内(例如，2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些情况下，主题核酸的插入位点具有在5至40个nt的范围内的长度。

[0234] 核酸修饰

[0235] 在一些实施方案中，主题核酸(例如，CasY指导RNA)具有一个或多个修饰(例如，碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如，改进的稳定性)。核苷是碱基-糖组合。核苷的碱基部分通常是杂环碱基。此类杂环碱基的两个最常见类别是嘌呤和嘧啶。核苷酸是还包含共价连接到核苷的糖部分的磷酸酯基团的核苷。对于包含呋喃戊糖的那些核苷，磷酸酯基团可连接到糖的2’、3’或5’羟基部分。在形成寡核苷酸中，磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。继而，此线性聚合化合物的各端可进一步连接以形成环状化合物，然而，线性化合物是合适的。另外，线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内，磷酸酯基团通常称为形成寡核苷酸的核苷间骨架。RNA和DNA的正常键或骨架是3’至5’的磷酸二酯键。

[0236] 合适的核酸修饰包括但不限于：2’O甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸(LNA)修饰的核苷酸、肽核酸(PNA)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如，7-甲基鸟苷酸帽(m7G))。下文描述另外的细节和另外的修饰。

[0237] 2'-O-甲基修饰的核苷酸(也称为2'-O-甲基RNA)是在tRNA和其他小RNA中发现的天然存在的RNA修饰，其作为转录后修饰而出现。可直接合成含有2'-O-甲基RNA的寡核苷酸。这种修饰增加RNA:RNA双链体的Tm，但仅导致RNA:DNA稳定性的微小变化。它对于单链核糖核酸酶的攻击是稳定的，并且对DNA酶的敏感性通常是DNA的5至10倍低。它通常用于反义寡核苷酸中，作为增加稳定性和对于靶信使的结合亲和力的手段。

[0238] 2'氟修饰的核苷酸(例如，2'氟碱基)具有氟修饰的核糖，其增加结合亲和力(Tm)并且与天然RNA相比还赋予一定程度的相对核酸酶抗性。这些修饰通常用于核酶和siRNA中以改进在血清或其他生物体液中的稳定性。

[0239] LNA碱基具有对核糖骨架的修饰，其将碱基锁定在C3'-内部位置，这有利于RNA A型螺旋双链体几何结构。这种修饰显著增加Tm并且还具有非常强的核酸酶抗性。可将多个LNA插入置于寡核苷酸中的除了3'末端之外的任何位置。已经描述了从反义寡核苷酸到杂交探针到SNP检测和等位基因特异性PCR的应用。由于LNA赋予Tm的大量增加，它们还可引起引物二聚体形成以及自发夹的形成的增加。在一些情况下，引入单个寡核苷酸中的LNA的数量是10个碱基或更少。

[0240] 硫代磷酸酯(PS)键联(即，硫代磷酸酯键)用硫原子取代核酸(例如，寡核苷酸)的磷酸酯骨架中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键联以抑制外切核酸酶降解。在寡核苷酸内(例如，在整个寡核苷酸中)包含硫代磷酸酯键联也可帮助减少内切核酸酶的攻击。

[0241] 在一些实施方案中，主题核酸具有一个或多个核苷酸，所述核苷酸是2'-O-甲基修饰的核苷酸。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有一个或多个2'氟修饰的核苷酸。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有一个或多个LNA碱基。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有通过硫代磷酸酯键联连接的一个或多个核苷酸(即，主题核酸具有一个或多个硫代磷酸酯键)。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有5'帽(例如，7-甲基鸟苷酸帽(m7G))。在一些实施方案中，主题核酸(例如，dsRNA、siNA等)具有修饰的核苷酸的组合。例如，除具有一个或多个具有其他修饰的核苷酸(例如，2'-O-甲基核苷酸和/或2'氟修饰的核苷酸和/或LNA碱基和/或硫代磷酸酯键)之外，主题核酸(例如，dsRNA、siNA等)可具有5'帽(例如，7-甲基鸟苷酸帽(m7G))。

[0242] 修饰的骨架和修饰的核苷间键

[0243] 含有修饰的合适的核酸(例如，CasY指导RNA)的实例包括含有修饰的骨架或非天然的核苷间键的核酸。具有修饰的骨架的核酸包括在骨架中保留磷原子的那些核酸和在骨架中不具有磷原子的那些核酸。

[0244] 其中含有磷原子的合适的经修饰的寡核苷酸骨架包括例如，硫代磷酸酯，手性硫代磷酸酯，二硫代磷酸酯，磷酸三酯，氨基烷基磷酸三酯，甲基和其他烷基磷酸酯包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯，次膦酸酯，氨基磷酸酯包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯，二氨基磷酸酯，硫羰氨基磷酸酯，硫羰烷基磷酸酯，硫羰烷基磷酸三酯，具有正常3'-5'键的硒代磷酸酯和硼代磷酸酯，这些的2'-5'连接类似物以及具有反极性的那些寡核苷酸骨架，其中一个或多个核苷酸间键为3'至3'、5'至5'或2'至2'键。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键，即可为碱性(核碱基丢失或其被羟基替代)的单个反转核苷残基。还包括各种盐(例如像钾或钠)、混合盐和游离酸形式。

[0245] 在一些实施方案中，主题核酸包含一个或多个硫代磷酸酯和/或杂原子核苷间键，具体地是-CH2-NH-O-CH2-、-CH2-N(CH3)-O-CH2-(称为亚甲基(甲基亚氨基)或MMI骨架)、-CH2-O-N(CH3)-CH2-、-CH2-N(CH3)-N(CH3)-CH2-和-O-N(CH3)-CH2-CH2-(其中天然磷酸二酯核苷酸间键表示为-O-P(＝O)(OH)-O-CH2-)。MMI型核苷间键公开于上文提及的美国专利号5,489,677中，所述专利的公开内容以引用的方式整体并入本文。合适的酰胺核苷间键公开于美国专利号5,602,240中，所述专利的公开内容以引用的方式整体并入本文。

[0246] 还合适的是具有吗啉代骨架结构的核酸，如例如美国专利号5,034,506中所述。例如，在一些实施方案中，主题核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些中，二氨基磷酸酯或其他非磷酸二酯核苷间键替代磷酸二酯键。

[0247] 其中不包含磷原子的合适的经修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的骨架。这些包括：具有吗啉代键(部分地由核苷的糖部分形成)的那些骨架；硅氧烷骨架；硫化物、亚砜和砜骨架；甲酰乙酰基和硫代甲酰乙酰基骨架；亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架；核糖乙酰基(riboacetyl)骨架；含烯烃的骨架；氨基磺酸酯骨架；亚甲基亚胺基和亚甲基肼基骨架；磺酸酯和磺酰胺骨架；酰氨骨架；以及具有混合的N、O、S和CH2组成部分的其他骨架。

[0248] 模拟物

[0249] 主题核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间键被非呋喃糖基团替代的多核苷酸，仅呋喃糖环替代在本领域中又称为糖替代。杂环碱基部分或修饰的杂环碱基部分维持与适当的靶核酸的杂交。一种这样的核酸(已显示出具有优良杂交特性的多核苷酸模拟物)称为肽核酸(PNA)。在PNA中，多核苷酸的糖骨架被含酰胺的骨架替代，具体地被氨基乙基甘氨酸骨架替代。核苷酸被保留下来并且直接或间接结合骨架的酰胺部分的氮杂氮原子。

[0250] 已报道具有优良杂交特性的一种多核苷酸模拟物是肽核酸(PNA)。PNA化合物中的骨架是给予PNA含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接结合骨架的酰胺部分的氮杂氮原子。描述PNA化合物制备的代表性美国专利包括但不限于：美国专利号5,539,082；5,714,331；和5,719,262，所述专利的公开内容以引用的方式整体并入本文。

[0251] 已研究的另一类多核苷酸模拟物基于具有附着到吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已报道许多连接基团连接吗啉代核酸中的吗啉代单体单元。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不期望的相互作用。基于吗啉代的多核苷酸是不太可能与细胞蛋白质形成不期望的相互作用的寡核苷酸的非离子型模拟物(Dwaine A.Braasch和David R.Corey,Biochemistry,2002,41(14),4503-4510)。基于吗啉代的多核苷酸公开于美国专利号5,034,506中，所述专利的公开内容以引用的方式整体并入本文。已制备了吗啉代类多核苷酸内的多种化合物，所述化合物具有连接单体亚单元的多种不同的连接基团。

[0252] 另一类多核苷酸模拟物称为环己烯基核酸(CeNA)。通常存在于DNA/RNA分子中的呋喃糖环被环己烯基环替代。已制备了CeNA DMT保护的亚磷酰胺单体并且用于根据经典亚磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的CeNA低聚化合物和具有用CeNA修饰的特异性位置的寡核苷酸(参见Wang等人,J.Am.Chem.Soc.,2000,122,8595-8602，其公开内容以引用的方式整体并入本文)。一般来讲，CeNA单体引入DNA链中增加了DNA/RNA杂交体的稳定性。CeNA寡腺苷酸与RNA和DNA互补序列形成具有与天然复合物相似的稳定性的复合物。通过NMR和圆二色性示出将CeNA结构引入天然核酸结构中的研究以继续进行简单的构象调整。

[0253] 另一种修饰包括锁定核酸(LNA)，其中2'-羟基连接到糖环的4'碳原子从而形成2'-C、4'-C-氧基亚甲基键，从而形成双环糖部分。所述键可以是亚甲基(-CH2-)，桥联2’氧原子和4’碳原子的基团，其中n为1或2(Singh等人,Chem.Commun.,1998,4,455-456，其公开内容以引用的方式整体并入本文)。LNA和LNA类似物显现出与互补DNA和RNA具有非常高的双链体热稳定性(Tm＝+3℃至+10℃)、朝向3'-核酸外切降解的稳定性和良好的溶解特性。
已经描述了含有LNA的有效且无毒的反义寡核苷酸(例如Wahlestedt等人,
Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638，其公开内容以引用的方式整体并入本文)。

[0254] 已描述了LNA单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别特性(例如，Koshkin等人,Tetrahedron,1998,54,3607-3630，其公开内容以引用的方式整体并入本文)。LNA及其制备也描述于WO 98/39352和WO 99/14226以及美国申请20120165514、20100216983、20090041809、20060117410、
20040014959、20020094555和20020086998中，所述专利的公开内容以引用的方式整体并入本文。

[0255] 修饰的糖部分

[0256] 主题核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团：OH；F；O-、S-或N-烷基；O-、S-或N-烯基；O-、S-或N-炔基；或O-烷基-O-烷基，其中烷基、烯基和炔基可以是取代或未取代的C1至C10烷基或C2至C10烯基和炔基。特别合适的是：O((CH2)nO)mCH3、O(CH2)nOCH3、O(CH2)nNH2、O(CH2)nCH3、O(CH2)nONH2和O(CH2)nON((CH2)nCH3)2，其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团：C1至C10低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药物代谢动力学特性的基团、或改进寡核苷酸的药效动力学特性的基团，以及其他具有相似特性的取代基。合适的修饰包括2’-甲氧基乙氧基(2'-O-CH2CH2OCH3，又称为2'-O-(2-甲氧基乙基)或2'-MOE)(Martin等人,Helv.Chim.Acta,1995,78,486-504，其公开内容以引用的方式整体并入本文)，即烷氧基烷氧基基团。另外合适的修饰包括2’-二甲基氨基氧基乙氧基，即O(CH2)2ON(CH3)2基团，又称为2'-DMAOE，如在下文的实施例中所述；和2’-二甲基氨基乙氧基乙氧基(在本领域中又称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE)，即2'-O-CH2-O-CH2-N(CH3)2。

[0257] 其他合适的糖取代基团包括甲氧基(-O-CH3)、氨基丙氧基(--OCH2CH2CH2NH2)、烯丙基(-CH2-CH＝CH2)、-O-烯丙基(--O--CH2—CH＝CH2)和氟(F)。2’-糖取代基团可处于阿拉伯糖(上)位或核糖(下)位。合适的2'-阿拉伯糖修饰是2'-F。还可在低聚化合物上的其他位置上做出相似的修饰，具体地在3'末端核苷上或在2'-5'连接的寡核苷酸中的糖的3'位置以及5'末端核苷酸的5'位置。低聚化合物还可具有替代呋喃戊糖的糖模拟物，诸如环丁基部分。

[0258] 碱基修饰和取代

[0259] 主题核酸还可包括核碱基(在本领域中常常简称为“碱基”)修饰或取代。如本文所用，“未修饰”或“天然”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。修饰的核碱基包括其他合成和天然的核碱基，诸如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物、2-硫尿嘧啶、2-硫胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基(-C＝C-CH3)尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、8-卤代基、8-氨基、8-巯基、8-硫烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代基(具体为5-溴代基)、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。另外的经修饰的核碱基包括三环嘧啶，诸如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)、G-夹诸如取代的吩噁嗪胞苷(例如
9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H-吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。

[0260] 杂环碱基部分还可包括其中嘌呤或嘧啶碱基被其他杂环替代的那些碱基，例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括公开于美国专利号3,687,808中的那些、公开于The Concise Encyclopedia Of Polymer Science And Engineering,第858-859页,Kroschwitz,J.I.编John Wiley&Sons,1990中的那些、由Englisch等人,Angewandte Chemie,International Edition,1991,30,613公开的那些以及由Sanghvi,Y.S.,第15章,Antisense Research and Applications,第289-302页,Crooke,S.T.和Lebleu,B.编,CRC Press,1993公开的那些，其公开内容以引用的方式整体并入本文。这些核碱基中的某些可用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶，6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤，包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示出使核酸双链体稳定性增加0.6℃-1.2℃(Sanghvi等人编,Antisense Research and Applications,CRC Press,Boca Raton,1993,第276-278页；其公开内容以引用的方式整体并入本文)并且例如当与2'-O-甲氧基乙基糖修饰组合时是适合的碱基取代。

[0261] 缀合物

[0262] 主题核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接到多核苷酸。这些部分或缀合物可包括共价结合到诸如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报道分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效动力学特性的基团以及增强低聚物药物代谢动力学特性的基团。合适的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效动力学特性的基团包括改进吸收、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药物代谢动力学特性的基团包括改进主题核酸的吸收、分布、代谢或排泄的基团。

[0263] 缀合物部分包括但不限于脂质部分，诸如胆固醇部分(Letsinger等人,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556)，胆酸(Manoharan等人,
Bioorg.Med.Chem.Let.,1994,4,1053-1060)，硫醚例如己基-S-三苯甲基硫醇(Manoharan等人,Ann.N.Y.Acad.Sci.,1992,660,306-309；Manoharan等人,Bioorg.Med.Chem.Let.,
1993,3,2765-2770)，巯基胆固醇(Oberhauser等人,Nucl.Acids Res.,1992,20,533-538)，脂族链例如十二烷二醇或十一烷基残基(Saison-Behmoaras等人,EMBO J.,1991,10,1111-
1118；Kabanov等人,FEBS Lett.,1990,259,327-330；Svinarchuk等人,Biochimie,1993,
75,49-54)，磷脂例如二-十六烷基-外消旋-甘油或三乙铵1,2-二-O-十六烷基-外消旋-甘油-3-H-磷酸酯(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654；Shea等人,Nucl.Acids Res.,1990,18,3777-3783)，多胺或聚乙二醇链(Manoharan等人,
Nucleosides&Nucleotides,1995,14,969-973)，或金刚烷乙酸(Manoharan等人,
Tetrahedron Lett.,1995,36,3651-3654)，棕榈基部分(Mishra等人,
Biochim.Biophys.Acta,1995,1264,229-237)，或十八烷基胺或己基氨基-羰基-羟基胆固醇部分(Crooke等人,J.Pharmacol.Exp.Ther.,1996,277,923-937)。

[0264] 缀合物可包括“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽)，其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜，例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器(例如，细胞核)内。在一些实施方案中，PTD与外源多核苷酸的3’末端共价连接。在一些实施方案中，PTD与外源多核苷酸的5’末端共价连接。示例性PTD包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR；SEQ ID NO:112的HIV-1TAT的残基47-57)；包含足以引入细胞中的数量的精氨酸(例如，3、4、5、6、7、8、9、10或10-50个精氨酸)的聚精氨酸序列；VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96)；果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes 52(7):1732-
1737)；截短的人类降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256)；聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008)；RRQRRTSKLMKR SEQ ID NO:113)；运输蛋白GWTLNSAGYLLGKINLKALAALAKKIL SEQ ID NO:114)；KALAWEAKLAKALAKALAKHLAKALAKALKCEA SEQ ID NO:115)；和RQIKIWFQNRRMKWKK SEQ ID NO:116)。示例性PTD包括但不限于YGRKKRRQRRR SEQ ID NO:117)、RKKRRQRRR SEQ ID NO:118)；具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物；示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个：YGRKKRRQRRR SEQ ID NO:119)；RKKRRQRR SEQ ID NO:120)；YARAAARQARA SEQ ID NO:121)；THRLPRRRRRR SEQ ID NO:122)；以及GGRRARRRRRR SEQ ID NO:123)。在一些实施方案中，PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月；1(5-
6):371-381)。ACPP包括通过可切割接头连接至匹配聚阴离子(例如，Glu9或“E9”)的聚阳离子CPP(例如，Arg9或“R9”)，这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。
当接头切割时，释放聚阴离子，局部暴露聚精氨酸和其固有的粘附性，从而“激活”ACPP以横穿膜。

[0265] 将组分引入靶细胞中

[0266] CasY指导RNA(或包含编码CasY指导RNA的核苷酸序列的核酸)和/或本公开的CasY多肽(或包含编码CasY多肽的核苷酸序列的核酸)和/或本公开的CasY融合多肽(或者包含编码本公开的CasY融合多肽的核苷酸序列的核酸)和/或供体多核苷酸(供体模板)可通过多种熟知的方法引入宿主细胞中。

[0267] 可使用多种化合物和方法中的任一种将本公开的CasY系统递送到靶细胞(例如，其中CasY系统包含：a)本公开的CasY多肽和CasY指导RNA；b)本公开的CasY多肽、CasY指导RNA和供体模板核酸；c)本公开的CasY融合多肽和CasY指导RNA；d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸；e)编码本公开的CasY多肽的mRNA和CasY指导RNA；f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸；g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA；h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸；i)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；j)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；k)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；l)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；q)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；
或者r)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者(a)到(r)中的一个的某一变型。作为非限制性实例，本公开的CasY系统可与脂质组合。作为另一个非限制性实例，本公开的CasY系统可与颗粒组合或配制成颗粒。

[0268] 将核酸引入到宿主细胞中的方法是本领域中已知的，并且可使用任何方便的方法来将主题核酸(例如，表达构建体/载体)引入到靶细胞(例如，原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等)中。适合的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如，Panyam等人Adv Drug Deliv Rev.2012年9月13日。pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。

[0269] 在一些情况下，本公开的CasY多肽作为编码CasY多肽的核酸(例如，mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下，本公开的CasY多肽直接作为蛋白质(例如，不与相关联的指导RNA一起或与相关联的指导RNA一起，即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CasY多肽引入细胞中(提供至细胞)；此类方法是本领域的普通技术人员已知的。作为说明性实例，可将本公开的CasY多肽直接注射到细胞中(例如，与或不与CasY指导RNA或编码CasY指导RNA的核酸一起，并且与或不与供体多核苷酸一起)。作为另一个实例，可将本公开的CasY多肽和CasY指导RNA的预先形成的复合物(RNP)引入细胞(例如，真核细胞)中(例如，通过注射、通过核转染；通过缀合到一种或多种组分的蛋白转导结构域(PTD)，例如缀合到CasY蛋白、缀合到指导RNA、缀合到本公开的CasY多肽和指导RNA；等)。

[0270] 在一些情况下，本公开的CasY融合多肽(例如，与融合配偶体融合的dCasY、与融合配偶体融合的切口酶CasY等)作为编码CasY融合多肽的核酸(例如，mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下，本公开的CasY融合多肽直接作为蛋白质(例如，不与相关联的指导RNA一起或与相关联的指导RNA一起，即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CasY融合多肽引入细胞中(提供至细胞)；此类方法是本领域的普通技术人员已知的。作为说明性实例，可将本公开的CasY融合多肽直接注射到细胞中(例如，与或不与编码CasY指导RNA的核酸一起，并且与或不与供体多核苷酸一起)。作为另一个实例，可将本公开的CasY融合多肽和CasY指导RNA的预先形成的复合物(RNP)引入细胞中(例如，通过注射、通过核转染；通过缀合到一种或多种组分的蛋白转导结构域(PTD)，例如缀合到CasY融合蛋白、缀合到指导RNA、缀合到本公开的CasY融合多肽和指导RNA；等)。

[0271] 在一些情况下，将核酸(例如，CasY指导RNA；包含编码本公开的CasY多肽的核苷酸序列的核酸等)递送到颗粒中的细胞(例如，靶宿主细胞)和/或多肽(例如，CasY多肽；CasY融合多肽)，或与颗粒缔合。在一些情况下，本公开的CasY系统被递送到颗粒中的细胞，或与颗粒缔合。术语“颗粒”和“纳米颗粒”可适当地互换使用。包含编码本公开的CasY多肽的核苷酸序列和/或CasY指导RNA的重组表达载体、包含编码本公开的CasY多肽的核苷酸序列的mRNA以及指导RNA可使用颗粒或脂质包膜同时递送；例如，CasY多肽和CasY指导RNA，例如作为复合物(例如，核糖核蛋白(RNP)复合物)可通过颗粒递送，例如通过包含脂质或类脂质以及亲水聚合物(例如，阳离子脂质和亲水聚合物)的递送颗粒递送，例如，其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱(DMPC)并且/或者其中亲水性聚合物包含乙二醇或聚乙二醇(PEG)；并且/或者其中颗粒还包含胆固醇(例如，来自制剂1的颗粒＝DOTAP 100、DMPC 0、PEG 0、胆固醇0；制剂编号2＝DOTAP 90、DMPC 0、PEG 10、胆固醇0；制剂编号3＝DOTAP 90、DMPC 0、PEG 5、胆固醇5)。例如，可使用多步骤方法形成颗粒，其中将CasY多肽和CasY指导RNA例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水(PBS)中混合在一起；并且适用于制剂的DOTAP、DMPC、PEG和胆固醇单独地溶于乙醇(例如，100％乙醇)，并且将两种溶液混合在一起以形成含有复合物的颗粒)。

[0272] 本公开的CasY多肽(或包含编码本公开的CasY多肽的核苷酸序列的mRNA；或包含编码本公开的CasY多肽的核苷酸序列的重组表达载体)和/或CasY指导RNA(或核酸，诸如一种或多种编码CasY指导RNA的表达载体)可使用颗粒或脂质包膜同时递送。例如，可使用具有由磷脂双层壳包封的聚(β-氨基酯)(PBAE)核的可生物降解的核壳结构的纳米颗粒。在一些情况下，使用基于自组装生物粘附聚合物的颗粒/纳米颗粒；此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送，例如递送到脑。还考虑了其他实施方案，诸如疏水药物的口服吸收和眼部递送。可使用分子包膜技术，其涉及受保护并递送至疾病部位的工程化聚合物包膜。可使用约5mg/kg的剂量，使用单剂量或多剂量，这取决于各种因素，例如靶组织。

[0273] 类脂质化合物(例如，如美国专利申请20110293703中所述)也可用于多核苷酸的施用，并且可用于递送本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统(例如，其中CasY系统包含：a)本公开的CasY多肽和CasY指导RNA；b)本公开的CasY多肽、CasY指导RNA和供体模板核酸；c)本公开的CasY融合多肽和CasY指导RNA；d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸；e)编码本公开的CasY多肽的mRNA和CasY指导RNA；f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸；g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA；h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸；i)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；j)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；k)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；
l)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；q)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者r)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者(a)到(r)中的一个的某一变型。在一方面，氨基醇类脂质化合物与待递送到细胞或受试者的药剂组合以形成微颗粒、纳米颗粒、脂质体或胶束。氨基醇类脂质化合物可以与其他氨基醇类脂质化合物、聚合物(合成的或天然的)、表面活性剂、胆固醇、碳水化合物、蛋白质、脂质等组合以形成颗粒。然后可任选地将这些颗粒与药物赋形剂组合以形成药物组合物。

[0274] 聚(β-氨基醇)(PBAA)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。美国专利公开号20130302401涉及使用组合聚合制备的一类聚(β-氨基醇)(PBAA)。

[0275] 可使用基于糖的颗粒，例如，如参考WO2014118272(以引用的方式并入本文)和Nair,J K等人,2014,Journal of the American Chemical Society 136(49),16958-16961)所述的GalNAc，可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。

[0276] 在一些情况下，使用脂质纳米颗粒(LNP)将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。带负电的聚合物(诸如RNA)可在低pH值(例如，pH 4)下装载到LNP中，其中可电离的脂质显示正电荷。然而，在生理pH值下，LNP表现出与较长的循环时间相容的低表面电荷。已经关注了四种可电离的阳离子脂质，即1,2-二亚油基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基-酮-N,N-二甲基-3-氨基丙烷(DLinKDMA)和1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)。LNP的制备描述于例如Rosin等人(2011)Molecular Therapy 19:1286-2200)中。可使用阳离子脂质1,2-二亚油基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)、(3-o-[2'’-(甲氧基聚乙二醇2000)琥珀酰基]-
1,2-二肉豆蔻酰基-sn-乙二醇(PEG-S-DMG)和R-3-[(.ω.-甲氧基-聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺(PEG-C-DOMG)。核酸(例如，CasY指导RNA；本公开的核酸等)可包封在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA(阳离子脂质:DSPC:
CHOL:PEGS-DMG或PEG-C-DOMG的摩尔比为40:10:40:10)的LNP中。在一些情况下，并入0.2％SP-DiOC18。

[0277] 球形核酸(SNATM)构建体和其他纳米颗粒(特别是金纳米颗粒)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞.。参见例如，Cutler等人,J.Am.Chem.Soc.2011 133:9254-9257，Hao等人,Small.20117:3158-3162，Zhang等人,ACS Nano.2011 5:6962-6970，Cutler等人,J.Am.Chem.Soc.2012 134:1376-1391，Young等人,Nano Lett.201212:3867-71，Zheng等人,Proc.Natl.Acad.Sci.USA.2012 109:11975-80，Mirkin,Nanomedicine 2012 7:635-638Zhang等人,J.Am.Chem.Soc.2012 134:16488-1691，Weintraub,Nature 2013 495:S14-S16，Choi等人,Proc.Natl.Acad.Sci.USA.2013 110(19):7625-7630，Jensen等人,Sci.Transl.Med.5,209ra152(2013)和Mirkin等人,Small,10:186-192。

[0278] 具有RNA的自组装纳米颗粒可用聚乙烯亚胺(PEI)构建，所述聚乙烯亚胺(PEI)用附接在聚乙二醇(PEG)远侧端部处的Arg-Gly-Asp(RGD)肽配体PEG化。

[0279] 一般来讲，“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些情况下，适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有500nm或更小，例如，25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或
400nm至500nm的直径。在一些情况下，适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有25nm至
200nm的直径。在一些情况下，适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有100nm或更小的直径。在一些情况下，适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有35nm至60nm的直径。

[0280] 适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒可以不同的形式提供，例如，作为固体纳米颗粒(例如，金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或其组合提供。可制备金属、介电和半导体纳米颗粒，以及混合结构(例如，核壳纳米颗粒)。由半导体材料制成的纳米颗粒也可标记为量子点，如果它们足够小(通常低于10nm)，则发生电子能级的量子化。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂，并且可适用于本公开中的相似目的。

[0281] 半固体和软纳米颗粒也适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。具有半固体性质的原型纳米颗粒是脂质体。

[0282] 在一些情况下，使用外泌体将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。外泌体是内源性纳米囊泡，其运输RNA和蛋白质，并且可将RNA递送到脑和其他靶器官。

[0283] 在一些情况下，使用脂质体将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。脂质体是球形囊泡结构，其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成；然而，磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时，脂质体形成是自发的，但是也可通过使用匀化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如，可将胆固醇或鞘磷脂添加到脂质体混合物中，以便帮助稳定脂质体结构并防止脂质体内部物质的泄漏。脂质体制剂可主要由以下组成：天然磷脂和脂质，诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱(DSPC)、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。

[0284] 稳定的核酸-脂质颗粒(SNALP)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。SNALP制剂可含有2:40:10:48摩尔百分比的脂质3-N-[(甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基-丙胺(PEG-C-DMA)、1,2-二亚油基氧基-N,N-二甲基-3-氨基丙烷(DLinDMA)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC)和胆固醇。可通过使用25:1的脂质/siRNA比和48/
40/10/2摩尔比的胆固醇/D-Lin-DMA/DSPC/PEG-C-DMA配制D-Lin-DMA和PEG-C-DMA以及二硬脂酰基磷脂酰胆碱(DSPC)、胆固醇和siRNA来制备SNALP脂质体。所得的SNALP脂质体的尺寸可以是约80-100nm。SNALP可包含合成胆固醇(Sigma-Aldrich,St Louis,Mo.,USA)、二棕榈酰磷脂酰胆碱(Avanti Polar Lipids,Alabaster,Ala.,USA)、3-N-[(w-甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙胺和阳离子1,2-二亚油基氧基-3-N,N二甲基氨基丙烷。SNALP可包含合成胆固醇(Sigma-Aldrich)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC；Avanti Polar Lipids Inc.)、PEG-cDMA和1,2-二亚油氧基-3-(N；N-二甲基)氨基丙烷(DLinDMA)。

[0285] 其他阳离子脂质，诸如氨基脂质2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧戊环(DLin-KC2-DMA)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。可考虑具有以下脂质组成的预成形的囊泡：摩尔比分别为40/10/40/10的并且FVII siRNA/总脂质比为大约0.05(w/w)的氨基脂质、二硬脂酰磷脂酰胆碱(DSPC)、胆固醇和(R)-2,3-双(十八烷氧基)丙基-1-(甲氧基聚(乙二醇)2000)丙基氨基甲酸酯(PEG-脂质)。为了确保在70-90nm范围内的窄粒径分布和0.11.+-.0.04(n＝56)的低多分散指数，可在添加指导RNA之前将颗粒通过80nm膜挤出最高达三次。可使用含有高效氨基脂质16的颗粒，其中四种脂质组分16、DSPC、胆固醇和PEG-脂质的摩尔比(50/10/38.5/1.5)可进一步优化以增强体内活性。

[0286] 脂质可用本公开的CasY系统或其一种或多种组分或编码其的核酸配制以形成脂质纳米颗粒(LNP)。合适的脂质包括但不限于DLin-KC2-DMA4、C12-200和糖脂，二硬脂酰磷脂酰胆碱、胆固醇和PEG-DMG可用本公开的CasY系统或其组分使用自发的囊泡形成过程配制。组分摩尔比可以是约50/10/38.5/1.5(DLin-KC2-DMA或C12-200/二硬脂酰磷脂酰胆碱/胆固醇/PEG-DMG)。

[0287] 本公开的CasY系统或其组分可包封在PLGA微球中递送，所述微球诸如在美国公布申请20130252281和20130245107和20130244279中进一步描述的微球。

[0288] 超电荷蛋白可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。超电荷蛋白是一类工程化或天然存在的蛋白质，其具有异常高的正或负净理论电荷。超负电荷蛋白和超正电荷蛋白均表现出耐受热或化学诱导的聚集的能力。超正电荷蛋白也能够穿透哺乳动物细胞。使物质与这些蛋白质(诸如质粒DNA、RNA或其他蛋白质)缔合可实现这些大分子在体外和体内向哺乳动物细胞的功能性递送。

[0289] 细胞穿透肽(CPP)可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。CPP通常具有以下氨基酸组成，其含有高相对丰度的带正电荷的氨基酸(诸如赖氨酸或精氨酸)，或者具有含有极性/带电荷氨基酸和非极性疏水氨基酸的交替模式的序列。

[0290] 可植入装置可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸(例如，CasY指导RNA、编码CasY指导RNA的核酸、编码CasY多肽的核酸、供体模板等)或本公开的CasY系统递送到靶细胞(例如，体内靶细胞，其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)。适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞(例如，体内靶细胞，其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)的可植入装置可包括容器(例如，储库、基质等)，其包含CasY多肽、CasY融合多肽、RNP或CasY系统(或其组分，例如，本公开的核酸)。

[0291] 合适的可植入装置可包括例如用作装置主体的聚合物基底(诸如基质)，并且在一些情况下包括另外的支架材料(诸如金属或另外的聚合物)，以及增强可见性和成像的材料。可植入递送装置可有利于在局部和长时间内提供释放，其中待递送的多肽和/或核酸直接释放至靶位点，例如细胞外基质(ECM)、肿瘤周围的脉管系统、病变组织等。合适的可植入递送装置包括适用于递送到腔(诸如腹腔)和/或其中药物递送系统未锚定或附接的任何其他类型的施用的装置，所述装置包括生物稳定的和/或可降解的和/或生物可吸收的聚合物基底，其可以例如任选地是基质。在一些情况下，合适的可植入药物递送装置包含可降解聚合物，其中主要释放机制是整体侵蚀。在一些情况下，合适的可植入药物递送装置包含不可降解或缓慢降解的聚合物，其中主要释放机制是扩散而不是整体侵蚀，使得外部部分起到膜的功能并且其内部部分用作药物储库，实际上，所述药物储库长时间内(例如约一周至约几个月)不会受到周围环境的影响。也可任选地使用具有不同释放机制的不同聚合物的组合。在总释放期的有效期内，浓度梯度可保持有效恒定，并且因此扩散速率是有效恒定的(称为“零模式”扩散)。术语“恒定”意指扩散速率维持高于治疗有效性的下阈值，但其仍然任选地以初始突发为特征和/或可波动，例如增加和降低到某一程度。扩散速率可长时间这样维持，并且可认为扩散速率恒定到某一水平以优化治疗有效期，例如有效的沉默期。

[0292] 在一些情况下，可植入递送系统被设计成保护基于核苷酸的治疗剂免于降解，无论是化学性质还是由于受试者体内酶和其他因素的攻击的降解。

[0293] 可选择装置的植入位点或靶位点，用于获得最大的治疗功效。例如，递送装置可植入在肿瘤环境内或附近，或者与肿瘤相关联的血液供给内或附近。靶位置可以是，例如：1)大脑退化位点，像在基底神经节、白质和灰质处的帕金森病或阿尔茨海默病中；2)脊柱，如在肌萎缩侧索硬化症(ALS)的情况下；3)子宫颈；4)活动性和慢性炎症关节；5)真皮，如在牛皮癣的情况下；7)交感神经和感觉神经位点，用于镇痛作用；7)骨；8)急性或慢性感染位点；9)阴道内；10)内耳-听觉系统、内耳迷路、前庭系统；11)气管内；12)心内；冠状动脉、心外膜；13)泌尿道或膀胱；14)胆系统；15)实质组织，包括但不限于肾、肝、脾；16)淋巴结；17)唾液腺；18)牙龈；19)关节内(到关节中)；20)眼内；21)脑组织；22)脑室；23)腔，包括腹腔(例如但不限于卵巢癌)；24)食管内；和25)直肠内；和26)到脉管系统中。

[0294] 插入方法(诸如植入)可任选地已经用于其他类型的组织植入和/或用于插入和/或用于组织取样，任选地无需修改，或者可替代地仅在此类方法中任选地进行非主要修改。此类方法任选地包括但不限于短距离放射治疗方法、活组织检查、使用和/或不使用超声的内窥镜检查(诸如进入脑组织的立体定位方法)、腹腔镜检查(包括用腹腔镜植入关节、腹部器官、膀胱壁和体腔中)。

[0295] 经修饰的宿主细胞

[0296] 本公开提供一种经修饰的细胞，其包含本公开的CasY多肽和/或包含编码本公开的CasY多肽的核苷酸序列的核酸。本公开提供一种经修饰的细胞，其包含本公开的CasY多肽，其中所述经修饰的细胞是通常不包含本公开的CasY多肽的细胞。本公开提供一种经修饰的细胞(例如，经遗传修饰的细胞)，其包含核酸，所述核酸包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用mRNA遗传修饰的经遗传修饰细胞，所述mRNA包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞，所述重组表达载体包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞，所述重组表达载体包含：a)编码本公开的CasY多肽的核苷酸序列；和b)编码本公开的CasY指导RNA的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞，所述重组表达载体包含：a)编码本公开的CasY多肽的核苷酸序列；b)编码本公开的CasY指导RNA的核苷酸序列；和c)编码供体模板的核苷酸序列。

[0297] 用作本公开的CasY多肽和/或包含编码本公开的CasY多肽和/或本公开的CasY指导RNA的核苷酸序列的核酸的受体的细胞可以是多种细胞中的任一种，其包括例如体外细胞；体内细胞；离体细胞；原代细胞；癌细胞；动物细胞；植物细胞；藻类细胞；真菌细胞等。用作本公开的CasY多肽和/或包含编码本公开的CasY多肽和/或本公开的CasY指导RNA的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本公开的CasY系统的受体。宿主细胞或靶细胞可以是本公开的CasY RNP的受体。宿主细胞或靶细胞可以是本公开的CasY系统的单一组分的受体。

[0298] 细胞(靶细胞)的非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如，来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、C.agardh等)、海藻(例如巨藻(kelp))、真菌细胞(例如，酵母细胞，来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如，有蹄类动物(例如，猪、牛、山羊、绵羊)；啮齿动物(例如，大鼠、小鼠)；非人灵长类动物；人类；猫科动物(例如，猫)；犬(例如，狗)等)的细胞等。在一些情况下，细胞是不来源于天然生物体的细胞(例如，细胞可以是合成的细胞；也称为人造细胞)。

[0299] 细胞可以是体外细胞(例如，建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如，个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如，体外细胞培养物)中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。

[0300] 合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞；生殖细胞(例如，卵母细胞、精子、卵原细胞、精原细胞等)；体细胞，例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。

[0301] 合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。

[0302] 在一些情况下，细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下，免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下，免疫细胞是细胞毒性T细胞。在一些情况下，免疫细胞是辅助性T细胞。在一些情况下，免疫细胞是调节T细胞(Treg)。

[0303] 在一些情况下，细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。

[0304] 成体干细胞驻留在分化组织中，但保留自我更新的特性和产生多种细胞类型的能力，通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的，包括肌肉干细胞；造血干细胞；上皮干细胞；神经干细胞；间充质干细胞；乳腺干细胞；肠干细胞；中胚层干细胞；内皮干细胞；嗅干细胞；神经嵴干细胞等。

[0305] 感兴趣的干细胞包括哺乳动物干细胞，其中术语“哺乳动物”是指被分类为哺乳动物的任何动物，包括人类；非人灵长类动物；家畜和农场动物；以及动物园、实验室、运动或宠物动物，诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下，干细胞是人干细胞。在一些情况下，干细胞是啮齿动物(例如，小鼠；大鼠)干细胞。在一些情况下，干细胞是非人灵长类动物干细胞。

[0306] 干细胞可表达一种或多种干细胞标记，例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。

[0307] 在一些实施方案中，干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞，其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外，可诱导HSC经历至少一些自我更新的细胞分裂，并且可诱导HSC分化成与体内所见相同的谱系。因此，可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。

[0308] 在其他实施方案中，干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞，并且在特定条件下可产生作为神经干细胞的子细胞，或者可以是成神经细胞或成胶质细胞的神经祖细胞，例如，分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。

[0309] 在其他实施方案中，干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离，可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的；并且可使用任何已知的方法来获得MSC。参见例如，美国专利号5,736,396，其描述了人类MSC的分离。

[0310] 在一些情况下，细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。

[0311] 在一些情况下，细胞是植物细胞。例如，细胞可以是主要农业植物的细胞，例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例，细胞是蔬菜作物的细胞，所述蔬菜作物包括但不限于例如，苜蓿芽、芦荟叶、葛根(arrow root)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalem artichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。

[0312] 在一些情况下，细胞是节肢动物细胞。例如，细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞：例如，有螯肢亚门(Chelicerata)、多足亚门(Myriapodia)、Hexipodia、蛛形纲(Arachnida)、昆虫纲(Insecta)、石蛃目(Archaeognatha)、缨尾目(Thysanura)、古翅下纲(Palaeoptera)、蜉蝣目(Ephemeroptera)、蜻蜓目(Odonata)、差翅亚目(Anisoptera)、束翅亚目(Zygoptera)、新翅亚纲(Neoptera)、外翅总目(Exopterygota)、襀翅目(Plecoptera)、纺足目(Embioptera)、直翅目(Orthoptera)、缺翅目(Zoraptera)、革翅目(Dermaptera)、网翅目(Dictyoptera)、蛩蠊目(Notoptera)、蛩蠊科(Grylloblattidae)、螳科(Mantophasmatidae)、竹节虫目(Phasmatodea)、蜚蠊目(Blattaria)、等翅目(Isoptera)、螳螂目(Mantodea)、Parapneuroptera、啮虫目(Psocoptera)、缨翅目(Thysanoptera)、虱毛目(Phthiraptera)、半翅目(Hemiptera)、内翅类(Endopterygota)或全变态类(Holometabola)、膜翅目(Hymenoptera)、鞘翅目
(Coleoptera)、捻翅目(Strepsiptera)、蛇蛉目(Raphidioptera)、广翅目(Megaloptera)、脉翅目(Neuroptera)、长翅目(Mecoptera)、蚤目(Siphonaptera)、双翅目(Diptera)、毛翅目(Trichoptera)或鳞翅目(Lepidoptera)。

[0313] 在一些情况下，细胞是昆虫细胞。例如，在一些情况下，细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。

[0314] 试剂盒

[0315] 本公开提供一种试剂盒，其包含本公开的CasY系统或本公开的CasY系统的组分。

[0316] 本公开的试剂盒可包含：a)本公开的CasY多肽和CasY指导RNA；b)本公开的CasY多肽、CasY指导RNA和供体模板核酸；c)本公开的CasY融合多肽和CasY指导RNA；d)本公开的CasY融合多肽、CasY指导RNA和供体模板核酸；e)编码本公开的CasY多肽的mRNA和CasY指导RNA；f)编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸；g)编码本公开的CasY融合多肽的mRNA和CasY指导RNA；h)编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸；i)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；j)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；k)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列；l)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列；m)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；n)包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；o)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体；p)包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体，以及供体模板核酸；q)重组表达载体，其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者r)重组表达载体，其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列；或者(a)到(r)中的一个的某一变型。

[0317] 本公开的试剂盒可包含：a)如上所述的本公开的CasY系统的组分，或者可包含本公开的CasY系统；和b)一种或多种另外的试剂，例如，i)缓冲液；ii)蛋白酶抑制剂；iii)核酸酶抑制剂；iv)开发或可视化可检测标签所需的试剂；v)阳性和/或阴性对照靶DNA；vi)阳性和/或阴性对照CasY指导RNA等。本公开的试剂盒可包含：a)如上所述的本公开的CasY系统的组分，或者可包含本公开的CasY系统；和b)治疗剂。

[0318] 本公开的试剂盒可包含重组表达载体，其包含：a)用于插入核酸的插入位点，所述核酸包含编码CasY指导RNA的一部分的核苷酸序列，所述CasY指导RNA的一部分与靶核酸中的靶核苷酸序列杂交；和b)编码CasY指导RNA的CasY结合部分的核苷酸序列。本公开的试剂盒可包含重组表达载体，其包含：a)用于插入核酸的插入位点，所述核酸包含编码CasY指导RNA的一部分的核苷酸序列，所述CasY指导RNA的一部分与靶核酸中的靶核苷酸序列杂交；b)编码CasY指导RNA的CasY结合部分的核苷酸序列；和c)编码本公开的CasY多肽的核苷酸序列。

[0319] 实用性

[0320] 本公开的CasY多肽或本公开的CasY融合多肽可用于多种方法(例如，与CasY指导RNA组合，并且在一些情况下还与供体模板组合)。例如，本公开的CasY多肽可用于(i)修饰(例如切割，例如切口；甲基化等)靶核酸(DNA或RNA；单链或双链)；(ii)调节靶核酸的转录；(iii)标记靶核酸；(iv)结合靶核酸(例如，用于分离、标记、成像、追踪等的目的)；(v)修饰与靶核酸相关联的多肽(例如，组蛋白)等。因此，本公开提供一种修饰靶核酸的方法。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触：a)本公开的CasY多肽；和b)一种或多种(例如，两种)CasY指导RNA。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触：a)本公开的CasY多肽；b)CasY指导RNA；和c)供体核酸(例如，供体模板)。在一些情况下，接触步骤在体外细胞中进行。在一些情况下，接触步骤在体内细胞中进行。在一些情况下，接触步骤在离体细胞中进行。

[0321] 因为使用CasY多肽的方法包括将CasY多肽与靶核酸中的特定区域结合(通过相关联的CasY指导RNA靶向靶核酸中的特定区域)，所述方法在本文中通常称为结合方法(例如，结合靶核酸的方法)。然而，应理解在一些情况下，虽然结合方法可能无非是导致靶核酸的结合，但在其他情况下，所述方法可具有不同的最终结果(例如，所述方法可导致靶核酸的修饰(例如切割/甲基化等)，靶核酸转录的调节；靶核酸翻译的调节；基因组编辑；与靶核酸相关联的蛋白质的调节；靶核酸的分离等)。

[0322] 对于合适的方法的实例，参见例如，Jinek等人,Science.2012年8月17日；337(6096):816-21；Chylinski等人,RNA Biol.2013年5月；10(5):726-37；Ma等人,Biomed Res Int.2013；2013:270805；Hou等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15644-9；Jinek等人,Elife.2013；2:e00471；Pattanayak等人,Nat Biotechnol.2013年9月；31(9):839-43；Qi等人,Cell.2013年2月28日；152(5):1173-83；Wang等人,Cell.2013年
5月9日；153(4):910-8；Auer等人,Genome Res.2013年10月31日；Chen等人,Nucleic Acids Res.2013年11月1日；41(20):e19；Cheng等人,Cell Res.2013年10月；23(10):1163-71；Cho等人,Genetics.2013年11月；195(3):1177-80；DiCarlo等人,Nucleic Acids Res.2013年4月；41(7):4336-43；Dickinson等人,Nat Methods.2013年10月；10(10):1028-34；Ebina等人,Sci Rep.2013；3:2510；Fujii等人,Nucleic Acids Res.2013年11月1日；41(20):e187；
Hu等人,Cell Res.2013年11月；23(11):1322-5；Jiang等人,Nucleic Acids Res.2013年11月1日；41(20):e188；Larson等人,Nat Protoc.2013年11月；8(11):2180-96；Mali等人,Nat Methods.2013年10月；10(10):957-63；Nakayama等人,Genesis.2013年12月；51(12):835-
43；Ran等人,Nat Protoc.2013年11月；8(11):2281-308；Ran等人,Cell.2013年9月12日；
154(6):1380-9；Upadhyay等人,G3(Bethesda).2013年12月9日；3(12):2233-8；Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15514-5；Xie等人,Mol Plant.2013年10月9日；Yang等人,Cell.2013年9月12日；154(6):1370-9；以及美国专利和专利申请：8,
906,616；8,895,308；8,889,418；8,889,356；8,871,445；8,865,406；8,795,965；8,771,
945；8,697,359；20140068797；20140170753；20140179006；20140179770；20140186843；
20140186919；20140186958；20140189896；20140227787；20140234972；20140242664；
20140242699；20140242700；20140242702；20140248702；20140256046；20140273037；
20140273226；20140273230；20140273231；20140273232；20140273233；20140273234；
20140273235；20140287938；20140295556；20140295557；20140298547；20140304853；
20140309487；20140310828；20140310830；20140315985；20140335063；20140335620；
20140342456；20140342457；20140342458；20140349400；20140349405；20140356867；
20140356956；20140356958；20140356959；20140357523；20140357530；20140364333；和
20140377868；所述专利各自均特此以引用的方式整体并入。

[0323] 例如，本公开提供(但不限于)切割靶核酸的方法；编辑靶核酸的方法；调节靶核酸转录的方法；分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。

[0324] 如本文所用，术语/短语“使靶核酸，例如，与CasY多肽或与CasY融合多肽等接触”，涵盖用于接触靶核酸的所有方法。例如，可将CasY多肽作为蛋白质、RNA(编码CasY多肽)或DNA(编码CasY多肽)提供给细胞；而CasY指导RNA可作为指导RNA或编码指导RNA的核酸提供。因此，当例如在细胞中(例如，在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时，包括接触靶核酸的方法涵盖将处于其活性/最终状态(例如，呈CasY多肽的一种或多种蛋白质形式；呈CasY融合多肽的蛋白质形式；在一些情况下呈指导RNA的RNA形式)的任何或所有组分引入细胞中，并且还涵盖将编码一种或多种组分的一种或多种核酸(例如，一种或多种包含编码CasY多肽或CasY融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种指导RNA的一种或多种核苷酸序列的核酸、包含编码供体模板的核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外细胞外部执行，所以包括接触靶核酸的方法(除非另外指明)涵盖在体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部接触等。

[0325] 在一些情况下，本公开的用于修饰靶核酸的方法包括将CasY基因座(例如，包含编码CasY多肽的核苷酸序列以及包围编码CasY的核苷酸序列的长度为约1千碱基(kb)至5kb的核苷酸序列的核酸)从包含CasY基因座的细胞(例如，在一些情况下，在其天然状态(它在自然界中出现的状态)下包含CasY基因座的细胞)引入靶细胞中，其中所述靶细胞通常(在其天然状态下)不包含CasY基因座。然而，可修饰编码针对所编码的一个或多个crRNA的指导序列的一个或多个间隔序列，使得靶向感兴趣的一个或多个靶序列。因此，例如，在一些情况下，本公开的用于修饰靶核酸的方法包括将CasY基因座(例如，从源细胞(例如，在一些情况下，在其天然状态(它在自然界中出现的状态)下包含CasY基因座的细胞)获得的核酸)引入靶细胞中，其中所述核酸具有长度为100个核苷酸(nt)至5kb(例如，长度为100nt至500nt、500nt至1kb、1kb至1.5kb、1.5kb至2kb、2kb至2.5kb、2.5kb至3kb、3kb至3.5kb、3.5kb至4kb或4kb至5kb)的长度并且包含编码CasY多肽的核苷酸序列。如上所述，在一些此类情况下，可修饰编码针对所编码的一个或多个crRNA的指导序列的一个或多个间隔序列，使得靶向感兴趣的一个或多个靶序列。在一些情况下，所述方法包括将以下物质引入靶细胞中：
i)CasY基因座；和ii)供体DNA模板。在一些情况下，靶核酸在体外在无细胞组合物中。在一些情况下，靶核酸存在于靶细胞中。在一些情况下，靶核酸存在于靶细胞中，其中靶细胞是原核细胞。在一些情况下，靶核酸存在于靶细胞中，其中靶细胞是真核细胞。在一些情况下，靶核酸存在于靶细胞中，其中靶细胞是哺乳动物细胞。在一些情况下，靶核酸存在于靶细胞中，其中靶细胞是植物细胞。

[0326] 在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasY多肽或本公开的CasY融合多肽接触。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与CasY多肽和CasY指导RNA接触。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与CasY多肽、第一CasY指导RNA和第二CasY指导RNA接触。在一些情况下，本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasY多肽和CasY指导RNA和供体DNA模板接触。

[0327] 感兴趣的靶核酸和靶细胞

[0328] 当与CasY指导RNA结合时，本公开的CasY多肽或本公开的CasY融合多肽可结合靶核酸，并且在一些情况下，可结合并修饰靶核酸。靶核酸可以是任何核酸(例如，DNA、RNA)，可以是双链或单链的，可以是任何类型的核酸(例如，染色体(基因组DNA)、衍生自染色体、染色体DNA、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如，只要CasY指导RNA包含与靶核酸中的靶序列杂交的核苷酸序列，使得靶核酸可被靶向即可)。

[0329] 靶核酸可以是DNA或RNA。靶核酸可以是双链的(例如，dsDNA、dsRNA)或单链的(例如，ssRNA、ssDNA)。在一些情况下，靶核酸是单链的。在一些情况下，靶核酸是单链RNA(ssRNA)。在一些情况下，靶ssRNA(例如，靶细胞ssRNA、病毒ssRNA等)选自：mRNA、rRNA、tRNA、非编码RNA(ncRNA)、长非编码RNA(lncRNA)和微小RNA(miRNA)。在一些情况下，靶核酸是单链DNA(ssDNA)(例如，病毒DNA)。如上所指出，在一些情况下，靶核酸是单链的。

[0330] 靶核酸可位于任何地方，例如，体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部。合适的靶细胞(其可包含靶核酸，诸如基因组DNA)包括但不限于：细菌细胞；古细菌细胞；单细胞真核生物体的细胞；植物细胞；藻类细胞，例如，布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等；真菌细胞(例如，酵母细胞)；动物细胞；来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞；昆虫(例如，蚊子；蜜蜂；农业害虫等)的细胞；蛛形纲动物(例如，蜘蛛；蜱等)的细胞；来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞；来自哺乳动物的细胞(例如，来自啮齿动物的细胞；来自人类的细胞；非人哺乳动物的细胞；啮齿动物(例如，小鼠、大鼠)的细胞；兔形目动物(例如，兔)的细胞；有蹄类动物(例如，牛、马、骆驼、美洲驼、骆马绵羊、山羊等)的细胞；海洋哺乳动物(例如，鲸鱼、海豹、象海豹、海豚、海狮等)的细胞等。任何类型的细胞都可以是感兴趣的(例如干细胞、例如胚胎干(ES)细胞、诱导多能干(iPS)细胞、生殖细胞(例如，卵母细胞、精子、卵原细胞、精原细胞等)、成体干细胞、体细胞(例如，成纤维细胞)、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞；在任何阶段下胚胎的体外或体内胚胎细胞(例如，1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎)等)。

[0331] 细胞可来自已建立的细胞系或它们可以是原代细胞，其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用，是指衍生自受试者并且允许培养物在体外生长有限次数的传代(即，分裂)的细胞和细胞培养物。例如，原代培养物是可传代0次、1次、2次、4次、5次、10次或15次但不足以通过转折期的次数的培养物。通常，原代细胞系在体外维持少于10代。靶细胞可以是单细胞生物体并且/或者可在培养物中生长。如果细胞为原代细胞，它们可通过任何方便方法从个体收获。例如，白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获，而来自组织(诸如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等)的细胞可通过活组织检查方便地收获。

[0332] 在上述申请的一些中，主题方法可用于在体内和/或离体和/或体外的有丝分裂细胞或有丝分裂后细胞中诱导靶核酸切割、靶核酸修饰和/或结合靶核酸(例如，用于可视化，用于采集和/或分析等)(例如，以破坏由靶向mRNA编码的蛋白质的产生，以切割或以其他方式修饰靶DNA，以遗传修饰靶细胞等)。因为指导RNA通过与靶核酸杂交来提供特异性，所以所公开的方法中感兴趣的有丝分裂细胞和/或有丝分裂后细胞可包括来自任何生物体的细胞(例如，细菌细胞；古细菌细胞；单细胞真核生物体的细胞；植物细胞；藻类细胞，例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等；真菌细胞(例如，酵母细胞)；动物细胞；来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞；来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞；来自哺乳动物的细胞；来自啮齿动物的细胞；来自人类的细胞等)。在一些情况下，可将主题CasY蛋白(和/或编码蛋白质的核酸，诸如DNA和/或RNA)和/或CasY指导RNA(和/或编码指导RNA的DNA)和/或供体模板和/或RNP引入个体(即，靶细胞可在体内)(例如，哺乳动物、大鼠、小鼠、猪、灵长类动物、非人灵长类动物、人类)中。在一些情况下，这种施用可例如通过编辑靶向细胞的基因组用于治疗和/或预防疾病的目的。

[0333] 植物细胞包括单子叶植物细胞和双子叶植物细胞。细胞可以是根细胞、叶细胞、木质部细胞、韧皮部细胞、形成层细胞、顶端分生组织细胞、实质细胞、厚角组织细胞、厚壁组织细胞等。植物细胞包括农作物的细胞，诸如小麦、玉米、大米、高粱、小米、大豆等的细胞。植物细胞包括农业水果和坚果植物的细胞，例如产生杏、橙子、柠檬、苹果、李子、梨、杏仁等的植物的细胞。

[0334] 靶细胞的其他实例在上文标题为“修饰的细胞”的部分中列出。细胞(靶细胞)的非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如，来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、C.agardh等)、海藻(例如巨藻(kelp))、真菌细胞(例如，酵母细胞，来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如，有蹄类动物(例如，猪、牛、山羊、绵羊)；啮齿动物(例如，大鼠、小鼠)；非人灵长类动物；人类；猫科动物(例如，猫)；犬(例如，狗)等)的细胞等。在一些情况下，细胞是不来源于天然生物体的细胞(例如，细胞可以是合成的细胞；也称为人造细胞)。

[0335] 细胞可以是体外细胞(例如，建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如，个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如，体外细胞培养物)中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。

[0336] 合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞；生殖细胞(例如，卵母细胞、精子、卵原细胞、精原细胞等)；体细胞，例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。

[0337] 合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。

[0338] 在一些情况下，细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下，免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下，免疫细胞是细胞毒性T细胞。在一些情况下，免疫细胞是辅助性T细胞。在一些情况下，免疫细胞是调节T细胞(Treg)。

[0339] 在一些情况下，细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。

[0340] 成体干细胞驻留在分化组织中，但保留自我更新的特性和产生多种细胞类型的能力，通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的，包括肌肉干细胞；造血干细胞；上皮干细胞；神经干细胞；间充质干细胞；乳腺干细胞；肠干细胞；中胚层干细胞；内皮干细胞；嗅干细胞；神经嵴干细胞等。

[0341] 感兴趣的干细胞包括哺乳动物干细胞，其中术语“哺乳动物”是指被分类为哺乳动物的任何动物，包括人类；非人灵长类动物；家畜和农场动物；以及动物园、实验室、运动或宠物动物，诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下，干细胞是人干细胞。在一些情况下，干细胞是啮齿动物(例如，小鼠；大鼠)干细胞。在一些情况下，干细胞是非人灵长类动物干细胞。

[0342] 干细胞可表达一种或多种干细胞标记，例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。

[0343] 在一些实施方案中，干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞，其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外，可诱导HSC经历至少一些自我更新的细胞分裂，并且可诱导HSC分化成与体内所见相同的谱系。因此，可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。

[0344] 在其他实施方案中，干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞，并且在特定条件下可产生作为神经干细胞的子细胞，或者可以是成神经细胞或成胶质细胞的神经祖细胞，例如，分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。

[0345] 在其他实施方案中，干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离，可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的；并且可使用任何已知的方法来获得MSC。参见例如，美国专利号5,736,396，其描述了人类MSC的分离。

[0346] 在一些情况下，细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。

[0347] 在一些情况下，细胞是植物细胞。例如，细胞可以是主要农业植物的细胞，例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例，细胞是蔬菜作物的细胞，所述蔬菜作物包括但不限于例如，苜蓿芽、芦荟叶、葛根(arrow root)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalem artichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。

[0348] 在一些情况下，细胞是节肢动物细胞。例如，细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞：例如，有螯肢亚门、多足亚门、Hexipodia、蛛形纲、昆虫纲、石蛃目、缨尾目、古翅下纲、蜉蝣目、蜻蜓目、差翅亚目、束翅亚目、新翅亚纲、外翅总目、襀翅目、纺足目、直翅目、缺翅目、革翅目、网翅目、蛩蠊目、蛩蠊科、螳科、竹节虫目、蜚蠊目、等翅目、螳螂目、Parapneuroptera、啮虫目、缨翅目、虱毛目、半翅目、内翅类或全变态类、膜翅目、鞘翅目、捻翅目、蛇蛉目、广翅目、脉翅目、长翅目、蚤目、双翅目、毛翅目或鳞翅目。

[0349] 在一些情况下，细胞是昆虫细胞。例如，在一些情况下，细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。

[0350] 将组分引入靶细胞中

[0351] 可通过多种熟知的方法中的任一种将Cas9指导RNA(或包含编码Cas9指导RNA的核苷酸序列的核酸)和/或Cas9融合多肽(或包含编码Cas9融合多肽的核苷酸序列的核酸)和/或供体多核苷酸引入宿主细胞中。

[0352] 将核酸引入细胞中的方法是本领域中已知的，并且可使用任何方便的方法来将核酸(例如，表达构建体)引入靶细胞(例如，真核细胞、人细胞、干细胞、祖细胞等)中。合适的方法在本文其他地方更详细地描述并且包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如，Panyam等人Adv Drug Deliv Rev.2012年9月13日。pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。可使用已知方法(诸如核转染)，将任何或所有组分作为组合物(例如，包括CasY多肽、CasY指导RNA、供体多核苷酸等的任何方便的组合)引入细胞中。

[0353] 供体多核苷酸(供体模板)

[0354] 在CasY指导RNA的指导下，CasY蛋白在一些情况下在双链DNA(dsDNA)靶核酸内生成位点特异性双链断裂(DSB)或单链断裂(SSB)(例如，当CasY蛋白是切口酶变体时)，其通过非同源末端连接(NHEJ)或同源定向重组(HDR)修复。

[0355] 在一些情况下，接触靶DNA(与CasY蛋白和CasY指导RNA接触)在允许非同源末端连接或同源定向修复的条件下发生。因此，在一些情况下，主题方法包括使靶DNA与供体多核苷酸接触(例如，通过将供体多核苷酸引入细胞中)，其中将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。在一些情况下，所述方法不包括使细胞与供体多核苷酸接触，并且修饰靶DNA使得靶DNA内的核苷酸缺失。

[0356] 在一些情况下，CasY指导RNA(或编码CasY指导RNA的DNA)和CasY蛋白(或编码CasY蛋白的核酸，诸如RNA或DNA，例如，一种或多种表达载体)与供体多核苷酸序列共同施用(例如，与靶核酸接触、施用到细胞等)，所述供体多核苷酸序列包括与靶DNA序列同源的至少一个区段，主题方法可用来将核酸物质添加(即插入或替代)到靶DNA序列(例如以“敲入”编码蛋白质、siRNA、miRNA的核酸等)，添加标签(例如，6xHis、荧光蛋白(例如，绿色荧光蛋白；黄色荧光蛋白等)、血凝素(HA)、FLAG等)，将调节序列添加到基因(例如启动子、聚腺苷酸化信号、内部核糖体进入序列(IRES)、2A肽、起始密码子、终止密码子、剪接信号、定位信号等)，修饰核酸序列(例如，引入突变、通过引入正确的序列去除致病突变)等。因此，包含CasY指导RNA和CasY蛋白的复合物可用于任何体外或体内应用中，在所述应用中希望以位点特异性(即“靶向的”)方式修饰DNA，例如基因敲除、基因敲入、基因编辑、基因标签等，例如，如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法，农业中遗传修饰的生物体的生产，出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产，iPS细胞诱导，生物研究，用于缺失或替代的病原体基因的靶向等中所使用的。

[0357] 在其中希望将多核苷酸序列插入靶序列被切割的基因组中的应用中，还可向细胞提供供体多核苷酸(包含供体序列的核酸)。“供体序列”或“供体多核苷酸”或“供体模板”意指在CasY蛋白切割的位点处插入的核酸序列(例如，在dsDNA切割之后、对靶DNA进行切口之后、对靶DNA进行双切口之后等)。供体多核苷酸可与靶位点处的基因组序列含有足够的同源性(例如与侧接靶位点的核苷酸序列，例如在靶位点的约50个或更少的碱基内(例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内)或直接侧接靶位点的核苷酸序列，具有70％、80％、85％、90％、95％或100％同源性)，以支持所述供体多核苷酸与和其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25、50、100或200个核苷酸或多于200个核苷酸(或10与200之间任何整数值的核苷酸或更多)可支持同源定向修复。供体多核苷酸可具有任何长度，例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。

[0358] 供体序列通常不与它替代的基因组序列相同。而且，供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排，只要存在足够同源性以支持同源定向修复即可(例如，用于基因校正，例如，以转化致病碱基对或非致病碱基对)。在一些实施方案中，供体序列包含侧接两个同源区域的非同源序列，以使得靶DNA区域与两个侧接序列之间的同源定向修复导致在靶区域处插入非同源序列。供体序列还可包含载体骨架，所述载体骨架含有不与感兴趣的DNA区域同源并且不意图插入到感兴趣的DNA区域中的序列。通常，供体序列的一个或多个同源区将与希望与其重组的基因组序列具有至少50％的序列同一性。在某些实施方案中，存在60％、70％、80％、90％、95％、98％、99％或99.9％的序列同一性。根据供体多核苷酸的长度，可存在1％与100％之间的任何值的序列同一性。

[0359] 供体序列与基因组序列相比可包含某些序列差异，例如限制位点、核苷酸多态性、可选择标记(例如，抗药基因、荧光蛋白、酶等)等，所述序列差异可用来评价供体序列在切割位点处的成功插入或在一些情况下可用于其他目的(例如，表示靶向基因组基因座处的表达)。在一些情况下，如果位于编码区中，此类核苷酸序列差异将不会改变氨基酸序列，或将产生沉默氨基酸变化(即，不影响蛋白质结构或功能的变化)。可替代地，这些序列差异可包括侧接重组序列，诸如FLP、loxP序列等，所述侧接重组序列可在去除标记序列之后的时间里激活。

[0360] 在一些情况下，供体序列作为单链DNA提供给细胞。在一些情况下，供体序列作为双链DNA提供给细胞。它可以线性或环状形式引入细胞中。如果以线性形式引入，供体序列的末端可通过任何方便的方法来保护(例如，免受核酸外切降解)，并且此类方法是本领域的技术人员已知的。例如，可将一个或多个双脱氧核苷酸残基添加到线性分子的3’端，并且/或者可将自身互补寡核苷酸连接到一个或两个末端。(参见例如，Chang等人(1987)Proc.Natl.Acad Sci USA 84:4959-4963；Nehls等人(1996)Science 272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加一个或多个末端氨基和使用修饰的核苷酸间键，例如像硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案，可在同源区外部包括额外长度的序列，所述序列可在不影响重组的情况下降解。可将供体序列作为载体分子的一部分引入细胞中，所述载体分子具有另外的序列，例如像复制起点、启动子和编码抗生素耐药性的基因。此外，供体序列可作为裸核酸、作为与药剂(诸如脂质体或泊洛沙姆)复合的核酸引入，或者可通过病毒(例如，腺病毒AAV)来递送，如本文其他地方对于编码CasY指导RNA和/或CasY融合多肽和/或供体多核苷酸的核酸所述。

[0361] 转基因非人生物体

[0362] 如上所述，在一些情况下，本公开的核酸(例如，重组表达载体)(例如，包含编码本公开的CasY多肽的核苷酸序列的核酸；包含编码本公开的CasY融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因非人生物体，其产生本公开的CasY多肽或CasY融合多肽。本公开提供一种转基因非人生物体，其包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。

[0363] 转基因非人动物

[0364] 本公开提供一种转基因非人动物，所述动物包含转基因，其包含含有编码CasY多肽或CasY融合多肽的核苷酸序列的核酸。在一些实施方案中，转基因非人动物的基因组包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。在一些情况下，转基因非人动物对于遗传修饰是纯合的。在一些情况下，转基因非人动物对于遗传修饰是杂合的。在一些实施方案中，转基因非人动物是脊椎动物，例如鱼类(例如，鲑鱼、鳟鱼、斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈、火蜥蜴等)、鸟类(例如，鸡、火鸡等)、爬行动物(例如，蛇、蜥蜴等)、非人哺乳动物(例如，有蹄类动物，例如猪、牛、山羊、绵羊等；兔形目动物(例如，兔)；啮齿动物(例如，大鼠、小鼠)；非人灵长类动物等)等。在一些情况下，转基因非人动物是无脊椎动物。在一些情况下，转基因非人动物是昆虫(例如，蚊子；农业害虫等)。在一些情况下，转基因非人动物是蛛形纲动物。

[0365] 编码本公开的CasY多肽或CasY融合多肽的核苷酸序列可在未知启动子(例如，当核酸随机整合到宿主细胞基因组中时)的控制之下(即，可操作地连接)或可在已知启动子的控制之下(即，可操作地连接)。合适的已知启动子可以是任何已知启动子并且包括组成型活性启动子(例如，CMV启动子)、诱导型启动子(例如，热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)、空间限制的和/或时间限制的启动子(例如，组织特异性启动子、细胞类型特异性启动子等)等。

[0366] 转基因植物

[0367] 如上所述，在一些情况下，本公开的核酸(例如，重组表达载体)(例如，包含编码本公开的CasY多肽的核苷酸序列的核酸；包含编码本公开的CasY融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因植物，其产生本公开的CasY多肽或CasY融合多肽。本公开提供一种转基因植物，其包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。在一些实施方案中，转基因植物的基因组包含主题核酸。在一些实施方案中，转基因植物对于遗传修饰是纯合的。在一些实施方案中，转基因植物对于遗传修饰是杂合的。

[0368] 将外源核酸引入植物细胞中的方法是本领域中熟知的。如上所定义，此类植物细胞被认为是“转化的”。合适的方法包括病毒感染(诸如双链DNA病毒)、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择通常根据待转化的细胞类型和在其下发生转化的环境(即体外、离体或体内)。

[0369] 基于土壤细菌根瘤土壤杆菌(Agrobacterium tumefaciens)的转化方法特别可用于将外源核酸分子引入维管植物中。土壤杆菌属(Agrobacterium)的野生型形式含有Ti(肿瘤诱导)质粒，其引导在宿主植物上生长的致瘤冠瘿的产生。Ti质粒的肿瘤诱导T-DNA区向植物基因组的转移需要Ti质粒编码毒力基因以及T-DNA边缘序列，所述T-DNA边缘序列是描绘待转移区域的一系列正向DNA重复序列。基于土壤杆菌属的载体是Ti质粒的修饰形式，其中肿瘤诱导功能被待引入植物宿主中的感兴趣的核酸序列替代。

[0370] 土壤杆菌属介导的转化通常采用共合体载体或二元载体系统，其中Ti质粒的组分在辅助载体(所述辅助载体永久存在于土壤杆菌属宿主中并且携带毒力基因)与穿梭载体(所述穿梭载体含有被T-DNA序列限定的感兴趣的基因)之间分配。多种二元载体是本领域中熟知的并且是可例如从Clontech(Palo Alto,Calif.)商购获得的。例如用培养的植物细胞或创伤组织诸如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法也是本领域中熟知的。参见例如，Glick和Thompson(编),Methods in Plant Molecular Biology and Biotechnology,Boca Raton,Fla.:CRC Press(1993)。

[0371] 微粒介导的转化还可用来产生主题转基因植物。首先由Klein等人(Nature 327:70-73(1987))描述的这种方法依赖于微粒，诸如金或钨，所述微粒通过用氯化钙、亚精胺或聚乙二醇沉淀涂覆有所需的核酸分子。微粒颗粒使用诸如BIOLISTIC PD-1000(Biorad；
Hercules Calif.)的装置在高速下被加速到被子植物组织中。

[0372] 可将本公开的核酸(例如，包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列的核酸(例如，重组表达载体))以使得核酸能够例如通过体内或离体方案进入一种或多种植物细胞的方式引入植物中。“体内”意指向植物的活体施用核酸，例如渗透。“离体”意指在植物外部修饰细胞或外植体并且然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的多种载体，包括描述于Weissbach和Weissbach,(1989)Methods for Plant Molecular Biology Academic Press以及Gelvin等人,(1990)Plant Molecular Biology Manual,Kluwer Academic Publishers中的那些载体。具体实例包括衍生自根瘤土壤杆菌的Ti质粒的那些，以及由Herrera-Estrella等人(1983)Nature 303:209、Bevan(1984)Nucl Acid Res.12:8711-8721、Klee(1985)Bio/Technolo 3:637-
642公开的那些。可替代地，非Ti载体可用来通过使用游离DNA递送技术将DNA转移到植物和细胞中。通过使用这些方法，可产生转基因植物，诸如小麦、大米(Christou(1991)Bio/Technology 9:957-9和4462)和玉米(Gordon-Kamm(1990)Plant Cell 2:603-618)。未成熟胚也可以是通过使用粒子枪的直接DNA递送技术(Weeks等人(1993)Plant Physiol 102:
1077-1084；Vasil(1993)Bio/Technolo 10:667-674；Wan和Lemeaux(1994)Plant Physiol
104:37-48)和土壤杆菌属介导的DNA转移(Ishida等人(1996)Nature Biotech 14:745-
750)的单子叶植物的良好靶组织。用于将DNA引入叶绿体中的示例性方法是生物弹轰击、原生质体的聚乙二醇转化和微注射(Danieli等人Nat.Biotechnol 16:345-348,1998；Staub等人Nat.Biotechnol 18:333-338,2000；O’Neill等人Plant J.3:729-738,1993；
Knoblauch等人Nat.Biotechnol 17:906-909；美国专利号5,451,513、5,545,817、5,545,
818和5,576,198；国际申请号WO 95/16783；以及Boynton等人,Methods in Enzymology
217:510-536(1993)、Svab等人,Proc.Natl.Acad.Sci.USA 90:913-917(1993)和McBride等人,Proc.Natl.Acad.Sci.USA 91:7301-7305(1994))。适用于生物弹轰击、原生质体聚乙二醇转化以及微注射的方法的任何载体将适用作用于叶绿体转化的靶向载体。任何双链DNA载体可用作转化载体，尤其当引入方法没有使用土壤杆菌属时。

[0373] 可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈、林业植物以及葡萄藤。可修饰的植物的具体实例如下：玉米、香蕉、花生、红豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆以及大米。

[0374] 本公开提供转化的植物细胞，含有转化的植物细胞的组织、植物和产品。主题转化细胞以及包含所述转化细胞的组织和产品的特征为存在整合到基因组中的主题核酸和通过本公开的CasY多肽或CasY融合多肽的植物细胞来产生。本发明的重组植物细胞可作为重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等使用。

[0375] 编码本公开的CasY多肽或CasY融合多肽的核苷酸序列可在未知启动子(例如，当核酸随机整合到宿主细胞基因组中时)的控制之下(即，可操作地连接)或可在已知启动子的控制之下(即，可操作地连接)。合适的已知启动子可以是任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和/或时间限制的启动子等。

[0376] 鉴定CRISPR RNA指导的内切核酸酶的方法

[0377] 提供鉴定CRISPR RNA指导的内切核酸酶的方法。例如，在一些实施方案中，这种方法包括在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列的步骤。Cas1蛋白是本领域已知的并且存在于第2类CRISPR系统的CRISPR基因座附近，那些CRISPR系统包括充当内切核酸酶的单效应蛋白，并且不需要为了适当地发挥作用而与蛋白质复合物相互作用。虽然Cas1蛋白本身参与将新的靶序列获取到CRISPR基因座中，并且因此不是通过此方法鉴定的希望的效应蛋白，但是CRISPR基因座附近存在Cas1蛋白指示存在于基因座附近的至少一种其他Cas蛋白可能是效应蛋白(RNA指导的内切核酸酶)。

[0378] 如本文所用，术语“宏基因组学”意指对从样品(例如，环境样品，诸如含有未知量的原核生物(细菌/古细菌)并且可能含有从未发现和/或表征的原核生物的样品)中的多种微生物回收的核酸的平行分析。可通过任何方便的方法从这种样品回收核酸，并且通常从整个样品一起回收核酸，使得在分析之前不知道任何给定的核酸分子来自哪种微生物。在一些实施方案中，样品含有未知的混合物和/或量的微生物。然后可对核酸进行测序以产生多个宏基因组序列。在一些情况下，鉴定CRISPR RNA指导的内切核酸酶的主题方法包括分离样品(例如，环境样品)的步骤。在一些情况下，鉴定CRISPR RNA指导的内切核酸酶的主题方法包括从样品分离核酸和/或测定样品以从样品生成多个宏基因组核苷酸序列的步骤。

[0379] 一旦鉴定出Cas1蛋白，鉴定CRISPR RNA指导的内切核酸酶的主题方法就可包括检测编码Cas1的核苷酸序列附近的CRISPR阵列(重复序列-间隔序列-重复序列阵列)的步骤。所述方法然后可包括将包含所检测的CRISPR阵列的CRISPR基因座克隆(例如，从衍生多个宏基因组核苷酸序列的核酸样品)到表达载体中以生成重组CRISPR基因座表达载体的步骤。然后可通过测定重组CRISPR基因座表达载体切割靶核酸的能力来测试CRISPR基因座的功能。可使用任何方便的测定。在一些实施方案中，所述测定步骤包括将重组CRISPR基因座表达载体和靶核酸引入细胞(例如，异源宿主细胞，例如大肠杆菌细胞)中。例如，参考下文工作实例的PAM缺失测定(图5)。在一些情况下，测定步骤包括将质粒文库引入宿主细胞(例如，大肠杆菌细胞)群中，其中所述文库的每个质粒具有4至10个(例如，5至10个、5至8个、6至10个、6至8个、5个、6个、7个、8个)靶序列5’和/或3’端随机化的核苷酸。宿主细胞可已经含有待测试的重组CRISPR基因座表达载体，或者可在文库之后引入重组CRISPR基因座表达载体。具有功能性并且因此包含功能性CRISPR RNA指导的内切核酸酶的仅测试CRISPR基因座将产生切割具有靶序列的质粒的能力。包含靶序列5’和3’端随机化序列的原因是在实验开始时可能不知道所需内切核酸酶所需要的PAM序列。

[0380] 如果表达载体可切割靶核酸(例如，具有适当靶序列和PAM(诸如匹配CRISPR阵列的至少一个间隔序列的靶序列)的靶核酸)，那么CRISPR基因座就包含编码候选CRISPR RNA指导的内切核酸酶的核苷酸序列。因此，然后可鉴定来自CRISPR基因座的编码CRISPR RNA指导的内切核酸酶的开放阅读框。在一些情况下，希望鉴定先前未知的CRISPR RNA指导的内切核酸酶，并且因此在一些情况下，鉴定的多肽与已知的CRISPR RNA指导的内切核酸酶多肽的氨基酸序列具有小于20％的氨基酸序列同一性(例如，小于15％、小于10％、小于5％的氨基酸序列同一性)。

[0381] 本公开的非限制性方面的实例

[0382] 上文所述的本发明主题的方面(包括实施方案)可单独有益或与一个或多个其他方面或实施方案组合地有益。在不限制前述描述的情况下，以下提供本公开的编号为1-123的某些非限制性方面。对于本领域技术人员在阅读本公开内容时将显而易见的是，每个单独编号的方面可与前面或后面的任何单独编号的方面一起使用或组合。这意图为所有此类方面的组合提供支持，并且不限于下文明确提供的方面的组合：

[0383] 方面

[0384] 1.一种组合物，其包含：

[0385] a)CasY多肽或编码所述CasY多肽的核酸分子；以及

[0386] b)CasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子。

[0387] 2.如1所述的组合物，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的同一性的氨基酸序列。

[0388] 3.如1或2所述的组合物，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

[0389] 4.如1或2所述的组合物，其中所述CasY多肽与NLS序列融合。

[0390] 5.如1-4中任一项所述的组合物，其中所述组合物包含脂质。

[0391] 6.如1-4中任一项所述的组合物，其中a)和b)在脂质体内。

[0392] 7.如1-4中任一项所述的组合物，其中a)和b)在颗粒内。

[0393] 8.如1-7中任一项所述的组合物，其包含以下中的一种或多种：缓冲液、核酸酶抑制剂和蛋白酶抑制剂。

[0394] 9.如1-8中任一项所述的组合物，其中所述CasY多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的同一性的氨基酸序列。

[0395] 10.如1-9中任一项所述的组合物，其中所述CasY多肽是切口酶，其仅能切割双链靶核酸分子的一条链。

[0396] 11.如1-9中任一项所述的组合物，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

[0397] 12.如10或11所述的组合物，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

[0398] 13.如1-12中任一项所述的组合物，其还包含DNA供体模板。

[0399] 14.一种CasY融合多肽，其包含：与异源多肽融合的CasY多肽。

[0400] 15.如14所述的CasY融合多肽，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的同一性的氨基酸序列。

[0401] 16.如14所述的CasY融合多肽，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的同一性的氨基酸序列。

[0402] 17.如14-16中任一项所述的CasY融合多肽，其中所述CasY多肽是切口酶，其仅能切割双链靶核酸分子的一条链。

[0403] 18.如14-17中任一项所述的CasY融合多肽，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

[0404] 19.如17或18所述的CasY融合多肽，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

[0405] 20.如14-19中任一项所述的CasY融合多肽，其中所述异源多肽与所述CasY多肽的N末端和/或C末端融合。

[0406] 21.如14-20中任一项所述的CasY融合多肽，其包含NLS。

[0407] 22.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是靶向多肽，其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。

[0408] 23.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽表现出修饰靶DNA的酶活性。

[0409] 24.如23所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。

[0410] 25.如24所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。

[0411] 26.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。

[0412] 27.如26所述的CasY融合多肽，其中所述异源多肽表现出组蛋白修饰活性。

[0413] 28.如26或27所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。

[0414] 29.如28所述的CasY融合多肽，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。

[0415] 30.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是内体逃逸多肽。

[0416] 31.如30所述的CasY融合多肽，其中所述内体逃逸多肽包含选自以下的氨基酸序列：GLFXALLXLLXSLWXLLLXA(SEQ ID NO:94)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:95)，其中每个X独立地选自赖氨酸、组氨酸和精氨酸。

[0417] 32.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是叶绿体转运肽。

[0418] 33.如32所述的CasY融合多肽，其中所述叶绿体转运肽包含选自以下的氨基酸序列：MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:83)、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:84)、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:85)、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:86)、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:87)、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQ ID NO:88)、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:89)、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:90)、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:91)、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAA(SEQ ID NO:92)，和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:93)。

[0419] 34.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是增加或减少转录的蛋白质。

[0420] 35.如34所述的CasY融合多肽，其中异源多肽是转录阻遏物结构域。

[0421] 36.如34所述CasY融合多肽，其中所述异源多肽是转录激活结构域。

[0422] 37.如14-21中任一项所述的CasY融合多肽，其中所述异源多肽是蛋白质结合结构域。

[0423] 38.一种核酸分子，其编码如14-37中任一项所述的CasY融合多肽。

[0424] 39.如38所述的核酸分子，其中编码所述CasY融合多肽的所述核苷酸序列可操作地连接到启动子。

[0425] 40.如39所述的核酸分子，其中所述启动子在真核细胞中是功能性的。

[0426] 41.如40所述的核酸分子，其中所述启动子在以下中的一种或多种中是功能性的：植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

[0427] 42.如39-41中任一项所述的核酸分子，其中所述启动子是以下中的一种或多种：组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。

[0428] 43.如38-42中任一项所述的核酸分子，其中所述DNA分子是重组表达载体。

[0429] 44.如43所述的核酸分子，其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。

[0430] 45.如39所述的核酸分子，其中所述启动子在原核细胞中是功能性的。

[0431] 46.如38所述的核酸分子，其中所述核酸分子是mRNA。

[0432] 47.一种或多种核酸分子，其编码：

[0433] (a)CasY指导RNA；以及

[0434] (b)CasY多肽。

[0435] 48.如47所述的一种或多种核酸分子，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的同一性的氨基酸序列。

[0436] 49.如47所述的一种或多种核酸分子，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的同一性的氨基酸序列。

[0437] 50.如47-49中任一项所述的一种或多种核酸分子，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

[0438] 51.如47-50中任一项所述的一种或多种核酸分子，其中所述CasY多肽与NLS序列融合。

[0439] 52.如47-51中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子包含编码所述CasY指导RNA的核苷酸序列，所述核苷酸序列可操作地连接到启动子。

[0440] 53.如47-52中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子包含编码所述CasY多肽的核苷酸序列，所述核苷酸序列可操作地连接到启动子。

[0441] 54.如52或53所述的一种或多种核酸分子，其中可操作地连接到编码所述CasY指导RNA的所述核苷酸序列的所述启动子和/或可操作地连接到编码所述CasY多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。

[0442] 55.如54所述的一种或多种核酸分子，其中所述启动子在以下中的一种或多种中是功能性的：植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

[0443] 56.如53-55中任一项所述的一种或多种核酸分子，其中所述启动子是以下中的一种或多种：组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。

[0444] 57.如47-56中任一项所述的一种或多种核酸分子，其中所述一种或多种核酸分子是一种或多种重组表达载体。

[0445] 58.如57所述的一种或多种核酸分子，其中所述一种或多种重组表达载体选自：一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。

[0446] 59.如53所述的一种或多种核酸分子，其中所述启动子在原核细胞中是功能性的。

[0447] 60.一种真核细胞，其包含以下中的一种或多种：

[0448] a)CasY多肽或编码所述CasY多肽的核酸分子，

[0449] b)CasY融合多肽或编码所述CasY融合多肽的核酸分子，以及

[0450] c)CasY指导RNA或编码所述CasY指导RNA的核酸分子。

[0451] 61.如60所述的真核细胞，其包含编码所述CasY多肽的核酸分子，其中所述核酸分子整合到所述细胞的基因组DNA中。

[0452] 62.如60或61所述的真核细胞，其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。

[0453] 63.一种细胞，其包含CasY融合多肽或编码所述CasY融合多肽的核酸分子。

[0454] 64.如63所述的细胞，其中所述细胞是原核细胞。

[0455] 65.如63或64所述的细胞，其包含编码所述CasY融合多肽的核酸分子，其中所述核酸分子整合到所述细胞的基因组DNA中。

[0456] 66.一种修饰靶核酸的方法，所述方法包括使所述靶核酸与以下物质接触：

[0457] a)CasY多肽；以及

[0458] b)CasY指导RNA，其包含与所述靶核酸的靶序列杂交的指导序列，

[0459] 其中所述接触导致通过所述CasY多肽对所述靶核酸的修饰。

[0460] 67.如66所述的方法，其中所述修饰是对所述靶核酸的切割。

[0461] 68.如66或67所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。

[0462] 69.如66-68中任一项所述的方法，其中所述接触在体外在细胞外部发生。

[0463] 70.如66-68中任一项所述的方法，其中所述接触在培养物中在细胞内部发生。

[0464] 71.如66-68中任一项所述的方法，其中所述接触在体内在细胞内部发生。

[0465] 72.如70或71所述的方法，其中所述细胞是真核细胞。

[0466] 73.如72所述的方法，其中所述细胞选自：植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

[0467] 74.如70或71所述的方法，其中所述细胞是原核细胞。

[0468] 75.如66-74中任一项所述的方法，其中所述接触导致基因组编辑。

[0469] 76.如66-75中任一项所述的方法，其中所述接触包括：将以下物质引入细胞中：(a)所述CasY多肽或编码所述CasY多肽的核酸分子，以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。

[0470] 77.如76所述的方法，其中所述接触还包括：将DNA供体模板引入所述细胞中。

[0471] 78.如66-77中任一项所述的方法，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

[0472] 79.如66-78中任一项所述的方法，其中所述CasY多肽与NLS序列融合。

[0473] 80.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法，所述方法包括使所述靶核酸与以下物质接触：

[0474] a)CasY融合多肽，其包含与异源多肽融合的CasY多肽；以及

[0475] b)CasY指导RNA，其包含与所述靶核酸的靶序列杂交的指导序列。

[0476] 81.如80所述的方法，其中所述CasY指导RNA包含与SEQ ID NO:11-15中的任一个所示的crRNA序列具有80％或更高的同一性的核苷酸序列。

[0477] 82.如80或81所述的方法，其中所述CasY融合多肽包含NLS序列。

[0478] 83.如80-82中任一项所述的方法，其中所述修饰不是对所述靶核酸的切割。

[0479] 84.如80-83中任一项所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。

[0480] 85.如80-84中任一项所述的方法，其中所述接触在体外在细胞外部发生。

[0481] 86.如80-84中任一项所述的方法，其中所述接触在培养物中在细胞内部发生。

[0482] 87.如80-84中任一项所述的方法，其中所述接触在体内在细胞内部发生。

[0483] 88.如86或87所述的方法，其中所述细胞是真核细胞。

[0484] 89.如88所述的方法，其中所述细胞选自：植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。

[0485] 90.如86或87所述的方法，其中所述细胞是原核细胞。

[0486] 91.如80-90中任一项所述的方法，其中所述接触包括：将以下物质引入细胞中：(a)所述CasY融合多肽或编码所述CasY融合多肽的核酸分子，以及(b)所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。

[0487] 92.如80-91中任一项所述的方法，其中所述CasY多肽是无催化活性的CasY多肽(dCasY)。

[0488] 93.如80-92中任一项所述的方法，其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变：SEQ ID NO:1的D672、E769和D935。

[0489] 94.如80-93中任一项所述的方法，其中所述异源多肽表现出修饰靶DNA的酶活性。

[0490] 95.如94所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。

[0491] 96.如95的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。

[0492] 97.如80-93中任一项所述的方法，其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。

[0493] 98.如97所述的方法，其中所述异源多肽表现出组蛋白修饰活性。

[0494] 99.如97或98所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。

[0495] 100.如99所述的方法，其中所述异源多肽表现出选自以下的一种或多种酶活性：甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。

[0496] 101.如80-93中任一项所述的方法，其中所述异源多肽是增加或减少转录的蛋白质。

[0497] 102.如101所述的方法，其中所述异源多肽是转录阻遏物结构域。

[0498] 103.如101所述的方法，其中所述异源多肽是转录激活结构域。

[0499] 104.如80-93中任一项所述的方法，其中所述异源多肽是蛋白质结合结构域。

[0500] 105.一种转基因的多细胞非人生物体，其基因组包含转基因，所述转基因包含编码以下中的一种或多种的核苷酸序列：

[0501] a)CasY多肽，

[0502] b)CasY融合多肽，以及

[0503] c)CasY指导RNA。

[0504] 106.如105所述的转基因的多细胞非人生物体，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的氨基酸序列同一性的氨基酸序列。

[0505] 107.如105所述的转基因的多细胞非人生物体，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的氨基酸序列同一性的氨基酸序列。

[0506] 108.如105-107中任一项所述的转基因的多细胞非人生物体，其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。

[0507] 109.一种系统，其包含：

[0508] a)CasY多肽和CasY指导RNA；

[0509] b)CasY多肽、CasY指导RNA和DNA供体模板；

[0510] c)CasY融合多肽和CasY指导RNA；

[0511] d)CasY融合多肽、CasY指导RNA和DNA供体模板；

[0512] e)编码CasY多肽的mRNA和CasY指导RNA；

[0513] f)编码CasY多肽的mRNA、CasY指导RNA和DNA供体模板；

[0514] g)编码CasY融合多肽的mRNA和CasY指导RNA；

[0515] h)编码CasY融合多肽的mRNA、CasY指导RNA和DNA供体模板；

[0516] i)一种或多种重组表达载体，其包含：i)编码CasY多肽的核苷酸序列，和ii)编码CasY指导RNA的核苷酸序列；

[0517] j)一种或多种重组表达载体，其包含：i)编码CasY多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列，和iii)DNA供体模板；

[0518] k)一种或多种重组表达载体，其包含：i)编码CasY融合多肽的核苷酸序列，和ii)编码CasY指导RNA的核苷酸序列；以及

[0519] l)一种或多种重组表达载体，其包含：i)编码CasY融合多肽的核苷酸序列、ii)编码CasY指导RNA的核苷酸序列，和DNA供体模板。

[0520] 110.如109所述的CasY系统，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有50％或更高的氨基酸序列同一性的氨基酸序列。

[0521] 111.如109所述的CasY系统，其中所述CasY融合多肽包含与SEQ ID NO:1或SEQ ID NO:2所示的氨基酸序列(或SEQ ID NO:1-8中的任一个所示的氨基酸序列)具有85％或更高的氨基酸序列同一性的氨基酸序列。

[0522] 112.如109-111中任一项所述的CasY系统，其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。

[0523] 113.如109-111中任一项所述的CasY系统，其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。

[0524] 114.一种试剂盒，其包含如109-113中任一项所述的CasY系统。

[0525] 115.如114所述的试剂盒，其中所述试剂盒的组分在同一容器中。

[0526] 116.如114所述的试剂盒，其中所述试剂盒的组分在单独的容器中。

[0527] 117.一种无菌容器，其包含如109-116中任一项所述的CasY系统。

[0528] 118.如117所述的无菌容器，其中所述容器是注射器。

[0529] 119.一种可植入装置，其包含如109-116中任一项所述的CasY系统。

[0530] 120.如119所述的可植入装置，其中所述CasY系统在基质内。

[0531] 121.如119所述的可植入装置，其中所述CasY系统在储库中。

[0532] 122.一种鉴定CRISPR RNA指导的内切核酸酶的方法，所述方法包括：

[0533] 在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列；

[0534] 检测所述编码Cas1的核苷酸序列附近的CRISPR阵列；

[0535] 将包含所检测的CRISPR阵列的CRISPR基因座从衍生所述多个宏基因组核苷酸序列的核酸样品克隆到表达载体中以生成重组CRISPR基因座表达载体；

[0536] 测定所述重组CRISPR基因座表达载体的切割靶核酸的能力，其中具有切割靶核酸的能力的CRISPR基因座包含编码CRISPR RNA指导的内切核酸酶的核苷酸序列。

[0537] 在所述CRISPR基因座中鉴定编码多肽的开放阅读框，所述多肽与已知的CRISPR RNA指导的内切核酸酶多肽的氨基酸序列具有小于20％的氨基酸序列同一性。

[0538] 123.如122所述的方法，其中所述测定包括将所述重组CRISPR基因座表达载体和靶核酸引入细胞中。

[0539] 实施例

[0540] 提出以下实施例以便向本领域的普通技术人员提供如何制备和使用本发明的完全公开和描述，并且并非意图限制本发明人看待其发明的范围，也非意图表示以下实验是执行的全部或仅有的实验。已经努力确保关于所用数值(例如量、温度等)的精确性，但一些实验误差和偏差应加以说明。除非另外指示，否则份为重量份，分子量为重均分子量，温度以摄氏度计，并且压力在大气压下或接近大气压。可使用标准缩写，例如，bp，碱基对；kb，千碱基；pl，皮升；s或sec，秒；min，分钟；h或hr，小时；aa，氨基酸；kb，千碱基；bp，碱基对；nt，核苷酸；i.m.，肌内的(肌内地)；i.p.，腹膜内的(腹膜内地)；s.c.，皮下的(皮下地)等。

[0541] 实施例1

[0542] 本文所述的工作包括分析来自地下水、沉积物和酸性矿山排水的微生物群落的宏基因组样品。鉴定了在培养生物体中未表示的新的2类CRISPR-Cas系统。

[0543] 图3.CasY结构域和相似性检索。(图a)从使用HHpred的与AcCpf1的远同源性比对中推断的CasY的示意性结构域表示。保守的催化残基用蛋白质上方的红色条标记。CasY含有在C末端区域的分开的RuvC结构域(RuvC-I、RuvC-II和RuvC-III)，并且含有大的新型N末端结构域。在示意图下方示出基于以下检索的最高命中：(1)BLAST检索NCBI(NR数据库，包括模型和环境蛋白质)中的所有蛋白质。(2)基于使用所有Cas蛋白构建的模型的序型隐马尔科夫模型(HMM)检索，在Makarova等人Nat Rev Microbiol.2015年11月；13(11):722-36以及Shmakov等人Mol Cell.2015年11月5日；60(3):385-97)中所述。(3)基于HHpred的远同源性检索。命中基于其重要性进行颜色编码，并提供命中范围和E值。值得注意的是，CasY只有局部命中。CasY的812个N末端氨基酸仅具有一个非常微小的局部命中。结合起来，这些发现指示CasY是一种新的Cas蛋白。(图b)由序列数据构建不同的含CasY的CRISPR基因座支架。

[0544] 实施例2

[0545] 图4.CasY和C2c3基因座图的示意图。干扰蛋白以绿色示出，获取蛋白以红色示出。使用RNA结构折叠的重复序列在右侧示出，揭示在5'末端处的强发夹，从而表明CRISPR阵列通过CasY进行自我加工.。

[0546] 图5(图a至图d)CasY的PAM依赖性质粒干扰。(图a)用CasY进行PAM缺失测定。用具有靶序列5'或3'端随机化的7个核苷酸的质粒文库转化含有CasY CRISPR基因座的大肠杆菌。选择靶质粒并合并转化体。扩增随机区域并准备用于深度测序。鉴定缺失的序列并用于生成PAM标识。(图b)CasY.1的生成的PAM标识示出对含有靶标5'端的5’-TA-3’侧翼序列的序列的强烈偏好。未检测到3’PAM。(图c)直接测定四种不同的PAM以验证由PAM缺失测定确定的PAM。(图d)CasY.2的生成的PAM标识示出对含有靶标5’端的5’-YR-3’和/或5’-TR-3’(例如，5’-DTR-3’)(分别为较低阈值和较高阈值)侧翼序列的偏好(其中Y是T或C；R是A或G；并且D是A、G或T)。未检测到3’PAM。

[0547] 图6.(图a)来自天然存在的CasY指导RNA的‘重复'序列(针对CasY基因座Y1-Y6)。(图b)CasY RNA指导的DNA切割图。CasY蛋白与重复序列区域中的crRNA(CasY指导RNA)结合(黑色，重复序列；红色，间隔序列)。指导RNA的指导序列与含有正确的原间隔序列相邻基序(PAM)的靶序列(蓝色)的碱基配对导致靶DNA的双链切割。

[0548] 实施例3：来自非培养微生物的新CRISPR-Cas系统

[0549] CRISPR-Cas适应性免疫系统通过提供能够进行位点特异性DNA切割的可编程酶，彻底变革了基因组工程。然而，当前的CRISPR-Cas技术仅基于来自培养的细菌的系统，而使得来自未被分离的生物体的绝大多数酶处于尚未开发状态。本文提供的数据示出，使用不依赖于培养的基因组解析的宏基因组学，鉴定新的CRISPR-Cas系统，包括在古细菌生物域中首次报道的Cas9。这种不同的Cas9酶在研究很少的纳米古细菌中作为活性CRISPR-Cas系统的一部分被发现。在细菌中，发现了两个先前未知的系统，CRISPR-CasX和CRISPR-CasY，它们属于目前鉴定的最简化的系统。值得注意的是，所有需要的功能性组分都是通过宏基因组学鉴定的，这允许在大肠杆菌中验证稳健的RNA指导的DNA干扰活性。本文的数据示出，环境微生物群落的查询与活细胞中的实验组合，能够获得前所未有的基因组多样性，所述基因组的内容将扩展基于微生物的生物技术的所有组成部分。

[0550] 结果

[0551] 分析了来自地下水、沉积物和酸性矿山排水微生物群落的兆级别(Terabase-scale)宏基因组数据集，寻找未在培养生物体中表示的2类CRISPR-Cas系统。鉴定了古细菌域中的第一种Cas9蛋白，并且在非培养细菌中发现了两种新的CRISPR-Cas系统，CRISPR-CasX和CRISPR-CasY(图7)。值得注意的是，古细菌Cas9和CasY两者都是仅在来自没有已知的分离代表的谱系的生物体的基因组中编码的。

[0552] 首次鉴定古细菌Cas9

[0553] CRISPR-Cas9的特征之一是假定其仅存在于细菌域中。因此，在酸性矿山排水(AMD)宏基因组数据集中发现在纳米古细菌ARMAN-1(Candidatus Micrarchaeum acidiphilum ARMAN-1)和ARMAN-4(Candidatus Parvarchaeum acidiphilum ARMAN-4)的基因组中编码的Cas9蛋白是令人惊讶的。这些发现将含Cas9的CRISPR系统的出现扩展到另一个生物域。

[0554] ARMAN-4cas9基因在相同基因组环境中的16个不同样品中被发现，但没有其他相邻的cas基因(尽管位于若干个DNA序列重叠群>25kbp的中心)，并且只有一个相邻的CRISPR重复序列-间隔序列单元(图13)。缺乏典型的CRISPR阵列和编码通用CRISPR整合酶的cas1，指出了无法获得新间隔序列的系统。没有鉴定间隔序列的靶标，但考虑到基因座在若干年内采集的样品中的保守性，此时不能排除基因座在“单靶标”CRISPR-Cas系统中的功能。

[0555] 相反，从15个不同样品中回收的ARMAN-1中的CRISPR-Cas基因座包括与cas1、cas2、cas4和cas9基因相邻的大型CRISPR阵列。重建了许多替代的ARMAN-1CRISPR阵列，其具有很大程度保守的末端(可能由最老的间隔序列组成)和其中已经并入许多不同的间隔序列的可变区域(图8a和图14)。基于间隔序列内容的这种高变性，这些数据示出了ARMAN-1CRISPR-Cas9系统在取样群体中是有活性的。

[0556] 值得注意的是，ARMAN-1CRISPR-Cas9系统中56个推定的间隔序列靶标(原间隔序列)位于单个10kbp的基因组片段上，所述片段很可能是ARMAN-1病毒，因为它编码高密度的短假定蛋白(图8b)。实际上，低温电子断层扫描重建通常鉴定附着到ARMAN细胞的病毒颗粒。ARMAN-1原间隔序列也衍生自ARMAN-2(另一种纳米古细菌)基因组中的推定转座子和热源体目古细菌基因组中的推定可动元件，其包括来自同一生态系统的I-plasma的可动元件(图15)。在ARMAN与热源体目细胞之间观察到直接的细胞质“桥”，这意味着它们之间存在密切关系。因此，ARMAN-1CRISPR-Cas9可防御这些生物体之间的转座子传播，这一作用使人联想到piRNA介导的对真核生殖系中的转座的防御。

[0557] 活性DNA靶向CRISPR-Cas系统使用位于靶序列之后的2至4bp原间隔序列相邻基序(PAM)来区分自身与非自身。检查与基因组靶序列相邻的序列确实在ARMAN-1中揭示出强烈的‘NGG’PAM偏好(图8c)。Cas9还使用两种单独的转录物，CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)，用于RNA指导的DNA切割。在ARMAN-1和ARMAN-4CRISPR-Cas9系统二者附近鉴定出推定tracrRNA(图16)。先前，有人提出II型CRISPR系统由于缺乏宿主因子RNA酶III而不存在于古细菌中，RNA酶III负责crRNA-tracrRNA指导复合物的成熟。值得注意的是，在ARMAN-1基因组中未鉴定出RNA酶III同源物(估计完成率为95％)，并且未预测出CRISPR阵列的内部启动子，这表明了尚未确定的指导RNA的产生机制。测试从大肠杆菌和酵母二者中纯化的ARMAN-1和ARMAN-4Cas9蛋白的切割活性的生化实验以及体内大肠杆菌靶向测定未揭示出任何可检测的活性(参见图21和图17)。

[0558] CRISPR-CasX是一种新的双RNA指导的CRISPR系统

[0559] 除Cas9之外，仅发现并通过实验验证了三个2类Cas效应蛋白家族：Cpf1、C2c1和C2c2。已经提出了另一种仅在小DNA片段上鉴定的基因c2c3，其也编码这种蛋白质家族。在地下水和沉积物样品中反复回收的两种细菌的基因组中发现了一种新类型的2类CRISPR-Cas系统。此系统在属于不同门(δ变形菌门和浮霉菌门)的两种生物体中的高度保守性表明最近的跨门转移。这种新描述的系统包括Cas1、Cas2、Cas4和未表征的～980aa蛋白质，其在本文中称为CasX。与每个CasX相关联的CRISPR阵列具有高度相似的37个碱基对的重复序列、33-34个碱基对的间隔序列以及Cas操纵子与CRISPR阵列之间的推定tracrRNA(图7b)。-4
BLAST检索仅揭示出与转座酶的弱相似性(e值>1×10 )，其中相似性限于CasX C末端的特定区域。远同源性检测和蛋白质建模鉴定了CasX C末端附近的RuvC结构域，其结构使人联想到V型CRISPR-Cas系统中发现的结构(图18)。CasX蛋白的其余部分(630个N末端氨基酸)与任何已知蛋白质均未示出可检测的相似性，这表明这是一种新型2类效应物。tracrRNA和单独的Cas1、Cas2和Cas4蛋白的组合在V型系统中是独特的。此外，CasX比任何已知的V型蛋白小得多：980个aa，与Cpf1、C2c1和C2c3的大于1,200个aa的典型尺寸相比。

[0560] 接下来，人们想知道，尽管CasX具有较小的尺寸和非经典的基因座内容，但CasX能够进行类似于Cas9和Cpf1酶的RNA指导的DNA靶向。为了测试这种可能性，合成了编码最小CRISPR-CasX基因座的质粒，其包括casX、短重复序列-间隔序列阵列和插入的非编码区。当在大肠杆菌中表达时，这种最小基因座阻断了带有通过宏基因组分析鉴定的靶序列的质粒的转化(图9a至图9c、图19)。此外，仅在微型基因座中的间隔序列与质粒靶标中的原间隔序列匹配时才发生转化干扰。为了鉴定CasX的PAM序列，使用含有与靶位点相邻的5′或3′随机化序列的质粒在大肠杆菌中重复转化测定。此分析揭示出对直接位于原间隔序列的5′端的序列‘TTCN’的严格偏好(图9d)。未观察到3′PAM偏好(图19)。与此发现一致，‘TTCA’是在环境样品中鉴定的推定δ变形菌门CRISPR-CasX原间隔序列的上游发现的序列。值得注意的是，两个CRISPR-CasX基因座共享相同的PAM序列，与它们高度的CasX蛋白同源性一致。

[0561] 在V型CRISPR基因座中存在单RNA和双RNA指导系统的实例。环境宏转录组数据用于确定CasX是否需要用于DNA靶向活性的tracrRNA。此分析揭示出，具有与CRISPR重复序列互补的序列的非编码RNA转录物在Cas2开放阅读框与CRISPR阵列之间编码(图10)。转录组学图谱还表明CRISPR RNA(crRNA)被加工成包括22个nt的重复序列和20个nt的相邻间隔序列，与CRISPR-Cas9系统中发生的crRNA加工相似(图10a)。此外，鉴定出2个nt的3′突出端，与RNA酶III介导的crRNA-tracrRNA双链体加工一致(图10b)。为了确定CasX活性对推定tracrRNA的依赖性，从上述最小的CRISPR-CasX基因座中删除此区域，并重复质粒干扰测定。从CasX质粒中删除推定tracrRNA编码序列消除了在其存在下观察到的稳健转化干扰(图10c)。总之，这些结果将CasX建立为新的功能性DNA靶向的双RNA指导的CRISPR酶。

[0562] CRISPR-CasY，一种仅在缺乏分离株的细菌谱系中发现的系统鉴定了在某些潜在门类辐射(CPR)细菌的基因组中编码的另一种新的2类Cas蛋白。这些细菌通常具有较小的细胞尺寸(基于低温TEM数据和通过过滤的富集)、非常小的基因组和有限的生物合成能力，这指示它们最可能是共生体。新的～1,200个aa的Cas蛋白，在本文中称为CasY，似乎是最小CRISPR-Cas系统的一部分，所述最小CRISPR-Cas系统至多包括Cas1和CRISPR阵列(图11a)。大多数CRISPR阵列具有17-19个nt的非常短的间隔序列，但是缺少Cas1的一个系统(CasY.5)具有更长的间隔序列(27-29个nt)。鉴定的CasY蛋白的六个实例与公共数据库中的任何蛋白质没有显著的序列相似性。使用由已公布的Cas蛋白3,4构建的序型模型(HMM)的敏感检索指示，六个CasY蛋白中的四个与C2c3在与RuvC结构域重叠的C末端区域和N末端的小区域(～45个aa)中具有局部相似性(e值为4×10-11–3×10-18)(参见图18)。C2c3是推定的V型Cas效应物，其在短重叠群上鉴定，没有分类学从属关系，并且尚未通过实验验证。与CasY一样，C2c3被发现位于阵列之后，所述阵列具有短间隔序列和Cas1，但没有其他Cas蛋白。值得注意的是，尽管与其他CasY蛋白共享显著的序列相似性(最佳Blast命中：e值为6×
10-85、7×10-75)，但在本研究中鉴定的两种CasY蛋白与C2c3没有显著的相似性。

[0563] 鉴于CRISPR-CasY与任何经实验验证的CRISPR基因座的低同源性，接下来想知道此系统是否赋予RNA指导的DNA干扰，但由于间隔序列长度短，不存在关于针对此类活性可能需要的可能PAM基序的可靠信息。为解决此问题，用缩短的CRISPR阵列合成整个CRISPR-CasY.1基因座，并在质粒载体上将所述基因座引入大肠杆菌中。然后使用靶质粒在转化测定中攻击这些细胞，所述靶质粒具有与阵列中的间隔序列匹配的序列，并且所述序列含有相邻的随机化5′或3′区域，以鉴定可能的PAM。对转化体的分析揭示了含有与靶向序列直接相邻的5′TA的序列的缺失(图11b)。使用此鉴定的PAM序列，针对含有单个PAM的质粒测试CasY.1基因座。仅在含有鉴定的5′TA PAM序列的靶标存在下证明了质粒干扰(图11c)。因此，这些数据示出，CRISPR-CasY具有DNA干扰活性。

[0564] 讨论

[0565] 鉴定并表征来自非培养细菌和古细菌的基因组中的新的2类CRISPR-Cas适应性免疫系统。Cas1(图12a)的进化分析(其对于活性CRISPR基因座是通用的)表明，在此所述的古细菌Cas9系统不明显属于任何现有的II型亚型。Cas1系统发育(以及cas4的存在)将其与II-B型系统聚类到一起，但Cas9的序列更类似于II-C型蛋白(图20)。因此，古细菌II型系统可作为II-C和II-B型系统的融合体出现(图12b)。同样，Cas1系统发育分析指示来自CRISPR-CasX系统的Cas1远离任何其他已知的V型系统。V型系统已表明是转座子与来自原始I型系统的适配模块(Cas1–Cas2)的融合的结果。因此假设CRISPR-CasX系统在与产生前述V型系统的事件不同的融合事件之后出现。引人注目的是，CRISPR-CasY和推定C2c3系统两者似乎都缺乏Cas2，其是一种被认为对于将DNA整合到CRISPR基因座中必需的蛋白质。鉴于所有CRISPR-Cas系统都被认为是含有Cas1和Cas2二者的原始I型系统的后代，CRISPR-CasY和C2c3系统可能具有与其他CRISPR-Cas系统不同的祖先，或者可替代地，Cas2可能在其进化历史中丢失了。

[0566] 本文所述的古细菌中的Cas9和细菌中的两个先前未知的CRISPR-Cas系统的发现使用了从复杂的天然微生物群落获得的大量的DNA和RNA序列数据集。在CasX和CasY的情况下，基因组内容对于从未组装的序列信息中预测不明显的功能是至关重要的。此外，通过分析宏基因组数据指导的功能测试，发现了推定tracrRNA的鉴定以及靶向病毒序列。有趣的是，迄今鉴定的一些最紧凑的CRISPR-Cas基因座是在具有非常小的基因组的生物体中发现的。小基因组尺寸的结果是这些生物体出于基本代谢需求可能依赖于其他群落成员，并且因此它们基本上仍然在传统的基于培养的方法的范围之外。干扰所需的蛋白质的有限数量使得这些最小系统对于开发新的基因组编辑工具特别有价值。重要的是，本文示出，与CRISPR-Cas系统相关的宏基因组发现不限于计算机模拟观察，而是可被引入可测试其功能的实验环境中。鉴于几乎所有存在生命的环境现在都可通过基因组解析的宏基因组方法进行探测，预计本文所述的组合计算机实验方法将极大地扩展已知CRISPR-Cas系统的多样性，从而提供生物研究和临床应用的新技术。

[0567] 方法

[0568] 宏基因组学和宏转录组学

[0569] 分析了来自三个不同地点的宏基因组样品：(1)在2006年与2010年之间从Richmond Mine,Iron Mountain,California采集的酸性矿山排水(AMD)样品，(2)在2007年与2013年之间从毗邻Rifle,Colorado附近的Colorado River的Rifle Integrated Field Research(IFRC)地点采集的地下水和沉积物样品。(3)在2009年和2014年从位于犹他州科罗拉多高原的冷CO2驱动的间歇泉Crystal Geyser采集的地下水。

[0570] 对于AMD数据，Denef和Banfield(2012)以及Miller等人(2011)报道了DNA提取方法和短读测序。对于Rifle数据，Anantharaman等人(2016)和Brown等人(2015)描述了DNA和RNA提取以及测序、组装和重建的基因组。对于来自Crystal Geyser的样品，方法遵循Probst等人(2016)和Emerson等人(2015)描述的那些方法。简而言之，使用PowerSoil DNA分离试剂盒(MoBio Laboratories Inc.,Carlsbad,CA,USA)从样品中提取DNA。如Brown等人(2015)所述，从六个2011Rifle地下水样品中采集的0.2μm滤液中提取RNA。在Illumina HiSeq2000平台上对DNA进行测序，并在5500XL SOLiD平台上对宏转录组cDNA进行测序。对于新报道的Crystal Geyser数据和AMD数据的再分析，使用IDBA-UD组装序列。使用Bowtie2进行DNA和RNA(cDNA)读取映射，其分别用于确定测序覆盖度和基因表达。使用Prodigal在组装的支架上预测开放阅读框(ORF)。使用涌现自组织映射(ESOM)，使用ABAWACA、ABAWACA2(https://github.com/CK7)Maxbin2和四核苷酸频率的组合，基于差异覆盖丰度模式对来自Crystal Geyser数据集的支架进行分级。使用％GC含量、分类学从属关系和基因组完整性手动整理基因组。使用ra2.py(https://github.com/christophertbrown)校正支架错误。

[0571] CRISPR-Cas计算分析

[0572] 使用隐马尔科夫模型(HMM)序型扫描来自各种样品的组装重叠群的已知Cas蛋白，所述序型使用HMMer套件基于Makarova等人和Shmakov等人的比对来构建。使用CrisprFinder 软件的本地版本鉴定CRISPR阵列。如果与cas1基因相邻的10个ORF中的一个编码大于800个aa的未表征蛋白，并且在相同重叠群上未鉴定出已知的cas干扰基因，则进一步分析包含Cas1和CRISPR阵列两者的基因座。将这些大蛋白质作为潜在的2类Cas效应物进一步分析。基于使用MCL的序列相似性，将潜在的效应物聚类到蛋白质家族。通过构建代表这些家族中的每一个的HMM并使用它们在宏基因组数据集中检索相似的Cas蛋白，来扩展这些蛋白质家族。为了确保蛋白质家族确实是新的，使用针对NCBI的非冗余(nr)和宏基因组(env_nr)蛋白质数据库的BLAST以及针对UniProt知识库的HMM检索来检索已知同源物。
只有没有全长命中的蛋白质(>蛋白质长度的25％)才被认为是新型蛋白质。使用来自HH-套件(HH-suite)的HHpred进行推定的Cas蛋白的远同源性检索。基于与解析的晶体结构的比较以及由JPred4预测的二级结构，使用高分HHpred命中来推断结构域架构。HMM数据库，包括新发现的Cas蛋白，可见于补充数据1。

[0573] 使用CrisprFinder由组装的数据确定间隔序列。CRASS用于在相关样品的短DNA读取中定位另外的间隔序列。然后通过针对与间隔序列具有≤1个错配的命中的相关宏基因组组装的BLAST检索(使用“-task blastn-short”)鉴定间隔序列靶标(原间隔序列)。将属于含有相关重复序列的重叠群的命中过滤掉(以避免将CRISPR阵列鉴定为原间隔序列)。通过比对侧接原间隔序列的区域并使用WebLogo可视化来鉴定原间隔序列相邻基序(PAM)。使用mFold预测RNA结构。通过手动比对来自组装数据的间隔序列、重复序列和侧翼序列来分析CRISPR阵列多样性。使用Geneious 9.1进行手动比对和重叠群可视化。

[0574] 对于新鉴定的系统的Cas1和Cas9蛋白的系统发育分析，与来自Makarova等人和Shmakov等人的蛋白质一起使用。通过使用CD-HIT将具有≥90％同一性的蛋白质聚类在一起来编译非冗余组。使用MAFFT生成比对，并且使用以PROTGAMMALG作为替代模型的RAxML和100个自举取样构建最大似然系统发育。Cas1树使用通向casposons的分支做根。使用FigTree 1.4.1(http://tree.bio.ed.ac.uk/software/figtree/)和iTOL v3对树进行可视化。

[0575] 生成异源质粒

[0576] 通过去除与CasX的获得相关联的蛋白质并减小CasX和CasY二者的CRISPR阵列的大小，将宏基因组重叠群制成最小CRISPR干扰质粒。最小基因座合成为Gblocks(Integrated DNA Technology)并使用Gibson组装进行组装。

[0577] PAM缺失测定

[0578] 如前所述，经过修改进行PAM缺失测定。将含有随机化PAM序列的质粒文库通过用引物对含有具有7个nt的随机化PAM区的靶标的DNA寡核苷酸进行退火来组装，并用Klenow片段(NEB)来延伸。将双链DNA用EcoRI和NcoI消化，并连接到pUC19骨架中。将连接的文库转化到DH5α中，并且收获>108个细胞，并且提取并纯化所述质粒。将200ng合并的文库转化到携带CRISPR基因座或没有基因座的对照质粒的电感受态大肠杆菌中。在25℃下将转化的细胞铺板在含有羧苄青霉素(100mg L-1)和氯霉素(30mg L-1)的选择性培养基上30小时。提取质粒DNA，并用衔接子扩增PAM序列以用于Illumina测序。提取7个nt的PAM区并计算每个7个nt序列的PAM频率。使用缺失高于指定阈值的PAM序列来生成WebLogo。

[0579] 质粒干扰

[0580] 将从宏基因组序列分析或PAM缺失测定中鉴定的推定靶标克隆到pUC19质粒中。将10ng靶质粒转化到含有CRISPR基因座质粒的电感受态大肠杆菌(NEB稳定的)中。将细胞在
25℃下恢复2小时，并将适当的稀释液铺板在选择性培养基上。将平板在25℃下孵育，并计数菌落形成单位。所有的质粒干扰实验一式三份进行，并且每个平行测定独立制备电感受态细胞。

[0581] ARMAN-Cas9蛋白表达和纯化

[0582] 来自ARMAN-1(AR1)和ARMAN-4(AR4)的Cas9的表达构建体由对大肠杆菌进行密码子优化的gBlocks(Integrated DNA Technologies)组装而成。将组装的基因克隆到基于pET的表达载体中，作为N末端His6-MBP或His6融合蛋白。将表达载体转化到BL21(DE3)大肠杆菌细胞中，并在37℃下在LB肉汤中生长。对于蛋白质表达，将细胞在对数中期期间用0.4mM IPTG(异丙基β-D-1-硫代吡喃半乳糖苷)诱导，并在16℃下孵育过夜。所有后续步骤均在4℃下进行。将细胞沉淀重悬于裂解缓冲液(50mM Tris-HCl pH 8、500mM NaCl、1mM TCEP、10mM咪唑)0.5％Triton X-100中并补充有完全蛋白酶抑制剂混合物(Roche)，然后通过超声处理裂解。将裂解液通过在15000g下离心40分钟澄清，并分批施加到Superflow Ni-NTA琼脂糖(Qiagen)。将树脂用洗涤缓冲液A(50mM Tris-HCl pH8、500mM NaCl、1mM TCEP、
10mM咪唑)充分洗涤，然后用5倍柱体积的洗涤缓冲液B(50mM Tris-HCl pH 8、1M NaCl、1mM TCEP、10mM咪唑)洗涤。用洗脱缓冲液(50mM Tris-HCl pH 8、500mM NaCl、1mM TCEP、300mM咪唑)从Ni-NTA树脂上洗脱蛋白质。在针对洗涤缓冲液A过夜透析期间，通过TEV蛋白酶除去His6-MBP标签。通过第二个Ni-NTA琼脂糖柱从亲和标签上取出切割的Cas9。将蛋白质透析到IEX缓冲液A(50mM Tris-HCl pH 7.5、300mM NaCl、1mM TCEP、5％甘油)中，然后施加到
5mL肝素HiTrap柱(GE Life Sciences)。以线性NaCl(0.3-1.5M)梯度洗脱Cas9。将级分合并并用30kDa旋转浓缩器(Thermo Fisher)进行浓缩。适用时，将Cas9在Superdex 200pg柱(GE Life Sciences)上通过尺寸排阻色谱法进一步纯化，并储存在IEX缓冲液A中以用于随后的切割测定。对于酵母表达，将AR1-Cas9克隆到Gal1/10His6-MBP TEV Ura酿酒酵母表达载体(Addgene质粒#48305)中。将载体转化到BY4741 URA3菌株中，并使培养物在30℃下在培养基中生长。在～0.6的OD600下，用2％w/v半乳糖诱导蛋白质表达，并在16℃下孵育过夜。如上进行蛋白质纯化。

[0583] RNA体外转录和寡核苷酸纯化

[0584] 如前所述65，使用含有T7启动子序列的合成DNA模板进行体外转录反应。通过变性PAGE纯化所有体外转录的指导RNA和靶RNA或DNA。通过在95℃孵育1分钟，将双链靶RNA和DNA在20mM Tris HCl pH 7.5和100mM NaCl中杂交，然后缓慢冷却至室温。通过天然PAGE纯化杂交体。

[0585] 体外切割测定

[0586] 使用T4多核苷酸激酶(NEB)和[γ-32P]ATP(Perkin-Elmer)将纯化的DNA和RNA寡核苷酸在1x PNK缓冲液中在37℃下进行放射标记30分钟。将PNK在65℃下加热灭活20分钟，并使用illustra Microspin G-25柱(GE Life Sciences)从标记反应中去除游离ATP。将CrRNA和tracrRNA以等摩尔量在1x重折叠缓冲液(50mM Tris HCl pH 7.5、300mM NaCl、1mM TCEP、5％甘油)中混合，并在70℃下孵育5分钟，并且然后缓慢冷却至室温。将反应补充至1mM最终金属浓度，并且随后在50℃下加热5分钟。缓慢冷却至室温后，将重折叠的指导物置于冰上。除非针对缓冲液、盐浓度说明，否则将Cas9与等摩尔量的指导物在37℃下在1x切割缓冲液(50mM Tris HCl pH7.5、300mM NaCl、1mM TCEP、5％甘油、5mM二价金属)中重构10分钟。切割反应在具有放射标记的靶标的10x过量Cas9指导复合物的1x切割缓冲液中在37℃或指定温度下进行。在等体积的补充有50mM EDTA的凝胶上样缓冲液中淬灭反应。将切割产物在10％变性PAGE上分离并通过磷光成像可视化。

[0587] 体内大肠杆菌干扰测定

[0588] 如先前公布的66，进行AR1-Cas9和AR4-Cas9的大肠杆菌转化测定。简而言之，用指导RNA转化的大肠杆菌被制成电感受态。然后用9fmol编码野生型或无催化活性的Cas9(dCas9)的质粒转化细胞。将稀释系列的恢复细胞铺板在具有选择性抗生素的LB平板上。在37℃下16小时后对菌落进行计数。

[0589] 表1.有关鉴定CRISPR-Cas系统的生物体和基因组位置的详细信息，以及重建间隔序列的数量和平均长度和重复序列长度的信息(NA，不可用)。由16个样品重建ARMAN-1间隔序列。

[0590]

[0591] 虽然本发明已经参考其特定实施方案进行描述，但是本领域技术人员应理解，可在不脱离本发明的真实精神和范围的情况下进行各种改变并且可进行等同物替换。另外，为了使特定情况、材料、物质组成、方法、一个或多个方法步骤适应本发明的目的、精神和范围，可进行许多修改。所有此类修改意图处于所附权利要求的范围内。

标题	发布/更新时间	阅读量
使用抗体的靶标核酸浓缩和回收方法	2020-05-16	325
一种蠕虫病毒的检测和防御方法和系统	2020-05-08	881
使用APRIL-TACI相互作用的调节剂调节调控性T细胞、调控性B细胞和免疫响应的方法	2020-05-08	651
Nrf和HIF活化剂/HDAC抑制剂和使用其的治疗方法	2020-05-11	508
自然杀伤细胞	2020-05-12	594
用于提高废水流出物和生物固体的质量的系统、方法和设备	2020-05-12	471
一种多功能网络安全态势感知系统	2020-05-15	402
抗原に対する防御免疫の誘導	2020-05-11	239
養子免疫療法における抗原特異的T細胞と組み合わせた免疫チェックポイント調節剤の使用	2020-05-11	818
インターロイキン−1活性の阻害剤としての化学化合物	2020-05-11	198

RNA指导的核酸修饰酶及其使用方法

RNA指导的核酸修饰酶及其使用方法

具体实施方式

该功能需要专业版企业版VIP权限，您可以：