首页 / 专利库 / 生物学 / 朊病毒 / 核碱基编辑器及其用途

基编辑器及其用途

阅读:441发布:2021-02-08

专利汇可以提供基编辑器及其用途专利检索,专利查询,专利分析的服务。并且本公开的一些方面提供可用于核酸的定向编辑的策略、系统、 试剂 、方法和 试剂盒 ,包括编辑细胞或受试者基因组内,例如人基因组内的单位点。在一些实施方案中,提供了Cas9的融合蛋白和核酸编辑蛋白或 蛋白质 域,例如脱 氨 酶域。在一些实施方案中,提供了用于靶向核酸编辑的方法。在一些实施方案中,提供用于产生靶向核酸编辑蛋白,例如Cas9和核酸编辑蛋白或域的融合蛋白的试剂和试剂盒。,下面是基编辑器及其用途专利的具体信息内容。

1.融合蛋白,其包含:(i)Cas9域;(ii)胞苷脱酶域;和(iii)尿嘧啶糖基化酶抑制剂
(UGI)域。
2.权利要求1的融合蛋白,其中所述Cas9域包含与SEQ ID NO:674中提供的氨基酸序列
至少85%相同的氨基酸序列。
3.权利要求1的融合蛋白,其中所述Cas9域是切割核苷酸双链体的核苷酸靶链的Cas9
切口酶域,其中所述核苷酸靶链是结合所述Cas9切口酶域的gRNA的链。
4.权利要求1的融合蛋白,其中所述Cas9域是包含SEQ ID NO:10中提供的氨基酸序列
中的D10A突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变的nCas9域。
5.权利要求1的融合蛋白,其中所述Cas9域是包含SEQ ID NO 10中提供的氨基酸序列
的N496A、R660A、Q694A、和Q926A或者SEQ ID NO:11-260中提供的任何氨基酸序列中的一个或多个相应突变中的一个或多个的nCas9域。
6.权利要求1的融合蛋白,其中所述胞苷脱氨酶域是来自载脂蛋白B mRNA-编辑复合物
(APOBEC)家族脱氨酶的脱氨酶。
7.权利要求6的融合蛋白,其中所述APOBEC家族脱氨酶选自APOBEC1脱氨酶、APOBEC2脱
氨酶、APOBEC3A脱氨酶、APOBEC3B脱氨酶、APOBEC3C脱氨酶、APOBEC3D脱氨酶、APOBEC3F脱氨酶、APOBEC3G脱氨酶和APOBEC3H脱氨酶。
8.权利要求1的融合蛋白,其中所述胞苷脱氨酶域包含与SEQ ID NO:266-284、607-
610、5724-5736、或5738-5741的氨基酸序列至少85%相同的氨基酸序列。
9.权利要求1的融合蛋白,其中所述胞苷脱氨酶域包含SEQ ID NO:266-284、607-610、
5724-5736、或5738-5741的氨基酸序列。
10.权利要求1的融合蛋白,其中所述胞苷脱氨酶域是包含选自下组的一个或多个突变
的大鼠APOBEC1(rAPOBEC1)脱氨酶:SEQ ID NO:284的W90Y、R126E、和R132E或另一种APOBEC脱氨酶中的一个或多个相应的突变。
11.权利要求1的融合蛋白,其中所述胞苷脱氨酶域是包含选自下组的一个或多个突变
的人APOBEC1(hAPOBEC1)脱氨酶:SEQ ID NO:5724的W90Y、Q126E、和R132E或另一种APOBEC脱氨酶中的一个或多个相应的突变。
12.权利要求1的融合蛋白,其中所述胞苷脱氨酶域是包含选自下组的一个或多个突变
的人APOBEC3G(hAPOBEC3G)脱氨酶:SEQ ID NO:275的W285Y、R320E和R326E或另一种APOBEC脱氨酶中的一个或多个相应的突变。
13.权利要求1的融合蛋白,其中所述胞苷脱氨酶域是活化诱导的脱氨酶(AID)。
14.权利要求1的融合蛋白,其中所述胞苷脱氨酶域是来自海七鳃鳗(Petromyzon 
marinus)的胞苷脱氨酶1(pmCDA1)。
15.权利要求1的融合蛋白,其中所述UGI域包含能够抑制UDG活性的域。
16.权利要求1的融合蛋白,其中所述UGI域包含与SEQ ID NO:600至少85%相同的氨基
酸序列。
17.权利要求1的融合蛋白,其中所述UGI域包含如SEQ ID NO:600所示的氨基酸序列。
18.权利要求1的融合蛋白,其中所述融合蛋白包含以下结构:
NH2-[胞苷脱氨酶域]-[Cas9域]-[UGI域]-COOH,并且其中“-”的每个情况包含任选的接
头。
19.权利要求1的融合蛋白,其中(ii)的所述胞苷脱氨酶域和(i)的所述nCas9域经由接
头连接,所述接头包含氨基酸序列(GGGS)n(SEQ ID NO:265)、(GGGGS)n(SEQ ID NO:5)、
(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、(SGGS)n(SEQ ID NO:4288)、SGSETPGTSESATPES(SEQ ID NO:7)、或(XP)n基序或其组合,其中n独立地为1-30的整数,并且其中X是任何氨基酸。
20.权利要求1的融合蛋白,其中(ii)的所述胞苷脱氨酶域和(i)的所述nCas9域经由接
头连接,所述接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:7)。
21.权利要求1的融合蛋白,其还包含核定位序列(NLS)。
22.权利要求21的融合蛋白,其中所述NLS包含氨基酸序列PKKKRKV(SEQ ID NO:741)或
MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO:742)。
23.权利要求21的融合蛋白,其中所述融合蛋白包含以下结构:
NH2-[胞苷脱氨酶域]-[nCas9域]-[UGI域]-[NLS]-COOH,并且其中“-”的每个情况包含
任选的接头。
24.权利要求21的融合蛋白,其中所述UGI域和所述NLS经由接头连接,所述接头包含氨
基酸序列:SGGS(SEQ ID NO:4288),或其中所述nCas9域和所述UGI域经由接头连接,所述接头包含氨基酸序列:SGGS(SEQ ID NO:4288)。
25.权利要求1的融合蛋白,其中所述融合蛋白包含SEQ ID NO:594所示的氨基酸序列。
26.复合物,其包含权利要求1的融合蛋白和与所述融合蛋白的nCas9域结合的引导
RNA。
27.方法,所述方法包括使核酸分子与权利要求1的融合蛋白和引导RNA接触,其中所述
引导RNA包含与生物体的基因组中的靶序列互补至少10个连续核苷酸的序列,并且包含靶
基对。
28.权利要求27的方法,其中所述靶碱基对包含与疾病或病症相关的T至C点突变,并且
其中所述突变体C碱基的脱氨基化导致不与疾病或病症相关的序列。
29.权利要求27的方法,其中所述接触在碱基编辑时导致小于20%的插入/缺失形成。
30.权利要求27的方法,其中所述接触在碱基编辑时导致至少2:1的意图产物:非意图
产物。
31.融合蛋白,其包含:(i)核酸酶无活性的Cas9(dCas9)域和(ii)载脂蛋白B mRNA编辑
复合物1(APOBEC1)脱氨酶域,其中所述脱氨酶域经由包含氨基酸序列SGSETPGTSESATPES
(SEQ ID NO:7)的接头与所述dCas9域的N端融合。
32.权利要求31的融合蛋白,其中(i)的所述核酸酶无活性Cas9(dCas9)域包含与SEQ 
ID NO:263所示氨基酸序列至少85%相同的氨基酸序列。
33.权利要求31的融合蛋白,其中(i)的所述核酸酶无活性Cas9(dCas9)域包含SEQ ID 
NO:263所示的氨基酸序列。
34.权利要求31-33中任一项的融合蛋白,其中所述脱氨酶是与(SEQ ID NO:284)所示
的氨基酸序列至少85%相同的大鼠APOBEC1脱氨酶。
35.权利要求31-34中任一项的融合蛋白,其中所述脱氨酶是包含如(SEQ ID NO:284)
所示的氨基酸序列的大鼠APOBEC1脱氨酶。
36.权利要求31-33中任一项的融合蛋白,其中所述脱氨酶是与如(SEQ ID NO:282)所
示的氨基酸序列至少85%相同的人APOBEC1脱氨酶。
37.权利要求31-33中任一项的融合蛋白,其中所述脱氨酶是包含如(SEQ ID NO:282)
所示的氨基酸序列的人APOBEC1脱氨酶。
38.权利要求31-37中任一项的融合蛋白,其中所述UGI域包含与SEQ ID NO:600至少
80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。
39.权利要求31-38中任一项的融合蛋白,其中所述UGI域包含如SEQ ID NO:600所示的
氨基酸序列。
40.权利要求31至37中任一项的融合蛋白,其中所述UGI域包含与SEQ ID NO:322-324
中的任一项至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少
98%、至少99%、或至少99.5%相同的氨基酸序列。
41.权利要求31-37中任一项的融合蛋白,其中所述UGI域包含如SEQ ID NO:322-324中
任一项所示的氨基酸序列。
42.权利要求31-41中任一项的融合蛋白,其中所述融合蛋白包含SEQ ID NO:591所示
的氨基酸序列的氨基酸残基11-1629。
43.权利要求31-41中任一项的融合蛋白,其中所述融合蛋白包含SEQ ID NO:591-593、
611、612、615、657、658、和5737中任一项所示的氨基酸序列。
44.融合蛋白,其包含:(i)核酸酶无活性的Cas9(dCas9)域;(ii)核酸编辑域;和(iii)
尿嘧啶糖基化酶抑制剂(UGI)域。
45.权利要求44的融合蛋白,其中所述dCas9域的氨基酸序列包含SEQ ID NO:10中提供
的氨基酸序列的D10X突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变,其
中X是除D以外的任何氨基酸。
46.权利要求44或45的融合蛋白,其中所述dCas9域的氨基酸序列包含SEQ ID NO:10中
提供的氨基酸序列的D10A突变,或者在SEQ ID NO:11-260中提供的任何氨基酸序列中的相
应突变。
47.权利要求44-46中任一项的融合蛋白,其中所述dCas9域的氨基酸序列包含SEQ ID 
NO:10中提供的氨基酸序列的H840X突变或SEQ ID NO:11-260中提供任何氨基酸序列中的
相应突变序列,其中X是除H以外的任何氨基酸。
48.权利要求44-47中任一项的融合蛋白,其中所述dCas9域的氨基酸序列包含SEQ ID 
NO:10中提供的氨基酸序列的H840A突变或SEQ ID NO:11-260中提供的任何氨基酸序列中
的相应突变。
49.权利要求44-48中任一项的融合蛋白,其中所述dCas9域包含与如SEQ ID NO:263中
所示的氨基酸序列至少85%相同的氨基酸序列。
50.权利要求44-49中任一项的融合蛋白,其中所述dCas9域包含如SEQ ID NO:263所示
的氨基酸序列。
51.权利要求44-50中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:10中提供
的氨基酸序列的N497X、R661X、Q695X、和Q926X突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个,其中X是任何氨基酸。
52.权利要求44-51中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:10中提供
的氨基酸序列的N497A、R661A、Q695A、和Q926A突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个。
53.权利要求44-52中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:10中提供
的氨基酸序列的N497A、R661A、Q695A、和Q926A突变,或者SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。
54.权利要求44-53中任一项的融合蛋白,其中所述dCas9域包含金黄色葡萄球菌
(SaCas9)。
55.权利要求54的融合蛋白,其中所述SaCas9包含氨基酸序列SEQ ID NO:4273。
56.权利要求54或55的融合蛋白,其中所述SaCas9域包含SEQ ID NO:4273的E781K、
N967K、或R1014H突变,或者SEQ ID NO:11-260中提供的任何氨基酸序列中的一个或多个相应突变中的一个或多个。
57.权利要求44-53中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:4276的
D1134E、R1334Q、和T1336R突变,或者SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个。
58.权利要求44-53中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:4276的
D1134V、R1334Q、和T1336R突变,或者SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个。
59.权利要求44-53中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:4276的
D1134V、G1217R、R1334Q、和T1336R突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个。
60.权利要求44-59中任一项的融合蛋白,其中所述核酸编辑域与所述dCas9域的N端融
合。
61.权利要求44-60中任一项的融合蛋白,其中所述UGI域与所述dCas9域的C端融合。
62.权利要求44-61中任一项的融合蛋白,其中所述dCas9域和所述核酸编辑域经由接
头融合。
63.权利要求44-62中任一项的融合蛋白,其中所述dCas9域和所述UGI域经由接头融
合。
64.权利要求62或63的融合蛋白,其中所述接头包含氨基酸序列(GGGGS)n(SEQ ID NO:
5)、(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、SGSETPGTSESATPES(SEQ ID NO:7)、SGGS(SEQ ID NO:4288)、(XP)n、或其任何组合,其中n独立地为1-30的整数,并且其中X为任何氨基酸。
65.权利要求62或63的融合蛋白,其中所述接头包含共价键。
66.权利要求64的融合蛋白,其中所述接头包含氨基酸序列(GGS)n,其中n为1、3或7。
67.权利要求64的融合蛋白,其中所述接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID 
NO:7)。
68.权利要求62的融合蛋白,其中所述dCas9域和所述核酸编辑域经由包含氨基酸序列
SGSETPGTSESATPES(SEQ ID NO:7)的接头融合。
69.权利要求62的融合蛋白,其中所述dCas9域和所述核酸编辑域经由包含氨基酸序列
(GGS)n的接头融合,其中n是1、3或7。
70.权利要求63的融合蛋白,其中所述dCas9域和所述UGI域经由接头融合,所述接头包
含氨基酸序列(GGGGS)n(SEQ ID NO:5)、(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、
SGSETPGTSESATPES(SEQ ID NO:7)、SGGS(SEQ ID NO:4288)、(XP)n、或其任何组合,其中n独立地为1-30的整数,并且其中X是任何氨基酸。
71.权利要求63的融合蛋白,其中所述dCas9域和所述UGI域经由包含氨基酸序列SGGS
(SEQ ID NO:4288)的接头融合。
72.权利要求44-71中任一项的融合蛋白,其中所述融合蛋白包含结构[核酸编辑域]-
[任选的接头]-[dCas9域]-[任选的接头]-[UGI]。
73.权利要求44-67中任一项的融合蛋白,其中所述融合蛋白包含结构[核酸编辑域]-
[任选的接头]-[UGI]-[任选的接头]-[dCas9];[UGI]-[任选的接头]-[核酸编辑域]-[任选
的接头]-[dCas9];[UGI]-[任选的接头]-[dCas9]-[任选的接头]-[核酸编辑域];[dCas9]-[任选的接头]-[UGI]-[任选的接头]-[核酸编辑域];或[dCas9]-[任选的接头]-[核酸编辑
域]-[任选的接头]-[UGI]。
74.权利要求44-73中任一项的融合蛋白,其中所述核酸编辑域包含脱氨酶。
75.权利要求74的融合蛋白,其中所述脱氨酶是胞苷脱氨酶。
76.权利要求74或75的融合蛋白,其中所述脱氨酶是载脂蛋白B mRNA-编辑复合物
(APOBEC)家族脱氨酶。
77.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC1脱氨酶。
78.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC2脱氨酶。
79.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC3A脱氨酶。
80.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC3B脱氨酶。
81.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC3C脱氨酶。
82.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC3D脱氨酶。
83.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC3F脱氨酶。
84.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC3G脱氨酶。
85.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC3H脱氨酶。
86.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是APOBEC4脱氨酶。
87.权利要求74或75的融合蛋白,其中所述脱氨酶是活化诱导的脱氨酶(AID)。
88.权利要求74或75的融合蛋白,其中所述脱氨酶是包含选自下组的一个或多个突变
的APOBEC脱氨酶:rAPOBEC1(SEQ ID NO:284)的H121R、H122R、R126A、R126E、R118A、W90A、W90Y、和R132E,或另一种APOBEC脱氨酶中的一个或多个相应突变。
89.权利要求74或75的融合蛋白,其中所述脱氨酶是APOBEC脱氨酶,其包含rAPOBEC1
(SEQ ID NO:284)的W90Y、R126E和R132E突变或另一种APOBEC脱氨酶中的一个或多个相应
突变。
90.权利要求74或75的融合蛋白,其中所述脱氨酶包含选自下组的一个或多个突变:
hAPOBEC3G(SEQ ID NO:275)的D316R、D317R、R320A、R320E、R313A、W285A、W285Y、R326E,或另一种APOBEC脱氨酶中的一个或多个相应的突变。
91.权利要求74或75的融合蛋白,其中所述脱氨酶是包含hAPOBEC3G(SEQ ID NO:275)
的W285Y、R320E和R326E突变或另一种APOBEC脱氨酶中的一个或多个相应突变的APOBEC脱
氨酶。
92.权利要求74-91中任一项的融合蛋白,其中所述脱氨酶来自人、黑猩猩、大猩猩、猴、
、狗、大鼠或小鼠。
93.权利要求74-92中任一项的融合蛋白,其中所述脱氨酶来自人。
94.权利要求74-92中任一项的融合蛋白,其中所述脱氨酶来自大鼠。
95.权利要求74或75的融合蛋白,其中所述脱氨酶是来自海七鳃鳗的胞苷脱氨酶1
(pmCDA1)。
96.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是包含(SEQ ID NO:284)所
示的氨基酸序列的大鼠APOBEC1脱氨酶。
97.权利要求74-76中任一项的融合蛋白,其中所述脱氨酶是包含(SEQ ID NO:282)中
所示的氨基酸序列的人APOBEC1脱氨酶。
98.权利要求95的融合蛋白,其中所述pmCDA1包含(SEQ ID NO:5738)所示的氨基酸序
列。
99.权利要求84的融合蛋白,其中所述APOBEC3G是包含(SEQ ID NO:275)所示的氨基酸
序列的人APOBEC3G。
100.权利要求84的融合蛋白,其中所述APOBEC3G是包含(SEQ ID NO:5739-5741)中任
一项所示的氨基酸序列的人APOBEC3G变体。
101.权利要求74或75的融合蛋白,其中所述脱氨酶与SEQ ID NO:266-284、607-610、
5724-5736、和5738-5741所示的任一项氨基酸序列是至少80%、至少85%、至少90%、至少
92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的。
102.权利要求74或75的融合蛋白,其中所述脱氨酶包含SEQ ID NO:266-284、607-610、
5724-5736、和5738-5741中任一项所示的氨基酸序列。
103.权利要求44-102中任一项的融合蛋白,其中所述UGI域包含与SEQ ID NO:600至少
80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。
104.权利要求44-103中任一项的融合蛋白,其中所述UGI域包含如SEQ ID NO:600所示
的氨基酸序列。
105.权利要求44-102中任一项的融合蛋白,其中所述UGI域包含与SEQ ID NO:322-324
中的任一项至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少
98%、至少99%、或至少99.5%相同的氨基酸序列。
106.权利要求44-102中任一项的融合蛋白,其中所述UGI域包含如SEQ ID NO:322-324
中任一项所示的氨基酸序列。
107.融合蛋白,其包含:(i)Cas9切口酶域和(ii)载脂蛋白B mRNA编辑复合物1
(APOBEC1)脱氨酶域,其中所述脱氨酶域经由接头与所述Cas9切口酶域的N端融合,所述接
头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:7)。
108.权利要求107的融合蛋白,其中所述脱氨酶是大鼠APOBEC1(SEQ ID NO:284)。
109.权利要求107或108的融合蛋白,其中所述脱氨酶是人APOBEC1(SEQ ID NO:282)。
110.融合蛋白,其包含:(i)Cas9切口酶域和(ii)载脂蛋白B mRNA编辑复合物3G
(APOBEC3G)脱氨酶域,其中所述脱氨酶域经由接头与所述Cas9切口酶域的N端融合,所述接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:7)。
111.权利要求110的融合蛋白,其中所述脱氨酶是人APOBEC3G脱氨酶,其包含与(SEQ 
ID NO:275)所示的氨基酸序列至少85%相同的氨基酸序列。
112.权利要求110或111的融合蛋白,其中所述脱氨酶是人APOBEC3G(SEQ ID NO:275)。
113.权利要求110的融合蛋白,其中所述APOBEC3G是人APOBEC3G变体,其包含与(SEQ 
ID NO:5739-5741)中任一项所示的氨基酸序列至少85%相同的氨基酸序列。
114.权利要求110的融合蛋白,其中所述APOBEC3G是包含(SEQ ID NO:5739-5741)中任
一项所示的氨基酸序列的人APOBEC3G变体。
115.融合蛋白,其包含:(i)Cas9切口酶域和(ii)pmCDA1域,其中所述脱氨酶域经由接
头与所述Cas9切口酶域的N端融合,所述接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID 
NO:7)。
116.权利要求115的融合蛋白,其中所述pmCDA1包含与(SEQ ID NO:5738)所示的氨基
酸序列至少85%相同的氨基酸序列。
117.权利要求115或116的融合蛋白,其中所述pmCDA1包含(SEQ ID NO:5738)所示的氨
基酸序列。
118.权利要求107-117中任一项的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包
含SEQ ID NO:10中提供的氨基酸序列的D10X突变或在SEQ ID NO:11-260中提供的任何氨
基酸序列中的相应突变,其中X是除D以外的任何氨基酸。
119.权利要求107-118中任一项的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包
含SEQ ID NO:10中提供的氨基酸序列的D10A突变或在SEQ ID NO:11-260中提供的任何氨
基酸序列中的相应突变。
120.权利要求107-119中任一项的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包
含在SEQ ID NO:10中提供的氨基酸序列的氨基酸位置840,或在SEQ ID NO:11-260中提供
的任何氨基酸序列中相应的氨基酸位置处的组氨酸。
121.权利要求107-120中任一项的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包
含与如SEQ ID NO:674所示的氨基酸序列至少85%相同的氨基酸序列。
122.权利要求107至121中任一项的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包
含如SEQ ID NO:674所示的氨基酸序列。
123.权利要求107-122中任一项的融合蛋白,其中所述UGI域包含与SEQ ID NO:600至
少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少
99%、或至少99.5%相同的氨基酸序列。
124.权利要求107-123中任一项的融合蛋白,其中所述UGI域包含如SEQ ID NO:600所
示的氨基酸序列。
125.权利要求107-122中任一项的融合蛋白,其中所述UGI域包含与SEQ ID NO:322-
324中的任一项至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。
126.权利要求107-122中任一项的融合蛋白,其中所述UGI域包含如SEQ ID NO:322-
324中任一项所示的氨基酸序列。
127.权利要求107-126中任一项的融合蛋白,其中所述融合蛋白包含SEQ ID NO:594、
5743、5745、和5746中任一项所示的氨基酸序列。
128.融合蛋白,其包含:(i)Cas9切口酶(nCas9)域;(ii)核酸编辑域;和(iii)尿嘧啶糖
基化酶抑制剂(UGI)域。
129.权利要求128的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包含SEQ ID NO:
10中提供的氨基酸序列的D10X突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相
应突变,其中X是除D以外的任何氨基酸。
130.权利要求128或129的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包含SEQ ID 
NO:10中提供的氨基酸序列的D10A突变或在SEQ ID NO:11-260中提供的任何氨基酸序列中
的相应突变。
131.权利要求128-130中任一项的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包
含在SEQ ID NO:10中提供的氨基酸序列的氨基酸位置840,或在SEQ ID NO:11-260中提供
的任何氨基酸序列中的相应的氨基酸位置处的组氨酸。
132.权利要求128-131中任一项的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包
含与SEQ ID NO:674所示的氨基酸序列至少85%相同的氨基酸序列。
133.权利要求128-131中任一项的融合蛋白,其中所述Cas9切口酶域的氨基酸序列包
含如SEQ ID NO:674所示的氨基酸序列。
134.权利要求128-133中任一项的融合蛋白,其中所述Cas9切口酶域包含SEQ ID NO:
10中提供的氨基酸序列的N497X、R661X、Q695X、和Q926X突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个,其中X是任何氨基酸。
135.权利要求128-134中任一项的融合蛋白,其中所述Cas9切口酶域包含SEQ ID NO:
10中提供的氨基酸序列的N497A、R661A、Q695A、和Q926A突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个。
136.权利要求128-135中任一项的融合蛋白,其中所述Cas9切口酶域包含SEQ ID NO:
10中提供的氨基酸序列的N497A、R661A、Q695A、和Q926A突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。
137.权利要求128-136中任一项的融合蛋白,其中所述Cas9切口酶域包含金黄色葡萄
球菌(SaCas9)。
138.权利要求137的融合蛋白,其中所述SaCas9包含氨基酸序列SEQ ID NO:4273。
139.权利要求137或138的融合蛋白,其中所述SaCas9包含SEQ ID NO:4273的E781K、
N967K或R1014H突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的一个或多个相应
突变中的一个或多个。
140.权利要求128-136中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:4276的
D1134E、R1334Q和T1336R突变,或者在SEQ ID NO:11-260中提供的任何氨基酸序列中的相
应突变中的一个或多个。
141.权利要求128-136中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:4276的
D1134V,R1334Q和T1336R突变,或者在SEQ ID NO:11-260中提供的任何氨基酸序列中的相
应突变中的一个或多个。
142.权利要求128-136中任一项的融合蛋白,其中所述dCas9域包含SEQ ID NO:4276的
D1134V、G1217R、R1334Q、和T1336R突变,或在SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个。
143.权利要求128-142中任一项的融合蛋白,其中所述核酸编辑域与所述Cas9切口酶
域的N端融合。
144.权利要求128-143中任一项的融合蛋白,其中所述UGI域与所述Cas9切口酶域的C
端融合。
145.权利要求128-144中任一项的融合蛋白,其中所述Cas9切口酶域和所述核酸编辑
域经由接头融合。
146.权利要求128-145中任一项的融合蛋白,其中所述Cas9切口酶域和所述UGI域经由
接头融合。
147.权利要求145或146的融合蛋白,其中所述接头包含氨基酸序列(GGGGS)n(SEQ ID 
NO:5)、(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、SGSETPGTSESATPES(SEQ ID NO:7)、SGGS(SEQ ID NO:4288)、(XP)n、或其任何组合,其中n独立地为1-30的整数,并且其中X为任何氨基酸。
148.权利要求145或146的融合蛋白,其中所述接头包含共价键。
149.权利要求147的融合蛋白,其中所述接头包含氨基酸序列(GGS)n,其中n是1、3或7。
150.权利要求147的融合蛋白,其中所述接头包含氨基酸序列SGSETPGTSESATPES(SEQ 
ID NO:7)。
151.权利要求145的融合蛋白,其中所述nCas9域和所述核酸编辑域经由包含氨基酸序
列SGSETPGTSESATPES(SEQ ID NO:7)的接头融合。
152.权利要求145的融合蛋白,其中所述nCas9域和所述核酸编辑域经由包含氨基酸序
列(GGS)n的接头融合,其中n是1、3或7。
153.权利要求146的融合蛋白,其中所述nCas9域和所述UGI域经由接头融合,所述接头
包含氨基酸序列(GGGGS)n(SEQ ID NO:5)、(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、
SGSETPGTSESATPES(SEQ ID NO:7)、SGGS(SEQ ID NO:4288)、(XP)n、或其任何组合,其中n独立地为1-30的整数,并且其中X是任何氨基酸。
154.权利要求146的融合蛋白,其中所述nCas9域和UGI域经由包含氨基酸序列SGGS
(SEQ ID NO:4288)的接头融合。
155.权利要求128-154中任一项的融合蛋白,其中所述融合蛋白包含结构[核酸编辑
域]-[任选的接头]-[Cas9切口酶]-[任选的接头]-[UGI域]。
156.权利要求128-154中任一项的融合蛋白,其中所述融合蛋白包含结构[核酸编辑
域]-[任选的接头]-[UGI域]-[任选的接头]-[Cas9切口酶];[UGI域]-[任选的接头]-[核酸
编辑域]-[任选的接头]-[Cas9切口酶];[UGI域]-[任选的接头]-[Cas9切口酶]-[任选的接
头]-[核酸编辑域];[Cas9切口酶]-[任选的接头]-[UGI域]-[任选的接头]-[核酸编辑域];
或[Cas9切口酶]-[任选的接头]-[核酸编辑域]-[任选的接头]-[UGI域]。
157.权利要求128-156中任一项的融合蛋白,其中所述核酸编辑域包含脱氨酶。
158.权利要求157的融合蛋白,其中所述脱氨酶是胞苷脱氨酶。
159.权利要求157或158的融合蛋白,其中所述脱氨酶是载脂蛋白B mRNA-编辑复合物
(APOBEC)家族脱氨酶。
160.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC1脱氨酶。
161.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC2脱氨酶。
162.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC3A脱氨酶。
163.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC3B脱氨酶。
164.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC3C脱氨酶。
165.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC3D脱氨酶。
166.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC3F脱氨酶。
167.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC3G脱氨酶。
168.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC3H脱氨酶。
169.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是APOBEC4脱氨酶。
170.权利要求157或158的融合蛋白,其中所述脱氨酶是活化诱导的脱氨酶(AID)。
171.权利要求157或158的融合蛋白,其中所述脱氨酶是包含选自下组的一个或多个突
变的APOBEC脱氨酶:rAPOBEC1(SEQ ID NO:284)的H121R、H122R、R126A、R126E、R118A、W90A、W90Y、和R132E,或另一种APOBEC脱氨酶中的一个或多个相应突变。
172.权利要求157或158的融合蛋白,其中所述脱氨酶是包含rAPOBEC1(SEQ ID NO:
284)的W90Y、R126E和R132E突变或另一种APOBEC脱氨酶中的一个或多个相应突变的APOBEC
脱氨酶。
173.权利要求157或158的融合蛋白,其中所述脱氨酶包含选自下组的一个或多个突
变:hAPOBEC3G(SEQ ID NO:275)的D316R、D317R、R320A、R320E、R313A、W285A、W285Y、R326E,或另一种APOBEC脱氨酶中的一个或多个相应的突变。
174.权利要求157或158的融合蛋白,其中所述脱氨酶是包含hAPOBEC3G(SEQ ID NO:
275)的W285Y、R320E和R326E突变或另一种APOBEC脱氨酶中的一个或多个相应突变的
APOBEC脱氨酶。
175.权利要求157-174中任一项的融合蛋白,其中所述脱氨酶来自人、黑猩猩、大猩猩、
猴、牛、狗、大鼠或小鼠。
176.权利要求157-175中任一项的融合蛋白,其中所述脱氨酶来自人。
177.权利要求157-175中任一项的融合蛋白,其中所述脱氨酶来自大鼠。
178.权利要求157或158的融合蛋白,其中所述脱氨酶是来自海七鳃鳗的胞苷脱氨酶1
(pmCDA1)。
179.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是包含(SEQ ID NO:284)
所示的氨基酸序列的大鼠APOBEC1脱氨酶。
180.权利要求157-159中任一项的融合蛋白,其中所述脱氨酶是包含(SEQ ID NO:282)
所示的氨基酸序列的人APOBEC1脱氨酶。
181.权利要求178的融合蛋白,其中所述pmCDA1包含(SEQ ID NO:5738)所示的氨基酸
序列。
182.权利要求167的融合蛋白,其中所述APOBEC3G是包含(SEQ ID NO:275)所示的氨基
酸序列的人APOBEC3G。
183.权利要求167的融合蛋白,其中所述APOBEC3G是包含(SEQ ID NO:5739-5741)中任
一项所示的氨基酸序列的人APOBEC3G变体。
184.权利要求157或158的融合蛋白,其中所述脱氨酶与SEQ ID NO:266-284、607-610、
5724-5736和5738-5741所示的氨基酸序列中的任一种是至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的。
185.权利要求157或158的融合蛋白,其中所述脱氨酶包含SEQ ID NO:266-284、607-
610、5724-5736和5738-5741中任一项所示的氨基酸序列。
186.权利要求128-185中任一项的融合蛋白,其中所述UGI域包含与SEQ ID NO:600至
少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少
99%、或至少99.5%相同的氨基酸序列。
187.权利要求128-186中任一项的融合蛋白,其中所述UGI域包含如SEQ ID NO:600所
示的氨基酸序列。
188.权利要求128-185中任一项的融合蛋白,其中所述UGI域包含与SEQ ID NO:322-
324中任一项至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。
189.权利要求128-185中任一项的融合蛋白,其中所述UGI域包含如SEQ ID NO:322-
324中任一项所示的氨基酸序列。
190.复合物,其包含权利要求1-30中任一项的融合蛋白和与所述融合蛋白的Cas9域结
合的引导RNA(gRNA)。
191.复合物,其包含权利要求31-106中任一项的融合蛋白和与所述融合蛋白的dCas9
域结合的引导RNA(gRNA)。
192.复合物,其包含权利要求107-189中任一项的融合蛋白和与所述融合蛋白的Cas9
切口酶(nCas9)域结合的引导RNA(gRNA)。
193.权利要求190-192中任一项的复合物,其中所述引导RNA长15-100个核苷酸并且包
含与靶序列互补的至少10个连续核苷酸的序列。
194.权利要求193的复合物,其中所述引导RNA长15、16、17、18、19、20、21、22、23、24、
25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或
50个核苷酸。
195.权利要求190-194中任一项的复合物,其中所述引导RNA包含与靶序列互补的15、
16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、或40个连续核苷酸的序列。
196.权利要求190-195中任一项的复合物,其中所述靶序列是DNA序列。
197.权利要求196的复合物,其中所述靶序列在生物体的基因组中。
198.权利要求197的复合物,其中所述生物体是原核生物。
199.权利要求198的复合物,其中原核生物是细菌。
200.权利要求197的复合物,其中所述生物体是真核生物。
201.权利要求200的复合物,其中所述生物体是植物
202.权利要求200的复合物,其中所述生物体是脊椎动物
203.权利要求202的复合物,其中所述脊椎动物是哺乳动物
204.权利要求203的复合物,其中所述哺乳动物是小鼠或大鼠。
205.权利要求203的复合物,其中所述哺乳动物是人。
206.方法,其包括使核酸分子与权利要求1-189任一项的融合蛋白和引导RNA接触,其
中所述引导RNA长15-100个核苷酸并且包含与靶序列互补的至少10个连续核苷酸的序列。
207.方法,其包括使核酸分子与权利要求190-205中任一项的复合物接触。
208.权利要求206或207的方法,其中所述核酸是DNA。
209.权利要求208的方法,其中所述核酸是双链DNA。
210.权利要求206-209中任一项的方法,其中所述靶序列包含与疾病或病症相关的序
列。
211.权利要求210的方法,其中所述靶序列包含与疾病或病症相关的点突变。
212.权利要求211的方法,其中所述融合蛋白或所述复合物的活性导致所述点突变的
校正。
213.权利要求206-212中任一项的方法,其中所述靶序列包含与疾病或病症相关的T至
C点突变,并且其中所述突变C碱基的脱氨基化导致不与疾病或病症相关的序列。
214.权利要求213的方法,其中所述靶序列编码蛋白质,并且其中所述点突变位于密码
子中,并且导致与野生型密码子相比由突变体密码子编码的氨基酸的变化。
215.权利要求214的方法,其中所述突变体C的脱氨基化导致由所述突变体密码子编码
的氨基酸的变化。
216.权利要求215的方法,其中所述突变体C的脱氨基化导致编码野生型氨基酸的密码
子。
217.权利要求206-216中任一项的方法,其中在受试者中体内进行所述接触。
218.权利要求206-216中任一项的方法,其中在体外进行所述接触。
219.权利要求217的方法,其中所述受试者已经诊断患有疾病或病症。
220.权利要求210-219中任一项的方法,其中所述疾病或病症为囊性纤维化、苯丙
尿、表皮松解性化过度(EHK)、夏科-里-图斯病4J型、成神经细胞瘤(NB)、血管性血友病(vWD)、先天性肌强直、遗传性肾淀粉样变性、扩张型心肌病(DCM)、遗传性淋巴肿、家族性阿尔茨海默氏病、HIV、朊病毒病、慢性婴儿神经皮肤关节综合征(CINCA)、结蛋白相关性肌病(DRM)、与突变体PI3KCA蛋白、突变体CTNNB1蛋白、突变体HRAS蛋白、或突变体p53蛋白有关的新生性疾病。
221.权利要求211-220中任一项的方法,其中所述疾病或病症与选自表1中公开的基因
的基因中的T>C或A>G突变相关。
222.权利要求211-220中任一项的方法,其中所述疾病或病症与选自表2或3中公开的
基因的基因中的T>C或A>G突变相关。
223.权利要求206-222中任一项的方法,其中所述引导RNA包含表2或表3中的任一种原
间隔物序列的核苷酸序列。
224.用于编辑双链DNA序列的核碱基对的方法,所述方法包括:
a.使所述双链DNA序列的靶区域与包含核碱基编辑器和引导核酸的复合物接触,其中
所述靶区域包含靶核碱基对;
b.诱导所述靶区域的链分离;
c.将所述靶区域的单链中的所述靶核碱基对的第一核碱基转换为第二核碱基;并且
d.切割所述靶区域的不超过一条链;
其中与所述第一核碱基互补的第三核碱基被与所述第二核碱基互补的第四核碱基替
换,并且所述方法在所述双链DNA序列中引起小于20%的插入/缺失形成。
225.权利要求224的方法,其中所述方法引起小于20%、19%、18%、16%、14%、12%、
10%、8%、6%、4%、2%、或1%插入/缺失形成。
226.权利要求224或225的方法,所述方法还包括用与所述第四核碱基互补的第五核碱
基替换所述第二核碱基,从而产生意图的编辑碱基对。
227.权利要求224至226中任一项的方法,其中产生所述意图的编辑碱基对的效率为至
少5%。
228.权利要求227的方法,其中所述效率为至少10%、15%、20%、25%、30%、35%、
40%、45%、或50%。
229.权利要求226的方法,其中所述靶核苷酸处的意图产物与非意图产物的比率为至
少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或200:1。
230.权利要求226的方法,其中意图点突变与插入/缺失形成的比率大于1:1、10:1、50:
1、100:1、500:1、或1000:1。
231.权利要求224-230中任一项的方法,其中使所述切割单链与所述引导核酸杂交。
232.权利要求224-231中任一项的方法,其中所述切割单链与包含所述第一核碱基的
链相反。
233.权利要求224-232中任一项的方法,其中所述第一碱基是胞嘧啶。
234.权利要求224-233中任一项的方法,其中所述第二核碱基不是G、C、A、或T。
235.权利要求224-234中任一项的方法,其中所述第二碱基是尿嘧啶。
236.权利要求224-235中任一项的方法,其中所述核碱基编辑器包含UGI活性。
237.权利要求224-236中任一项的方法,其中所述核碱基编辑器包含切口酶活性。
238.权利要求226-237中任一项的方法,其中所述意图的编辑碱基对在PAM位点上游。
239.权利要求238的方法,其中所述意图的编辑碱基对在所述PAM位点上游1、2、3、4、5、
6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。
240.权利要求239的方法,其中所述意图的编辑碱基对在所述PAM位点的下游。
241.权利要求240的方法,其中所述意图的编辑碱基对在所述PAM位点的下游1、2、3、4、
5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。
242.权利要求224-241中任一项的方法,其中所述方法不需要规范PAM位点。
243.权利要求242的方法,其中所述规范PAM位点包括NGG,其中N是A、T、C、或G。
244.权利要求224-243中任一项的方法,其中所述核碱基编辑器包含接头。
245.权利要求244的方法,其中所述接头的长度为1-25个氨基酸。
246.权利要求244或245的方法,其中所述接头的长度为5-20个氨基酸。
247.权利要求244-246中任一项的方法,其中所述接头的长度为10、11、12、13、14、15、
16、17、18、19、或20个氨基酸。
248.权利要求224-247中任一项的方法,其中所述靶区域包括靶窗,其中所述靶窗包括
所述靶核碱基对。
249.权利要求248的方法,其中所述靶窗包含1-10个核苷酸。
250.权利要求248的方法,其中所述靶窗的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-
2、或1个核苷酸。
251.权利要求248的方法,其中所述靶窗的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、
14、15、16、17、18、19、或20个核苷酸。
252.权利要求224-251中任一项的方法,其中所述意图的编辑碱基对发生在所述靶窗
内。
253.权利要求224-252中任一项的方法,其中所述靶窗包括所述意图的编辑碱基对。
254.权利要求224-253中任一项的方法,其中所述核碱基编辑器包含权利要求1-189中
任一项的融合蛋白。
255.用于编辑双链DNA序列的核碱基对的方法,所述方法包括:
a.使所述双链DNA序列的靶区域与包含核碱基编辑器和引导核酸的复合物接触,其中
所述靶区域包含靶核碱基对;
b.诱导所述靶区域的链分离;
c.将所述靶区域的单链中的所述靶核碱基对的第一核碱基转换为第二核碱基;
d.切割所述靶区域的不超过一条链;
其中与所述第一核碱基互补的第三核碱基被与所述第二核碱基互补的第四核碱基替
换;并且
e.用与所述第四核碱基互补的第五核碱基替换所述第二核碱基,由此产生意图的编辑
碱基对,
其中产生所述意图的编辑碱基对的效率为至少5%。
256.权利要求255的方法,其中所述效率为至少5%、10%、15%、20%、25%、30%、
35%、40%、45%、或50%。
257.权利要求255或256的方法,其中所述方法引起小于19%、18%、16%、14%、12%、
10%、8%、6%、4%、2%、或1%插入/缺失形成。
258.权利要求255-257中任一项的方法,其中所述靶核苷酸处的意图产物与非意图产
物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或
200:1。
259.权利要求255-258中任一项的方法,其中意图点突变与插入/缺失形成的比率大于
1:1、10:1、50:1、100:1、500:1、或1000:1。
260.权利要求255-259中任一项的方法,其中使所述切割单链与所述引导核酸杂交。
261.权利要求255-260中任一项的方法,其中所述切割单链与包含所述第一核碱基的
链相反。
262.权利要求255-261中任一项的方法,其中所述第一碱基是胞嘧啶。
263.权利要求255-262中任一项的方法,其中所述第二核碱基不是G、C、A、或T。
264.权利要求255-263中任一项的方法,其中所述第二碱基是尿嘧啶。
265.权利要求255-264中任一项的方法,其中所述核碱基编辑器包含UGI活性。
266.权利要求255-265中任一项的方法,其中所述核碱基编辑包括切口酶活性。
267.权利要求255-266中任一项的方法,其中所述意图的编辑碱基对在PAM位点上游。
268.权利要求267的方法,其中所述意图的编辑碱基对在所述PAM位点上游1、2、3、4、5、
6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。
269.权利要求255-266中任一项的方法,其中所述意图的编辑碱基对在所述PAM位点下
游。
270.权利要求269的方法,其中所述意图的编辑碱基对在所述PAM位点下游1、2、3、4、5、
6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。
271.权利要求255-270中任一项的方法,其中所述方法不需要规范PAM位点。
272.权利要求271的方法,其中所述规范PAM位点包含NGG,其中N是A、T、C或G。
273.权利要求255-272中任一项的方法,其中所述核碱基编辑器包含接头。
274.权利要求273的方法,其中所述接头的长度为1-25个氨基酸。
275.权利要求274或275的方法,其中所述接头的长度为5-20个氨基酸。
276.权利要求274-275中任一项的方法,其中所述接头的长度为10、11、12、13、14、15、
16、17、18、19、或20个氨基酸。
277.权利要求274-27中任一项的方法,其中所述靶区域包括靶窗,其中所述靶窗包括
所述靶核碱基对。
278.权利要求277的方法,其中所述靶窗包含1-10个核苷酸。
279.权利要求277的方法,其中所述靶窗的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-
2、或1个核苷酸。
280.权利要求277的方法,其中所述靶窗的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、
14、15、16、17、18、19、或20个核苷酸。
281.权利要求277至280中任一项的方法,其中所述意图的编辑碱基对发生在所述靶窗
内。
282.权利要求277至281中任一项的方法,其中所述靶窗包括所述意图的编辑碱基对。
283.权利要求255-282中任一项的方法,其中所述核碱基编辑器包含权利要求1-189中
任一项的融合蛋白。
284.与碱基切割修复抑制剂偶联的核酸引导的脱氨酶。
285.权利要求284的核酸引导的脱氨酶,其包含错配修复的引发剂。
286.权利要求284的核酸引导的脱氨酶,其包含切口酶。
287.用于编辑双链DNA序列的核碱基对的方法,该方法包括:
a.使所述双链DNA序列的靶区域与核酸引导的脱氨酶接触,其中所述靶区域包含靶核
碱基对;
b.将所述靶区域的所述靶核碱基对的第一核碱基转换为第二核碱基;并且
c.抑制所述第二核碱基的碱基切割修复。
288.权利要求287的方法,其还包括使所述靶双链DNA序列的非编辑链产生切口。
289.权利要求287的方法,其还包括启动错配修复以将与所述非编辑链上的第一核碱
基互补的核碱基转换为与所述第二核碱基互补的核碱基。
290.权利要求287的方法,其还包括在所述靶区域中诱导链分离。
291.用于编辑双链DNA序列的核碱基对的方法,所述方法包括:
a.使所述双链DNA序列的靶区域与核酸引导的脱氨酶接触,其中所述靶区域包含靶核
碱基对;
b.将所述靶区域中的所述靶核碱基对的第一核碱基转换为第二核碱基;并且
c.启动错配修复以将与所述非编辑链上的所述第一核碱基互补的核碱基转换为与所
述第二核碱基互补的核碱基。
292.权利要求291的方法,其还包括抑制所述第二核碱基的碱基切割修复。
293.权利要求291的方法,其还包括在所述靶区域中诱导链分离。
294.权利要求287或291的方法,其中所述核酸引导的脱氨酶是核酸引导的胞苷脱氨
酶。
295.包含核酸构建体的试剂盒,其包含:
(a)编码权利要求1-189中任一项的融合蛋白的核酸序列;和
(b)驱动(a)的序列表达的异源启动子。
296.权利要求256的试剂盒,其还包含编码引导RNA主链的表达构建体,其中所述构建
体包含克隆位点,所述克隆位点定位为允许将与靶序列相同或互补的核酸序列克隆到所述
引导RNA主链中。
297.编码权利要求1-189中任一项的融合蛋白的多核苷酸。
298.包含权利要求258的多核苷酸的载体。
299.权利要求259的载体,其中所述载体包含驱动所述多核苷酸表达的异源启动子。
300.包含权利要求1-189中任一项的融合蛋白的细胞。
301.细胞,其包含权利要求190-205中任一项的复合物。
302.包含编码权利要求1-189中任一项的融合蛋白的核酸分子的细胞。

说明书全文

基编辑器及其用途

[0001] 政府支持
[0002] 本发明是在由国立卫生研究院资助的拨款号R01EB022376(先前为R01GM065400)下、由国立卫生研究院资助的培训拨款号F32 GM 112366-2和F32GM 106601-2下、以及由国
立卫生研究院资助的Harvard Biophysics NIH培训拨款T32 GM008313下在得到政府支持
的情况下完成的。政府对本发明具有一定的权利。
[0003] 相关申请
[0004] 本申请根据35U.S.C.§119要求2015年10月23日提交的美国临时专利申请U.S.S.N.62/245,828、2016年1月15日提交的U.S.S.N.62/279,346、2016年3月22日提交的
U.S.S.N.62/311,763、2016年4月13日提交的U.S.S.N.62/322,178、2016年6月30日提交的
U.S.S.N.62/357,352、2016年8月3日提交的U.S.S.N.62/370,700、2016年9月22日提交的
U.S.S.N.62/398,490、2016年10月14日提交的U.S.S.N.62/408,686和2016年6月30日提交
的U.S.S.N.62/357,332的优先权;其中每篇通过引用并入本文。
[0005] 发明背景
[0006] 核酸序列的靶向编辑(例如基因组DNA的靶向切割或对基因组DNA靶向引入特定修饰)是用于研究基因功能的非常有前途的方法,并且还具有为人遗传疾病提供新疗法的潜
1。理想的核酸编辑技术拥有三个特点:(1)安装期望修饰的高效率;(2)最小的脱靶活性;
和(3)编程为精确编辑给定核酸中的任何位点,例如人基因组内的任何位点的能力2。目前
的基因组工程化工具,包括工程化锌指核酸酶(ZFN)3、转录激活物样效应器核酸酶(TALEN
)4、最近,RNA引导的DNA内切核酸酶Cas95实现基因组中的序列特异性DNA切割。此种可编程
的切割可以通过非同源末端连接(NHEJ)导致切割位点处DNA的突变或通过同源性定向修复
(HDR)替换切割位点周围的DNA6,7。
[0007] 目前的技术的一个缺点是NHEJ和HDR都是随机过程,其通常导致适度的基因编辑效率以及可以与期望的改变竞争的不需要的基因改变8。因为许多遗传疾病原则上可以通
过实现基因组中的特定位置处特定的核苷酸变化(例如,与疾病相关的基因的特定密码子
中的C至T变化)治疗9,所以实现此类精确基因编辑的可编程方式的开发将代表强大的新研
究工具以及基于基因编辑的人治疗学的潜在新方法两者。
[0008] 发明概述
[0009] 聚簇规则间隔短回文重复序列(clustered regularly interspaced short palindromic repeat,CRISPR)系统是最近发现的原核适应性免疫系统10,其经过修饰以在
各种生物体和细胞系中实现稳健且通用的基因组工程11。CRISPR-Cas(CRISPR相关)系统是
蛋白质-RNA复合物,它使用RNA分子(sgRNA)作为引导,通过碱基配对将复合物定位到靶DNA
序列12。在自然系统中,Cas蛋白作为内切核酸酶起作用以切割靶定的DNA序列13。靶DNA序列必须既与sgRNA互补,又在互补区域的3’末端包含“原间隔物相邻基序”(原间隔物-
adjacent motif,PAM),以便使系统发挥功能14。
[0010] 在已知的Cas蛋白中,酿脓链球菌(S.pyogenes)Cas9已经被广泛用作基因组工程的工具15。此Cas9蛋白是含有两个独特核酸酶域的大型多域蛋白。点突变可以引入Cas9中以
消除核酸酶活性,导致死亡的Cas9(dCas9),其仍然保留其以sgRNA程序的方式结合DNA的能
力16。原则上,当与另一种蛋白质或域融合时,dCas9可以仅通过与合适的sgRNA共表达而将
所述蛋白质靶向到几乎任何DNA序列。
[0011] 用于基因组工程目的的dCas9复合物的潜力是巨大的。理论上,它将蛋白质带到由sgRNA编程的基因组中的特定位点的独特能力可以发展成为超出核酸酶的多种位点特异性
基因组工程工具,包括转录激活物、转录阻抑物、组蛋白修饰蛋白、整合酶和重组酶11。这些中的一些潜在的应用最近已经通过dCas9与转录激活物的融合实施,以提供RNA引导的转录
17,18 16 ,20 21
激活物 、转录阻抑物 ,19 和染色质修饰酶 。这些融合物与多种sgRNA的简单共表达
导致靶基因的特异性表达。这些开创性的研究为设计和构建容易可编程的序列特异性效应
器以精确操作基因组铺平了道路。
[0012] 重要的是,80-90%的导致人疾病的蛋白质突变源自仅仅单核苷酸的取代、缺失或6
插入 。用于单碱基基因校正的大多数策略包括工程化的核酸酶(其依赖于创造双链断裂
DSB,随后是随机的、低效的同源定向修复HDR)和DNA-RNA嵌合寡核苷酸22。后一种策略涉及
设计RNA/DNA序列以与基因组DNA中除了待编辑的核苷酸处以外的特定序列碱基配对。所得
的错配被细胞的内源修复系统所识别并且被固定,导致嵌合体或基因组的序列变化。这两
种策略都遭受低基因编辑效率和不需要的基因变化,因为它们既受HDR的随机性影响,又受
到HDR与非同源末端连接NHEJ之间的竞争影响23-25。HDR效率随基因组内靶基因的位置26、细胞周期的状态27和细胞/组织的类型28而变化。开发以酶样效率和无随机性在基因组DNA中
的精确位置处安装特定类型的碱基修饰的直接的、可编程的方法代表了基于基因编辑的研
究工具和人治疗学的强大新方法。
[0013] 本公开的一些方面基于以下认识:通过接头融合的dCas9域和胞苷脱酶域的某些构造可用于使靶胞苷残基有效脱氨基化。本公开的其它方面涉及认识到具有经由接头与
核酸酶无活性的Cas9(dCas9)的N端融合的胞苷脱氨酶域的核碱基编辑融合蛋白能够使双
链DNA靶分子中的靶核酸有效脱氨基化。参见例如下面的实施例3和4,其证明了融合蛋白
(其在本文中也称为碱基编辑器)比其它碱基编辑器,诸如没有UGI域的碱基编辑器产生更
少的插入/缺失并且更有效地使靶核酸脱氨基化。在一些实施方案中,融合蛋白包含核酸酶
无活性的Cas9(dCas9)域和载脂蛋白B mRNA-编辑复合物1(APOBEC1)脱氨酶域,其中脱氨酶
域经由接头融合至dCas9域的N端,所述接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID 
NO:7)。在一些实施方案中,核酸酶无活性Cas9(dCas9)域包含SEQ ID NO:263所示的氨基酸
序列。在一些实施方案中,脱氨酶是大鼠APOBEC1(SEQ ID NO:284)。在一些实施方案中,脱
氨酶是人APOBEC1(SEQ ID NO:282)。在一些实施方案中,脱氨酶是pmCDA1(SEQ ID NO:
5738)。在一些实施方案中,脱氨酶是人APOBEC3G(SEQ ID NO:275)。在一些实施方案中,脱
氨酶是(SEQ ID NOs:5739-5741)中任一项的人APOBEC3G变体。
[0014] 本公开的一些方面基于以下认识:通过接头融合的dCas9域和胞苷脱氨酶域的某些构造可用于使胞苷残基有效脱氨基化。本公开的其它方面涉及认识到具有经由包含氨基
酸序列SGSETPGTSESATPES(SEQ ID NO:7)的接头与核酸酶无活性Cas9(dCas9)的N端融合的
载脂蛋白B mRNA-编辑复合物1(APOBEC1)脱氨酶域的核碱基编辑融合蛋白能够有效地使双
链DNA靶分子中的靶核酸脱氨基化。在一些实施方案中,融合蛋白包含核酸酶无活性的Cas9
(dCas9)域和载脂蛋白B mRNA-编辑复合物1(APOBEC1)脱氨酶域,其中脱氨酶域经由接头融
合至dCas9域的N端,所述接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:7)。
[0015] 在一些实施方案中,融合蛋白包含SEQ ID NO:591所示的氨基酸序列的氨基酸残基11-1629。在一些实施方案中,融合蛋白包含SEQ ID NO:591所示的氨基酸序列。在一些实
施方案中,融合蛋白包含SEQ ID NO:5737、5743、5745、和5746中任一项的氨基酸序列。
[0016] 本公开的一些方面提供可用于核酸的靶向编辑的策略、系统、试剂、方法和试剂盒,包括编辑受试者基因组,例如人基因组内的单位点。在一些实施方案中,提供了Cas9(例如,dCas9、核酸酶活性Cas9或Cas9切口酶)和脱氨酶或脱氨酶域的融合蛋白。在一些实施方
案中,提供了用于靶向核酸编辑的方法。在一些实施方案中,提供用于产生靶向核酸编辑蛋
白质,例如Cas9和脱氨酶或脱氨酶域的融合蛋白的试剂和试剂盒
[0017] 本公开的一些方面提供融合蛋白,其包含与第二蛋白(例如,酶促域,如胞苷脱氨酶域)融合,从而形成融合蛋白的如本文提供的Cas9蛋白。在一些实施方案中,第二蛋白包
含酶促域或结合域。在一些实施方案中,酶促域是核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰转移酶、转录激活物或转录阻抑物域。在一些实施方案中,酶促域是核酸编辑域。在一些实施方案中,核酸编辑域是脱氨酶域。在一些实施方案中,脱
氨酶是胞嘧啶脱氨酶或胞苷脱氨酶。在一些实施方案中,脱氨酶是载脂蛋白B mRNA-编辑复
合物(APOBEC)家族脱氨酶。在一些实施方案中,脱氨酶是APOBEC1脱氨酶。在一些实施方案
中,脱氨酶是APOBEC2脱氨酶。在一些实施方案中,脱氨酶是APOBEC3脱氨酶。在一些实施方
案中,脱氨酶是APOBEC3A脱氨酶。在一些实施方案中,脱氨酶是APOBEC3B脱氨酶。在一些实
施方案中,脱氨酶是APOBEC3C脱氨酶。在一些实施方案中,脱氨酶是APOBEC3D脱氨酶。在一
些实施方案中,脱氨酶是APOBEC3E脱氨酶。在一些实施方案中,脱氨酶是APOBEC3F脱氨酶。
在一些实施方案中,脱氨酶是APOBEC3G脱氨酶。在一些实施方案中,脱氨酶是APOBEC3H脱氨
酶。在一些实施方案中,脱氨酶是APOBEC4脱氨酶。在一些实施方案中,脱氨酶是活化诱导的脱氨酶(AID)。应当理解,脱氨酶可以来自任何合适的生物体(例如人或大鼠)。在一些实施
方案中,脱氨酶来自人、黑猩猩、大猩猩、猴、、狗、大鼠或小鼠。在一些实施方案中,脱氨酶是大鼠APOBEC1(SEQ ID NO:284)。在一些实施方案中,脱氨酶是人APOBEC1(SEQ ID NO:
282)。在一些实施方案中,脱氨酶是pmCDA1。
[0018] 本公开的一些方面提供了融合蛋白,其包含:(i)包含SEQ ID NO:263的氨基酸序列的核酸酶无活性Cas9(dCas9)域;和(ii)载脂蛋白B mRNA编辑复合物1(APOBEC1)脱氨酶
域,其中脱氨酶域经由包含SGSETPGTSESATPES(SEQ ID NO:7)的氨基酸序列的接头融合到
dCas9域的N端。在一些实施方案中,脱氨酶是大鼠APOBEC1(SEQ ID NO:284)。在一些实施方
案中,脱氨酶是人APOBEC1(SEQ ID NO:282)。在一些实施方案中,所述融合蛋白包含SEQ ID NO:591的氨基酸序列。在一些实施方案中,所述融合蛋白包含SEQ ID NO:5737的氨基酸序
列。在一些实施方案中,脱氨酶是pmCDA1(SEQ ID NO:5738)。在一些实施方案中,脱氨酶是
人APOBEC3G(SEQ ID NO:275)。在一些实施方案中,脱氨酶是SEQ ID NO:5739-5741中任一
项的人APOBEC3G变体。
[0019] 本公开的一些方面提供融合蛋白,其包含:(i)Cas9切口酶域和(ii)载脂蛋白B mRNA-编辑复合物1(APOBEC1)脱氨酶域,其中脱氨酶域与Cas9切口酶域的N端融合。在一些
实施方案中,所述Cas9切口酶域包含SEQ ID NO:10中提供的氨基酸序列的D10X突变或SEQ 
ID NO:11-260中提供的任何氨基酸序列中的相应突变,其中X是除了D以外的任何氨基酸。
在一些实施方案中,所述Cas9切口酶域的氨基酸序列包含SEQ ID NO:10中提供的氨基酸序
列的D10A突变或在SEQ ID NO:11-260中提供的任何氨基酸序列的相应突变。在一些实施方
案中,Cas9切口酶域的氨基酸序列包含在SEQ ID NO:10提供的氨基酸序列的氨基酸位置
840,或SEQ ID NO:11-260提供的任何氨基酸序列中的相应氨基酸位置处的组氨酸。在一些
实施方案中,Cas9切口酶域的氨基酸序列包含如SEQ ID NO:267中所示的氨基酸序列。在一
些实施方案中,脱氨酶是大鼠APOBEC1(SEQ ID NO:284)。在一些实施方案中,脱氨酶是人
APOBEC1(SEQ ID NO:282)。在一些实施方案中,脱氨酶是pmCDA1。
[0020] 本公开的一些方面提供融合蛋白,其包含:(i)Cas9切口酶域和(ii)载脂蛋白B mRNA-编辑复合物1(APOBEC1)脱氨酶域,其中脱氨酶域与Cas9切口酶域的N端融合。在一些
实施方案中,所述Cas9切口酶域包含SEQ ID NO:10中提供的氨基酸序列的D10X突变或SEQ 
ID NO:11-260中提供的任何氨基酸序列中的相应突变,其中X是除了D以外的任何氨基酸。
在一些实施方案中,所述Cas9切口酶域的氨基酸序列包含SEQ ID NO:10中提供的氨基酸序
列的D10A突变或在SEQ ID NO:11-260中提供的任何氨基酸序列的相应突变。在一些实施方
案中,Cas9切口酶域的氨基酸序列包含SEQ ID NO:10提供的氨基酸序列的氨基酸位置840,
或在SEQ ID NO:11-260提供的任何氨基酸序列中的相应氨基酸位置处的组氨酸。在一些实
施方案中,Cas9切口酶域的氨基酸序列包含如SEQ ID NO:267中所示的氨基酸序列。在一些
实施方案中,脱氨酶是大鼠APOBEC1(SEQ ID NO:284)。在一些实施方案中,脱氨酶是人
APOBEC1(SEQ ID NO:282)。在一些实施方案中,脱氨酶是pmCDA1。
[0021] 本公开的其它方面涉及认识到包含脱氨酶域、dCas9域和尿嘧啶糖基化酶抑制剂(UGI)域的融合蛋白表明用于使核酸分子中的靶核苷酸脱氨基化的改善的效率。不希望受
任何特定理论的束缚,对U:G异双链体DNA的存在的细胞DNA修复应答可以造成细胞中核碱
基编辑效率降低。尿嘧啶DNA糖基化酶(UDG)催化从细胞中的DNA除去U,这可以启动碱基切
割修复,将U:G对返回到C:G对是最常见的结果。如本文所证明的,尿嘧啶DNA糖基化酶抑制
剂(UGI)可以抑制人UDG活性。不希望受任何特定理论束缚,碱基切割修复可以受到分子抑
制,所述分子结合单链,阻断编辑的碱基,抑制UGI,抑制碱基切割修复,保护编辑的碱基,和/或促进非编辑链的“固定”等。因此,本公开考虑融合蛋白,其包含与UGI域融合的dCas9-胞苷脱氨酶域。
[0022] 在一些实施方案中,融合蛋白包含核酸酶无活性的Cas9(dCas9)域;核酸编辑域;和尿嘧啶糖基化酶抑制剂(UGI)域。在一些实施方案中,dCas9域包含SEQ ID NO:10中提供
的氨基酸序列的D10X突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变,其
中X是除D以外的任何氨基酸。在一些实施方案中,dCas9域的氨基酸序列包含SEQ ID NO:10
中提供的氨基酸序列的D10A突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应
突变。在一些实施方案中,dCas9域的氨基酸序列包含SEQ ID NO:10中提供的氨基酸序列的
H840X突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变,其中X是除了H以
外的任何氨基酸。在一些实施方案中,dCas9域的氨基酸序列包含SEQ ID NO:10中提供的氨
基酸序列的H840A突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。在一
些实施方案中,dCas9域包含如SEQ ID NO:263所示的氨基酸序列。
[0023] 本公开的其他方面涉及认识到使用Cas9切口酶作为Cas9域的融合蛋白表明用于编辑核酸的改善的效率。例如,本公开的方面涉及认识到包含Cas9切口酶、脱氨酶域和UGI
域的融合蛋白表明用于编辑核酸的改善的效率。例如,下面在实施例部分中描述了用于编
辑核苷酸的改善的效率。
[0024] 本公开的一些方面基于以下认识:本文提供的任何碱基编辑器能够修饰特定核苷酸碱基而不产生显著比例的插入/缺失。如本文所用,“插入/缺失”指核酸内的核苷酸碱基
的插入或缺失。此类插入或缺失可以导致基因编码区内的移码突变。在一些实施方案中,期
望产生有效修饰(例如突变或脱氨基化)核酸内的特定核苷酸,而不在核酸中产生大量插入
或缺失(即插入/缺失)的碱基编辑器。在某些实施方案中,本文提供的任何碱基编辑器能够
产生相对于插入/缺失更大比例的意图修饰(例如,点突变或脱氨基化)。
[0025] 本公开的一些方面基于认识到本文提供的任何碱基编辑器能够有效地在核酸(例如受试者的基因组内的核酸)中产生意图的突变,如点突变,而不产生大量的非意图突变,
诸如非意图点突变。
[0026] 在一些实施方案中,融合蛋白包含Cas9切口酶域、核酸编辑域;和尿嘧啶糖基化酶抑制剂(UGI)域。在一些实施方案中,Cas9切口酶域的氨基酸序列包含SEQ ID NO:10中提供
的氨基酸序列的D10X突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变,其
中X是除了D以外的任何氨基酸。在一些实施方案中,所述Cas9切口酶域的氨基酸序列包含
SEQ ID NO:10中提供的氨基酸序列的D10A突变或在SEQ ID NO:11-260中提供的任何氨基
酸序列中的相应突变酸。在一些实施方案中,Cas9切口酶域的氨基酸序列包含在SEQ ID 
NO:10提供的氨基酸序列的氨基酸位置840,或在SEQ ID NO:11-260提供的任何氨基酸序列
中的相应氨基酸位置处的组氨酸。在一些实施方案中,Cas9切口酶域的氨基酸序列包含如
SEQ ID NO:267所示的氨基酸序列。
[0027] 在一些实施方案中,融合蛋白的脱氨基酶域与dCas9域或Cas9切口酶的N端融合。在一些实施方案中,UGI域与dCas9域或Cas9切口酶的C端融合。在一些实施方案中,经由接
头融合dCas9域或Cas9切口酶和核酸编辑域。在一些实施方案中,经由接头融合dCas9域或
Cas9切口酶和UGI域。
[0028] 在某些实施方案中,接头可以用于连接本发明的任何肽或肽域。接头可以像共价键一样简单,或者它可以是长度上多个原子聚合物接头。在某些实施方案中,接头是多肽
或基于氨基酸。在其他实施方案中,接头不是肽样的。在某些实施方案中,接头是共价键(例如,-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,接头是酰胺连接的碳-氮键。在某些实施方案中,接头是环状或无环的、取代或未取代的、支链或无支链的脂族或杂脂族接
头。在某些实施方案中,接头是聚合的(例如聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中,接头包含氨
基链烷酸(例如甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中,接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,接头基于碳环部分(例如环戊烷,环己烷)。在其他实施方案中,接头包含聚乙二醇部分(PEG)。在其他实施方案中,接头包含氨基酸。在某些实施方案中,接头包含肽。在某些实施方案中,接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯环。接头可以包含官能化部分以
促进来自肽的亲核体(例如硫醇,氨基)与接头的附接。任何亲电体可以用作接头的一部分。
示例性亲电体包括但不限于活化酯、活化酰胺、迈克尔(Michael)受体、烷基卤化物、芳基卤化物、酰基卤化物和异硫氰酸酯。
[0029] 在一些实施方案中,接头包含氨基酸序列(GGGGS)n(SEQ ID NO:5)、(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、(SGGS)n(SEQ ID NO:4288)、SGSETPGTSESATPES(SEQ ID NO:7)、
(XP)n、或其任何组合,其中n独立地为1-30的整数,并且其中X为任何氨基酸。在一些实施方案中,接头包含氨基酸序列(GGS)n,其中n是1、3或7。在一些实施方案中,接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:7)。
[0030] 在一些实施方案中,融合蛋白包含结构[核酸编辑域]-[任选的接头序列]-[dCas9或Cas9切口酶]-[任选的接头序列]-[UGI]。在一些实施方案中,融合蛋白包含结构[核酸编
辑域]-[任选的接头序列]-[UGI]-[任选的接头序列]-[dCas9或Cas9切口酶];[UGI]-[任选
的接头序列]-[核酸编辑区]-[任选的接头序列]-[dCas9或Cas9切口酶];[UGI]-[任选的接
头序列]-[dCas9或Cas9切口酶]-[任选的接头序列]-[核酸编辑域];[dCas9或Cas9切口
酶]-[任选的接头序列]-[UGI]-[任选的接头序列]-[核酸编辑区];或[dCas9或Cas9切口
酶]-[任选的接头序列]-[核酸编辑域]-[任选的接头序列]-[UGI]。
[0031] 在一些实施方案中,核酸编辑域包含脱氨酶。在一些实施方案中,核酸编辑域包含脱氨酶。在一些实施方案中,脱氨酶是胞苷脱氨酶。在一些实施方案中,脱氨酶是载脂蛋白B mRNA-编辑复合物(APOBEC)家族脱氨酶。在一些实施方案中,脱氨酶是APOBEC1脱氨酶、
APOBEC2脱氨酶、APOBEC3A脱氨酶、APOBEC3B脱氨酶、APOBEC3C脱氨酶、APOBEC3D脱氨酶、
APOBEC3F脱氨酶、APOBEC3G脱氨酶、APOBEC3H脱氨酶或APOBEC4脱氨酶。在一些实施方案中,脱氨酶是活化诱导的脱氨酶(AID)。在一些实施方案中,脱氨酶是Lamprey CDA1(pmCDA1)脱
氨酶。
[0032] 在一些实施方案中,脱氨酶来自人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠。在一些实施方案中,脱氨酶来自人。在一些实施方案中,脱氨酶来自大鼠。在一些实施方案中,脱氨酶是包含(SEQ ID NO:284)所示的氨基酸序列的大鼠APOBEC1脱氨酶。在一些实施方案中,脱氨酶是包含(SEQ ID NO:282)所示的氨基酸序列的人APOBEC1脱氨酶。在一些实施方
案中,脱氨酶是pmCDA1(SEQ ID NO:5738)。在一些实施方案中,脱氨酶是人APOBEC3G(SEQ 
ID NO:275)。在一些实施方案中,脱氨酶是(SEQ ID NO:5739-5741)中任一项的人APOBEC3G
变体。在一些实施方案中,脱氨酶与SEQ ID NO:266-284或5725-5741所示的任一项氨基酸
序列是至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少
98%、至少99%、或至少99.5%相同的。
[0033] 在一些实施方案中,UGI域包含与SEQ ID NO:600至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。在一些实施方案中,UGI域包含如SEQ ID NO:600所示的氨基酸序列。
[0034] 本公开的一些方面提供了包含如本文提供的Cas9蛋白或Cas9融合蛋白和与Cas9蛋白或Cas9融合蛋白结合的引导RNA的复合物。
[0035] 本公开的一些方面提供了使用本文提供的Cas9蛋白、融合蛋白或复合物的方法。例如,本公开的一些方面提供了方法,包括使DNA分子(a)与本文提供的Cas9蛋白或融合蛋
白和与引导RNA接触,其中引导RNA长约15-100个核苷酸并且包含与靶序列互补的至少10个
连续核苷酸的序列;或(b)与如本文提供的Cas9蛋白、Cas9融合蛋白或具有gRNA的Cas9蛋白
或融合蛋白复合物接触。
[0036] 本公开的一些方面提供了包含核酸构建体的试剂盒,所述核酸构建体包含(a)编码如本文提供的Cas9蛋白或Cas9融合蛋白的核苷酸序列;和(b)驱动(a)序列表达的异源启
动子。在一些实施方案中,试剂盒进一步包含编码引导RNA主链的表达构建体,其中所述构
建体包含克隆位点,所述克隆位点定位为允许将与靶序列相同或互补的核酸序列克隆到引
导RNA主链中。
[0037] 本公开的一些方面提供了编码如本文所提供的融合蛋白的Cas9蛋白的多核苷酸。本公开的一些方面提供了包含此类多核苷酸的载体。在一些实施方案中,载体包含驱动多
核苷酸表达的异源启动子。
[0038] 本公开的一些方面提供了包含如本文提供的Cas9蛋白、融合蛋白、核酸分子和/或载体的细胞。
[0039] 提供以上报告系统的示例性实施方案的描述仅用于说明的目的,而不意味着限制。本公开也涵盖另外的报告系统,例如上面详细描述的示例性系统的变性。
[0040] 以上概述意在以非限制性方式说明本文公开的技术的一些实施方案、优点、特征和用途。本文中公开的技术的其它实施方案、优点、特征和用途将从发明详述、附图、实施例和权利要求书中显而易见。
[0041] 附图简述
[0042] 图1显示了脱氨酶对单链DNA底物的脱氨酶活性。使用随机化PAM序列(NNN PAM)的单链DNA底物用作阴性对照。使用规范PAM序列(NGG PAM)
[0043] 图2显示了Cas9:脱氨酶融合蛋白对单链DNA底物的活性。
[0044] 图3显示了通过Cas9:脱氨酶:sgRNA复合物的双链DNA底物结合。
[0045] 图4显示了双链DNA脱氨基化测定。
[0046] 图5证明Cas9融合物可以靶向双链DNA靶序列的位置3-11(根据图5中的示意图编号)。上部凝胶:1μM rAPOBEC1-GGS-dCas9、125nM dsDNA、1当量sgRNA。中间凝胶:1μM 
rAPOBEC1-(GGS)3(SEQ ID NO:596)-dCas9、125nM dsDNA、1当量sgRNA。下部凝胶:1.85μM rAPOBEC1-XTEN-dCas9、125nM dsDNA、1当量sgRNA。
[0047] 图6证明了脱氨酶活性需要正确的引导RNA,例如正确的sgRNA。
[0048] 图7显示了脱氨酶-dCas9:sgRNA复合物对体内靶序列的靶DNA结合的机制。
[0049] 图8显示了示例性疾病相关靶序列的成功脱氨基化。
[0050] 图9显示了使用His6-rAPOBEC1-XTEN-dCas9的体外C→T编辑效率。
[0051] 图10显示了通过与UGI融合大大增强HEK293T细胞中的C→T编辑效率。
[0052] 图11A至11C显示了NBE1在体外介导特异性引导RNA编程的C至U转换。图11A:核碱基编辑策略。在由引导RNA(绿色)规定的基因座处具有靶C(红色)的DNA由dCas9(蓝色)结
合,所述dCas9介导DNA底物的局部变性。通过栓系的APOBEC1酶(橙色)的胞苷脱氨基化将靶
C转化为U。在DNA复制或修复后,所得的G:U异双链体可以永久转化为A:T碱基对。若U在模板
DNA链中,则它也将导致转录后含有G至A突变的RNA转录物。图11B:脱氨基化测定,显示约5
个核苷酸的活性窗。在37℃将NBE1-sgRNA复合物与dsDNA底物温育2小时后,分离5’荧光
标记的DNA并在37℃与USER酶(尿嘧啶DNA糖基化酶和内切核酸酶VIII)一起温育1小时以诱
导DNA在任何尿嘧啶的位点处切割。在变性聚丙烯酰胺凝胶上解析所得DNA,并且显现任何
荧光团连接的链。根据在原间隔物内的靶C的位置标记每道,或者若不存在靶C,则用“-”标记,将远离PAM的碱基计为位置1。图11C:脱氨酶测定,显示NBE1的序列特异性和sgRNA不依
赖性。在正确的sgRNA、错配的sgRNA或无sgRNA的情况下,与在图11B中一样将具有位置7处
的靶C的DNA底物与NBE1一起温育。在错配的sgRNA或无sgRNA的情况下观察不到C至U编辑。
阳性对照样品含有在位置7处合成掺入的U的DNA序列。
[0053] 图12A至12B显示了序列背景和靶C位置对体外核碱基编辑效率的影响。图12A:改变靶C周围的序列对体外编辑效率的影响。将原间隔物序列5’-TTATTTCGTGGATTTATTTA-3’
(SEQ ID NO:264)中C7的80%靶定链(来自两条链的总测序读段的40%)的脱氨基化产率定
义为1.0,并且显示了在位置1-6和8-13处含有所有可能的单碱基突变的底物的相对脱氨基
化效率。数值和误差棒反映在不同天数进行的两个或更多独立生物重复的平均值和标准偏
差。图12B:每个NC基序对体外编辑效率的位置效应。如右侧所示的序列中所示(PAM显示为
红色,还显示原间隔物加上原间隔物5’的1个碱基),每个NC靶基序在原间隔物内从位置1至
8变化。在图中显示了在与NBE1温育后在每个编号的靶C位置处含有T的总序列读段的百分
比。注意,体外最大可能的脱氨基化产率是总测序读段的50%(靶定链的100%)。数值和误
差棒反映了在不同天数进行的两个或三个独立生物重复的平均值和标准偏差。图12B分别
从上到下描绘了SEQ ID NO:285至292。
[0054] 图13A至13C显示了人细胞中的核碱基编辑。图13A:由核碱基编码器靶向的6个哺乳动物细胞基因组基因座的原间隔物(黑色)和PAM(红色)序列。靶C用对应于它们在原间隔
物内的位置的下标数字指示。图13A分别从上到下描绘了SEQ ID NO:293至298。图13B:用表
达NBE1、NBE2或NBE3和合适的sgRNA的质粒转染HEK293T细胞。转染后三天,提取基因组DNA
并通过6个基因座处的高通量DNA测序进行分析。对于所有6个基因组基因座处的NBE1、NBE2
和NBE3以及对于6个位点中的三个位点(EMX1、HEK293位点3和HEK293位点4)处具有供体HDR
模板的wt Cas9显示了细胞C至T转化百分比,定义为在指示的靶位置处具有T的总DNA测序
读段的百分比。数值和误差棒反映在不同天数进行的三个独立生物学重复的平均值和标准
偏差。图13C:在对于所有6个基因组基因座用NBE2和NBE3,或者对于6个位点中的三个位点
(EMX1、HEK293位点3和HEK293位点4)用wt-Cas9和用于HDR的单链DNA模板处理HEK293T细胞
后显示了如方法中所述计算的插入/缺失形成的频率。数值反映了在不同天数进行的至少
三个独立生物重复的平均值。
[0055] 图14A至14C显示了哺乳动物细胞中三种疾病相关突变的NBE2和NBE3介导的校正。对于每个位点,在突变名称的右侧指示原间隔物的序列,PAM以绿色突出显示,造成突变的
碱基以粗体指示,下标数字对应于其在原间隔物内的位置。显示了每种疾病相关等位基因
上方的氨基酸序列,以及红色的核碱基编辑后的校正氨基酸序列。每个序列下面是具有相
应碱基的总测序读段的百分比。用编码NBE2或NBE3和合适的sgRNA的质粒核转染细胞。核转
染后两天,提取基因组DNA并通过HTS分析以评估致病性突变校正。图14A:在总读段的11%
(44%核转染的星形胶质细胞)中,NBE3在小鼠星形胶质细胞中将阿尔茨海默氏病相关
APOE4等位基因转化为APOE3’。两个附近的C也被转化为T,但是不改变所得蛋白质的预测序
列(SEQ ID NO:299)。图14B,在11%的对于突变(SEQ ID NO:300)杂合的经治疗的人淋巴瘤
细胞(12%的核转染细胞)中,NBE2校正癌症相关的p53N239D突变。图14C,在7.6%的核转染
的人乳腺癌细胞(SEQ ID NO:301)中,NBE3校正p53Y163C突变。
[0056] 图15A至15D显示脱氨酶-dCas9接头长度和组成对核碱基编辑的影响。基于凝胶的脱氨酶测定,显示了具有GGS(图15A)、(GGS)3(SEQ ID NO:596)(图15B)、XTEN(图15C)或
(GGS)7(SEQ ID NO:597)(图15D)的脱氨酶-Cab9接头的核碱基编码器的脱氨基化窗。在37
℃将1.85μM编辑器-sgRNA复合物与125nM dsDNA底物一起温育2小时后,分离缀合有染料的
DNA并与USER酶(尿嘧啶DNA糖基化酶和内切核酸酶VIII)一起在37℃再温育1小时以切割任
何尿嘧啶位点处的DNA主链。在变性聚丙烯酰胺凝胶上解析所得的DNA,并且对缀合有染色
的链成像。根据原间隔物内靶C的位置对每道进行编号,或者若不存在靶C,则用-编号。8U是具有位置8处合成掺入的U的阳性对照序列。
[0057] 图16A至16B显示NBE1能够在体外校正疾病相关的突变。图16A:7种疾病相关突变的原间隔物和PAM序列(红色)。在每种情况下,疾病相关靶C用反映其在原间隔物内的位置
的下标数字指示。对于除两个APOE4SNP以外的所有突变,靶C驻留于模板(非编码)链中。图
16A分别从上到下描绘了SEQ ID NO:302至308。图16B:脱氨酶测定,显示在与NBE1一起温
育、DNA分离、和与USER酶一起温育以在含有U的位置处切割DNA之前(-)和之后(+)的每种双
链DNA寡核苷酸。来自与USER酶一起温育在原间隔物内的各个位置处含有U的合成寡核苷酸
的阳性对照道用相应的数字显示,所述数字指示U的位置。
[0058] 图17显示了NBE1的持续合成能力(processivity)。顶部显示含有8个连续C的60聚体DNA寡核苷酸的原间隔物和PAM(红色)。将寡核苷酸(125nM)与NBE1(2μM)在37℃温育2小
时。分离DNA并通过高通量测序分析。显示观察到的最常见的9个序列的总读段的百分比。绝
大多数编辑链(>93%)具有超过一个转换为T的C。该图描绘了SEQ ID NO:309。
[0059] 图18A至18H显示了将UGI融合至NBE1以产生NBE2的效果。图18A:用核碱基编码器靶向的6个哺乳动物细胞基因组基因座的原间隔物和PAM(红色)序列。可编辑的C用对应于
它们在原间隔物内的位置的标记指示。图18A分别从上到下描绘了SEQ ID NO:293至298。图
18B至18G:用表达NBE1、NBE2或NBE1和UGI和合适的sgRNA的质粒转染HEK293T细胞。转染后
三天,提取基因组DNA并通过6个基因座的高通量DNA测序进行分析。对于所有6个基因组基
因座处的NBE1、NBE1和UG1和NBE2显示细胞C至T转换百分比,定义为在指定靶位置处具有T
的总DNA测序读段的百分比。图18H:显示了对于NBE1、分开的质粒上NBE1加UGI、NBE2、和未处理的细胞的感兴趣的原间隔物周围的510C处的C至T突变率。数据显示来自1.5x106个细
胞的3,000,000个DNA测序读段的结果。数值反映在不同天数进行的至少两个生物学实验的
平均值。
[0060] 图19显示了U2OS和HEK293T细胞中NBE2的核碱基编辑效率。对HEK293T细胞和U2OS细胞中6个靶定的基因组基因座中的每个显示NBE2的细胞C至T转化百分比。使用
Lipofectamine 2000转染HEK293T细胞,并将U2OS细胞核转染。U2OS核转染效率为74%。在
质粒递送后三天,提取基因组DNA并通过HTS分析6个基因组基因座处的核碱基编辑。数值和
误差棒反映了在不同天数进行的至少两个生物学实验的平均值和标准偏差。
[0061] 图20显示核碱基编辑在多次细胞分裂内持续存在。在传代细胞之前和之后,在HEK293T细胞中的两个基因组基因座处显示NBE2的细胞C至T转化百分比。使用
Lipofectamine 2000转染HEK293T细胞。转染后三天,收获细胞并分成两半。一半进行HTS分
析,而允许另一半增殖约5次细胞分裂,然后收获并进行HTS分析。
[0062] 图21显示了来自ClinVar的遗传变体,其原则上可以通过核碱基编辑进行校正。针对可以通过当前的核碱基编辑技术校正的遗传疾病搜索NCBI ClinVar人遗传变异及其相
应表型数据库68。通过施加左边列出的连续限制来过滤结果。x轴显示了满足该限制的出现
次数以及对数标度上的所有上述限制。
[0063] 图22显示了6种基因组基因座中可编辑C的体外鉴定。将具有匹配6个不同基因组位点的序列的合成80聚体与NBE1一起温育,然后通过HTS分析核碱基编辑。对于每个位点,
在位点名称的右侧指示原间隔物的序列,PAM以红色突出显示。每个序列下面是具有相应碱
基的总DNA测序读段的百分比。若体外转化效率>10%,则认为靶C是“可编辑的”。注意,由于非靶定链不是核碱基编码的底物,最大产率为总DNA测序读段的50%。该图分别从上到下描
绘了SEQ ID NO:293至298。
[0064] 图23显示了在EMX1脱靶处NBE1、NBE2和NBE3的活性。用表达NBE1、NBE2或NBE3和匹配EMX1序列的sgRNA的质粒使用Lipofectamine 2000转染HEK293T细胞。转染后三天,提取
基因组DNA,通过PCR扩增,并通过EMX1sgRNA的中靶基因座,加上前10个已知的Cas9脱靶基
因座处的高通量DNA测序进行分析,如先前使用GUIDE-seq方法55测定。EMX1脱靶5个基因座
位没有扩增,并且未显示。显示中靶和脱靶原间隔物和原间隔物相邻基序(PAM)的序列。对
于NBE1、NBE2和NBE3显示了细胞C至T转换百分比,定义为原间隔物内的初始C的每个位置处
具有T的总DNA测序读段的百分比。在最右侧显示每个序列报告的测序读段总数。该图分别
从上到下描绘了SEQ ID NO:293和310至318。
[0065] 图24显示了FANCF脱靶处的NBE1、NBE2和NBE3的活性。使用表达NBE1、NBE2或NBE3和匹配FANCF序列的sgRNA的质粒使用Lipofectamine2000转染HEK293T细胞。转染后三天,
提取基因组DNA,通过PCR扩增并通过FANCF sgRNA的中靶基因座,加上所有已知的Cas9脱靶
基因座处的高通量DNA测序进行分析,如先前使用GUIDE-seq方法55测定。显示中靶和脱靶原
间隔物和原间隔物相邻基序(PAM)的序列。对于NBE1、NBE2和NBE3显示了细胞C至T转换百分
比,定义为原间隔物内的初始C的每个位置处具有T的总DNA测序读段的百分比。在最右侧显
示每个序列报告的测序读段总数。该图分别从上到下描绘了SEQ ID NO:294和319至326。
[0066] 图25显示了HEK293位点2脱靶处的NBE1、NBE2和NBE3的活性。使用表达NBE1、NBE2或NBE3和匹配HEK293位点2序列的sgRNA的质粒使用Lipofectamine 2000转染HEK293T细
胞。转染后三天,提取基因组DNA,通过PCR扩增并通过HEK293位点2sgRNA的中靶基因座,加
上所有已知的Cas9脱靶基因座处的高通量DNA测序进行分析,如先前使用GUIDE-seq方法55
测定。显示中靶和脱靶原间隔物和原间隔物相邻基序(PAM)的序列。对于NBE1、NBE2和NBE3
显示了细胞C至T转换百分比,定义为原间隔物内的初始C的每个位置处具有T的总DNA测序
读段的百分比。在最右侧显示每个序列报告的测序读段总数。该图分别从上到下描绘了SEQ 
ID NO:295、327、和328。
[0067] 图26显示了HEK293位点3脱靶处的NBE1、NBE2和NBE3的活性。使用表达NBE1、NBE2或NBE3和匹配HEK293位点3序列的sgRNA的质粒使用Lipofectamine 2000转染HEK293T细
胞。转染后三天,提取基因组DNA,通过PCR扩增并通过HEK293位点3sgRNA的中靶基因座,加
上所有已知的Cas9脱靶基因座处的高通量DNA测序进行分析,如先前使用GUIDE-seq方法55
测定。显示中靶和脱靶原间隔物和原间隔物相邻基序(PAM)的序列。对于NBE1、NBE2和NBE3
显示了细胞C至T转换百分比,定义为原间隔物内的初始C的每个位置处具有T的总DNA测序
读段的百分比。在最右侧显示每个序列报告的测序读段总数。该图分别从上到下描绘了SEQ 
ID NO:296和659至663。
[0068] 图27显示了HEK293位点4脱靶处的NBE1、NBE2和NBE3的活性。使用表达NBE1、NBE2或NBE3和匹配HEK293位点4序列的sgRNA的质粒使用Lipofectamine 2000转染HEK293T细
胞。转染后三天,提取基因组DNA,通过PCR扩增并通过HEK293位点4sgRNA的中靶基因座,加
上所有已知的Cas9脱靶基因座处的高通量DNA测序进行分析,如先前使用GUIDE-seq方法55
测定。显示中靶和脱靶原间隔物和原间隔物相邻基序(PAM)的序列。对于NBE1、NBE2和NBE3
显示了细胞C至T转换百分比,定义为原间隔物内的初始C的每个位置处具有T的总DNA测序
读段的百分比。在最右侧显示每个序列报告的测序读段总数。该图分别从上到下描绘了SEQ 
ID NO:297和664至673。
[0069] 图28显示了非靶C突变率。此处显示了在测试的6个中靶和34个脱靶基因座周围的2,500个独特胞嘧啶处的C至T突变率,代表从约1.8x106个细胞衍生的总共14,700,000个序
列读数。
[0070] 图29A至29C显示人细胞中的碱基编辑。图29A显示了哺乳动物细胞中可能的碱基编辑结果。初始编辑导致U:G错配。通过尿嘧啶DNA糖基化酶(UDG)识别和切割U引发碱基切
割修复(BER),其导致返回到C:G起始状态。BER受到抑制UDG的BE2和BE3阻碍。U:G错配也通
过错配修复(MMR)处理,所述错配修复优先修复错配的切口链。BE3对含有G的非编辑链产生
切口,有利于解决与期望的U:A或T:A结果的U:G错配。图29B显示如下文实施例中的材料和
方法中所述处理的HEK293T细胞。在指定的靶位置处具有T的总DNA测序读段百分比显示用
BE1、BE2或BE3处理,或在供体HDR模板的情况下用wt Cas9处理。图29C显示了在图29B中的
处理之后的插入/缺失形成的频率。在图34中列出数值。对于图29B和29C,数值和误差棒反
映在不同天数进行三个独立的生物学重复的平均值和s.d.。
[0071] 图30A至30B显示了哺乳动物细胞中BE3介导的两种疾病相关突变的校正。原间隔物的序列显示在突变的右侧,PAM为蓝色,靶碱基为红色,下标数字指示其在原间隔物内的
位置。每个序列下面是具有相应碱基的总测序读段的百分比。如材料和方法中所述处理细
胞。图30A显示了阿尔茨海默氏病相关APOE4等位基因在小鼠星形胶质细胞中在74.9%的总
读段中由BE3转化为APOE3r。两个附近的C也被转化为T,但是不改变所得的蛋白质的预测序
列。用wt Cas9和供体ssDNA对这些细胞的相同处理仅导致0.3%的校正,具有26.1%的插
入/缺失形成。图30B显示了在7.6%的核转染的人乳腺癌细胞中通过BE3校正的癌症相关
p53Y163C突变,具有0.7%插入/缺失形成。用wt Cas9和供体ssDNA对这些细胞进行的相同
处理导致无突变校正,具有6.1%插入/缺失形成。该图分别从上到下描绘了SEQ ID NO:675
至680。
[0072] 图31显示BE1,BE2和BE3在HEK293位点2脱靶处的活性。用表达BE1,BE2或BE3的质粒和用Lipofectamine 2000与HEK293位点2序列匹配的sgRNA转染HEK293T细胞。转染后三
天,提取基因组DNA,通过PCR扩增,并通过高通量DNA测序在如前所述,Joung及其同事使用
GUIDE-seq方法(63)以及Adli及其同事使用染色质免疫沉淀高通量筛选方法确定HEK293位
点2sgRNA的所有已知Cas9和dCas9脱靶位点,通量测序(ChIP-seq)实验(18)。显示中靶和脱
靶原间隔物和原间隔物相邻基序(PAM)的序列。对于BE1,BE2和BE3,显示了细胞C到T转化百
分比,定义为在原间隔物内原始C的每个位置处的T总DNA测序读段的百分比。在最右边显示
报告的测序读段的总数,以及针对每个序列报告的ChIP-seq信号强度。该图分别从上到下
描绘了SEQ ID NO:681至688。
[0073] 图32显示了在HEK293位点3脱靶处BE1、BE2和BE3的活性。使用Lipofectamine 2000用表达BE1、BE2或BE3和匹配HEK293位点3序列的sgRNA的质粒转染HEK293T细胞。转染
后三天,提取基因组DNA,通过PCR扩增,并通过在HEK293位点3序列sgRNA的中靶基因座,加
上所有已知的Cas9脱靶基因座和前5个已知的dCas9脱靶基因座处的高通量DNA测序分析,
如先前由Joung及其同事使用GUIDE-seq方法54和使用染色质免疫沉淀高通量测序(ChIP-
seq)实验61测定。显示中靶和脱靶原间隔物和原间隔物相邻基序(PAM)的序列。对于BE1、BE2和BE3,显示了细胞C至T转化百分比,定义为在原间隔物内初始C的每个位置处具有T的总
DNA测序读段的百分比。在最右边显示了报告的测序读段的总数以及对每个序列报告的
ChIP-seq信号强度。该图分别从上到下描绘了SEQ ID NO:689至699。
[0074] 图33显示了在HEK293位点4脱靶处BE1、BE2和BE3的活性。使用Lipofectamine 2000用表达BE1、BE2或BE3和匹配HEK293位点4序列的sgRNA的质粒转染HEK293T细胞。转染
后三天,提取基因组DNA,通过PCR扩增,并通过在HEK293位点4序列sgRNA的中靶基因座,加
上前10个已知的Cas9脱靶基因座和前5个已知的dCas9脱靶基因座处的高通量DNA测序分
析,如先前使用GUIDE-seq方法54和使用染色质免疫沉淀高通量测序(ChIP-seq)实验61测
定。显示中靶和脱靶原间隔物和原间隔物相邻基序(PAM)的序列。对于BE1、BE2和BE3,显示
了细胞C至T转化百分比,定义为在原间隔物内初始C的每个位置处具有T的总DNA测序读段
的百分比。在最右边显示了报告的测序读段的总数以及对每个序列报告的ChIP-seq信号强
度。该图分别从上到下描绘了SEQ ID NO:700至712。
[0075] 图34显示在小鼠星形胶质细胞中BE3介导的阿尔茨海默氏病相关APOE4等位基因校正为APOE3r之后非原间隔物碱基的突变率。用相对于原间隔物的每个碱基位置显示了来
自图30A和图34B的原间隔物的任一侧的50个碱基的DNA序列。PAM远端的原间隔物侧用正数
表示,而包含PAM的侧用负数表示,PAM用蓝色表示。在每个序列的下方是未处理细胞、用BE3和靶向APOE4C158R突变的sgRNA处理的细胞、或用BE3和靶向VEGFA基因座的sgRNA处理的细
胞的具有相应碱基的总DNA测序读段的百分比。BE3处理的样品均未导致高于未处理对照的
突变率的突变率。该图分别从上至下描绘了SEQ ID NO:713至716。
[0076] 图35显示了在HCC1954人细胞中BE3介导的癌症相关p53Y163C突变的校正之后,非原间隔物碱基的突变率。用相对于原间隔物的每个碱基位置显示了来自图30B和图39B的原
间隔物的任一侧的50个碱基的DNA序列。PAM远端的原间隔物侧用正数表示,而包含PAM的侧
用负数表示,PAM用蓝色表示。在每个序列的下方是未处理细胞、用BE3和靶向TP53Y163C突
变的sgRNA处理的细胞、或用BE3和靶向VEGFA基因座的sgRNA处理的细胞的具有相应碱基的
总测序读段的百分比。BE3处理的样品均未导致高于未处理对照的突变率。该图分别从上至
下描绘了SEQ ID NO:717至720。
[0077] 图36A至36F显示了脱氨酶、接头长度和接头组成对碱基编辑的影响。图36A显示了基于凝胶的脱氨酶测定法,其显示了rAPOBEC1、pmCDA1、hAID、hAPOBEC3G、rAPOBEC1-GGS-
dCas9、rAPOBEC1-(GGS)3(SEQ ID NO:596)-dCas9、and dCas9-(GGS)3(SEQ ID NO:596)-
rAPOBEC1对ssDNA的活性。在哺乳动物细胞裂解物衍生的体外转录-翻译系统中表达酶,并
与1.8μM缀合有染料的ssDNA和USER酶(尿嘧啶DNA糖基化酶和内切核酸酶VIII)在37℃温育
2小时。在变性聚丙烯酰胺凝胶上解析所得DNA并成像。阳性对照是在与靶C相同的位置处具
有合成掺入的U的序列。图36B显示图36C至36F中使用的表达和纯化的蛋白质的考斯染色
的变性PAGE凝胶。图36C至36F显示了基于凝胶的脱氨酶测定,显示具有GGS(图36C)、(GGS)3
(SEQ ID NO:596)(图36D)、XTEN(图36E)或(GGS)7(SEQ ID NO:596)(图36F)的脱氨酶-Cas9
接头的碱基编辑器的脱氨基化窗。在1.85μM与sgRNA复合的脱氨酶-dCas9融合物与125nM 
dsDNA底物在37℃温育2小时后,分离缀合有染料的DNA并与USER酶在37℃温育1小时以在任
何尿嘧啶位点处切割DNA主链。在变性聚丙烯酰胺凝胶上解析得到的DNA,并且对缀合有染
料的链成像。根据靶C在原间隔物内的位置对每道进行编号,或者若不存在靶C,则用-。8U是在位置8处具有合成掺入的U的阳性对照序列。
[0078] 图37A至37C显示在哺乳动物细胞中BE1碱基编辑效率显著降低。图37由碱基编辑器靶向的6个哺乳动物细胞基因组基因座的原间隔物(黑色和红色)和PAM(蓝色)序列。靶C
用红色指示,下标数字对应于它们在原间隔物内的位置。图37B显示将具有匹配6个不同基
因组位点的序列的合成80聚体与BE1温育,然后通过HTS分析碱基编辑。对于每个位点,在位
点名称的右侧指示原间隔物的序列,PAM以蓝色突出显示。每个序列下面是具有相应碱基的
总DNA测序读段的百分比。若体外转化效率>10%,则我们认为靶C为“可编辑”。注意,由于非靶定链不受BE1影响,最大产率为总DNA测序读段的50%。显示来自单个实验的数值。图37C
显示用表达BE1和合适的sgRNA的质粒转染HEK293T细胞。转染后三天,提取基因组DNA并通
过6个基因座处的高通量DNA测序进行分析。在所有6个基因组基因座处对BE1显示了细胞C
至T转化百分比,定义为在靶位置处具有T的总DNA序列读段的百分比。来自HEK293T细胞的
所有数据的值和误差棒反映了在不同天数进行的三个独立生物学重复的平均值和标准偏
差。图37A分别从上到下描绘了SEQ ID NO:721到726。图37B分别从上到下描绘了SEQ ID 
NO:727到732。
[0079] 图38显示碱基编辑在多次细胞分裂中持续。对传代细胞之前和之后的HEK293T细胞中的HEK293位点3和4显示了通过BE2和BE3的细胞C至T转化百分比。用表达BE2或BE3和靶
向HEK293位点3或4的sgRNA的质粒核转染HEK293T细胞。核转染后3天,收获细胞并分成两
半。一半进行HTS分析,而允许另一半增殖约5次细胞分裂,然后收获并进行HTS分析。数值和误差棒反映了至少两个生物实验的平均值和标准偏差。
[0080] 图39A至39C显示了非靶C/G突变率。这里显示了在测试的6个中靶和34个脱靶基因座周围的2500个独特的胞嘧啶和嘌呤处的C至T和G至A突变率,代表从约1.8x106个细胞
衍生的总共14,700,000个序列读数。图39A和39B显示了由BE1、BE2和BE3得到的细胞非靶C
至T和G至A转化百分比个别针对它们相对于所有2,500个胞嘧啶/鸟嘌呤的原间隔物的位置
作图。PAM远端的原间隔物的侧用正数表示,而包含PAM的侧用负数表示。图39C显示了由
BE1、BE2和BE3的平均非靶细胞C至T和G至A的转化百分比,以及最高和最低的个别转化百分
比。
[0081] 图40A至40B显示了哺乳动物细胞中BE3介导的两种疾病相关突变的校正的另外的数据集。对于每个位点,在突变名称的右侧指示原间隔物的序列,PAM以蓝色突出显示,并且造成突变的碱基以红色粗体指示,下标数字对应于其在原间隔物内的位置。显示了每种疾
病相关等位基因上方的氨基酸序列,以及绿色的碱基编辑后的校正氨基酸序列。每个序列
下面是具有相应碱基的总测序读段的百分比。用编码BE3和合适的sgRNA的质粒对细胞进行
核转染。核转染两天后,从核转染的细胞中提取基因组DNA并通过HTS分析以评估致病性突
变校正。图40A显示了仅当用正确的sgRNA处理时,阿尔茨海默氏病相关的APOE4等位基因在
总读段的58.3%中在小鼠星形胶质细胞中由BE3转化为APOE3r。两个附近的C也被转化为T,
但不改变所得蛋白质的预测序列。用wt Cas9和供体ssDNA对这些细胞的相同处理导致
0.2%校正,具有26.7%插入/缺失形成。图40B显示了仅当用正确的sgRNA处理时,癌症相关
的p53Y163C突变在3.3%的核转染的人乳腺癌细胞中由BE3校正。用wt Cas9和供体ssDNA对
这些细胞进行相同的处理导致无可检测的突变校正,具有8.0%插入/缺失形成。图40A至
40B分别从上到下描绘了SEQ ID NO:733至740。
[0082] 图41显示了示例性的基于USER(尿嘧啶特异性切割试剂)酶的测定的示意图,其可用于测试各种脱氨酶对单链DNA(ssDNA)底物的活性。
[0083] 图42是pmCDA-nCas9-UGI-NLS构建体及其相对于碱基编辑器(rAPOBEC1)和阴性对照(未处理)在HeK-3位点处的活性的示意图。
[0084] 图43是pmCDA1-XTEN-nCas9-UGI-NLS构建体及其相对于碱基编辑器(rAPOBEC1)和阴性对照(未处理)在HeK-3位点处的活性的示意图。
[0085] 图44显示了具有使用胞苷脱氨酶(CDA)或APOBEC转化为T的靶C的总测序读段的百分比。
[0086] 图45显示了具有使用脱氨酶(CDA)或APOBEC转化为A的靶C的总测序读段的百分比。
[0087] 图46显示具有使用脱氨酶(CDA)或APOBEC转化为G的靶C的总测序读段的百分比。
[0088] 图47是huAPOBEC3G-XTEN-nCas9-UGI-NLS构建体及其相对于突变形式(huAPOBEC3G*(D316R_D317R)-XTEN-nCas9-UGI-NLS)、碱基编辑器(rAPOBEC1)和阴性对照
(未处理)在HeK-2位点处的活性的示意图。
[0089] 图48显示实施例7的选择测定中使用的LacZ构建体的示意图。
[0090] 图49显示来自不同质粒和构建体的回复数据。
[0091] 图50显示了lacZ回复的验证和回复克隆的纯化。
[0092] 图51是描述实施例7中使用的脱氨基化选择质粒的示意图。
[0093] 图52显示了氯霉素回复测定(pmCDA1融合)的结果。
[0094] 图53A至53B证明了两种构建体的DNA校正诱导。
[0095] 图54显示了氯霉素回复测定(huAPOBEC3G融合)的结果。
[0096] 图55显示了BE3和HF-BE3在EMX1脱靶处的活性。从顶部到底部的序列对应于SEQ ID NO:286-292、299-301。
[0097] 图56显示了BE3和HF-BE3的中靶碱基编辑效率。
[0098] 图57是证明突变以不同程度影响胞苷脱氨基化的图。每个略微损害催化的突变的组合允许在一个位置处相对于其他位置的选择性脱氨基化。FANCF位点是
GGAATC6C7C8TTC11TGCAGCACCTGG(SEQ ID NO:303)。
[0099] 图58是描绘下一代碱基编辑器的示意图。
[0100] 图59是显示自Cas9变体生成的新碱基编辑器的示意图。
[0101] 图60显示了不同NGA PAM位点的碱基编辑百分比。
[0102] 图61显示了使用NGCG PAM EMX(VRER BE3)和C1TC3C4C5ATC8AC10ATCAACCGGT(SEQ ID NO:304)间隔物的碱基编辑的胞苷百分比。
[0103] 图62显示了源自不同NNGRRT PAM位点的基于编辑的百分比。
[0104] 图63显示了源自不同NNHRRT PAM位点的基于编辑的百分比。
[0105] 图64A至64C显示了使用Cpf1BE2源自不同TTTN PAM位点的碱基编辑的百分比。使用的间隔物是:TTTCCTC3C4C5C6C7C8C9AC11AGGTAGAACAT(图64A,SEQ ID NO:305)、
TTTCC1C2TC4TGTC8C9AC11ACCCTCATCCTG(图64B,SEQ  ID  NO:306)和
TTTCC1C2C3AGTC7C8TC10C11AC13AC15C16C17TGAAAC(图64C,SEQ ID NO:307)。
[0106] 图65是描绘如通过胞苷脱氨酶点诱变的动力学调节实现的选择性脱氨基的示意图。
[0107] 图66是显示在间隔物中具有多个胞苷的情况下各种突变对细胞培养物中探测的脱氨基化窗的影响的图。使用的间隔物是:TGC3C4C5C6TC8C9C10TC12C13C14TGGCCC(SEQ ID NO:
308)。
[0108] 图67是显示在间隔物中具有多个胞苷的情况下各种突变对细胞培养物中探测的脱氨基化窗的影响的图。使用的间隔物是:AGAGC5C6C7C8C9C10C11TC13AAAGAGA(SEQ ID NO:
309)。
[0109] 图68是显示各种突变对具有有限数目的胞苷的FANCF位点的影响的图。使用的间隔物是:GGAATC6C7C8TTC11TGCAGCACCTGG(SEQ ID NO:303)。注意,三重突变体(W90Y、R126E、R132E)优先编辑第6位的胞苷。
[0110] 图69是显示各种突变对具有有限数目的胞苷的HEK3位点的影响的图。使用的间隔物是:GGCC4C5AGACTGAGCACGTGATGG(SEQ ID NO:310)。注意,双重突变体和三重突变体相对
于第四位优先编辑第五位的胞苷。
[0111] 图70是显示各种突变对具有有限数目的胞苷的EMX1位点的影响的图。使用的间隔物是:GAGTC5C6GAGCAGAAGAAGAAGGG(SEQ ID NO:311)。注意,三重突变体仅编辑第五位而非
第六位的胞苷。
[0112] 图71是显示各种突变对具有有限数目的胞苷的HEK2位点的影响图。使用的间隔物是:GAAC4AC6AAAGCATAGACTGCGGG(SEQ ID NO:312)。
[0113] 图72显示在永生化星形胶质细胞中BE3和包含突变W90Y R132E的BE3的中靶碱基编辑效率。
[0114] 图73描绘了三种Cpf1融合构建体的示意图。
[0115] 图74显示了BE3和HF-BE3(EMX1、FANCF和RNF2)的质粒递送的比较。
[0116] 图75显示了BE3和HF-BE3(HEK3和HEK4)的质粒递送的比较。
[0117] 图76显示了在所有10个位点处的EMX-1的脱靶编辑。
[0118] 图77显示了使用GAGTCCGAGCAGAAGAAGAAG(SEQ ID NO:313)间隔物对HEK细胞的脱氨酶蛋白质脂转染。检查EMX-1中靶和EMX-1脱靶位点2。
[0119] 图78显示了使用GGAATCCCTTCTGCAGCACCTGG(SEQ ID NO:314)间隔物对HEK细胞的脱氨酶蛋白质脂转染。检查FANCF中靶和FANCF脱靶位点1。
[0120] 图79显示了使用GGCCCAGACTGAGCACGTGA(SEQ ID NO:315)间隔物对HEK细胞的脱氨酶蛋白质脂转染。检查HEK-3中靶位点。
[0121] 图80显示了使用GGCACTGCGGCTGGAGGTGGGGG(SEQ ID NO:316)间隔物对HEK细胞的脱氨酶蛋白质脂转染。检查HEK-4中靶、脱靶位点1、位点3和位点4。
[0122] 图81显示了sgHR_13(GTCAGGTCGAGGGTTCTGTC(SEQ ID NO:317)间隔物;C8靶物:G51至终止)、sgHR_14(GGGCCGCAGTATCCTCACTC(SEQ ID NO:318)间隔物;C7靶物;C7靶物:
Q68至终止)和sgHR_15(CCGCCAGTCCCAGTACGGGA(SEQ ID NO:319)间隔物;C10和C11是靶物:
W239或W237至终止)的sgRNA活性的体外测定结果。
[0123] 图82显示了sgHR_17(CAACCACTGCTCAAAGATGC(SEQ ID NO:320)间隔物;C4和C5是靶物:W410至终止)和sgHR_16(CTTCCAGGATGAGAACACAG(SEQ ID NO:321)间隔物;C4和C5是
靶物:W273至终止)的体外测定的结果。
[0124] 图83显示了与sgHR_13复合的BE3蛋白在斑马鱼胚中的直接注射。
[0125] 图84显示了与sgHR_16复合的BE3蛋白在斑马鱼胚中的直接注射。
[0126] 图85显示了与sgHR_17复合的BE3蛋白在斑马鱼胚中的直接注射。
[0127] 图86显示了可以使用能够产生胞嘧啶至胸腺嘧啶变化的碱基编辑器产生的示例性核酸变化。
[0128] 图87显示载脂蛋白E(APOE)同种型的图示,证明可以如何使用碱基编辑器(例如BE3)将一种APOE同种型(例如APOE4)编辑成与阿尔茨海默氏病的险降低有关的另一种
APOE同种型(例如APOE3r)。
[0129] 图88显示了小鼠星形胶质细胞中APOE4至APOE3r的碱基编辑。
[0130] 图89显示PRNP的碱基编辑以在精氨酸残基37处引起蛋白质的早期截短。
[0131] 图90显示敲除UDG(UGI抑制)显著改善C至T碱基编辑效率的清洁(cleanliness)。
[0132] 图91显示使用具有切口酶但没有UGI的碱基编辑器导致结果的混合,具有非常高的插入/缺失率。
[0133] 图92A至92G显示SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3和VRER-BE3介导在人细胞中含有非NGG PAM的靶位点处的有效碱基编辑。图92A显示了使用酿脓链球菌和金黄色葡萄球
菌Cas9的碱基编辑器结构。图92B显示了最近表征的具有交替或松弛PAM要求的Cas9变体。
图92C和92D显示了用如实施例12中所述显示的碱基编辑器变体处理的HEK293T细胞。显示
了在指定的靶位置处具有转化为T的C的总DNA测序读段的百分比(没有富集转染的细胞)。
每个测试的靶物的PAM序列显示在X轴下方。图显示了具有NNGRRT PAM的基因组基因座处
SaBE3和SaKKH-BE3(图92C)、具有NNNRRT PAM的基因组基因座处SaBE3和SaKKH-BE3(图
92D)、具有NGAG PAM(图92E)、和具有NGAH PAM(图92F)的基因组基因座处的VQR-BE3和EQR-
BE3、和具有NGCG PAM的基因组基因座处VRER-BE3(图92G)的结果。数值和误差棒反映了至
少两个生物学重复的平均值和标准偏差。
[0134] 图93A至93C证明在胞苷脱氨酶域中具有突变的碱基编辑器表现出变窄的编辑窗。图93A至93C显示用表达突变体碱基编码器和合适的sgRNA的质粒转染的HEK293T细胞。转染
后三天,提取基因组DNA并在指定的基因座处通过高通量DNA测序进行分析。对于EMX1位点、
HEK293位点3、FANCF位点、HEK293位点2、位点A和位点B基因座显示在靶位置处具有变化为T
的C的总DNA测序读段的百分比(未富集转染的细胞)。图93A显示了限缩碱基编辑窗的某些
胞苷脱氨酶突变。有关其他突变的表征,参见图98。图93B显示了实现编辑窗宽度的胞苷脱
氨酶突变对基因组基因座的影响。组合有益的突变对限缩编辑窗具有叠加效果。图93C显示
与BE3形成对比,YE1-BE3、YE2-BE3、EE-BE3和YEE-BE3实现碱基编辑的产物分布,主要产生
单一修饰的产物。数值和误差棒反映了至少两个生物学重复的平均值和标准偏差。
[0135] 图94A和94B显示来自ClinVar的遗传变体,其原则上可以通过本工作中开发的碱基编辑器校正。在人基因变异及其相应表型的NCBI ClinVar数据库中搜索理论上可以通过
碱基编辑校正的遗传疾病。图94A证明通过使用具有改变的PAM特异性的碱基编辑器,在
ClinVar数据库中的所有致病性T→C突变中的碱基编辑靶向范围的改善。白色分数表示在
BE3,或BE3以及本工作中开发的五种修饰的PAM碱基编辑器的PAM要求的基础上可及的致病
性T→C突变的比例。图94B显示了通过使用具有限缩的活性窗的碱基编辑器,在ClinVar数
据库中的所有致病型T→C突变间的碱基编辑靶向范围的改善。假定BE3以相当的效率编辑
位置4-8中的C,如图93A至93C中显示。假定YEE-BE3在其活性窗内以C5>C6>C7>其他偏爱进
行编辑。白色分数表示可以在没有其它C的相当编辑的情况下由BE3编辑(左),或者可以在
没有其它C的相当编辑的情况下由BE3或YEE-BE3编辑(右)的致病性T→C突变的比例。
[0136] 图95A至95C显示截短的引导RNA对碱基编辑窗宽度的影响。用表达BE3和不同5’截短长度的sgRNA的质粒转染HEK293T细胞。如实施例中所述分析经处理的细胞。图95A显示在
EMX1基因组基因座内的位点处,原间隔物和PAM序列(顶部,SEQ ID NO:4270)和细胞C至T转
化百分比,定义为在所指示的靶位置处具有T的总DNA测序读段的百分比。在此位点处,通过
使用17nt截短的gRNA改变了碱基编辑窗。图95B显示了在HEK位点3和位点4基因组基因座内
的位点处的原间隔物和PAM序列(顶部,SEQ ID NO:4270)和细胞C至T转化百分比,其定义为
在指示的靶位置处具有T的总DNA测序读段的百分比。在这些位点处,没有观察到碱基编辑
窗的改变,但注意到在sgRNA截短时所有底物碱基的编辑效率的线性降低。
[0137] 图96显示了APOBEC1-Cas9接头长度对碱基编辑窗宽度的影响。用质粒转化HEK293T细胞,所述质粒表达具有XTEN、GGS、(GGS)3(SEQ ID NO:596)、(GGS)5(SEQ ID NO:
4271)、或(GGS)7(SEQ ID NO:597)的rAPOBEC1–Cas9接头的碱基编辑器和sgRNA。如实施例
中所述分析经处理的细胞。对具有不同接头的各种碱基编辑器显示了细胞C至T转化百分
比,定义为在指示的靶位置处具有T的总DNA测序读段的百分比。
[0138] 图97A至97C显示了rAPOBEC突变对碱基编辑窗宽度的影响。图97C显示用表达靶向位点A或位点B和指示的BE3点突变体的sgRNA的质粒转染的HEK293T细胞。如实施例中所述
分析经处理的细胞。显示原间隔物中和原间隔物的三个碱基对内的所有C,并显示细胞C至T
转化百分比。对所有测试突变体显示“编辑窗宽度”,定义为在其内编辑效率超过半最大值
的计算的核苷酸数目。
[0139] 图98显示了哺乳动物细胞中碱基编辑的APOBEC1突变子产物分布的效果。用表达BE3或其突变体和合适的sgRNA的质粒转染HEK293T细胞。如实施例中所述分析经处理的细
胞。显示了细胞C至T转换百分比,定义为在指示的靶位置处具有T的总DNA测序读段的百分
比(左)。右侧显示含有C至T转换的总测序读段的百分比。BE3点突变体不显著影响HEK位点4
(仅有一个靶胞苷的位点)处的碱基编辑效率。
[0140] 图99显示了BE3和HF-BE3中的中靶编辑血浆递送的比较。
[0141] 图100显示了BE3的蛋白质和血浆递送中的中靶编辑的比较。
[0142] 图101显示了HF-BE3的蛋白质和血浆递送中的中靶编辑的比较。
[0143] 图102显示了脂转染和安装HF突变两者都降低脱靶脱氨基化事件。菱形指示检测不到脱靶,并且特异性比率设置为100。
[0144] 图103显示了具有在原间隔物(NNNNTC2TC4TC6TC8TC10TC12TC14TC16TC18TC20NGG、SEQ ID NO:4272)中的偶数位置处放置的C的合成底物上的体外C至T编辑。
[0145] 图104显示了具有在原间隔物(NNNNTC2TC4TC6TC8TC10TC12TC14TC16TC18TC20NGG、SEQ ID NO:4272)中的奇数位置处放置的C的合成底物上的体外C至T编辑。
[0146] 图105包括描绘在质粒对蛋白质递送的情况下碱基编辑的特异性比率的两幅图。
[0147] 图106A至106B显示了非NGG PAM位点上的BE3活性。用表达BE3和合适的sgRNA的质粒转染HEK293T细胞。如实施例中所述分析经处理的细胞。图106A显示了SaBE3或SaKKH-BE3
可以有效地靶向位点上的BE3活性。BE3对NAG PAM显示低的但显著的活性。图106B显示了与
VQR-BE3或VRER-BE3形成对比BE3在具有NGA或NGCG PAM的位点处具有显著减少的编辑。
[0148] 图107A至107B显示了APOBEC1突变对VQR-BE3和SaKKH-BE3的影响。用表达VQR-BE3、SaKKH-BE3或其突变体和合适的sgRNA的质粒转染HEK293T细胞。如方法中所述分析经
处理的细胞。显示了细胞C至T转化百分比,定义为在指定的目标位置处具有T的总DNA测序
读段的百分比。图107A显示窗调节突变可以应用于VQR-BE3以实现由NGA PAM可靶向的位点
处的选择性碱基编辑。图107B显示了当应用于SaKKH-BE3时,突变引起碱基编辑效率的总体
降低,而在靶窗内不赋予碱基选择性。
[0149] 图108显示了核苷酸编辑的示意图。使用以下缩写:(MMR)-错配修复,(BE3切口酶)-指碱基编辑器3,其包含Cas9切口酶域,(UGI)-尿嘧啶糖基化酶抑制剂,UDG)-尿嘧啶
DNA糖基化酶,(APOBEC)-指APOBEC胞苷脱氨酶。
[0150] 定义
[0151] 如本文和权利要求书中所使用,除非上下文另外明确指出,否则单数形式“一种”、“一个”和“该/所述”包括单数和复数提及。因此,例如,提及“试剂”包括单一试剂和多个此类试剂。
[0152] 术语“Cas9”或“Cas9核酸酶”指包含Cas9蛋白或其片段的RNA引导核酸酶(例如包含Cas9的活性、无活性或部分活性DNA切割域,和/或Cas9的gRNA结合域的蛋白质)。Cas9核
酸酶有时也称为casn1核酸酶或CRISPR(成簇规则间隔短回文重复序列)相关核酸酶。
CRISPR是一种适应性免疫系统,其针对移动遗传元件(病毒、可转座元件和接合质粒)提供
保护。CRISPR簇包含间隔物,与先前的移动元件互补的序列和靶入侵核酸。CRISPR簇被转录
并加工成CRISPR RNA(crRNA)。在II型CRISPR系统中,pre-crRNA的正确处理需要反式编码
的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA充当pre-crRNA的核
糖核酸酶3辅助处理的指导。随后,Cas9/crRNA/tracrRNA内切核溶解切割与间隔物互补的
线性或环状dsDNA靶物。首先内切核溶解切割不与crRNA互补的靶链,然后以3’-5’外切核溶解修整。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,单一引导RNA
(“sgRNA”或简称“gNRA”)可以工程化改造为将crRNA和tracrRNA两者的各方面掺入单一RNA种类中。参见例如Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,
Charpentier E.Science 337:816-821(2012),其全部内容在此通过引用并入。Cas9识别
CRISPR重复序列中的短基序(PAM或原间隔物相邻基序),以帮助区分自身与非自身。Cas9核
酸酶序列和结构是本领域技术人员公知的(参见例如“Complete genome sequence of an 
M1strain of Streptococcus pyogenes.”Ferretti et al.,J.J.,McShan W.M.,Ajdic 
D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,Sezate S.,Suvorov A.N.,Kenton 
S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White 
J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:
4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host 
factor RNase III.”Deltcheva E.,Chylinski K.,Sharma C.M.,Gonzales K.,Chao Y.,
Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature471:602-607(2011);以及
“A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial 
immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier 
E.Science 337:816-821(2012),其全部内容通过引用并入本文)。已经在各种物种,包括但
不限于酿脓链球菌和嗜热链球菌(S.thermophilus)中描述了Cas9直系同源物。基于本公
开,其他合适的Cas9核酸酶和序列对于本领域技术人员将是显而易见的,并且此类Cas9核
酸酶和序列包括来自Chylinski,Rhun,and Charpentier,“The tracrRNA and 
Cas9families of type II CRISPR-Cas immunity systems”(2013)RNA Biology 10:5,
726-737中公开的生物体和基因座的Cas9序列;其全部内容通过引用并入本文。在一些实施
方案中,Cas9核酸酶具有无活性(例如失活的)DNA切割域,即Cas9是切口酶。
[0153] 核酸酶失活的Cas9蛋白可以互换称为“dCas9”蛋白(对于核酸酶-“死亡”Cas9)。用于产生具有无活性DNA切割域的Cas9蛋白(或其片段)的方法是已知的(参见例如Jinek et al.,Science.337:816-821(2012);Qi et al.“,Repurposing CRISPR as an RNA-Guided 
Platform for Sequence-Specific Control of Gene Expression”(2013)Cell.28;152
(5):1173-83,其各自的全部内容通过引用并入本文)。例如,已知Cas9的DNA切割域包括两
个亚域,即HNH核酸酶亚域和RuvC1亚域。HNH亚域切割与gRNA互补的链,而RuvC1亚域切割非
互补链。这些亚域内的突变可以沉默Cas9的核酸酶活性。例如,突变D10A和H840A完全失活
酿脓链球菌Cas9的核酸酶活性(Jinek et al.,Science.337:816-821(2012);Qi et al.,
Cell.28;152(5):1173-83(2013))。在一些实施方案中,提供了包含Cas9片段的蛋白质。例
如,在一些实施方案中,蛋白质包含两个Cas9域之一:(1)Cas9的gRNA结合域;或(2)Cas9的
DNA切割域。在一些实施方案中,包含Cas9或其片段的蛋白质称为“Cas9变体”。Cas9变体与Cas9或其片段共享同源性。例如,Cas9变体与野生型Cas9至少约70%相同、至少约80%相
同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相
同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方案中,与野生型Cas9相比,Cas9变体可以具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、
20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、
45、46、47、48、49、50或更多个氨基酸变化。在一些实施方案中,Cas9变体包含Cas9的片段(例如,gRNA结合域或DNA切割域),使得该片段与野生型Cas9的相应片段至少约70%相同、
至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方
案中,片段是相应野生型Cas9的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少
90%、至少95%相同、至少96%、至少97%、至少98%、至少99%、或至少99.5%。
[0154] 在一些实施方案中,片段的长度为至少100个氨基酸。在一些实施方案中,片段的长度为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、
900、950、1000、1050、1100、1150、1200、1250、或至少1300个氨基酸。在一些实施方案中,野生型Cas9对应于来自酿脓链球菌的Cas9(NCBI参考序列:NC_017053.1,SEQ ID NO:1(核苷
酸);SEQ ID NO:2(氨基酸))。
[0155]ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAA
GGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTT
TATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAAT
CGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGA
GTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATC
ATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATC
TATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGA
TGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAG
TAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGT
GAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGA
TTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTG
GAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTA
AATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCT
TTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATG
CAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGT
ACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCC
CCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATC
GTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTT
GCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGC
TCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGC
TTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTT
CTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAA
AGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCAT
TAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTA
GAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCT
CTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTA
ATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTT
ATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAG
TTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTG
ATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAA
AAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAA
AGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGT
ATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAA
GACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGA
AGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATT
TAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGC
CAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCG
AGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTG
AGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCA
AAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGA
AATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAA
ATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGAT
TTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATT
CTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAAT
ATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAG
TTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTT
AGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAA
ACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTG
AATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGT
GGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATG
CCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATT
CATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATA
TACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATT
TGAGTCAGCTAGGAGGTGACTGA(SEQID NO:1)
[0156]
[0157] (单下划线:HNH域;双下划线:RuvC域)
[0158] 在一些实施方案中,野生型Cas9对应于或包含SEQ ID NO:3(核苷酸)和/或SEQ ID NO:4(氨基酸):
[0159]ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAA
AGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCC
TATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAAC
CGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGA
GTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATC
ATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATC
TACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGA
TGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCG
TGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGA
GAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGA
CTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTG
GAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTT
AATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACT
TCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACG
CAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGG
ACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCC
ACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATC
GTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTC
GCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGC
TCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTAC
TTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTT
CTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAA
AGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCAC
TTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTA
GAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCT
GTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCA
ACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTT
ATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTC
ATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGG
ATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACT
CAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTT
AAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACA
TGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTG
AAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGA
GGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATA
ACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACC
CGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGAT
TCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTA
GGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATAC
CCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACA
GGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGG
CAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGG
GACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGG
GTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAA
AGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAG
AAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTT
CCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAG
AAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATAC
GTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTT
TGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTG
ATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATT
ATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACG
ATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAG
ATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGT
GATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA(SEQ ID NO:3)
[0160]
[0161] (单下划线:HNH域;双下划线:RuvC域)
[0162] 在一些实施方案中,野生型Cas9对应于来自酿脓链球菌的Cas9(NCBI参考序列:NC_002737.2,SEQ ID NO:8(核苷酸);和Uniport参考序列:Q99ZW2,SEQ ID NO:10(氨基
酸)。
[0163]ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAA
GGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTT
TATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAAT
CGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGA
GTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATC
ATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATC
TATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGA
TGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAG
TAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGT
GAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGA
TTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTG
GAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTA
AATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCT
TTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATG
CAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGT
ACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCC
CCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATC
GTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTT
GCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGC
TCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGC
TTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTT
CTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAA
AGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCAT
TAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTA
GAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCT
CTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTA
ATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTT
ATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAG
TTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTG
ATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACT
CAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCT
TAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACA
TGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTT
AAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGA
AGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATA
ATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACT
CGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTAT
TCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTAC
GTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATAT
CCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCA
AGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTG
CAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGA
GATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGG
ATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAA
AATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAG
AAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTT
TTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAG
AAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATAT
GTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTT
TGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAG
ATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATT
ATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACG
ATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTG
ATTTGAGTCAGCTAGGAGGTGACTGA(SEQ ID NO:8)
[0164]
[0165] 在一些实施方案中,Cas9指来自溃疡棒状杆菌(Corynebacterium ulcerans)(NCBI参考:NC_015683.1,NC_017317.1);白喉棒状杆菌(Corynebacterium diphtheria)
(NCBI参考:NC_016782.1,NC_016786.1);Spiroplasma syrphidicola(NCBI参考:NC_
021284.1);中间普雷沃菌(Prevotella intermedia)(NCBI参考:NC_017861.1);台湾螺原
体(Spiroplasma taiwanense)(NCBI参考:NC_021846.1);海豚链球菌(Streptococcus 
iniae)(NCBI参考:NC_021314.1);Belliella baltica(NCBI参考:NC_018010.1);
Psychroflexus torques I(NCBI参考:NC_018721.1);嗜热链球菌(Streptococcus 
thermophilus)(NCBI参考:YP_820832.1),无害李斯特菌(Listeria innocua)(NCBI参考:
NP_472073.1),空肠弯曲杆菌(Campylobacter jejuni)(NCBI参考:YP_002344900.1)或脑
膜炎奈瑟球菌(Neisseria.meningitidis)(NCBI参考:YP_002342100.1)的Cas9或来自实施
例5所示的任何生物体的Cas9。
[0166] 在一些实施方案中,dCas9部分或全部对应于或包含具有使Cas9核酸酶活性失活的一个或多个突变的Cas9氨基酸序列。例如,在一些实施方案中,dCas9域包含D10A和/或
H840A突变。
[0167] dCas9(D10A和H840A):
[0168]
[0169] 在一些实施方案中,Cas9域包含D10A突变,而840位残基保留SEQ ID NO:10提供的氨基酸序列中,或在SEQ ID NO:11-260提供的任何氨基酸序列中的相应位置处的组氨酸。
不希望受任何特定理论束缚,催化残基H840的存在恢复Cas9切割含有与靶定C相反的G的非
编辑(例如非脱氨基化)链的活性。H840(例如自A840)的恢复不导致含有C的靶链的切割。此
类Cas9变体能够基于gRNA限定的靶序列在特定位置处产生单链DNA断裂(切口),导致非编
辑链的修复,从而最终导致非编辑链上G至A变化。在图108中显示该方法的示意图。简言之,C-G碱基对的C可以通过脱氨酶例如APOBEC脱氨酶来脱氨成U。对具有G的非编辑链产生切口
有助于通过错配修复机制除去G。UGI抑制UDG,防止U的除去。
[0170] 在其他实施方案中,提供了具有除D10A和H840A以外的突变的dCas9变体,其例如导致核酸酶失活的Cas9(dCas9)。举例来说,此类突变包括D10和H820处的其他氨基酸取代
或Cas9的核酸酶域内的其他取代(例如,在HNH核酸酶亚域和/或RuvC1亚域中的取代)。在一
些实施方案中,提供了dCas9的变体或同源物(例如SEQ ID NO:10的变体),其与SEQ ID NO:
10至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方案中,提供了
dCas9的变体(例如SEQ ID NO:10的变体),其具有比SEQ ID NO:10短或长约5个氨基酸、约
10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多的氨基酸序列。
[0171] 在一些实施方案中,如本文提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如本文提供的Cas9序列之一。然而,在其他实施方案中,如本文提供的融合蛋白不包
含全长Cas9序列,而仅包含其片段。例如,在一些实施方案中,本文提供的Cas9融合蛋白包
含Cas9片段,其中所述片段结合crRNA和tracrRNA或sgRNA,但不包含功能性核酸酶域,例如
其仅包含截短形式的核酸酶或根本没有核酸酶域。本文提供了合适的Cas9域和Cas9片段的
示例性氨基酸序列,并且Cas9域和片段的其他合适的序列对于本领域技术人员而言将是显
而易见的。
[0172] 在一些实施方案中,Cas9指来自溃疡棒状杆菌(NCBI参考:NC_015683.1,NC_017317.1);白喉棒状杆菌(NCBI参考:NC_016782.1,NC_016786.1);Spiroplasma 
syrphidicola(NCBI参考:NC_021284.1);中间普雷沃菌(NCBI参考:NC_017861.1);台湾螺
原体(NCBI参考:NC_021846.1);海豚链球菌(NCBI参考:NC_021314.1);Belliella baltica(NCBI参考:NC_018010.1);Psychroflexus torques I(NCBI参考:NC_018721.1);嗜热链球菌(NCBI参考:YP_820832.1),无害李斯特菌(NCBI参考:NP_472073.1),空肠弯曲杆菌(NCBI参考:YP_002344900.1)或脑膜炎奈瑟球菌(NCBI参考:YP_002342100.1)的Cas9。
[0173] 如本文所用,术语“脱氨酶”或“脱氨酶域”指催化脱氨基化反应的蛋白质或酶。在一些实施方案中,脱氨酶或脱氨酶域是胞苷脱氨酶,分别催化胞苷或脱胞苷解脱氨基化为尿苷或脱氧尿苷。在一些实施方案中,脱氨酶或脱氨酶域是胞苷脱氨酶域,其催化胞嘧
啶水解脱氨基化为尿嘧啶。在一些实施方案中,脱氨基酶或脱氨酶域是来自生物体,如人、
黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶。在一些实施方案中,脱氨酶或脱氨酶域是来自生物体的天然存在的脱氨酶的变体,其在自然界中不存在。例如,在一些实
施方案中,脱氨酶或脱氨酶域与来自生物体的天然存在的脱氨基酶是至少50%、至少55%、
至少60%、至少65%、至少70%、至少75%至少80%、至少85%、至少90%、至少95%、至少
96%、至少97%、至少98%、至少99%、或至少99.5%相同的。
[0174] 如本文所用,术语“有效量”指足以引起期望的生物学应答的生物活性剂的量。例如,在一些实施方案中,核酸酶的有效量可以指足以诱导被核酸酶特异性结合和切割的靶
位点的切割的核酸酶量。在一些实施方案中,本文提供的融合蛋白,例如包含核酸酶无活性
Cas9域和核酸编辑域(例如脱氨酶域)的有效量可以指足以诱导由融合蛋白特异性结合和
编辑的靶位点编辑的融合蛋白量。如本领域技术人员将理解的,试剂,例如融合蛋白、核酸
酶、脱氨酶、重组酶、杂合蛋白、蛋白质二聚体、蛋白质(或蛋白质二聚体)和多核苷酸的复合物、或多核苷酸的有效量可以随各种因素而变化,例如期望的生物学应答,例如待编辑的特
定等位基因、基因组或靶位点、靶定的细胞或组织、和使用的试剂。
[0175] 如本文所用,术语“接头”指连接两个分子或部分,例如融合蛋白的两个域,诸如例如核酸酶无活性Cas9域和核酸编辑域(例如脱氨酶域)的化学基团或分子。在一些实施方案中,接头连接RNA可编程核酸酶的gRNA结合域,包括Cas9核酸酶域和核酸编辑蛋白的催化
域。在一些实施方案中,接头连接dCas9和核酸编辑蛋白。典型地,接头位于两个基团、分子或其他部分之间或侧翼,并且通过共价键与每种连接,从而连接两者。在一些实施方案中,
接头是氨基酸或多个氨基酸(例如肽或蛋白质)。在一些实施方案中,接头是有机分子、基
团、聚合物或化学部分。在一些实施方案中,接头的长度为5-100个氨基酸,例如5、6、7、8、9、
10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、
40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150、或150-200个氨基酸。也考虑了更长或更短的接头。
[0176] 如本文所用,术语“突变”指序列(例如核酸或氨基酸序列)内的残基用另一个残基取代或序列内一个或多个残基的缺失或插入。本文通常通过鉴定初始残基,随后是序列内
残基的位置和新取代的残基的身份来描述突变。用于产生本文提供的氨基酸取代(突变)的
各种方法在本领域中是公知的,并且由例如Green and Sambrook,Molecular Cloning:A 
Laboratory Manual(第4版,Cold Spring Harbor Laboratory Press,Cold Spring 
Harbor,N.Y.(2012))提供。
[0177] 如本文所用,术语“核酸”和“核酸分子”指包含核碱基和酸性部分(例如核苷、核苷酸或核苷酸聚合物)的化合物。典型地,聚合核酸,例如包含三个或更多个核苷酸的核酸分子是线性分子,其中相邻的核苷酸通过磷酸二酯连接彼此连接。在一些实施方案中,“核酸”指单独的核酸残基(例如核苷酸和/或核苷)。在一些实施方案中,“核酸”指包含三个或更多个单独的核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可互换使用以指核苷酸的聚合物(例如,至少3个核苷酸的串)。在一些实施方案中,“核酸”涵盖RNA以及单链和/或双链DNA。核酸可以例如在基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然存在的核酸分子的背景下天然存在。另一方面,核酸分子可以是非天然存在的分子,例如重组DNA或RNA、人工染色体、工程化基因组或其片段、
或合成DNA、RNA、DNA/RNA杂合物、或包括非天然存在的核苷酸或核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物,例如具有除磷酸二酯主链以外的主链的类似物。核酸可以从天然来源纯化,使用重组表达系统产生并任选纯化,化学合成等。在适当的
情况下,例如在化学合成分子的情况下,核酸可以包含核苷类似物,诸如具有化学修饰的碱
基或糖和主链修饰的类似物。除非另有指示,核酸序列以5’至3’方向呈现。在一些实施方案中,核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);核苷类似物(例如2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺
苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤和2-硫代胞苷);化学修饰的碱基;生物学修饰的碱基(例如甲基化碱基);
插入碱基;修饰的糖(例如2’-氟核糖、核糖、2’-脱氧核糖、阿拉伯糖和己糖);和/或修饰的磷酸基团(例如硫代磷酸酯和5’-N-亚磷酰胺连接)。
[0178] 如本文所用,术语“核酸编辑域”指能够对核酸(例如DNA或RNA)进行一种或多种修饰(例如,胞苷残基的脱氨基)的蛋白质或酶。示例性的核酸编辑域包括但不限于脱氨酶、核
酸酶、切口酶、重组酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰转移酶、转录激活物或转录阻抑物域。在一些实施方案中,核酸编辑域是脱氨酶(例如胞苷脱氨酶,如APOBEC或AID脱氨
酶)。
[0179] 如本文所用,术语“增殖性疾病”指细胞或组织稳态受到干扰,使得细胞或细胞群体表现出异常升高的增殖速率的任何疾病。增殖性疾病包括过度增殖性疾病,诸如前新生
性状况(pre-neoplastic hyperplastic condition)和新生性疾病。新生性疾病的特征是
细胞的异常增殖,包括良性和恶性瘤形成两者。恶性肿瘤也称为癌症。
[0180] 术语“蛋白质”、“肽”和“多肽”在本文中可互换使用,并且指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。术语指任何大小、结构或功能的蛋白质、肽或多肽。通常,蛋白质、肽或多肽长至少三个氨基酸。蛋白质、肽或多肽可以指个别的蛋白质或蛋白质集合。可以例如通过添加化学实体如碳水化合物基团、羟基、磷酸基团、法呢基基团、异法呢基基
团、脂肪酸基团、用于偶联、官能化或其他修饰的接头等修饰蛋白质、肽或多肽中的一个或
多个氨基酸。蛋白质、肽或多肽也可以是单一分子或可以是多分子复合物。蛋白质、肽或多
肽可以仅仅是天然存在的蛋白质或肽的片段。蛋白质、肽或多肽可以是天然存在的、重组的
或合成的,或其任何组合。如本文所用,术语“融合蛋白”指包含来自至少两种不同蛋白质的蛋白质域的杂合多肽。一种蛋白质可以位于融合蛋白的氨基末端(N端)或蛋白质的羧基端
(C端),从而分别形成“氨基端融合蛋白”或“羧基端融合蛋白”。蛋白质可以包含不同的域,例如核酸结合域(例如指导蛋白质与靶位点结合的Cas9的gRNA结合域)和核酸编辑蛋白质
的核酸切割域或催化域。在一些实施方案中,蛋白质包含蛋白质性部分,例如构成核酸结合
域的氨基酸序列,和有机化合物,例如可以充当核酸切割剂的化合物。在一些实施方案中,
蛋白质与核酸例如RNA复合或结合。本文提供的任何蛋白质可以通过本领域已知的任何方
法产生。例如,本文提供的蛋白质可以通过重组蛋白质表达和纯化产生,其特别适用于包含
肽接头的融合蛋白。用于重组蛋白的表达和纯化的方法是公知的,并且包括由Green and 
Sambrook,Molecular Cloning:A Laboratory Manual(第4版,Cold Spring Harbor 
Laboratory Press,Cold Spring Harbor,N.Y.(2012))描述的方法,其全部内容通过引用
并入本文。
[0181] 术语“RNA可编程核酸酶”和“RNA引导的核酸酶”在本文中可互换使用,并且指与一个或多个不作为切割靶物的RNA复合(例如结合或缔合)的核酸酶。在一些实施方案中,当与RNA复合时,RNA可编程核酸酶可以称为核酸酶:RNA复合物。通常,结合的RNA称为引导RNA 
(gRNA)。gRNA可以作为两种或更多种RNA的复合物存在,或作为单一RNA分子存在。作为单一
RNA分子存在的gRNA可以称为单一引导RNA(sgRNA),尽管“gRNA”可互换使用以指作为单分
子或作为两个或更多个分子的复合物存在的引导RNA。典型地,作为单一RNA种类存在的
gRNA包含两个域:(1)与靶核酸共享同源性(例如并且指导Cas9复合物与靶物结合)的域;和
(2)结合Cas9蛋白的域。在一些实施方案中,域(2)对应于称为tracrRNA的序列,并且包含
茎-环结构。例如,在一些实施方案中,域(2)与如Jinek et al.,Science 337:816-821
(2012)中提供的tracrRNA相同或同源,其全部内容通过引用并入本文。gRNA(例如包括域2
的那些)的其他例子可以参见2013年9月6日提交的美国临时专利申请U.S.S.N.61/874,
682,题目为“Switchable Cas9Nucleases And Uses Thereof”以及2013年9月6日提交的美
国临时专利申请U.S.S.N.61/874,746,题目为“Delivery System For Functional 
Nucleases”,其全部内容在此通过引用整体并入。在一些实施方案中,gRNA包含域(1)和(2)中的两个或更多个,并且可以称为“延伸的gRNA”。例如,延伸的gRNA将例如结合两个或更多个Cas9蛋白并结合两个或更多个独特区域处的靶核酸,如本文中所述。gRNA包含与靶位点
互补的核苷酸序列,其介导核酸酶/RNA复合物与所述靶位点的结合,提供核酸酶:RNA复合
物的序列特异性。在一些实施方案中,RNA可编程核酸酶是(CRISPR相关系统)Cas9内切核酸
酶,例如来自酿脓链球菌的Cas9(Csn1)(参见例如“Complete genome sequence of an 
M1strain of Streptococcus pyogenes.”Ferretti J.J.,McShan W.M.,Ajdic D.J.,
Savic D.J.,Savic G.,Lyon K.,Primeaux C.,Sezate S.,Suvorov A.N.,Kenton S.,Lai 
H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan 
X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-
4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor 
RNase III.”Deltcheva E.,Chylinski K.,Sharma C.M.,Gonzales K.,Chao Y.,Pirzada 
Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011);以及“A 
programmable dual-RNA-guided DNA endonuclease in adaptive bacterial 
immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier 
E.Science 337:816-821(2012),其中每篇的全部内容通过引用并入本文。
[0182] 因为RNA可编程核酸酶(例如Cas9)使用RNA:DNA杂交来靶向DNA切割位点,所以原则上能够将这些蛋白质靶向到由引导RNA规定的任何序列。使用RNA可编程核酸酶例如Cas9
进行位点特异性切割(例如,修饰基因组)的方法是本领域已知的(参见例如Cong,L.et 
al.Multiplex genome engineering using CRISPR/Cas systems.Science339,819-823
(2013);Mali,P.et al.RNA-guided human genome engineering via Cas9.Science339,
823-826(2013);Hwang,W.Y.et al.Efficient genome editing in zebrafish using a 
CRISPR-Cas system.Nature biotechnology31,227-229(2013);Jinek,M.et al.RNA-
programmed genome editing in human cells.eLife2,e00471(2013);Dicarlo,J.E.et 
al.Genome engineering in Saccharomyces cerevisiae using CRISPR-Cas 
systems.Nucleic acids research(2013);Jiang,W.et al.RNA-guided editing of 
bacterial genomes using CRISPR-Cas systems.Nature biotechnology31,233-239
(2013);其每篇的全部内容通过引用并入本文)。
[0183] 如本文所用,术语“受试者”指个体生物体,例如个体哺乳动物。在一些实施方案中,受试者是人。在一些实施方案中,受试者是非人哺乳动物。在一些实施方案中,受试者是非人灵长类。在一些实施方案中,受试者是啮齿类。在一些实施方案中,受试者是绵羊、山
羊、牛、猫或狗。在一些实施方案中,受试者是脊椎动物、两栖动物、爬行动物、鱼、昆虫、苍蝇或线虫。在一些实施方案中,受试者是研究动物。在一些实施方案中,受试者是遗传工程化
的,例如基因工程化的非人受试者。受试者可以是任一种性别的并且处于发育的任何阶段。
[0184] 术语“靶位点”指由脱氨酶或包含脱氨酶的融合蛋白(例如,本文提供的dCas9-脱氨酶融合蛋白)脱氨基化的核酸分子内的序列。
[0185] 术语“治疗/处理”指旨在逆转、缓解疾病或病症或一种或多种其症状、延缓疾病或病症或一种或多种其症状的发作或抑制疾病或病症或一种或多种其症状的进展的临床干
预,如本文所述。如本文所用,术语“治疗/处理”指旨在逆转、减轻疾病或病症或一种或多种其症状、延迟疾病或病症或其一种或多种症状的发作或抑制疾病或病症或其一种或多种症
状的进展的临床干预,如本文所述。在一些实施方案中,可以在一种或多种症状已经形成之
后和/或疾病已经得到诊断之后施用治疗。在其他实施方案中,治疗可以在没有症状的情况
下施用,例如以预防症状或延迟症状的发作或抑制疾病的发作或进展。例如,可以在症状发
作之前对易感个体施用治疗(例如,根据症状史和/或遗传或其他易感性因素)。治疗也可以
在症状消退后继续进行,例如以预防或延缓其复发。
[0186] 如本文所用,在蛋白质或核酸的背景下,术语“重组”指自然界中不存在但是作为人工程化的产物的蛋白质或核酸。例如,在一些实施方案中,重组蛋白或核酸分子包含氨基
酸或核苷酸序列,所述氨基酸或核苷酸序列与任何天然存在的序列相比包含至少1个、至少
2个、至少3个、至少4个、至少5个、至少6个或至少7个突变。
[0187] 如本文所用,术语“核碱基编辑器(NBE)”或“碱基编辑器(BE)”指本文所述的Cas9融合蛋白。在一些实施方案中,融合蛋白包含与脱氨酶融合的核酸酶无活性的Cas9
(dCas9)。在一些实施方案中,融合蛋白包含与脱氨酶融合的Cas9切口酶。在一些实施方案
中,融合蛋白包含与脱氨酶融合并进一步与UGI域融合的核酸酶无活性Cas9。在一些实施方
案中,融合蛋白包含与脱氨酶融合并进一步与UGI域融合的Cas9切口酶。在一些实施方案
中,融合蛋白的dCas9包含SEQ ID NO:10的D10A和H840A突变或SEQ ID NO:11-260中的任一
项中的相应突变,其使Cas9蛋白的核酸酶活性失活。在一些实施方案中,融合蛋白包含D10A
突变并且包含SEQ ID NO:10的残基840处的组氨酸或在SEQ ID NO:11-260中的任一项中的
相应的突变,其使Cas9仅能够切割核酸双链体的一条链。以下在SEQ ID NO:674中显示了
Cas9切口酶的实例。术语“核碱基编辑器(NBE)”和“碱基编辑器(BE)”可以互换使用。
[0188] 如本文所用,术语“尿嘧啶糖基化酶抑制剂”或“UGI”指能够抑制尿嘧啶-DNA糖基化酶碱基切割修复酶的蛋白质。
[0189] 如本文所用,术语“Cas9切口酶”指能够仅切割双链核酸分子(例如双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶包含D10A突变并且具有SEQ ID NO:
10的H840位处的组氨酸,或在SEQ ID NO:11-260中的任一项中的相应的突变。例如,Cas9切
口酶可以包含如SEQ ID NO:674所示的氨基酸序列。此类Cas9切口酶具有活性HNH核酸酶域
并且能够切割DNA的非靶定链,即由gRNA结合的链。此外,此类Cas9切口酶具有无活性的
RuvC核酸酶域,并且不能切割DNA的靶定链,即期望碱基编辑的链。
[0190] 示例性Cas9切口酶(克隆载体pPlatTET-gRNA2;登录号BAV54124)。
[0191]MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKN
RICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLI
YLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPG
EKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRV
NTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG
TEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRF
AWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAF
LSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL
EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNF
MQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTT
QKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFL
KDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVET
RQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKY
PKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGR
DFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSK
KLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKY
VNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENI
IHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:674)
[0192] 发明详述
[0193] 本公开的一些方面提供融合蛋白,其包含能够结合核苷酸序列的域(例如Cas9或Cpf1蛋白)和酶域,例如DNA编辑域,诸如例如脱氨酶域。通过脱氨酶对核碱基的脱氨基化可
以导致相应残基处的点突变,这在本文中称为核酸编辑。因此,可以使用包含Cas9变体或域
和DNA编辑域的融合蛋白进行核酸序列的靶向编辑。此类融合蛋白可用于体外靶向编辑
DNA,例如用于产生突变体细胞或动物;用于引入靶向突变,例如用于离体校正细胞中的遗
缺陷,例如在从受试者获得的细胞中,随后将所述细胞再导入相同或另一受试者中;以及
用于引入靶向突变,例如校正遗传缺陷或在受试者中引入疾病相关基因中的灭活突变
(deactivating mutation)。通常,本文所述的融合蛋白的Cas9域没有任何核酸酶活性,而
是取而代之是Cas9片段或dCas9蛋白或域。还提供了如本文所述的使用Cas9融合蛋白的方
法。
[0194] 核碱基编辑器的Cas9域
[0195] 本文提供了非限制性的示例性Cas9域。Cas9域可以是核酸酶活性Cas9域、核苷酸无活性Cas9域或Cas9切口酶。在一些实施方案中,Cas9域是核酸酶活性域。例如,Cas9域可
以是切割双链核酸的两条链(例如,双链DNA分子的两条链)的Cas9域。在一些实施方案中,
Cas9域包含如SEQ ID NO:10-263所示的任一种氨基酸序列。在一些实施方案中,Cas9域包
含与SEQ ID NO:10-263所示的任一氨基酸序列至少60%、至少65%、至少70%、至少75%、
至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。在一些实施方案中,Cas9域包含与SEQ ID NO:10-263所示的
任一种氨基酸序列相比具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、
21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、
46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,Cas9域包含具有与SEQ ID NO:10-263所示的任一种氨基酸序列相比具有至少10、至少15、至少20、至少30、at leat 
40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少
300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少
1100、或至少1200个相同的连续氨基酸残基的氨基酸序列。
[0196] 在一些实施方案中,Cas9域是核酸酶无活性的Cas9域(dCas9)。例如,dCas9域可以结合双链核酸分子(例如,经由gRNA分子)而不切割双链核酸分子的任一条链。在一些实施
方案中,核酸酶无活性dCas9域包含SEQ ID NO:10所示氨基酸序列的D10X突变和H840X突
变,或SEQ ID NO:11-260所提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸变
化。在一些实施方案中,核酸酶无活性dCas9域包含SEQ ID NO:10中所示的氨基酸序列的
D10A突变和H840A突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。作为
一个例子,核酸酶无活性的Cas9域包含SEQ ID NO:263(克隆载体pPlatTET-gRNA2,登录号
BAV54124)所示的氨基酸序列。
[0197]MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKN
RICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLI
YLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPG
EKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRV
NTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG
TEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRF
AWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAF
LSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL
EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNF
MQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTT
QKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFL
KDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVET
RQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKY
PKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGR
DFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSK
KLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKY
VNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENI
IHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:263;参
见例如Qi et al.,Repurposing CRISPR as an RNA-guided platform for sequence-
specific control of gene expression.Cell.2013;152(5):1173-83,其全部内容通过引
用并入本文)。
[0198] 基于本公开和本领域的知识,其他合适的核酸酶无活性dCas9域对于本领域技术人员将是显而易见的,并且在本公开的范围内。此类另外的示例性合适的核酸酶无活性
Cas9域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变体域
(参见例如Prashant et al.,CAS9transcriptional activators for target 
specificity screening and paired nickases for  cooperative genome 
engineering.Nature Biotechnology.2013;31(9):833-838,其全部内容通过引用并入本
文)。在一些实施方案中,dCas9域包含与本文提供的任一项dCas9域至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少
98%、至少99%、或至少99.5%相同的氨基酸序列。在一些实施方案中,Cas9域包含与SEQ 
ID NO:10-263所示的任一种氨基酸序列相比具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、
15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、
40、41、42、43、44、45、46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,Cas9域包含与SEQ ID NO:10-263所示的任一种氨基酸序列相比具有至少10、至少15、至少
20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少
1000、至少1100、或至少1200相同的连续氨基酸残基的氨基酸序列。
[0199] 在一些实施方案中,Cas9域是Cas9切口酶。Cas9切口酶可以是能够仅切割双链核酸分子(例如双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶切割双链
核酸分子的靶链,这意味着Cas9切口酶切割与结合到Cas9的gRNA(例如,sgRNA)碱基配对
(互补)的链。在一些实施方案中,Cas9切口酶包含D10A突变并且具有SEQ ID NO:10的位置
840处的组氨酸,或在SEQ ID NO:11-260中的任一项中的突变。例如,Cas9切口酶可以包含
如SEQ ID NO:674所示的氨基酸序列。在一些实施方案中,Cas9切口酶切割双链核酸分子的
非靶标、非碱基编辑链,这意味着Cas9切口酶切割不与结合到Cas9的gRNA(例如,sgRNA)碱
基配对的链。在一些实施方案中,Cas9切口酶包含H840A突变并且具有在SEQ ID NO:10的位
置10处的天冬氨酸残基或在SEQ ID NO:11-260中的任一项中的相应的突变。在一些实施方
案中,Cas9切口酶包含与本文提供的任一种Cas9切口酶至少60%、至少65%、至少70%、至
少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少
99%、或至少99.5%相同的氨基酸序列。基于本公开和本领域的知识,其他合适的Cas9切口
酶对于本领域技术人员将是显而易见的,并且在本公开的范围内。
[0200] 具有降低的PAM排他性的Cas9域
[0201] 本公开的一些方面提供了具有不同PAM特异性的Cas9域。通常,Cas9蛋白,例如来自酿脓链球菌的Cas9(spCas9),需要规范的NGG PAM序列来结合特定的核酸区域。这可以限
制在基因组内编辑期望的碱基的能力。在一些实施方案中,可以需要将本文提供的碱基编
辑融合蛋白置于精确的位置处,例如在靶碱基置于4碱基区域(例如“脱氨基化窗”)内的位
置,其在PAM上游的约15个碱基。参见Komor,A.C.,et al.“, Programmable editing of a 
target base in genomic DNA without double-stranded DNA cleavage”Nature 533,
420-424(2016),其全部内容在此通过引用并入。因此,在一些实施方案中,本文提供的任何融合蛋白可以含有能够结合不含经典(例如,NGG)PAM序列的核苷酸序列的Cas9域。本领域
已经描述了结合非规范PAM序列的Cas9域,并且对于熟练技术人员而言是显而易见的。例
如,结合非规范PAM序列的Cas9域已经记载于Kleinstiver,B.P.,et al.,“Engineered 
CRISPR-Cas9nucleases with altered PAM specificities”Nature 523,481-485(2015);
和Kleinstiver,B.P.,et al.,“Broadening the targeting range of Staphylococcus 
aureus CRISPR-Cas9by modifying PAM recognition”Nature Biotechnology 33,1293-
1298(2015),Nature Biotechnology 33,1293-1298(2015);每篇的全部内容在此通过引用
并入。
[0202] 在一些实施方案中,Cas9域是来自金黄色葡萄球菌的Cas9域(SaCas9)。在一些实施方案中,SaCas9域是核酸酶活性的SaCas9、核酸酶无活性的SaCas9(SaCas9d)或SaCas9切
口酶(SaCas9n)。在一些实施方案中,SaCas9包含氨基酸序列SEQ ID NO:4273。在一些实施
方案中,SaCas9包含SEQ ID NO:4273的N579X突变或SEQ ID NO:11-260中提供的任何氨基
酸序列中的相应突变,其中X是除N以外的任何氨基酸。在一些实施方案中,SaCas9包含SEQ 
ID NO:4273的N579A突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。在
一些实施方案中,SaCas9域、SaCas9d域或SaCas9n域可以结合具有非规范PAM的核酸序列。
在一些实施方案中,SaCas9域、SaCas9d域或SaCas9n域可以结合具有NNGRRT PAM序列的核
酸序列。在一些实施方案中,SaCas9域包含SEQ ID NO:4273的E781X、N967X和R1014X突变中
的一个或多个,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变,其中X是任何
氨基酸。在一些实施方案中,SaCas9域包含SEQ ID NO:4273中的E781K、N967K和R1014H突
变,或者在SEQ ID NO:11-260中提供的任何氨基酸序列中的一个或多个相应突变中的一个
或多个。在一些实施方案中,SaCas9域包含SEQ ID NO:4273的E781K、N967K或R1014H突变或
在SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。
[0203] 在一些实施方案中,本文提供的任何融合蛋白的Cas9域包含与SEQ ID NO:4273-4275中的任一项至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的Cas9域包含SEQ ID NO:4273-4275中任一项
的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的Cas9域由SEQ ID NO:4273-
4275中任一项的氨基酸序列组成。
[0204] 示例性的SaCas9序列
[0205]KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLT
DHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQL
ERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEM
LMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEED
IKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNL
KGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINA
IIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEA
IPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGR
ISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKER
NKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKY
SHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYG
DEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKF
VTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYR
EYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG(SEQ ID NO:4273)
[0206] 可以将SEQ ID NO:4273的残基N579(其是加下划线且粗体的)突变(例如为A579)以产生SaCas9切口酶。
[0207] 示例性SaCas9n序列
[0208]KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLT
DHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQL
ERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEM
LMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEED
IKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNL
KGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINA
IIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEA
IPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEEASKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGR
ISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKER
NKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKY
SHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYG
DEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKF
VTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYR
EYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG(SEQ ID NO:4274)。
[0209] SEQ ID NO:xx的残基A579(其可以从SEQ ID NO:4274的N579突变以产生SaCas9切口酶)是加下划线且粗体的。
[0210] 示例性SaKKH Cas9
[0211]KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLT
DHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQL
ERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEM
LMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEED
IKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNL
KGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINA
IIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEA
IPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEEASKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGR
ISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKER
NKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKY
SHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYG
DEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKF
VTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYR
EYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG(SEQ ID NO:4275)。
[0212] SEQ ID NO:4275的残基A579(其可以从SEQ ID NO:4275的N579突变以产生SaCas9切口酶)是加下划线且粗体的。SEQ ID NO:4275的残基K781、K967、和H1014(其可以从SEQ 
ID NO:4275的E781、N967、和R1014突变以产生SaKKH Cas9)是加下划线且斜体的。
[0213] 在一些实施方案中,Cas9域是来自酿脓链球菌的Cas9域(SpCas9)。在一些实施方案中,SpCas9域是核酸酶活性的SpCas9、核酸酶无活性的SpCas9(SpCas9d)或SpCas9切口酶
(SpCas9n)。在一些实施方案中,SpCas9包含氨基酸序列SEQ ID NO:4276。在一些实施方案
中,SpCas9包含SEQ ID NO:4276的D9X突变或在SEQ ID NO:11-260中提供的任何氨基酸序
列中的相应突变,其中X是除D以外的任何氨基酸。在一些实施方案中,SpCas9包含SEQ ID 
NO:4276的D9A突变或在SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。在一些
实施方案中,SpCas9域、SpCas9d域或SpCas9n域可以与具有非规范PAM的核酸序列结合。在
一些实施方案中,SpCas9域、SpCas9d域或SpCas9n域可以结合具有NGG、NGA或NGCG PAM序列
的核酸序列。在一些实施方案中,SpCas9域包含SEQ ID NO:4276的D1134X、R1334X和T1336X
突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个,其中X
是任何氨基酸。在一些实施方案中,SpCas9域包含SEQ ID NO:4276的D1134E、R1334Q和
T1336R突变,或在SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多
个。在一些实施方案中,SpCas9域包含SEQ ID NO:4276的D1134E、R1334Q和T1336R突变或在
SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9域
包含SEQ ID NO:4276的D1134X、R1334X和T1336X突变或SEQ ID NO:11-260中提供的任何氨
基酸序列中的相应突变中的一个或多个,其中X是任何氨基酸。在一些实施方案中,SpCas9
域包含SEQ ID NO:4276的D1134V、R1334Q和T1336R突变,或在SEQ ID NO:11-260中提供的
任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中,SpCas9域包含SEQ ID 
NO:4276的D1134V、R1334Q和T1336R突变,或在SEQ ID NO:11-260中提供的任何氨基酸序列
中的相应突变。在一些实施方案中,SpCas9域包含SEQ ID NO:4276的D1134X、G1217X、
R1334X和T1336X突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一
个或多个,其中X是任何氨基酸。在一些实施方案中,SpCas9域包含SEQ ID NO:4276的
D1134V、G1217R、R1334Q和T1336R突变,或在SEQ ID NO:11-260中提供的任何氨基酸序列中
的相应突变中的一个或多个。在一些实施方案中,SpCas9域包含SEQ ID NO:4276的D1134V、
G1217R、R1334Q和T1336R突变或在SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突
变。
[0214] 在一些实施方案中,本文提供的任何融合蛋白的Cas9域包含与SEQ ID NO:4276-4280至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的Cas9域包含SEQ ID NO:4276-4280中任一项的氨基酸序
列。在一些实施方案中,本文提供的任何融合蛋白的Cas9域由SEQ ID NO:4276-4280中任一
项的氨基酸序列组成。
[0215] 示例性的SpCas9
[0216] DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGAL LFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAY
HEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASG
VDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQI
GDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGY
AGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN
REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSL
LYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNAS
LGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLI
NGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVV
DELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRD
MYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFD
NLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKV
REINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITL
ANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPK
KYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFEL
ENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILA
DANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRI
DLSQLGGD(SEQ ID NO:4276)
[0217] 示例性SpCas9n
[0218]DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNR
ICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIY
LALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGE
KKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVN
TEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGT
EELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA
WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFL
SGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE
DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFM
QLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQ
KGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLK
DDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETR
QITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYP
KLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRD
FATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKK
LKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYV
NFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENII
HLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:4277)
[0219] 示例性SpEQR Cas9
[0220]DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNR
ICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIY
LALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGE
KKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVN
TEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGT
EELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA
WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFL
SGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE
DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFM
QLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQ
KGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLK
DDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETR
QITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYP
KLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRD
FATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFESPTVAYSVLVVAKVEKGKSKK
LKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYV
NFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENII
HLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:4278)
[0221] SEQ ID NO:4278的残基E1134、Q1334和R1336(其可以从SEQ ID NO:4278的D1134、R1334和T1336突变以产生SpEQR Cas9)是加下划线且粗体的。
[0222] 示例性SpVQR Cas9
[0223]DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNR
ICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIY
LALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGE
KKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVN
TEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGT
EELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA
WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFL
SGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE
DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFM
QLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQ
KGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLK
DDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETR
QITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYP
KLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRD
FATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKK
LKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYV
NFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENII
HLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:4279)
[0224] SEQ ID NO:4279的残基V1134、Q1334和R1336(其可以从SEQ ID NO:4279的D1134、R1334和T1336突变以产生SpVQR Cas9)是加下划线且粗体的。
[0225] 示例性SpVRER Cas9
[0226]DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNR
ICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIY
LALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGE
KKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVN
TEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGT
EELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA
WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFL
SGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE
DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFM
QLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQ
KGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLK
DDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETR
QITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYP
KLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRD
FATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKK
LKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYV
NFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENII
HLFTLTNLGAPAAFKYFDTTIDRKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:4280)
[0227] SEQ ID NO:4280的残基V1134、R1217和Q1334(其可以从SEQ ID NO:4280的D1134、G1217和R1334突变以产生SpVRER Cas9)是加下划线且粗体的。
[0228] 以下是能够与具有非规范(例如,非NGG)PAM序列的核酸序列结合的示例性融合蛋白(例如碱基编辑蛋白):
[0229] 示例性SaBE3(rAPOBEC1-XTEN-SaCas9n-UGI-NLS)
[0230]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFC
PNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWR
NFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSG
SETPGTSESATPESKRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRI
QRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRN
SKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEG
SPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPT
LKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLN
SELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPV
VKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKL
HDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEEASKKGNRTPFQYLSSSDSKISYET
FKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGF
TSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITP
HQIKHIKDFKDYKYSHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDP
QTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKP
YRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDL
LNRIEVNMIDITYREYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKGSGGSTNLSDIIE
KETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSG
GSPKKKRKV(SEQ ID NO:4281)
[0231] 示例性SaKKH-BE3(rAPOBEC1-XTEN-SaCas9n-UGI-NLS)
[0232]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFC
PNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWR
NFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSG
SETPGTSESATPESKRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRI
QRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRN
SKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEG
SPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPT
LKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLN
SELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPV
VKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKL
HDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEEASKKGNRTPFQYLSSSDSKISYET
FKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGF
TSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITP
HQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDP
QTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKP
YRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDL
LNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKGSGGSTNLSDIIE
KETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSG
GSPKKKRKV(SEQ ID NO:4282)
[0233] 示例性EQR-BE3(rAPOBEC1-XTEN-Cas9n-UGI-NLS)
[0234]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFC
PNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWR
NFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSG
SETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRL
KRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKK
LVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSK
SRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKN
LSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEF
YKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIP
YYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTK
VKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKD
KDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTIL
DFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPE
NIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLS
DYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSEL
DKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAY
LNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIET
NGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFESPTVAYS
VLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGE
LQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNK
HRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGST
NLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGEN
KIKMLSGGSPKKKRKV(SEQ ID NO:4283)
[0235] VQR-BE3(rAPOBEC1-XTEN-Cas9n-UGI-NLS)
[0236]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFC
PNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWR
NFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSG
SETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRL
KRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKK
LVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSK
SRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKN
LSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEF
YKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIP
YYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTK
VKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKD
KDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTIL
DFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPE
NIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLS
DYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSEL
DKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAY
LNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIET
NGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYS
VLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGE
LQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNK
HRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGST
NLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGEN
KIKMLSGGSPKKKRKV(SEQID NO:4284)
[0237] VRER-BE3(rAPOBEC1-XTEN-Cas9n-UGI-NLS)
[0238]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFC
PNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWR
NFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSG
SETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRL
KRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKK
LVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSK
SRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKN
LSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEF
YKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIP
YYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTK
VKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKD
KDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTIL
DFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPE
NIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLS
DYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSEL
DKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAY
LNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIET
NGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYS
VLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARE
LQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNK
HRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGST
NLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGEN
KIKMLSGGSPKKKRKV(SEQID NO:4285)
[0239] 高保真性碱基编辑器
[0240] 本公开的一些方面提供了包含具有高保真性的Cas9域的Cas9融合蛋白(例如,本文提供的任何融合蛋白)。本公开的另外方面提供了包含Cas9域的Cas9融合蛋白(例如本文
提供的任何融合蛋白),所述Cas9域与野生型Cas9域相比在Cas9域和DNA的糖磷酸主链之间
具有降低的静电相互作用。在一些实施方案中,Cas9域(例如野生型Cas9域)包含一个或多
个减少Cas9域与DNA的糖-磷酸主链之间的结合的突变。在一些实施方案中,本文提供的任
何Cas9融合蛋白包含SEQ ID NO:10中提供的氨基酸序列的N497X、R661X、Q695X和/或Q926X
突变,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变中的一个或多个,其中X
是任何氨基酸。在一些实施方案中,本文提供的任何Cas9融合蛋白包含SEQ ID NO:10中提
供的氨基酸序列的N497A、R661A、Q695A和/或Q926A突变,或SEQ ID NO:11-260中提供的任
何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中,Cas9域包含SEQ ID NO:
10中提供的氨基酸序列的D10A突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相
应突变。在一些实施方案中,Cas9域(例如本文提供的任何融合蛋白的Cas9域)包含如SEQ 
ID NO:325所示的氨基酸序列。在一些实施方案中,融合蛋白包含如SEQ ID NO:285所示的
氨基酸序列。具有高保真性的Cas9域是本领域已知的,并且对于本领域技术人员而言是显
而易见的。例如,具有高保真性的Cas9域已经记载于Kleinstiver,B.P.,et al.“High-
fidelity CRISPR-Cas9nucleases with no detectable genome-wide off-target 
effects.”Nature 529,490-495(2016);和Slaymaker,I.M.,et al.“Rationally 
engineered Cas9nucleases with improved specificity.”Science 351,84-88(2015);
每篇的全部内容通过引用并入本文。
[0241] 应当理解的是,可以将本文提供的碱基编辑器,例如碱基编辑器2(BE2)或碱基编辑器3(BE3)转换为高保真性碱基编辑器,通过如本文中所述修饰Cas9域修饰以生成高保真
碱基编辑器,例如高保真碱基编辑器2(HF-BE2)或高保真碱基编辑器3(HF-BE3)进行。在一
些实施方案中,碱基编辑器2(BE2)包含脱氨酶域、dCas9和UGI域。在一些实施方案中,碱基
编辑器3(BE3)包含脱氨酶域、nCas9域和UGI域。
[0242] Cas9域,其中相对于SEQ ID NO:10的Cas9的突变以粗体和下划线形式显示。DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNR
ICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIY
LALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGE
KKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVN
TEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGT
EELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA
WMTRKSEETITPWNFEEVVDKGASAQSFIERMTAFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFL
SGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE
DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGALSRKLINGIRDKQSGKTILDFLKSDGFANRNFM
ALIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQ
KGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLK
DDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETR
AITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYP
KLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRD
FATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKK
LKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYV
NFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENII
HLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:325)
[0243] HF-BE3
[0244]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFC
PNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWR
NFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSG
SETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRL
KRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKK
LVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSK
SRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKN
LSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEF
YKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIP
YYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTAFDKNLPNEKVLPKHSLLYEYFTVYNELTK
VKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKD
KDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGALSRKLINGIRDKQSGKTIL
DFLKSDGFANRNFMALIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPE
NIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLS
DYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSEL
DKAGFIKRQLVETRAITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAY
LNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIET
NGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYS
VLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGE
LQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNK
HRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ 
ID NO:285)
[0245] Cas9融合蛋白
[0246] 本文公开的任何Cas9域(例如核酸酶活性Cas9蛋白、核酸酶失活的dCas9蛋白或Cas9切口酶蛋白)可以与第二蛋白融合,因此本文提供的融合蛋白包含本文提供的Cas9域
和第二蛋白或“融合伴侣”。在一些实施方案中,第二蛋白与Cas9域的N端融合。然而,在其他实施方案中,第二蛋白与Cas9域的C端融合。在一些实施方案中,与Cas9域融合的第二蛋白
是核酸编辑域。在一些实施方案中,Cas9域和核酸编辑域通过结合剂融合,而在其他实施方
案中,Cas9域和核酸编辑域直接相互融合。在一些实施方案中,接头包含(GGGS)n(SEQ ID 
NO:265)、(GGGGS)n(SEQ ID NO:5)、(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、(SGGS)n(SEQ ID NO:4288)、SGSETPGTSESATPES(SEQ ID NO:7)、或(XP)n基序或这些中任何的组合,其中n独
立地为1至30之间的整数,并且其中X是任何氨基酸。在一些实施方案中,接头包含(GGS)n基
序,其中n是1、3或7。在一些实施方案中,接头包含(GGS)n基序,其中n是1、2、3、4、5、6、7、8、
9、10、11、12、13、14、或15。在一些实施方案中,接头包含SGSETPGTSESATPES(SEQ ID NO:7)的氨基酸序列,在实施例中也称为XTEN接头)。如实施例中所示,接头的长度可以影响要编
辑的碱基。例如,3个氨基酸长(例如(GGS)1)的接头相对于PAM序列可以给出2-5、2-4、2-3、
3-4个碱基的编辑窗,而9-氨基酸接头(例如(GGS)3(SEQ ID NO:596))相对于PAM序列可以
给出2-6、2-5、2-4、2-3、3-6、3-5、3-4、4-6、4-5、5-6个碱基的编辑窗。16个氨基酸的接头(例如XTEN接头)相对于具有特别强活性的PAM序列可以给出2-7、2-6、2-5、2-4、2-3、3-7、3-6、
3-5、3-4、4-7、4-6、4-5、5-7、5-6、6-7个碱基的窗,并且21个氨基酸的接头(例如(GGS)7(SEQ ID NO:597))相对于PAM序列可以给出3-8、3-7、3-6、3-5、3-4、4-8、4-7、4-6、4-5、5-8、5-7、
5-6、6-8、6-7、7-8个碱基的编辑窗。不同的接头长度可以允许本公开的dCas9融合蛋白编辑与PAM序列不同距离的核碱基的新发现提供了重大的临床意义,因为PAM序列可以与要在基
因中校正的致病性突变具有不同距离。应当理解的是,如本文的实施例描述的接头长度不
意图为限制性的。
[0247] 在一些实施方案中,第二蛋白包含酶促域。在一些实施方案中,酶促域是核酸编辑域。此类核酸编辑域可以是但不限于核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶或乙酰转移酶。可以根据本公开使用的非限制性示例性结合域包括转录激活
物域和转录阻抑物域。
[0248] 脱氨酶域
[0249] 在一些实施方案中,第二蛋白包含核酸编辑域。在一些实施方案中,核酸编辑域可以催化C至U碱基变化。在一些实施方案中,核酸编辑域是脱氨酶域。在一些实施方案中,脱
氨酶是胞苷脱氨酶或胞苷脱氨酶。在一些实施方案中,脱氨酶是载脂蛋白B mRNA-编辑复合
物(APOBEC)家族脱氨酶。在一些实施方案中,脱氨酶是APOBEC1脱氨酶。在一些实施方案中,脱氨酶是APOBEC2脱氨酶。在一些实施方案中,脱氨酶是APOBEC3脱氨酶。在一些实施方案
中,脱氨酶是APOBEC3A脱氨酶。在一些实施方案中,脱氨酶是APOBEC3B脱氨酶。在一些实施
方案中,脱氨酶是APOBEC3C脱氨酶。在一些实施方案中,脱氨酶是APOBEC3D脱氨酶。在一些
实施方案中,脱氨酶是APOBEC3E脱氨酶。在一些实施方案中,脱氨酶是APOBEC3F脱氨酶。在
一些实施方案中,脱氨酶是APOBEC3G脱氨酶。在一些实施方案中,脱氨酶是APOBEC3H脱氨
酶。在一些实施方案中,脱氨酶是APOBEC4脱氨酶。在一些实施方案中,脱氨酶是活化诱导的脱氨酶(AID)。在一些实施方案中,脱氨酶是脊椎动物脱氨酶。在一些实施方案中,脱氨酶是无脊椎动物脱氨酶。在一些实施方案中,脱氨酶是人、黑猩猩、大猩猩、猴、牛、狗,大鼠或小鼠脱氨酶。在一些实施方案中,脱氨酶是人脱氨酶。在一些实施方案中,脱氨酶是大鼠脱氨
酶,例如rAPOBEC1。在一些实施方案中,脱氨酶是海七鳃鳗胞苷脱氨酶1(pmCDA1)。在一些实施方案中,脱氨酶是人APOBEC3G(SEQ ID NO:5740)。在一些实施方案中,脱氨酶是人
APOBEC3G(SEQ ID NO:5740)的片段。在一些实施方案中,脱氨酶是包含D316R_D317R突变的
人APOBEC3G变体(SEQ ID NO:5739)。在一些实施方案中,脱氨基酶是人APOBEC3G的片段并
且包含对应于SEQ ID NO:275中的D316R_D317R突变的突变(SEQ ID NO:5741)。
[0250] 在一些实施方案中,核酸编辑域与SEQ ID NOs:266-284、607-610、5724-5736、或5738-5741中的任一项的脱氨酶域是至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的。在一些实施方案中,核酸编辑域包含SEQ ID NOs:266-284、607-610、5724-5736、或5738-5741中任一项的氨基酸序
列。
[0251] 调节碱基编辑器的编辑窗的脱氨酶域
[0252] 本公开的一些方面基于下述的认识,即调节本文提供的任何融合蛋白的脱氨酶域催化活性(例如通过在脱氨酶域中进行点突变)影响融合蛋白(例如碱基编辑器)的持续合
成能力。例如,降低但不消除碱基编辑融合蛋白内的脱氨酶域的催化活性的突变可以使脱
氨酶域不太可能催化邻近靶残基的残基的脱氨基化,从而限缩脱氨基化窗。限缩脱氨基化
窗的能力可以防止邻近特定目标残基的残基的不想要的脱氨基化,这可以降低或防止脱靶
效应。
[0253] 在一些实施方案中,本文提供的任何融合蛋白包含催化脱氨酶活性降低的脱氨酶域(例如胞苷脱氨酶域)。在一些实施方案中,本文提供的任何融合蛋白包含与合适的对照
相比催化脱氨酶活性降低的脱氨酶域(例如胞苷脱氨酶域)。例如,适当的对照可以是在将
一个或多个突变引入脱氨基酶前脱氨酶的脱氨酶活性。在其他实施方案中,适当的对照可
以是野生型脱氨酶。在一些实施方案中,适当的对照是野生型载脂蛋白B mRNA-编辑复合物
(APOBEC)家族脱氨酶。在一些实施方案中,适当的对照是APOBEC1脱氨酶、APOBEC2脱氨酶、
APOBEC3A脱氨酶、APOBEC3B脱氨酶、APOBEC3C脱氨酶、APOBEC3D脱氨酶、APOBEC3F脱氨酶、
APOBEC3G脱氨酶或APOBEC3H脱氨酶。在一些实施方案中,适当的对照是活化诱导的脱氨酶
(AID)。在一些实施方案中,适当的对照是来自海七鳃鳗的胞苷脱氨酶1(pmCDA1)。在一些实
施方案中,脱氨基域可以是脱氨酶域,其与适当的对照相比具有少至少1%、至少5%、至少
15%、至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、或至少95%的脱氨酶催化活性。
[0254] 在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,所述APOBEC脱氨酶包含选自下组的一个或多个突变:rAPOBEC1的H121X、H122X、R126X、R126X、R118X、
W90X、W90X、和R132X或另一种APOBEC脱氨酶中的一个或多个相应突变,其中X是任何氨基
酸。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含选自下组的一
个或多个突变:rAPOBEC1(SEQ ID NO:284)的H121R、H122R、R126A、R126E、R118A、W90A、
W90Y、和R132E或另一种APOBEC脱氨酶中的一个或多个相应的突变。
[0255] 在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,所述APOBEC脱氨酶包含选自下组的一个或多个突变:hAPOBEC3G(SEQ ID NO:275)的D316X、D317X、R320X、R320X、R313X、W285X、W285X、R326X,或另一种APOBEC脱氨酶中的一种或多种相应突变,其中X是任何氨基酸。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含
选自下组的一个或多个突变:hAPOBEC3G(SEQ ID NO:275)的D316R、D317R、R320A、R320E、
R313A、W285A、W285Y、R326E或另一种APOBEC脱氨酶中的一个或多个相应突变。
[0256] 在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含rAPOBEC1(SEQ ID NO:284)的H121R和H122突变,或另一种APOBEC脱氨酶中的一个或多个相
应突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含rAPOBEC1
(SEQ ID NO:284)的R126A突变或另一种APOBEC脱氨酶中的一个或多个相应的突变。在一些
实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含rAPOBEC1(SEQ ID NO:
284)的R126E突变或另一种APOBEC脱氨酶中的一个或多个相应的突变。在一些实施方案中,
本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含rAPOBEC1(SEQ ID NO:284)的R118A突
变或另一种APOBEC脱氨酶中的一个或多个相应的突变。在一些实施方案中,本文提供的任
何融合蛋白包含APOBEC脱氨酶,其包含rAPOBEC1(SEQ ID NO:284)的W90A突变或另一种
APOBEC脱氨酶中的一个或多个相应的突变。在一些实施方案中,本文提供的任何融合蛋白
包含APOBEC脱氨酶,其包含rAPOBEC1(SEQ ID NO:284)的W90Y突变或另一种APOBEC脱氨酶
中的一个或多个相应的突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱
氨酶,其包含rAPOBEC1(SEQ ID NO:284)的R132E突变或另一中APOBEC脱氨酶中的一个或多
个相应的突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含
rAPOBEC1(SEQ ID NO:284)的W90Y和R126E突变或另一种APOBEC脱氨酶中的一个或多个相
应的突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含
rAPOBEC1(SEQ ID NO:284)的R126E和R132E突变或另一种APOBEC脱氨酶中的一个或多个相
应的突变。在一些实施方案中,任何本文提供的融合蛋白包含APOBEC脱氨酶,其包含
rAPOBEC1(SEQ ID NO:284)的W90Y和R132E突变或另一种APOBEC脱氨酶中的一个或多个相
应的突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含
rAPOBEC1(SEQ ID NO:284)的W90Y、R126E、和R132E突变,或另一种APOBEC脱氨酶中的一个
或多个相应的突变。
[0257] 在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:275)的D316R和D317R突变或另一种APOBEC脱氨酶中的一个或多个
相应的突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含
hAPOBEC3G(SEQ ID NO:275)的R320A突变或另一种APOBEC脱氨酶中的一个或多个相应的突
变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含hAPOBEC3G
(SEQ ID NO:275)的R320E突变或另一种APOBEC脱氨酶中的一个或多个相应的突变。在一些
实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:
275)的R313A突变或另一种APOBEC脱氨酶中的一个或多个相应的突变。在一些实施方案中,
本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:275)的W285A
突变或另一种APOBEC脱氨酶中的一个或多个相应的突变。在一些实施方案中,本文提供的
任何融合蛋白包含APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:275)的W285Y突变或另一
种APOBEC脱氨酶中的一个或多个相应的突变。在一些实施方案中,本文提供的任何融合蛋
白包含APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:275)的R326E突变或另一种APOBEC脱
氨酶中的一个或多个相应的突变。在一些实施方案中,本文提供的任何融合蛋白包含
APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:275)的W285Y和R320E突变,或另一种APOBEC
脱氨酶中的一种或多种相应的突变。在一些实施方案中,本文提供的任何融合蛋白包含
APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:275)的R320E和R326E突变或另一种APOBEC脱
氨酶中的一个或多个相应的突变。在一些实施方案中,任何本文提供的融合蛋白包含
APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:275)的W285Y和R326E突变或另一种APOBEC脱
氨酶中的一个或多个相应的突变。在一些实施方案中,本文提供的任何融合蛋白包含
APOBEC脱氨酶,其包含hAPOBEC3G(SEQ ID NO:275)的W285Y、R320E和R326E突变,或另一种
APOBEC脱氨酶中的一种或多种相应的突变。
[0258] 本公开的一些方面提供融合蛋白,其包含(i)核酸酶无活性的Cas9域;和(ii)核酸编辑域。在一些实施方案中,核酸酶无活性Cas9域(dCas9)包含与SEQ ID NO:1具有至少
80%,至少85%,至少90%,至少92%,至少95%,至少96%与如SEQ ID NO:10-263中任一项提供的Cas9的氨基酸序列至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的氨基酸序列,并且包含使Cas9的核酸
酶活性失活的突变。使Cas9的核酸酶域无活性的突变在本领域中是公知的。例如,已知Cas9
的DNA切割域包括两个亚域,即HNH核酸酶亚域和RuvC1亚域。HNH亚域切割与gRNA互补的链,
而RuvC1亚域切割非互补链。这些亚域内的突变可以沉默Cas9的核酸酶活性。例如,突变
D10A和H840A完全失活酿脓链球菌Cas9的核酸酶活性(Jinek et al.,Science.337:816-
821(2012);Qi et al.,Cell.28;152(5):1173-83(2013))。在一些实施方案中,本公开的
dCas9包含SEQ ID NO:10中提供的氨基酸序列的D10A突变或SEQ ID NO:11-260中提供的任
何氨基酸序列中的相应突变。在一些实施方案中,本公开的dCas9包含SEQ ID NO:10中提供
的氨基酸序列的H840A突变或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。
在一些实施方案中,本公开的dCas9包含SEQ ID NO:10中提供的氨基酸序列的D10A和H840A
突变两者或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。在一些实施方案
中,Cas9进一步包含SEQ ID NO:10中提供的氨基酸序列的位置840处的组氨酸残基或SEQ 
ID NO:11-260中提供的任何氨基酸序列中的相应突变。催化残基H840的存在恢复Cas9的活
性以切割含有与靶定C相反的G的非编辑链。H840的恢复不导致含有C的靶链的切割。在一些
实施方案中,dCas9包含SEQ ID NO:263的氨基酸序列。应当理解,使Cas9的核酸酶域失活的
其他突变也可以包括在本公开的dCas9中。
[0259] 包含本文公开的突变的Cas9或dCas9域可以是全长Cas9或其片段。在一些实施方案中,包含Cas9或其片段的蛋白质称为“Cas9变体”。Cas9变体与Cas9或其片段共享同源性。
例如,Cas9变体与野生型Cas9是至少约70%相同、至少约80%相同、至少约90%相同、至少
约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约
99.5%相同、或至少约99.9%的。在一些实施方案中,Cas9变体包含Cas9的片段(例如,gRNA结合域或DNA切割域),使得片段与SEQ ID NO:2与野生型Cas9的相应片段(例如包含SEQ ID 
NO:10的氨基酸序列的Cas9)是至少约70%相同、至少约80%相同、至少约90%相同、至少约
95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约
99.5%相同、或至少约99.9%相同的。
[0260] 本公开的任何Cas9融合蛋白可以进一步包含核酸编辑域(例如,能够修饰核酸的酶,例如脱氨酶)。在一些实施方案中,核酸编辑域是DNA编辑域。在一些实施方案中,核酸编辑域具有脱氨酶活性。在一些实施方案中,核酸编辑域包含脱氨酶或脱氨酶域或由脱氨酶
或脱氨酶域组成。在一些实施方案中,脱氨酶是胞苷脱氨酶。在一些实施方案中,脱氨酶是
载脂蛋白B mRNA-编辑复合物(APOBEC)家族脱氨酶。在一些实施方案中,脱氨酶是APOBEC1
家族脱氨酶。在一些实施方案中,脱氨酶是活化诱导的胞苷脱氨酶(AID)。本文详细描述了
一些核酸编辑域以及包含此类域的Cas9融合蛋白。基于本公开和本领域的知识,其他合适
的核酸编辑域对于熟练技术人员将是显而易见的。
[0261] 本公开的一些方面提供了包含与核酸编辑域融合的Cas9域的融合蛋白,其中所述核酸编辑域与Cas9域的N端融合。在一些实施方案中,Cas9域和核酸编辑-编辑域通过接头
融合。在一些实施方案中,接头包含(GGGS)n(SEQ ID NO:265)、(GGGGS)n(SEQ ID NO:5)、
(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、(SGGS)n(SEQ ID NO:4288)、SGSETPGTSESATPES(SEQ ID NO:7)基序(参见例如Guilinger JP,Thompson DB,Liu DR.Fusion of catalytically 
inactive Cas9to FokI  nuclease improves  the specificity of genome 
modification.Nat.Biotechnol.2014;32(6):577-82;全部内容通过引用并入本文),或
(XP)n基序,或这些中任何的组合,其中n独立地为1至30之间的整数。在一些实施方案中,n
独立地为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、
27、28、29、或30,或者若存在超过一个接头或超过一个接头基序,则其任意组合。在一些实施方案中,接头包含(GGS)n基序,其中n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:7)。其他合适的接头基序和接头构造对于本领域技术
人员而言将是显而易见的。在一些实施方案中,合适的接头基序和构造包括Chen et al.,
Fusion protein linkers:property,design and functionality.Adv Drug Deliv 
Rev.2013;65(10):1357-69中所述的那些,其全部内容通过引用并入本文。基于本公开,其
他合适的接头序列对于本领域技术人员将是显而易见的。在一些实施方案中,本文提供的
示例性Cas9融合蛋白的一般结构包含以下结构:
[0262] [NH2]-[核酸编辑域]-[Cas9]-[COOH]或
[0263] [NH2]-[核酸编辑域]-[接头]-[Cas9]-[COOH],
[0264] 其中NH2是融合蛋白的N端,而COOH是融合蛋白的C端。
[0265] 本公开的融合蛋白可以包含一个或多个另外的特征。例如,在一些实施方案中,融合蛋白包含核定位序列(NLS)。在一些实施方案中,融合蛋白的NLS位于核酸编辑域和Cas9
域之间。在一些实施方案中,融合蛋白的NLS位于Cas9域的C端。
[0266] 可以存在的其他示例性特征是定位序列,如胞质定位序列、输出序列如核输出序列或其他定位序列、以及可用于增溶、纯化或检测融合蛋白的序列标签。本文提供的合适的
蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、调蛋白标签、
FLAG标签、血凝素(HA)标签、聚组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋
白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S-标签、Softag(例如Softag 1、Softag 3)、strep标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。其他合适的序列对于本领域技术人员将是显而易见的。在一些实
施方案中,融合蛋白包含一个或多个His标签。
[0267] 在一些实施方案中,核酸编辑域是脱氨酶。例如,在一些实施方案中,具有脱氨酶域的示例性Cas9融合蛋白的一般结构包含以下结构:
[0268] [NH2]-[NLS]-[脱氨酶]-[Cas9]-[COOH],
[0269] [NH2]-[Cas9]-[脱氨酶]-[COOH],
[0270] [NH2]-[脱氨酶]-[Cas9]-[COOH],或
[0271] [NH2]-[脱氨酶]-[Cas9]-[NLS]-[COOH]
[0272] 其中NLS是核定位序列,NH2是融合蛋白的N端,COOH是融合蛋白的C端。核定位序列是本领域已知的,并且对于本领域技术人员而言是显而易见的。例如,Plank等人,PCT/
EP2000/011690中描述了NLS序列,对于其示例性核定位序列的公开,其内容在此通过引用
并入。在一些实施方案中,NLS包含氨基酸序列PKKKRKV(SEQ  ID  NO:741)或
MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO:742)。在一些实施方案中,在Cas9和脱氨基
酶之间插入接头。在一些实施方案中,NLS位于Cas9域的C端。在一些实施方案中,NLS位于
Cas9域的N端。在一些实施方案中,NLS位于脱氨酶和Cas9域之间。在一些实施方案中,NLS位于脱氨酶域的N端。在一些实施方案中,NLS位于脱氨酶域的C端。
[0273] 一种示例性合适类型的核酸编辑域是例如APOBEC家族的胞苷脱氨酶。胞苷脱氨酶的载脂蛋白B mRNA编辑复合物(APOBEC)家族包括11种蛋白质,这些蛋白质用来以受控和有
益的方式启动诱变29。一个家族成员活化诱导胞苷脱氨酶(AID)负责抗体的成熟,通过以转
录依赖的、链偏倚的方式将ssDNA中的胞嘧啶转化为尿嘧啶30。载脂蛋白B编辑复合物3
(APOBEC3)酶通过逆转录病毒ssDNA中胞嘧啶的脱氨基化针对某种HIV-1毒株对人细胞提供
保护。这些蛋白质都需要Zn2+配位基序(His-X-Glu-X23-26-Pro-Cys-X2-4-Cys;SEQ ID NO:
598)和结合的水分子用于催化活性。Glu残基作用为将水分子激活成氢氧化锌以在脱氨基
化反应中进行亲核攻击。每个家族成员优先在其自身的特定“热点”处脱氨基化,范围为对
于hAID的WRC(W是A或T,R是A或G)到对于hAPOBEC3F的TTC32。最近的APOBEC3G催化域的晶体
结构揭示了由侧翼为6个α-螺旋的五链β-片层核心构成的二级结构,认为其在整个家族间
是保守的33。已经显示了活性中心环负责ssDNA结合和确定“热点”身份34。这些酶的过表达与基因组的不稳定性和癌症有关,因此强调序列特异性靶向的重要性35。
[0274] 本公开的一些方面涉及认识到胞苷脱氨酶诸如APOBEC酶的活性可以针对基因组DNA中的特定位点。不希望受任何特定理论束缚,使用Cas9作为识别剂的优点包括(1)可以
通过仅改变sgRNA序列容易地改变Cas9的序列特异性;和(2)Cas9通过使dsDNA变性,产生
DNA区段而结合其靶序列,所述DNA区段是单链的,因此是脱氨酶的有活力的底物。应当理
解,其他催化域或来自其他脱氨酶的催化域也可以用于与Cas9产生融合蛋白,并且本公开
在这方面不受限制。
[0275] 本公开的一些方面基于认识到Cas9:脱氨酶融合蛋白可以根据图3中的编号方案有效使位置3-11处的核苷酸脱氨基化。鉴于本文提供的关于可以由Cas9:脱氨酶融合蛋白
靶向的核苷酸的结果,本领域技术人员将能够设计合适的引导RNA以将融合蛋白靶向到包
含要脱氨基化的核苷酸的靶序列。
[0276] 在一些实施方案中,脱氨酶域和Cas9域通过接头彼此融合。可以使用脱氨酶域(例如AID)和Cas9域之间的各种接头长度和柔性(例如,范围为非常有柔性的接头形式
(GGGGS)n(SEQ ID NO:5)、(GGS)n、和(G)n至形式(EAAAK)n(SEQ ID NO:6)、(SGGS)n(SEQ ID NO:4288)、SGSETPGTSESATPES(SEQ ID NO:7)的更刚性的接头(参见例如Guilinger JP,
Thompson DB,Liu DR.Fusion of catalytically inactive Cas9to FokI nuclease 
improves the specificity of genome modification.Nat.Biotechnol.2014;32(6):
36
577-82;全部内容通过引用并入本文)和(XP)n) ,以达到具体应用的脱氨酶活性的最佳长
度。在一些实施方案中,接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,接头包含SGSETPGTSESATPES(SEQ ID NO:7)基序。
[0277] 下面提供了可以与根据本公开的方面的Cas9域融合的一些示例性合适的核酸编辑域,例如脱氨酶和脱氨酶域。应当理解的是,在一些实施方案中,可以使用相应序列的活
性域,例如没有定位信号(核定位序列,没有核输出信号细胞质定位信号)的域。
[0278] 人AID:
[0279]
[0280] (下划线:核定位序列;双下划线:核输出信号)
[0281] 小鼠AID:
[0282]
[0283] (下划线:核定位序列;双下划线:核输出信号)
[0284] 狗AID:
[0285]
[0286] (下划线:核定位序列;双下划线:核输出信号)
[0287] 牛AID:
[0288]
[0289] (下划线:核定位序列;双下划线:核输出信号)
[0290] 大鼠AID
[0291]
[0292]
[0293] (下划线:核定位序列;双下划线:核输出信号)
[0294] 小鼠APOBEC-3:
[0295]MGPFCLGCSHRKCYSPIRNLISQETFKFHFKNLGYAKGRKDTFLCYEVTRKDCDSPVSLHHGVFKNKDNIHAEICFL
YWFHDKVLKVLSPREEFKITWYMSWSPCFECAEQIVRFLATHHNLSLDIFSSRLYNVQDPETQQNLCRLVQEGAQVA
AMDLYEFKKCWKKFVDNGGRRFRPWKRLLTNFRYQDSKLQEILRPCYIPVPSSSSSTLSNICLTKGLPETRFCVEGR
RMDPLSEEEFYSQFYNQRVKHLCYYHRMKPYLCYQLEQFNGQAPLKGCLLSEKGKQHAEILFLDKIRSMELSQVTIT
CYLTWSPCPNCAWQLAAFKRDRPDLILHIYTSRLYFHWKRPFQKGLCSLWQSGILVDVMDLPQFTDCWTNFVNPKRP
FWPWKGLEIISRRTQRRLRRIKESWGLQDLVNDFGNLQLGPPMS(SEQ ID NO:270)
[0296] (斜体:核酸编辑域)
[0297] 大鼠APOBEC-3:
[0298]MGPFCLGCSHRKCYSPIRNLISQETFKFHFKNLRYAIDRKDTFLCYEVTRKDCDSPVSLHHGVFKNKDNIHAEICFL
YWFHDKVLKVLSPREEFKITWYMSWSPCFECAEQVLRFLATHHNLSLDIFSSRLYNIRDPENQQNLCRLVQEGAQVA
AMDLYEFKKCWKKFVDNGGRRFRPWKKLLTNFRYQDSKLQEILRPCYIPVPSSSSSTLSNICLTKGLPETRFCVERR
RVHLLSEEEFYSQFYNQRVKHLCYYHGVKPYLCYQLEQFNGQAPLKGCLLSEKGKQHAEILFLDKIRSMELSQVIIT
CYLTWSPCPNCAWQLAAFKRDRPDLILHIYTSRLYFHWKRPFQKGLCSLWQSGILVDVMDLPQFTDCWTNFVNPKRP
FWPWKGLEIISRRTQRRLHRIKESWGLQDLVNDFGNLQLGPPMS(SEQ ID NO:271)
[0299] (斜体:核酸编辑域)
[0300] 猕猴APOBEC-3G:
[0301]MVEPMDPRTFVSNFNNRPILSGLNTVWLCCEVKTKDPSGPPLDAKIFQGKVYSKAKYHPEMRFLRWFHKWRQLHHDQ
EYKVTWYVSWSPCTRCANSVATFLAKDPKVTLTIFVARLYYFWKPDYQQALRILCQKRGGPHATMKIMNYNEFQDCW
NKFVDGRGKPFKPRNNLPKHYTLLQATLGELLRHLMDPGTFTSNFNNKPWVSGQHETYLCYKVERLHNDTWVPLNQH
RGFLRNQAPNIHGFPKGRHAELCFLDLIPFWKLDGQQYRVTCFTSWSPCFSCAQEMAKFISNNEHVSLCIFAARIYD
DQGRYQEGLRALHRDGAKIAMMNYSEFEYCWDTFVDRQGRPFQPWDGLDEHSQALSGRLRAI(SEQ ID NO:272)
[0302] (斜体:核酸编辑域;下划线:胞质定位信号)
[0303] 黑猩猩APOBEC-3G:
[0304]MKPHFRNPVERMYQDTFSDNFYNRPILSHRNTVWLCYEVKTKGPSRPPLDAKIFRGQVYSKLKYHPEMRFFHWFSKW
RKLHRDQEYEVTWYISWSPCTKCTRDVATFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKIMNY
DEFQHCWSKFVYSQRELFEPWNNLPKYYILLHIMLGEILRHSMDPPTFTSNFNNELWVRGRHETYLCYEVERLHNDT
WVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLHQDYRVTCFTSWSPCFSCAQEMAKFISNNKHVSLC
IFAARIYDDQGRCQEGLRTLAKAGAKISIMTYSEFKHCWDTFVDHQGCPFQPWDGLEEHSQALSGRLRAILQNQGN
(SEQ ID NO:273)
[0305] (斜体:核酸编辑域;下划线:胞质定位信号)
[0306] 绿猴APOBEC-3G:
[0307]MNPQIRNMVEQMEPDIFVYYFNNRPILSGRNTVWLCYEVKTKDPSGPPLDANIFQGKLYPEAKDHPEMKFLHWFRKW
RQLHRDQEYEVTWYVSWSPCTRCANSVATFLAEDPKVTLTIFVARLYYFWKPDYQQALRILCQERGGPHATMKIMNY
NEFQHCWNEFVDGQGKPFKPRKNLPKHYTLLHATLGELLRHVMDPGTFTSNFNNKPWVSGQRETYLCYKVERSHNDT
WVLLNQHRGFLRNQAPDRHGFPKGRHAELCFLDLIPFWKLDDQQYRVTCFTSWSPCFSCAQKMAKFISNNKHVSLCI
FAARIYDDQGRCQEGLRTLHRDGAKIAVMNYSEFEYCWDTFVDRQGRPFQPWDGLDEHSQALSGRLRAI(SEQ ID 
NO:274)
[0308] (斜体:核酸编辑域;下划线:胞质定位信号)
[0309] 人APOBEC-3G:
[0310]MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDAKIFRGQVYSELKYHPEMRFFHWFSKW
RKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKIMNY
DEFQHCWSKFVYSQRELFEPWNNLPKYYILLHIMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDT
WVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLC
IFTARIYDDQGRCQEGLRTLAEAGAKISIMTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQNQEN
(SEQ ID NO:275)
[0311] (斜体:核酸编辑域;下划线:胞质定位信号)
[0312] 人APOBEC-3F:
[0313]MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPRLDAKIFRGQVYSQPEHHAEMCFLSWFCGN
QLPAYKCFQITWFVSWTPCPDCVAKLAEFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEEFAY
CWENFVYSEGQPFMPWYKFDDNYAFLHRTLKEILRNPMEAMYPHIFYFHFKNLRKAYGRNESWLCFTMEVVKHHSPV
SWKRGVFRNQVDPETHCHAERCFLSWFCDDILSPNTNYEVTWYTSWSPCPECAGEVAEFLARHSNVNLTIFTARLYY
FWDTDYQEGLRSLSQEGASVEIMGYKDFKYCWENFVYNDDEPFKPWKGLKYNFLFLDSKLQEILE(SEQ ID NO:
276)
[0314] (斜体:核酸编辑域)
[0315] 人APOBEC-3B:
[0316]MNPQIRNPMERMYRDTFYDNFENEPILYGRSYTWLCYEVKIKRGRSNLLWDTGVFRGQVYFKPQYHAEMCFLSWFCG
NQLPAYKCFQITWFVSWTPCPDCVAKLAEFLSEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVTIMDYEEFA
YCWENFVYNEGQQFMPWYKFDENYAFLHRTLKEILRYLMDPDTFTFNFNNDPLVLRRRQTYLCYEVERLDNGTWVLM
DQHMGFLCNEAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGEVRAFLQENTHVRLRIF
AARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALSGRLRAILQNQGN
(SEQ ID NO:277)
[0317] (斜体:核酸编辑域)
[0318] 大鼠APOBEC-3B:
[0319]MQPQGLGPNAGMGPVCLGCSHRRPYSPIRNPLKKLYQQTFYFHFKNVRYAWGRKNNFLCYEVNGMDCALPVPLRQGV
FRKQGHIHAELCFIYWFHDKVLRVLSPMEEFKVTWYMSWSPCSKCAEQVARFLAAHRNLSLAIFSSRLYYYLRNPNY
QQKLCRLIQEGVHVAAMDLPEFKKCWNKFVDNDGQPFRPWMRLRINFSFYDCKLQEIFSRMNLLREDVFYLQFNNSH
RVKPVQNRYYRRKSYLCYQLERANGQEPLKGYLLYKKGEQHVEILFLEKMRSMELSQVRITCYLTWSPCPNCARQLA
AFKKDHPDLILRIYTSRLYFYWRKKFQKGLCTLWRSGIHVDVMDLPQFADCWTNFVNPQRPFRPWNELEKNSWRIQR
RLRRIKESWGL(SEQ ID NO:5729)
[0320] 牛APOBEC-3B:
[0321]DGWEVAFRSGTVLKAGVLGVSMTEGWAGSGHPGQGACVWTPGTRNTMNLLREVLFKQQFGNQPRVPAPYYRRKTYLC
YQLKQRNDLTLDRGCFRNKKQRHAEIRFIDKINSLDLNPSQSYKIICYITWSPCPNCANELVNFITRNNHLKLEIFA
SRLYFHWIKSFKMGLQDLQNAGISVAVMTHTEFEDCWEQFVDNQSRPFQPWDKLEQYSASIRRRLQRILTAPI(SEQ 
ID NO:5730)
[0322] 黑猩猩APOBEC-3B:
[0323]MNPQIRNPMEWMYQRTFYYNFENEPILYGRSYTWLCYEVKIRRGHSNLLWDTGVFRGQMYSQPEHHAEMCFLSWFCG
NQLSAYKCFQITWFVSWTPCPDCVAKLAKFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEEFA
YCWENFVYNEGQPFMPWYKFDDNYAFLHRTLKEIIRHLMDPDTFTFNFNNDPLVLRRHQTYLCYEVERLDNGTWVLM
DQHMGFLCNEAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGQVRAFLQENTHVRLRIF
AARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALSGRLRAILQVRASSLC
MVPHRPPPPPQSPGPCLPLCSEPPLGSLLPTGRPAPSLPFLLTASFSFPPPASLPPLPSLSLSPGHLPVPSFHSLTS
CSIQPPCSSRIRETEGWASVSKEGRDLG(SEQ ID NO:5731)
[0324] 人APOBEC-3C:
[0325]MNPQIRNPMKAMYPGTFYFQFKNLWEANDRNETWLCFTVEGIKRRSVVSWKTGVFRNQVDSETHCHAERCFLSWFCD
DILSPNTKYQVTWYTSWSPCPDCAGEVAEFLARHSNVNLTIFTARLYYFQYPCYQEGLRSLSQEGVAVEIMDYEDFK
YCWENFVYNDNEPFKPWKGLKTNFRLLKRRLRESLQ(SEQ ID NO:278)
[0326] (斜体:核酸编辑域)
[0327] 大猩猩APOBEC3C
[0328]MNPQIRNPMKAMYPGTFYFQFKNLWEANDRNETWLCFTVEGIKRRSVVSWKTGVFRNQVDSETHCHAERCFLSWFCD
DILSPNTNYQVTWYTSWSPCPECAGEVAEFLARHSNVNLTIFTARLYYFQDTDYQEGLRSLSQEGVAVKIMDYKDFK
YCWENFVYNDDEPFKPWKGLKYNFRFLKRRLQEILE(SEQ ID NO:5726)
[0329] (斜体:核酸编辑域)
[0330] 人APOBEC-3A:
[0331]MEASPASGPRHLMDPHIFTSNFNNGIGRHKTYLCYEVERLDNGTSVKMDQHRGFLHNQAKNLLCGFYGRHAELRFLD
LVPSLQLDPAQIYRVTWFISWSPCFSWGCAGEVRAFLQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMT
YDEFKHCWDTFVDHQGCPFQPWDGLDEHSQALSGRLRAILQNQGN(SEQ ID NO:279)
[0332] (斜体:核酸编辑域)
[0333] 猕猴APOBEC-3A:
[0334]MDGSPASRPRHLMDPNTFTFNFNNDLSVRGRHQTYLCYEVERLDNGTWVPMDERRGFLCNKAKNVPCGDYGCHVELR
FLCEVPSWQLDPAQTYRVTWFISWSPCFRRGCAGQVRVFLQENKHVRLRIFAARIYDYDPLYQEALRTLRDAGAQVS
IMTYEEFKHCWDTFVDRQGRPFQPWDGLDEHSQALSGRLRAILQNQGN(SEQ ID NO:5727)
[0335] (斜体:核酸编辑域)
[0336] 牛APOBEC-3A:
[0337]MDEYTFTENFNNQGWPSKTYLCYEMERLDGDATIPLDEYKGFVRNKGLDQPEKPCHAELYFLGKIHSWNLDRNQHYR
LTCFISWSPCYDCAQKLTTFLKENHHISLHILASRIYTHNRFGCHQSGLCELQAAGARITIMTFEDFKHCWETFVDH
KGKPFQPWEGLNVKSQALCTELQAILKTQQN(SEQ ID NO:5728)
[0338] (斜体:核酸编辑域)
[0339] 人APOBEC-3H:
[0340]MALLTAETFRLQFNNKRRLRRPYYPRKALLCYQLTPQNGSTPTRGYFENKKKCHAEICFINEIKSMGLDETQCYQVT
CYLTWSPCSSCAWELVDFIKAHDHLNLGIFASRLYYHWCKPQQKGLRLLCGSQVPVEVMGFPKFADCWENFVDHEKP
LSFNPYKMLEELDKNSRAIKRRLERIKIPGVRAQGRYMDILCDAEV(SEQ ID NO:280)
[0341] (斜体:核酸编辑域)
[0342] 猕猴APOBEC-3H:
[0343]MALLTAKTFSLQFNNKRRVNKPYYPRKALLCYQLTPQNGSTPTRGHLKNKKKDHAEIRFINKIKSMGLDETQCYQVT
CYLTWSPCPSCAGELVDFIKAHRHLNLRIFASRLYYHWRPNYQEGLLLLCGSQVPVEVMGLPEFTDCWENFVDHKEP
PSFNPSEKLEELDKNSQAIKRRLERIKSRSVDVLENGLRSLQLGPVTPSSSIRNSR(SEQ ID NO:5732)
[0344] 人APOBEC-3D:
[0345]MNPQIRNPMERMYRDTFYDNFENEPILYGRSYTWLCYEVKIKRGRSNLLWDTGVFRGPVLPKRQSNHRQEVYFRFEN
HAEMCFLSWFCGNRLPANRRFQITWFVSWNPCLPCVVKVTKFLAEHPNVTLTISAARLYYYRDRDWRWVLLRLHKAG
ARVKIMDYEDFAYCWENFVCNEGQPFMPWYKFDDNYASLHRTLKEILRNPMEAMYPHIFYFHFKNLLKACGRNESWL
CFTMEVTKHHSAVFRKRGVFRNQVDPETHCHAERCFLSWFCDDILSPNTNYEVTWYTSWSPCPECAGEVAEFLARHS
NVNLTIFTARLCYFWDTDYQEGLCSLSQEGASVKIMGYKDFVSCWKNFVYSDDEPFKPWKGLQTNFRLLKRRLREIL
Q(SEQ ID NO:281)
[0346] (斜体:核酸编辑域)
[0347] 人APOBEC-1:
[0348]MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERDFH
PSMSCSITWFLSWSPCWECSQAIREFLSRHPGVTLVIYVARLFWHMDQQNRQGLRDLVNSGVTIQIMRASEYYHCWR
NFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFRLHLQNCHYQTIPPHILLATGLIHP
SVAWR(SEQ ID NO:282)
[0349] 小鼠APOBEC-1:
[0350]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSVWRHTSQNTSNHVEVNFLEKFTTERYFR
PNTRCSITWFLSWSPCGECSRAITEFLSRHPYVTLFIYIARLYHHTDQRNRQGLRDLISSGVTIQIMTEQEYCYCWR
NFVNYPPSNEAYWPRYPHLWVKLYVLELYCIILGLPPCLKILRRKQPQLTFFTITLQTCHYQRIPPHLLWATGLK
(SEQ ID NO:283)
[0351] 大鼠APOBEC-1:
[0352]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFC
PNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWR
NFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK
(SEQ ID NO:284)
[0353] 人APOBEC-2:
[0354]MAQKEEAAVATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPANFFKFQFRNVEYSSGRNKTFLCYVVEAQ
GKGGQVQASRGYLEDEHAAAHAEEAFFNTILPAFDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGRL
FMWEEPEIQAALKKLKEAGCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK(SEQ ID 
NO:5733)
[0355] 小鼠APOBEC-2:
[0356]MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEVQ
SKGGQAQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRL
FMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK(SEQ ID 
NO:5734)
[0357] 大鼠APOBEC-2:
[0358]MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEAQ
SKGGQVQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRL
FMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYLWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK(SEQ ID 
NO:5735)
[0359] 牛APOBEC-2:
[0360]MAQKEEAAAAAEPASQNGEEVENLEDPEKLKELIELPPFEIVTGERLPAHYFKFQFRNVEYSSGRNKTFLCYVVEAQ
SKGGQVQASRGYLEDEHATNHAEEAFFNSIMPTFDPALRYMVTWYVSSSPCAACADRIVKTLNKTKNLRLLILVGRL
FMWEEPEIQAALRKLKEAGCRLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK(SEQ ID 
NO:5736)
[0361] 海七鳃鳗CDA1(pmCDA1)
[0362]MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEE
YLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSE
HYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILHTTKSPAV(SEQ ID NO:5738)
[0363] 人APOBEC3G D316R_D317R
[0364]MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDAKIFRGQVYSELKYHPEMRFFHWFSKW
RKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKIMNY
DEFQHCWSKFVYSQRELFEPWNNLPKYYILLHIMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDT
WVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLC
IFTARIYRRQGRCQEGLRTLAEAGAKISIMTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQNQEN
(SEQ ID NO:5739)
[0365] 人APOBEC3G A链
[0366]MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDL
DQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISIMTYSEFKHCWDTF
VDHQGCPFQPWDGLDEHSQDLSGRLRAILQ(SEQ ID NO:5740)
[0367] 人APOBEC3G A链D120R_D121R
[0368]MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDL
DQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISIMTYSEFKHCWDTF
VDHQGCPFQPWDGLDEHSQDLSGRLRAILQ(SEQ ID NO:5741)
[0369] 在一些实施方案中,本文提供的融合蛋白包含核酸编辑酶的全长氨基酸,例如上文提供的序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含核酸编辑酶的全
长序列,而仅包含其片段。例如,在一些实施方案中,本文提供的融合蛋白包含Cas9域和核
酸编辑酶的片段,例如,其中所述片段包含核酸编辑域。核酸编辑域的示例性氨基酸序列在
上面的序列中以斜体字母显示,并且对于本领域技术人员而言,此类域的其他合适序列将
是显而易见的。
[0370] 可以根据本发明的方面使用,例如可以与核酸酶无活性Cas9域融合的其他合适的核酸编辑酶序列,例如脱氨酶和域序列核酸编辑酶序列基于本公开对于本领域技术人员是
显而易见的。在一些实施方案中,此类另外的酶序列包括与本文提供的序列至少70%、至少
75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、或至少
99%相似的脱氨酶或脱氨酶域序列。其他合适的Cas9域、变体和序列对于本领域技术人员
也是显而易见的。此类其他的合适的Cas9域的实例包括但不限于D10A、D10A/D839A/H840A、
和D10A/D839A/H840A/N863A突变域(参见例如Prashant et al.,CAS9transcriptional 
activators for target specificity screening and  paired nickases for 
cooperative genome engineering.Nature Biotechnology.2013;31(9):833-838,其全部
内容通过引用并入本文)。在一些实施方案中,Cas9包含SEQ ID NO:10中提供的氨基酸序列
的位置840处的组氨酸残基,或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变。
催化残基H840的存在恢复Cas9的活性以切割含有与靶定的C相反的G的非编辑链。H840的恢
复不导致含有C的靶链的切割。
[0371] 基于结合本领域的一般知识的本公开,用于产生包含Cas9域和脱氨酶域的融合蛋白的其他合适策略对于本领域技术人员将是显而易见的。鉴于本公开和本领域的知识,根
据本公开的方面使用接头或不使用接头来产生融合蛋白的合适策略对于本领域技术人员
也是显而易见的。例如,Gilbert et al.,CRISPR-mediated modular RNA-guided 
regulation of transcription in eukaryotes.Cell.2013;154(2):442-51显示了使用2
个NLS作为接头(SPKKKRKVEAS,SEQ ID NO:599)的Cas9与VP64的C端融合物可用于转录激
活。Mali et al.,CAS9transcriptional activators for target specificity 
screening and paired nickases for cooperative genome engineering.Nat 
Biotechnol.2013;31(9):833-8报告了可以使用不含接头的与VP64的C端融合物进行转录
激活。并且,Maeder et al.,CRISPR RNA-guided activation of endogenous human 
genes.Nat Methods.2013;10:977-979报告了使用Gly4Ser(SEQ ID NO:5)接头与VP64的C
端融合物可以用作转录激活剂。最近,与亲本Cas9酶相比,成功产生了dCas9-FokI核酸酶融
合物并表现出改善的酶特异性(于Guilinger JP,Thompson DB,Liu DR.Fusion of 
catalytically inactive Cas9to FokI nuclease improves the specificity of 
genome modification.Nat.Biotechnol.2014;32(6):577-82,以及于Tsai SQ,Wyvekens 
N,Khayter C,Foden JA,Thapar V,Reyon D,Goodwin MJ,Aryee MJ,Joung JK.Dimeric 
CRISPR RNA-guided FokI nucleases for highly specific genome editing.Nat 
Biotechnol.2014;32(6):569-76.PMID:24770325。在FokI-dCas9融合蛋白中分别使用
SGSETPGTSESATPES(SEQ ID NO:7)或GGGGS(SEQ ID NO:5)接头。
[0372] 本公开的一些方面提供了融合蛋白,其包含(i)Cas9酶或域(例如第一蛋白);和(ii)核酸编辑酶或域(例如第二蛋白)。在一些方面,本文提供的融合蛋白进一步包括(iii)
可编程DNA结合蛋白,例如锌指域、TALE或第二Cas9蛋白(例如第三蛋白)。不希望受任何特
定理论束缚,将可编程DNA结合蛋白(例如第二Cas9蛋白)与包含(i)Cas9酶或域(例如第一
蛋白);和(ii)核酸编辑酶或域(例如第二蛋白)的融合蛋白融合可以用于改善融合蛋白对
靶核酸序列的特异性,或用于改善融合蛋白结合不含经典PAM(NGG)序列的靶核酸序列的特
异性或结合亲和力。在一些实施方案中,第三蛋白是Cas9蛋白(例如第二Cas9蛋白)。在一些
实施方案中,第三蛋白是本文提供的任何Cas9蛋白。在一些实施方案中,第三蛋白与融合蛋
白融合,在Cas9蛋白(例如第一蛋白)N端。在一些实施方案中,第三蛋白与融合蛋白融合,在Cas9蛋白(例如第一蛋白)C端。在一些实施方案中,通过接头(例如第二接头)融合Cas9域
(例如第一蛋白)和第三蛋白(例如第二Cas9蛋白)。在一些实施方案中,接头包含(GGGGS)n
(SEQ ID NO:5)、(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、(SGGS)n(SEQ ID NO:4288)、
SGSETPGTSESATPES(SEQ ID NO:7)、或(XP)n基序或这些中任何的组合,其中n独立地为1至
30之间的整数。在一些实施方案中,本文提供的示例性Cas9融合蛋白的一般构造包含以下
结构:
[0373] [NH2]-[核酸编辑酶或域]-[Cas9]-[第三蛋白]-[COOH];
[0374] [NH2]-[第三蛋白]-[Cas9]-[核酸编辑酶或域]-[COOH];
[0375] [NH2]-[Cas9]-[核酸编辑酶或域]-[第三蛋白]-[COOH];
[0376] [NH2]-[第三蛋白]-[核酸编辑酶或域]-[Cas9]-[COOH];
[0377] [NH2]-[UGI]-[核酸编辑酶或域]-[Cas9]-[第三蛋白]-[COOH];
[0378] [NH2]-[UGI]-[第三蛋白]-[Cas9]-[核酸编辑酶或域]-[COOH];
[0379] [NH2]-[UGI]-[Cas9]-[核酸编辑酶或域]-[第三蛋白]-[COOH];
[0380] [NH2]-[UGI]-[第三蛋白]-[核酸编辑酶或域]-[Cas9]-[COOH];
[0381] [NH2]-[核酸编辑酶或域]-[Cas9]-[第三蛋白]-[UGI]-[COOH];
[0382] [NH2]-[第三蛋白]-[Cas9]-[核酸编辑酶或域]-[UGI]-[COOH];
[0383] [NH2]-[Cas9]-[核酸编辑酶或域]-[第三蛋白]-[UGI]-[COOH];或
[0384] [NH2]-[第三蛋白]-[核酸编辑酶或域]-[Cas9]-[UGI]-[COOH];
[0385] 其中NH2是融合蛋白的N端,而COOH是融合蛋白的C端。在一些实施方案中,上述一般构造中使用的“]-[”指示存在任选的接头序列。在其他实例中,本文提供的示例性Cas9融合蛋白的一般构造包含以下结构:
[0386] [NH2]-[核酸编辑酶或域]-[Cas9]-[第二Cas9蛋白]-[COOH];
[0387] [NH2]-[第二Cas9蛋白]-[Cas9]-[核酸编辑酶或域]-[COOH];
[0388] [NH2]-[Cas9]-[核酸编辑酶或域]-[第二Cas9蛋白]-[COOH];
[0389] [NH2]-[第二Cas9蛋白]-[核酸编辑酶或域]-[Cas9]-[COOH];
[0390] [NH2]-[UGI]-[核酸编辑酶或域]-[Cas9]-[第二Cas9蛋白]-[COOH],
[0391] [NH2]-[UGI]-[第二Cas9蛋白]-[Cas9]-[核酸编辑酶或域]-[COOH];
[0392] [NH2]-[UGI]-[Cas9]-[核酸编辑酶或域]-[第二Cas9蛋白]-[COOH];
[0393] [NH2]-[UGI]-[第二Cas9蛋白]-[核酸编辑酶或域]-[Cas9]-[COOH];
[0394] [NH2]-[核酸编辑酶或域]-[Cas9]-[第二Cas9蛋白]-[UGI]-[COOH];
[0395] [NH2]-[第二Cas9蛋白]-[Cas9]-[核酸编辑酶或域]-[UGI]-[COOH];
[0396] [NH2]-[Cas9]-[核酸编辑酶或域]-[第二Cas9蛋白]-[UGI]-[COOH];或
[0397] [NH2]-[第二Cas9蛋白]-[核酸编辑酶或域]-[Cas9]-[UGI]-[COOH];
[0398] 其中NH2是融合蛋白的N端,而COOH是融合蛋白的C端。在一些实施方案中,上述通用构造中使用的“]-[”指示存在任选的接头序列。在一些实施方案中,第二Cas9是dCas9蛋
白。在一些实例中,本文提供的示例性Cas9融合蛋白的一般构造包含如图3所示的结构。应
当理解,可以通过本文提供一个或多个接头连接示例性Cas9融合蛋白的任何一般构造中提
供的任何蛋白质。在一些实施方案中,接头是相同的。在一些实施方案中,接头是不同的。在一些实施方案中,示例性Cas9融合蛋白的任何一般构造中提供的一种或多种蛋白质不通过
接头融合。在一些实施方案中,融合蛋白进一步包含核靶向序列,例如核定位序列。在一些
实施方案中,本文提供的融合蛋白进一步包含核定位序列(NLS)。在一些实施方案中,NLS与
融合蛋白的N端融合。在一些实施方案中,NLS与融合蛋白的C端融合。在一些实施方案中,
NLS与第三蛋白的N端融合。在一些实施方案中,NLS与第三种蛋白质的C端融合。在一些实施
方案中,NLS与Cas9蛋白的N端融合。在一些实施方案中,NLS与Cas9蛋白的C端融合。在一些
实施方案中,NLS与核酸编辑酶或域的N端融合。在一些实施方案中,NLS与核酸编辑酶或域
的C端融合。在一些实施方案中,NLS与UGI蛋白的N端融合。在一些实施方案中,NLS与UGI蛋
白的C端融合。在一些实施方案中,NLS通过一个或多个接头与融合蛋白融合。在一些实施方
案中,NLS在没有接头的情况下与融合蛋白融合
[0399] 尿嘧啶糖基化酶抑制剂融合蛋白
[0400] 本公开的一些方面涉及包含尿嘧啶糖基化酶抑制剂(UGI)域的融合蛋白。在一些实施方案中,本文提供的包含Cas9域(例如,核酸酶活性Cas9域、核酸酶无活性dCas9域或
Cas9切口酶)的任何融合蛋白可以进一步直接或经由接头与UGI域融合。本公开的一些方面
提供了具有增加的核碱基编辑效率的脱氨酶-dCas9融合蛋白、脱氨酶-核酸酶活性Cas9融
合蛋白和脱氨酶-Cass9切口酶融合蛋白。不希望受任何特定理论的束缚,对U:G异双链体
DNA的存在的细胞DNA修复响应可以造成细胞中核碱基编辑效率的降低。例如,尿嘧啶DNA糖
基化酶(UDG)催化从细胞中的DNA中除去U,其可以启动碱基切割修复,U:G对返回到C:G对是
最常见的结果。如以下实施例中证明,尿嘧啶DNA糖基化酶抑制剂(UGI)可以抑制人UDG活
性。因此,本公开考虑了进一步与UGI域融合的包含dCas9核酸编辑域的融合蛋白。本公开还
涵盖进一步与UGI域融合的包含Cas9切口酶-核酸编辑域的融合蛋白。应当理解,使用UGI域
可以提高能够催化C至U变化的核酸编辑域的编辑效率。例如,包含UGI域的融合蛋白在使C
残基脱氨基化中可以是更有效的。在一些实施方案中,融合蛋白包含以下结构:
[0401] [脱氨酶]-[任选的接头序列]-[dCas9]-[任选的接头序列]-[UGI];
[0402] [脱氨酶]-[任选的接头序列]-[UGI]-[任选的接头序列]-[dCas9];
[0403] [UGI]-[任选的接头序列]-[脱氨酶]-[任选的接头序列]-[dCas9];
[0404] [UGI]-[任选的接头序列]-[dCas9]-[任选的接头序列]-[脱氨酶];
[0405] [dCas9]-[任选的接头序列]-[脱氨酶]-[任选的接头序列]-[UGI];或
[0406] [dCas9]-[任选的接头序列]-[UGI]-[任选的接头序列]-[脱氨酶]。
[0407] 在其他实施方案中,融合蛋白包含以下结构:
[0408] [脱氨酶]-[任选的接头序列]-[Cas9切口酶]-[任选的接头序列]-[UGI];
[0409] [脱氨酶]-[任选的接头序列]-[UGI]-[任选的接头序列]-[Cas9切口酶];
[0410] [UGI]-[任选的接头序列]-[脱氨酶]-[任选的接头序列]-[Cas9切口酶];
[0411] [UGI]-[任选的接头序列]-[Cas9切口酶]-[任选的接头序列]-[脱氨酶];
[0412] [Cas9切口酶]-[任选的接头序列]-[脱氨酶]-[任选的接头序列]-[UGI];或
[0413] [Cas9切口酶]-[任选的接头序列]-[UGI]-[任选的接头序列]-[脱氨酶]。
[0414] 在一些实施方案中,本文提供的融合蛋白不包含接头序列。在一些实施方案中,存在一个或两个任选的接头序列。
[0415] 在一些实施方案中,上述一般构造中使用的“-”指示存在任选的接头序列。在一些实施方案中,包含UGI的融合蛋白进一步包含核靶向序列,例如核定位序列。在一些实施方
案中,本文提供的融合蛋白进一步包含核定位序列(NLS)。在一些实施方案中,NLS与融合蛋
白的N端融合。在一些实施方案中,NLS与融合蛋白的C端融合。在一些实施方案中,NLS与UGI蛋白的N端融合。在一些实施方案中,NLS与UGI蛋白的C端融合。在一些实施方案中,NLS与
Cas9蛋白的N端融合。在一些实施方案中,NLS与Cas9蛋白的C端融合。在一些实施方案中,
NLS与脱氨酶的N端融合。在一些实施方案中,NLS与脱氨酶的C端融合。在一些实施方案中,
NLS与第二Cas9的N端融合。在一些实施方案中,NLS与第二Cas9的C端融合。在一些实施方案
中,NLS通过一个或多个接头与融合蛋白融合。在一些实施方案中,NLS在没有接头的情况下
与融合蛋白融合。在一些实施方案中,NLS包含本文提供或提及的任何一种NLS序列的氨基
酸序列。在一些实施方案中,NLS包含如SEQ ID NO:741或SEQ ID NO:742所示的氨基酸序
列。
[0416] 在一些实施方案中,UGI域包含野生型UGI或如SEQ ID NO:600所示的UGI。在一些实施方案中,本文提供的UGI蛋白包括UGI的片段和与UGI或UGI片段同源的蛋白质。例如,在
一些实施方案中,UGI域包含SEQ ID NO:600所示氨基酸序列的片段。在一些实施方案中,
UGI片段包含的氨基酸序列包含如SEQ ID NO:600所示氨基酸序列的至少60%、至少65%、
至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少
98%、至少99%、或至少99.5%。在一些实施方案中,UGI包含与SEQ ID NO:600所示的氨基
酸序列同源的氨基酸序列,或与SEQ ID NO:600所示的氨基酸序列的片段同源的氨基酸序
列。在一些实施方案中,包含UGI或UGI片段或UGI或UGI片段同源物的蛋白质称为“UGI变
体”。UGI变体与UGI或其片段共享同源性。例如,UGI变体与野生型UGI或如SEQ ID NO:600所示的UGI是至少70%相同、at least75%相同、至少80%相同、至少85%相同、至少90%相
同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同、至少
99.5%相同、或至少99.9%相同的。在一些实施方案中,UGI变体包含UGI的片段,使得该片
段与野生型UG1或如SEQ ID NO:600所示的UGI的相应片段是至少70%相同、至少80%相同、
至少90%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相
同、至少99.5%相同、或至少99.9%相同的。在一些实施方案中,UGI包含以下氨基酸序列:>s p | P 1 4 7 3 9 | U N G I _ B P P B 2 尿 嘧 啶 - D N A 糖 基 化 酶 抑 制 剂
MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNG
ENKIKML(SEQ ID NO:600)
[0417] 本文提供了合适的UG1蛋白质和核苷酸序列,并且其他合适的UGI序列是本领域技术人员已知的,并且包括例如以下中发表的那些:Wang et al.,Uracil-DNA glycosylase 
inhibitor gene of bacteriophage PBS2encodes a binding protein specific for 
uracil-DNA glycosylase.J.Biol.Chem.264:1163-1171(1989);Lundquist et al.,Site-
directed mutagenesis and characterization of uracil-DNA glycosylase inhibitor 
protein.Role of specific carboxylic amino acids in complex formation with 
Escherichia coli uracil-DNA glycosylase.J.Biol.Chem.272:21408-21419(1997);
Ravishankar et al.,X-ray analysis of a complex of Escherichia coli uracil DNA 
glycosylase(EcUDG)with a proteinaceous inhibitor.The structure elucidation of 
a prokaryotic UDG.Nucleic Acids Res.26:4880-4887(1998);以及Putnam et al.,
Protein mimicry of DNA from crystal structures of the uracil-DNA glycosylase 
inhibitor protein and its complex with Escherichia coli uracil-DNA 
glycosylase.J.Mol.Biol.287:331-346(1999),每篇的全部内容通过引用并入本文。
[0418] 应当理解的是,另外的蛋白质可以是尿嘧啶糖基化酶抑制剂。例如,能够抑制(例如,空间阻断)尿嘧啶-DNA糖基化酶碱基切割修复酶的其他蛋白质在本公开的范围内。此
外,任何阻断或抑制碱基切割修复的蛋白质也在本公开的范围内。在一些实施方案中,使用
结合DNA的蛋白质。在另一个实施方案中,使用UGI的替代物。在一些实施方案中,尿嘧啶糖
基化酶抑制剂是结合单链DNA的蛋白质。例如,尿嘧啶糖基化酶抑制剂可以是塔斯马尼亚欧
文氏菌(Erwinia tasmaniensis)单链结合蛋白。在一些实施方案中,单链结合蛋白包含氨
基酸序列(SEQ ID NO:322)。在一些实施方案中,尿嘧啶糖基化酶抑制剂是结合尿嘧啶的蛋
白质。在一些实施方案中,尿嘧啶糖基化酶抑制剂是结合DNA中的尿嘧啶的蛋白质。在一些
实施方案中,尿嘧啶糖基化酶抑制剂是催化无活性的尿嘧啶DNA-糖基化酶蛋白。在一些实
施方案中,尿嘧啶糖基化酶抑制剂是不从DNA中切割尿嘧啶的催化无活性尿嘧啶DNA-糖基
化酶蛋白。例如,尿嘧啶糖基化酶抑制剂是UdgX。在一些实施方案中,UdgX包含氨基酸序列
(SEQ ID NO:323)。作为另一个例子,尿嘧啶糖基化酶抑制剂是催化无活性的UDG。在一些实
施方案中,催化无活性的UDG包含氨基酸序列(SEQ ID NO:324)。应当理解的是,其他尿嘧啶
糖基化酶抑制剂对于熟练技术人员来说是显而易见的并且在本公开的范围内。在一些实施
方案中,尿嘧啶糖基化酶抑制剂是与SEQ ID NO:322-324中的任一项同源的蛋白质。在一些
实施方案中,尿嘧啶糖基化酶抑制剂是与SEQ ID NO:322-324中的任一项至少50%相同、至
少55%相同至少60%相同、至少65%相同、至少70%相同、至少75%相同、至少80%相同、至少85%相同、至少90%相同、至少95%相同,至少96%相同、至少98%相同、至少99%相同、或至少99.5%相同的蛋白质。
[0419] 塔斯马尼亚欧文氏菌SSB(高稳定性单链DNA结合蛋白)
[0420]MASRGVNKVILVGNLGQDPEVRYMPNGGAVANITLATSESWRDKQTGETKEKTEWHRVVLFGKLAEVAGEYLRKGSQ
VYIEGALQTRKWTDQAGVEKYTTEVVVNVGGTMQMLGGRSQGGGASAGGQNGGSNNGWGQPQQPQGGNQFSGGAQQQ
ARPQQQPQQNNAPANNEPPIDFDDDIP(SEQ ID NO:322)
[0421] UdgX(结合DNA中的尿嘧啶但不切割)
[0422]MAGAQDFVPHTADLAELAAAAGECRGCGLYRDATQAVFGAGGRSARIMMIGEQPGDKEDLAGLPFVGPAGRLLDRAL
EAADIDRDALYVTNAVKHFKFTRAAGGKRRIHKTPSRTEVVACRPWLIAEMTSVEPDVVVLLGATAAKALLGNDFRV
TQHRGEVLHVDDVPGDPALVATVHPSSLLRGPKEERESAFAGLVDDLRVAADVRP(SEQ ID NO:323)
[0423] UDG(催化无活性人UDG,结合DNA中的尿嘧啶但不切割)
[0424]MIGQKTLYSFFSPSPARKRHAPSPEPAVQGTGVAGVPEESGDAAAIPAKKAPAGQEEPGTPPSSPLSAEQLDRIQRN
KAAALLRLAARNVPVGFGESWKKHLSGEFGKPYFIKLMGFVAEERKHYTVYPPPHQVFTWTQMCDIKDVKVVILGQE
PYHGPNQAHGLCFSVQRPVPPPPSLENIYKELSTDIEDFVHPGHGDLSGWAKQGVLLLNAVLTVRAHQANSHKERGW
EQFTDAVVSWLNQNSNGLVFLLWGSYAQKKGSAIDRKRHHVLQTAHPSPLSVYRGFFGCRHFSKTNELLQKSGKKPI
DWKEL(SEQ ID NO:324)
[0425] 在一些实施方案中,核酸编辑域是脱氨酶域。在一些实施方案中,脱氨酶是胞嘧啶脱氨酶或胞苷脱氨酶。在一些实施方案中,脱氨酶是载脂蛋白B mRNA-编辑复合物(APOBEC)
家族脱氨酶。在一些实施方案中,脱氨酶是APOBEC1脱氨酶。在一些实施方案中,脱氨酶是
APOBEC2脱氨酶。在一些实施方案中,脱氨酶是APOBEC3脱氨酶。在一些实施方案中,脱氨酶
是APOBEC3A脱氨酶。在一些实施方案中,脱氨酶是APOBEC3B脱氨酶。在一些实施方案中,脱
氨酶是APOBEC3C脱氨酶。在一些实施方案中,脱氨酶是APOBEC3D脱氨酶。在一些实施方案
中,脱氨酶是APOBEC3E脱氨酶。在一些实施方案中,脱氨酶是APOBEC3F脱氨酶。在一些实施
方案中,脱氨酶是APOBEC3G脱氨酶。在一些实施方案中,脱氨酶是APOBEC3H脱氨酶。在一些
实施方案中,脱氨酶是APOBEC4脱氨酶。在一些实施方案中,脱氨酶是活化诱导的脱氨酶
(AID)。在一些实施方案中,脱组分是大鼠APOBEC1(SEQ ID NO:282)。在一些实施方案中,该脱氨酶是人APOBEC1(SEQ ID NO:284)。在一些实施方案中,脱氨酶是海七鳃鳗胞苷脱氨酶1
(pmCDA1)。在一些实施方案中,该脱氨酶是人APOBEC3G(SEQ ID NO:275)。在一些实施方案
中,脱氨酶是人APOBEC3G的片段(SEQ ID NO:5740)。在一些实施方案中,脱氨酶是包含
D316R_D317R突变的人APOBEC3G变体(SEQ ID NO:5739)。在一些实施方案中,脱氨基酶是人
APOBEC3G的片段并且包含对应于SEQ ID NO:275中的D316R_D317R突变的突变(SEQ ID NO:
5741)。
[0426] 在一些实施方案中,接头包含(GGGS)n(SEQ ID NO:265)、(GGGGS)n(SEQ ID NO:5)、(G)n、(EAAAK)n(SEQ ID NO:6)、(GGS)n、SGSETPGTSESATPES(SEQ ID NO:7)、或(XP)n基序或这些中任何的组合,其中n独立地为1至30之间的整数。
[0427] 本文提供了合适的UG1蛋白质和核苷酸序列,并且其他合适的UGI序列是本领域技术人员已知的,并且包括例如以下中发表的那些:Wang et al.,Uracil-DNA glycosylase 
inhibitor gene of bacteriophage PBS2encodes a binding protein specific for 
uracil-DNA glycosylase.J.Biol.Chem.264:1163-1171(1989);Lundquist et al.,Site-
directed mutagenesis and characterization of uracil-DNA glycosylase inhibitor 
protein.Role of specific carboxylic amino acids in complex formation with 
Escherichia coli uracil-DNA glycosylase.J.Biol.Chem.272:21408-21419(1997);
Ravishankar et al.,X-ray analysis of a complex of Escherichia coli uracil DNA 
glycosylase(EcUDG)with a proteinaceous inhibitor.The structure elucidation of 
a prokaryotic UDG.Nucleic Acids Res.26:4880-4887(1998);以及Putnam et al.,
Protein mimicry of DNA from crystal structures of the uracil-DNA glycosylase 
inhibitor protein and its complex with Escherichia coli uracil-DNA 
glycosylase.J.Mol.Biol.287:331-346(1999),其全部内容通过引用并入本文。在一些实
施方案中,所述任选的接头包含(GGS)n基序,其中n是1、2、3、4、5、6、7、8、9、19、11、12、13、
14、15、16、17、18、19、或20。在一些实施方案中,任选的接头包含(GGS)n基序,其中n是1、3或
7。在一些实施方案中,任选的接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:7),其在
实施例中也称为XTEN接头。
[0428] 在一些实施方案中,Cas9切口酶可以进一步促进在体内编辑其基因组的生物体中非编辑链上碱基的除去。如本文所述的Cas9切口酶可以包含SEQ ID NO:10中的D10A突变或
SEQ ID NO:11-260中任一项中的相应突变。在一些实施方案中,本公开的Cas9切口酶可以
包含SEQ ID NO:10的突变840处的组氨酸或SEQ ID NO:11-260中任一项中的相应残基。此
类包含Cas9切口酶的融合蛋白可以切割靶DNA序列的单链,例如未被编辑的链。不希望受任
何特定理论的束缚,此种切割可以抑制将由脱氨酶产生的C至U编辑逆转的错配修复机制。
[0429] Cas9与引导RNA的复合物
[0430] 本公开的一些方面提供包含本文提供的任何融合蛋白和与融合蛋白的Cas9域(例如,dCas9、核酸酶活性Cas9或Cas9切口酶)结合的引导RNA的复合物。
[0431] 在一些实施方案中,引导RNA长15-100个核苷酸并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中,引导RNA长15、16、17、18、19、20、21、22、23、24、
25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或
50个核苷酸。在一些实施方案中,引导RNA包含与靶序列互补的15、16、17、18、19、20、21、22、
23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、或40个连续核苷酸的序列。在一些实施方案中,靶序列是DNA序列。在一些实施方案中,靶序列是哺乳动物基因组中的序
列。在一些实施方案中,靶序列是人基因组中的序列。在一些实施方案中,靶序列的3’末端与经典PAM序列(NGG)直接相邻。在一些实施方案中,引导RNA同与疾病或病症相关的序列互
补。在一些实施方案中,引导RNA同与选自表1-3中任一中公开的基因的基因中具有突变的
疾病或病症相关的序列互补。在一些实施方案中,引导RNA包含表2或表3中提供的任一种引
导序列的核苷酸序列。本文中在表1-3中提供了可以由本公开的复合物靶向的人基因组中
的示例性序列。
[0432] 使用Cas9融合蛋白的方法
[0433] 本公开的一些方面提供了使用本文提供的Cas9蛋白、融合蛋白或复合物的方法。例如,本发明的一些方面提供方法,其包括使DNA分子与以下接触,(a)本文提供的任何Cas9
蛋白或融合蛋白以及与至少一种引导RNA,其中引导RNA长约15-100个核苷酸并且包含与靶
序列互补的至少10个连续核苷酸的序列;或(b)Cas9蛋白、Cas9融合蛋白或与如本文提供的
至少一种gRNA的Cas9蛋白或融合蛋白复合物。在一些实施方案中,靶序列的3’端不直接与
经典PAM序列(NGG)相邻。在一些实施方案中,靶序列的3’端与AGC、GAG、TTT、GTG、或CAA序列直接相邻。
[0434] 在一些实施方案中,靶DNA序列包含与疾病或病症相关的序列。在一些实施方案中,靶DNA序列包含与疾病或病症相关的点突变。在一些实施方案中,Cas9蛋白、Cas9融合蛋白质或复合物的活性导致点突变的校正。在一些实施方案中,靶DNA序列包含与疾病或病症
相关的T→C点突变,并且其中突变体C碱基的脱氨基化导致不与疾病或病症相关的序列。在
一些实施方案中,靶DNA序列编码蛋白质,并且其中所述点突变位于密码子中并且导致与野
生型密码子相比突变体密码子编码的氨基酸的变化。在一些实施方案中,突变体C的脱氨基
化导致由突变体密码子编码的氨基酸的变化。在一些实施方案中,突变体C的脱氨基化导致
编码野生型氨基酸的密码子。在一些实施方案中,接触在受试者体内进行。在一些实施方案
中,受试者患有或已经诊断患有疾病或病症。在一些实施方案中,疾病或病症是囊性纤维
化、苯丙尿、表皮松解性化过度(EHK)、夏科-马里-图斯病4J型、成神经细胞瘤(NB)、血管性血友病(vWD)、先天性肌强直、遗传性肾淀粉样变性、扩张型心肌病(DCM)、遗传性淋巴
水肿、家族性阿尔茨海默氏病、HIV、朊病毒病、慢性婴儿神经皮肤关节综合征(CINCA)、结蛋白相关性肌病(DRM)、与突变体PI3KCA蛋白、突变体CTNNB1蛋白、突变体HRAS蛋白、或突变体p53蛋白有关的新生性疾病。
[0435] 一些实施方案提供了使用本文提供的Cas9DNA编辑融合蛋白的方法。在一些实施方案中,通过使靶核碱基,例如C残基脱氨基化将融合蛋白用于将点突变引入核酸中。在一
些实施方案中,靶核碱基的脱氨基化导致遗传缺陷的校正,例如在校正导致基因产物中功
能丧失的点突变中。在一些实施方案中,遗传缺陷与疾病或病症相关,例如溶酶体贮积症或
代谢疾病,诸如例如I型糖尿病。在一些实施方案中,使用本文提供的方法将灭活点突变引
入编码与疾病或病症相关的基因产物的基因或等位基因中。例如,在一些实施方案中,本文
提供了使用Cas9DNA编辑融合蛋白将灭活点突变引入癌基因(例如,在治疗增殖性疾病中)
的方法。在一些实施方案中,灭活突变可以在编码序列中产生提前终止密码子,其导致截短
的基因产物(例如缺乏全长蛋白功能的截短蛋白)的表达。
[0436] 在一些实施方案中,本文提供的方法的目的是通过基因组编辑来恢复功能失调基因的功能。可以在体外验证本文提供的Cas9脱氨酶融合蛋白用于基于基因编辑的人治疗
剂,例如通过校正人细胞培养中的疾病相关突变。熟练技术人员将会理解,本文提供的融合
蛋白(例如包含Cas9域和核酸脱氨酶域的融合蛋白)可以用于校正任何单一点。T->C或A->G
突变。在第一种情况下,突变体C脱氨基化回到U校正突变,而在后一种情况下,与突变体G碱基配对的C脱氨基化接着进行一轮复制校正了突变。
[0437] 可以在体外或体内由提供的融合蛋白校正的示例性疾病相关突变是PI3KCA蛋白中的H1047R(A3140G)多态性。磷酸肌醇-3-激酶催化α亚基(PI3KCA)蛋白作用为将磷脂酰肌
醇的肌醇环的3-OH基团磷酸化。已经发现PI3KCA基因在许多不同的癌症中发生突变,因此
认为它是一种有效的癌基因37。事实上,A3140G突变存在于几种NCI-60癌细胞系中,诸如例
如HCT116、SKOV3和T47D细胞系,其可从美国典型培养物保藏中心(ATCC)容易获得38。
[0438] 在一些实施方案中,使携带要校正的突变的细胞,例如携带点突变,例如在PI3KCA基因的外显子20中的A3140G点突变(导致PI3KCA蛋白中的H1047R取代)的细胞与编码Cas9
脱氨酶融合蛋白的表达构建体和适当设计的sgRNA接触,所述sgRNA将融合蛋白靶向到编码
PI3KCA基因中的相应的突变位点。可以进行对照实验,其中将sgRNA设计为将融合酶靶向到
位于PI3KCA基因内的非C残基。可以提取经处理的细胞的基因组DNA,并且将PI3KCA基因的
相关序列进行PCR扩增和测序以评估融合蛋白在人细胞培养物中的活性。
[0439] 应当理解,提供校正PI3KCA中的点突变的实例用于例示的目的,并不意味着限制本公开。熟练技术人员将理解,目前公开的DNA编辑融合蛋白可以用于校正与其他癌症以及
与癌症以外的疾病,包括其他增殖性疾病相关的其他点突变和突变。
[0440] 疾病相关基因和等位基因中的点突变的成功校正为治疗学和基础研究中的应用开辟了基因校正的新策略。位点特异性单碱基修饰系统,如所公开的Cas9和脱氨酶或域的
融合蛋白在“反向”基因治疗中也具有应用,其中有目的地抑制或消除某些基因功能。在这
些情况下,可以使用将Trp(TGG)、Gln(CAA和CAG)或Arg(CGA)残基位点特异性突变为过早终
止密码子(TAA、TAG、TGA)在体外、离体、或在体内消除蛋白质功能。
[0441] 本公开提供了用于治疗诊断患有与点突变相关或由点突变引起的疾病的受试者的方法,所述点突变可以由本文提供的Cas9DNA编辑融合蛋白校正。例如,在一些实施方案
中,提供了方法,其包括向患有此类疾病,例如如上文描述的与PI3KCA点突变相关的癌症的
受试者施用有效量的Cas9脱氨酶融合蛋白,其校正点突变或将灭活突变引入疾病相关基因
中。在一些实施方案中,疾病是增殖性疾病。在一些实施方案中,疾病是遗传疾病。在一些实施方案中,该疾病是新生性疾病。在一些实施方案中,疾病是代谢疾病。在一些实施方案中,该疾病是溶酶体贮积病。可以通过校正点突变或将灭活突变引入疾病相关基因来治疗的其
他疾病对于本领域技术人员而言是已知的,并且本公开在这方面不受限制。
[0442] 本公开提供了用于治疗另外的疾病或病症,例如与点突变相关或由点突变引起的疾病或病症的方法,所述点突变可以通过脱氨酶介导的基因编辑校正。本文描述了一些此
类疾病,并且基于本公开,可以用本文提供的策略和融合蛋白治疗的其他合适的疾病对于
本领域技术人员将是显而易见的。下面列出了示例性合适的疾病和病症。应当理解,相应序
列中特定位置或残基的编号取决于所用的特定蛋白质和编号方案。编号可能不同,例如在
成熟蛋白质的前体和成熟蛋白质本身中,并且从物种到物种的序列差异可以影响编号。本
领域技术人员将能够通过本领域公知的方法,例如通过序列比对和确定同源残基,鉴定任
何同源蛋白质和相应编码核酸中的相应残基。示例性合适的疾病和病症包括但不限于囊性
纤维化(参见例如Schwank et al.,Functional repair of CFTR by CRISPR/Cas9in 
intestinal stem cell organoids of cystic fibrosis patients.Cell stem 
cell.2013;13:653-658;以及Wu et.al.,Correction of a genetic disease in mouse 
via use of CRISPR-Cas9.Cell stem cell.2013;13:659-662,它们都未使用脱氨酶融合
蛋白来校正遗传缺陷);苯丙酮尿-例如苯丙氨酸羟化酶基因中位置835(小鼠)或240(人)或
同源残基处苯丙氨酸至丝氨酸突变(T>C突变)-参见例如McDonald  et  al.,
Genomics.1997;39:402-405;Bernard-Soulier syndrome(BSS)-例如,血小板膜糖蛋白IX
中位置55或同源残基处苯丙氨酸至丝氨酸突变,或残基24或同源残基处半胱氨酸至精氨酸
(T>C突变)-参见例如Noris et al.,British Journal of Haematology.1997;97:312-
320,以及Ali et al.,Hematol.2014;93:381-384;表皮松解性角化过度(EHK)-例如角蛋白
1中的位置160或161(若计数起始甲硫氨酸)或同源残基处的亮氨酸至脯氨酸突变(T>C突
变)-参见例如Chipev et al.,Cell.1992;70:821-828,也可参见UNIPROT数据库中的登录
号P04264,于www[dot]uniprot[dot]org;慢性阻塞性病(COPD)-例如α1-抗胰蛋白酶的加
工形式中的位置54或55(若计数引发剂甲硫氨酸)或同源残基或未加工形式中的残基78或
同源残基处的亮氨酸至脯氨酸突变(T>C突变)-参见例如Poller et al.,Genomics.1993;
17:740-743,还可见UNIPROT数据库中的登录号P01011;夏科-马里-图斯病4J型-例如FIG4
中位置41或同源残基处的异亮氨酸至苏氨酸突变(T>C突变)-参见例如Lenk et al.,PLoS 
Genetics.2011;7:e1002104;成神经细胞瘤(NB)-例如在胱天蛋白酶-9中位置197或同源残
基处的亮氨酸至脯氨酸突变(T>C突变)-参见例如Kundu et al.,3Biotech.2013,3:225-
234;血管性血友病(vWD)-例如von Willebrand因子的加工形式中的位置509或同源残基
处,或von Willebrand因子的未加工形式中的位置1272或同源残基处的半胱氨酸至精氨酸
突变(T>C突变)-参见例如Lavergne et al.,Br.J.Haematol.1992,还可见UNIPROT数据库
中的登录号P04275;82:66-72;先天性肌强直-例如,肌肉氯化物通道基因CLCN1中的位置
277或同源残基处的半胱氨酸至精氨酸突变(T>C突变)-参见例如Weinberger et al.,The 
J.of Physiology.2012;590:3449-3464;遗传性肾淀粉样变性-例如,载脂蛋白AII加工形
式的位置78或同源残基处或未加工形式中的位置101或同源残基处的终止密码子至精氨酸
突变(T>C突变)-参见例如Yazaki et al.,Kidney Int.2003;64:11-16;扩张型心肌病
(DCM)-例如FOXD4基因中位置148或同源残基处的色氨酸至精氨酸突变(T>C突变),参见例
如Minoretti et.al.,Int.J.of Mol.Med.2007;19:369-372;遗传性淋巴水肿-例如VEGFR3
酪氨酸激酶中的位置1035或同源残基处的组氨酸至精氨酸突变(A>G突变),参见例如
Irrthum et al.,Am.J.Hum.Genet.2000;67:295-301;家族性阿尔茨海默氏病-例如,早老
蛋白1中位置143或同源残基处异亮氨酸至缬氨酸突变(A>G突变),参见例如Gallo et.al.,
J.Alzheimer’s disease.2011;25:425-431;朊病毒病-例如朊病毒蛋白中位置129或同源
残基处的甲硫氨酸至缬氨酸突变(A>G突变)-参见例如Lewis et.al.,J.of General 
Virology.2006;87:2443-2449;慢性婴儿神经性皮肤关节综合征(CINCA)-例如,cryopyrin
中的位置570或同源残基处的酪氨酸至半胱氨酸突变(A>G突变)-参见例如Fujisawa 
et.al.Blood.2007;109:2903-2911;和结蛋白相关性肌病(DRM)-例如,αβ晶体蛋白中位置
120或同源残基处精氨酸至甘氨酸突变(A>G突变)-参见例如Kumar  et  al.,
J.Biol.Chem.1999;274:24137-24141。所有参考文献和数据库条目的全部内容通过引用并
入本文。
[0443] 本公开提供了包含致病性T>C或A>G突变的基因列表。本文提供的是这些基因的名称、它们相应的SEQ ID NO、它们的基因ID以及突变位点侧翼的序列。(表2和3)。在一些情况下,公开了可以用于校正这些基因中突变的gRNA序列(表2和3)。
[0444] 在一些实施方案中,Cas9-脱氨酶融合蛋白识别典型PAM,因此可以用侧翼序列中的典型PAM例如NGG(列于表2和3中,SEQ ID NO:2540-2702和5084-5260)校正致病性T>C或A
>G突变。例如,识别典型PAM的Cas9蛋白包含与如由SEQ ID NO:10提供的酿脓链球菌Cas9的
氨基酸序列或其包含SEQ ID NO:10的RuvC和HNH域的片段至少90%相同的氨基酸序列。
[0445] 对于本领域技术人员来说显而易见的是,为了将本文公开的Cas9:核酸编辑酶/域融合蛋白靶向到靶位点,例如包含待编辑的点突变的位点,通常有必要共表达Cas9:核酸编
辑酶/域融合蛋白以及引导RNA,例如sgRNA。如本文别处更详细解释的,引导RNA通常包含允
许Cas9结合的tracrRNA框架和赋予Cas9:核酸编辑酶/域融合蛋白序列以特异性的引导序
列 。在 一 些 实 施 方 案 中 ,引 导 R N A 包 含 结 构 5’- [ 引 导 序 列 ] -
guuuuagagcuagaaauagcaaguuaaaauaaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugc
uuuuu-3’(SEQ ID NO:601),其中引导序列包含与靶序列互补的序列。引导序列通常长为20
个核苷酸。基于本公开,用于将Cas9:核酸编辑酶/域融合蛋白靶向到特定基因组靶位点的
合适的引导RNA序列对于本领域技术人员将是显而易见的。此类合适的引导RNA序列通常包
含与待编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。下面提供了
适合于将Cas9:核酸编辑酶/域融合蛋白靶向到特定靶序列的一些示例性引导RNA序列。
[0446] 碱基编辑器效率
[0447] 本公开的一些方面基于认识到本文提供的任何碱基编辑器能够修饰特定的核苷酸碱基而不产生显著比例的插入/缺失。如本文所用,“插入/缺失”指核酸内的核苷酸碱基
的插入或缺失。此类插入或缺失可以导致基因编码区内的移码突变。在一些实施方案中,期
望产生有效修饰(例如突变或脱氨基化)核酸内的特定核苷酸而不在核酸中产生大量插入
或缺失(即插入/缺失)的碱基编辑器。在某些实施方案中,本文提供的任何碱基编辑器能够
相对于插入/缺失产生更大比例的意图修饰(例如,点突变或脱氨酶)。在一些实施方案中,
本文提供的碱基编辑器能够生成大于1:1的意图点突变与插入/缺失的比率。在一些实施方
案中,本文提供的碱基编辑器能够产生意图点突变与插入/缺失的比率,其为至少至少1.5:
1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:
1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:
1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1、或至少1000:1或更多。可以使用任何合适的方法,例如以下实施例中使用的方法来测定意图的突变和插入/缺失的数目。
[0448] 在一些实施方案中,本文提供的碱基编辑器能够限制核酸区域中的插入/缺失的形成。在一些实施方案中,区域位于由碱基编辑器靶向的核苷酸或由碱基编辑器靶向的核
苷酸的2、3、4、5、6、7、8、9、或10个核苷酸内的区域。在一些实施方案中,本文提供的任何碱基编辑器能够将核酸区域处的插入/缺失的形成限制到小于1%、小于1.5%、小于2%、小于
2.5%、小于3%、小于3.5%、小于4%、小于4.5%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于12%、小于15%、或小于20%。在核酸区处形成的缺失/缺失的数目可以取决于核酸(例如细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案
中,在将核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的至少1小时、至少2小时、至
少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后测定插入/缺失的数目或比例。
[0449] 本公开的一些方面基于认识到本文提供的任何碱基编辑器能够有效地在核酸中产生意图的突变,如点突变(例如受试者的基因组内的核酸)而不产生大量的非意图突变,
如非意图的点突变。在一些实施方案中,意图的突变是由与gRNA结合的特定碱基编辑器产
生的突变,所述gRNA特别设计为产生意图的突变。在一些实施方案中,意图的突变是与疾病
或病症相关的突变。在一些实施方案中,意图的突变是与疾病或病症相关的胞嘧啶(C)至胸
腺嘧啶(T)点突变。在一些实施方案中,意图的突变是与疾病或病症相关的鸟嘌呤(G)至腺
嘌呤(A)点突变。在一些实施方案中,意图的突变是基因编码区内的胞嘧啶(C)至胸腺嘧啶
(T)点突变。在一些实施方案中,意图的突变是基因编码区内的鸟嘌呤(G)至腺嘌呤(A)点突
变。在一些实施方案中,意图的突变是产生终止密码子,例如基因编码区内的提前终止密码
子的点突变。在一些实施方案中,意图的突变是消除终止密码子的突变。在一些实施方案
中,意图的突变是改变基因剪接的突变。在一些实施方案中,意图的突变是改变基因调控序
列(例如,基因启动子或基因阻抑物)的突变。在一些实施方案中,本文提供的任何碱基编辑
器能够产生大于1:1的意图突变与非意图突变(例如,意图的点突变:非意图的点突变)的比
率。在一些实施方案中,本文提供的任何碱基编辑器能够产生意图突变与非意图突变的比
率(例如,意图的点突变:非意图的点突变),其为至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少
7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少150:1、至少200:1、至少250:1、至少500:1、或至少1000:1或更多。应当理解,本文“碱基编辑器效率”部分中描述的碱基编辑器的特性可以应用于任何融
合蛋白或使用本文提供的融合蛋白的方法。
[0450] 用于编辑核酸的方法
[0451] 本公开的一些方面提供了用于编辑核酸的方法。在一些实施方案中,该方法是用于编辑核酸的核碱基(例如,双链DNA序列的碱基对)的方法。在一些实施方案中,方法包括
以下步骤:a)使核酸(例如双链DNA序列)的靶区域与包含碱基编辑器(例如与胞苷脱氨酶域
融合的Cas9域)和引导核酸(例如gRNA)的复合物接触,其中所述靶区域包含靶定的核碱基
对,b)诱导所述靶区域的链分离,c)将靶区域的单链中的所述靶核碱基对的第一核碱基转
换成第二核碱基,以及d)切割所述靶区域的不超过一条链,其中与所述第一核碱基碱基互
补的第三核碱基被与第二核碱基互补的第四核碱基替换;并且该方法导致核酸中小于20%
的插入/缺失形成。应当理解的是,在一些实施方案中,省略步骤b。在一些实施方案中,第一核碱基是胞嘧啶。在一些实施方案中,第二核碱基是脱氨基化胞嘧啶或尿嘧啶。在一些实施
方案中,第三核碱基是鸟嘌呤。在一些实施方案中,第四核碱基是腺嘌呤。在一些实施方案
中,第一核碱基是胞嘧啶,第二核碱基是脱氨基胞嘧啶或尿嘧啶,第三核碱基是鸟嘌呤,并
且第四核碱基是腺嘌呤。在一些实施方案中,方法导致小于19%、18%、16%、14%、12%、
10%、8%、6%、4%、2%、1%、0.5%、0.2%、或小于0.1%插入/缺失形成。在一些实施方案中,方法还包括用与第四核碱基互补的第五核碱基取代第二核碱基,由此产生意图的编辑
碱基对(例如C:G->T:A)。在一些实施方案中,第五核碱基是胸腺嘧啶。在一些实施方案中,
编辑至少5%的意图碱基对。在一些实施方案中,编辑至少10%、15%、20%、25%、30%、
35%、40%、45%、或50%的意图碱基对。
[0452] 在一些实施方案中,靶核苷酸中意图产物与非意图产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或200:1或更多。在一些实施方案中,意图点突变与插入/缺失形成的比率大于1:1、10:1、50:1、100:1、500:1、或1000:1或更多。在一些实施方案中,切割单链(切口链)与引导核酸杂交。在一些实施方案中,切割单
链与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包括Cas9域。在一些实施方
式中,第一碱基是胞嘧啶,而第二碱基不是G、C、A、或T。在一些实施方式中,第二碱基是尿嘧啶。在一些实施方案中,第一个碱基是胞嘧啶。在一些实施方案中,第二个碱基不是G、C、A、或T。在一些实施方案中,第二碱基是尿嘧啶。在一些实施方案中,碱基编辑器抑制编辑链的碱基切割修复。在一些实施方案中,基编辑器保护或结合非编辑的链。在一些实施方案中,
碱基编辑器包括UGI活性。在一些实施方案中,碱基编辑器包含切口酶活性。在一些实施方
案中,意图的编辑碱基对在PAM位点的上游。在一些实施方案中,意图的编辑碱基对在PAM位
点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方案中,意图的编辑碱基对在PAM位点下游。在一些实施方案中,意图的编辑碱基对在PAM位
点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方案中,方法不需要规范(例如,NGG)PAM位点。在一些实施方案中,核碱基编码器包含接头。
在一些实施方案中,接头的长度为1-25个氨基酸。在一些实施方案中,接头的长度为5-20个
氨基酸。在一些实施方案中,接头长度为10、11、12、13、14、15、16、17、18、19、或20个氨基酸。
在一些实施方案中,靶区域包括靶窗,其中靶窗包含靶核碱基对。在一些实施方案中,靶窗
包含1-10个核苷酸。在一些实施方案中,靶窗的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-
2、或1个核苷酸。在一些实施方案中,靶窗的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、
15、16、17、18、19、或20个核苷酸。在一些实施方案中,意图的编辑碱基对在靶窗内。在一些实施方案中,靶窗包括意图的编辑碱基对。在一些实施方案中,使用本文提供的任何碱基编
辑器进行方法。在一些实施方案中,靶窗是脱氨基化窗
[0453] 在一些实施方案中,本公开提供了用于编辑核苷酸的方法。在一些实施方案中,本公开提供了用于编辑双链DNA序列的核碱基对的方法。在一些实施方案中,方法包括a)使双
链DNA序列的靶区域与包含碱基编辑器和引导核酸(例如gRNA)的复合物接触,其中靶区域
包含靶核碱基对,b)诱导所述靶区域的链分离,c)将所述靶区域的单链中的所述靶核碱基
对的第一核碱基转换为第二核碱基,d)切割所述靶区域的不超过一条链,其中与第一核碱
基碱基互补的第三核碱基被与第二核碱基互补的第四核碱基替换,并且第二核碱基被与第
四核碱基互补的第五核碱基替换,由此产生意图的编辑碱基对,其中产生意图的编辑的碱
基对的效率是至少5%。应当理解的是,在一些实施方案中,省略步骤b。在一些实施方案中,编辑至少5%的意图碱基对。在一些实施方案中,编辑至少10%、15%、20%、25%、30%、
35%、40%、45%、或50%的意图碱基对。在一些实施方案中,该方法引起小于19%、18%、
16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%、或小于0.1%的插入/缺失形成。在一些实施方案中,靶核苷酸处的意图产物与非意图产物的比率为至少2:1、5:1、10:1、
20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或200:1或更多。在一些实施方案中,意图点突变与插入/缺失形成的比率大于1:1、10:1、50:1、100:1、500:1、或1000:1或更多。
在一些实施方案中,切割单链与引导核酸杂交。在一些实施方案中,切割单链与包含第一核
碱基的链相反。在一些实施方案中,第一碱基是胞嘧啶。在一些实施方案中,第二核碱基不
是G、C、A、或T。在一些实施方案中,第二碱基是尿嘧啶。在一些实施方案中,碱基编辑器抑制编辑链的碱基切割修复。在一些实施方案中,基编辑器保护或结合未编辑的链。在一些实施
方案中,核碱基编码器包含UGI活性。在一些实施方案中,核碱基编辑包含切口酶活性。在一些实施方案中,意图的编辑碱基对在PAM位点上游。在一些实施方案中,意图的编辑碱基对
在PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方案中,意图的编辑碱基对在PAM位点下游。在一些实施方案中,意图的编辑碱基
对在PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。
在一些实施方案中,该方法不需要规范(例如,NGG)PAM位点。在一些实施方案中,核碱基编
码器包含接头。在一些实施方案中,接头的长度为1-25个氨基酸。在一些实施方案中,接头
的长度为5-20个氨基酸。在一些实施方案中,接头长度为10、11、12、13、14、15、16、17、18、
19、或20个氨基酸。在一些实施方案中,靶区域包括靶窗,其中靶窗包含靶核碱基对。在一些实施方案中,靶窗包含1-10个核苷酸。在一些实施方案中,靶窗长度为1-9、1-8、1-7、1-6、1-
5、1-4、1-3、1-2、或1个核苷酸。在一些实施方案中,靶窗的长度为1、2、3、4、5、6、7、8、9、10、
11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方案中,意图的编辑碱基对发生在靶窗内。在一些实施方案中,靶窗包括意图的编辑碱基对。在一些实施方案中,核碱基编
码器是本文提供的任一种碱基编辑器。
[0454] 试剂盒、载体、细胞
[0455] 本公开的一些方面提供了包含核酸构建体的试剂盒,其包含(a)编码如本文提供的Cas9蛋白或Cas9融合蛋白的核苷酸序列;和(b)驱动(a)序列表达的异源启动子。在一些
实施方案中,所述试剂盒进一步包含编码引导RNA主链的表达构建体,其中所述构建体包含
克隆位点,所述克隆位点定位为允许将与靶序列相同或互补的核酸序列克隆到引导RNA主
链中。
[0456] 本公开的一些方面提供了编码如本文所提供的融合蛋白的Cas9蛋白的多核苷酸。本公开的一些方面提供了包含此类多核苷酸的载体。在一些实施方案中,载体包含驱动多
核苷酸表达的异源启动子。
[0457] 本公开的一些方面提供了细胞,其包含如本文提供的Cas9蛋白、融合蛋白、编码融合蛋白的核酸分子、包含Cas9蛋白和gRNA的复合物和/或载体。
[0458] 提供以上报告物系统的示例性实施方案的描述仅用于说明的目的,而不意味着限制。本公开涵盖另外的报告物系统,例如上面详细描述的示例性系统的变体。
实施例
[0459] 实施例1:Cas9脱氨酶融合蛋白
[0460] 产生许多Cas9:脱氨酶融合蛋白并表征产生的融合物的脱氨酶活性。测试了以下脱氨酶:
[0461] 人AID(hAID):
[0462]MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYR
VTWFTSWSPCYDCARHVADFLRGNPYLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVEN
HERTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGLLD(SEQ ID NO:607)
[0463] 人AID-DC(hAID-DC,具有7倍增加的活性的hAID的截短形式):
[0464]MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYR
VTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVEN
HERTFKAWEGLHENSVRLSRQLRRILL(SEQ ID NO:608)
[0465] 大鼠APOBEC1(rAPOBEC1):
[0466]MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFC
PNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWR
NFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK
(SEQ ID NO:284)
[0467] 人APOBEC1(hAPOBEC1)
[0468]MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERDFH
PSMSCSITWFLSWSPCWECSQAIREFLSRHPGVTLVIYVARLFWHMDQQNRQGLRDLVNSGVTIQIMRASEYYHCWR
NFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFRLHLQNCHYQTIPPHILLATGLIH 
PSVAWR(SEQ ID NO:5724)
[0469] 海七鳃鳗(Lamprey)CDA1(pmCDA1):
[0470]MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEE
YLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSE
HYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILHTTKSPAV(SEQ ID NO:609)
[0471] 人APOBEC3G(hAPOBEC3G):
[0472]MELKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPKVTLTIFVARLYYFWDPDYQEALR
SLCQKRDGPRATMKIMNYDEFQHCWSKFVYSQRELFEPWNNLPKYYILLHIMLGEILRHSMDPPTFTFNFNNEPWVR
GRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFS
CAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISIMTYSEFKHCWDTFVDHQGCPFQPWDGLDEH
SQDLSGRLRAILQNQEN(SEQ ID NO:610)
[0473] 对ssDNA的脱氨酶活性。采用基于USER(尿嘧啶特异性切除试剂)酶的脱氨基化测定法来测试各种脱氨酶对单链DNA(ssDNA)底物的活性。USER酶从New England Biolabs获
得。对ssDNA底物提供不同位置处的靶胞嘧啶残基。ssDNA胞嘧啶靶残基的脱氨基化导致靶
胞嘧啶转化成尿嘧啶。USER酶切割尿嘧啶碱基并在该位置处切割ssDNA主链,将ssDNA底物
切割成两个更短的DNA片段。在一些测定法中,在一端用染料标记ssDNA底物,例如用5’Cy3
标记物(以下方案中的*)标记。在链的脱氨基化、切除和切割后,可以使底物进行电泳,并且可以通过检测标记物来显现底物和从它释放的任何片段。在Cy5是图像的情况下,则仅带有
标记物的片段将经由成像可见。
[0474] 在一种USER酶测定法中,使用与测试的各种脱氨酶的靶序列匹配的ssDNA底物。将编码测试的脱氨酶的表达盒插入已在实验室中使用的CMV主链质粒(Addgene质粒52970)。
使用TNT快速偶联转录/翻译系统(Promega)根据制造商推荐表达脱氨酶蛋白质。温育90分
钟后,将5mL裂解物与5’Cy3-标记的ssDNA底物和1单位USER酶(NEB)一起温育3小时。将DNA
在10%TBE PAGE凝胶上分离,并使用Cy染料成像使DNA成像。图41显示了USER酶测定法的示
意图。
[0475] 图1显示了测试的脱氨酶对ssDNA底物,如Doench 1、Doench 2、G7’和VEGF靶物2的脱氨酶活性。rAPOBEC1酶表现出对具有一个规范NGG PAM,而非具有阴性对照非规范NNN 
PAM的单链DNA底物的大量脱氨基化。
[0476] 产生具有APOBEC家族脱氨酶的Cas9融合蛋白。构建以下融合构造,并且对ssDNA测试:
[0477] rAPOBEC1-GGS-dCas9一级序列
[0478]
[0479]
[0480] rAPOBEC1-(GGS)3-dCas9一级序列
[0481]
[0482]
[0483]
[0484]
[0485]
[0486]
[0487] 图2显示N端脱氨基酶融合物对单链DNA底物显示显著的活性。出于此原因,仅选择N端构造以进行进一步的实验。
[0488] 图3显示了通过脱氨酶-dCas9:sgRNA复合物的双链DNA底物结合。生成许多双链脱氨酶底物序列。下文提供了序列。在这些序列中鉴定根据图3的结构(36bp:下划线,sgRNA靶序列:粗体;PAM:框示;21bp:斜体)。所有底物都用5’-Cy3标记物标记:
[0489]
[0490]
[0491] *除“8U”外的所有底物中,图3中的顶部链是本文规定的序列的互补物。在“8U”的情况下,存在有与U相反的“G”。
[0492] 图4显示了双链DNA脱氨基化测定法的结果。表达融合融合蛋白,并且通过Ni-NTA和Sepharose层析用N端His6标签纯化。为了对dsDNA底物评估脱氨基化,以1:8dsDNA:融合
蛋白比率温育先前的载玻片上显示的各种dsDNA底物,并在37℃温育2小时。一旦融合物的
dCas9部分结合DNA,它阻断USER酶接近DNA。因此,在温育后使融合蛋白变性,并且在离心柱上纯化dsDNA,然后与USER酶温育45分钟并在10%TBE-尿素凝胶上解析所得的DNA底物和底
物片段。
[0493] 图5证明Cas9融合物可以靶向双链DNA靶序列的位置3-11(根据图3中的示意图编号)。上部凝胶:1μM rAPOBEC1-GGS-dCas9、125nM dsDNA、1eq sgRNA。中间凝胶:1μM 
rAPOBEC1-(GGS)3-dCas9、125nM dsDNA、1eq sgRNA。下部凝胶:1.85μM rAPOBEC1-XTEN-
dCas9、125nM dsDNA、1eq sgRNA。基于来自这些凝胶的数据,将位置3-11(根据图3中的编
号)充分暴露于要由测试的融合蛋白靶向的脱氨酶的活性。脱氨酶接近其他位置最可能受
到dCas9蛋白阻断。
[0494] 数据进一步指示仅3个氨基酸(GGS)的接头对于使脱氨酶接近DNA的单链部分不是最佳的。9个氨基酸的接头[(GGS)3](SEQ ID NO:596)和更具结构的16个氨基酸的接头
(XTEN)允许更有效的脱氨基化。
[0495] 图6证明了正确的引导RNA例如正确的sgRNA是脱氨酶活性所需要的。凝胶显示融合脱氨酶与dCas9,脱氨酶变为序列特异性的(例如,使用与eGFP sgRNA的融合导致无脱氨
基化),并且还赋予脱氨酶使dsDNA脱氨基化的能力。脱氨酶的天然底物是ssDNA,并且当不
添加sgRNA时不发生脱氨基化。这与APOBEC脱氨酶本身不使双链DNA脱氨基化的报告知识一
致。数据指示Cas9在短窗内打开双链DNA螺旋,暴露出单链DNA,然后单链DNA可接近APOBEC
脱氨酶以进行胞苷脱氨基化。下面提供了使用的sgRNA序列。序列(36bp:下划线,sgRNA靶序列:粗体;PAM:框示;21bp:斜体)
[0496] DNA序列8:
[0497]
[0498] 正确sgRNA序列(部分3’序列):
[0499] 5’-AUUAUUCCGCGGAUUUAUUUGUUUUAGAGCUAG...-3’(SEQ ID NO:634)
[0500] eGFP sgRNA序列(部分3’序列):
[0501] 5’-CGUAGGCCAGGGUGGUCACGGUUUUAGAGCUAG...-3’(SEQ ID NO:635)
[0502] 实施例2:DNA靶序列的脱氨基化
[0503] 示例性的脱氨基化靶物。可以将本文描述的dCas9:脱氨酶融合蛋白在体外或离体递送到细胞或体内递送到受试者,并且可以用于当靶核苷酸就PAM而言位于位置3-11中时
实现C至T或G至A转换。示例性的脱氨基化靶物包括但不限于以下:CCR5截短:可以将编码
CCR5的Q93、Q102、Q186、R225、W86或Q261的任何密码子脱氨基化以产生终止密码子,其导致CCR5的非功能性截短,在HIV治疗中具有应用。APOE4突变:可以将编码C11R和C57R突变体
APOE4蛋白的突变体密码子脱氨基化以恢复为野生型氨基酸,在阿尔茨海默氏病的治疗中
具有应用。eGFP截短:可以将编码Q158、Q184、Q185的任何密码子脱氨基化以产生终止密码
子,或可以将编码M1的密码子脱氨基化以编码I,它们都导致eGFP荧光的丧失,在报告物系
统中具有应用。eGFP恢复:可以将编码T65A或Y66C突变体GFP(其不表现出实质性荧光)的突
变体密码子脱氨基化以恢复野生型氨基酸并赋予荧光。PIK3CA突变:可以将编码K111E突变
体PIK3CA的突变体密码子脱氨基化以恢复野生型氨基酸残基,在癌症中具有应用。CTNNB1
突变:可以将编码T41A突变体CTNNB1的突变体密码子脱氨基化以恢复野生型氨基酸残基,
在癌症中具有应用。HRAS突变:可以将编码Q61R突变型HRAS的突变体密码子脱氨基化以恢
复野生型氨基酸残基,在癌症中具有应用。P53突变:可以将编码Y163C、Y236C或N239D突变
型p53的任何突变体密码子脱氨基化以编码野生型氨基酸序列,在癌症中具有应用。
[0504] 在图7和图8中证明了使双链DNA中的这些靶序列脱氨基化的可行性。图7显示脱氨酶-dCas9:sgRNA复合物对体内靶序列的靶DNA结合的机制。
[0505] 图8显示了示例性疾病相关靶序列的成功脱氨基化。上部凝胶:CCR5Q93:编码位置10中的链靶物(位置2、5、6、8、9处潜在脱靶);CCR5Q102:编码位置9链中的靶物(位置1、12、
14处潜在脱靶);CCR5Q186:编码位置9中的链靶物(位置1、5、15处潜在脱靶);CCR5R225:编码位置6中的链靶物(无潜在脱靶);eGFP Q158:编码位置5中的链靶物(位置1、13、16处的潜在脱靶);eGFP Q184/185:编码位置4和7中的链靶物(位置3、12、14、15、16、17、18处的潜在脱靶);eGFP M1:位置12中的模板链靶(位置2、3、7、9、11处的潜在脱靶)(在小程度上靶向位置7和9);eGFP T65A:位置7中的模板链靶(位置1、8、17处的潜在脱靶);PIK3CA K111E:位置
2中的模板链靶(位置5、8、10、16、17处的潜在脱靶);PIK3CA K111E:位置13中的模板链靶(位置11、16、19处的潜在脱靶)X.下部凝胶:CCR5W86:位置2和3中的模板链靶(位置1、13处的潜在脱靶)X;APOE4C11R:编码位置11中的链靶物(位置7、13、16、17处的潜在脱靶);
APOE4C57R:编码位置5中的链靶物)(位置7、8、12处的潜在脱靶);eGFP Y66C:位置11中的模板链靶(位置1、4,6、8、9、16处的潜在脱靶);eGFP Y66C:位置3中的模板链靶(位置1、8、17处的潜在脱靶);CCR5Q261:编码位置10中的链靶物(位置3、5、6、9、18处的潜在脱靶);
CTNNB1T41A:位置7中的模板链靶(位置1、13、15、16处的潜在脱靶)X;HRAS Q61R:位置6中的模板链靶(位置1、2、4、5、9、10、13处的潜在脱靶);p53Y163C:位置6中的模板链靶(位置2、
13、14处的潜在脱靶);p53Y236C:位置8中的模板链靶(位置2、4处的潜在脱靶);p53N239D:
位置4中的模板链靶(位置6、8处的潜在脱靶)。下文提供了疾病靶物的示例性DNA序列(框示
PAM(5’-NGG-3’)和靶位置):
[0506]
[0507]
[0508]
[0509]
[0510] 实施例3:尿嘧啶糖基化酶抑制剂融合物改善脱氨基化效率
[0511] 可以通过将尿嘧啶糖基化酶抑制剂(UGI)与dCas9:脱氨基酶融合蛋白融合显著改善通过dCas9:脱氨基酶融合蛋白在哺乳动物细胞中的直接可编程核碱基编辑效率。
[0512] 图9显示了使用rAPOBEC1-XTEN-dCas9在人HEK293细胞中的体外C→T编辑效率:
[0513]
[0514]
[0515] 原间隔物序列如下:
[0516]
[0517] *PAM是框示的,靶窗(位置3-11)内的C残基是编号且粗体的。
[0518] 图10证明了当将UGI域与rAPOBEC1:dCas9融合蛋白融合时大大增强HEK293T细胞中对相同原间隔物序列的C→T编辑效率。
[0519]
[0520]
[0521] 从对靶序列的两条链的测序显示图9和图10中的百分比。因为仅链之一是脱氨基化的底物,所以此测定法中最大可能脱氨基化值为50%。因此,脱氨基化效率是表中所示的
百分比的两倍。例如,50%的值指100%双链靶序列的脱氨基化。
[0522] 当尿嘧啶糖基化酶抑制剂(UGI)与dCas9:脱氨酶融合蛋白融合(例如,rAPOBEC1-XTEN-dCas9-[UGI]-NLS)时,观察到细胞中编辑效率的显著增加。此结果指示在哺乳动物细
胞中,切出U:G碱基对中的尿嘧啶碱基的DNA修复机制在DNA编辑中是限速过程。将UGI栓系
到dVas9:脱氨酶融合蛋白大大提高了编辑产率。
[0523] 在没有UGI的情况下,人细胞中典型的编辑效率在约2-14%的产率范围内(图9和图10,“XTEN”条目)。在UGI的情况下(图10,“UGI”条目),在约6-40%的范围内观察到编辑。
因此,使用UGI融合比通过HDR校正点突变的当前备选方法更有效,其在校正点突变以外也
参见过量的插入/缺失。没有观察到源自Cas9:脱氨酶:UGI融合物处理的插入/缺失。
[0524] 实施例4:在没有双链DNA切割的情况下基因组DNA中的靶核苷酸的直接可编程转化
[0525] 目前的基因组编辑技术在感兴趣的靶基因座处引入双链DNA断裂作为基因校正的第一步39,40。尽管大多数遗传疾病源自单一核碱基向不同核碱基的突变,但是恢复此类变化的目前方法是非常低效的,并且由于对双链DNA断裂的细胞应答而通常在靶基因座处诱导
大量的随机插入和缺失(插入/缺失)39,40。本文报告了核碱基编辑的发展,用于基因组编辑
的新策略,其实现以可编程的方式将一个靶核碱基直接转化为另一个靶核碱基,而不需要
双链DNA主链切割。工程化改造CRISPR/Cas9融合物,并且保留要用引导RNA编程的能力的胞
苷脱氨酶APOBEC1不诱导双链DNA断裂,并且介导胞苷向尿嘧啶的直接转化,从而若靶向模
板链的话,在DNA复制、DNA修复或转录后实现C→T(或G→A)取代。所得的“核碱基编辑器”转化约5个核苷酸的窗内的胞苷,并且可以在体外有效校正多个与人疾病相关的点突变。在四
种转化的人和鼠细胞系中,分别融合尿嘧啶糖基化酶抑制剂(UGI)以及使用靶向非编辑链
的Cas9切口酶的第二代和第三代核碱基编码酶可以克服对核碱基编辑的细胞DNA修复应
答,导致人细胞中总细胞DNA的高达37%或(约15-75%)的永久校正,具有最小(通常≤1%)
插入/缺失形成。相反,在相同靶物上的规范Cas9介导的HDR产生0.7%校正的平均值及4%
插入/缺失形成。使用核碱基编辑器在人乳腺癌和淋巴瘤细胞中将两种致癌性p53突变恢复
为野生型等位基因,并且在小鼠星形胶质细胞中将ApoE4中阿尔茨海默氏病相关的Arg密码
子转化为非疾病相关Cys密码子。碱基编辑扩充点突变基因组编辑的范围和效率。
[0526] 聚簇规则间隔短回文重复序列(CRISPR)系统是原核适应性免疫系统,其已经适应于介导多种生物体和细胞系中的基因组工程41。CRISPR/Cas9蛋白-RNA复合物通过与引导
RNA碱基配对而定位于靶DNA序列,并且在由引导RNA规定的基因座处天然创建DNA双链断裂
(DSB)。响应DSB,内源DNA修复过程主要通过非同源末端连接(NHEJ)在DNA切割位点处导致
随机插入或缺失(插入/缺失)。在存在同源DNA模板的情况下,切割位点周围的DNA可以通过
同源性定向修复(HDR)来替换。当疾病相关基因的简单破坏是足够的(例如,以治疗一些功
能获得性疾病)时,靶向DNA切割然后进行插入/缺失形成可以是有效的。然而,对于大多数
已知的遗传疾病,需要校正靶基因座中的点突变,而不是基因的随机破坏,以解决或研究疾
68
病的潜在原因 。
[0527] 受此需求的驱动,研究人员投入了大量精力来提高HDR的效率并抑制NHEJ。例如,已经显示了连接酶IV(NHEJ途径中的一种必需酶)的小分子抑制剂提高HDR的效率42,43。然
而,此策略在有丝分裂后细胞中具有挑战性,所述有丝分裂后细胞通常下调HDR,并且其治
疗相关性受限于抑制非靶细胞中的连接酶IV的潜在风险。可以通过将Cas9引导RNA复合物
定时递送到化学同步化的细胞中来实现增强的HDR效率,因为HDR效率是高度细胞周期依赖
性的44。然而,此类方法限于细胞培养中的研究应用,因为同步化细胞是高度破坏性的。尽管有这些发展,但目前在大多数情况下使用HDR替换点突变的策略是非常低效的(通常约为
42,43,45,46,75
0.1-5%) ,尤其是在未修饰的非分裂细胞中。此外,HDR在解决双链断裂期间与
NHEJ竞争,并且插入/缺失一般是比基因替换更丰富的结果。这些观察结果强调需要开发备
选方法来安装不依赖于参见双链DNA断裂的基因组DNA中的特异性修饰。已经显示连接酶IV
(NHEJ途径中的必需酶)的小分子抑制剂增加HDR的效率42,43。然而,此种策略在有丝分裂后
细胞中具有挑战性,所述有丝分裂后细胞通常下调HDR,并且其治疗相关性受限于抑制非靶
细胞中的连接酶IV的潜在风险。可以通过将Cas9引导RNA复合物定时递送到化学同步化的
细胞中来实现增强的HDR效率,因为HDR效率是高度细胞周期依赖性的44。然而,此类方法限
于细胞培养中的研究应用,因为同步化细胞是高度破坏性的。在某些情况下,有可能设计
HDR模板,使得成功HDR的产物在PAM序列中含有突变,因此不再是后续Cas9修饰的底物,从
而提高了HDR产物的总产率75,尽管此类方法对产物序列施加限制。最近,此策略已经与使用与非靶链互补的ssDNA供体和高效率核糖核蛋白(RNP)递送结合以实质性提高HDR的效率,
但即使在这些情况下,HDR与NHEJ结果的比率相对较低(<2)83。
[0528] 在不需要DNA主链切割的情况下在可编程靶位点处将一个核碱基转化为另一个核碱基的直接催化可以在不在感兴趣的基因座处引入不想要的随机插入/缺失的情况下增加
基因校正相对于HDR的效率。催化死亡的Cas9(dCas9)(其含有失活其核酸酶活性的
Asp10Ala和His840Ala突变)保留其以引导RNA编程方式结合DNA但不切割DNA主链的能
力16,47。原则上,将dCas9与介导一个核碱基直接转化为另一个核碱基的酶或化学催化剂缀
29
合可以实现RNA编程核碱基编辑。胞嘧啶(C)的脱氨基化由胞苷脱氨酶催化 并产生尿嘧啶
(U),其具有胸腺嘧啶(T)的碱基配对性质。将dCas9与胞苷脱氨酶融合以测试它们在引导
RNA规定的DNA基因座处将C转化为U的能力。大多数已知的胞苷脱氨酶都对RNA起作用,并且
已知接受DNA的少数例子需要单链DNA48。对dCas9-靶DNA复合物的最近研究揭示了置换DNA
12
链的至少9个核苷酸在Cas9:引导RNA:DNA“R环”复合物的形成后未修复 。实际上,在Cas9R
环复合物的结构中,置换的DNA链的原间隔物的前11个核苷酸是无序的,提示了其运动不是
高度受约束的76。还推测非模板链中的胞嘧啶处的Cas9切口酶诱导的突变可以源自细胞胞
苷脱氨酶对其接近性77。最近对dCas9-靶DNA复合物的研究揭示了,当Cas9与其靶DNA序列结
合时,非模板链上至少26个碱基不配对。推断R环中此段单链DNA的亚组可以充当dCas9栓系
的胞苷脱氨酶的底物以实现DNA中C至U的直接可编程转换(图11A)。
[0529] 在哺乳动物细胞裂解物衍生的体外转录-翻译系统中表达四种不同的胞苷脱氨酶(hAID、hAPOBEC3G、rAPOBEC1、和pmCDA1),并评估ssDNA脱氨基化。在这四种酶中,rAPOBEC1在测试条件下显示最高的脱氨酶活性,并选择用于dCas9融合实验(图36A)。尽管将
rAPOBEC1附加到dCas9的C端消除脱氨酶活性,但与dCas9的N端融合保留与未融合酶的水平
相当的水平的对ssDNA的脱氨酶活性。在不同长度和组成的接头的情况下表达并纯化四种
rAPOBEC1-dCas9融合物(图36B),并在体外对每种融合物评估单一引导RNA(sgRNA)编程的
dsDNA脱氨基化(图11A至11C和图15A至15D)。在体外观察到有效的、序列特异性的sgRNA依
赖性C至U转化(图11A至11C)。使用长度9个氨基酸内的rAPOBEC1-dCas9接头,转化效率最
高。易受脱氨基化的位置数目(脱氨基化“活性窗”)随着从3个氨基酸延伸至21个氨基酸的
接头长度而增加(图36C至36F15A至15D)。发现从原间隔物内的位置4至8的约5个核苷酸的
有效脱氨基化窗的情况下,16个残基的XTEN接头50在这两个特征之间提供有希望的平衡,将
原间隔物相邻基序(PAM)远端末端计数为位置1。rAPOBEC1-XTEN-dCas9蛋白充当第一代核
碱基编辑器(NBE1)。
[0530] 选择在理论上可以通过C至T核碱基编辑校正的与人疾病相关的7种突变,合成相应序列的双链DNA 80聚体,并评估NBE1在体外校正这些突变的能力(图16A至16B)。在这7种
靶物的6种中在体外,NBE1以平均表观编辑效率44%以与靶C的有效编辑,或者在存在多个C
时与活性窗内的至少一个C的有效编辑一致地产生产物(图16A至图16B)。在脱氨基化窗内
存在多个C的3种情况中,观察到这些中的一些或所有胞嘧啶的脱氨基化的证据。在7种情况
的仅一种中,测试观察到的编辑产物的实际产率(图16A至16B)。尽管报告APOBEC1底物的优
选序列背景是CC或TC51,但是预期由dCas9与靶基因座结合介导的脱氨酶及其单链DNA底物
的有效摩尔浓度的增加可以放宽此类约束。为了说明NBE1的序列背景通用性,测定其编辑
在原间隔物的位置7处含有单一固定C的60聚体双链DNA寡核苷酸的能力,以及所有36个单
突变变体,其中将原间隔物碱基1-6和8-13个别改变为其他三个碱基的每个。这37种序列中
的每种用1.9μM NBE1、1.9μM相应sgRNA和125nM DNA处理2小时,这与体外Cas9测定法的标
准条件类似52。高通量DNA测序(HTS)揭示靶定链的50-80%C至U转化(源自这两条DNA链的总
序列读段的25-40%,其中之一不是NBE1的底物)(图12A)。靶C周围的核苷酸对编辑效率具
有很小的影响,不依赖于序列背景,除非靶C的直接5’的碱基是G,在此情况下,编辑效率是实质性较低的(图12A至12B)。对原间隔物内的位置1至8处的所有四种NC基序评估体外NBE1
活性(图12A至12B)。一般地,观察到底物上的NBE1活性遵循TC≥CC≥AC>GC的顺序,当靶C位
于或接近位置7时达到最大编辑效率。此外,观察到核碱基编码器是高度持续的并且将在5
碱基活性窗内的相同DNA链上有效地将大多数C转化为U(图17)。
[0531] 尽管BE1有效地处理试管中的底物,但是在细胞中,大量可能的DNA修复结果决定碱基编辑的初始U:G产物的命运(图29A)。为了测试核碱基编辑在人细胞中的有效性,针对
53
哺乳动物表达优化NBE1密码子选择,附加C端核定位序列(NLS) ,并测定其贯穿整个人基因
组在6个充分研究的靶位点中的14个C上在人细胞中将C转化为T的能力(图37A)54。通过将
NBE1与对应于6种不同基因组位点的合成80聚体温育,然后进行HTS在体外在每个原间隔物
内确认可编辑的C(图13A至13C、图29B和图25)。接下来,用编码NBE1和6种靶sgRNA之一的质
粒转染HEK293T细胞,允许核碱基编辑发生三天,从细胞中提取基因组DNA,并通过HTS分析
基因座。尽管对所有6种情况观察到靶基因座处的细胞中C至T编辑,但是核碱基编辑的效率
是总DNA序列的1.1%至6.3%或0.8%-7.7%(对应于靶定链的2.2%-12.6%),与体外核碱
基编辑的效率相比效率降低6.3倍至37倍或5倍至36倍(图13A至13C,图29B和图25)。观察到
当底物C前面有T时位置4-8的典型窗外部的一些碱基编辑,我们归因于APOBEC1对TC底物的
异常高的活性48。
[0532] 询问对U:G异双链体DNA存在的细胞DNA修复应答是否负责细胞中核碱基编辑效率的大幅降低(图29A)。尿嘧啶DNA糖基化酶(UDG)催化从细胞中DNA中除去U,并启动碱基切割
修复(BER),将U:G对恢复为C:G对为最常见的结果(图29A)55。尿嘧啶DNA糖基化酶抑制剂
(UGI)(一种来自枯草芽孢杆菌噬菌体PBS1的83个残基的蛋白质)有力阻断人UDG活性(IC50
56
=12pM) 。将UGI与NBE1的C端融合以创建第二代核碱基编辑器NBE2,并且重复对所有6个基
因组基因座的编辑测定法。平均而言,人细胞中的编辑效率在NBE2的情况下比在NBE1的情
况下高3倍,导致基因转换效率高达测序的总DNA的22.8%(高达靶定链的45.6%)(图13A至
13C和图29B)。为了测试人细胞中的碱基编辑,针对哺乳动物表达优化BE1密码子选择,并附
53
加C端核定位序列(NLS) 。
[0533] 当将过表达UGI的分开质粒与NBE1共转染时,观察到类似的编辑效率(图18A至18H)。然而,尽管UGI与NBE1的直接融合没有导致监测的非靶定基因组位置处的C至T突变的
显著增加,但是未融合的UGI的过表达可检测地增加基因组中其他地方的C至T突变的频率
(图18A至18H)。通过评估U2OS细胞中相同六种基因组靶物的编辑效率确认NBE2介导的核碱
基编辑的通用性,并观察到与HEK293T细胞中的结果相似的结果(图19)。重要的是,NBE2通
常不导致任何可检测到的插入/缺失(图13C和图29C),这与NHEJ对双链DNA断裂的已知机制
依赖性一致57,78。这些结果共同指示将UGI与NBE1缀合可以大大增加核碱基编辑在人细胞中
的效率。
[0534] 通过在测试的基因组基因座之两处监测HEK293T细胞中多个细胞分裂内的编辑效率确认核碱基编辑在人细胞中的持久性。在两个时间点时收获基因组DNA:在用表达NBE2和
合适的sgRNA的质粒转染后三天,以及传代细胞并使它们再生长四天(约五次随后的细胞分
裂)后。在非传代细胞(对于三种不同的靶C,在4.6%至6.6%的靶定链中观察到编辑)和传
代细胞(对于相同的三个靶C,在4.6%至6.4%的靶定链中观察到效率)之间没有观察到编
辑效率的显著变化,确认细胞分裂后核碱基编辑变为永久性的(图20)。插入/缺失很少源自
由细胞修复过程对U:G损伤的处理,其涉及已知导致插入/缺失的单链断裂中间体84。鉴于每
个人细胞每天从自发性胞苷脱氨酶产生数百个内源性U:G损伤85,预期来自U:G损伤修复的
总插入/缺失频率在单一靶基因座处不可能自BE1或BE2活性增加。
[0535] 为了进一步提高细胞中核碱基编辑的效率,预期对非编辑链产生切口可以导致由细胞除去的较小分数的编辑U,因为真核错配修复机制使用链不连续性来指导对错配双链
体的任何断裂链的DNA修复(图29A)58,79,80。在Cas9HNH域的位置840处恢复催化His残
47,59
基 ,导致第三代核碱基编码器NBE3,其切割含有与靶定C相反的G的非编辑链,但不切割
含有C的靶链。因为NBE3在Cas9中仍含有Asp10Ala突变,所以它不诱导双链DNA切割。此种对
非编辑链产生切口的策略相对于NBE2将人细胞中的核碱基编辑效率再提升1.4至4.8倍,导
致HEK293T细胞中6个相同的人基因组靶物上含有靶定C至T转化的总DNA序列的高达36.3%
(图13A至13C和图29B)。重要的是,从NBE3处理观察到仅小的插入/缺失频率,平均为0.8%
(对于6个不同基因座,范围为0.2%至1.6%)(图13C、图29C和图34)。相比之下,当用野生型Cas9、sgRNA和单链DNA供体模板处理细胞以在这些基因座中的三处介导HDR时,观察到平均
值仅为0.7%的C至T转化效率,具有高得多的相对插入/缺失形成,平均值为3.9%(图13A至
13C和图29C)。等位基因转化与NHEJ结果的比率平均值对于BE2为>1,000,对于BE3为23,以
及对于野生型Cas9为0.17(图3c)。我们通过监测HEK293T细胞中在HEK293位点3和4基因组
基因座处多个细胞分裂内的编辑效率确认了人细胞中碱基编辑的持久性(图38)。这些结果
共同建立核碱基编辑可以比Cas9介导的HDR在人细胞中实现有效得多的靶向单碱基编辑,
并且在少得多的插入/缺失形成(NBE3)或无(NBE2)插入/缺失形成的情况下实现。
[0536] 接下来,评估NBE1、NBE2和NBE3在人细胞中的脱靶活性。已经广泛研究了Cas9、54,60-62
dCas9和Cas9切口酶的脱靶活性(图23至24和31至33) 。由于已经显示rAPOBEC1的序列
优先不依赖于距离靶C的超过一个碱基的DNA碱基63,与图12A至12B中观察到的序列背景不
依赖性一致,假定核碱基编辑器的潜在脱靶活性源自脱靶Cas9结合。因为仅一定分数的
Cas9脱靶位点在核碱基编辑的活性窗内具有C,所以脱靶核碱基编辑位点应当是规范Cas9
变体的脱靶位点的亚组。对于所研究的六个位点中的每个,对先前使用GUIDE-seq方法测定
的人细胞中前10种已知的Cas9脱靶基因座测序(图23至27和31至33)54,61。观察到仅在已知
dCas9脱靶基因座的亚组(对于NBE1和NBE2为16/34,47%,且对于NBE3为17/34,50%)处可
检测的脱靶核碱基编辑。在所有情况下,脱靶碱基编辑底物含有5个碱基的靶窗内的C。通
常,脱靶C至T转化与脱靶Cas9核酸酶介导的基因组修饰频率平行(图23至27)。还监测在测
试的6个中靶和34个脱靶基因座周围的2,500个独特胞嘧啶处的C至T转化,代表从约
1.8x106个细胞衍生的总共14,700,000个序列读数,并且在与未处理的细胞相比在NBE1、
NBE2或NBE3处理后没有观察到这些其他位点之任一处的C至T转化的可检测增加(图28)。总
之,这些发现提示核碱基编辑器的脱靶底物包括Cas9脱靶底物的亚组,并且人细胞中的核
碱基编码器不以可以由本文所使用的方法检测的水平诱导贯穿整个基因组的未靶向的C至
T转化。在非传代的HEK293T细胞(在BE2的情况下对三个靶C在1.8%至2.6%的测序链中观
察到编辑而在BE3的情况下在6.2%至14.3%的测序链中观察到编辑)和碱基编辑后经历约
5次细胞分裂的细胞(在BE2的情况下对相同的靶C在1.9%至2.3%的测序链中观察到编辑
而在BE3的情况下在6.4%至14.5%的测序链中观察到编辑)之间的编辑效率没有观察到显
著的变化,确认这些细胞中的碱基编辑是可持续的(扩展数据图6)。
[0537] 最后,测试核碱基编辑校正哺乳动物细胞中三种疾病相关突变的潜力。载脂蛋白E基因变体APOE4编码氨基酸位置112和158处的两个Arg残基,并且是迟发型阿尔茨海默氏病
64
的最大且最常见的遗传风险因子 。在位置112或158处具有Cys残基的ApoE变体,包括APOE2
(Cys112/Cys158)、APOE3(Cys112/Arg158)、和APOE3’(Arg112/Cys158)已经显示65或假设81赋予比APOE4实质性更低的阿尔茨海默氏病风险。受到NBE1在体外将APOE4转化为APOE3’的
能力鼓励(图16A至16B),在内源鼠APOE基因已经由人APOE4(Taconic)替换的永生化小鼠星
形胶质细胞中试图此转化。通过核转染(核转染效率25%)将编码NBE3和合适的sgRNA的DNA
递送到这些星形胶质细胞中,2天后从所有处理的细胞中提取基因组DNA,并且测量通过HTS
的编辑效率。在总DNA测序读段的58-75%(核转染的星形胶质细胞的44%)中观察到Arg158
至Cys158的转化(图14A至14C和图30A)。如预期,还观察到密码子158的第三位处的总DNA的
36-50%编辑和Leu159的第一位处的总DNA的38-55%编辑,因为所有这三个C都在活性核碱
基编辑窗内。然而,由于TGC和TGT两者都编码Cys并且CTG和TTG两者都编码Leu,其它两个C
→T转化都不导致ApoE3’蛋白的氨基酸序列的变化。从源自1x106个细胞的>1,500,000个测
序读段,观察到在NBE3处理后靶定基因座处1.7%插入/缺失的证据(图35)。相反,用wt 
Cas9和供体ssDNA对星形胶质细胞的相同处理在靶定的基因座处导致0.1-0.3%的APOE4校
正和26-40%的插入/缺失,效率与使用Cas9和HDR的单碱基校正的先前报告45,75一致(图30A
和图40A)。相同处理但用靶向VEGFA基因座的sgRNA处理的星形胶质细胞没有显示APOE4碱
基编辑的证据(图34和图40A)。这些结果证明了核碱基编码器如何实现蛋白质编码序列中
精确的单氨基酸变化作为编辑的主要产物,即使在它们的持续合成能力导致基因组DNA中
超过一个核苷酸的变化时。已经广泛研究了Cas9、dCas9和Cas9切口酶的脱靶活性54,60-62。通常,由BE1、BE2和BE3的脱靶C至T转换与脱靶Cas9核酸酶介导的基因组修饰频率平行。
[0538] 显性失活p53突变Tyr163Cys和Asn239Asp与几种类型的癌症强烈关联66-67。这两种突变都可以通过模板链上的C至T转换校正(图16A至16B)。用编码NBE3和编程为校正
Tyr163Cys的sgRNA的DNA核转染p53Tyr163Cys突变纯合的人乳腺癌细胞系(HCC1954细胞)。
因为HCC1954细胞的核转染效率<10%,所以将表达IRFP的质粒共核转染到这些细胞中,以
使得能够在处理后两天通过荧光激活细胞分选分离核转染的细胞。基因组DNA的HTS揭示
7.6%的核转染的HCC1954细胞中的Tyr163Cys突变的校正(图30B和图40A至40B)。还以92%
核转染效率用编码NBE2和编程为校正Asn239Asp的sgRNA的DNA核转染p53Asn239Asp杂合的
人淋巴瘤细胞系(ST486细胞)。在11%的经处理的ST486细胞(12%的经核转染的ST486细
胞)中观察到Asn239Asp突变的校正。与在HEK细胞中的发现一致,没有从用NBE2处理ST486
细胞观察到插入/缺失,并且从用NBE3处理HCC1954细胞观察到0.6%的插入/缺失形成。在
源自2x105个细胞的>2,000,000个测序读段中没有以高于未处理对照的频率的频率检出在
原间隔物两侧的至少50个碱基对内的其他DNA变化(图14A至14C、图30B和表1)。这些结果共
同表示基因组DNA中三种疾病相关等位基因转化为它们的野生型形式,据我们所知其效率
和其他基因组修饰事件缺乏目前并非使用其它方法可实现。
[0539] 为了阐明核碱基编辑器解决人遗传疾病的潜在相关性,对NCBI ClinVar数据库68搜索已知的遗传疾病,其原则上可以通过此方法校正。通过首先仅检查单核苷酸多态性
(SNP),然后除去任何非致病性变体来过滤ClinVar。在24,670个致病性SNP中,3,956个由T
至C或A至G取代引起。对此列表进一步过滤以仅包括具有附近的NGG PAM的变体,该变体将
SNP置于脱氨基化活性窗内,导致1,089种临床相关的致病基因变体,其在原则上可以通过
本文描述的核碱基编码器校正(图21和表1)。为了阐明碱基编辑器解决人遗传疾病的潜在
68
相关性,对NCBI ClinVar数据库 搜索已知的遗传疾病,其在原则上可以通过此种方法来校
正。通过首先仅检查单核苷酸多态性(SNP),然后除去任何非致病性变体来过滤ClinVar。在
24,670个致病性SNP中,3,956个由T至C或A至G取代引起。对此列表进一步过滤以仅包括附
近的NGG PAM的变体,该变体将SNP定位在脱氨基化活性窗内,导致911种临床相关致病基因
变体,其在原则上可以通过本文所述的碱基编辑器校正。在这些中,284在碱基编辑活性窗
内仅包含一个C。可以在表1中找到这些致病性突变的详细列表。
[0540] 表1:具有NGG PAM的与人疾病相关的911个碱基编辑基因变体的列表(SEQ ID NO:747至1868在下文从上到下分别出现)。原间隔物和PAM序列中的“Y”指示待编辑的碱基,例
如C(SEQ ID NO:747至1868在下文从上到下分别出现)
[0541]
[0542]
[0543]
[0544]
[0545]
[0546]
[0547]
[0548]
[0549]
[0550]
[0551]
[0552]
[0553]
[0554]
[0555]
[0556]
[0557]
[0558]
[0559]
[0560]
[0561]
[0562]
[0563]
[0564]
[0565]
[0566]
[0567]
[0568]
[0569]
[0570]
[0571]
[0572]
[0573]
[0574]
[0575]
[0576]
[0577]
[0578]
[0579]
[0580]
[0581]
[0582]
[0583]
[0584]
[0585]
[0586]
[0587]
[0588]
[0589]
[0590]
[0591]
[0592]
[0593]
[0594]
[0595]
[0596]
[0597]
[0598]
[0599]
[0600] 在一些实施方案中,本文提供的任何碱基编辑器可以用于治疗疾病或病症。例如,本文提供的任何碱基编辑器可以用于校正与本文提供的任何疾病或病症相关的一种或多
种突变。可以治疗的示例性疾病或病症包括但不限于3-甲基戊烯二酸尿(3-
Methylglutaconic aciduria)2,46、XY性腺发育不全(XY gonadal dysgenesis)、4-α-羟基
苯基丙酮酸羟化酶缺陷、6-丙酮酰-四氢蝶呤合酶缺陷、全色盲(achromatopsia)、酸不稳定
亚单位缺陷(Acid-labile subunit deficiency)、肢端骨发育不全(Acrodysostosis)、肢
端红斑角化病(acroerythrokeratoderma)、ACTH抗性、不依赖于ACTH的大结节肾上腺增生
(macronodular adrenal hyperplasia)、活化的PI3K-δ综合征(Activated PI3K-delta 
syndrome)、急性间歇性卟啉病(intermittent porphyria)、急性髓样白血病、亚当斯-奥利
弗综合征1/5/6(Adams-Oliver  syndrome  1/5/6)、腺苷酸琥珀酸裂解酶缺乏
(Adenylosuccinate  lyase  deficiency)、肾上腺脑白质营养不良
(Adrenoleukodystrophy)、成人神经元蜡样质脂褐质沉积症(Adult neuronal ceroid 
lipofuscinosis)、成人发作性共济失调伴动眼运用不能(Adult onset ataxia with 
oculomotor apraxia)、晚期睡眠阶段综合征(Advanced sleep phase syndrome)、年龄相
关性黄斑变性,Alagille综合征、亚历山大病(Alexander disease)、Allan-Herndon-
Dudley综合征、Alport综合征、X-连隐性儿童交替性偏瘫(X-linked recessive,
Alternating hemiplegia of childhood),肺泡毛细血管发育异常伴肺静脉失调
(Alveolar capillary dysplasia with misalignment of pulmonary veins)、釉质形成
不全(Amelogenesis amfecta)、淀粉样蛋白源性转甲状腺素蛋白淀粉样变性
(Amyloidogenic transthyretin amyloidosis)、肌萎缩侧索硬化、贫血(非球形溶血性,由
于G6PD缺乏所致)、贫血(粒幼细胞性,吡哆醇难治性,常染色体隐性)、甲缺如
(Anonychia)、抗凝血酶III缺乏症(Antithrombin III deficiency)、主动脉瘤(Aortic 
aneurysm)、再生障碍性贫血(Aplastic anemia)、载脂蛋白C2缺乏(Apolipoprotein 
C2deficiency)、表观盐皮质激素过多(Apparent mineralocorticoid excess)、芳香酶缺
乏症(Aromatase deficiency)、心律失常性右心室心肌病(Arrhythmogenic right 
ventricular  cardiomyopathy)、家族性肥大性心肌病(Familial hypertrophic 
cardiomyopathy)、肥厚型心肌病、先天性多发关节挛缩症(Arthrogryposis multiplex 
congenital)、天冬氨酰基葡萄糖胺尿(Aspartylglycosaminuria)、窒息性腔部营养不良
(Asphyxiating thoracic dystrophy)、共济失调伴维生素E缺乏症(Ataxia with vitamin 
E deficiency)、共济失调(痉挛型)、心房颤动(Atrial fibrillation)、房间隔缺损
(Atrial septal defect)、非典型溶血尿毒症综合征(atypical hemolytic-uremic 
syndrome)、常染色体显性CD11C+/CD1C+树突状细胞缺乏症、常染色体显性进行性外部眼肌
麻痹伴线粒体DNA缺失(Autosomal dominant progressive external ophthalmoplegia 
with mitochondrial DNA deletions)、Baraitser-Winter综合征,巴特综合征(Bartter 
syndrome)、巴萨神经节钙化(Basa ganglia calcification)、Beckwith-Wiedemann综合
征、良性家族性新生儿癫痫(Benign familial neonatal seizures),良性肩关节肌营养不
良(Benign scapuloperoneal muscular dystrophy)、Bernard Soulier综合征、中间型β-
地中海贫血(Beta thalassemia  intermedia)、β-D-甘露糖苷贮积症(Beta-D-
mannosidosis)、Bietti晶状角膜视网膜营养不良(Bietti crystalline corneoretinal 
dystrophy)、胆汁酸吸收不良(Bile acid malabsorption)、生物素酰胺酶缺乏症
(Biotinidase deficiency)、Borjeson-Forssman-Lehmann综合征、Boucher Neuhauser综
合征、Bowen-Conradi综合征、短指(Brachydactyly)、Brown-Vialetto-Van laere综合征、
Brugada综合征、心律失常(Cardiac  arrhythmia)、心脸皮肤综合征
(Cardiofaciocutaneous syndrome)、心肌病、Carnevale综合征、肉碱棕榈酰转移酶II缺乏
(Carnitine palmitoyltransferase II deficiency)、Carpenter综合症、白内障、儿茶酚
胺依赖性室性心动过速(Catecholaminergic polymorphic ventricular tachycardia)、
中央轴空病(Central core disease)、染色体1、9和16着丝粒不稳定和免疫缺陷,脑常染色
体显性动脉病、脑-眼-面-骨骼综合征(Cerebro-oculo-facio-skeletal syndrome)、蜡样
脂褐质沉积症(Ceroid lipofuscinosis)、Charcot-Marie-Tooth病、胆固烷醇贮积病
(Cholestanol storage disease)、软骨钙质沉着症(Chondrocalcinosis)、软骨发育不全
(Chondrodysplasia)、慢性进行性多发性硬化(Chronic progressive multiple 
sclerosis)、辅酶Q10缺乏症(Coenzyme Q10deficiency)、科恩(Cohen)综合征、因子V和因
子VIII的联合缺乏(Combined deficiency of factor V and factor VIII)、组合免疫缺
陷(Combined immunodeficiency)、组合氧化磷酸化缺乏(Combined  oxidative 
phosphorylation deficiency)、组合部分17-α-羟化酶/17,20-裂合酶缺陷(Combined 
partial 17-alpha-hydroxylase/17,20-lyase deficiency)、补体因子d缺乏(Complement 
factor d deficiency)、完全组合17-α-羟化酶/17,20-裂合酶缺陷、视锥-杆营养不良
(Cone-rod dystrophy),先天性挛缩型蜘蛛状指(Congenital contractural 
arachnodactyly)、先天性糖基化病症(Congenital disorder of glycosylation)、先天性
脂肪瘤性过度生长(Congenital lipomatous overgrowth)、卵巢新生物(Neoplasm of 
ovary)、PIK3CA相关过度生长谱(PIK3CA Related Overgrowth Spectrum)、先天性长QT综
合征(Congenital long QT syndrome)、先天性肌营养不良(Congenital muscular 
dystrophy)、先天性肌肥大脑综合征(Congenital muscular hypertrophy-cerebral 
syndrome)、先天性肌无力综合征(Congenital myasthenic syndrome)、先天性肌病伴纤维
类型不均衡(Congenital myopathy with fiber type disproportion)、Eichsfeld型先天
性肌营养不良(Eichsfeld type congenital muscular dystrophy)、先天性静止夜盲
(Congenital stationary night blindness)、角膜营养不良(Corneal dystrophy)、
Cornelia de Lange综合征、颅骨骨端发育不全(Craniometaphyseal dysplasia)、Crigler 
Najjar综合征、Crouzon综合征、皮肤松弛症伴骨发育不全(Cutis  laxa  with 
osteodystrophy)、发绀(Cyanosis)、囊性纤维化、胱氨酸贮积症(Cystinosis)、细胞色素C
氧化酶缺乏(Cytochrome-c oxidase deficiency)、线粒体复合物I缺陷(Mitochondrial 
complex I deficiency)、D-2-羟基戊二酸尿症(D-2-hydroxyglutaric aciduria)、Danon
病、聋伴迷路不发育小耳畸形和小牙症(Deafness with labyrinthine aplasia 
microtia and microdontia,LAMM)、耳聋、乙酰-CoA乙酰转移酶缺乏症,亚铁氧化酶缺乏症(Deficiency of ferroxidase)、UDP-葡萄糖-己糖-1-磷酸尿苷基转移酶缺陷(Deficiency 
of UDPglucose-hexose-1-phosphate uridylyltransferase)、德雅兰-索塔斯病
(Dejerine-Sottas disease)、Desbuquois综合征(Desbuquois syndrome)、DFNA、2型糖尿
病、糖尿病-耳聋综合征、Diamond-Blackfan贫血、畸型发育不全、二氢蝶啶还原酶缺乏症、二氢嘧啶酶缺乏症(Dihydropyrimidinase deficiency)、扩张型心肌病(Dilated 
cardiomyopathy)、播散性非典型分枝杆菌感染(Disseminated atypical mycobacterial 
infection)、远端关节挛缩(Distal arthrogryposis)、远端遗传性运动神经病(Distal 
hereditary motor neuronopathy)、Donnai Barrow综合征、杜氏肌营养不良(Duchenne 
muscular dystrophy)、Becker肌营养不良(Becker muscular dystrophy)、遗传性泛发性
色素异常病(Dyschromatosis  universalis hereditaria)、先天性角化不良症
(Dyskeratosis congenital)、张力失常(Dystonia)、早期婴儿型癫痫性脑病(Early 
infantile epileptic encephalopathy)、埃勒斯-当洛斯综合征(Ehlers-Danlos 
syndrome)、Eichsfeld型先天性肌营养不良、Emery-Dreifuss肌营养不良、釉质-肾综合征
(Enamel-renal syndrome)、反向营养不良性表皮松解(Epidermolysis  bullosa 
dystrophica inversa)、疱疹样表皮松解(Epidermolysis bullosa herpetiformis)、癫痫
(Epilepsy)、发作性共济失调(Episodic ataxia)、变异性红角皮病(Erythrokeratodermia 
variabilis)、红细胞生成性原卟啉病(Erythropoietic protoporphyria)、运动不耐受
(Exercise intolerance)、渗出性玻璃体视网膜病变(Exudative vitreoretinopathy)、法
布里病(Fabry disease)、V因子缺乏症(Factor V deficiency)、VII因子缺乏症(Factor 
VII deficiency)、因子xiii缺陷(Factor xiii deficiency)、家族性腺瘤息肉病
(Familial adenomatous polyposis)、乳腺癌、卵巢癌、寒冷性荨麻疹(cold urticarial)、慢性婴儿神经、皮肤和关节综合征、偏瘫性偏头痛(hemiplegic migraine)、高胆固醇血症
(hypercholesterolemia)、肥厚型心肌病(hypertrophic cardiomyopathy)、低α脂蛋白血
症(hypoalphalipoproteinemia)、低血症-低镁血症(hypokalemia-hypomagnesemia)、幼
年痛风(juvenile gout)、高脂蛋白血症(hyperlipoproteinemia)、内脏性淀粉样变性
(visceral amyloidosis)、低血磷性维生素D难治性佝偻病(hypophosphatemic vitamin D 
refractory rickets)、FG综合征、眼外肌纤维化(Fibrosis of extraocular muscles)、费
氏先天性肾变病综合征(Finnish congenital nephrotic syndrome)、局限型癫痫、局灶节
段性肾小球硬化(Focal segmental glomerulosclerosis)、额鼻发育异常(Frontonasal 
dysplasia)、额颞痴呆(Frontotemporal dementia)、果糖二磷酸酶缺乏症(Fructose-
biphosphatase deficiency)、Gamstorp-Wohlfart综合征、GATA-1相关性血小板减少、戈谢
病(Gaucher disease)、巨轴索神经病(Giant axonal neuropathy)、Glanzmann血小板机能
不全(thrombasthenia)、肾小球性肾病(Glomerulocystic kidney disease)、肾小球病、糖
皮质激素抗性、葡萄糖-6-磷酸转运缺陷、戊二酸尿(Glutaric aciduria)、糖原贮积症
(Glycogen storage disease)、Gorlin综合征、前脑无裂畸形(Holoprosencephaly)、
GRACILE综合征、出血性毛细血管扩张(Haemorrhagic telangiectasia)、血色素沉着症
(Hemochromatosis)、血红蛋白H病、溶血性贫血,嗜血细胞性淋巴组织细胞增多症
(Hemophagocytic lymphohistiocytosis)、结肠癌、Myhre综合征、脑白质病、遗传性因子IX缺乏病(Hereditary factor IX deficiency disease)、遗传性因子VIII缺陷病
(Hereditary factor VIII deficiency disease)、遗传因子XI缺乏症(Hereditary 
factor XI deficiency disease)、遗传性果糖尿症(Hereditary fructosuria)、遗传性非
息肉病性结肠直肠新生物、遗传性胰腺炎、遗传性焦宁异红细胞增多症(Hereditary 
pyropoikilocytosis)、椭圆形红细胞性贫血(Elliptocytosis)、内脏异位(Heterotaxy)、
异位(Heterotopia)、组织细胞性髓性网状细胞增多症(Histiocytic medullary 
reticulosis)、组织细胞增多症-淋巴结病加综合征(Histiocytosis-lymphadenopathy 
plus syndrome)、由缩酶A缺乏引起的HNSHA(HNSHA due to aldolase A deficiency)、
全羧化酶合成酶缺乏(Holocarboxylase synthetase deficiency)、同型半胱氨酸血症
(Homocysteinemia)、Howel-Evans综合征、葡萄胎(Hydatidiform mole)、高钙尿性高钙血
症(Hypercalciuric hypercalcemia)、超免疫球蛋白D、甲羟戊酸尿症(Mevalonic 
aciduria)、高胰岛素血症性低血糖症(Hyperinsulinemic hypoglycemia)、高钾血症性周
期性麻痹(Hyperkalemic Periodic Paralysis)、von Eulenburg先天性副肌强直
(Paramyotonia congenita of von Eulenburg)、高脂蛋白血症(Hyperlipoproteinemia)、
高锰酸血症(Hypermanganesemia)、高蛋氨酸血症(Hypermethioninemia)、高磷酸酯酶血
(Hyperphosphatasemia)、高血压、低镁血症、低β脂蛋白血症、低钙血症(Hypocalcemia)、低促性腺素性功能减退症(Hypogonadotropic hypogonadism)、、低促性腺素性功能减退症、
少汗性外胚层发育不良、超IgM免疫缺陷(Hyper-IgM immunodeficiency)、少汗性X连锁外
胚层发育不良症(Hypohidrotic X-linked ectodermal dysplasia)、低镁血症、甲状旁腺
功能减退症、特发性纤维化肺泡炎、免疫缺陷、免疫球蛋白A缺乏症、婴儿磷酸酶过少症
(Infantile hypophosphatasia)、婴儿帕金森症-张力失常(Infantile Parkinsonism-
dystonia)、胰岛素依赖性糖尿病、中间型枫糖尿病(Intermediate maple syrup urine 
disease)、坐骨髌骨发育异常(Ischiopatellar dysplasia)、胰岛细胞增生(Islet cell 
hyperplasia)、单一性生长素缺乏症(Isolated growth hormone deficiency)、孤立性促
体素缺乏、异戊酸血症、Joubert综合征、幼年性息肉病综合征(Juvenile polyposis 
syndrome)、青年性视网膜劈裂症(Juvenile retinoschisis)、Kallmann综合征、
Kartagener综合征、Kugelberg-Welander病、格子状角膜变性(Lattice  corneal 
dystrophy)、利伯先天性黑矇(Leber congenital amaurosis),Leber视神经萎缩(Leber 
optic atrophy)、左心室致密化不全(Left ventricular noncompaction)、利氏病(Leigh 
disease)、线粒体复合体I缺陷(Mitochondrial complex I deficiency)、矮妖精貌综合征
(Leprechaunism syndrome)、关节挛缩(Arthrogryposis)、前角细胞病(Anterior horn 
cell disease)、白细胞粘附缺陷(Leukocyte adhesion deficiency)、脑白质营养不良症
(Leukodystrophy)、脑白质病(Leukoencephalopathy)、巢性脑白质营养不良
(Ovarioleukodystrophy)、L-铁蛋白缺乏症(L-ferritin deficiency)、Li-Fraumeni综合
征、肢肌营养不良(Limb-girdle  muscular  dystrophy)-营养不良聚糖
(dystroglycanopathy)、Loeys-Dietz综合征、QT延长综合征(Long QT syndrome)、大头/孤
独症综合征、斑点状角膜营养不良(Macular corneal dystrophy)、黄斑营养不良(Macular 
dystrophy)、恶性过热易感性(Malignant hyperthermia susceptibility)、恶性前列腺肿
瘤(Malignant tumor of prostate)、枫糖尿病(Maple syrup urine disease)、Marden 
Walker样综合征(Marden Walker like syndrome)、马方综合征(Marfan syndrome)、玛丽
亚娜遗传性贫血(Marie Unna hereditary hypotrichosis)、肥大细胞病(Mast cell 
disease)、胎粪性肠梗阻(Meconium ileus)、中链酰基辅酶A脱氢酶缺乏症(Medium-chain 
acyl-coenzyme A dehydrogenase deficiency)、Melnick-Fraser综合征、智力落后
(Mental retardation)、分层蛋白缺陷先天性肌营养不良(Merosin deficient 
congenital muscular dystrophy)、间皮瘤(Mesothelioma)、异染性脑白质营养不良
(Metachromatic  leukodystrophy)、干骺端软骨发育不全(Metaphyseal 
chondrodysplasia)、高铁血红蛋白血症(Methemoglobinemia)、甲基丙二酸尿症
(methylmalonic aciduria)、高胱氨酸尿(homocystinuria)、小头畸形(Microcephaly)、脉
络膜视网膜病变(chorioretinopathy)、淋巴水肿、小眼、轻度非PKU高苯丙氨酸血症(Mild 
non-PKU hyperphenylalanemia)、Mitchell-Riley综合征、线粒体3-羟基-3-甲基戊二酰
CoA合酶缺乏症、线粒体复合体I缺乏症、线粒体复合体III缺乏症、线粒体肌病、粘脂质累积III、粘多糖贮积症(Mucopolysaccharidosis)、多种硫酸酯酶缺乏症(Multiple sulfatase 
deficiency)、肌无力综合征(Myasthenic syndrome)、结核分枝杆菌(Mycobacterium 
tuberculosis)、髓过氧化物酶缺陷(Myeloperoxidase deficiency)、Myhre综合征、肌阵挛
型癫痫、肌纤维肌病(Myofibrillar myopathy)、肌红蛋白尿、肌病、近视、先天性肌强直、Navajo神经性肝病(Navajo neurohepatopathy)、线形体肌病、胃新生物、肾性尿崩症、肾
痨、肾病综合征、神经纤维瘤病、中性脂质贮积病、尼曼-皮克病(Niemann-Pick disease)、非酮症性高甘氨酸血症(Non-ketotic hyperglycinemia)、Noonan综合征、Noonan综合征样
疾病、Norum病、黄斑变性、N端乙酰转移酶缺乏症(N-terminal acetyltransferase 
deficiency)、眼皮肤白化病(Oculocutaneous  albinism)、眼齿指发育不良
(Oculodentodigital dysplasia)、Ohdo综合征、视神经不发育、鸟氨酸氨基甲酰转移酶缺
乏症(Ornithine carbamoyltransferase deficiency)、口-面-指综合征、成骨不全
(Osteogenesis imperfecta)、骨硬化症、卵巢发育不全、厚甲(Pachyonychia)、掌跖角化病(Palmoplantar keratoderma)、非表皮松解、Papillon-Lef\xc3\xa8vre综合征、Haim-Munk
综合征、牙周炎剥皮综合征(Peeling skin syndrome)、彭德莱综合征(Pendred 
syndrome)、过氧化物酶体脂肪酰基Coa还原酶1病症(Peroxisomal fatty acyl-coa 
reductase 1disorder)、过氧化物酶体生源病症(Peroxisome biogenesis disorder)、斐
弗综合征(Pfeiffer syndrome)、苯丙酮尿、苯丙酮尿、高苯丙氨酸血症、非PKU、垂体激素缺乏症、毛发红糠疹(Pityriasis rubra pilaris)、结节性多动脉炎(Polyarteritis 
nodosa)、多囊性肾病(Polycystic  kidney disease)、多囊性脂膜膜骨发育不良
(Polycystic lipomembranous osteodysplasia)、多小脑回(Polymicrogyria)、脑桥小脑
低常增生(Pontocerebellar hypoplasia)、汗孔角化病(Porokeratosis)、后柱共济失调
(Posterior column ataxia)、原发性红斑性肢痛症(Primary erythromelalgia)、高草酸
尿(hyperoxaluria)、进行性家族性肝内胆汁淤积(Progressive familial intrahepatic 
cholestasis)、进行性假性类风湿发育不良症(Progressive pseudorheumatoid 
dysplasia)、丙酸血症(Propionic acidemia)、假两性畸形、假性醛固酮减少症
(Pseudohypoaldosteronism)、弹性假黄色瘤样病症(Pseudoxanthoma elasticum-like 
disorder)、嘌呤核苷磷酸化酶缺乏(Purine-nucleoside phosphorylase deficiency)、吡
哆醛-5-磷酸依赖性癫痫(Pyridoxal 5-phosphate-dependent epilepsy)、肾发育不良
(Renal dysplasia)、视网膜色素营养不良(retinal pigmentary dystrophy)、小脑性共济
失调(cerebellar ataxia)、骨骼发育不良(skeletal dysplasia)、网状细胞发育不全
(Reticular dysgenesis)、色素性视网膜炎(Retinitis pigmentosa)、乌斯赫尔(Usher)综
合征、视网膜母细胞瘤、视网膜病变、RRM2B相关的线粒体病、Rubinstein-Taybi综合征、施奈德结晶状角膜营养不良(Schnyder crystalline corneal dystrophy)、皮脂瘤、严重先
天性中性白细胞减少症(Severe congenital neutropenia)、婴儿期严重肌阵挛性癫痫
(Severe myoclonic epilepsy in infancy)、严重X连锁肌管性肌病(Severe X-linked 
myotubular myopathy)、甲发育不良(onychodysplasia)、面部畸形(facial 
dysmorphism)、稀毛症(hypotrichosis)、短肋胸椎发育不良(Short-rib thoracic 
dysplasia)、唾液酸贮积病(Sialic acid storage disease)、涎酸贮积症(Sialidosis)、
铁粒幼细胞贫血(Sideroblastic anemia)、小纤维神经病(Small fiber neuropathy)、
Smith-Magenis综合征、Sorsby眼底营养不良(Sorsby fundus dystrophy)、痉挛性共济失
调(Spastic ataxia)、痉挛性截瘫(Spastic paraplegia)、精子发生障碍(Spermatogenic 
failure)、球形红细胞增多症(Spherocytosis)、鞘磷脂/胆固醇脂肪沉积、脊髓小脑性共济
失调、分裂手足畸形(Split-hand/foot malformation)、脊椎干骺端发育不全
(Spondyloepimetaphyseal dysplasia)、扁平椎致死性骨发育不良(Platyspondylic 
lethal skeletal dysplasia)、头和颈鳞状细胞癌、Stargardt病、蔗糖酶-异麦芽糖酶缺陷
(Sucrase-isomaltase deficiency)、婴儿猝死综合征(Sudden infant death syndrome)、
瓣膜上主动脉狭窄(Supravalvar aortic stenosis)、表面活性剂代谢功能障碍
(Surfactant metabolism dysfunction)、丹吉尔病(Tangier disease)、Tatton-Brown-
rahman综合征、胸主动脉瘤(Thoracic aortic aneurysms)和主动脉壁夹层形成(aortic 
dissections)、血栓形成倾向(Thrombophilia)、甲状腺激素抗性(Thyroid hormone 
resistance)、TNF受体相关的周期性发热综合征(TRAPS)、牙发育不全(Tooth agenesis)、
扭转性室速(Torsades de pointes)、大动脉转位(Transposition of great arteries)、
颌面部骨发育不全综合征(Treacher Collins syndrome)、结节性脑硬化综合征(Tuberous 
sclerosis  syndrome)、酪氨酸酶阴性眼皮肤白化病(Tyrosinase-negative 
oculocutaneous albinism)、酪氨酸酶阳性眼皮肤白化病、酪氨酸血症、UDP葡萄糖-4-差向
异构酶缺乏症、Ullrich先天性肌营养不良症、Bethlem肌病乌斯赫尔综合征、UV敏感性综合
征、Van der Woude综合征、腘翼状胬肉综合征(popliteal pterygium syndrome)、超长链
酰基CoA脱氢酶缺乏症、膀胱输尿管反流(Vesicoureteral reflux)、玻璃体视网膜脉络膜
病变(Vitreoretinochoroidopathy)、Von Hippel-Lindau综合征、冯维勒布兰德氏病(von 
Willebrand disease)、Waardenburg综合征、华沙断裂综合征(Warsaw breakage 
syndrome)、WFS1相关疾病、威尔逊(Wilson)病、着色性干皮病、X连锁丙种球蛋白缺乏血症
(X-linked agammaglobulinemia)、X连锁遗传性运动和感觉神经病变、X连锁严重联合免疫
缺陷和Zellweger综合征。
[0601] 核碱基编辑的发展推进基因组编辑的范围和有效性两者。本文描述的核碱基编辑器为研究人员提供了在几乎没有插入/缺失形成的情况下编辑(NBE2),或者在低频率(本文
中通常≤1%)的插入/缺失形成(NBE3)的情况下更有效编辑的选择。根据定义,碱基编辑的
产物不再是底物可能通过阻止后续产物转化而促成编辑效率,所述后续产物转化可以阻碍
传统的Cas9应用程序。通过消除对双链DNA切割和随细胞状态和细胞类型大大变化的随机
DNA修复过程的依赖性,核碱基编辑具有扩大可以干净安装的基因组修饰类型、这些修饰的
69 ,82
效率和适合于编辑的细胞类型的潜力。可能的是最近的工程化Cas9变体 ,70 或具有改善
的DNA特异性的递送方法71,以及具有改变的PAM特异性的Cas9变体72可以整合到此策略中
以提供具有改善的DNA特异性或可以靶向甚至更广泛的疾病相关突变的额外的核碱基编码
器。这些发现还提示了工程化改造dCas9与催化另外的核碱基转化的酶的另外的融合物将
增加可以通过核碱基编辑进行的可能的DNA碱基变化的分数。这些结果还提示了其他DNA修
饰酶(包括甲基化酶和去甲基化酶)融合物的构造,其可以实现其他类型的可编程基因组和
表观基因组编辑。
[0602] 材料和方法
[0603] 克隆。本文中使用的所有构建体和引物的DNA序列列于补充序列中。含有编码NBE1、NBE2和NBE3基因的质粒将可从Addgene获得。使用VeraSeq ULtra DNA聚合酶
(Enzymatics)或Q5热启动高保真性DNA聚合酶(New England Biolabs)进行PCR。使用USER
克隆(New England Biolabs)构建NBE质粒。将脱氨酶基因合成为gBlocks基因片段
(Integrated DNA Technologies),并且Cas9基因从先前报告的质粒获得18。将脱氨酶和融
合基因克隆到pCMV(哺乳动物密码子优化的)或pET28b(大肠杆菌优化的)主链中。使用定点
诱变构建sgRNA表达质粒。简言之,使用T4多核苷酸激酶(New England Biolabs)根据制造
商的说明将补充序列中列出的引物进行5’磷酸化。接下来,使用Q热启动高保真性聚合酶
(New England Biolabs)使用磷酸化引物和质粒pFYF1320(EGFP sgRNA表达质粒)作为模板
根据制造商的说明书进行PCR。根据制造商的说明,将PCR产物与DpnI(20U,New England 
Biolabs)在37℃温育1小时,在QIAprep旋转柱(Qiagen)上纯化,并使用QuickLigase(New 
England Biolabs)进行连接。使用Mach1感受态细胞(ThermoFisher Scientific)进行DNA
载体扩增。
[0604] 对ssDNA的体外脱氨酶测定法。所有ssDNA底物的序列列于补充序列中。所有Cy3标记的底物均得自Integrated DNA Technologies(IDT)。使用TNT T7快速偶联转录/翻译试
剂盒(Promega)根据制造商的说明使用1μg质粒在体外表达脱氨酶。在蛋白质表达后,将5μL裂解物与CutSmart缓冲液(New England Biolabs)(50mM乙酸钾、29mM Tris乙酸盐、10mM乙
酸镁、100μg/mL BSA,pH7.9)中的35μL ssDNA(1.8μM)和USER酶(1单位)组合,并且在37℃温育2小时。在10%TBE-尿素凝胶(Bio-Rad)上与全长未修饰的底物解析切割的含有U的底物。
[0605] His6-rAPOBEC1-接头-dCas9融合蛋白的表达和纯化。用编码具有GGS、(GGS)3、(SEQ ID NO:596)XTEN、或(GGS)7(SEQ ID NO:597)接头的pET28b-His6-rAPOBEC-接头-dCas9的质粒转化大肠杆菌BL21STAR(DE3)感受态细胞(ThermoFisher Scientific)。将所得到的表达
菌株在37℃在含有100μg/mL卡那霉素的Luria-Bertani(LB)肉汤中培养过夜。将细胞以1:
100稀释到相同的生长培养基中,并在37℃下培养至OD600=约0.6。在2小时的时间段内将
培养物冷却至4℃,并且添加0.5mM的异丙基-β-D-1-硫代半乳糖吡喃糖苷(IPTG)以诱导蛋
白质表达。约16小时后,通过以4,000g离心收集细胞并将其重悬于裂解缓冲液(50mM三(羟
甲基)-氨基甲烷(Tris)-HCl,pH7.0,1M NaCl,20%甘油,10mM三(2-羧乙基)膦(TCEP,
Soltec Ventures))。通过超声处理(20秒脉冲开启,20秒脉冲关闭,总共8分钟,6W输出)裂
解细胞,并且以25,000g离心15分钟后分离裂解物上清液。将裂解物与His-Pur镍-氮川乙酸
(Ni-NTA)树脂(ThermoFisher Scientific)在4℃温育1小时以捕获His标记的融合蛋白。将
树脂转移至柱并用40mL裂解缓冲液清洗。将His标记的融合蛋白在补充有285mM咪唑的裂解
缓冲液中洗脱,并通过超滤(Amicon-Millipore,100-kDa截留分子量)浓缩至1mL总体积。将
蛋白质在含有50mM三(羟甲基)-氨基甲烷(Tris)-HCl,pH7.0,0.1M NaCl,20%甘油,10mM 
TCEP的低盐纯化缓冲液中稀释至20mL并加载到SP Sepharose Fast Flow树脂(GE Life 
Sciences)。用40mL此种低盐缓冲液清洗树脂,并用5mL含有50mM三(羟甲基)-氨基甲烷
(Tris)-HCl,pH7.0,0.5M NaCl,20%甘油,10mM TCEP的活性缓冲液洗脱蛋白质。在SDSPAGE凝胶上量化洗脱的蛋白质。
[0606] sgRNA的体外转录。使用补充序列中列出的引物用TranscriptAid T7高产转录试剂盒(ThermoFisher Scientific)根据制造商的说明在体外转录含有T7启动子,然后是20-
bp sgRNA靶序列的线性DNA片段。使用MEGAclear试剂盒(ThermoFisher Scientific)根据
制造商的说明纯化sgRNA产物并通过UV吸光度量化。
[0607] 缀合有Cy3的dsDNA底物的制备。80个核苷酸的未标记链的序列列于补充序列中,并以PAGE纯化的寡核苷酸自IDT订购。补充序列中列出的25-nt的经Cy3标记的引物与每个
80-nt底物的3’端互补。此引物以HPLC纯化的寡核苷酸自IDT订购。为了产生仅Cy3标记的
dsDNA底物,将80-nt链(5μL的100μM溶液)与具有dNTP(0.75μL 100mM溶液)的NE缓冲液2
(38.25μL 50mM NaCl、10mM Tris-HCl、10mM MgCl2、1mM DTT,pH 7.9溶液,New England Biolabs)中的经Cy3标记的引物(5μL的100μM溶液)混合并加热至95℃达5分钟,随后以速率
0.1℃/s逐渐冷却至45℃。在此退火期后,添加Klenow exo-(5U,New England Biolabs),并将反应物在37℃下温育1小时。将溶液用缓冲液PB(250μL,Qiagen)和异丙醇(50μL)稀释并
在QIAprep旋转柱(Qiagen)上纯化,用50μL Tris缓冲液洗脱。
[0608] 对dsDNA的脱氨酶测定法。将纯化的融合蛋白(活性缓冲液中20μL1.9μM)与1当量合适的sgRNA组合,并在环境温度下温育5分钟。将经Cy3标记的dsDNA底物添加至终浓度
125nM,并将所得溶液在37℃温育2小时。通过添加缓冲液PB(100μL,Qiagen)和异丙醇(25μL)将dsDNA与融合物分离并在EconoSpin微型旋转柱(Epoch Life Science)上纯化,用20μL 
CutSmart缓冲液(New England Biolabs)洗脱。将USER酶(1U,New England Biolabs)添加
到纯化的经编辑的dsDNA,并在37℃温育1小时。通过将5μL反应溶液与15μL基于DMSO的上样缓冲液(5mM Tris、0.5mM EDTA、12.5%甘油、0.02%溴酚蓝、0.02%二甲苯蓝、80%DMSO)混合使经Cy3标记的链与其互补物完全变性。在10%TBE-尿素凝胶(Bio-Rad)上将含有C的全
长底物与任何经切割的含有U的编辑底物分离并在GEAmersham Typhoon成像仪上成像。
[0609] 用于高通量测序(HTS)的体外编辑的dsDNA的制备。补充序列中列出的寡核苷酸获自IDT。将互补序列在Tris缓冲液中组合(5μL 100μM溶液),并通过加热至95℃达5分钟退
火,接着以0.1℃/s的速率逐渐冷却至45℃以产生60-bp dsDNA底物。将纯化的融合蛋白(活
性缓冲液中20μL的1.9μM)与1当量的合适的sgRNA组合,并在环境温度温育5分钟。添加60聚体dsDNA底物至终浓度125nM,并将所得溶液在37℃温育2小时。通过添加缓冲液PB(100μL,
Qiagen)和异丙醇(25μL)将dsDNA与融合物分离,并在EconoSpin微型旋转柱(Epoch Life 
Science)上纯化,用20μLTris缓冲液洗脱。通过使用补充序列中列出的HTS引物对和
VeraSeq Ultra(Enzymatics)根据制造商的说明以13个扩增循环进行PCR来扩增所得的经
编辑的DNA(1μL用作模板)。用RapidTips(Diffinity Genomics)纯化PCR反应产物,并且通
过用含有测序衔接头的引物进行PCR扩增纯化的DNA,纯化,并在MiSeq高通量DNA测序仪
(Illumina)上测序,如前所述73。
[0610] 细胞培养。将HEK293T(ATCC CRL-3216)、U2OS(ATCC-HTB-96)和ST486细胞(ATCC)维持在补充有10%(v/v)胎牛血清(FBS)和青霉素/链霉素(1x,Amresco)的Dulbecco改良
Eagle培养基加GlutaMax(ThermoFisher),在37℃和5%CO2维持。将HCC1954细胞(ATCC 
CRL-2338)维持在如上所述补充的RPMI-1640培养基(ThermoFisher Scientific)中。在补
充有10%(v/v)胎牛血清(FBS)和200μg/mL遗传霉素(FBS)的Dulbecco改良Eagle培养基加
GlutaMax(ThermoFisher Scientific)中培养含有APOE基因的ApoE4同种型的永生化大鼠
星形胶质细胞(Taconic Biosciences)。
[0611] 转染。将HEK293T细胞接种在48孔经胶原包被的BioCoat板(Corning)上并在约85%汇合时转染。简言之,每孔使用1.5μl的Lipofectamine 2000(ThermoFisher 
Scientific)根据制造商的方案转染750ng NBE和250ng sgRNA表达质粒。使用合适的AMAXA 
TM
NUCLEOFECTOR  II程序根据制造商的说明转染星形胶质细胞、U2OS、HCC1954、HEK293T和
ST486细胞。向核转染溶液添加40ng红外RFP(Addgene质粒45457)74以评估这些细胞系中的
核转染效率。对于星形胶质细胞、U2OS和ST486细胞,核转染效率分别为25%、74%和92%。
对于HCC1954细胞,核转染效率<10%。因此,在胰蛋白酶消化后,通过40微米滤器(Fisher 
Scientific)过滤HCC1954细胞,并使用iRFP信号(abs 643nm,em 670nm)在Beckman 
Coulter MoFlo XDP细胞分选仪上收集经核转染的HCC1954细胞。在不富集经核转染的细胞
的情况下使用其他细胞。
[0612] 基因组DNA样品的高通量DNA测序。3天后收获经转染的细胞,并使用Agencourt DNAdvance基因组DNA分离试剂盒(Beckman Coulter)根据制造商的说明分离基因组DNA。通
过利用补充序列中列出的侧翼HTS引物对的PCR扩增来感兴趣的中靶和脱靶基因组区域。使
用5ng基因组DNA作为模板,用Phusion高保真DNA聚合酶(ThermoFisher)根据制造商的说明
进行PCR扩增。对每个引物对分别确定循环次数,以确保在扩增的线性范围中停止反应(对
于EMX1、FANCF、HEK293位点2、HEK293位点3、HEK293位点4、和RNF2引物分别为30、28、28、28、
32、和32个循环)。使用RapidTips(Diffinity Genomics)纯化PCR产物。通过用含有测序衔
接头的引物的PCR扩增纯化的DNA。对产物进行凝胶纯化,并且使用QUANT-ITTM PicoGreen 
dsDNA测定试剂盒(ThermoFisher)和KAPA文库量化试剂盒-Illumina(KAPA Biosystems)量
化。在Illumina MiSeq上对样品测序,如前所述73。
[0613] 数据分析。使用MiSeq报告器(Illumina)对测序读段自动多路解编,并使用补充说明中提供的定制Matlab脚本分析单独的FASTQ文件。使用Smith-Waterman算法将每个读段
与适当的参考序列成对比对。具有低于31的Q得分的碱基呼叫用N替换,并且因此在计算核
苷酸频率中排除。此处理产生预期的MiSeq碱基呼叫错误率约1/1000。将读取和参考序列不
含缺口的比对序列存储在比对表中,从所述比对表可以将每个基因座的碱基频率制成表
格。
[0614] 使用先前描述的标准71,利用补充说明中所示的定制Matlab脚本量化插入/缺失频率。对序列读取扫描与两个10bp的序列的精确匹配,所述两个10-bp序列在可能发生插入/
缺失的窗的两侧侧翼。若无完全匹配得到定位,则将读数从分析中排除。若此插入/缺失窗
的长度与参考序列完全匹配,则将读段分类为不含插入/缺失。若插入/缺失窗比参考序列
长或短两个或多个碱基,则将测序读段分别分类为插入或缺失。
[0615] 本文提到的所有出版物、专利、专利申请、出版物和数据库条目(例如,序列数据库条目)(例如在发明背景、发明概述、发明详述、实施例和/或参考文献部分)通过引用完整并
入本文,就像每单独的出版物、专利、专利申请、出版物和数据库条目明确并且单独地通过
引用并入本文一样。在冲突的情况下,以本申请(包括本文中的任何定义)为准。
[0616] 补充序列
[0617] 用于产生sgRNA转染质粒的引物。在所有情况下都使用rev_sgRNA_plasmid。如材料和方法部分所述,使用pFYF1320质粒作为模板。SEQ ID NO:329-338在下文分别从上到下
出现。
[0618]
[0619] 体外脱氨基化测定法中使用的所有ssDNA底物的序列。SEQ ID NOs:339-341在下文分别从上到下出现。
[0620]
[0621] 用于产生PCR产物以充当sgRNA的T7转录的底物用于基于凝胶的脱氨酶测定法的引物。在所有情况下使用rev_gRNA_T7。如材料和方法部分所述,使用pFYF1320质粒作为模
板。SEQ ID NO:342-365在下文分别从上到下出现。
[0622]
[0623] 在基于凝胶的dsDNA脱氨酶测定中使用的80个核苷酸的未标记链和Cy3标记的通用引物的序列。SEQ ID NO:366-390在下文分别从上到下出现。
[0624]
[0625]
[0626] 用于产生PCR产物以充当sgRNA的T7转录的底物用于高通量测序的引物。在所有情况下使用rev_gRNA_T7(以上)。如材料和方法部分所述,使用pFYF1320质粒作为模板。SEQ 
ID NO:391-442在下文分别从上到下出现。
[0627]
[0628]
[0629] 用于高通量测序(HTS)的体外编辑的dsDNA的序列。所显示的是经编辑的链的序列。还获得显示的所有序列的反向互补物。如材料和方法中所述,通过退火互补链获得
dsDNA底物。代表EMX1、FANCF、HEK293位点2、HEK293位点3、HEK293位点4和RNF2基因座的寡核苷酸最初设计用于基于凝胶的脱氨酶测定法,因此在其5’端具有相同的25-nt序列(与
Cy3引物的序列匹配)。SEQ ID NO:443-494在下文分别从上到下出现。
[0630]
[0631]
[0632]
[0633] 用于体外编辑的dsDNA的HTS的引物。SEQ ID NO:495-503在下文分别从上到下出现。
[0634]
[0635] 用于来自所有哺乳动物细胞培养实验的中靶和脱靶位点的HTS的引物。SEQ ID NO:504-579和1869-1900在下文分别从上到下出现。
[0636]
[0637]
[0638]
[0639]
[0640] HDR研究中使用的单链寡核苷酸供体模板(ssODNs)的序列。EMX1有义(SEQ ID NO:580)
[0641]
[0642] EMX1反义(SEQ ID NO:581)
[0643]
[0644] HEK293位点3有义(SEQ ID NO:582)
[0645]
[0646] HEK293位点3反义(SEQ ID NO:583)
[0647]
[0648] HEK位点4有义(SEQ ID NO:584)
[0649]
[0650] HEK位点4反义(SEQ ID NO:585)
[0651]
[0652] APOE4有义(SEQ ID NO:743)
[0653]
[0654] APOE4反义(SEQ ID NO:744)
[0655]
[0656] p53Y163C有义(SEQ ID NO:745)
[0657]
[0658] p53Y163C反义(SEQ ID NO:746)
[0659]
[0660] 脱氨酶基因gBlocks基因片段
[0661] hAID(SEQ ID NO:586)
[0662]
[0663] rAPOBEC1(哺乳动物)(SEQ ID NO:587)
[0664]
[0665] pmCDA1(SEQ ID NO:588)
[0666]
[0667] haPOBEC3G(SEQ ID NO:589)
[0668]
[0669] rAPOBEC1(大肠杆菌)(SEQ ID NO:590)
[0670]
[0671] NBE1、NBE2、和NBE3的氨基酸序列。
[0672] 用于大肠杆菌表达的NBE1(His6-rAPOBEC1-XTEN-dCas9)(SEQ ID NO:591)
[0673]
[0674] 用于哺乳动物表达的NBE1(rAPOBEC1-XTEN-dCas9-NLS)(SEQ ID NO:592)
[0675]
[0676] 具有人APOBEC1的用于哺乳动物表达的备选NBE1(hAPOBEC1-XTEN-dCas9-NLS)(SEQ ID NO:5737)
[0677] MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERDFHPSMSCSITWFLSWSPCWECSQAIREFLSRHPGVTLVIYVARLFWHMDQQNRQGLRDLVNSGVTIQIMRA
SEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFRLHLQNCHYQTIPPHIL
LATGLIHPSVAWRGSETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVA
YHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINAS
GVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQ
IGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNG
YAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKD
NREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHS
LLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNA
SLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKL
INGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKV
VDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR
DMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKF
DNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYK
VREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEIT
LANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDP
KKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFE
LENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVIL
ADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETR
IDLSQLGGDSGGSPKKKRKV
[0678] NBE2(rAPOBEC1-XTEN-dCas9-UGI-NLS)(SEQ ID NO:593)
[0679]
[0680] NBE3(rAPOBEC1-XTEN-Cas9n-UGI-NLS)(SEQ ID NO:594)
[0681]
[0682] pmCDA1-XTEN-dCas9-UGI(细菌)(SEQ ID NO:5742)
[0683] MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGV
GLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILHTTKSPAVSGSETPGTSESATPE
SDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKN
RICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLI
YLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPG
EKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRV
NTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG
TEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRF
AWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAF
LSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL
EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNF
MQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTT
QKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFL
KDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVET
RQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKY
PKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGR
DFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSK
KLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKY
VNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENI
IHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSMTNLSDIIEKETGK
QLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML
[0684] pmCDA1-XTEN-nCas9-UGI-NLS(哺乳动物构建体)(SEQ ID NO:5743)
[0685] MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGV
GLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILHTTKSPAVSGSETPGTSESATPE
SDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKN
RICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLI
YLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPG
EKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRV
NTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG
TEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRF
AWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAF
LSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL
EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNF
MQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTT
QKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFL
KDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVET
RQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKY
PKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGR
DFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSK
KLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKY
VNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENI
IHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSTNLSDIIEKETGKQ
LVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSPKKK
RKV
[0686] huAPOBEC3G-XTEN-dCas9-UGI(细菌)(SEQ ID NO:5744)
[0687] MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISIMTYSE
FKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQSGSETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDE
YKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRL
EESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDN
SDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSN
FDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDL
TLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGS
IPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGA
SAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQ
LKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYA
HLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQG
DSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQ
ILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVP
SEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDK
LIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKS
EQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQT
GGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPI
DFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQ
LFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDR
KRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSMTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPE
SDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML
[0688] huAPOBEC3G-XTEN-nCas9-UGI-NLS(哺乳动物构建体)(SEQ ID NO:5745)
[0689] MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISIMTYSE
FKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQSGSETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDE
YKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRL
EESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDN
SDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSN
FDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDL
TLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGS
IPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGA
SAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQ
LKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYA
HLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQG
DSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQ
ILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVP
SEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDK
LIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKS
EQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQT
GGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPI
DFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQ
LFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDR
KRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPES
DILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSPKKKRKV
[0690] huAPOBEC3G(D316R_D317R)-XTEN-nCas9-UGI-NLS(哺乳动物构建体)(SEQ ID NO:5746)
[0691] MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISIMTYSE
FKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQSGSETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDE
YKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRL
EESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDN
SDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSN
FDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDL
TLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGS
IPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGA
SAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQ
LKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYA
HLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQG
DSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQ
ILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVP
SEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDK
LIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKS
EQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQT
GGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPI
DFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQ
LFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDR
KRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPES
DILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSPKKKRKV
[0692] BaseCallingMatlabScript
[0693] WTnuc='GCGGACATGGAGGACGTGCGCGGCCGCCTGGTGCAGTACCGCGGCGAGGTGCAGGCCATGCTCGGCCAGAGCACCGAGGAGCTGCGGGTGCGCCTCGCCTCCCACCTGCGCAAGCTGCGTAAGCGGCTCCTCCGCGAT
GCCGATGACCTGCAGAAGCGCCTGGCAGTGTACCAGGCCGGGGCCCGCGAGGGCGCCGAGCGCGGCCTCAGCGCCAT
CCGCGAGCGCCTGGGGCCCCTGGTGGAACAG'(SEQ ID NO:595);
[0694]
[0695]
[0696] INDELDetectionMatlabScript
[0697] WTnuc='GCGGACATGGAGGACGTGCGCGGCCGCCTGGTGCAGTACCGCGGCGAGGTGCAGGCCATGCTCGGCCAGAGCACCGAGGAGCTGCGGGTGCGCCTCGCCTCCCACCTGCGCAAGCTGCGTAAGCGGCTCCTCCGCGAT
GCCGATGACCTGCAGAAGCGCCTGGCAGTGTACCAGGCCGGGGCCCGCGAGGGCGCCGAGCGCGGCCTCAGCGCCAT
CCGCGAGCGCCTGGGGCCCCTGGTGGAACAG'(SEQ ID NO:595);
[0698]
[0699]
[0700] 实施例5:Cas9变体序列
[0701] 本公开提供了Cas9变体,例如来自一种或多种生物体的Cas9蛋白,其可以包含一个或多个突变(例如,以产生dCas9或Cas9切口酶)。在一些实施方案中,可以突变Cas9蛋白
中的一个或多个氨基酸残基突变,其在下文以星号鉴定。在一些实施方案中,突变SEQ ID 
NO:10中提供的氨基酸序列的D10和/或H840残基或SEQ ID NO:11-260中提供的任何氨基酸
序列中的相应突变。在一些实施方案中,将SEQ ID NO:10中提供的氨基酸序列的D10残基或
SEQ ID NO:11-260中提供的任何氨基酸序列中的相应突变突变为除D以外的任何氨基酸残
基。在一些实施方案中,将SEQ ID NO:10中提供的氨基酸序列的D10残基或SEQ ID NO:11-
260中提供的任何氨基酸序列中的相应突变突变为A。在一些实施方案中,将SEQ ID NO:10
中提供的氨基酸序列的H840残基或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应
残基是H。在一些实施方案中,将SEQ ID NO:10中提供的氨基酸序列的H840残基或SEQ ID 
NO:11-260中提供的任何氨基酸序列中的相应突变突变为除H以外的任何氨基酸残基。在一
些实施方案中,将SEQ ID NO:10中提供的氨基酸序列的H840残基或SEQ ID NO:11-260中提
供的任何氨基酸序列的相应突变突变为A。在一些实施方案中,SEQ ID NO:10中提供的氨基
酸序列的D10残基或SEQ ID NO:11-260中提供的任何氨基酸序列中的相应残基是D。
[0702] 对来自各种物种的许多Cas9序列进行比对以确定SEQ ID NO:10或SEQ ID NO:11的D10和H840的相应同源氨基酸残基是否可以在其它Cas9蛋白中得到鉴定,从而允许产生
具有同源氨基酸残基的相应突变的Cas9变体。使用基于NCBI约束的比对工具(COBALT(可在
st-va.ncbi.nlm.nih.gov/tools/cobalt获得)使用以下参数进行比对:比对参数:缺口罚
分-11,-1;End-Gap罚分-5,-1。CDD参数:使用RPS BLASTon;Blast E值0.003;Find 
Conserved栏和Recompute on。查询聚簇参数:Use query clusters on;字大小4;最大簇距离0.8;Alphabet Regular。
[0703] 下面提供了四种Cas9序列的示例性比对。比对中的Cas9序列是:序列1(S1):SEQ ID NO:11|WP_010922251|gi 499224711|II型CRISPR RNA引导内切核酸酶Cas9[酿脓链球
菌];序列2(S2):SEQ ID NO:12|WP_039695303|gi 746743737|II型CRISPR RNA引导内切核
酸酶Cas9[解没食子酸链球菌(Streptococcus gallolyticus)];序列3(S3):SEQ ID NO:13
|WP_045635197|gi 782887988|II型CRISPR RNA引导内切核酸酶Cas9[草绿色链球菌
(Streptococcus mitis)];序列4(S4):SEQ ID NO:14|5AXW_A|gi 924443546|金黄色葡萄
球菌Cas9。对四个序列中的每个鉴定HNH域(粗体和下划线)和RuvC域(框示)。S1中的氨基酸
残基10和840以及比对序列中的同源氨基酸在相应的氨基酸残基之后用星号鉴定。
[0704]
[0705]
[0706]
[0707] 比对表明可以通过使用本领域已知的比对程序和算法鉴定与参考序列或参考残基比对的氨基酸序列或残基在Cas9序列变体间鉴定与参考Cas9氨基酸序列或氨基酸残基
同源的氨基酸序列和氨基酸残基,所述Cas9序列变体包括但不限于来自不同物种的Cas9序
列。本公开提供了Cas9变体,其中如本文所述将由SEQ ID NO:11-14中的星号鉴定的一个或
多个氨基酸残基(例如,分别为S1、S2、S3和S4)突变。对应于在SEQ ID NO:11-14中通过星号鉴定的残基的SEQ ID NO:10的Cas9中的残基D10和H840在本文中称为“同源的”或“相应的”残基。可以通过序列比对,例如如上所述,并且通过鉴定与参考序列或残基比对的序列或残
基来鉴定此类同源残基。类似地,对应于本文中SEQ ID NO:10中鉴定的突变,例如SEQ ID 
NO:10中的残基10和840的突变的Cas9序列中的突变在本文中称为“同源的”或“相应的”突
变。例如,对于上述四个比对序列,对应于SEQ ID NO:10或S1(SEQ ID NO:11)的D10A突变的
突变是S2的D11A、S3的D10A和S4的D13A;SEQ ID NO:10或S1(SEQ ID NO:11)中H840A的相应
突变是S2的H850A、S3的H842A和S4的H560A。
[0708] 使用上文概述的相同算法和比对参数比对来自不同物种的总共250个Cas9序列(SEQ ID NO:11-260)。以与上面概述的相同方式鉴定与SEQ ID NO:10的残基10和840同源
的氨基酸残基。下文提供了比对。对四个序列中的每个鉴定HNH域(粗体和下划线)和RuvC域
(框示)。对应于SEQ ID NO:10中的氨基酸残基10和840的单一残基在SEQ ID NO:11中在比
对中框示,从而允许鉴定比对序列中的相应氨基酸残基。
[0709]
[0710]
[0711]
[0712]
[0713]
[0714]
[0715]
[0716]
[0717]
[0718]
[0719]
[0720]
[0721]
[0722]
[0723]
[0724]
[0725]
[0726]
[0727]
[0728]
[0729]
[0730]
[0731]
[0732]
[0733]
[0734]
[0735]
[0736]
[0737]
[0738]
[0739]
[0740]
[0741]
[0742]
[0743]
[0744]
[0745]
[0746]
[0747]
[0748]
[0749]
[0750]
[0751]
[0752]
[0753]
[0754]
[0755]
[0756]
[0757]
[0758]
[0759]
[0760]
[0761]
[0762]
[0763]
[0764]
[0765]
[0766]
[0767]
[0768]
[0769]
[0770]
[0771]
[0772]
[0773]
[0774]
[0775]
[0776]
[0777]
[0778]
[0779]
[0780]
[0781]
[0782]
[0783]
[0784]
[0785]
[0786]
[0787]
[0788]
[0789]
[0790]
[0791]
[0792]
[0793]
[0794]
[0795]
[0796]
[0797]
[0798]
[0799]
[0800]
[0801]
[0802]
[0803]
[0804]
[0805]
[0806]
[0807]
[0808]
[0809]
[0810]
[0811]
[0812]
[0813]
[0814]
[0815]
[0816]
[0817]
[0818]
[0819]
[0820]
[0821]
[0822]
[0823]
[0824]
[0825]
[0826]
[0827]
[0828]
[0829]
[0830]
[0831]
[0832]
[0833]
[0834]
[0835]
[0836]
[0837]
[0838]
[0839]
[0840]
[0841]
[0842]
[0843]
[0844]
[0845]
[0846]
[0847]
[0848]
[0849]
[0850]
[0851]
[0852]
[0853]
[0854]
[0855]
[0856]
[0857]
[0858]
[0859]
[0860]
[0861]
[0862]
[0863]
[0864]
[0865]
[0866] 表2:在NGG PAM的情况下T至C变化。表2显示了可以使用本文中提供的任何碱基编辑器校正的一批T至C突变。GRNA和gRNAall指示原间隔物和PAM序列,其中PAM序列是GRNA和
gRNAall中的每个序列的最后3个核苷酸。
[0867]
[0868]
[0869]
[0870]
[0871]
[0872]
[0873]
[0874]
[0875]
[0876]
[0877]
[0878]
[0879]
[0880]
[0881]
[0882]
[0883]
[0884]
[0885]
[0886] 表3:在NGG PAM情况下A至G。表2显示了可以使用本文中提供的任何碱基编辑器校正的一批A至G突变。GRNA和gRNAall指示原间隔物和PAM序列,其中PAM序列是GRNA和
gRNAall中的每个序列的最后3个核苷酸。
[0887]
[0888]
[0889]
[0890]
[0891]
[0892]
[0893]
[0894]
[0895]
[0896]
[0897]
[0898]
[0899]
[0900]
[0901]
[0902]
[0903]
[0904] 实施例6:下一代C至T编辑器
[0905] 检查了其他家族胞苷脱氨酶作为碱基编辑器3(BE3)构建体的备选。不同的C至T编辑器开发为具有窄的或不同的编辑窗,交替序列特异性以扩展可靶向底物并具有更高的活
性。
[0906] 使用实施例4中描述的方法,评估HeK-3位点处的pmCDA1(来自海七鳃鳗的胞苷脱氨酶1)活性(图42)。pmCDA1-nCas9-UGI-NLS(nCas9指示本文描述的Cas9切口酶)构建体在
用rAPOBEC1(BE3)不能接近的一些位点(例如,在位置9、5、4和3处在互补链上的C碱基)处有
活性。
[0907] 图43给出了HeK-2位点的pmCDA1活性。pmCDA1-XTEN-nCas9-UGI-NLS构建体在与“G”相邻的位点上有活性,而rAPOBEC1类似物(BE3构建体)在与“G”相邻的“C”,例如互补链上位置11处的C碱基上具有低活性。
[0908] 对于CDA和APOBEC1(BE3构建体),显示了具有转化为T的靶C(图44)、转化为A的C(图45)和转化为G的C(图46)的总测序读段的百分比。
[0909] 图47中显示了HeK-2位点处的huAPOBEC3G活性。使用两种构建体:huAPOBEC3G-XTEN-nCas9-UGI-NLS和huAPOBEC3G*(D316R_D317R)-XTEN-nCas9-UGI-NLS。如图47所示,
huAPOBEC3G-XTEN-nCas9-UGI-NLS构建体与rAPOBEC1(BE3)具有不同的序列特异性,编辑窗
看起来窄,如与APOBEC1相比APOBEC3G在位置4处降低的活性指示。在huAPOBEC3G(D316R和
D317R)中产生的突变增加了ssDNA结合并导致对扩展编辑的位点的可观察的影响(图47中
比较APOBEC3G与APOBEC3G_RR)。基于APOBEC3G晶体结构选择突变,参见:Holden et al.,
Crystal structure of the anti-viral APOBEC3G catalytic domain and functional 
implication.Nature.(2008);121-4;其通过引用完整并入本文。
[0910] 实施例7:pmCDA1/huAPOBEC3G/rAPOBEC1在大肠杆菌中起作用
[0911] 使用具有F质粒上编码的lacZ的细菌菌株进行A至I转化的LacZ选择优化。将重要的谷氨酸残基突变(例如,GAG至GGG,Glu至Gly突变),使得胞苷脱氨酶的G至A将恢复lacZ活
性(图48)。选择CC102菌株用于选择测定法。APOBEC1和CDA构建体用于选择测定法以优化G
至A转化。
[0912] 为了评估编码脱氨酶构建体的质粒的拷贝数对lacZ恢复频率的影响,将CDA和APOBEC1脱氨酶克隆到具有不同复制起点(因此不同拷贝数目),SC101、CloDF3、RSF1030和
PUC(拷贝数目:PUC>RSF1030>CloDF3>SC101)的4种质粒中,并置于诱导型启动子下。将质粒
个别转化到携带含有突变LacZ基因的F质粒的大肠杆菌细胞中。诱导脱氨酶的表达,并检测
每种构建体的LacZ活性(图49)。如图49所示,在所有情况下,CDA表现出比APOBEC1显著更高
的活性,而无论克隆有脱氨酶的质粒拷贝数目如何。此外,就拷贝数目而言,脱氨酶活性与
克隆有它们的质粒的拷贝数目正相关,即PUC>CloDF3>SC101。
[0913] 通过对lacZ基因座处的基因组DNA进行测序来确认LacZ恢复。为了获得含有校正的LacZ基因的基因组DNA,在含有X-gal的培养基上培养细胞,其中具有LacZ活性的细胞形
成蓝色菌落。选择蓝色菌落并在含有乳糖的基本培养基中培养。将细胞旋下,清洗。并在基
本培养基板(乳糖)上再铺板。然后选择最高稀释度的蓝色菌落,并在lacZ基因座处对其基
因组DNA进行测序(图50)。
[0914] 设计氯霉素恢复测定法以测试不同胞苷脱氨酶(例如CDA和APOBEC1)的活性。用RSF1030作为复制起点构建带有赋予细菌以氯霉素抗性的突变体CAT1基因的质粒。突变体
CAT1基因编码CAT1蛋白,其具有H195R(CAC至CGC)突变,使蛋白质无活性(图51)。与CGC密码
子中的G碱基配对的C的脱氨基化将密码子恢复回CAC密码子,恢复蛋白质的活性。如图52所
示,CDA在大肠杆菌中在恢复氯霉素抗性基因的活性上优于rAPOBEC。在选择质粒(pNMG_ch_
5)的情况下S1030中氯霉素的最小抑制浓度(MIC)为约1μg/mL。rAPOBEC-XTEN-dCas9-UGI和
CDA-XTEN-dCas9-UGI两者都在选择质粒上诱导DNA校正(图53)。
[0915] 接下来,在相同的测定法中测试huAPOBEC3G-XTEN-dCas9-UGI蛋白。令人感兴趣的是,huAPOBEC3G-XTEN-dCas9-UGI表现出与rAPOBEC1-XTEN-dCas9-UGI融合蛋白不同的序列
特异性。与rAPOBEC11-XTEN-dCas9-UGI融合物(其中编辑位置3、6和8)相比,仅用APOBEC3G-
XTEN-dCas9-UGI融合物编辑位置8(图54)。
[0916] 实施例8:具有较少的脱靶编辑的C至T碱基编辑器
[0917] 当前的碱基编辑技术允许基因组DNA中C:G碱基对至T:A碱基对的序列特异性转化。这是通过胞苷脱氨酶将胞嘧啶直接催化转化为尿嘧啶而完成的,因此,与传统的基因组
编辑技术不同,不将双链DNA断裂(DSB)引入DNA中第一步。参见Komor,A.C.,Kim,Y.B.,
Packer,M.S.,Zuris,J.A.,and Liu,D.R.(2016),“Programmable editing of a target 
base in genomic DNA without double-stranded DNA cleavage.”Nature 533,420-424;
其全部内容通过引用并入本文。相反,催化死亡的SpCas9(dCas9)或SpCas9切口酶(dCas9
(A840H))与胞苷脱氨酶如rAPOBEC1、pmCDA1或hAPOBEC3G栓系在一起。感兴趣的基因组座位
由sgRNA编码,并且融合物的dCas9部分促进DNA结合和局部变性。然而,就像wt dCas9和wt 
Cas9表现出脱靶DNA结合和切割一样,目前的碱基编辑器也在Cas9脱靶基因座处表现出C至
T编辑,这限制了它们的治疗效用。
[0918] 据报告,对SpCas9中引入仅3至4个突变增加SpCas9的DNA结合特异性,所述突变中和蛋白质与其靶DNA的糖-磷酸酯主链之间的非特异性静电相互作用。参见Kleinstiver,
B.P.,Pattanayak,V.,Prew,M.S.,Tsai,S.Q.,Nguyen,N.T.,Zheng,Z.,and Joung,J.K.
(2016)“High-fidelity CRISPR–Cas9nucleases with no detectable genome-wide off-
target effects.”Nature 529,490-495;以及Slaymaker,I.M.,Gao,L.,Zetsche,B.,
Scott,D.A.,Yan,W.X.,and Zhang,F.(2015)“Rationally engineered Cas9nucleases 
with improved specificity.Science351,84-88;各自的全部内容通过引用并入本文。因
此,将四个报告的中和突变引入最初报告的碱基编辑器BE3(SEQ ID NO:285)中,并且发现
该酶的脱靶C至T编辑也显著降低(图55),而无中靶编辑降低(图56)。
[0919] 如图55中所示,用表达BE3或HF-BE3和与EMX1序列匹配的sgRNA的质粒使用Lipofectamine 2000转染HEK293T细胞。转化后3天,将基因组DNA提取,通过PCR扩增,并且
通过使用GUIDE-seq方法,在中靶基因座,加上前10个已知的Cas9脱靶基因座(对于
EMX1sgRNA)(如先前由Joung以及同事测定)的高通量DNA测序分析。见Tsai,S.Q.,Zheng,
Z.,Nguyen,N.T.,Liebers,M.,Topkar,V.V.,Thapar,V.,Wyvekens,N.,Khayter,C.,
Iafrate,A.J.,Le,L.P.,et al.(2015)“GUIDE-seq enables genome-wide profiling of 
off-target cleavage by CRISPR-Cas nucleases.”Nat Biotech 33,187-197;其全部内
容通过引用并入本文。EMX1脱靶5基因座未扩增,并且未显示。显示中靶和脱靶原间隔物和
原间隔物相邻基序(PAM)的序列(图55)。对于BE3和HF-BE3,显示细胞C至T转化百分比,定义
为在原间隔物内初始C的每个位置处具有T的总DNA测序读段的百分比。
[0920] 在图56中,用表达BE3或HF-BE3和与指示的基因组基因座匹配的sgRNA的质粒使用Lipofectamine 2000转染HEK293T细胞。转染后3天,提取基因组DNA,通过PCR扩增,并通过
中靶基因座处的高通量DNA测序分析。对于用BE3或HF-BE3的处理,显示了在每个原间隔物
内靶C处具有所有四个碱基的总DNA测序读段的百分比(图56)。还显示了插入/缺失形成的
频率。
[0921] HF-BE3的一级蛋白序列(SEQ ID NO:285):
[0922] MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTE
QESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHIL
WATGLKSGSETPGTSESATPESDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSG
ETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYP
TIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKA
ILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYA
DLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYID
GGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIE
KILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTAFDKNLPNEKVLPKHSLLYEYF
TVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYH
DLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGALSRKLINGIRD
KQSGKTILDFLKSDGFANRNFMALIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVK
VMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQ
ELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKA
ERGGLSELDKAGFIKRQLVETRAITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINN
YHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEI
RKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGF
DSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRK
RMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLD
KVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQL
GGDSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALV
IQDSNGENKIKMLSGGSPKKKRKV
[0923] 实施例9:开发使用Cas9变体的碱基编辑器和调节碱基编辑器持续处理能力以提高碱基编辑技术的靶物范围和精确性
[0924] 与传统的基因组编辑平台不同,碱基编辑技术允许DNA中精确的单核苷酸变化而不诱导双链断裂(DSB)。参见Komor,A.C.et al.Nature533,420-424(2016)。当前代的编辑
器仅仅使用NGG PAM。这限制了其在基因组内编辑期望碱基的能力,因为碱基编辑器需要放
置在靶碱基置于4个碱基的区域(“脱氨基化窗”)内的精确位置处,在PAM上游的约15碱基。
参见Komor,A.C.et al.Nature533,420-424(2016)。此外,由于胞苷脱氨酶的高持续合成能
力,碱基编辑器可以将其脱氨基化窗内的所有胞苷转化为胸腺嘧啶,这可以诱导研究人员
所期望的氨基酸变化以外的氨基酸变化。参见Komor,A.C.et al.Nature533,420-424
(2016)。
[0925] 通过使用Cas9变体开发碱基编辑器来扩展碱基编辑的范围
[0926] 将具有不同PAM特异性的Cas9同源物和其他RNA引导的DNA结合剂引入碱基编辑器构造中。参见Kleinstiver,B.P.et al.Nature523,481–485(2015);Kleinstiver,B.P.et 
al.Nature Biotechnology33,1293–1298(2015);以及Zetsche,B.et al.Cell163,759-771
(2015);每个的全部内容通过引用并入本文。此外,还引入扩大各种Cas9蛋白的PAM特异性
的创新,以将碱基编辑器的靶物范围扩大得甚至更多。参见Kleinstiver,B.P.et 
al.Nature523,481–485(2015);以及Kleinstiver,B.P.et al.Nature Biotechnology33,
1293–1298(2015)。表4中总结了碱基编辑器的当前工具板(palette)。
[0927] 表4:从Cas9变体生成的新碱基编辑器
[0928]
[0929] 通过rAPOBEC1的定点诱变调节碱基编辑器的持续合成能力
[0930] 据推测,可以通过在脱氨酶中产生点突变来调节碱基编辑器的持续合成能力。追求突变的引入,所述突变略微降低脱氨酶的催化活性,其中平均而言,碱基编辑器仍催化一
轮胞苷脱氨基化,但不可能在相关时间范围内接近并催化另一轮脱氨基化。实际上,所得的
基编辑器将具有较窄的脱氨基化窗。
[0931] 在该工作中探测的rAPOBEC1突变列于表5中。一些突变导致rAPOBEC1催化的轻微的表观损害,其表现为当在脱氨基化窗内发现多个胞苷时一个胞苷相对另一个胞苷的优先
编辑。组合这些突变中的一些具有叠加效应,允许碱基编辑器以更高的严格性区分底物胞
苷。一些双重突变体和三重突变体允许选择性编辑彼此刚好接近的多个胞苷中的一个胞苷
(图57)。
[0932] 表5:调查的rAPOBEC1点突变
[0933]
[0934] 碱基编辑器PAM扩展和持续处理能力调节
[0935] 下一代碱基编辑器设计为通过使用其他RNA-指导的DNA结合剂来扩充基因组中的可编辑胞苷(图58)。使用NGG PAM仅仅允许“窗”内的单一靶物,而使用多种不同的PAM允许
将Cas9置于任何位置以实现选择性脱氨基化。已经从Cas9变体创建多种新的碱基编辑器
(图59和表4)。探索了不同的PAM位点(NGA,图60;NGCG,图61;NNGRRT,图62;和NNHRRT,图
63)。通过动态调节胞苷脱氨酶点突变成功实现选择性脱氨基化(图65和表5)。
[0936] 然后使用具有多个胞苷的间隔物在细胞培养物中研究各种突变对脱氨基化窗的影响(图66和67)。
[0937] 此外,检查各种突变对具有有限数目的胞苷的不同基因组位点的影响(图68至71)。发现约一个胞苷将在隔离物中的脱氨基团内编辑,而其余的胞苷将保持完整。总体上,编辑优先如下:C6>C5>>C7≈C4。
[0938] 使用Cpf1的碱基编辑
[0939] Cpf1(一种Cas9同源物)可以作为AsCpf1、LbCpf1或从任何其他物种获得。图73显示了融合构建体的示意图,包括BE2和BE3等同物。BE2等同物使用催化无活性的Cpf2酶
(dCpf1)而不是Cas9,而BE3等同物包括Cpf1突变体,它切割靶链。底部的示意图描绘了不同
的融合架构,以结合上面阐述的两种创新(图73)。在不同间隔物的情况下检查使用Cpf1BE2
的HEK293T细胞TTTN PAM位点的碱基编辑结果(图64A至64C)。在一些实施方案中,可以使用
Cpf1替换本文提供的任何碱基编辑器中的Cas9域。在一些实施方案中,Cpf1是与SEQ ID NO 
313至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、98%、99%、或99.5%相同的蛋白质。
[0940] Cpf1的全蛋白序列(SEQ ID NO:313):
[0941] MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSK
DNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKD
KAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGI
NEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLL
FDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLE
TIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLD
QTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANG
WDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPS
EDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGY
KLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK
KITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSI
DRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIA
KLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQ
TGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASF
GSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGT
ELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[0942] 实施例10:碱基编辑的增加的保真性
[0943] 检查BE3和HF-BE3的质粒递送之间的差异,发现两者以相当的效率编辑中靶基因座(图74和75)。然而,HF-BE3比BE3少得多地编辑脱靶基因座,意味着HF-BE3比BE3具有高得
多的DNA特异性(图76)。对HEK细胞的脱氨酶蛋白质脂转染证明BE3的蛋白质递送导致相当
的中靶活性,但是比BE3的质粒DNA递送好得多的特异性。使用改善的转染程序和更好的质
粒(n=2),实验使用以下条件:蛋白质递送为125nM Cas9:sgRNA复合物,质粒递送为750ng 
BE3/HF-BE3质粒+250ng sgRNA质粒,并且每孔用1.5μL Lipofectamine 2000脂转染。与测
定的所有脱靶相比,EMX-1脱靶位点2和FANCF脱靶位点1在BE3的情况下显示最多的脱靶编
辑(图77和78),而对于任何递送方法,HEK-3未显示脱靶处显著的编辑(图79)。HEK-4在中靶
位点上显示一些C至G编辑,而其脱靶位点1、3和4显示所有测定位点的大部分脱靶编辑(图
80)。
[0944] 通过微注射将BE3蛋白递送到斑马鱼中
[0945] 在sgRNA活性的体外测定法中测试TYR引导RNA(图81和82)。%HTS读段显示在与纯化的BE3蛋白温育2小时和所得产物的PCR期间多少C残基转化为T残基。实验使用80聚体合
成DNA底物,具有其基因组背景的60bp中的靶脱氨基化位点。这与%编辑的DNA链不同,因为
仅对一条链产生切口,因此产物未通过PCR扩增。编辑的HTS读段的比例等于x/(2-x),其中x
是编辑的THS读段的实际比例。对于60%编辑,编辑的碱基的实际比例为75%。“脱靶”表示BE3与相同的DNA底物温育,而与脱靶sgRNA结合。发现sgRNA sgRH_13、sgHR_17和可能地
sgHR_16似乎是体内注射实验的有希望的靶物。
[0946] 在斑马鱼中体内测试BE3蛋白的递送。对斑马鱼胚(n=16-24个)注射乱序的sgRNA、sgHR_13、sgHR_16或sgHR_17和纯化的BE3。对来自每种条件的三个胚独立分析(单一
胚),并且对于每种条件,将所有注射的胚合并,并且作为合并物测序。在图83至85中显示了结果。
[0947] 实施例11:碱基编辑器治疗疾病的用途
[0948] 可以使用本文中提供的碱基编辑器或复合物(例如BE3)来修饰核酸。例如,可以使用碱基编辑器将胞嘧啶改变为核酸(例如DNA)中的胸腺嘧啶。可以产生此类变化以尤其改
变蛋白质的氨基酸序列,以破坏或创建起始密码子,以创建终止密码子,以破坏剪接供体,
以破坏剪接受体或编辑调节序列。图86中显示可能的核苷酸变化的实例。
[0949] 可以使用本文中提供的碱基编辑器或复合物(例如BE3)编辑受试者中的载脂蛋白E的同种型。例如,可以编辑载脂蛋白E同种型以产生与发展阿尔茨海默氏病的较低风险相
关的同种型。载脂蛋白E具有在氨基酸112和158处不同的4种同种型。APOE4是迟发型阿尔茨
海默氏病中最大且最常见的遗传风险因子。可以通过使用碱基编辑器(例如BE3)将CGC核酸
序列改变为编码残基158处半胱氨酸的TGC来将由核酸序列CGC编码的APOE4的精氨酸残基
158改变为半胱氨酸。此变化产生APOE3r同种型,其与低阿尔茨海默氏病风险相关。参见图
87。
[0950] 测试碱基编辑器BE3是否可以在小鼠星形胶质细胞中将APOE4编辑为APOE3r(图88)。用Cas9+模板或BE3(靶向编码APOE4的精氨酸158的核酸)核转染APOE 4小鼠星形胶质
细胞。Cas9+模板仅产生0.3%的编辑与26%的插入/缺失,而BE3产生75%的编辑与5%的插
入/缺失。两个额外的碱基编辑的胞嘧啶是沉默的,并且不对氨基酸序列产生变化(图88)。
[0951] 可以使用本文中提供的碱基编辑器或复合物治疗朊病毒蛋白疾病,例如克雅二氏病(Creutzfeldt-Jakob disease)和致命性家族性失眠,例如通过将突变引入PRNP基因。恢
复PRNP突变可以不产生治疗结果,并且PRNP中的插入/缺失可能是致病性的。因此,测试
PRNP是否可以使用碱基编辑器(例如BE3)突变以在PRNP基因中引入提前终止密码子。将与
其引导RNA结合的BE3引入HEK细胞或成胶质细胞瘤细胞中,并且能够编辑PRNP基因以将编
码的残基37处的精氨酸改变为终止密码子。BE3产生41%的编辑(图89)。
[0952] 可以编辑的其他基因包括以下:APOE编辑Arg 112和Arg 158以治疗增加的阿尔茨海默氏症风险;APP编辑Ala 673以降低阿尔茨海默氏症风险;PRNP编辑Arg 37以治疗致命
性家族性失眠和其他朊病毒蛋白疾病;DMD编辑外显子23和51剪接位点以治疗杜兴氏肌营
养不良;FTO编辑内含子1以治疗肥胖风险;PDS编辑外显子8以治疗Pendred综合征(遗传性
耳聋);TMC1编辑外显子8以治疗先天性听力损失;CYBB编辑各种患者相关突变来治疗慢性
肉芽肿病。可以使用本文提供的碱基编辑器治疗的其他疾病显示在下表6中。
[0953] UGI也起关键作用。显示敲除UDG(UGI抑制)显著改善C至T碱基编辑的清洁性和效率(图90)。此外,显示具有切口酶并且没有UGI的碱基编辑器产生结果的混合,具有非常高
的插入/缺失率(图91)。
[0954] 实施例12:扩展碱基编辑的靶向范围
[0955] 碱基编辑是使用融合蛋白的基因组编辑的新方法,所述融合蛋白含有催化缺陷的酿脓链球菌Cas9(胞苷脱氨酶)和碱基切割修复抑制剂来诱导DNA中的可编程的单核苷酸C
→T(或G→A)的变化不产生双链DNA断裂,不需要供体DNA模板,并且不诱导过量的随机插入
和缺失1。本文中描述了开发5种新的C→T(或G→A)碱基编辑器,它们使用具有不同原间隔
物相邻基序(PAM)特异性的天然和工程化Cas9变体,以将可以通过碱基编辑靶向的位点数
目扩大2.5倍。此外,工程化改造含有突变胞苷脱氨酶域的新碱基编辑器,从而使得能够鉴
别先前以相当效率编辑的相邻C核苷酸,所述突变胞苷脱氨酶域将表观编辑窗的宽度从约5
个核苷酸缩小到1或2个核苷酸。这些开发一起实质性增加碱基编辑的靶向范围。
[0956] 已经广泛使用CRISPR-Cas9核酸酶来介导靶向基因组编辑2。在大多数基因组编辑应用中,Cas9与单一引导RNA(sgRNA)形成复合物,并在由sgRNA序列规定的靶位点处诱导双
链DNA断裂(DSB)。细胞主要通过非同源末端连接(NHEJ)修复途径对此DSB响应,其导致随机
插入或缺失(插入/缺失),这会引起破坏基因的移码突变。在存在与DSB侧翼的序列具有高
度同源性的供体DNA模板的情况下,可以通过称为同源性定向修复(HDR)的替代途径来实现
基因校正3。不幸的是,在大多数非扰乱条件下,HDR是低效的,取决于细胞状态和细胞类型,并且以较大的插入/缺失频率为主3,4。由于与人疾病有关的大多数已知遗传变异为点突
变5,因此需要可以更有效且干净地进行精确点突变的方法。
[0957] 最近已经描述了碱基编辑,其使得能够以可编程方式用T:A碱基对靶向替换C:G碱基对而不诱导DSB1。碱基编辑使用酿脓链球菌Cas9(SpCas9)的催化失活(dCas9)或切口酶
形式、胞苷脱氨酶如APOBEC1和碱基切割修复抑制剂如尿嘧啶糖基化酶抑制剂(UGI)之间的
融合蛋白以在由sgRNA规定的5个核苷酸的窗内将胞苷转化为尿苷酸1。第三代碱基编辑器
BE3以比使用其它基因组编辑方法可以实现的情况更高的效率和更低的插入/缺失频率在
多种细胞系中将C:G碱基对转换为T:A碱基对,包括疾病相关的点突变1。随后的研究验证了
6,7
多种设置中的脱氨酶-dCas9融合方法 。
[0958] 通过BE3的有效编辑需要存在NGG PAM,其将靶C置于靠近原间隔物的PAM远端末端的5个核苷酸窗内(位置4-8,将PAM计数为位置21-23)1。此PAM需求实质性限制可以通过BE3
有效靶向的人基因组中的位点数目,因为许多感兴趣的位点缺少靶C下游13至17个核苷酸
的NGG。此外,BE3的高活性和持续合成能力导致编辑窗内的所有C转换为T,这可以潜在对靶
基因座引入不想要的变化。在本文中,描述了新的C:G至T:A碱基编辑器,它们解决了这两个
限制。
[0959] 认为任何结合DNA并形成含有单链DNA泡的“R-环”复合物8的Cas9同源物原则上可以转化为碱基编辑器。这些新的碱基编辑器可以通过允许编辑非NGG PAM位点来扩展可靶
向的基因座的数目。来自金黄色葡萄球菌的Cas9同源物(SaCas9)比SpCas9小得相当多
(1053对1368个残基),可以介导哺乳动物细胞中有效的基因组编辑,并且需要NNGRRT 
PAM9。用BE3中的SaCas9替换SpCas9以产生SaBE3,并用编码靶向6个人基因组基因座的
sgRNA和SaBE3的质粒转染HEK293T细胞(图92A和92B)。3天后,对基因组基因座进行高通量
DNA测序(HTS)以量化碱基编辑效率。SaBE3在人细胞的多种基因组位点处实现靶C的C至T碱
基编辑,具有非常高的转化效率(约50-75%的总DNA序列从C转化为T,而不富集经转染的细
胞),其源自靶向位置6-11处的C。含有NNGRRT的靶位点上的SaBE3效率一般超过含有NGG的
靶位点上的BE3的效率1。可能由于其较高的平均效率,SaBE3也可以在规范的BE3活性窗以
外的位置处的靶C处产生可检测的碱基编辑(图92C)。相比之下,根据已知的SpCas9PAM优
10
先,BE3在相同条件下显示显著降低的编辑(0-11%)(图106A) 。这些数据显示了SaBE3可以
在无法接近BE3的位点处促进非常有效的碱基编辑。
[0960] 通过应用扩展或改变PAM特异性的最近工程化Cas9变体进一步扩展碱基编辑器的靶向范围。Joung及其同事最近报告了三种接受NGA(VQR-Cas9)、NGAG(EQR-Cas9)或NGCG
11
(VRER-Cas9)PAM序列的SpCas9突变体 。此外,Joung及其同事工程化改造含有三个突变的
SaCas9变体(SaKKH-Cas9),该变体将其PAM需求放松至NNNRRT12。将BE3的SpCas9部分替换为
这四种Cas9变体以分别产生靶向NNNRRT、NGA、NGAG和NGCG PAM的VQR-BE3、EQR-BE3、VRER-
BE3和SaKKH-BE3。用编码这些构建体和针对每个新碱基编辑器的6个基因组基因座的sgRNA
的质粒转染HEK293T细胞,并测量使用HTS的C至T碱基转化。
[0961] SaKKH-BE3以经处理的非富集细胞的高达62%的效率编辑具有NNNRRT PAM的位点(图92D)。如预期,SaBE3无法有效地编辑含有作为NNNHRRT(其中H=A、C或T)的PAM的靶物
(图92D)。VQR-BE3、EQR-BE3和VRER-BE3以与BE3的编辑窗相似的编辑窗在具有预期PAM要求
的基因组基因座处表现出经处理的非富集细胞的高达50%的更适度但仍实质性的碱基编
辑效率(图92E和92F)。一般而言,VQR-BE3、EQR-BE3和VRER-BE3的碱基编辑效率与相应Cas9
核酸酶的报告的PAM要求紧密平行;例如,EQR-BE3不能有效地编辑含有NGAH PAM序列的靶
物(图92F)。相比之下,BE3无法有效地(0-3%)编辑具有NGA或NGCG PAM的位点,可能是由于
其PAM限制(图106B)。
[0962] SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3和VRER-BE3的性质共同建立了碱基编辑器表现出模性,这促进它们利用Cas9同源物和工程化变体的能力。
[0963] 接下来,开发了具有改变的活性窗宽度的碱基编辑器。BE3的活性窗内的所有C都可以高效地转化为T1。在仅编辑BE3活性窗中存在的C亚组是重要的情况下,调节此窗的宽
度的能力将是非常有用的。
[0964] 先前观察到APOBEC1与dCas9之间的接头长度调节由APOBEC1体外可接近的碱基数目1。然而,在HEK293T细胞中,改变接头长度不显著调节编辑窗的宽度,提示在复杂的细胞
环境中,dCas9和胞苷脱氨酶的相对定向和灵活性不由接头长度强烈决定(图96)。接下来,
认为截短sgRNA的5’端可以通过减少形成RNA-DNA异双链体时可接近脱氨酶的单链DNA的长
度来缩小碱基编辑窗。用编码BE3和不同间隔物长度的sgRNA的质粒共转染HEK293T细胞,所
述sgRNA靶向编辑窗中具有多个C的基因座。未观察到当使用具有17至19个碱基的间隔物的
截短sgRNA时碱基编辑宽度的一致变化(图95A至95C)。将sgRNA间隔物截短至少于17个碱基
导致活性的较大损失(图95A)。
[0965] 作为备选方法,认为对脱氨酶域的突变可以通过多种可能机制缩小编辑窗的宽度。首先,一些突变可以以降低对脱氨酶活性位点的非最佳C呈现的容忍的方式改变底物结
合、结合DNA的构象或底物对活性位点的可接近性。其次,因为APOBEC1的高活性可能促成每
个DNA结合事件的多个C的脱氨基化1,13,14,所以降低碱基编辑器的脱氨酶域的催化效率的
突变可能阻止在从DNA解离之前其催化连续的脱氨基化轮次。一旦发生了任何C:G到T:A编
辑事件,sgRNA不再与靶DNA序列完美匹配,并且碱基编辑器与靶基因座的再结合应当不太
有利。为了发现区别初始编辑窗内的多个胞苷,测试了这两种策略。
[0966] 鉴于缺乏可用的APOBEC1结构,鉴定出几个突变,其先前报告为调节APOBEC3G的活性,所述APOBEC3G是来自同一家族的胞苷脱氨酶,该胞苷脱氨酶与APOBEC1共享其含有活性
位点的域的42%序列相似性15。将相应的APOBEC1突变掺入BE3中,并评估它们对HEK293T细
胞中在含有位置3、4、5、6、8、9、10、12、13、和14(位点A)处的C;或含有位置5、6、7、8、9、10、
11、和13(位点B)处的C的两个富含C的基因组位点处的碱基编辑效率和编辑窗宽度的影响。
[0967] APOBEC1突变R118A和W90A各自导致碱基编辑效率的显著丧失(图97C)。R132E导致编辑效率的普遍降低,但并未改变(实质性缩小)编辑窗的形状(图97C)。相反,发现了几个
突变,其在保持实质编辑效率的情况下缩小编辑窗的宽度(图93A和97C)。“编辑窗宽度”定
义为表示人工计算的窗宽度,在其内编辑效率超过该靶物的半最大值。测试的两个富含C的
基因组位点的BE3编辑窗宽度为5.0个(位点A)和6.1个(位点B)核苷酸。
[0968] 预测APOBEC1中的R126与ssDNA的磷酸主链相互作用13。先前的研究已经显示了将相应的突变导入APOBEC3G使催化降低至少5倍14。令人感兴趣的是,当引入BE3中的APOBEC1
时,R126A和R126E在最强烈编辑位置(C5、C6和C7)处相对于BE3增加或维持活性,而降低其
他位置处的编辑活性(图93A和97C)。因此,这两个突变中的每个将位点A和位点B处编辑窗
的宽度分别缩小至4.4和3.4个核苷酸(R126A)或4.2和3.1个核苷酸(R126E)(图93A和97C)。
[0969] 预测APOBEC1中的W90(对应于APOBEC3G中的W285)在APOBEC3G活性位点中形成疏水袋并辅助底物结合13。将该残基突变为Ala消除了APOBEC3G的催化活性13。在BE3中,W90A
几乎完全消除碱基编辑效率(图97C)。相反,发现W90Y仅仅适度降低碱基编辑活性,而分别
将位点A和位点B的编辑窗宽度缩小到3.8和4.9个核苷酸(图93A)。这些结果证明了对胞苷
脱氨酶域的突变可以缩小相应碱基编辑器的活性窗宽度。
[0970] 将W90Y、R126E和R132E(缩小编辑窗而不显著降低碱基编辑活性的三种突变)组合成双重和三重突变的碱基编辑器。双重突变体W90Y+R126E产生如下的碱基编辑器(YE1-
BE3),其具有BE3样最大编辑效率,但是实质性缩小的编辑窗宽度(位点A和位点B处的宽度
分别=2.9和3.0个核苷酸)(图93A)。W90Y+R132E碱基编辑器(YE2-BE3)表现出适度较低的
编辑效率(与BE3相比在测试的5个位点间平均低1.4倍的最大编辑产率)以及实质性缩小的
编辑窗宽度(位点A和位点B处的宽度分别=2.7和2.8个核苷酸)(图97C)。R126E+R132E双重
突变体(EE-BE3)显示与YE2-BE3相似的最大编辑效率和编辑窗宽度(图97C)。三重突变体
W90Y+R126E+R132E(YEE-BE3)表现出低2.0倍的平均最大编辑产率,但是超出C6位置的极少
编辑和对于位点A和位点B分别的编辑窗宽度2.1和1.4个核苷酸(图97C)。这些数据一起指
示胞苷脱氨酶域中的突变可以强烈影响编辑窗宽度,在某些情况下,对编辑效率具有最小
的影响或仅有适度影响。
[0971] 在HEK293T细胞中进一步比较BE3、YE1-BE3、YE2-BE3、EE-BE3和YEE-BE3的碱基编辑结果,它们靶向在BE3活性窗内含有多个C的四个充分研究的人基因组位点1。这些靶基因
座在位置4和5(HEK位点3)、位置4和6(HEK位点2)、位置5和6(EMX1)或位置6、7、8、和11
(FANCF)处含有靶C。BE3对于编辑位置4-8活性窗内任何C表现出很少的(<1.2倍)优先。相比
之下,YE1-BE3表现出相对于C4编辑C5的1.3倍优先(HEK位点3)、相对于C4编辑C6的2.6倍优
先(HEK位点2)、相对于C6编辑C5的2.0倍优先(EMX1)、和相对于C7编辑C6的1.5倍优先
(FANCF)(图93B)。YE2-BE3和EE-BE3比YE1-BE3表现出略大的位置特异性(更窄的活性窗),
平均值为相对于C4编辑C5的2.4倍优先(HEK位点3)、相对于C4编辑C6的9.5倍优先(HEK位点
2)、相对于C6编辑C5的2.9倍优先(EMX1)、和相对于C6编辑C7的2.6倍优先(FANCF)(图93B)。
YEE-BE3显示最大的位置选择性,相对于C4编辑C5的2.9倍优先(HEK位点3)、相对于C4编辑
C6的29.7倍优先(HEK位点2)、相对于C6编辑C5的7.9倍优先(EMX1)、和相对于C6编辑C7的
7.9倍优先(FANCF)(图93B)。这些发现建立了突变体碱基编辑器可以区分相邻的C,即使当
这两个核苷酸都位于BE3编辑窗内时。
[0972] 通过HTS进一步分析这四种突变体和BE3的产物分布以评估它们的表观持续合成能力。在经处理的HEK293T细胞中,BE3主要产生T4-T5(HEK位点3)、T4-T6(HEK位点2)和T5-
T6(EMX1)产物,平均而言产生比包含单一T的产物多7.4倍的含有两个T的产物。相比之下,
YE1-BE3、YE2-BE3、EE-BE3、和YEE-BE3显示对单一编辑的C4-T5、C4-T6和T5-C6产物的实质
性更高的优先(图93C)。YE1-BE3以平均单一T与双重T产物比率1.4产生产物。YE2-BE3和EE-
BE3以平均单一T与双重T产物比率分别为4.3和5.1产生产物(图93C)。与上述结果一致,
YEE-BE3三重突变体在三个基因组基因座间有利于单一T产物达14.3倍的平均值(图93C)。
对于其中仅一个C位于靶窗内的靶位点(HEK位点4,位置C5处),所有四种突变体与BE3表现
出相当的编辑效率(图98)。这些发现指示这些BE3突变体具有降低的表观持续合成能力并
且可以有利于在BE3编辑窗内含有多个C的靶位点处仅单一C的转化。这些数据还提示这些
突变体碱基编辑器的位置优先C5>C6>C7≈C4,尽管此种优先可以根据靶序列而有所不同。
[0973] 将APOBEC1中的窗调节突变应用于VQR-BE3,允许在由NGA PAM靶向的位点处对底物进行选择性碱基编辑(图107A)。然而,当将这些突变应用于SaKKH-BE3时,观察到碱基编
辑效率的线性降低而没有底物选择性的改善,表明此碱基编辑器的动力平衡和底物可接近
性不同于BE3及其变体的(图107B)。
[0974] 本研究中描述的具有改变的PAM特异性的5个碱基编辑器一起将ClinVar数据库中的疾病相关突变的数目增加2.5倍,所述突变原则上可以通过碱基编辑校正(图94A和94B)。
类似地,具有缩小编辑窗的碱基编辑器的开发几乎使具有正确定位的NGG PAM的ClinVar条
目的分数倍增,所述NGG PAM可以通过碱基编辑校正,而没有对非靶C的相当的修饰(从对于
BE3的31%至对于YEE-BE3的59%)(图94A和94B)。
[0975] 总之,通过开发使用具有不同PAM特异性的Cas9变体的碱基编辑器并通过开发具有不同编辑窗宽度的脱氨酶突变体集合,实质性扩展碱基编辑的靶向范围。理论上,使用其
16
他可编程DNA结合蛋白(如Cpf1 )进行碱基编辑应当是可能的,所述可编程DNA结合蛋白参
见单链DNA泡,其可以充当单链特异性核苷脱氨酶的底物。
[0976] 材料和方法
[0977] 克隆。使用Q5热启动高保真性DNA聚合酶(New England Biolabs)进行PCR。使用从以前报告的质粒1获得的USER克隆(New England Biolabs)构建BE和sgRNA的质粒。使用NEB 
10beta感受态细胞(New England Biolabs)进行DNA载体扩增。
[0978] 细胞培养物。将HEK293T(ATCC CRL-3216)在补充有10%(v/v)胎牛血清(FBS)的Dulbecco改良Eagle培养基加GlutaMax(ThermoFisher)中在37℃和5%CO2下培养。将含有
APOE基因的ApoE4同种型的永生化大鼠星形胶质细胞(Taconic Biosciences)维持在补充
有10%(v/v)胎牛血清(FBS)和200μg/mL遗传霉素的Dulbecco改良Eagle培养基加GlutaMax
(ThermoFisher Scientific)ThermoFisher Scientific)中。
[0979] 转染。将HEK293T细胞接种在48孔胶原包被的BioCoat平板(Corning)上并以约85%汇合转染。每孔使用1.5μl的Lipofectamine 2000(ThermoFisher Scientific)根据制
造商的方案转染750ng的BE和250ng的sgRNA表达质粒。
[0980] 基因组DNA样品的高通量DNA测序。在3天后收获经转染的细胞,并使用Agencourt DNAdvance基因组DNA分离试剂盒(Beckman Coulter)根据制造商的说明分离基因组DNA。利
用补充序列中列出的侧翼HTS引物对通过PCR扩增感兴趣的基因组区域。用Phusion热启动
II DNA聚合酶(ThermoFisher)根据制造商的说明进行PCR扩增。使用RapidTips(Diffinity 
Genomics)纯化PCR产物。进行二次PCR以连接测序衔接头。对产物进行凝胶纯化并且使用
KAPA文库量化试剂盒-Illumina(KAPA Biosystems)量化。如前所述1,在Illumina MiSeq上
对样品测序。
[0981] 数据分析。使用先前描述的MATLAB脚本1评估核苷酸频率。简言之,通过Smith-Waterman算法将读段与参考序列比对。具有低于30的Q值的碱基呼叫用占位符核苷酸(N)替
换。此质量阈值导致具有预期理论错误率1000之一的核苷酸频率。
[0982] 使用自定义python脚本进行碱基编辑持续合成能力的分析。此程序将测序读段修剪成20个核苷酸的原间隔物序列,如通过应当在靶位点侧翼的7个核苷酸序列的完全匹配
确定。然后对这些靶物进行整理,并按丰量分选以评估碱基编辑产物的频率。
[0983] 人疾病相关突变的ClinVar数据库的生物信息学分析以类似于先前描述的方式但是具有小的调整1的方式进行。这些调整使得能够鉴定具有可定制长度和序列的PAM的靶
物。另外,此种改善的脚本包括靶C位置的优先性排序(C5>C6>C7>C8≈C4),从而使得能够鉴
定靶位点,其中中靶C是窗内唯一的胞嘧啶或者比编辑窗内的任何脱靶C以更高的预测编辑
效率置于位置处。
[0984] 实施例12的参考文献
[0985] 1 Komor,A.C.et al.Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage.Nature533,420-424(2016).
[0986] 2 Sander,J.D.&Joung,J.K.CRISPR-Cas systems for editing,regulating and targeting genomes.Nature biotechnology32,347-355(2014).
[0987] 3 Cong,L.et al.Multiplex genome engineering using CRISPR/Cas systems.Science339,819-823(2013).
[0988] 4  Ran,F.A.et al.Genome engineering  using  the  CRISPR-Cas9 system.Nat.Protocols8,2281-2308(2013).
[0989] 5 Landrum,M.J.et al.ClinVar:public archive of interpretations of clinically relevant variants.Nucleic Acids Res.44,D862–D868(2015).
[0990] 6 Nishida,K.et al.Targeted nucleotide editing using  hybrid prokaryotic and vertebrate adaptive immune systems.Science353,aaf8729-1-8
(2016).
[0991] 7 Ma,Y.et al.Targeted AID-mediated mutagenesis(TAM)enables efficient genomic diversification in mammalian cells.Nat.Methods doi:10.1038/nmeth.4027
(2016).
[0992] 8 Jiang,F.et al.Structures of a CRISPR–Cas9 R-loop complex primed for DNA cleavage.Science351,867-71(2016).
[0993] 9 Ran,F.A.et al.In vivo genome editing using Staphylococcus aureus Cas9.Nature520,186-191(2015).
[0994] 10 Zhang,Y.et al.Comparison of non-canonical PAMs for CRISPR/Cas9-mediated DNA cleavage in human cells.Sci.Rep.4,(2014).
[0995] 11 Kleinstiver,B.P.et.al.Engineered CRISPR-Cas9 nucleases with altered PAM specificities.Nature523,481-485(2015).
[0996] 12  Kleinstiver,B.P.et.al.Broadening the targeting range of Staphylococcus  aureus  CRISPR-Cas9  by  modifying  PAM 
recognition.Nat.Biotechnol.33,1293-1298(2015).
[0997] 13 Holden,L.G.et al.Crystal structure of the anti-viral APOBEC3G catalytic domain and functional implications.Nature452,121-124(2008).
[0998] 14 Chen,K.-M.et al.Structure of the DNA deaminase domain of the HIV-1restriction factor APOBEC3G.Nature452,116-119(2008).
[0999] 15 Harris,R.S.,Petersen-Mahrt,S.K.&Neuberger,M.S.RNA Editing Enzyme APOBEC1 and Some of Its Homologs Can Act as DNA Mutators.Molecular Cell10,
1247-1253(2002).
[1000] 16 Zetsche,B.et al.Cpf1 Is a Single RNA-Guided Endonuclease of a Class 2CRISPR-Cas System.Cell163,759–771(2015).
[1001] 实施例13:
[1002] 使用改善的转染程序和更好的质粒,使用生物学重复(n=3)将四个HF突变安装到BE3的Cas9部分中。突变没有显著实现用质粒递送的中靶编辑(图99)。在测试浓度下,BE3蛋
白递送起作用;然而,中靶编辑比对于质粒传递低(图100)。安装有HF突变的BE3的蛋白质递
送降低中靶编辑效率,但仍产生一些编辑的细胞(图101)。
[1003] 显示脂转染和安装HF突变两者都减少脱靶脱氨基化事件。对于图102中显示的4个位点,测定具有最高GUIDE-Seq读段和脱氨基化事件的脱靶位点(OT)(Komor等,Nature,
2016)。通过在最接近的相应C处将脱靶编辑除以中靶编辑来计算特异性比率。在不能检测
到脱靶编辑的情况下,比率设置为100。因此,较高的特异性比率指示更具体的构建体。BE3
质粒递送显示比BE3蛋白递送、HF-BE3质粒递送或HF-BE3蛋白递送高得多的脱靶/中靶编辑
(图102和105)。
[1004] 对纯化的蛋白质HF-BE3和BE3在体外分析其在具有最允许的基序的间隔物中的不同位置处将C转化T的能力。发现BE3和HF-BE3蛋白质两者具有用于碱基编辑的相同“窗”(图
103和104)。
[1005] 表9中给出了疾病靶物的列表。用粗体和下划线指示表9中要编辑的碱基。
[1006] 表9:碱基编辑器疾病靶物
[1007]
[1008]
[1009] 表6:可以使用碱基编辑器处理的示例性疾病。原间隔物和PAM序列显示在sgRNA(PAM)列中。PAM序列显示在括号内,并且用下划线表示要编辑的碱基。
[1010]
[1011] 本文在表7和8中提供了可以由本公开的碱基编辑器或复合物靶向的人基因组中的另外的示例性基因。表7包括可以通过例如使用BE3核碱基编辑器将胞嘧啶(C)改变为胸
腺嘧啶(T)来校正的基因突变。表8包括可以通过例如使用BE3核碱基编码器将鸟嘌呤(G)改
变为腺嘌呤(A)来校正的基因突变。
[1012] 表7:可以通过将胞嘧啶(C)改变为胸腺嘧啶(T)来校正的人基因突变。指示基因名称、基因符号和dbSNP数据库参考号(RS#)。还指出具有它们的PAM序列(gRNA和gRNAall)和
待编辑的碱基的示例性原间隔物,例如由“Y”指示的C。从顶部到底部的“gRNA”序列对应于SEQ ID NO:1914-2091。从上到下的“gRNAall”序列对应于SEQ ID NOs:2192-2540、3144-
3433。
[1013]
[1014]
[1015]
[1016]
[1017]
[1018]
[1019]
[1020]
[1021]
[1022]
[1023]
[1024]
[1025]
[1026]
[1027]
[1028]
[1029]
[1030]
[1031]
[1032]
[1033]
[1034]
[1035]
[1036]
[1037]
[1038]
[1039]
[1040]
[1041]
[1042]
[1043]
[1044]
[1045]
[1046]
[1047]
[1048]
[1049]
[1050]
[1051]
[1052]
[1053]
[1054]
[1055]
[1056]
[1057]
[1058]
[1059]
[1060]
[1061]
[1062]
[1063]
[1064]
[1065]
[1066]
[1067]
[1068]
[1069]
[1070]
[1071]
[1072]
[1073]
[1074]
[1075]
[1076]
[1077]
[1078]
[1079]
[1080]
[1081]
[1082]
[1083]
[1084]
[1085]
[1086]
[1087]
[1088]
[1089] 表8:可以通过将鸟嘌呤(G)改变为腺嘌呤(A)校正的人基因突变。指示了基因名称、基因符号和dbSNP数据库参考号(RS#)。还指示了具有其PAM序列(gRNAs和gRNAall)的例
示性原间隔物和要编辑的碱基,例如C,由“Y”指示。“gRNAs”序列从上到下对应于SEQ ID NO:3434-3601。“gRNA all”序列从上到下对应于SEQ ID NO:3602-4266。
[1090]
[1091]
[1092]
[1093]
[1094]
[1095]
[1096]
[1097]
[1098]
[1099]
[1100]
[1101]
[1102]
[1103]
[1104]
[1105]
[1106]
[1107]
[1108]
[1109]
[1110]
[1111]
[1112]
[1113]
[1114]
[1115]
[1116]
[1117]
[1118]
[1119]
[1120]
[1121]
[1122]
[1123]
[1124]
[1125]
[1126]
[1127]
[1128]
[1129]
[1130]
[1131]
[1132]
[1133]
[1134]
[1135]
[1136]
[1137]
[1138]
[1139]
[1140]
[1141]
[1142]
[1143]
[1144]
[1145]
[1146]
[1147]
[1148]
[1149]
[1150]
[1151]
[1152]
[1153]
[1154]
[1155]
[1156]
[1157]
[1158]
[1159]
[1160]
[1161]
[1162]
[1163] 参考文献
[1164] 1.Humbert O,Davis L,Maizels N.Targeted gene therapies:tools,applications,optimization.Crit Rev Biochem Mol.2012;47(3):264-81.PMID:
22530743.
[1165] 2.Perez-Pinera P,Ousterout DG,Gersbach CA.Advances in targeted genomeediting.Curr Opin Chem Biol.2012;16(3-4):268-77.PMID:22819644.
[1166] 3.Urnov FD,Rebar EJ,Holmes MC,Zhang HS,Gregory PD.Genome editingwith engineered zinc finger nucleases.Nat Rev Genet.2010;11(9):636-46.PMID:
20717154.
[1167] 4.Joung JK,Sander JD.TALENs:a widely applicable technology for targetedgenome editing.Nat Rev Mol Cell Biol.2013;14(1):49-55.PMID:23169466.
[1168] 5.Charpentier  E,Doudna  JA.Biotechnology:Rewriting  a genome.Nature.2013;495,(7439):50-1.PMID:23467164.
[1169] 6.Pan Y,Xia L,Li AS,Zhang X,Sirois P,Zhang J,Li K.Biological andbiomedical applications of engineered nucleases.Mol Biotechnol.2013;55(1):
54-62.PMID:23089945.
[1170] 7.De Souza,N.Primer:genome editing with engineered nucleases.Nat Methods.2012;9(1):27.PMID:22312638.
[1171] 8.Santiago Y,Chan E,Liu PQ,Orlando S,Zhang L,Urnov FD,Holmes MC,Guschin D,Waite A,Miller JC,Rebar EJ,Gregory PD,Klug A,Collingwood 
TN.Targeted gene knockout in mammalian cells by using engineered zinc-finger 
nucleases.Proc Natl Acad Sci U S A.2008;105(15):5809-14.PMID:18359850.
[1172] 9.Cargill M,Altshuler D,Ireland J,Sklar P,Ardlie K,Patil N,Lane CR,Lim EP,Kalyanaraman N,Nemesh J,Ziaugra L,Friedland L,Rolfe A,Warrington J,
Lipshutz  R,Daley  GQ,Lander  ES.Characterization  of  single-
nucleotidepolymorphisms in coding regions of human genes.Nat Genet.1999;22
(3):231-8.PMID:10391209.
[1173] 10.Jansen R,van Embden JD,Gaastra W,Schouls LM.Identification of genesthat are associated with DNA repeats in prokaryotes.Mol Microbiol.2002;
43(6):1565-75.PMID:11952905.
[1174] 11.Mali P,Esvelt  KM,Church GM.Cas9  as a versatile tool for engineeringbiology.Nat Methods.2013;10(10):957-63.PMID:24076990.
[1175] 12.Jore MM,Lundgren M,van Duijin E,Bultema JB,Westra ER,Waghmare SP,Wiedenheft B,Pul U,Wurm R,Wagner R,Beijer MR,Barendregt A,Shou K,Snijders AP,
Dickman MJ,Doudna JA,Boekema EJ,Heck AJ,van der Oost J,Brouns SJ.Structural 
basis for CRISPR RNA-guided DNA recognition byCascade.Nat Struct Mol 
Biol.2011;18(5):529-36.PMID:21460843.
[1176] 13.Horvath P,Barrangou R.CRISPR/Cas,the immune system of bacteria andarchaea.Science.2010;327(5962):167-70.PMID:20056882.
[1177] 14.Wiedenheft B,Sternberg SH,Doudna  JA.RNA-guided genetic silencingsystems in bacteria and archaea.Nature.2012;482(7385):331-8.PMID:
22337052.
[1178] 15.Gasiunas G,Siksnys V.RNA-dependent DNA endonuclease Cas9 of theCRISPR system:Holy Grail of genome editing?Trends Microbiol.2013;21(11):
562-7.PMID:24095303.
[1179] 16.Qi LS,Larson MH,Gilbert LA,Doudna JA,Weissman JS,Arkin AP,LimWA.Repurposing CRISPR as  an RNA-guided  platform for sequence-
specificcontrol of gene expression.Cell.2013;152(5):1173-83.PMID:23452860.
[1180] 17.Perez-Pinera P,Kocak DD,Vockley CM,Adler AF,Kabadi AM,Polstein LR,Thakore PI,Glass KA,Ousterout DG,Leong KW,Guilak F,Crawford GE,Reddy TE,
Gersbach CA.RNA-guided gene activation byCRISPR-Cas9-based transcription 
factors.Nat Methods.2013;10(10):973-6.PMID:23892895.
[1181] 18.Mali P,Aach J,Stranges PB,Esvelt KM,Moosburner M,Kosuri S,Yang L,Church GM.CAS9 transcriptional activators for target specificity screeningand 
paired nickases for cooperative genome engineering.Nat Biotechnol.2013;31(9):
833-8.PMID:23907171.
[1182] 19.Gilbert LA,Larson MH,Morsut L,Liu Z,Brar GA,Torres SE,Stern-Ginossar N,Brandman O,Whitehead EH,Doudna JA,Lim WA,Weissman JS,Qi LS.CRISPR-
mediated  modular RNA-guided  regulation  of  transcription  in 
eukaryotes.Cell.2013;154(2):442-51.PMID:23849981.
[1183] 20.Larson  MH,Gilbert  LA,Wang  X,Lim  WA,Weissman  JS,Qi LS.CRISPRinterference(CRISPRi)for sequence-specific control of gene 
expression.NatProtoc.2013;8(11):2180-96.PMID:24136345.
[1184] 21.Mali P,Yang L,Esvelt KM,Aach J,Guell M,DiCarlo JE,Norville JE,Church GM.RNA-guided human genome engineering via Cas9.Science.2013;339
(6121):823-6.PMID:23287722.
[1185] 22.Cole-Strauss A,Yoon K,Xiang Y,Byrne BC,Rice MC,Gryn J,HollomanWK,Kmiec EB.Correction of the mutation responsible for sickle cell anemiaby an 
RNA-DNA oligonucleotide.Science.1996;273(5280):1386-9.PMID:8703073.
[1186] 23.Tagalakis AD,Owen JS,Simons JP.Lack of RNA-DNA oligonucleotide(chimeraplast)mutagenic activity in mouse embryos.Mol Reprod Dev.2005;71(2):
140-4.PMID:15791601.
[1187] 24.Ray A,Langer M.Homologous recombination:ends as the means.Trends Plant Sci.2002;7(10):435-40.PMID 12399177.
[1188] 25.Britt AB,May GD.Re-engineering plant gene targeting.Trends Plant Sci.2003;8(2):90-5.PMID:12597876.
[1189] 26.Vagner V,Ehrlich SD.Efficiency of homologous DNA recombination variesalong the Bacillus subtilis chromosome.J Bacteriol.1988;170(9):3978-
82.PMID:3137211.
[1190] 27.Saleh-Gohari  N,Helleday  T.Conservative  homologous recombinationpreferentially repairs DNA double-strand breaks in the S phase 
of the cellcycle in human cells.Nucleic Acids Res.2004;32(12):3683-8.PMID:
15252152.
[1191] 28.Lombardo A,Genovese P,Beausejour CM,Colleoni S,Lee YL,Kim KA,Ando D,Urnov FD,Galli C,Gregory PD,Holmes MC,Naldini L.Geneediting in human stem 
cells using zinc finger nucleases andintegrase-defective lentiviral vector 
delivery.Nat Biotechnol.2007;25(11):1298-306.PMID:17965707.
[1192] 29.Conticello  SG.The  AID/APOBEC family  of  nucleic acid mutators.Genome Biol.2008;9(6):229.PMID:18598372.
[1193] 30.Reynaud CA,Aoufouchi S,Faili A,Weill JC.What role for AID:mutator,or assembler of the immunoglobulin mutasome?Nat Immunol.2003;4(7):631-8.
[1194] 31.Bhagwat AS.DNA-cytosine deaminases:from antibody maturation toantiviral defense.DNA Repair(Amst).2004;3(1):85-9.PMID:14697763.
[1195] 32.Navaratnam N,Sarwar R.An overview of cytidine deaminases.Int J Hematol.2006;83(3):195-200.PMID:16720547.
[1196] 33.Holden LG,Prochnow C,Chang YP,Bransteitter R,Chelico L,Sen U,Stevens RC,Goodman MF,Chen XS.Crystal structure of the anti-viralAPOBEC3G 
catalytic domain and functional implications.Nature.2008;456(7218):121-
4.PMID:18849968.
[1197] 34.Chelico L,Pham P,Petruska J,Goodman MF.Biochemical basis of immunological and retroviral responses to DNA-targeted cytosine deamination 
by activation-induced cytidine deaminase and APOBEC3G.J Biol Chem.2009;284
(41).27761-5.PMID:19684020.
[1198] 35.Pham P,Bransteitter R,Goodman MF.Reward  versus risk:DNA cytidinedeaminases triggering immunity and disease.Biochemistry.2005;44(8):
2703-15.PMID 15723516.
[1199] 36.Chen X,Zaro JL,Shen WC.Fusion protein linkers:property,design and functionality.Adv Drug Deliv Rev.2013;65(10):1357-69.PMID:23026637.
[1200] 37.Lee JW,Soung YH,Kim SY,Lee HW,Park WS,Nam SW,Kim SH,Lee JY,Yoo NJ,Lee SH.PIK3CA  gene is frequently mutated in breast carcinomasand 
hepatocellular carcinomas.Oncogene.2005;24(8):1477-80.PMID:15608678.
[1201] 38.Ikediobi ON,Davies H,Bignell G,Edkins S,Stevens C,O’Meara S,Santarius T,Avis T,Barthorpe S,Brackenbury L,Buck G,Butler A,Clements J,Cole 
J,Dicks E,Forbes S,Gray K,Halliday K,Harrison R,Hills K,Hinton J,Hunter C,
Jenkinson A,Jones D,Kosmidou V,Lugg R,Menzies A,Mironenko T,Parker A,Perry J,
Raine K,Richardson D,Shepherd R,Small A,Smith R,Solomon H,Stephens P,Teaque 
J,Tofts C,Varian J,Webb T,West S,Widaa S,Yates A,Reinhold W,Weinstein JN,
Stratton MR,Futreal PA,Wooster R.Mutation analysis of 24 known cancer genes 
in the NCI-60 cell line set.Mol Cancer Ther.2006;5(11):2606-12.PMID:17088437.
[1202] 39.Cox,D.B.,Platt,R.J.&Zhang,F.Therapeuticgenomeediting:prospectsandcha llenges.Naturemedicine21,121-131,doi:10.1038/nm.3793(2015).
[1203] 40.Hilton,I.B.&Gersbach,C.A.Enablingfunctionalgenomicswithgenomeengin eering.Genomeresearch25,1442-1455,doi:10.1101/gr.190124.115(2015).
[1204] 41.Sander,J.D.&Joung,J.K.CRISPR-Cassystemsforediting,regulatingandtarge tinggenomes.Naturebiotechnology32,347-355,doi:10.1038/
nbt.2842(2014).
[1205] 42.Maruyama,T.etal.IncreasingtheefficiencyofprecisegenomeeditingwithCRI SPR-Cas9byinhibitionofnonhomologousendjoining.Naturebiotechnology33,538-
542,doi:10.1038/nbt.3190(2015).
[1206] 43.Chu,V.T.etal.Increasingtheefficiencyofhomology-directedrepairforCRISP R-Cas9-inducedprecisegeneeditinginmammaliancells.Natu
rebiotechnolog y33,543-548,doi:10.1038/nbt.3198(2015).
[1207] 44.Lin,S.,Staahl,B.T.,Alla,R.K.&Doudna,J.A.Enhancedhomology-directedhu  mangenomeengineeringbycontrolledtimingofCRISPR/
Cas9delivery.eLife3,e04766,doi:10.7554/eLife.04766(2014).
[1208] 45.Cong,L.etal.MultiplexgenomeengineeringusingCRISPR/Cassystems.Scien ce339,819-823,doi:10.1126/science.1231143(2013).
[1209] 46.Rong,Z.,Zhu,S.,Xu,Y.&Fu,X.Homologousrecombinationinhumanembryon icstemcellsusingCRISPR/Cas9nickaseandalongDNAdonortemplate.Protei n&cell5,
258-260,doi:10.1007/s13238-014-0032-5(2014).
[1210] 47.Jinek,M.etal.AProgrammableDual-RNA–GuidedDNAEndonucleaseinAda ptiveBacterialImmunity.Science337,816-821,doi:10.1126/science.1225829(2012).
[1211] 48.Harris,R.S.,Petersen-Mahrt,S.K.&Neuberger,M.S.RNAEditingEnzymeAP OBEC1andSomeofItsHomologsCanActasDNAMutators.MolecularCell10,1247-1253(2002).
[1212] 49.Jinek,M.etal.StructuresofCas9endonucleasesrevealRNA-mediatedconform ationalactivation.Science343,1247997,doi:10.1126/
science.1247997(2014).
[1213] 50.Schellenberger,V.etal.Arecombinantpolypeptideextendstheinvivohalf-lifeo fpeptidesandproteinsinatunablemanner.Naturebiotechnology27,1186-1190,
doi:10.1038/nbt.1588(2009).
[1214] 51.Saraconi,G.,Severi,F.,Sala,C.,Mattiuz,G.&Conticello,S.G.TheRNAediting enzymeAPOBEC1inducessomaticmutationsandacompatiblemutationa
lsign atureispresentinesophagealadenocarcinomas.Genomebiology15,417-(2014).
[1215] 52.Anders,C.,Niewoehner,O.,Duerst,A.&Jinek,M.StructuralbasisofPAM-dep endenttargetDNArecognitionbytheCas9endonuclease.Nature513,569-573,doi:
10.1038/nature13579(2014).
[1216] 53.Cong,L.etal.MultiplexgenomeengineeringusingCRISPR/Cassystems.Scien ce339,819-823(2013).
[1217] 54.Tsai,S.Q.etal.GUIDE-seqenablesgenome-wideprofilingofoff-targetcleavag ebyCRISPR-Casnucleases.Naturebiotechnology33,187-197,doi:
10.1038/n bt.3117(2015).
[1218] 55.Kunz,C.,Saito,Y.&Schar,P.DNARepairinmammaliancells:Mismatchedrep air:variationsonatheme.Cellularandmolecularlifesciences:CMLS66,1021-1038,doi:
10.1007/s00018-009-8739-9(2009).
[1219] 56.D.,M.C.etal.Crystalstructureofhumanuracil-DNAglycosylaseincomplexwit haproteininhibitor:proteinmimicryofDNA.Cell82,701-708(1995).
[1220] 57.Caldecott,K.W.Single-strandbreakrepairandgeneticdisease.Naturereviews.Genetics9,619-631,doi:10.1038/nrg2380(2008).
[1221] 58.Fukui,K.DNAmismatchrepairineukaryotesandbacteria.Journalofnucleicaci ds2010,doi:10.4061/2010/260512(2010).
[1222] 59.Gasiunas,G.,Barrangou,R.,Horvath,P.&Siksnys,V.Cas9–crRNAribonucleo proteincomplexmediatesspecificDNAcleavageforadaptiveimmunityinbacte 
ria.ProceedingsoftheNationalAcademyofSciences109,E2579–E2586,doi:10.1073/
pnas.1208507109(2012).
[1223] 60.Ran,F.A.etal.InvivogenomeeditingusingStaphylococcusaureusCas9.Natur e520,186-191,doi:10.1038/nature14299(2015).
[1224] 61.Kuscu,C.,Arslan,S.,Singh,R.,Thorpe,J.&Adli,M.Genome-wideanalysisrev ealscharacteristicsofoff-targetsitesboundbytheCas9endonucleas
e.Naturebi otechnology32,677-683,doi:10.1038/nbt.2916(2014).
[1225] 62.Wu,X.etal.Genome-widebindingoftheCRISPRendonucleaseCas9inmamm aliancells.Naturebiotechnology32,670-676,doi:10.1038/nbt.2889(2014).
[1226] 63.Beale,R.C.L.etal.ComparisonoftheDifferentialContext-dependenceofDNA DeaminationbyAPOBECEnzymes:CorrelationwithMutationSpectrainVivo.JournalofMo
lecularBiology337,585-596,doi:10.1016/j.jmb.2004.01.046(2004).
[1227] 64.Kim,J.,Basak,J.M.&Holtzman,D.M.TheroleofapolipoproteinEinAlzheimer'sdisease.Neuron63,287-303,doi:10.1016/j.neuron.2009.06.026(2009).
[1228] 65.Liu,C.C.,Kanekiyo,T.,Xu,H.&Bu,G.ApolipoproteinEandAlzheimerdisease:risk,mechanismsandtherapy.Naturereviews.Neurology9,106-118,doi:10.1038/
nrneurol.2012.263(2013).
[1229] 66. T.etal.TheConsensusCodingSequencesofHumanBreastandColore ctalCancers.Science314,268-274,doi:10.1126/science.1133427(2006).
[1230] 67.Stephens,P.J.etal.Thelandscapeofcancergenesandmutationalprocessesinbre astcancer.Nature486,400-404,doi:10.1038/nature11017(2012).
[1231] 68.Landrum,M.J.etal.ClinVar:publicarchiveofinterpretationsofclinicallyreleva ntvariants.NucleicAcidsResearch,doi:10.1093/nar/gkv1222(2015).
[1232] 69.Slaymaker,I.M.etal.RationallyengineeredCas9nucleaseswithimprovedspec ificity.Science,doi:10.1126/science.aad5227(2015).
[1233] 70.Davis,K.M.,Pattanayak,V.,Thompson,D.B.,Zuris,J.A.&Liu,D.R.Smallmol ecule-triggeredCas9proteinwithimprovedgenome-editingspecificity.Nature 
chemicalbiology11,316-318,doi:10.1038/nchembio.1793(2015).
[1234] 71.Zuris,J.A.etal.Cationiclipid-mediateddeliveryofproteinsenablesefficientpro tein-basedgenomeeditinginvitroandinvivo.Naturebiotechnology33,73-80,
d oi:10.1038/nbt.3081(2015).
[1235] 72.Kleinstiver,B.P.etal.EngineeredCRISPR-Cas9nucleaseswithalteredPAMsp ecificities.Nature523,481-485,doi:10.1038/nature14592(2015).
[1236] 73.Pattanayak,V.etal.High-throughputprofilingofoff-targetDNAcleavagereve alsRNA-programmedCas9nucleasespecificity.NatureBiotechn
ology31,839-843,doi:10.1038/nbt.2673(2013).
[1237] 74.Shcherbakova,D.M.&Verkhusha,V.V.Near-infraredfluorescentproteinsfor multicolorinvivoimaging.NatureMethods10,751-754,doi:10.1038/nmeth.2521
(2013).
[1238] 75.Ran,F.A.et  al.Genome  engineering  using  the  CRISPR-Cas9system.Nat.Protocols 8,2281-2308,doi:10.1038/nprot.2013.143(2013).
[1239] 76.Jiang,F.et al.Structures of a CRISPR-Cas9R-loop complex primed for DNA cleavage.Science,doi:10.1126/science.aad8282(2016).
[1240] 77.Tsai,S.Q.et al.Dimeric CRISPR RNA-guided FokI nucleases for highly specific genome editing.Nat Biotech 32,569-576,doi:10.1038/nbt.2908(2014).
[1241] 78.Lieber,M.R.,Ma,Y.,Pannicke,U.&Schwarz,K.Mechanism and regulation of human non-homologous DNA end-joining.Nat Rev Mol Cell Biol 4,712-720
(2003).
[1242] 79.Heller,R.C.&Marians,K.J.Replisome assembly and the direct restart of stalled replication forks.Nat Rev Mol Cell Biol 7,932-943(2006).
[1243] 80.Pluciennik,A.et al.PCNA function in the activation and strand direction of MutLαendonuclease in mismatch repair.Proceedings of the National 
Academy of Sciences of the United States ofAmerica 107,16066-16071,doi:
10.1073/pnas.1010662107(2010).
[1244] 81.Seripa,D.et al.The missing ApoE allele.Annals of human genetics 71,496-500,doi:10.1111/j.1469-1809.2006.00344.x(2007).
[1245] 82.Kleinstiver,B.P.et al.High-fidelity CRISPR–Cas9nucleases with no detectable genome-wide off-target effects.Nature 529,490-495,doi:10.1038/
nature16526(2016).
[1246] 83.Richardson,C.D.,Ray,G.J.,DeWitt,M.A.,Curie,G.L.&Corn,J.E.Enhancing homology-directed genome editing by catalytically active and inactive CRISPR-
Cas9using asymmetric donor DNA.Nat Biotech 34,339-344,doi:10.1038/nbt.3481
(2016).
[1247] 84.Simonelli,V.,Narciso,L.,Dogliotti,E.&Fortini,P.Base excision repair intermediates are mutagenic in mammalian cells.Nucleic acids research 
33,4404-4411,doi:10.1093/nar/gki749(2005).
[1248] 85.Barnes,D.E.&Lindahl,T.Repair and Genetic Consequences of Endogenous DNA Base Damage in Mammalian Cells.Annual Review of Genetics 38,
445-476,doi:doi:10.1146/annurev.genet.38.072902.092448(2004).
[1249] 等同方案和范围
[1250] 本领域技术人员将认识到,或仅仅使用常规实验就能够确定本文所述实施例的许多等同方案。本公开的范围不旨在限于以上描述,而是如在所附权利要求中阐述的那样。
[1251] 例如“一个”、“一种”和“该”的冠词可以表示一个或多于一个,除非存在相反指示或者从上下文中明显。若一个,多于一个或所有的组成员都存在,则认为满足在两个或多个组成员之间包括“或”的权利要求或描述,除非存在相反指示或者从上下文中明显。包括两
个或更多个组成员之间的“或”的组的公开提供了其中存在该组的一个成员的实施方案,其
中存在该组的多于一个成员的实施方案,以及其中存在所有成员的实施方案。为了简洁的
目的,这些实施方案在本文中没有被单独阐述,但是应该理解的是,本文提供了这些实施方
案的每一个,并且可以具体要求保护或者放弃。
[1252] 应该理解的是,本发明涵盖所有变化,组合和排列,其中将来自一个或多个权利要求或来自说明书的一个或多个相关部分的一个或多个限制,元件,条款或描述性术语引入
另一权利要求中。例如,可以修改依赖于另一权利要求的权利要求以包括依赖于相同基础
权利要求的任何其他权利要求中存在的一个或多个限制。此外,在权利要求描述组合物的
情况下,应当理解除非另有说明或者除非对于本领域的普通技术人员而言明显的是会出现
矛盾或不一致,包括根据本文公开的任何制备或使用方法或根据本领域已知的方法(如果
有的话)的制备和使用组合物的方法。
[1253] 在元件以例如马库什组格式呈现为列表的情况下,应该理解的是,还公开了元件的每种可能的亚组,并且可以从该组中去除任何元件或元件的亚组。还应注意的是,术语
“包含”意图是开放的并且允许包含另外的元件或步骤。应该理解的是,一般来说,在实施方案,产品或方法称为包含具体元件,特征或步骤的情况下,还提供了由此类元件,特征或步
骤组成,或基本由此类元件,特征或步骤组成的实施方案,产品或方法。为了简洁起见,这些实施方案在本文中没有被单独阐述,但是应该理解这些实施方案中的每一个都在本文中提
供并且可以具体要求保护或放弃。
[1254] 在给出范围的情况下,包括端点。此外,应该理解的是,除非另有说明或者从上下文和/或本领域普通技术人员的理解中显而易见,在一些实施方案中,作为范围表达的值可
以采用在所述范围内的任何具体值。在一些实施方案中,除非上下文另有明确规定,到范围
下限单位的十分之一。为了简洁起见,本文未单独阐述每个范围中的值,但是应当理解,这
些值中的每一个值均在本文中提供并且可以具体要求保护或放弃。还应该理解的是,除非
另外说明或者从上下文和/或本领域普通技术人员的理解中显而易见,作为范围表达的值
可以假定给定范围内的任何子范围,其中子范围的端点表示为精确度与范围下限单位的十
分之一相同。
[1255] 另外,应该理解,本发明的任何特定实施方案可以明确地从任何一个或多个权利要求中排除。在给出范围的情况下,范围内的任何值可以明确地从任何一个或多个权利要
求中排除。可以从任何一个或多个权利要求中排除本发明的组合物和/或方法的任何实施
方案,元件,特征,应用或方面。为了简洁起见,其中排除了一个或多个元件,特征,目的或方面的所有实施方案在本文中没有明确阐述。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈