首页 / 专利库 / 动物学 / 脊椎动物 / 腺苷核碱基编辑器及其用途

腺苷核基编辑器及其用途

阅读:495发布:2021-05-24

专利汇可以提供腺苷核基编辑器及其用途专利检索,专利查询,专利分析的服务。并且本公开提供了能够使DNA中的腺苷脱 氨 基的腺苷脱氨酶。本公开还提供了融合蛋白,其包含Cas9(例如,Cas9切口酶)域和使DNA中的腺苷脱氨基的腺苷脱氨酶。在一些实施方案中,融合蛋白进一步包含核 定位 序列(NLS)和/或 碱 基修复 抑制剂 ,例如核酸酶死亡肌苷特异性核酸酶(dISN)。,下面是腺苷核基编辑器及其用途专利的具体信息内容。

1.腺苷脱酶,其能够使脱核糖核酸(DNA)中脱氧腺苷的腺嘌呤脱氨基。
2.权利要求1的腺苷脱氨酶,其中所述腺苷脱氨酶来自细菌。
3.权利要求1或2的腺苷脱氨酶,其中所述腺苷脱氨酶来自大肠杆菌或金黄色葡萄球菌
细菌。
4.权利要求1-3中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶是TadA脱氨酶。
5.权利要求4的腺苷脱氨酶,其中所述TadA脱氨酶是大肠杆菌TadA脱氨酶(ecTadA)。
6.权利要求1-5中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶包含与SEQ ID NO:1的氨
基酸序列至少80%、85%、90%、95%、98%、99%或99.5%相同的氨基酸序列。
7.权利要求1-6中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D108X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是D之外的任何氨基酸。
8.权利要求7的腺苷脱氨酶,其中X是G、N、V、A或Y。
9.权利要求7的腺苷脱氨酶,其中X是N。
10.权利要求1-9中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是A之外的任何氨基酸。
11.权利要求10的腺苷脱氨酶,其中X是V、I或L。
12.权利要求10的腺苷脱氨酶,其中X是V。
13.权利要求1-12中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E155X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是E之外的任何氨基酸。
14.权利要求13的腺苷脱氨酶,其中X是D、G或V。
15.权利要求13的腺苷脱氨酶,其中X是V。
16.权利要求1-15中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D147X突变,或另一种腺嘌呤脱氨酶中的相应的突变,其中X是D之外的任何氨基酸。
17.权利要求16的腺苷脱氨酶,其中X是Y或F。
18.权利要求16的腺苷脱氨酶,其中X是Y。
19.权利要求1-18中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含选
自下组的一个或多个突变:SEQ ID NO:1中的S2A、H8Y、I49F、L84F、A106V、A106T、D108R、H123Y、N127S、D147Y、E155V、I156F和K160S突变,或另一种腺苷脱氨酶中的一个或多个相应的突变。
20.权利要求1-19中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的L84F突变,或另一种腺嘌呤脱氨酶中的相应的突变。
21.权利要求1-20中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H123Y突变,或另一种腺嘌呤脱氨酶中的相应的突变。
22.权利要求1-21中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H156F突变,或另一种腺嘌呤脱氨酶中的相应的突变。
23.权利要求1-22中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E25X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是E之外的任何氨基
酸。
24.权利要求23的腺苷脱氨酶,其中X是M、D、A、R、V、S或Y。
25.权利要求1-24中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R26X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是R之外的任何氨基
酸。
26.权利要求25的腺苷脱氨酶,其中X是G、N、Q、C、L或K。
27.权利要求25或26的腺苷脱氨酶,其中X是G。
28.权利要求1-27中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R107X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是R之外的任何氨基酸。
29.权利要求28的腺苷脱氨酶,其中X是P、K、A、N、W、H或S。
30.权利要求1-29中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A142突变,或另一种腺苷脱氨酶中的相应的突变,其中X是A之外的任何氨基
酸。
31.权利要求30的腺苷脱氨酶,其中X是N、D或G。
32.权利要求30或31的腺苷脱氨酶,其中X是N。
33.权利要求1-32中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A143突变,或另一种腺苷脱氨酶中的相应的突变,其中X是A之外的任何氨基
酸。
34.权利要求33的腺苷脱氨酶,其中X是D、G、E、L、W、M、S、Q或R。
35.权利要求1-34中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H36X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是H之外的任何氨基
酸。
36.权利要求35的腺苷脱氨酶,其中X是L。
37.权利要求1-36中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的N37X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是N之外的任何氨基
酸。
38.权利要求37的腺苷脱氨酶,其中X是T或S。
39.权利要求1-38中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的P48X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是P之外的任何氨基
酸。
40.权利要求39的腺苷脱氨酶,其中X是T或L。
41.权利要求1-40中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R51X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是R之外的任何氨基
酸。
42.权利要求41的腺苷脱氨酶,其中X是H或L。
43.权利要求1-42中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的S146X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是S之外的任何氨基酸。
44.权利要求43的腺苷脱氨酶,其中X是R或C。
45.权利要求1-44中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的L157X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是L之外的任何氨基酸。
46.权利要求45的腺苷脱氨酶,其中X是N。
47.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106V和D108N突变,或另一种腺苷脱氨酶中的相应的突变。
48.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R107C和D108N突变,或另一种腺苷脱氨酶中的相应的突变。
49.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H8Y、D108N、S127S、D147Y和Q154H突变,或另一种腺苷脱氨酶中的相应的突变。
50.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H8Y、R24W、D108N、N127S、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
51.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D108N、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
52.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H8Y、D108N、S127S突变,或另一种腺苷脱氨酶中的相应的突变。
53.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H8Y、D108N、N127S、D147Y和Q154H突变,或另一种腺苷脱氨酶中的相应的突变。
54.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H8Y、R24W、D108N、N127S、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
55.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106V、D108N、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
56.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D108Q、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
57.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D108M、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
58.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D108L、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
59.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D108K、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
60.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D108I、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
61.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的D108F、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
62.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106V、D108N和D147Y突变,或另一种腺苷脱氨酶中的相应的突变。
63.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106V、D108M、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
64.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E59A、A106V、D108N、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
65.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E59A突变,或另一种腺苷脱氨酶中的相应的突变。
66.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的L84F、A106V、D108N、H123Y、D147Y、E155V、I156Y突变,或另一种腺苷脱氨酶中的相应的突变。
67.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R26G、L84F、A106V、R107H、D108N、H123Y、A142N、A143D、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
68.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E25G、R26G、L84F、A106V、R107H、D108N、H123Y、A142N、A143D、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
69.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R26Q、L84F、A106V、D108N、H123Y、A142N、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
70.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E25M、R26G、L84F、A106V、R107P、D108N、H123Y、A142N、A143D、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
71.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R26C、L84F、A106V、R107H、D108N、H123Y、A142N、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
72.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的L84F、A106V、D108N、H123Y、A142N、A143L、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
73.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R26G、L84F、A106V、D108N、H123Y、A142N、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
74.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E25A、R26G、L84F、A106V、R107N、D108N、H123Y、A142N、A143E、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
75.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E25D、R26G、L84F、A106V、R107K、D108N、H123Y、A142N、A143G、D147Y、E155V和I156F突变,或另一种腺苷脱氨酶中的相应的突变。
76.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的L84F、A106V、D108N、H123Y、D147Y、E155V、I156F突变,或另一种腺苷脱氨酶中的相应的突变。
77.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106V、D108N、A142N、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
78.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R26G、A106V、D108N、A142N、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
79.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E25D、R26G、A106V、R107K、D108N、A142N、A143G、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
80.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R26G、A106V、D108N、R107H、A142N、A143D、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
81.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的E25D、R26G、A106V、D108N、A142N、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
82.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106V、R107K、D108N、A142N、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
83.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106V、D108N、A142N、A143G、D147Y、E155V突变,或另一种腺苷脱氨酶中的相应的突变。
84.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A106V、D108N、A142N、A143L、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。
85.权利要求1-46中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N突变,或另一种腺苷脱氨酶中的相应的突变。
86.权利要求1-85中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的P48X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是P之外的任何氨基
酸。
87.权利要求86的腺苷脱氨酶,其中X是S、T或A。
88.权利要求87的腺苷脱氨酶,其中X是A。
89.权利要求1-88中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的A142X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是A之外的任何氨基酸。
90.权利要求89的腺苷脱氨酶,其中X是N。
91.权利要求1-90中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的W23X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是W之外的任何氨基
酸。
92.权利要求91的腺苷脱氨酶,其中X是R或L。
93.权利要求91的腺苷脱氨酶,其中X是L。
94.权利要求1-93中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ 
ID NO:1中的R152X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是R之外的任何氨基酸。
95.权利要求94的腺苷脱氨酶,其中X是P或H。
96.权利要求94的腺苷脱氨酶,其中X是P。
97.权利要求1-4中任一项的腺苷脱氨酶,其中所述TadA脱氨酶是金黄色葡萄球菌TadA
脱氨酶(saTadA)。
98.权利要求1-4或97中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶包含与SEQ ID NO:
8的氨基酸序列至少80%、85%、90%、95%、98%、99%或99.5%相同的氨基酸序列。
99.权利要求97-98中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含
SEQ ID NO:8中的D107X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是D之外的任何氨基酸。
100.权利要求99的腺苷脱氨酶,其中X是A。
101.权利要求97-100中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含
SEQ ID NO:8中的D108X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是D之外的任何氨基酸。
102.权利要求101的腺苷脱氨酶,其中X是N。
103.权利要求97-102中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含
SEQ ID NO:8中的G26X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是G之外的任何氨基酸。
104.权利要求103的腺苷脱氨酶,其中X是P。
105.权利要求97-104中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含
SEQ ID NO:8中的S142X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是S之外的任何氨基酸。
106.权利要求105的腺苷脱氨酶,其中X是A。
107.权利要求97-106中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含
SEQ ID NO:8中的D107A和D108N突变,或另一种腺苷脱氨酶中的相应的突变。
108.权利要求97-106中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含
SEQ ID NO:8中的D107A、D108N和G26P突变,或另一种腺苷脱氨酶中的相应的突变。
109.权利要求97-106中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含
SEQ ID NO:8中的D107A、D108N、G26P和S142A突变,或另一种腺苷脱氨酶中的相应的突变。
110.权利要求1的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含与SEQ ID NO:
1、64-84、420-437或672-684的任一项至少85%、90%、95%、98%、99%或99.5%相同的氨基酸序列。
111.权利要求1的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列包含SEQ ID NO:1、
64-84、420-437或672-684的任一项的氨基酸序列。
112.权利要求1的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列由SEQ ID NO:1、64-
84、420-437或672-684的任一项的氨基酸序列组成。
113.权利要求1-112中任一项的腺苷脱氨酶,其中所述腺苷脱氨酶包含表4中显示的任
何突变或突变的组合,或另一种腺苷脱氨酶中的相应的一个或多个突变。
114.融合蛋白,其包含:(i)核酸可编程DNA结合蛋白(napDNAbp),和(ii)权利要求1-
113中任一项的腺苷脱氨酶。
115.权利要求114的融合蛋白,其中所述核酸可编程DNA结合蛋白(napDNAbp)是Cas9
域、Cpf1、CasX、CasY、C2c1、C2c2或C2c3。
116.权利要求115的融合蛋白,其中所述Cas9域是核酸酶死亡Cas9(dCas9)、Cas9切口
酶(nCas9)或核酸酶活性Cas9。
117.权利要求115或116的融合蛋白,其中所述Cas9域是核酸酶死亡Cas9(dCas9)。
118.权利要求117的融合蛋白,其中所述核酸酶死亡Cas9(dCas9)包含SEQ ID NO:34中
所示的氨基酸序列。
119.权利要求116的融合蛋白,其中所述Cas9域是Cas9切口酶(nCas9)。
120.权利要求119的融合蛋白,其中所述Cas9切口酶包含SEQ ID NO:35中所示的氨基
酸序列。
121.权利要求114-120中任一项的融合蛋白,其进一步包含(iii)基修复抑制剂
(IBR)。
122.权利要求121的融合蛋白,其中所述碱基修复抑制剂(IBR)是碱基切除修复的抑制
剂。
123.权利要求121或122的融合蛋白,其中所述碱基修复抑制剂是结合肌苷的蛋白质
124.权利要求121-123中任一项的融合蛋白,其中所述碱基修复抑制剂是催化无活性
的肌苷特异性核酸酶(catalytically inactive inosine-specific nuclease)(dISN)。
125.权利要求124的融合蛋白,其中所述催化无活性的肌苷特异性核酸酶(dISN)包含
SEQ ID NO:32或SEQ ID NO:33中所示的氨基酸序列。
126.权利要求114-125中任一项的融合蛋白,其进一步包含所述核酸可编程DNA结合蛋
白(napDNAbp)和所述腺苷脱氨酶之间的一个或多个接头。
127.权利要求126的融合蛋白,其中所述一个或多个接头包含SEQ ID NO:10、37-40、
384-386或685-688的任一项中所示的氨基酸序列。
128.权利要求126或127的融合蛋白,其中所述一个或多个接头包含SEQ ID NO:10中所
示的氨基酸序列。
129.权利要求126的融合蛋白,其中所述一个或多个接头包含SEQ ID NO:37中所示的
氨基酸序列。
130.权利要求114-129中任一项的融合蛋白,其进一步包含一个或多个核定位序列
(NLS)。
131.权利要求130的融合蛋白,其中所述NLS包含SEQ ID NO:4中所示的氨基酸序列。
132.权利要求114-131中任一项的融合蛋白,其中所述融合蛋白包含以下结构
[腺苷脱氨酶]-[napDNAbp];
[腺苷脱氨酶]-[napDNAbp]-[NLS];
[腺苷脱氨酶]-[napDNAbp]-[IBR];或
[腺苷脱氨酶]-[napDNAbp]-[IBR]-[NLS],
其中所述napDNAbp是核酸可编程DNA结合蛋白,并且其中所述IBR是碱基修复抑制剂。
133.权利要求132的融合蛋白,其中所述结构中的每个“-”表示存在任选的接头序列。
134.权利要求132或133的融合蛋白,其中所述napDNAbp是Cas9域。
135.权利要求134的融合蛋白,其中所述Cas9域是dCas9或nCas9。
136.权利要求132-135中任一项的融合蛋白,其中所述IBR是dISN。
137.权利要求132-136中任一项的融合蛋白,其中所述napDNAbp和所述NLS经由接头融
合,所述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:10)。
138.权利要求132-137中任一项的融合蛋白,其中所述napDNAbp和所述IBR经由接头融
合,所述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:10)。
139.权利要求132-138中任一项的融合蛋白,其中所述IBR和所述NLS经由接头融合,所
述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:10)。
140.权利要求114-131中任一项的融合蛋白,其中所述融合蛋白包含以下结构
[napDNAbp]-[腺苷脱氨酶];
[napDNAbp]-[腺苷脱氨酶]-[NLS];
[napDNAbp]-[腺苷脱氨酶]-[IBR];或
[napDNAbp]-[腺苷脱氨酶]-[IBR]-[NLS],
其中所述napDNAbp是核酸可编程DNA结合蛋白,并且其中所述IBR是碱基修复抑制剂。
141.权利要求140的融合蛋白,其中所述结构中的每个“-”表示存在任选的接头序列。
142.权利要求140或141的融合蛋白,其中所述napDNAbp是Cas9域。
143.权利要求142的融合蛋白,其中所述Cas9域是dCas9或nCas9。
144.权利要求140-143中任一项的融合蛋白,其中所述IBR是dISN。
145.权利要求140-144中任一项的融合蛋白,其中所述腺苷脱氨酶和所述NLS经由接头
融合,所述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:
10)。
146.权利要求140-145中任一项的融合蛋白,其中所述腺苷脱氨酶和所述IBR经由接头
融合,所述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:
10)。
147.权利要求140-146中任一项的融合蛋白,其中所述IBR和所述NLS经由接头融合,所
述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:10)。
148.权利要求114-147中任一项的融合蛋白,其中所述napDNAbp和所述腺苷脱氨酶经
由接头融合,所述接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:10)或SGGSSGGSSGS
ETPGTSESATPESSGGSSGGS(SEQ ID NO:385)。
149.权利要求114-148中任一项的融合蛋白,其中所述napDNAbp和所述腺苷脱氨酶经
由接头融合,所述接头包含氨基酸序列SGGS(SEQ ID NO:37)。
150.权利要求114-149中任一项的融合蛋白,其进一步包含第二腺苷脱氨酶。
151.权利要求150的融合蛋白,其中所述第二腺苷脱氨酶是权利要求1-113中任一项的
腺苷脱氨酶。
152.权利要求150或151的融合蛋白,其中所述融合蛋白包含以下结构
[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[napDNAbp];
[第一腺苷脱氨酶]-[napDNAbp]-[第二腺苷脱氨酶];或
[napDNAbp]-[第一腺苷脱氨酶]-[第二腺苷脱氨酶];
其中所述napDNAbp是核酸可编程DNA结合蛋白。
153.权利要求114-152中任一项的融合蛋白,其中所述融合蛋白包含以下结构
[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[napDNAbp]-[NLS];
[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[napDNAbp]-[IBR];或
[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[napDNAbp]-[IBR]-[NLS],
其中所述napDNAbp是核酸可编程DNA结合蛋白,并且其中所述IBR是碱基修复抑制剂。
154.权利要求152或153的融合蛋白,其中所述结构中的每个“-”表示存在任选的接头
序列。
155.权利要求152-154中任一项的融合蛋白,其中所述napDNAbp是Cas9域。
156.权利要求155的融合蛋白,其中所述Cas9域是dCas9或nCas9。
157.权利要求152-156中任一项的融合蛋白,其中所述IBR是dISN。
158.权利要求152-157中任一项的融合蛋白,其中所述第一腺苷脱氨酶和/或所述第二
腺苷脱氨酶是权利要求1-113中任一项的腺苷脱氨酶。
159.权利要求152-158中任一项的融合蛋白,其中所述第一腺苷脱氨酶和所述第二腺
苷脱氨酶是相同的。
160.权利要求152-158中任一项的融合蛋白,其中所述第一腺苷脱氨酶和所述第二腺
苷脱氨酶是不同的。
161.权利要求152-160中任一项的融合蛋白,其中所述第一腺苷脱氨酶包含与SEQ ID 
NO:1的氨基酸序列至少80%、85%、90%、95%、98%、99%或99.5%相同的氨基酸序列。
162.权利要求152-161中任一项的融合蛋白,其中所述第一腺苷脱氨酶包含SEQ ID 
NO:1的氨基酸序列。
163.权利要求152-162中任一项的融合蛋白,其中所述第一腺苷脱氨酶在所述第二腺
苷脱氨酶的N-末端。
164.权利要求152-163中任一项的融合蛋白,其中所述第一腺苷脱氨酶和所述第二腺
苷脱氨酶经由接头融合,所述接头包含氨基酸序列SGGS(SEQ  ID  NO:37)、
SGSETPGTSESATPES(SEQ ID NO:10)、SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:
385)或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTS
TEPSEGSAPGTSESATPESGPGSEPATSGGSGGS(SEQ ID NO:386)。
165.权利要求152-164中任一项的融合蛋白,其中所述第一腺苷脱氨酶和所述
napDNAbp或所述第二腺苷脱氨酶和所述napDNAbp经由接头融合,所述接头包含氨基酸序列
SGGS(SEQ ID NO:37)、SGSETPGTSESATPES(SEQ ID NO:10)、SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:385)或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTST
EEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS(SEQ ID NO:386)。
166.权利要求153-165中任一项的融合蛋白,其中所述napDNAbp和所述NLS经由接头融
合,所述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:10)。
167.权利要求153-166中任一项的融合蛋白,其中所述napDNAbp和所述IBR经由接头融
合,所述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:10)。
168.权利要求153-167中任一项的融合蛋白,其中所述IBR和所述NLS经由接头融合,所
述接头包含氨基酸序列SGGS(SEQ ID NO:37)或SGSETPGTSESATPES(SEQ ID NO:10)。
169.权利要求153-168中任一项的融合蛋白,其中所述融合蛋白包含与SEQ ID NO:11-
28、387-388、440或691-706的氨基酸序列的任一项至少85%、至少90%、至少95%、至少
98%、至少99%或至少99.5%相同的氨基酸序列。
170.权利要求114-169中任一项的融合蛋白,其中所述融合蛋白包含SEQ ID NO:11-
28、387-388、440或691-706的氨基酸序列的任一项。
171.权利要求114-170中任一项的融合蛋白,其中所述融合蛋白由SEQ ID NO:11-28、
387-388、440或691-706的氨基酸序列的任一项组成。
172.权利要求114-171中任一项的融合蛋白,其中所述融合蛋白包含表4的融合蛋白的
任一项的结构。
173.权利要求114-172中任一项的融合蛋白,其中所述融合蛋白包含表4的融合蛋白的
任一项。
174.复合物,其包含权利要求114-173中任一项的融合蛋白和与所述融合蛋白的核酸
可编程DNA结合蛋白(napDNAbp)结合的引导RNA。
175.权利要求174的复合物,其中所述引导RNA的长度为15-100个核苷酸并且包含与靶
序列互补的至少10个、至少15个或至少20个连续核苷酸的序列。
176.权利要求174或175的复合物,其中所述引导RNA包含与靶序列互补的15、16、17、
18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸的序列。
177.权利要求174-176中任一项的复合物,其中所述引导RNA的长度为15、16、17、18、
19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、
44、45、46、47、48、49或50个核苷酸。
178.权利要求175-177中任一项的复合物,其中所述靶序列是DNA序列。
179.权利要求175-178中任一项的复合物,其中所述靶序列在生物体的基因组中。
180.权利要求179的复合物,其中所述生物体是原核生物。
181.权利要求180的复合物,其中所述原核生物是细菌。
182.权利要求179的复合物,其中所述生物体是真核生物。
183.权利要求182的复合物,其中所述生物体是植物真菌
184.权利要求182的复合物,其中所述生物体是脊椎动物
185.权利要求184的复合物,其中所述脊椎动物是哺乳动物
186.权利要求185的复合物,其中所述哺乳动物是小鼠、大鼠或人。
187.权利要求179的复合物,其中所述生物体是细胞。
188.权利要求187的复合物,其中所述细胞是小鼠细胞、大鼠细胞或人细胞。
189.权利要求188的复合物,其中所述细胞是HEK-293细胞。
190.方法,其包括使核酸分子与权利要求114-173中任一项的融合蛋白和引导RNA接
触,其中所述引导RNA的长度为15-100个核苷酸并且包含与靶序列互补的至少10个连续核
苷酸的序列。
191.方法,其包括使核酸分子与权利要求174-189中任一项的复合物接触
192.权利要求190或191的方法,其中所述核酸是DNA。
193.权利要求192的方法,其中所述核酸是双链DNA。
194.权利要求190-193中任一项的方法,其中所述靶序列包含与疾病或病症相关的序
列。
195.权利要求190-194中任一项的方法,其中所述靶序列包含与疾病或病症相关的点
突变。
196.权利要求195的方法,其中所述融合蛋白或所述复合物的活性导致所述点突变的
校正。
197.权利要求190-196中任一项的方法,其中所述靶序列包含与疾病或病症相关的G至
A点突变,并且其中突变体A碱基的脱氨基作用产生与疾病或病症无关的序列。
198.权利要求190-196中任一项的方法,其中所述靶序列包含与疾病或病症相关的C至
T点突变,并且其中与所述C至T点突变的T碱基互补的A碱基的脱氨基作用产生与疾病或病
症无关的序列。
199.权利要求197或198的方法,其中所述靶序列编码蛋白质,并且其中所述点突变在
密码子中,并导致与野生型密码子相比,在由突变体密码子编码的氨基酸中的变化。
200.权利要求199的方法,其中所述突变体A的脱氨基作用导致由所述突变体密码子编
码的氨基酸的变化。
201.权利要求200的方法,其中所述突变体A的脱氨基作用产生编码野生型氨基酸的密
码子。
202.权利要求199的方法,其中与所述C至T点突变的T碱基互补的A碱基的脱氨基作用
导致由所述突变体密码子编码的氨基酸的变化。
203.权利要求202的方法,其中与所述C至T点突变的T碱基互补的A碱基的脱氨基作用
产生编码野生型氨基酸的密码子。
204.权利要求197-203中任一项的方法,其中所述脱氨基作用导致终止密码子的去除。
205.权利要求204的方法,其中所述终止密码子包含核酸序列5′-TAG-3′、5′-TAA-3′或
5′-TGA-3′。
206.权利要求197-203中任一项的方法,其中所述脱氨基作用导致剪接位点的引入。
207.权利要求197-203中任一项的方法,其中所述脱氨基作用导致剪接位点的去除。
208.权利要求197-203中任一项的方法,其中所述脱氨基作用导致基因启动子中突变
的引入。
209.权利要求208的方法,其中所述突变导致与所述基因启动子可操作连接的基因的
转录增加。
210.权利要求208的方法,其中所述突变导致与所述基因启动子可操作连接的基因的
转录减少。
211.权利要求197-203中任一项的方法,其中所述脱氨基作用导致基因阻抑物中突变
的引入。
212.权利要求211的方法,其中所述突变导致与所述基因阻抑物可操作连接的基因的
转录增加。
213.权利要求211的方法,其中所述突变导致与所述基因阻抑物可操作连接的基因的
转录减少。
214.权利要求190-213中任一项的方法,其中所述接触在受试者体内进行。
215.权利要求190-213中任一项的方法,其中所述接触在体外进行。
216.权利要求214的方法,其中所述受试者已诊断患有疾病或病症。
217.权利要求190-216中任一项的方法,其中所述靶序列包含DNA序列5′-NAN-3′,其中
N是A、T、C或G。
218.权利要求217的方法,其中在5′-NAN-3′序列的中间的A被脱氨基。
219.权利要求217或218的方法,其中在5′-NAN-3′序列的中间的A变为G。
220.权利要求217-219中任一项的方法,其中所述靶序列包含选自下组的DNA序列:
AAA、AAT、AAC、AAG、TAA、TAT、TAC、TAG、CAA、CAT、CAC、CAG、GAA、GAT、GAC和GAG。
221.权利要求190-220中任一项的方法,其中所述方法导致少于20%、19%、18%、
16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或0.1%的插入/缺失形成。
222.权利要求218-221中任一项的方法,其中使所述A脱氨基的效率为至少5%。
223.权利要求222的方法,其中所述效率为至少10%、15%、20%、25%、30%、35%、
40%、45%、50%、60%、70%、80%、90%、95%或98%。
224.权利要求219-223中任一项的方法,其中将所述A变为G的效率为至少5%。
225.权利要求224的方法,其中所述效率为至少10%、15%、20%、25%、30%、35%、
40%、45%、50%、60%、70%、80%、90%、95%或98%。
226.用于编辑双链DNA序列的核碱基对的方法,所述方法包括:
a.使所述双链DNA序列的靶区域与包含核碱基编辑器和引导核酸的复合物接触,其中
所述靶区域包含靶核碱基对;
b.诱导所述靶区域的链分离;
c.将所述靶区域的单链中的所述靶核碱基对的第一核碱基转化为第二核碱基;和
d.切割所述靶区域的不超过一条链;
其中与所述第一核碱基碱基互补的第三核碱基被与所述第二核碱基互补的第四核碱
基替换,并且所述方法导致所述双链DNA序列中少于20%的插入/缺失形成。
227.权利要求226的方法,其中所述方法导致少于20%、19%、18%、16%、14%、12%、
10%、8%、6%、4%、2%、1%、0.5%、0.2%或0.1%的插入/缺失形成。
228.权利要求226或227的方法,其进一步包括用与所述第四核碱基互补的第五核碱基
替换所述第二核碱基,从而产生预想的经编辑的碱基对。
229.权利要求226-228中任一项的方法,其中产生所述预想的经编辑的碱基对的效率
为至少5%。
230.权利要求229的方法,其中所述效率为至少10%、15%、20%、25%、30%、35%、
40%、45%、50%、60%、70%、80%、90%、95%或98%。
231.权利要求228的方法,其中靶核苷酸处预想的产物与非预想的产物的比例为至少2
∶1、5∶1、10∶1、20∶1、30∶1、40∶1、50∶1、60∶1、70∶1、80∶1、90∶1、100∶1或200∶1。
232.权利要求228的方法,其中预想的点突变与插入/缺失形成的比例大于1∶1、10∶1、
50∶1、100∶1、500∶1或1000∶1。
233.权利要求226-232中任一项的方法,其中所述切割的单链与所述引导核酸杂交。
234.权利要求226-233中任一项的方法,其中所述切割的单链与包含所述第一核碱基
的链相对。
235.权利要求226-234中任一项的方法,其中所述第一碱基是腺嘌呤。
236.权利要求226-235中任一项的方法,其中所述第二核碱基不是G、C、A或T。
237.权利要求226-236中任一项的方法,其中所述第二碱基是肌苷。
238.权利要求226-237中任一项的方法,其中所述核碱基编辑器包含碱基修复抑制活
性。
239.权利要求226-237中任一项的方法,其中所述核碱基编辑器包含催化无活性的肌
苷特异性核酸酶(dISN)。
240.权利要求226-239中任一项的方法,其中所述核碱基编辑器包含切口酶活性。
241.权利要求228-240中任一项的方法,其中所述预想的经编辑的碱基对在PAM位点的
上游。
242.权利要求241的方法,其中所述预想的经编辑的碱基对在所述PAM位点的上游1、2、
3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。
243.权利要求242的方法,其中所述预想的经编辑的碱基对在PAM位点的下游。
244.权利要求243的方法,其中所述预想的经编辑的碱基对在所述PAM位点的下游1、2、
3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。
245.权利要求226-244中任一项的方法,其中所述方法不需要规范的PAM位点。
246.权利要求245的方法,其中所述规范的PAM位点包含NGG,其中N是A、T、C或G。
247.权利要求226-246中任一项的方法,其中所述核碱基编辑器包含接头。
248.权利要求247的方法,其中所述接头的长度为1-25个氨基酸。
249.权利要求247或248的方法,其中所述接头的长度为5-20个氨基酸。
250.权利要求247-249中任一项的方法,其中所述接头的长度为10、11、12、13、14、15、
16、17、18、19或20个氨基酸。
251.权利要求226-250中任一项的方法,其中所述靶区域包含靶窗口,其中所述靶窗口
包含所述靶核碱基对。
252.权利要求251的方法,其中所述靶窗口包含1-10个核苷酸。
253.权利要求251的方法,其中所述靶窗口的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、
1-2或1个核苷酸。
254.权利要求251的方法,其中所述靶窗口的长度为1、2、3、4、5、6、7、8、9、10、11、12、
13、14、15、16、17、18、19或20个核苷酸。
255.权利要求226-254中任一项的方法,其中所述预想的经编辑的碱基对发生在所述
靶窗口内。
256.权利要求226-255中任一项的方法,其中所述靶窗口包含所述预想的经编辑的碱
基对。
257.权利要求226-256中任一项的方法,其中所述核碱基编辑器包含权利要求114-173
的融合蛋白的任一项。
258.用于编辑双链DNA序列的核碱基对的方法,所述方法包括:
a.使所述双链DNA序列的靶区域与包含核碱基编辑器和引导核酸的复合物接触,其中
所述靶区域包含靶核碱基对;
b.诱导所述靶区域的链分离;
c.将所述靶区域的单链中的所述靶核碱基对的第一核碱基转化为第二核碱基;
d.切割所述靶区域的不超过一条链;
其中与所述第一核碱基碱基互补的第三核碱基被与所述第二核碱基互补的第四核碱
基替换;和
e.用与所述第四核碱基互补的第五核碱基替换所述第二核碱基,从而产生预想的经编
辑的碱基对,
其中产生所述预想的经编辑的碱基对的效率为至少5%。
259.权利要求258的方法,其中所述效率为至少5%、10%、15%、20%、25%、30%、
35%、40%、45%或50%。
260.权利要求258或259的方法,其中所述方法导致少于19%、18%、16%、14%、12%、
10%、8%、6%、4%、2%或1%的插入/缺失形成。
261.权利要求258-260中任一项的方法,其中靶核苷酸处预想的产物与非预想的产物
的比例为至少2∶1、5∶1、10∶1、20∶1、30∶1、40∶1、50∶1、60∶1、70∶1、80∶1、90∶1、100∶1或200∶
1。
262.权利要求258-261中任一项的方法,其中预想的点突变与插入/缺失形成的比例大
于1∶1、10∶1、50∶1、100∶1、500∶1或1000∶1。
263.权利要求258-262中任一项的方法,其中所述切割的单链与所述引导核酸杂交。
264.权利要求258-263中任一项的方法,其中所述切割的单链与包含所述第一核碱基
的链相对。
265.权利要求258-264中任一项的方法,其中所述第一碱基是腺嘌呤。
266.权利要求258-265中任一项的方法,其中所述第二核碱基不是G、C、A或T。
267.权利要求258-266中任一项的方法,其中所述第二碱基是肌苷。
268.权利要求258-267中任一项的方法,其中所述核碱基编辑器包含碱基修复抑制活
性。
269.权利要求258-267中任一项的方法,其中所述核碱基编辑器包含催化无活性的肌
苷特异性核酸酶(dISN)。
270.权利要求258-269中任一项的方法,其中核碱基编辑包含切口酶活性。
271.权利要求258-270中任一项的方法,其中所述预想的经编辑的碱基对在PAM位点的
上游。
272.权利要求271的方法,其中所述预想的经编辑的碱基对在所述PAM位点的上游1、2、
3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。
273.权利要求258-270中任一项的方法,其中所述预想的经编辑的碱基对在PAM位点的
下游。
274.权利要求273的方法,其中所述预想的经编辑的碱基对在所述PAM位点的下游1、2、
3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。
275.权利要求258-274中任一项的方法,其中所述方法不需要规范的PAM位点。
276.权利要求275的方法,其中所述规范的PAM位点包含NGG,其中N是A、T、C或G。
277.权利要求258-276中任一项的方法,其中所述核碱基编辑器包含接头。
278.权利要求277的方法,其中所述接头的长度为1-25个氨基酸。
279.权利要求277或278的方法,其中所述接头的长度为5-20个氨基酸。
280.权利要求277-279中任一项的方法,其中所述接头的长度为10、11、12、13、14、15、
16、17、18、19或20个氨基酸。
281.权利要求277-280中任一项的方法,其中所述靶区域包含靶窗口,其中所述靶窗口
包含所述靶核碱基对。
282.权利要求281的方法,其中所述靶窗口包含1-10个核苷酸。
283.权利要求281的方法,其中所述靶窗口的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、
1-2或1个核苷酸。
284.权利要求281的方法,其中所述靶窗口的长度为1、2、3、4、5、6、7、8、9、10、11、12、
13、14、15、16、17、18、19或20个核苷酸。
285.权利要求281-284中任一项的方法,其中所述预想的经编辑的碱基对发生在所述
靶窗口内。
286.权利要求281-285中任一项的方法,其中所述靶窗口包含所述预想的经编辑的碱
基对。
287.权利要求281-286中任一项的方法,其中所述核碱基编辑器包含权利要求114-173
的融合蛋白的任一项。
288.核酸引导的腺苷脱氨酶,其与碱基切除修复抑制剂偶联。
289.权利要求288的核酸引导的腺苷脱氨酶,其包含错配修复的起始子(initiator)。
290.权利要求288或289的核酸引导的腺苷脱氨酶,其包含切口酶。
291.包含核酸构建体的试剂盒,所述核酸构建体包含
(a)编码权利要求1-113中任一项的腺苷脱氨酶的核酸序列;和
(b)驱动(a)的序列的表达的异源启动子。
292.包含核酸构建体的试剂盒,所述核酸构建体包含
(a)编码权利要求114-173中任一项的融合蛋白的核酸序列;和
(b)驱动(a)的序列的表达的异源启动子。
293.权利要求292的试剂盒,其进一步包含编码引导RNA主链的表达构建体,其中所述
构建体包含克隆位点,所述克隆位点定位为允许将与靶序列相同或互补的核酸序列克隆到
所述引导RNA主链中。
294.多核苷酸,其编码权利要求1-113中任一项的腺苷脱氨酶,或权利要求114-173中
任一项的融合蛋白。
295.载体,其包含权利要求229的多核苷酸。
296.权利要求295的载体,其中所述载体包含驱动所述多核苷酸的表达的异源启动子。
297.细胞,其包含权利要求1-113中任一项的腺苷脱氨酶,或权利要求114-173中任一
项的融合蛋白。
298.细胞,其包含权利要求174-189中任一项的复合物。
299.细胞,其包含编码权利要求1-113中任一项的腺苷脱氨酶,或权利要求114-173中
任一项的融合蛋白的核酸分子。
300.药物组合物,其包含权利要求1-113中任一项的腺苷脱氨酶。
301.药物组合物,其包含权利要求114-173中任一项的融合蛋白。
302.药物组合物,其包含权利要求174-189中任一项的复合物。
303.权利要求300-302中任一项的药物组合物,其进一步包含药学上可接受的赋形剂。

说明书全文

腺苷核基编辑器及其用途

[0001] 发明背景
[0002] 靶向编辑核酸序列,例如靶向切割或将特定修饰靶向引入基因组DNA中,是用于研究基因功能的非常有前景的方法,并且还具有为人类遗传性疾病提供新疗法的潜。由于
许多遗传性疾病原则上可以通过在基因组中的特定位置处实现特定的核苷酸变化来治疗
(例如,与疾病相关的基因的特定密码子中的A至G或T至C的变化),开发可编程的方法来实
现此类精确的基因编辑既代表强大的新研究工具,又代表基于基因编辑的治疗学的潜在新
方法。
[0003] 发明概述
[0004] 本文提供了使用腺苷脱酶和核酸可编程DNA结合蛋白(例如Cas9)修饰多核苷酸(例如DNA)的组合物、试剂盒和方法。本公开的一些方面提供了核碱基编辑蛋白,其在DNA的
背景下催化腺苷的解脱氨基作用(形成肌苷,其如嘌呤(G)一样碱基配对)。没有作用于
DNA的已知天然存在的腺苷脱氨酶。相反,已知的腺苷脱氨酶作用于RNA(例如,tRNA或
mRNA)。为了克服这个缺点,将第一脱腺苷脱氨酶演化成接受DNA底物并将脱氧腺苷(dA)
脱氨基成脱氧肌苷。来自大肠杆菌的作用于tRNA的腺苷脱氨酶(adenosine deaminase 
acting on tRNA)(ADAT)(TadA,代表tRNA腺苷脱氨酶A(tRNA adenosine deaminase A))与
dCas9域共价融合,并且组装该融合物的文库,其含有构建体的脱氨酶部分中的突变。应当
理解,大肠杆菌TadA(ecTadA)脱氨酶还包括ecTadA的截短。例如,本文提供了全长ecTadA
(SEQ ID NO:84)的截短(例如,N端截短),例如SEQ ID NO:1中所示的N端截短的ecTadA,以
用于本发明。此外,发现其他腺苷脱氨酶突变体,例如金黄色葡萄球菌TadA突变体,能够使
腺苷脱氨基。不希望受任何特定理论的束缚,与其全长对应物相比,腺苷脱氨酶(例如,
ecTadA)的截短可以具有所期望的溶解度和/或表达特性。
[0005] 核碱基编辑蛋白的脱氨酶域中的突变是通过演化腺苷脱氨酶产生的。经由在氯霉素的乙酰转移酶基因中的活性位点His的密码子处选择A至G回复(reversion)(在共转化的
选择质粒上编码)来鉴定生产性变体。第一轮的演化产生ecTadA变体,ecTadA D108X(X=G、
V或N),其能够在DNA中将A转化为G。在一些实施方案中,ecTadA变体包含SEQ ID NO:1中的
D108A突变,或另一种腺苷脱氨酶中的相应的突变。第一轮的演化也产生了ecTadA变体
ecTadA A106V。随后一轮演化产生另一种变体ecTadA D108N_E155X(X=G、V或D),其中大肠
杆菌在高浓度的氯霉素的存在下存活。通过演化ecTadA鉴定了另外的变体。例如,能够使
DNA中的腺苷脱氨基的ecTadA变体包括SEQ ID NO:1的一个或多个的以下突变:D108N、
A106V、D147、E155V、L84F、H123Y和I157F。然而,应当理解,可以在其他腺苷脱氨酶中进行同源突变以产生能够使DNA中的腺苷脱氨基的变体。另外的演化轮次提供了进一步的ecTadA
变体。例如,图11、16、97、104-106、125-128、115和表4中显示了另外的ecTadA变体。
[0006] 在本文提供的实例中,具有演化的一般结构ecTadA(D108X;X=G、V或N)-XTEN-nCas9的示例性核碱基编辑器在诸如真核细胞(例如,Hek293T哺乳动物细胞)的细胞中催化
A至G转换突变。在其他实例中,示例性核碱基编辑器含有两个ecTadA域和核酸可编程DNA结
合蛋白(napDNAbp)。例如,核碱基编辑器可以具有一般结构ecTadA(D108N)-ecTadA
(D108N)-nCas9。本文提供的含有ecTadA变体的核碱基编辑器的另外的实例证明了哺乳动
物细胞中核碱基编辑器的性能的改善。例如,某些腺苷碱基编辑器包括在如SEQ ID NO:1中
所示的ecTadA或另一种腺嘌呤脱氨酶中具有D108X的ecTadA,其中X=G、V或N,和/或E155X,
其中X=B、V或D突变。在某些实施方案中,突变体核碱基编辑器与催化死亡烷基腺苷糖基化
酶(gylcosylase)(AAG)共价融合,所述催化死亡烷基腺苷糖基化酶可以保护经编辑的肌苷
免于碱基切除修复(或其他DNA修复系统),直至相反链上的T变为C,例如,通过错配修复(或
其他DNA修复系统)。一旦与肌苷相对的碱基变为C,则肌苷可以通过细胞DNA修复过程不可
逆地且永久地变为G,导致从A:T碱基对到G:C碱基对的永久性变化。
[0007] 不希望受任何特定理论的束缚,本文所述的腺苷核碱基编辑器如下起作用:使用ecTadA变体使DNA中的A碱基脱氨基,经由肌苷形成导致A至G突变。肌苷优先与C形成氢键,
导致在DNA复制期间A至G突变。当共价栓系至Cas9(或另一种核酸可编程DNA结合蛋白)时,
腺苷脱氨酶(例如,ecTadA)定位于感兴趣的基因并催化ssDNA底物中的A至G突变。该编辑器
可以用于靶向和回复需要A至G回复的疾病相关基因中的单核苷酸多态性(SNP)。该编辑器
还可以用于靶向和回复疾病相关基因中的单核苷酸多态性(SNP),所述疾病相关基因需要
通过将与T相对的A突变为G来进行T至C回复。然后可以例如通过碱基切除修复机制用C替换
T,或者可以在随后的DNA复制轮次中改变T。
[0008] 本公开的一些方面涉及下述发现:工程化的(例如,演化的)腺苷脱氨酶能够使脱氧核糖核酸(DNA)底物中的腺苷脱氨基。在一些实施方案中,本公开提供了此类腺苷脱氨
酶。在一些实施方案中,本文提供的腺苷脱氨酶能够使DNA分子中的腺苷脱氨基。本公开的
其他方面提供了包含Cas9域和腺苷脱氨酶域(例如,能够使DNA中的腺苷脱氨基的工程化的
脱氨酶域)的融合蛋白。在一些实施方案中,融合蛋白包含核定位序列(NLS)、肌苷碱基切除
修复抑制剂(例如,dISN)和/或接头中的一种或多种。
[0009] 在一些方面,本公开提供了能够使脱氧核糖核酸(DNA)底物中的腺苷脱氨基的腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶来自细菌,例如大肠杆菌或金黄色葡萄球菌。在
一些实施方案中,腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,TadA脱氨酶是大肠杆菌
TadA脱氨酶(ecTadA)。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的D108X突变,或
另一种腺苷脱氨酶中的相应的突变,其中X是除野生型蛋白质中发现的氨基酸之外的任何
氨基酸。在一些实施方案中,X是G、N、V、A或Y。
[0010] 在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的E155X突变,或另一种腺苷脱氨酶中的相应的突变,其中X是除野生型蛋白质中发现的氨基酸之外的任何氨基酸。在一
些实施方案中,X是D、G或V。应当理解,本文提供的腺苷脱氨酶可以含有任何组合的本文提
供的一种或多种突变。
[0011] 本公开的一些方面提供了融合蛋白,其包含:(i)Cas9域,和(ii)腺苷脱氨酶,例如本文提供的任何腺苷脱氨酶。在一些实施方案中,融合蛋白的Cas9域是核酸酶死亡Cas9
(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。在一些实施方案中,融合蛋白进一步包含
肌苷碱基切除修复抑制剂,例如dISN或单链DNA结合蛋白。在一些实施方案中,融合蛋白包
含一个或多个用于将腺嘌呤脱氨酶(例如,ecTadA)附接至核酸可编程DNA结合蛋白(例如
Cas9)的接头。在一些实施方案中,融合蛋白包含一个或多个核定位序列(NLS)。
[0012] 以上概述旨在以非限制性方式说明本文公开的技术的一些实施方案、优点、特征和用途。根据详述、附图实施例权利要求,本文公开的技术的其他实施方案、优点、特征
和用途将是显而易见的。
[0013] 附图简述
[0014] 图1显示具有各种脱氨酶的高通量筛选结果。APOBEC(BE3)是阳性对照;ADAR作用于mRNA,ADA作用于脱氧腺苷,并且ADAT作用于tRNA。未经处理的组是阴性对照。序列对应于
SEQ ID:45。
[0015] 图2是脱氨基选择质粒的示意图。
[0016] 图3显示在铺板在增加浓度的氯霉素上的S1030细胞中选择质粒的连续稀释。
[0017] 图4显示用rAPOBEC1-XTEN-dCas9构建体作为阳性对照验证氯霉素选择。序列从上到下对应于SEQ ID NO:95(核苷酸序列)、96(氨基酸序列)、97(核苷酸序列)、98(氨基酸序
列)、95(核苷酸序列)和99(截短的核苷酸序列)。
[0018] 图5是脱氨酶-XTEN-dCas9构建体的示意图。
[0019] 图6显示来自第一轮的TadA-XTEN-dCas9文库的测序结果。
[0020] 图7显示选择质粒的序列;观察到A至G的回复。序列从上到下对应于SEQ ID NO:100(核苷酸序列)、101(氨基酸序列)、102(核苷酸序列)、103(氨基酸序列)、104(核苷酸序
列)和100(核苷酸序列)。
[0021] 图8显示脱氨酶测序的结果,说明了残基D108处的趋同(convergence)。从上到下,序列对应于SEQ ID NO:589-607。
[0022] 图9显示大肠杆菌TadA晶体结构。注意图中的D119对应于D108,因为残基编号在图中偏移。
[0023] 图10显示TadA(金黄色葡萄球菌中)tRNA的晶体结构和与来自大肠杆菌的TadA的比对。序列从上到下对应于SEQ ID NO:105-107。
[0024] 图11显示来自从ecTadA演化的个别构建体的分离和攻击的结果。
[0025] 图12显示在增加浓度的氯霉素上攻击的各个构建体的菌落形成单位(C.F.U.)。构建体数量对应于图11中列出的那些。
[0026] 图13显示来自从含有D108N突变的构建体的第二轮演化的数据。序列从上到下对应于SEQ ID NO:608-623。
[0027] 图14显示哺乳动物细胞中的A至G编辑。序列对应于SEQ ID NO:41。
[0028] 图15是显示ABE的发展的示意图。
[0029] 图16是显示在第二轮演化后测定的克隆的结果的表。第1列、第8列和第10列表示来自第一轮演化的突变。第11列和第14列表示来自第二轮演化的共有突变。
[0030] 图17显示个别克隆抗生素攻击测定法的结果。构建体编号的身份(identity)对应于来自图16的pNMG克隆编号。
[0031] 图18显示开发的新构建体的示意图。新构建体包括UGI、AAG*E125Q和EndoV*D35A域。
[0032] 图19显示构建体转染到含有ecTadA中单突变或双突变的哺乳动物细胞中。序列对应于SEQ ID NO:41。
[0033] 图20显示具有UGI对腺苷核碱基编辑器(ABE)的添加(D108N)的构建体的转染。序列对应于SEQ ID NO:41。
[0034] 图21显示ABE在测试的6个基因组位点中的1个上运行最佳。序列对应于SEQ ID NO:46。
[0035] 图22显示Hek-3位点相对于前间隔区(protospacer)位置8处的Hek-2位点编辑也具有更低的编辑。序列对应于SEQ ID NO:42。
[0036] 图23显示用于构建体pNMG-164至pNMG-173的ecTadA的无活性C端Cas9融合物。序列对应于SEQ ID NO:41。
[0037] 图24显示用于构建体pNMG-174至pNMG-177的ecTadA的无活性C端Cas9融合物。序列对应于SEQ ID NO:41。
[0038] 图25显示来自ecTadA核碱基编辑器(pNMG-143、pNMG-144、pNMG-164和pNMG-177)的编辑结果。序列对应于SEQ ID NO:41。
[0039] 图26显示来自ecTadA核碱基编辑器(pNMG-164、pNMG-177、pNMG-178、pNMG-179和pNMG-180)的编辑结果。序列对应于SEQ ID NO:41。
[0040] 图27显示Hek-3位点处的编辑的结果。序列对应于SEQ ID NO:42。
[0041] 图28显示Hek-2位点处的编辑的结果。序列对应于SEQ ID NO:41。
[0042] 图29显示Hek-3位点处的编辑的结果。序列对应于SEQ ID NO:42。
[0043] 图30显示Hek-4位点处的编辑的结果。序列对应于SEQ ID NO:43。
[0044] 图31显示RNF-2位点处的编辑的结果。序列对应于SEQ ID NO:44。
[0045] 图32显示FANCF位点处的编辑的结果。序列对应于SEQ ID NO:45。
[0046] 图33显示EMX-1位点处的编辑的结果。序列对应于SEQ ID NO:46。
[0047] 图34显示Hek-2位点处C端融合的结果。序列对应于SEQ ID NO:41。
[0048] 图35显示Hek-3位点处C端融合的结果。序列对应于SEQ ID NO:42。
[0049] 图36显示Hek-4位点处C端融合的结果。序列对应于SEQ ID NO:43。
[0050] 图37显示EMX-1位点处C端融合的结果。序列对应于SEQ ID NO:46。
[0051] 图38显示RNF-2位点处C端融合的结果。序列对应于SEQ ID NO:44。
[0052] 图39显示FANCF位点处C端融合的结果。序列对应于SEQ ID NO:45。
[0053] 图40显示Hek-2位点处转染的结果。序列对应于SEQ ID NO:41。
[0054] 图41显示Hek-3位点处转染的结果。序列对应于SEQ ID NO:42。
[0055] 图42显示RNF-2位点处转染的结果。序列对应于SEQ ID NO:44。
[0056] 图43显示Hek-4位点处转染的结果。序列对应于SEQ ID NO:43。
[0057] 图44显示EMX-1位点处转染的结果。序列对应于SEQ ID NO:46。
[0058] 图45显示FANCF位点处转染的结果。序列对应于SEQ ID NO:45。
[0059] 图46显示sgRNA的脱氨酶编辑。
[0060] 图47显示开发用于各个位点处的融合的构建体。
[0061] 图48显示用于各个位点处的不同融合的插入/缺失率。
[0062] 图49显示从上到下分别在SEQ ID NO:46、45、6、42、43和468中所示的碱基编辑位点的前间隔区和PAM序列。
[0063] 图50显示使用进一步突变的D108残基开发用于各个位点处的融合的构建体。
[0064] 图51显示从上到下分别在SEQ ID NO:6、46和42中所示的碱基编辑位点的前间隔区和PAM序列。
[0065] 图52显示使用突变的D108残基导致脱氨酶拒绝RNA作为底物并改变编辑后果的结果。
[0066] 图53显示使用突变的D108残基导致脱氨酶拒绝RNA作为底物并改变编辑后果的结果。
[0067] 图54显示开发用于各个位点处的融合的构建体。
[0068] 图55显示从上到下分别在SEQ ID NO:6、358、359中所示的碱基编辑位点的前间隔区和PAM序列。
[0069] 图56显示HEK位点2上的ABE的结果。
[0070] 图57显示HEK位点2上的ABE的结果。
[0071] 图58显示使用各个接头长度开发用于各个位点处的融合的构建体。
[0072] 图59显示接头长度对碱基编辑功能的重要性。
[0073] 图60显示接头长度对碱基编辑功能的重要性。
[0074] 图61是显示脱氨酶的二聚化的示意图。
[0075] 图62显示使用各个接头长度开发用于各个位点处的融合的构建体。
[0076] 图63显示当前的编辑器结构(上图)、反式二聚化(下图,左)和顺式二聚化(下图,右)。
[0077] 图64显示来自碱基编辑的二聚化结果。
[0078] 图65显示来自碱基编辑的二聚化结果。
[0079] 图66显示来自碱基编辑的二聚化结果。
[0080] 图67显示开发用于各个sgRNA位点处的融合的构建体。
[0081] 图68显示ABE编辑器针对新选择序列的演化。序列从上到下以及左到右分别对应于SEQ ID NO:707-719。
[0082] 图69显示靶向Q4终止位点的当前的编辑器。序列从上到下对应于SEQ ID NO:624-628。
[0083] 图70显示靶向W15终止位点的当前的编辑器。序列从上到下分别对应于SEQ ID NO:629-633。
[0084] 图71显示HEK293位点2序列。序列对应于SEQ ID NO:360。
[0085] 图72显示使用图71的序列的具有各个edTadA突变的第一次运行的结果。
[0086] 图73显示使用图71的序列的具有各个edTadA突变的第二次运行的结果。
[0087] 图74显示FANCF序列。序列对应于SEQ ID NO:45。
[0088] 图75显示使用各个edTadA突变和图74的序列的第二次运行的结果。
[0089] 图76显示在所有位点上突变的D108的结果。
[0090] 图77显示来自先前运行(左图)和由超长接头阻碍的mut-mut融合物的反式数据。
[0091] 图78显示将mutTadA栓系至ABE的结果。
[0092] 图79显示所有测试的抑制剂的构建体。
[0093] 图80显示将AAG栓系至ABE时使用的构建体。
[0094] 图81是显示将AAG栓系至ABE的示意图。
[0095] 图82显示将AAG栓系至ABE的结果。
[0096] 图83显示将AAG栓系至具有TadA的N端的ABE时使用的构建体。
[0097] 图84是显示将AAG栓系至具有TadA的N端的ABE的示意图。
[0098] 图85显示将AAG栓系至ABE的结果。
[0099] 图86显示将EndoV栓系至ABE时使用的构建体。
[0100] 图87是显示将EndoV栓系至ABE的示意图。
[0101] 图88显示将EndoV栓系至ABE的结果。
[0102] 图89显示将UGI栓系至ABE时使用的构建体。
[0103] 图90显示将UGI栓系至ABE的末端的结果。
[0104] 图91显示增加A至G编辑的各个抑制剂的结果。
[0105] 图92显示原核TadA氨基酸序列的序列比对。序列从上到下分别对应于SEQ ID NO:634-657。
[0106] 图93显示TadA氨基酸序列的相对序列同一性分析的示意图。
[0107] 图94显示示例性腺苷碱基编辑过程的示意图。
[0108] 图95显示示例性腺苷碱基编辑器(其将腺苷脱氨基成肌苷)的示意图。
[0109] 图96显示示例性碱基编辑选择质粒的示意图。
[0110] 图97显示包括ecTadA中经鉴定的突变的克隆的列表。
[0111] 图98显示来自存活菌落的选择质粒的示例性测序分析。序列从上到下分别对应于SEQ ID NO:658-661。
[0112] 图99显示来自第三轮演化的示例性腺苷碱基编辑器的示意图。
[0113] 图100显示Hek293T细胞中A至G转换的百分比。
[0114] 图101显示示例性碱基编辑选择质粒的示意图。
[0115] 图102显示金黄色葡萄球菌TadA的verdine晶体结构的示意图。显示金黄色葡萄球菌TadA(ecTadA的同源物),其tRNA底物共结晶。红色箭头是与tRNA底物中的各种核酸的H键
接触。参见Losey,H.C.,et al.,“Crystal structure of Staphylococcus sureus tRNA 
adenosine deaminase tadA in complex with RNA”,Nature Struct.Mol.Biol.2,153-
159(2006)。
[0116] 图103显示含有ecTadA_2.2和dCas9的构建体的示意图,其鉴定突变的ecTadA残基。
[0117] 图104显示位点E25和R26处ecTadA演化(演化#4)的结果。
[0118] 图105显示位点R107处ecTadA演化(演化#4)的结果。
[0119] 图106显示位点A142和A143处ecTadA演化(演化#4)的结果。
[0120] 图107显示来自存活菌落的选择质粒的示例性测序分析。序列从上到下分别对应于SEQ ID NO:662-671。
[0121] 图108显示Hek-2位点处编辑的结果的总结。图中提供的Hek-2序列表示SEQ ID NO:41的反向互补序列,其是发生A至G编辑的DNA链。序列对应于SEQ ID ID:6。
[0122] 图109显示Hek2-3位点处编辑的结果的总结。序列对应于SEQ ID NO:363。
[0123] 图110显示Hek2-6位点处编辑的结果的总结。序列对应于SEQ ID NO:364。
[0124] 图111显示Hek2-7位点处编辑的结果的总结。图中提供的Hek2-7序列表示其中发生A至G编辑的DNA链的反向互补序列。序列对应于SEQ ID NO:365。
[0125] 图112显示Hek2-10位点处编辑的结果的总结。序列对应于SEQ ID NO:366。
[0126] 图113显示Hek-3位点处编辑的结果的总结。序列对应于SEQ ID NO:42。
[0127] 图114显示FANCF位点处编辑的结果的总结。序列对应于SEQ ID NO:45。
[0128] 图115显示Hek-2位点处编辑的结果的总结。序列对应于SEQ ID NO:367。
[0129] 图116显示Hek2-2位点处编辑的结果的总结。序列对应于SEQ ID NO:368。
[0130] 图117显示Hek2-3位点处编辑的结果的总结。序列对应于SEQ ID NO:363。
[0131] 图118显示Hek2-6位点处编辑的结果的总结。序列对应于SEQ ID NO:364。
[0132] 图119显示Hek2-7位点处编辑的结果的总结。序列对应于SEQ ID NO:365。
[0133] 图120显示Hek2-10位点处编辑的结果的总结。序列对应于SEQ ID NO:366。
[0134] 图121显示Hek-3位点处编辑的结果的总结。序列对应于SEQ ID NO:42。
[0135] 图122显示FANCF位点处编辑的结果的总结。序列对应于SEQ ID NO:45。
[0136] 图123显示HEK2、HEK2-2、HEK2-3、HEK2-6、HEK2-7和HEK2-10位点处ecTadA演化(演化#4)的结果。使用的构建体是pNMG-370(演化#2)、pNMG-371(演化#3)和pNMG 382-389(演
化#4)。序列从上到下分别对应于SEQ ID NO:7、368、363、364、369和370。
[0137] 图124显示用于ecTadA演化(演化#5)的含有ecTadA和dCas9的构建体的示意图。
[0138] 图125是显示第五轮演化(128ug/mL氯霉素,7h)后测定的克隆的结果的表格。
[0139] 图126A至136B是显示在不同条件下第五轮后测定的亚克隆并且再转化的克隆的结果的表格。
[0140] 图127是显示第五轮演化后测定的来自壮观霉素选择克隆的扩增子的结果的表格。
[0141] 图128是显示第五轮演化后测定的克隆的结果的表格。
[0142] 图129显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek-2位点处编辑的结果的总结。作为比较,显示含有经工程化的大
肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。序列对应于SEQ ID NO:6。
[0143] 图130显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek2-1位点处编辑的结果的总结。作为比较,显示含有经工程化的大
肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。图中提供的Hek2-1序列表示
其中发生A至G编辑的DNA链。序列对应于SEQ ID NO:465。
[0144] 图131显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek2-2位点处编辑的结果的总结。作为比较,显示含有经工程化的大
肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。序列对应于SEQ ID NO:368。
[0145] 图132显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek2-3位点处编辑的结果的总结。作为比较,显示含有经工程化的大
肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。序列对应于SEQ ID NO:363。
[0146] 图133显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek2-4位点处编辑的结果的总结。作为比较,显示含有经工程化的大
肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。图中提供的Hek2-4序列表示
其中发生A至G编辑的DNA链。序列对应于SEQ ID NO:466。
[0147] 图134显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek2-6位点处编辑的结果的总结。作为比较,显示含有经工程化的大
肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。序列对应于SEQ ID NO:364。
[0148] 图135显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek2-9位点处编辑的结果的总结。作为比较,显示含有经工程化的大
肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。图中提供的Hek2-9序列表示
其中发生A至G编辑的DNA链。序列对应于SEQ ID NO:467。
[0149] 图136显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek2-10位点处编辑的结果的总结。作为比较,显示含有经工程化的
大肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。图中提供的Hek2-10序列
表示其中发生A至G编辑的DNA链。序列对应于SEQ ID NO:370。
[0150] 图137显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在Hek3位点处编辑的结果的总结。作为比较,显示含有经工程化的大肠
杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。序列对应于SEQ ID NO:42。
[0151] 图138显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在RNF2位点处编辑的结果的总结。作为比较,显示含有经工程化的大肠
杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。序列对应于SEQ ID NO:468。
[0152] 图139显示使用含有经工程化的金黄色葡萄球菌TadA(saTadA)的碱基编辑器(其包括pNMG-346-349)在FANCF位点处编辑的结果的总结。作为比较,显示含有经工程化的大
肠杆菌TadA(ecTadA)的编辑器(其包括pNMG-339-341)的结果。序列对应于SEQ ID NO:45。
[0153] 图140显示腺苷碱基编辑器(ABE)构建体的各个示意图。编辑器的身份,例如“pNMG-367”在表4中指示。以下突变如下缩写:ecTadA1(A106V D108N)、ecTadA2(A106V 
D108N D147Y E155V)、ecTadA3(ecTadA2+L84F H123Y I156F)、ecTadA3+(ecTadA3+A142N)、
ecTadA5a1(ecTadA3+H36L R51L S146C K157N)、ecTadA5a3(ecTadA3+N37S K161T)、
ecTadA5a11(ecTadA3+R51L S146C K157N K161T)、ecTadA5a12(ecTadA3+S146C K161T)、
ecTadA5a14(ecTadA3+RS146C K157N K160E)和ecTadA5a1+(ecTadA5a1+A142N)、ecTadA5a9
(ecTadA3+S146R K161T)。制备前三个ABE 5a构建体的异二聚体,然后相对于同二聚体进行
测试。ABE编辑器的异二聚体形式通常比相应的同二聚体构建体表现更好。同二聚体和异二
聚体构建体两者均显示在图140中。
[0154] 图141显示各个ABE构建体的编辑结果。ABE质粒#是指pNMG编号,如表4中所示。例如367是指表4中的构建体pNMG-367。序列从上到下分别对应于SEQ ID NO:469(pNMG-466)、
470(pNMG-467)、471(pNMG-469)、472(pNMG-470)、473(pNMG-501)、474(pNMG-509)和475
(pNMG-502)。
[0155] 图142显示各个ABE构建体在特定位点处的编辑结果。顶行上的数字表示pNMG编号,如表4中所示。例如107是指表4中的构建体pNMG-107。在某些情况下,已显示同二聚体构
建体比异二聚体构建体更好地起作用,并且反之亦然(参见例如,作为同二聚体的构建体
371对作为异二聚体的构建体476)。这些ABE构建体的示意图显示于图140中,并且构建体结
构显示于表4中。序列从上到下分别对应于SEQ ID NO:478、478、514、516、516、520、520、
521、521和509。
[0156] 图143显示用于来自图142的ABE构建体的形成的插入/缺失的百分比。
[0157] 图144显示各个ABE构建体在特定位点处的编辑结果。构建体的身份显示于顶行中,并且是指表4的pNMG参考编号。图144中的结果表明,向ABE构建体添加ecTadA单体可以
不改善编辑。然而,在单体之间添加长接头可以有助于一些位点处的编辑(参见例如,sgRNA
构建体285b对277在位点502、505、507处的编辑结果)。sgRNA构建体的身份显示于表8中。这
些ABE构建体的示意图显示于图140中。序列从上到下分别对应于SEQ ID NO:478、480、480、
514、517、517、517、517、519和521。
[0158] 图145显示所有NAN位点处的ABE构建体的结果,其中靶A在前间隔区和PAM序列的位置5处。显示于顶行中的ABE构建体的身份是指表4中的pNMG参考编号。数值表示编辑的靶
A残基的%(例如,%编辑效率)。序列从上到下分别对应于SEQ ID NO:537-552。
[0159] 图146显示对于各个ABE构建体在Hek2位点处的A至G编辑百分比,如通过表4中的其参考pNMG编号所引用的。
[0160] 图147显示演化轮#5b演化结果。数值表示所示的位点处的A至G编辑的百分比。序列从上到下分别对应于SEQ ID NO:7、465、368、363、364和370。
[0161] 图148显示自不同轮的演化(例如,evo3)获得的各个ABE构建体的编辑结果。还显示了ABE构建体的通用示意图。显示了sgRNA的身份(如表8中所示)和碱基编辑器的身份
(pNMG参考)(如表4中所示)。数值表示所示的位点处的A至G编辑的百分比。序列从上到下分
别对应于SEQ ID NO:478、503、506、521、513、505、507和509。
[0162] 图149显示在Hek-2序列之外的基因组位点处的ABE构建体的检查。Hek-2位点(sgRNA 299)用星号表示。表8中表明sgRNA的身份。序列从上到下分别对应于SEQ ID NO:
478、514、516、517、517、517、517、519、520、529、521。
[0163] 图150显示使用核苷酸交换和切除技术(NExT)的DNA改组实验的示意图,其被称为ABE演化#6。该方法的目标是组装更有效的编辑器并消除潜在的上位突变(epistatic 
mutation)。来自各种演化的构建体的DNA改组用于优化所期望的突变并消除对编辑效率
和/或蛋白质稳定性产生负面影响的突变。
[0164] 图151显示DNA改组(NeXT)的示意图。spect(壮观霉素)靶序列是(SEQ ID NO:444)而chlor(氯霉素)靶序列是
(SEQ ID NO:441)。
[0165] 图152显示仅在spect(非YAC靶标)上存活的来自演化#6的克隆的序列同一性。所示的突变相对于ecTadA(SEQ ID NO:1)。
[0166] 图153显示演化#6.2,其是指来自演化#6的克隆的富集。所示的突变相对于ecTadA(SEQ ID NO:1)。A142N几乎存在于所有测序的克隆中,并且Pro48突变也是丰富的。在壮观
霉素位点中针对“GAT”选择克隆。选择靶序列是
(SEQ ID NO:444)。
[0167] 图154显示ABE6构建体的示意图。共开发了8种新构建体。来自Evo#6中前2个最高频率扩增子的突变用于四种结构中的每一种。
[0168] 图155显示ABE的数据收获:步骤1-在6个基因组位点处的关键中间体的转染+HTS,n=3。用750ng ABE+250ng gRNA进行转染,并温育5天,然后提取基因组DNA以进行HTS。每个
ABE构建体的身份由pNMG参考编号表明,如表4中所示。序列从上到下分别对应于SEQ ID 
NO:509、510、512、520、530、478。
[0169] 图156显示ABE编辑效率随着迭代的演化轮次而改善。上图显示使用经演化的/经工程化的ABE构建体在Hek293T细胞中的靶向遗传基因座处的代表性A至G%编辑。序列对应
于SEQ ID NO:561。下图显示迭代的演化和工程化轮次改善ABE。ABE构建体由其pNMG参考编
号表明,如表4中所示。“508”靶序列对应于SEQ ID NO:520。
[0170] 图157显示来自10个“最佳”ABE的核心6个基因组位点的HTS结果。结果表明不同的编辑器具有不同的局部序列偏好(下图)。该图显示6个不同遗传基因座处的A至G百分比编
辑。ABE构建体由其pNMG参考编号表明,如表4中所示。序列从上到下分别对应于SEQ ID NO:
509、510、512、520、530、478。
[0171] 图158显示在覆盖NAN序列的每个组合的所有基因组位点处的发挥功能的“前10个”ABE的转染。数据表示n=1。序列从上到下分别对应于SEQ ID NO:489、490、493、497、
503、504、507、508、511和513。
[0172] 图159显示用于鉴定哪个A得以编辑的ABE窗口实验(在奇数位置处的A)。显示了ABE pNMG-477、pNMG-586、pNMG-588、BE3和未经处理的对照。用于编辑的序列显示在顶部。
序列对应于SEQ ID NO:562。
[0173] 图160显示用于鉴定哪个A得以编辑的ABE窗口实验(在偶数位置处的A)。显示了ABE pNMG-477、pNMG-586、pNMG-588、BE3和未经处理的对照。用于编辑的序列显示在顶部。
序列对应于SEQ ID NO:563。
[0174] 图161显示用于鉴定哪个A得以编辑的另外的ABE窗口实验。显示了ABE pNMG-586、pNMG-560和未经处理的对照。用于编辑的序列显示在顶部。序列从上到下分别对应于SEQ 
ID NO:544和541。
[0175] 图162显示用于鉴定哪个A得以编辑的另外的ABE窗口实验。显示了ABE pNMG-576、pNMG-586和未经处理的对照。用于编辑的序列显示在顶部。序列对应于SEQ ID NO:564。
[0176] 图163显示演化#7,编辑多A位点的尝试。演化选择设计是使用以下两个单独的gRNA靶向相同基因中的2个点突变: (SEQ ID 
NO:565)和 (SEQ ID NO:566)以产生Kan中的
D208N回复突变并将终止密码子回复为Q。
[0177] 图164显示演化#7突变,其演化为多A位点内的靶A,意味着它们在一侧或两侧侧翼是A。显示了相对于SEQ ID NO:1的突变的身份。
[0178] 图165显示鉴定残基R152和P48的ecTadA的示意图。
[0179] 图166显示对替代细胞系中疾病相关突变的ABE编辑的MiSeq结果。使用Lonza试剂盒的核转染与3种不同的核转染溶液x16种不同的电穿孔条件(48种总条件/细胞系)一起使
用。序列从上到下分别对应于SEQ ID NO:522-524。
[0180] 图167显示针对各个构建体在多个位置处进行A至G编辑的结果。ABE构建体由其pNMG参考编号表明,如表4中所示。上图中,序列从上到下分别对应于SEQ ID NO:469-471、
567、475和474。下图中,序列从上到下分别对应于SEQ ID NO:469(pNMG-466)、470(pNMG-
467)、471(pNMG-469)、567(pNMG-472)和474(pNMG-509)。
[0181] 图168显示使用具有不同接头的ABE的各个构建体的编辑结果。ABE构建体由其pNMG参考编号表明,如表4中所示。还显示了新接头ABE的示意图。序列从上到下分别对应于
SEQ ID NO:469(pNMG-466)、568(pNMG-468)、471(pNMG-469)、567(pNMG-472)、574(pNGM-
509)和569)(pNMG-539)。
[0182] 图169显示第4轮演化。用单体构建体进行演化,并且内源性TadA补充TadA-dCas9融合。
[0183] 图170显示第4轮演化结果。序列从上到下分别对应于SEQ ID NO:7、368、363、364、369和370。
[0184] 图171显示演化轮#5。显示了质粒和实验概要(上图)。图片说明了在氯霉素对壮观霉素上“TAG”对“GAT”的存活。chlor靶序列是
(SEQ ID NO:441)而spect靶序列是 (SEQ ID 
NO:444)。
[0185] 图172显示chlor和spect位点处的编辑结果。自演化#4(位点饱和/NNK库)鉴定的构建体在spect位点上而不是在chor位点上显现更有效地编辑。ABE构建体由其pNMG参考编
号表明,如表4中所示。
[0186] 图173显示第5轮演化(a部分)。序列对应于SEQ ID NO:570。
[0187] 图174显示第5轮异二聚体(反式)结果。轮#5a鉴定的突变改善了这两个编辑效率并拓宽了底物特异性。序列从上到下分别对应于SEQ ID NO:7、368、和363、364、369和370。
[0188] 图175显示第5轮异二聚体(顺式)结果。轮#5a鉴定的突变改善了这两个编辑效率并拓宽了底物特异性,但顺式结果提供了更高的编辑效率。ABE构建体由其pNMG参考编号表
明,如表4中所示。序列从上到下分别对应于SEQ ID NO:7、571、465、368、363、466、364、369、
572和370。
[0189] 图176显示用于演化5的各个构建体的编辑结果。
[0190] 图177显示用于演化5的各个构建体的编辑结果。
[0191] 图178显示用于ABE的gRNA。5a构建体在前间隔区中的位置5处的所有16个NAN序列A上表征(左图)。序列从上到下分别对应于SEQ ID NO:573-578。提出了以“G”开始的另外的
序列,以使gRNA合成产率的变化最小化(右图)。序列从上到下分别对应于SEQ ID NO:579-
588。
[0192] 图179显示使用如表8中所示的sgRNA 299和ABE构建体的A5的%A至G编辑,所述ABE构建体通过其pNMG参考编号表明,如表4中所示。序列对应于SEQ ID NO:478。
[0193] 图180显示使用如表8中所示的sgRNA 469和ABE构建体的A5的%A至G编辑,所述ABE构建体通过其pNMG参考编号表明,如表4中所示。序列对应于SEQ ID NO:509。
[0194] 图181显示使用如表8中所示的sgRNA 470和ABE构建体的A5的%A至G编辑,所述ABE构建体通过其pNMG参考编号表明,如表4中所示。序列对应于SEQ ID NO:510。
[0195] 图182显示使用如表8中所示的sgRNA 472和ABE构建体的A5的%A至G编辑,所述ABE构建体通过其pNMG参考编号表明,如表4中所示。序列对应于SEQ ID NO:512。
[0196] 图183显示使用如表8中所示的sgRNA 508和ABE构建体的A5的%A至G编辑,所述ABE构建体通过其pNMG参考编号表明,如表4中所示。序列对应于SEQ ID NO:520。
[0197] 图184显示使用如表8中所示的sgRNA 536和ABE构建体的A7的%A至G编辑,所述ABE构建体通过其pNMG参考编号表明,如表4中所示。序列对应于SEQ ID NO:530。
[0198] 图185显示对于每个指示的碱基编辑器,使用sgRNA:310、sgRNA:311、sgRNA:314、sgRNA:318、sgRNA:463和sgRNA:464的突出显示的A(A5)的A至G编辑的%,所述碱基编辑器
通过其pNMG参考编号表明,如表4中所示。序列从左到右以及上到下分别对应于SEQ ID NO:
489、490、493、497、503和504。
[0199] 图186显示对于每个指示的碱基编辑器,使用sgRNA:466、sgRNA:467、sgRNA:468、sgRNA:471、sgRNA:501和sgRNA:601的突出显示的A(A5)的A至G编辑的%,所述碱基编辑器
通过其pNMG参考编号表明,如表4中所示。序列从左到右以及上到下分别对应于SEQ ID NO:
506、507、508、511、513和535。
[0200] 定义
[0201] 如本文和权利要求书中所用,除非上下文另外明确指出,否则单数形式“一种”、“一个”和“该/所述”包括单数和复数。因此,例如,提及“试剂”包括单一试剂和多个此类试剂。
[0202] 术语“脱氨酶”或“脱氨酶域”是指催化脱氨基反应的蛋白质或酶。在一些实施方案中,脱氨酶是腺苷脱氨酶,其催化腺嘌呤或腺苷的水解脱氨基作用。在一些实施方案中,脱
氨酶或脱氨酶域是腺苷脱氨酶,分别催化腺苷或脱氧腺苷水解脱氨基为肌苷或脱氧肌苷。
在一些实施方案中,腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺嘌呤或腺苷的水解脱氨基作
用。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、演化的腺苷脱氨酶)可以来自任何
生物体,例如细菌。在一些实施方案中,脱氨酶或脱氨酶域是来自生物体的天然存在的脱氨
酶的变体。在一些实施方案中,脱氨酶或脱氨酶域在自然界中不存在。例如,在一些实施方
案中,脱氨酶或脱氨酶域与天然存在的脱氨酶至少50%、至少55%、至少60%、至少65%、至
少70%、至少75%至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少
98%、至少99%、或至少99.5%相同。在一些实施方案中,腺苷脱氨酶来自细菌,例如大肠杆
菌(E.coli)、金黄色葡萄球菌(S.aureus)、鼠伤寒沙氏菌(S.typhi)、腐败希瓦氏菌
(S.putrefaciens)、流感嗜血杆菌(H.influenzae)或新月柄杆菌(C.crescentus)。在一些
实施方案中,腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,TadA脱氨酶是大肠杆菌TadA脱
氨酶(ecTadA)。在一些实施方案中,TadA脱氨酶是截短的大肠杆菌TadA脱氨酶。例如,相对
于全长ecTadA,截短的ecTadA可以缺少一个或多个N端氨基酸。在一些实施方案中,截短的
ecTadA可以相对于全长ecTadA缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个N端氨基酸残基。在一些实施方案中,截短的ecTadA可以相对于全长ecTadA缺少1、2、
3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C端氨基酸残基。在一些实施方案中,ecTadA脱氨酶不包含N端甲硫氨酸。
[0203] 在一些实施方案中,TadA脱氨酶是N端截短的TadA。在某些实施方案中,腺苷脱氨酶包含氨基酸序列:
[0204]
[0205]
[0206] 在一些实施方案中,TadA脱氨酶是全长大肠杆菌TadA脱氨酶。例如,在某些实施方案中,腺苷脱氨酶包含氨基酸序列:
[0207]
[0208] 然而,应当理解,可用于本申请的另外的腺苷脱氨酶对于熟练技术人员而言是显而易见的,并且在本公开的范围内。例如,腺苷脱氨酶可以是ADAT的同源物。示例性ADAT同
源物包括但不限于:
[0209] 金黄色葡萄球菌(Staphylococcus aureus)TadA:
[0210]
[0211] 枯草芽孢杆菌(Bacillus subtilis)TadA:
[0212]
[0213] 鼠伤寒沙门氏菌(Salmonella typhimurium)(S.typhimurium)TadA:
[0214]
[0215] 腐败希瓦氏菌(Shewanella putrefaciens)(S.putrefaciens)TadA:
[0216]
[0217] 流感嗜血杆菌(Haemophilus influenzae)F3031(H.influenzae)TadA:
[0218]
[0219] 新月柄杆菌(Caulobacter crescentus)(C.crescentus)TadA:
[0220]
[0221] 硫还原地杆菌(Geobacter sulfurreducens)(G.sulfurreducens)TadA:
[0222]
[0223] 术语“碱基编辑器(BE)”或“核碱基编辑器(NBE)”是指包含能够对核酸序列(例如,DNA或RNA)内的碱基(例如,A、T、C、G或U)进行修饰的多肽的试剂。在一些实施方案中,碱基
编辑器能够使核酸内的碱基脱氨基。在一些实施方案中,碱基编辑器能够使DNA分子内的碱
基脱氨基。在一些实施方案中,碱基编辑器能够使DNA中的腺嘌呤(A)脱氨基。在一些实施方
案中,碱基编辑器是融合蛋白,其包含与腺苷脱氨酶融合的核酸可编程DNA结合蛋白
(napDNAbp)。在一些实施方案中,碱基编辑器是与腺苷脱氨酶融合的Cas9蛋白。在一些实施
方案中,碱基编辑器是与腺苷脱氨酶融合的Cas9切口酶(nCas9)。在一些实施方案中,碱基
编辑器是与腺苷脱氨酶融合的核酸酶无活性的Cas9(dCas9)。在一些实施方案中,碱基编辑
器与碱基切除修复抑制剂(例如,UGI域或dISN域)融合。在一些实施方案中,融合蛋白包含
与脱氨酶和碱基切除修复抑制剂(例如UGI或dISN域)融合的Cas9切口酶。在一些实施方案
中,融合蛋白的dCas9域包含SEQ ID NO:52的D10A和H840A突变,或SEQ ID NO:108-357中的
任一个中的相应的突变,其使Cas9蛋白的核酸酶活性失活。在一些实施方案中,融合蛋白包
含D10A突变并且包含SEQ ID NO:52的残基840处的组氨酸,或SEQ ID NO:108-357中的任一
个中的相应的突变,其使得Cas9能够仅切割核酸双链体的一条链。Cas9切口酶的实例显示
在SEQ ID NO:35中。
[0224] 如本文所用,术语“接头”是指连接两个分子或部分,例如融合蛋白的两个域,诸如例如核酸酶无活性的Cas9域和核酸编辑域(例如腺苷脱氨酶域)的键(例如共价键)、化学基
团或分子。在一些实施方案中,接头接合RNA可编程核酸酶的gRNA结合域,包括Cas9核酸酶
域和核酸编辑蛋白的催化域。在一些实施方案中,接头接合dCas9和核酸编辑蛋白。通常,接
头位于两个基团、分子或其他部分之间或侧翼有两个基团、分子或其他部分,并且经由共价
键与每一个连接,从而连接两者。在一些实施方案中,接头是一个氨基酸或多个氨基酸(例
如肽或蛋白质)。在一些实施方案中,接头是有机分子、基团、聚合物或化学部分。在一些实
施方案中,接头的长度为5-100个氨基酸,例如长度为5、6、7、8、9、10、11、12、13、14、15、16、
17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-
70、70-80、80-90、90-100、100-150或150-200个氨基酸。也考虑了更长或更短的接头。在一
些实施方案中,接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:10),其也可以称为
XTEN接头。在一些实施方案中,接头包含氨基酸序列SGGS(SEQ ID NO:37)。在一些实施方案
中,接头包含(SGGS)n(SEQ ID NO:37)、(GGGS)n(SEQ ID NO:38)、(GGGGS)n(SEQ ID NO:39)、(G)n、(EAAAK)n(SEQ ID NO:40)、(GGS)n、SGSETPGTSESATPES(SEQ ID NO:10)或(XP)n基序,或这些中任何的组合,其中n独立地是1和30之间的整数,并且其中X是任何氨基酸。在一些
实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。
[0225] 如本文所用,术语“突变”是指序列(例如核酸或氨基酸序列)内的残基用另一个残基取代或序列内一个或多个残基的缺失或插入。本文通常通过鉴定初始残基,随后是序列
内残基的位置和新取代的残基的身份来描述突变。用于产生本文提供的氨基酸取代(突变)
的各种方法在本领域中是熟知的,并且由例如Green and Sambrook,Molecular Cloning:A 
Laboratory Manual(第4版,Cold Spring Harbor Laboratory Press,Cold Spring 
Harbor,N.Y.(2012))提供。
[0226] 术语“碱基修复抑制剂”或“IBR”是指能够抑制核酸修复酶(例如碱基切除修复酶)的活性的蛋白质。在一些实施方案中,IBR是肌苷碱基切除修复抑制剂。示例性的碱基修复
抑制剂包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGG1、hNEIL1、T7 EndoI、T4PDG、UDG、hSMUG1和hAAG的抑制剂。在一些实施方案中,IBR是Endo V或hAAG的抑制剂。在
一些实施方案中,IBR是催化无活性的EndoV或催化无活性的hAAG。
[0227] 如本文所用,术语“尿嘧啶糖基化酶抑制剂”或“UGI”是指能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质。在一些实施方案中,UGI域包含野生型UGI或如SEQ ID 
NO:3中所示的UGI。在一些实施方案中,本文提供的UGI蛋白包括UGI的片段和与UGI或UGI片
段同源的蛋白质。例如,在一些实施方案中,UGI域包含SEQ ID NO:3中所示的氨基酸序列的
片段。在一些实施方案中,UGI片段包含氨基酸序列,所述氨基酸序列包含如SEQ ID NO:3中
所示的氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少
90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%。在一些实施方案
中,UGI包含与SEQ ID NO:3中所示的氨基酸序列同源的氨基酸序列,或与SEQ ID NO:3中所
示的氨基酸序列的片段同源的氨基酸序列。在一些实施方案中,包含UGI或UGI的片段或者
UGI或UGI片段的同源物的蛋白质称为“UGI变体”。UGI变体与UGI或其片段共享同源性。例如
UGI变体与野生型UGI或如SEQ ID NO:3中所示的UGI至少70%相同、至少75%相同、至少
80%相同、至少85%相同、至少90%相同、至少95%相同、至少96%相同、至少97%相同、至
少98%相同、至少99%相同、至少99.5%相同或至少99.9%相同。在一些实施方案中,UGI变
体包含UGI的片段,使得片段与野生型UGI或如SEQ ID NO:3中所示的UGI的相应的片段至少
70%相同、至少80%相同、至少90%相同、至少95%相同、至少96%相同、至少97%相同、至
少98%相同、至少99%相同、至少99.5%相同或至少99.9%。在一些实施方案中,UGI包含以
下氨基酸序列:
[0228] >sp|P14739|UNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML(SEQ ID NO:3)。
[0229] 如本文所用,术语“催化无活性的肌苷特异性核酸酶”或“死亡肌苷特异性核酸酶(dISN)”是指能够抑制肌苷特异性核酸酶的蛋白质。不希望受任何特定理论的束缚,催化无
活性的肌苷糖基化酶(例如,烷基腺嘌呤糖基化酶[AAG])将结合肌苷,但不会产生无碱基位
点或除去肌苷,从而在空间上阻断新形成的肌苷部分免于DNA损伤/修复机制。在一些实施
方案中,催化无活性的肌苷特异性核酸酶可以能够结合核酸中的肌苷但不切割核酸。示例
性的催化无活性的肌苷特异性核酸酶包括但不限于,例如来自人的催化无活性的烷基腺苷
糖基化酶(AAG核酸酶)和例如来自大肠杆菌的催化无活性的内切核酸酶V(EndoV核酸酶)。
在一些实施方案中,催化无活性的AAG核酸酶包含如SEQ ID NO:32中所示的E125Q突变,或
另一种AAG核酸酶中的相应的突变。在一些实施方案中,催化无活性的AAG核酸酶包含SEQ 
ID NO:32中所示的氨基酸序列。在一些实施方案中,催化无活性的EndoV核酸酶包含如SEQ 
ID NO 32中所示的D35A突变,或在另一种EndoV核酸酶中的相应的突变。在一些实施方案
中,催化无活性的EndoV核酸酶包含SEQ ID NO:33中所示的氨基酸序列。应当理解,其他催
化无活性的肌苷特异性核酸酶(dISN)对于熟练技术人员是显而易见的并且在本公开的范
围内。
[0230] 截短的AAG(人)(H.sapiens)核酸酶(E125Q);突变的残基用粗体加下划线。
[0231]
[0232] EndoV核酸酶(D35A);突变的残基用粗体加下划线。
[0233]
[0234] 术语“核定位序列”或“NLS”是指促进蛋白质输入细胞核(例如通过核转运)的氨基酸序列。核定位序列是本领域已知的,并且对于熟练技术人员是显而易见的。例如,NLS序列
描述于2001年11月23日提交的Plank等人的国际PCT申请PCT/EP2000/011690,2001年5月31
日公布为WO/2001/038547,其内容通过引用并入本文,用于其对示例性的核定位序列的公
开内容。在一些实施方案中,NLS包含氨基酸序列PKKKRKV(SEQ  ID  NO:4)或
MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO:5)。
[0235] 术语“核酸可编程DNA结合蛋白”或“napDNAbp”是指与核酸(例如DNA或RNA),例如引导核酸结合的蛋白质,所述核酸将napDNAbp引导至特定核酸序列。例如,Cas9蛋白可以与
引导RNA结合,所述引导RNA将Cas9蛋白引导至与引导RNA互补的特定DNA序列。在一些实施
方案中,napDNAbp是2类微生物CRISPR-Cas效应物。在一些实施方案中,napDNAbp是Cas9域,
例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶无活性Cas9(dCas9)。核酸可编程DNA结
合蛋白的实例包括但不限于Cas9(例如dCas9和nCas9)、CasX、CasY、Cpf1、C2c1、C2c2、C2C3
和Argonaute。然而,应当理解,核酸可编程DNA结合蛋白还包括结合RNA的核酸可编程蛋白。
例如,napDNAbp可以与将napDNAbp引导至RNA的核酸结合。其他核酸可编程DNA结合蛋白也
在本公开的范围内,但它们可以未在本公开中具体列出。
[0236] 术语“Cas9”或“Cas9域”是指包含Cas9蛋白或其片段的RNA引导的核酸酶(例如,包含Cas9的活性、无活性或部分活性的DNA切割域,和/或Cas9的gRNA结合域的蛋白质)。Cas9
核酸酶有时也称为casn1核酸酶或CRISPR(聚簇规则间隔短回文重复)相关核酸酶。CRISPR
是适应性免疫系统,其提供针对移动遗传元件(病毒、可转座元件和接合质粒)的保护。
CRISPR簇含有间隔区,与先前的移动元件互补的序列,并靶向侵入核酸。CRISPR簇得以转录
并加工成CRISPR RNA(crRNA)。在II型CRISPR系统中,对pre-crRNA的正确加工需要反式编
码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA充当用于pre-
crRNA的核糖核酸酶3辅助加工的引导。随后,Cas9/crRNA/tracrRNA以内切核水解方式切割
与间隔区互补的线性或环状dsDNA靶标。首先以内切核水解方式切割不与crRNA互补的靶
链,然后以3′-5′外切核水解方式修剪(trim)。在自然界中,DNA结合和切割通常需要蛋白质
和这两种RNA。然而,单一引导RNA(“sgRNA”或简称“gNRA”)可以经工程化以将crRNA和
tracrRNA两者的方面并入单一RNA种类中。参见例如Jinek M.,Chylinski K.,Fonfara I.,
Hauer M.,Doudna J.A.,Charpentier E.Science337:816-821(2012),其全部内容通过引
用并入本文。Cas9识别CRISPR重复序列中的短基序(PAM或前间隔区相邻基序),以帮助区分
自我与非自我。Cas9核酸酶序列和结构是本领域技术人员熟知的(参见例如“Complete 
genome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti et al.,
J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,Sezate 
S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,
Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-
encoded small RNA and host factor RNase III.”Deltcheva E.,Chylinski K.,Sharma 
C.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,
Nature 471:602-607(2011);和“A programmable dual-RNA-guided DNA endonuclease 
in adaptive bacterial immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,
Doudna J.A.,Charpentier E.Science337:816-821(2012),其各自的全部内容通过引用并
入本文)。已经在各种物种中描述了Cas9直系同源物,包括但不限于酿脓链球菌
(S.pyogenes)和嗜热链球菌(S.thermophilus)。基于本公开,其他合适的Cas9核酸酶和序
列对于本领域技术人员将是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,
Rhun,and Charpentier,“The tracrRNA and Cas9 families of type II CRISPR-Cas 
immunity systems”(2013)RNA Biology 10:5,726-737中公开的生物体和基因座的Cas9序
列;其全部内容通过引用并入本文。在一些实施方案中,Cas9核酸酶具有无活性的(例如失
活的)DNA切割域,也就是说,Cas9是切口的酶。
[0237] 核酸酶失活的Cas9蛋白可以互换地称为“dCas9”蛋白(代表核酸酶-“死亡的”Cas9)。用于生成具有无活性的DNA切割域的Cas9蛋白(或其片段)的方法是已知的(参见例
如Jinek et al.,Science.337:816-821(2012);Qi et al.,“Repurposing CRISPR as an 
RNA-Guided Platform for Sequence-Specific Control of Gene Expression”(2013)
Cell.28;152(5):1173-83,其各自的全部内容通过引用并入本文)。例如,已知Cas9的DNA切
割域包括两个亚域,即HNH核酸酶亚域和RuvC1亚域。HNH亚域切割与gRNA互补的链,而RuvC1
亚域切割非互补链。这些亚域内的突变可以沉默Cas9的核酸酶活性。例如,突变D10A和
H840A完全使酿脓链球菌Cas9的核酸酶活性失活(Jinek et al.,Science.337:816-821
(2012);Qi et al.,Cell.28;152(5):1173-83(2013))。在一些实施方案中,提供了包含
Cas9的片段的蛋白质。例如,在一些实施方案中,蛋白质包含两个Cas9域的一个:(1)Cas9的
gRNA结合域;或(2)Cas9的DNA切割域。在一些实施方案中,包含Cas9或其片段的蛋白质称为
“Cas9变体”。Cas9变体与Cas9或其片段共享同源性。例如,Cas9变体与野生型Cas9至少约
70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约
97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在
一些实施方案中,Cas9变体与野生型Cas9相比,可以具有1、2、3、4、5、6、7、8、9、10、11、12、
13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、
38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个氨基酸变化。在一些实施方案中,Cas9变体包含Cas9的片段(例如,gRNA结合域或DNA切割域),使得该片段与野生型Cas9的相
应的片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约
96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少
约99.9%相同。在一些实施方案中,片段是相应的野生型Cas9的氨基酸长度的至少30%、至
少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少
75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少
99%或至少99.5%。
[0238] 在一些实施方案中,片段的长度为至少100个氨基酸。在一些实施方案中,片段的长度为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、
900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。在一些实施方案中,野生型Cas9对应与来自酿脓链球菌(Streptococcus pyogenes)的Cas9(NCBI参考序列:NC_
017053.1,SEQ ID NO:47(核苷酸);SEQ ID NO:48(氨基酸))。
[0239]
[0240]
[0241]
[0242] 在一些实施方案中,野生型Cas9对应于,或包含SEQ ID NO:49(核苷酸)和/或SEQ ID NO:50(氨基酸):
[0243]
[0244]
[0245]
[0246] 在一些实施方案中,野生型Cas9对应与来自酿脓链球菌的Cas9(NCBI参考序列:NC_002737.2,SEQ ID NO:51(核苷酸);和Uniport参考序列:Q99ZW2,SEQ ID NO:52(氨基
酸)。
[0247]
[0248]
[0249]
[0250] 在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒杆菌(Corynebacterium ulcerans)(NCBI Ref;NC_015683.1、NC_017317.1);白喉棒杆菌(Corynebacterium 
diphtheria)(NCBI Ref:NC_016782.1、NC_016786.1);Spiroplasma syrphidicola(NCBI 
Ref:NC_021284.1);间型普雷沃氏菌(Prevotella intermedia)(NCBI Ref:NC_017861.1);
台湾螺原体(Spiroplasma taiwanense(NCBI Ref:NC_021846.1);海豚链球菌
(Streptococcus iniae)(NCBI Ref:NC_021314.1);波罗的海贝尔氏菌(Belliella 
baltica)(NCBI Ref:NC_018010.1);Psychroflexus torquisI(NCBI Ref:NC_018721.1);
嗜热链球菌(Streptococcus thermophilus)(NCBI Ref:YP_820832.1)、无害李斯特氏菌
(Listeria innocua)(NCBI Ref:NP_472073.1)、空肠弯曲杆菌(Campylobacter jejuni)
(NCBI Ref:YP_002344900.1)或脑膜炎奈瑟氏球菌(Neisseria.meningitides)(NCBI Ref:
YP_002342100.1)或者是指来自任何其他生物体的Cas9。
[0251] 在一些实施方案中,dCas9对应于,或包含部分或全部的Cas9氨基酸序列,所述Cas9氨基酸序列具有一个或多个使Cas9核酸酶活性失活的突变。例如,在一些实施方案中,
dCas9域包含SEQ ID NO:52的D10A和H840A突变,或另一种Cas9中的相应的突变。在一些实
施方案中,dCas9包含SEQ ID NO:53的氨基酸序列
[0252] dCas9(D10A和H840A):
[0253]
[0254] 在一些实施方案中,Cas9域包含D10A突变,而在SEQ ID NO:52中提供的氨基酸序列中的位置840处,或在SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的位置处的
残基仍然是组氨酸。不希望受任何特定理论的束缚,催化残基H840的存在维持Cas9的活性
以切割含有与靶定的A相对的T的非编辑的(例如,非脱氨基的)链。H840的回复(例如,从
dCas9的A840)不导致含有A的靶链的切割。此类Cas9变体能够基于gRNA定义的靶序列在特
定位置处产生单链DNA断裂(切口),导致非编辑的链的修复,最终导致非编辑的链上的T至C
变化。该过程的示意图显示于图94中。简而言之,并且不希望受任何特定理论的束缚,A-T碱
基对的A可以通过腺苷脱氨酶(例如,使DNA中的腺苷脱氨基的经工程化的腺苷脱氨酶)脱氨
基成肌苷(I)。对具有T的非编辑的链产生切口有助于经由错配修复机制去除T。UGI域或催
化无活性的肌苷特异性核酸酶(dISN)可以抑制肌苷特异性核酸酶(例如,空间上),从而防
止肌苷(I)的去除。
[0255] 在其他实施方案中,提供了具有除D10A和H840A之外的突变的dCas9变体,其例如导致核酸酶失活的Cas9(dCas9)。举例来说,此类突变包括D10和H840处的其他氨基酸取代,
或Cas9的核酸酶域内的其他取代(例如,HNH核酸酶亚域和/或RuvC1亚域中的取代)。在一些
实施方案中,提供了dCas9的变体或同源物(例如SEQ ID NO:53的变体),其与SEQ ID NO:10
至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至
少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供了dCas9
的变体(例如SEQ ID NO:53的变体),其具有比SEQ ID NO:53短或长约5个氨基酸、约10个氨
基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个
氨基酸、约75个氨基酸、约100个氨基酸或更多的氨基酸序列。
[0256] 在一些实施方案中,如本文提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如本文提供的Cas9序列之一。然而,在其他实施方案中,如本文提供的融合蛋白不包
含全长Cas9序列,而仅包含其片段。例如,在一些实施方案中,本文提供的Cas9融合蛋白包
含Cas9片段,其中所述片段结合crRNA和tracrRNA或sgRNA,但不包含功能性核酸酶域,例如
其中其仅包含截短形式的核酸酶域或根本没有核酸酶域。
[0257] 本文提供了合适的Cas9域和Cas9片段的示例性氨基酸序列,并且对于本领域技术人员来说,Cas9域和片段的另外合适的序列将是显而易见的。
[0258] 在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒杆菌(Corynebacterium ulcerans)(NCBI Ref:NC_015683.1、NC_017317.1);白喉棒杆菌(Corynebacterium 
diphtheria)(NCBI Ref:NC_016782.1、NC_016786.1);Spiroplasma syrphidicola(NCBI 
Ref:NC_021284.1);间型普雷沃氏菌(Prevotella intermedia)(NCBI Ref:NC_017861.1);
台湾螺原体(Spiroplasma taiwanense(NCBI Ref:NC_021846.1);海豚链球菌
(Streptococcus iniae)(NCBI Ref:NC_021314.1);波罗的海贝尔氏菌(Belliella 
baltica)(NCBI Ref:NC_018010.1);Psychroflexus torquisI(NCBI Ref:NC_018721.1);
嗜热链球菌(Streptococcus thermophilus)(NCBI Ref:YP_820832.1);无害李斯特氏菌
(Listeria innocua)(NCBI Ref:NP_472073.1);空肠弯曲杆菌(Campylobacter jejuni)
(NCBI Ref:YP_002344900.1);或脑膜炎奈瑟氏球菌(Neisseria.meningitides)(NCBI 
Ref:YP_002342100.1)。
[0259] 应当理解,另外的Cas9蛋白(例如,核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9),包括其变体和同源物,都在本公开的范围内。示例性Cas9蛋白包括但
不限于下文提供的那些。在一些实施方案中,Cas9蛋白是核酸酶死亡Cas9(dCas9)。在一些
实施方案中,dCas9包含氨基酸序列(SEQ ID NO:34)。在一些实施方案中,Cas9蛋白是Cas9
切口酶(nCas9)。在一些实施方案中,nCas9包含氨基酸序列(SEQ ID NO:35)。在一些实施方
案中,Cas9蛋白是核酸酶活性Cas9。在一些实施方案中,核酸酶活性Cas9包含氨基酸序列
(SEQ ID NO:36)。
[0260] 示例性的催化无活性的Cas9(dCas9):
[0261]
[0262]
[0263] 示例性的Cas9切口酶(nCas9):
[0264]
[0265] 示例性的催化活性Cas9:
[0266]
[0267]
[0268] 在一些实施方案中,Cas9是指来自构成单细胞原核微生物的域和界的古生菌(arehaea)(例如纳古生菌(nanoarchaea))的Cas9。在一些实施方案中,Cas9是指CasX或
CasY,其已经描述于例如Burstein et al.,“New CRISPR-Cas systems from 
uncultivated microbes.”Cell Res.2017 Feb 21.doi:10.1038/cr.2017.21,其全部内容
通过引用并入本文。使用基因组分辨的宏基因组学,鉴定了许多CRISPR-Cas系统,包括在生
命的古生菌域中首次报道的Cas9。这种趋异的Cas9蛋白在研究很少的纳古生菌中作为活性
CRISPR-Cas系统的一部分发现。在细菌中,发现了两个以前未知的系统,CRISPR-CasX和
CRISPR-CasY,它们是迄今发现的最紧凑的系统之一。在一些实施方案中,Cas9是指CasX或
CasX的变体。在一些实施方案中,Cas9是指CasY或CasY的变体。应当理解,其他RNA引导的
DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且在本公开的范围内。
[0269] 在一些实施方案中,本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasX蛋白。在一些实施
方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp包含与天然存在的CasX或CasY
蛋白至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,
napDNAbp是天然存在的CasX或CasY蛋白。在一些实施方案中,napDNAbp包含与SEQ ID NO:
417-419中的任一个至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少
95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实
施方案中,napDNAbp包含SEQ ID NO:417-419中的任一个的氨基酸序列。应当理解,根据本
公开也可以使用来自其他细菌物种的CasX和CasY。
[0270] CasX(uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)
[0271] >tr|F0NN87|F0NN87_SULIH CRISPR-相关的Casx蛋白质OS=岛硫化叶菌(Sulfolobus islandicus)(菌株HVE10/4)GN=SiH_0402 PE=4 SV=1
[0272]
[0273]
[0274] >tr|F0NH53|F0NH53_SULIR CRISPR相关的蛋白质,Casx OS=冰岛硫化叶菌(Sulfolobus islandicus)(菌株REY15A)GN=SiRe_0771 PE=4 SV=1
[0275]
[0276] CasY(ncbi.nlm.nih.gov/protein/APG80656.1)
[0277] >APG80656.1CRISPR-相关的蛋白质CasY[未培养的Parcubacteria组细菌]
[0278]
[0279] 如本文所用,术语“有效量”是指足以引起期望的生物学反应的生物活性剂的量。例如,在一些实施方案中,核碱基编辑器的有效量可以指足以诱导由核碱基编辑器突变的
特异性结合的靶位点的突变的核碱基编辑器的量。在一些实施方案中,本文提供的融合蛋
白,例如包含核酸可编程DNA结合蛋白和脱氨酶域(例如腺苷脱氨酶域)的融合蛋白的有效
量可以指足以诱导融合蛋白特异性结合和编辑的靶位点的编辑的融合蛋白的量。如熟练技
术人员将理解的,试剂,例如融合蛋白、核碱基编辑器、脱氨酶、杂合蛋白、蛋白质二聚体、蛋白质(或蛋白质二聚体)和多核苷酸的复合物,或多核苷酸的有效量可以随各种因素而变
化,诸如例如随期望的生物学反应,例如随待编辑的特定等位基因、基因组或靶位点,随靶
定的细胞或组织和使用的试剂而变化。
[0280] 如本文所用,术语“核酸”和“核酸分子”是指包含核碱基和酸性部分(例如核苷、核苷酸或核苷酸的聚合物)的化合物。通常,聚合核酸,例如包含三个或更多个核苷酸的核酸
分子是线性分子,其中相邻的核苷酸经由磷酸二酯连接彼此连接。在一些实施方案中,“核
酸”是指个别的核酸残基(例如核苷酸和/或核苷)。在一些实施方案中,“核酸”是指包含三
个或更多个个别核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可
以可互换地使用以指核苷酸的聚合物(例如,至少三个核苷酸的串)。在一些实施方案中,
“核酸”涵盖RNA以及单链和/或双链DNA。核酸可以是天然存在的,例如在基因组、转录物、
mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然存在的核酸分子的背景下。另一方面,核酸分子可以是非天然存在的分子,例如重组DNA或RNA、人工染色体、
工程化的基因组或其片段,或合成DNA、RNA、DNA/RNA杂交体,或包括非天然存在的核苷酸或
核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物,例如具有除磷酸二酯主链之外的类似物。核酸可以从天然来源纯化,使用重组表达系统产生并任选地纯化、化
学合成等。在适当的情况下,例如在化学合成分子的情况下,核酸可以包含核苷类似物,例
如具有化学修饰的碱基或糖、和主链修饰的类似物。除非另有说明,核酸序列以5′至3′方向
呈现。在一些实施方案中,核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);核苷类似物(例如2-氨基腺苷、2-硫代胸苷、肌苷、
吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧
代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤和2-硫代胞苷);化学修饰的碱基;生物修饰的碱基
(例如甲基化碱基);插入的碱基;修饰的糖(例如2′-氟核糖、核糖、2′-脱氧核糖、阿拉伯糖和己糖);和/或修饰的磷酸基团(例如硫代磷酸酯和5′-N-亚磷酰胺连接)。
[0281] 如本文所用,术语“增殖性疾病”是指其中细胞或组织稳态受到干扰,使得细胞或细胞群表现出异常升高的增殖速率的任何疾病。增殖性疾病包括过度增殖性疾病,如肿瘤
前期增生性状况和肿瘤性疾病。新生性疾病的特征是细胞的异常增殖,并包括良性和恶性
新生物两者。恶性新生物也称为癌症。
[0282] 术语“蛋白质”、“肽”和“多肽”在本文中可互换使用,并且是指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。该术语是指具有任何大小、结构或功能的蛋白质、肽或多肽。通常,蛋白质、肽或多肽将是至少三个氨基酸长。蛋白质、肽或多肽可以指个别的蛋白质
或蛋白质的集合。蛋白质、肽或多肽中的一个或多个氨基酸可以被修饰,例如通过添加化学
实体如水化合物基团、羟基、磷酸基团、法呢基、异法呢基、脂肪酸基团,用于缀合、官能化或其他修饰的接头等。蛋白质、肽或多肽也可以是单个分子或者可以是多分子复合物。蛋白
质、肽或多肽可以仅仅是天然存在的蛋白质或肽的片段。蛋白质、肽或多肽可以是天然存在
的、重组的或合成的,或其任何组合。如本文所用的术语“融合蛋白”是指包含来自至少两种
不同蛋白质的蛋白质域的杂合多肽。一种蛋白质可以位于融合蛋白的氨基端(N端)部分或
羧基端(C端)蛋白质,从而分别形成“氨基端融合蛋白”或“羧基端融合蛋白”。蛋白质可以包含不同的域,例如核酸结合域(例如指导蛋白质与靶位点结合的Cas9的gRNA结合域)和核酸
编辑蛋白的核酸切割域或催化域。在一些实施方案中,蛋白质包含蛋白质性部分,例如构成
核酸结合域的氨基酸序列,和有机化合物,例如可以起核酸切割试剂作用的化合物。在一些
实施方案中,蛋白质与核酸例如RNA复合或缔合。本文提供的任何蛋白质可以通过本领域已
知的任何方法产生。例如,本文提供的蛋白质可以经由重组蛋白质表达和纯化产生,其特别
适用于包含肽接头的融合蛋白。用于重组蛋白质表达和纯化的方法是熟知的,并且包括
Green and Sambrook,Molecular Cloning:A Laboratory Manual(第4版,Cold Spring 
Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2012))描述的那些,其全部内容通
过引用并入本文。
[0283] 术语“RNA可编程核酸酶”和“RNA引导的核酸酶”在本文中可互换使用,并且是指与一个或多个不是切割靶标的RNA形成复合物(例如,结合或缔合)的核酸酶。在一些实施方案
中,当与RNA形成复合物时,RNA可编程核酸酶可以称为核酸酶:RNA复合物。通常,结合的RNA
称为引导RNA(gRNA)。gRNA可以作为两个或更多个RNA的复合物或者作为单个RNA分子存在。
作为单个RNA分子存在的gRNA可以称为单引导RNA(sgRNA),尽管“gRNA”可互换使用以指作
为单个分子或作为两个或更多个分子的复合物存在的引导RNA。通常,作为单一RNA种类存
在的gRNA包含两个域:(1)与靶核酸共享同源性(例如,并指导Cas9复合物与靶物的结合)的
域;和(2)结合Cas9蛋白的域。在一些实施方案中,域(2)对应已知为tracrRNA的序列,并且
包含茎-环结构。例如,在一些实施方案中,域(2)与Jinek et al.,Science 337:816-821
(2012)中提供的tracrRNA相同或同源,其全部内容通过引用并入本文。gRNA的其他实例(例
如包括域2的那些)可以在2013年9月6日提交的题为“Switchable Cas9Nucleases and 
Uses Thereof”的美国临时专利申请U.S.S.N.61/874,682和2013年9月6号提交的题为
“Delivery System For Functional Nucleases”的美国临时专利申请U.S.S.N.61/874,
746中找到,每篇的全部内容通过引用以其整体并入本文。在一些实施方案中,gRNA包含域
(1)和(2)中的两个或更多个,并且可以称为“延伸的gRNA”。例如,延伸的gRNA将例如结合两
个或更多个Cas9蛋白并在两个或更多个不同区域处结合靶核酸,如本文所述。gRNA包含互
补靶位点的核苷酸序列,其介导核酸酶/RNA复合物与所述靶位点的结合,提供了核酸酶:
RNA复合物的序列特异性。在一些实施方案中,RNA可编程核酸酶是(CRISPR相关系统)
(CRISPR-associated system)Cas9内切核酸酶,例如来自酿脓链球菌的Cas9(Csn1)(参见
例如“Complete genome sequence of an M1 strain of Streptococcus pyogenes.”
Ferretti J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar 
F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by 
trans-encoded small RNA and host factor RNase III.”Deltcheva E.,Chylinski K.,
Sharma C.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature471:602-607(2011);和“A programmable dual-RNA-guided DNA endonuclease 
in adaptive bacterial immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,
Doudna J.A.,Charpentier E.Science 337:816-821(2012),每篇的全部内容通过引用并
入本文。
[0284] 因为RNA可编程核酸酶(例如Cas9)使用RNA:DNA杂交来靶向DNA切割位点,所以这些蛋白质原则上能够被靶向到由引导RNA规定的任何序列。使用RNA可编程核酸酶例如Cas9
进行位点特异性切割(例如,以修饰基因组)的方法是本领域已知的(参见例如Cong,L.et 
al.,Multiplex genome engineering using CRISPR/Cas systems.Science 339,819-823
(2013);Mali,P.et al.,RNA-guided human genome engineering via Cas9.Science 
339,823-826(2013);Hwang,W.Y.et al.,Efficient genome editing in zebrafish 
using a CRISPR-Cas system.Nature biotechnology 31,227-229(2013);Jinek,M.et 
al.,RNA-programmed genome editing in human cells.eLife 2,e00471(2013);
Dicarlo,J.E.et al.,Genome engineering in Saccharomyces cerevisiae using 
CRISPR-Cas systems.Nucleic acids research(2013);Jiang,W.et al.RNA-guided 
editing of bacterial genomes using CRISPR-Cas systems.Nature biotechnology 
31,233-239(2013);每篇的全部内容通过引用并入本文)。
[0285] 如本文所用,术语“受试者”是指个体生物体,例如个体哺乳动物。在一些实施方案中,受试者是人。在一些实施方案中,受试者是非人哺乳动物。在一些实施方案中,受试者是
非人灵长类动物。在一些实施方案中,受试者是啮齿动物。在一些实施方案中,受试者是绵
羊、山羊、、猫或狗。在一些实施方案中,受试者是脊椎动物、两栖动物、爬行动物、鱼、昆虫、苍蝇或线虫。在一些实施方案中,受试者是研究动物。在一些实施方案中,受试者是经遗
传工程化的,例如基因遗传化的非人受试者。受试者可以是任何一个性别和处于任何发展
阶段的。
[0286] 术语“靶位点”是指由脱氨酶或包含脱氨酶的融合蛋白(例如本文提供的dCas9-腺苷脱氨酶融合蛋白)脱氨基的核酸分子内的序列。
[0287] 术语“治疗/处理”是指如本文所述旨在逆转、缓解疾病或病症或其一种或多种症状、延迟疾病或病症或其一种或多种症状的发作或抑制疾病或病症或其一种或多种症状进
展的临床干预。如本文所用,术语“治疗/处理”是指如本文所述旨在逆转、缓解疾病或病症
或其一种或多种症状、延迟疾病或病症或其一种或多种症状的发作或抑制疾病或病症或其
一种或多种症状进展的临床干预。在一些实施方案中,可以在一种或多种症状已经得以形
成之后和/或疾病已经得到诊断之后施用治疗。在其他实施方案中,可以在没有症状的情况
下施用治疗,例如用于预防或延迟症状的发作或抑制疾病的发作或进展。例如,可以在症状
发作之前(例如,鉴于症状的历史和/或鉴于遗传或其他易感性因素)施用治疗于易感个体。
治疗也可以在症状消退后继续进行,例如以预防或延迟其复发。
[0288] 如本文中在蛋白质或核酸的背景中使用,术语“重组”是指自然界中不存在,但是作为人工程化的产物的蛋白质或核酸。例如,在一些实施方案中,重组蛋白质或核酸分子包
含氨基酸或核苷酸序列,其相比于任何天然存在的序列包含至少一个、至少两个、至少三
个、至少四个、至少五个、至少六个或至少七个突变。
[0289] 发明详述
[0290] 本公开的一些方面涉及使核碱基腺嘌呤脱氨基的蛋白质。本公开提供了腺苷脱氨酶蛋白,其能够使脱氧核糖核酸(DNA)中的脱氧腺苷残基的腺嘌呤脱氨基(即去除胺基)。例
如,本文提供的腺苷脱氨酶能使DNA的脱氧腺苷残基的腺嘌呤脱氨基。应当理解,在本发明
之前,没有已知的能够使DNA中的脱氧腺苷脱氨基的腺苷脱氨酶。本公开的其他方面提供了
融合蛋白,其包含腺苷脱氨酶(例如,如本文所述的使DNA中的脱氧腺苷脱氨基的腺苷脱氨
酶)和能够结合特定核苷酸序列的域(例如,Cas9或Cpf1蛋白)。腺苷脱氨酶对腺苷的脱氨基
作用可以导致点突变,该过程在本文中称为核酸编辑。例如,腺嘌呤可以转化为通常与胞嘧
啶碱基配对的肌苷残基。此类融合蛋白尤其可用于核酸序列的靶向编辑。此类融合蛋白可
以用于体外靶向编辑DNA,例如,用于产生突变体细胞或动物;用于引入靶向突变,例如,用
于校正离体细胞中的遗传缺陷,例如,在自受试者获得的细胞中,随后将所述细胞重新引入
相同或另一个受试者中;以及,用于在体内引入靶向突变,例如,校正遗传缺陷或者在受试
者中引入疾病相关基因的失活突变。作为实例,可以使用本文提供的核碱基编辑器使可以
通过产生A至G或T至C突变来治疗的疾病得到治疗。本发明提供了利用脱氨酶和核碱基编辑
器的脱氨酶、融合蛋白、核酸、载体、细胞、组合物、方法、试剂盒、系统等。
[0291] 在一些实施方案中,本文提供的核碱基编辑器可以通过将一个或多个蛋白质域融合在一起,从而产生融合蛋白而制备。在某些实施方案中,本文提供的融合蛋白包含一个或
多个改善融合蛋白的碱基编辑活性(例如,效率、选择性和特异性)的特征。例如,本文提供
的融合蛋白可以包含具有降低的核酸酶活性的Cas9域。在一些实施方案中,本文提供的融
合蛋白可以具有不具有核酸酶活性的Cas9域(dCas9),或切割双链DNA分子的一条链的Cas9
域,称为Cas9切口酶(nCas9)。不希望受任何特定理论的束缚,催化残基(例如H840)的存在
维持Cas9切割含有与靶定的A相对的T的非编辑(例如,非脱氨基)链的活性。Cas9的催化残
基的突变(例如,D10至A10)阻止含有靶定的A残基的编辑链的切割。此类Cas9变体能够基于
gRNA定义的靶序列在特定位置处产生单链DNA断裂(切口),导致非编辑链的修复,最终导致
非编辑链上的T至C的变化。在一些实施方案中,本文提供的任何融合蛋白进一步包含肌苷
碱基切除修复的抑制剂,例如尿嘧啶糖基化酶抑制剂(UGI)域或催化无活性的肌苷特异性
核酸酶(dISN)。不希望受任何特定理论的束缚,UGI域或dISN可以抑制或阻止脱氨基的腺苷
残基(例如肌苷)的碱基切除修复,这可以改善碱基编辑器的活性或效率。
[0292] 腺苷脱氨酶
[0293] 本公开的一些方面提供腺苷脱氨酶。在一些实施方案中,本文提供的腺苷脱氨酶能够使腺嘌呤脱氨基。在一些实施方案中,本文提供的腺苷脱氨酶能够使DNA的脱氧腺苷残
基中的腺嘌呤脱氨基。腺苷脱氨酶可以衍生自任何合适的生物体(例如,大肠杆菌)。在一些
实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括对应于本文提供的任何突变
(例如,ecTadA中的突变)的一个或多个突变。本领域技术人员将能够通过本领域熟知的方
法鉴定任何同源蛋白质中和相应编码核酸中的相应的残基,例如通过序列比对和同源残基
的测定。因此,本领域技术人员能够在任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同
源性)中产生对应于本文所述的任何突变(例如ecTadA中鉴定的任何突变)的突变。在一些
实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些
实施方案中,腺苷脱氨酶来自大肠杆菌(Escherichia  coli)、金黄色葡萄球菌
(Staphylococcus aureus)、鼠伤寒沙门氏菌(Salmonella typhi)、腐败希瓦氏菌
(Shewanella putrefaciens)、流感嗜血杆菌(Haemophilus influenzae)、新月柄杆菌
(Caulobacter crescentus)或枯草芽孢杆菌(Bacillus subtilis)。在一些实施方案中,腺
苷脱氨酶来自大肠杆菌。
[0294] 原核TadA蛋白的示例性比对显示在图92中。以蓝色突出显示的残基是可能对于催化ssDNA上的A至I脱氨基作用重要的残基。因此,应当理解,本文提供的ecTadA中鉴定的任
何突变可以在另一种腺嘌呤脱氨酶(例如来自另一种细菌的TadA脱氨酶)中的任何同源残
基中产生。图93显示了相对序列同一性分析(序列同一性的热图):
[0295] 在一些实施方案中,腺苷脱氨酶包含与SEQ ID NO:1、64-84、420-437、672-684的任一个所示的任一个氨基酸序列或与本文提供的任何腺苷脱氨酶至少60%、至少65%、至
少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少
98%、至少99%或至少99.5%相同的氨基酸序列。应当理解,本文提供的腺苷脱氨酶可以包
括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性加上
本文所述的任何突变或其组合的任何脱氨酶域。在一些实施方案中,腺苷脱氨酶包含与SEQ 
ID NO:1、64-84、420-437、672-684中所示的任一个氨基酸序列或本文提供的任何腺苷脱氨
酶相比,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、
26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变的氨基酸序列。在一些实施方案中,腺苷脱氨酶包含与SEQ ID NO:1、64-84、
420-437、672-684中所示的任一个氨基酸序列或本文提供的任何腺苷脱氨酶相比,具有至
少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个、至少170个相同的连续氨基酸残基。
[0296] 演化#1和#2突变
[0297] 在一些实施方案中,腺苷脱氨酶包含在ecTadA SEQ ID NO:1中的D108X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的
任何氨基酸。在一些实施方案中,腺苷脱氨酶包含在SEQ ID NO:1中的D108G、D108N、D108V、D108A或D108Y突变,或另一种腺苷脱氨酶中的相应的突变。脱氨酶的示例性比对显示在图
92中。然而,应当理解,可以类似地比对另外的脱氨酶以鉴定可以突变的同源氨基酸残基,
如本文提供。
[0298] 在一些实施方案中,腺苷脱氨酶包含在ecTadA SEQ ID NO:1中的A106X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的
任何氨基酸。在一些实施方案中,腺苷脱氨酶包含在SEQ ID NO:1中的A106V突变,或另一种
腺苷脱氨酶中的相应的突变。
[0299] 在一些实施方案中,腺苷脱氨酶包含在SEQ ID NO:1中的E155X突变,或另一种腺苷脱氨酶中的相应的突变,其中X的存在表示除野生型腺苷脱氨酶中相应的氨基酸之外的
任何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的E155D、E155G或E155V突
变,或另一种腺苷脱氨酶中的相应的突变。
[0300] 在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的D147X突变,或另一种腺苷脱氨酶中的相应的突变,其中X的存在表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的D147Y突变,或另一种腺苷
脱氨酶中的相应的突变。
[0301] 应当理解,本文提供的任何突变(例如,基于SEQ ID NO:1的ecTadA氨基酸序列)可以引入到其他腺苷脱氨酶中,例如金黄色葡萄球菌TadA(saTadA)或其他腺苷脱氨酶(例如,
细菌腺苷脱氨酶)。对本领域技术人员而言,如何鉴定与ecTadA中的突变残基同源的来自其
他腺苷脱氨酶的氨基酸残基是显而易见的。因此,在ecTadA中鉴定的任何突变可以在具有
同源氨基酸残基的其他腺苷脱氨酶中产生。还应当理解,本文提供的任何突变可以在
ecTadA或另一种腺苷脱氨酶中单独或以任何组合产生。例如,腺苷脱氨酶可以含有ecTadA 
SEQ ID NO:1中的D108N、A106V、E155V和/或D147Y突变,或另一种腺苷脱氨酶中的相应的突
变。在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中以下突变的组(突变的组由
“;”分隔),或另一种腺苷脱氨酶中的相应的突变:D108N和A106V;D108N和E155V;D108N和
D147Y;A106V和E155V;A106V和D147Y;E155V和D147Y;D108N、A106V和E55V;D108N、A106V和D147Y;D108N、E55V和D147Y;A106V、E55V和D147Y;和D108N、A106V、E55V和D147Y。然而,应当理解,本文提供的相应的突变的任何组合可以在腺苷脱氨酶(例如,ecTadA)中产生。在一些
实施方案中,腺苷脱氨酶包含表4中所示的一个或多个突变,其鉴定了在ecTadA和saTadA中
产生的个别突变和突变的组合。在一些实施方案中,腺苷脱氨酶包含表4中所示的突变或突
变的组合。
[0302] 在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X和/或K157X突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变,其中X的存在表示除野生型腺苷脱氨酶中
相应的氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的
H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E或A56S、E59G、E85K或E85G、M94L、I95I、V102A、F104L、A106V、R107C、或R107H、或R107P、D108G、或D108N、或D108V、或D108A、或D108Y、
K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D和/或K157R突变中的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变。在一些实施方案中,腺苷脱氨酶包
含对应SEQ ID NO:1的图11中提供的一个或多个突变,或另一种腺苷脱氨酶中的一个或多
个相应的突变。在一些实施方案中,腺苷脱氨酶包含图11中所示的构建体1-16的任一个,或
对应于SEQ ID NO:1的表4中所示的构建体的任一个中的一个突变或多个突变,或另一种腺
苷脱氨酶中相应的一个突变或多个突变。
[0303] 在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H8X、D108X和/或N127X突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变,其中X表示存在任何氨基
酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H8Y、D108N和/或N127S突变的一
个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变。
[0304] 在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X和/或T166X突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变,其中X表示除野生型腺
苷脱氨酶中相应的氨基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含
SEQ ID NO:1中的H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H和/或T166P突变的一个或多个,或另一
种腺苷脱氨酶中的一个或多个相应的突变。
[0305] 在一些实施方案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个、五个或六个突变:SEQ ID NO:1中的H8X、D108X、N127X、D147X、R152X和Q154X,或另一种腺苷脱氨酶中相应的一个突变或多个突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任何
氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个、五
个、六个、七个或八个突变:SEQ ID NO:1中的H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X,或另一种腺苷脱氨酶中的相应一个突变或多个突变,其中X表示除野生型腺苷脱氨
酶中相应的氨基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自下
组的一个、两个、三个、四个或五个突变:SEQ ID NO:1中的H8X、D108X、N127X、E155X和
T166X,或另一种腺苷脱氨酶中相应的一个突变或多个突变,其中X表示除野生型腺苷脱氨
酶中相应的氨基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自下
组的一个、两个、三个、四个、五个或六个突变:SEQ ID NO:1中的H8X、A106X、D108X、N127X、E155X和K161X,或另一种腺苷脱氨酶中相应的一个突变或多个突变,其中X表示除野生型腺
苷脱氨酶中相应的氨基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含
选自下组的一个、两个、三个、四个、五个、六个、七个或八个突变:SEQ ID NO:1中的H8X、R126X、L68X、D108X、N127X、D147X和E155X,或另一种腺苷脱氨酶中相应的一个突变或多个
突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任何氨基酸的存在。在一些实
施方案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个或五个突变:SEQ ID NO:1中
的H8X、D108X、A109X、N127X和E155X,或另一种腺苷脱氨酶中相应的一个突变或多个突变,
其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任何氨基酸的存在。
[0306] 在一些实施方案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个、五个或六个突变:SEQ ID NO:1中的H8Y、D108N、N127S、D147Y、R152C和Q154H,或另一种腺苷脱氨酶中相应的一个突变或多个突变。在一些实施方案中,腺苷脱氨酶包含选自下组的一个、两个、
三个、四个、五个、六个、七个或八个突变:SEQ ID NO:1中的H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H,或另一种腺苷脱氨酶中相应的一个突变或多个突变。在一些实施方
案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个或五个突变:SEQ ID NO:1中的
H8Y、D108N、N127S、E155V和T166P,或另一种腺苷脱氨酶中相应的一个突变或多个突变。在
一些实施方案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个、五个或六个突变:SEQ ID NO:1中的H8Y、A106T、D108N、N127S、E155D和K161Q,或另一种腺苷脱氨酶中相应的一个
突变或多个突变。在一些实施方案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个、
五个、六个、七个或八个突变:SEQ ID NO:1中的H8Y、R126W、L68Q、D108N、N127S、D147Y和E155V,或另一种腺苷脱氨酶中相应的一个突变或多个突变。在一些实施方案中,腺苷脱氨
酶包含选自下组的一个、两个、三个、四个或五个突变:SEQ ID NO:1中的H8Y、D108N、A109T、N127S和E155G,或另一种腺苷脱氨酶中相应的一个突变或多个突变。
[0307] 在一些实施方案中,腺苷脱氨酶包含对应SEQ ID NO:1的图16中提供的一个或多个突变,或另一种腺苷脱氨酶中的一个或多个相应的突变。在一些实施方案中,腺苷脱氨酶
包含对应SEQ ID NO:1的图16的构建体pNMG-149至pNMG-154的任一个的突变,或另一种腺
苷脱氨酶中的相应的突变。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的D108N、
D108G或D108V突变,或另一种腺苷脱氨酶中的相应的突变。在一些实施方案中,腺苷脱氨酶
包含SEQ ID NO:1中的A106V和D108N突变,或另一种腺苷脱氨酶中的相应的突变。在一些实
施方案中,腺苷脱氨酶包含SEQ ID NO:1中的R107C和D108N突变,或另一种腺苷脱氨酶中的
相应的突变。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H8Y、D108N、N127S、
D147Y和Q154H突变,或另一种腺苷脱氨酶中的相应的突变。在一些实施方案中,腺苷脱氨酶
包含SEQ ID NO:1中的H8Y、R24W、D108N、N127S、D147Y和E155V突变,或另一种腺苷脱氨酶中的相应的突变。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的D108N、D147Y和E155V
突变,或另一种腺苷脱氨酶中的相应的突变。在一些实施方案中,腺苷脱氨酶包含SEQ ID 
NO:1中的H8Y、D108N和S127S突变,或另一种腺苷脱氨酶中的相应的突变。在一些实施方案
中,腺苷脱氨酶包含SEQ ID NO:1中的A106V、D108N、D147Y和E155V突变,或另一种腺苷脱氨
酶中的相应的突变。
[0308] 在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个
相应的突变,其中X的存在表示除野生型腺苷脱氨酶中相应的氨基酸之外的任何氨基酸。在
一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的S2A、H8Y、I49F、L84F、H123Y、N127S、
I156F和/或K160S突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变。在
一些实施方案中,腺苷脱氨酶包含对应于SEQ ID NO:1的图97中提供的一个或多个突变,或
另一种腺苷脱氨酶中的一个或多个相应的突变。在一些实施方案中,腺苷脱氨酶包含对应
于SEQ ID NO:1的图97中所示的克隆1-3中的任一个的一个突变或多个突变,或另一种腺苷
脱氨酶中相应的一个突变或多个突变。
[0309] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的L84X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的L84F突变,或另一种腺苷
脱氨酶中的相应的突变。
[0310] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的H123X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H123Y突变,或另一种腺苷
脱氨酶中的相应的突变。
[0311] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的I157X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的I157F突变,或另一种腺苷
脱氨酶中的相应的突变。
[0312] 在一些实施方案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个、五个、六个或七个突变:SEQ ID NO:1中的L84X、A106X、D108X、H123X、D147X、E155X和I156X,或另一种腺苷脱氨酶中相应的一个突变或多个突变,其中X表示除野生型腺苷脱氨酶中相应的氨
基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自下组的一个、两
个、三个、四个、五个或六个突变:SEQ ID NO:1中的S2X、I49X、A106X、D108X、D147X和E155X,或另一种腺苷脱氨酶中相应的一个突变或多个突变,其中X表示除野生型腺苷脱氨酶中相
应的氨基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自下组的一
个、两个、三个、四个或五个突变:SEQ ID NO:1中的H8X、A106X、D108X、N127X和K160X,或另一种腺苷脱氨酶中相应的一个突变或多个突变,其中X表示除野生型腺苷脱氨酶中相应的
氨基酸之外的任何氨基酸的存在。
[0313] 在一些实施方案中,腺苷脱氨酶包含选自下组的一个、两个、三个、四个、五个、六个或七个突变:SEQ ID NO:1中的L84F、A106V、D108N、H123Y、D147Y、E155V和I156F,或另一种腺苷脱氨酶中相应的一个突变或多个突变。在一些实施方案中,腺苷脱氨酶包含选自下
组的一个、两个、三个、四个、五个或六个突变:SEQ ID NO:1中的S2A、I49F、A106V、D108N、D147Y和E155V,或另一种腺苷脱氨酶中相应的一个突变或多个突变。在一些实施方案中,腺
苷脱氨酶包含选自下组的一个、两个、三个、四个或五个突变:SEQ ID NO:1中的H8Y、A106T、D108N、N127S和K160S,或另一种腺苷脱氨酶中相应的一个突变或多个突变。
[0314] 在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的E25X、R26X、R107X、A142X和/或A143X突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变,其中X的
存在表示除野生型腺苷脱氨酶中相应的氨基酸之外的任何氨基酸。在一些实施方案中,腺
苷脱氨酶包含SEQ ID NO:1中的E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R07K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变。在一些实施方案中,腺苷脱氨酶包含对应
于SEQ ID NO:1的表7中提供的一个或多个突变,或另一种腺苷脱氨酶中的一个或多个相应
的突变。在一些实施方案中,腺苷脱氨酶包含对应于SEQ ID NO:1的表7中所示的克隆1-22
的任一个的一个突变或多个突变,或另一种腺苷脱氨酶中相应的一个突变或多个突变。
[0315] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的E25X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的E25M、E25D、E25A、E25R、
E25V、E25S或E25Y突变,或另一种腺苷脱氨酶中的相应的突变。
[0316] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的R26X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的R26G、R26N、R26Q、R26C、
R26L或R26K突变,或另一种腺苷脱氨酶中的相应的突变。
[0317] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的R107X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的R107P、R07K、R107A、
R107N、R107W、R107H或R107S突变,或另一种腺苷脱氨酶中的相应的突变。
[0318] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的A142X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的A142N、A142D、A142G突变,或另一种腺苷脱氨酶中的相应的突变。
[0319] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的A143X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的A143D、A143G、A143E、
A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一种腺苷脱氨酶中的相应的突变。
[0320] 在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X和/或K161X突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变,其中X的存在表示除野生型腺苷脱氨酶中相应
的氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H36L、
N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N和/或K161T突变的一个或多个,或另一种腺苷脱氨酶中的一个或多个相应的突变。在
一些实施方案中,腺苷脱氨酶包含对应于SEQ ID NO:1的图125-128的任一个中提供的一个
或多个突变,或另一种腺苷脱氨酶中的一个或多个相应的突变。在一些实施方案中,腺苷脱
氨酶包含对应于SEQ ID NO:1的图125-128的任一个中所示的克隆1-11的任一个的一个突
变或多个突变,或另一种腺苷脱氨酶中相应的一个突变或多个突变。
[0321] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的H36X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的H36L突变,或另一种腺苷
脱氨酶中的相应的突变。
[0322] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的N37X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的N37T或N37S突变,或另一
种腺苷脱氨酶中的相应的突变。
[0323] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的P48X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的P48T或P48L突变,或另一
种腺苷脱氨酶中的相应的突变。
[0324] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的R51X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的R51H或R51L突变,或另一
种腺苷脱氨酶中的相应的突变。
[0325] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的S146X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示野生型腺苷脱氨酶中除相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的S146R或S146C突变,或另
一种腺苷脱氨酶中的相应的突变。
[0326] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的K157X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的K157N突变,或另一种腺苷
脱氨酶中的相应的突变。
[0327] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的P48X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的P48S、P48T或P48A突变,或
另一种腺苷脱氨酶中的相应的突变。
[0328] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的A142X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的A142N突变,或另一种腺苷
脱氨酶中的相应的突变。
[0329] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的W23X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的W23R或W23L突变,或另一
种腺苷脱氨酶中的相应的突变。
[0330] 在一些实施方案中,腺苷脱氨酶包含ecTadA SEQ ID NO:1中的R152X突变,或另一种腺苷脱氨酶中的相应的突变,其中X表示除野生型腺苷脱氨酶中相应的氨基酸之外的任
何氨基酸。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1中的R152P或R52H突变,或另一
种腺苷脱氨酶中的相应的突变。
[0331] 应当理解,腺苷脱氨酶(例如,第一或第二腺苷脱氨酶)可以包含表4中所示的任何腺苷脱氨酶(例如,ecTadA腺苷脱氨酶)中提供的一种或多种突变。在一些实施方案中,腺苷
脱氨酶包含表4中所示的任何腺苷脱氨酶(例如,ecTadA腺苷脱氨酶)的突变的组合。例如,
腺苷脱氨酶可以包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、
I156F和K157N,其显示于克隆pNMG-477的第二ecTadA(相对于SEQ ID NO:1)中。在一些实施
方案中,腺苷脱氨酶包含以下相对于SEQ ID NO:1的突变的组合,其中组合的每个突变由
“_”分开,并且突变的每个组合在括号之间:
[0332]
[0333]
[0334]
[0335]
[0336]
[0337] 在一些实施方案中,腺苷脱氨酶包含与SEQ ID NO:1、64-84、420-437、672-684的任一个,或本文提供的任何腺苷脱氨酶至少60%、65%、70%、75%、80%、85%、90%、95、
98%、99%或99.5%相同的氨基酸序列。在一些实施方案中,腺苷脱氨酶包含与SEQ ID NO:
1、64-84、420-437、672-684中所示的任一个氨基酸序列,或本文提供的任何腺苷脱氨酶相
比,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、
27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变的氨基酸序列。在一些实施方案中,腺苷脱氨酶包含与SEQ ID NO:1、64-84、420-
437、672-684中所示的任一个氨基酸序列,或本文提供的任何腺苷脱氨酶相比,具有至少5
个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少
130个、至少140个、至少150个、至少160个或至少166个相同的连续氨基酸残基的氨基酸序
列。在一些实施方案中,腺苷脱氨酶包含SEQ ID NO:1、64-84、420-437、672-684的任一个,或本文提供的任何腺苷脱氨酶的氨基酸序列。在一些实施方案中,腺苷脱氨酶由SEQ ID 
NO:1、64-84、420-437、672-684的任一个,或本文提供的任何腺苷脱氨酶的氨基酸序列组
成。下面提供的ecTadA序列来自ecTadA(SEQ ID NO:1),不存在N端甲硫氨酸(M)。下面提供
的saTadA序列来自saTadA(SEQ ID NO:8),不存在N端甲硫氨酸(M)。为清楚起见,用于鉴定
各种氨基酸突变的氨基酸编号方案衍生自针对大肠杆菌TadA的ecTadA(SEQ ID NO:1)和针
对金黄色葡萄球菌TadA的saTadA(SEQ ID NO:8)。相对于SEQ ID NO:1(ecTadA)或SEQ ID 
NO:8(saTadA)的氨基酸突变用下划线表示。
[0338] ecTadA
[0339]
[0340] ecTadA(D108N)
[0341]
[0342] ecTadA(D108G)
[0343]
[0344] ecTadA(D108V)
[0345]
[0346] ecTadA(H8Y、D108N和N127S)
[0347]
[0348] ecTadA(H8Y、D108N、N127S和E155D)
[0349]
[0350] ecTadA(H8Y、D108N、N127S和E155G)
[0351]
[0352] ecTadA(H8Y、D108N、N127S和E155V)
[0353]
[0354] ecTadA(A106V、D108N、D147Y和E155V)
[0355]
[0356]
[0357] ecTadA(L84F、A106V、D108N、H123Y、D147Y、E155V、I156F)-演化#3的结果
[0358]
[0359] ecTadA(S2A、I49F、A106V、D108N、D147Y、E155V)-演化#3的结果
[0360]
[0361] ecTadA(H8Y、A106T、D108N、N127S、K160S)-演化#3的结果
[0362]
[0363] ecTadA(R26G、L84F、A106V、R107H、D108N、H123Y、A142N、A143D、D147Y、E155V、I156F)-演化#4的结果
[0364]
[0365] ecTadA(E25G、R26G、L84F、A106V、R107H、D108N、H123Y、A142N、A143D、D147Y、E155V、I156F)-演化#4的结果
[0366]
[0367] ecTadA(E25D、R26G、L84F、A106V、R107K、D108N、H123Y、A142N、A143G、D147Y、E155V、I156F)-演化#4的结果
[0368]
[0369] ecTadA(R26Q、L84F、A106V、D108N、H123Y、A142N、D147Y、E155V、I156F)-演化#4的结果
[0370]
[0371] ecTadA(E25M、R26G、L84F、A106V、R107P、D108N、H123Y、A142N、A143D、D147Y、E155V、I156F)-演化#4的结果
[0372]
[0373] ecTadA(R26C、L84F、A106V、R107H、D108N、H123Y、A142N、D147Y、E155V、I156F)-演化#4的结果
[0374]
[0375] ecTadA(L84F、A106V、D108N、H123Y、A142N、A143L、D147Y、E155V、I156F)-演化#4的结果
[0376]
[0377] ecTadA(R26G、L84F、A106V、D108N、H123Y、A142N、D147Y、E155V、I156F)-演化#4的结果
[0378]
[0379] ecTadA(E25A、R26G、L84F、A106V、R107N、D108N、H123Y、A142N、A143E、D147Y、E155V、I156F)-演化#4的结果
[0380]
[0381] ecTadA(L84F、A106V、D108N、H123Y、D147Y、E155V、I156F)-来自演化#1-3的突变
[0382]
[0383] ecTadA(N37T、P48T、L84F、A106V、D108N、H123Y、D147Y、E155V、I156F)-来自演化#5-1的突变
[0384]
[0385] ecTadA(N37S、L84F、A106V、D108N、H123Y、D147Y、E155V、I156F)-来自演化#5-2的突变
[0386]
[0387] ecTadA(H36L、L84F、A106V、D108N、H123Y、D147Y、E155V、I156F)-来自演化#5-3的突变
[0388]
[0389] ecTadA(L84F、A106V、D108N、H123Y、S146R、D147Y、E155V、I156F)-来自演化#5-4的突变
[0390]
[0391] ecTadA(H36L、P48L、L84F、A106V、D108N、H123Y、D147Y、E155V、I156F)-来自演化#5-5的突变
[0392]
[0393]
[0394] ecTadA(H36L、L84F、A106V、D108N、H123Y、D147Y、E155V、K57N、I156F)-来自演化#5-6的突变
[0395]
[0396] ecTadA(H36L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F)-来自演化#5-7的突变
[0397]
[0398] ecTadA(L84F、A106V、D108N、H123Y、S146R、D147Y、E155V、I156F)-来自演化#5-8的突变
[0399]
[0400] ecTadA(N37S、R51H、L84F、A106V、D108N、H123Y、D147Y、E155V、I156F)-来自演化#5-9的突变
[0401]
[0402] ecTadA(R51L、L84F、A106V、D108N、H123Y、D147Y、E155V、I156F、K157N)-来自演化#5-10的突变
[0403]
[0404] ecTadA(R51H、L84F、A106V、D108N、H123Y、D147Y、E155V、I156F、K157N)-来自演化#5-11的突变
[0405]
[0406] saTadA(wt)-如pNMG-345中所用:
[0407]
[0408] saTadA(D108N)-如pNMG-346中所用:
[0409]
[0410] saTadA(D107A_D108N)-如pNMG-347中所用:
[0411]
[0412] saTadA(G26P_D107A_D108N)-如pNMG-348中所用:
[0413]
[0414] saTadA(G26P_D107A_D108N_S142A)-如pNMG-349中所用:
[0415]
[0416] saTadA(D107A_D108N_S142A)-如pNMG-350中所用:
[0417]
[0418]
[0419] ecTadA(P48S)-来自演化#6的突变
[0420]
[0421] ecTadA(P48T)-来自演化#6的突变
[0422]
[0423] ecTadA(P48A)-来自演化#6的突变
[0424]
[0425] ecTadA(A142N)-来自演化#6的突变
[0426]
[0427] ecTadA(W23R)-来自演化#7的突变
[0428]
[0429] ecTadA(W23L)-来自演化#7的突变
[0430]
[0431] ecTadA(R152P)-来自演化#7的突变
[0432]
[0433] ecTadA(R152H)-来自演化#7的突变
[0434]
[0435] ecTadA(L84F、A106V、D108N、H123Y、D147Y、E155V、I156F)-来自pNMG371的突变
[0436]
[0437] ecTadA(H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F、K157N)-来自pNMG 477的突变
[0438]
[0439] ecTadA(H36L、P48S、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F、K157N)-来自pNMG 576的突变
[0440]
[0441] ecTadA(H36L、P48A、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F、K157N)-来自pNMG 586的突变
[0442]
[0443] ecTadA(W23L、H36L、P48A、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、R152P、E155V、I156F、K157N)-来自pNMG 616的突变
[0444]
[0445] 核碱基编辑器的Cas9域
[0446] 在一些方面,核酸可编程DNA结合蛋白(napDNAbp)是Cas9域。本文提供了非限制性的示例性Cas9域。Cas9域可以是核酸酶活性Cas9域、核酸酶无活性Cas9域或Cas9切口酶。在
一些实施方案中,Cas9域是核酸酶活性域。例如,Cas9域可以是切割双链核酸的两条链(例
如,双链DNA分子的两条链)的Cas9域。在一些实施方案中,Cas9域包含如SEQ ID NO:108-
357中所示的氨基酸序列的任一个。在一些实施方案中Cas9域包含与SEQ ID NO:108-357中
所示的氨基酸序列的任一个至少60%、至少65%、至少70%、至少75%、至少80%、至少
85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的
氨基酸序列。在一些实施方案中,Cas9域包含与SEQ ID NO:108-357中所示的任一个氨基酸
序列相比具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、
25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变的氨基酸序列。在一些实施方案中,Cas9域包含具有与SEQ ID NO:108-357
中所示的任一个氨基酸序列相比具有至少10、至少15、至少20、至少30、至少40、至少50、至
少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个相同的连续氨基酸残基的氨基酸序列。
[0447] 在一些实施方案中,Cas9域是核酸酶无活性的Cas9域(dCas9)。例如,dCas9域可以结合双链核酸分子(例如,经由gRNA分子)而不切割双链核酸分子的任一条链。在一些实施
方案中,核酸酶无活性dCas9域包含SEQ ID NO:52中所示的氨基酸序列的D10X突变和H840X
突变,或SEQ ID NO:108-357中所提供的任何氨基酸序列中的相应的突变,其中X是任何氨
基酸变化。在一些实施方案中,核酸酶无活性dCas9域包含SEQ ID NO:52中所示的氨基酸序
列的D10A突变和H840A突变,或SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的突
变。作为一个实例,核酸酶无活性的Cas9域包含SEQ ID NO:54中所示的氨基酸序列(克隆载
体pPlatTET-gRNA2,登录号BAV54124)。
[0448]
[0449]
[0450] SQLGGD(SEQ ID NO:54;参见例如,Qi et al.,“Repurposing CRISPR as an RNA-guided platform for sequence-specific control of gene expression.”Cell.2013;
152(5):1173-83,其全部内容通过引用并入本文)。
[0451] 基于本公开和本领域的知识,另外的合适的核酸酶无活性dCas9域对于本领域技术人员将是显而易见的,并且在本公开的范围内。此类另外的示例性合适的核酸酶无活性
Cas9域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变体域
(参见例如Prashant et al.,CAS9 transcriptional activators for target 
specificity screening and paired nickases for  cooperative genome 
engineering.Nature Biotechnology.2013;31(9):833-838,其全部内容通过引用并入本
文)。在一些实施方案中,dCas9域包含与本文提供的任一个dCas9域至少60%、至少65%、至
少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少
98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,Cas9域包含与SEQ ID 
NO:108-357中所示的任一个氨基酸序列相比,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、
15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、
40、41、42、43、44、45、46、47、48、49、50个或更多个突变的氨基酸序列。在一些实施方案中,Cas9域包含与SEQ ID NO:108-357中所示的任一个氨基酸序列相比,具有至少10个、至少15
个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少150个、至少200个、至少250个、至少300个、至少350个、至少400个、至少500
个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少1100个、或至少1200个相同的连续氨基酸残基的氨基酸序列。
[0452] 在一些实施方案中,Cas9域是Cas9切口酶。Cas9切口酶可以是能够仅切割双链核酸分子(例如双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶切割双链
核酸分子的靶链,这意味着Cas9切口酶切割与结合到Cas9的gRNA(例如,sgRNA)碱基配对
(互补)的链。在一些实施方案中,Cas9切口酶包含D10A突变并且具有SEQ ID NO:52的位置
840处的组氨酸,或在SEQ ID NO:108-357中的任一个中的突变。作为一个实例,Cas9切口酶
可以包含如SEQ ID NO:35中所示的氨基酸序列。在一些实施方案中,Cas9切口酶切割双链
核酸分子的非靶标、非碱基编辑链,这意味着Cas9切口酶切割不与结合到Cas9的gRNA(例
如,sgRNA)碱基配对的链。在一些实施方案中,Cas9切口酶包含H840A突变并且具有在SEQ 
ID NO:52的位置10处的天冬氨酸残基或在SEQ ID NO:108-357的任一个中的相应的突变。
在一些实施方案中,Cas9切口酶包含与本文提供的任一个Cas9切口酶至少60%、至少65%、
至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少
98%、至少99%或至少99.5%相同的氨基酸序列。基于本公开和本领域的知识,另外的合适
的Cas9切口酶对于本领域技术人员将是显而易见的,并且在本公开的范围内。
[0453] 具有降低的PAM排他性(exclusivity)的Cas9域
[0454] 本公开的一些方面提供了具有不同PAM特异性的Cas9域。通常,Cas9蛋白,例如来自酿脓链球菌的Cas9(spCas9),需要规范的NGG PAM序列来结合特定的核酸区域,其中
“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且G是鸟嘌呤。这可以限制在基因组内编辑期望的碱基的能力。在一些实施方案中,本文提供的碱基编辑融合蛋
白需要定位于精确的位置处,例如,其中靶碱基在4碱基区域(例如“脱氨基作用窗口”)内,
其在PAM的上游的约15个碱基。参见Komor,A.C.,et al.,“Programmable editing of a 
target base in genomic DNA without double-stranded DNA cleavage”Nature 533,
420-424(2016),其全部内容在此通过引用并入。在一些实施方案中,脱氨基作用窗口在2、
3、4、5、6、7、8、9或10碱基区域内。在一些实施方案中,脱氨基作用窗口在PAM上游的5、6、7、
8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。因此,在一些实施方案中,本文提供的任何融合蛋白可以含有能够结合不含规范的(例如,NGG)PAM序列的核苷
酸序列的Cas9域。本领域已经描述了结合非规范PAM序列的Cas9域,并且其对于熟练技术人
员而言是显而易见的。例如,结合非规范PAM序列的Cas9域已经描述于Kleinstiver,B.P.,
et al.,“Engineered CRISPR-Cas9 nucleases with altered PAM specificities”
Nature 523,481-485(2015);and Kleinstiver,B.P.,et al.,“Broadening the 
targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM 
recognition”Nature Biotechnology 33,1293-1298(2015);每篇的全部内容在此通过引
用并入。
[0455] 在一些实施方案中,Cas9域是来自金黄色葡萄球菌的Cas9域(SaCas9)。在一些实施方案中,SaCas9域是核酸酶活性的SaCas9、核酸酶无活性的SaCas9(SaCas9d)或SaCas9切
口酶(SaCas9n)。在一些实施方案中,SaCas9包含氨基酸序列SEQ ID NO:55。在一些实施方
案中,SaCas9包含SEQ ID NO:55的N579X突变或SEQ ID NO:108-357中提供的任何氨基酸序
列中的相应的突变,其中X是除N之外的任何氨基酸。在一些实施方案中,SaCas9包含SEQ ID 
NO:55的N579A突变或SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的突变。
[0456] 在一些实施方案中,SaCas9域、SaCas9d域或SaCas9n域可以结合具有非规范PAM的核酸序列。在一些实施方案中,SaCas9域、SaCas9d域或SaCas9n域可以结合具有NNGRRT PAM
序列的核酸序列,其中N=A、T、C或G,并且R=A或G。在一些实施方案中,SaCas9域包含SEQ 
ID NO:55的E781X、N967X和R1014X突变中的一个或多个,或SEQ ID NO:108-357中提供的任
何氨基酸序列中的相应的突变,其中X是任何氨基酸。在一些实施方案中,SaCas9域包含SEQ 
ID NO:55中的E781K、N967K和R1014H突变,或者在SEQ ID NO:108-357中提供的任何氨基酸
序列中的一个或多个相应的突变中的一个或多个。在一些实施方案中,SaCas9域包含SEQ 
ID NO:55的E781K、N967K或R1014H突变或在SEQ ID NO:108-357中提供的任何氨基酸序列
中的相应的突变。
[0457] 在一些实施方案中,本文提供的任何融合蛋白的Cas9域包含与SEQ ID NO:55-57中的任一个至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少
95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实
施方案中,本文提供的任何融合蛋白的Cas9域包含SEQ ID NO:55-57中任一个的氨基酸序
列。在一些实施方案中,本文提供的任何融合蛋白的Cas9域由SEQ ID NO:55-57中任一个的
氨基酸序列组成。
[0458] 示例性的SaCas9序列
[0459]
[0460] 可以将SEQ ID NO:55的残基N579(其是加下划线且粗体的)突变(例如突变为A579)以产生SaCas9切口酶。
[0461] 示例性的SaCas9n序列
[0462]
[0463]
[0464] SEQ ID NO:56的残基A579(其可以从SEQ ID NO:55的N579突变以产生SaCas9切口酶)是加下划线且粗体的。
[0465] 示例性的SaKKH Cas9
[0466]
[0467] SEQ ID NO:57的残基A579(其可以从SEQ ID NO:55的N579突变以产生SaCas9切口酶)是加下划线且粗体的。SEQ ID NO:57的残基K781、K967和H1014(其可以从SEQ ID NO:55
的E781、N967和R1014突变以产生SaKKH Cas9)是加下划线且斜体的。
[0468] 在一些实施方案中,Cas9域是来自酿脓链球菌的Cas9域(SpCas9)。在一些实施方案中,SpCas9域是核酸酶活性的SpCas9、核酸酶无活性的SpCas9(SpCas9d)或SpCas9切口酶
(SpCas9n)。在一些实施方案中,SpCas9包含氨基酸序列SEQ ID NO:58。在一些实施方案中,
SpCas9包含SEQ ID NO:58的D9X突变或在SEQ ID NO:108-357中提供的任何氨基酸序列中
的相应的突变,其中X是除D之外的任何氨基酸。在一些实施方案中,SpCas9包含SEQ ID NO:
58的D9A突变或在SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的突变。在一些实
施方案中,SpCas9域、SpCas9d域或SpCas9n域可以结合具有非规范PAM的核酸序列。在一些
实施方案中,SpCas9域、SpCas9d域或SpCas9n域可以结合具有NGG、NGA或NGCG PAM序列的核
酸序列。在一些实施方案中,SpCas9域包含SEQ ID NO:58的D1134X、R1334X和T1336X突变或
SEQ ID NO:108-35中提供的任何氨基酸序列中的相应的突变中的一个或多个,其中X是任
何氨基酸。在一些实施方案中,SpCas9域包含SEQ ID NO:58的D1134E、R1334Q和T1336R突
变,或在SEQ ID NO:108-35中提供的任何氨基酸序列中的相应的突变中的一个或多个。在
一些实施方案中,SpCas9域包含SEQ ID NO:58的D1134E、R1334Q和T1336R突变或在SEQ ID 
NO:108-35中提供的任何氨基酸序列中的相应的突变。在一些实施方案中,SpCas9域包含
SEQ ID NO:58的D1134X、R1334X和T1336X突变或SEQ ID NO:108-35中提供的任何氨基酸序
列中的相应的突变中的一个或多个,其中X是任何氨基酸。在一些实施方案中,SpCas9域包
含SEQ ID NO:58的D1134V、R1334Q和T1336R突变,或在SEQ ID NO:108-35中提供的任何氨
基酸序列中的相应的突变中的一个或多个。在一些实施方案中,SpCas9域包含SEQ ID NO:
58的D1134V、R1334Q和T1336R突变,或在SEQ ID NO:108-35中提供的任何氨基酸序列中的
相应的突变。在一些实施方案中,SpCas9域包含SEQ ID NO:58的D1134X、G1217X、R1334X和
T1336X突变,或SEQ ID NO:108-35中提供的任何氨基酸序列中的相应的突变中的一个或多
个,其中X是任何氨基酸。在一些实施方案中,SpCas9域包含SEQ ID NO:58的D1134V、
G1217R、R1334Q和T1336R突变,或在SEQ ID NO:108-35中提供的任何氨基酸序列中的相应
的突变中的一个或多个。在一些实施方案中,SpCas9域包含SEQ ID NO:58的D1134V、
G1217R、R1334Q和T1336R突变或在SEQ ID NO:108-35中提供的任何氨基酸序列中的相应的
突变。
[0469] 在一些实施方案中,本文提供的任何融合蛋白的Cas9域包含与SEQ ID NO:58-62至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少
96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,
本文提供的任何融合蛋白的Cas9域包含SEQ ID NO:58-62的任一个的氨基酸序列。在一些
实施方案中,本文提供的任何融合蛋白的Cas9域由SEQ ID NO:58-62的任一个的氨基酸序
列组成。
[0470] 示例性的SpCas9
[0471]
[0472]
[0473] 示例性的SpCas9n
[0474]
[0475] 示例性的SpEQR Cas9
[0476]
[0477] SEQ ID NO:60的残基E1134、Q1334和R1336(其可以从SEQ ID NO:58的D1134、R1334和T1336突变以产生SpEQR Cas9)是加下划线且粗体的。
[0478] 示例性的SpVQR Cas9
[0479]
[0480]
[0481] SEQ ID NO:61的残基V1134、Q1334和R1336(其可以从SEQ ID NO:58的D1134、R1334和T1336突变以产生SpVQR Cas9)是加下划线且粗体的。
[0482] 示例性的SpVRER Cas9
[0483]
[0484] SEQ ID NO:62的残基V1134、R1217、Q1334和R1336(其可以从SEQ ID NO:58的D1134、G1217、R1334和T1336突变以产生SpVRER Cas9)是加下划线且粗体的。
[0485] 高保真性Cas9域
[0486] 本公开的一些方面提供了本文提供的核碱基编辑器的高保真性Cas9域。在一些实施方案中,与相应的野生型Cas9域相比,高保真性Cas9域是包含一个或多个突变的经工程
化的Cas9域,所述突变降低Cas9域和DNA的糖-磷酸主链之间的静电相互作用。不希望受任
何特定理论的束缚,具有降低的与DNA的糖-磷酸主链的静电相互作用的高保真性Cas9域可
以具有较少的脱靶效应。在一些实施方案中,Cas9域(例如,野生型Cas9域)包含一个或多个
降低Cas9域与DNA的糖-磷酸主链之间的缔合的突变。在一些实施方案中,Cas9域包含一个
或多个将Cas9域与DNA的糖-磷酸主链之间的缔合降低至少1%、至少2%、至少3%、至少
4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%或更多的突变。
[0487] 在一些实施方案中,本文提供的任何Cas9融合蛋白包含SEQ ID NO:52中提供的氨基酸序列的N497X、R661X、Q695X和/或Q926X突变,或在SEQ ID NO:108-357中提供的任何氨
基酸序列中的相应的突变中的一个或多个,其中X是任何氨基酸。在一些实施方案中,本文
提供的任何Cas9融合蛋白包含SEQ ID NO:52中提供的氨基酸序列的N497A、R661A、Q695A
和/或Q926A突变,或在SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的突变中的
一个或多个。在一些实施方案中,Cas9域包含SEQ ID NO:52中提供的氨基酸序列的D10A突
变,或在SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的突变。在一些实施方案
中,Cas9域(例如本文提供的任何融合蛋白的)包含如SEQ ID NO:62中所示的氨基酸序列。
具有高保真度的Cas9域是本领域已知的,并且对于本领域技术人员而言是显而易见的。例
如,具有高保真度的Cas9域已经描述于Kleinstiver,B.P.,et al.“High-fidelity 
CRISPR-Cas9 nucleases with no detectable genome-wide off-target effects.”
Nature 529,490-495(2016);和Slaymaker,I.M.,et al“.Rationally engineered Cas9 
nucleases with improved specificity.”Science 351,84-88(2015);每篇的全部内容通
过引用并入本文。
[0488] 应当理解,本文提供的任何碱基编辑器,例如,本文提供的任何腺苷脱氨酶碱基编辑器,可以通过如本文所述修饰Cas9域而转换成高保真碱基编辑器以产生高保真碱基编辑
器,例如,高保真腺苷碱基编辑器。在一些实施方案中,高保真性Cas9域是dCas9域。在一些
实施方案中,高保真性Cas9域是nCas9域。
[0489] 高保真性Cas9域,其中相对于SEQ ID NO:10的Cas9的突变以粗体和下划线显示
[0490]
[0491]
[0492] 核酸可编程DNA结合蛋白
[0493] 本公开的一些方面提供了核酸可编程DNA结合蛋白,其可以用于将蛋白质(例如碱基编辑器)引导至特定核酸(例如DNA或RNA)序列。核酸可编程DNA结合蛋白包括但不限于
Cas9(例如dCas9和nCas9)、CasX、CasY、Cpf1、C2c1、C2c2、C2C3和Argonaute。具有与Cas9不同的PAM特异性的核酸可编程DNA结合蛋白的一个实例是来自普雷沃氏菌(Prevotella)和
弗朗西斯菌(Francisella)1(Cpf1)的聚簇规则间隔短回文重复。与Cas9类似,Cpf1也是2类
CRISPR效应物。已经显示,Cpf1介导了强大的DNA干扰,其具有与Cas9不同的特征。Cpf1是缺
乏tracrRNA的单RNA引导的内切核酸酶,并且它利用富含T的前间隔区相邻基序(TTN、TTTN
或YTN)。此外,Cpf1经由交错的DNA双链断裂切割DNA。在16种Cpf1家族蛋白中,来自氨基酸
球菌(Acidaminococcus)和毛螺菌(Lachnospiraceae)的两种酶显示在人类细胞中具有有
效的基因组编辑活性。Cpf1蛋白是本领域已知的并且先前已有描述,例如Yamano et al.,
“Crystal structure of Cpf1 in complex with guide RNA and target DNA.”Cell
(165)2016,p.949-962;其全部内容在此通过引用并入。
[0494] 在本组合物和方法中也有用的是核酸酶无活性的Cpf1(dCpf1)变体,其可以用作引导核苷酸序列-可编程DNA结合蛋白域。Cpf1蛋白具有RuvC样内切核酸酶域,其类似于
Cas9的RuvC域,但不具有HNH内切核酸酶域,并且Cpf1的N端不具有Cas9的alfa螺旋识别叶
(lobe)。它在Zetsche et al.,Cell,163,759-771,2015(其通过引用并入本文)中显示,
Cpf1的RuvC样域负责切割两条DNA链并且RuvC样域的失活使Cpf1核酸酶活性失活。例如,对
应于新凶手弗朗西斯菌(Francisella novicida)Cpf1(SEQ ID NO:382)中的D917A、E1006A
或D1255A的突变使Cpf1核酸酶活性失活。在一些实施方案中,本公开的dCpf1包含对应于
SEQ ID NO:376中的D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A
或D917A/E1006A/D1255A的突变。应当理解,可以根据本公开使用任何突变,例如使Cpf1的
RuvC域失活的取代突变、缺失或插入。
[0495] 在一些实施方案中,本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cpf1蛋白。在一些实施方案中,Cpf1蛋白是Cpf1切口酶(nCpf1)。在一些
实施方案中,Cpf1蛋白是核酸酶无活性的Cpf1(dCpf1)。在一些实施方案中,Cpf1、nCpf1或
dCpf1包含与SEQ ID NO:376-382的任一个至少85%、至少90%、至少91%、至少92%、至少
93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的
氨基酸序列。在一些实施方案中,dCpf1包含与SEQ ID NO:376-382的任一个至少85%、至少
90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列,并且包含对应于SEQ ID NO:376中的D917A、
E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A或D917A/E1006A/D1255A的
突变。在一些实施方案中,dCpf1包含SEQ ID NO:376-382中任一的氨基酸序列。应当理解,
也可以根据本公开使用来自其他细菌物种的Cpf1。
[0496] 野生型新凶手弗朗西斯菌Cpf1(SEQ ID NO:376)(D917、E1006和D1255是粗体且加下划线的)
[0497]
[0498]
[0499] 新凶手弗朗西斯菌Cpf1 D917A(SEQ ID NO:377)(A917、E1006和D1255是粗体且加下划线的)
[0500]
[0501] 新凶手弗朗西斯菌Cpf1 E1006A(SEQ ID NO:378)(D917、A1006和D1255是粗体且加下划线的)
[0502]
[0503]
[0504] 新凶手弗朗西斯菌Cpf1 D1255A(SEQ ID NO:379)(D917、E1006和A1255是粗体且加下划线的)
[0505]
[0506] 新凶手弗朗西斯菌Cpf1 D917A/E1006A(SEQ ID NO:380)(A917、A1006和D1255是粗体且加下划线的)
[0507]
[0508] 新凶手弗朗西斯菌Cpf1 D917A/D1255A(SEQ ID NO:381)(A917、E1006和A1255是粗体且加下划线的)
[0509]
[0510] 新凶手弗朗西斯菌Cpf1 E1006A/D1255A(SEQ ID NO:382)(D917、A1006和A1255是粗体且加下划线的)
[0511]
[0512] 新凶手弗朗西斯菌Cpf1 D917A/E1006A/D1255A(SEQ ID NO:383)(A917、A1006和A1255是粗体且加下划线的)
[0513]
[0514] 在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是不需要规范(NGG)PAM序列的核酸可编程DNA结合蛋白。在一些实施方案中,napDNAbp是argonaute蛋白。此类核酸
可编程DNA结合蛋白的一个实例是来自格氏嗜盐碱杆菌(Natronobacterium gregoryi)的
Argonaute蛋白(NgAgo)。NgAgo是ssDNA引导的内切核酸酶。NgAgo结合约24个核苷酸的5′磷
酸化ssDNA(gDNA),以将其引导至其靶位点,并将在gDNA位点处产生DNA双链断裂。与Cas9相
比,NgAgo-gDNA系统不需要前间隔区相邻基序(PAM)。使用核酸酶无活性的NgAgo(dNgAgo)
可以极大地扩展可以靶向的碱基。NgAgo的表征和使用已经描述于Gao et al.,Nat 
Biotechnol.,2016Jul;34(7):768-73.PubMed PMID:27136078;Swarts et al.,
Nature.507(7491)(2014):258-61;和Swarts et al.,Nucleic Acids Res.43(10)(2015):
5120-9,每篇通过引用并入本文。格氏嗜盐碱杆菌Argonaute的序列提供于SEQ ID NO:416
中。
[0515] 野生型格氏嗜盐碱杆菌Argonaute(SEQ ID NO:416)
[0516]
[0517] 在一些实施方案中,napDNAbp是Argonaute蛋白的原核同源物。Argonaute蛋白的原核同源物是已知的并且已经描述于例如Makarova K.,et al.,“Prokaryotic homologs 
of Argonaute proteins are predicted to function as key components of a novel 
system of defense against mobile genetic elements”,Biol Direct.2009 Aug 25;4:
29.doi:10.1186/1745-6150-4-29中,其全部内容在此通过引用并入。在一些实施方案中,
napDNAbp是Marinitoga piezophila Argunaute(MpAgo)蛋白。CRISPR相关的Marinitoga 
piezophila Argunaute(MpAgo)蛋白使用5’-磷酸化的引导物切割单链靶序列。所有已知的
Argonaute均使用5′引导物。MpAgo-RNA复合物的晶体结构显示引导链结合位点,其包含阻
断5′磷酸盐相互作用的残基。该数据表明具有5′-羟基化引导物的非规范特异性的
Argonaute亚类的演化。参见例如,Kaya et al.,“A bacterial Argonaute with 
noncanonical guide RNA specificity”,Proc Natl Acad Sci U S A.2016Apr 12;113
(15):4057-62,其全部内容在此通过引用并入)。应当理解,可以使用其他argonaute蛋白,
并且它们在本公开的范围内。
[0518] 在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单一效应物。微生物CRISPR-Cas系统的单一效应物包括但不限于Cas9、Cpf1、C2c1、
C2c2和C2c3。通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应物
复合物,而2类系统具有单一蛋白质效应物。例如,Cas9和Cpf1是2类效应物。除了Cas9和
Cpf1之外,Shmakov et al.,“Discovery and Functional Characterization of Diverse 
Class 2 CRISPR Cas Systems”,Mol.Cell,2015 Nov 5;60(3):385-397已经描述了三种不
同的2类CRISPR-Cas系统(C2c1、C2c2和C2c3),其全部内容在此通过引用并入。系统中的两
种(C2c1和C2c3)的效应物含有与Cpf1相关的RuvC样内切核酸酶域。第三种系统C2c2含有具
有两个预测的HEPN RNA酶域的效应物。与C2c1产生CRISPR RNA不同,成熟CRISPR RNA的产
生是不依赖tracrRNA的。C2c1依赖于CRISPR RNA和tracrRNA两者用于DNA切割。已显示细菌
性C2c2对于CRISPR RNA成熟具有独特的RNA酶活性,不同于其RNA激活的单链RNA降解活性。
这些RNA酶功能彼此不同,并且与Cpf1的CRISPR RNA加工行为不同。参见例如East-
Seletsky,et al.,“Two distinct RNase activities of CRISPR-C2c2 enable guide-
RNA processing and RNA detection”,Nature,2016 Oct 13;538(7624):270-273,其全部内容在此通过引用并入。Leptotrichia shahii中C2c2的体外生化分析已显示,C2c2由单一
CRISPR RNA引导,并且可以编程以切割携带互补前间隔区的ssRNA靶标。两个保守的HEPN域
中的催化残基介导切割。催化残基中的突变产生催化无活性的RNA结合蛋白。参见例如,
Abudayyeh et al.,“C2c2is a single-component programmable RNA-guided RNA-
targeting CRISPR effector”,Science,2016 Aug 5;353(6299),其全部内容在此通过引
用并入。
[0519] 已经报道了与嵌合单分子引导RNA(sgRNA)复合的酸土脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)C2c1(AacC2c1)的晶体结构。参见例如,Liu et 
al.,“C2c1-sgRNA Complex Structure Reveals RNA-Guided DNA Cleavage Mechanism”,
Mol.Cell,2017 Jan 19;65(2):310-322,其全部内容在此通过引用并入。还已经报道了在
与靶DNA结合的酸土脂环酸芽孢杆菌C2c1中作为三元复合物的晶体结构。参见例如,Yang 
et al.,“PAM-dependent Target DNA Recognition and Cleavage by C2C1 CRISPR-Cas 
endonuclease”,Cell,2016 Dec 15;167(7):1814-1828,其全部内容在此通过引用并入。具有靶DNA链和非靶DNA链两者的AacC2c1的催化能力构象已被独立地捕获,定位在单一RuvC
催化口袋内,C2c1介导的切割导致靶DNA的交错的七核苷酸断裂。C2c1三元复合物与先前鉴
定的Cas9和Cpf1对应物之间的结构比较证明了CRISPR-Cas9系统使用的机制的多样性。
[0520] 在一些实施方案中,本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是C2c1、C2c2或C2c3蛋白。在一些实施方案中,napDNAbp是C2c1蛋白。在一
些实施方案中,napDNAbp是C2c2蛋白。在一些实施方案中,napDNAbp是C2c3蛋白。在一些实
施方案中,napDNAbp包含与天然存在的C2c1、C2c2或C2c3蛋白至少85%、至少90%、至少
91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,napDNAbp是天然存在的C2c1、C2c2或
C2c3蛋白。在一些实施方案中,napDNAbp包含与SEQ ID NO:438或439的任一个至少85%、至
少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少
98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,napDNAbp包含SEQ ID 
NO:438或439中任一的氨基酸序列。应当理解,根据本公开也可以使用来自其他细菌物种的
C2c1、C2c2或C2c3。
[0521] C2c1(uniprot.org/uniprot/T0D7A2#)
[0522] sp|T0D7A2|C2C1_ALIAG CRISPR相关的内切核酸酶C2c1 OS=酸土脂环酸芽孢杆菌(菌株ATCC 49025/DSM 3922/CIP 106132/NCIMB 13137/GD3B)GN=c2c1 PE=1 SV=1
[0523]
[0524] C2c2(uniprot.org/uniprot/P0DOC6)
[0525] >sp|P0DOC6|C2C2_LEPSD CRISPR相关的内切核酸酶C2c2 OS=Leptotrichia shahii(菌株DSM 19757/CCUG 47503/CIP 107916/JCM 16776/LB37)GN=c2c2 PE=1 SV=
1
[0526]
[0527]
[0528] 包含核酸酶可编程DNA结合蛋白和腺苷脱氨酶的融合蛋白
[0529] 本公开的一些方面提供了包含核酸可编程DNA结合蛋白(napDNAbp)和腺苷脱氨酶的融合蛋白。在一些实施方案中,本文提供的任何融合蛋白是碱基编辑器。在一些实施方案
中,napDNAbp是Cas9域、Cpf1域、CasX域、CasY域、C2c1域、C2c2域、C2c3域或Argonaute域。在一些实施方案中,napDNAbp是本文提供的任何napDNAbp。本公开的一些方面提供了包含
Cas9域和腺苷脱氨酶的融合蛋白。Cas9域可以是本文提供的任何Cas9域或Cas9蛋白(例如,
dCas9或nCas9)。在一些实施方案中,本文提供的任何Cas9域或Cas9蛋白(例如,dCas9或
nCas9)可以与本文提供的任何腺苷脱氨酶融合。在一些实施方案中,融合蛋白包含以下结
构:
[0530] NH2-[腺苷脱氨酶]-[napDNAbp]-COOH;或
[0531] NH2-[napDNAbp]-[腺苷脱氨酶]-COOH
[0532] 在一些实施方案中,包含腺苷脱氨酶和napDNAbp(例如,Cas9域)的融合蛋白不包括接头序列。在一些实施方案中,接头存在于腺苷脱氨酶域和napDNAbp之间。在一些实施方
案中,上文一般结构中使用的“-”表示存在任选的接头。在一些实施方案中,腺苷脱氨酶和
napDNAbp经由本文提供的任何接头融合。例如,在一些实施方案中,腺苷脱氨酶和napDNAbp
经由下文标题为“接头”的部分中提供的任何接头融合。在一些实施方案中,腺苷脱氨酶和
napDNAbp经由包含1和200个氨基酸之间的接头融合。在一些实施方案中,腺苷脱氨酶和
napDNAbp经由包含长度为1至5、1至10、1至20、1至30、1至40、1至50、1至60、1至80、1至100、1至150、1至200、5至10、5至20、5至30、5至40、5至60、5至80、5至100、5至150、5至200、10至20、
10至30、10至40、10至50、10至60、10至80、10至100、10至150、10至200、20至30、20至40、20至
50、20至60、20至80、20至100、20至150、20至200、30至40、30至50、30至60、30至80、30至100、
30至150、30至200、40至50、40至60、40至80、40至100、40至150、40至200、50至6050至80、50至100、50至150、50至200、60至80、60至100、60至150、60至200、80至100、80至150、80至200、
100至150、100至200或150至200个氨基酸的接头融合。在一些实施方案中,腺苷脱氨酶和
napDNAbp经由包含长度为4、16、32或104个氨基酸的接头融合。在一些实施方案中,腺苷脱
氨酶和napDNAbp经由包含以下的氨基酸序列的接头融合:SGSETPGTSESATPES(SEQ ID NO:
10)、SGGS(SEQ ID NO:37)、SGGSSGSETPGTSESATPESSGGS(SEQ ID NO:384)、SGGSSGGSSGSET
PGTSESATPESSGGSSGGS(SEQ ID NO:385)或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEG
SAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS(SEQ ID NO:
386)。在一些实施方案中,腺苷脱氨酶和napDNAbp经由包含氨基酸序列SGSETPGTSESATPES
(SEQ ID NO:10)的接头融合,其也可以称为XTEN接头。在一些实施方案中,接头长度为24个
氨基酸。在一些实施方案中,接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPES(SEQ ID NO:
685)。在一些实施方案中,接头长度为40个氨基酸。在一些实施方案中,接头包含氨基酸序
列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS(SEQ ID NO:686)。在一些实施方案中,接
头长度为64个氨基酸。在一些实施方案中,接头包含氨基酸序列SGGSSGGSSGSETPGTSESATP
ESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:687)。在一些实施方案中,接
头长度为92个氨基酸。在一些实施方案中,接头包含氨基酸序列PGSPAGSPTSTEEGTSESATPE
SGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS(SEQ ID 
NO:688)。
[0533] 包含碱基修复抑制剂的融合蛋白
[0534] 本公开的一些方面提供了包含碱基修复抑制剂(IBR)的融合蛋白。例如,包含腺苷脱氨酶和核酸可编程DNA结合蛋白的融合蛋白可以进一步包含碱基修复抑制剂。在一些实
施方案中,IBR包含肌苷碱基修复抑制剂。在一些实施方案中,IBR是肌苷碱基切除修复的抑
制剂。在一些实施方案中,肌苷碱基切除修复的抑制剂是催化无活性的肌苷特异性核酸酶
(dISN)。
[0535] 在一些实施方案中,本文提供的融合蛋白进一步包含催化无活性的肌苷特异性核酸酶(dISN)。在一些实施方案中,本文提供的包含napDNAbp(例如,核酸酶活性Cas9域、核酸
酶无活性dCas9域或Cas9切口酶)和腺苷脱氨酶的任何融合蛋白可以进一步直接地或经由
接头与催化无活性的肌苷特异性核酸酶(dISN)融合。本公开的一些方面提供了融合蛋白,
其包含腺苷脱氨酶(例如,使DNA中的腺苷脱氨基的工程化的腺苷脱氨酶)、napDNAbp(例如
dCas9或nCas9)和dISN。不希望受任何特定理论的束缚,细胞DNA修复对I:T异源双链DNA的
存在的反应可以造成细胞中核碱基编辑效率降低。例如,AAG催化从细胞中的DNA中去除肌
苷(I),其可以启动碱基切除修复,其中I:T对至A:T对的回复为最常见的结果。在一些实施
方案中,催化无活性的肌苷特异性核酸酶可以能够结合核酸中的肌苷而不切割核酸,以防
止DNA中肌苷残基的去除(例如,通过细胞DNA修复机制)。
[0536] 在一些实施方案中,dISN可以抑制(例如,通过空间位阻)肌苷去除酶从DNA中切除肌苷残基。例如,催化死亡的肌苷糖基化酶(例如,烷基腺嘌呤糖基化酶[AAG])将结合肌苷
但不会产生无碱基位点或除去肌苷,从而在空间上阻断新形成的肌苷部分免于潜在的DNA
损伤/修复机制。因此,本公开考虑了融合蛋白,其包含进一步与dISN融合的napDNAbp和腺
苷脱氨酶。本公开考虑了包含任何Cas9域的融合蛋白,所述Cas9域例如Cas9切口酶(nCas9)
域、催化无活性的Cas9(dCas9)域、高保真性Cas9域或具有降低的PAM排他性的Cas9域。应当
理解,使用dISN可以提高能够催化A至I变化的腺苷脱氨酶的编辑效率。例如,包含dISN域的
融合蛋白可以更有效地使A残基脱氨基。在一些实施方案中,融合蛋白包含以下结构:
[0537] NH2-[腺苷脱氨酶]-[napDNAbp]-[dISN]-COOH;
[0538] NH2-[腺苷脱氨酶]-[dISN]-[napDNAbp]-COOH;
[0539] NH2-[dISN]-[腺苷脱氨酶]-[napDNAbp]-COOH;
[0540] NH2-[napDNAbp]-[腺苷脱氨酶]-[dISN]-COOH;
[0541] NH2-[napDNAbp]-[dISN]-[腺苷脱氨酶]-COOH;或
[0542] NH2-[dISN]-[napDNAbp]-[腺苷脱氨酶]-COOH
[0543] 在一些实施方案中,本文提供的融合蛋白不包含接头。在一些实施方案中,接头存在于两个域或蛋白质(例如,腺苷脱氨酶、napDNAbp或dISN)之间。在一些实施方案中,上文
一般结构中使用的“-”表示存在任选的接头序列。在一些实施方案中,dISN包含具有降低的
或核酸酶活性或不具有核酸酶活性的肌苷特异性核酸酶。在一些实施方案中,dISN具有高
达1%、高达2%、高达3%、高达4%、高达5%、高达10%、高达15%、高达20%、高达25%、高达30%、高达35%、高达40%、高达45%或高达50%的相应的(例如野生型)肌苷特异性核酸
酶的核酸酶活性。在一些实施方案中,dISN是野生型肌苷特异性核酸酶,其包含一个或多个
降低或消除野生型肌苷特异性核酸酶的核酸酶活性的突变。示例性的催化无活性的肌苷特
异性核酸酶包括但不限于催化无活性的AAG核酸酶和催化无活性的EndoV核酸酶。在一些实
施方案中,催化无活性的AAG核酸酶包含与SEQ ID NO:32相比的E125Q突变,或另一种AAG核
酸酶中的相应的突变。在一些实施方案中,催化无活性的AAG核酸酶包含SEQ ID NO:32中所
示的氨基酸序列。在一些实施方案中,催化无活性的EndoV核酸酶包含与SEQ ID NO 32相比
的D35A突变,或另一种EndoV核酸酶中的相应的突变。在一些实施方案中,催化无活性的
EndoV核酸酶包含SEQ ID NO:33中所示的氨基酸序列。应当理解,其他催化无活性的肌苷特
异性核酸酶(dISN)对于本领域技术人员而言是显而易见的,并且在本公开的范围内。
[0544] 在一些实施方案中,本文提供的dISN蛋白包括dISN蛋白的片段和与dISN或dISN片段同源的蛋白质。例如,在一些实施方案中,dISN包含SEQ ID NO:32或33中所示的氨基酸序
列的片段。在一些实施方案中,dISN片段包含氨基酸序列,所述氨基酸序列包含如SEQ ID 
NO:32或33中所示的氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至
少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%。在一些实施方案中,dISN包含与SEQ ID NO:32或33中所示的氨基酸序列同源的氨基酸序列,或
与SEQ ID NO:32或33中所示的氨基酸序列的片段同源的氨基酸序列。在一些实施方案中,
包含dISN或dISN的片段或者dISN或dISN片段的同源物的蛋白质称为“dISN变体”。dISN变体
与dISN或其片段共享同源性。例如dISN变体与野生型dISN或如SEQ ID NO:32或33中所示的
dISN至少70%相同、至少75%相同、至少80%相同、至少85%相同、至少90%相同、至少95%
相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同、至少99.5%相同或至少
99.9%相同。在一些实施方案中,dISN变体包含dISN的片段,使得所述片段与野生型dISN或
如SEQ ID NO:32或33中所示的dISN的相应的片段至少70%相同、至少80%相同、至少90%
相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同、至少
99.5%相同或至少99.9%。在一些实施方案中,dISN包含以下氨基酸序列:
[0545] AAG核酸酶(E125Q);突变的残基用粗体加下划线。
[0546]
[0547] EndoV核酸酶(D35A);突变的残基用粗体加下划线。
[0548]
[0549] 本文提供了合适的dISN蛋白质,并且另外的合适的dISN蛋白质是本领域技术人员已知的,并且包括例如AAG、EndoV及其变体。应当理解,阻断或抑制碱基切除修复(例如肌苷
的碱基切除)的另外的蛋白质,也在本公开的范围内。在一些实施方案中,使用结合DNA中的
肌苷的蛋白质。
[0550] 本公开的一些方面涉及包含可以用作碱基修复抑制剂的MBD4或TDG的融合蛋白。因此,本公开考虑了融合蛋白,其包含进一步与MBD4或TDG融合的napDNAbp和腺苷脱氨酶。
本公开考虑了包含任何Cas9域的融合蛋白,所述Cas9域例如Cas9切口酶(nCas9)域、催化无
活性的Cas9(dCas9)域、高保真性Cas9域或具有降低的PAM排他性的Cas9域。应当理解,使用
MBD4或TDG可以提高能够催化A至I变化的腺苷脱氨酶的编辑效率。例如,包含MBD4或TDG的
融合蛋白可以更有效地使A残基脱氨基。在一些实施方案中,融合蛋白包含以下结构:
[0551] NH2-[腺苷脱氨酶]-[napDNAbp]-[MBD4或TDG]-COOH;
[0552] NH2-[腺苷脱氨酶]-[MBD4或TDG]-[napDNAbp]-COOH;
[0553] NH2-[MBD4或TDG]-[腺苷脱氨酶]-[napDNAbp]-COOH;
[0554] NH2-[napDNAbp]-[腺苷脱氨酶]-[MBD4或TDG]-COOH;
[0555] NH2-[napDNAbp]-[MBD4或TDG]-[腺苷脱氨酶]-COOH;或
[0556] NH2-[MBD4或TDG]-[napDNAbp]-[腺苷脱氨酶]-COOH
[0557] 在一些实施方案中,本文提供的融合蛋白不包含接头。在一些实施方案中,接头存在于两个域或蛋白质(例如,腺苷脱氨酶、napDNAbp、MBD4或TDG)之间。在一些实施方案中,
上文一般结构中使用的“-”表示存在任选的接头序列。在一些实施方案中,MBD4或TDG是野
生型MBD4或TDG。示例性的MBD4和TDG氨基酸序列对于熟练技术人员是显而易见的,并且包
括但不限于下文提供的MBD4和TDG氨基酸序列。
[0558] MBD4的序列:
[0559]
[0560] TDG的序列:
[0561]
[0562] 在一些实施方案中,本文提供的MBD4或TDG蛋白包括MBD4或TDG蛋白的片段和与MBD4或TDG片段同源的蛋白质。例如,在一些实施方案中,MBD4或TDG蛋白包含SEQ ID NO:
689或690中所示的氨基酸序列的片段。在一些实施方案中,MBD4或TDG片段包含氨基酸序
列,所述氨基酸序列包含如SEQ ID NO:689或690中所示的氨基酸序列的至少60%、至少
65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%。在一些实施方案中,MBD4或TDG蛋白包含与SEQ ID NO:
689或690中所示的氨基酸序列同源的氨基酸序列,或与SEQ ID NO:689或690中所示的氨基
酸序列的片段同源的氨基酸序列。在一些实施方案中,包含MBD4或TDG或MBD4或TDG的片段
或者MBD4或TDG片段的同源物的蛋白质称为“MBD4变体”或“TDG变体”。MBD4或TDG变体与
MBD4或TDG或其片段共享同源性。例如MBD4或TDG变体与野生型MBD4或TDG或如SEQ ID NO:
689或690中所示的MBD4或TDG至少70%相同、至少75%相同、至少80%相同、至少85%相同、
至少90%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相
同、至少99.5%相同或至少99.9%相同。在一些实施方案中,MBD4或TDG变体包含MBD4或TDG
的片段,使得所述片段与野生型MBD4或TDG或如SEQ ID NO:689或690中所示的MBD4或TDG的
相应的片段至少70%相同、至少80%相同、至少90%相同、至少95%相同、至少96%相同、至
少97%相同、至少98%相同、至少99%相同、至少99.5%相同或至少99.9%。在一些实施方
案中,dISN包含以下氨基酸序列:
[0563] 本公开的一些方面涉及包含尿嘧啶糖基化酶抑制剂(UGI)域的融合蛋白。在一些实施方案中,本文提供的包含napDNAbp(例如,核酸酶活性Cas9域、核酸酶无活性dCas9域或
Cas9切口酶)和腺苷脱氨酶的任何融合蛋白可以进一步直接地或经由接头与UGI域融合。本
公开的一些方面提供了融合蛋白,其包含腺苷脱氨酶(例如,使DNA中的脱氧腺苷脱氨基的
工程化的腺苷脱氨酶)、napDNAbp(例如dCas9或nCas9)和UGI域。不希望受任何特定理论的
束缚,细胞DNA修复对I:T异源双链DNA的存在的反应可以造成细胞中核碱基编辑效率降低。
例如,烷基腺苷糖基化酶(AAG)参与肌苷(I)相关的DNA修复并催化从细胞中的DNA中去除I。
这可以启动碱基切除修复,其中I:T对至A:T对的回复为最常见的结果。UGI域可以抑制(例
如,通过空间位阻)肌苷去除酶从DNA中切除肌苷残基。因此,本公开考虑了融合蛋白,其包
含进一步与UGI域融合的Cas9域和腺苷脱氨酶域。本公开考虑了包含任何核酸可编程DNA结
合蛋白的融合蛋白,所述核酸可编程DNA结合蛋白例如Cas9切口酶(nCas9)域、催化无活性
的Cas9(dCas9)域、高保真性Cas9域或具有降低的PAM排他性的Cas9域。应当理解,使用UGI
域可以提高能够催化A至I变化的腺苷脱氨酶的编辑效率。例如,包含UGI域的融合蛋白可以
更有效地使腺苷残基脱氨基。在一些实施方案中,融合蛋白包含以下结构:
[0564] NH2-[腺苷脱氨酶]-[napDNAbp]-[UGI]-COOH;
[0565] NH2-[腺苷脱氨酶]-[UGI]-[napDNAbp]-COOH;
[0566] NH2-[UGI]-[腺苷脱氨酶]-[napDNAbp]-COOH;
[0567] NH2-[napDNAbp]-[腺苷脱氨酶]-[UGI]-COOH;
[0568] NH2-[napDNAbp]-[UGI]-[腺苷脱氨酶]-COOH;或
[0569] NH2-[UGI]-[napDNAbp]-[腺苷脱氨酶]-COOH
[0570] 在一些实施方案中,本文提供的融合蛋白不包含接头。在一些实施方案中,接头存在于任何域或蛋白质(例如,腺苷脱氨酶、napDNAbp和/或UGI域)之间。在一些实施方案中,
上文一般结构中使用的“-”表示存在任选的接头序列。
[0571] 在一些实施方案中,UGI域包含野生型UGI或如SEQ ID NO:3中所示的UGI。在一些实施方案中,本文提供的UGI蛋白包括UGI的片段和与UGI或UGI片段同源的蛋白质。例如,在
一些实施方案中,UGI域包含SEQ ID NO:3中所示的氨基酸序列的片段。在一些实施方案中,
UGI片段包含氨基酸序列,所述氨基酸序列包含如SEQ ID NO:3中所示的氨基酸序列的至少
60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%。在一些实施方案中,UGI包含与SEQ ID NO:3
中所示的氨基酸序列同源的氨基酸序列,或与SEQ ID NO:3中所示的氨基酸序列的片段同
源的氨基酸序列。在一些实施方案中,包含UGI或UGI的片段或者UGI或UGI片段的同源物的
蛋白质称为“UGI变体”。UGI变体与UGI或其片段共享同源性。例如UGI变体与野生型UGI或如
SEQ ID NO:3中所示的UGI至少70%相同、至少75%相同、至少80%相同、至少85%相同、至
少90%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%相同、
至少99.5%相同或至少99.9%相同。在一些实施方案中,UGI变体包含UGI的片段,使得所述
片段与野生型UGI或如SEQ ID NO:3中所示的UGI的相应的片段至少70%相同、至少80%相
同、至少90%相同、至少95%相同、至少96%相同、至少97%相同、至少98%相同、至少99%
相同、至少99.5%相同或至少99.9%。在一些实施方案中,UGI包含以下氨基酸序列:
[0572] >sp|P14739|UNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML(SEQ ID NO:3)
[0573] 本文提供了合适的UGI蛋白和核苷酸序列,并且另外的合适的UGI序列是本领域技术人员已知的,并且包括例如出版于Wang et al.,Uracil-DNA glycosylase inhibitor 
gene of bacteriophage PBS2 encodes a binding protein specific for uracil-DNA 
glycosylase.J.Biol.Chem.264:1163-1171(1989);Lundquist et al.,Site-directed 
mutagenesis and characterization of uracil-DNA glycosylase inhibitor 
protein.Role of specific carboxylic amino acids in complex formation with 
Escherichia coli uracil-DNA glycosylase.J.Biol.Chem.272:21408-21419(1997);
Ravishankar et al.,X-ray analysis of a complex of Escherichia coli uracil DNA 
glycosylase(EcUDG)with a proteinaceous inhibitor.The structure elucidation of 
a prokaryotic UDG.Nucleic Acids Res.26:4880-4887(1998);和Putnam et al.,
Protein mimicry of DNA from crystal structures of the uracil-DNA glycosylase 
inhibitor protein and its complex with Escherichia coli uracil-DNA 
glycosylase.J.Mol.Biol.287:331-346(1999)中的那些,每篇的全部内容通过引用并入本
文。
[0574] 应当理解,阻断或抑制碱基切除修复(例如肌苷的碱基切除)的另外的蛋白质也在本公开的范围内。在一些实施方案中,使用结合DNA的蛋白质。在另一个实施方案中,使用
UGI的替代物。在一些实施方案中,尿嘧啶糖基化酶抑制剂是结合单链DNA的蛋白质。例如,
尿嘧啶糖基化酶抑制剂可以是塔斯曼尼亚欧文氏菌(Erwinia tasmaniensis)单链结合蛋
白。在一些实施方案中,单链结合蛋白包含氨基酸序列(SEQ ID NO:29)。在一些实施方案
中,尿嘧啶糖基化酶抑制剂是结合尿嘧啶的蛋白质。在一些实施方案中,尿嘧啶糖基化酶抑
制剂是结合DNA中尿嘧啶的蛋白质。在一些实施方案中,尿嘧啶糖基化酶抑制剂是催化无活
性的尿嘧啶DNA-糖基化酶蛋白。在一些实施方案中,尿嘧啶糖基化酶抑制剂是催化无活性
的尿嘧啶DNA-糖基化酶蛋白,其不从DNA中切除尿嘧啶。例如,尿嘧啶糖基化酶抑制剂是
UdgX。在一些实施方案中,UdgX包含氨基酸序列(SEQ ID NO:30)。作为另一个实例,尿嘧啶
糖基化酶抑制剂是催化无活性的UDG。在一些实施方案中,催化无活性的UDG包含氨基酸序
列(SEQ ID NO:31)。应当理解,其他尿嘧啶糖基化酶抑制剂对于本领域技术人员而言是显
而易见的,并且在本公开的范围内。在一些实施方案中,尿嘧啶糖基化酶抑制剂是与SEQ ID 
NO:29-31的任一个同源的蛋白质。在一些实施方案中,尿嘧啶糖基化酶抑制剂是与SEQ ID 
NO:29-31的任一个至少50%相同、至少55%相同、至少60%相同、至少65%相同、至少70%
相同、至少75%相同、至少80%相同至少85%相同、至少90%相同、至少95%相同、至少96%
相同、至少98%相同、至少99%相同或至少99.5%相同的蛋白质。
[0575] 塔斯曼尼亚欧文氏菌SSB(热稳定性单链DNA结合蛋白)
[0576]
[0577] UdgX(与DNA中的尿嘧啶结合但不切除)
[0578]
[0579] UDG(催化无活性的人UDG,与DNA中的尿嘧啶结合但不切除)
[0580]
[0581] 包含核定位序列(NLS)的融合蛋白
[0582] 在一些实施方案中,本文提供的融合蛋白进一步包含一个或多个核靶向序列,例如核定位序列(NLS)。在一些实施方案中,NLS包含促进包含NLS的蛋白质输入细胞核中(例
如,通过核转运)的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白进一步包含
核定位序列(NLS)。在一些实施方案中,NLS与融合蛋白的N端融合。在一些实施方案中,NLS
与融合蛋白的C端融合。在一些实施方案中,NLS与IBR(例如,dISN)的N端融合。在一些实施
方案中,NLS与IBR(例如,dISN)的C端融合。在一些实施方案中,NLS与napDNAbp的N端融合。
在一些实施方案中,NLS与napDNAbp的C端融合。在一些实施方案中,NLS与腺苷脱氨酶的N端
融合。在一些实施方案中,NLS与腺苷脱氨酶的C端融合。在一些实施方案中,NLS经由一个或
多个接头与融合蛋白融合。在一些实施方案中,NLS与融合蛋白在没有接头的情况下融合。
在一些实施方案中,NLS包含本文提供或引用的NLS序列的任一个的氨基酸序列。在一些实
施方案中,NLS包含如SEQ ID NO:4或SEQ ID NO:5中所示的氨基酸序列。另外的核定位序列
是本领域已知的并且对于技术人员是显而易见的。例如,NLS序列描述于Plank et al.,
PCT/EP2000/011690中,其内容通过引用并入本文,用于其对示例性的核定位序列的公开。
在一些实施方案中,NLS包含氨基酸序列PKKKRKV(SEQ  ID  NO:4)或
MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO:5)。
[0583] 在一些实施方案中,具有腺苷脱氨酶和napDNAbp的示例性融合蛋白的一般结构包含以下结构中的任一种,其中NLS是核定位序列(例如,本文提供的任何NLS),NH2是融合蛋
白的N端,并且COOH是融合蛋白的C端。
[0584] 包含腺苷脱氨酶、napDNAbp和NLS的融合蛋白。
[0585] NH2-[NLS]-[腺苷脱氨酶]-[napDNAbp]-COOH;
[0586] NH2-[腺苷脱氨酶]-[NLS]-[napDNAbp]-COOH;
[0587] NH2-[腺苷脱氨酶]-[napDNAbp]-[NLS]-COOH;
[0588] NH2-[NLS]-[napDNAbp]-[腺苷脱氨酶]-COOH;
[0589] NH2-[napDNAbp]-[NLS]-[腺苷脱氨酶]-COOH;
[0590] NH2-[napDNAbp]-[腺苷脱氨酶]-[NLS]-COOH;
[0591] 在一些实施方案中,本文提供的融合蛋白不包含接头。在一些实施方案中,接头存在于一个或多个域或蛋白质(例如,腺苷脱氨酶、napDNAbp和/或NLS)之间。在一些实施方案
中,上文一般结构中使用的“-”表示存在任选的接头。
[0592] 包含腺苷脱氨酶、napDNAbp和碱基修复抑制剂(IBR)的融合蛋白。
[0593] NH2-[IBR]-[腺苷脱氨酶]-[napDNAbp]-COOH;
[0594] NH2-[腺苷脱氨酶]-[IBR]-[napDNAbp]-COOH;
[0595] NH2-[腺苷脱氨酶]-[napDNAbp]-[IBR]-COOH;
[0596] NH2-[IBR]-[napDNAbp]-[腺苷脱氨酶]-COOH;
[0597] NH2-[napDNAbp]-[IBR]-[腺苷脱氨酶]-COOH;
[0598] NH2-[napDNAbp]-[腺苷脱氨酶]-[IBR]-COOH;
[0599] 在一些实施方案中,本文提供的融合蛋白不包含接头。在一些实施方案中,接头存在于一个或多个域或蛋白质(例如,腺苷脱氨酶、napDNAbp和/或IBR)之间。在一些实施方案
中,上文一般结构中使用的“-”表示存在任选的接头。
[0600] 包含腺苷脱氨酶、napDNAbp、碱基修复抑制剂(IBR)和NLS的融合蛋白。
[0601] NH2-[IBR]-[NLS]-[腺苷脱氨酶]-[napDNAbp]-COOH;
[0602] NH2-[NLS]-[IBR]-[腺苷脱氨酶]-[napDNAbp]-COOH;
[0603] NH2-[NLS]-[腺苷脱氨酶]-[IBR]-[napDNAbp]-COOH;
[0604] NH2-[NLS]-[腺苷脱氨酶]-[napDNAbp]-[IBR]-COOH;
[0605] NH2-[IBR]-[腺苷脱氨酶]-[NLS]-[napDNAbp]-COOH;
[0606] NH2-[腺苷脱氨酶]-[IBR]-[NLS]-[napDNAbp]-COOH;
[0607] NH2-[腺苷脱氨酶]-[NLS]-[IBR]-[napDNAbp]-COOH;
[0608] NH2-[腺苷脱氨酶]-[NLS]-[napDNAbp]-[IBR]-COOH;
[0609] NH2-[IBR]-[腺苷脱氨酶]-[napDNAbp]-[NLS]-COOH;
[0610] NH2-[腺苷脱氨酶]-[IBR]-[napDNAbp]-[NLS]-COOH;
[0611] NH2-[腺苷脱氨酶]-[napDNAbp]-[IBR]-[NLS]-COOH;
[0612] NH2-[腺苷脱氨酶]-[napDNAbp]-[NLS]-[IBR]-COOH;
[0613] NH2-[IBR]-[NLS]-[napDNAbp]-[腺苷脱氨酶]-COOH;
[0614] NH2-[NLS]-[IBR]-[napDNAbp]-[腺苷脱氨酶]-COOH;
[0615] NH2-[NLS]-[napDNAbp]-[IBR]-[腺苷脱氨酶]-COOH;
[0616] NH2-[NLS]-[napDNAbp]-[腺苷脱氨酶]-[IBR]-COOH;
[0617] NH2-[IBR]-[napDNAbp]-[NLS]-[腺苷脱氨酶]-COOH;
[0618] NH2-[napDNAbp]-[IBR]-[NLS]-[腺苷脱氨酶]-COOH;
[0619] NH2-[napDNAbp]-[NLS]-[IBR]-[腺苷脱氨酶]-COOH;
[0620] NH2-[napDNAbp]-[NLS]-[腺苷脱氨酶]-[IBR]-COOH;
[0621] NH2-[IBR]-[napDNAbp]-[腺苷脱氨酶]-[NLS]-COOH;
[0622] NH2-[napDNAbp]-[IBR]-[腺苷脱氨酶]-[NLS]-COOH;
[0623] NH2-[napDNAbp]-[腺苷脱氨酶]-[IBR]-[NLS]-COOH;
[0624] NH2-[napDNAbp]-[腺苷脱氨酶]-[NLS]-[IBR]-COOH;
[0625] 在一些实施方案中,本文提供的融合蛋白不包含接头。在一些实施方案中,接头存在于一个或多个域或蛋白质(例如,腺苷脱氨酶、napDNAbp、NLS和/或IBR)之间。在一些实施
方案中,上文一般结构中使用的“-”表示存在任选的接头。
[0626] 本公开的一些方面提供了融合蛋白,其包含核酸可编程DNA结合蛋白(napDNAbp)和至少两个腺苷脱氨酶域。不希望受任何特定理论的束缚,腺苷脱氨酶的二聚化(例如,顺
式或反式)可以改善融合蛋白修饰核酸碱基(例如使腺嘌呤脱氨基)的能力(例如,效率)。在
一些实施方案中,任何融合蛋白可以包含2、3、4或5个腺苷脱氨酶域。在一些实施方案中,本
文提供的任何融合蛋白包含两个腺苷脱氨酶。在一些实施方案中,本文提供的任何融合蛋
白仅含有两个腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶是相同的。在一些实施方案中,
腺苷脱氨酶是本文提供的任何腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶是不同的。在一
些实施方案中,第一腺苷脱氨酶是本文提供的任何腺苷脱氨酶,并且第二腺苷是本文提供
的任何腺苷脱氨酶,但与第一腺苷脱氨酶不相同。作为一个实例,融合蛋白可以包含第一腺
苷脱氨酶和第二腺苷脱氨酶,两者均包含SEQ ID NO:72的氨基酸序列,其含有来自ecTadA
(SEQ ID NO:1)的A106V、D108N、D147Y和E155V突变。作为另一个实例,融合蛋白可以包含第
一腺苷脱氨酶域,其包含SEQ ID NO:72的氨基酸序列,其含有来自ecTadA(SEQ ID NO:1)的
A106V、D108N、D147Y和E155V突变,以及第二腺苷脱氨酶,其包含SEQ ID NO:421的氨基酸序
列,其含有来自ecTadA(SEQ ID NO:1)的L84F、A106V、D108N、H123Y、D147Y、E155V和I156F突变。
[0627] 在一些实施方案中,融合蛋白包含两个腺苷脱氨酶(例如,第一腺苷脱氨酶和第二腺苷脱氨酶)。在一些实施方案中,融合蛋白包含第一腺苷脱氨酶和第二腺苷脱氨酶。在一
些实施方案中,第一腺苷脱氨酶在融合蛋白中第二腺苷脱氨酶的N端。在一些实施方案中,
第一腺苷脱氨酶在融合蛋白中第二腺苷脱氨酶的C端。在一些实施方案中,第一腺苷脱氨酶
和第二脱氨酶直接地或经由接头融合。在一些实施方案中,接头是本文提供的任何接头,例
如,“接头”部分中描述的任何接头。在一些实施方案中,接头包含SEQ ID NO:10、37-40、
384-386或685-688的任一个的氨基酸序列。在一些实施方案中,第一腺苷脱氨酶与第二腺
苷脱氨酶相同。在一些实施方案中,第一腺苷脱氨酶和第二腺苷脱氨酶是本文所述的任何
腺苷脱氨酶。在一些实施方案中,第一腺苷脱氨酶和第二腺苷脱氨酶不同。在一些实施方案
中,第一腺苷脱氨酶是本文提供的任何腺苷脱氨酶。在一些实施方案中,第二腺苷脱氨酶是
本文提供的任何腺苷脱氨酶,但与第一腺苷脱氨酶不相同。在一些实施方案中,第一腺苷脱
氨酶是ecTadA腺苷脱氨酶。在一些实施方案中,第一腺苷脱氨酶包含与SEQ ID NO:1、64-
84、420-437、672-684的任一个中所示的氨基酸序列的任一个或与本文提供的任何腺苷脱
氨酶至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方
案中,第一腺苷脱氨酶包含SEQ ID NO:1的氨基酸序列。在一些实施方案中,第二腺苷脱氨
酶包含与SEQ ID NO:1、64-84、420-437、672-684的任一个中所示的氨基酸序列的任一个或
与本文提供的任何腺苷脱氨酶至少60%、至少65%、至少70%、至少75%、至少80%、至少
85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的
氨基酸序列。在一些实施方案中,第二腺苷脱氨酶包含SEQ ID NO:1的氨基酸序列。在一些
实施方案中,融合蛋白的第一腺苷脱氨酶和第二腺苷脱氨酶包含ecTadA(SEQ ID NO:1)中
的突变,或另一种腺苷脱氨酶中的相应的突变,如表4中提供的构建体的任一个中所示(例
如,pNMG-371、pNMG-477、pNMG-576、pNMG-586和pNMG-616)。在一些实施方案中,融合蛋白包含表4中的构建体(例如,pNMG-371、pNMG-477、pNMG-576、pNMG-586和pNMG-616)的任一个的
两个腺苷脱氨酶(例如,第一腺苷脱氨酶和第二腺苷脱氨酶)。
[0628] 在一些实施方案中,具有第一腺苷脱氨酶、第二腺苷脱氨酶和napDNAbp的示例性融合蛋白的一般结构包含以下结构中的任一种,其中NLS是核定位序列(例如,本文提供的
任何NLS),NH2是融合蛋白的N端,并且COOH是融合蛋白的C端。
[0629] 包含第一腺苷脱氨酶、第二腺苷脱氨酶和napDNAbp的融合蛋白。
[0630] NH2-[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[napDNAbp]-COOH;
[0631] NH2-[第一腺苷脱氨酶]-[napDNAbp]-[第二腺苷脱氨酶]-COOH;
[0632] NH2-[napDNAbp]-[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-COOH;
[0633] NH2-[第二腺苷脱氨酶]-[第一腺苷脱氨酶]-[napDNAbp]-COOH;
[0634] NH2-[第二腺苷脱氨酶]-[napDNAbp]-[第一腺苷脱氨酶]-COOH;
[0635] NH2-[napDNAbp]-[第二腺苷脱氨酶]-[第一腺苷脱氨酶]-COOH;
[0636] 在一些实施方案中,本文提供的融合蛋白不包含接头。在一些实施方案中,接头存在于一个或多个域或蛋白质(例如,第一腺苷脱氨酶、第二腺苷脱氨酶和/或napDNAbp)之
间。在一些实施方案中,上文一般结构中使用的“-”表示存在任选的接头。
[0637] 包含第一腺苷脱氨酶、第二腺苷脱氨酶、napDNAbp和NLS的融合蛋白。
[0638] NH2-[NLS]-[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[napDNAbp]-COOH;
[0639] NH2-[第一腺苷脱氨酶]-[NLS]-[第二腺苷脱氨酶]-[napDNAbp]-COOH;
[0640] NH2-[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[NLS]-[napDNAbp]-COOH;
[0641] NH2-[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[napDNAbp]-[NLS]-COOH;
[0642] NH2-[NLS]-[第一腺苷脱氨酶]-[napDNAbp]-[第二腺苷脱氨酶]-COOH;
[0643] NH2-[第一腺苷脱氨酶]-[NLS]-[napDNAbp]-[第二腺苷脱氨酶]-COOH;
[0644] NH2-[第一腺苷脱氨酶]-[napDNAbp]-[NLS]-[第二腺苷脱氨酶]-COOH;
[0645] NH2-[第一腺苷脱氨酶]-[napDNAbp]-[第二腺苷脱氨酶]-[NLS]-COOH;
[0646] NH2-[NLS]-[napDNAbp]-[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-COOH;
[0647] NH2-[napDNAbp]-[NLS]-[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-COOH;
[0648] NH2-[napDNAbp]-[第一腺苷脱氨酶]-[NLS]-[第二腺苷脱氨酶]-COOH;
[0649] NH2-[napDNAbp]-[第一腺苷脱氨酶]-[第二腺苷脱氨酶]-[NLS]-COOH;
[0650] NH2-[NLS]-[第二腺苷脱氨酶]-[第一腺苷脱氨酶]-[napDNAbp]-COOH;
[0651] NH2-[第二腺苷脱氨酶]-[NLS]-[第一腺苷脱氨酶]-[napDNAbp]-COOH;
[0652] NH2-[第二腺苷脱氨酶]-[第一腺苷脱氨酶]-[NLS]-[napDNAbp]-COOH;
[0653] NH2-[第二腺苷脱氨酶]-[第一腺苷脱氨酶]-[napDNAbp]-[NLS]-COOH;
[0654] NH2-[NLS]-[第二腺苷脱氨酶]-[napDNAbp]-[第一腺苷脱氨酶]-COOH;
[0655] NH2-[第二腺苷脱氨酶]-[NLS]-[napDNAbp]-[第一腺苷脱氨酶]-COOH;
[0656] NH2-[第二腺苷脱氨酶]-[napDNAbp]-[NLS]-[第一腺苷脱氨酶]-COOH;
[0657] NH2-[第二腺苷脱氨酶]-[napDNAbp]-[第一腺苷脱氨酶]-[NLS]-COOH;
[0658] NH2-[NLS]-[napDNAbp]-[第二腺苷脱氨酶]-[第一腺苷脱氨酶]-COOH;
[0659] NH2-[napDNAbp]-[NLS]-[第二腺苷脱氨酶]-[第一腺苷脱氨酶]-COOH;
[0660] NH2-[napDNAbp]-[第二腺苷脱氨酶]-[NLS]-[第一腺苷脱氨酶]-COOH;
[0661] NH2-[napDNAbp]-[第二腺苷脱氨酶]-[第一腺苷脱氨酶]-[NLS]-COOH;
[0662] 在一些实施方案中,本文提供的融合蛋白不包含接头。在一些实施方案中,接头存在于一个或多个域或蛋白质(例如,第一腺苷脱氨酶、第二腺苷脱氨酶、napDNAbp和/或NLS)
之间。在一些实施方案中,上文一般结构中使用的“-”表示存在任选的接头。
[0663] 应当理解,本公开的融合蛋白可以包含一个或多个另外的特征。例如,在一些实施方案中,融合蛋白可以包含细胞质定位序列、输出序列(例如核输出序列)或其他定位序列,
以及可用于融合蛋白的溶解、纯化或检测的序列标签。本文提供的合适的蛋白质标签包括
但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、调蛋白标签、FLAG标签、血凝素
(HA)标签、多组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)-标签、nus
标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、
Softag(例如,Softag 1、Softag 3)、strep标签、生物素连接酶标签、FlAsH标签、V5标签和
SBP标签。另外的合适的序列对于本领域技术人员而言是显而易见的。在一些实施方案中,
融合蛋白包含一个或多个His标签。
[0664] 接头
[0665] 在某些实施方案中,接头可以用于连接本文所述的任何蛋白质或蛋白质域。接头可以简单地为共价键,或者它可以是长度为许多原子的聚合物接头。在某些实施方案中,接
头是多肽或基于氨基酸。在其他实施方案中,接头不是肽样的。在某些实施方案中,接头是
共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,接头是酰胺连接的
碳-氮键。在某些实施方案中,接头是环状或非环状,取代或未取代的,分支或未分支的脂肪
族或杂脂肪族接头。在某些实施方案中,接头是聚合物(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,接头包含氨基烷酸的单体、二聚体或聚合物。在某些实施方案
中,接头包含氨基烷酸(例如甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中,接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实
施方案中,接头基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,接头包含聚乙二
醇部分(PEG)。在其他实施方案中,接头包含氨基酸。在某些实施方案中,接头包含肽。在某
些实施方案中,接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯环。接头可以
包括官能化部分以促进亲核试剂(例如,硫醇、氨基)从肽附接至接头。任何亲电子试剂都可
以用作接头的一部分。示例性亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔受体、烷
基卤化物、芳基卤化物、酰基卤化物和异硫氰酸酯。
[0666] 在一些实施方案中,接头是一个氨基酸或多个氨基酸(例如肽或蛋白质)。在一些实施方案中,接头是键(例如,共价键)、有机分子、基团、聚合物或化学部分。在一些实施方
案中,接头的长度为5-100个氨基酸,例如长度为5、6、7、8、9、10、11、12、13、14、15、16、17、
18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、
70-80、80-90、90-100、100-110、110-120、120-130、130-140、140-150或150-200个氨基酸。
也考虑了更长或更短的接头。在一些实施方案中,接头包含氨基酸序列SGSETPGTSESATPES
(SEQ ID NO:10),其也可以称为XTEN接头。在一些实施方案中,接头包含氨基酸序列SGGS
(SEQ ID NO:37)。在一些实施方案中,接头包含(SGGS)n(SEQ ID NO:37)、(GGGS)n(SEQ ID 
NO:38)、(GGGGS)n(SEQ ID  NO:39)、(G)n、(EAAAK)n(SEQ ID NO:40)、(GGS)n、
SGSETPGTSESATPES(SEQ ID NO:10)或(XP)n基序,或这些的任何的组合,其中n独立地是1和
30之间的整数,并且其中X是任何氨基酸。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、
11、12、13、14或15。在一些实施方案中,接头包含SGSETPGTSESATPES(SEQ ID NO:10)和SGGS(SEQ ID NO:37)。在一些实施方案中,接头包含SGGSSGSETPGTSESATPESSGGS(SEQ ID NO:
384)。在一些实施方案中,接头包含SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:
385)。在一些实施方案中,接头包含GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSP
AGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS(SEQ ID NO:386)。在
一些实施方案中,接头长度为24个氨基酸。在一些实施方案中,接头包含氨基酸
SGGSSGGSSGSETPGTSESATPES(SEQ ID NO:685)。在一些实施方案中,接头长度为40个氨基
酸。在一些实施方案中,接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSG
GS(SEQ ID NO:686)。在一些实施方案中,接头长度为64个氨基酸。在一些实施方案中,接头
包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSG
GS(SEQ ID NO:687)。在一些实施方案中,接头长度为92个氨基酸。在一些实施方案中,接头
包含氨基酸序列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPG
TSTEPSEGSAPGTSESATPESGPGSEPATS(SEQ ID NO:688)。应当理解,本文提供的任何接头可以
用于连接第一腺苷脱氨酶和第二腺苷脱氨酶;腺苷脱氨酶(例如,第一或第二腺苷脱氨酶)
和napDNAbp;napDNAbp和NLS;或腺苷脱氨酶(例如,第一或第二腺苷脱氨酶)和NLS。
[0667] 在一些实施方案中,本文提供的任何融合蛋白包含经由接头彼此融合的腺苷脱氨酶和napDNAbp。在一些实施方案中,本文提供的任何融合蛋白包含经由接头彼此融合的第
一腺苷脱氨酶和第二腺苷脱氨酶。在一些实施方案中,本文提供的任何融合蛋白包含NLS,
其可以与腺苷脱氨酶(例如,第一和/或第二腺苷脱氨酶)、核酸可编程DNA结合蛋白
(napDNAbp)和或碱基修复抑制剂(IBR)融合。可以采用腺苷脱氨酶(例如,工程化的ecTadA)
和napDNAbp(例如,Cas9域)之间和/或第一腺苷脱氨酶和第二腺苷脱氨酶之间的各种接头
长度和柔性(例如,范围为从形式(GGGGS)n(SEQ ID NO:38)、(GGGGS)n(SEQ ID NO:39)和
(G)n的非常柔性接头到形式(EAAAK)n(SEQ ID NO:40)、(SGGS)n(SEQ ID NO:37)、
SGSETPGTSESATPES(SEQ ID NO:10)(参见例如,Guilinger JP,Thompson DB,Liu 
DR.Fusion of catalytically inactive Cas9 to FokI nuclease improves the 
specificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;其全部内
容通过引用并入本文)和(XP)n的更刚性的接头),以达到用于特定应用的脱氨酶活性的最
佳长度。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的任何融合蛋白
的腺苷脱氨酶和napDNAbp,和/或第一腺苷脱氨酶和第二腺苷脱氨酶经由接头融合,所述接
头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:10),SGGS(SEQ  ID NO:37)、
SGGSSGSETPGTSESATPESSGGS(SEQ ID NO:384)、SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ 
ID NO:385)或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEG
SAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS(SEQ ID NO:386)。在一些实施方案中,接头
长度为24个氨基酸。在一些实施方案中,接头包含氨基酸SGGSSGGSSGSETPGTSESATPES(SEQ 
ID NO:685)。在一些实施方案中,接头长度为40个氨基酸。在一些实施方案中,接头包含氨
基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS(SEQ ID NO:686)。在一些实施方
案中,接头长度为64个氨基酸。在一些实施方案中,接头包含氨基酸序列SGGSSGGSSGSETPG
TSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:687)。在一些实施方
案中,接头长度为92个氨基酸。在一些实施方案中,接头包含氨基酸序列PGSPAGSPTSTEEGT
SESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS
(SEQ ID NO:688)。
[0668] 本公开的一些方面提供了包含Cas9域和腺苷脱氨酶的融合蛋白。示例性融合蛋白包括但不限于以下融合蛋白(为了清楚起见,腺苷脱氨酶域以粗体显示;ecTadA脱氨酶域的
突变以粗体下划线显示;XTEN接头以斜体显示;UGI/AAG/EndoV域以粗体斜体显示;NLS以下
划线斜体显示):
[0669] ecTadA(wt)-XTEN-nCas9-NLS:
[0670]
[0671] ecTadA(D108N)-XTEN-nCas9-NLS:(哺乳动物构建体,DNA上有活性,A至G编辑):
[0672]
[0673]
[0674] ecTadA(D108G)-XTEN-nCas9-NLS:(哺乳动物构建体,DNA上有活性,A至G编辑):
[0675]
[0676] ecTadA(D108V)-XTEN-nCas9-NLS:(哺乳动物构建体,DNA上有活性,A至G编辑):
[0677]
[0678] ecTadA(D108N)-XTEN-nCas9-UGI-NLS(A至G编辑器的BE3类似物):
[0679]
[0680]
[0681] ecTadA(D108G)-XTEN-nCas9-UGI-NLS(A至G编辑器的BE3类似物):
[0682]
[0683] ecTadA(D108V)-XTEN-nCas9-UGI-NLS(A至G编辑器的BE3类似物):
[0684]
[0685]
[0686] ecTadA(D108N)-XTEN-dCas9-UGI-NLS(哺乳动物细胞,A至G编辑器的BE2类似物):
[0687]
[0688]
[0689] ecTadA(D108G)-XTEN-dCas9-UGI-NLS(哺乳动物细胞,A至G编辑器的BE2类似物):
[0690]
[0691] ecTadA(D108V)-XTEN-dCas9-UGI-NLS(哺乳动物细胞,A至G编辑器的BE2类似物):
[0692]
[0693]
[0694] ecTadA(D108N)-XTEN-nCas9-AAG(E125Q)-NLS-cat.烷基腺苷糖基化酶:
[0695]
[0696]
[0697] ecTadA(D108G)-XTEN-nCas9-AAG(E125Q)-NLS-cat.烷基腺苷糖基化酶:
[0698]
[0699] ecTadA(D108V)-XTEN-nCas9-AAG(E125Q)-NLS-cat.烷基腺苷糖基化酶:
[0700]
[0701]
[0702] ecTadA(D108N)-XTEN-nCas9-EndoV(D35A)-NLS:含有cat.内切核酸酶V:
[0703]
[0704]
[0705] ecTadA(D108G)-XTEN-nCas9-EndoV(D35A)-NLS:含有cat.内切核酸酶V:
[0706]
[0707] ecTadA(D108V)-XTEN-nCas9-EndoV(D35A)-NLS:含有cat.内切核酸酶V:
[0708]
[0709]
[0710] 源自第一轮演化(细菌中)的变体ecTadA(H8Y_D108N_N127S)-XTEN-dCas9:
[0711]
[0712]
[0713] 来自第二轮演化(细菌中)的富集的变体ecTadA(H8Y_D108N_N127S_E155X)-XTEN-dCas9;X=D、G或V:
[0714]
[0715] ecTadA*-XTEN-nCas9-GGS-DNA修复抑制剂-GGS-NLS(抑制剂=UGI、AAG*E125Q或EndoV*D35A)
[0716] pNMG-160:ecTadA(D108N)-XTEN-nCas9-GGS-AAG*(E125Q)-GGS-NLS
[0717]
[0718]
[0719] pNMG-161:ecTadA(D108N)-XTEN-nCas9-GGS-EndoV*(D35A)-GGS-NLS
[0720]
[0721]
[0722] pNMG-371:
[0723] ecTadA(L84F_A106V_p108N_H123Y_D147Y_E155V_I156F)-SGGS-SGGS-XTEN-SGGS-SGGS-ecTadA(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)-SGGS-SGGS-XTEN-SGGS-
SGGS-nCas9-SGGS-NLS
[0724]
[0725] pNMG-616氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)2_nCas9_SGGS_NLS
[0726]
[0727]
[0728] p NM G -6 2 4氨 基 酸 序列 :e c Ta d A (野生型) - 32  a .a .接 头 -ecTadA(W23R_H36L_P48A_R51L_L84F_A106v_D108N_H123Y_s146C_D147Y_R152P_E155V_I156F_K157N)-24 a.a.接头_nCas9_SGGS_NLS
[0729]
[0730]
[0731] pNMG-476氨基酸序列(演化#3异二聚体,wt TadA+TadA evo#3突变):ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)-(SGG S)2-XTEN-(SGGS)
2_nCas9_SGGS_NLS
[0732]
[0733] pNMG-477氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)2_nCas9_SGGS_NLS
[0734]
[0735] p NM G -5 5 8氨 基 酸 序列 :e c Ta d A (野生型) - 32  a .a .接 头 -ecTadA(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)-24 a.a.接头_nCas9_SGGS_NLS[0736]
[0737]
[0738] pNMG-576氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)2_nCas9_GGS_NLS
[0739]
[0740]
[0741] pNMG-577氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)
2_nCas9_GGS_NLS
[0742]
[0743] pNMG-586氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)2_nCas9_GGS_NLS
[0744]
[0745]
[0746] pNMG-588氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)
2_nCas9_GGS_NLS
[0747]
[0748]
[0749] pNMG-620氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)2_nCas9_GGS_NLS
[0750]
[0751]
[0752] pNMG-617氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)2_nCas9_GGS_NLS
[0753]
[0754] pNMG-618氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)2_nCas9_GGS_NLS
[0755]
[0756]
[0757] pNMG-620氨基酸序列:ecTadA(野生型)-(SGGS)2-XTEN-(SGGS)2-ecTadA(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)-(SGGS)2-XTEN-(SGGS)2_nCas9_GGS_NLS
[0758]
[0759]
[0760] p NM G -6 2 1氨 基 酸 序列 :e c Ta d A (野生型) - 32  a .a .接 头 -ecTadA(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)-24 a.a.接头_nCas9_GGS_NLS
[0761]
[0762] p NM G -6 2 2氨 基 酸 序列 :e c Ta d A (野生型) - 32  a .a .接 头 -ecTadA(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V_I156F_K157N)-24 a.a.接头_nCas9_GGS_NLS
[0763]
[0764] p NM G -6 2 3氨 基 酸 序列 :e c Ta d A (野生型) - 32  a .a .接 头 -ecTadA(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)-24 a.a.接头_nCas9_GGS_NLS
[0765]
[0766]
[0767] 在一些实施方案中,融合蛋白包含与SEQ ID NO:11-28、387、388、440、691-706的任一个中所示的氨基酸序列的任一个,或者与本文提供的任何融合蛋白至少60%、至少
65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,融合蛋白包含与SEQ ID NO:
11-28、387、388、440、691-706中所示的氨基酸序列的任一个,或本文提供的任何融合蛋白
相比,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、
26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变的氨基酸序列。在一些实施方案中,融合蛋白包含与SEQ ID NO:11-28、387、
388、440、691-706中所示的氨基酸序列的任一个,或本文提供的任何融合蛋白相比,具有至
少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个、至少170个、至少200个、至少300个、至少
400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少1100
个、至少1200个、至少1300个、至少1400个、至少1500个、至少1600个、至少1700个、至少1750个或至少1800个相同的连续氨基酸残基的氨基酸序列。
[0768] 具有引导核酸的核酸可编程DNA结合蛋白(napDNAbp)复合物
[0769] 本公开的一些方面提供了包含本文提供的任何融合蛋白,以及与融合蛋白的napDNAbp结合的引导核酸的复合物。本公开的一些方面提供了包含本文提供的任何融合蛋
白,以及与融合蛋白的Cas9域(例如,dCas9、核酸酶活性Cas9或Cas9切口酶)结合的引导RNA
的复合物。
[0770] 在一些实施方案中,引导核酸(例如引导RNA)为15-100个核苷酸长,并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中,引导RNA长度为15、16、17、18、
19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、
44、45、46、47、48、49或50个核苷酸。在一些实施方案中,引导RNA包含与靶序列互补的15、
16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸的序列。在一些实施方案中,靶序列是DNA序列。在一些实施方案中,靶序列是
RNA序列。在一些实施方案中,靶序列是哺乳动物基因组中的序列。在一些实施方案中,靶序
列是人基因组中的序列。在一些实施方案中,靶序列的3′末端紧邻规范PAM序列(NGG)。在一
些实施方案中,引导核酸(例如,引导RNA)与疾病或病症相关的序列互补。在一些实施方案
中,引导核酸(例如,引导RNA)与同疾病或病症相关的序列互补,所述序列在选自表1和2的
任一个中公开的基因的基因中具有突变。
[0771] 使用包含腺苷脱氨酶和核酸可编程DNA结合蛋白(napDNAbp)域的融合蛋白的方法
[0772] 本公开的一些方面提供了使用融合蛋白或包含引导核酸(例如gRNA)和本文提供的核碱基编辑器的复合物的方法。例如,本公开的一些方面提供了包括使DNA或RNA分子与
本文提供的任何融合蛋白接触,以及与至少一种引导核酸(例如,引导RNA)接触的方法,其
中引导核酸(例如,引导RNA)约15-100个核苷酸长,并且包含与靶序列互补的至少10个连续
核苷酸的序列。在一些实施方案中,靶序列的3’末端紧邻规范PAM序列(NGG)。在一些实施方
案中,靶序列的3’末端不与规范PAM序列(NGG)直接相邻。在一些实施方案中,靶序列的3’末
端紧邻AGC、GAG、TTT、GTG或CAA序列。
[0773] 在一些实施方案中,靶DNA序列包含与疾病或病症相关的序列。在一些实施方案中,靶DNA序列包含与疾病或病症相关的点突变。在一些实施方案中,融合蛋白(例如,包含
腺苷脱氨酶和Cas9域)或复合物的活性导致点突变的校正。在一些实施方案中,靶DNA序列
包含与疾病或病症相关的G→A点突变,并且其中突变体A碱基的脱氨基作用产生与疾病或
病症无关的序列。在一些实施方案中,靶DNA序列编码蛋白质,并且点突变在密码子中并导
致与野生型密码子相比由突变体密码子编码的氨基酸中的变化。在一些实施方案中,突变
体A的脱氨基作用导致由突变体密码子编码的氨基酸的变化。在一些实施方案中,突变体A
的脱氨基作用产生编码野生型氨基酸的密码子。在一些实施方案中,接触在受试者体内。在
一些实施方案中,受试者具有或已经诊断患有疾病或病症。在一些实施方案中,所述疾病或
病症是苯丙尿症、von Willebrand病(von Willebrand disease)(vWD)、与突变体PTEN或
BRCA1相关的新生性疾病或利-弗劳梅尼(Li-Fraumeni)综合征。可以使用本文提供的核碱
基编辑器治疗的示例性疾病和病症的列表显示于表1中。表1包括靶基因、待校正的突变、相
关疾病和相关前间隔区和PAM的核苷酸序列。
[0774] 表1-可以使用本文提供的核碱基编辑器治疗的示例性疾病的列表。在前间隔器中待编辑的A用下划线表示,而PAM用粗体表示。
[0775]
[0776] 一些实施方案提供了用于使用本文提供的DNA编辑融合蛋白的方法。在一些实施方案中,融合蛋白用于通过使靶核碱基(例如A残基)脱氨基而将点突变引入到核酸中。在一
些实施方案中,靶核碱基的脱氨基作用导致遗传缺陷的校正,例如在校正导致基因产物中
功能丧失的点突变中。在一些实施方案中,遗传缺陷与疾病或病症(例如溶酶体贮积病或代
谢性疾病,诸如例如I型糖尿病)相关。在一些实施方案中,本文提供的方法用于将失活性点
突变引入到编码与疾病或病症相关的基因产物的基因或等位基因中。例如,在一些实施方
案中,本文提供了采用DNA编辑融合蛋白将失活性点突变引入到癌基因中的方法(例如,在
增殖性疾病的治疗中)。在一些实施方案中,失活性突变可以在编码序列中产生提前终止密
码子,其导致截短的基因产物(例如缺乏全长蛋白质功能的截短的蛋白质)的表达。
[0777] 在一些实施方案中,本文中提供的方法的目的是经由基因组编辑恢复功能失调基因的功能。可以验证本文提供的核碱基编辑蛋白以用于体外基于基因编辑的人治疗学,例
如通过校正人细胞培养物中的疾病相关的突变。本领域技术人员将理解,本文提供的核碱
基编辑蛋白,例如包含核酸可编程DNA结合蛋白(例如,Cas9)和腺苷脱氨酶域的融合蛋白可
以用于校正任何单点G至A或C至T突变。在第一种情况下,突变体A对I的脱氨基作用校正突
变,而在后一种情况下,与突变体T碱基配对的A的脱氨基作用及随后的一轮复制校正突变。
可以校正的示例性点突变列于表1和2中。
[0778] 疾病相关基因和等位基因中的点突变的成功校正为治疗学和基础研究中的应用开辟了基因校正的新策略。像所公开的核酸可编程DNA结合蛋白和腺苷脱氨酶域的融合物
一样,位点特异性单碱基修饰系统也应用于“反向”基因治疗,其中某些基因功能得以有目
的地抑制或消除。在这些情况下,导致蛋白质中突变性失活的位点特异性突变残基或抑制
蛋白质的功能的突变可以用于在体外、离体或体内消除或抑制蛋白质功能。
[0779] 本公开提供了用于治疗诊断患有与点突变相关或由点突变引起的疾病的受试者的方法,所述点突变可以通过本文提供的DNA编辑融合蛋白进行校正。例如,在一些实施方
案中,提供的方法包括向患有此类疾病(例如,与如上所述的点突变相关的癌症)的受试者
施用有效量的校正点突变或将失活性突变引入到疾病相关基因中的腺苷脱氨酶融合蛋白。
在一些实施方案中,疾病是增殖性疾病。在一些实施方案中,疾病是遗传疾病。在一些实施
方案中,疾病是新生性疾病。在一些实施方案中,疾病是代谢性疾病。在一些实施方案中,疾
病是溶酶体贮积病。可以通过校正点突变或将失活性突变引入到疾病相关基因中来治疗的
其他疾病对于本领域技术人员来说是已知的,并且本公开内容在这方面不受限制。
[0780] 本公开提供了用于治疗另外的疾病或病症,例如与点突变相关或由点突变引起的疾病或病症的方法,所述点突变可以通过脱氨酶介导的基因编辑校正。本文描述了一些此
类疾病,并且基于本公开,可以用本文提供的策略和融合蛋白治疗的另外的合适的疾病对
于本领域技术人员将是显而易见的。下面列出了示例性合适的疾病和病症。应当理解,相应
序列中特定位置或残基的编号取决于所用的特定蛋白质和编号方案。编号可以不同,例如
在成熟蛋白质的前体和成熟蛋白质本身中,并且从物种到物种的序列差异可以影响编号。
本领域技术人员将能够通过本领域熟知的方法,例如通过序列比对和同源残基的测定,鉴
定任何同源蛋白质中和相应编码核酸中的相应残基。示例性合适的疾病和病症包括但不限
于:2-甲基-3-羟基丁酸尿症(2-methyl-3-hydroxybutyric aciduria);3beta-羟基类固醇
脱氢酶缺乏症(3beta-Hydroxysteroid dehydrogenase deficiency);3-甲基戊二酸尿症
(3-Methylglutaconic aciduria);3-氧代-5alpha-甾体delta4-脱氢酶缺乏症(3-Oxo-
5alpha-steroid delta 4-dehydrogenase deficiency);46,XY性别逆转,1、3和5型;5-氧
代丙烯酶缺乏症(5-Oxoprolinase deficiency);6-丙酮酰-四氢蝶呤合酶缺乏症(6-
pyruvoyl-tetrahydropterin synthase deficiency);Aarskog综合征;Aase综合征;软骨
生成不全(Achondrogenesis)2型;全色盲(Achromatopsia)2和7;获得性长QT综合征
Acrocallosal综合征,Schinzel型;Acrocapitofemoral发育不良;肢端发育不全
(Acrodysostosis)2,伴或不伴激素抵抗;Acroerythrokeratoderma;Acromicric发育不良;
Acth非依赖性大结节肾上腺增生2;激活性PI3K-delta综合征;急性间歇性卟啉症;缺乏酰
基辅酶A脱氢酶家族,成员9;Adams-Oliver综合征5和6;腺嘌呤磷酸核糖转移酶缺乏症;腺
苷酸激酶缺乏症;由于腺苷酸琥珀酸裂合酶缺乏引起的溶血性贫血;青少年肾单位肾痨
(nephronophthisis);肾-肝-胰腺发育不良;Meckel综合征7型;肾上腺脑白质营养不良
(Adrenoleukodystrophy);成人交界性大疱性表皮松解症(Adult  junctional 
epidermolysis bullosa);大疱性表皮松解症,交界性,localisata变体;成人神经元蜡样
脂褐质沉着症;成人神经元蜡样脂褐质沉着症;成人发病性共济失调伴有动眼神经失用症;
ADULT综合征;无纤维蛋白原血症和先天性无纤维蛋白原血症;常染色体隐性丙种球蛋白血
症2;年龄相关性黄斑变性3、6、11和12;Aicardi Goutieres综合征1、4和5;Chilbain狼疮1;
Alagille综合征1和2;Alexander病;尿黑酸尿;Allan-Herndon-Dudley综合征;普遍性先天
性脱发;Alpers脑病;Alpha-1-抗胰蛋白酶缺乏症;常染色体显性、常染色体隐性和X连
性Alport综合征;阿尔茨海默病,家族性,3,伴有痉挛性下肢瘫痪和失用症;阿尔茨海默病,
1、3和4型;低钙化类型和低成熟类型,IIA1釉质发育不全(Amelogenesis imperfecta);氨
酰化酶1缺乏症;阿米什婴儿癫痫综合征;淀粉样蛋白转运蛋白淀粉样变性;淀粉样变心肌
病,转甲状腺素蛋白相关;心肌病;肌萎缩侧索硬化症1、6、15(伴或不伴额颞叶痴呆)、22(伴或不伴额颞叶痴呆)和10型;带有TDP43内含物的额颞叶痴呆,TARDBP相关;Andermann综合
征;Andersen Tawil综合征;先天性长QT综合征;贫血症,非小细胞性溶血,由于G6PD缺乏;
Angelman综合征;严重的新生儿发病性脑病伴小头畸形;对自闭症的易感性,X连锁3;血管
病,遗传性,伴有肾病、动脉瘤和肌肉痉挛;血管紧张素i-转换酶,良性血清增加;无虹膜
(Aniridia),小脑性共济失调和精神发育迟滞;无甲症(Anonychia);抗凝血酶III缺乏症;
Antley-Bixler综合征伴生殖器异常和紊乱的类固醇生成;主动脉瘤,家族性胸部4、6和9;
胸主动脉瘤和主动脉夹层;多系统平滑肌功能障碍综合征;Moyamoya病5;再生障碍性贫血;
表观盐皮质激素过量;精氨酸酶缺乏症;精氨琥珀酸裂解酶缺乏症;芳香酶缺乏症;致心律
失常性右心室心肌病5、8和10型;原发性家族性肥厚心肌病;关节弯曲(Arthrogryposis)多
重先天性,远端,X连锁;关节弯曲肾功能不全胆汁淤积综合征;关节弯曲,肾功能不全,胆汁淤积2;天冬酰胺合成酶缺乏症;神经元迁移异常;共济失调伴维生素E缺乏症;共济失调,感
觉性,常染色体显性;共济失调-毛细血管扩张综合征;遗传性癌症易感综合征;
Atransferrinemia;心房颤动,家族性,11、12、13和16;房间隔缺损2、4和7(伴或不伴有房室传导缺陷);心房停滞2;房室隔缺损4;遗传性眼球萎缩(Atrophia  bulborum 
hereditaria);ATR-X综合征;Auriculocondylar综合征2;自身免疫性疾病,多系统,婴儿期
发病;自身免疫性淋巴细胞增生综合征,1a型;常染色体显性少汗型外胚层发育不良;常染
色体显性进行性外眼肌麻痹,伴有线粒体DNA缺失1和3;常染色体显性扭转肌张力障碍
(dystonia)4;常染色体隐性中央核心肌病;常染色体隐性先天性鱼鳞病1、2、3、4A和4B;常
染色体隐性皮肤松弛症(cutis laxa)IA和1B型;常染色体隐性少汗型外胚层发育不良综合
征;外胚层发育不良11b;少汗/头发/牙齿型,常染色体隐性;常染色体隐性低磷血症骨病;
Axenfeld-Rieger综合征3型;Bainbridge-Ropers综合征;Bannayan-Riley-Ruvalcaba综合
征;PTEN错构瘤综合征;Baraitser-Winter综合征1和2;Barakat综合征;Bardet-Biedl综合
征1、11、16和19;裸淋巴细胞综合征2型,互补群E;Bartter综合征产前2型;Bartter综合征3型,3伴有高钙尿(hypocalciuria)和4;基底神经节钙化,特发性,4;串珠的头发(Beaded 
hair);良性家族性血尿;良性家族性新生儿癫痫发作1和2;癫痫发作,良性家族性新生儿,
1,和/或肌无力;癫痫发作,早期婴儿癫痫性脑病7;良性家族性新生儿-婴儿癫痫发作;良性
遗传性舞蹈病;良性肩胛骨肌营养不良症伴有心肌病;Bernard-Soulier综合征,A1和A2型
(常染色体显性);Bestrophinopathy,常染色体隐性;beta地中海贫血;Bethlem肌病和
Bethlem肌病2;Bietti结晶视网膜营养不良;胆汁酸合成缺陷,先天性,2;生物素酶缺
乏症;Birk  Barel精神发育迟滞畸形综合征;睑裂、上睑下垂和倒转型内眦赘皮
(Blepharophimosis,ptosis,and epicanthus inversus);Bloom综合征;Borjeson-
Forssman-Lehmann综合征;Boucher Neuhauser综合征;短指症A1和A2型;短指症伴有高血
压;脑小血管病伴有出血;支链酮酸脱氢酶激酶缺乏症;Branchiootic综合征2和3;乳腺癌
早发;乳腺癌-卵巢癌,家族性1、2和4;脆性角膜综合征2;Brody肌病;支气管扩张伴或不伴
有升高的汗液氯化物3;Brown-Vialetto-Van laere综合征和Brown-Vialetto-Van Laere
综合征2;Brugada综合征;Brugada综合征1;心室颤动;阵发性家族性心室颤动;Brugada综
合征和Brugada综合征4;长QT综合征;心脏猝死;牛眼黄斑营养不良;Stargardt病4;锥杆营
养不良12;大疱性鱼鳞状红皮病;Burn-Mckeown综合征;念珠菌病,家族性,2、5、6和8;碳水化合物缺乏的糖蛋白综合征I和II型;碳酸酐酶VA缺乏症,由于高氨血症;结肠癌;心律失
常;长QT综合征,LQT1亚型;心脑肌病,致命婴儿期,由于细胞色素c氧化酶缺乏;心面皮肤
(Cardiofaciocutaneous)综合征;心肌病;Danon病;肥厚心肌病;左心室非致密性心肌病;
Carnevale综合征;Carney复合体,1型;肉碱酰基肉碱移位酶缺乏症;肉碱棕榈酰转移酶I、
II、II(迟发)和II(婴儿)缺乏症;白内障1、4,常染色体显性,常染色体显性,多类型,伴有小角膜,coppock样,青少年,伴有小角膜和糖尿,核弥漫性非进行性;儿茶酚胺能多形性室性
心动过速;尾部退化综合征;Cd8缺乏症,家族性;中央核心疾病;染色体1、9和16的着丝粒不稳定性和免疫缺陷;小脑性共济失调婴儿伴有进行性外眼肌和小脑性共济失调,精神发育
迟滞和平衡失调综合征2;脑淀粉样血管病,APP相关;脑常染色体显性和隐性动脉病伴有皮
质下梗塞和白质脑病;脑海绵状血管畸形2;脑眼面骨骼(Cerebrooculofacioskeletal)综
合征2;脑眼-面-骨骼综合征;脑血管微血管病伴有钙化和囊肿;蜡样脂褐质沉着神经元2、
6、7和10;Ch\xc3\xa9diak-Higashi综合征,Chediak-Higashi综合征,成人型;腓骨肌萎缩
病(Charcot-Marie-Tooth)1B、2B2、2C、2F、2I、2U(轴突)、1C(脱髓鞘)、显性中间体C、隐性中间体A、2A2、4C、4D、4H、IF、IVF和X型;肩胛骨脊髓性肌萎缩;远端脊髓性肌萎缩,先天性非进行性;脊柱肌肉萎缩,远端,常染色体隐性,5;连锁畸形(CHARGE association);儿童低磷酸酯酶症;成人低磷酸酯酶症;胆囊炎;进行性家族性肝内胆汁淤积3;胆汁淤积,肝内,妊娠期
3;胆汁甾醇贮积病;胆固醇单加氧酶(侧链切割)缺乏症;软骨发育异常
(Chondrodysplasia)Blomstrand型;软骨发育异常点状1,X连锁隐性和2X连锁显性;CHOPS
综合征;慢性肉芽肿病,常染色体隐性细胞色素b阳性,1和2型;Chudley-McCullough综合
征;纤毛运动障碍,原发性,7、11、15、20和22;瓜氨酸血症I型;瓜氨酸血症I和II型;锁骨颅骨发育不全;C样综合征;Cockayne综合征A型,;辅酶Q10缺乏症,原发性1、4和7;Coffin 
Siris/智力残疾;Coffin-Lowry综合征;Cohen综合征,;感冒引起的出汗综合征(Cold-
induced sweating syndrome)1;COLE-CARPENTER综合征2;结合细胞和体液免疫缺陷伴有
肉芽肿;联合的d-2-和1-2-羟基戊二酸尿症;联合的丙二酸和甲基丙二酸尿症;结合氧化磷
酸化缺陷1、3、4、12、15和25;部分和完全联合的17-alpha-羟化酶/17,20-裂解酶缺乏症;常见变异免疫缺陷9;补体成分4,部分缺乏,由于功能失调的c1抑制剂;补体因子B缺乏症;锥
全色盲;锥杆营养不良2和6;锥杆营养不良釉质发育不全;先天性肾上腺增生和先天性肾上
腺发育不全,X连锁;先天性无巨核细胞(amegakaryocytic)血小板减少症;先天性无虹膜;
先天性中枢通气不足;Hirschsprung病3;先天性挛缩蜘蛛脚样指(contractural 
arachnodactyly);先天性四肢和面部挛缩,肌张力减退和发育迟缓;先天性糖基化障碍1B、
1D、1G、1H、1J、1K、1N、1P、2C、2J、2K、IIm型;先天性红细胞生成异常贫血,I和II型;先天性外胚层发育不良的面部;先天性红细胞生成性卟啉症;先天性全身性脂肪代谢障碍2型;先天
性心脏病,多类型,2;先天性心脏病;主动脉弓中断;先天性脂质过度生长,血管畸形和表皮痣;非小细胞癌;卵巢新生物;心脏传导缺陷,非特异性;先天性微绒毛萎缩;先天性肌营
养不良症;由于部分LAMA2缺乏导致先天性肌肉营养不良症;先天性肌营养不良症-肌营养
不良蛋白聚糖病(dystroglycanopathy)伴有大脑和眼睛异常,A2、A7、A8、A11和A14型;先天
性肌营养不良症-肌营养不良蛋白聚糖病伴有精神发育迟滞,B2、B3、B5和B15型;先天性肌
营养不良症-肌营养不良蛋白聚糖病不伴有精神发育迟滞,B5型;先天性肌肉肥大-脑综合
征;先天性肌无力综合征,乙酰唑胺响应性;先天性肌病伴有纤维类型不成比例;先天性眼
部缺损;先天性静止性夜盲,1A、1B、1C、1E、1F和2A型;粪卟啉症(Coproporphyria);角膜扁平(Cornea plana)2;角膜营养不良,Fuchs内皮细胞,4;角膜内皮细胞营养不良症2型;角膜
脆性角膜红斑,蓝色巩膜和关节过度活动;Cornelia de Lange综合征1和5;冠状动脉疾病,
常染色体显性2;冠状动脉心脏疾病;高α脂蛋白血症(Hyperalphalipoproteinemia)2;皮质
发育不良,复杂,伴有其他脑部畸形5和6;皮质畸形,枕骨;皮质类固醇结合球蛋白缺乏症;
皮质酮甲基氧化酶2型缺乏症;Costello综合征;Cowden综合征1;扁平髋(Coxa plana);颅
骨骨干(Craniodiaphyseal)发育不良,常染色体显性;颅缝早闭1和4;颅缝早闭和牙齿异
常;肌酸缺乏症,X连锁;Crouzon综合征;隐眼(Cryptophthalmos)综合征;隐睾症,单侧或双侧;Cushing指骨关节黏连症(指/趾关节粘连);皮肤恶性黑色素瘤1;皮肤松弛症伴有骨质
营养不良症和伴有严重的肺、胃肠和泌尿系统异常;发绀(Cyanosis),短暂新生儿和非典型
性肾病;囊性纤维化;胱氨酸尿;细胞色素c氧化酶i缺乏症;细胞色素c氧化酶缺乏症;D-2-
羟基戊二酸尿症2;Darier病,节段性;聋伴有迷路发育不良小耳畸形和微小症(LAMM);耳
聋,常染色体显性3a、4、12、13、15,常染色体显性非综合征感觉神经病17、20和65;耳聋,常染色体隐性1A、2、3、6、8、9、12、15、16、18b、22、28、31、44、49、63、77、86和89;耳聋,耳蜗,伴有近视和智力障碍,不伴有前庭受累,常染色体显性,X连锁2;缺乏2-甲基丁酰辅酶A脱氢
酶;缺乏3-羟基酰基-CoA脱氢酶;缺乏alpha-甘露糖苷酶;缺乏芳香族-L-氨基酸脱羧酶;缺
乏双磷酸甘油酸变位酶;缺乏丁酰辅酶A脱氢酶;缺乏氧化酶;缺乏半乳糖激酶;缺乏胍基
乙酸甲基转移酶;缺乏透明质酸氨基葡糖苷酶(hyaluronoglucosaminidase);缺乏核糖-5-
磷酸异构酶;缺乏类固醇11-beta-单加氧酶;缺乏UDP葡萄糖-己糖-1-磷酸尿苷酰转移酶;
缺乏黄嘌呤氧化酶;Dejerine-Sottas病;腓骨肌萎缩病,ID和IVF型;Dejerine-Sottas综合
征,常染色体显性;树突状细胞、单核细胞、B淋巴细胞和自然杀伤淋巴细胞缺乏症;
Desbuquois发育不良2;Desbuquois综合征;DFNA2非综合征听力损失;糖尿病和尿崩症伴有
视神经萎缩和耳聋;糖尿病,2型和胰岛素依赖型,20;Diamond-Blackfan贫血症1、5、8和10;
腹泻3(分泌钠,先天性,综合征)和5(伴有簇绒性肠病,先天性);二羧酸氨基酸尿症;弥漫性
掌跖角化病,Bothnian型;Digitorenocerebral综合征;二氢蝶啶还原酶缺乏症;扩张型心
肌病1A、1AA、1C、1G、1BB、1DD、1FF、1HH、1I、1KK、1N、1S、1Y和3B;左心室致密化不全3;由于细胞色素p450氧化还原酶缺乏的紊乱的类固醇生成;远端关节弯曲2B型;远端遗传性运动神
经元病2B型;远端肌病Markesbery-Griggs型;远端脊髓性肌萎缩,X连锁3;Distichiasis-
淋巴水肿综合征;显性营养不良的大疱性表皮松解症伴有皮肤不存在;显性遗传性视神经
萎缩;Donnai Barrow综合征;多巴胺beta羟化酶缺乏症;多巴胺受体d2,降低的脑密度的;
Dowling-degos病4;Doyne蜂窝视网膜营养不良;Malattia leventinese;Duane综合征2型;
Dubin-Johnson综合征;Duchenne肌营养不良症;Becker肌营养不良症;异常纤维蛋白原血
症;先天性角化不良(Dyskeratosis congenita)常染色体显性和常染色体显性,3;先天性
角化不良,常染色体隐性,1,3,4和5;先天性角化不良X连锁;运动障碍,家族性,伴有面部肌纤维颤搐;异常纤维蛋白溶酶原血症(Dysplasminogenemia);肌张力障碍2(扭转,常染色体
隐性)、3(扭转,X连锁)、5(多巴响应型)、10、12、16、25、26(肌阵挛);癫痫发作,良性家族性婴儿,2;早期婴儿癫痫性脑病2、4、7、9、10、11、13和14;非典型Rett综合征;早期T细胞祖细胞急性淋巴细胞白血病;外胚层发育不良皮肤脆弱综合征;外胚层发育不良-并指综合征1;
晶状体异位,孤立性常染色体隐性和显性;缺指畸形,外胚层发育不良和唇裂/腭裂综合征
3;Ehlers-Danlos综合征7型(常染色体隐性),经典型,2型(早衰),羟赖氨酸缺乏,4型、4型
变体和由于肌蛋白-X缺乏;Eichsfeld型先天性肌营养不良症;内分泌-脑血管发育不良;
增强型s-锥综合征;扩大前庭水管综合征;肠激酶缺乏症;疣状表皮发育不良
(Epidermodysplasia verruciformis);单纯性大疱性表皮松解症(Epidermolysa bullosa 
simplex)和肢带型肌营养不良症(limb girdle muscular dystrophy),单纯性伴有斑状色
素沉着,单纯性伴有幽门闭锁(pyloric atresia),单纯性,常染色体隐性和伴有幽门闭锁;
表皮松解症掌跖角化病;家族性高热惊厥8;癫痫,儿童失神(childhood absence)2、12(特
发性全身性,易感性)5(夜间额叶)、夜间额叶1型,部分性,伴有可变焦点,进行性肌阵挛3和
X连锁,伴有可变学习障碍和行为障碍;癫痫性脑病,儿童期发病,早期婴儿期,1、19、23、25、
30和32;骨骺发育不良,多发,伴有近视和传导性耳聋;发作性共济失调2型;阵发性疼痛
合征,家族性,3;Epstein综合征;Fechtner综合征;红细胞生成性原卟啉病;雌激素抵抗;渗出性玻璃体视网膜病变6;Fabry病和Fabry病,心脏变异;因子H、VII、X、v和因子viii,联合的缺乏2、xiii,亚基,缺乏症;家族性腺瘤性息肉病1和3;家族性淀粉样蛋白肾病伴有荨麻
疹和耳聋;家族性冷荨麻疹;家族性蚓部发育不全;家族性良性天疱疮;家族性乳腺癌;乳腺
癌,易感;骨肉瘤(Osteosarcoma);胰腺癌3;家族性心肌病;家族性冷自身炎症2;家族性结
直肠癌;家族性渗出性玻璃体视网膜病变,X连锁;家族性偏瘫型偏头痛1和2型;家族性高胆
固醇血症;家族性肥厚心肌病1、2、3、4、7、10、23和24;家族性低血症-低镁血症;家族性发育不全,肾小球囊性肾(glomerulocystic kidney);家族性婴儿期肌无力;家族性青少年痛
;家族性地中海热(Mediterranean fever)和家族性地中海热,常染色体显性;家族性脑
穿通(脑穿通畸形);家族性迟发性皮肤卟啉症(迟发性皮肤卟啉病);家族性肺毛细血管血
管瘤病;家族性肾性糖尿;家族性肾性低血糖症;家族性限制性心肌病1;家族性1和3型高脂
蛋白血症;Fanconi贫血症,互补群E、I、N和O;Fanconi-Bickel综合征;蚕豆病(Favism),易感;发热性癫痫发作,家族性,11;Feingold综合征1;胎儿血红蛋白数量性状基因座1;FG综
合征和FG综合征4;眼外肌纤维化,先天性,1、2、3a(伴或不伴有眼外受累)、3b;鱼眼病;斑点角膜营养不良;浮港(Floating-Harbor)综合征;局灶性癫痫伴有言语障碍,伴或不伴有精
神发育迟滞;局灶性节段性肾小球硬化5;前脑缺陷;Frank Ter Haar综合征;Borrone Di 
Rocco Crovato综合征;Frasier综合征;肾母细胞瘤(Wilms tumor)1;Freeman-Sheldon综
合征;额干骺端发育不良1和3;额颞叶痴呆(Frontotemporal dementia);额颞叶痴呆和/或
肌萎缩侧索硬化症3和4;额颞叶痴呆染色体3连锁和额颞叶痴呆泛素阳性;果糖二磷酸酶缺
乏症;Fuhrmann综合征;Gamma-氨基丁酸转氨酶缺乏症;Gamstorp-Wohlfart综合征;
Gaucher病1型和亚急性神经病变;凝视麻痹,家族性水平,伴有进行性脊柱侧凸;广泛性显
性营养不良性大疱性表皮松解症;全身性癫痫伴有高热惊厥加3、1型、2型;癫痫性脑病
Lennox-Gastaut型;巨轴索神经病变;Glanzmann血小板机能不全;青光眼(Glaucoma)1,开
角,e、F和G;青光眼3,原发性先天性,d;青光眼,先天性和青光眼,先天性,缺损;青光眼,原发性开角,青少年发病;胶质瘤易感性1;葡萄糖转运蛋白1型缺乏综合征;葡萄糖-6-磷酸转
运缺陷;GLUT1缺乏综合征2;癫痫,特发性全身性,易感性,12;谷氨酸甲酰氨基转移酶缺乏
症;戊二酸血症IIA和IIB;戊二酸尿症,1型;谷胱甘肽合成酶缺乏症;糖原贮积病0(肌肉)、
II(成人形式)、IXa2、IXc、1A型;II型、IV、IV(联合的肝脏和肌病)型、V型和VI型;Goldmann-Favre综合征;Gordon综合征;Gorlin综合征;全脑畸形序列;前脑无裂畸形
(Holoprosencephaly)7;肉芽肿病,慢性,X连锁,变异;卵巢颗粒细胞瘤;灰色血小板综合
征;Griscelli综合征3型;Groenouw角膜营养不良症型I;成长与精神发育迟滞,颌面部骨发
育障碍(mandibulofacial dysostosis),小头畸形和腭裂;生长激素缺乏症伴有垂体异常;
生长激素不敏感伴有免疫缺陷;GTP环化水解酶I缺乏症;Hajdu-Cheney综合征;手足子宫综
合征;听觉受损;血管瘤,毛细血管婴儿;血液新生物;血色沉着病(Hemochromatosis)1、2B
和3型;糖尿病的微血管并发症7;转铁蛋白血清水平数量性状基因座2;血红蛋白H病,非缺
失性;溶血性贫血,非球形细胞,由于葡萄糖磷酸异构酶缺乏症;噬血细胞性淋巴组织细胞
增多症(Hemophagocytic lymphohistiocytosis),家族性,2;噬血细胞性淋巴组织细胞增
多症,家族性,3;肝素辅助因子II缺乏症;遗传性肠病性肢端皮炎(acrodermatitis 
enteropathica);遗传性乳腺癌和卵巢癌综合征;共济失调-毛细血管扩张样疾病;遗传性
弥漫性胃癌;伴有球状体的遗传性弥漫性白质脑病;遗传性因子II、IX、VIII缺乏病;遗传性
出血性毛细血管扩张症2型;遗传性对疼痛不敏感伴有无汗症;遗传性淋巴水肿I型;遗传性
运动和感觉神经病伴有视神经萎缩;遗传性肌病伴有早期呼吸衰竭;遗传性神经性肌萎缩;
遗传性非息肉病结肠直肠新生物;Lynch综合征I和II;遗传性胰腺炎;胰腺炎,慢性,易感
性;遗传性感觉和自主神经病变IIB和IIA型;遗传性铁粒细胞性贫血;Hermansky-Pudlak综
合征1、3、4和6;异位,内脏,2、4和6,常染色体;异位,内脏,X连锁;异位症;组织细胞性髓质网状细胞病;组织细胞增生症-淋巴结病加综合征;全羧化酶合成酶缺乏症;前脑无裂畸形
2、3、7和9;Holt-Oram综合征;由于MTHFR缺乏,CBS缺乏引起的同型半胱氨酸血症
(Homocysteinemia)和高胱氨酸尿症(Homocystinuria),吡哆醇响应性;由于钴胺素代谢缺
陷引起的高胱氨酸尿症-巨幼红细胞贫血症,cblE互补型;Howel-Evans综合征;Hurler综合
征;Hutchinson-Gilford综合征;脑积水;高血氨症,III型;高胆甾醇血症
(Hypercholesterolaemia)和高胆固醇血症,常染色体隐性;惊跳症(Hyperekplexia)2和惊
跳症遗传性 ;高铁蛋白血症白内障综合征 ;高甘氨酸尿;高免疫球蛋白
(Hyperimmunoglobulin)D伴有周期性发烧;甲羟戊酸尿症;高免疫球蛋白E综合征;高胰岛
素血症低血糖家族性3、4和5;高胰岛素血症-高氨血症综合征;高赖氨酸血症
(Hyperlysinemia);高锰血症(Hypermanganesemia)伴有肌张力障碍、红细胞增多症和肝硬
化;高鸟氨酸血症(Hyperornithinemia)-高氨血症-高瓜氨酸尿(homocitrullinuria)综合
征;甲状旁腺功能亢进症1和2;甲状旁腺功能亢进症,新生儿严重;高苯丙氨酸血症,bh4缺
乏,a,由于部分pts缺乏、BH4缺乏、D和非pku;高磷酸酶症(Hyperphosphatasia)伴有精神发
育迟 滞综 合征 2、3和 4 ;高 血 压性 骨软 骨发 育不良 ;低β脂蛋白 血 症
(Hypobetalipoproteinemia),家族性,与apob32相关联;低钙血症,常染色体显性1;低钙尿
高钙血症(Hypocalciuric  hypercalcemia),家族性,1和3型;软骨发育不良
(Hypochondrogenesis);低色素小细胞性贫血伴有铁超负荷;低血糖伴有肝脏中糖原合成
酶缺乏;低促性腺功能减退症11,伴或不伴有嗅觉丧失症;少汗型外胚层发育不良,伴有免
疫缺陷;少汗型X连锁外胚层发育不良;低钾性周期性麻痹1和2;低镁血症1,肠;低镁血症,
癫痫发作和精神发育迟滞;髓鞘发育不良脑白质营养不良(Hypomyelinating 
leukodystrophy)7;左心发育不良综合征;房室隔缺损和常见的房室交界处;尿道下裂
(Hypospadias)1和2,X连锁;甲状腺功能减退症,先天性,无肿大性(nongoitrous),1;少毛
症8和12;少毛症-淋巴水肿-毛细血管扩张综合征;I血型系统;Siemens大疱性鱼鳞病(鱼鳞
病);鱼鳞病剥脱;鱼鳞病早产综合征;特发性基底神经节钙化5;特发性纤维化肺泡炎,慢性
形式;先天性角化不良,常染色体显性,2和5;婴儿期特发性高钙血症;由于钙进入缺陷引起
伴有T细胞失活的免疫功能障碍2;免疫缺陷15、16、19、30、31C、38、40、8,由于cd3-zeta的缺陷,伴有高IgM 1和2型和X连锁,伴有镁缺陷,Epstein-Barr病毒感染和瘤变;免疫缺陷-着
丝粒不稳定性-面部异常综合征2;包涵体肌病2和3;Nonaka肌病;婴儿惊厥和阵发性舞蹈
病,家族性;婴儿皮质骨质增生;婴儿GM1神经节苷脂贮积病;婴儿低磷酸酯酶症;婴儿肾单
位肾痨;婴儿眼球震颤,X连锁;婴儿帕金森病-肌张力障碍;与多尾精子和过量DNA有关的不
育症;胰岛素抵抗;胰岛素抵抗性糖尿病和黑棘皮病;胰岛素依赖型糖尿病分泌性腹泻综合
征;间质性肾炎,karyomegalic;宫内发育迟缓,干骺端发育不良,肾上腺先天性发育不全和
生殖器异常;碘酪胺酰偶联缺陷;IRAK4缺乏症;Iridogoniodysgenesis主导型和1型;脑铁
蓄积(Iron accumulation in brain);Ischiopatellar发育不良;胰岛细胞增生;分离的
17,20-裂解酶缺乏症;分离的促黄体素缺乏症;异戊酰基-CoA脱氢酶缺乏症;Jankovic 
Rivera综合征;Jervell和Lange-Nielsen综合征2;Joubert综合征1、6、7、9/15(二基因型)、
14、16和17和Orofaciodigital综合征xiv;Herlitz的连接性表皮松解疱疹;少年GM>1<神
经节苷脂贮积病;少年息肉综合征;少年息肉/遗传性出血性毛细血管扩张综合征;少年视
网膜劈裂症;歌舞伎化妆(Kabuki make-up)综合征;Kallmann综合征1、2和6;青春期延迟;
Kanzaki病;Karak综合征;Kartagener综合征;Kenny-Caffey综合征2型;Keppen-Lubinsky
综合征;圆锥角膜1;毛囊角化病;条纹状掌跖角化病(Keratosis palmoplantaris 
striata)1;Kindler综合征;L-2-羟基戊二酸尿症;Larsen综合征,主导型;格子状角膜营养
不良症III型;Leber黑矇(amaurosis);Zellweger综合征;过氧化物酶体生物发生障碍;
Zellweger综合征谱;Leber先天性黑矇11、12、13、16、4、7和9;Leber视神经萎缩;氨基糖苷类诱导性耳聋;耳聋,非综合征感觉神经,线粒体;左心室致密化不全5;左右轴畸形;Leigh
病;线粒体短链烯酰辅酶A水合酶1缺乏症;由于线粒体复合物I缺乏的Leigh综合征;Leiner
病;Leri Weill软骨骨生成障碍(dyschondrosteosis);致命先天性挛缩综合征6;白细胞粘
附缺陷I和III型;脑白质营养不良,髓鞘发育不良,11和6;白质脑病伴有共济失调,伴有脑
干和脊髓受累和乳酸盐升高,伴有消失的白质和进行性,伴有卵巢衰竭;全白甲
(Leukonychia totalis);路易体痴呆症;Lichtenstein-Knorr综合征;Li-Fraumeni综合征
1;Lig4综合征;肢带型肌营养不良症,1B、2A、2B、2D、C1、C5、C9、C14型;先天性肌营养不良症-肌营养不良蛋白聚糖病伴有大脑和眼睛异常,A14和B14型;脂肪酶缺乏症联合;脂质蛋
白沉积症;脂肪代谢障碍,家族性部分性,2和3型;无脑回畸形1、2(X连锁)、3、6(伴有小头畸形),X连锁;皮质下层状异位,X连锁;肝功能衰竭急性婴儿期;Loeys-Dietz综合征1、2、3;长QT综合征1、2、2/9、2/5、(二基因型)、3、5和5,获得性,易感;肺癌;淋巴水肿,遗传性,id;淋巴水肿,原发性,伴有脊髓发育不良;淋巴组织增生性综合征1、1(X连锁)和2;溶酶体酸性脂
肪酶缺乏症;面部畸形;黄斑营养不良,卵黄样,成人发病;恶性高热易感性1型;恶性淋巴
瘤,非Hodgkin;恶性黑色素瘤;前列腺恶性肿瘤;下颌骨端(Mandibuloacral)骨发育障碍;
下颌骨端发育不良伴有A或B型脂肪代谢障碍,非典型;颌面部骨发育障碍,Treacher 
Collins型,常染色体隐性;甘露糖结合蛋白缺乏症;枫糖尿病1A型和3型;Marden Walker样
综合征;Marfan综合征;Marinesco-Sj\xc3\xb6gren综合征;Martsolf综合征;年轻人的成
年发病型糖尿病,1型、2型、11型、3型和9型;May-Hegglin异常;MYH9相关病症;Sebastian综合征;McCune-Albright综合征;生长激素腺瘤;性索间质肿瘤;Cushing综合征;McKusick 
Kaufman综合征;McLeod神经棘红细胞增多综合征;Meckel-Gruber综合征;中链酰基辅酶A
脱氢酶缺乏症;髓母细胞瘤(Medulloblastoma);巨噬细胞白质脑病伴有皮质下囊肿1和2a;
先天性巨脑毛细血管扩张性大理石样皮肤(Megalencephaly cutis marmorata 
telangiectatica);PIK3CA相关的过度生长谱;巨脑-多小脑回-多指畸形-脑积水综合征2;
巨幼细胞性贫血,硫胺素响应性,伴有糖尿病和感音神经性耳聋;Meier-Gorlin综合征l和
4;Melnick-Needles综合征;脑膜瘤;精神发育迟滞,X连锁,3、21、30和72;精神发育迟滞和小头畸形伴有脑桥和小脑发育不全;精神发育迟滞X连锁综合征性5;精神发育迟滞,前上颌
前突和斜视;精神发育迟滞,常染色体显性12、13、15、24、3、30、4、5、6和9;精神发育迟滞,常染色体隐性15、44、46和5;精神发育迟滞,刻板运动,癫痫,和/或脑畸形;精神发育迟滞,综合征性,Claes-Jensen型,X连锁;精神发育迟滞,X连锁,非特异性,综合征性,Hedera型和综合征性,wu型;Merosin缺陷性先天性肌营养不良症;异色性脑白质营养不良症(异色性脑白
质营养不良症)少年、晚期婴儿和成人型;异色性脑白质营养不良症;后生营养性
(Metatrophic)发育不良;高铁血红蛋白血症I和2型;甲硫氨酸腺苷转移酶缺乏症,常染色
体显性;甲基丙二酸血症伴有高胱氨酸尿症,;甲基丙二酸尿症cblB型,;由甲基丙二酰辅酶
A变异酶缺乏引起的甲基丙二酸尿症;甲基丙二酸尿症,mut(0)型;小头畸形骨发育不良原
始性侏儒症2型;小头畸形伴或不伴有脉络膜视网膜病变,淋巴水肿,或精神发育迟滞;小头
畸形,食管裂孔疝和肾病综合征;小头畸形;胼胝体发育不全;痉挛性截瘫50,常染色体隐
性;整体发育迟缓;CNS低髓鞘形成(hypomyelination);脑萎缩;小头畸形,正常智力和免疫
缺陷;小头畸形-毛细血管畸形综合征;小红细胞性贫血;小眼综合征5、7和9;小眼,孤立的
3,5,6,8和伴有缺损6;小球形晶状体(Microspherophakia);偏头痛,家族性基底的
(basilar);Miller综合征;微轴空(Minicore)肌病伴有外眼肌麻痹;肌病,先天性伴有轴空
(core);Mitchell-Riley综合征;线粒体3-羟基-3-甲基戊二酰辅酶A合酶缺乏症;线粒体复
合物I、II、III、III(核型2、4或8)缺乏症;线粒体DNA耗竭综合征11、12(心肌病型)、2、4B
(MNGIE型)、8B(MNGIE型);线粒体DNA耗竭综合征3和7,肝脑型和13(脑肌病型);线粒体磷酸
盐载体和丙酮酸盐载体缺乏症;线粒体三功能蛋白缺乏症;长链3-羟基酰基-CoA脱氢酶缺
乏症;Miyoshi肌营养不良症1;肌病,远端,伴有胫前发病;Mohr-Tranebjaerg综合征;钼辅
助因子缺乏症,互补群A;Mowat-Wilson综合征;黏脂贮积症III Gamma;黏多糖贮积症VI型、
VI型(严重)和VII型;黏多糖贮积症,MPS-I-H/S、MPS-II、MPS-III-A、MPS-III-B、MPS-III-
C、MPS-IV-A、MPS-IV-B;视网膜色素变性73;神经节苷脂贮积病GMll型(伴有心脏受累)3;多
中心骨溶解性肾病;多中心骨溶解,结节病(nodulosis)和关节病;多发先天性异常;房间隔
缺损2;多发先天性异常-肌张力低下-癫痫发作综合征3;多发性皮肤和粘膜静脉畸形;多发
性内分泌腺瘤病,1和4型;多发性骨骺发育不良5或显性的;多发性胃肠道闭锁;多发性翼状
胬肉综合征Escobar型;多硫酸酯酶缺乏症;多发性骨性连接综合征3;肌腺苷酸脱氨酶缺乏
症;肌-眼-脑病;肌营养不良症,先天性,大锥状颗粒型(megaconial type);肌无力,家族性婴儿,1;肌无力综合征,先天性,11,伴有乙酰胆碱受体缺乏;肌无力综合征,先天性,17、2A(慢通道)、4B(快通道)并且无管状聚集体(tubular aggregate);髓过氧化物酶缺乏症;
MYH-相关息肉病;子宫内膜癌;心肌梗塞1;肌肉阵挛性肌张力障碍;失张力癫痫;肌阵挛伴
有癫痫伴有不整红边纤维;肌纤维肌病1和ZASP相关;肌红蛋白尿,急性复发性,常染色体隐
性;肌神经性胃肠脑病综合征;婴儿小脑共济失调伴进行性眼外麻痹;线粒体DNA缺失综合
征4B,MNGIE型;肌病,中心核,1,先天性,伴有过多的肌梭,远端,1,乳酸酸中毒和铁粒幼细胞性贫血1,线粒体进行性(mitochondrial progressive)伴有先天性白内障、听力损失和
发育迟滞和管状聚集体,2;近视6;肌硬化症,常染色体隐性;肌强直先天性;先天性肌强直,常染色体显性和隐性;Nail-patella综合征;Nance-Horan综合征;真性小眼球2;纳瓦霍神
经肝病;线状体肌病3和9;新生儿张力减退;智能障碍;癫痫;言语和语言发育迟缓;精神发
育迟滞,常染色体显性31;维生素P缺乏导致的新生儿肝内胆管淤积;肾性尿崩症,肾性尿崩
症,X连锁;肾结石/骨质疏松,低磷酸盐血症,2;肾单位肾痨13、15和4;不育;小脑-眼-肾综合征(肾单位肾痨,眼球运动失用和小脑畸形);肾病综合征,3型,5型,伴或不伴有眼部异
常,7型和9型;Nestor-Guillermo早衰综合征;Neu-Laxova综合征1;神经退行性变伴有脑铁
沉积4和6;神经铁蛋白病(Neuroferritinopathy);多发性神经纤维瘤,1型和2型;神经纤维
肉瘤;垂体性尿崩症;神经病,遗传性感觉,IC型;中性1氨基酸转运缺陷;中性脂质贮存病伴肌病;中性粒细胞免疫缺陷综合征;Nicolaides-Baraitser综合征;Niemann-Pick病C1型,
C2型,A型和C1型,成人型;非酮症性高甘氨酸血症;Noonan综合征1和4,LEOPARD综合征1;
Noonan综合征样失常伴或不伴有少年髓单核细胞白血病;正常血钾型周期性麻痹,钾-敏感
性;Norum病;癫痫,听力损失和精神发育迟滞综合征;精神发育迟滞,X连锁102和症候群13;
肥胖;眼白化病,I型;眼皮肤白化病1B型,3型和4型;眼齿指发育不良;牙齿型低碱性磷酸酯酶症;Odontotrichomelic综合征;Oguchi病;少牙-直肠癌综合征;OpitzG/BBB综合征;视神
经萎缩9;口-面-指综合征;鸟氨酸氨基转移酶缺乏症;唇腭裂11和7,唇裂/腭裂-外胚层发
育不良综合征;Orstavik Lindemann Solberg综合征;骨关节炎伴轻度软骨发育不良;剥脱
性骨软骨炎;成骨不全症12型、5型、7型、8型、I型、III型,伴有正常巩膜,显性型,隐性围产期致死性;纹状骨瘤伴颅骨硬化;骨硬化病常染色体显性1和2型,隐性4,隐性1,隐性6;骨质疏松症(Osteoporosis)伴有假神经胶质瘤(pseudoglioma);耳-腭-指综合征,I和II型;卵
巢发育不全1;卵巢白体营养不良(Ovarioleukodystrophy);先天性厚甲4和2型;Paget骨
病,家族性;Pallister-Hall综合征;掌跖角化病,非表皮松解,局灶或弥漫;胰腺发育不全
和先天性心脏病;Papillon-Lef\xc3\xa8vre综合征;副神经节瘤3;von Eulenburg先天性
副肌强直;甲状旁腺癌;帕金森氏病14、15、19(青少年期发病)、2、20(早期发病)、6、(常染色体隐性早期发病和9;部分白化病;部分次黄嘌呤-鸟嘌呤磷酸核糖转移酶缺乏症;视网膜色
素上皮细胞的图案性营养不良症(Patterned dystrophy of  retinal pigment 
epithelium);PC-K6a;Pelizaeus-Merzbacher病;Pendred综合征;外周脱髓鞘神经病变,中
枢性髓鞘形成;Hirschsprung病;永久性新生儿糖尿病;糖尿病,永久性新生儿的,伴有神经
学特征;新生儿胰岛素依赖性糖尿病;年轻的成年发病型糖尿病,2型;过氧化物酶体生物发
生障碍14B、2A、4A、5B、6A、7A和7B;Perrault综合征4;Perry综合征;婴儿期持续性高胰岛素低血糖症;家族性高胰岛素血症;表型;苯丙酮尿症;嗜铬细胞瘤;遗传性副神经节瘤-嗜铬
细胞瘤综合征;副神经节瘤1;肠类癌;Cowden综合征3;磷酸甘油酸酯脱氢酶缺乏症;磷酸甘
油酸激酶1缺乏症;光敏性毛发硫性营养不良(Photosensitive trichothiodystrophy);植
烷酸贮积病;Pick病;Pierson综合征色素性视网膜变性;色素性结节状肾上腺皮质病,原发
性,1;甲床细胞瘤;Pitt-Hopkins综合征;垂体依赖性皮质醇增多症;垂体激素缺乏,联合1、
2、3和4;纤溶酶原激活物抑制剂1型缺乏症;纤溶酶原缺乏症物,I型;血小板-型出血性病症
15和8;皮肤异色病,遗传性纤维化,伴有肌腱挛缩,肌病和肺纤维化;多囊性肾病2,成人型
和婴儿型;多囊性脂膜性骨发育不良伴硬化性脑白质病;聚葡萄糖体肌病1伴或不伴免疫缺
陷;多小脑回,不对称,双侧额顶;多发性神经病,听力损失,共济失调,视网膜色素变性和白内障;脑桥小脑发育不全4型;腘翼状胬肉综合征;脑穿通畸形2;汗孔角化病8,播散性浅表
光化型;胆色素原合成酶缺乏症;迟发性皮肤卟啉病;后索性共济失调伴视网膜色素变性;
后极性白内障2型;Prader-Willi样综合征;卵巢功能早衰4、5、7和9;原发性常染色体隐性
小头畸形10、2、3和5;原发性纤毛运动障碍24;原发性扩张性心肌病;左心室致密化不全6;
4,左心室致密化不全10;阵发性心房颤动;原发性高草酸尿症,I型、II型和III型;原发性肥大性骨关节病,常染色体隐性2;原发性低镁血症;原发性开角型青光眼青少年期发病1;原
发性肺动脉高压;Primrose综合征;进行性家族性心传导阻滞1B型;进行性家族性肝内胆汁
淤积2和3;进行性肝内胆汁淤积;进行性肌阵挛癫痫伴共济失调;进行性假性类风湿性发育
不良;进行性硬化性灰质营养不良;脯氨酰氨基酸酶缺乏症;脯氨酸脱氢酶缺乏症;精神分
裂症4;备解素缺乏症,X连锁;丙酸血症;前蛋白转化酶1/3缺乏症;前列腺癌,遗传性,2;
Protan缺陷;蛋白尿;Finnish先天性肾病综合征;Proteus综合征;乳腺腺癌;假性软骨发育
不全性脊椎骨骺(spondyloepiphyseal)发育不良综合征;假性固酮减少症1型常染色体
显性和隐性和2型;假性甲状旁腺功能减退症1A型,假性假甲状旁腺功能减退症
(Pseudopseudohypoparathyroidism);假性新生儿肾上腺脑白质营养不良;假性原发性醛
固酮增多症;弹性纤维性假黄瘤;婴儿期全身动脉钙化2;弹性纤维性假黄瘤样失常伴多种
凝血因子缺乏;屑病易感性2;PTEN错构瘤综合征;遗传性出血性毛细血管扩张相关的肺
动脉高压;肺纤维化和/或骨髓衰竭,端粒相关,1和3;肺动脉高压,原发性,1,伴有遗传性出血性毛细血管扩张;嘌呤-核苷磷酸化酶缺乏症;丙酮酸羧化酶缺乏症;丙酮酸脱氢酶E1-
alpha缺乏症;红细胞丙酮酸激酶缺乏症;Raine综合征;RASopathy;隐性营养不良性大疱性
表皮松解症;指甲病症(Nail disorder),非综合征型先天性,8;Reifenstein综合征;肾脏
发育不良;肾性肉毒碱转运缺陷;肾损害综合征;肾脏发育不良;肾脏发育不良,视网膜色素
萎缩症,小脑共济失调和骨骼发育不良;肾小管酸中毒,远端,常染色体隐性,伴晚发感觉神
经性听力损失,或伴溶血性贫血;肾小管酸中毒,近端,伴有眼部异常和精神发育迟滞;视锥
营养不良症3B;视网膜色素变性;视网膜色素变性10、11、12、14、15、17和19;视网膜色素变性2、20、25、35、36、38、39、4、40、43、45、48、66、7、70、72;视网膜母细胞瘤;Rett症;横纹肌样瘤易感综合征(Rhabdoid tumor predisposition syndrome)2;孔源性视网膜脱离,常染色
体显性;四肢近端(Rhizomelic)软骨发育异常点状2型和3型;Roberts-SC短肢畸形
(phocomelia)综合征;Robinow Sorauf综合征;Robinow综合征,常染色体隐性,常染色体隐
性,伴有短-并-多指/趾;Rothmund-Thomson综合征;Rapadilino综合征;RRM2B-相关线粒体
病;Rubinstein-Taybi综合征;Salla病;Sandhoff病,成人和婴幼儿型;肉状瘤病
(Sarcoidosis),早期发病;Blau综合征;Schindler病,1型;脑裂畸形;精神分裂症15;
Schneckenbecken发育不良;神经鞘瘤病2;Schwartz Jampel综合征1型;硬化性角膜,常染
色体隐性;硬化性骨化病;继发性甲状腺机能减退;Segawa综合征,常染色体隐性;Senior-
Loken综合征4和5,;感觉性共济失调性神经病,构音障碍和眼肌瘫痪;墨蝶呤还原酶
(Sepiapterin reductase)缺乏症;SeSAME综合征;ADA缺乏导致的严重联合免疫缺陷,伴小
头畸形,生长迟缓和电离辐射敏感性,非典型的,常染色体隐性,T细胞阴性,B细保阳性,NK
细胞阴性ofNK-阳性;部分腺苷脱氨酶缺乏症;重症先天性粒细胞缺乏症;重症先天性粒细
胞缺乏症3,常染色体隐性或显性;重症先天性粒细胞缺乏症和6,常染色体隐性;婴儿期严
重肌阵挛型癫痫;全身性癫痫伴高热惊厥加,1和2型;严重伴X连锁肌管性肌病;短QT综合征
3;身材矮小伴非特异性骨骼异常;身材矮小,耳道闭锁,下颌发育不全,骨骼异常;身材矮
小,甲发育不良,面部畸形和少毛症;先天性侏儒症;短肋胸发育不良11或3伴或不伴有多
指/趾畸形;涎酸贮积症I和II型;Silver痉挛性截瘫综合征;神经传导速度减慢,常染色体
显性;Smith-Lemli-Opitz综合征;Snyder Robinson综合征;生长激素腺瘤;泌乳素瘤;家族
性,垂体腺瘤易感性;Sotos综合征1或2;痉挛性共济失调5,常染色体隐性,Charlevoix-
Saguenay,1、10或11型,常染色体隐性;肌萎缩侧索硬化症5型;痉挛性截瘫15、2、3、35、39、
4,常染色体显性,55,常染色体隐性和5A;胆汁酸合成缺陷,先天性,3;生精障碍11、3和8;球形红细胞增多症4和5型;球状体肌病;脊髓性肌萎缩,下肢占优势2,常染色体显性;脊髓性
肌萎缩,II型;脊髓小脑性共济失调14、21、35、40和6;脊髓小脑性共济失调常染色体隐性1
和16 ;脾发育不 全;脊椎关节骨性关节炎综 合征;脊椎细胞发育不良
(Spondylocheirodysplasia),Ehlers-Danlos综合征样,伴免疫失调,聚集蛋白聚糖型,伴
有先天性关节脱位,短肢手型,Sedaghatian型,伴锥杆营养不良和Kozlowski型;类扭伤性
侏儒;Stargardt病1;锥杆营养不良3;Stickler综合征1型;Kniest发育不良;Stickler综合
征,1(非综合征性眼球)和4型;刺痛相关性血管病变,婴儿期发病;Stormorken综合征;
Sturge-Weber综合征,毛细血管畸形,先天性,1;琥珀酰辅酶A乙酰乙酸转移酶缺乏症;蔗糖
酶-异麦芽糖酶缺乏症;婴儿猝死综合征;亚硫酸盐氧化酶缺乏症,孤立的;升主动脉瓣狭
窄;表面活性物质代谢功能障碍,肺,2和3;指/趾关节粘连,近端,1b;并指/趾CenaniLenz
型;并指/趾3型;综合征的X连锁精神发育迟滞16;内翻足;Tangier病;TARP综合征;
Tay-Sachs病,B1变体,Gm2-神经节苷脂贮积病(成人),Gm2-神经节苷脂贮积病(成人发病);
Temtamy综合征;Tenorio综合征;终端骨质发育不良;睾酮17-β-脱氢酶缺乏症;四联症,常
染色体隐性;法洛四联症;左心发育不全综合征2;动脉干;心脏和大血管畸形;V室间隔缺损
1;Thiel-Behnke角膜营养不良;胸主动脉瘤和主动脉夹层;Marfanoid习惯;3M综合征2;血
小板减少,血小板功能障碍,溶血和球蛋白合成不平衡;血小板减少,X连锁;血栓形成倾向,遗传性,由于蛋白质C缺乏,常染色体显性和隐性;甲状腺发育不全;甲状腺癌,滤泡的;甲状腺激素代谢,异常;甲状腺激素抵抗,全身性,常染色体显性;甲状腺机能周期性麻痹和甲状
腺机能周期性麻痹2;促甲状腺激素释放激素抵抗,全身性;Timothy综合征;TNF受体相关周
期性发热综合征(TRAPS);牙齿发育不全,选择性,3和4;尖端扭转;Townes-Brocks-
branchiootorenal样综合征;新生儿暂时性大疱性皮肤松解;Treacher collins综合征1;
睫毛粗长症伴有精神发育迟滞,侏儒症和视网膜色素变性;发鼻指(趾)发育不良I型;发鼻
指(趾)综合征3型;三甲基胺尿症;结节性硬化综合征;淋巴管肌瘤病;结节性硬化1和2;酪
氨酸酶阴性眼皮肤白化病;酪氨酸酶阳性眼皮肤白化病;酪氨酸血症I型;UDP葡萄糖-4-差
向异构酶缺乏症;Ullrich先天性肌营养不良症;尺骨和腓骨缺失伴有严重肢体缺乏症;
Upshaw-Schulman综合征;尿刊酸(Urocanate)水合酶缺乏症;Usher综合征,1、1B、1D、1G、
2A、2C和2D型;视网膜色素变性39;UV敏感综合征;Van der Woude综合征;Van Maldergem综
合征2;Hennekam lymphangiectasia-淋巴水肿综合征2;杂色卟啉症;巨脑室伴有囊性肾
病;Verheij综合征;超长链酰基辅酶A脱氢酶缺乏症;膀胱输尿管反流8;内脏异位5,常染色
体;内脏肌病;维生素D依赖性佝偻病,1和2型;卵黄状变性;von Willebrand病2M型和3型;
Waardenburg综合征1、4C和2E(伴有神经系统受累)型;Klein-Waardenberg综合征;Walker-
Warburg先天性肌营养不良症;Warburg micro综合征2和4;疣,低丙种球蛋白血症,感染和
先天性骨髓粒细胞缺乏症;Weaver综合征;Weill-Marchesani综合征1和3;Weill-
Marchesani样综合征;Weissenbacher-Zweymuller综合征;Werdnig-Hoffmann病;Charcot-
Marie-Tooth病;Werner综合征;WFS1相关病症;Wiedemann-Steiner综合征;Wilson病;
Wolfram样综合征,常染色体显性;Worth病;Van Buchem病2型;着色性干皮病,互补群b、群
D、群E和群G;X连锁无丙种球蛋白血症;X连锁遗传性运动和感觉神经病;X连锁鱼鳞病伴有
固醇硫酸酯酶缺乏症;X连锁脑室周围异位;耳-腭-指综合征,I型;X连锁重度联合免疫缺
陷;Zimmermann-Laband综合征和Zimmermann-Laband综合征2;和带状粉状白内障3。
[0781] 本公开提供了包含致病性G至A或C至T突变的基因的列表。可以使用本文提供的方法和组合物校正此类致病性G至A或C至T突变,例如通过将A突变为G,和/或将T突变为C,从
而恢复基因功能。表2包括可以使用本文提供的核碱基编辑器校正的示例性突变。表2包括
基因符号、相关表型、待校正的突变和可以用于校正突变的示例性gRNA序列。表2中提供的
gRNA序列是编码RNA的序列,所述RNA可以将Cas9或本文提供的任何碱基编辑器引导至靶位
点。例如,可以将表2中提供的gRNA序列克隆到gRNA表达载体(例如pFYF)中以编码gRNA,所
述gRNA将Cas9或本文提供的任何碱基编辑器靶向到靶位点以校正疾病相关突变。然而,应
当理解,可以校正另外的突变以治疗与G至A或C至T突变相关的另外的疾病。此外,可以基于
本领域的公开和本领域的知识设计另外的gRNA,这将是熟练技术人员可以理解的。
[0782]
[0783]
[0784]
[0785]
[0786]
[0787]
[0788]
[0789]
[0790]
[0791]
[0792]
[0793]
[0794]
[0795]
[0796]
[0797]
[0798]
[0799]
[0800]
[0801]
[0802]
[0803]
[0804]
[0805]
[0806]
[0807]
[0808]
[0809]
[0810]
[0811]
[0812]
[0813]
[0814]
[0815]
[0816]
[0817]
[0818]
[0819]
[0820]
[0821]
[0822]
[0823]
[0824]
[0825]
[0826]
[0827]
[0828]
[0829]
[0830]
[0831]
[0832]
[0833]
[0834]
[0835]
[0836]
[0837]
[0838]
[0839]
[0840]
[0841]
[0842]
[0843]
[0844]
[0845]
[0846]
[0847]
[0848]
[0849]
[0850]
[0851]
[0852]
[0853]
[0854]
[0855]
[0856]
[0857]
[0858]
[0859]
[0860]
[0861]
[0862]
[0863]
[0864]
[0865]
[0866]
[0867]
[0868]
[0869]
[0870]
[0871]
[0872]
[0873]
[0874]
[0875]
[0876]
[0877]
[0878]
[0879]
[0880]
[0881]
[0882]
[0883]
[0884]
[0885]
[0886]
[0887]
[0888]
[0889]
[0890]
[0891]
[0892]
[0893]
[0894]
[0895]
[0896]
[0897]
[0898]
[0899]
[0900]
[0901]
[0902]
[0903]
[0904]
[0905]
[0906]
[0907]
[0908]
[0909]
[0910]
[0911]
[0912]
[0913]
[0914]
[0915]
[0916]
[0917]
[0918]
[0919]
[0920]
[0921]
[0922]
[0923]
[0924]
[0925]
[0926]
[0927]
[0928]
[0929]
[0930]
[0931]
[0932]
[0933]
[0934]
[0935]
[0936]
[0937]
[0938]
[0939]
[0940]
[0941]
[0942]
[0943]
[0944]
[0945]
[0946]
[0947]
[0948]
[0949]
[0950]
[0951]
[0952]
[0953]
[0954]
[0955]
[0956]
[0957]
[0958]
[0959]
[0960]
[0961]
[0962]
[0963]
[0964]
[0965]
[0966]
[0967]
[0968]
[0969]
[0970]
[0971]
[0972]
[0973]
[0974]
[0975]
[0976]
[0977]
[0978]
[0979]
[0980]
[0981]
[0982]
[0983]
[0984]
[0985]
[0986]
[0987]
[0988]
[0989]
[0990]
[0991]
[0992]
[0993]
[0994]
[0995]
[0996]
[0997]
[0998]
[0999]
[1000]
[1001]
[1002]
[1003]
[1004]
[1005]
[1006]
[1007]
[1008]
[1009]
[1010]
[1011]
[1012]
[1013]
[1014]
[1015]
[1016]
[1017]
[1018]
[1019]
[1020]
[1021] 在一些实施方案中,融合蛋白识别规范PAM,并因此可以在侧翼序列中具有规范PAM(例如NGG)的情况下校正致病性G至A或C至T突变。例如,识别规范PAM的Cas9蛋白包含与
如SEQ ID NO:52提供的酿脓链球菌的氨基酸序列,或与包含SEQ ID NO:52的RuvC和HNH域
的其片段至少80%、85%、90%、95%、97%、98%或99%相同的氨基酸序列。
[1022] 对于本领域技术人员显而易见的是,为了将如本文所公开的包含Cas9域和腺苷脱氨酶的任何融合蛋白靶向到靶位点,例如包含待编辑的点突变的位点,通常必需将融合蛋
白与引导RNA(例如sgRNA)一起共表达。如本文其他地方更详细解释的,引导RNA通常包含允
许Cas9结合的tracrRNA框架和引导序列,其将序列特异性赋予Cas9:核酸编辑酶/域融合蛋
白。在一些实施方案中,引导RNA包含结构5’-[引导序列]-guuuuagagcuagaaauagcaaguuaa
aauaaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuuu-3’(SEQ ID NO:389),其
中引导序列包含与靶序列互补的序列。在一些实施方案中,引导序列包含表2中提供的任何
核苷酸序列。引导序列通常为20个核苷酸长。基于本公开,用于将Cas9:核酸编辑酶/域融合
蛋白靶向至特定基因组靶位点的合适的引导RNA的序列对于本领域技术人员而言将是显而
易见的。此类合适的引导RNA序列通常包含与待编辑的靶核苷酸的上游或下游50个核苷酸
内的核酸序列互补的引导序列。本文提供了适合于将任何提供的融合蛋白靶向到特定靶序
列的一些示例性引导RNA序列。另外的引导序列如下显示于表3中,包括它们的基因座。
[1023] 表3另外的靶位点
[1024]
[1025]
[1026] 碱基编辑器效率
[1027] 本公开的一些方面基于认识到本文提供的任何碱基编辑器能够修饰特定的核苷酸碱基而不产生显著比例的插入/缺失。如本文所用,“插入/缺失”是指核酸内的核苷酸碱
基的插入或缺失。此类插入或缺失可以导致基因编码区内的移码突变。在一些实施方案中,
期望产生有效修饰(例如突变或脱氨基)核酸内的特定核苷酸而不在核酸中产生大量插入
或缺失(即插入/缺失)的碱基编辑器。在某些实施方案中,本文提供的任何碱基编辑器能够
相对于插入/缺失产生更大比例的意图修饰(例如,点突变或脱氨基作用)。在一些实施方案
中,本文提供的碱基编辑器能够生成大于1∶1的意图点突变与插入/缺失的比率。在一些实
施方案中,本文提供的碱基编辑器能够产生意图点突变与插入/缺失的比率,其为至少1.5∶
1、至少2∶1、至少2.5∶1、至少3∶1、至少3.5∶1、至少4∶1、至少4.5∶1、至少5∶1、至少5.5∶1、至少6∶1、至少6.5∶1、至少7∶1、至少7.5∶1、至少8∶1、至少10∶1、至少12∶1、至少15∶1、至少20∶
1、至少25∶1、至少30∶1、至少40∶1、至少50∶1、至少100∶1、至少200∶1、至少300∶1、至少400∶
1、至少500∶1、至少600∶1、至少700∶1、至少800∶1、至少900∶1或至少1000∶1或更多。可以使用任何合适的方法,例如以下实施例中使用的方法来测定意图的突变和插入/缺失的数目。
在一些实施方案中,为了计算插入/缺失频率,扫描测序读段以与两个10-bp序列精确匹配,
所述两个10-bp序列在可能发生插入/缺失的窗口的两侧侧翼。若未定位精确匹配,则从分
析中排除读段。若该插入/缺失窗口的长度与参照序列精确匹配,则读段分类为不含有插
入/缺失。若插入/缺失窗口比参照序列长或短两个或更多个碱基,则测序读段分别分类为
插入或缺失。
[1028] 在一些实施方案中,本文提供的碱基编辑器能够限制核酸的区域中的插入/缺失的形成。在一些实施方案中,区域在由碱基编辑器靶向的核苷酸处或由碱基编辑器靶向的
核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。在一些实施方案中,本文提供的任何碱基编辑器能够将核酸的区域处的插入/缺失的形成限制至小于1%、小于1.5%、小于2%、小
于2.5%、小于3%、小于3.5%、小于4%、小于4.5%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于12%、小于15%或小于20%。在核酸区域处形成的缺失/缺失的数
目可以取决于核酸(例如细胞的基因组内的核酸)暴露于碱基编辑器的时间的量。在一些实
施方案中,在将核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器的至少1小时、至少2
小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后测定插入/缺失的数目或比例。
[1029] 本公开的一些方面基于认识到本文提供的任何碱基编辑器能够有效地在核酸(例如受试者的基因组内的核酸)中产生意图的突变(如点突变)而不产生大量的非意图突变
(如非意图的点突变)。在一些实施方案中,意图的突变是由与gRNA结合的特定碱基编辑器
产生的突变,所述碱基编辑器特别设计为产生意图的突变。在一些实施方案中,意图的突变
是与疾病或病症相关的突变。在一些实施方案中,意图的突变是与疾病或病症相关的腺嘌
呤(A)至鸟嘌呤(G)点突变。在一些实施方案中,意图的突变是与疾病或病症相关的胸腺嘧
啶(T)至胞嘧啶(C)点突变。在一些实施方案中,意图的突变是基因的编码区内的腺嘌呤(A)
至鸟嘌呤(G)点突变。在一些实施方案中,意图的突变是基因的编码区内的胸腺嘧啶(T)至
胞嘧啶(C)点突变。在一些实施方案中,意图的突变是产生终止密码子,例如基因的编码区
内的提前终止密码子的点突变。在一些实施方案中,意图的突变是消除终止密码子的突变。
在一些实施方案中,意图的突变是改变基因的剪接的突变。在一些实施方案中,意图的突变
是改变基因的调控序列(例如,基因启动子或基因阻抑物)的突变。在一些实施方案中,本文
提供的任何碱基编辑器能够产生大于1∶1的意图突变与非意图突变(例如,意图的点突变∶
非意图的点突变)的比率。在一些实施方案中,本文提供的任何碱基编辑器能够产生意图突
变与非意图突变的比率(例如,意图的点突变∶非意图的点突变),其为至少1.5∶1、至少2∶1、至少2.5∶1、至少3∶1、至少3.5∶1、至少4∶1、至少4.5∶1、至少5∶1、至少5.5∶1、至少6∶1、至少
6.5∶1、至少7∶1、至少7.5∶1、至少8∶1、至少10∶1、至少12∶1、至少15∶1、至少20∶1、至少25∶1、至少30∶1、至少40∶1、至少50∶1、至少100∶1、至少150∶1、至少200∶1、至少250∶1、至少500∶1或至少1000∶1或更多。应当理解,本文“碱基编辑器效率”部分中描述的碱基编辑器的特性
可以应用于任何融合蛋白或使用本文提供的融合蛋白的方法。
[1030] 用于编辑核酸的方法
[1031] 本公开的一些方面提供了用于编辑核酸的方法。在一些实施方案中,该方法是用于编辑核酸的核碱基(例如,双链DNA序列的碱基对)的方法。在一些实施方案中,方法包括
以下步骤:a)使核酸(例如双链DNA序列)的靶区域与包含碱基编辑器(例如与腺苷脱氨酶融
合的Cas9域)和引导核酸(例如gRNA)的复合物接触,其中所述靶区域包含靶定的核碱基对,
b)诱导所述靶区域的链分离,c)将靶区域的单链中的所述靶核碱基对的第一核碱基转换成
第二核碱基,以及d)切割所述靶区域的不超过一条链,其中与所述第一核碱基碱基互补的
第三核碱基被与第二核碱基互补的第四核碱基替换。在一些实施方案中,该方法导致核酸
中小于20%的插入/缺失形成。应当理解的是,在一些实施方案中,省略步骤b。在一些实施
方案中,第一核碱基是腺嘌呤。在一些实施方案中,第二核碱基是脱氨基的腺嘌呤或肌苷。
在一些实施方案中,第三核碱基是胸腺嘧啶。在一些实施方案中,第四核碱基是胞嘧啶。在
一些实施方案中,方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、
0.5%、0.2%或小于0.1%插入/缺失形成。在一些实施方案中,方法进一步包括用与第四核
碱基互补的第五核碱基替换第二核碱基,由此产生意图的经编辑的碱基对(例如A:T至G:
C)。在一些实施方案中,第五核碱基是鸟嘌呤。在一些实施方案中,编辑至少5%的意图碱基
对。在一些实施方案中,编辑至少10%、15%、20%、25%、30%、35%、40%、45%或50%的意图碱基对。
[1032] 在一些实施方案中,靶核苷酸中意图产物与非意图产物的比率为至少2∶1、5∶1、10∶1、20∶1、30∶1、40∶1、50∶1、60∶1、70∶1、80∶1、90∶1、100∶1或200∶1或更多。在一些实施方案中,意图点突变与插入/缺失形成的比率大于1∶1、10∶1、50∶1、100∶1、500∶1、或1000∶1或更多。在一些实施方案中,切割单链(切口链)与引导核酸杂交。在一些实施方案中,切割单链
与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包括Cas9域。在一些实施方式
中,第一碱基是腺嘌呤,而第二碱基不是G、C、A或T。在一些实施方式中,第二碱基是肌苷。在一些实施方案中,第一碱基是腺嘌呤。在一些实施方案中,第二碱基不是G、C、A或T。在一些
实施方案中,第二碱基是肌苷。在一些实施方案中,碱基编辑器抑制编辑链的碱基切除修
复。在一些实施方案中,碱基编辑器保护或结合非编辑的链。在一些实施方案中,碱基编辑
器包含UGI活性。在一些实施方案中,碱基编辑器包含催化无活性的肌苷特异性核酸酶。在
一些实施方案中,碱基编辑器包含切口酶活性。在一些实施方案中,意图的经编辑的碱基对
在PAM位点的上游。在一些实施方案中,意图的经编辑的碱基对在PAM位点的上游1、2、3、4、
5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,意图的经编辑的碱基对在PAM位点的下游。在一些实施方案中,意图的经编辑的碱基对在PAM位点的
下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,方法不需要规范(例如,NGG)PAM位点。在一些实施方案中,核碱基编辑器包含接头。在
一些实施方案中,接头的长度为1-25个氨基酸。在一些实施方案中,接头的长度为5-20个氨
基酸。在一些实施方案中,接头的长度为10、11、12、13、14、15、16、17、18、19或20个氨基酸。
在一些实施方案中,靶区域包含靶窗口,其中靶窗口包含靶核碱基对。在一些实施方案中,
靶窗口包含1-10个核苷酸。在一些实施方案中,靶窗口的长度为1-9、1-8、1-7、1-6、1-5、1-
4、1-3、1-2或1个核苷酸。在一些实施方案中,靶窗口的长度为1、2、3、4、5、6、7、8、9、10、11、
12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,意图的经编辑的碱基对在靶窗口内。在一些实施方案中,靶窗口包含意图的经编辑的碱基对。在一些实施方案中,使用
本文提供的任何碱基编辑器进行方法。在一些实施方案中,靶窗口是脱氨基作用窗口。
[1033] 在一些实施方案中,本公开提供了用于编辑核苷酸的方法。在一些实施方案中,本公开提供了用于编辑双链DNA序列的核碱基对的方法。在一些实施方案中,方法包括a)使双
链DNA序列的靶区域与包含碱基编辑器和引导核酸(例如gRNA)的复合物接触,其中靶区域
包含靶核碱基对,b)诱导所述靶区域的链分离,c)将靶区域的单链中的所述靶核碱基对的
第一核碱基转换为第二核碱基,d)切割所述靶区域的不超过一条链,其中与第一核碱基碱
基互补的第三核碱基被与第二核碱基互补的第四核碱基替换,并且第二核碱基被与第四核
碱基互补的第五核碱基替换,由此产生意图的经编辑的碱基对,其中产生意图的经编辑的
碱基对的效率是至少5%。应当理解的是,在一些实施方案中,省略步骤b。在一些实施方案
中,编辑至少5%的意图碱基对。在一些实施方案中,编辑至少10%、15%、20%、25%、30%、
35%、40%、45%或50%的意图碱基对。在一些实施方案中,方法引起小于19%、18%、16%、
14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或小于0.1%的插入/缺失形成。在一些实施方案中,靶核苷酸处的意图产物与非意图产物的比率为至少2∶1、5∶1、10∶1、20∶1、30∶1、40∶1、50∶1、60∶1、70∶1、80∶1、90∶1、100∶1或200∶1或更多。在一些实施方案中,意图点突变与插入/缺失形成的比率大于1∶1、10∶1、50∶1、100∶1、500∶1或1000∶1或更多。在一些实施方案中,切割单链与引导核酸杂交。在一些实施方案中,切割单链与包含第一核碱基的链相
对。在一些实施方案中,第一碱基是腺嘌呤。在一些实施方案中,第二核碱基不是G、C、A或T。
在一些实施方案中,第二碱基是肌苷。在一些实施方案中,碱基编辑器抑制编辑链的碱基切
除修复。在一些实施方案中,碱基编辑器保护(例如,形成碱基切除修复)或结合非编辑的
链。在一些实施方案中,核碱基编辑器包含UGI活性。在一些实施方案中,碱基编辑器包含催
化无活性的肌苷特异性核酸酶。在一些实施方案中,核碱基编辑器包含切口酶活性。在一些
实施方案中,意图的经编辑的碱基对在PAM位点的上游。在一些实施方案中,意图的经编辑
的碱基对在PAM位点的上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,意图的经编辑的碱基对在PAM位点的下游。在一些实施方案中,
意图的经编辑的碱基对在PAM位点的下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、
18、19或20个核苷酸。在一些实施方案中,该方法不需要规范(例如,NGG)PAM位点。在一些实
施方案中,核碱基编辑器包含接头。在一些实施方案中,接头的长度为1-25个氨基酸。在一
些实施方案中,接头的长度为5-20个氨基酸。在一些实施方案中,接头的长度为10、11、12、
13、14、15、16、17、18、19或20个氨基酸。在一些实施方案中,靶区域包含靶窗口,其中靶窗口包含靶核碱基对。在一些实施方案中,靶窗口包含1-10个核苷酸。在一些实施方案中,靶窗
口的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸。在一些实施方案中,靶窗口的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,意图的经编辑的碱基对发生在靶窗口内。在一些实施方案中,靶窗口包含意图的
经编辑的碱基对。在一些实施方案中,核碱基编辑器是本文提供的碱基编辑器的任一个。
[1034] 药物组合物
[1035] 本公开的其他方面涉及药物组合物,其包含本文所述的腺苷脱氨酶、融合蛋白或融合蛋白-gRNA复合物中的任一种。如本文所用,术语“药物组合物”是指配制用于药物用途
的组合物。在一些实施方案中,药物组合物进一步包含药学上可接受的载体。在一些实施方
案中,药物组合物包含另外的试剂(例如用于特异性递送,增加半衰期或其他治疗性化合
物)。
[1036] 如本文所用,术语“药学上可接受的载体”是指药学上可接受的材料、组合物或媒介物,例如液体或固体填充剂、稀释剂、赋形剂、制造助剂(例如,润滑剂、滑石粉、硬脂酸镁、钙或锌或硬脂酸)或溶剂包封材料,涉及将化合物从身体的一个部位(例如,递送部位)运送
或运输到另一个部位(例如,器官、组织或身体的一部分)。药学上可接受的载体是“可接受
的”,意思是与制剂的其他成分相容并且对受试者的组织无害(例如,生理学相容的、无菌
的、生理学的pH等)。可以充当药学上可接受的载体的材料的一些实例包括:(1)糖,例如乳
糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉和马铃薯淀粉;(3)纤维素及其衍生物,如羧甲基纤
维素钠、甲基纤维素、乙基纤维素、微晶纤维素和醋酸纤维素;(4)粉末黄蓍胶;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠和滑石粉;(8)赋形剂,如可可脂和栓剂蜡;
(9)油,如花生油籽油、红花油、芝麻油、橄榄油、玉米油和豆油;(10)二醇,如丙二醇;
(11)多元醇,如甘油、山梨糖醇、甘露醇和聚乙二醇(PEG);(12)酯类,如油酸乙酯和月桂酸
乙酯;(13)琼脂;(14)缓冲剂,如氢氧化镁和氢氧化;(15)海藻酸;(16)无热原水;(17)等
渗盐水;(18)林格氏液;(19)乙醇;(20)pH缓冲溶液;(21)聚酯,聚碳酸酯和/或聚酸酐;(22)增量剂(bulking agent),如多肽和氨基酸(23)血清成分,如血清白蛋白、HDL和LDL;(22)
C2-C12醇,如乙醇;和(23)药物制剂中采用的其他无毒相容物质。润湿剂、着色剂脱模剂
包衣剂、甜味剂调味剂、芳香剂、防腐剂和抗氧化剂也可以存在于制剂中。诸如“赋形剂”、“载体”、“药学上可接受的载体”等术语在本文中可互换使用。
[1037] 在一些实施方案中,配制药物组合物用于递送至受试者,例如用于基因编辑。施用本文所述药物组合物的合适途径包括但不限于:局部、皮下、经皮、皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓室、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内(intraosseus)、眼周、肿瘤内、脑内和脑室内施用。
[1038] 在一些实施方案中,将本文所述的药物组合物局部施用于患病部位(例如,肿瘤部位)。在一些实施方案中,本文所述的药物组合物通过注射、通过导管的方法、通过栓剂的方
法或通过植入物的方法施用于受试者,所述植入物是多孔的、无孔的或凝胶状的材料,包括
膜(例如橡胶膜(sialastic membrane))或纤维。
[1039] 在其他实施方案中,本文所述的药物组合物在控释系统中递送。在一个实施方案中,可以使用(参见例如,Langer,1990,Science 249:1527-1533;Sefton,1989,CRC 
Crit.Ref.Biomed.Eng.14:201;Buchwald et al.,1980,Surgery 88:507;Saudek et al.,
1989,N.Engl.J.Med.321:574)。在另一个实施方案中,可以使用聚合物材料。(参见例如,
Medical Applications of Controlled Release(Langer and Wise eds.,CRC Press,
Boca Raton,Fla.,1974);Controlled Drug Bioavailability,Drug Product Design and 
Performance(Smolen and Ball eds.,Wiley,New York,1984);Ranger and Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61.还参见Levy et al.,1985,Science 228:190;
During et al.,1989,Ann.Neurol.25:351;Howard et al.,1989,J.Neurosurg.71:105.)其他控释系统讨论于例如Langer,同上中。
[1040] 在一些实施方案中,药物组合物根据常规规程配制为适合于对受试者(例如人)进行静脉内或皮下施用的组合物。在一些实施方案中,用于通过注射施用的药物组合物是无
菌等渗水性缓冲液中的溶液。必要时,药物还可以包括增溶剂和局部麻醉剂如利多卡因,以
缓解注射部位的疼痛。通常,成分单独供应或以单位剂量形式混合在一起,例如,作为干燥
的冻干粉末或无水浓缩物,在密封容器如安瓿或小药囊中,其表明活性剂的量。当药物通过
输注施用时,可以用含有无菌药用级水或盐水的输液瓶分配。当药物组合物通过注射施用
时,可以提供一安瓿的无菌注射用水或盐水,以便在施用前混合成分。
[1041] 用于全身施用的药物组合物可以是液体,例如无菌盐水、乳酸林格氏液或汉克氏液。此外,药物组合物可以是固体形式,并在使用前立即重新溶解或悬浮。还考虑了冻干形
式。
[1042] 药物组合物可以包含在脂质颗粒或囊泡(例如脂质体或微晶)内,其也适用于肠胃外施用。颗粒可以是任何合适的结构的,例如单层或多层,只要其中含有组合物即可。化合
物可以包埋在含有融合脂质二油酰磷脂酰乙醇胺(DOPE)、低水平(5-10mol%)的阳离子脂
质的“稳定质粒-脂质颗粒”(SPLP)中,并通过聚乙二醇(PEG)涂层稳定(Zhang Y.P.et al.,
Gene Ther.1999,6:1438-47)。对于此类颗粒和囊泡,特别优选带正电荷的脂质如N-[1-(2,
3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵或“DOTAP”。此类脂质颗粒的制备是众所
周知的。参见例如,美国专利号4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;
和4,921,757;其每一个通过引用并入本文。
[1043] 例如,本文所述的药物组合物可以作为单位剂量施用或包装。当用于提及本公开的药物组合物时,术语“单位剂量”是指适合作为受试者的单一剂量的物理上离散的单位,
每个单位含有预定量的活性物质,其经计算与所需稀释剂联合产生所需治疗效果;即载体
(carrier)或媒介物(vehicle)。
[1044] 此外,药物组合物可以作为药物试剂盒提供,其包含(a)含有冻干形式的本发明的化合物的容器和(b)含有用于注射的药学上可接受的稀释剂(例如无菌水)的第二容器。药
学上可接受的稀释剂可以用于重构或稀释本发明的冻干化合物。任选地与这种容器结合的
可以是由管理药物或生物制品的制造、使用或销售的政府机构规定的形式的通知,该通知
反映了制造、使用或销售机构对人类施用的批准。
[1045] 在另一方面,包括含有可用于治疗上述疾病的材料的制品。在一些实施方案中,制品包含容器和标签。合适的容器包括例如瓶子、小瓶、注射器和试管。容器可以由多种材料
形成,例如玻璃或塑料。在一些实施方案中,容器容纳有效治疗本文所述疾病的组合物,并
且可以具有无菌进入口。例如,容器可以是静脉内溶液袋或具有可由皮下注射针刺穿的塞
子的小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中,容器上或与容器结合
的标签表明组合物用于治疗所选择的疾病。制品可以进一步包含第二容器,其包含药学上
可接受的缓冲液,例如磷酸盐缓冲盐水、林格氏溶液或右旋糖溶液。它可以进一步包括从商
业和用户角度所需的其他材料,包括其他缓冲剂、稀释剂、过滤器、针头、注射器和具有使用
说明的包装说明书
[1046] 试剂盒、载体、细胞
[1047] 本公开的一些方面提供了包含核酸构建体的试剂盒,所述核酸构建体包含编码能够使脱氧核糖核酸(DNA)分子中的腺苷脱氨基的腺苷脱氨酶的核苷酸序列。在一些实施方
案中,核苷酸序列编码本文提供的任何腺苷脱氨酶。在一些实施方案中,核苷酸序列包含驱
动腺苷脱氨酶的表达的异源启动子。
[1048] 本公开的一些方面提供了包含核酸构建体的试剂盒,所述核酸构建体包含(a)编码与腺苷脱氨酶融合的napDNAbp(例如Cas9域)的核苷酸序列,或包含如本文提供的
napDNAbp(例如Cas9域)和腺苷脱氨酶的融合蛋白;和(b)驱动(a)的序列的表达的异源启动
子。在一些实施方案中,试剂盒进一步包含编码引导核酸主链(例如引导RNA主链)的表达构
建体,其中构建体包含克隆位点,所述克隆位点定位为允许将与靶序列相同或互补的核酸
序列克隆到引导核酸(例如引导RNA主链)中。
[1049] 本公开的一些方面提供了包含本文提供的任何腺苷脱氨酶、融合蛋白或复合物的细胞。在一些实施方案中,细胞包含编码本文提供的任何腺苷脱氨酶或融合蛋白的核苷酸。
在一些实施方案中,细胞包含本文提供的任何核苷酸或载体。
[1050] 提供以上报告物系统的示例性实施方案的描述仅用于说明的目的,而不意味着限制。本公开涵盖另外的报告物系统,例如上面详细描述的示例性系统的变体。
[1051] 然而,应当理解,基于本公开和本领域的知识,另外的融合蛋白对于技术人员将是显而易见的。
[1052] 从以下实施例将更全面地理解本发明的这些和其他实施方案的功能和优点。以下实施例旨在说明本发明的益处并描述特定实施方案,但并不旨在举例说明本发明的全部范
围。因此,应当理解,实施例不意味着限制本发明的范围。
实施例
[1053] 以下实施例中提供的数据描述了能够在DNA的背景下催化腺苷的水解脱氨基作用(形成肌苷,其与鸟嘌呤(G)一样碱基配对)的碱基编辑器的工程化。没有已知的天然存在的
作用于DNA的腺苷脱氨酶。相反,已知的腺苷脱氨酶作用于RNA(例如,tRNA或mRNA)。第一脱
氧腺苷脱氨酶演化为接受DNA底物并使脱氧腺苷(dA)脱氨基为脱氧肌苷。作为一个实例,使
用来自大肠杆菌的作用于tRNA的腺苷脱氨酶(ADAT)(TadA,代表tRNA腺苷脱氨酶A)进行演
化实验,以工程化改造作用于DNA的腺苷脱氨酶。简而言之,ecTadA与dCas9域共价融合,并
且组装该融合物的文库,其在构建体的脱氨酶部分中含有突变。在下面描述的演化实验中,
发现ecTadA中的几个突变改善了ecTadA使DNA中的腺苷脱氨基的能力。
[1054] 实施例1-腺苷碱基编辑器的演化(演化#1)
[1055] 腺苷碱基编辑器(ABE)的演化是经由易错PCR产生ecTadA-XTEN-死亡Cas9构建体(pNMG-104)的文库来实现的,其仅在编辑器的ecTadA部分中被诱变。选择能够催化DNA上的
A至I脱氨基作用(A至G回复)的编辑器的选择用于使用抗生素选择平台。对于第一轮演化
(演化#1),腺苷碱基编辑器(ABE)文库与靶向氯霉素乙酰转移酶基因中活性位点突变的
gRNA共表达,其需要A至G回复以恢复乙酰转移酶活性和随后在氯霉素选择培养基上的存
活。将选择质粒与ABE文库一起共转化到S1030宿主菌株中。进行演化#1并且突变D108N和
A106V鉴定为实现DNA上的A至G回复的两个突变。与A106V相比,D108N突变更有效地诱导DNA
中的A至G回复。用金黄色葡萄球菌TadA进行的序列比对研究显示残基D108参与野生型tRNA
底物中与核糖的2′OH的H-键接触。在DNA中,该3′OH被3′H替换。
[1056] 野生型腺苷脱氨酶和A至G脱氨酶
[1057] 将各种A至G脱氨酶融合物(+XTEN-nCas9)转染至Hek293T细胞中不会在靶向的位点处引起A至G SNP。靶向六个不同的位点,但野生型腺苷脱氨酶Cas9融合物无一产生可观
察到的DNA中的A至G修饰。BE3(rAPOBEC1-XTEN-nCas9-UGI-NLS)用作阳性对照。测试了以下
野生型脱氨酶-nCas9融合物:ADAR(作用于mRNA)、ADA(作用于脱氧腺苷)和ADAT(作用于
tRNA)(图1)。
[1058] 开发了作用于DNA的A至G脱氨酶。首先,开发了抗生素选择质粒,其中抗生素抗性基因中的活性位点残基的恢复(A至G回复)导致宿主对抗生素攻击的抗性。构建高拷贝质粒
(RSF1030)。它需要STOP回复至野生型氨基酸(Kan)或活性位点残基恢复(Chlor)。具体而
言,在模板链上,STOP需要回复为谷氨酸(Kan)或者酪氨酸需要回复为组氨酸(阳离子残基)
(Chlor)(图2)。
[1059] 通过选择质粒测定最小抑制浓度(MIC)。A至I选择质粒在S1030中生长,并铺板在不同浓度的氯霉素上。发现MIC约为1μg/mL。在增加浓度的chlor上铺板S1030细胞(宿主菌
株)中连续稀释的选择质粒(图3)。具有在高于1μg/mL的chlor的浓度下存活的文库成员的
细胞认为是可能的命中。
[1060] 使用rAPOBEC1-XTEN-dCas9构建体作为阳性对照进一步验证氯霉素(Chlor)选择。然后,对在8μg/mL chlor下存活的菌落进行测序,并在DNA中观察到C至T的回复(图4)。通过
将具有选择质粒和脱氨酶融合物的细胞培养至OD600nm~0.3,然后诱导融合表达过夜来进行
测定。然后将所得培养物铺板在增加浓度的氯霉素上,并筛选所需的DNA回复突变。
[1061] 然后产生A至I脱氨酶文库。检查了优化的组装/文库生成条件,包括PreCR相对于USER、电穿孔相对于化学成分、核转染相对于电穿孔、外生长时间(outgrowth time)、SOC相
对于DRM和亚克隆相对于直接转化。在文库组装/电穿孔条件优化后,制备以下两个文库:
APOBEC-XTEN-dCas9和ADAT-XTEN-dCas9。基于计算的菌落形成单位(CFU),平均文库大小为
2-4x106。APOBEC-XTEN-dCas9文库没有产生有用的命中。ADAT-XTEN-dCas9文库成功产生。
使用的ADAT是大肠杆菌中的TadA(截短的)。
[1062] 脱氨酶文库的结构
[1063] 脱氨酶-XTEN-dCas9融合物包括SC101主链和靶向氯霉素位点的gRNA(lac启动子)(图5)。仅对脱氨酶进行易错PCR,并且组装是两件式PreCR(修改的USER方案)。gRNA由lac启
动子驱动;其靶向Chlor活性位点。前间隔区的位置9处需要A至G回复以恢复His活性位点
(酪氨酸至组氨酸回复)。在模板链上需要并且靶定修复。APOBEC/CDA用作阳性对照。A到I构
建体包括以下各项:mADA、ADAR1和ADAT2。
[1064] 还构建了TadA-XTEN-dCas9文库。仅使用TadA酶上的易错PCR。使用优化的方案并亚克隆所得到的构建体。用TadA*-XTEN-dCas9随机化文库转化S1030细胞(具有选择质粒)。
在恢复期后诱导蛋白质表达。然后,次日将文库在增加浓度的氯霉素(0.5、1、2和4μg/mL)上
铺板到分开的24x24cm平板上并温育过夜。TadA(wt)-XTEN-dCas9用作阴性对照。菌落在所
有四个地方生长,并且随着浓度的增加,观察到更少的菌落。阴性对照具有比具有文库成员
的平板少得多的菌落。对八种选择质粒进行测序,并且所有质粒在靶向的位点含有A至G回
复。总共,对120个菌落进行PCR扩增,并且然后测序。第一轮的测序的结果显示在图6中。具
有A至G回复的选择质粒的示例性序列在图7中给出。靶标是模板链的A至G(在编码中观察为
T至C)。该实例显示了Sanger迹线(Sanger trace)中约50%的回复(Y至H)。
[1065] 观察到残基D108处的趋同(图8)。大肠杆菌TadA的晶体显示在图9中所示。图中的D119是D108,因为残基数是偏移的。发现许多突变发生在该残基中。图10显示了Tad A(金黄
色葡萄球菌)的晶体结构,并将序列与大肠杆菌的序列比对。ecTadA残基108相当于金黄色
葡萄球菌TadA残基104,其是与核糖的2’OH的至关重要的天冬酰胺氢键的一部分。
[1066] 在演化实验中使用的选择质粒含有各种抗生素抗性基因中的突变,其由腺苷碱基编辑器靶向。以下是各种抗生素抗性基因(SEQ ID NO:441-444)的靶序列,其中恢复对其各
自抗生素的抗性所需的靶定的腺嘌呤以粗体和下划线示出。使用的质粒是具有RSF1030来
源的高拷贝质粒。
[1067] 氯霉素靶标(H193Y): (SEQ ID NO:441)
[1068] 卡那霉素靶标1(Q4Term): (SEQ ID NO:442)
[1069] 卡那霉素靶标2(W15Term): (SEQ ID NO:443)
[1070] 壮观霉素靶标(T89I): (SEQ ID NO:444)
[1071] 通过自Integrated Dna Technologies(IDT)订购哺乳动物密码子优化形式的ecTadA作为基因来制备哺乳动物密码子优化的构建体。该基因块用于制备pNMG-142,其
用作所有后续哺乳动物密码子优化的构建体的模板。参见表4。在从各轮演化中鉴定突变
后,设计引物并进行订购以将所期望的突变引入哺乳动物构建体中。
[1072] ecTadA演化与攻击
[1073] 分离并攻击来自ecTadA演化的个别构建体。亚克隆了16个克隆,导致第一轮演化。在具有选择质粒的S1030细胞中转化16个克隆中的每一个,并用增加剂量的氯霉素攻击。在
相同位点具有C至T回复的rAPOBEC1-XTEN-dCas9用作对照。结果显示在图11和12中。图12显
示在增加浓度的氯霉素上攻击的各种构建体的C.F.U.。构建体3和4在测定条件下表现最
佳。D108N是关键突变。
[1074] 在ecTadA的残基D108处具有突变的碱基编辑器能够经由腺嘌呤的水解脱氨基作用在DNA中产生腺嘌呤至鸟嘌呤突变,这导致在腺嘌呤位点处的肌苷形成。肌苷被DNA聚合
酶读作鸟嘌呤。参见图18-22和129-139,其显示了各种基因编辑器在各种靶DNA序列中在
DNA中产生腺嘌呤至鸟嘌呤突变的能力,例如Hek2(图19、20和129)、Hek 2-1(图130)、Hek 
2-2(图131)、Hek 2-3(图132)、Hek 2-4(图133)、Hek 2-6(图134)、Hek 2-9(图135)、Hek 2-
10(图136)、RNF2(图138)、FANCF(图139)、EMX1(图21)和Hek3(图22和137)。在这些实验中,
D108N突变对于产生A至G突变最有效,并且添加A106V突变进一步提高了效率。此外,碱基编
辑器在Hek2位点处比任何其他测试的位点更有效地产生A到G突变。在图中,BE3和BE2指的
是诱导C至G突变的碱基编辑器,并起C至G碱基编辑的阳性对照作用。
[1075] 进行下面更详细描述的第二轮演化。将含有D108N突变的构建体随机化(质粒NMG-128)。重复选择测定,并用高浓度的氯霉素攻击克隆。将得到的材料亚克隆,并重复选择测
定。然后对在高浓度的氯霉素下存活的所得菌落进行测序。观察到位置E155处的突变的富
集(图13)。
[1076] 哺乳动物细胞中的A至G编辑
[1077] 在哺乳动物(Hek293T)细胞中检查A至G编辑。如图14中所示,编辑(从A至G)发生在各种演化的ecTadA构建体中,而在阴性对照中没有发生。本文描述的实验中使用的构建体
(例如,演化#1-#7)显示在表4中。表4包括构建体名称、构建体结构和ecTadA突变。在表4中,
pCMV是指包含构建体的表达载体。ecTadA是指SEQ ID NO:1的ecTadA,然而,对于包含两个
ecTadA序列的构建体,第二(第一ecTadA的C端)ecTadA序列不包含N端甲硫氨酸。表4还列出
了相对于SEQ ID NO:1的ecTadA中的突变。野生型ecTadA是指SEQ ID NO:1。当存在两个
ecTadA域时,这两个ecTadA域中的突变用首先指出的N端ecTadA指示。24 a.a接头是指氨基
酸序列SGGSSGGSSGSETPGTSESATPES(SEQ ID NO:685),32 a.a接头是指氨基酸序列SGGSSG
GSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:385),40 a.a接头是指氨基酸序列SGGSSGGSSG
SETPGTSESATPESSGGSSGGSSGGSSGGS(SEQ ID NO:686),64 a.a接头是指氨基酸序列SGGSSG
GSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:687),并
且92 a.a.接头是指氨基酸序列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEE
GTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS(SEQ ID NO:688)。
[1078] 表4:质粒身份密钥
[1079]
[1080]
[1081]
[1082]
[1083]
[1084]
[1085]
[1086]
[1087]
[1088]
[1089]
[1090]
[1091]
[1092]
[1093]
[1094]
[1095]
[1096] 实施例2-含有ecTadA的D108N突变的腺苷碱基编辑器的演化(演化#2)
[1097] 具有D108N(pNMG-128)突变的ecTadA构建体经由易错PCR进行诱变,如在演化#1中,并且针对相同的氯霉素位点选择该文库,只是在选择培养基中使用更高浓度的氯霉素
以增加选择的严格性。该轮选择产生了两个改善ABE:D147Y和E155V的编辑效率的新的突
变。
[1098] 在第一轮的演化中,在ecTadA-XTEN-dCas9融合构建体的ecTadA脱氨酶部分上进行易错PCR,然后进行USER组装以产生ecTadA-XTEN-dCas9变体的文库(仅在脱氨酶部分中
变化)。将这些文库成员转化到含有选择质粒的S1030细胞中,其在氯霉素抗性基因的活性
位点部分中含有单个G至A点突变。将细胞培养过夜,并铺板在一定浓度的氯霉素上,所述氯
霉素的浓度高于具有选择质粒的S1030细胞的MIC。将存活的菌落亚克隆并在选择条件下再
次攻击,并然后测序以鉴定生产性变体的基因型。Sanger测序分析显示D108N、D108V和
D108G突变赋予了所期望的表型(DNA中的A至G转换突变)。涉及从该第一轮的演化中分离的
个别克隆的随后研究证明了D108N突变是该位点处的最佳取代。
[1099] 通过演化含有D108N突变的ecTadA进行第二轮的演化(参见构建体3,克隆5,如图11中所列(pNMG-128),其鉴定自第一轮的演化。pNMG-128还含有突变H8Y和N127S,其是“搭
便车(hitch-hiker)”突变。所得文库的演化的克隆用32、64和128ug/mL氯霉素进行攻击(比
第一轮演化的1、2和4ug/mL更高的严格性)。将在32、64和128ug/mL氯霉素上存活的克隆亚
克隆并重新铺板,分离并测定来自该富集的个别克隆。在不同浓度的氯霉素下,在图17中显
示每个构建体pNMG-128和pNMG 149-154的菌落形成单位(C.F.U)的数目。具有高严格性条
件的第二轮的演化导致ecTadA的D147和E155处的突变的高频率,所述突变在图16中突出显
示。
[1100] 图23-27显示了使用gRNA将编辑器引导至各种遗传基因座的各种ABE构建体转染到Hek293T细胞中的结果。图23显示Hek-2上的pNMG-164、171、172和173编辑。图24显示Hek-
2上的NMG-174-177编辑。图25显示Hek-2上的pNMG143、144、164、177编辑。图26显示Hek-2上
的pNMG-164、pNMG-177、pNMG-178、pNMG-179和pNMG-180编辑。图27显示Hek-2上的pNMG-
164、177-180编辑。
[1101] 关于图28-45,在D108处含有突变的ecTadA的哺乳动物密码子优化构建体(在一些情况下突变包括以下各项:D108N、D108G、D108V)用于探测在第一轮的演化中鉴定出的D108
突变是否也催化哺乳动物细胞中的A至G回复。将构建体pNMG-142-147转染到Hek293T细胞
中,并且在Hek-2位点的位置#5处显示出最大量的A至G编辑效率,在任何其他位点处具有低
的腺嘌呤编辑至无腺嘌呤编辑。靶向的示例性DNA序列在下文描述为HEk2(SEQ ID NO:41)、
Hek3(SEQ ID NO:42)、Hek4(SEQ ID NO:43)、RNF2(SEQ ID NO:44)、FANCF(SEQ ID NO:45)和EMX1(SEQ ID NO:46)。随后的实验和演化已提高了编辑效率,并鉴定出编辑窗口通常发
生在前间隔区中的位置4-6处并且在具有“YAC”的周围序列的情况下发生;其中“Y”是嘧啶
(T或C)碱基,并且下面序列中的加下划线的核苷酸是PAM序列。对于如下所示的Hek2序列
(SEQ ID NO:41),前间隔区位置从右到左表示为1-20。前间隔区在Hek2位点处的位置5是T,
其与可以由本文所述的任何腺苷脱氨酶编辑的A相对。对于如下所示的Hek3、Hek4 RNF2、
FANCF和EMX1序列(SEQ ID NO:42-46),前间隔区位置从左到右表示为1-20。对于这些序列,
可以通过本文所述的任何腺苷脱氨酶编辑一个或多个腺嘌呤(A),例如Hek3位点(SEQ ID 
NO:41)的位置6处的A。应当注意,pNMG-142(与nCas9融合的野生型ecTadA)的转染不产生可
观察量的编辑,强调了实施由定向演化实验产生的突变的重要性和必要性。
[1102] 以下提供实施例中使用的靶序列(PAM序列用粗体加下划线):
[1103] Hek2:
[1104]
[1105] Hek3:
[1106]
[1107] Hek4:
[1108]
[1109] RNF2:
[1110]
[1111] FANCF:
[1112]
[1113] EMX1:
[1114]
[1115] 工程化改造具有抑制肌苷至腺嘌呤的回复的域的腺苷碱基编辑器
[1116] 假设阻断肌苷回复为腺嘌呤(例如由于内源性hAAG活性)可以改善碱基编辑效率。因此,进行实验以检验向ABE编辑器的C端添加催化无活性的烷基腺苷糖基化酶的效果。碱
基编辑器3(BE3)在这些转染中充当C至G碱基编辑的阳性对照,pNMG-142是阴性对照,pNMG-
143是演化轮#1构建体,pNMG-144(D108N)是另一个演化轮#1构建体(A106V_D108N)。pNMG-
156构建体中的突变是鉴定自从第一轮的ecTadA细菌演化(包括“搭便车”突变)产生的最高
频率扩增子的所有突变。搭便车突变是指在演化实验中鉴定,但可以不对腺苷碱基编辑具
有显著影响的突变。用于鉴定搭便车突变的方法是进行回复分析,并然后重新测定构建体
以确定突变是否对碱基编辑有影响。pNMG-156是哺乳动物密码子优化形式的pNMG-128(在
选择中分离的细菌载体I),其含有C端UGI。pNMG-160是具有催化无活性的AAG(E125Q)的
pNMG-143的等同物,pNMG-161是具有催化无活性的Endo V(D35A)的pNMG-143。突变E125Q和
D35A分别对应于催化死亡AAG和EndoV开放阅读框(ORF)中的突变。pNMG-162具有与pNMG-
156相同的构建体结构,只是它不含有UGI。这些构建体使以下靶序列中的腺苷脱氨基的能
力分别显示在图28-33中:HEk2(SEQ ID NO:41)、Hek3(SEQ ID NO:42)、Hek4(SEQ ID NO:
43)、RNF2(SEQ ID NO:44)、FANCF(SEQ ID NO:45)和EMX1(SEQ ID NO:46)。通常,发现对于测试的构建体,将UGI、AAG(E125Q)或EndoV(D35A)C端掺入ecTadA和Cas9域并未提供碱基编
辑器产生腺苷至鸟嘌呤突变的效率的显著增加。
[1117] 相对于Cas9域排列腺苷脱氨酶域
[1118] 测试腺苷碱基编辑器中腺苷脱氨酶域(例如,ecTadA)相对于Cas9域的排列。例如,测试了相对于Cas9域在N端或C端放置腺苷脱氨酶是否影响碱基编辑效率。此外,比较了包
括来自ecTadA的演化#1和ecTadA的演化#2的突变的实验。见图34-39。通常,在演化#2中鉴
定的突变改善了演化#1中鉴定的ABE编辑器的编辑效率。此外,当腺苷脱氨酶排列在Cas9的
N端时,发现腺苷碱基编辑器是有活性的(将腺嘌呤突变为鸟嘌呤)。腺苷脱氨酶排列在Cas9
的C端的腺苷碱基编辑器构建体显示很少的可观察到的腺嘌呤至鸟嘌呤的编辑至没有可观
察到的腺嘌呤至鸟嘌呤的编辑。
[1119] 将以下ABE构建体转染到Hek293T细胞中;pNMG-142,其充当阴性对照(ecTadA中无突变);pNMG-143(其中ecTadA具有D108N突变)、pNMG-144(其中ecTadA具有A106V和D108N突
变)和pNMG-164(其中ecTadA具有D108N、D147Y和E155V突变)。这些构建体是具有来自演化#
1的突变的哺乳动物密码子优化的构建体。构建体pNMG-171充当pNMG-172至pNMG-176的C端
TadA融合构建体(其含有各种ecTadA突变)的对照。pNMG-171含有与nCas9的C端野生型
ecTadA融合物,而pNMG-172-176含有鉴定自演化#1的TadA中的突变。pNMG-177和pNMG-178
代表两种哺乳动物密码子优化的质粒,其具有鉴定自演化#2的突变,其中pNMG-178含有UGI
域。pNMG-179和pNMG-180与pNMG-177相同,但分别具有添加的C端催化无活性的AAG(E125Q)
和UGI域。这些构建体使以下靶序列中的腺苷脱氨基的能力分别显示在图34-39中:HEk2
(SEQ ID NO:41)、Hek3(SEQ ID NO:42)、Hek4(SEQ ID NO:43)、RNF2(SEQ ID NO:44)、FANCF(SEQ ID NO:45)和EMX1(SEQ ID NO:46)。
[1120] 通常,发现与在C端形成对比在Cas9的N端融合腺苷脱氨酶(ecTadA)产生更有效的腺嘌呤的碱基编辑。还发现含有突变A106V、D108N、D147Y和E155V的ecTadA比在演化#1和演
化#2中测试的其他ecTadA突变表现得更好(例如,更有效地编辑腺嘌呤)。此外,发现对于测
试的构建体,在这些构建体中掺入UGI或AAG(E125Q)并未提供碱基编辑器产生腺苷至鸟嘌
呤突变的效率的显著增加。
[1121] 进行图40中所示的转染实验以确定四个关键点:一,ecTadA是否通过在引导物的RNA中使A脱氨基来干扰gRNA/Cas9结合。二,演化的脱氨酶和Cas9之间的短接头(仅GGS)或
长接头((SGGS)2-XTEN-(SGGS)2)((SGGS)2)对应于SEQ ID NO:2)是否影响窗口大小和/或
ABE的整体编辑效率。三,演化的ecTadA的二聚化是否提高了ABE编辑效率。四,TadA中位置
D108处的其他取代是否可以进一步提高编辑效率。发现ABE编辑器不干扰gRNA/Cas9结合,
并且ecTadA的二聚化确实提高了编辑效率。为了测试ABE是否干扰gRNA/Cas9结合,在各种
演化的ABE构建体(pNMG-247-251)中用野生型Cas9替换nCas9,并将INDEL速率与仅Cas9
(wt)的INDEL速率进行比较(见图48)。对于pNMG-247-251,图40中的A至G编辑效率是检测不
到的,可能是由于野生型Cas9核酸酶活性。还确定演化的ecTadA和nCas9(pNMG-183)之间的
长接头相对于仅XTEN和仅GGS接头产生更高的编辑效率。最引人注目的是,通过以下两者测
试ABE的ecTadA单元的二聚化:通过与ABE编辑器pNMG-142(阴性对照)、pNMG-177(A106V_
D108N_D147Y_E155V)共转染等摩尔量的ecTadA来反式测试,和通过制备其中ecTadA的两个
单元共价栓系(用(SGGS)2-XTEN-(SGGS)2接头)的编辑器来顺式测试。用于反式二聚化实验
的单体单元是pNMG-274和pNMG-275。ABE编辑器中ecTadA的两个单元的共价融合在pNMG-
276(阴性对照,ABE编辑器中的野生型TadA的两个单元)和pNMG-277中表示。最后,用质粒
pNMG-278-283(其代表在ecTadA中位置D108处具有不同突变(例如D108M、D108Q、D108K等)
的ABE编辑器)转染表明最初在第1轮演化中鉴定的D108N取代是该位置处表现最佳的突变。
[1122] 实施例3-腺苷碱基编辑器的开发(演化#3)
[1123] 用易错PCR诱变具有共有突变A106V、D108N、D147Y(pNMG-184)和E155V的ecTadA构建体,并将得到的ABE文库用2个单独的gRNA靶向到卡那霉素抗性基因中的两个不同位点,
其需要两个A至G回复(两者均在提前终止密码子中)以赋予卡那霉素抗性。2gRNA/2靶标方
法用于增加选择的严格性。该演化导致了以下新突变的鉴定:L84F、H123Y和I157F。
[1124] 脱氨酶编辑sgRNA
[1125] 在ABE的开发过程中,询问脱氨酶是否编辑sgRNA并且TadA是否仍然具有RNA活性。基于图48中显示的结果,融合物似乎结合良好,但ABE和Cas9插入/缺失百分比之间没有显
著差异。这表明ABE不干扰或修饰gRNA链。仅wt Cas9和与野生型Cas9融合的ABE之间的差异
将表明脱氨酶干扰gRNA。情况并非如此。
[1126] 还询问是否可以进一步突变D108残基以使脱氨酶拒绝RNA作为底物。sgRNA编码位点可以在图51中找到。结果已显示,ecTadA中的D108M突变不显著提高腺苷碱基编辑器的编
辑效率。
[1127] 发现将突变体TadA的另外的单元栓系至ABE导致DNA的脱氨基作用的更高的编辑效率。将AAG(碱基切除修复酶)栓系至ABE不显著增强碱基编辑。将催化失活的EndoV(大肠
杆菌DNA修复酶)栓系至ABE也不显著增强碱基编辑。此外,AAG(其将肌苷回复回到A)的敲除
细胞系不具有比亲本菌株更好的编辑效率。
[1128] 下一个目标是确定为什么ABE在HEK位点2上比在其他测试位点上更有效地编辑。虽然腺苷碱基编辑器在所有位点都运作良好,但它们在Hek-2位点运作最优。理论化的是,
由于腺嘌呤残基的丰富,ABE在HEK位点2上的运作最好。图57中显示的结果表明情况并非如
此。另一个理论是,接头长度可能是ABE仅在HEK位点2上起作用的原因。图59和图60中显示
的结果证明是不确定的。ecTadA和Cas9之间与Cas9的最长接头提高了编辑效率,但似乎没
有扩展碱基编辑窗口。还测试了ABE是否有效地编辑了Hek-2类似的位点,并且发现在Hek-2
类似位点处有非常有效的编辑。从该数据发现,当ABE是“YAC”共有序列(其中Y是C或T)的一
部分时,ABE更有效编辑腺嘌呤。此外,ecTadA的tRNA底物是在“U-A-C”(其是YAC)的背景下。
[1129] 已经提出脱氨酶的二聚化可以改善碱基编辑。目前的编辑器结构,反式二聚化和顺式二聚化在图63中所示(顶部结构、左下结构和右下结构)。图64至图66中显示的结果表
明脱氨酶的二聚化改善了碱基编辑。关于“YAC”序列特异性,数据支持的一个假设是ABE在
前间隔区的位置4-6中的A上并且在具有“YAC”的周围序列的情况下运行最佳;靶A加下划
线,其中Y是C或T。
[1130] 针对新的选择序列演化ABE编辑器
[1131] 下一个目标是修改ABE编辑器序列偏好。一个ABE仅靶向Q4停止位点,并观察到A至G的回复,如图69中所示。结果还显示编辑器仅靶向W15停止位点,并观察到A至G的回复,如
图70中所示。序列与原始演化靶标(其是氯霉素活性位点)不同。新的突变可以产生动力学
上更快的酶。第三轮的演化同时靶向卡那霉素基因中的Q4和W15位点两者。除了具有与原始
氯霉素基因不同的序列同一性的靶向位点之外,校正同一基因中的两个位点产生更大的选
择严格性。用于演化#3的模板是细菌质粒pNMG-288,其含有2gRNA(靶向卡那霉素中的Q4终
止和W15终止)。对已经含有以下突变的pNMG-288的脱氨酶部分进行易错PCR:A106V、D108N、
D147Y、E155V。
[1132] 在产生由演化轮#3产生的相应变体的哺乳动物构建体后,发现pNMG-341和pNMG-340通常优于pNMG-290,其是来自演化#2的最高度优化的构建体。
[1133] 表5.包括示例性前间隔区和PAM序列。与表中的前间隔区序列互补的RNA序列将用于gRNA中以将ABE靶向到该序列。靶A相对于原始Hek-2位点(最初在位置5处)以粗体显示,
并且与原始Hek-2序列不同的核苷酸以下划线标出。序列从上到下对应于SEQ ID NO:445-
464。
[1134]
[1135] 实施例3-含有ecTadA的A106V、D108N、D147Y和E155V突变的腺苷碱基编辑器的演化(演化#3)
[1136] 用易错PCR诱变具有共有突变A106V、D108N、D147Y(pNMG-184)和E155V的ecTadA构建体,并将得到的ABE文库用2个单独的gRNA靶向到卡那霉素抗性基因中的两个不同位点,
其需要两个A至G回复(两者均在提前终止密码子中)以赋予卡那霉素抗性。2gRNA/2靶标方
法用于增加选择的严格性。见图96-99。该演化导致了以下新突变的鉴定:L84F、H123Y和
I157F。
[1137] 类似于演化数1和2进行演化#3,只是细菌质粒pNMG-288用作模板,ecTadA中的突变(A106V_D108N_D147Y_E155V)和2gRNA得到表达以靶向选择质粒中的终止密码子pNMG-
27-(Q4term+W15term)。将文库铺板在高于MIC的浓度的卡那霉素上。来自演化#3的最有效
的碱基编辑器是pNMG-371,其含有两个包含突变L84F、A106V、D108N、H123Y、D147Y、E155V和I156F的ecTadA域。
[1138] 实施例4-腺苷碱基编辑器ecTadA残基E25、R26、R107、A142和A143的演化以增加非YAC序列中腺嘌呤的编辑效率(演化#4)
[1139] 使用靶向ecTadA中的位点(例如E25、R26、R107、A142和A143)以产生位点饱和的ABE文库的NNK引物来诱变具有来自演化#2的共有突变,A106V、D108N、D147Y和E155V的
ecTadA细菌密码子优化的构建体,其由ecTadA的一个单元、XTEN接头和催化无活性的Cas9
(dCas9)构成。假设ecTadA的残基E25、R26、R107,A142和A143与具有wt ecTadA同源二聚体
的tRNA底物接触。对于NNK引物,N是A、T、C或G,K是G或T。引物含有突变并设计成在5个感兴
趣的区域处结合,并且使用PCR重叠延伸方案获得全长产物,并使用之前在易错文库组装中
使用的USER联结进行组装。靶向的ecTadA的5个残基包括E25、R26、R107、A142和A143。该演
化的目标是修改腺苷碱基编辑器的“YAC”序列偏好。在该轮演化中,针对壮观霉素抗性基因
选择ABE的文库,所述壮观霉素抗性基因的靶A在非YAC环境中呈现。见图101-123。该轮演化
的结果产生了突变:R26G和A142N。
[1140] 将ecTadA_2.2脱氨酶构建体诱变以靶向壮观霉素中的活性位点残基(T89)。gRNA靶向区域:5’-CAATGATGACTTCTACAGCG-3’(SEQ ID NO:444)对应于非“YAC”序列。靶向的残基及其各自的相互作用在表6中所示。
[1141] 表6-显示saTadA和ecTadA中负责具体列出的相互作用的氨基酸残基。演化#4中使用的文库的大小是325,这是基于密码子频率的文库的大小。
[1142]金黄色葡萄球菌TadA 大肠杆菌TadA 相互作用
G22 R25/R26 与tRNA底物中的3’C的羰基H键
D103 R107 与tRNA底物中的5’U的羰基H键
S138 A142/A143 与tRNA底物中的5’U的羰基H键
[1143] 具有ecTadA_2.2脱氨酶模板的NNK文库由来自含有128、256、384和512ug/mL壮观霉素的平板的总共约500个菌落产生。将编辑器构建体亚克隆,重新转化到具有未校正的壮
观霉素T89I选择质粒的S1030中,并用增加浓度的壮观霉素再次攻击,以澄清来自随机回复
的真阳性表型。位点HEK-2、HEK2-3、HEK2-6、HEK2-7、HEK2-10、HEK3和FANCF位点处的演化#4变体(NNK文库)的编辑结果显示在图108至122中。演化#4变体不比演化#3变体表现更好,并
且相对于“YAC”序列没有表现出放松的底物特异性。
[1144] 对于位点HEK-2、HEK2-2、HEK2-3、HEK2-6、HEK2-7和HEK2-10位点的演化#4哺乳动物转染的结果显示在图123中。ecTadA演化轮#4突变既不提高编辑效率,也不扩大底物耐受
性。
[1145] 表7中给出了用于ecTadA中靶位点演化的演化#4模板(A106V、D108N、D147Y、E155V),其鉴定了被鉴定的单个克隆。
[1146] 表7:演化#4中鉴定的突变。用于演化的模板:ecTadA ecTadA(A106V、D108N、D147Y和E155V)。
[1147]
[1148] 实施例5-含有ecTadA的L84F、A106V、D108N、H123Y、D147Y、E155V和I157F突变的腺苷碱基编辑器的演化(演化#5)
[1149] 将含有来自演化#3的突变,L84F、A106V、D108N、H123Y、D147Y、E155V、I157F的ecTadA构建体(pNMG-325)用易错PCR进行诱变,并将得到的ABE文库用2个单独的gRNA靶向
到以下两个不同的抗生素抗性基因中的两个不同的基因座:氯霉素和壮观霉素。这两个靶
序列在非YAC的背景中包含靶A。
[1150] 编辑器质粒编码两种不同的gRNA:chlor和spect,两者都是“非YAC”靶标。chlor靶序列是 (SEQ ID NO:441)并且在位置“9”处具有
靶“A”。spect靶序列是 (SEQ ID NO:444),并且在
位置“6”处具有靶“A”。包含ecTadA和dCas9的用于ecTadA演化(演化#5)的构建体的示意图
显示在图124中。
[1151] 将文库转化到S1030+选择质粒中,ABE表达7小时,然后在选择培养基上铺板:128ug/mL氯霉素(+kan/carb),128ug/mL氯霉素、128ug/mL壮观霉素(+kan/carb)、128ug/mL
氯霉素、256ug/mL壮观霉素(+kan/carb)、128ug/mL氯霉素、384ug/mL壮观霉素(+kan/
carb)。在第五次演化#5后测定的克隆的结果显示在图125至128中。显示了存活的菌落。在
演化#5后测定的来自spect选择克隆的扩增子显示在图127中。从双选择板测序的所有菌落
相对于起始材料没有任何新的突变。
[1152] 实施例6-引入金黄色葡萄球菌TadA中的突变的检查。
[1153] 基于Losey H.C.,et al.,“Crystal structure of Staphylococcus aureus tRNA adenosine deaminase TadA in complex with RNA,”Nature Stuctural and 
Molecular Biology,13,p.153-159(2006)中公开的晶体结构将突变引入到金黄色葡萄球
菌TadA(saTadA)中;其全部内容在此通过引用并入。基于与其天然tRNA底物结合的金黄色
葡萄球菌TadA的晶体结构,选择4个残基用于诱变,其产生与底物的反密码子环的H-键接
触。第一个目标是确定是否可以制造另一个版本的ABE编辑器,其可以诱导DNA中的A至G突
变。例如,通过使用来自另一个细菌物种(例如金黄色葡萄球菌)的TadA。第二个目标是确定
金黄色葡萄球菌编辑器的序列特异性是否与ecTadA编辑器相似或不同。第三个目标是测试
与大肠杆菌ABE编辑器相比,金黄色葡萄球菌ABE编辑器的编辑效率是否得到改善。简而言
之,在saTadA中制备突变D104N、D103A、G22P和S138A。见表4中的构建体pNMG-345-350。在位
点HEK-2、HEK2-1、HEK2-2、HEK2-3、HEK2-4、HEK2-6、HEK2-9、HEK2-10、HEK3、RNF2和FANCF位点处的碱基编辑的编辑结果显示于图129至139中。这些图显示在ecTadA中鉴定的突变可以
在金黄色葡萄球菌TadA(saTadA)中制备,以赋予saTadA在DNA中使腺嘌呤脱氨基的能力。这
些图还显示,对于saTadA,YAC序列偏好与其对ecTadA相似。
[1154] 实施例7-测试ecTadA同源二聚体相比于异源二聚体以及腺苷碱基编辑器的接头长度。
[1155] 产生腺苷碱基编辑器构建体以测试各种接头长度和腺苷脱氨酶(例如,野生型ecTadA和/或突变体ecTadA域)域的各种组合。对于每个构建体,测试了将靶A突变为G的效
率。例如,测试了构建体pNMG 492-500和pNMG-513-518在细胞的DNA中产生A至G突变的能
力。构建体pNMG 492-500和pNMG-513-551的身份显示在表4中。这些测试的结果显示在例如
图141-149中。此外,碱基编辑器的腺苷脱氨酶内的精氨酸残基被突变以确定它们是否对靶
序列特异性具有影响,例如,测试它们突变不作为5′-YAC-3′序列部分的A的能力,其中Y是C
或T。这些测试的结果显示于例如图141中。
[1156] 表8:sgRNA质粒密钥。下面的质粒密钥包含sgRNA序列的前间隔区序列,并鉴定参照质粒编号和位点。对于前间隔区序列,T是gRNA中的U。在一些实施方案中,本文提供的任
何gRNA包含表8中的任何前间隔区序列,其中T为U。
[1157]
[1158]
[1159]
[1160] 实施例8-使用核苷酸交换和切除技术(NExT)进行DNA改组以除去上位突变,演化#6。
[1161] 为了产生更有效的腺苷碱基编辑器并除去潜在的上位突变,使用核苷酸交换和切除技术(NExT)对来自演化4、5a、5b和2的构建体进行DNA改组实验。DNA改组的示意图示于图
150和151中。简而言之,创建了DNA改组文库。将NexT改组和USER组装转化到10B细胞中。将
分离的DNA改组文库转化到具有选择质粒的S1030中。在腺苷碱基编辑器诱导7小时后,使用
4种不同的选择条件(包括低chlor、高chlor、高spect和chlor加spect)进行铺板。在37℃下
进行温育48小时,然后对存活者进行菌落PCR。见图150和151。
[1162] 获得自演化#6的克隆的序列同一性显示在图152和153中。给出相对于SEQ ID NO:1的突变。图154含有衍生自演化#6的碱基编辑器的示意图。相对于SEQ ID NO:1,演化#6鉴
定了P48(例如,P48T、P48S和P48A)和A142(例如,A142N)中的突变。这些突变提高了碱基编
辑器将DNA中的A残基突变为G的效率。参见例如,图155-158中的实验结果。
[1163] 实施例9-演化腺苷碱基编辑器以有效地编辑多A位点,演化#7。
[1164] 为了生成在含有多个A残基(例如,5′-AAA-3′序列)的位点内编辑A更有效的碱基编辑器,对能够编辑多A位点的碱基编辑器进行演化。演化是通过鉴定可以校正两个点突变
的经演化的碱基编辑器进行的,所述两个点突变赋予细胞抗生素(kan)抗性的能力。参见例
如图163-165。提高碱基编辑效率和/或在多A位点处编辑A的能力的突变显示于图164中,其
中相对于SEQ ID NO:1鉴定了突变。相对于SEQ ID NO:1,演化#7鉴定了W23(例如,W23R和
W23L)和R152(例如,R152P和R152H)中的突变。在各种靶序列上选择的腺苷碱基编辑器构建
体的碱基编辑效率的概要显示于图179-186中。表9和10含有细菌选择质粒数据。
[1165]
[1166]
[1167]
[1168]
[1169] 实施例10-Cas9变体序列
[1170] 本公开提供了Cas9变体,例如来自一种或多种生物体的Cas9蛋白,其可以包含一个或多个突变(例如,以产生dCas9或Cas9切口酶)。在一些实施方案中,可以突变Cas9蛋白
的一个或多个氨基酸残基(下文通过星号标识)。在一些实施方案中,SEQ ID NO:52中提供
的氨基酸序列的D10和/或H840残基,或SEQ ID NO:108-357中提供的任何氨基酸序列中的
相应的突变得以突变。在一些实施方案中,SEQ ID NO:52中提供的氨基酸序列的D10残基,
或SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的突变得以突变为除D之外的任
何氨基酸残基。在一些实施方案中,SEQ ID NO:52中提供的氨基酸序列的D10残基,或SEQ 
ID NO:108-357中提供的任何氨基酸序列中的相应的突变得以突变为A。在一些实施方案
中,SEQ ID NO:52中提供的氨基酸序列的H840残基,或SEQ ID NO:108-357中提供的任何氨
基酸序列中的相应的残基是H。在一些实施方案中,SEQ ID NO:52中提供的氨基酸序列的
H840残基,或SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的突变得以突变为除H
之外的任何氨基酸残基。在一些实施方案中,SEQ ID NO:52中提供的氨基酸序列的H840残
基,或SEQ ID NO:108-357中提供的任何氨基酸序列中的相应的突变得以突变为A。在一些
实施方案中,SEQ ID NO:52中提供的氨基酸序列的D10残基,或SEQ ID NO:108-357中提供
的任何氨基酸序列中的相应的残基是D。
[1171] 对来自各种物种的许多Cas9序列进行比对以确定是否可以在其他Cas9蛋白中鉴定SEQ ID NO:52或SEQ ID NO:108的D10和H840的相应的同源氨基酸残基,从而允许具有同
源氨基酸残基的相应的突变的Cas9变体产生。使用NCBI基于约束的多重比对工具(NCBI 
Constraint-based Multiple Alignment Tool)(COBALT(可在st-va.ncbi.nlm.nih.gov/
tools/cobalt获得)在以下参数的情况下进行比对。比对参数:空位罚分-11,-1;末端空位
罚分-5,-1。CDD参数:使用RPS BLAST开启(on);Blast E值0.003;查找保守列和重新计算开
启。查询聚类参数:使用查询聚类开启;词大小4;最大聚类距离0.8;字母常规。
[1172] 以下提供了四个Cas9序列的示例性比对。比对中的Cas9序列是:序列1(S1):SEQ ID NO:108|WP_010922251|gi 499224711|II型CRISPR RNA引导的内切核酸酶Cas9[酿脓链
球菌];序列2(S2):SEQ ID NO:109|WP_039695303|gi 746743737|II型CRISPR RNA引导的
内切核酸酶Cas9[解没食子酸链球菌(Streptococcus gallolyticus)];序列3(S3):SEQ ID 
NO:110|WP_045635197|gi 782887988|II型CRISPR RNA引导的内切核酸酶Cas9[缓症链球
菌(Streptococcus mitis)];序列4(S4):SEQ ID NO:111|5AXW_A|gi924443546|金黄色葡
萄球菌Cas9。针对四个序列中的每一个识别HNH域(粗体和下划线)和RuvC域(加框)。S1中的
氨基酸残基10和840以及比对序列中的同源氨基酸在相应的氨基酸残基后用星号标识。
[1173]
[1174]
[1175] 比对证明,可以通过使用本领域已知的比对程序和算法鉴定与参照序列或参照残基比对的氨基酸序列或残基来在Cas9序列变体间鉴定与参照Cas9氨基酸序列或氨基酸残
基同源的氨基酸序列和氨基酸残基,所述Cas9序列变体包括但不限于来自不同物种的Cas9
序列。本公开提供了Cas9变体,其中如本文所述突变通过SEQ ID NO:108-111中的星号标识
(例如,分别为S1、S2、S3和S4)的一个或多个氨基酸残基。SEQ ID NO:52的Cas9中的残基D10
和H840(其对应于SEQ ID NO:108-111中通过星号标识的残基)在本文中称为“同源的”或
“相应的”残基。此类同源的残基可以通过序列比对来鉴定,例如,如上所述,并通过鉴定与
参照序列或残基比对的序列或残基来鉴定。类似地,对应于本文SEQ ID NO:52中鉴定的突
变的Cas9序列中的突变,例如SEQ ID NO:52中的残基10和840的突变,在本文中称为“同源
的”或“相应的”突变。例如,对应于SEQ ID NO:52或上述四个比对序列的S1(SEQ ID NO:
108)中的D10A突变的突变是S2的D11A、S3的D10A和S4的D13A;SEQ ID NO:52或S1(SEQ ID 
NO:108)中H840A的相应的突变是S2的H850A、S3的H842A和S4的H560A。
[1176] 使用上文概述的相同算法和比对参数比对来自不同物种的总共250个Cas9序列(SEQ ID NO:108-357)。与SEQ ID NO:52的残基10和840同源的氨基酸残基以与上述相同的
方式鉴定。提供比对如下。针对四个序列中的每一个识别HNH域(粗体和下划线)和RuvC域
(加框)。对应于SEQ ID NO:52中氨基酸残基10和840的单一残基在比对中的SEQ ID NO:108
中加框,允许鉴定比对序列中相应的氨基酸残基。
[1177]
[1178]
[1179]
[1180]
[1181]
[1182]
[1183]
[1184]
[1185]
[1186]
[1187]
[1188]
[1189]
[1190]
[1191]
[1192]
[1193]
[1194]
[1195]
[1196]
[1197]
[1198]
[1199]
[1200]
[1201]
[1202]
[1203]
[1204]
[1205]
[1206]
[1207]
[1208]
[1209]
[1210]
[1211]
[1212]
[1213]
[1214]
[1215]
[1216]
[1217]
[1218]
[1219]
[1220]
[1221]
[1222]
[1223]
[1224]
[1225]
[1226]
[1227]
[1228]
[1229]
[1230]
[1231]
[1232]
[1233]
[1234]
[1235]
[1236]
[1237]
[1238]
[1239]
[1240]
[1241]
[1242]
[1243]
[1244]
[1245]
[1246]
[1247]
[1248]
[1249]
[1250]
[1251]
[1252]
[1253]
[1254]
[1255]
[1256]
[1257]
[1258]
[1259]
[1260]
[1261]
[1262]
[1263]
[1264]
[1265]
[1266]
[1267]
[1268]
[1269]
[1270]
[1271]
[1272]
[1273]
[1274]
[1275]
[1276]
[1277]
[1278]
[1279]
[1280]
[1281]
[1282]
[1283]
[1284]
[1285]
[1286]
[1287]
[1288]
[1289]
[1290]
[1291]
[1292]
[1293]
[1294]
[1295]
[1296]
[1297]
[1298]
[1299]
[1300]
[1301]
[1302]
[1303]
[1304]
[1305]
[1306]
[1307]
[1308]
[1309]
[1310]
[1311]
[1312]
[1313]
[1314]
[1315]
[1316]
[1317]
[1318]
[1319]
[1320]
[1321]
[1322]
[1323]
[1324]
[1325]
[1326]
[1327]
[1328]
[1329]
[1330]
[1331]
[1332]
[1333] 等同实施方案和范围,通过引用并入
[1334] 本领域技术人员将认识到或能够使用不超过常规的实验确定本文所述的本发明具体实施方案的许多等同实施方案。本发明的范围不意图限于以上说明书,而是如所附权
利要求中所述。
[1335] 在权利要求中,诸如“一种”、“一个”和“该”的冠词可以表示一个或超出一个,除非相反地指出或者从上下文中显而易见。如果一个、超出一个或所有组成员在给定产物或过程中存在、使用或以其他方式相关,则认为在组中的一个或多个成员之间包括“或”的权利
要求或说明书是满足的,除非另有说明或从上下文中显而易见。本发明包括实施方案,其中
组的恰好一个成员在给定产物或过程中存在、使用或以其他方式相关。本发明还包括实施
方案,其中超出一个或所有组成员在给定产物或过程中存在、使用或以其他方式相关。
[1336] 此外,应理解,本发明涵盖所有变型、组合和置换,其中来自一个或多个权利要求或来自说明书的相关部分的一个或多个限制、元素、条款、描述性术语等被引入另一个权利
要求中。例如,可以修改依赖于另一个权利要求的任何权利要求以包括在依赖于相同基本
权利要求的任何其他权利要求中找到的一个或多个限制。此外,在权利要求叙述组合物的
情况下,应当理解包括将组合物用于本文公开的任何目的的方法,并且包括根据本文公开
的任何制备方法或本领域中已知的其他方法制备组合物的方法,除非另有说明或者除非本
领域普通技术人员明白会出现矛盾或不一致。
[1337] 在将元素呈现为列表(例如,以马库什群组格式)的情况下,应当理解,还公开了元素的每个子群,并且可以从群组中移除任何元素。还应注意,术语“包含”旨在是开放的并且
允许包含另外的元素或步骤。应当理解,通常,在本发明或本发明的方面称为包含特定元
素、特征、步骤等的情况下,本发明或本发明的方面的某些实施方案由此类元素、特征、步骤
等组成,或基本上由之组成。出于简化的目的,这些实施方案未在本文中具体阐述。因此,对
于包含一个或多个元素、特征、步骤等的本发明的每个实施方案,本发明还提供了由这些元
素、特征、步骤等组成或基本上由之组成的实施方案。
[1338] 在给出范围的情况下,端点包括在内。此外,应当理解,除非另有说明或从上下文和/或本领域普通技术人员的理解中明显看出,否则表示为范围的值可以假定在本发明的
不同实施方案中的所述范围内的任何特定值,至该范围下限的单位的十分之一,除非上下
文另有明确规定。还应当理解,除非另有说明或从上下文和/或本领域普通技术人员的理解
中明显看出,否则表示为范围的值可以假定给定范围内的任何子范围,其中子范围的端点
表示为与范围的下限的单位的十分之一相同的精度
[1339] 此外,应当理解,本发明的任何具体实施方案可以明确地从任何一个或多个权利要求中排除。在给出范围的情况下,该范围内的任何值可以明确地从任何一个或多个权利
要求中排除。本发明的组合物和/或方法的任何实施方案、元素、特征、应用或方面可以从任
何一个或多个权利要求中排除。出于简洁的目的,本文未明确阐述其中排除一个或多个元
素、特征、目的或方面的所有实施方案。
[1340] 本文提及的所有出版物、专利和序列数据库条目,包括上面列出的那些项,通过引用整体并入本文,如同每个单独的出版物或专利被具体和单独地指出通过引用并入。在冲
突的情况下,以本申请(包括本文中的任何定义)为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈