首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 说明书 / 序列表 / 外源核酸序列的靶向整合和表达

外源核酸序列的靶向整合和表达

阅读:871发布:2020-05-13

专利汇可以提供外源核酸序列的靶向整合和表达专利检索,专利查询,专利分析的服务。并且本 发明 公开了将外源序列靶向整合到基因组中预定靶位点,以(例如)用于 蛋白质 表达和基因失活的方法和组合物。,下面是外源核酸序列的靶向整合和表达专利的具体信息内容。

1.一种在细胞中表达外源核酸序列产物的方法,所述方法包括:
(a)在所述细胞中表达第一种融合蛋白,所述第一种融合蛋白含有第一锌指结合 域和第一切割半域,其中所述第一锌指结合域经工程改造能结合于所述细胞基因组 中感兴趣区域的第一靶位点;
(b)在所述细胞中表达第二种融合蛋白,所述第二种融合蛋白含有第二锌指结合 域和第二切割半域,其中所述第二锌指结合域结合于所述细胞基因组中感兴趣区域 的第二靶位点,所述第二靶位点与所述第一靶位点不同;和
(c)使所述细胞接触含有外源核酸序列和与所述感兴趣区域中第一序列同源的第 一核苷酸序列的多核苷酸;
其中所述第一种融合蛋白与所述第一靶位点结合和所述第二种融合蛋白与所述 第二靶位点结合使所述切割半域定位,而在所述感兴趣区域切割所述细胞基因组, 从而导致所述外源序列整合到所述细胞基因组的感兴趣区域中,表达所述外源序列 的产物。
2.如权利要求1所述的方法,其特征在于,所述外源核酸序列是cDNA。
3.如权利要求1或2所述的方法,其特征在于,所述外源序列含有启动子。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述第一核苷酸序列与 所述感兴趣区域中第一序列相同。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述多核苷酸还包含与 所述感兴趣区域中第二序列同源的第二核苷酸序列。
6.如权利要求5所述的方法,其特征在于,所述第二核苷酸序列与所述感兴趣 区域中第二序列相同。
7.如权利要求5或6所述的方法,其特征在于,所述第一和第二核苷酸序列侧 接于所述外源序列。
8.如权利要求1-7中任一项所述的方法,其特征在于,所述多核苷酸是质粒。
9.如权利要求1-7中任一项所述的方法,其特征在于,所述多核苷酸是线性 DNA分子。
10.如权利要求1-9中任一项所述的方法,其特征在于,所述感兴趣区域位于 细胞染色质的可及区中。
11.如权利要求1-10中任一项所述的方法,其特征在于,所述感兴趣区域位于 对细胞活而言不是必需的基因组区域中。
12.如权利要求1-11中任一项所述的方法,其特征在于,所述感兴趣区域位于 有转录活性的基因组区域中。
13.如权利要求12所述的方法,其特征在于,所述感兴趣区域是人Rosa26基 因。
14.如权利要求12所述的方法,其特征在于,所述感兴趣区域是鼠Rosa26基 因的人同源区域。
15.如权利要求12所述的方法,其特征在于,所述感兴趣区域是CCR5基因。
16.如权利要求1-15中任一项所述的方法,其特征在于,所述第一和第二切割 半域来自IIS型限制性核酸内切酶。
17.如权利要求16所述的方法,其特征在于,所述IIS型限制性核酸内切酶选 自FokI或StsI。
18.如权利要求1-17中任一项所述的方法,其特征在于,所述感兴趣区域位于 染色体中。
19.如权利要求1-18中任一项所述的方法,其特征在于,所述感兴趣区域包含 基因。
20.如权利要求19所述的方法,其特征在于,所述基因包含突变。
21.如权利要求20所述的方法,其特征在于,所述突变选自点突变、取代、缺 失、插入、重复、倒位或易位。
22.如权利要求20所述的方法,其特征在于,所述外源核酸序列包含所述基因 的野生型序列。
23.如权利要求20所述的方法,其特征在于,所述外源核酸序列包含所述基因 野生型序列的一部分。
24.如权利要求20所述的方法,其特征在于,所述外源核酸序列包含所述基因 的转录产物的cDNA拷贝。
25.如权利要求1所述的方法,其特征在于,所述外源核酸序列编码siRNA。
26.一种将外源序列整合到细胞基因组中感兴趣区域的方法,所述方法包括:
(a)在所述细胞中表达第一种融合蛋白,所述第一种融合蛋白含有第一锌指结合 域和第一切割半域,其中所述第一锌指结合域经工程改造能结合于所述细胞基因组 中感兴趣区域的第一靶位点;
(b)在所述细胞中表达第二种融合蛋白,所述第二种融合蛋白含有第二锌指结合 域和第二切割半域,其中所述第二锌指结合域结合于所述细胞基因组中感兴趣区域 的第二靶位点,所述第二靶位点与所述第一靶位点不同;和
(c)将所述细胞与含有外源核酸序列的多核苷酸相接触;
其中所述第一种融合蛋白与所述第一靶位点结合和所述第二种融合蛋白与所述 第二靶位点结合使所述切割半域定位,而在所述感兴趣区域切割所述细胞基因组, 从而导致所述外源序列整合到所述细胞基因组的感兴趣区域中。
27.如权利要求26所述的方法,其特征在于,所述整合使所述感兴趣区域中的 基因表达失活。
28.如权利要求26或27所述的方法,其特征在于,所述外源核酸序列包含长 度为1-50个核苷酸的序列。
29.如权利要求26-28中任一项所述的方法,其特征在于,所述外源序列包含 切割酶识别位点。
30.如权利要求29所述的方法,其特征在于,所述切割酶是大范围核酸酶。
31.如权利要求30所述的方法,其特征在于,所述大范围核酸酶是I-SceI。
32.如权利要求30或31所述的方法,其特征在于,经工程改造,所述大范围 核酸酶能结合非天然靶位点。
33.如权利要求26-32中任一项所述的方法,其特征在于,所述感兴趣区域位 于细胞染色质的可及区中。
34.如权利要求26-33中任一项所述的方法,其特征在于,所述第一和第二切 割半域来自IIS型限制性核酸内切酶。
35.如权利要求34所述的方法,其特征在于,所述IIS型限制性核酸内切酶选 自FokI或StsI。
36.如权利要求1-35中任一项所述的方法,其特征在于,所述细胞阻滞在细胞 周期的G2期。
37.如权利要求1-36中任一项所述的方法,其特征在于,至少一种所述融合蛋 白的切割半域二聚化界面的基酸序列包含改变。
38.如权利要求1-37中任一项所述的方法,其特征在于,所述细胞是哺乳动物 细胞。
39.如权利要求38所述的方法,其特征在于,所述细胞是人细胞。
40.如权利要求1-37中任一项所述的方法,其特征在于,所述细胞是植物细胞。
41.如权利要求26-40中任一项所述的方法,其特征在于,所述外源核酸序列 编码可检测的氨基酸序列。

说明书全文

技术领域

发明涉及基因组工程、基因靶向、靶向染色体整合和蛋白质表达领域。

发明背景

基因组生物学中感兴趣的主要领域,特别是就许多基因组的完整核苷酸序列的 测定而言,是如何靶向改变基因组的序列。提供一个例子,人β-珠蛋白基因中的一 对核苷酸的突变引起镰状细胞贫血。因此,若能以稳定方式将此对突变核苷酸内源 性基因组拷贝转变成野生型序列而产生正常β-珠蛋白就能够治愈镰状细胞贫血,例 如可将有功能的β-珠蛋白基因引入含有突变β-珠蛋白基因的基因组中。
已尝试利用同源重组的天然现象来改变培养细胞的基因组序列。参见例如, Capecchi(1989)Science 244:1288-1292;美国专利号6,528,313和6,528,314。如果某 多核苷酸与含有待改变序列的基因组区域同源性足够高,可通过同源重组用该多核 苷酸的部分或所有序列取代此基因组序列。然而,在这些情况下同源重组的频率极 低。而且,外源性多核苷酸插入缺少序列同源性的基因组位置的频率比同源重组的 频率高几个数量级。
已证明使与外源性多核苷酸具有同源性的基因组区域双链断裂而引入基因组 DNA,能刺激培养细胞该位点处的同源重组,提高数千倍。Rouet等(1994)Mol.Cell. Biol.14:8096-8106;Choulika等(1995)Mol.Cell.Biol.15:1968-1973;Donoho等(1998) Mol.Cell.Biol.18:4070-4078。还参见Johnson等(2001)Biochem.Soc.Trans. 29:196-201;和Yanez等(1998)Gene therapy 5:149-159。在这些方法中,将大范围核 酸酶(即其识别序列非常大,以致于在感兴趣基因组中不存在或非常罕见的核酸内切 酶)识别位点插入所需基因组区域,从而在所需基因组区域中进行DNA切割。
然而,大范围核酸酶切割-刺激的同源重组依赖于在准备改变的基因组区域附近 偶然存在或定点插入合适的大范围核酸酶识别位点。由于在典型的哺乳动物基因组 中大范围核酸酶识别位点罕见(或不存在),所以插入合适的大范围核酸酶识别位点遇 到了与其它基因组改变同样的困难,这些方法无法广泛应用。
因此,仍然需要靶向改变任何基因组序列的组合物和方法以及将外源序列靶向 引入基因组的组合物和方法。
发明概述
本发明提供了在细胞中表达外源核酸序列产物(即蛋白质或RNA分子)的方法和 组合物。所述外源核酸序列可包括(例如)一种或多种基因或cDNA分子,或者任何类 型的编码或非编码序列,将其引入细胞中,使其整合到细胞基因组中预定的感兴趣 区域中。对基因组的感兴趣区域进行靶向双链切割有助于整合外源核酸序列。通过 采用含有锌指结合域(经工程改造可结合感兴趣区域中所选的任何序列)和切割域或 切割半域的融合蛋白使切割靶向特定位点。这种切割能刺激外源性多核苷酸序列整 合于切割位点或其附近。可通过同源依赖性和同源非依赖性机制进行所述外源序列 的整合。
本发明还提供了通过靶向整合(同源依赖性或同源非依赖性)一种或多种外源序 列,调节内源性细胞基因的表达的方法和组合物。这种外源序列可包括(例如)转录控 制序列,如启动子和增强子。调节可包括转录激活(如,通过(例如)插入启动子和/或 增强子序列提高转录平)和转录抑制(如,通过(例如)将外源序列插入内源性转录调 节序列、插入促进转录抑制的序列、或插入打断编码区的序列进行功能性“敲除”)。
本发明还提供通过同源依赖性或同源非依赖性机制将将外源序列靶向插入基因 组的方法和组合物,其中所述外源序列不表达产物或不调节内源性基因的表达。例 如,可将序列特异性DNA切割酶的识别序列引入基因组中的预定位置,以便该切割 酶在基因组的预定位置上靶向切割。示范性DNA切割酶包括但不限于:限制性酶、 大范围核酸酶和寻靶核酸内切酶。
在一个方面,本文公开了在细胞中表达外源核酸序列产物的方法,所述方法包 括:(a)在所述细胞中表达第一种融合蛋白,所述第一种融合蛋白含有第一锌指结合 域和第一切割半域,其中所述第一锌指结合域经工程改造能结合于所述细胞基因组 中感兴趣区域的第一靶位点;(b)在所述细胞中表达第二种融合蛋白,所述第二种融 合蛋白含有第二锌指结合域和第二切割半域,其中所述第二锌指结合域结合于所述 细胞基因组中感兴趣区域的第二靶位点,其中所述第二靶位点与所述第一靶位点不 同;和(c)使所述细胞与含有外源核酸序列和第一核苷酸序列的多核苷酸相接触,所 述第一核苷酸序列与所述感兴趣区域中的第一序列同源;其中所述第一种融合蛋白 与所述第一靶位点的结合和所述第二种融合蛋白与所述第二靶位点的结合使所述切 割半域定位,从而在所述感兴趣区域切割所述细胞基因组,导致所述外源序列整合 到所述细胞基因组的感兴趣区域中,表达所述外源序列的产物。
所述外源核酸序列可包含cDNA和/或启动子。在其它实施方式中,该外源核酸 序列编码siRNA。所述第一核苷酸序列可能与所述感兴趣区域中的第一序列相同。
在某些实施方式中,该多核苷酸还包含与所述感兴趣区域中第二序列同源的第 二核苷酸序列。所述第二核苷酸序列可能与所述感兴趣区域中第二序列相同。而且, 在含有第一和第二核苷酸序列的实施方式中,所述第一核苷酸序列可与所述感兴趣 区域中第一序列相同,所述第二核苷酸序列可能与所述感兴趣区域中第二序列同源 但不相同。在本文所述的任何方法中,所述第一和第二核苷酸序列侧接于所述外源 序列。
在某些实施方式中,所述多核苷酸是质粒。在其它实施方式中,所述多核苷酸 是线性DNA分子。
在本文所述的任何方法中,所述感兴趣区域位于细胞染色质、染色体和/或某基 因(如含有突变如点突变、取代、缺失、插入、重复、倒位和/或易位的基因)的可及 区中。在某些实施方式中,该外源核酸序列包含所述基因野生型序列。在其它实施 方式中,该外源核酸序列包含所述基因的野生型序列的一部分。在其它实施方式中, 该外源核酸序列包含所述基因的转录产物的cDNA拷贝。
在本文所述的任何方法中,所述感兴趣区域位于对细胞活而言不是必需的基 因组区域中。在其它实施方式中,该感兴趣区域位于有转录活性的基因组区域中。 该感兴趣区域位于有转录活性但对细胞活力而言不是必需的基因组区域(如人 Rosa26基因组、鼠Rosa26基因的人同源物或CCR5基因)中。
在另一方面,本文提供了将外源序列整合到细胞基因组的感兴趣区域内的方法, 所述方法包括:(a)在所述细胞中表达第一种融合蛋白,所述第一种融合蛋白含有第 一锌指结合域和第一切割半域,其中所述第一锌指结合域经工程改造能结合于所述 细胞基因组中感兴趣区域的第一靶位点;(b)在所述细胞中表达第二种融合蛋白,所 述第二种融合蛋白含有第二锌指结合域和第二切割半域,其中所述第二锌指结合域 结合于所述细胞基因组中感兴趣区域的第二靶位点,其中所述第二靶位点与所述第 一靶位点不同;和(c)使所述细胞与含有外源核酸序列的多核苷酸相接触;其中所述 第一种融合蛋白与所述第一靶位点的结合和所述第二种融合蛋白与所述第二靶位点 的结合使所述切割半域定位,从而在所述感兴趣区域切割所述细胞基因组,导致所 述外源序列整合到所述细胞基因组的所述感兴趣区域中。
在某些实施方式中,该整合使所述感兴趣区域中的基因表达失活。所述外源核 酸序列可包含(例如)长度为1-50个核苷酸的序列。而且,该外源核酸序列可编码可 检测的基酸序列。所述感兴趣区域可位于细胞染色质的可及区中。
在本文所述的任何方法中,所述第一和第二切割半域来自IIS型限制性核酸内切 酶,例如FokI或StsI。而且,在本文所述的任何方法中,至少一种融合蛋白在其切 割半域二聚化界面的氨基酸序列中包含改变。
在本文所述的任何方法中,所述细胞可以是哺乳动物细胞,如人细胞。而且, 所述细胞可以阻滞在细胞周期的G2期。
因此,本发明主题包括但不限于以下实施方式:
1.一种在细胞中表达外源核酸序列产物的方法,所述方法包括:
(a)在所述细胞中表达第一种融合蛋白,所述第一种融合蛋白含有第一锌指结合 域和第一切割半域,其中所述第一锌指结合域经工程改造能结合于所述细胞基因组 中感兴趣区域的第一靶位点;
(b)在所述细胞中表达第二种融合蛋白,所述第二种融合蛋白含有第二锌指结合 域和第二切割半域,其中所述第二锌指结合域能结合于所述细胞基因组中感兴趣区 域的第二靶位点,所述第二靶位点与所述第一靶位点不同;和
(c)使所述细胞与含有外源核酸序列的多核苷酸相接触;
其中所述第一种融合蛋白与所述第一靶位点的结合和所述第二种融合蛋白与所 述第二靶位点的结合能使所述切割半域定位,从而在所述感兴趣区域切割该细胞基 因组,导致所述外源序列整合到所述细胞基因组的感兴趣区域中,而表达所述外源 序列的产物。
2.如1所述的方法,其特征在于,所述外源核酸序列包含cDNA。
3.如1所述的方法,其特征在于,所述外源序列包含启动子。
4.如1所述的方法,其特征在于,所述多核苷酸还包含与所述感兴趣区域中第 一序列相同的第一核苷酸序列。
5.如4所述的方法,其特征在于,所述多核苷酸还包含与所述感兴趣区域中第 二序列相同的第二核苷酸序列。
6.如1所述的方法,其特征在于,所述多核苷酸还包含与所述感兴趣区域中第 一序列同源但不相同的第一核苷酸序列。
7.如6所述的方法,其特征在于,所述多核苷酸还包含与所述感兴趣区域中第 二序列同源但不相同的第二核苷酸序列。
8.如1所述的方法,其特征在于,所述多核苷酸还包含与所述感兴趣区域中第 一序列相同的第一核苷酸序列和与所述感兴趣区域中第二序列同源但不相同的第二 核苷酸序列。
9.如5所述的方法,其特征在于,所述第一和第二核苷酸序列侧接于所述外源 序列。
10.如7所述的方法,其特征在于,所述第一和第二核苷酸序列侧接于所述外 源序列。
11.如8所述的方法,其特征在于,所述第一和第二核苷酸序列侧接于所述外 源序列。
12.如1所述的方法,其特征在于,所述多核苷酸是质粒。
13.如1所述的方法,其特征在于,所述多核苷酸是线性DNA分子。
14.如1所述的方法,其特征在于,所述感兴趣区域位于细胞染色质的可及区 中。
15.如1所述的方法,其特征在于,所述感兴趣区域位于对细胞活力而言不是 必需的基因组区域中。
16.如1所述的方法,其特征在于,所述感兴趣区域位于有转录活性的基因组 区域中。
17.如1所述的方法,其特征在于,所述感兴趣区域位于有转录活性但对细胞 活力而言不是必需的基因组区域中。
18.如17所述的方法,其特征在于,所述感兴趣区域是人Rosa26基因。
19.如17所述的方法,其特征在于,所述感兴趣区域是鼠Rosa26基因的人同 源物。
20.如1所述的方法,其特征在于,所述第一和第二切割半域来自IIS型限制性 核酸内切酶。
21.如20所述的方法,其特征在于,所述IIS型限制性核酸内切酶选自FokI 或StsI。
22.如1所述的方法,其特征在于,所述感兴趣区域位于染色体中。
23.如1所述的方法,其特征在于,所述感兴趣区域包含基因。
24.如13所述的方法,其特征在于,所述基因包含突变。
25.如14所述的方法,其特征在于,所述突变选自点突变、取代、缺失、插入、 重复、倒位或易位。
26.如24所述的方法,其特征在于,所述外源核酸序列包含所述基因的野生型 序列。
27.如24所述的方法,其特征在于,所述外源核酸序列包含所述基因的野生型 序列的一部分。
28.如24所述的方法,其特征在于,所述外源核酸序列包含所述基因转录产物 的cDNA拷贝。
29.如1所述的方法,其特征在于,所述外源核酸序列编码siRNA。
30.如1所述的方法,其特征在于,所述细胞阻滞在细胞周期的G2期。
31.如1所述的方法,其特征在于,至少一种融合蛋白的切割半域二聚化界面 的氨基酸序列中包含改变。
32.如1所述的方法,其特征在于,所述细胞是哺乳动物细胞。
33.如32所述的方法,其特征在于,所述细胞是人细胞。
附图简要说明
图1显示了编码蛋白质的氨基末端部分的人hSMC1L1基因的一部分双链形式的 核苷酸序列(SEQ ID NO:1)和其编码的氨基酸序列(SEQ ID NO:2)。下划线标明了 hSMC1-特异性ZFP的靶序列(各DNA链上有一个)。
图2显示了编码靶向切割hSMC1基因的ZFP-FokI融合物质粒的示意图。
图3A-D显示了hSMC1基因的示意图。图3A显示了包含hSMC1基因人X染 色体的一部分的示意图。图3B显示了hSMC1基因一部分的示意图,其包括上游区 (+1左边)、第一外显子(+1和箭头标记的“SMC1编码序列”的右端之间)和第一内含子 的一部分。还提供了与初始扩增引物和染色体特异性引物(见表3)同源的序列位置。 图3C显示了人X染色体中SMC1起始密码子区域的核苷酸序列(SEQ ID NO:3)、 其编码的氨基酸序列(SEQ ID NO:4)和SMC1-特异性锌指蛋白的靶位点。图3D显 示了供体分子对应区域的序列(SEQ ID NO:5),下划线标出了供体和染色体序列之 间的差异。用双下划线标出了供体特异性扩增引物(表3)中所含的序列。
图4显示了hSMC1供体构建物的示意图。
图5显示了转染HEK293细胞的DNA的PCR分析。从左起,各泳道显示了用 编码GFP的质粒(对照质粒)转染细胞、用各自编码两种hSMC1-特异性ZFP-FokI融 合蛋白(仅ZFP)之一的两种质粒转染细胞、用两种浓度的hSMC1供体质粒(仅供体) 转染细胞和用两种ZFP编码质粒和供体质粒(ZFP+供体)转染细胞的结果。详见实施 例1。
图6显示了通过靶向同源重组产生的衍生自突变hSMC1基因的扩增产物的核苷 酸序列(SEQ ID NO:6)。用单下划线表示衍生自其中克隆了扩增产物的载体的序列, 虚线下划线表示供体分子中不存在的染色体序列(核苷酸32-97),供体和染色体的共 有序列没有下划线(核苷酸98-394和402-417),用双下划线表示供体的独特序列(核苷 酸395-401)。小写字母代表染色体和供体之间不同的序列。
图7显示了包含第二内含子3’端和第三外显子5’端的人IL2Rγ基因一部分的核 苷酸序列(SEQ ID NO:7)和由第三外显子所示部分编码的氨基酸序列(SEQ ID NO:8)。 用下划线表示第二对IL2Rγ-特异性ZFP的靶序列。详见实施例2。
图8显示了编码靶向切割IL2Rγ基因的ZFP-FokI融合物的质粒的示意图。
图9A-D显示了IL2Rγ基因的示意图。图9A显示了包含IL2Rγ基因的人X染 色体一部分的示意图。图9B显示了包含第二内含子一部分、第三外显子和第三内含 子一部分的IL2Rγ基因的一部分示意图。还提供了与初始扩增引物和染色体特异性 引物(见表5)同源的序列位置。图9C显示了人X染色体中IL2Rγ基因第三外显子区 域的核苷酸序列(SEQ ID NO:9)、其编码的氨基酸序列(SEQ ID NO:10)和第一对 IL2Rγ-特异性锌指蛋白的靶位点。图9D显示了供体分子对应区域的序列(SEQ ID NO:11),用下划线表示供体和染色体序列之间的差异。用双划线标出了供体特异性 扩增引物(表5)中所含的序列。
图10显示了IL2Rγ供体构建物的示意图。
图11显示了转染K652细胞的DNA的PCR分析。从左起,各泳道显示了用各 自编码一对IL2Rγ-特异性ZFP-FokI融合蛋白(仅ZFP,泳道1)之一的两种质粒转染 细胞、用两种浓度的IL2Rγ供体质粒(仅供体,泳道2和3)转染细胞和用两种ZFP- 编码质粒和供体质粒(ZFP+供体,泳道4-7)转染细胞的结果。分别采用两对IL2Rγ- 特异性ZFP-FokI融合物(标为“第1对”和“第2对”),使用这两对导致产生诊断用扩增 产物(图中标记为“预计的嵌合产物”)。详见实施例2。
图12显示了靶向同源重组产生的衍生自突变IL2Rγ基因的扩增产物的核苷酸序 列(SEQ ID NO:12)。用单下划线表示衍生自其中克隆了扩增产物的载体的序列,虚线 下划线表示供体分子中不存在的染色体序列(核苷酸460-552),供体和染色体的共有 序列没有下划线(核苷酸32-42和59-459),用双下划线表示含有区别供体序列与染色 体序列的核苷酸序列部分(核苷酸44-58)。小写字母代表染色体和供体之间序列不同 的核苷酸。
图13显示了核心启动子、前两个外显子和第一内含子的人β-珠蛋白基因编码节 段部分的核苷酸序列(SEQ ID NO:13)。染色体11上5212541位(BLAT,UCSC基因 组生物信息学站点)的A(用粗体和下划线表示)变为T的错义突变可导致镰状细胞贫 血。设计第一锌指/FokI融合蛋白,主要与下划线的12-核苷酸序列 AAGGTGAACGTG(SEQ ID NO:13的核苷酸305-316)接触,设计第二锌指/FokI融合 蛋白,主要与下划线的12-核苷酸序列CCGTTACTGCCC(SEQ ID NO:13的核苷酸 325-336)的互补物接触。
图14是编码靶向切割人β珠蛋白基因的ZFP-FokI融合物的质粒的示意图。
图15是显示克隆的含上游区、第一和第二外显子、第一内含子和引物结合位点 的人β珠蛋白基因的示意图。
图16是β珠蛋白供体构建物,pCR4-TOPO-HBB供体的示意图。
图17显示了用两对β-珠蛋白-特异性ZFP核酸酶和β珠蛋白供体质粒转染细胞 的DNA的PCR分析。左图是加样对照,其中采用起始扩增引物1和起始扩增引物2 (表7)进行扩增。在右图显示的实验中,采用“染色体特异性”和“供体特异性”引物(表 7)进行扩增。各图中最左边的泳道含有分子量标记物,下一条泳道显示获自模拟-转 染细胞的扩增产物。其余泳道(从左至右)显示用以下物质转染细胞的扩增产物:GFP- 编码质粒、100ng各ZFP/FokI-编码质粒、200ng各ZFP/FokI-编码质粒、200ng供体 质粒、600ng供体质粒、200ng供体质粒+100ng各ZFP/FokI-编码质粒和600ng供 体质粒+200ng各ZFP/FokI-编码质粒。
图18显示了靶向同源重组产生的衍生自突变β-珠蛋白基因的扩增产物的核苷酸 序列(SEQ ID NO:14)。虚线下划线表示供体分子中不存在的染色体序列(核苷酸 1-72),供体和染色体的共有序列没有下划线(核苷酸73-376),用双下划线表示含有区 别供体序列与染色体序列的核苷酸序列部分(核苷酸377-408)。小写字母代表染色体 和供体之间序列不同的核苷酸。
图19显示了白介素-2受体γ链(IL-2Rγ)基因第五外显子一部分的核苷酸序列 (SEQ ID NO:15)。也显示了(下划线)5-8和5-10ZFP/FokI融合蛋白的靶序列。详见实 施例5。
图20显示了靶向人IL-2Rγ基因外显子5的5-8ZFP/FokI融合物的氨基酸序列 (SEQ ID NO:16)。氨基酸残基1-17含有核定位序列(NLS,下划线);残基18-130含 有ZFP部分,粗体表示锌指组件的识别区;ZFP-FokI接头(ZC接头,下划线)从残基 131延伸至140,FokI切割半域从残基141处开始,延伸至该蛋白末端的残基336。 改变该残基以产生Q486E突变,用下划线和粗体表示。
图21显示了靶向人IL-2Rγ基因的外显子5的5-10ZFP/FokI融合物的氨基酸序 列(SEQ ID NO:17)。氨基酸残基1-17含有核定位序列(NLS,下划线);残基18-133 含有ZFP部分,粗体表示锌指组件的识别区;ZFP-FokI接头(ZC接头,下划线)从残 基134延伸至143,FokI切割半域由残基144处开始,延伸至该蛋白末端的残基339。 改变该残基以产生E490K突变,用下划线和粗体表示。
图22显示了衍生自维克多水母(Aequorea victoria)GFP基因的增强绿色荧光蛋白 基因的核苷酸序列(SEQ ID NO:18)(Tsien(1998)Ann.Rev.Biochem.67:509-544)。用下 划线表示ATG启动密码子和诱变区域。
图23显示了突变缺陷型eGFP基因的核苷酸序列(SEQ ID NO:19)。用下划线表 示ZFP-核酸酶的结合位点,此结合位点之间的区域对应于修饰区域。
图24显示了编码靶向eGFP基因的锌指核酸酶的质粒的结构。
图25显示了分析锌指核酸内切酶靶向DNA切割突变eGFP基因的10%丙烯酰 胺凝胶放射自显影图。详见实施例8。
图26显示了质粒pcDNA4/TO/GFPmut的结构(参见实施例9)。
图27显示了转染人HEK293细胞获得的各种细胞系中按GAPDH mRNA标准化 的eGFPmut mRNA水平。白色柱显示了未处理细胞的水平;黑色柱显示了用2ng/ml 强力霉素处理细胞的水平。详见实施例9。
图28显示了质粒pCR(R)4-TOPO-GFP供体5的结构。详见实施例10。
图29显示了pCR(R)4-TOPO-GFP供体5中eGFP插入物的核苷酸序列(SEQ ID NO:20)。该插入物含有编码未修饰的增强绿色荧光蛋白部分、但缺少起始密码子的 序列。详见实施例10。
图30显示了用编码两种ZFP核酸酶的质粒和编码供体序列的质粒转染的T18 细胞的FACS分析,转染后24小时,用100ng/ml诺考达唑处理48小时,使细胞阻 滞在细胞周期的G2期。更换培养基,允许细胞再恢复48小时,用FACS分析测定 基因校正。详见实施例11。
图31显示了用编码两种ZFP核酸酶的质粒和编码供体序列的质粒转染T18细 胞的FACS分析,转染后24小时,用0.2μM长春处理48小时,使细胞阻滞在细 胞周期的G2期。更换培养基,允许细胞再恢复48小时,用FACS分析测定基因校 正。详见实施例11。
图32显示了pCR(R)4-TOPO中1,527个核苷酸的eGFP插入物的核苷酸序列 (SEQ ID NO:21)。该序列编码缺少起始密码子的未修饰的增强绿色荧光蛋白。详见实 施例13。
图33显示了测定内源性人IL-2Rγ基因编辑频率的实验的示意图。详见实施例 14。
图34显示了测定通过靶向切割和同源重组编辑内源性细胞基因的频率的丙烯 酰胺凝胶的放射自显影图。标为“GFP”的泳道显示了用eGFP编码载体转染细胞对照 的测定结果;标为“仅ZFP”的泳道显示了用两种ZFP/核酸酶-编码质粒(各50ng)而不 用供体序列转染细胞的另一对照实验的结果。标为“仅供体”的泳道显示了用1μg供 体质粒而不用ZFP/核酸酶-编码质粒转染细胞的对照实验的结果。在实验泳道中,50Z 指用ZFP/核酸酶表达质粒各50ng转染的细胞,100Z指用ZFP/核酸酶表达质粒各100 ng转染的细胞,0.5D指用0.5μg供体质粒转染的细胞,1D指用1.0μg供体质粒转 染的细胞。“+”指接触0.2μM长春碱的细胞;“-”指未接触长春碱的细胞。“wt”指获 自含有野生型染色体IL-2Rγ基因的染色体扩增产物经BsrBI消化后获得的片段; “rflp”指获自含有同源重组整合的供体质粒的序列的染色体扩增产物经BsrBI消化后 获得的两种片段(分子量大约相同)。
图35显示了测定靶向重组于K562细胞中人IL-2Rγ基因座的试验所用凝胶放射 4小时后的自显影图。“wt”标明诊断为含有天然K562IL-2Rγ序列的染色体DNA的 条带;“rflp”标明诊断为含有供体DNA分子中存在的改变的IL-2Rγ序列的染色体 DNA的双条带。泳道上方的符号“+”表示用0.2μM长春碱处理该细胞;符号″-″表示 不用长春碱处理该细胞。“ZFP+供体”泳道中的数字表示含有最初存在于供体DNA分 子中的序列占整个染色体DNA的百分数,按照生产商手册(分子动力学图像夸特用 户指南(Molecular Dynamics ImageQuant User’s Guide);第218-415部分)的第8章所 述,用分子动力学图像夸特(Molecular Dynamics’ImageQuant)软件5.1版的“峰找寻 器、自动基线”函数计算此百分数。“未处理”表示未转染的细胞。详见实施例15。
图36显示了测定靶向重组于K562细胞中人IL-2Rγ基因座的试验所用凝胶放射 4小时后的自显影图。“wt”标明了诊断为含有天然K562IL-2Rγ序列的染色体DNA 的条带;“rflp”标明诊断为含有供体DNA分子中存在的改变的IL-2Rγ序列的染色体 DNA的条带。泳道上方的符号“+”表示用0.2μM长春碱处理该细胞;符号″-″表示不 用长春碱处理该细胞。“ZFP+供体”泳道下面的数字表示含有最初存在于供体DNA分 子中的序列占整个染色体DNA的百分数,其计算方法如实施例35所述。详见实施 例15。
图37显示了用人IL-2Rγ基因特异性片段检测的DNA印迹放射4小时后的自显 影图。图右边的箭头表示对应于通过同源重组改变其序列的基因组DNA的条带位 置。泳道上方的符号“+”表示用0.2μM长春碱处理该细胞;符号″-″表示不用长春碱 处理该细胞。“ZFP+供体”泳道下面的数字表示含有最初存在于供体DNA分子中的序 列占整个染色体DNA的百分数,其计算方法如实施例35所述。详见实施例15。
图38显示了测定靶向重组于CD34+人骨髓细胞中人IL-2Rγ基因座试验所用凝 胶的放射自显影图。左图显示了参比标准,其中所示百分数的正常人基因组DNA(含 有MaeII位点)加入在Jurkat细胞的基因组DNA(缺少MaeII位点)中,用PCR扩增该 混合物产生放射性标记的扩增产物,用MaeII消化该扩增产物。“wt”标示出代表未消 化DNA的条带,“rflp”标示出MaeII消化产生的条带。
右图显示了用含有BsrBI位点的供体DNA和编码锌指-FokI融合核酸内切酶的 质粒转染CD34+细胞的实验结果。然后扩增并标记相关的基因组区域,用BsrBI消化 标记的扩增产物。“GFP”指用GFP-编码质粒转染的对照细胞;“仅供体”表示仅用供 体DNA转染的对照细胞,“ZFP+供体”表示用供体DNA和编码锌指/FokI核酸酶的 质粒转染的细胞。“wt”标示诊断为含有天然IL-2Rγ序列的染色体DNA的条带;“rflp” 标示诊断为含有供体DNA分子中存在的已改变的IL-2Rγ序列的染色体DNA的条 带。最右端泳道含有DNA大小标记。详见实施例16。
图39显示了用于检测用Ku70-靶向siRNA转染的细胞中Ku70蛋白水平的免疫 印迹图。用两种浓度的来自两种不同siRNA库的siRNA分别转染T7细胞系(实施例 9,图27)(参见实施例18)。泳道1:70ng siRNA库D;泳道2:140ng siRNA库D; 泳道3:70ng siRNA库E;泳道4:140ng siRNA库E。“Ku70”表示代表Ku70蛋白 的条带;“TFIIB”表示代表TFIIB转录因子的条带,用作对照。
图40显示了靶向人β-珠蛋白基因的四种锌指结构域的氨基酸序列:sca-29b (SEQ ID NO:22);sca-36a(SEQ ID NO:23);sca-36b(SEQ ID NO:24)和sca-36c(SEQ ID NO:25)。sca-29b结构域的靶位点在一条DNA链上,sca-36a、sca-36b和sca-36c结 构域的靶位点在另一条链上。详见实施例20。
图41显示了检测锌指/FokI融合核酸酶(ZFN)的不同组合的序列-特异性DNA切 割的体外试验结果。标为“U”的泳道显示DNA模板样品(的结果)。接下来的四条泳 道显示了用四种β-珠蛋白-靶向ZFN(这些ZFN的鉴定参见实施例20)分别培育该 DNA模板的结果。最右边的三条泳道显示了用sca-29b ZFN和sca-36a、sca-36b或 sca-36c ZFN(都靶向sca-29b靶向链的相对链)中的一种培育模板DNA的结果。
图42显示了T18细胞中的eGFP mRNA水平(柱)与强力霉素浓度(横坐标)的函 数关系。各柱上方的数字代表用供体DNA和编码eGFP-靶向锌指核酸酶的质粒转染 细胞中eGFP突变的校正百分数,为强力霉素浓度的函数。
图43A-C显示了不同融合蛋白构型的示意图。图43A显示了两种融合蛋白,其 中锌指域最接近N-末端,FokI切割半域最接近C-末端,它们结合于5’端互相接近的 相对链上的DNA靶位点。图43B显示了两种融合蛋白,其中FokI切割半域最接近 N-末端,锌指域最接近C-末端,它们结合于3’端互相接近的相对链上的DNA靶位 点。图43C显示了第一种蛋白和第二种蛋白,第一种蛋白中FokI切割半域最接近 N-末端且锌指域最接近C-末端,第二种蛋白中锌指域最接近N-末端且FokI切割半 域最接近C-末端,它们结合于同一链上的DNA靶位点,其中第一种蛋白的靶位点 位于第二种蛋白结合位点的上游(即5’侧)。
在所有例子中,三指蛋白显示结合于9个核苷酸的靶位点。显示了该DNA链的 5’和3’极性,标出了该融合蛋白的N末端。
图44是检测锌指核酸内切酶对模式底物切割的丙烯酰胺凝胶的放射自显影图。 泳道1显示了微切割底物的迁移。泳道2显示了用IL2-1R锌指/FokI融合蛋白培育后 的底物。泳道3显示了用5-9DR锌指/FokI融合蛋白培育后的底物。泳道4显示了用 这两种蛋白培育后的底物。底物及其切割产物的大概大小(以碱基对计)显示在此图右 侧。此图下面,显示了含有5-9D和IL2-1锌指结合域的结合位点的底物部分核苷酸 序列(SEQ ID NO:211)。用下划线标出和指出了此结合位点。
图45是检测锌指核酸内切酶对模式底物切割的丙烯酰胺凝胶的放射自显影图。 泳道1显示了微切割底物的迁移。泳道2显示了用IL2-1C锌指/FokI融合蛋白培育后 的底物。泳道3显示了用IL2-1R锌指/FokI融合蛋白培育后的底物。泳道4显示了用 5-9DR锌指/FokI融合蛋白培育后的底物。泳道5显示了用IL2-1R和5-9DR融合蛋 白培育后的底物。泳道6显示了用IL2-1C和5-9DR蛋白培育后的底物。底物及其切 割产物的大概大小(以碱基对计)显示在此图右侧。此图下面,显示了含有5-9D和IL2-1 锌指结合域的结合位点的底物部分核苷酸序列(SEQ ID NO:212)。用下划线标出和指 出了此结合位点。
图46是含有突变eGFP编码序列的质粒的示意图,此序列中插入了IL-2Rγ基因 外显子5的序列。详见实施例29。
图47显示了用限制性酶Stu I培育经转染K562细胞的DNA扩增产物的凝胶的 放射自显影图。泳道上方的标题表示用GFP-编码质粒转染的细胞的DNA(GFP);用 编码5-8G和5-9D ZFP/FokI融合蛋白的载体转染的细胞的DNA(ZFN);用含有12- 核苷酸对外源序列(含有StuI识别位点)的质粒转染的细胞的DNA,该外源序列两侧 侧接于与IL-2Rγ基因外显子5同源的序列的750个核苷酸对,其中在野生型IL-2Rγ 基因中两个外显子5-同源序列相邻(供体);和用编码5-8G和5-9D ZFP/FokI融合蛋 白的载体和含有12-核苷酸对外源序列(含有StuI识别位点)的质粒转染的细胞的 DNA,所述外源序列两侧侧接于与IL-2Rγ基因外显子5同源的序列的750个核苷酸 对,其中在野生型IL-2Rγ基因中两个外显子5-同源序列相邻(ZFN+供体)。显示了含 有野生型IL-2R序列的染色体(“WT”)和其中整合入外源序列的染色体(“+补丁”)产生 的条带。最右端的泳道含有分子量标记物。还参见实施例33。
图48显示了分析经转染K562细胞的DNA的扩增产物的凝胶图。泳道上方的 标题表示用编码5-8G和5-9D ZFP/FokI融合蛋白的载体转染的细胞的DNA(ZFN); 用含有编码eGFP的720个核苷酸对的开放阅读框的质粒转染的细胞的DNA(供体1); 用包含含有eGFP开放阅读框和下游聚腺苷酸化信号的924个核苷酸对序列的质粒转 染的细胞的DNA(供体2);用编码5-8G和5-9D ZFP/FokI融合蛋白的载体和含有编 码eGFP的720个核苷酸对开放阅读框的质粒转染的细胞的DNA(ZFN+供体1),和 用编码5-8G和5-9D ZFP/FokI融合蛋白的载体和包含含有eGFP开放阅读框和下游 聚腺苷酸化信号的924个核苷酸对序列的质粒转染的细胞的DNA(ZFN+供体2)。上 图中最左边和最右边的泳道含有分子量标记物。上图是溴乙锭-染色凝胶的照片;下 图显示了分析标记的扩增产物不同实验的凝胶放射自显影图。还参见实施例34。
图49是描述将“治疗性半基因”引入内源性人IL-2Rγ基因的实验的示意图。上 面一条线代表染色体IL-2Rγ序列,中间一条线代表供体序列,加框表示外显子,水 平线表示内含子。框内的数字标示IL-2Rγ基因的外显子,“5”代表染色体IL-2R基因 的第五外显子,“5u”代表第五外显子的上游部分,“5d”代表第五外显子的下游部分, “5d(m)”代表含有几处沉默序列改变(即不改变编码氨基酸序列的改变)的第五外显子 下游部分。对线划分出供体与染色体序列之间同源性区域的界限。下面一条线显 示了同源重组的预计产物,其中将外显子5d(m)、6、7和8插入染色体基因第五外 显子内。还参见实施例35。
图50显示了分析经转染K562细胞的DNA扩增产物的凝胶放射自显影图。泳 道上方的标题表示用编码绿色荧光蛋白的载体转染的对照细胞的DNA(“GFP”)和用 编码5-8G和5-9D ZFP/FokI融合蛋白的载体和含有720-核苷酸cDNA构建物的质粒 转染的实验细胞的DNA,所述构建物含有IL-2Rγ基因的外显子5和外显子6、7和 8部分,两侧侧接于与IL-2Rγ基因外显子5和周围区域同源的750个核苷酸对序列, 其中在野生型IL-2Rγ基因中这两个外显子5-同源序列相邻(ZFN+供体)。标出了含有 野生型IL-2R序列的染色体(“WT”)和其中整合入外源序列的染色体(“+ORF”)产生的 条带。还参见实施例35。
图51显示了将7.7kbp抗体表达构建物插入内源性染色体IL-2Rγ基因的实验设 计和结果。该图上部是显示将7.7千碱基对表达构建物(阴影)同源依赖性靶向整合到 内源性染色体IL-2Rγ基因外显子5中的结果示意图。箭头表示检测由靶向整合导致 外源性与内源性序列之间连接所用扩增引物的位置和极性。
该图下部显示了分析扩增产物的溴乙锭染色凝胶照片。左图显示了用检测上游 连接的引物(引物组A)扩增细胞DNA的产物,右图显示了用检测下游连接的引物(引 物组B)扩增细胞DNA的产物。在凝胶下方标示出用作扩增模板的DNA样品如下: 用编码绿色荧光蛋白的载体转染的细胞的DNA(GFP);仅用含有7.7kbp表达构建物 的供体DNA分子转染的细胞的DNA(供体);用编码5-8G和5-9D ZFP/FokI融合蛋 白的载体和供体DNA分子转染的细胞的DNA(ZFN+供体)。也标出了供体DNA的拓 扑结构(环状或线状)。还参见实施例36。
图52是用Cel-1试验分析CHO DHFR基因错配扩增产物的凝胶放射自显影图。 由野生型CHO细胞DNA(W)或用锌指核酸酶处理的CHO细胞的DNA(Mu)获得扩增 产物,使之接触Cel-1核酸酶(+)或不接触该酶(-),如凝胶上的标注。在凝胶右侧, 标注了代表野生型DHFR序列(WT)和含有157-核苷酸插入的突变型DHFR序列(突 变体)的条带。详见实施例37。
图53显示了CHO二氢叶酸还原酶(DHFR)基因的一部分核苷酸序列(上面一行) 和通过同源依赖性靶向整合外源序列产生的突变DHFR基因的一部分核苷酸序列(下 面一行)。加框标示出表28所述的锌指核酸酶的靶序列;用下划线表示与野生型序列 的不同改变。还参见实施例37。
图54显示了野生型FokI切割半域和二聚化界面的氨基酸序列中发生改变的几 种突变型切割半域的氨基酸序列。用下划线标示出序列改变的位置(氨基酸486、490 和538)。
发明详述
本发明公开了用于靶向切割细胞染色质和靶向改变细胞核苷酸序列的组合物和 方法,例如,靶向切割后的非同源性末端连接(它们之间插入或未插入外源序列),或 者靶向切割后在外源性多核苷酸(含有与细胞核苷酸序列同源的一个或多个区域)与 基因组序列之间的同源重组。基因组序列包括染色体、附加体、细胞器基因组(如线 粒体、叶绿体)、人工染色体中存在的序列和细胞中存在的任何其它类型的核酸,例 如,扩增序列、双微染色体以及内源性或感染的细菌和病毒的基因组。基因组序列 可以是正常序列(即野生型)或突变序列;突变序列可包含(例如)插入、缺失、易位、 重排和/或点突变。基因组序列也可包含多种不同等位基因中的一种。
用于靶向切割和重组的组合物包括含有切割域(或切割半域)和锌指结合域的融 合蛋白、编码这些蛋白的多核苷酸以及多肽和编码多肽的多核苷酸的组合。锌指结 合域可包含一个或多个锌指(如2、3、4、5、6、7、8、9或更多个锌指),经工程改 造,可结合于任何基因组序列。因此,鉴定需要进行切割或重组的感兴趣的靶基因 组区域,可按照本文公开方法构建含有切割域(或切割半域)和经工程改造能识别所述 基因组区域中的靶序列的锌指域的一种或多种融合蛋白。细胞中存在这类融合蛋白 (或蛋白质)将导致该融合蛋白结合于其结合位点,并在所述基因组区域内或其附近切 割。而且,如果此种细胞中还存在与该基因组区域同源的外源性多核苷酸,还可在 该基因组区域与该外源性多核苷酸之间发生高频率的同源重组。
概述
除非另有说明、本发明方法的实施以及本文所述组合物的制备和应用均采用分 子生物学、生物化学、染色质结构和分析、计算化学、细胞培养、重组DNA和相关 领域技术人员已知的常规技术。文献中全面解释了这些技术。参见例如,Sambrook 等,MOLECULAR CLONING:A LABORATORY MANUAL(分子克隆:实验室手册), 第二版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),1989和第三版, 2001;Ausubel等,CURRENT PROTOCOLS IN MOLECULAR BIOLOGY(新编分子 生物学实验指南),约翰韦利出版社(John Wiley & Sons),纽约,1987和定期更新; METHODS IN ENZYMOLOGY(酶学方法)丛书,学术出版社(Academic Press),圣地 亚哥;Wolffe,CHROMATIN STRUCTURE AND FUNCTION(染色质结构和功能), 第三版,学术出版社,圣地亚哥,1998;METHODS IN ENZYMOLOGY(酶学方法), 第304卷,“Chromatin(染色质)”(P.M.Wassarman和A.P.Wolffe编),学术出版社, 圣地亚哥,1999;和METHODS IN MOLECULAR BIOLOGY(分子生物学方法),第 119卷,“Chromatin Protocols(染色质方法)”(P.B.Becker编)Humana Press(休曼出版 社),多多瓦(Totowa),1999。
定义
术语“核酸”、“多核苷酸”和“寡核苷酸”可互换使用,指线状或环状构象 的单链或双链脱核糖核苷酸或核糖核苷酸聚合物,出于本公开的目的,并不认为 这些术语所指聚合物的长度有限制。该术语可包括天然核苷酸的已知同类物及碱基、 糖和/或磷酸部分(如硫代磷酸酯主链)被修饰的核苷酸。通常,具体核苷酸的同类物 具有相同的碱基配对特异性,即A的同类物与T碱基配对。
术语“多肽”、“肽”和“蛋白质”可互换使用,指氨基酸残基的聚合物。此 术语也应用于其中一个或多个氨基酸是相应天然氨基酸的化学同类物或修饰衍生物 的氨基酸聚合物。
″结合″指大分子(如蛋白质和核酸)之间的序列特异性非共价相互作用。结合作用 的所有组分不一定都需要是序列特异性(如与DNA主链中的磷酸残基接触)的,只要 相互作用整体上是序列特异性的。这种相互作用的一般特征是解离常数(Kd)为10-6 M-1或更低。“亲和力”指结合强度:高结合亲和力与较低Kd相关联。
″结合蛋白″是能够非共价结合于另一分子的蛋白质。结合蛋白可以结合(例 如)DNA分子(DNA结合蛋白)、RNA分子(RNA结合蛋白)和/或蛋白质分子(蛋白质结 合蛋白)。在蛋白质结合蛋白的情况下,蛋白质可自身结合(形成同源二聚体、同源三 聚体等)和/或可结合不同蛋白质的一种或多种分子。结合蛋白可具有一种以上类型的 结合活性。例如锌指蛋白具有DNA结合、RNA结合和蛋白质结合活性。
″锌指DNA结合蛋白″(或结合域)是以序列特异性方式通过一个或多个锌指结合 DNA的蛋白质或较大蛋白的结构域,锌指是通过锌离子配位稳定结构的结合结构域 中的氨基酸序列区域。术语锌指DNA结合蛋白常常简称为锌指蛋白或ZFP。
锌指结合域可经″工程改造″而结合预定的核苷酸序列。工程改造锌指蛋白的方 法的非限制性例子是设计和选择。
设计的锌指蛋白是天然不存在的蛋白质,其设计/组成主要来自合理标准。设计 的合理标准包括应用取代规则和计算机算法,加工储存现有ZFP设计和结合数据信 息数据库中的信息。参见例如美国专利6,140,081;6,453,242和6,534,261;也参见 WO98/53058;WO98/53059;WO98/53060;WO02/016536和WO03/016496。
″选择的″锌指蛋白是天然未发现的蛋白质,其产生主要来自经验过程,如噬菌 体呈现、相互作用阱或杂交选择。参见例如US 5,789,538;US 5,925,523;US 6,007,988; US 6,013,453;US 6,200,759;WO95/19431;WO96/06166;WO98/53057;和 WO98/54311;WO00/27878;WO01/60970;WO01/88197和WO02/099084。
术语″序列″指任何长度的核苷酸序列,可以是DNA或RNA;可以是线状、环 状或分支状,可以是单链或双链。术语″供体序列″指要插入基因组中的核苷酸序列。 供体序列可以是任何长度,例如长2-10,000个核苷酸(或者它们之间或之上的任何整 数值),优选长约100-1,000个核苷酸(或者它们之间的任何整数),更优选长约200-500 个核苷酸。
″同源但不相同的序列″指第一种序列与第二种序列有一定程度的序列相同性, 但其序列与第二种序列不完全相同。例如,含有突变基因的野生型序列的多核苷酸 与该突变基因同源但不相同。在某些实施方式中,这两种序列之间的同源性程度足 以使它们之间利用正常细胞机制发生同源重组。两种同源但不相同的序列可以是任 何长度,它们的非同源程度可以小到一个核苷酸(如通过靶向同源重组校正基因组的 点突变)或者可大到一万或更多个碱基(如在染色体的预定异位位点上插入一个基 因)。含有同源但不相同序列的两种多核苷酸不一定等长。例如,可采用20-10,000 个核苷酸或核苷酸对的外源性多核苷酸(即供体多核苷酸)。
测定核酸和氨基酸序列相同性的技术是本领域熟知的。此类技术一般包括测定 一个基因mRNA的核苷酸序列和/或测定其编码的氨基酸序列,并将这些序列与另一 核苷酸或氨基酸序列作比较。利用此法也可测定和比较基因组序列。通常,相同性 分别指两个多核苷酸或多肽序列中的核苷酸-核苷酸或氨基酸-氨基酸精确对应。通过 检测序列相同性百分数可比较两个或多个(多核苷酸或氨基酸)序列。将两个比对序列 之间精确匹配的核酸或氨基酸数目除以较短序列长度乘以100得到两个序列的相同 性百分数。Smith和Waterman,Advances in Applied Mathematics(应用数学进展) 2:482-489(1981)的局部同源性算法提供了核酸序列的近似比对。利用Dayhoff,Atlas of Protein Sequences and Structure(蛋白质序列和结构图表),M.O.Dayhoff编,5增刊, 3:353-358,国家生物医学研究基金会(National Biomedical Research Foundation),美 国华盛顿特区开发和Gribskov,Nucl.Acids Res.14(6):6745-6763(1986)标准化的评 分矩阵可将此算法应用于氨基酸序列。遗传学计算机研究组(威斯康星州麦迪逊)在 “最佳拟合(BestFit)”实际应用中示范了该算法的执行,测定序列相同性百分数。威斯 康星(Wisconsin)序列分析软件包程序手册第8版(1995)(可获自威斯康星州麦迪逊遗 传学计算机研究组)描述了该方法的默认参数。本公开内容中确定相同性百分数的优 选方法是采用爱丁堡大学版权所有的、John F.Collins和Shane S.Sturrok开发的、加 州芒廷维尤的因特遗传学公司(IntelliGenetics,Inc.)发行的MPSRCH程序包。可使用 该软件包的史密斯-沃特曼(Smith-Waterman)算法,其中的默认参数用于评分表(例如 缺口开放罚12分、缺口延伸罚1分和一个缺口6分)。所生成数据中“匹配(Match)” 值反应了序列相同性。本领域技术人员熟知计算序列间相同性或相似性百分数的其 它合适程序,例如另一比对程序是BLAST(使用默认参数)。例如可采用以下默认参 数的BLASTN和BLASTP算法:遗传密码=标准;过滤=无;链=双链;截止值=60; 期望值=10;矩阵=BLOSUM62;说明=50个序列;分选=HIGH SCORE;数据库=非 冗余,GenBank+EMBL+DDBJ+PDB+GenBank CDS翻译+瑞士蛋白(Swiss protein)+Spupdate+PIR。可以在互联网上找到这些程序的详述。至于本文所述序列, 序列相同性程度的所需范围约为80%到100%和二者之间的任何整数值。序列之间相 同性百分数一般至少为70-75%,优选80-82%,更优选85-90%,更优选92%,更优 选95%,最优选98%序列相同。
或者,可用多核苷酸杂交方法测定多核苷酸间的序列相似性程度,杂交条件应 能使同源区间形成稳定的双链体,用单链特异性核酸酶消化,随后测定消化片段的 大小。当利用上述方法测定两个核酸或两个多肽序列确定分子长度的序列相同性显 示至少约为70%-75%,优选80%-82%,更优选85%-90%,更优选92%,更优选95%, 最优选98%时,则认为它们基本同源。如本文所用,基本同源也指特定DNA或多肽 序列完全相同的序列。在例如该具体系统规定的严谨条件下的Southern杂交试验鉴 定基本同源的DNA序列。本领域技术人员能够确定合适的杂交条件。参见例如 Sambrook等,同上;Nucleic Acid Hybridization:A Practical Approach(核酸杂交:实 用方法),B.D.Hames和S.J.Higgins编,(1985)Oxford;华盛顿特区;IRL出版社)。
可用下述方法测定两个核酸片段的选择性杂交。两个核酸分子间的序列相同性 程度影响二分子间的杂交效率和强度。部分相同的核酸序列至少能部分抑制与靶分 子完全相同序列的杂交。可利用下列本领域内熟悉的杂交试验测定完全相同序列的 杂交抑制(如Southern(DNA)印迹,Northern(RNA)印迹,溶液杂交等,参见Sambrook 等,Molecular Cloning:A Laboratory Manual(分子克隆:实验室手册),第二版,(1989), 纽约冷泉港)。此类实验可在不同程度选择性下进行,如利用从低到高的不同严谨性。 若使用低严谨条件,可利用缺少甚至部分序列相同性的第二探针(例如与靶分子序列 相同性少于30%的探针)评价不存在非特异结合,当缺少非特异性结合时,第二探针 不会与靶分子杂交。
当利用基于杂交的检测系统时,应选择与参比核酸序列互补的探针核酸,然后 选择合适条件使探针与参比序列选择性杂交或互相结合形成双链体分子。能在中等 严谨条件下与参比序列选择性杂交的核酸分子一般能够在以下条件下杂交,该条件 能够检测至少长10-14个核苷酸且至少约70%序列与所选核酸探针序列相同的靶核 酸序列。严谨杂交条件一般能检测与所选核酸探针序列的序列相同性大于约90-95% 的至少长约10-14个核苷酸的靶核酸序列。探针和参比序列具有特定程度的序列相同 性时,用于探针/参比序列杂交的条件可按本领域所知技术确定(参见例如《核酸杂交: 实用方法》(Nucleic Acid Hybridization:A Practical Approach),B.D.Hames和 S.J.Higgins编,(1985)Oxford;华盛顿特区;IRL出版社)。
杂交条件为本领域专业人员熟知。杂交严谨性指杂交条件不利于包含错配核苷 酸的杂交体形成的程度,较高的严谨性与对错配杂交体的较低容忍度相关。影响杂 交严谨性的因素为本领域专业人员熟知,包括但不限于:温度、pH、离子强度和有 机溶剂例如甲酰胺和二甲基亚砜的浓度。如本领域技术人员所知,较高的温度、较 低的离子强度和较低的溶剂浓度可提高杂交的严谨性。
至于杂交的严谨性条件,本领域熟知可采用许多等效条件通过改变(例如)以下因 素来建立特定的严谨性:序列的长度和特性、各种序列的碱基组成、杂交溶液的盐 浓度和其它组分浓度、杂交溶液中存在或不存在阻断剂(如硫酸右旋糖苷和聚乙二 醇)、杂交反应温度和时间参数、以及不同的洗涤条件。按照本领域标准方法(参见例 如Sambrook,等,Molecular Cloning:A Laboratory Manual(分子克隆:实验室手册), 第二版,(1989),纽约冷泉港)来选择具体设定杂交条件。
″重组″指两条多核苷酸之间交换遗传信息的过程。出于本发明目的,″同源重组 (HR)″指在(例如)修复细胞内双链断裂的过程中所发生的这种交换的特殊形式。这一 过程需要核苷酸序列同源,采用″供体″分子为模板来修复″靶″分子(即发生双链断裂 的分子),称为″无交换基因的转化″或″短段基因转化″,因为它导致遗传信息由供体 转移到靶序列上。如果不希望受限于任何特定理论,这类转移可包括断裂校正靶位 点和供体之间形成的异源双链体DNA的错配,和/或″合成依赖性链退火″,其中用供 体再次合成遗传信息(该信息将变成靶位点的一部分)和/或相关过程。这些特殊HR常 常导致靶分子序列改变,以使供体多核苷酸序列的一部分或全部掺入靶多核苷酸中。
″切割″指使DNA分子的共价主链断裂。可通过各种方法启动切割,这些方法包 括但不限于:磷酸二酯键的酶促或化学水解。有可能进行单链切割和双链切割,两 单链的各自切割可导致双链切割。DNA切割可产生钝端或交错端。在某些实施方式 中,采用融合多肽来靶向切割双链DNA。
″切割域″包含具有DNA切割催化活性的一种或多种多肽序列。切割域可包含在 一条多肽链中,或者切割活性可由两种(或多种)多肽联合产生。
″切割半域″是与第二种多肽(相同或不同)一起形成具有切割活性(优选双链切割 活性)的复合物的多肽序列。
″染色质″是包含细胞基因组的核蛋白结构。细胞染色质包含核酸(主要是DNA) 和蛋白质,蛋白质包括组蛋白和非组蛋白染色体蛋白。大多数真核细胞的染色质以 核小体的形式存在,其中核小体核心包含约150个碱基对的DNA,与包含组蛋白 H2A、H2B、H3和H4各一对的八聚物相连;接头DNA(各生物体的长度可不同)位 于核小体核心之间。组蛋白H1分子通常与接头DNA相连。出于本发明目的,术语 “染色质”旨在包括所有类型细胞,包括原核和真核细胞的核蛋白。细胞染色质包 括染色体和附加体染色质。
″染色体″是包含全部细胞基因组或其一部分的染色质复合物。细胞基因组的特 征常常是其核型,它是包含该细胞基因组的所有染色体的集合。细胞基因组可包括 一条或多条染色体。
″附加体″是可复制性核酸、核蛋白复合物或其它结构,其包含的核酸不是细胞 染色体核型一部分。附加体的例子包括质粒和某些病毒基因组。
″可及区″是位于核酸中存在的靶位点可被识别该靶位点的外源性分子结合的细 胞染色质中的位点。如果不希望受限于任何具体理论,应相信可及区是核小体结构 中没包括的区域。通常可通过对化学探针和酶探针如核酶的敏感性检测可及区的独 特结构。
″靶位点″或″靶序列″是某种核酸序列,定义为只要存在足以结合的条件,结合分 子(如结合蛋白)能结合的核酸部分。例如序列5’-GAATTC-3’是Eco RI限制性核 酸内切酶的靶位点。
″外源性″分子是正常不存在于细胞中、但可用一种或多种遗传、生化或其它方 法引入细胞中的分子。根据细胞的具体发育阶段和环境条件确定“正常存在于细胞 中”。因此,例如仅在胚胎发育期间的肌肉中存在的分子对成人肌肉细胞而言是外 源性分子。相似地,热激诱生的分子对非热激细胞而言是外源性分子。外源性分子 可包括(例如)功能失常内源性分子的有功能类型或功能正常的内源性分子的功能失 常类型。
外源性分子可以是小分子或大分子,小分子例如是组合化学方法产生的分子, 大分子例如有蛋白质、核酸、糖、脂质、糖蛋白、脂蛋白、多糖、上述分子的修饰 衍生物,或包含一种或多种上述分子的复合物。核酸包括DNA和RNA,可以是单 链或双链;可以是直链、支链或环形;可以是任何长度。核酸包括能够形成双链体 的核酸,以及形成三链体的核酸。参见例如美国专利号5,176,996和5,422,251。蛋白 质包括但不限于:DNA结合蛋白、转录因子、染色质重塑因子、甲基化DNA结合 蛋白、聚合酶、甲基化酶、去甲基化酶、乙酰基转移酶、脱乙酰酶、激酶、磷酸酶、 整合酶、重组酶、连接酶、拓扑异构酶、促旋酶和解旋酶。
外源性分子可以是与内源性分子类型相同的分子,如外源性蛋白质或核酸。例 如,外源性核酸包括感染性病毒基因组、引入细胞的质粒或附加体或正常不存在于 细胞中的染色体。将外源性分子引入细胞的方法是本领域技术人员已知的,包括但 不限于:脂质介导的转移(即脂质体,包括中性和阳离子脂质)、电穿孔、直接注射、 细胞融合、粒子轰击、磷酸共沉淀、DEAE-右旋糖苷介导的转移和病毒载体介导 的转移。
相反,″内源性″分子是在具体环境条件下、具体发育阶段的具体细胞中正常存 在的分子。例如,内源性核酸包括染色体,线粒体、叶绿体或其它细胞器的基因组, 或天然产生的附加体核酸。其它内源性分子包括蛋白质,例如转录因子和酶。
″融合″分子是两个或多个亚基分子连接,优选共价连接的分子。亚基分子可以 是相同化学类型的分子,或者可以是不同化学类型的分子。第一种类型的融合分子 的例子包括但不限于:融合蛋白(例如ZFP DNA结合域和切割域之间的融合物)和融 合核酸(例如编码上述融合蛋白的核酸)。第二种类型的融合分子的例子包括但不限 于:形成三链体的核酸和多肽之间的融合物以及小沟结合物和核酸之间的融合物。
可将融合蛋白递送到细胞中或将编码融合蛋白的多核苷酸递送到细胞中使融合 蛋白在细胞中表达,在细胞中多核苷酸被转录,转录物被翻译,以产生融合蛋白。 在细胞中表达蛋白质也可包括反式剪接、多肽切割和多肽连接。本公开其它地方列 出将多核苷酸和多肽递送到细胞中的方法。
出于本公开目的,″基因″包括编码基因产物的DNA区域(见下),以及调节基因 产物产生的所有DNA区域,不管此种调节序列是否毗连编码和/或转录序列。因此, 基因包括但不限于:启动子序列、终止子、翻译调节序列如核糖体结合位点和内部 核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点 和基因座控制区。
″基因表达″指将基因所含信息转变为基因产物。基因产物可以是基因的直接转 录产物(如mRNA、tRNA、rRNA、反义RNA、核酶、结构RNA或任何其它类型的 RNA)或mRNA翻译产生的蛋白质。基因产物也包括通过一些方法如加帽、聚腺苷酸 化、甲基化和编辑修饰的RNA,以及通过(例如)甲基化、乙酰化、磷酸化、泛素化、 ADP-核糖基化、十四烷基化和糖基化修饰的蛋白质。
基因表达的″调节″指改变基因活性。表达调节可包括但不限于:基因活化和基 因抑制。
″真核″细胞包括但不限于:真菌细胞(如酵母)、植物细胞、动物细胞、哺乳动物 细胞和人细胞。
″感兴趣区域″是细胞染色质的任何区域,例如基因或者基因内或与基因毗邻的 非编码序列,其中需要该区域结合外源性分子。结合可以是为了靶向DNA切割和/ 或靶向重组。感兴趣区域可存在于(例如)染色体、附加体、细胞器基因组(如线粒体、 叶绿体)或感染性病毒基因组中。感兴趣区域可位于基因的编码区内,转录的非编码 区如前导序列、尾随序列或内含子内,或者位于编码区上游或下游的非转录区内。 感兴趣区域可以短至单个核苷酸对或长达2,000个核苷酸对,或任何整数值的核苷酸 对。
术语″操作性连接″和″操作性连接的″(或“可操作连接的”)可互换使用,指并列 的两个或多个部件(如序列元件),其中各部件的安排能使其发挥正常功能,并能使至 少一个部件介导对至少一个其它部件施加作用。例如,如果某转录调节序列在对一 种或多种转录调节因子的存在或缺失的反应中能控制某编码序列的转录水平,那么 就说该转录调节序列(如启动子)操作性连接于该编码序列。转录调节序列通常与编码 序列顺式操作性连接,但不一定直接与其毗连。例如,增强子是操作性连接于编码 序列的一种转录调节序列,即使它们不毗连。
提到融合多肽时,术语″操作性连接″可以指各部件与其它部件连接时可执行与 不这样连接时同样的功能。例如,提到ZFP DNA结合域融合于切割域的融合多肽时, 如果在此融合多肽中ZFP DNA-结合域部分能够结合其靶位点和/或其结合位点,而 切割域能够切割靶位点附近的DNA,那么就称ZFP DNA结合域和切割域操作性相 连。
蛋白质、多肽或核酸的″功能片段″是序列与全长蛋白质、多肽或核酸不同,但 保留全长蛋白质、多肽或核酸相同功能的蛋白质、多肽或核酸。功能片段的残基数 量可以比对应的天然分子多、少或相同,和/或功能片段可含有一个或多个氨基酸或 核苷酸取代。测定核酸功能(如编码功能、与另一核酸杂交的能力)的方法是本领域熟 知的。类似地,测定蛋白质功能的方法是熟知的。例如,可通过(例如)滤膜结合、电 泳迁移率变动或免疫沉淀试验测定多肽的DNA结合功能。可通过凝胶电泳测定DNA 切割。参见Ausubel等,同上。可通过(例如)免疫共沉淀、双杂交试验或互补(遗传和 生化)试验测定蛋白质与另一种蛋白质相互作用的能力。参见例如Fields等(1989) Nature 340:245-246;美国专利号5,585,245和PCT WO 98/44350。
靶位点
本发明方法和组合物包括含有切割域(或切割半域)和锌指域的融合蛋白,其中锌 指域通过结合于细胞染色质中的某序列(如靶位点或结合位点),将切割域(或切割半 域)的活性导向该序列附近,从而诱导在靶序列附近进行切割。如本发明其它地方所 述,经工程改造,锌指域可结合于基本上任何所需序列。因此,鉴定含有需要切割 或重组的序列的感兴趣区域后,可工程改造一个或多个锌指结合域,使其结合于感 兴趣区域中的一个或多个序列。在细胞中表达含有锌指结合域和切割域的融合蛋白 (或表达各自含有锌指结合域和切割半域的两种融合蛋白)能够实现在感兴趣区域中 切割。
可按照(例如)共有美国专利6,453,242(2002年9月17日)所述的方法选择细胞染 色质中锌指域结合的序列(如靶位点),所述专利还公开了设计能结合所选序列的ZFP 的方法。本领域技术人员明白,也可简单地观察核苷酸序列来选择靶位点。因此, 要求权利的方法中可采用任何靶位点选择方式。
靶位点通常由多个毗邻的子靶位点组成。子靶位点指单个锌指所结合的序列(通 常是核苷酸三联体,或可与毗邻四联体重叠一个核苷酸的核苷酸四联体)。参见例如, WO 02/077227。如果与锌指蛋白结合程度最高的链被称为靶链“主要识别链”或“主要 接触链”,那么一些锌指蛋白结合于靶链中的三碱基三联体和非靶链上的第四碱基。 靶位点长度通常为至少9个核苷酸,因此,含有至少三个锌指的锌指结合域与其结 合。然而,也可能是(例如)4-指结合域与12-核苷酸靶位点、5-指结合域与15-核苷酸 靶位点或6-指结合域与18-核苷酸靶位点结合。本领域显然了解,也可能是较大结合 域(如7-、8-、9-指和更大)与较长靶位点结合。
靶位点不一定是多个三联体核苷酸。例如,在发生交叉链相互作用的情况下(参 见例如,美国专利6,453,242和WO 02/077227),多指结合域中一个或多个单锌指可 结合于重叠的四联体子位点。因此,三指蛋白可结合10-核苷酸序列,其中第十个核 苷酸是末端指结合的四联体的一部分,四指蛋白可结合13-核苷酸序列,其中第十三 个核苷酸是末端指结合的四联体的一部分,等等。
多指结合域中各锌指之间的氨基酸接头序列的长度和特性也影响其与靶序列的 结合。例如,多指结合域中毗邻锌指之间存在所谓的“非经典接头”、“长接头”或“结 构化接头”能使这些指结合非紧邻的子位点。这类接头的非限制性例子参见例如,美 国专利号6,479,626和WO 01/53480。因此,可通过1、2、3、4、5或更多个核苷酸 使锌指结合域靶位点中的一个或多个子位点相互分隔开。为了提供一个例子,四指 结合域可结合于序列中含有两个毗连3-核苷酸子位点、中间核苷酸和两个毗连三联 体子位点的13-核苷酸靶位点。
序列(如靶位点)之间的距离指从两个序列最接近的边缘计算,位于两个序列之间 的核苷酸或核苷酸对的数量。
在切割取决于两个锌指域/切割半域融合分子与各自靶位点结合的实施方式中, 这两个靶位点可位于相对的DNA链上。在其它实施方式中,两个靶位点在同一条 DNA链上。
锌指结合域
锌指结合域包含一个或多个锌指。Miller等(1985)EMBO J.4:1609-1614;Rhodes (1993)Scientific American Feb.:56-65;美国专利号6,453,242。一般地,一个锌指域的 长度约为30个氨基酸。结构研究证明,各锌指域(基序)含有两个β片层(保持在含有 两个不变的半胱氨酸残基的β转角中)和一个α螺旋(含有两个不变的组氨酸残基), 通过这两个半胱氨酸和这两个组氨酸与锌原子的配位作用保持在特定构象中。
锌指包括经典的C2H2锌指(即其中锌离子与两个半胱氨酸和两个组氨酸残基配 位)和非经典锌指,例如C3H锌指(其中锌离子与三个半胱氨酸残基和一个组氨酸残基 配位)和C4锌指(其中锌离子与四个半胱氨酸残基配位)。还参见WO 02/057293。
经工程改造,锌指结合域可结合于所选序列。参见例如,Beerli等(2002)Nature Biotechnol.20:135-141;Pabo等(2001)Ann.Rev.Biochem.70:313-340;Isalan等(2001) Nature Biotechnol.19:656-660;Segal等(2001)Curr.Opin.Biotechnol.12:632-637; Choo等(2000)Curr.Opin.Struct.Biol.10:411-416。与天然产生的锌指蛋白相比,经 工程改造的锌指结合域可具有新的结合特异性。工程改造方法包括但不限于:合理 设计和各种类型的选择。合理设计包括例如:含有三联体(或四联体)核苷酸序列和各 个锌指氨基酸序列的数据库,其中每个三联体或四联体核苷酸序列与结合特定三联 体或四联体序列的一个或多个锌指氨基酸序列相连。参见例如,共有的美国专利 6,453,242和6,534,261。
示范性选择方法,包括噬菌体呈现和双杂交系统,参见美国专利5,789,538; 5,925,523;6,007,988;6,013,453;6,410,248;6,140,466;6,200,759;和6,242,568; 以及WO 98/37186;WO 98/53057;WO 00/27878;WO 01/88197和GB 2,338,237。
提高锌指结合域的结合特异性可参见(例如)共有的WO 02/077227。
由于一个锌指结合于3-核苷酸(即三联体)序列(或可能与毗邻锌指的4-核苷酸结 合位点有1个核苷酸重叠的4-核苷酸序列),所以经工程改造的锌指结合域结合的序 列(如靶序列)长度将决定工程改造锌指结合域中锌指的数量。例如,对于其指基序不 结合于重叠子位点的ZFP而言,6-核苷酸靶序列与2指结合域结合;9-核苷酸靶序列 与3-指结合域结合等。如本文所述,靶位点中各锌指的结合位点(即子位点)不一定毗 连,但可通过一个或几个核苷酸隔开,这取决于多指结合域中个锌指之间的氨基酸 序列(即指间接头)的长度和性质。
在多指锌指结合域中,毗邻的锌指可用约5个氨基酸的氨基酸接头序列(所谓的 “经典”指间接头),或者一个或多个非经典接头间隔开。参见例如,共有的美国专利 6,453,242和6,534,261。对于含有三指以上的工程改造的锌指结合域而言,可优选在 某些锌指之间插入较长(“非经典”)指间接头,因为这可提高该结合域结合的亲和力和 /或特异性。参见例如,美国专利号6,479,626和WO 01/53480。因此,也可根据非经 典指间接头的存在和位置特征鉴定多指锌指结合域。例如,包含三个指(由两个经典 指间接头连接)、长接头和三个其它指(由两个经典指间接头连接)的六指锌指结合域 称作2x3构型。相似地,包含二个指(它们之间含有经典接头)、长接头和两个其它指 (由经典接头连接)的结合域称作2x2蛋白。含有三个二指单元(其中两个指各自通过 经典接头连接在一起)的蛋白质称作3x2蛋白质,其中每个二指单元通过长接头连接 于毗邻的二指单元。
多指结合域中两个毗邻锌指之间存在一个长或非经典指间接头常常使得这两个 指能结合于靶序列中非紧邻的子位点。因此,靶位点中子位点之间可能存在一个或 多个核苷酸的缺口;即,靶位点可含有锌指不接触的一个或多个核苷酸。例如,2x2 锌指结合域可结合1个核苷酸隔开的两个6-核苷酸序列,即能结合13-核苷酸靶位点。 还参见Moore等(2001a)Proc.Natl.Acad.Sci.USA 98:1432-1436;Moore等(2001b) Proc.Natl.Acad.Sci.USA 98:1437-1441和WO 01/53480。
如前所述,子靶位点是由一个锌指结合的3-或4-核苷酸序列。出于某些目的, 2-指单元称作结合模。可通过(例如)选择能结合特定6-核苷酸靶序列的多指蛋白质 (通常是三指)中两个毗邻指来获得结合模块。或者,可通过组装各个锌指构建模块。 还参见WO 98/53057和WO 01/53480。
切割域
可采用任何核酸内切酶或外切核酸酶获得本文所述的融合蛋白的切割域部分。 可产生切割域的示范性核酸内切酶包括但不限于:限制性核酸内切酶和寻靶核酸内 切酶。参见例如,2002-2003目录,New England Biolabs(新英格兰生物实验室公司), 萨诸塞州贝弗利;和Belfort等(1997)Nucleic Acids Res.25:3379-3388。已知能切割 DNA的其它酶(如S1核酸酶;绿豆核酸酶;胰DNA酶I;微球菌核酸酶;酵母HO 核酸内切酶;还参见Linn等(编)Nuclease(核酸酶),冷泉港实验室出版社,1993)。 这些酶中的一种或多种(或其功能片段)可用作切割域和切割半域来源。
相似地,如上所述,切割半域(如含有锌指结合域和切割半域的融合蛋白)可衍生 自切割活性所需要的二聚化的任何核酸酶或其部分。通常,如果融合蛋白包含切割 半域,那么切割需要两种融合蛋白。或者,可采用含有两个切割半域的一种蛋白。 两个切割半域可衍生自同一核酸内切酶(或其功能片段),或各切割半域衍生自不同的 核酸内切酶(或其功能片段)。此外,优选安排两种融合蛋白靶位点的相互位置,使两 种融合蛋白与各自靶位点结合而将二切割半域定位于使该二切割半域形成功能性切 割域(例如通过二聚化)的空间取向上。因此,在某些实施方式中,靠近靶位点的边缘 间隔有5-8个核苷酸或15-18个核苷酸。然而,可将任何整数数量的核苷酸或核苷酸 对插入两个靶位点之间(如2-50个或更多个核苷酸)。通常,切割点位于靶位点之间。
许多物种中存在限制性核酸内切酶(限制性酶),它们能够序列特异性结合与 DNA(在识别位点处),并在其结合位点上或其附近切割DNA。某些限制性酶(如IIS 型)在远离识别位点的位置上切割DNA,具有分开的结合域和切割域。例如,IIS型 酶FokI能在一条键上距离识别位点9个核苷酸处和另一条链上距离识别位点13个核 苷酸处催化切割DNA双链。参见例如,美国专利5,356,802、5,436,150和5,487,994; 以及Li等(1992)Proc.Natl.Acad.Sci.USA 89:4275-4279;Li等(1993)Proc.Natl.Acad. Sci.USA 90:2764-2768;Kim等(1994a)Proc.Natl.Acad.Sci.USA 91:883-887;Kim等 (1994b)J.Biol.Chem.269:31,978-31,982。因此,在一个实施方式中,融合蛋白包含 至少一种IIS型限制性酶的切割域(或切割半域)以及一个或多个锌指结合域,该锌指 结合域可经过或未经工程改造。
切割域与结合域分开的示范性IIS型限制性酶是FokI。此种特殊酶的二聚体形 式有活性。Bitinaite等(1998)Proc.Natl.Acad.Sci.USA 95:10,570-10,575。因此,出 于本发明目的,认为用于所述融合蛋白的FokI酶的一部分是切割半域。因此,为了 用锌指-FokI融合物进行靶向双链切割和/或靶向置换细胞序列,可采用各自含有FokI 切割半域的两种融合蛋白来重建有催化活性的切割域。或者,还可采用含有一个锌 指结合域和两个FokI切割半域的一种多肽分子。在本文其它地方提供了用锌指-FokI 融合物进行靶向切割和靶向序列改变的参数。
切割域或切割半域可以是保留了切割活性,或保留了多聚化(如二聚化)形成功能 性切割域能力的蛋白质的任何部分。
示范性IIS型限制性酶见表1。其它限制性酶也含有分开的结合域和切割域,本 发明也考虑了这些限制性酶。参见例如,Roberts等(2003)Nucleic Acids Res. 31:418-420。
表1:一些IIS型限制性酶
Aar I      BsrB I     SspD5 I
Ace III    BsrD I     Sth132 I
Aci I      BstF5 I    Sts I
Alo I      Btr I      TspDT I
Bae I      Bts I      TspGW I
Bbr7 I     Cdi I      Tth111 II
Bbv I      CjeP I     UbaP I
Bbv II     Drd II     Bsa I
BbvC I     Eci I      BsmB I
Bcc I      Eco31 I
Bce83 I    Eco57 I
BceA I     Eco57M I
BcefI      Esp3 I
Bcg I      Fau I
BciV I     Fin I
Bfi I      Fok I
Bin I        Gdi II
Bmg I        Gsu I
Bpu10 I      Hga I
BsaX I       Hin4 II
Bsb I        Hph I
BscA I       Ksp632 I
BscG I       Mbo II
BseR I       Mly I
BseY I       Mme I
Bsi I        Mnl I
Bsm I        Pfl1108 I
BsmA I       Ple I
BsmF I       Ppi I
Bsp24 I      Psr I
BspG I       RleA I
BspM I       Sap I
BspNC I      SfaN I
Bsr I        Sim I
锌指域-切割域融合物
本领域技术人员了解设计和构建融合蛋白(和编码它们的多核苷酸)的方法。例 如,设计和构建含有锌指蛋白的融合蛋白(和编码它们的多核苷酸)的方法参见共有美 国专利6,453,242和6,534,261。在某些实施方式中,构建编码这类融合蛋白的多核苷 酸。可将这些多核苷酸插入载体中,将该载体引入细胞中(关于载体和将多核苷酸引 入细胞的方法的内容见下)。
在本文所述方法的某些实施方式中,融合蛋白包含锌指结合域和来自Fok I限制 性酶的切割半域,在细胞中表达两种这类融合蛋白。可将两种蛋白递送到细胞中; 将一种蛋白质和编码一种蛋白质的一种核酸递送到细胞中;将各自编码一种蛋白的 两种核酸递送到细胞中;或将编码两种蛋白质的核酸递送到细胞中,从而在细胞中 表达两种融合蛋白。在其它实施方式中,融合蛋白包含含有两个切割半域和一个锌 指结合域的一条多肽链。在这种情况下,在细胞中表达一种融合蛋白,如果不希望 受限于理论,认为是通过二切割半域形成的分子内二聚体而切割DNA。
在某些实施方式中,安排融合蛋白(如ZFP-Fok I融合物)的组件,使锌指域最接 近该融合蛋白的氨基末端,而切割半域最接近羧基末端。这镜像反映出天然产生的 二聚化切割域如衍生自Fok I酶的二聚化切割域中切割域的相对取向,此二聚化切割 域中DNA-结合域最接近氨基末端,切割半域最接近羧基末端。在这些实施方式中, 融合蛋白与相对DNA链上的位点结合,二结合位点的5’端互相靠近,而导致切割半 域二聚化形成有功能的核酸酶。见图43A。
在其它实施方式中,安排融合蛋白(如ZFP-Fok I融合物)的各组件,使切割半域 最接近融合蛋白的氨基末端,锌指域最接近羧基末端。在这些实施方式中,融合蛋 白与相对DNA链上的位点结合,二结合位点的3’端互相靠近,导致切割半域二聚化 形成有功能的核酸酶。见图43B。
在其它实施方式中,第一种融合蛋白所含的切割半域最接近该融合蛋白氨基末 端,锌指域最接近羧基末端,安排第二种融合蛋白,以使锌指域最接近该融合蛋白 的氨基末端,切割半域最接近羧基末端。在这些实施方式中,两种融合蛋白均结合 于同一条DNA链,所含锌指域最接近羧基末端的第一种融合蛋白的结合位点位于所 含锌指域最接近氨基末端的第二种融合蛋白的结合位点的5’侧。见图43C。
在所述融合蛋白中,锌指域和切割域(或切割半域)之间的氨基酸序列称为“ZC接 头”。ZC接头与上述指间接头不同。出于测定ZC接头长度的目的,采用Pabo等(2001) Ann.Rev.Biochem.70:313-340描述的以下锌指结构:
X-X-C-X2-4-C-X12-H-X3-5-H(SEQ ID NO:201)
在这种结构中,锌指的第一个残基是位于第一个保守半胱氨酸残基的氨基末端 一侧两个残基处的氨基酸。在大多数天然产生的锌指蛋白中,该位置被疏水性氨基 酸占据(通常是苯丙氨酸或酪氨酸)。因此,在所述融合蛋白中,锌指的第一个残基常 常是疏水性残基,但可以是任何氨基酸。锌指的最后一个氨基酸残基(如上所述)是第 二保守的组氨酸残基。
因此,在所述锌指结合域的极性位于切割域(或切割半域)的氨基末端的融合蛋白 中,所述ZC接头是锌指C末端的第二保守组氨酸残基和切割域(或切割半域)的N末 端氨基酸之间的氨基酸序列。例如,在实施例部分举例说明其结构的某些融合蛋白 中,切割半域的N-末端氨基酸是谷胺酰胺(Q)残基,对应于Looney等(1989)Gene 80:193-208所述的FokI序列中的第384号氨基酸。
在极性为切割域(或切割半域)位于锌指结合域氨基末端的融合蛋白中,所述ZC 接头是位于切割域(或半域)C末端氨基酸残基和锌指结合域N末端锌指第一个残基 (即位于第一个保守的半胱氨酸残基上游两个残基处的残基)之间的氨基酸序列。在某 些示范性融合蛋白中,切割半域C末端氨基酸是苯丙氨酸(F)残基,对应于Looney 等(1989)Gene 80:193-208所述的Fok I序列中的第579号氨基酸。
所述ZC接头可以是任何氨基酸序列。为了获得最优切割,ZC接头的长度与靶 位点(结合位点)之间的距离相关联。参见例如,Smith等(2000)Nucleic Acids Res. 28:3361-3369;Bibikova等(2001)Mol.Cell.Biol.21:289-297,注意其接头长度的记法 与本文所用方法不同。例如,在锌指结合域位于切割半域氨基末端、ZC接头长度为 4个氨基酸(如本文所述)的ZFP-Fok I融合物(其它地方称为L0)中,该融合蛋白的结 合位点相隔6或16个核苷酸(由各结合位点的近边测定)时发生最优切割。参见实施 例4。
靶向切割的方法
可采用本发明所述方法和组合物在细胞染色质感兴趣区域(如基因组中,如突变 型或野生型基因中所需或预定的位点)切割DNA。就这种靶向DNA切割而言,可工 程改造锌指结合域,使其在预定的切割位点或附近结合靶位点,和在细胞中表达含 有工程改造的锌指结合域和切割域的融合蛋白。融合蛋白的锌指部分与靶位点结合 后,切割域在靶位点附近切割DNA。准确的切割位点可能取决于ZC接头的长度。
或者,在细胞中表达各自含有锌指结合域和切割半域的两种融合蛋白,这两种 融合蛋白以并列方式结合靶位点,从而得于以重建功能性切割域和在靶位点附近切 割DNA。在一个实施方式中,在两个锌指结合域的靶位点之间进行切割。可工程改 造一个或两个锌指结合域。
在采用锌指结合域-切割域融合多肽的靶向切割中,结合位点可包括切割位点, 或者结合位点的近边可距离切割位点1、2、3、4、5、6、10、25、50或更多个核苷 酸(或1-50个核苷酸之间的任何整数值)。结合位点相对于切割位点的准确位置将取 决于具体的切割域和ZC接头的长度。在采用各自含有锌指结合域和切割半域的两种 融合多肽的方法中,结合位点通常跨越(straddle)切割位点。因此,第一个结合位点的 近边可距切割位点一侧1、2、3、4、5、6、10、25或更多个核苷酸(或1-50个核苷 酸之间的任何整数值),第二个结合位点的近边可距切割位点另外一侧1、2、3、4、 5、6、10、25或更多个核苷酸(或1-50个核苷酸之间的任何整数值)。本领域技术人 员熟知绘制体外和体内切割位点的方法。
因此,本文所述方法可利用融合于切割域的工程改造的锌指结合域。在这些情 况下,结合域经工程改造能结合需要切割的靶序列或其附近。将融合蛋白或编码它 的多核苷酸引入细胞中。一旦引入细胞或在细胞中表达后,融合蛋白就能结合于靶 序列并在靶序列上或其附近切割。精确的切割位点取决于切割域的性质和/或结合域 和切割域之间存在的接头序列和/或性质。在采用各自包含切割半域的两种融合蛋白 情况下,结合位点近边的距离可以有1、2、3、4、5、6、7、8、9、10、25或更多 个核苷酸(或1-50个核苷酸之间的任何整数值)。最优的切割水平也可取决于两种融 合蛋白的结合位点之间的距离(参见例如,Smith等(2000)Nucleic Acids Res. 28:3361-3369;Bibikova等(2001)Mol.Cell.Biol.21:289-297)和各融合蛋白中ZC接头 的长度。
在ZFP-FokI融合核酸酶中,ZFP和FokI切割半域之间的接头(即ZC接头)长度 可能影响切割效率。在利用含有4个氨基酸残基的ZC接头的ZFP-FokI融合物的一 个实验系统中,两种ZFP-FokI核酸酶的结合位点的近边被6个碱基对分隔开时,获 得最优切割。这种具体的融合核酸酶的锌指部分和核酸酶半域之间包含以下氨基酸 序列:
HQRTHQNKKQLV(SEQ ID NO:26)
其中用下划线表示出锌指的C末端部分中两个保守组氨酸和FokI切割半域中前 三个残基。因此,此构建物中的ZC接头序列是QNKK。Bibikova等(2001)Mol.Cell. Biol.21:289-297。本发明者构建了具有各种长度和序列ZC接头的许多ZFP-FokI融 合核酸酶,分析这些核酸酶对ZFP结合位点之间距离不同的一系列底物的切割效率。 参见实施例4。
在某些实施方式中,切割域包含两个切割半域,它们都是含有结合域、第一个 切割半域和第二个切割半域的一条多肽的一部分。切割半域可具有相同氨基酸序列 或不同氨基酸序列,只要它们能切割DNA。
也可用不同分子提供切割半域。例如,可将两种融合多肽引入细胞中,各多肽 包含结合域和切割半域。切割半域可具有相同氨基酸序列或不同氨基酸序列,只要 它们能切割DNA。另外,该结合域结合于靶序列,通常安排的方式是当融合多肽结 合时,两个切割半域的相互空间取向能够重建切割域(如通过半域的二聚化),从而确 定半域的相对定位以形成功能性切割域,导致切割细胞染色质中的感兴趣区域。通 常,重组切割域在位于两个靶序列之间的位点上进行切割。可工程改造一种或两种 蛋白质使之能结合其靶位点。
两种融合蛋白可以相同或相对的极性结合感兴趣区域,它们的结合位点(即靶位 点)之间间隔任何数量的核苷酸,如0-200个核苷酸或其间任何整数值。在某些实施 方式中,由各结合位点最接近其它结合位点的边缘测定,各自包含锌指结合域和切 割半域的两种融合蛋白的结合位点之间可间隔5-18个核苷酸,例如,5-8个核苷酸, 或15-18个核苷酸,或6个核苷酸,或16个核苷酸,可在结合位点之间进行切割。
切割DNA的位点通常位于两种融合蛋白的结合位点之间。DNA双链的断裂常 因两条单链断裂,或偏离1、2、3、4、5、6或更多个核苷酸断裂产生的“缺口”所引 起(例如,天然Fok I切割双链DNA是通过偏离4个核苷酸的单链断裂产生的)。因 此,切割不一定发生在各DNA链的精确相对位点上。此外,融合蛋白的结构和靶位 点之间的距离可能影响切割是否发生在单个核苷酸对附近,或是否在几个位点上发 生切割。然而,在许多应用,包括靶向重组和靶向诱变(见下)中,在一定范围核苷酸 内切割通常足矣,不需要在特定碱基对之间进行切割。
如上所述,融合蛋白可作为多肽和/或多核苷酸引入。例如,可将各自含有编码 一种上述多肽的序列的两种多核苷酸引入细胞中,当表达的多肽各自结合其靶序列 时,在靶序列处或附近切割。或者,将包含编码两种融合多肽的序列的一种多核苷 酸引入细胞中。多核苷酸可以是DNA、RNA或者任何修饰形式的DNA和/或RNA 或类似物。
为了提高切割特异性,其它组合物也可用于本文所述方法。例如,一个切割半 域的双链切割活性有限。在将各自含有三指锌指域和切割半域的两种融合蛋白引入 细胞的方法中,每种蛋白质确定了大约9个核苷酸的靶位点。虽然18个核苷酸的集 合靶序列可能是哺乳动物基因组中独特的,但任何给定的9-核苷酸靶位点在人类基 因组中大约平均出现23,000次。因此,由一个半域产生的位点-特异性结合,可能发 生非特异性切割。因此,本文所述方法考虑了采用切割半域如Fok I的显性-负突变 体(或者编码它的核酸)在细胞中与两种融合蛋白一起表达。此显性-负突变体能够二 聚化,但不能切割,也能阻断与其二聚化半域的切割活性。通过向融合蛋白提供摩 尔过量的该显性负突变体,只有在两种融合蛋白结合的区域中功能性切割半域的局 部浓度足够高而发生二聚化和切割。在仅结合两种融合蛋白之一的位点上,其切割 半域与显性负突变体半域形成二聚体,而不会发生不良的非特异性切割。
已鉴定到Fok I切割半域中的三个催化性氨基酸残基:Asp 450、Asp 467和Lys 469。Bitinaite等(1998)Proc.Natl.Acad.Sci.USA 95:10,570-10,575。因此,可使这 些残基中的一个发生一种或多种突变而产生显性负突变体。另外,已知和/或可测定 其它IIS型核酸内切酶的许多催化性氨基酸残基,所述测定方法例如:与Fok I序列 比对和/或产生和检测突变体的催化活性。
切割半域中的二聚化结构域突变
靶向切割方法包括采用ZFP与切割半域的融合物(如ZFP/FokI融合物),该方法 需要采用两种这类融合分子,通常各针对不同的靶序列。如上所述,可选择这两种 融合蛋白的靶序列,以使靶向切割针对基因组中的独特位点。切割特异性降低的可 能原因是两种ZFP/切割半域融合物中的一种发生同源二聚化。例如,由于基因组中 存在两种ZFP/切割半域融合物中一种融合物的靶序列的反向重复序列,这种情况可 能发生,其定位使得同一融合蛋白的两个拷贝以能够形成功能性二聚体的取向和间 隔结合。
减少对除所需靶位点外的序列的这种类型异常切割概率的一种方法包括产生能 最大程度减少或防止同源二聚化的切割半域变体。优选改变半域区域中参与二聚化 的一个或多个氨基酸。在FokI蛋白二聚体的晶体结构中,据报道切割半域的结构类 似于用FokI切割DNA的过程中切割半域的排列。Wah等(1998)Proc.Natl.Acad.Sci. USA 95:10564-10569。此结构表明,位置483和487的氨基酸残基在FokI切割半域 二聚化过程中起到关键作用。该结构也表明,位置446、447、479、483、484、486、 487、490、491、496、498、499、500、531、534、537和538上的氨基酸残基都很 接近二聚化界面,足以影响二聚化。因此,上述位置中一个或多个位置上的氨基酸 序列改变可能改变该切割半域的二聚化性能。例如,可通过构建含有(或编码)这些位 置上的不同氨基酸残基的文库和选择具有所需性能的突变体,或通过合理设计各个 突变体而引入这些改变。除了防止同源二聚化外,一些突变还可能将切割效率提高 到高于用两种野生型切割半域获得的水平。
因此,改变FokI切割半域中影响二聚化的任何氨基酸残基可用于防止一对 ZFP/FokI融合物中的一种融合物发生二聚化,二聚化可能导致在不需要的序列上发 生切割。因此,就采用一对ZFP/FokI融合物进行靶向切割而言,一种或两种融合蛋 白可包含能抑制自身二聚化、但允许两种融合蛋白发生异源二聚化以便在所需靶位 点上进行切割的一个或多个氨基酸改变。在某些实施方式中,两种融合蛋白中都存 在改变,这些改变具有加成作用;即最大程度减少或消除导致异常切割的融合物的 同源二聚化,而与野生型切割半域相比,促进了两种融合蛋白的异源二聚化。参见 实施例5。
靶向改变基因组序列和靶向重组的方法
本文还描述了用同源但不相同的序列取代基因组序列(如细胞染色质中的感兴 趣区域)的方法(即靶向重组)。曾经尝试取代具体序列的方法包括使细胞接触含有与 染色体区域(即供体DNA)有同源性的序列的多核苷酸,然后选择供体DNA分子通过 同源重组整合到其基因组中的细胞。由于同源重组的效率低和供体DNA非特异性插 入靶位点以外的基因组区域的频率高,所以这些方法的成功率很低。
本发明提供了靶向改变序列的方法,其特征是靶向重组的效率较高和非特异性 插入的频率较低。该方法包括制备和使用融合于切割域(或切割半域)的工程改造的锌 指结合域,该切割域能在细胞DNA中产生一处或多处靶向双链断裂。因为细胞DNA 中的双链断裂会刺激细胞修复机制,使切割位点附近的细胞修复机制提高数千倍, 所以这类靶向切割能够在基因组中基本上任何位点中产生序列改变或取代(通过同源 性指导的修复)。
除本文所述的融合分子外,靶向取代所选基因组序列也要求引入取代(或供体) 序列。可在表达融合蛋白之前、同时或之后将供体序列引入细胞中。供体多核苷酸 与基因组序列有足够的同源性,以支持它与具有同源性的基因组序列之间发生同源 重组(或同源性指导的修复)。供体与基因组序列之间有约25、50、100、200、500、 750、1,000、1,500、2,000个核苷酸或更多个(10-2,000个核苷酸之间的任何整数,或 更多)同源时,将支持它们之间发生同源重组。供体序列的长度范围可以是10-5,000 个核苷酸(或它们之间的任何整数值的核苷酸)或更长。不难理解,供体序列一般与其 取代的基因组序列不同。例如,相对于基因组序列,供体多核苷酸序列可能含有一 个或多个单碱基改变、插入、缺失、倒位或重排,只要与染色体序列存在足够的同 源性。或者,供体序列可含有侧接于两个同源区的非同源序列。此外,供体序列可 包含含有与细胞染色质的感兴趣区域不同源的序列的载体分子。通常,供体序列的 同源区与需要进行重组的基因组序列的序列相同性至少为50%。在某些实施方式中, 序列相同性为60%、70%、80%、90%、95%、98%、99%或99.9%。序列相同性可以 是1%和100%之间的任何值,这取决于供体多核苷酸的长度。
供体分子可含有与细胞染色质同源的数个不连续区域。例如,为了靶向插入通 常在感兴趣区域中不存在的序列,所述序列可存在于供体核酸分子中,并侧接于与 感兴趣区域中的序列同源的区域。
为了简化用于测定成功插入供体序列的试验(如杂交、PCR、限制性酶消化),与 基因组序列相比供体序列中可存在某些序列差异。优选地,如果位于编码区,这种 核苷酸序列差异不会改变氨基酸序列,或者产生沉默性氨基酸改变(即,这种改变不 会影响蛋白质的结构或功能)。供体多核苷酸中对应于感兴趣区域中锌指域结合位点 的序列可任选地含有改变,以防止同源重组引入细胞染色质中的供体序列被切割。
供体多核苷酸可以是单链或双链DNA或RNA,可以线状或环状形式引入细胞 中。如果以线状形式引入,可通过本领域技术人员已知的方法保护供体序列的末端(如 避免核外溶解性降解)。例如,将一个或多个二脱氧核苷酸残基加入线状分子的3’端 和/或将自身互补性寡核苷酸连接于一端或两端。参见例如,Chang等(1987)Proc. Natl.Acad.Sci.USA 84:4959-4963;Nehls等(1996)Science 272:886-889。保护外源性 多核苷酸不被降解的其它方法包括但不限于:加入末端氨基和采用修饰的核苷酸间 连接,例如,硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。可将多核苷 酸作为载体分子的一部分引入细胞,载体分子还含有其它序列如复制起点、启动子 和抗生素抗性编码基因。而且,可作为裸露核酸、与某种物质如脂质体或泊洛沙姆 复合的核酸引入供体多核苷酸,或者可通过病毒(如腺病毒、AAV、疱疹病毒、逆转 录病毒、慢病毒)递送供体多核苷酸。
如果不希望受限于理论,看来细胞序列中存在双链断裂、和存在与该断裂相邻 区域或周围区域有同源性的外源性DNA分子,它们激活了通过将序列信息由供体分 子转移到细胞(如基因组或染色体)序列中,即通过同源性指导修复过程,也称为“基 因转变”的修复断裂的细胞机制。本申请人的方法的优点是,将工程改造ZFP的有效 靶向能力与切割域(或切割半域)结合,以使双链断裂特异性靶向基因组中需要插入外 源序列的区域。
为了改变染色体序列,不一定需要将整个供体序列拷贝到染色体中,只要拷贝 的供体序列能导致所需的序列改变。
同源重组插入供体序列的效率与细胞DNA中双链断裂和需要重组的位点之间 的距离逆相关。换言之,当双链断裂更接近需要重组的位点时,观察到较高的同源 重组效率。在没有预先确定准确的重组位点(如所需重组可发生在基因组序列的某间 隔中)时,应选择供体核酸的长度和序列以及切割位点,以获得所需的重组。在设计 所需重组以改变基因组序列中单个核苷酸对序列时,可在该核苷酸对两侧10,000个 核苷酸内切割细胞染色质。在某些实施方式中,在序列待改变的核苷酸对两侧1,000、 500、200、100、90、80、70、60、50、40、30、20、10、5或2个核苷酸,或2-1,000 个核苷酸之间的任何整数值内切割。
如上所述,由各结合位点最接近其它结合位点的边缘测定,各自含有锌指结合 域和切割半域的两种融合蛋白的结合位点可能相隔5-8或15-18个核苷酸,并在结合 位点之间切割。无论在结合位点之间的单个位点或多个位点切割都不重要,因为切 除的基因组序列已被供体序列取代。因此,为了通过靶向重组有效改变单个核苷酸 对的序列,结合位点之间区域的中点在该核苷酸对(两侧)的10,000个核苷酸内,优 选在1,000个核苷酸、或500个核苷酸、或200个核苷酸、或100个核苷酸、或50 个核苷酸、或20个核苷酸、或10个核苷酸、或5个核苷酸、或2个核苷酸、或1 个核苷酸内、或在感兴趣核苷酸对外。
在某些实施方式中,同源性染色体可用作供体多核苷酸。因此,例如,可通过 工程改造融合蛋白使之能结合和切割一条染色体上的突变序列、但不切割同源染色 体上的野生型序列,而校正杂合子中的突变。携带突变的染色体上的双链断裂刺激 基于同源性的“基因转变”过程,此过程中同源染色体的野生型序列拷贝到切割的染色 体中,从而恢复两个拷贝的野生型序列。
还提供了可提高靶向重组水平的方法和组合物,包括但不限于:采用其它ZFP- 功能域融合物来激活参与同源重组基因的表达,这些基因例如,RAD52异位显性组 的成员(如Rad50、Rad51、Rad51B、Rad51C、Rad51D、Rad52、Rad54、Rad54B、 Mre11、XRCC2、XRCC3)、产物能与上述基因产物相互作用的基因(如BRCA1、 BRCA2)和/或NBS1复合物中的基因。相似的,可采用ZFP功能域融合物,结合本 文所述的方法和组合物来抑制参与非同源末端连接的基因(如Ku70/80、XRCC4、聚 (ADP核糖)聚合酶,DNA连接酶4)的表达。参见例如,Yanez等(1998)Gene Therapy 5:149-159;Hoeijmakers(2001)Nature 411:366-374;Johnson等(2001)Biochem.Soc. Trans.29:196-201;Tauchi等(2002)Oncogene 21:8967-8980。利用锌指结合域与功能 域之间的融合物激活和抑制基因表达的方法参见例如,共有美国专利6,534,261; 6,824,978和6,933,113。其它抑制方法包括采用靶向待抑制基因序列的反义寡核苷酸 和/或小干扰RNA(siRNA或RNAi)。
或者,或此外,可利用激活参与同源重组的基因产物表达、这些蛋白质(或其功 能片段)与靶向感兴趣区域的锌指结合域的融合物,将这些蛋白(重组蛋白)征集到感 兴趣区域提高其局部浓度,进一步刺激同源重组过程。或者,上述参与同源重组的 多肽(或其功能片段)可以是含有锌指结合域、切割域(或切割半域)和重组蛋白(或其功 能片段)的三体融合蛋白的一部分。可用于上述方法和组合物的参与基因转变和重组 相关染色质重塑的其它蛋白质,包括组蛋白乙酰基转移酶(如Esa1p、Tip60)、组蛋白 甲基转移酶(如Dot1p)、组蛋白激酶和组蛋白磷酸酶。
已报道,p53蛋白在抑制同源重组(HR)中起到核心作用。参见例如,Valerie等 (2003)Oncogene 22:5792-5812;Janz等(2002)Oncogene 21:5929-5933。例如,p53缺 陷型人肿瘤细胞系中HR的发生率比原代人纤维细胞高10,000倍,与功能性p53 相比,含有无功能p53的肿瘤细胞中HR的发生率提高100倍。Mekeel等(1997) Oncogene 14:1847-1857。此外,p53显性负突变体的过度表达导致自发性重组增加 20倍。Bertrand等(1997)Oncogene 14:1117-1122。对不同p53突变的分析显示,p53 在转录转移活化和G1细胞周期检查点控制中的作用可与其参与HR分开。Saintigny 等(1999)Oncogene 18:3553-3563;Boehden等(2003)Oncogene 22:4111-4117。因此, 下调p53活性可用于提高采用本文所述的方法和组合物进行靶向同源重组的效率。 可采用任何方法下调p53活性,包括但不限于按照(如)共有美国专利号6,534,261所 述的方法共转染和过度表达p53显性负突变体或靶向抑制p53基因表达。
当同源性驱动的修复过程活性最大时,可通过将细胞阻滞在细胞周期的G2期, 进一步提高含有锌指/核酸酶融合分子和供体DNA分子细胞中靶向重组的效率。可 通过多种方式实现这种阻滞。例如,可采用(如)影响细胞周期进展的药物、化合物和 /或小分子处理细胞,使细胞阻滞在G2期。这种类型的示范性分子包括但不限于:影 响微管聚合的化合物(如长春碱、诺考达唑、泰素)、与DNA相互作用的化合物(如顺 铂(II)二胺二氯化物、顺铂、多柔比星)和/或影响DNA合成的化合物(如胸苷、羟基 脲、L-含羞草碱、依托泊甙、5-氟尿嘧啶)。通过采用改变染色质结构、从而使得细 胞重组机器更易达到基因组DNA的组蛋白脱乙酰酶(HDAC)抑制剂(如丁酸钠、曲古 抑菌素A),来进一步提高重组效率。
其它细胞周期阻滞方法包括(例如),将编码抑制CDK细胞周期激酶活性的蛋白 的cDNA引入细胞或将能够激活该蛋白编码基因表达的工程改造ZFP引入细胞,从 而过度表达该蛋白。还可(例如)采用RNAi法(如美国专利号6,506,559)或将能抑制参 与细胞周期进展的一种或多种基因(如细胞周期蛋白和/或CDK基因)的表达的工程改 造ZFP引入细胞,来抑制细胞周期蛋白和CDK的活性,从而实现细胞周期阻滞。参 见例如,共有美国专利号6,534,261中用于调节基因表达的工程改造锌指蛋白的合成 方法。
或者,在某些情况下,在不存在供体多核苷酸的情况下(优选在S或G2期)进行 靶向切割和在同源染色体之间进行重组。
筛选促进同源重组的细胞因子的方法
由于同源重组是需要修饰DNA末端和使几种细胞因子征集到蛋白质复合物中 的多步骤过程,所以可加入一种或多种外源性因子,以及供体DNA和编码锌指-切 割域融合物的载体来促进靶向同源重组。鉴定这种因子的示范性方法采用微阵列(如 阿非麦克斯基因芯片阵列)分析基因表达,以比较不同细胞的 mRNA表达模式。例如,可分析在供体DNA和锌指-切割域融合物存在下刺激双链 断裂-驱动同源重组的能力较高的细胞(没有辅助或在已知能提高基因校正水平的条 件下)的基因表达模式,与缺少这种能力的细胞作比较。从而鉴定以与同源重组水平 提高直接相关的方式上调或下调的基因,可将其克隆到任何一种表达载体中。这些 表达构建物可与锌指-切割域融合物和供体构建物一起共同转染,以产生实现高效同 源重组的改进方法。或者,可采用调节(激活或抑制)一种或多种这类基因的表达的工 程改造锌指蛋白适当调节这类基因的表达。参见例如,共有美国专利号6,534,261中 用于调节基因表达的工程改造锌指蛋白的合成方法。
例如,观察到用供体DNA和编码锌指-切割域融合物的质粒转染时,实施例9 和图27所示的实验中获得的不同克隆具有范围广泛的同源重组频率。因此,可将靶 向重组频率高的克隆基因表达与频率低的克隆作比较,而鉴定前一克隆的独特表达 模式。
例如,采用细胞周期抑制剂(如诺考达唑或长春碱,参见例如,实施例11、14 和15)的研究证明,阻滞在细胞周期G2期的细胞发生同源重组的频率较高,这表明 负责同源重组的细胞因子可能在G2期优先表达或有活性。鉴定这些因子的一种方式 是比较稳定转染的HEK293细胞克隆(如克隆T18与克隆T7)之间以高和低水平校正 基因的mRNA表达模式。在对使细胞阻滞在G2期的化合物的反应中,在这些细胞 系之间进行相似比较。鉴定、克隆以较高速率进行同源重组(没有辅助或响应于使细 胞阻滞在G2期的化合物)的细胞中差异表达的候选基因,并将其再次引入细胞,以 确定它们的表达是否足以重现提高的频率。或者,采用工程改造的锌指转录因子激 活所述候选基因的表达,如共有的美国专利号6,534,261所述。
表达载体
可将编码一种或多种ZFP或ZFP融合蛋白的核酸克隆入载体,以转化入原核或 真核细胞进行复制和/或表达。载体可以是原核载体如质粒,或穿梭载体、昆虫载体 或真核载体。也可将编码ZFP的核酸克隆入表达载体中,以给予植物细胞、动物细 胞、真菌细胞、细菌细胞或原生动物细胞,动物细胞优选哺乳动物细胞或人细胞。
为了表达克隆的基因或核酸,一般将编码ZFP或ZFP融合蛋白的序列亚克隆入 含有启动子的表达载体中以指导转录。本领域熟知合适的细菌和真核启动子,参见 例如Sambrook等,Molecular Cloning,A Laboratory Manual(分子克隆,实验室手册)(第 2版,1989;第三版,2001);Kriegler,Gene Transfer and Expression:A Laboratory Manual(基因转移和表达:实验室手册)(1990);《新编分子生物学实验指南》(Ausubel 等,同上)。用于表达ZFP的细菌表达系统可获自(如)大肠杆菌(E.coli)、芽孢杆菌 (Bacillus sp.)和沙菌(Salmonella)(Palva等,Gene 22:229-235(1983))。可购得这些表 达系统的试剂盒。本领域技术人员熟知用于哺乳动物细胞、酵母和昆虫细胞的真核 表达系统,它们也可购得。
用于指导编码ZFP的核酸表达的启动子取决于具体应用。例如,一般将强效组 成型启动子用于表达和纯化ZFP。相反,当体内给予ZFP用于基因调节时,采用组 成型或诱导型启动子,这取决于ZFP的具体用途。此外,用于给予ZFP的优选启动 子可以是弱启动子,如HSV TK或具有相似活性的启动子。一般地,该启动子也可 包括对转移活化起反应的元件,如缺氧反应元件、Gal4反应元件、lac阻抑物反应元 件和小分子控制系统如tet-调节系统和RU-486系统(参见例如Gossen和Bujard,PNAS 89:5547(1992);Oligino等,Gene Ther.5:491-496(1998);Wang等,Gene Ther. 4:432-441(1997);Neering等,Blood 88:1147-1155(1996);和Rendahl等,Nat.Biotechnol. 16:757-761(1998))。还可采用MNDU3启动子,它偏爱在CD34+造血干细胞中有活 性。
除启动子外,表达载体包含的转录单元或表达盒一般含有在原核或真核宿主细 胞中表达核酸所需的所有其它元件。因此,表达盒一般含有操作性连接于(例如)编码 ZFP的核酸序列的启动子和(例如)转录物的有效聚腺苷酸化、转录终止、核糖体结合 位点或翻译终止所需的信号。该盒的其它元件可包括例如,增强子和异源剪接信号。
根据ZFP的所需用途,如在植物、动物、细菌、真菌、原生动物等中表达(参见 下述表达载体)选择用于将遗传信息转运到细胞内的具体表达载体。标准的细菌表达 载体包括质粒如基于pBR322、pSKF、pET23D的质粒,以及市售融合表达系统如 GST和LacZ。一种示范性融合蛋白是麦芽糖结合蛋白“MBP。”这种融合蛋白用于 纯化ZFP。也可将表位标签如c-myc或FLAG加入重组蛋白,以提供分离、监测表 达以及监测细胞和亚细胞定位的方便方法。
含有真核病毒的调控元件的表达载体常常用于真核表达载体,如SV40载体、 乳头瘤病毒载体和衍生自EB病毒的载体。其它示范性真核载体包括pMSG、 pAV009/A+、pMTO10/A+、pMAMneo-5、杆状病毒pDSVE和能在以下启动子的指 导下表达蛋白的任何其它载体:SV40早期启动子、SV40晚期启动子、金属硫蛋白 启动子、鼠乳房肿瘤病毒启动子、劳氏肉瘤病毒启动子、多角体蛋白启动子或经证 明能有效在真核细胞中表达的启动子。
一些表达系统含有用于选择稳定转染细胞系的标记,如胸苷激酶、潮霉素B磷 酸转移酶和二氢叶酸还原酶。高产表达系统也是合适的,如在昆虫细胞中采用杆状 病毒载体,其中ZFP编码序列在多角体蛋白启动子或其它强效杆状病毒启动子的指 导下。
表达载体一般包括的元件也包括在大肠杆菌中起作用的复制子、用于选择携带 重组质粒的细菌的编码抗生素抗性的基因和用于插入重组序列的质粒非必需区中的 独特限制性位点。
用标准转染方法产生表达大量蛋白的细菌、哺乳动物、酵母或昆虫细胞系,然 后用标准技术纯化这些蛋白(参见例如Colley等,J.Biol.Chem.264:17619-17622 (1989);Guide to Protein Purificaion(蛋白质纯化指南),Methods in Enzymology(酶学 方法),第182卷(Deutscher编,1990))。真核和原核细胞的转化按照标准技术进行 (参见例如Morrison,J.Bact.132:349-351(1977);Clark-Curtiss和Curtiss,Methods in Enzymology(酶学方法)101:347-362(Wu等编,1983)。
可采用将外来核苷酸序列引入宿主细胞的任何熟知方法。它们包括采用磷酸钙 转染、聚凝胺(polybrene)、原生质体融合、电穿孔、超声方法(如声穿孔)、脂质体、 显微注射、裸DNA、质粒载体、病毒载体、附加体和整合体(integrative),以及将克 隆的基因组DNA、cDNA、合成DNA或其它外来遗传物质引入宿主细胞的任何其它 熟知方法(参见例如Sambrook等,同上)。仅需要所用具体遗传工程方法能够将至少 一种基因成功引入能够表达所选蛋白的宿主细胞中。
编码融合蛋白的核酸和细胞递送
可采用基于病毒和非病毒的常规基因转移方法将编码工程改造的ZFP的核酸引 入细胞(如哺乳动物细胞)和靶组织中。也可采用这种方法在体外将编码ZFP的核酸给 予细胞。在某些实施方式中,给予编码ZFP的核酸进行体内或离体基因治疗应用。 非病毒载体递送系统包括DNA质粒、裸核酸和与递送载体如脂质体或泊洛沙姆复合 的核酸。病毒载体递送系统包括DNA和RNA病毒,递送给细胞后它们成为附加体 或整合入基因组。基因治疗方法的综述参见Anderson,Science 256:808-813(1992); Nabel和Felgner,TIBTECH 11:211-217(1993);Mitani和Caskey,TIBTECH 11:162-166 (1993);Dillon,TIBTECH 11:167-175(1993);Miller,Nature 357:455-460(1992);Van Brunt,Biotechnology 6(10):1149-1154(1988);Vigne,Restorative Neurology and Neuroscience 8:35-36(1995);Kremer和Perricaudet,British Medical Bulletin 51(1):31-44 (1995);Haddada等,Current Topics in Microbiology and Immunology(微生物和免疫学 前沿)Doerfler和(编)(1995);和Yu等,Gene Therapy 1:13-26(1994)。
编码工程改造ZFP的核酸的非病毒递送方法包括电穿孔、脂转染、显微注射、 生物射弹、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸偶联物、裸DNA、 人工病毒颗粒和试剂增强的DNA摄取。也可采用(例如)瑞星公司(Rich-Mar)的索尼龙 2000系统(Sonitron 2000system)进行声穿孔,以递送核酸。
其它示范性核酸递送系统包括德国科隆(Cologne,Germany)的玛科萨生物系 统公司(Amaxa Biosystems)、马里兰州罗克维尔(Rockville,Maryland)的马克萨特公司 (Maxcyte,Inc.)和马萨诸塞州浩立司顿(Holliston,MA)的BTX分子递送系统公司(BTX Molecular Delivery Systems)提供的系统。
脂转染的描述参见例如US 5,049,386、US 4,946,787和US 4,897,355,脂转染试 剂是市售的(如川司菲坦(Transfectam)TM和利普菲汀(Lipofectin)TM)。适用于多核苷酸的 有效受体识别脂转染的阳离子和中性脂质包括Felgner,WO 91/17424,WO 91/16024。 可以递送给细胞(离体给予)或靶组织(体内给予)。
脂质:核酸复合物,包括靶向脂质体如免疫脂质复合物的制备是本领域技术人员 熟知的(参见例如Crystal,Science 270:404-410(1995);Blaese等,Cancer Gene Ther. 2:291-297(1995);Behr等,Bioconjugate Chem.5:382-389(1994);Remy等,Bioconjugate Chem.5:647-654(1994);Gao等,Gene Therapy 2:710-722(1995);Ahmad等,Cancer Res.52:4817-4820(1992);美国专利号4,186,183、4,217,344、4,235,871、4,261,975、 4,485,054、4,501,728、4,774,085、4,837,028和4,946,787)。
用于递送编码工程改造ZFP的核酸的基于RNA或DNA病毒的系统利用了能将 病毒靶向体内特定细胞和能将病毒负载运输至细胞核的高度进化过程。病毒载体可 直接给予患者(体内),或用它们体外处理细胞,然后将修饰的细胞给予患者(离体)。 递送ZFP的基于病毒的常规系统包括但不限于:用于基因转移的逆转录病毒、慢病 毒、腺病毒、腺伴随病毒、痘和单纯疱疹病毒载体。用逆转录病毒、慢病毒和腺 伴随病毒基因转移方法整合入宿主基因组,常常导致插入的转基因长期表达。此外, 在许多不同细胞类型和靶组织中观察到高转导效率。
可通过掺入外来的包膜蛋白、扩展靶细胞的潜在靶群体改变逆转录病毒的嗜性 (tropism)。慢病毒载体是能够转导或感染非分裂细胞的逆转录病毒载体,一般产生高 病毒效价。逆转录病毒基因转移系统的选择取决于靶组织。逆转录病毒载体由顺式 作用长末端重复序列组成,包装容量高达6-10kb的外来序列。最小的顺式作用LTR 足以复制和包装载体,然后用载体将治疗基因整合入靶细胞,以提供永久的转基因 表达。广泛采用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病 毒(GaLV)、猿免疫缺陷病毒(SIV)、人体免疫缺陷病毒(HIV)及其组合的载体(参见例 如Buchscher等,J.Virol.66:2731-2739(1992);Johann等,J.Virol.66:1635-1640(1992); Sommerfelt等,Virol.176:58-59(1990);Wilson等,J.Virol.63:2374-2378(1989);Miller 等,J.Virol.65:2220-2224(1991);PCT/US94/05700)。
在优选瞬时表达ZFP融合蛋白的应用中,可采用基于腺病毒的系统。基于腺病 毒的载体能够在许多细胞类型中非常高效地转导,并且不需要细胞分裂。用这种载 体获得了高效价和高水平表达。可在相对简单的系统中大量产生这种载体。腺伴随 病毒(“AAV”)载体也用于以靶核酸转导细胞,如在体外产生核酸和肽,以及用于体 内和离体基因治疗方法(参见例如West等,Virology 160:38-47(1987);美国专利号 4,797,368;WO 93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka, J.Clin.Invest.94:1351(1994)。许多文献,包括美国专利号5,173,414;Tratschin等, Mol.Cell.Biol.5:3251-3260(1985);Tratschin等,Mol.Cell.Biol.4:2072-2081(1984); Hermonat和Muzyczka,PNAS 81:6466-6470(1984);和Samulski等,J.Virol. 63:03822-3828(1989)中描述了重组AAV载体的构建。
在临床试验中,目前至少有六种病毒载体方法可用于基因转移,它们利用的方 法包括用插入辅助细胞系的基因补充载体缺陷,以产生转导物质。
pLASN和MFG-S是用于临床试验的逆转录病毒载体的例子(Dunbar等,Blood 85:3048-305(1995);Kohn等,Nat.Med.1:1017-102(1995);Malech等,PNAS 94:22 12133-12138(1997))。PA317/pLASN是用于基因治疗试验的第一治疗载体。(Blaese 等,Science 270:475-480(1995))。在MFG-S包装载体中观察到的转导效率为50%或 更高。(Ellem等,Immunol Immunother.44(1):10-20(1997);Dranoff等,Hum.Gene Ther.1:111-2(1997)。
重组腺伴随病毒载体(rAAV)是有希望的另一种基因递送系统,它基于缺陷型和 非致病性细小病毒2型腺伴随病毒病毒。所有载体都衍生自仅保留侧接于转基因表 达盒的AAV 145bp末端反向重复序列的质粒。由于整合入转导细胞的基因组中,有 效的基因转移和稳定的转基因递送是这种载体系统的关键特征。(Wagner等,Lancet 351:91171702-3(1998),Kearns等,Gene Ther.9:748-55(1996))。
可产生高效价的复制缺陷型重组腺病毒载体(Ad),它们容易感染许多不同细胞 类型。工程改造大多数腺病毒载体,以使转基因替代其Ad Ela、E1b和/或E3基因; 随后在反式提供缺失的基因功能的人293细胞中增殖复制该缺陷型载体。Ad载体可 体内转导多种组织类型,包括非分裂的分化细胞,如肝、肾和肌肉中的细胞。常规 Ad载体具有大携带容量。临床试验所用Ad载体的一个例子包括肌肉内注射抗肿瘤 免疫的多核苷酸治疗(Sterman等,Hum.Gene Ther.7:1083-9(1998))。腺病毒载体用于 临床试验的基因转移的其它例子包括Rosenecker等,Infection 24:15-10(1996); Sterman等,Hum.Gene Ther.9:71083-1089(1998);Welsh等,Hum.Gene Ther.2:205-18 (1995);Alvarez等,Hum.Gene Ther.5:597-613(1997);Topf等,Gene Ther.5:507-513 (1998);Sterman等,Hum.Gene Ther.7:1083-1089(1998)。
用包装细胞形成能够感染宿主细胞的病毒颗粒。这种细胞包括293细胞、ψ2细 胞或PA317细胞,293细胞能包装腺病毒,ψ2细胞或PA317细胞能包装逆转录病毒。 通常用将核酸载体包装到病毒颗粒中的生产细胞系产生用于基因治疗的病毒载体。 载体一般包含包装和随后整合入宿主(如果可行)所需的最小病毒序列,其它病毒序列 被编码待表达蛋白的表达盒替代。包装细胞系反式提供丢失的病毒功能。例如,用 于基因治疗的AAV载体一般仅具有包装和整合入宿主基因组所必需的AAV基因组 的末端反向重复(ITR)序列。将病毒DNA包装到含有辅助质粒的细胞系中,该辅助 质粒编码其它AAV基因,即rep和cap,但没有ITR序列。也用腺病毒作为辅助病 毒感染该细胞系。辅助病毒促进AAV载体的复制和辅助质粒中AAV基因的表达。 由于缺少ITR序列,不能包装大量的辅助质粒。可通过(例如)热处理降低腺病毒污染, 腺病毒对热处理的敏感性高于AAV。
在许多基因治疗应用中,需要以高度特异性将基因治疗载体递送至特定组织类 型。因此,可修饰病毒载体,使其通过表达配体而对给定细胞具有特异性,该配体 能与病毒外表面的病毒外壳蛋白形成融合蛋白。选择配体应对已知存在于感兴趣细 胞类型上的受体具有亲和力。例如Han等,Proc.Natl.Acad.Sci.USA 92:9747-9751(1995)的报道,可修饰莫洛尼鼠白血病病毒使之表达融合于gp70的人异 调蛋白,该重组病毒能感染表达人表皮生长因子受体的某些人乳腺癌细胞。这个原 则可延伸至其它病毒-靶细胞对,这种对中靶细胞表达一种受体,而病毒表达包含该 细胞表面受体的配体的融合蛋白。例如,可工程改造丝状噬菌体,使之呈现对基本 上任何所选细胞受体都具有特异性结合亲和力的抗体片段(如FAB或Fv)。虽然上述 描述主要用于病毒载体,但同样的原理也可用于非病毒载体。可工程改造这些载体, 使其含有有利于特定靶细胞摄取的特异性摄取序列。
可通过给予患者个体,一般是通过全身给药(如静脉内、腹膜内、肌肉内、皮下 或颅内输注)或局部应用体内递送基因治疗载体,如下所述。或者,可将载体离体递 送至细胞中,例如,从患者个体体内取出细胞(如淋巴细胞、抽吸的骨髓、活组织检 查样品)或通用供体造血干细胞,然后,通常在选择掺入该载体的细胞后将该细胞再 植入患者体内。
本领域技术人员熟知用于诊断、研究或基因治疗的离体细胞转染方法(如将转染 细胞再输注到宿主生物体中)。在一个优选实施方式中,细胞分离自对象生物体,用 ZFP核酸(基因或cDNA)转染,再输注回对象生物体(如患者)内。本领域技术人员熟 知适用于离体转染的各种细胞类型(参见例如Freshney等,Culture of Animal Cells,A Manual of Basic Technique(动物细胞培养,基本技术手册)(第3版,1994)),其中引用 的参考文献中关于如何分离和培养患者细胞的论述)。
在一个实施方式中,在细胞转染和基因治疗的离体方法中采用干细胞。采用干 细胞的优点是它们可在体外分化为其它细胞类型,或者可将其引入哺乳动物(如细胞 供体)中,随后迁移到骨髓中。用细胞因子如GM-CSF、IFN-γ和TNF-α使CD34+细 胞体外分化为临床上重要的免疫细胞类型的方法是已知的(参见Inaba等,J.Exp.Med. 176:1693-1702(1992))。
用已知方法分离用于转导和分化的干细胞。例如,用结合不想要细胞,如CD4+ 和CD8+(T细胞)、CD45+(泛B细胞(panB cell))、GR-1(粒细胞)和Iad(分化的抗原递 呈细胞)的抗体淘选骨髓细胞,从而分离骨髓细胞中的干细胞(参见Inaba等,J.Exp. Med.176:1693-1702(1992))。
也可将含有治疗性ZFP核酸的载体(如逆转录病毒、腺病毒、脂质体等)直接给 予生物体进行体内细胞转导。或者,可给予裸DNA。通过通常用于使分子最终与血 液或组织细胞接触的途径进行给药,这些途径包括但不限于:注射、输注、局部应 用和电穿孔。已有适合给予这种核酸的方法,它们是本领域技术人员熟知的,虽然 可采用一种以上途径给予具体组合物,但某具体途径常常可提供比其它途径更直接 和更有效的反应。
将DNA引入造血干细胞的方法参见例如美国专利5,928,638。用于将转基因引 入造血干细胞,如CD34+细胞的载体包括35型腺病毒。
适用于将转基因引入免疫细胞(如T细胞)的载体包括非整合型慢病毒载体。参 见例如Ory等(1996)Proc.Natl.Acad.Sci.USA 93:11382-11388;Dull等(1998)J.Virol. 72:8463-8471;Zuffery等(1998)J.Virol.72:9873-9880;Follenzi等(2000)Nature Genetics 25:217-222。
药学上可接受的运载体部分取决于给予的具体组合物,以及用于给予该组合物 的具体方法。因此,可采用各种合适的药物组合物剂型,如下所述(参见例如 Remington’s Pharmaceutical Sciences(雷明顿药物科学),第17版,1989)。
可通过各种常规技术将DNA构建物引入所需植物宿主的基因组中。这些技术的 综述参见例如Weissbach和Weissbach,Methods for Plant Molecular Biology(植物分子 生物学方法)(1988,学术出版社,纽约)第VIII章,第421-463页;和Grierson和 Corey,Plant Molecular Biology(植物分子生物学)(1988,第2版),Blackie,伦敦, 第7-9章。例如,可采用诸如植物细胞原生质体的电穿孔和显微注射等技术将DNA 构建物直接引入植物细胞的基因组DNA中,或者可用生物射弹法,如DNA粒子轰 击将DNA构建物直接引入植物组织(参见例如Klein等(1987)Nature 327:70-73)。或 者,DNA构建物可与合适的T-DNA侧接区组合后引入常规的根癌土壤杆菌 (Agrobacterium tumefaciens)宿主载体中。科学文献中详细描述了根癌土壤杆菌-介导 的转化技术,包括去武装(disarming)和采用双载体。参见例如Horsch等(1984)Science 233:496-498和Fraley等(1983)Proc.Nat’l.Acad.Sci.USA 80:4803。采用双T DNA载 体(Bevan(1984)Nuc.Acid Res.12:8711-8721)或共培育法(Horsch等(1985)Science 227:1229-1231)用细菌感染细胞时,根癌土壤杆菌宿主的毒力功能将指导将构建物和 毗邻标记物插入植物细胞DNA中。通常,用土壤杆菌(Agrobacterium)转化系统工程 改造双子叶植物(Bevan等(1982)Ann.Rev.Genet 16:357-384;Rogers等(1986)Methods Enzymol.118:627-641)。也可用土壤杆菌转化系统将DNA转化和转移到单子叶植物 和植物细胞中。参见Hernalsteen等(1984)EMBO J 3:3039-3041;Hooykass-Van Slogteren等(1984)Nature 311:763-764;Grimsley等(1987)Nature 325:1677-179; Boulton等(1989)Plant Mol.Biol.12:31-40;和Gould等(1991)Plant Physiol. 95:426-434。
其它基因转移和转化法包括但不限于:通过钙-、聚乙二醇(PEG)-或电穿孔-介导 的裸DNA摄取进行原生质体转化(参见Paszkowski等(1984)EMBO J 3:2717-2722, Potrykus等(1985)Molec.Gen.Genet.199:169-177;Fromm等(1985)Proc.Nat.Acad.Sci. USA 82:5824-5828;和Shimamoto(1989)Nature 338:274-276)和植物组织的电穿孔 (D′Halluin等(1992)Plant Cell 4:1495-1505)。植物细胞转化的其它方法包括显微注射、 介导的DNA摄取(Kaeppler等(1990)Plant Cell Reporter 9:415-418)和微粒轰击 (参见Klein等(1988)Proc.Nat.Acad.Sci.USA 85:4305-4309;和Gordon-Kamm等(1990) Plant Cell 2:603-618)。
可采用本文公开的方法和组合物将外源性序列插入植物细胞基因组的预定位置 中。由于引入植物基因组的转基因表达主要取决于其整合位点,所以这点很有用。 因此,可通过靶向重组将编码(例如)营养物、抗生素或治疗性分子的基因插入利于表 达的植物基因组区域中。
可培养用上述转化技术产生的转化的植物细胞,使之再生成具有转化基因型和 所需表型的整株植物。这种再生技术依赖于对组织生长培养基中某些植物激素的操 纵,一般依赖于与所需核苷酸序列一起引入的抗微生物剂和/或除草剂标记。Evans, 等,“Protoplasts Isolation and Culture”(原生质体分离和培养),Handbook of Plant Cell Culture(植物细胞培养手册),第124-176页,Macmillian Publishing Company(麦克米 兰出版公司),纽约,1983;和Binding,Regeneration of Plants,Plant Protoplasts(植 物、植物原生质体再生),第21-73页,CRC出版社,伯克莱屯,1985描述了从培养 的原生质体再生植物。再生也可获自植物愈伤组织、外植体、器官、花粉、胚胎或 其部分。通常,在Klee等(1987)Ann.Rev.of Plant Phys.38:467-486中描述了这种再 生技术。
可利用引入植物细胞的核酸来赋予基本上任何植物所需的性状。可用本发明核 酸构建物和上述各种转化方法工程改造各种植物和植物细胞系统,使其具有本文所 述的所需生理和农业经济特征。在一个优选实施方式中,用于工程改造的靶植物和 植物细胞包括但不限于:单子叶和双子叶植物,如农作物,包括谷类作物(如小麦、 玉米、大米、小米、大麦)、果实作物(如番茄、苹果、梨、草莓、橙)、饲料作物(如 苜蓿)、根菜作物(如胡萝卜、马铃薯、甜菜、薯蓣)、叶菜作物(如莴苣、菠菜);开花 植物(如矮牵牛花、玫瑰、菊花)、针叶树和松树(如松树、冷杉、杉);植物除污所 用植物(如重金属累积植物);油料作物(如向日葵、油菜籽)和实验用植物(如拟南芥 (Arabidopsis))。因此,所述方法和组合物可广泛用于各种植物,包括但不限于天门冬 属(Asparagus)、燕麦属(Avena)、芸苔属(Brassica)、柑橘属(Citrus)、西瓜属(Citrullus)、 辣椒属(Capsicum)、南瓜属(Cucurbita)、胡罗卜属(Daucus)、大豆属(Glycine)、大麦属 (Hordeum)、莴苣属(Lactuca)、番茄属(Lycopersicon)、苹果属(Malus)、木薯属(Manihot)、 烟草属(Nicotiana)、稻属(Oryza)、鳄梨属(Persea)、豌豆属(Pisum)、梨属(Pyrus)、李 属(Prunus)、萝卜属(Raphanus)、黑麦属(Secale)、茄属(Solanum)、高粱属(Sorghum)、 小麦属(Triticum)、葡萄属(Vitis)、豇豆属(Vigna)和玉蜀黍属(Zea)的种。
本领域技术人员将知道,在表达盒稳定掺入转基因植物并确认可操作后,可通 过有性杂交(sexual crossing)将其引入其它植物。可采用许多标准的育种技术中的任何 一种,这取决于准备杂交的植物种类。
可通过选择或筛选工程改造植物物质中转化DNA上存在的标记基因编码的性 状来鉴定和分离转化的植物细胞、愈伤组织、组织或植物。例如,可在含有抑制量 的抗生素或除草剂的培养基上培养工程改造的植物质进行选择,转化的基因构建物 可赋予抗性。而且,也可通过筛选重组核酸构建物上存在的可见标记物基因(如β-葡 糖酸糖苷酶、荧光素酶、B或C1基因)的活性鉴定转化的植物和植物细胞。本领 域技术人员熟知这种选择和筛选方法。
也可采用生理和生化方法鉴定含有插入基因构建物的植物或植物细胞转化物。 这些方法包括但不限于:1)检测或测定重组DNA插入物结构的Southern分析或PCR 扩增;2)检测和检查基因构建物的RNA转录物的Northern印迹、S1 RNA酶保护、 引物延伸或逆转录酶-PCR扩增;3)检测酶或核酶活性的酶试验,其中所述基因产物 由所述基因构建物编码;4)蛋白质凝胶电泳、Western印迹技术、免疫沉淀或酶联免 疫试验,其中基因构建物产物是蛋白质。也可采用其它技术,如原位杂交、酶染色 和免疫染色来检测特定植物器官和组织中重组构建物的存在或表达。本领域技术人 员熟知进行所有这些试验的方法。
可通过(例如)分离自感兴趣组织的RNA(如mRNA)的Northern印迹观察采用本 文所述方法进行基因操作的效果。一般地,如果mRNA含量增加,可推定相应的内 源基因表达速率比以前高。可采用测定基因和/或CYP74B活性的其它方法。可采用 不同类型的酶试验,这取决于所用底物和检测反应产物或副产物的增加或减少的方 法。此外,可通过免疫化学方法,即ELISA、RIA、EIA和本领域技术人员熟知的其 它基于抗体的试验,如电泳检测试验(与染色或Western印迹一起)测定表达CYP74B 蛋白的水平。转基因可以在一些植物组织中或某发育阶段选择性表达,或者,转基 因可以在基本上所有植物组织中、基本上整个生命周期中表达。然而,也可采用任 何组合表达方式。
本发明也包括上述转基因植物的种子,所述种子含有所述转基因或基因构建物。 本发明还包括上述转基因植物的后代、克隆、细胞系或细胞,其中所述后代、克隆、 细胞系或细胞具有所述转基因或基因构建物。
递送载体
给予多肽化合物,如ZFP融合蛋白的重要因素是保证该多肽能够穿过细胞质膜, 或细胞内区室如细胞核的膜。细胞膜由脂蛋白双层组成,它允许小分子非离子亲脂 性化合物自由通透,本质上不允许极性化合物、大分子和治疗或诊断物质通透。然 而,已报道了一些蛋白和其它化合物如脂质体能够跨细胞膜转运多肽如ZFP。
例如“膜转运多肽”含有能通过细胞膜转运的运载体的两性或疏水性氨基酸亚序 列。在一个实施方式中,同源域蛋白能够跨细胞膜转运。发现同源域蛋白的最短可 内化肽触角肽(Antennapedia)是该蛋白上氨基酸位置43到58的第三个螺旋(参见例如 Prochiantz,Current Opinion in Neurobiology 6:629-634(1996))。发现信号肽的另一亚 序列h(疏水)结构域具有相似的细胞膜转运特征(参见例如Lin等,J.Biol.Chem.270:1 4255-14258(1995)).
可连接于蛋白质而有利于蛋白质摄取到细胞中的肽序列的例子包括但不限于: HIV的tat蛋白的11个氨基酸肽;对应于p16蛋白氨基酸84-103的20个残基肽序列 (参见Fahraeus等,Current Biology 6:84(1996));触角肽的60个氨基酸长同源域的第 三个螺旋(Derossi等,J.Biol.Chem.269:10444(1994));信号肽的h区如开氏(Kaposi) 成纤维细胞生长因子(K-FGF)的h区(Lin等,同上);或HSV的VP22转运结构域(Elliot 和O’Hare,Cell 88:223-233(1997))。也可将提高细胞摄取的其它合适化学部分化学 连接于ZFP。膜转运结构域(即内化结构域)也可选自随机化肽序列文库。参见例如 Yeh等(2003)Molecular Therapy 7(5):S461,摘要#1191。
毒素分子也能够跨细胞膜转运多肽。这种分子(称为“双毒素”)常常由至少两部 分:转运/结合域或多肽和分离的毒素结构域或多肽组成。一般转运结构域或多肽能 结合细胞受体,然后将毒素转运入细胞中。已利用几种细菌毒素,包括产气荚膜梭 菌(Clostridium perfringens)ι毒素、白喉毒素(DT)、假单胞菌(Pseudomonas)外毒素A (PE)、百日咳毒素(PT)、炭疽杆菌(Bacillus anthracis)毒素和百日咳腺苷酸环化酶(CYA) 将肽作为内部或氨基末端融合物递送到细胞胞浆中(Arora等,J.Biol.Chem., 268:3334-3341(1993);Perelle等,Infect.Immun.,61:5147-5156(1993);Stenmark等, J.Cell Biol.113:1025-1032(1991);Donnelly等,PNAS 90:3530-3534(1993);Carbonetti 等,Abstr.Annu.Meet.Am.Soc.Microbiol.95:295(1995);Sebo等,Infect.Immun. 63:3851-3857(1995);Klimpel等,PNAS U.SA.89:10277-10281(1992);和Novak等, J.Biol.Chem.267:17186-171931992))。
可采用这种肽序列跨细胞膜转运ZFP。ZFP可方便地融合于这类序列或用其衍 生。一般地,作为融合蛋白的一部分提供转运序列。任选地,可用接头连接ZFP与 转运序列。可采用任何合适的接头,如肽接头。
也可通过脂质体和脂质体衍生物如免疫脂质体将ZFP引入动物细胞,优选哺乳 动物细胞。术语“脂质体”指由一层或多层同心排列的脂质双层组成的包裹着水相的囊 泡。水相一般含有准备递送给细胞的化合物,即ZFP。
脂质体与质膜融合,从而将药物释放到胞浆中。或者,脂质体被吞噬或在转运 囊泡中被细胞摄取。一旦进入内体或吞噬体中,脂质体或降解或与该转运囊泡的膜 融合,并释放其内容物。
在通过脂质体进行药物递送的现有方法中,脂质体最终变为可通透并在靶组织 或细胞释放包裹的化合物(此例为ZFP)。对于全身或组织特异性递送,可通过(例如) 被动方式完成递送,其中脂质体双层通过各种体内物质的作用随时间推移而降解。 或者,活性药物释放包括用药物诱导脂质体囊泡的通透性改变。可构建脂质体膜, 使它们在脂质体膜附近环境变为酸性时变得不稳定(参见例如PNAS 84:7851(1987); Biochemistry 28:908(1989))。当脂质体被靶细胞内吞时,例如,它们变得不稳定并释 放其内容物。这种去稳定过程称为融合体形成。二油酰磷脂酰乙醇胺(DOPE)是许多 “融合体形成”系统的基础
这些脂质体一般包含ZFP和脂质组分,如中性和/或阳离子脂质,任选地包括受 体识别分子,如结合预定的细胞表面受体或配体(如抗原)的抗体。可用各种方法制备 脂质体,如Szoka等,Ann.Rev.Biophys.Bioeng.9:467(1980),美国专利号4,186,183、 4,217,344、4,235,871、4,261,975、4,485,054、4,501,728、4,774,085、4,837,028、4,235,871、 4,261,975、4,485,054、4,501,728、4,774,085、4,837,028、4,946,787,PCT公开号WO 91\17424,Deamer和Bangham,Biochim.Biophys.Acta 443:629-634(1976);Fraley等, PNAS 76:3348-3352(1979);Hope等,Biochim.Biophys.Acta 812:55-65(1985);Mayer 等,Biochim.Biophys.Acta 858:161-168(1986);Williams等,PNAS 85:242-246(1988); Liposome(脂质体)(Ostro(编),1983,第1章);Hope等,Chem.Phys.Lip.40:89(1986); Gregoriadis,Liposome Technology(脂质体技术)(1984)和Lasic,Liposome:from Physics to Applications(脂质体:从物理学到应用)(1993))所述。合适的方法包括例如:超声处 理、挤压、高压/匀浆、微流体化、去污透析、钙诱导的小脂质体囊泡融合和醚融 合法,本领域技术人员已知所有这些方法。
在某些实施方式中,需要用对具体细胞类型、组织等具有特异性的靶向部分进 行脂质体的靶向。已报道用各种靶向部分(如配体、受体和单克隆抗体)进行脂质体靶 向的方法。参见例如美国专利号4,957,773和4,603,044。
靶向部分的例子包括肿瘤相关抗原,如前列腺癌特异性抗原和MAGE的特异性 单克隆抗体。也可通过检测癌基因,如ras或c-erbB2的活化或过度表达产生的基因 产物来诊断肿瘤。此外,许多肿瘤表达通常在胎儿组织中表达的抗原,如甲胎蛋白 (AFP)和癌胚抗原(CEA)。可用各种病毒抗原如乙肝核心抗原和表面抗原(HBVc、 HBVs)、丙肝抗原、EB病毒抗原、1型人免疫缺陷病毒(HIV1)和乳头瘤病毒抗原诊 断病毒感染部位。用炎症部位表达的表面分子如整联蛋白(如VCAM-1)、选择蛋白受 体(如ELAM-1)等特异性识别的分子检测炎症。
可采用将靶向物质偶联于脂质体的标准方法。这些方法通常包括将脂质组分, 如磷脂酰乙醇胺掺入脂质体,该脂质组分可通过连接靶向物质或衍生的亲脂性化合 物,如脂质衍生的博来霉素而活化。可用(例如)掺入蛋白A的脂质体构建抗体靶向的 脂质体(参见Renneisen等,J.Biol.Chem.,265:16337-16342(1990)和Leonetti等,PNAS 87:2448-2451(1990)。
剂量
在本发明内容的治疗应用中,给予患者或将要引入患者体内的细胞的剂量应足 以在患者中随时间推移而产生有益的治疗反应。此外,具体剂量方案可用于测定实 验设置中,如在功能基因组学研究和细胞或动物模型中的表型变化。可依据所用的 具体ZFP的效力和Kd、靶细胞的核体积和患者状况,以及待治疗患者的体重或体表 面积来确定剂量。剂量大小也取决于所给予的具体化合物或载体在具体患者中是否 能引起伴随的副作用、其性质和程度。
计算出ZFP约99%结合于靶位点时的最大治疗有效剂量范围低于每细胞约1.5 ×105~1.5×106个特定ZFP分子拷贝。此结合水平时每个细胞(结合)的ZFP数如下 采用HeLa细胞核的体积(约1000μm3或10-12L;Cell Biology(细胞生物学),(Altman 和Katz编(1976))进行计算。由于HeLa细胞核相对较大,需要用靶细胞核的体积重 新计算此剂量数。此计算也没有考虑到其它位点与ZFP的竞争结合。此计算也假定 基本上所有ZFP都定位于细胞核。用100×Kd值计算(ZFP)约99%结合于靶位点,用 10×Kd值计算(ZFP)约90%结合于靶位点。对于本实施例, K d = 25 nM

即,
Kd=[DNA][蛋白质]
[DNA:蛋白质复合物]
当50%ZFP结合时,Kd=[蛋白质]
因此当[蛋白质]=25nM且核体积是10-12L时
[蛋白质]=(25×10-9摩尔/L)(10-12L/核)(6×1023分子/摩尔)
=15,000分子/核(50%结合时)
当99%靶点被结合时;100×Kd=[蛋白质]
100×Kd=[蛋白质]=2.5μM
(2.5×10-6摩尔/L)(10-12L/核)(6×1023分子/摩尔)
=约1,500,000分子/核(靶位点99%结合时)。
也可通过考虑到启动子表达ZFP的平均速率和细胞中ZFP降解的平均速率计算 编码ZFP的表达载体的合适剂量。在某些实施方式中,可如上所述采用弱启动子如 野生型或突变的HSV TK启动子。通过考虑到所用具体ZFP的分子量计算微克级ZFP 剂量。
为了确定疾病治疗或预防中给予ZFP的有效量,医生评价了ZFP或编码ZFP 的核酸的循环系统血浆水平,ZFP潜在毒性,疾病进展和抗ZFP抗体的产量。可通 过单剂量或分剂量进行给药。
药物组合物和给药
可将ZFP和编码ZFP的表达载体直接给予患者以靶向切割和/或重组以及治疗或 预防应用,例如癌症、缺血、糖尿病视网膜病、黄斑变性、类湿性关节炎、牛皮 癣、HIV感染、镰状细胞性贫血、阿茨海默病、肌肉萎缩症、神经变性疾病、血 管病、囊性纤维化病、中风等。ZFP基因治疗可抑制的微生物的例子包括病原菌, 如衣原体、立克次体、分枝杆菌、葡萄球菌、链球菌、炎双球菌、脑膜炎球菌和 科诺球菌(conococci)、克雷伯菌、变形杆菌、沙雷菌、假单胞菌、军团菌(legionella)、 白喉杆菌、沙门菌、芽孢杆菌、霍乱菌、破伤风杆菌、肉毒杆菌、炭疽杆菌、鼠疫 菌、钩端螺旋体和莱姆病细菌;感染性真菌,如曲霉(Aspergillus)、假丝酵母(Candida); 原生动物如孢子虫(如疟原虫(Plasmodia))、根足虫(如内阿米巴(Entamoeba))和鞭毛虫 (锥体虫(Trypanosoma)、利什曼虫(Leishmania)、毛滴虫(Trichomonas)、贾第鞭毛虫 (Giardia)等);病毒性疾病如肝炎(甲肝、乙肝或丙肝)、疱疹病毒(如VZV、HSV-1、 HSV-6、HSV-II、CMV和EBV)、HIV、艾波拉病毒、腺病毒、流感病毒、黄病毒、 艾柯病毒、鼻病毒、柯萨奇病毒、冠状病毒、呼吸道合胞病毒、腮腺炎病毒、轮状 病毒、麻疹病毒、风疹病毒、细小病毒、牛痘病毒、HTLV病毒、登革热病毒、乳头 瘤病毒、脊髓灰质炎病毒、狂犬病病毒和虫媒病毒性脑炎病毒等。
通过常用于使ZFP最终与待治疗组织接触的任何途径给予治疗有效量的ZFP。 以任何合适形式,优选用药学上可接受的运载体给予ZFP。已有给予这些调节物的 合适方法,它们是本领域技术人员熟知的,虽然可采用一种以上途径给予具体组合 物,但某一具体途径常可提供比其它途径更直接和更有效的反应。
药学上可接受的运载体部分取决于给予的具体组合物,以及用于给予该组合物 的具体方法。因此,可采用各种合适的药物组合物剂型(参见例如Remington’s Pharmaceutical Sciences(雷明顿药物科学),第17版,1985))。
可单独将ZFP或与其它合适组分混合的ZFP制成气雾剂(即可将其“雾化”),以 通过吸入给药。可将气雾剂掺入加压的可接受推进剂中,如二氯二氟甲烷、丙烷、 氮气等。
适合胃肠道外给药,如静脉内、肌肉内、皮内和皮下途径给药的剂型包括水性 和非水性无菌等渗注射溶液以及水性和非水性无菌悬液,所述注射溶液中可含有抗 氧化剂、缓冲剂、抑菌剂和使该剂型与待治疗接受者的血液等渗的溶质,所述无菌 悬液可包含悬浮剂、增溶剂、增稠剂、稳定剂和防腐剂。可通过(例如)静脉内输注、 口服、局部、腹膜内、膀胱内或鞘内给予所述组合物。可以在单位剂量或多剂量密 封容器,如安瓿和小瓶中提供化合物制剂。可从前述种类的无菌粉末、颗粒和片剂 制备注射溶液和悬液。
应用
可采用本文所述的靶向切割的方法和组合物诱导基因组序列中的突变,例如, 在两个位点上切割,然后去掉它们之间的序列;在一个位点上切割,接着进行非同 源性末端连接,在一个或两个位点上切割,在断裂处之间插入外源序列和/或在一个 位点上切割去除一个或两个或数个核苷酸。也可利用靶向切割产生基因敲除(如用于 功能基因组学或靶位点评估),促进序列靶向插入基因组中(即基因敲入);例如,用 于细胞工程改造或蛋白质过度表达。插入可以是通过同源重组取代染色体序列或靶 向整合,其中将侧接于与染色体中感兴趣区域同源的序列的新序列(即感兴趣区域中 不存在的序列)插入预定的靶位点中。
也可采用相同方法以突变序列取代野生型序列,或者将一个等位基因转变为不 同的等位基因。
可通过靶向切割感染或整合的病毒基因组治疗宿主中的病毒感染。此外,可通 过靶向切割病毒受体的编码基因阻断这类受体的表达,从而防止病毒感染和/或病毒 在宿主生物体中传播。可通过靶向诱变病毒受体(如HIV的CCR5和CXCR4受体) 的编码基因使受体无法结合于病毒,从而防止新的感染并阻断现有感染的传播。可 靶向的病毒或病毒受体的非限制性例子包括:单纯疱疹病毒(HSV)如HSV-1和 HSV-2、水痘带状疱疹病毒(VZV)、EB病毒(EBV)和巨细胞病毒(CMV)、HHV6和 HHV7。肝炎病毒家族包括甲型肝炎病毒(HAV)、乙型肝炎病毒(HBV)、丙型肝炎病 毒(HCV)、丁型肝炎病毒(HDV)、戊型肝炎病毒(HEV)和庚型肝炎病毒(HGV)。可靶 向其它病毒或其受体,包括但不限于:小核糖核酸病毒科(如脊髓灰质炎病毒等);杯 状病毒科;披膜病毒科(如风疹病毒、登革热病毒等);黄病毒科;冠状病毒科;呼肠 孤病毒科;双RNA病毒科;棒状病毒科(如狂犬病病毒等);纤丝病毒科;副粘病毒 科(如腮腺炎病毒、麻疹病毒、呼吸道合胞病毒等);正粘病毒科(如A、B和C型流 感病毒等);本扬病毒科;沙粒病毒科;逆转录病毒科;慢病毒科(如HTLV-I;HTLV-II; HIV-1(也称为HTLV-III、LAV、ARV、hTLR等)HIV-II);猿免疫缺陷病毒(SIV)、人 乳头瘤病毒(HPV)、流感病毒和蜱媒脑炎病毒。参见例如,Virology(病毒学),第三版 (W.K.Joklik编,1988);Fundamental Virology(基础病毒学),第二版(B.N.Fields和 D.M.Knipe编,1991)中关于这些和其它病毒的描述。HIV受体(例如)包括CCR-5和 CXCR-4。
类似地,可通过靶向DNA切割、接着进行非同源末端连接来诱变感染细菌的基 因组,从而阻断或减轻细菌感染。
可采用本发明公开的靶向重组方法用同源但不相同的序列取代任何基因组序 列。例如,可用野生型基因组序列取代突变的基因组序列,从而提供治疗(例如)遗传 病、遗传失调、癌症和自身免疫病的方法。类似地,可采用本文所述的靶向重组方 法,用某基因的一种等位基因取代不同的等位基因。
示范性遗传病包括但不限于:软骨发育不全、全色盲、酸性麦芽糖酶缺陷、腺 苷脱氨酶缺陷(OMIM号102700)、肾上腺脑白质营养不良、艾卡迪综合征、α-1抗胰 蛋白酶缺陷、α-珠蛋白生成障碍性贫血、雄激素不敏感综合征、阿佩尔综合征、心律 失常性右心室发育不良、共济失调-毛细血管扩张症、巴氏综合征(barth syndrome)、β- 珠蛋白生成障碍性贫血、蓝色橡皮疱样痣综合征、卡纳万病、慢性肉芽肿性疾病 (CGD)、猫叫综合征、囊性纤维化病、德尔肯病、外胚层发育不良、范科尼贫血、进 行性骨化性纤维发育不良、脆性X综合征、半乳糖血症、高歇病、普遍性神经节苷 脂贮积病(如GM1)、血色素沉着病、β-珠蛋白第6个密码子中的血红蛋白C突变 (HbC)、血友病、亨廷顿病、赫尔利综合征、磷酸酶过少症、克兰费尔特综合征、克 拉伯病、兰-吉综合征、白细胞粘附缺陷(LAD,OMIM号116920)、脑白质营养不良、 QT间期延长综合征、马凡综合征、莫比乌斯综合征、粘多糖贮积症(MPS)、甲髌综 合征、神经性尿崩症、神经纤维瘤病、耐-皮病(Neimann-Pick disease)、成骨不全、卟 啉病、普拉德-威利综合征、早衰症、普罗第司综合征(Proteus syndrome)、视网膜母 细胞瘤、雷特综合征、鲁宾斯坦-泰比综合征、圣菲利波综合征、重症联合免疫缺陷 (SCID)、舒瓦克曼综合征、镰状细胞病(镰状细胞贫血)、史-麦综合征、斯蒂克勒综 合征、泰-萨克斯病、血小板减少-桡骨缺失(TAR)综合征、特雷歇-柯林斯综合征、三 体性、结节性硬化症、特纳综合征、尿素循环障碍、希普尔病、瓦尔敦堡综合征、 威廉斯综合征、威尔逊病、威斯科特-奥尔德里奇综合征、X-联淋巴增殖综合征 (XLP,OMIM号308240)。
可通过靶向DNA切割和/或同源重组治疗的其它示范性疾病包括:获得性免疫 缺陷症、溶酶体贮积症(如高歇病、GM1、法布里病和泰-萨克斯病)、粘多糖沉积病(如 亨特病(Hunter’s disease)、胡尔勒病)、血红蛋白病(如镰状细胞病、HbC、α-珠蛋白生 成障碍性贫血、β-珠蛋白生成障碍性贫血)和血友病。
在某些病例中,需要改变多能细胞(如造血干细胞)的基因组序列。本领域已知迁 移、富集和培养造血干细胞的方法。参见例如,美国专利5,061,620;5,681,559; 6,335,195;6,645,489和6,667,064。可将处理后的干细胞返回给患者,以治疗各种疾 病,包括但不限于:SCID和镰状细胞贫血。
在许多情况下,感兴趣区域包含突变,供体多核苷酸包含相应的野生型序列。 相似地,如果需要,可用突变型序列取代野生型基因组序列。例如,可通过突变癌 基因或用支持较低非病理水平表达的序列取代其控制序列,来逆转致癌基因的过度 表达。另一个例子是,可用ApoAI Milano等位基因取代ApoAI基因的野生型等位基 因,以治疗动脉粥样硬化。实际上,可采用本文所述的方法和组合物以任何方式校 正或减轻取决于具体基因组序列的疾病。
还可采用靶向切割和靶向重组来改变非编码序列(例如调控序列如启动子、增强 子、起始子、终止子、剪接位点),以改变基因产物的表达水平。可将这种方法用于(例 如)治疗目的、功能基因组学和/或靶位点验证研究。
本文所述的组合物和方法还产生了新型方法和系统来解决宿主对同种异体移植 物的免疫应答。具体说,将同种异体干细胞(或任何类型的同种异体细胞)植入接受者 宿主时所面对的主要问题是遭受宿主免疫系统排斥的高风险,这种排斥主要是通过 识别植入细胞表面的主要组织相容性复合物(MHC)来介导。MHC包括以异源二聚体 形式发挥作用的I类HLA蛋白,所述异源二聚体由共同的β亚基和可变的α亚基组 成。已证明,衍生自无HLA干细胞的组织移植物能逃避宿主的免疫应答。参见例如, Coffman等,J Immunol 151,425-35(1993);Markmann等,Transplantation 54, 1085-9(1992);Koller等,Science 248,1227-30(1990)。采用本文所述的组合物和方 法,可通过重组(编码或调控序列中)切割、诱变或改变参与移植物排斥的HLA蛋白 编码基因,以便阻断其表达或表达无功能的产物。例如,用本文所述的ZFP融合蛋 白使编码共同β亚基(β2微球蛋白)的基因失活,从而去除细胞中的I类HLA,以便 供者快速和可靠地产生无I类HLA的干细胞,因此降低干细胞移植过程中对供者/ 接受者MHC单倍型紧密匹配的需求。
可通过(例如)一次切割和切割后的非同源末端连接、在两个位点上切割后进行连 接以便缺失这两个切割位点之间的序列、将错义或无义密码子靶向重组到编码区内 或将不相关序列(即“填充”序列)靶向重组到基因或其调控区内以便破坏该基因或调 控区,而使任何基因(如β2微球蛋白基因)失活。
可通过靶向修饰染色质结构(如共有的WO 01/83793所述)促进融合蛋白与细胞 染色质的结合。
在其它实施方式中,除本文所述的锌指-切割域融合物外,可采用锌指结合域和 重组酶(或其功能片段)之间的一种或多种融合物来促进靶向重组。参见例如,共有的 美国专利号6,534,261和Akopian等(2003)Proc.Natl.Acad.Sci.USA 100:8688-8691。
在其它实施方式中,用本文公开的方法和组合物提供其活性需要二聚化(同源二 聚化或异源二聚化)的ZFP结合域与转录活化或阻抑结构域的融合物。在这些情况下, 融合多肽包括锌指结合域和功能域单体(如二聚转录激活结构域或阻抑结构域的单 体)。两种这类融合多肽与位置合适的靶位点结合而二聚化,从而重建功能性转录激 活或阻抑结构域。
靶向整合
如上所述,可采用本文所述的方法和组合物将外源序列靶向整合到细胞基因组 的感兴趣区域中。可通过同源依赖性和同源非依赖性机制将外源序列靶向整合到基 因组的双链断裂中。
如上所述,在某些实施方式中,同源依赖性和同源非依赖性机制的靶向整合包 括将外源序列插入切割产生的二末端之间。插入的外源序列可以是任何长度,例如, 长度为1-50个核苷酸的相对短的“补丁”序列(如2、3、4、5、6、7、8、9、10、11、 12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、 30、35、40、45或50个核苷酸的序列)。
在靶向整合是同源依赖性整合的情况下,供体核酸或供体序列包含外源序列以 及与预定的基因组序列(即靶位点)相同、或同源但不相同的一种或多种序列。在某些 实施方式中,有两个相同序列或两个同源但不相同的序列(或各一)侧接于该外源序 列。外源序列(或外源性核酸或外源性多核苷酸)是含有感兴趣区域中通常不存在的核 苷酸序列的序列。
示范性外源序列包括但不限于:cDNA、启动子序列、增强子序列、表位标签、 标记物基因、切割酶识别位点和各种类型的表达构建物。标记物基因包括但不限于: 介导抗生素抗性(如氨苄青霉素抗性、新霉素抗性、G418抗性、嘌呤霉素抗性)的蛋 白质编码序列,有色或荧光或发光蛋白(如绿色荧光蛋白、增强绿色荧光蛋白、红色 荧光蛋白、荧光素酶)和介导增强的细胞生长和/或基因扩增的蛋白质(如二氢叶酸还 原酶)的编码序列。表位标签包括例如,一个或多个拷贝的FLAG、His、myc、Tap、 HA或任何可检测的氨基酸序列。
蛋白质表达构建物包括但不限于:与cDNA序列操作性连接的cDNA和转录控 制序列。转录控制序列包括启动子、增强子和绝缘子。可包含在表达构建物中的其 它转录和翻译调控序列包括例如:内部核糖体进入位点、编码2A肽的序列和聚腺苷 酸化信号。示范性蛋白表达构建物是包含抗体重链编码序列和抗体轻链编码序列的 抗体表达构建物,其中各序列操作性连接于启动子(启动子相同或不同),其中一种或 两种序列操作性连接于增强子(在两种编码序列均连接于增强子的情况下,增强子相 同或不同)。
切割酶识别位点包括例如,限制性核酸内切酶、寻靶核酸内切酶和/或大范围核 酸酶识别的序列。可通过切割酶识别位点的靶向整合(通过同源依赖性或同源非依赖 性机制)产生基因组仅含一个可被特定酶切割的位点的细胞。使这类细胞与能识别和 切割该位点的酶接触有助于随后的外源序列靶向整合(通过同源依赖性或同源非依赖 性机制)和/或靶向诱变所述切割位点。
切割酶识别位点的一个例子是寻靶核酸内切酶I-SceI识别的位点,它的序列如 下:
TAGGGATAACAGGGTAAT    (SEQ ID NO:213)
参见例如,美国专利号6,833,252。其它示范性寻靶核酸内切酶包括I-CeuI、 PI-PspI、PI-Sce、I-SceIV、I-CsmI、I-PanI、I-SceII、I-PpoI、I-SceIII、I-CreI、I-TevI、 I-TevII和I-TevIII。其识别序列已知。还参见美国专利号5,420,032;Belfort等(1997) Nucleic Acids Res.25:3379-3388;Dujon等(1989)Gene 82:115-118;Perler等(1994) Nucleic Acids Res.22,1125-1127;Jasin(1996)Trends Genet.12:224-228;Gimble等 (1996)J.Mol.Biol.263:163-180;Argast等(1998)J.Mol.Biol.280:345-353和新英格 兰生物实验室公司(New England Biolabs)目录。
虽然对于大多数寻靶核酸内切酶的切割特异性对它们的识别位点而言并不绝 对,但这些位点具有足够的长度,从而通过在含有一个拷贝此识别位点的细胞中表 达寻靶核酸内切酶,可获得每个哺乳动物大小基因组的一次切割。也有报道称,可 工程改造切割酶使之能结合非天然靶位点。参见例如,Chevalier等(2002)Molec.Cell 10:895-905;Epinat等(2003)Nucleic Acids Res.31:2952-2962;Ashworth等(2006) Nature 441:656-659。
以前利用寻靶核酸内切酶获得靶向重组和整合的方法会产生靶向插入识别位点 的效率极低的问题,需要进行费力的筛选才能鉴定所需位置上插入了识别位点的细 胞。本发明方法通过高效靶向整合(同源依赖性或同源非依赖性)DNA切割酶的识别 位点克服了这些问题。
在某些实施方式中,用靶向整合插入RNA表达构建物,如负责调节小RNA或 siRNA表达的序列。也可将上述启动子、增强子和其它转录调控序列掺入RNA表达 构建物中。
在通过同源依赖性机制靶向整合的实施方式中,供体序列中侧接于外源序列的 区域含有足够的同源性,可支持基因组序列中双链断裂的同源性指导修复,从而在 基因组靶位点处插入该外源序列。因此,供体核酸可以是足以支持通过同源依赖性 修复机制(如同源重组)整合外源序列的任何大小。如果不希望受限于任何具体理论, 认为侧接外源序列的同源区能给断裂的染色体末端提供在双链断裂位点再合成遗传 信息的模板。
也可采用外源序列的靶向整合(如本文所述)产生用于蛋白质表达的细胞和细胞 系。参见例如,共有的美国专利申请公开号2006/0063231(将其内容全文纳入本文作 参考用于所有目的)。为了优化整合到基因组中的外源序列编码的一种或多种蛋白质 的表达,其染色体整合位点应与整合序列的高水平转录相容,优选在各种细胞类型 和发育阶段相容。然而,观察到整合序列的转录视整合位点,整合位点上基因组的 染色质结构而不同。因此,需要支持整合序列的高水平转录的基因组靶位点。在某 些实施方式中,还需要外源序列的整合不导致一种或多种细胞基因(如癌基因)的异位 激活。另一方面,在整合启动子和/或增强子序列的情况下,可能需要异位表达。
在某些实施方式中,需要整合位点不存在于必需基因(如细胞活力必需的基因) 中,以使外源序列的整合不导致所述必需基因的失活。另一方面,如果想要失去基 因功能(即产生基因“敲除”),那么靶向整合外源序列以破坏内源性基因是一种有效的 方法。在这些情况下,外源序列可以是能够阻断内源性基因转录或产生无功能翻译 产物,如一小段氨基酸序列(任选可检测,见上)的任何序列。在某些实施方式中,该 外源序列可包含标记物基因(见上),以选择发生靶向整合的细胞。
不编码必需基因和支持整合序列(“安全港”整合位点)的高水平转录的染色体区 域的非限制性例子包括包括Rosa26和CCR5基因座。
在鼠基因组中鉴定到Rosa26基因座。Zambrowicz等(1997)Proc.Natl.Acad.Sci. USA 94:3789-3794。通过比较小鼠Rosa26mRNA的序列与人cDNA筛选的数据 (Strausberg等(2002)Proc.Natl.Acad.Sci.USA 99:16899-16903),本发明者检测了同源 性人转录物。因此,可采用本发明所述方法和组合物,以Rosa26的人同源物作为靶 位点将外源序列整合到人细胞和细胞系的基因组中。
本领域熟知CCR5基因组序列(包括等位基因变体如CCR5-Δ32)。参见例如,Liu 等(1996)Cell 367-377。
可将能支持整合序列高水平转录的其它基因组靶位点鉴定为开放染色质区或 ‘可及区’,如共有美国专利申请公开2002/0064802(2002年5月30日)和2002/0081603 (2002年6月27日)所述。
基因组序列中存在双链断裂不仅能促进外源序列的同源依赖性整合(即同源重 组),而且能促进外源序列以同源非依赖性方式整合到基因组的双链断裂位点上。因 此,本文所述的组合物和方法可用于靶向切割基因组序列,随后在靶向切割位点上 或其附近非同源依赖性整合外源序列。例如,可使细胞与经工程改造能切割本文所 述的基因组感兴趣区域(或编码这类融合蛋白的一种或多种多核苷酸)的一种或多种 ZFP-切割域(或切割半域)融合蛋白,以及含有与感兴趣区域无同源性的外源序列的多 核苷酸相接触,以获得所有或部分外源序列整合到感兴趣区域中的细胞。
本文所述的靶向整合(即将外源序列插入基因组)的方法(同源依赖性或非依赖性) 可用于许多目的。这些目的包括但不限于:将基因或cDNA序列插入细胞基因组中, 使细胞表达该基因的转录和/或翻译产物。在可能由多个突变(如在基因序列中分布的 多个点突变)之一产生疾病或病理的情况下,靶向整合(同源依赖性或同源非依赖性) 野生型基因的一个cDNA拷贝特别有效。例如,将这类野生型cDNA插入非翻译先 导序列或所有已知突变上游基因的第一外显子中。在某些整合物中保留了翻译阅读 框,因而可表达野生型cDNA,其表达受合适的内源性转录调控序列调控。在其它实 施方式中,这类整合的cDNA序列可包括位于野生型cDNA下游和突变的内源性基 因上游的转录(和/或翻译)终止信号。以此方式,表达引起疾病的基因的野生型拷贝, 不表达突变的内源性基因。在其它实施方式中,将一部分野生型cDNA插入合适的 基因区域(例如引起疾病的突变的基因聚集处)中。
实施例
实施例1:通过靶向重组编辑染色体hSMC1L1基因
hSMC1L1基因是芽殖酵母基因-染色体1的结构维持基因的人直向同源物。通 过靶向切割和重组诱变该基因中编码此蛋白质氨基末端部分(包含沃科(Walker)ATP 酶结构域)区域。通过设计包含锌指DNA-结合域和FokI切割半域的嵌合核酸酶,使 其结合于该密码子附近,从而靶向切割甲硫氨酸起始密码子区域(核苷酸24-26,图 1)。因此,设计了两个锌指结合域,其中一个识别核苷酸23-34(主要沿图1所示的上 一条链接触),另一个识别核苷酸5-16(主要沿下一条链接触)。如共有美国专利 6,453,242和6,534,261所述设计锌指蛋白。锌指蛋白识别区的氨基酸序列参见表2。
将编码这两个ZFP结合域的序列各自融合于编码FokI切割半域(天然FokI序列 的氨基酸384-579;Kita等(1989)J.Biol.Chem.264:5751-5756)的序列,以使编码蛋白 的羧基末端含有FokI序列,氨基末端含有ZFP序列。然后将这些融合序列各自克隆 到修饰的哺乳动物表达载体pcDNA3(图2)中。
表2:hSMC1L1基因的锌指设计
 靶序列  F1  F2  F3  F4  CATGGGGTTCCT  (SEQ ID NO:27)  RSHDLIE  (SEQ ID NO:28)  TSSSLSR  (SEQ ID NO:29)  RSDHLST  (SEQ ID NO:30)  TNSNRIT  (SEQ ID NO:31)  GCGGCGCCGGCG  (SEQ ID NO:32)  RSDDLSR  (SEQ ID NO:33)  RSDDRKT  (SEQ ID NO:34)  RSEDLIR  (SEQ ID NO:35)  RSDTLSR  (SEQ ID NO:36)
注:以各锌指的α螺旋部分为起点时,上述锌指氨基酸序列(单字母码)代表了残基-1至+6。指F1最 接近该蛋白的氨基端,指F4最接近羧基端。
按照以下方法获得供体DNA分子。首先,用HEK293细胞的基因组DNA作模 板,扩增代表X染色体(2003年7月版的UCSC人基因组)″-″链的核苷酸 52415936-52416635的人基因组DNA的700个碱基对片段,其包含人hSMC1L1基 因的第一外显子。用于扩增的引物序列见表3(“初始扩增引物1”和“初始扩增引物2”)。 然后用标准的重叠延伸PCR方法(参见例如,Ho等(1989)Gene 77:51-59)改变PCR产 物,导致序列ATGGGG(图1的核苷酸24-29)替换成ATAAGAAGC。这种改变导致 ATG密码子(甲硫氨酸)转变为ATA密码子(异亮氨酸),GGG(图1的核苷酸27-29) 被序列AGAAGC取代,重组后能够区分供体衍生序列与内源性染色体序列。图3是 起始密码子区域含有染色体DNA序列,并且供体DNA中的序列与染色体序列不同 的hSMC1基因的示意图。将得到的700碱基对供体片段克隆到pCR4BluntTopo中, 这种质粒不含与人基因组同源的任何序列。见图4。
在染色体hSMC1L1基因的靶向突变中,用英杰公司(Invitrogen)的脂质转染试剂 2000转染,将编码ZFP-FokI融合物的两种质粒和供体质粒引入 1×106个HEK293细胞中。对照包括仅用编码ZFP-FokI融合物的两种质粒转染的细 胞、仅用供体质粒转染的细胞和用对照质粒(pEGFP-N1,克隆泰克公司(Clontech))转 染的细胞。在5%CO2/37℃下培养细胞。转染48小时后,分离细胞的基因组DNA, 用200ng作为PCR扩增的模板,用与供体序列(X染色体″-″链上的核苷酸 52416677-52416701;2003年7月UCSC)的同源性区域外侧基因区域互补的一种引物 和与引入不同突变的供体分子区域互补的第二引物进行PCR。采用这两种引物通过 靶向重组获得基因组DNA的400个碱基对扩增产物。这些引物的序列见表3(分别标 为“染色体特异性引物”和“供体特异性引物”)。扩增条件是:94℃2分钟,然后是40 个以下循环:94℃30秒,60℃1分钟,72℃1分钟;最后步骤是72℃7分钟。
这种分析的结果(图5)表明,只有用提取自转染了供体质粒和两种ZFP-FokI质 粒的细胞的DNA才获得了400个碱基对的扩增产物(图中标为“嵌合DNA”)。
表3:hSMC1L1基因的扩增引物
  初始扩增引物1   AGCAACAACTCCTCCGGGGATC(SEQ ID NO:37)   初始扩增引物2   TTCCAGACGCGACTCTTTGGC(SEQ ID NO:38)   染色体特异性引物   CTCAGCAAGCGTGAGCTCAGGTCTC(SEQ ID NO:39)   供体特异性引物   CAATCAGTTTCAGGAAGCTTCTT(SEQ ID NO:40)   外侧引物1   CTCAGCAAGCGTGAGCTCAGGTCTC(SEQ ID NO:41)   外侧引物2   GGGGTCAAGTAAGGCTGGGAAGC(SEQ ID NO:42)
为了验证这个结果,进行了两个额外实验。首先,将扩增产物克隆到 pCR4Blunt-Topo(英杰公司)中,并测定其核苷酸序列。如图6(SEQ ID NO:6)所示, 获自用两种ZFP-FokI-编码质粒和供体质粒转染的细胞的染色体DNA扩增序列均含 有该供体所特有的AAGAAGC序列(图6所示序列的核苷酸395-401),共价连接于供 体分子中不存在的染色体序列(图6的核苷酸32-97),这表明供体序列已重组到染色 体中。具体说,在该序列的395位上观察到将起始密码子转变为异亮氨酸密码子的 G→A突变。
在第二个实验中,将仅用供体质粒转染的细胞、用两种ZFP-FokI融合质粒转染 的细胞、用供体质粒和两种ZFP-FokI融合质粒转染的细胞或用EGFP对照质粒转染 的细胞的染色体DNA用作扩增模板,采用与供体和染色体序列之间的700-核苷酸同 源区以外的序列互补的引物(表3中标为“外侧引物1”和“外侧引物2”)进行扩增。纯 化得到的扩增产物用作第二个扩增反应的模板,用上述供体特异性和染色体特异性 引物(表3)进行扩增。这次扩增只有用供体构建物和两种ZFP-FokI融合构建物转染的 细胞才能产生400个核苷酸的产物,此结果与在这些细胞中靶向重组导致的基因组 序列取代相一致。
实施例2:用靶向重组编辑染色体IL2Rγ基因
IL-2Rγ基因编码称为“共同细胞因子受体γ链”的蛋白质,该蛋白的功能是用作 数种白介素受体(包括IL-2R、IL-4R、IL-7R、IL-9R、IL-15R和IL-21R)的亚基。此 基因中的突变,包括第三外显子5’端周围的突变(如酪氨酸91密码子)可引起X-联锁 重症联合免疫缺陷(SCID)。参见例如,Puck等(1997)Blood 89:1968-1977。通过靶向 切割和重组将酪氨酸91密码子(SEQ ID NO:7的核苷酸23-25;图7)中的突变引入 IL2Rγ基因。通过设计两对锌指蛋白使切割靶向此区域。第一对(表4的前两行)包含 设计能结合于核苷酸29-40(主要沿图7所示的上一条链接触)的锌指蛋白和设计能结 合于核苷酸8-20(主要沿下一条链接触)的锌指蛋白。第二对(表4的第三行和第四行) 包含两个锌指蛋白,第一个能识别核苷酸23-34(主要沿图7所示的上一条链接触), 第二个能识别核苷酸8-16(主要沿下一条链接触)。如共有美国专利6,453,242和 6,534,261所述,设计锌指蛋白。锌指蛋白识别区的氨基酸序列见表4。
将ZFP结合域编码序列融合于FokI切割半域(天然FokI序列的氨基酸384-579, Kita等,同上)编码序列,以使编码蛋白的羧基端含有FokI序列,氨基端含有ZFP 序列。然后将这些融合序列各自克隆到修饰的哺乳动物表达载体pcDNA3中。构建 物的示意图见图8。
表4:IL2Rγ基因的锌指设计
  靶序列  F1  F2  F3  F4   AACTCGGATAAT   (SEQ ID NO:43)  DRSTLIE  (SEQ ID NO:44)  SSSNLSR  (SEQ ID NO:45)  RSDDLSK  (SEQ ID NO:46)  DNSNRIK  (SEQ ID NO:47)   TAGAGGaGAAAGG   (SEQ ID NO:48)  RSDNLSN  (SEQ ID NO:49)  TSSSRIN  (SEQ ID NO:50)  RSDHLSQ  (SEQ ID NO:51)  RNADRKT  (SEQ ID NO:52)   TACAAGAACTCG   (SEQ ID NO:53)  RSDDLSK  (SEQ ID NO:54)  DNSNRIK  (SEQ ID NO:55)  RSDALSV  (SEQ ID NO:56)  DNANRTK  (SEQ ID NO:57)   GGAGAAAGG   (SEQ ID NO:58)  RSDHLTQ  (SEQ ID NO:59)  QSGNLAR  (SEQ ID NO:60)  RSDHLSR  (SEQ ID NO:61)
注:以各锌指的α螺旋部分为起点时,上述锌指氨基酸序列(单字母码)代表了残基-1至+6。指F1最 接近该蛋白的氨基端。
按照以下方法获得供体DNA分子。首先,用K562细胞的基因组DNA作模板, 扩增对应于X染色体(2003年7月的UCSC)″-″链的位置69196910-69197609的人DNA 的700个碱基对片段,其包含人IL2Rγ基因的外显子3。见图9。用于扩增的引物序 列见表5(标为初始扩增引物1和初始扩增引物2)。然后用标准的重叠延伸PCR方法 (Ho等,同上)改变PCR产物,以便用序列TAAAAGAATTCCGACAAC(SEQ ID NO:63) 取代序列TACAAGAACTCGGATAAT(SEQ ID NO:62)。这种取代导致在核苷酸25 处引入点突变(图7),从而将酪氨酸91密码子TAC转变为TAA终止密码子,使得 在重组后能够区分供体衍生序列与内源性染色体序列,因为密码子91下游序列有差 异。将得到的700碱基对片段克隆到pCR4BluntTopo中,该质粒不含与人基因组同 源的任何序列。见图10。
在染色体IL2Rγ基因的靶向突变中,用混合的脂质转染/电穿孔试剂(艾玛科萨公 司(Amaxa))将供体质粒以及各自编码一对ZFP-FokI融合物之一的两种质粒引入 2×106个K652细胞中。在不同实验中均检测到各对ZFP/FokI(见表4)。对照包括仅用 编码ZFP-FokI融合物的两种质粒转染的细胞和仅用供体质粒转染的细胞。在5% CO2/37℃下培养细胞。转染48小时后,分离细胞的基因组DNA,用200ng作为PCR 扩增的模板,用与供体序列(X染色体″+″链上的核苷酸69196839-69196863;2003年 7月的UCSC)的同源性区域外侧的基因区域互补的一种引物,和与引入不同突变因 此其序列不同于染色体DNA序列的供体分子区域互补的第二种引物进行PCR(见 上)。引物序列见表5,分别标为“染色体特异性引物”和“供体特异性引物”。采用这两 种引物通过靶向重组获得基因组DNA的500bp扩增产物。扩增条件为:94℃2分 钟,然后是35个以下循环:94℃30秒,62℃1分钟,72℃45秒;最后步骤是72℃ 7分钟。
这种分析的结果(图11)表明,用提取自供体质粒和两对ZFP-FokI-编码质粒之一 转染细胞的DNA获得预计大小(500个碱基对)的扩增产物。仅用一对ZFP编码质粒 (无供体质粒)转染的细胞的DNA不产生该500bp产物,仅用供体质粒转染的细胞的 DNA也不产生该产物。
表5:IL2Rγ基因的扩增引物
  初始扩增引物1   TGTCGAGTACATGAATTGCACTTGG(SEQ ID NO:64)   初始扩增引物2   TTAGGTTCTCTGGAGCCCAGGG(SEQ ID NO:65)   染色体特异性引物   CTCCAAACAGTGGTTCAAGAATCTG(SEQ ID NO:66)   供体特异性引物   TCCTCTAGGTAAAGAATTCCGACAAC(SEQ ID NO:67)
为了验证此结果,将采用第二对ZFP/FokI融合物从实验中获得的扩增产物克隆 到pCR4Blunt-Topo(英杰公司)中,测定其核苷酸序列。如图12所示(SEQ ID NO:12), 该序列由染色体序列与供体质粒序列之间的融合物组成。具体说,在该序列的位置 43上观察到使酪氨酸91转变为终止密码子的G至A突变。位置43-58含有供体独 有的核苷酸;核苷酸32-42和59-459是供体和染色体的共有序列,核苷酸460-552 是染色体的特有序列。出现供体特有序列共价连接于染色体中存在的、而供体不存 在的序列表明,同源重组已将来自供体质粒的DNA引入该染色体中。
实施例3:通过靶向重组编辑染色体β-珠蛋白基因
人β珠蛋白基因是成人红细胞中负责血红蛋白结构和功能的两种基因产物中的 一种。β-珠蛋白基因的突变可导致镰状细胞贫血。设计能结合此序列中靠近导致镰状 细胞贫血突变核苷酸位置的两种锌指蛋白。图13显示了人β-珠蛋白基因的一部分核 苷酸序列,在图13所示序列中用下划线表示了两种锌指蛋白的靶位点。两种锌指蛋 白的识别区的氨基酸序列见表6。如上所述,将编码这两种ZFP结合域的序列各自 融合于编码FokI切割半域的序列,而产生靶向内源性β珠蛋白基因的工程改造的 ZFP-核酸酶。然后,将这些融合序列各自克隆到哺乳动物表达载体pcDNA3.1(图14) 中。
表6:β-珠蛋白基因的锌指设计
 靶序列  F1  F2  F3 F4  GGGCAGTAACGG  (SEQ ID NO:68)  RSDHLSE  (SEQ ID NO:69)  QSANRTK  (SEQ ID NO:70)  RSDNLSA  (SEQ ID NO:71) RSQNRTR (SEQ ID NO:72)  AAGGTGAACGTG  (SEQ ID NO:73)  RSDSLSR  (SEQ ID NO:74)  DSSNRKT  (SEQ ID NO:75)  RSDSLSA  (SEQ ID NO:76) RNDNRKT (SEQ ID NO:77)
注:以各锌指的α螺旋部分为起点时,上述锌指氨基酸序列(单字母码)代表了残基-1至+6。指F1最 接近该蛋白的氨基端,指F4最接近羧基端。
按照以下方法获得供体DNA分子。首先,用K562细胞的基因组DNA作模板, PCR扩增对应于染色体11(BLAT,UCSC人类基因组站点)″-″链核苷酸 5212134-5212833的人基因组DNA的700个碱基对片段。用于扩增的引物序列见表 7(标为初始扩增引物1和初始扩增引物2)。得到的扩增片段含有与人β珠蛋白基因 的启动子、前两个外显子和第一内含子相对应的序列。β珠蛋白序列中外显子1和2、 第一内含子和引物结合位点的位置示意图见图15。然后,再用PCR修饰克隆产物在 核苷酸305-336之间引入一组序列改变(如图13所示),从而用序列 CGTTATGCCCAGTAAC(SEQ ID NO:79)(粗体表示改变)取 代了序列CCGTTACTGCCCTGTGGGGCAAGGTGAACGTG(SEQ ID NO:78)。特 别对这些改变中的一部分(用小写字母表示)进行工程改造,以防止整合到染色体中 后,ZFP/FokI融合蛋白可能结合和切割供体序列。此外,所有这些序列改变都能够 在重组后区分供体序列与内源性染色体序列。将得到的700碱基对片段克隆到 pCR4-TOPO中,该质粒不含与人基因组同源的任何序列(图16)。
在染色体β珠蛋白基因的靶向突变中,用核转染溶液(NucleofectorTM Solution)(艾 玛科萨生物系统公司)转染,将两种编码ZFP-FokI融合物的质粒和供体质粒 (pCR4-TOPO-HBB供体)引入1×106个K562细胞中。对照包括:仅用100ng(低)或 200ng(高)编码ZFP-FokI融合物的两种质粒转染的细胞、仅用200ng(低)或600ng(高) 供体质粒转染的细胞、用GFP-编码质粒转染的细胞、模拟物转染的细胞。用补充有 10%胎牛血清(FBS)(海克隆公司(Hyclone))和2mM L-谷胺酰胺的RPMI培养基 1640(英杰公司)培养细胞。在5%CO2气氛下、37℃培养细胞。转染72小时后,从细 胞中分离基因组DNA,取200ng用作PCR扩增的模板,采用与供体序列(染色体11″-″ 链上的核苷酸5212883-5212905)同源区域外侧的基因区域互补的一种引物和与将不 同突变引入供体序列的供体分子某区域互补的第二种引物(同上)进行扩增。这些引物 的序列见表7(分别标为“染色体特异性引物”和“供体特异性引物”)。如果发生靶向重 组,采用这两种引物,将由基因组DNA获得415碱基对的扩增产物。作为DNA加 样对照,还用初始扩增引物1和初始扩增引物2引物进行PCR反应,以保证将相似 水平的基因组DNA加到各PCR反应中。扩增条件是:95℃2分钟,然后是40个以 下循环:95℃30秒,60℃45秒,68℃2分钟;最后步骤是68℃10分钟。
这种分析的结果(图17)表明,只有用提取自“高”浓度供体质粒和两种ZFP-FokI 质粒转染细胞的DNA才能获得415碱基对的扩增产物,这与供体序列靶向重组到染 色体β-珠蛋白基因座中相符。
表7:人β珠蛋白基因的扩增引物
  初始扩增引物1   TACTGATGGTATGGGGCCAAGAG(SEQ ID NO:80)   初始扩增引物2   CACGTGCAGCTTGTCACAGTGC(SEQ ID NO:81)   染色体特异性引物   TGCTTACCAAGCTGTGATTCCA(SEQ ID NO:82)   供体特异性引物   GGTTGACGATCGGAATTC(SEQ ID NO:83)
为了验证这个结果,将扩增产物克隆到pCR4-TOPO(英杰公司)中,测定其核苷 酸序列。如图18所示(SEQ ID NO:14),该序列由供体质粒上不存在的染色体序列 和供体质粒特有序列的融合物组成。例如,在此序列的位置377和383上观察到破 坏ZFP结合的两个C→G突变。核苷酸377-408代表获自含有上述序列改变的供体 质粒的序列;核苷酸73-376是供体和染色体的共有序列,核苷酸1-72是染色体的特 有序列。基因组中供体特异性和染色体特异性序列共价连接,证实了供体序列已成 功重组到K562细胞基因组中的正确基因座上。
实施例4:ZFP-FokI接头(ZC接头)的优化
为了检验ZC接头长度对切割效率的影响,用不同长度的ZC接头将4指ZFP 结合域融合于FokI切割半域。ZFP的靶位点是5′-AACTCGGATAAT-3′(SEQ ID NO:84),各锌指识别区(以α螺旋为起点时,位置-1至+6)的氨基酸序列如下(其中F1 是N端,F4是C端锌指):
F1:DRSTLIE(SEQ ID NO:85)
F2:SSSNLSR(SEQ ID NO:86)
F3:RSDDLSK(SEQ ID NO:87)
F4:DNSNRIK(SEQ ID NO:88)
构建上述ZFP结合域和FokI切割半域之间间隔2、3、4、5、6或10个氨基酸 残基的ZFP-FokI融合物。检测这些蛋白切割含有ZFP靶位点反向重复序列的底物的 能力,重复序列间间隔4、5、6、7、8、9、12、15、16、17、22或26个碱基对。
该融合构建物ZFP-FokI连接区中的氨基酸序列(下划线表示ZC接头序列)如下:
10-残基接头HTKIHLRQKDAARGSQLV(SEQ ID NO:89)
6-残基接头HTKIHLRQKGSQLV(SEQ ID NO:90)
5-残基接头HTKIHLRQGSQLV(SEQ ID NO:91)
4-残基接头HTKIHLRGSQLV(SEQ ID NO:92)
3-残基接头HTKIHLGSQLV(SEQ ID NO:93)
2-残基接头HTKIHGSQLV(SEQ ID NO:94)
各种切割底物的序列(下划线表示ZFP靶位点)如下:
4bp分隔物CTAGCATTATCCGAGTTACACAACTCGGATAATGCTAG GATCGTAATAGGCTCAATGTGTTGAGCCTATTACGATC (SEQ ID NO:95)
5bp分隔物CTAGCATTATCCGAGTTCACACAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTGTGTTGAGCCTATTACGATC (SEQ ID NO:96)
6bp分隔物CTAGGCATTATCCGAGTTCACCACAACTCGGATAATGACTAG GATCCGTAATAGGCTCAAGTGGTGTTGAGCCTATTACTGATC (SEQ ID NO:97)
7bp分隔物CTAGCATTATCCGAGTTCACACACAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTGTGTGTTGAGCCTATTACGATC (SEQ ID NO:98)
8bp分隔物CTAGCATTATCCGAGTTCACCACACAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTGGTGTGTTGAGCCTATTACGATC (SEQ ID NO:99)
9bp分隔物CTAGCATTATCCGAGTTCACACACACAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTGTGTGTGTTGAGCCTATTACGATC (SEQ ID NO:100)
12bp分隔物CTAGCATTATCCGAGTTCACCACCAACACAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTGGTGGTTGTGTTGAGCCTATTACGATC (SEQ ID NO:101)
15bp分隔物CTAGCATTATCCGAGTTCACCACCAACCACACAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTGGTGGTTGGTGTGTTGAGCCTATTACGATC (SEQ ID NO:102)
16bp分隔物CTAGCATTATCCGAGTTCACCACCAACCACACCAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTGGTGGTTGGTGTGGTTGAGCCTATTACGATC (SEQ ID NO:103)
17bp分隔物CTAGCATTATCCGAGTTCAACCACCAACCACACCAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTTGGTGGTTGGTGTGGTTGAGCCTATTACGATC (SEQ ID NO:104)
22bp分隔物 CTAGCATTATCCGAGTTCAACCACCAACCACACCAACACAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTTGGTGGTTGGTGTGGTTGTGTTGAGCCTATTACGATC (SEQ ID NO:105)
26bp分隔物 CTAGCATTATCCGAGTTCAACCACCAACCACACCAACACCACCAACTCGGATAATGCTAG GATCGTAATAGGCTCAAGTTGGTGGTTGGTGTGGTTGTGGTGGTTGAGCCTATTACGATC (SEQ ID NO:106)
用标准的分子生物学技术构建编码不同ZFP-FokI融合蛋白的质粒(见上),在体 外用偶联的转录/翻译系统表达编码蛋白。对各构建物用20μL TnT混合物孵育200ng 线性化质粒DNA,30℃孵育1小时45分钟。TnT混合物含有100μl TnT裂解物(威 斯康星州麦迪逊的普洛麦格公司(Promega))和4μl T7 RNA聚合酶(普洛麦格公司)+2 μl甲硫氨酸(1mM)+2.5μl ZnCl2(20mM)。
为了分析不同ZFP-FokI融合物对DNA的切割,将1μl偶联的转录/翻译反应混 合物与约1ng DNA底物(用T4多核苷酸激酶作32P末端标记)混合,用FokI切割缓 冲液将该混合物稀释至最终体积19μl。FokI切割缓冲液含有20mM Tris-HCl pH 8.5、 75mM NaCl、10μM ZnCl2、1mM DTT、5%甘油、500μg/ml BSA。37℃培育该混合 物1小时。然后加入也含有8mM MgCl2的6.5μl FokI缓冲液,继续于37℃培育1 小时。向各反应中加入10μl酚-氯仿溶液、混合、离心分离各相,提取蛋白。在10% 聚丙烯酰胺凝胶上电泳分析各反应的10微升水相。
进行凝胶放射自显影,通过以下方法计算各对ZFP-FokI融合物/底物的切割效 率:定量测定对应于未切割和切割底物条带的放射性,相加获得总放射性,测定代 表切割产物条带的放射性占总放射性的百分数。
此实验的结果见表8。这些数据使得能够选择对给定靶位点分离能提供最优切 割效率的ZC接头。这些数据还使得能够选择接头的长度以在所选的一对靶位点上切 割,但能区别而不会在分隔不同于所需切割位点的相同或相似ZFP靶位点处切割。
表8:对不同长度的ZC接头和不同分隔的结合位点的DNA切割效率*
       2-残基    3-残基    4-残基    5-残基    6-残基    10-残基
4bp    74%      81%      74%      12%      6%       4%
5bp    61%      89%      92%      80%      53%      40%
6bp    78%      89%      95%      91%      93%      76%
7bp    15%      55%      80%      80%      70%      80%
8bp    0%       0%       8%       11%      22%      63%
9bp    2%       6%       23%      9%       13%      51%
12bp   8%       12%      22%      40%      69%      84%
15bp   73%      78%      97%      92%      95%      88%
16bp   59%      89%      100%     97%      90%      86%
17bp   5%       22%      77%      71%      85%      82%
22bp   1%       3%       5%       8%       18%      58%
26bp   1%       2%       35%      36%      84%      78%
*列代表不同的ZFP-FokI融合构建物,所示数值表示分隔ZFP与 FokI切割半域的残基数量。行代表不同DNA底物,所示数值是分 隔ZFP靶位点反向重复序列的碱基对数量。
就带有四个残基接头的ZFP-FokI融合物而言,其接头的氨基酸序列不同。在不 同的构建物中,初始LRGS接头序列(SEQ ID NO:107)改变成LGGS(SEQ ID NO:108)、 TGGS(SEQ ID NO:109)、GGGS(SEQ ID NO:110)、LPGS(SEQ ID NO:111)、LRKS (SEQ ID NO:112)和LRWS(SEQ ID NO:113);在结合位点之间含有六碱基分隔物的 底物检测所产生的融合物。与含有初始LRGS序列(SEQ ID NO:107)的融合物相比, 观察到含有LGGS(SEQ ID NO:108)接头序列的融合物切割效率较高。含有 LRKS(SEQ ID NO:112)和LRWS(SEQ ID NO:113)序列的融合物切割效率低于LRGS 序列(SEQ ID NO:107),而其余融合物的切割效率与含有初始LRGS序列(SEQ ID NO:107)的融合物类似。
实施例5:改变二聚化界面中FokI切割半域提高切割特异性
设计的一对ZFP/FokI融合蛋白(称为5-8和5-10)能结合于IL-2Rγ基因第五外显 子中的靶位点,而促进靶位点之间区域的切割。图19显示了该基因的相关区域,包 括这两种融合蛋白的靶序列。5-8蛋白的氨基酸序列见图20,5-10蛋白的氨基酸序 列见图21。这两种蛋白含有10个氨基酸的ZC接头。关于这些蛋白质的锌指部分, 表9给出了DNA靶序列以及锌指识别区的氨基酸序列。
表9:IL2Rγ基因的锌指设计
  融合物   靶序列   F1   F2   F3   F4   5-8   ACTCTGTGGAAG   (SEQ ID NO:114)   RSDNLSE   (SEQ ID NO:115)   RNAHRIN   (SEQ ID NO:116)   RSDTLSE   (SEQ ID NO:117)   ARSTRTT   (SEQ ID NO:118)   5-10   AACACGaAACGTG   (SEQ ID NO:119)   RSDSLSR   (SEQ ID NO:120)   DSSNRKT   (SEQ ID NO:121)   RSDSLSV   (SEQ ID NO:122)   DRSNRIT   (SEQ ID NO:123)
注:以各锌指的α螺旋部分为起点时,上述锌指氨基酸序列(单字母码)代表了残基-1至+6。指F1最 接近该蛋白的氨基端。
用含有该靶序列的标记DNA模板在体外检测这对融合蛋白催化在其靶序列(见 图19)之间特异性切割DNA的能力和测定诊断性消化产物的存在。采用两种蛋白时 获得特异性切割(表10,第一行)。然而,没有5-8蛋白时,5-10融合蛋白(包含野生 型FokI切割半域)也能对非靶位点进行异常切割(表10,第二行),可能是由于自身二 聚化。
因此,将氨基酸残基490的谷氨酸(E)改变为赖氨酸(K)修饰5-10蛋白的FokI切 割半域。(按照Wah等,(同上)所述对FokI蛋白中的氨基酸残基进行编号)。设计的 这种修饰通过改变二聚化界面中的氨基酸残基防止同源二聚化。与母体5-10蛋白不 同,在没有5-8融合蛋白(表10,第3行)时5-10(E490K)突变体不能在异常位点上切 割。然而,5-10(E490K)突变体与5-8蛋白一起能催化该底物的特异性切割(表10,第 4行)。因此,改变参与二聚化的5-10蛋白的切割半域中的残基防止了此融合蛋白由 于自身二聚化而导致的异常切割。显示E490R突变体的同源二聚化水平也低于母体 蛋白。
此外,用谷氨酸(E)取代486位的谷胺酰胺(Q)残基,修饰5-8蛋白的二聚化界面。 检测这种5-8(Q486E)突变体在野生型5-10蛋白或5-10(E490K)突变体存在下催化靶 向切割的能力。在5-8(Q486E)和野生型5-10(表10,第5行)存在下培育标记底物时 没观察到DNA切割。然而,5-8(Q486E)和5-10(E490K)突变体联用时(表10,第6行), 获得切割。
这些结果表明,改变这类融合蛋白的一种或两种切割半域的氨基酸序列能最大 程度降低或消除ZFP/FokI融合蛋白对在两种融合蛋白靶序列限定区域以外区域进行 的DNA切割。
表10:含野生型和突变型切割半域的ZFP/FokI融合蛋白对的DNA切割
  ZFP5-8结合域   ZFP5-10结合域   DNA切割   1   野生型FokI   野生型FokI   特异性   2   不存在   野生型FokI   非特异性   3   不存在   FokI E490K   不切割   4   野生型FokI   FokI E490K   特异性   5   FokI Q486E   野生型FokI   不切割   6   FokI Q486E   FokI E490K   特异性
注:该表各行代表检验ZFP/FokI融合蛋白切割标记DNA底物各次实验的结果。一 种融合蛋白含有5-8DNA结合域,另一种融合蛋白含有5-10DNA结合域(见表9和 图19)。此表中指出了该融合蛋白的切割半域部分。因此,ZFP 5-8列中的条目说明 融合于ZFP 5-8的FokI切割域类型;ZFP 5-10列中的条目说明融合于ZFP 5-10的 FokI切割域类型。在FokI切割半域突变体中,数值指FokI蛋白中的氨基酸残基数; 数值前面的字母指野生型蛋白中存在的氨基酸,数值之后的字母指产生该修饰蛋白 过程中野生型残基改变的氨基酸。
‘不存在’说明,在具体实验中删去了整个ZFP/FokI融合蛋白。
此实验所用的DNA底物是含有两种ZFP 5-8和ZFP 5-10的靶位点的约400bp PCR产物。这两种靶位点的序列和相对取向参见图19。
实施例6:产生缺陷型增强绿色荧光蛋白(eGFP)基因
增强绿色荧光蛋白(eGFP)是氨基酸64(phe至leu)和65(ser至thr)上有改变的绿色 荧光蛋白(GFP;参见例如,Tsien(1998)Ann.Rev.Biochem.67:509-544)的修饰形式。 Heim等(1995)Nature 373:663-664;Cormack等(1996)Gene 173:33-38。通过产生eGFP 基因的缺陷形式构建eGFP-基报道系统,其含有终止密码子和2-bp移码突变。eGFP 基因序列见图22。采用白金Taq DNA聚合酶高保真试剂盒(英杰公司),以 寡核苷酸GFP-Bam、GFP-Xba、终止正义2和终止反义2作引物(寡核苷酸序列见下 表11),通过重叠PCR诱变插入突变。GFP-Bam和GFP-Xba用作外侧引物,而引物 终止正义2和终止反义2用作编码核苷酸改变的内侧引物。编码全长eGFP基因的 peGFP-NI载体(BD生物科学公司(BD生物科学公司))用作两个独立扩增反应的DNA 模板,第一个反应利用GFP-Bam和终止反义2寡核苷酸作引物,第二个反应利用 GFP-Xba和终止正义2寡核苷酸作引物。这产生了序列重叠的两种扩增产物。合并 这些产物,用作第三次扩增反应的模板,用外侧GFP-Bam和GFP-Xba寡核苷酸作引 物,重新产生修饰的eGFP基因,此基因中用序列TAACAC(SEQ ID NO:125)取代 了核苷酸280-287的序列GACCACAT(SEQ ID NO:124)。所有扩增反应的PCR条 件如下:模板先在94℃下变性2分钟,然后是25个下述扩增循环:94℃孵育该反应 30秒,46℃45秒,68℃60秒。最后一轮延伸在68℃进行10分钟。最终扩增产物 的序列见图23。用TOPO-TA克隆试剂盒(英杰公司)将这种795bp片段克隆到 pCR(R)4-TOPO载体中,以产生pCR(R)4-TOPO-GFPmut构建物。
表11:GFP的寡核苷酸序列
寡核苷酸序列5’-3’
                                       
GFP-Bam    CGAATTCTGCAGTCGAC(SEQ ID NO:126)
GFP-Xba    GATTATGATCTAGAGTCG(SEQ ID NO:127)
终止正义2  AGCCGCTACCCCTAACACGAAGCAG(SEQ ID NO:128)
终止反义2  CTGCTTCGTGTTAGGGGTAGCGGCT(SEQ ID NO:129)
实施例7:靶向eGFP的锌指核酸酶的设计和组装
设计的两种三-指ZFP能结合对应于核苷酸271-294(按照图23编号)的GFP基因 突变区域(实施例6)。这些蛋白的结合位点与分隔两个结合位点的6个碱基对的取向 相反。见图23。ZFP 287A结合非编码链的核苷酸271-279,而ZFP 296结合编码链 的核苷酸286-294。ZFP识别区的DNA靶位点和氨基酸序列见下,并见表12:
287A:
F1(GCGg)  RSDDLTR  (SEQ ID NO:130)
F2(GTA)   QSGALAR  (SEQ ID NO:131)
F3(GGG)   RSDHLSR  (SEQ ID NO:132)
296S:
F1(GCA)   QSGSLTR  (SEQ ID NO:133)
F2(GCA)   QSGDLTR  (SEQ ID NO:134)
F3(GAA)   QSGNLAR  (SEQ ID NO:135)
表12:GFP基因的锌指设计
  蛋白质   靶序列   F1   F2   F3   287A   GGGGTAGCGg   (SEQ ID NO:136)   RSDDLTR   (SEQ ID NO:137)   QSGALAR   (SEQ ID NO:138)   RSDHLSR   (SEQ ID NO:139)   296S   GAAGCAGCA   (SEQ ID NO:140)   QSGSLTR   (SEQ ID NO:141)   QSGDLTR   (SEQ ID NO:142)   QSGNLAR   (SEQ ID NO:143)
注:以各锌指的α螺旋部分为起点时,上述锌指氨基酸序列(单字母码)代表了残基-1至+6。指F1最 接近该蛋白的氨基端,指F3最接近羧基端。
将PCR组装产生的编码这些蛋白的序列(如美国专利号6,534,261),克隆到 pcDNA3.1载体(英杰公司)的KpnI和BamHI位点之间,框内融合于FokI核酸内切酶 的催化域(Looney等(1989)Gene 80:193-208的序列的氨基酸384-579)。得到的构建物 称为pcDNA3.1-GFP287-FokI和pcDNA3.1-GFP296-FokI(图24)。
实施例8:用设计的锌指核酸酶体外靶向DNA切割
用pCR(R)4-TOPO-GFPmut构建物(实施例6)提供了用于检测287和296锌指蛋 白特异性识别其靶位点和体外切割此eGFP修饰形式的能力的模板。
用T7和T3通用引物并以pCR(R)4-TOPO-GFPmut为模板,通过PCR扩增获得 含有缺陷型eGFP-编码插入物的DNA片段。用γ-32P-ATP和T4多核苷酸激酶对此片 段进行末端标记。用微离心(microspin)G-50柱(安玛西亚公司(Amersham))去除未掺入 的核苷酸。
用体外偶联的转录/翻译系统表达实施例7所述的287和296锌指核酸酶。用20 μL TnT混合物培育各构建物的200ng线性化质粒DNA,30℃培育1小时45分钟。 TnT混合物含有补充2μl甲硫氨酸(1mM)和2.5μl ZnCl2(20mM)的100μl TnT裂解 物(其包含T7RNA聚合酶,威斯康星州麦迪逊的普洛麦格公司)。
为了分析DNA的切割,混合等份的各287和296偶联的转录/翻译反应混合物, 然后用切割缓冲液连续稀释。切割缓冲液含有20mM Tris-HCl pH 8.5、75mM NaCl、 10mM MgCl2、10μM ZnCl2、1mM DTT、5%甘油、500μg/ml BSA。将5μl各稀释 液与约1ng DNA底物(如上所述用T4多核苷酸激酶作32P末端标记)混合,进一步稀 释各混合物,以产生20μl切割反应物,其组成如下:20mM Tris-HCl pH 8.5、75mM NaCl、10mM MgCl2、10μM ZnCl2、1mM DTT、5%甘油、500μg/ml BSA。37℃培 育切割反应物1小时。用以下方法提取蛋白质:将10μl酚-氯仿溶液加到各反应物中, 混合,离心分离各相。在10%聚丙烯酰胺凝胶上跑电泳分析各反应物的10微升水相。
对该凝胶进行放射性自显影,此实验的结果见图25。最左边四条泳道显示了反 应结果,其中各偶联的转录/翻译反应(切割反应)混合物的最终稀释度分别为 1/156.25、1/31.25、1/12.5和1/5,导致各偶联的转录/翻译反应的有效体积分别为0.032、 0.16、0.4和1μl。分子量低于起始片段的两种DNA片段(图25中标为“未切割对照” 的泳道)与反应混合物中287和296锌指核酸内切酶含量递增相关联,证明在预计靶 位点上发生了DNA切割。
实施例9:产生含有整合的缺陷型eGFP基因的稳定细胞系
从pCR(R)4-TOPO-GFPmut载体中切下编码突变eGFP、eGFPmut的DNA片段(实 施例6),将其克隆到pcDNA4/TO的HindIII和NotI位点中,从而将该基因置于四环 素-诱导型CMV启动子的控制下。得到的质粒称为pcDNA4/TO/GFPmut(图26)。用 补充有10%无四环素(Tet-free)胎牛血清(FBS)(海克隆公司(HyClone))的杜百科改良的 易格培养基(Dulbecco’s modified Eagle’s medium,DMEM)(英杰公司)培育T-Rex 293 细胞(英杰公司)。将细胞接种到6孔板中,培养至50%汇合,用pcDNA4/TO/GFPmut 各自转染两个孔。使细胞恢复48小时,然后,合并来自两孔的细胞,并用选择性培 养基,即补充有400μg/ml零霉素(英杰公司)的培养基分到10×15-cm2平皿中。每3 天更换一次培养基,10天后,分离单个集落并进一步扩增。通过定量RT-PCR(泰克 曼)单独检测各克隆谱系强力霉素(dox)-诱导的eGFPmut基因表达。
在定量RT-PCR分析中,用高纯分离试剂盒(罗氏分子生化公司(Roche Molecular Biochemicals))分离dox处理细胞和未处理细胞的总RNA,用泰克曼实验 对各样品的25ng总RNA进行实时定量RT-PCR,以分析内源性基因表达。探针和 引物序列见表13。在以下条件下在ABI 7700 SDS仪器(泊津艾莫生物科学公司 (PerkinElmer Life Sciences))中进行反应。用多转录(MultiScribe)逆转录酶(泊津艾莫生 物科学公司)在48℃进行逆转录反应30分钟,然后是95℃10分钟的变性步骤。用 安普力金(AmpliGold)DNA聚合酶(泊津艾莫生物科学公司)进行聚合酶链反应(PCR), 具体是40个下述循环:95℃15秒和60℃1分钟。用SDS软件1.7版分析结果,见 图27,eGFPmut基因的表达按人GAPDH基因的表达标准化。许多细胞系显示了强 力霉素-依赖性eGFP表达;选择谱系18(T18)作为进一步研究的模式细胞系。
表13:用于mRNA分析的寡核苷酸
 寡核苷酸   序列  eGFP引物1(5T)   CTGCTGCCCGACAACCA(SEQ ID NO:144)  eGFP引物2(3T)   CCATGTGATCGCGCTTCTC(SEQ ID NO:145)  eGFP引物   CCCAGTCCGCCCTGAGCAAAGA(SEQ ID NO:146)  GAPDH引物1   CCATGTTCGTCATGGGTGTGA(SEQ ID NO:147)  GAPDH引物2   CATGGACTGTGGTCATGAGT(SEQ ID NO:148)  GAPDH引物   TCCTGCACCACCAACTGCTTAGCA(SEQ ID NO:149)
实施例10:产生用于校正缺陷型染色体eGFP基因的供体序列
用PCR构建含有校正缺陷型eGFPmut基因的遗传信息的供体构建物。如上所述 用peGFP-NI载体作模板进行PCR反应。为了防止靶向重组实验中供体构建物的背 景表达,用引物GFPnostart和GFP-Xba(表14提供的序列)作PCR去除供体中的前 12bp和起始密码子。通过TOPO-TA克隆将得到的PCR片段(734bp)克隆到 pCR(R)4-TOPO载体中(该载体不含哺乳动物细胞启动子),产生pCR(R)4-TOPO-GFP 供体5(图28)。此构建物的eGFP插入序列(对应于图22所示序列的核苷酸64-797) 见图29(SEQ ID NO:20)。
表14:用于构建供体分子的寡核苷酸
  寡核苷酸   序列5’-3’   GFPnostart   GGCGAGGAGCTGTTCAC(SEQ ID NO:150)   GFP-Xba   GATTATGATCTAGAGTCG(SEQ ID NO:151)
实施例11:靶向切割和重组校正整合在染色体eGFP基因中的突变
按照生产商方案,用一种或两种ZFP-FokI表达质粒(pcDNA3.1-GFP287-FokI和 pcDNA3.1-GFP296-FokI,实施例7)和300ng供体质粒pCR(R)4-TOPO-GFP供体5(实 施例10),和Opti-MEM I血清减少培养基配制的脂质转染2000试剂(Lipofectamine 2000Reagent)(英杰公司)转染T18稳定细胞系(实施例9)。转染后向培养基中加入2 ng/ml强力霉素,以诱导缺陷型染色体eGFP基因的表达5-6小时。转染24小时后, 加入100ng/ml诺考达唑(图30)或0.2μM长春碱(图31)将细胞阻滞在细胞周期的G2 期。使G2阻滞持续24-48小时,然后去除培养基使之释放。用PBS洗涤细胞,用含 有无四环素FBS和2ng/ml强力霉素的DMEM更换培养基。使细胞恢复24-48小时, 通过荧光活化细胞分选(FACS)分析监测产生eGFP荧光的细胞数,从而测定基因校正 效率。用贝克曼计数器EPICS XL-MCL和II型数据获取系统和显示软件2.0版进行 FACS分析。用氩气激光器在488nm处激发并监测525nm发射光(x-轴),从而测定 eGFP荧光。通过监测570nm发射光(y-轴)测定背景或自身荧光。将525nm荧光发 射水平高和570nm(E区)荧光发射水平低的细胞评为基因校正阳性。
表15以及图30和31小结了结果。图30和31显示了用编码ZFP核酸酶的 pcDNA3.1-GFP287-FokI和pcDNA3.1-GFP296-FokI质粒以及pCR(R)4-TOPO-GFP供 体5质粒转染T18细胞、用强力霉素诱导eGFP表达并且用诺考达唑(图30)或长春碱 (图31)将细胞阻滞在G2期的结果。两幅图均显示FACS描绘图,该图的右下部分(标 为E区,位于曲线以下的象限4部分)代表了具有eGFP荧光的细胞。在用诺考达唑 处理的转染细胞中,有5.35%细胞产生GFP荧光,荧光表明突变的染色体eGFP基 因被校正(图30),而6.7%用长春碱处理的细胞发生eGFP基因校正(图31)。在表15 第1-8行小结了这些结果,以及其它对照实验。
总之,这些实验显示,在两种ZFP核酸酶和供体序列的存在下,约1%处理细 胞发生基因校正,将处理细胞阻滞在细胞周期G2期使校正水平提高4-5倍。
表15:缺陷型染色体eGFP基因的校正
  实验   处理1   含有校正eGFP基   因的细胞百分数2   1   单用300ng供体   0.01   2   100ng ZFP 287+300ng供体   0.16   3   100ng ZFP 296+300ng供体   0.6   4   50ng ZFP 287+50ng ZFP 296+300ng供体   1.2   5   as 4+100ng/ml诺考达唑   5.35   6   as 4+0.2μM长春碱   6.7   7   无供体,无ZFP,100ng/ml诺考达唑   0.01   8   无供体,无ZFP,0.2μM长春碱   0.0   9   100ng ZFP287/Q486E+300ng供体   0.0   10   100ng ZFP296/E490K+300ng供体   0.01   11   50ng 287/Q486E+50ng 296/E490K+300ng供体   0.62   12   as 11+100ng/ml诺考达唑   2.37   13   as 11+0.2μM长春碱   2.56
注:
1:用编码一种或两种ZFP核酸酶的质粒和/或编码非缺陷型eGFP序列的供体质粒转 染含有缺陷型染色体eGFP基因的T18细胞,用强力霉素诱导染色体eGFP基因表达。 eGFP诱导后,任选将细胞阻滞在细胞周期G2期。转染5天后进行FACS分析。
2:数值是525nm发射光高且570nm发射光低的荧光的总百分比(FACS图的E区)。
实施例12:用二聚化界面中含有序列改变的锌指核酸酶校正缺陷型染色体基因
检测二聚化界面的序列被改变的锌指核酸酶能否催化校正缺陷型染色体eGFP 基因。采用实施例11所述方案,除了如实施例5所述改变ZFP核酸酶的酶部分(即 FokI切割半域)。因此,将E490K切割半域融合于GFP296ZFP结构域(表12),将 Q486E切割半域融合于GFP287ZFP(表12)。
结果见表15的第9-11行,这表明与仅存在两种核酸酶之一的情况相比,在二 聚化界面中有改变的两种ZFP核酸酶存在下基因校正频率显著提高。用供体质粒以 及编码287/Q486E和296/E490K锌指核酸酶的质粒转染T18细胞、然后用诺考达唑 或长春碱使其阻滞在G2期的其它实验证明,基因校正频率进一步提高,超过2%的 细胞产生eGFP荧光,表明已校正染色体eGFP基因(表15,第12和13行)。
实施例13:供体长度对基因校正频率的影响
在类似于实施例11所述的实验中,检测了供体序列长度对靶向重组频率的影响。 用这两种ZFP核酸酶转染T18细胞,用强力霉素诱导eGFP表达,如实施例11所述。 如实施例11所述,用含有734bp eGFP插入物(图29)的pCR(R)4-TOPO-GFP供体5 质粒(图28)转染细胞,或用含有与突变染色体eGFP基因同源的1527bp序列插入物 (图32)的相似质粒转染细胞。此外,评估了用诺考达唑阻滞在G2期对重组频率的影 响。
在第二个实验中,比较了0.7、1.08和1.5kbp长度的供体。如实施例11所述, 用50ng 287-FokI和296-FokI表达质粒(实施例7,表12)以及500ng 0.7kbp、1.08kbp 或1.5kbp的供体转染T18细胞。转染4天后,用FACS监测GFP荧光,检测细胞缺 陷型eGFP基因已校正的细胞。
表16所示的这两个实验的结果显示,较长的供体序列提高了靶向重组的频率(因 此,提高了基因校正的频率),并确认,细胞阻滞在细胞周期的G2期也能提高靶向 重组频率。
表16:供体长度和细胞周期阻滞对靶向重组频率的影响

注:数值代表FACS绘制图E区的荧光的总百分比(参见实施例11),说明发生靶向 重组以校正缺陷型染色体eGFP基因的细胞的比例。
实施例14:利用锌指核酸酶靶向切割和重组编辑内源性人IL-2Rγ基因
构建各自编码靶向人IL-2Rγ基因的ZFP-核酸酶的两种表达载体。各ZFP-核 酸酶含有通过4氨基酸ZC接头融合于IIS型限制性酶FokI的核酸酶结构域(Looney 等(1989)Gene 80:193-208)的序列的氨基酸384-579)的锌指蛋白-DNA结合域(见表17) (参见实施例4)。设计该核酸酶,使其结合于染色体IL-2Rγ基因外显子5中围绕密码 子228和229(该基因中的突变热点)的位置,并将双链断裂引入它们的结合位点之间 的DNA上。
表17:IL2Rγ基因外显子5的锌指设计
  靶序列   F1   F2   F3   F4   ACTCTGTGGAAG   (SEQ ID NO:152)5-8G   RSDNLSV   (SEQ ID NO:153)   RNAHRIN   (SEQ ID NO:154)   RSDTLSE   (SEQ ID NO:155)   ARSTRTN   (SEQ ID NO:156)   AAAGCGGCTCCG   (SEQ ID NO:157)5-9D   RSDTLSE   (SEQ ID NO:158)   ARSTRTT   (SEQ IDNO:159)   RSDSLSK   (SEQ ID NO:160)   QRSNLKV   (SEQ ID NO:161)
注:以各锌指的α螺旋部分为起点时,上述锌指氨基酸序列(单字母码)代表了残基-1至+6。指F1最 接近该蛋白的氨基端。
各嵌合核酸内切酶的完整DNA结合部分如下:
靶向ACTCTGTGGAAG的核酸酶(SEQ ID NO:152)
MAERPFQCRICMRNFSRSDNLSVHIRTHTGEKPFACDICGRKFARNAHRINHT KIHTGSQKPFQCRICMRNFSRSDTLSEHIRTHTGEKPFACDICGRKFAARSTRTNHT KIHLRGS(SEQ ID NO:162)
靶向AAAGCGGCTCCG的核酸酶(SEQ ID NO:157)
MAERPFQCRICMRNFSRSDTLSEHIRTHTGEKPFACDICGRKFAARSTRTTHT KIHTGSQKPFQCRICMRNFSRSDSLSKHIRTHTGEKPFACDICGRKFAQRSNLKVHT KIHLRGS(SEQ ID NO:163)
用各自编码前一段落所述ZFP-核酸酶之一的两种表达构建物转染人胚肾293细 胞(脂质转染2000试剂(Lipofectamine 2000);英杰公司)。还用供体构建物转染此细胞, 该构建物位于pCR4Blunt Topo(英杰公司)载体中携带对应于X染色体(UCSC人类基 因组,2003年7月版)“-”链的位置69195166-69196708的IL2Rγ基因座的1,543bp插 入片段。IL-2Rγ插入序列的外显子5序列中含有以下两个点突变(下划线表示):
 F  R  V  R  S  R  F  N  P  L  C  G  S (SEQ  ID NO:164)
TTTCGTGTTCGGAGCCGGTTTAACCCGCTCTGTGGAAGT(SEQ  ID NO:165)
第一个突变(CGC→CGG)不改变氨基酸序列(上面一行),作用是逆向影响ZFP- 核酸酶结合供体DNA和结合重组后染色体DNA的能力。第二个突变(CCA→CCG) 不改变氨基酸序列而产生限制性酶BsrBI的识别位点。
采用ZFP-核酸酶表达构建物各50或100纳克以及供体构建物0.5或1微克重复 两次转染。还进行了以下对照实验:用编码eGFP蛋白的表达质粒转染;仅用供体构 建物转染;用仅表达ZFP核酸酶的质粒转染。转染24小时后,将长春碱(西格玛公 司(Sigma))加入各组重复实验中的一个样品中,终浓度为0.2μM,不处理其它样品。 长春碱会影响细胞组装有丝分裂纺锤体的能力,从而起着强效G2阻滞剂的作用。还 进行这种处理以提高靶向频率,因为在细胞周期的G2期中,同源性导向的双链断裂 修复途径比非同源末端连接更有效。用0.2μM长春碱处理48小时后,更换培养基, 长春碱再处理24小时后回收细胞。然后,用DNA易组织试剂盒(DNEasy Tissue Kit)(恰基公司(Qiagen))分离所有细胞样品的基因组DNA。然后用图33示意图描述的 试验检测染色体IL-2Rγ基因座中是否存在新BsrBI位点,测定各样品的500纳克基 因组DNA的基因靶向频率。
简要说,用表18所示引物进行20个PCR循环,各引物杂交于恰好位于1.5kb 供体序列同源区外侧的染色体IL-2Rγ基因座。各PCR反应中包含α-32P-dCTP和 α-32P-dATP各20微居里,以便检测PCR产物。PCR反应物用G-50柱(安玛西亚公 司(Amersham))脱盐,用10单位BsrBI(新英格兰生物实验室公司(New England Biolabs))消化1小时。在10%非变性聚丙烯酰胺凝胶(伯乐公司(BioRad))上分辨消化 产物,干燥凝胶,并进行放射自显影(图34)。除对应于IL2Rγ基因座(图34中的“wt”) 的1.55kb扩增片段的主要PCR产物外,在对应于供体DNA构建物和两种ZFP-核酸 酶构建物转染细胞样品的泳道中观察到一条额外条带(图34中的“rflp”)。对照泳道中 均未出现这种额外条带,表明此实验中ZFP核酸酶促进含BsrBI RFLP的供体序列重 组到染色体中。
在其它实验中,将痕量含RFLP的IL-2RγDNA序列加到人基因组DNA(含有野 生型IL-2Rγ基因)中,扩增得到的混合物,用切割RFLP的限制性酶消化,结果表明 用此实验可定量检测少至0.5%的含RFLP序列。
表18:用于分析人IL-2Rγ基因的寡核苷酸
  寡核苷酸   序列   Ex5_1.5detF1   GATTCAACCAGACAGATAGAAGG(SEQ ID NO:166)   Ex5_1.5detR1   TTACTGTCTCATCCTTTACTCC(SEQ ID NO:167)
实施例15:K562细胞中IL-2Rγ基因座的靶向重组
K562是衍生自人慢性髓细胞性白血病的细胞系。用于靶向切割的蛋白是FokI 与5-8G和5-9D锌指DNA-结合域的融合物(实施例14,表17)。供体序列是含有经 突变引入BsrBI位点的人IL-2Rγ基因的1.5kbp片段,如实施例14所述。
用补充有10%胎牛血清(FBS)(海克隆公司(Hyclone))和2mM L-谷胺酰胺的 RPMI培养基1640(英杰公司)培养K562细胞。所有细胞均维持在37℃/5%CO2下。 按照生产商方案,用核转染试剂(NucleofectionTM)(溶液V,程序T16)(艾玛科萨生物 系统公司(Amaxa Biosystems))转染这些细胞,每个样品转染两百万个细胞。用于转染 DNA的各种组合如下:编码5-8G ZFP-FokI融合核酸内切酶的质粒、编码5-9D ZFP-FokI融合核酸内切酶的质粒、含有供体序列(如上所述和实施例14所述)的质粒, eGFP-N1载体(BD生物科学公司(BD生物科学公司))用作对照。
在第一个实验中,用表19所示的各种质粒或质粒组合转染细胞。
表19
  样品#   p-eGFP-N1   p5-8G   p5-9D   供体   长春碱   1   5μg   -   -   -   -   2   -   -   -   50μg   -   3   -   -   -   50μg   是   4   -   10μg   10μg   -   -   5   -   5μg   5μg   25μg   -   6   -   5μg   5μg   25μg   是   7   -   7.5μg   7.5μg   25μg   -   8   -   7.5μg   7.5μg   25μg   是   9   -   7.5μg   7.5μg   50μg   -   10   -   7.5μg   7.5μg   50μg   是
转染24小时后,使细胞接触0.2μM长春碱处理30小时。收集细胞,用PBS 洗涤两次,再接种于生长培养基。转染4天后收获细胞,以分析基因组DNA。
用DNA易试剂盒(DNEasy Kit)(恰基公司(Qiagen))提取细胞的基因组DNA。将 各样品的100纳克基因组DNA用于PCR反应,所用引物如下:
外显子5正向:GCTAAGGCCAAGAAAGTAGGGCTAAAG(SEQ ID NO:168)
外显子5反向:TTCCTTCCATCACCAAACCCTCTTG(SEQ ID NO:169)
这些引物能扩增对应于含有IL2Rγ基因外显子5的“-”链上位置 69195100-69196768(UCSC人类基因组,2003年7月版)的X染色体的1,669bp片段。 扩增与供体DNA发生同源重组的基因组DNA产生含有BsrBI位点的产物;而未与 供体DNA发生同源重组的基因组DNA的扩增产物不含此限制性位点。
各扩增反应物中包含α-32PdCTP和α-32PdATP各10微居里,以便观察反应产物。 20个PCR循环后,在塞佛得(Sephadex)G-50柱(法玛西亚公司(Pharmacia))上使该反 应物脱盐,用10单位BsrBI(新英格兰生物实验室公司(New England Biolabs))于37℃ 消化1小时。然后在10%非变性PAGE上分辨该反应物,干燥,曝光于磷光成像屏 (PhosphorImager screen)。
该实验的结果见图35。不存在供体用对照GFP质粒、单独供体质粒或两种ZFP 编码质粒转染细胞时,扩增产物不含BsrBI位点,如图35中对应于这些样品的泳道 中没有标为“rflp”的条带所示。然而,用供体质粒和两种ZFP编码质粒一起转染细胞 的基因组DNA含有与供体DNA同源重组引入的BsrBI位点(标为“rflp”的条带)。含 有RFLP的DNA产生的信号百分数定量(如图35所示)表明,在最优条件下,同源重 组转染细胞群体中全部IL-2Rγ基因发生变化的多达18%。
按照刚刚描述的方案进行第二个实验,除转染后扩增细胞10天外。用于转染的 DNA见表20。
表20
  样品#   p-eGFP-N1   p5-8G   p5-9D   供体   长春碱   1   50μg   -   -   -   -   2   -   -   -   50μg   -   3   -   -   -   50μg   是   4   -   7.5μg   7.5μg   -   -   5   -   5μg   5μg   25μg   -   6   -   5μg   5μg   25μg   是   7   -   7.5μg   7.5μg   50μg   -   8   -   7.5μg   7.5μg   50μg   是
分析扩增DNA的BsrBI消化物(如图36所示)再次证明,在多轮细胞分裂后,多 达18%的IL-2Rγ基因通过同源重组发生了序列改变。因此,此靶向重组的产物是稳 定的。
此外,用Southern印迹分析所述第二个实验中转染细胞的DNA。在此分析中, 用100单位EcoRI、50单位BsrBI和40单位DpnI(均购自新英格兰生物实验室公 司)37℃消化12微克各样品的基因组DNA 12小时。这一消化产生了天然IL-2Rγ基 因(缺少BsrBI位点)的7.7kbp EcoRI片段,序列因同源重组已改变的包含BsrBI位点 的染色体IL-2Rγ基因的6.7和1.0kbp片段。包含的甲基化-依赖性限制性酶DpnI可 破坏dam-甲基化的供体DNA。非甲基化的K562细胞基因组DNA则对DpnI消化有 抗性。
消化后,用酚-氯仿提取和乙醇沉淀纯化基因组DNA,重悬于TE缓冲液中,在 0.8%琼脂糖凝胶上分辨基因组DNA以及用EcoRI和SphI消化基因组DNA样品产生 的大小标记物。加工该凝胶,按标准方法进行碱性转移,将DNA转移到尼龙膜(施 莱歇尔和舒埃尔(Schleicher and Schuell))上。然后,使对应于X染色体“”链的位置 69198428-69198769(UCSC人类基因组,2003年7月版)的IL-2Rγ基因座的放射性标 记片段与印迹杂交。此基因区域在供体DNA的同源区以外。杂交后,使印迹膜曝光 磷光成像板(PhosphorImager plate),用分子动力学软件(Molecular Dynamics software) 获得定量数据。通过分析对应于EcoRI-BsrBI片段条带(放射性自显影图旁边的箭头; 放射自显影图的上图中实心三角形表示BsrBI位点)的强度测定染色体IL-2Rγ序列的 改变。
图37所示结果表明,同源重组改变了多达15%染色体IL-2Rγ序列,从而验证 了PCR分析的结果,即通过多轮细胞分裂后靶向重组的基因是稳定的。Southern印 迹还说明,图36所示结果不是由于扩增的人造物所致。
实施例16:在CD34阳性造血干细胞的IL-2Rγ基因座上靶向重组
可通过同源重组-介导的对导致疾病的特定DNA序列改变进行校正,来治疗该 遗传疾病(如重症联合免疫缺陷(SCID)和镰状细胞贫血)。在某些病例中,由多能细胞 遗传缺陷的校正产生效率和稳定性最高的治疗。为此,本实施例显示了人CD34-阳 性骨髓细胞中IL-2Rγ基因序列的改变。CD34+细胞是多能造血干细胞,它能产生红 细胞、骨髓细胞和淋巴细胞谱系。
骨髓衍生的人CD34细胞购自全细胞公司(AllCells,LLC),冻存运输。解冻这 些细胞,在补充有10%胎牛血清(FBS)(海克隆公司(Hyclone))和2mM L-谷胺酰胺的 RPMI培养基1640(英杰公司)中,37℃、5%CO2气氛下静置2小时。按照生产商方案, 用人CD34细胞核转染试剂盒(NucleofectorTM Kit)中的核转染试剂 (NucleofectionTM)(艾玛科萨生物系统公司(Amaxa Biosystems))转染细胞样品(1×106个 或2×106个细胞)。转染后,用补充有10%FBS、2mM L-谷胺酰胺、100ng/ml粒细胞 -集落刺激因子(G-CSF)、100ng/ml干细胞因子(SCF)、100ng/ml血小板生成素(TPO)、 50ng/ml Flt3配体和20ng/ml白介素-6(IL-6)的RPMI培养基1640(英杰公司)培养细胞。 转染后,立即将胱冬酶抑制剂zVAD-FMK(西格玛-奥德里奇公司(Sigma-Aldrich))加入 生长培养基中,终浓度为40μM,以阻断凋亡。48小时后再加入胱冬酶抑制剂至终 浓度20μM,以进一步防止凋亡。在5%CO2气氛下37℃培养这些细胞,转染3天 后收获细胞。
用于转染的细胞数和DNA见表21。
表21
  样品   细胞数   p-eGFP-N11   供体2   p5-8G3   p5-9D3   1   1×106   5μg   -   -   -   2   2×106   -   50μg   -   -   3   2×106   -   50μg   7.5μg   7.5μg
1.这是编码增强绿色荧光蛋白的对照质粒。
2.供体DNA是含有IL-2Rγ基因外显子5序列和引入了BsrBI位点的1.5kbp片段(参见实 施例14)。
3.这些是编码FokI与5-8G和5-9D锌指DNA结合域融合物的质粒(见表17)。
用马斯特DNA纯化试剂盒(MasterPure DNA Purification Kit)(震中公司 (Epicentre))提取细胞的基因组DNA。由于沉淀物中存在糖原,不可将此准确定量的 DNA用作PCR反应的输入物;用溴乙锭-染色琼脂糖凝胶分析获得的估计值表明, 各样品中采用了约50ng基因组DNA。然后用以下引物进行30个PCR循环,各引 物能杂交于恰好位于1.5kb供体同源区以外的染色体IL-2Rγ基因座:
ex5_1.5detF3  GCTAAGGCCAAGAAAGTAGGGCTAAAG(SEQ ID NO:170)
ex5_1.5detR3  TTCCTTCCATCACCAAACCCTCTTG(SEQ ID NO:171)
各PCR反应物中包含α-32PdCTP和α-32PdATP各20微居里,以便检测PCR产 物。为了在凝胶中提供定量参比物,Jurkat细胞中IL-2Rγ基因外显子5中存在自发 产生的SNP:此SNP通过破坏正常人DNA中存在的MaeII位点产生RFLP。分别将 1或10纳克正常人基因组DNA(获自加利福尼亚州帕洛阿尔托的克隆技术公司 (Clontech))加入100或90ng Jurkat基因组DNA中,以便产生参比标准品,如上所述 进行PCR。在G-50柱(安玛西亚公司(Amersham))上使该PCR反应物脱盐,用限制性 酶消化1小时:用10单位BsrBI(新英格兰生物实验室公司)消化实验样品;用MaeII 消化“参比标准品”。在10%非变性PAGE(伯乐公司(BioRad))上分辨消化产物,干燥 凝胶,曝光于磷光成像板(分子动力学公司(Molecular Dynamics))进行分析。
结果见图38。除对应于IL2Rγ基因座的1.6kb片段的主要PCR产物外(图38右 图中的“wt”),在对应于用编码ZFP-核酸酶的质粒和供体DNA构建物转染的细胞样 品的泳道中还观察到一条额外条带(标为“rflp”)。对照泳道中没有出现此额外条带, 这与此实验中ZFP-核酸酶帮助基因靶向共用γ链基因外显子5的观点一致。
虽然RFLP条带位置靠近野生型条带会使靶向速率的准确定量复杂化;但可通 过与参比标准品(左图)作比较来估计靶向频率,为1-5%。
实施例17:供体-靶序列同源性的作用
检测T18细胞系中供体DNA和与其重组的染色体序列之间的同源性程度对同 源重组频率的影响,如实施例9所述。这条线含有染色体整合的缺陷型eGFP基因, 供体DNA含有的序列改变对染色体基因而言可校正此缺陷。
因此,通过PCR诱变修饰实施例10所述的供体序列,产生与该靶序列非同源 性程度不同的一系列~700bp供体构建物。所有修饰的供体均含有能校正染色体eGFP 基因中缺陷的序列改变,和含有插入切割位点周围编码区的其它沉默突变(不改变编 码蛋白序列的DNA突变)。这些沉默突变应能防止锌指-切割域融合核酸酶结合和切 割供体序列,从而可降低预定的染色体靶序列与供体质粒之间结合此嵌合核酸酶的 竞争。此外,同源重组后,最大程度降低了此嵌合核酸酶结合和再切割新插入的染 色体序列(并可能刺激另一轮重组,或引起非同源末端连接或其它双链断裂驱动的基 因组改变)的能力。
检测了四种不同的供体序列。相对于染色体缺陷型eGFP靶序列,供体1含有8 个错配,供体2含有10个错配,供体3含有6个错配,供体5含有4个错配。需要 注意,供体5的序列与野生型eGFP序列相同,但相对于T18细胞系中的缺陷型染色 体eGFP序列含有4个错配。表22提供了核苷酸201-242的各供体序列。用粗体和 下划线表示与整合到T18细胞系基因组中的缺陷型eGFP基因的序列不同的核苷酸。 还显示了缺陷型染色体eGFP基因(GFP mut)和正常eGFP基因(GFP wt)的对应序列。
表22
  供体   序列   SEQ ID NO.   供体1   CTTCAGCCGCTATCCAGACCACATGAAACAACACGACTTCTT   172   供体2   CTTCAGCCGGTATCCAGACCACATGAAACAACATGACTTCTT   173   供体3   CTTCAGCCGCTACCCAGACCACATGAAACAGCACGACTTCTT   174   供体5   CTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTT   175   GFPmut   CTTCAGCCGCTACCCCTAACAC-GAAGCAGCACGACTTCTT   176   GFPwt   CTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTT   177
如实施例11所述,用50ng 287-FokI和296-FokI表达构建物(实施例7和表12) 和500ng各供体构建物转染T18细胞系。如实施例11所述进行FACS分析。
表23所示结果表明,按照GFP功能的恢复进行评估,供体和染色体靶序列之 间错配程度降低(即同源性提高)导致同源重组频率提高。
表231
  供体   #错配   含有校正eGFP基因的细胞百分数2   供体2   10   0.45%   供体1   8   0.53%   供体3   6   0.89%   供体5   4   1.56%
1:用编码两种ZFP核酸酶的质粒和编码与染色体靶序列的序列错配数量不同的非缺陷型 eGFP序列的供体质粒转染含有缺陷型染色体eGFP基因的T18细胞。用强力霉素诱导染 色体eGFP基因表达,转染5天后进行FACS分析。
2:525nm发射光高和570nm发射广低(FACS图的E区)的荧光的总百分数。
上述结果显示,降低靶点-供体序列分散度可提高同源重组水平。如果不希望受 限于任何具体理论或提出具体机制,应注意,供体和靶序列之间同源性较高可通过 细胞同源重组机器将供体分子识别为合适模板而提高效率促进同源重组。或者,提 高供体与靶序列的同源性也可导致嵌合性ZFP核酸酶切割该供体。或者,切割的供 体可通过提高链侵入速率帮助促进同源重组,或在同源性搜索中可帮助同源重组机 器将切割的供体末端识别为DNA的同源臂。而且,这些可能性不是互斥的。
实施例18:制备siRNA
为了检测参与非同源末端连接(NHEJ)的蛋白质的细胞水平能否促进靶向同源重 组,进行了一个实验,通过siRNA抑制降低了Ku70蛋白水平。靶向Ku70基因的siRNA 分子是转录Ku70cDNA后用切酶(Dicer enzyme)切割双链转录物产生的。
简要说,将293和U2OS细胞产生的cDNA库用于五个单独的扩增反应,各反 应采用Ku70基因特异性的不同扩增引物组,以产生五个cDNA片段库(A-E库),大 小范围是500-750bp。用含噬菌体T7RNA聚合酶启动子元件的引物再扩增这五个库 的各个片段,各cDNA库再次采用不同的引物组。按照生产商的方案和推荐条件, 用超级转录选择cDNA系统(Superscript Choice cDNA system)和铂金Taq高保真聚合 酶(Platinum Taq High Fidelity Polymerase)(均来自加利福尼亚州卡尔斯巴德的英杰公 司)产生cDNA并进行PCR反应。
按照生产商说明书,用RNAMAXX体外转录试剂盒(加州圣地亚哥的司查塔基 公司(Stratagene)),用噬菌体T7RNA聚合酶体外转录各扩增的DNA库,以产生五个 双链RNA(dsRNA)库(A-E)。用乙醇沉淀后,重悬各库的RNA,按照生产商说明书用 重组切酶(加州圣地亚哥的司查塔基公司(Stratagene))体外切割。用两步法纯化五个库 中的21-23bp siRNA产物,第一步采用微离心G-25柱(安玛西亚公司),然后采用阿 米康公司(Amicon)的麦克肯(Microcon)YM-100。用脂质转染2000试剂 将各siRNA产物库瞬时转染到T7细胞系中。
转染约3天后,进行Western印迹以检测siRNA库抑制Ku70表达的相对效率。 简要说,裂解细胞,用RIPA缓冲液(圣克鲁斯生物技术公司(Santa Cruz Biotechnology)) 破坏,使裂解物通过恰基研磨仪(QIAshredder)(加州巴伦西亚(Valencia)的恰基公司 (Qiagen))制成匀浆。然后用SDS PAGE样品缓冲液(含有还原剂β巯基乙醇)处理澄清 的裂解物,煮沸5分钟。然后在4-12%梯度NUPAGE凝胶上分离样品,转移到PVDF 膜上。使印迹上半部分接触抗-Ku70抗体(圣克鲁斯公司(Santa Cruz)sc-5309),下半 部分接触抗-TF IIB抗体(圣克鲁斯公司(Santa Cruz)sc-225,用作输入对照)。然后使 印迹接触辣根过氧化物酶偶联的山羊抗小鼠第二抗体,按照生产商说明书用皮尔斯 化学品公司(Pierce Chemical Co.)的试剂盒加工,以便进行电致化学发光(ECL)检测。
图39显示了将两个siRNA库(D和E库)转染到T7细胞后的代表性结果。用70 ng siRNA E转染导致Ku70蛋白水平显著降低(图39,泳道3)。
实施例19:通过抑制参与非同源末端连接的蛋白质表达提高同源重组频率
可沿两种不同的细胞途径:同源重组(HR)或非同源末端连接(NHEJ)修复基因组 DNA中的双链断裂。Ku70是参与NHEJ的蛋白质,它能结合于基因组DNA中双链 断裂产生的游离DNA末端。为了检测降低参与NHEJ的蛋白质的胞内浓度能否提高 HR频率,用如实施例18所述制备的小干扰RNA(siRNA)抑制用供体DNA和编码嵌 合核酸酶的质粒共同转染的细胞中Ku70mRNA的表达,从而降低Ku70蛋白的水平。
这些实验采用T7细胞系(参见实施例9和图27)。这些细胞含有染色体整合的缺 陷型eGFP基因,但观察到它的靶向同源重组水平低于实施例11-13中所用的T18细 胞系。
如实施例11所述,用70或140ng靶向Ku70的两个切酶产物库之一转染T7细 胞(参见实施例18)。对转染细胞产生的提取物进行蛋白质印迹分析,以确定用siRNA 处理细胞能否导致Ku70蛋白水平降低(参见前述实施例)。图39显示,用70ng库E 的siRNA处理的细胞中Ku70蛋白水平降低。
用70或140ng siRNA(D库或E库)以及287-FokI和296-FokI表达构建物各50ng (实施例7和表12)和500ng 1.5kbp GFP供体(实施例13)共同转染同一实验中各细胞 样品,以确定降低Ku70水平能否提高同源重组频率。实验方案参见表24。如实施 例11所述,通过FACS分析检测由于同源重组恢复eGFP活性。
表24
  实验#   供体1   ZFN2   SiRNA3   %校正4   1   500ng   -   -   0.05   2   -   各50ng   -   0.01   3   500ng   各50ng   -   0.79   4   500ng   各50ng   70ng库D   0.68   5   500ng   各50ng   140ng库D   0.59   6   500ng   各50ng   70ng库E   1.25   7   500ng   各50ng   140ng库E   0.92
1.含有编码与染色体整合的缺陷型eGFP基因同源的功能性eGFP蛋白的1.5kbp序列的质粒
2.编码靶向eGFP的287和296锌指蛋白/FokI融合核酸内切酶的质粒
3.参见实施例18
4.525nm发射光高和570nm处发射光低(FACS图的E区,参见实施例11)的荧光的总百分 数。
表24最右一列显示了转染的T7细胞中缺陷型eGFP基因的校正百分数(说明靶 向同源重组频率)。在实验6中观察到靶向重组频率最高,其中用供体DNA、编码两 种靶向eGFP的融合核酸酶的质粒和70ng siRNA库E转染细胞。实施例18和图39 表明,70ng库E siRNA显著抑制了Ku70蛋白的水平。因此,可采用降低参与NHEJ 的蛋白质的细胞水平方法作为促进同源重组的工具。
实施例20:靶向人β-珠蛋白基因的锌指-FokI融合核酸酶
设计靶向人β-珠蛋白基因的一些4指锌指DNA结合域,构建编码融合于FokI 切割半域的各锌指域的质粒。各锌指域含有4个锌指,能识别编码引起镰状细胞贫 血的突变人β-珠蛋白基因区域中的12bp靶位点。评估这些蛋白质各自对其靶序列的 结合亲和力,将显示强结合的四种蛋白质(sca-r29b、sca-36a、sca-36b和sca-36c)用于 构建FokI融合核酸内切酶。
ZFP DNA结合域的靶位点与人β-珠蛋白基因序列的比对见下。用粗体和下划线 表示翻译起始密码子(ATG),也用粗体和下划线表示引起镰状细胞贫血的A-T取代。
sca-36a    GAAGTCTGCCGT(SEQ ID NO:178)
sca-36b    GAAGTCtGCCGTT(SEQ ID NO:179)
sca-36c    GAAGTCtGCCGTT(SEQ ID NO:180)
CAAACAGACACCATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTG
GTTTGTCTGTGGTACCACGTAGACTGAGGACACCTCTTCAGACGGCAATGAC(SEQ ID NO:181)
sca-r29b   ACGTAGaCTGAGG(SEQ ID NO:182)
这四种蛋白中锌指识别区的氨基酸序列见表25。这些锌指域的完整的氨基酸序 列见图40。sca-36a结构域能识别含有12个毗连核苷酸(在上方以大写字母表示)的靶 位点,而另外三个结构域能识别由两个6-核苷酸靶位点(大写字母表示)和一个分隔的 核苷酸(小写字母表示)组成的13个核苷酸序列。因此,sca-r29b、sca-36b和sca-36c 结构域四指的第二指与第三指之间含有一个非经典指间接头,其氨基酸序列为 TGGGGSQKP(SEQ ID NO:183)。
表25
  ZFP   F1   F2   F3   F4   sca-r29b   QSGDLTR   (SEQ ID NO:184)   TSANLSR   (SEQ ID NO:185)   DRSALSR   (SEQ ID NO:186)   QSGHLSR   (SEQ ID NO:187)   sca-36a   RSQTRKT   (SEQ ID NO:188)   QKRNRTK   (SEQ ID NO:189)   DRSALSR   (SEQ ID NO:190)   QSGNLAR   (SEQ ID NO:191)   sca-36b   TSGSLSR   (SEQ ID NO:192)   DRSDLSR   (SEQ ID NO:193)   DRSALSR   (SEQ ID NO:194)   QSGNLAR   (SEQ ID NO:195)   sca-36c   TSSSLSR   (SEQ ID NO:196)   DRSDLSR   (SEQ ID NO:197)   DRSALSR   (SEQ ID NO:198)   QSGNLAR   (SEQ ID NO:199)
实施例21:通过靶向β-珠蛋白的ZFP/FokI融合核酸内切酶体外切割DNA靶序列
检测了含有FokI切割半域和前一实施例所述的四个ZFP DNA结合域之一的融 合蛋白在体外以预定的序列特异性切割DNA的能力。通过KpnI和BamHI位点将这 些ZFP结构域克隆到pcDNA3.1表达载体中,然后通过4个氨基酸的ZC接头框内融 合于FokI切割域,如上所述。克隆K562细胞基因组DNA中含有人β-珠蛋白基因的 700bpDNA片段。此片段的分离和测序参见实施例3,同上。
为了产生用于体外实验的融合核酸内切酶(ZFN),在体外转录/翻译系统中孵育 编码FokI与sca-r29b、sca-36a、sca-36b和sca-36c蛋白的融合物的环状质粒。参见 实施例4。总共将2μl TNT反应物(检测一种蛋白时一种反应物为2μl,或者检测一 对蛋白时每种反应物各1μl)加入13μl切割缓冲液混合物和3μl标记探针(~1ng/μl) 中。用多核苷酸激酶以32P对探针进行末端标记。室温培育该反应物1小时,使之结 合ZFN。加入8μl用切割缓冲液稀释的8mM MgCl2至终浓度约为2.5mM,来刺激 切割。37℃培育该切割反应物1小时,加入11μl酚/氯仿终止该反应。通过酚/氯仿 提取法分离DNA,用凝胶电泳进行分析,如实施例4所述。在对照中,在凝胶上分 析3μl探针,以标记未切割DNA的迁移(图41中标为“U”)。
结果见图41。用任何单一锌指/FokI融合物培育靶DNA不导致模板DNA大小 的改变。然而,如存在两种较短的DNA片段(图41最右侧两条泳道)证明的那样, sca-r29b核酸酶与sca-36b或sca-36c核酸酶的组合导致对靶DNA的切割。
实施例22:在染色体GFP报道系统中检测
靶向β-珠蛋白基因的ZFP/FokI融合核酸内切酶
合成如实施例20所述的含有ZFN靶向的人β-珠蛋白基因序列的DNA片段,将 其克隆到eGFP报道基因的SpeI位点中,从而破坏eGFP表达。该片段含有以下序列, 其中用粗体和下划线表示引起镰状细胞突变的核苷酸):
CTAGACACCATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCC CTAG(SEQ ID NO:200)
用HindIII和NotI位点将这种含有插入β-珠蛋白序列的破坏的eGFP基因克隆 到pcDNA4/TO(英杰公司,加利福尼亚州卡尔斯巴德)中,将得到的载体转染到 HEK293TRex细胞(英杰公司)中。分离各稳定克隆并培养,通过分别转染与sca-29b 配对的sca-36蛋白(sca-36a、sca-36b、sca-36c)(这些嵌合核酸酶的序列和结合位点参 见实施例20和表25),检测这些克隆的靶向同源重组。用50ng编码各ZFN的质粒 和500ng 1.5-kb GFP供体(实施例13)转染细胞。转染5天后,检测该细胞在插入的 缺陷型eGFP基因座上的同源重组。先用荧光显微术检测细胞的eGFP功能。然后用 FACS分析eGFP荧光来定量分析发荧光的细胞,如实施例11所述。
结果表明,用荧光显微术测定时,所有用sca-29b和sca-36a转染的细胞系的eGFP 功能为阴性。用荧光显微术测定时,用与sca-36b或sca-36c配对的sca-29b转染的一 些谱系为eGFP表达阳性,因此用FACS进一步分析。这两种谱系的FACS分析结果 见表26,表明靶向β-珠蛋白序列的锌指核酸酶能够催化序列-特异性双链DNA切割, 以促进活细胞中的同源重组。
表26

1.525nm发射光高和570nm发射光低(FACS图的E区,参见实施例11)的荧光的总百分 数。
实施例23:转录水平对靶向同源重组的影响
由于染色体DNA序列的转录包括染色质结构的改变(通常使得更易接近该转录 序列),所以主动转录基因可能是更优选的靶向同源重组底物。用T18细胞系检验这 一想法(实施例9),该细胞系含有编码其转录在强力霉素诱导性启动子控制下的缺陷 型eGFP基因的染色体序列。
用编码靶向eGFP的287和296锌指/FokI融合蛋白的质粒(实施例7)和含有能校 正染色体eGFP基因缺陷的序列的1.5kbp供体DNA分子(实施例9)分别转染T18细 胞样品。转染5小时后,用不同浓度的强力霉素处理转染细胞,加入强力霉素48小 时后测定eGFP mRNA水平。转染4天后,用FACS检测eGFP发出的520nm荧光(说 明供体序列靶向重组到染色体中,取代了插入的β-珠蛋白序列)。
结果见图42。各直方柱表示按GAPDH mRNA标准化的eGFP mRNA的稳态水 平提高(等于,初步近似值,缺陷型染色体eGFP基因的转录速率)。各直方柱上方的 数字表示发射eGFP荧光的细胞的百分数。结果表明,靶基因的转录速率提高伴随较 高的靶向重组频率。这表示,可将靶向激活转录(如共有美国专利6,534,261和 6,607,882所述)与靶向DNA切割联用,以刺激在细胞中靶向同源重组。
实施例24:产生IL-2Rγ基因中含有突变的细胞系
用编码5-8GL0和5-9DL0锌指核酸酶(ZFN)的质粒(参见实施例14;表17)和1.5 kbp DraI供体构建物转染K562细胞。DraI供体由编码IL2Rγ基因第5外显子的区域 的同源序列组成,但在ZFN-结合位点之间插入了一个额外碱基,而导致移码和产生 DraI位点。
转染24小时后,用0.2μM长春碱(终浓度)处理细胞30小时。用PBS洗涤细胞 三次,再接种于培养基中。使细胞恢复3天,取出细胞等份进行基于PCR的RFLP 实验,类似于实施例14所述,以检测是否存在DraI位点。经测定,细胞群内的基 因校正频率约为4%。
再让细胞恢复两天,将1600个单细胞接种到每孔含有100μl培养基的40x 96 孔板中。
培养细胞约3周,分离DraI突变表型的纯合细胞。检测该细胞的基因组修饰情 况(通过检测IL-2Rγ基因外显子5中是否存在DraI位点)和IL-2RγmRNA水平(用实 时PCR)和蛋白质(用Western印迹),以测定该突变对基因表达的影响。用FACS分 析检测细胞的功能。
用编码5-8GL0和5-9DL0融合蛋白的质粒和1.5kb BsrBI供体构建物(实施例14) 转染IL-2Rγ基因中含有DraI移码突变的细胞,以用编码功能性蛋白的序列取代DraI 移码突变。如实施例14所述检测是否存在BsrBI位点能够确定,在这些细胞中获得 的同源重组水平高于1%。通过测定mRNA和蛋白质水平和FACS分析说明,基因 功能得到恢复。
实施例25:具有不同极性的ZFP/FokI融合核酸内切酶
构建编码ZFP/FokI融合物的载体,其中ZFP结构域位于FokI结构域的N末端 一侧。称为IL2-1的ZFP结构域含有四个锌指,可靶向序列AACTCGGATAAT(SEQ ID NO:202),位于IL-2Rγ基因的第三外显子中。该锌指的识别区的氨基酸序列见表 27。
表27:IL2-1结合域的锌指设计
  靶序列   F1(AAT)   F2(GAT)   F3(TCG)   F4(AAC)   AACTCGGATAAT   (SEQ ID NO:203)   DRSTLIE   (SEQ ID NO:204)   SSSNSLR   (SEQ ID NO:205)   RSDDLSK   (SEQ ID NO:206)   DNSNRIK   (SEQ ID NO:207)
注:最左边一列显示DNA靶序列。其余列显示以各锌指的α螺旋部分为起点时,四个锌指各自的 残基-1至+6的氨基酸序列(单字母码)。指F1最接近该蛋白的氨基端。第一行中与指名称相邻的位 置中显示了各锌指结合的3-核苷酸子位点。
将编码此锌指域的序列连接于编码FokI限制性核酸内切酶切割半域的序列(按 照Looney等(1989)Gene 80:193-208所述的氨基酸384-579),以使ZFP结构域和切割 半域之间存在4氨基酸接头(即4氨基酸ZC接头)。用以下引物作PCR扩增分离自细 菌菌株Planomicrobium okeanokoites(ATCC 33414)的基因组DNA,获得FokI切割半 域:
5’-GGATCCCAACTAGTCAAAAGTGAAC(SEQ ID NO:208)
5’-CTCGAGTTAAAAGTTTATCTCGCCG(SEQ ID NO:209)。
用BamHI和XhoI消化PCR产物(上述序列中下划线标出的位点),与BamHI和 XhoI消化质粒pcDNA-nls-ZFP1656-VP16-flag后产生的载体片段相连接。得到的构建 物pcDNA-nls-ZFP1656-FokI编码含有位于pcDNA3.1(英杰公司,加利福尼亚州卡尔 斯巴德)载体主链中的(自N-末端至C-末端)SV40大T抗原-衍生的核定位信号(NLS, Kalderon等(1984)Cell 39:499-509)、ZFP1656和FokI切割半域的融合蛋白。用KpnI 和BamHI消化此构建物,以释放ZFP1656-编码序列,连接插入编码IL2-1锌指结合 域的KpnI/BamHI片段。得到的构建物(pIL2-1C)编码含有(自N至C末端)核定位信号、 4-指IL2-1锌指结合域和FokI切割半域,以及四个氨基酸ZC接头的融合蛋白。
构建编码ZFP/FokI融合蛋白的载体,其中FokI序列位于ZFP序列的N末端一 侧。将IL2-1四指锌指域作为KpnI/BamHI片段插入编码以下融合蛋白的载体中,所 述融合蛋白含有NLS、KOX-1阻抑结构域、EGFP和FLAG表位标签,经KpnI和 BamHI消化已释放EGFP-编码序列。这产生含有编码(自N-末端至C-末端)NLS(SV40 的大T-抗原)、KOX阻抑结构域、IL2-1锌指域和FLAG表位标签的序列的载体。然 后用EcoRI和KpnI消化此构建物,以释放NLS-和KOX-编码序列,插入编码FokI 限制性酶的氨基酸384-579和NLS的EcoRI/KpnI片段(用编码FokI的载体作模板通 过PCR产生)。得到的构建物pIL2-1R编码含有(自N-末端至C-末端)FokI切割半域、 NLS和四指IL2-1ZFP结合域的融合蛋白。此构建物中的ZC接头长21个氨基酸, 包含7个氨基酸的核定位序列(PKKKRKV;SEQ ID NO:210)。
5-9D锌指域能结合位于IL-2Rγ基因第五外显子中的12-核苷酸靶序列 AAAGCGGCTCCG(SEQ ID NO:157)。参见实施例14(表17)。将编码5-9D锌指域的 序列插入载体中产生FokI/ZFP融合物,此融合物中FokI序列位于ZFP序列的N末 端。为了制备这种构建物,用KpnI和BamHI消化前一段落所述的pIL2-1R质粒,以 释放含有编码IL2-1锌指结合域序列的片段,然后将编码5-9D锌指结合域的 KpnI/BamHI片段插入此位置。得到的构建物p5-9DR编码含有(自N-末端至C-末 端)FokI切割半域、NLS和四指5-9D锌指结合域的融合蛋白。此构建物中的ZC接 头长22个氨基酸,包含7个氨基酸的核定位序列(PKKKRKV;SEQ ID NO:210)。
载体构建的其它细节参见共有美国专利6,453,242和6,534,261。
实施例26:构建用于DNA切割的合成底物
将上述IL2-1和5-9D融合蛋白结合的靶序列以不同取向引入双链DNA片段, 以检测FokI结构域位于ZFP结构域N末端的极性改变的锌指/FokI融合蛋白的切割 能力。在模板1中,5-9D靶位点存在于一条链中,IL2-1靶位点存在于互补链中,该 结合位点的3’端互相接近,间隔六对间插核苷酸。在模板2中,5-9D和IL2-1靶位 点存在于同一条DNA链上,5-9D结合位点的3’端与IL2-1结合位点的5’端之间间隔 6对核苷酸。
以其中克隆入模板的质粒的扩增产物形式获得含有上述序列的约442个碱基对 的DNA片段。IL2-1和5-9D靶位点定位于这些片段内,以使两个靶位点之间的双链 DNA切割产生约278和164碱基对的DNA片段。用T4多核苷酸激酶转移γ-32P-ATP 的正磷酸,从而放射性标记扩增产物。
实施例27:用极性改变的锌指/FokI融合物进行靶向DNA切割
用TNT偶联的网织红细胞裂解物(威斯康星州麦迪逊的普洛麦格公司(Promega)) 中培育编码这些蛋白的质粒,从而获得IL2-1C、IL2-1R和5-9DR融合蛋白。在含有 1μl各融合蛋白的TNT反应物、1μl标记的消化底物和20μl切割缓冲液的23μl混 合物中进行切割反应。将1μl 1M二硫苏糖醇和50μl牛血清白蛋白(10mg/ml)加入1 ml 20mM Tris-Cl,pH 8.5,75mM NaCl,10μM ZnCl2,5%(v/v)甘油中制备切割缓冲 液。37℃培育切割反应物2小时,接着用13μl酚/氯仿/异戊醇(25∶24∶1)振荡。离心后, 在10%聚丙烯酰胺凝胶上分析10μl水相。用分子动力学公司(Molecular Dynamics) 的磷光成像仪(Phosphorimager)检测凝胶中的放射性,用依米制夸特(ImageQuant)软件 (分子动力学公司)定量。
图44显示了用含有NH2-FokI结构域-锌指域-COOH极性的两种嵌合核酸酶切 割底物获得的结果,其中这两种嵌合核酸酶的结合位点位于相对链上,结合位点的3’ 端互相接近但间隔6对核苷酸。只用IL2-1R或5-9DR核酸酶培育底物不会导致底物 被切割(将泳道2和3与泳道1作比较),而用两种核酸酶共培育导致在所需靶位点上 几乎完全切割DNA底物(泳道4)。
图45显示含有NH2-锌指域-FokI结构域-COOH极性的第一种嵌合核酸酶和含 有NH2-FokI结构域-锌指域-COOH极性的第二种嵌合核酸酶切割底物的能力,其中 这两种嵌合核酸酶的结合位点位于同一条链上,第一结合位点的3’端接近第二结合 位点的5’端,间隔6对核苷酸。只有联用5-9DR和IL2-1C核酸酶(即具有不同极性 的各核酸酶)才能成功切割两个靶位点位于同一条链上的底物(将泳道6与泳道1-5作 比较)。
实施例28:含有长度不同的ZC接头的嵌合核酸酶
设计了含有长度不同的ZC接头的两组融合蛋白,其中FokI结构域位于ZFP结 构域的氨基末端。按照Looney等(1989)Gene 80:193-208所述,FokI结构域是氨基酸 384-579。ZFP结构域选自IL1-2(表27)、5-8G(表17)或5-9D(表17)结构域。第一组 的结构为NH2-NLS-FokI-ZFP-Flag-COOH。在这一组中,设计ZC接头长度为13、14、 18、19、28和29个氨基酸的蛋白质。第二组的结构为NH2-FokI-NLS-ZFP-Flag-COOH, 并设计ZC接头为21、22、23、24、28、29、38和39个氨基酸的蛋白质。需要注意, 在第二组中,NLS是ZC接头的一部分。还构建编码这些融合蛋白的质粒。
设计模式DNA序列以检测这些融合蛋白的切割活性并测定ZC接头的最优长度 与这两种融合蛋白靶位点之间距离的关系。设计以下序列:
1.相对链上的5-9D靶位点和IL2-1靶位点
2.同一条链上的5-9D靶位点和IL2-1靶位点
3.相对链上的5-9D靶位点和5-8G靶位点
4.同一条链上的5-9D靶位点和5-8G靶位点
对于这四对靶位点的每一对,构建两个靶位点之间间隔4、5、6或7个碱基对 的序列。
如实施例26所述将这些序列引入标记底物中,按照实施例27所述的方法用于 检测本实施例所述的各种融合蛋白切割DNA的能力。
实施例29:构建含有整合的缺陷型eGFP报道基因的稳定细胞系
按照以下方法构建含有移码突变和IL-2Rγ基因外显子5片段的eGFP(增强绿色 荧光蛋白)编码序列,将其操作性连接于四环素-调控的CMV启动子。将一个沉默突 变插入pEGFP-NI载体(BD生物科学公司)的eGFP编码序列中,产生新的SpeI位点。 接着,将1个核苷酸缺失(产生移码突变)引入此新SpeI位点下游。将含有5-8G和5-9D 锌指/FokI融合蛋白靶位点的IL-2Rγ基因外显子5的下述序列(如实施例14、表17 所述,同上)插入新引入的SpeI位点中:
CTAGCTACACGTTTCGTGTTCGGAGCCGCTTTAACCCACTCTGTGGAAGTG CTCCTAG(SEQ ID NO:214)
得到的质粒含有突变eGFP编码序列,其包含IL-2Rγ基因外显子5的DNA序 列片段。用HindIII和NotI消化此质粒,释放含有突变eGFP序列的片段(包含插入的 IL-2Rγ外显子5序列)。将此片段插入pcDNA4/TO载体(英杰公司)的HindIII和NotI 位点中,产生eGFP序列表达受2X tet-操作子调控的CMV启动子控制的构建物。该 质粒的示意图见图46。
用该构建物转化HEK293TRex细胞(英杰公司),分离含有此构建物的整合拷贝 的稳定细胞系。在这种细胞系中,加入强力霉素后转录eGFP编码序列,但由于移码 突变和IL-2Rγ插入,不表达有功能的蛋白。
实施例30:将嘌呤霉素抗性标记物同源依赖性靶向整合到染色体eGFP基因
进行实验以检测嘌呤霉素抗性标记物是否已整合到前一实施例所述的突变染色 体eGFP基因中。
构建含有侧接于eGFP cDNA构建物的同源序列的嘌呤霉素抗性编码序列(称为 “puro序列”)的无启动子供体,如下所述。PCR扩增pTRE2pur-HA载体(BD生物科学 公司)中的序列,以产生ATG起始密码子上游含有侧接SpeI位点和共有Kozak序列 的puro序列。扩增引物是:
puro-5′:ACTAGTGCCGCCACCATGACCGAGTACAAGCCCA(SEQ ID NO:215)
puro-3′:ACTAGTCAGGCACCGGGCTT(SEQ ID NO:216)
将此PCR片段克隆到pEGFP-N1载体中,该载体含有编码新SpeI限制性位点和 防止该基因功能性表达的移码突变的修饰的eGFP基因(参见实施例29)。通过HindIII 和NotI位点将此eGFP/嘌呤霉素基因克隆到pcDNA4/TO载体中,以产生载体 pcDNA4/TO/GFPpuro,它还可用作实验阳性对照,通过靶向整合获得嘌呤霉素抗性 细胞。为了产生无启动子的供体,用以下引物对pcDNA4/TO/GFPpuro载体进行PCR 扩增:
GFP-Bam     CGAATTCTGCAGTCGAC    (SEQ ID NO:217)
pcDNA42571  TGCATACTTCTGCCTGC    (SEQ ID NO:218)
将得到的扩增产物经拓扑(Topo)克隆到pCR4-TOPO载体中,验证其序列。这产 生了含有与puro序列上游染色体eGFP构建物同源的413bp序列和与puro序列下游 染色体eGFP构建物同源的1285bp序列的供体。
为了检测puro序列是否已靶向整合,用锌指/FokI融合蛋白在本实施例所述供 体构建物的存在下对实施例29所述细胞系进行靶向DNA切割,选择具有嘌呤霉素 抗性的转染细胞,分析其染色体DNA。设计了能切割插入eGFP基因内的外显子5 序列(5-8G和5-9D)的两种锌指/FokI融合蛋白(ZFN),参见实施例14、表17,同上。 可在位于插入eGFP编码序列的IL-2Rγ序列内的切割位点上同源依赖性或同源非依 赖性整合供体序列,而产生嘌呤霉素抗性。此供体构建物的同源依赖性整合将导致 用puro序列取代IL-2Rγ序列。
用补充有10%胎牛血清(FBS)(海克隆公司)和2mM L-谷胺酰胺的杜百科改良的 易格培养基(DMEM)(英杰公司)培养HEK 293细胞,在37℃和5%CO2气氛下培养。 为了检测puro序列是否已靶向整合,用ZFN编码质粒各50ng和500ng供体质粒转 染细胞。在阴性对照实验中,用ZFN编码质粒各50ng和500ng供体质粒转染细胞。 在阳性对照中,将500ng pcDNA4/TO/GFPpuro载体转染到HEK293细胞中。采用 Opti-MEM I还原血清培养基配制的脂质转染2000试剂(Lipofectamine 2000 Reagent)(英杰公司)转染细胞。向生长培养基中加入强力霉素至2ng/ml(以激活整合 序列的转录)和嘌呤霉素至2μg/ml(终浓度),来测定嘌呤霉素抗性。
只有用ZFN-编码质粒和供体质粒转染的细胞才能获得嘌呤霉素抗性集落。分离 24个克隆群体,进行6周以上选择,然后用PCR分析有无靶向整合。用以下PCR 引物检测是否发生靶向整合:
CMVPuro-5′TTTGACCTCCATAGAAGACA  (SEQ ID NO:219)
CMVPuro-3′GCGCACCGTGGGCTTGTACT  (SEQ ID NO:220)
一种引物与外源性puro序列互补,另一种引物与该整合报道构建物中存在的 CMV启动子的序列互补。24个集落中的21个产生大小符合puro序列靶向整合的扩 增产物。克隆这些片段,测定其核苷酸序列。序列分析表明,24个克隆中有8个发 生了puro序列同源整合到染色体eGFP构建物中,而13个供体DNA同源非依赖性 整合到染色体序列中,伴随着puro序列的部分复制。
实施例31:靶向IL-2Rγ基因外显子5的锌指/FokI融合蛋白的密码子优化
上面已描述了含有通过4氨基酸ZC接头(L0)连接于FokI切割半域的5-8G和 5-9D锌指结合域(表17)的融合蛋白。参见例如,实施例14和实施例24。设计编码 这两种融合蛋白的多核苷酸,以便根据在哺乳动物细胞中表达优化其密码子。编码 这两种融合蛋白的经密码子优化的核苷酸序列如下:
5-8G L0 FokI
aattcgctagcgccaccatggcccccaagaagaagaggaaagtgggaatccacggggtacccgccgctatggccgagaggcccttcc agtgtcggatctgcatgcggaacttcagccggagcgacaacctgagcgtgcacatccgcacccacacaggcgagaagccttttgcct gtgacatttgtgggaggaaatttgcccgcaacgcccaccgcatcaaccacaccaagatccacaccggatctcagaagccctttcagt gcagaatctgcatgagaaacttctcccggtccgacaccctgagcgaacacatcaggacacacaccggcgagaaacccttcgcctgcg acatctgtggccgcaagtttgccgccagaagcacccgcacaaatcacacaaagattcacctgcggggatcccagctggtgaagagcg agctggaggagaagaagtccgagctgcggcacaagctgaagtacgtgccccacgagtacatcgagctgatcgagatcgccaggaaca gcacccaggaccgcatcctggagatgaaggtgatggagttcttcatgaaggtgtacggctacaggggaaagcacctgggcggaagca gaaagcctgacggcgccatctatacagtgggcagccccatcgattacggcgtgatcgtggacacaaaggcctacagcggcggctaca atctgcctatcggccaggccgacgagatgcagagatacgtggaggagaaccagacccggaataagcacatcaaccccaacgagtggt ggaaggtgtaccctagcagcgtgaccgagttcaagttcctgttcgtgagcggccacttcaagggcaactacaaggcccagctgacca ggctgaaccacatcaccaactgcaatggcgccgtgctgagcgtggaggagctgctgatcggcggcgagatgatcaaagccggcaccc tgacactggaggaggtgcggcgcaagttcaacaacggcgagatcaacttctgataac(SEQ ID NO:221)
5-9D L0 FokI
aattcgctagcgccaccatggcccccaagaagaagaggaaagtgggaatccacggggtacccgccgctatggccgagaggcccttcc agtgtcggatctgcatgcggaacttcagcaggagcgacaccctgagcgaacacatccgcacccacacaggcgagaagccttttgcct gtgacatttgtgggaggaaatttgccgccagaagcacccgcacaacccacaccaagatccacaccggatctcagaagccctttcagt gcagaatctgcatgagaaacttctcccggtccgacagcctgagcaagcacattaggacccacaccggggagaaacccttcgcctgcg acatctgtggccgcaaatttgcccagcgcagcaacctgaaagtgcacacaaagattcacctgcggggatcccagctggtgaagagcg agctggaggagaagaagtccgagctgcggcacaagctgaagtacgtgccccacgagtacatcgagctgatcgagatcgccaggaaca gcacccaggaccgcatcctggagatgaaggtgatggagttcttcatgaaggtgtacggctacaggggaaagcacctgggcggaagca gaaagcctgacggcgccatctatacagtgggcagccccatcgattacggcgtgatcgtggacacaaaggcctacagcggcggctaca atctgcctatcggccaggccgacgagatgcagagatacgtggaggagaaccagacccggaataagcacatcaaccccaacgagtggt ggaaggtgtaccctagcagcgtgaccgagttcaagttcctgttcgtgagcggccacttcaagggcaactacaaggcccagctgacca ggctgaaccacatcaccaactgcaatggcgccgtgctgagcgtggaggagctgctgatcggcggcgagatgatcaaagccggcaccc tgacactggaggaggtgcggcgcaagttcaacaacggcgagatcaacttctgataac(SEQ ID NO:222)
实施例32:培养和转染K-562细胞进行靶向同源整合
用补充有10%胎牛血清、青霉素和链霉素的DMEM于37℃培养人K-562红白 血病细胞(ATCC),用经设计在内源性IL2Rγ基因中精氨酸226密码子周围位置上引 入双链断裂的编码两种锌指核酸酶(ZFN)的2.5μg表达载体转染(核转染试剂 (Nucleofector);艾玛科萨公司(Amaxa))K562细胞。两种核酸酶(5-8G和5-9D)参见实 施例14、表17,同上。编码2A肽的序列隔开了编码此二核酸酶的序列。参见例如, Szymczak等(2004)Nature Biotechnol.22:589-594。同时,用25或50μg携带以外显 子5为中心(Urnov等(2005)Nature 435:646-651)、被待插入DNA序列打断(参见以下 实施例33-36)的IL2Rγ染色体DNA序列1.5kb DNA片段的供体DNA质粒转染该细 胞。转染72小时后,分离基因组DNA(DNA易试剂盒(DNEasy);恰基公司),用在 1.5kb供体同源区域以外退火的引物对含外显子5的X染色体片段进行PCR,产生 野生型IL2Rγ序列的1.6千碱基对扩增产物,而测定IL2Rγ基因座的细胞基因型 (Urnov等,同上)。用凝胶电泳和限制性消化(说明处)分析PCR产物。对照样品包括: (1)用编码GFP表达载体转染的细胞,(2)仅用编码ZFN表达载体转染的细胞,和(3) 仅用供体DNA分子转染的细胞。
实施例33:使12-核苷酸外源序列同源依赖性靶向整合到内源性IL-2Rγ基因中
如实施例32所述,进行细胞培养和转染。工程改造供体DNA分子,使其包含 12个核苷酸对序列标签,该标签含有新的限制性酶StuI的诊断识别位点。如实施例 32所述,分离细胞DNA用作扩增模板,然后用StuI消化。如图47所示,所有对照 样品都携带能产生对限制性酶切有抗性的扩增产物的染色体。相反,用供体DNA分 子和ZFN表达构建物转染的细胞样品的所有扩增产物中15%对限制性酶敏感,表明 已整合了供体DNA。直接测定该染色体-衍生PCR产物的核苷酸序列,确认该整合 为同源依赖性整合。
实施例34:将外源性开放阅读框同源依赖性靶向整合到内源性IL-2Rγ基因中
如实施例32所述,进行细胞培养和转染。在这个实验中,采用两种不同供体 DNA分子。工程改造供体DNA分子#1,使其包含侧接于染色体IL2Rγ基因座同源 序列的增强绿色荧光蛋白(eGFP)的整个720bp ORF(参见实施例32)。供体DNA分子 #2含有由整个eGFP ORF后接聚腺苷酸化信号组成的924bp序列;该序列侧接于 IL2Rγ-同源序列(参见实施例32)。转染后,如实施例32所述分离细胞DNA并用作 扩增模板。如图48所示,所有对照样品均含有产生野生型大小(~1.6kb)的PCR产物 的染色体。相反,用携带ORF的供体和ZFN表达构建物转染的细胞样品的所有染色 体中3-6%产生的扩增产物大于野生型染色体-衍生的PCR产物,此种大小差异与观 察到的ZFN-驱动的eGFP ORF靶向整合相符。直接测定染色体-衍生PCR产物的核 苷酸序列确认了这种观察结果,还表明该整合为同源依赖性整合。
实施例35:使外源性“治疗性半基因”同源依赖性靶向整合到内源性IL-2Rγ基因中
如实施例32所述,进行细胞培养和转染。供体DNA分子由部分IL2RγcDNA 的720个核苷酸对组成,其含有外显子5的下游部分和外显子6、7和8(外显子8包 含翻译终止密码子和聚腺苷酸化信号)的完整拷贝。这些cDNA序列一侧侧接于外显 子5上游部分和内含子4毗邻部分的同源序列,另一侧侧接于外显子5下游部分和 内含子5毗邻部分的同源序列(见图49)。因为此供体构建物中存在外显子5下游部 分的两个拷贝,为了保证在与外显子8毗邻的拷贝中重组,将几个沉默序列改变引 入与外显子6毗邻的拷贝中。这些改变不会改变外源性外显子5序列的编码潜能, 但向染色体序列中引入了足够的非同源性,以防止断裂修复中利用这些序列先寻靶。 因此,也利用核酸酶靶向位点上整合的供体构建物来校正供体构建物中所含的外显 子6、7或8以及外显子5下游部分中的任何IL2Rγ突变。
转染后,如实施例32所述分离细胞DNA用作扩增模板。如图50所示,用GFP 编码质粒转染细胞的对照样品含有仅产生野生型大小(~1.6kb)PCR产物的染色体。相 反,用携带治疗性半基因的供体和ZFN表达构建物转染的细胞样品的所有染色体中 6%产生的PCR产物大于野生型染色体,这种大小差异与观察到的ZFN-驱动的“治 疗性半基因”靶向整合相符。直接测定较大PCR产物的核苷酸序列,证实了供体构 建物发生了同源依赖性整合。
实施例36:使外源性7.7千碱基对表达构建物
同源依赖性靶向整合到内源性IL-2Rγ基因中
如实施例32所述,进行细胞培养和转染。构建含有侧接于IL2Rγ外显子5和毗 邻序列的同源序列的7.7kbp抗体表达构建物的供体DNA分子(参见实施例32)。在 此实验中,采用了该供体的两种拓扑形式:质粒供体,其载体主链邻接于含有被该 表达构建物打断的两个同源臂的插入物(“环状”);和线状供体,其含有被该表达构建 物打断的两个同源臂(“线状”)。
如实施例32所述,分离转染细胞的DNA。采用经设计能检测整合的外源序列 和内源性IL-2Rγ外显子5序列之间的连接的两个引物对,通过PCR分析DNA。因 此,就各引物对而言,一种引物与内源性外显子5序列互补,另一种引物与该表达 构建物互补(参见图51的上半部分)。如图51下半部分所示,在只用供体DNA转染 的对照样品中没有观察到PCR产物。相反,在用供体DNA(线状或环状)和ZFN-编 码质粒共转染的细胞样品中观察到预计大小的PCR产物。重要的是,该表达构建物 两端的特异性引物组能产生相同结果,这与观察到的ZFN-驱动的外源性7.7kb序列 靶向整合相符。测定扩增产物的核苷酸序列证实发生了同源依赖性整合。
实施例37:在内源性染色体基因座上同源非依赖性靶向整合外源序列
构建一对锌指/FokI融合蛋白,其能结合于中华仓鼠二氢叶酸还原酶(DHFR)基 因中间隔六个核苷酸对的两个靶位点,并在这两个靶位点之间切割该基因。这两个 靶位点的核苷酸序列和该融合蛋白识别区的氨基酸序列见表28。
表28:CHO DHFR基因的锌指设计
  靶位点序列   F1   F2   F3   F4   GGAAGGTCTCCG   (SEQ ID NO:223)   RSDTLSE   (SEQ ID NO:224)   NNRDRTK   (SEQ ID NO:225)   RSDHLSA   (SEQ ID NO:226)   QSGHLSR   (SEQ ID NO:227)   AATGCTCAGGTA   (SEQ ID NO:228)   QSGALAR   (SEQ ID NO:229)   RSDNLRE   (SEQ ID NO:230)   QSSDLSR   (SEQ ID NO:231)   TSSNRKT   (SEQ ID NO:232)
注:最左侧一列显示DNA靶序列。其余列显示以各锌指的α螺旋部分为起点时,四个锌指各自的 残基-1至+6的氨基酸序列(单字母码)。指F1最接近该蛋白的氨基端。
用贴壁培养基(DMEM+10%FBS,补充有2mM L-谷胺酰胺和非必需氨基酸)于 37℃培养中华仓鼠卵巢(CHO)细胞。在12孔板中使3×105个细胞生长至70%汇合, 用这两种融合蛋白-编码质粒各100ng瞬时转染细胞(采用脂质转染试剂 2000)。转染24小时后,将20μM长春碱加入生长培养基中。 加入长春碱24小时后更换培养基。更换培养基24小时后,纯化细胞DNA(恰基公司 (Qiagen)),PCR扩增围绕该二靶位点的DHFR基因序列。设计引物,以使含有野生 型DHFR基因的细胞的DNA产生383个核苷酸对的扩增产物。出乎意料的是,获得 了两种扩增产物,一种为预计大小,另一种比预计的大约150个核苷酸对。
为了确定该切割位点上是否引入了突变,用Cel-1实验分析扩增产物,其中使扩 增产物变性和复性,然后用错配-特异性Cel-1核酸酶处理。参见例如,Oleykowski 等(1998)Nucleic Acids Res.26:4597-4602;Qui等(2004)BioTechniques 36:702-707; Yeung等(2005)BioTechniques 38:749-758。Cel-1实验结果(图52)显示,除了该切割 位点处因非同源末端连接产生的再退火产物中存在小错配(图52最右侧泳道中存在 两种低分子量条带)外,也发生了较大的插入(图52泳道3和5中存在标为“突变体” 的高分子量条带)。这确证了上述较大扩增产物的观察结果。
测定上述两种扩增产物的核苷酸序列,以鉴定该插入物的特性,见图53。上面 一条线显示的序列(SEQ ID NO:233)是野生型DHFR序列,而下面一条线显示的序列 (SEQ ID NO:234)由该切割位点处含有157个碱基对的插入物和一对核苷酸缺失的 DHFR序列组成。进一步分析揭示出,插入的157个碱基对对应于编码锌指/FokI融 合蛋白的载体质粒的一部分。而且,检测荧光甲氨蝶呤的摄取时,与野生型CHO细 胞相比,含有这个突变的细胞显示出平均甲氨蝶呤摄取率为53%,这符合丢失了一 个拷贝DHFR基因的功能。
因此,在DHFR基因的靶向切割位点处发生外源载体序列的同源非依赖性靶向 整合,导致产生杂合的DHFR-突变体细胞系。
实施例38:利用FokI二聚化结构域中的多个突变
靶向切割和同源指导修复内源性基因
将其它序列改变引入实施例5所述的诱变的FokI切割半域,其中残基490由谷 氨酸转变为赖氨酸(E490K),以进一步提高其切割特异性。在一个实施方式中(突变体 X2),将氨基酸538由异亮氨酸转变为赖氨酸(I538K)。在其它实施方式中,将X2突 变体的氨基酸486由谷胺酰胺转变为谷氨酸(Q486E),以产生X3A突变体,或由谷 胺酰胺转变为异亮氨酸(Q486I),以产生X3B突变体。与野生型FokI切割半域的氨 基酸序列相比,E490K、X2、X3A和X3B突变体的氨基酸序列见图54。
构建将编码这些突变切割半域的序列融合于编码5-8G和5-9D锌指域序列的质 粒(参见实施例14)。然后,测定这些突变体的各种组合在含有BsrBI位点的供体DNA 序列存在下刺激同源指导性修复IL-2Rγ基因外显子5中的双链断裂的能力。采用了 实施例15所述的试验系统和方法,除了未用长春碱处理该细胞和用20单位BsrBI 消化外。
接触凝胶48小时后,读出磷光成像屏的读数,用依米制夸特(ImageQuant)软件(分 子动力学公司)定量RFLP-衍生条带和野生型条带的强度。RFLP衍生条带的强度(占 野生型和RFLP条带总放射性的百分数)见表29。结果表明,X3 FokI突变体与Q486E 突变体配对时的功能显著优于与其本身第二个拷贝配对时的功能。
表29:利用FokI二聚化界面中含有突变的锌指/FokI融合蛋白
同源指导改变内源性基因*
  样品   5-8  5-9   %GC   1   WT(1μg)  WT(1μg)   2.6   2   WT(2.5μg)  WT(2.5μg)   <1   3   WT(5μg)  WT(5μg)   1.5   4   WT(7.5μg)  WT(7.5μg)   <1   5   X3(1μg)  Q486E(1μg)   4.1   6   X3(2.5μg)  Q486E(2.5μg)   4.3   7   X3(5μg)  Q486E(5μg)   8.6   8   X3(7.5μg)  Q486E(7.5μg)   3.6   9   X3(5μg)  X3(5μg)   0   10   Q486E(5μg)  Q486E(5μg)   2.3
*用编码两种锌指/FokI融合蛋白的质粒和含有与IL-2Rγ基因外显 子5同源的供体DNA序列、但含有导致存在BsrBI位点的序列改变 的质粒转染K562细胞。第二和第三行鉴定了5-8和5-9锌指融合蛋 白中FokI切割半域的特性,如下所述:WT(野生型FokI切割半域); Q486E突变切割半域(与野生型相比含有一个氨基酸改变,如实施例 5所述);X3突变切割半域(与野生型相比含有三个氨基酸改变,如图 54所示)。“%GC”指通过测定BsrBI消化产物的放射性,全部扩增产 物中BsrBI切割的分数比例。
实施例39:用染色体GFP报道基因实验检测FokI二聚化结构域中 含有多个突变的锌指/FokI融合蛋白
实施例29所述的细胞系含有操作性连接于四环素-调控性CMV启动子的染色体 整合的突变eGFP编码序列,用于实验以检测FokI切割半域二聚化界面中含有氨基 酸序列改变的锌指/FokI融合蛋白(ZFN)的不同组合。参见实施例38和图54。实施例 13和图32所述的外源性供体DNA构建物含有与野生型eGFP编码序列同源的1527 个核苷酸对插入物。用以下引物扩增eGFP序列构建此外源供体DNA:
GFPnostart    GGCGAGGAGCTGTTCAC  (SEQ ID NO:235)
pcDNA42571    TGCATACTTCTGCCTGC  (SEQ ID NO:236)
将扩增产物拓扑克隆到pCR4-TOPO载体中,产生称为pCR4-TOPO_GFP供体 _1.5KB的供体构建物。此供体序列的同源靶向整合将导致野生型eGFP序列取代突 变的染色体eGFP序列和功能性强力霉素诱导的eGFP表达。
用补充有10%胎牛血清(FBS)(海克隆公司)和2mM L-谷胺酰胺的杜百科改良的 易格培养基(DMEM)(英杰公司)培养含有染色体整合的突变eGFP序列的细胞(如上所 述),在37℃和5%CO2气氛下培养。采用Opti-MEM I血清减少培养基配制的脂质转 染2000试剂(Lipofectamine 2000Reagent)(英杰公司)转染细胞。仅用编码ZFN的质粒 (各5ng)、仅用供体质粒(500ng)或编码ZFN的质粒(各5ng)+供体质粒(500ng)转染 细胞。转染5小时后,向生长培养基中加入2ng/ml强力霉素(终浓度),激活染色体 eGFP编码序列的表达。转染3天后收获细胞,用流式细胞术测定eGFP表达。表30 所示结果表明,在不同切割半域存在下,二聚化界面中含有突变的融合蛋白能更有 效地促进同源指导性修复,这表明它们不是发生同源二聚化。
表30:利用FokI二聚化界面中含有突变的锌指/FokI融合蛋白
对突变的染色体eGFP基因进行同源指导性改变*

*用供体构建物和两种ZFN表达构建物转染细胞:一种表达融合于FokI切割半域的 5-8锌指结合域,另一种表达融合于FokI切割半域的5-9锌指结合域。上面一行显示 融合于5-8锌指结合域的切割半域的特性;最左边一列显示融合于5-9锌指结合域的 切割半域的特性。数值表明,在所测试的各对ZFN中,发射eGFP荧光的细胞的百 分数。
实施例40:使41-核苷酸外源序列同源依赖性靶向整合到内源性CCR-5基因中
如实施例32所述培养和转染K562细胞。用2.5μg编码两种锌指/FokI融合蛋白 (由2A肽序列隔开)的构建物和50μg供体构建物(见下)转染细胞,设计的前一种构建 物的锌指域(7568和7296)能结合人CCR-5基因中的靶位点。该锌指域的靶位点(方框) 由5个核苷酸对隔开,如下所示。

(SEQ ID NO:237)
靶位点的核苷酸序列和锌指域识别区的氨基酸序列见表31。
表31:人CCR-5基因的锌指设计

注:最左边一列显示DNA靶序列。其余列显示以各锌指的α螺旋部分为起点时,四个锌指各自的 残基-1至+6的氨基酸序列(单字母码)。指F1最接近该蛋白的氨基端。
该供体DNA分子包含经工程改造含有41个核苷酸对序列标签的人CCR-5基因 的~2千碱基对部分,所述序列标签中含有新的限制性酶BglI的诊断性识别位点。通 过诱变此CCR-5基因片段构建的供体分子中产生了XbaI位点,将41-核苷酸标签引 入该XbaI位点。因此,该41-核苷酸标签一侧侧接于约0.5千碱基对的CCR-5序列, 另一侧侧接于约1.5千碱基对的CCR-5序列。下面显示了该序列,以大写字母表示 该41个核苷酸对的标签,用下划线表示BglI位点。
gttgtcaaagcttcattcactccatggtgctatagagcacaagattttatttggtgagatggtgctttcatgaattcccccaacagagcc aagctctccatctagtggacagggaagctagcagcaaaccttcccttcactacaaaacttcattgcttggccaaaaagagagttaat tcaatgtagacatctatgtaggcaattaaaaacctattgatgtataaaacagtttgcattcatggagggcaactaaatacattctagga ctttataaaagatcactttttatttatgcacagggtggaacaagatggactatcaagtgtcaagtccaatctatgacatcaattattatac atcggagccctgccaaaaaatcaatgtgaagcaaatcgcagcccgcctcctgcctccgctctactcactggtgttcatctttggtttt gtgggcaacatgctggtcatcctcatctagaTCAGTGAGTATGCCCTGATGGCGTCTGGACTGGAT (GCCTCGtctagataaactgcaaaaggctgaagagcatgactgacatctacctgctcaacctggccatctctgacctgtttttcct tcttactgtccccttctgggctcactatgctgccgcccagtgggactttggaaatacaatgtgtcaactcttgacagggctctattttat aggcttcttctctggaatcttcttcatcatcctcctgacaatcgataggtacctggctgtcgtccatgctgtgtttgctttaaaagccagg acggtcacctttggggtggtgacaagtgtgatcacttgggtggtggctgtgtttgcgtctctcccaggaatcatctttaccagatctca aaaagaaggtcttcattacacctgcagctctcattttccatacagtcagtatcaattctggaagaatttccagacattaaagatagtcat cttggggctggtcctgccgctgcttgtcatggtcatctgctactcgggaatcctaaaaactctgcttcggtgtcgaaatgagaagaa gaggcacagggctgtgaggcttatcttcaccatcatgattgtttattttctcttctgggctccctacaacattgtccttctcctgaacacc ttccaggaattctttggcctgaataattgcagtagctctaacaggttggaccaagctatgcaggtgacagagactcttgggatgacg cactgctgcatcaaccccatcatctatgcctttgtcggggagaagttcagaaactacctcttagtcttcttccaaaagcacattgccaa acgcttctgcaaatgctgttctattttccagcaagaggctcccgagcgagcaagctcagtttacacccgatccactggggagcagg aaatatctgtgggcttgtgacacggactcaagtgggctggtgacccagtcagagttgtgcacatggcttagttttcatacacagcct gggctgggggtggggtgggagaggtcttttttaaaaggaagttactgttatagagggtctaagattcatccatttatttggcatctgttt aaagtagattagatcttttaagcccatcaattatagaaagccaaatcaaaatatgttgatgaaaaatagcaacctttttatctccccttca catgcatcaagttattgacaaactctcccttcactccgaaagttccttatgtatatttaaaagaaagcctcagagaattgctgattcttga gtttagtgatctgaacagaaataccaaaattatttcagaaatgtacaactttttacctagtacaaggcaacatataggttgtaaatgtgtt taaaacaggtctttgtcttgctatggggagaaaagacatgaatatgattagtaaagaaatgacacttttcatgtgtgatttc(SEQ ID NO:248)
转染6天后,如实施例32所述分离细胞DNA用作扩增模板,然后用BglI消化。 在用此供体构建物和编码两种锌指/FokI融合蛋白的构建物转染细胞的DNA中,约 1%的扩增产物已被BglI切断,这表明该序列标签已靶向插入到CCR-5基因中。未转 染的细胞、只用该供体构建物转染的细胞和只用编码两种锌指/FokI融合蛋白的构建 物转染的细胞的DNA不产生能被BglI切断的扩增产物。重要的是,靶向插入此41- 核苷酸序列标签能在CCR-5基因中产生移码突变,从而使该基因的功能,包括其作 为HIV受体的功能失活。
将本文提及的所有专利、专利申请和发表物全文纳入本文作参考,用于所有目 的。
虽然为了便于理解以说明和举例的方式详细提供本说明书,但本领域技术人员 应明白,可在不背离本公开的构思和范围的情况下实施各种改变和修改。因此,上 述说明书和实施例不应构成对本发明的限制。
相关申请的交叉参考
本申请要求2005年7月26日提交的美国临时申请号60/702,394和2005年9月 26日提交的美国临时申请号60/721,054的优先权,将其全文内容纳入本文作参考。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈