首页 / 专利库 / 解剖与生理 / 血糖浓度 / 非靶向活化内源基因的组合物和方法

非靶向活化内源基因的组合物和方法

阅读:111发布:2021-11-23

专利汇可以提供非靶向活化内源基因的组合物和方法专利检索,专利查询,专利分析的服务。并且本 发明 一般性地涉及通过原位重组法来活化基因表达或导致基因过表达。本发明还一般性地涉及使内源基因在细胞中以高于正常细胞中所见的 水 平进行表达的方法。在本发明的一个实施方案中,在整合到细胞中后,通过能活化内源基因表达的 调控序列 的非同源或非法重组,来活化或提高该内源基因的表达。在另一个实施方案中,通过共整合一或多个可扩增标记并针对整合载体上该一或多个可扩增标记的拷贝数增加来进行选择,从而进一步提高所述内源基因的表达。在另一个实施方案中,本发明涉及通过将本发明提供的特化活化载体非靶向整合至宿主细胞基因组来活化内源基因。本发明还提供了鉴定,活化,分离和/或表达那些用目前技术无法发现的基因的方法,因为整合不需要靶序列。本发明还提供了分离编码多种 蛋白质 ,包括跨膜蛋白质的核酸分子(特别是cDNA分子)的方法,以及分离能表达这种可能是相对于细胞异源性的跨膜蛋白质的细胞的方法。本发明还涉及分离的基因、基因产物、核酸分子和含有这些基因、基因产物及核酸分子的组合物,还涉及含有这些基因及核酸分子的载体和宿主细胞,所述载体和宿主细胞可用于多种 治疗 和诊断用途。因此,利用本发明,可以活化和分离内源基因,包括那些与人类 疾病 和发育相关的基因,而不需要预先知道这些基因的序列、结构、功能或表达特性。,下面是非靶向活化内源基因的组合物和方法专利的具体信息内容。

1.一种载体构建体,其含有:
(a)与第一个未配对的剪接供体序列可操作相连的第一个转录调控序 列;和
(b)与第二个未配对的剪接供体序列可操作相连的第二个转录调控序 列。
2.权利要求1的载体构建体,其中所述第一个转录调控序列与所述第 二个转录调控序列方向相同。
3.权利要求1的载体构建体,其中所述第一个转录调控序列与所述第 二个转录调控序列方向相反。
4.权利要求2或权利要求3的载体,其中所述载体已线性化。
5.一种载体构建体,其依次含有:
(a)转录调控序列;
(b)未配对的剪接供体位点;
(c)罕见的切割限制性位点;和
(d)线性化位点。
6.一种载体构建体,其依次含有:
(a)转录调控序列;
(b)含有罕见的切割限制性位点的外显子;
(c)未配对的剪接供体位点;和
(d)线性化位点。
7.权利要求6的载体构建体,其进一步含有第二个罕见的切割限制性 位点,所述位点位于所述未配对的剪接供体位点和所述线性化位点之间。
8.一种载体构建体,其含有与缺少聚腺苷酸化信号的选择标记可操作 相连的第一个转录调控序列,并进一步含有与未配对的剪接供体位点可操作 相连的第二个转录调控序列。
9.权利要求1或权利要求8的载体构建体,其中所述第一个转录调控 序列或所述第二个转录调控序列是启动子。
10.权利要求9的载体构建体,其中所述启动子选自CMV立即早期基 因启动子,SV40 T抗原启动子,四环素-诱导型启动子和β-肌动蛋白启动子。
11.权利要求5至7中任一项的载体构建体,其中所述转录调控序列是 启动子。
12.权利要求11的载体构建体,其中所述启动子选自CMV立即早期基 因启动子,SV40 T抗原启动子,四环素-诱导型启动子和β-肌动蛋白启动子。
13.权利要求8的载体构建体,其中所述选择标记选自新霉素基因、次 黄嘌呤磷酸核糖转移酶基因、嘌呤霉素基因、二氢乳清酸酶基因、谷酰胺 合成酶基因、组氨酸D基因、氨甲酰磷酸合成酶基因、二氢叶酸还原酶基因、 多抗药性1基因、天冬氨酸转氨甲酰酶基因、黄嘌呤-嘌呤磷酸核糖转移酶 基因、腺苷脱氨酶基因和胸苷激酶基因。
14.含有权利要求1,5,6,7和8中任一项的载体构建体的真核宿主 细胞。
15.权利要求14的真核宿主细胞,其中所述细胞是动物细胞。
16.权利要求15的真核宿主细胞,其中所述动物细胞选自哺乳动物细 胞,昆虫细胞,禽细胞,环节动物细胞,两栖动物细胞,爬行动物细胞和鱼 细胞。
17.权利要求15的真核宿主细胞,其中所述动物细胞是哺乳动物细胞。
18.权利要求17的真核宿主细胞,其中所述哺乳动物细胞是人的细胞。
19.权利要求14的真核宿主细胞,其中所述细胞是植物细胞。
20.权利要求14的真核宿主细胞,其中所述细胞是真菌细胞。
21.权利要求20的真核宿主细胞,其中所述真菌细胞是酵母细胞。
22.权利要求15的真核宿主细胞,其中所述细胞是分离的细胞。
23.权利要求15的真核宿主细胞,其中所述载体构建体整合至所述宿 主细胞的基因组中。
24.一种引物分子,其含有可通过PCR扩增的序列和简并的3’末端, 其中所述引物分子具有以下结构:
5’-(dT)a-X-Nb-TTTATT-3’
其中a是从1至100的整数,X是可通过PCR扩增的序列,它由长度 约为10至20个核苷酸的核酸序列组成,N是任何核苷酸,b是从0至6的 整数。
25.权利要求24的引物分子,其中所述可通过PCR扩增的序列含有一 个或多个限制性位点。
26.权利要求24的引物分子,其中a是从10至30的整数。
27.权利要求24的引物分子,其中所述引物分子含有一个或多个与所 述引物分子的一个或多个基偶联的半抗原分子。
28.权利要求27的引物分子,其中所述半抗原分子选自生物素,地高 辛配基,抗体,酶,脂多糖,脱运铁蛋白,铁运铁蛋白,胰岛素,细胞因 子,细胞外基质蛋白,整联蛋白,锚蛋白,C3bi,血纤蛋白原,血影蛋白, 细胞因子受体,胰岛素受体,运铁蛋白受体,多粘菌素B,内毒素-中和蛋白 (ENP),酶-特异性底物,蛋白A,蛋白G,细胞表面Fc受体,抗体-特异性 抗原,抗体-特异性肽,亲和素和链霉亲和素。
29.权利要求27的引物分子,其中所述半抗原分子是生物素。
30.合成第一条cDNA链的方法,所述方法包括:
(a)使权利要求24的引物与RNA模板分子退火,形成引物-RNA复合 物,和
(b)在有利于逆转录所述引物-RNA复合物的条件下,用逆转录酶和一种 或多种脱核苷分子处理所述引物-RNA复合物以合成第一条cDNA链。
31.一种载体构建体,其含有与未配对的剪接供体序列可操作相连的转 录调控序列和一个或多个可扩增标记,其中所述载体构建体不含同源靶向序 列。
32.一种载体构建体,其含有转录调控序列,可扩增标记和病毒复制起 点。
33.一种载体构建体,其含有选择标记,与翻译起始密码子可操作相连 的转录调控序列,分泌信号序列,表位标记和未配对的剪接供体位点。
34.一种载体构建体,其含有与翻译起始密码子可操作相连的转录调控 序列,分泌信号序列,表位标记,序列-特异性蛋白酶位点和未配对的剪接供 体位点。
35.一种载体,其含有:
(a)与翻译起始密码子可操作相连的转录调控序列;
(b)编码4个或更多个氨基酸长的氨基酸序列的核酸序列,其中所述氨基 酸序列单独不足以构成信号肽活性,但当所述核酸序列与内源基因的外显子 联合或位于所述外显子上游时,足以构成信号肽活性;和
(c)未配对的剪接供体位点。
36.权利要求33至35中任一项的载体构建体,其中所述构建体进一步 含有一个或多个可扩增标记。
37.权利要求31和33至35中任一项的载体构建体,其中所述转录调 控序列是启动子。
38.权利要求37的载体构建体,其中所述启动子是病毒启动子。
39.权利要求38的载体构建体,其中所述病毒启动子是巨细胞病毒立 即早期基因启动子。
40.权利要求38的载体构建体,其中所述启动子是非-病毒启动子。
41.权利要求38的载体构建体,其中所述启动子是诱导型启动子。
42.含有权利要求31至35中任一项的载体构建体的细胞。
43.含有权利要求36的载体构建体的细胞。
44.权利要求42的细胞,其中所述载体构建体已整合至细胞基因组中。
45.权利要求43的细胞,其中所述载体构建体已整合至细胞基因组中。
46.权利要求44或45的细胞,其中通过用所述载体构建体上的所述转 录调控序列上调内源基因而在所述细胞中过表达该基因。
47.权利要求42的细胞,其中所述细胞是分离的细胞。
48.权利要求43的细胞,其中所述细胞是分离的细胞。
49.制备宿主细胞的方法,所述方法包括将权利要求31至35中任一项 的构建体导入细胞。
50.产生内源细胞基因或其部分的表达产物的方法,所述方法包括:
(a)将权利要求31至35中任一项的构建体导入含有基因组的细胞;
(b)通过非同源重组将所述构建体整合至所述细胞的基因组中;和
(c)在所述细胞中过表达所述内源基因。
51.权利要求50的方法,其中所述过表达在体外完成。
52.权利要求50的方法,其中所述过表达在体内完成。
53.权利要求50的方法,其进一步包括从所述细胞中分离所述表达产 物。
54.一种细胞文库,其含有被权利要求31至35中任一项的构建体转化 的细胞集合,其中所述构建体通过非-同源重组整合至所述细胞的基因组中。
55.获得细胞文库的基因产物的方法,所述方法包括:筛选权利要求54 的文库中所述基因产物的表达,从所述文库中选择过表达所述基因产物的细 胞,和从所述经选择的细胞中获得所述基因产物。
56.产生内源细胞基因的表达产物的方法,所述方法包括:
(a)在细胞中导入载体,所述载体含有与分泌信号序列可操作相连的转录 调控序列和未配对的剪接供体序列;
(b)通过非同源重组将所述载体整合至所述细胞的基因组中;
(c)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因或其部分;
(d)筛选过表达所述内源基因或其部分的所述细胞;和
(e)在有利于所述细胞产生所述内源基因或其部分的表达产物的条件下 培养所述细胞。
57.权利要求56的方法,其进一步包括分离所述表达产物。
58.在体内细胞中过表达内源基因的方法,所述方法包括:
(a)在细胞中导入载体,所述载体含有转录调控序列;
(b)通过非同源重组将所述载体整合至所述细胞的基因组中;
(c)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因或其部分;
(d)筛选过表达所述内源基因的所述细胞;和
(e)在有利于所述细胞在体内过表达所述内源基因的条件下将所述分离 并克隆的细胞导入动物。
59.在体内产生内源细胞基因的表达产物的方法,所述方法包括:
(a)在细胞中导入载体,所述载体含有与未配对的剪接供体序列可操作相 连的转录调控序列;
(b)通过非同源重组将所述载体整合至所述细胞的基因组中;
(c)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因或其部分;
(d)筛选过表达所述内源基因的所述细胞;和
(e)在有利于所述细胞在体内过表达所述内源基因的条件下将所述分离 并克隆的细胞导入动物。
60.产生内源细胞基因的表达产物的方法,所述方法包括:
(a)在细胞中导入载体,所述载体含有转录调控序列和一个或多个可扩增 标记;
(b)通过非同源重组将所述载体整合至所述细胞的基因组中;
(c)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因或其部分;
(d)筛选过表达所述内源基因的所述细胞;
(e)在所述载体和所述内源基因能在所述细胞中扩增的条件下培养所述 细胞;和
(f)在有利于所述细胞产生所述内源基因的表达产物的条件下培养所述 细胞。
61.权利要求60的方法,其进一步包括分离所述表达产物。
62.权利要求60的方法,其中所述载体进一步包括与所述转录调控序 列可操作相连的剪接供体位点。
63.权利要求60或权利要求62的方法,其中所述内源基因或其部分编 码选自下列的蛋白质:红细胞生成素、胰岛素、生长激素、葡糖脑苷脂酶,组 织纤溶酶原活化物、粒细胞集落刺激因子(G-CSF)、粒细胞/巨噬细胞集落刺 激因子(GM-CSF)、巨噬细胞集落刺激因子(M-CSF)、干扰素α、干扰素β、 干扰素γ,白介素-2、白介素-3、白介素-4、白介素-6、白介素-8、 白介素-10、白介素-11、白介素-12、白介素-13、白介素-14、TGF-β,凝 血因子V,凝血因子VII、凝血因子VIII、凝血因子IX、凝血因子X、TSH-β、 骨生长因子-2、骨生长因子-7,肿瘤坏死因子、α-1抗胰蛋白酶、抗凝 血酶III,白血病抑制因子、胰高血糖素、蛋白C、蛋白激酶C、干细胞因子、 促卵泡激素β、尿激酶、神经生长因子、胰岛素样生长因子、促胰岛素、甲 状旁腺激素、乳铁蛋白、补体抑制因子、血小板衍生生长因子,质细胞生 长因子、肝细胞生长因子、内皮细胞生长因子、神经营养蛋白-3、血小板生 成素、绒膜促性腺激素、血栓调节蛋白、α糖苷酶、表皮生长因子,成纤 维细胞生长因子,细胞表面受体、跨膜离子通道、胆固醇受体、脂蛋白受体、 整联蛋白、细胞骨架锚蛋白、免疫球蛋白受体和CD抗原。
64.权利要求60或权利要求62的方法,其中所述内源基因或其部分编 码红细胞生成素蛋白。
65.权利要求60或权利要求62的方法,其中所述内源基因或其部分编 码生长激素蛋白。
66.权利要求60或权利要求62的方法,其中所述内源基因或其部分编 码G-CSF蛋白。
67.由权利要求60或权利要求62的方法产生的基因表达产物,其中所 述基因表达产物是选自下列的蛋白质:红细胞生成素、胰岛素、生长激素、 葡糖脑苷脂酶,组织纤溶酶原活化物、粒细胞集落刺激因子(G-CSF)、粒细 胞/巨噬细胞集落刺激因子(GM-CSF)、巨噬细胞集落刺激因子(M-CSF)、 干扰素α、干扰素β、干扰素γ,白介素-2、白介素-3、白介素-4、白介 素-6、白介素-8、白介素-10、白介素-11、白介素-12、白介素-13、白介 素-14、TGF-β,凝血因子V,凝血因子VII、凝血因子VIII、凝血因子IX、凝 血因子X、TSH-β、骨生长因子-2、骨生长因子-7,肿瘤坏死因子、α- 1抗胰蛋白酶、抗凝血酶III,白血病抑制因子、胰高血糖素、蛋白C、蛋白 激酶C、干细胞因子、促卵泡激素β、尿激酶、神经生长因子、胰岛素样生长 因子、促胰岛素、甲状旁腺激素、乳铁蛋白、补体抑制因子、血小板衍生生 长因子,角质细胞生长因子、肝细胞生长因子、内皮细胞生长因子、神经营 养蛋白-3、血小板生成素、  绒膜促性腺激素、血栓调节蛋白、α糖苷酶、表 皮生长因子,纤维细胞生长因子,细胞表面受体、跨膜离子通道、胆固醇 受体、脂蛋白受体、整联蛋白、细胞骨架锚蛋白、免疫球蛋白受体和CD抗 原。
68.由权利要求60或权利要求62的方法产生的基因表达产物,其中所 述基因表达产物是红细胞生成素蛋白。
69.由权利要求60或权利要求62的方法产生的基因表达产物,其中所 述基因表达产物是生长激素蛋白。
70.由权利要求60或权利要求62的方法产生的基因表达产物,其中所 述基因表达产物是G-CSF蛋白。
71.在体内细胞中过表达内源基因的方法,所述方法包括:
(a)在细胞中导入载体,所述载体含有转录调控序列和一个或多个可扩增 标记;
(b)通过非同源重组将所述载体整合至所述细胞的基因组中;
(c)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因或其部分;
(d)筛选过表达所述内源基因的所述细胞;和
(e)在有利于所述细胞在体内过表达所述内源基因的条件下将所述经分 离和克隆的细胞导入动物。
72.权利要求56,58至60,62和71中任一项的方法,其中所述转录 调控序列是启动子。
73.权利要求72的方法,其中所述启动子是病毒启动子。
74.权利要求73的方法,其中所述病毒启动子是巨细胞病毒立即早期 启动子。
75.权利要求72的方法,其中所述启动子是非-病毒启动子。
76.权利要求72的方法,其中所述启动子是诱导型启动子。
77.权利要求56、58-60、62和71中任一项的方法,其进一步包括在 所述载体发生整合之前或同时向所述细胞基因组DNA中导入双链断裂。
78.权利要求49的方法,其进一步包括在所述载体发生整合之前或同 时向所述细胞基因组DNA中导入双链断裂。
79.权利要求50的方法,其进一步包括在所述载体发生整合之前或同 时向所述细胞基因组DNA中导入双链断裂。
80.由权利要求56、58-60、62和71中任一项的方法产生的基因表达 产物。
81.权利要求56、58-60、62和71中任一项的方法,其中所述载体构 建体是线性的。
82.在细胞中产生内源基因的表达产物的方法,所述方法包括:
(a)在至少一个分离的含有基因组的细胞中导入载体,所述载体含有转录 调控序列;
(b)通过非同源重组将所述载体整合至所述细胞的基因组中;
(c)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因或其部分;
(d)筛选过表达所述内源基因的所述细胞;和
(e)在减少血清的培养基中培养所述细胞。
83.发现蛋白质的方法,所述方法包括:
(a)在至少一个分离的含有基因组的细胞中导入载体,所述载体含有转录 调控序列;
(b)通过非同源重组将所述载体整合至所述细胞的基因组中;
(c)在用所述转录调控序列上调内源基因而允许所述细胞过表达该基因 或其部分的条件下,在减少血清的培养基中培养所述细胞,从而产生细胞- 条件培养基;和
(d)筛选所述细胞-条件培养基中所述基因或其部分的表达产物的存在。
84.权利要求83的方法,其进一步包括在(d)中筛选之前浓缩所述细胞- 条件培养基。
85.权利要求82至84中任一项的方法,其中所述方法包括高流通量的 试验。
86.产生内源细胞基因的表达产物的方法,所述方法包括:
  (a)将含有转录调控序列的载体导入细胞;
  (b)使所述载体通过非同源重组整合至所述细胞的基因组中;
  (c)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该 基因或其部分;
  (d)筛选过表达所述内源基因的所述细胞;
  (e)在有利于所述细胞产生所述内源基因的表达产物的条件下培养所 述细胞;和
  (f)从等同于至少10升浓度为104个细胞/ml的细胞生物量中分离所述 表达产物。
87.权利要求82至84和86中任一项的方法,其中所述载体进一步含 有一个或多个可扩增标记。
88.权利要求82至84和86中任一项的方法,其中所述载体进一步含 有未配对的剪接供体位点。
89.不需利用表型已知的内源基因的任何序列信息而提高该基因的细胞 内原位表达的方法,该方法包括以下步骤:
  (a)构建包含可扩增标记,转录调控序列和未配对的剪接供体序列的载 体;
  (b)将载体拷贝递送至大量细胞中;
(c)在允许在插入的载体和细胞基因组之间发生非同源重组的条件下培 养细胞;
(d)通过分析所述内源基因的表型来筛选重组细胞以便鉴定其中所述基 因的表达已被增强的细胞;和
(e)选择所述可扩增标记和所述内源基因的表达均已增强的细胞。
90.权利要求89的方法,其中所述表型是特定蛋白质的产生,通过检测 该蛋白质产量的增加来进行分析。
91.一种其基因组中包含插入的基因构建体的分离细胞,所述基因构建 体包含可扩增标记和转录调控序列,其中所述构建体插入基因或基因的上游 区域并活化该基因的表达,并且该基因和该基因的上游区域不含与所述基因 构建体同源的核苷酸序列。
92.权利要求91的细胞,其中所述基因构建体进一步含有外显子-未配 对的剪接供体序列。
93.权利要求91或权利要求92的分离的细胞,其中所述基因编码选自 下列的蛋白质:红细胞生成素、胰岛素、生长激素、葡糖脑苷脂酶,组织纤 溶酶原活化物、粒细胞集落刺激因子(G-CSF)、粒细胞/巨噬细胞集落刺激因 子(GM-CSF)、巨噬细胞集落刺激因子(M-CSF)、干扰素α、干扰素β、干 扰素γ,白介素-2、白介素-3、白介素-4、白介素-6、白介素-8、白 介素-10、白介素-11、白介素-12、白介素-13、白介素-14、TGF-β,凝血 因子V,凝血因子VII、凝血因子VIII、凝血因子IX、凝血因子X、TSH-β、骨 生长因子-2、骨生长因子-7,肿瘤坏死因子、α-1抗胰蛋白酶、抗凝血 酶III,白血病抑制因子、胰高血糖素、蛋白C、蛋白激酶C、干细胞因子、 促卵泡激素β、尿激酶、神经生长因子、胰岛素样生长因子、促胰岛素、甲 状旁腺激素、乳铁蛋白、补体抑制因子、血小板衍生生长因子,角质细胞生 长因子、肝细胞生长因子、内皮细胞生长因子、神经营养蛋白-3、血小板生 成素、绒膜促性腺激素、血栓调节蛋白、α糖苷酶、表皮生长因子,成纤 维细胞生长因子,细胞表面受体、跨膜离子通道、胆固醇受体、脂蛋白受体、 整联蛋白、细胞骨架锚蛋白、免疫球蛋白受体和CD抗原。
94.权利要求91或权利要求92的分离的细胞,其中所述基因编码红细 胞生成素蛋白。
95.权利要求91或权利要求92的分离的细胞,其中所述基因编码生长 激素蛋白。
96.权利要求91或权利要求92的分离的细胞,其中所述基因编码G- CSF蛋白。
97.增强基因表达的方法,所述方法包括:
(a)将载体导入细胞基因组,所述载体含有增强子序列和一或多个可扩 增标记,其中所述载体缺少基因特异性靶向序列;
(b)筛选所述细胞中表达内源基因的那些;和
(c)选择所述可扩增标记和所述内源基因的表达均已增强的细胞。
98.权利要求97的方法,其进一步包括分离其中所述内源基因的表达 已增强的细胞。
99.增强内源基因在细胞中表达的方法,包括:
(a)使载体通过非同源重组整合到细胞内,所述载体含有增强子序列和 一个或多个可扩增标记;
(b)筛选表达所述内源基因的非同源重组细胞,其中所述增强子序列具 有活性的该基因和该基因的上下游区域与所述载体没有同源性;和
(c)选择所述可扩增标记和所述内源基因的表达均已增强的细胞。
100.其基因组中包含插入的人工基因构建体的分离细胞,所述基因构建 体包含一个或多个可扩增标记和能有效增强基因在所述细胞内表达的增强 子,其中所述基因构建体被插入基因或基因的上游或下游区域,其中增强子 序列具有活性的该基因及其上下游区域与所述基因构建体没有同源性。
101.权利要求53,56,58-60,62,71,82-84和86中任一项的方法, 其中所述内源基因编码跨膜蛋白。
102.权利要求89,97和99中任一项的方法,其中所述基因编码细胞 跨膜蛋白。
103.权利要求58,59,62和71中任一项的方法,其进一步包括在将 所述细胞导入动物之前分离并克隆所述细胞。
104.权利要求58,59,62和71中任一项的方法,其中所述动物是哺 乳动物。
105.权利要求104的方法,其中所述哺乳动物是人。
106.鉴定能表达内源基因的细胞的方法,所述内源基因编码一种完整 的膜蛋白,所述方法包括:
(a)将载体导入细胞中,所述载体含有:
(i)与含有起始密码子的外显子序列可操作相连的转录调控序列,
(ii)信号序列,和
(iii)表位标记,其后紧接着未配对的剪接供体位点;
(b)使所述载体通过非同源重组整合到所述细胞基因组中;
(c)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因或其部分;和
(d)筛选所述细胞中能在其表面表达所述表位标记的那些。
107.鉴定能表达内源基因的细胞的方法,所述内源基因编码一种完整 的膜蛋白,所述方法包括:
(a)从真核宿主细胞中分离基因组DNA;
(b)将所述分离的基因组DNA与载体组合以形成基因组DNA-载体复合 物,所述载体含有:
(i)与含有起始密码子的外显子序列可操作相连的转录调控序列,
(ii)信号序列,和
(iii)表位标记;
(c)将所述基因组DNA-载体复合物导入真核宿主细胞;
(d)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因;和
(e)筛选所述细胞中能在其表面表达所述表位标记的那些。
108.鉴定能表达内源基因的细胞的方法,所述内源基因编码一种完整 的膜蛋白,所述方法包括:
(a)从真核宿主细胞中制备cDNA;
(b)将所述分离的cDNA与载体组合以形成cDNA-载体复合物,所述载 体含有:
(i)与含有起始密码子的外显子序列可操作相连的转录调控序列,
(ii)信号序列,和
(iii)表位标记,其后紧接着未配对的剪接供体位点;
(c)将所述cDNA-载体复合物导入真核宿主细胞;
(d)通过用所述转录调控序列上调内源基因而在所述细胞中过表达该基 因;和
(e)筛选所述细胞中能在其表面表达所述表位标记的那些。
109.权利要求106至108中任一项的方法,其进一步包括分离表达所 述表位标记的所述细胞。
110.权利要求109的方法,其进一步包括从所述分离的细胞中分离所 述过表达的内源基因。
111.一种载体,其含有:
(a)与外显子和未配对的剪接供体位点可操作相连的第一个启动子;和
(b)与缺少聚腺苷酸化信号的选择标记可操作相连的第二个启动子。
112.权利要求111的载体,其中所述第一个和第二个启动子以相同的 方向位于所述载体上。
113.权利要求112的载体,其中所述载体是线性的,其中所述选择标 记位于所述第一个启动子的3’方向。
114.权利要求112的载体,其中所述载体是线性的,其中所述第二个 启动子位于所述未配对的剪接供体位点的5’方向。
115.权利要求111的载体,其中所述外显子缺少翻译起始密码子。
116.权利要求111的载体,其中所述外显子含有翻译起始密码子。
117.权利要求111的载体,其中所述外显子含有翻译起始密码子和信 号分泌序列。
118.一种载体构建体,其含有:
(a)第一个启动子;
(b)正选择标记;
(c)负选择标记;和
(d)未配对的剪接供体位点,
其中所述正和负选择标记和所述剪接供体位点在所述载体构建体上的 取向使得:当所述载体构建体以在所述载体-编码的剪接供体位点和基因组- 编码的剪接受体位点之间发生剪接的方式整合至真核宿主细胞基因组时,所 述正选择标记以活性形式被表达,所述负选择标记或者不表达,或者以无活 性的形式被表达。
119.权利要求118的载体,其中所述正和负选择标记以融合基因的形 式存在。
120.权利要求118的载体,其中所述正选择标记,所述负选择标记, 或者所述正和负选择标记缺少聚腺苷酸化位点。
121.权利要求118的载体,其中所述载体进一步含有与第二个未配对 的剪接供体位点可操作相连的第二个启动子。
122.含有第一个启动子和第二个启动子的载体,所述第一和第二个启 动子的方向相同,其中:
(a)所述第一个启动子,而不是所述第二个启动子,与未配对的剪接供体 位点可操作相连;和
(b)所述载体在所述第一个启动子或所述第二个启动子的下游不含聚腺 苷酸化信号。
123.权利要求122的载体,其中所述载体是线性的,其中所述第二个 启动子位于所述第一个启动子的3’方向。
124.一种载体,其含有:
(a)与含有未配对的剪接供体位点的第一个选择标记可操作相连的第一 个启动子;和
(b)与第二个选择标记可操作相连的第二个启动子,
其中所述第一个选择标记和所述第二个选择标记都不含聚腺苷酸化信 号。
125.权利要求124的载体,其中所述第一个和第二个选择标记是正选 择标记。
126.权利要求124的载体,其中所述第一个选择标记位于所述第二个 选择标记的上游。
127.一种载体,其含有:
(a)与第一个外显子和第一个未配对的剪接供体位点可操作相连的第一 个启动子;和
(b)与第二个外显子和第二个未配对的剪接供体位点可操作相连的第二 个启动子,
其中所述第一个外显子的核苷酸序列不同于所述第二个外显子的核苷 酸序列。
128.权利要求127的载体,其中所述第一和第二个外显子各含有翻译 起始密码子和不被终止密码子终止的开放阅读框。
129.权利要求127的载体,其中所述第一个外显子,所述第二个外显 子,或所述第一个和第二个外显子缺少翻译起始密码子。
130.一种载体构建体,其含有:
(a)与正选择标记可操作相连的第一个启动子;
(b)与负选择标记可操作相连的第二个启动子;和
(c)未配对的剪接供体位点,
其中所述正和负选择标记和所述剪接供体位点在所述载体构建体上的 取向使得:当所述载体构建体以所述基因组中的内源基因被转录活化的方式 整合至真核宿主细胞基因组时,所述正选择标记以活性形式被表达,所述负 选择标记或者不表达,或者以无活性的形式被表达。
131.权利要求130的载体构建体,其进一步含有与第二个未配对的剪 接供体位点可操作相连的第三个启动子。
132.权利要求1,5-7,8,31,32,35,111,118,122,124,127, 130和131中任一项的载体,所述载体进一步含有一个或多个转座信号。
133.权利要求111,118,122,124,127,130和131中任一项的载体, 所述载体进一步含有一个或多个可扩增标记。
134.权利要求1,5-7,8,31,32,35,111,118,122,124,127, 130和131中任一项的载体,所述载体进一步含有一或多个病毒复制起点。
135.权利要求1,5-7,8,31,32,35,111,118,122,124,127, 130和131中任一项的载体,所述载体进一步含有一个或多个病毒复制因子 基因。
136.权利要求133的载体,其中所述可扩增标记选自二氢叶酸还原酶、 腺苷脱氨酶、天冬氨酸转氨甲酰酶、二氢乳清酸酶和氨甲酰磷酸合成酶。
137.权利要求134的载体,其中所述病毒复制起点选自EB病毒oriP 和SV40 ori。
138.权利要求1,5-7,8,31,32,35,111,118,122,124,127, 130和131中任一项的载体,所述载体进一步含有基因组DNA。
139.一种宿主细胞,其含有权利要求31,32,35,111,118,122, 124,127,130和131中任一项的载体。
140.含有权利要求132的载体的宿主细胞。
141.含有权利要求133的载体的宿主细胞。
142.含有权利要求134的载体的宿主细胞。
143.含有权利要求135的载体的宿主细胞。
144.含有权利要求138的载体的宿主细胞。
145.权利要求139的宿主细胞,其中所述宿主细胞是分离的细胞。
146.权利要求140-144中任一项的宿主细胞,其中所述宿主细胞是分 离的细胞。
147.一种细胞文库,其含有权利要求1,5-7,8,31,32,35,111, 118,122,124,127,130和131中任一项的载体。
148.含有权利要求132的载体的细胞文库。
149.含有权利要求133的载体的细胞文库。
150.含有权利要求134的载体的细胞文库。
151.含有权利要求135的载体的细胞文库。
152.含有权利要求138的载体的细胞文库。
153.活化细胞中的内源基因的方法,其包括:
(a)用权利要求1,5-7,8,31,32,35,111,118,122,124,127, 130和131中任一项的载体转染含有基因组的细胞;和
(b)在适于所述载体非同源整合至所述细胞基因组内的条件下培养所述 细胞,其中所述整合导致所述细胞基因组中内源基因的活化。
154.鉴定基因的方法,其包括:
(a)用权利要求1,5-7,8,31,32,35,111,118,122,124,127, 130和131中任一项的载体转染多个含有基因组的细胞;
(b)在适于所述载体非同源整合至宿主细胞基因组的条件下培养所述细 胞;
(c)选择其中所述载体已整合至基因组的细胞;
(d)从所选细胞中分离RNA;
(e)从所分离的RNA产生cDNA;和
(f)通过对含有一或多个来自所述载体的核苷酸序列的一或多个cDNA 分子进行分离来鉴定所述cDNA中的基因。
155.权利要求154的方法,其中(f)所述鉴定通过使所述cDNA与所述 载体杂交而实现。
156.权利要求154的方法,其中(f)所述鉴定通过测序所述cDNA并将 该cDNA的核苷酸序列与所述载体的核苷酸序列进行比较而实现。
157.权利要求124的载体,其中所述未配对的剪接供体纬度位于所述第 一选择标记的上游或内部,从而当所述载体整合至真核宿主细胞的基因组中 时,可将所述未配对的剪接供体位点剪接至基因组编码的剪接受体位点处, 然后使所述第一选择标记以无活性形式表达或根本不表达。
158.分离细胞的方法,该细胞中一个单外显子基因已活化,该方法包 括:
(a)用权利要求157的载体转染多个含有基因组的真核细胞;
(b)在适于所述载体非同源整合至宿主细胞基因组的条件下培养所述细 胞;
(c)选择其中第一和第二选择标记均以非活性形式表达的细胞;
159.权利要求158的方法,进一步包括:
(d)从所选细胞中分离RNA;
(e)从所分离的RNA产生cDNA;和
(f)从所述cDNA分离一个单外显子基因。
160.分离基因的外显子I的方法,其包括:
(a)用权利要求111,112,114,122,124,和127中任一项的载体转染 一或多个含有基因组的真核细胞;
(b)在适于所述载体非同源整合至所述细胞基因组的条件下培养所述细 胞;
(c)选择其中所述载体已使含有一或多个外显子的内源基因转录活化了 的细胞;
(d)从所选细胞中分离RNA;
(e)从所分离的RNA产生cDNA;
(f)回收含有所述载体的第一外显子并已将该外显子剪接至所述内源基 因之第二外显子处的cDNA分子,从而获得一或多个被载体外显子标记的 cDNA分子;和
(g)用所述被载体外显子标记的cDNA分子回收含有外显子I的活化的内 源基因。
161.表达含基因外显子I的转录物的方法,该方法包括:
(a)用权利要求111,112,114,122,124,和127中任一项的载体转染 一或多个含有基因组的真核细胞;
(b)在适于所述载体非同源整合至所述细胞基因组的条件下培养所述细 胞;
(c)在适于含内源基因外显子I的转录物表达的条件下培养所述细胞。
162.产生基因产物的方法,其包括:
(a)从真核细胞分离含有至少一个基因的基因组DNA;
(b)通过体外转座将所述分离的基因组DNA插入一种载体,从而形成一 种基因组DNA-载体复合物,其中所述载体含有一或多个转座信号、一或多 个启动子、一或多个外显子、以及一或多个未配对的剪接供体位点;
(c)将所述基因组DNA-载体复合物导入真核宿主细胞;和
(d)在适于所述基因表达的条件下培养所述宿主细胞。
163.权利要求162的方法,进一步包括分离所述基因的表达产物。
164.产生由内源性细胞基因组的基因编码的基因产物的方法,其包括:
(a)从真核细胞分离含有至少一个基因的基因组DNA;
(b)将所述分离的基因组DNA插入权利要求111,112,114,122,124, 和127任一项的载体中或与之组合,从而形成一种基因组DNA-载体复合物;
(c)将所述基因组DNA-载体复合物转染至适当的真核宿主细胞;和
(d)在适于导致由所述基因组DNA-载体复合物中所述载体编码的一或多 个基因转录的条件下培养所述宿主细胞。
165.权利要求164的方法,进一步包括:
(e)分离由所述宿主细胞的转录产生的RNA;
(f)从所述分离的RNA产生一或多种cDNA分子;和
(g)回收在所述cDNA分子的5`端含有载体序列的一或多种cDNA分 子,从而分离所述基因。
166.权利要求164的方法,其中所述载体进一步包含一或多个转座信 号,且其中所述载体已通过体外转座而插入所述分离的基因组DNA中。
167.权利要求164的方法,其中所述分离的基因组DNA出现在克隆载 体中。
168.产生蛋白质的方法,其包括:
(a)从一或多种细胞分离基因组DNA;
(b)将所述分离的基因组DNA插入权利要求111,112,114,122,124, 和127任一项的载体中或与之组合,从而形成一种基因组DNA-载体复合物;
(c)将所述基因组DNA-载体复合物转染至适当的宿主细胞;和
(d)在适于导致由所述基因组DNA-载体复合物中所述基因组DNA编码 的蛋白质表达的条件下培养所述细胞。
169.产生蛋白质的方法,其包括:
(a)从一或多种细胞分离基因组DNA;
(b)将含有一或多个转座信号以及与外显子-未配对的剪接供体复合物可 操作相连的转录调控序列的载体通过转座而整合至所述分离的基因组DNA 中,从而形成一种基因组DNA-载体复合物;
(c)将所述基因组DNA-载体复合物转染至适当的宿主细胞;和
(d)在适于导致由所述基因组DNA-载体复合物中所述基因组DNA编码 的蛋白质表达的条件下培养所述细胞。
170.表达基因的方法,其包括:
(a)从一或多种真核细胞中分离含一或多个基因的基因组DNA;
(b)使所述分离的基因组DNA与含有以下元件的载体组合:
   (i)选择标记,
   (ii)与翻译起始密码子可操作相连的转录调控序列,
   (iii)分泌信号序列,
   (iv)表位标记,和
   (v)未配对的剪接供体位点,
从而形成一种载体-基因组DNA复合物;
(c)将所述载体-基因组DNA复合物导入细胞;
(d)选择含所述载体-基因组DNA复合物的细胞;和
(e)在适于所述载体-基因组DNA复合物所含基因表达的条件下培养所 述细胞。
171.权利要求168的方法,其中选出的所述宿主细胞是在适于蛋白质表 达的条件下培养之前、期间、或之后含有所述转染的载体-基因组DNA复合 物的细胞。
172.权利要求169的方法,其中所述载体进一步包含选择标记,且其中 选出的所述宿主细胞是在适于蛋白质或基因表达的条件下培养之前含有所 述转染的载体-基因组DNA复合物的细胞。
173.权利要求167的方法,其中所述克隆载体选自BAC、YAC、PAC、 粘粒、噬菌体、和质粒。
174.权利要求164的方法,进一步包括分离所述蛋白。
175.由权利要求168的方法产生的蛋白质。
176.由权利要求170-172中任一项的方法产生的蛋白质。
177.由权利要求174的方法产生的蛋白质。
178.蛋白表达的方法,其包括:
(a)用含有与以下元件可操作相连的异源启动子的载体转染宿主细胞:
   (i)异源外显子,
   (ii)异源剪接供体位点,
   (iii)编码基因或其一部分的基因组DNA片段,和
   (iv)一或多个选择标记,
其中所述异源外显子缺乏翻译起始密码子或编码翻译起始密码子及未 被终止密码子终止的开放阅读框;
(b)选择含所述转染的载体的细胞;和
(c)在适于所述载体表达蛋白的条件下培养所选择的转染的宿主细胞。
179.权利要求178的方法,其中所述载体进一步包含病毒复制起点。
180.权利要求179的方法,其中所述病毒复制起点是EB病毒oriP。
181.一种载体,其包含:
(a)异源启动子;
(b)异源外显子;
(c)异源剪接供体位点;
(d)编码基因或其一部分的基因组片段;
(e)一或多个选择标记;和
(f)一或多个病毒复制起点,
其中所述异源外显子缺乏翻译起始密码子或编码翻译起始密码子及未 被终止密码子终止的开放阅读框,且其中所述基因组片段的取向为所述异源 启动子、所述外显子及所述剪接供体位点的下游,以便通过将所述载体导入 宿主细胞,可由所述基因组片段所编码的基因或其一部分来表达蛋白。
182.权利要求181的载体,其中所述选择标记缺乏聚腺苷酸化信号。
183.权利要求181的载体,进一步包括编码一或多种病毒复制蛋白的一 或多个基因。
184.权利要求181的载体,进一步包括可扩增标记。
185.含有权利要求181-184中任一项的载体的细胞。
186.权利要求185的细胞,其中所述细胞为分离的细胞。
187.权利要求8的载体构建体,其中所述第一个转录调控序列在所述载 体构建体中与所述第二个转录调控序列的取向相同。
188.权利要求118或130的载体构建体,其中所述正选择标记选自新霉 素基因、次黄嘌呤磷酸核糖转移酶基因、嘌呤霉素基因、二氢乳清酸酶基因、 谷氨酰胺合成酶基因、组氨酸D基因、氨甲酰磷酸合成酶基因、二氢叶酸还 原酶基因、多抗药性1基因、天冬氨酸转氨甲酰酶基因、黄嘌呤-鸟嘌呤磷酸 核糖转移酶基因、和腺苷脱氨酶基因。
189.权利要求118或130的载体构建体,其中所述负选择标记选自次黄 嘌呤磷酸核糖转移酶基因、胸苷激酶基因、和白喉毒素基因。
190.权利要求130的载体,其中所述负选择标记位于所述正选择标记的 上游。
191.一种稳定表达蛋白的宿主细胞,其中所述宿主细胞包含一种载体, 该载体含有启动子、外显子/剪接供体复合物、和编码所述蛋白或其部分的基 因组片段,其中所述启动子和外显子/剪接供体复合物相对于所述基因组片段 为异源性的。
192.权利要求191的宿主细胞,其中所述载体已整合至所述细胞的基因 组中。
193.权利要求191的宿主细胞,其中所述载体进一步包含病毒的复制起 点,且该载体已作为附加体维持在所述宿主细胞中。
194.权利要求190或192的细胞,其中所述载体进一步包含一或多个选 择标记。
195.权利要求192的细胞,其中所述病毒复制起点是EB病毒oriP。
196.一种激活内源基因的表达的方法,其包括:
(a)将适于激活内源基因的载体导入含有染色体的宿主细胞;
(b)在导入所述载体之前或之后,用能诱导所述宿主细胞染色体中DNA 断裂的试剂处理所述细胞;和
(c)将所述载体整合至所述DNA断裂处,以便在所述载体和所述内源基 因之间形成一种可操作的连接,从而所述内源基因可由载体编码的一或多个 核苷酸序列激活。
197.权利要求196的方法,其中(d)所述激活通过分离所述宿主细胞并 在适于所述内源基因激活的条件下培养所述宿主细胞而实现。
198.一种载体,其包含:
(a)与基因可操作相连的转录调控序列;
(b)病毒复制起点;和
(c)可扩增标记。
199.一种增加基因表达的方法,其包括:
(a)将权利要求198的载体导入宿主细胞,其中所述载体作为附加体形式 维持在所述宿主细胞内;和
(b)选择所述可扩增标记和所述基因增加的表达。
200.一种使来自未剪接的细胞转录分子的cDNA分子裂解的方法,其 包括:
(a)将权利要求5或7的载体整合至一或多种真核宿主细胞的基因组中;
(b)在适于从所述转录调控序列表达的条件下培养所述宿主细胞;
(c)从所述宿主细胞分离RNA;
(d)从所述分离的RNA产生cDNA;和
(e)用在所述罕见的切割限制性位点裂解的酶消化所述cDNA。
201.一种药物运送方法,其包括:
(a)将一种载体整合至真核宿主细胞的基因组中,其中所述载体整合激活 了所述宿主细胞中内源基因的表达;
(b)在有利于所述激活的基因表达的条件下培养所述细胞,从而产生所述 激活的基因的基因产物;
(c)用一或多种将被筛选其药物活性的待检化合物处理所述细胞;和
(d)测定所述一或多种待检化合物与所述基因产物的相互作用,或对所述 基因产物所诱导的细胞表型的影响。
202.一种药物运送方法,其包括:
(a)将一种载体整合至真核宿主细胞的基因组中,其中所述载体整合激活 了所述宿主细胞中内源基因的表达;
(b)在有利于所述激活的基因产生基因产物的条件下在减少血清的培养 基中培养所述细胞,从而产生含有所述基因产物的细胞-条件培养基;
(c)通过测定一或多种待检化合物与所述基因产物在所述细胞-条件培养 基中的相互作用而筛选所述待检化合物的药物活性。
203.权利要求202的方法,进一步在(c)所述筛选之前使所述细胞-条件 培养基浓缩。
204.权利要求202的方法,进一步在(c)所述筛选之前使所述细胞-条件 培养基浓缩。

说明书全文

                         发明领域

本发明的领域是分子生物学和细胞生物学。本发明一般性地涉及通过原 位重组法来活化基因表达或导致基因过表达。更具体地,本发明涉及通过将 本发明提供的特化活化载体非-靶向地整合至宿主细胞基因组来活化内源基 因。本发明还涉及鉴定,活化和分离迄今为止未能被发现的基因的方法,以 及含有这种分离基因的宿主细胞和载体。本发明还涉及分离的基因,基因产 物,核酸分子,和含有所述基因,基因产物和核酸分子的组合物,它们可用 于多种治疗和诊断应用。因此,通过本发明,无需知道基因的序列,结构, 功能或表达情况,就可以鉴定,活化和分离内源基因,包括那些与人类疾病 和发育相关的基因。

相关现有技术

鉴定和过表达与人类疾病相关的新基因是开发新的治疗药物的一个重 要步骤。目前建立用于过表达蛋白质的细胞文库的方法是建立在制备和克隆 cDNA的基础上。因此,为了用这种方法鉴定新基因,必须在用于构建文库 的细胞中表达该基因。该基因还必须以足以在文库中以足够量出现的平表 达。这其中是有疑问的,因为许多基因仅在少数细胞群中、或者在短暂的发 育期间以极低的量表达。

另外,由于某些mRNA的体积太大,很难或不可能制备能表达生物活 性蛋白质的全长cDNA分子。在小mRNA中也发现有缺少全长cDNA分子 的情况,这被认为是与遗传信息中那些难于通过逆转录来制备的序列或者在 细菌中增殖期间不稳定的序列有关。因此,即使最完整的cDNA文库也只能 表达全部可能基因组中的一部分。

最后,许多cDNA文库是在细菌载体中制备的,用这些载体来表达生物 活性哺乳动物蛋白质有很大的局限性,因为多数哺乳动物蛋白质在细菌中不 能正确地折叠和/或不恰当地糖基化。

因此,建立一个更有代表性的蛋白质表达文库的方法将非常有价值,该 文库能便于真实地表达生物活性蛋白质。

目前用于过表达蛋白质的方法包括克隆目的基因,将其转入一个构建 体,邻接合适的启动子/增强子、多腺苷酸化信号以及剪接位点,并将该构建 体导入适当的宿主细胞。

一种替代方法包括利用同源重组通过将一个强启动子或其他调控序列 靶定到预先确定的基因上来活化该基因的表达。

WO90/14092描述了在哺乳动物细胞中,原位修复编码目的蛋白质的基 因。该申请描述了用来对编码目的蛋白质的基因进行定点修饰的单链寡核苷 酸。也可包括一个标记物。但是,这些方法局限于提供与靶位点有相当同源 性的寡核苷酸序列。因此,所述方法需要已知通过定点修饰和同源重组进行 活化所需要的位点。用这类方法不能发现新基因。

WO91/06667描述了原位表达哺乳动物基因的方法。利用所述方法,通 过同源重组将扩增基因导入目的基因邻位。然后在合适的培养基中培养细 胞,扩增基因和目的基因均被扩增,目的基因表达增强。如上,导入扩增基 因的方法限于同源重组,不能用来活化未知其序列或(存在)的新基因。

WO91/01140描述了通过同源重组修饰细胞,从而使内源基因失活。通 过这些方法,同源重组被用来修饰和失活基因,并能制备可作为基因疗法中 的供体的细胞。

WO92/20808描述了原位修饰基因组靶位点的方法。文中描述的是一些 小修饰,例如在DNA中改变单个基。该方法依赖于利用用于导向的同源 DNA进行基因组修饰。

WO92/19255描述了一种通过同源重组来增强目的基因表达的方法,其 中将一个DNA序列整合到基因组或大的基因组片段中。然后可以将被修饰 的序列转入次级宿主中进行表达。可以在目标基因旁边整合一个扩增基因从 而使目标区域可被扩增用于增强表达。同源重组是该定向方法所必须的。

WO93/09222描述了通过活化编码所需产物的内源基因来制备蛋白质的 方法。通过同源重组并将通常与希望其表达的基因相联的区域替换或失活来 靶定调控区域。这一失活或替换导致基因以高于正常的水平表达。

WO94/12650描述了一种活化内源基因在细胞中原位表达和扩增的方 法,其中所述基因在细胞中不表达或不以所需水平表达。用这样的一个外源 DNA序列转染细胞,该序列修复、改变、缺失或替换细胞中存在的一段序列 或者它是通常不与细胞中的内源基因功能性地连接的调控序列。为了达到这 一目的,用与基因组DNA序列在预选位点上同源的DNA序列来靶定内源基 因。另外,可以包括编码选择标记的扩增DNA。通过在选择用于扩增的条件 下培养同源重组细胞,内源基因和可扩增标记共扩增,并使基因表达提高。

WO95/31560描述了用于同源重组的DNA构建体。该构建体包括一个 靶定序列,一个调控序列、一个外显子和一个未配对的剪接供体位点。通过 构建体与细胞内的基因组序列之间的同源重组实现靶定,使得能在体外或体 内制备蛋白质。

WO96/29411描述了利用外源调控序列,通过同源重组将外源外显子(编 码或非编码)及剪接供体位点导入基因组中一个预先选定的位点。在此申请 中,定位了所导入的DNA,从而使外源调控区域控制下的转录子包括存在于 血小板生成素、Dnase I或β-干扰素基因中的外源外显子和内源外显子,从 而得到其中外源和外源外显子可操作地相连的转录子。这些新的转录单位是 通过同源重组得到的。

美国专利5272071描述了通过插入一个能增强细胞内常规表达基因的表 达水平的DNA调控元件使得该细胞内的转录沉默基因发生转录活化。插入 调控元件使得它与正常情况下沉默的基因可操作地相连。借助同源重组以下 述方式来实现插入:用通常情况下沉默的基因的一个片段(靶向DNA)和用来 诱导所需转录的DNA调控元件来建立DNA构建体。

美国专利5578461讨论了通过同源重组活化哺乳动物目的基因表达。将 一个DNA序列整合到基因组或一个大基因组片段中来增强目的基因的表 达。然后可以将该修饰过的构建体转入次级宿主中。可以在目的基因邻近处 整合一个扩增基因从而使目的区域发生扩增以实现增强表达。

上述两种方法(通过克隆或通过体内同源重组构建过表达构建体)均要求 在其可被过表达之前将基因克隆并测序。另外,利用同源重组,还必须要知 道基因组序列和结构。

不幸的是,许多基因还未被鉴定和/或测序。因此,无论目的基因是否以 前已被克隆、其序列和结构是否已知,用于过表达该基因的方法将十分有 用。

                          发明简述

因此,本发明一般性地涉及在细胞内过表达内源基因的方法,所述方法包 括将含有转录调控序列的载体导入细胞,使载体通过非同源重组整合到该细 胞的基因组中,使内源基因在细胞内过表达。该方法不需要预先了解内源基 因的序列,甚至不需要知道它的存在。因此,本发明涉及非-靶向基因活化, 该术语在本文中指的是:通过将特化活化载体非-靶向或非-同源(与靶向或同 源相反)地整合至宿主细胞基因组来活化内源基因。

本发明还包括用于经非同源重组来活化基因的表达或过表达基因的新 载体构建体。该新构建体不含同源导向序列。这就是说,它不含有这样一些 核苷酸序列,该序列靶定宿主细胞DNA并促进在靶位点进行内源重组,从 而导致细胞基因借助所导入的转录调控序列而过表达。

新载体构建体包括这样的载体,它含有与一个未配对的剪接供体序列可 操作地相连的转录调控序列,并还含有1或多个可扩增标记。

新载体构建体包括下列构建体:具有转录调控序列的构建体,该序列与 翻译起始密码子、分泌信号序列以及未配对的剪接供体位点可操作地相连; 具有转录调控序列的构建体,该序列与翻译起始密码子、表位标记以及未配 对的剪接供体位点可操作地相连;含有转录调控序列的构建体,该序列与翻 译起始密码子、信号序列和表位标记以及未配对的剪接供体位点可操作地相 连;含有转录调控序列的构建体,该序列与翻译起始密码子、分泌信号序列、 表位标记以及序列特异的蛋白酶位点和未配对的剪接供体位点可操作地相 连。

载体构建体可以含有1或多个用于挑选重组宿主细胞的选择标记。或 者,可通过对活化的内源基因产物所致性状的表型选择来实现挑选。

这些载体,和实际上本文公开的任何载体,以及本领域技术人员很容易 想到的这些载体的变异体可被用于在本文公开的任何方法中配制可由这些 方法制备的任何组合物。

用于本发明载体构建体中的转录调控序列包括,但不限于启动子。在优 选实施方案中,所述启动子是一个病毒启动子。在更优选的实施方案中,病 毒启动子是巨细胞病毒立即早期启动子。在另一个具体实施方案中,启动子 是细胞非病毒启动子或诱导型启动子。

用于本发明载体构建体中的转录调控序列也可以包括,但不限于增强 子。在优选实施方案中,所述增强子是病毒增强子。在更优选的实施方案中, 该病毒增强子是巨细胞病毒立即早期增强子。在另一个具体实施方案中,增 强子是细胞非病毒增强子。

在本文中公开的方法的优选实施方案中,载体构建体是,或者可以含有 线性RNA或DNA。

可以筛选含有载体的细胞以用于表达基因。

可以于体外在利于由细胞产生预期量内源基因的基因产物(文中又可互 换地称为“表达产物”)的条件下,培养过表达所述基因的细胞,其中该内源 基因已被活化或其表达已提高。然后可分离并纯化表达产物,用来进行如蛋 白质治疗或发现药物。

另一方面,使表达所需基因产物的细胞在体内表达基因产物。在本发明 这些具体方面,在利于基因被真核生物体内细胞进行过表达或活化的条件 下,可以将含有本发明所述载体构建体(已整合到其基因组中)的细胞导入真 核生物(比如脊椎动物,尤其是哺乳动物,更特别是人)。在本发明这些相关 方面,可以在将细胞导入真核生物之前将其分离和克隆。

本发明还涉及在细胞内过表达内源基因的方法,包括将含有转录调控序 列和1或多个可扩增标记的载体导入细胞,使载体通过非同源重组整合到细 胞基因组中,使内源基因在细胞内过表达。

可以筛选含有载体的细胞中所述基因的过表达。

培养过表达基因的细胞,从而获得内源基因的扩增。然后可以体外培养 细胞来制备已发生扩增的内源基因的预期量基因产物,其中所述内源基因已 被活化或者其表达已提高。然后可以分离并纯化基因产物。

或者,扩增之后,可令细胞在体内表达内源基因并产生预期量基因产 物。

但是应当明白,任何用于文中所述方法的载体可以包括1或多个可扩增 标记。因此,在细胞内,载体和目的DNA(即含有被过表达的基因的DNA) 都被扩增,并获得内源基因进一步增强的表达。与此相应,所述方法可以包 括一个扩增内源基因的步骤。

本发明还涉及在细胞内过表达内源基因的方法,包括将含有转录调控序 列和未配对剪接供体序列的载体导入细胞,使载体经非同源重组整合到细胞 基因组中,在细胞中过表达所述内源基因。

可以筛选含有载体的细胞以表达基因。

可以在体外培养过表达基因的细胞以便制备预期量的其表达已被活化 或提高的基因的基因产物。然后可以分离并纯化所述基因产物。

或者,可令细胞在体内表达所需基因产物。

载体构建体实质上可由转录调控序列组成。

载体构建体实质上可由转录调控序列和1或多个可扩增标记组成。

载体构建体实质上可由转录调控序列和剪接供体序列组成。

本发明的任何载体构建体还可以包含分泌信号序列。分泌信号序列被安 排在构建体中,这样它将与被活化的内源蛋白可操作地相连。因此,目的蛋 白质会在细胞内发生分泌,方便了该蛋白质的纯化。与此相应,所述方法可 以包括一个使蛋白质表达产物从细胞中分泌出来的步骤。

本发明还包括通过任何上述方法制得的细胞。本发明包括含有所述载体 构建体的细胞、其中的载体构建体已整合到细胞基因组中的细胞、以及由内 源基因在所导入的转录调控序列的引导下过表达所需基因产物的细胞。

可分离并克隆细胞。

可以在任何真核生物来源(比如真菌植物或动物)的细胞内实施所述方 法。在优选实施方案中,可以在脊椎动物细胞内尤其是哺乳动物细胞(包括但 不限于大鼠、小鼠、、猪、绵羊、山羊和人细胞,更特别是在人细胞中) 中实施本发明的方法。

通过上述方法制得的单个细胞可以过表达单个基因或多个基因。可以通 过将单一类型的构建体整合到基因组中的多个位置来活化细胞内的多个基 因。类似地,可以通过将多重构建体(即多个类型的构建体)整合到基因组中 的多个位置来活化细胞内的多个基因。因此,一个细胞可以只含一类载体构 建体或不同类型的载体构建体,每个均能活化一个内源基因。

本发明还涉及通过下列一或多项,制备上述细胞的方法:将本发明的一 或多个载体构建体导入细胞;使导入的构建体通过非同源重组整合到细胞基 因组中;在细胞内过表达一或多个内源基因;分离和克隆细胞。本发明还涉 及由这些方法制得的细胞,其中该细胞可能是分离的细胞。

本发明还包括利用上述细胞来过表达基因(比如内源的细胞基因)的方 法,所述基因已被鉴定(例如,已测序)、未鉴定(例如,一个功能已知但未被 克隆或测序的基因),或是在过表达之前,不知道其存在的基因。可以用细胞 在体外或体内制备预期量的表达产物。如果必要,可以随后通过例如裂解细 胞或从生长培养基中分离(当载体含有分泌信号序列时)来分离并纯化该表达 产物。

本发明还包括由上述方法制得的细胞文库。每个文库可以包括得自一次 转染实验的所有克隆或得自一次转染实验的一个亚组的克隆。所述亚组可以 过表达相同的基因或多个基因,例如,一类基因。转染可以用单个构建体或 多个构建体进行。

可以通过将得自两次或多次转染实验的所有重组细胞合并、将得自一次 转染实验的1或多个细胞亚组合并、或者将得自不同转染实验的细胞亚组合 并从而形成所述文库。所得文库可以表达相同的基因或多个基因,例如一类 基因。同样,在每次转染中,可以使用单个构建体或多个构建体。

文库可由相同或不同的细胞类型构成。

本发明还涉及通过从相同或不同转染实验中挑选各种细胞亚组来制备 文库的方法。

本发明还涉及利用上述细胞或细胞文库来过表达或活化内源基因的方 法,或者获得这些过表达或活化基因的基因表达产物的方法。根据本发明的 这一方面,可以筛选细胞或细胞文库来表达某因,并可挑选出能表达所需基 因产物的细胞。然后用这些细胞来分离或纯化用于后续用途的基因产物。可 以通过下述方式在细胞内进行表达:在有利于由细胞产生内源基因的表达产 物的条件下体外培养所述细胞,或者使细胞在体内表达基因。

在本发明的优选实施方案中,所述方法包括一个分离或纯化表达产物的 过程。在非常优选的实施方案中,培养能表达内源基因产物的细胞,培养条 件为有利于产生足够量的基因产物以便用于商业应用,尤其是诊断、治疗和 药物开发等用途。

任何上述方法都可进一步包括在载体整合之前或同时,向细胞的基因组 DNA导入双链断裂。

本发明还涉及可用于活化内源基因的表达和分离对应于活化基因的 mRNA和cDNA的载体构建体。

在一个这样的实施方案中,载体构建体可含有(a)与第一个未配对的剪接 供体序列可操作相连的第一个转录调节序列;(b)与第二个未配对的剪接供体 序列可操作相连的第二个转录调节序列;和(c)线性化位点,该位点可位于所 述第一个和第二个转录调节序列之间。根据本发明,当将载体构建体转化至 宿主细胞,然后整合至宿主细胞基因组时,第一个转录调节序列优选与第二 个转录调节序列的方向相反。在某些优选的此类实施方案中,可通过在线性 化位点裂解使载体变成线性。

在另一个实施方案中,本发明提供了具有3’末端和5’末端的线性载 体构建体,其含有与未配对的剪接供体位点可操作相连的转录调节序列,其 中转录调节序列在线性载体构建体中所取的方向能介导朝向线性载体构建 体3’末端或5’末端的转录。

在另一个实施方案中,本发明提供了载体构建体,其依次含有(a)转录调 节序列;(b)未配对的剪接供体位点;(c)罕见的切割限制性位点;和(d)线性化 位点。

在另一个实施方案中,本发明提供了载体构建体,其含有(a)与缺乏聚腺 苷酸化信号的选择标记可操作相连的第一个转录调节序列;和(b)与外显子- 剪接供体位点复合物可操作相连的第二个转录调节序列,其中第一个转录调 节序列在载体构建体中的方向与第二个转录调节序列的相同,且其中在载体 构建体中,第一个转录调节序列位于第二个转录调节序列的上游。

在另一些实施方案中,本发明提供了载体构建体,它们含有与缺乏聚腺 苷酸化信号的选择标记可操作相连的转录调节序列,并进一步含有未配对的 剪接供体位点。

在另一个实施方案中,本发明提供了载体构建体,它们含有与缺乏聚腺 苷酸化信号的选择标记可操作相连的第一个转录调节序列,并进一步含有与 未配对的剪接供体位点可操作相连的第二个转录调节序列。

根据本发明,转录调节序列(或具有一个以上转录调节序列的载体构建体 中的第一或第二个转录调节序列)可以是启动子,增强子或阻抑物,优选其为 启动子,包括动物细胞启动子,植物细胞启动子,或真菌细胞启动子,最优 选其为选自下列的启动子:CMV即早期基因启动子,SV40T抗原启动子和 β-肌动蛋白启动子。可用于本发明的,源自动物,植物或真菌细胞的其它启 动子是本领域已知的,也是本领域技术人员参照本文的教导能熟知的。本发 明的载体构建体中所用的选择标记可以是任何标记或标记基因,通过将含有 选择标记的载体整合至宿主细胞基因组,可以选择出含有或表达标记基因的 细胞。适当的这种选择标记包括但不限于:新霉素基因、次黄嘌呤磷酸核糖 转移酶基因、嘌呤霉素基因、二氢乳清酸酶基因、谷酰胺合成酶基因、组 氨酸D基因、氨甲酰磷酸合成酶基因、二氢叶酸还原酶基因、多抗药性1 基因、天冬氨酸转氨甲酰酶基因、黄嘌呤-嘌呤磷酸核糖转移酶基因、腺苷 脱氨酶基因和胸苷激酶基因。

在相关的实施方案中,本发明提供了载体构建体,其含有正选择标记, 负选择标记和未配对的剪接供体位点,其中当将载体构建体整合至真核宿主 细胞的基因组并活化基因组中的内源基因时,正和负选择标记和剪接供体位 点在载体构建体中所取的方向导致表达活性形式的正选择标记,和要么不表 达所述负选择标记,要么表达非活性形式的负选择标记。在某些优选的此类 实施方案中,正选择标记或负选择标记,或这两者可缺乏聚腺苷酸化信号。 本发明的这些方面所用的正选择标记可以是通过表达可产生便于分离表达 标记之细胞的蛋白质的任何选择标记,它包括但不限于:新霉素基因、次黄 嘌呤磷酸核糖转移酶基因、嘌呤霉素基因、二氢乳清酸酶基因、谷氨酰胺合 成酶基因、组氨酸D基因、氨甲酰磷酸合成酶基因、二氢叶酸还原酶基因、 多抗药性1基因、天冬氨酸转氨甲酰酶基因、黄嘌呤-鸟嘌呤磷酸核糖转移酶 基因或腺苷脱氨酶基因。类似地,本发明的这些方面所用的负选择标记可以 是通过表达可产生便于除去表达标记之细胞的蛋白质的任何选择标记,它包 括但不限于:次黄嘌呤磷酸核糖转移酶基因、胸苷激酶基因或白喉毒素基 因。

本发明还涉及真核宿主细胞,它可以是分离的宿主细胞,其中含有一个 或多个本发明的载体构建体。优选的真核宿主细胞包括但不限于:动物细胞 (包括但不限于哺乳动物(特别是人)细胞,昆虫细胞,禽细胞,环节动物细胞, 两栖动物细胞,爬行动物细胞和鱼细胞),植物细胞和真菌(尤其是酵母)细 胞。在某些这种宿主细胞中,载体构建体可以整合至宿主细胞的基因组。

本发明还涉及引物分子,其含有可通过PCR扩增的序列和简并的3’末 端。根据本发明此方面的引物分子优选具有以下通式结构:

5’-(dT)a-X-Nb-TTTATT-3’

其中a是从1至100(优选从10至30)的整数,X是可通过PCR扩增的 序列,它由长度约为10至20个核苷酸的核酸序列组成,N是任何核苷酸, b是从0至6的整数。一个优选引物具有以下核苷酸序列:5’-TTTTTTTT- TTTTCGTCAGCGGCCGCATCNNNNTTTATT-3’(SEQ ID NO:10)。在相关 的实施方案中,根据本发明此方面的引物分子可以被生物素化。

本发明还涉及合成第一条cDNA链的方法,所述方法包括:(a)使本发明 的第一种引物(如上述引物)与RNA模板分子退火,形成第一引物-RNA复合 物,和(b)在有利于逆转录第一引物-RNA复合物的条件下,用逆转录酶和一 种或多种脱核苷三磷酸分子处理所述第一引物-RNA复合物以合成第一条 cDNA链。

本发明还涉及分离已活化的基因的方法,特别是从宿主细胞基因组中分 离已活化的基因的方法。本发明的这些方法利用了使用本发明的非-靶向基因 活化载体产生的mRNA分子结构。本发明的此类方法之一包括例如:(a)在 宿主细胞(优选为上述真核宿主细胞之一)中导入载体构建体,所述构建体含 有转录调节序列和未配对的剪接供体位点,(b)在能使载体活化基因组中含有 外显子的内源性基因的条件下,通过非同源重组将载体构建体整合至宿主细 胞基因组中,(c)从宿主细胞中分离RNA,(d)根据上述本发明的方法合成第 一条cDNA链,(e)使特异于载体-编码的外显子的第二种引物与第一条cDNA 链退火,产生第二引物-第一条cDNA链复合物,和(f)在有利于产生与第一条 cDNA链基本上互补的第二条cDNA链的条件下,使第二引物-第一条cDNA 链复合物与DNA聚合酶接触。根据本发明此方面的方法可包括一个或多个 其它的步骤,例如可以用限制性酶处理第二条cDNA链,所述酶在位于载体 中未配对剪接供体位点下游的限制性位点处进行裂解,或者也可以使用特异 于载体-编码的外显子的第三种引物和特异于第二种引物的第四种引物来扩 增第二条cDNA链。本发明还涉及根据这些方法产生的分离基因,以及含有 这些分离基因的载体(可以是表达载体)和宿主细胞。本发明还涉及生产多肽 的方法,所述方法包括:在有利于宿主细胞表达分离基因所编码多肽的条件 下,培养含有分离基因(或含有分离基因的载体,特别是表达载体)的宿主细 胞。本发明还提供了其它生产多肽的方法,所述方法包括:将载体导入宿主 细胞,所述载体含有与外显子区域可操作相连的转录调节序列,后面接着未 配对的剪接供体位点,在有利于所述宿主细胞表达外显子区域所编码多肽的 条件下培养宿主细胞,其中外显子含有翻译起始位点,该位点可位于与未配 对的剪接供体位点最靠5’端的碱基相关的任何开放阅读框位置(例如,相对 于剪接供体位点最靠5’端的碱基而言,ATG起始密码子中的“A”可位于 -3位,或往上游增加3个碱基的位置(例如-6,-9,-12,-15,-18等),可位 于-2位,或往上游增加3个碱基的位置(例如-5,-8,-11,-14,-17,-20等), 可位于-1位,或往上游增加3个碱基的位置(例如-4,-7,-10,-13,-16,- 19等))。在相关的实施方案中,本发明的方法进一步包括分离所述多肽。本 发明还涉及根据这些方法产生的多肽,所述多肽可以是,也可以不是分离的 多肽。

根据以下附图说明书权利要求,本发明的其它优选实施方案对本领 域普通技术人员是显而易见的。

                        附图简述

图1.本文所述基因活化过程的示意图。将活化构建体转染到细胞内,并 使其在DNA断裂处整合到宿主细胞染色体中。如果断裂发生在目的基因(例 如Epo)的上游,并且合适的活化构建体在断裂处整合,则使调控序列与目的 基因可操作地相连,基因就被活化。转录和剪接产生嵌合RNA分子,该分 子含有来自活化构建体和内源基因的外显子序列。随后的翻译将产生目的蛋 白。分离重组细胞后,可以进一步借助基因扩增来增强基因表达。

图2.未翻译的活化构建体的示意图。箭头表示启动子序列。外显子序列 表示为空心盒,S/D表示剪接供体序列。与下面说明对应的构建体编号示于 左边。选择和可扩增标记未示出。

图3.翻译的活化构建体的示意图,箭头表示启动子序列。外显子序列表 示为空心盒,S/D表示剪接供体序列。翻译的信号肽、表位标记以及蛋白酶 切割序列示于构建体下的图标中。与下面说明对应的构建体编号示于左边。 选择和可扩增标记未示出。

图4.能活化内源基因的活化构建体的示意图。

图5A-5D.pRIG8R1-CD2的核苷酸序列(SEQ IDNO:7)。

图6A-6C.pRIG8R2-CD2的核苷酸序列(SEQ IDNO:8)。

图7A-7C.pRIG8R3-CD2的核苷酸序列(SEQ IDNO:9)。

图8A-8F.Poly(A)陷阱(trap)载体的例子。图中示出的是每个载体的线 性化形式。每条水平线表示DNA分子。箭头表示位于DNA分子上的启动子 序列,并指向转录方向。被转录的区域包括位于启动子下游的所有序列。非 翻译区以带影线的盒表示,开放阅读框以空心盒表示。使用了下列名称:剪 接供体位点(S/D),信号分泌序列(SP),表位标记(ET),新霉素抗性基因(Neo)。 在图8B-8E所示的载体中,可以省略紧接Neo基因下游的剪接供体位点。 在缺少位于Neo基因和下游启动子之间的剪接供体位点的载体中,Neo转 录物将利用位于下游启动子3’方向的剪接供体位点。另外,如图8B-8E的 载体中所示,下游启动子可驱动外显子的表达。据认为,当存在该外显子时, 它可在任何阅读框中编码密码子。通过使用多个载体,可产生3个可能的阅 读框的每一个中的密码子。

图9A-9F.剪接受体陷阱载体的例子,该载体含有由单启动子驱动的正 和负选择标记。图中示出的是每个载体的线性化形式。每条水平线表示DNA 分子。箭头表示位于DNA分子上的启动子序列,并指向转录方向。被转录 的区域包括位于启动子下游的所有序列。非翻译区以带影线的盒表示。这些 例子中不存在Poly(A)信号。然而,如说明书中所述,Poly(A)信号可位于载 体中任一或两个选择标记的3’方向。使用了下列名称:剪接供体位点(S/D), 信号分泌序列(SP),表位标记(ET),内部核糖体进入位点(ires),次黄嘌呤磷 酸核糖转移酶(HPRT),和新霉素抗性基因(Neo)。在这些例子中,Neo表示 正选择标记,HPRT表示负选择标记。在图9C和9F所示的载体中,被表示 为外显子的区域含有翻译起始密码子。如详述章节所述,外显子可编码甲硫 氨酸残基,部分信号序列,完整的信号分泌序列,蛋白质的一部分,或表位 标记。另外,密码子可存在于与剪接供体位点相关的任何阅读框中。在未显 示的其它载体例子中,表示为外显子的区域缺少翻译起始密码子。

图10A-10F.剪接受体陷阱载体的例子,该载体含有由不同启动子驱动 的正和负选择标记。图中示出的是每个载体的线性化形式。每条水平线表示 DNA分子。箭头表示位于DNA分子上的启动子序列,并指向转录方向。被 转录的区域包括位于启动子下游的所有序列。非翻译区以带影线的盒表示。 这些例子中不存在Poly(A)信号。然而,如说明书中所述,Poly(A)信号可位 于载体中任一或两个选择标记的3’方向。使用了下列名称:剪接供体位点 (S/D),内部核糖体进入位点(ires),次黄嘌呤磷酸核糖转移酶(HPRT),和新 霉素抗性基因(Neo)。在图10A-10F所示的载体中,Neo表示正选择标记, HPRT表示负选择标记。如图所示,图10A-10F所示的载体不含位于Neo 基因3’方向的剪接供体位点;然而,在未显示的其它载体中,剪接供体位 点可位于Neo基因的3’方向,以便将正选择标记剪接至内源外显子的旁边。 在图10C和10F所示的载体中,被称为外显子的区域含有翻译起始密码子。 如详述章节所述,外显子可编码甲硫氨酸残基,部分信号序列,完整的信号 分泌序列,蛋白质的一部分,或表位标记。另外,密码子可存在于与剪接供 体位点相关的任何阅读框中。在未显示的其它载体例子中,被称为外显子的 区域缺少翻译起始密码子。

图11A-11C.双向活化载体的示意图。箭头表示启动子序列。外显子 以方格盒表示,剪接供体位点以S/D表示。带影线的盒表示与上游启动子可 操作相连的外显子序列。应懂得这些载体上的外显子可以是非翻译的,或者 可按本文所述含有起始密码子和其它的密码子。图11B-11C所示载体表 明:载体可含有选择标记。在这些载体中,示出了新霉素抗性(Neo)基因。在 图11B中,聚腺苷酸化信号(pA)位于选择标记下游。在图11C中,载体上不 存在聚腺苷酸化信号。

图12A-12G.用于从活化的内源基因中回收外显子I的载体例子。图中 示出的是每个载体的线性化形式。每条水平线表示DNA分子。箭头表示位 于DNA分子上的启动子序列,并指向转录方向。被转录的区域包括位于启 动子下游的所有序列。非翻译区以带影线的盒表示。所示载体中不存在 Poly(A)信号。然而,如说明书中所述,Poly(A)信号可位于载体中任一或两 个选择标记的3’方向。使用了下列名称:剪接供体位点(S/D),内部核糖体 进入位点(ires),次黄嘌呤磷酸核糖转移酶(HPRT),和新霉素抗性基因(Neo)。 在这些例子中,Neo表示正选择标记,HPRT表示负选择标记。据认为在这 些例子中,被称为外显子的区域(当其存在时)缺少翻译起始密码子。在未显 示的其它例子中,被称为外显子的区域含有翻译起始密码子。另外,当载体 外显子含有翻译起始密码子时,外显子可编码甲硫氨酸残基,部分信号序 列,完整的信号分泌序列,蛋白质的一部分,或表位标记。另外,密码子可 存在于与剪接供体位点相关的每个阅读框中。

图13.图示了由图12A-12G所述的整合载体产生的两个转录物。DNA 链由水平线表示。载体DNA由黑线表示。内源基因组DNA由灰线表示。矩 形表示外显子。由载体编码的外显子以空心矩形表示,而内源外显子以带影 线的盒表示。S/D表示剪接供体位点。整合之后,载体编码的启动子激活内 源基因的转录。由上游启动子导致的转录产生了剪接的RNA分子,该分子 含有载体编码的外显子,所述外显子与来自内源基因的第二个及后续外显子 相连接。另一方面,下游启动子导致的转录产生了转录物,该转录物含有整 合载体下游的序列,所述序列与来自内源基因的外显子I及后续外显子相连 接。

图14A-14B.pRIG1的核苷酸序列(SEQ ID NO:18)。

图15A-15B.pRIG21b的核苷酸序列(SEQ ID NO:19)。

图16A-16B.pRIG22b的核苷酸序列(SEQ ID NO:20)。

图17A-17G.Poly(A)陷阱载体的例子。图中示出的是每个载体的线性 化形式。每条水平线表示DNA分子。箭头表示位于DNA分子上的启动子序 列,并指向转录方向。被转录的区域包括位于启动子下游的所有序列。盒表 示外显子。带影线的盒表示非翻译区。使用了下列名称:剪接供体位点(S/D), 信号分泌序列(SP),表位标记(ET),新霉素抗性基因(Neo),载体启动子#1(VP #1),和载体启动子#2(VP#2)。在图17C-17G所示的载体中,与外显子可 操作相连的启动子和未配对的剪接供体位点可位于选择标记的上游。据认 为,该外显子(当其存在时)可在相对于剪接供体位点的任何阅读框内编码起 始密码子。为了活化具有不同阅读框的基因的蛋白质表达,可使用3个独立 的载体,每个载体在相对于剪接供体位点的不同阅读框内具有一个起始密码 子。

图18.图示了由图17C的载体整合至宿主细胞基因组的多-外显子内源 基因上游而产生的转录物。每条水平线表示DNA分子,沿DNA链的垂直线 标出上游和下游的载体/细胞基因组的边界。箭头示出位于DNA分子上的启 动子序列,并指向转录方向。被转录的区域包括位于启动子下游的所有序 列。盒表示外显子。带影线的盒表示非翻译区。使用罗数字给内源外显子 编号。使用了下列名称:剪接供体位点(S/D),新霉素抗性基因(Neo),载体 启动子#1(VP#1),和载体启动子#2(VP#2),内源启动子(EP)和聚腺苷酸 化信号(pA)。整合之后,载体启动子#1表达嵌合转录物,该转录物含有与 整合位点下游的基因组序列,包括内源基因经加工(剪接)的外显子相连接的 Neo基因。由于转录物#1含有内源基因的Poly(A)信号,因此可以有效产生 Neo基因产物,从而赋予细胞以药物抗性。除了转录物#1以外,整合的载 体还会产生第二个转录物,该转录物源自载体启动子#2,被称为转录物# 2。转录物#2的结构便于有效翻译内源基因所编码的蛋白质。如图17所示, 可使用在载体编码的外显子中含有另一种编码信息的载体来产生不同的嵌 合蛋白质,所述蛋白质含有例如信号序列和/或表位标记。

图1 9.二元正选择标记载体的例子。水平线表示DNA分子。箭头表示 位于DNA分子上的启动子序列,并指向转录方向。被转录的区域包括位于 启动子下游的所有序列。盒表示外显子。带影线的盒表示非翻译区。这些例 子中不存在Poly(A)信号。使用了下列名称:剪接供体位点(S/D),潮霉素抗 性基因(Hyg),新霉素抗性基因(Neo),载体启动子#1,和载体启动子#2。

图20A-20B.由整合至宿主细胞基因组,并与内源基因邻接的二元正 选择标记载体产生的转录物的例子。图20A示出载体在多-外显子基因附近 整合所产生的转录物。图20B示出载体在单外显子基因附近整合所产生的转 录物。每条水平线表示DNA分子,沿DNA链的垂直线标出上游和下游的载 体/细胞基因组的边界。箭头示出位于DNA分子上的启动子序列,并指向转 录方向。被转录的区域包括位于每个启动子下游的所有序列。盒表示外显 子。带影线的盒表示非翻译区。使用罗马数字给内源外显子编号。使用了下 列名称:剪接供体位点(S/D),潮霉素抗性基因(Hyg),新霉素抗性基因(Neo), 载体启动子#1(VP#1),载体启动子#2(VP#2),内源启动子(EP)和聚腺苷 酸化信号(pA)。整合之后,载体启动子#1表达嵌合转录物,该转录物含有 与整合位点下游的基因组序列,包括内源基因经加工(剪接)的外显子相连接 的Hyg基因。由于转录物#1含有内源基因的Poly(A)信号,因此可以有效 产生Hyg基因产物,从而赋予细胞以药物抗性。除了转录物#1以外,整合 的载体还会产生第二个转录物,该转录物源自载体启动子#2,被称为转录 物#2。在图20A中,通过从载体编码的剪接供体位点和位于载体整合位点 下游的第一个内源剪接受体(即此例子中的外显子II)中剪接,可从转录物#2 中去除neo基因。由于多-外显子基因在每个外显子(除外显子I外)的5’末 端都含有剪接受体位点,因此在载体已整合至多-外显子基因附近,并且已转 录活化该基因的细胞中,可从转录物#2中去除neo基因。结果,通过用G418 和潮霉素进行选择可消除具有活化的多-外显子基因的细胞。在图20B中, neo基因未通过剪接从转录物#2中去除,因为单外显子基因不含有任何剪接 受体序列。因此,用G418和潮霉素双选择时,含有整合至单外显子基因附 近之载体的细胞可以存活。可使用本文所述的方法,用这些细胞有效地分离 活化的单外显子基因。

图21A-21B.含有正和负选择标记的二元陷阱载体的例子。图中示出 的是每个载体的线性化形式。每条水平线表示DNA分子。箭头表示位于DNA 分子上的启动子序列,并指向转录方向。被转录的区域包括位于启动子下游 的所有序列。盒表示外显子。带影线的盒表示非翻译区。使用了下列名称: 剪接供体位点(S/D),次黄嘌呤磷酸核糖转移酶(HPRT),新霉素抗性基因 (Neo),载体启动子#1(VP#1),,载体启动子#2(VP#2)和载体启动子#3(VP #3)。在图21A-21B所示的载体中,Neo表示正选择标记,HPRT表示负 选择标记。在图21B中,第三个启动子位于选择标记上游。该上游启动子与 外显子和未配对的剪接供体位点可操作相连。在此例子中,被称为外显子的 区域含有翻译起始密码子。如本文所述,外显子可编码甲硫氨酸残基,部分 信号序列,完整的信号分泌序列,蛋白质的一部分,或表位标记。另外,密 码子可存在于与剪接供体位点相关的任何阅读框中。在未显示的其它载体例 子中,被称为外显子的区域缺少翻译起始密码子。

图22.由整合至宿主细胞基因组中多-外显子内源基因上游的二元正/负 选择标记载体产生的转录物的例子。每条水平线表示DNA分子,沿DNA链 的垂直线标出上游和下游的载体/细胞基因组的边界。箭头示出位于DNA分 子上的启动子序列,并指向转录方向。被转录的区域包括位于每个启动子下 游的所有序列。盒表示外显子。带影线的盒表示非翻译区。使用罗马数字给 内源外显子编号。使用了下列名称:剪接供体位点(S/D),新霉素抗性基因 (Neo),载体启动子#1(VP#1),载体启动子#2(VP#2),载体启动子#3(VP #3),聚腺苷酸化信号(pA)和内源启动子(EP)。整合之后,载体启动子#1表 达嵌合转录物,该转录物含有与整合位点下游的基因组序列,包括内源基因 经加工(剪接)的外显子相连接的Neo基因。由于转录物#1含有内源基因的 Poly(A)信号,因此可以有效产生Neo基因产物,从而赋予细胞以药物抗性。 除了转录物#1以外,整合的载体还会产生第二个转录物,该转录物源自载 体启动子#2,被称为转录物#2。在此例子中,载体被整合至多-外显子基因 的上游。由于多-外显子基因在每个外显子的5’末端都含有剪接受体位点, 因此在载体已整合至多-外显子基因附近,并且已转录活化该基因的细胞中, 可从转录物#2中去除HPRT基因。结果,通过用G418和8-氮鸟嘌呤6-硫 代鸟嘌呤(AgThg)选择可分离含有活化的多-外显子基因的细胞。因此,用 G418和AgThg双选择时,含有整合至单外显子基因附近之载体的细胞可以 存活。可使用本文所述的方法,用这些细胞有效地分离活化的多-外显子基 因。除了转录物#1和#2以外,整合载体还产生了被称为转录物#3的第三 个转录物。源自载体启动子#3的转录物#3含有适于介导内源基因的蛋白 表达的外显子序列。这可通过将启动子#3下游的第一个剪接供体位点剪接 至内源基因中第一个下游剪接受体位点处而实现。除了介导蛋白质表达外, 可使用本文所述的方法分离转录物#3和/或转录物#1和/或#2以发现新基 因。

图23A-23D.多-启动子/活化外显子载体的例子。图中示出的是每个载 体的线性化形式。每条水平线表示DNA分子。箭头表示启动子序列。盒表 示外显子,带影线的盒表示非翻译区。应懂得这些载体上的外显子可以是非 翻译的,或者可按本文所述含有起始密码子和其它的密码子。使用了下列名 称:剪接供体位点(S/D),载体启动子#1(VP#1),载体启动子#2(VP#2), 载体启动子#3(VP#3)和载体启动子#4(VP#4)。各个载体活化外显子被称 为A,B,C和D。每个活化外显子可含有不同结构。图的下方显示了每个 活化外显子及其侧翼内含子的结构。然而,应懂得可在这些载体上以任何组 合和/或次序使用本文所述的任何活化外显子,包括编码信号序列,部分信号 序列,表位标记,蛋白质,蛋白质的一部分和蛋白质基元的外显子。这些外 显子中任一个都可以缺少起始密码子。另外,尽管这些例子中未显示,这些 载体也可含有选择标记和/或可放大的标记。选择标记可含有Poly(A)信号或 剪接供体位点。当其存在时,剪接供体位点可位于选择标记的上游或下游。 或者,选择标记可以不与Poly(A)信号和/或剪接供体位点可操作相连。

图24.由整合至宿主细胞基因组中内源基因上游的多-启动子/活化外显 子载体产生的转录物的例子。每条水平线表示DNA分子,沿DNA链的垂直 线标出上游和下游的载体/细胞基因组的边界。箭头示出位于DNA分子上的 启动子序列,并指向转录方向。被转录的区域包括位于每个启动子下游的所 有序列。盒表示外显子。带影线的盒表示非翻译区。使用罗马数字给内源外 显子编号。使用了下列名称:剪接供体位点(S/D),载体启动子#1(VP#1), 载体启动子#2(VP#2),载体启动子#3(VP#3),载体启动子#4(VP#4), 内源启动子(EP)和聚腺苷酸化信号(pA)。各个载体活化外显子被称为A,B, C和D。整合之后,每个由载体编码的启动子能产生不同的转录物。每个转 录物含有不同的活化外显子,所述外显子与内源基因的第一个下游剪接受体 位点(即此例子中的外显子II)相连接。各个活化外显子被称为(A),(B),(C)或 (D)。内源外显子被称为(I),(II),(III)或(IV)。通常,在活化外显子之间,编 码序列和/或阅读框(如果存在的话)是不同的。尽管此例子中列出了4个活化 外显子,但整合载体上可存在任何数目的活化外显子。

图25A-25D.用于检测蛋白质-蛋白质相互作用的活化载体的例子。图 中示出的是每个载体的线性化形式。每条水平线表示DNA分子。箭头表示 启动子序列。盒表示外显子,带影线的盒表示非翻译区。使用了下列名称: 剪接供体位点(S/D),新霉素抗性基因(Neo)。据认为,DNA结合结构域和活 化结构域可以在任何阅读框(与剪接供体位点相关)中编码,它们因此能活化 具有不同阅读框的内源基因。

图26.使用图25所示载体检测蛋白质-蛋白质相互作用的一种方法的示 意图。每条水平线表示DNA分子,沿DNA链的垂直线标出上游和下游的载 体/细胞基因组的边界。箭头示出位于DNA分子上的启动子序列,并指向转 录方向。被转录的区域包括位于每个启动子下游的所有序列。盒表示外显 子。带影线的盒表示非翻译区。使用罗马数字给内源外显子编号。使用了下 列名称:剪接供体位点(S/D),结合结构域(BD),活化结构域(AD),识别序列 (RS)和聚腺苷酸化信号(pA)。图中显示出:结合结构域载体被整合至宿主细 胞基因组中被称为基因A的内源基因上游,活化结构域载体被整合至相同宿 主细胞基因组中被称为基因B的内源基因上游。两个载体被整合至相同宿主 细胞的基因组中。整合之后,每个载体能产生含有结合结构域(或根据具体情 况为活化结构域)和由下游内源基因编码的蛋白质的融合蛋白。如果结合结构 域融合蛋白与活化结构域融合蛋白相互作用,将会形成蛋白质复合物。该复 合物能增加细胞中存在的报道基因的表达。

图27.用于体外和体内转座的活化载体的例子。图中示出的是每个载体 的线性化形式。每条水平线表示DNA分子。箭头表示启动子序列。盒表示 外显子,带影线的盒表示非翻译区。实心盒表示转座子信号。据认为转座子 信号有一定的方向,信号以适于转座反应类型(整合,倒位或缺失)的构象定 向。使用了下列名称:剪接供体位点(S/D),新霉素抗性基因(Neo),二氢叶 酸还原酶(DHFR),嘌呤霉素抗性基因(Puro),Poly(A)信号(pA)和EB病毒复 制起点(oriP)。据认为,活化外显子可以在任何阅读框(与剪接供体位点相关) 中编码氨基酸,从而活化具有不同阅读框的内源基因。

图28.活化载体通过体外转座整合至克隆的基因组DNA片段中的示意 图。每条水平线表示DNA分子。克隆的基因组DNA位于BAC载体中。单 线表示基因组DNA,矩形表示BAC载体序列。箭头示出位于DNA分子上 的启动子序列,并指向转录方向。被转录的区域包括位于每个启动子下游的 所有序列。空心盒表示载体活化外显子。带影线的盒表示克隆的基因组片段 中所编码基因的外显子。实心盒表示转座子信号。据认为转座子信号有一定 的方向,信号以适于转座反应类型(整合,倒位或缺失)的构象定向。使用了 下列名称:剪接供体位点(S/D)和聚腺苷酸化信号(pA)。为了将载体整合至基 因组片段中,在转座酶存在下,将活化载体与克隆的基因组DNA一起保温。 在活化载体整合至基因组片段之后,直接将质粒转染至适当的真核宿主细胞 以表达位于载体整合位点下游的基因。或者,将BAC质粒转化至大肠杆菌 中以产生大量质粒,用于转染至适当的真核宿主细胞。

图29A-29B.pRIG14的核苷酸序列。

图30A-30C.pRIG19的核苷酸序列。

图31A-31C.pRIG20的核苷酸序列。

图32A-32C.pRIGad1的核苷酸序列。

图33A-33D.pRIGbd1的核苷酸序列。

图34A-34B.pUniBAC的核苷酸序列。

图35A-35B.pRIG22的核苷酸序列。

图36.pRIG-TP的示意图。图中所示的是载体的线性化形式。水平线表 示DNA分子。箭头表示启动子。空心盒表示外显子。实心盒表示转座子重 组信号(来自Tn5-与得自Epicentre Technologies的体外转座试剂盒相容)。 使用了下列名称:剪接供体位点(S/D),嘌呤霉素抗性基因(Puro),二氢叶酸 还原酶基因(DHFR),EB病毒核抗原-1复制蛋白(EBNA-1),EB病毒复制起 点(oriP),Poly(A)信号(pA)和活化外显子(AE)。应懂得活化外显子可含有能 介导蛋白质合成的任何序列,包括任何阅读框中的翻译起始密码子,分泌信 号序列的一部分,完整的分泌信号序列,表位标记,蛋白质,蛋白质的一部 分,或蛋白质基元。活化外显子也可缺少翻译起始密码子。

图37A-37C.pRIG-T的核苷酸序列。

                        发明详述

通过非同源重组活化基因大大优于其它基因活化方法。与以前蛋白质过 表达不同,本文描述的方法不需克隆(从细胞中分离出)目的基因。它们也不 需了解将要过表达的基因的DNA序列或结构(即ORF、内含子、外显子或上 游和下游调控元件的序列)或该基因的表达方式(即组织特异性、发育调控 等)。另外,这些方法不需要有关目的基因的基因结构(即内含子和外显子结 构)的知识。

因此,本发明的方法涉及载体构建体,其中该载体构建体不含有用于同 源重组的靶核苷酸序列。靶序列能使载体DNA与细胞DNA在细胞DNA上 的预定位点进行同源重组,所述位点与载体中的序列具有同源性,在预定位 点发生的同源重组导致转录调控序列被导入基因组,内源基因随即被活化。

本发明的方法不涉及载体在预定位点处的整合。相反,本方法涉及本发 明的载体构建体通过非同源或“非法重组”(也称为“非靶向基因活化”)整 合到细胞DNA(例如,细胞基因组)中。

在相关的实施方案中,本发明还涉及非-靶向基因活化。非-靶向基因活 化具有多种重要用途。第一,通过活化一般不在给定细胞类型中表达的基 因,可以在不依赖基因的正常表达模式的情况下分离其cDNA拷贝。这有利 于分离一般在罕见细胞中,在短暂的发育阶段,和/或以很低水平表达的基 因。第二,通过翻译活化基因,可以产生蛋白质表达文库,而无需克隆全长 cDNA。可从这些文库中筛选出新的酶和蛋白质和/或由内源基因的过表达所 致的目标表型。第三,可以产生过表达特定蛋白质的细胞系,并使用该细胞 系产生商用量的蛋白质。因此,活化内源基因提供了一种很有效的用于发现 和分离新基因和蛋白质,并产生大量特定的商业化蛋白质的方法。

本文中描述的载体不含靶序列。靶序列是载体上的这样一个序列,它与 待活化的基因内部或其上游的一或多个序列同源(其中上游区域到达并且包 括目的基因相同编码链上的第一个功能剪接受体位点),将能活化目的基因的 转录调控序列可借助该同源性整合到含有待活化基因的细胞的基因组中。在 用增强子整合载体来活化内源基因的情况中,在增强子能起到作用的距离 内,所述载体不与基因组中目的基因上游或下游(或目的基因内部)的任何序 列有同源性。

因此这些方法能鉴定到那些已被或可能被常规和现有克隆技术丢失的 新基因。利用本文描述的构建体和方法,可以快速鉴定未知和/或未鉴定的基 因,并使其过表达以产生蛋白质。这些蛋白质的用途包括人类治疗和诊断, 及作为药物开发的靶。

所述方法还能用于已知和/或已鉴定基因的过表达,以便体外或体内制备 蛋白质。

“已知的基因”指鉴定基因的水平。本发明能表达已被鉴定和未被鉴定 的基因。不同程度的鉴定都是可能的。这些包括详细的鉴定,比如克隆、 DNA、RNA和/或蛋白质测序,以及确定基因的调控和功能与克隆序列的关 系(例如,识别启动子和增强子序列、开放读码框的功能,内含子等)。鉴定 可以较粗略,比如将基因和相关功能作图,或得到部分氨基酸序列或核苷酸 序列,或已将蛋白质纯化并确定了功能。鉴定可能是极基本的,如已知核苷 酸或氨基酸序列或者已将蛋白质分离,但功能未知。或者,功能可能是已知 的,但相关的蛋白质或核苷酸序列未知,或者虽然知道序列但没有与功能建 立联系。最后,也可能没有做任何鉴定,因为基因的存在及其功能均是未知 的。本发明可以在任何上述或其它具体的鉴定程度的水平上表达任何基因。

利用一个活化构建体并在一组转染中可以活化或过表达许多不同蛋白 质(在本文中还可互换地称为“基因产物”或“表达产物”)。因此,在用相 同或不同构建体转染之后,一组转染子(文库)中的一个细胞或不同细胞可以 过表达多个蛋白质。而以前的活化方法要求给每个待活化基因建立一个独特 的构建体。

此外,利用一个构建体可以同时形成和检测一个基因附近的许多不同整 合位点。这就使得能快速确定用于蛋白质表达的活化构建体的最佳基因组位 置。

利用以前的方法,对于目的基因5’端的序列和结构必须做广泛的鉴 定。必须针对每个要制备的活化构建体分离一个合适的靶序列。通常,靶序 列必须是分离自与待活化细胞相同的人或动物实验株的纯合序列。在某些情 下,该DNA可能是来自目的基因的50kb或更长片段。因此,制备每个靶向 构建体要对内源基因进行大量克隆和测序工作。而因为本发明的方法不需要 序列和结构信息,可以活化未知基因和带有未做鉴定的上游区域的基因。

这就有可能利用内源DNA序列与胞内DNA进行的非同源重组做原位 基因活化。本发明即提供了利用非同源重组实现的这种原位基因活化所需的 方法和组分(例如,载体构建体)。

DNA分子可以通过几种不同的独立机制发生重组从而重新分配其遗传 内容,所述机制包括同源重组、位点特异性重组、以及非同源/非法重组。同 源重组涉及那些序列极其类似的DNA片段之间的重组、已经证实,同源重 组涉及在遗传物重新分配之前,同源序列沿其链形成配对。交叉的确切位点 可以是同源片段中的任何位点。重组效率与同源导向序列的长度(Hope,发 育113:399(1991);Reddy等,病毒学杂志65:1507(1991))、两个发生重组 的序列之间的序列相同程度(Von Melchner等,基因进展6:919(1992))、以 及构建体中同源与非同源DNA的比率(Letson,遗传学117:759(1987))成比 例。

另一方面,位点特异性重组涉及遗传物质在预定位点(由特异DNA序列 决定)的交换。在该反应中,蛋白质重组酶结合到重组信号序列上,形成一个 链断裂,并促进DNA链交换。Cre/Lox重组就是位点特异性重组的实例。

非同源/非法重组,比如本发明的方法有利地所采用的,包括没有显著序 列同源性的遗传物质的连接(交换或重新分配)并且不是发生在位点特异性重 组序列处。非同源重组的例子包括外源DNA在非同源位点整合到染色体中、 染色体易位和缺失,DNA末端连接,染色体末端的双链断裂修复,桥裂合以 及转染序列的连环化。在多数情况中,认为非同源重组是通过“游离DNA 未端”的连接发生的。游离末端是这样的DNA分子,它含有一个能与第二 个DNA末端直接连接、或者在修复或加工后与第二个DNA末端连接的末 端。该DNA末端可能含有5′突出端,3′突出端,或者平末端。

在本文中,可以广泛地将逆转录病毒插入和其它转座反应看作是非同源 重组。这些反应不涉及利用发生重组的分子间的同源性。而且,与位点特异 性重组不同,这些类型的重组反应不是在离散位点之间进行的。相反,仅在 重组配偶体(即,逆转录病毒或转座子)之一上需要有特异蛋白质/DNA复合 物,而第二个DNA配偶体(即,细胞基因组)通常是相当非特异性的。结果, 这些“载体”不是以定向方式整合到细胞基因组,因此可以根据本发明用它 们来递送活化构建体。

可用于本文所述方法的载体构建体理想情况下可以含有一个转录调控 序列,它与细胞内的基因组序列发生非同源重组从而在该细胞内过表达内源 基因。本发明的载体构建体还缺少同源靶序列。即,它们不含有靶向宿主细 胞DNA并促进在靶位点处发生同源重组的DNA序列。因此,本发明的载体 构建体通过非同源重组整合到细胞基因组中,并借助所导入的包含在整合进 来的载体构建体中的转录调控序列来过表达细胞基因。

本发明一般性地涉及用于在细胞内过表达内源基因的方法,包括将含有 转录调控序列的载体导入细胞中,使载体通过非同源重组整合到细胞基因组 中,使内源基因在细胞内过表达。该方法不需要预先了解内源基因的序列甚 至其存在。而在待活化基因序列已知的情况下,可以将构建体改造为含有合 适的载体元件构型(例如,起始密码子的位置,内源基因的第一个外显子中存 在的附加密码子、以及合适的读框)从而获得最大程度的过表达和/或适当的 蛋白质序列。

在本发明的某些实施方案中,可以筛选由基因表达的含有载体的细胞。

可以体外培养过表达所述基因的细胞,培养条件为有利于该细胞产生那 些已被活化或其表达已提高的内源基因的预期量的基因产物。如果需要,可 以随后将基因产物分离或纯化以便用于,例如,蛋白质疗法或药物开发。

或者,可以使表达所需基因产物的细胞在体内表达所述基因产物。

载体构建体可本质上含有转录调控序列。

或者,所述载体构建体可本质上含有转录调控序列和1或多个可扩增标 记。

因此,本发明还涉及在细胞内过表达内源基因的方法,包括将含有转录 调控序列和可扩增标记的载体导入细胞中,使载体通过非同源重组整合到细 胞基因组中,使内源基因在细胞内过表达。

筛选含有载体的细胞中过表达所述基因的那些。

培养过表达所述基因的细胞从而使内源基因扩增。然后将细胞体外培养 以得到扩增后的内源基因的预期量基因产物,其中该内源基因已被活化,或 者其表达已提高,然后可以对基因产物进行分离和纯化。

或者,扩增后,使细胞在体内表达内源基因并产生预期量基因产物。

载体构建体可本质上含有转录调控序列和剪接供体序列。

因此,本发明还涉及在细胞内过表达内源基因的方法,包括将含有转录 调控序列和未配对的剪接供体序列的载体导入细胞中,使载体通过非同源重 组整合到细胞基因组中,使内源基因在细胞内过表达。

筛选含有载体的细胞中表达所述基因的那些。

体外培养过表达基因的细胞从而得到预期量的内源基因的基因产物,其 中该内源基因的表达已被活化,或者其表达已提高,然后可以对基因产物进 行分离和纯化。

或者,可以使细胞在体内表达所需基因产物。

载体构建体可本质上含有可操纵地连接到未配对剪接供体序列的转录 调控序列,并且还含有可扩增标记。

其它活化载体包括下列一些构建体:具有转录调控序列和含有起始密码 子的外显子序列的构建体;具有转录调控序列和含有翻译起始密码子及分泌 信号序列的外显子序列的构建体;具有转录调控序列和含有翻译起始密码子 及表位标记的外显子序列的构建体;具有转录调控序列和含有翻译起始密码 子、信号序列及表位标记的外显子序列的构建体;包含转录调控序列和含有 翻译起始密码子、分泌信号序列、表位标记及序列特异性蛋白酶位点的外显 子序列的构建体。在上述每个构建体中,构建体上的外显子紧邻未配对的剪 接供体位点的上游。

构建体还可以含有调控序列、缺少poly(A)信号的选择标记、内部核糖 体进入位点(ires)以及未配对的剪接供体位点(图4)。任选在ires和未配对的 剪接供体位点之间包括起始密码子、分泌信号序列、表位标记、和/或蛋白酶 切割位点。当该构建体整合到基因上游时,由于内源基因可以提供一个 poly(A)位点,选择标记可以被有效地表达。此外,下游基因也被表达,因为 ires使得在下游开放读框(即内源基因)处开始进行蛋白质翻译。因此,由该活 化构建体产生的信息是多顺反子的。该构建体的优点在于整合事件不在基因 附近进行,并且适当取向,不会产生抗药性集落。其原因是没有poly(A)尾部 (内源基因所提供的),新霉素抗性基因不能有效地表达。通过减少无效整合 的次数,可以在不影响其覆盖面(被活化的基因的数量)的情况下,降低文库 的复杂程度,这能便利筛选过程。

在所述构建体的另一个实施方案中,可以在调控序列和neo起始密码子 之间以及ires和未配对的剪接供体位点之间(在ires和起始密码子(如果有)之 间)包括上crx-lox重组序列。分离出其目的基因已被活化的细胞后,可以用 编码cre重组酶的质粒转染该细胞,从而除去neo基因和ires。这能消除多顺 反子信息,使得内源基因直接从被整合上来的活化构建体上的调控序列进行 表达。利用Cre重组来协助从哺乳动物染色体上缺失遗传元件已有描述(Gu 等,科学265:103(1994);Sauer,酶学方法225:890-900(1993))。

因此,可用于本文描述的方法的构建体包括,但不限于,下列构建体(见 图1-4):

1)具有调控序列和缺少翻译起始密码子的外显子的构建体。

2)具有调控序列和缺少翻译起始密码子的外显子,其后是剪接供体位点 的构建体。

3)具有调控序列和读码框1(与剪接供体位点相关)中含有翻译起始密码 子的外显子,其后是未配对剪接供体位点的构建体。

4)具有调控序列和读码框2(与剪接供体位点相关)中含有翻译起始密码 子的外显子,其后是未配对剪接供体位点的构建体。

5)具有调控序列和读码框3(与剪接供体位点相关)中含有翻译起始密码 子的外显子,其后是未配对剪接供体位点的构建体。

6)具有调控序列以及读码框1(与剪接供体位点相关)中含有翻译起始密 码子和分泌信号序列的外显子,其后是未配对剪接供体位点的构建体。

7)具有调控序列以及读码框2(与剪接供体位点相关)中含有翻译起始密 码子和分泌信号序列的外显子,其后是未配对剪接供体位点的构建体。

8)具有调控序列以及读码框3(与剪接供体位点相关)中含有翻译起始密 码子和分泌信号序列的外显子,其后是未配对剪接供体位点的构建体。

9)具有调控序列以及读码框1(与剪接供体位点相关)中含有(从5’到3’) 翻译起始密码子和表位标记的外显子,其后是未配对剪接供体位点的构建 体。

10)具有调控序列以及读码框2(与剪接供体位点相关)中含有(从5’到 3’)翻译起始密码子和表位标记的外显子,其后是未配对剪接供体位点的构 建体。

11)具有调控序列以及读码框3(与剪接供体位点相关)中含有(从5’到 3’)翻译起始密码子和表位标记的外显子,其后是未配对剪接供体位点的构 建体。

12)具有调控序列以及读码框1(与剪接供体位点相关)中含有(从5’到 3’)翻译起始密码子、分泌信号序列和表位标记的外显子,其后是未配对剪 接供体位点的构建体。

13)具有调控序列以及读码框2(与剪接供体位点相关)中含有(从5’到 3’)翻译起始密码子、分泌信号序列和表位标记的外显子,其后是未配对剪 接供体位点的构建体。

14)具有调控序列以及读码框3(与剪接供体位点相关)中含有(从5’到 3’)翻译起始密码子、分泌信号序列和表位标记的外显子,其后是未配对剪 接供体位点的构建体。

15)具有调控序列以及读码框1(与剪接供体位点相关)中含有(从5’到 3’)翻译起始密码子、分泌信号序列、表位标记和序列特异的蛋白酶位点的 外显子,其后是未配对剪接供体位点的构建体。

16)具有调控序列以及读码框2(与剪接供体位点相关)中含有(从5’到 3’)翻译起始密码子、分泌信号序列、表位标记和序列特异的蛋白酶位点的 外显子,其后是未配对剪接供体位点的构建体。

17)具有调控序列以及读码框3(与剪接供体位点相关)中含有(从5’到 3’)翻译起始密码子、分泌信号序列、表位标记和序列特异的蛋白酶位点的 外显子,其后是未配对剪接供体位点的构建体。

18)具有与选择标记连接在一起的调控序列,其后是内部核糖体进入位 点和未配对剪接供体位点的构建体。

19)构建体18,其中cre/lox重组信号位于a)调控序列和选择标记的开放 读码框之间以及b)ires和未配对剪接供体位点之间。

20)具有调控序列,该序列与含有缺少终止密码子的绿色荧光蛋白的外 显子可操作地相连,其后是未配对剪接供体位点的构建体。

但是应当明白,任何用于文中所述方法的载体可以包括一或多个(即, 1、2、3、4、5或更多,最优选1或2个)可扩增标记。与此相应,所述方法 可以包括一个扩增内源基因的步骤。在活化构建体上插入一或多个可扩增标 记使得在被活化细胞中,目的基因与一或多个可扩增标记并列。一旦分离出 被活化细胞,可以通过挑选这样一些细胞进一步提供表达,所述细胞包含带 有目的基因和活化构建体的基因座拷贝数增加。可以通过本领域已知的挑选 方染来实现这一目的,例如在含有1或多种选择试剂的选择培养基上培养细 胞,其中所述选择试剂对基因构建体或载体上含有的1或多个可扩增标记有 特异性。

经上述任何载体的非同源整合使内源基因活化后,可以通过挑选位于整 合载体中的拷贝数增加的可扩增标记来进一步提高内源基因的表达。虽然可 以用整合载体上的一个可扩增标记来实施该方法,但在本发明的替代实施方 案中,提供了这样的方法,其中载体可包含2或多个(即2、3、4、5或更多, 最优选2个)可扩增标记来协助更有效地挑选出那些载体和旁侧目的基因均 被扩增的细胞。这种方案对于某些细胞尤其有用,所述细胞有载体上所含的 一或多个可扩增标记的一个功能性内源拷贝,因为选择步骤可以分离出那些 不正确地扩增了内源可扩增标记,而不是载体编码的可扩增标记的细胞。该 方法也可用于淘汰那些通过不涉及基因扩增的机制对选择试剂产生抗性的 细胞。在这些情况下,使用两或多种可扩增标记的方法是有益的,因为一个 细胞在没有扩增整合载体和旁侧目的基因的情况下,对两或多种选择试剂产 生抗性的可能性显著低于细胞对任何一种选择试剂产生抗性的可能性。因 此,通过同时或连续选择两或多个载体编码的可扩增标记,将有更大百分比 的最后分离到的细胞含有被扩增的载体和目的基因。

因此,在另一个实施方案中,本发明的载体可以含有两或多种(即2,3, 4,5,或更多,最优选2种)可扩增标记,该方法能在活化表达后更有效地扩 增载体序列和邻近的目的基因。

可以用于构建所述载体的可扩增标记的例子包括,但不限于二氢叶酸还 原酶、腺苷脱氨酶、天冬氨酸转氨甲酰酶、二氢乳清酸酶以及氨甲酰磷酸合 成酶。

还应当明白,本文所述的任何构建体可以含有真核生物病毒的复制起 点,其可替代可扩增标记或与该标记相连。病毒复制起点的存在使得整合载 体和相邻的内源基因作为游离体分离和/或在导入适当的病毒复制蛋白的情 况下,扩增到高拷贝数。有用的病毒起点的例子包括,但不限于SV40 ori和 EBV ori P。

本发明还包括一些实施方案,其中本文公开的构建体本质上含有以上具 体描述的用于这些构建体的成分。还应当明白,上述构建体是可以用于本文 所述方法的构建体的例子,而本发明包括这些构建体的功能等同物。

术语“载体”应理解为一般性地指将核苷酸序列导入细胞中的运载物。 它并不试图限定到任何具体序列。载体本身可以是活化内源基因的核苷酸序 列或者可以含有活化内源基因的序列。因此,载体可以仅是一个本质上只含 有活化所需的序列的线形成环形多核苷酸,或者可以是存在于较大多核苷酸 中的这些序列或者其它构建体,比如一个DNA或RNA病毒基因组、完整的 毒粒或其它用来将关键核苷酸或其它序列导入细胞中的生物构建体。还应明 白,术语“载体构建体”或术语“构建体”可以与本文中的术语“载体”互 换使用。

载体可以含有天然存在的或者是通过基因工程或合成法制得的DNA序 列。

当构建体非同源整合到细胞基因组中时,其能活化内源基因的表达。内 源基因的表达可能产生全长蛋白质,或产生内源蛋白质的截短的生物活性形 态,这取决于整合位点(如在上游区域还是内含子2)。被活化的基因可以是已 知基因(例如,已被克隆或鉴定的)或未知基因(未被克隆或鉴定的),基因的功 能可以是已知或未知的。

具有已知活性的蛋白质的例子包括,但不限于,细胞因子、生长因子、 神经递质、酶、结构蛋白质、细胞表面受体,胞内受体、激素抗体以及转 录因子。可以用本方法制备的已知蛋白质的具体例子包括,但不限于,红细 胞生成素、胰岛素、生长激素、葡糖脑苷脂酶,组织纤溶酶原活化物、粒细 胞集落刺激因子(G-CSF)、粒细胞/巨噬细胞集落刺激因子(GM-CSF)、巨 噬细胞集落刺激因子(M-CSF)、干扰素α、干扰素β、干扰素γ,白介素-2、 白介素-3、白介素-4、白介素-6、白介素-8、白介素-10、白介素-11、 白介素-12、白介素-13、白介素-14、TGF-β,凝血因子V,凝血因子VII、凝 血因子VIII、凝血因子IX、凝血因子X、TSH-β、骨生长因子-2、骨生长因 子-7,肿瘤坏死因子、α-1抗胰蛋白酶、抗凝血酶III,白血病抑制因子、 胰高血糖素、蛋白C、蛋白激酶C、干细胞因子、促卵泡激素β、尿激酶、神 经生长因子、胰岛素样生长因子、促胰岛素(insulinotropin)、甲状旁腺激素、 乳蛋白、补体抑制因子、血小板衍生生长因子,质细胞生长因子、肝细 胞生长因子、内皮细胞生长因子、神经营养蛋白-3、血小板生成素、绒膜促 性腺激素、血栓调节蛋白、α糖苷酶、表皮生长因子以及纤维细胞生长因 子。本发明还能活化许多表达跨膜蛋白的基因,并制备和分离这些蛋白质, 它们包括但不限于生长因子、激素、神经递质和细胞因子(如上面描述的那些) 的细胞表面受体、跨膜离子通道、胆固醇受体、脂蛋白(包括LDL和HDL) 和其它类脂部分的受体、整合蛋白和其它胞外基质受体、细胞骨架锚蛋白、 免疫球蛋白受体、CD抗原(包括CD2、CD3、CD4、CD8和CD34抗原),以 及本领域已知的其它细胞表面跨膜型结构和功能蛋白。正如本领域普遍技术 人员能想到的,通过本发明的方法还可以制备本领域已知的其它细胞蛋白和 受体。

本文所述方法的一个优点是它实际上能活化任何基因。但是,由于基因 有不同的基因组结构,包括不同的内含子/外显子界线和起始密码子的位置, 为了在一群细胞中活化最大数量的不同基因,要提供许多活化构建体。

可以将这些构建体分别转染到细胞中制备文库,每个文库含有的细胞带 有独特的一组活化基因。某些基因被几种不同的活化构建体活化。另外,可 以活化基因的某些部分来产生截短的、生物活性蛋白质。截短的蛋白质可以 这样制备,例如将活化构建体整合到内源基因中部的内含子或外显子中,而 不是整合到第二个外显子的上游。

使用不同构建体还可以使活化了的基因被修饰从而使其含有新的序 列。例如,可以在活化构建体上包含分泌信号序列来促进活化基因的分泌。 在某些情况中,根据内含子/外显子结构和目的基因的情况,分泌信号序列可 以取代内源基因的全部或部分信号序列,在另外一些情况中,信号序列能使 通常位于胞内的蛋白质分泌出去。

载体上的调控序列可以是组成型启动子。或者,启动子可以是诱导型 的,使用诱导型启动子能使细胞在常规培养和扩增过程中只产生低基底水平 的活化蛋白质。然后例如在制备或筛选过程中,细胞可以被诱导以产生大量 所需蛋白质。诱导型启动子的例子包括,但不限于,四环素诱导型启动子和 金属硫蛋白启动子。

在本发明的优选实施方案中,本发明载体上的调控序列可以是启动子, 增强子,或阻抑物,它们中的任一个可以是组织特异性的。

载体上的调控序列可以分离自细胞或病毒基因组。细胞调控序列的例子 包括,但不限于,来自肌动蛋白基因、金属硫蛋白I基因、免疫球蛋白基因、 酪蛋白I基因、血清白蛋白基因、胶原蛋白基因、球蛋白基因、层粘连蛋白 基因、血影蛋白基因、锚蛋白基因、Na/K ATP酶基因和微管蛋白基因的调 控元件。病毒调控序列的例子包括,但不限于,来自巨细胞病毒(CMV)立即 早期基因、腺病毒晚期基因、SV40基因、逆转录病毒LTR和疱疹病毒基因 的调控元件。通常,调控序列含有转录因子(比如NF-kB、SP-1、TATA 结合蛋白、AP-1、和CAAT结合蛋白)的结合位点。从功能上说,调控序列 是由其启动、增强或者改变内源基因转录的能所定义的。

在某些优选实施方案中,调控序列是病毒启动子。在特别优选的实施方 案中,启动子是CMV立即早期基因启动子。在其它实施方案中,所述调控 元件是细胞的、非病毒的启动子。

在其它优选实施方案中,调控元件可以是或可含有一个增强子。在特别 优选的这类实施方案中,增强子是CMV立即早期基因增强子。在其它实施 方案中,所述增强子是细胞的、非病毒的增强子。

在其它优选的实施方案中,调控元件可以是或可含有阻抑物。在特别优 选的这类实施方案中,阻抑物可以是病毒阻抑物或细胞性非-病毒阻抑物。

转录调控序列也可含有一个或多个支架结构附着区或基质附着位点、负 调控元件以及转录因子结合位点。调控序列还可以包括基因座控制区。

本发明也包括逆转录病毒转录调控序列,例如长末端重复的使用。但是 当用这些序列时,它们不必与能极大地影响转录调控序列作为待活化的内源 基因(即转录调控序列将要与之重组以便活化的细胞基因)的转录启动子或增 强子功能的任何逆转录病毒序列相连。

本发明的载体构建体也可含有一个不与载体上的外显子序列可操作地 相连的调控序列。例如,当调控元件是一个增强子,它可以在内源基因附近 (例如,上游、下游、或在内含子内部)进行整合并刺激该基因从其内源启动 子处开始表达。通过这个活化机制,在被活化基因的转录产物中不存在来自 载体的外显子序列。

或者,调控元件可以与外显子可操作地相连,该外显子可以是天然产生 的序列或者可以是非天然产生的(例如合成制备的)序列。为了活化在其第一 个外显子中缺少起始密码子的内源基因(例如,促卵泡激素β),优选将载体 上的外显子的起始密码子缺失。为了活化其第一个外显子中含有起始密码子 的内源基因(例如,红细胞生成素和生长激素),优选载体上的外显子含有起 始密码子,通常是ATG,优选是一个高效翻译起始位点(kozak,分子生物学杂 志196:947(1987))。外显子可以含有跟在起始密码子后面的附加密码子。这 些密码子可以来源于天然产生的基因或者是非天然产生的(例如,合成的)。 密码子可以与待活化内源基因的第一个外显子中的密码子相同。或者,密码 子可与内源基因的第一个外显子中的密码子不同。例如,所述密码子可以编 码一个表位标记、分泌信号序列、跨膜结构域、选择标记或筛选标记。任选, 紧邻外显子序列3’端有一个未配对的剪接供体位点。当待活化的基因的结 构已知时,应将剪接供体位点放在紧邻载体外显子的位置,这样在剪接之 后,载体中的密码子将与内源基因的第二个外显子的密码子读框一致。当待 活化的内源基因的结构未知时,使用分别含有不同读码框的构建体。

可操纵地连接被定义为一个允许通过指定序列进行转录的构型。例如, 与外显子序列可操纵地连接的调控序列表明该外显子序列被转录。载体上存 在起始密码子时,可操纵地连接还表明载体外显子的开放读码框与内源基因 的开放读码框是读框一致的。在非同源整合之后,载体上的调控序列(例如, 启动子)变成与内源基因可操作地相连,并在一个通常称为CAP位点的位点 上协助转录起始。转录依次通过载体上的外显子元件(以及如果有的话,通过 起始密码子、开放读码框,和/或未配对的剪接供体位点)并通过内源基因而 推进。由这个可操纵连接产生的初级转录产物被剪接以产生一个含有来自载 体和内源基因两者的外显子序列的嵌合转录产物。翻译后,该转录产物能产 生一个内源蛋白质。

外显子或“外显子序列”定义为存在于成熟RNA分子中的任何被转录 的序列。载体上的外显子可以含有非翻译序列,例如,5’非翻译区。或者, 或者与非翻译序列连接在一起,外显子可以含有编码序列,比如起始密码子 和开放读码框。开放读码框可以编码天然产生的氨基酸序列或非天然产生的 氨基酸序列(例如,合成密码子)。开放读码框还可以编码分泌信号序列、表 位标记、外显子、选择标记、筛选标记或者核苷酸,当与内源基因进行剪接 时,该核苷酸用于保护该开放读码框。

初级转录产物的剪接(通过该过程去除内含子)由分别位于内含子5’和 3’端的剪接供体位点和剪接受体位点引导进行。剪接供体位点的其有序列 是(A/C)AG GURAGU(其中R代表嘌呤核苷酸),其中1-3位的核苷酸位于外 显子中,核苷酸GURAGU位于内含子中。

未配对的剪接供体位点在本文中定义为位于活化构建体上的没有下游 剪接受体位点的剪接供体位点。当载体通过非同源重组整合到宿主细胞的基 因组中时,未配对的剪接供体位点与来自内源基因的剪接受体位点形成配 对。来自载体的剪接供体位点,与来自内源基因的剪接受体位点一起,将引 导载体剪接供体位点和内源剪接受体位点之间的所有序列的切除。这些间插 序列的切除去掉了干扰内源蛋白质翻译的序列。

本文中所用的术语“上游”和“下游”,意指相对编码链,分别是5’或 3’方向。术语基因的“上游区域”定义为该基因第二外显子5’端(相对于 编码链)到达并包括第一个具有相同编码链的相邻基因中最后一个外显子的 核苷酸序列。从功能上来说,上游区域是内源基因第二外显子5’方向的能 使非同源整合的载体与内源基因可操作地相连的任何位点。

载体构建体可以含有选择标记以便协助鉴定和分离含有非同源整合的 活化构建体的细胞。选择标记的例子包括编码下列物质的基因:新霉素抗性 (neo)、次黄嘌呤磷酸核糖转移酶(HPRT)、嘌呤霉素(pac)、二氢乳清酸酶谷氨 酰胺合成酶(GS)、组氨酸D(hisD)、氨甲酰磷酸合成酶(CAD)、二氢叶酸还 原酶(DHFR)、多抗药性1(mdr 1)、天冬氨酸转氨甲酰酶、黄嘌呤-鸟嘌呤磷 酸核糖转移酶(gpt)和腺苷脱氨酶(ada)。

或者,载体可以含有一个筛选标记以代替选择标记或补充选择标记。筛 选标记能使含有载体的细胞分离出来,而不需给它们施加药物或其它选择压 力。筛选标记的例子包括编码细胞表面蛋白、荧光蛋白和酶的基因。包含载 体的细胞可以通过FACS利用针对细胞表面蛋白的荧光标记型抗体或者用能 被载体编码的酶转化为荧光产物的底物来分离。

或者,可以通过由内源基因产物提供的性状进行表型选择来挑选。因 此,活化构建体除了由内源基因自身提供的“标记”外可以不含选择标记。 在该实施方案中,可以根据活化基因所赋予的表型来挑选活化细胞。可选择 的表型的例子包括细胞增殖、不依赖生长因子的生长、集落形成、细胞分化 (例如,分化成神经元细胞,肌细胞、上皮细胞等)、不依赖于贴壁的生长、 对细胞因子(例如,激酶,转录因子,核酸酶等)的活化作用、细胞表面受体/ 蛋白的表达、获得或丧失细胞-细胞粘附性、迁移和细胞活化(例如,静息或 活化的T细胞)。

当筛选转染细胞的基因活化产物而不是筛选稳定的整合子时,可以删除 构建体上的选择标记。当稳定整合效率高时,这一点尤其有用。

载体可以含有一或多个(即1、2、3、4、5或更多,最优选1或2个)可 扩增标记以便挑选出包含拷贝数增加的整合载体和相邻的活化型内源基因 的细胞。可扩增标记的例子包括,但不限于二氢叶酸还原酶(DHFR)、腺苷脱 氨酶(ada)、二氢乳清酸酶谷氨酰胺合成酶(GS)和氨甲酰磷酸合成酶(CAD)。

载体可以含有用于基因扩增的真核生物的病毒复制起点。这些起点可以 取代可扩增标记或者与可扩增标记共存。

载体还可以含有用于构建体在微生物中增殖的遗传元件。有用的遗传元 件的例子包括微生物的复制起点和抗生素抗性标记。

这些载体和文中公开的任何载体,以及本领域普通技术人员容易想到的 变体可以用于本文描述的任何方法从而形成可由这些方法制得的任何组合 物。

构建体非同源整合到细胞基因组中可使来自载体的调控元件和来自内 源基因的外显子之间形成可操纵的连接。在优选实施方案中,利用载体调控 序列的插入来上调内源基因的表达。上调基因表达包括将一个转录上的沉默 基因转化为转录上的活化基因。它还包括使那些已具转录活性的基因,但蛋 白质产生量低于所需量的基因的表达增强。在其它实施方案中,可以用其它 方法来影响内源基因的表达,比如下调表达、建立诱导型表型或改变表达的 组织特异性。

根据本发明,制备基因表达产物的体外方法可能包括,例如,(a)将本发 明的载体导入细胞;(b)使载体通过非同源重组整合到细胞基因组中;(c)由载 体上所含的转录调控序列上调细胞中的内源基因,从而使其过表达;(d)筛选 过表达内源基因的细胞;以及(e)在有利于细胞产生所述内源基因的表达产物 的条件下培养细胞。本发明的这种体外方法可能还包含分离表达产物来制备 分离的基因表达产物。在这种方法中,可以有利地使用任何本领域已知的分 离蛋白质的方法,包括但不限于层析(例如,HPLC、FPLC、LC、离子交换、 亲和、体积排阻等)、沉淀(例如,硫酸铵沉淀、免疫沉淀等)、电泳及其它为 本领域普通技术人员所熟知的蛋白质分离和纯化方法。

类似地,体内制备基因表达产物的方法可能包括,例如(a)将本发明的载 体导入细胞;(b)使载体通过非同源重组整合到细胞基因组中;(c)由载体上所 含的转录调控序列上调细胞中的内源基因,从而使其过表达;(d)筛选过表达 内源基因的细胞;以及(e)在有利于所述细胞在真核生物体内过表达内源基因 的条件下,将分离且克隆的细胞导入真核生物中。根据发明的这个方面,可 以有利地使用任何真核生物,包括真菌(尤其是酵母),植物和动物,更优选 动物,还优选的是脊椎动物,最优选哺乳动物,尤其是人。在某些相关实施 方案中,本发明提供了这样的方法,它还进一步包括在将细胞导入真核生物 之前对它进行分离和克隆。

本文中所用短语在细胞中或使细胞在体外“有利于制备表达产物的条 件”,“有利于基因过表达的条件”以及“有利于基因活化的条件”是指任何 和所有适宜的环境、物理、营养或生化的参数,这些参数能允许、协助或促 进细胞在体外产生表达产物、或者过表达或活化基因。这类条件当然包括使 用培养基、保温、光照、湿度等,其可能是最佳或能允许、协助或促进细胞 在体外产生表达产物、或者使基因过表达或活化的条件。类似地,本文中所 用短语在细胞中或使细胞在体内“有利于制备表达产物的条件”,“有利于基 因过表达的条件”以及“有利于基因活化的条件”指任何和所有适宜的环境、 物理、营养或生化、行为、遗传和情感的参数,在这些条件下维持含有所述 细胞的动物,这些条件能允许、协助或促进由真核生物的细胞体内产生表达 产物或者使基因过表达或活化。利用已描述过的筛选方法和下面例举的方 法,或者其它本领域常规的测量基因表达、活化或过表达的方法,本领域普 通技术人员可以确定给定的一组条件是否有利于体外或体内进行基因表 达、活化或过表达。

本文所用术语“活化内源基因”指:以高于含有内源基因至细胞中正常 水平的量,诱导编码内源基因之转录物的产生。在一些应用中,“活化内源 基因”也指以高于含有内源基因之细胞中正常水平的量,产生由内源基因编 码的蛋白质,或蛋白质的一部分。

本发明还包括由上述任何方法制得的细胞。本发明包括含有所述载体构 建体的细胞,已整合了载体构建体的细胞以及那些在所导入的转录调控序列 的驱动下,由内源基因过表达所需基因产物的细胞。

用于本发明的细胞可以来源于任何真核物种,可以是原代、次代或永生 化的细胞。此外,细胞可以来源于生物体内的任何组织。可用来从中分离和 活化细胞的组织的例子包括,但不限于,肝、肾、脾、骨髓、胸腺、心脏、 肌肉、、脑、睾丸、卵巢、胰岛、肠、骨髓、皮肤、骨、胆囊、前列腺、 膀胱、胚胎以及免疫和造血系统。细胞类型包括成纤维细胞、上皮细胞、神 经元细胞、干细胞和滤泡细胞。但是,利用本发明,可以用任何细胞或细胞 类型来活化基因表达。

可以在来源于真核生物比如真菌、植物或动物的任何细胞中实施所述方 法。优选实施方案包括脊椎动物,尤其是哺乳动物,更特别是人。

可以将构建体整合到原代、次代或永生化的细胞中。原代细胞是分离自 脊椎动物,并且未被传代的细胞。次代细胞是已被传代的原代细胞,但未被 永生化。永生化的细胞是可以无限传代的细胞系。

在优选实施方案中,细胞是永生化的细胞系。永生化的细胞系的例子包 括,但不限于,HT1080、HeLa、Jurkat、293细胞、KB癌、T84结肠上皮 细胞系、Raji、HepG2或Hep 3B肝癌细胞系、A2058黑素瘤、U937淋巴瘤 和WI38成纤维细胞系、体细胞杂合体及杂交瘤。

用于本发明的细胞可以来源于任何真核生物物种,包括但不限于哺乳动 物细胞(比如大鼠、小鼠、牛、猪、绵羊、山羊和人)、鸟类细胞、鱼类细胞、 两栖动物细胞、爬行动物细胞、植物细胞和酵母细胞。优选地,通过活化来 自某物种的细胞中的基因表达来过表达特定物种的内源基因或基因产物。例 如,使用人类细胞来过表达内源人类蛋白质。类似地,要过表达内源牛蛋白 质(例如牛生长激素),使用牛细胞。

所述细胞可以来源于真核生物中的任何组织。可用来从中分离和活化细 胞的脊椎动物组织的例子包括,但不限于,肝、肾、脾、骨髓、胸腺、心脏、 肌肉、肺、脑、免疫系统(包括淋巴系统)、睾丸、卵巢、胰岛、肠、胃、骨 髓、皮肤、骨、胆囊、前列腺、膀胱、受精卵、胚胎和造血组织。有用的脊 椎动物细胞类型包括,但不限于,成纤维细胞、上皮细胞、神经元细胞、生 殖细胞(即精母细胞/精子以及卵母细胞)、干细胞和滤泡细胞。可用来从中分 离和活化细胞的植物组织包括,但不限于叶组织、子房组织、雄蕊组织、雌 蕊组织、根组织、茎、配子、种子、胚芽等。但本领域普通技术人员会想 到,利用本发明可以用任何真核的细胞或细胞类型来活化基因表达。

上述任何方法制备的任何细胞都可用来筛选所需基因产物的表达,并提 供所需量的细胞内过表达的基因产物。可以将该细胞分离和克隆。

可用以该方法制得的细胞来在体外(例如用于蛋白质治疗)或体内(用于 细胞疗法)制备蛋白质。

工业上的生长和制备条件经常与用于分析用途(例如克隆、蛋白质或核酸 测序、制备抗体、X-射线晶体学分析、酶学分析等)的细胞生长和制备条 件不同。用于摇瓶中生长的细胞放大试验包括提高细胞可以附着的表面积。 因此经常加入微载体珠来提高工业生长用的表面积。旋转器培养中的细胞放 大试验可能涉及体积的较大提高。微载体和旋转器培养可能需要5升或更大 体积。根据目的蛋白质的固有效价(比活),体积低至1-10升。常见的是 10-15升。但是,可能会需要达到50-100升,体积可能会高至10,000-15, 000升。在某些情况中,可能需要更高体积。还可以在大量T型烧瓶(例如 50-100个)中培养细胞。

除了生长条件,工业规模上的蛋白质纯化也与分析用纯化相当不同。在 工业实践中,可以由相当于10升(大约104细胞/ml)细胞量等同物开始纯化蛋 白质。开始蛋白质纯化的细胞量等同物可以达到10升(高达106或107细胞/ml) 的细胞。但本领域普通技术人员会想到,更高或更低一些的起始细胞量等同 物也可用于本方法。

另一种工业培养条件,特别在当终产物要临床使用时,是在无血清培养 基中培养细胞,无血清培养基是指不含血清或所含血清没有达到细胞生长所 需量的培养基。很显然,这避免了对有毒污染物(例如病毒)或其它类型污染 物(例如会使纯化过程复杂的蛋白质)的不希望的共纯化。用于细胞生长的无 血清培养基、这种培养基的工业来源及在无血清培养基中培养细胞的方法是 本领域普通技术人员熟知的。

由上面描述的方面获得的单个细胞能过表达一个基因或多个基因。通过 整合一个构建体或在同一细胞中整合多重构建体(即多种类型的构建体)可以 活化多个基因。因此,一个细胞可以只含一类载体构建体或不同类型的构建 体,每种构建体能活化一个内源基因。

本发明还涉及通过下列一或多项步骤来制备上述细胞的方法:导入一或 多个载体构建体;使导入的构建体通过非同源重组整合到细胞基因组中;在 细胞内过表达1或多个内源基因;以及分离和克隆所述细胞。

方便起见,当讨论将多核苷酸导入细胞中时,本文采用术语“转染”。 但是,应当明白该术语的特定用途已被用来泛指将多核苷酸导入细胞的方 法,也用来指用其它本文描述的方法实现的导入,比如电穿孔,脂质体介导 的导入,逆转录病毒介导的导入等(以及依照其自身特定含义的导入方法)

可以通过许多本领域已知方法将载体导入细胞。这些方法包括,但不限 于,电穿孔、磷酸沉淀、DEAE右旋糖苷、脂质体转染和受体介导的胞吞、 1,5-二甲基-1,5-二氮十一亚基聚甲溴化物(polybrene)、粒子轰击和显微注 射。或者,可台将载体以病毒颗粒(可复制感受态病毒或复制缺陷型病毒)的 形式递送到细胞中。可用于递送核苷酸的病毒的例子包括,但不限于,腺病 毒、腺病毒相关病毒、逆转录病毒、疱疹病毒和痘苗病毒。本领域技术人员 知道的其它适用于将核苷酸分子递送到细胞中的病毒可以被等效地用于该 方法。

转染之后,在一定条件下培养细胞,该条件是本领域已知的适合载体和 宿主细胞基因组之间进行非同源整合的条件。可以进一步在本领域已知的使 被活化内源基因进行表达的条件下,培养含有非同源整合的载体的细胞。

可以在一个DNA构建体或各自独立的构建体上将载体构建体导入细 胞,并发生连环化。

尽管在优选实施方案中,载体构建体是双链DNA载体构建体,载体构 建体也包括单链DNA、单链和双链DNA的结合形式、单链RNA、双链RNA、 以及单链和双链RNA的结合形式。因此,例如,载体构建体可以是单链 RNA,其由逆转录酶将其转化为cDNA,cDNA再被转化为双链DNA,而双 链DNA最终与宿主细胞基因组发生重组。

在优选实施方案中,导入细胞之前将构建体线性化。活化构建体的线性 化产生游离DNA末端,它能在整合过程中与染色体末端反应。一般来说, 构建体在调控元件(以及外显子和剪接供体序列,如果有这些序列)下游被线 性化。可以通过,例如在调控序列下游加入一个独特的限制位点并在转染前 用相应的限制酶处理构建体来促进线性化。在构建体上的线性化位点和近端 最具功能的元件(例如未配对的剪接供体位点)之间插入一个“间隔区”序列 是有利的,但这一作法不是必须的。有间隔区序列存在能保护载体上的重要 功能元件在转染过程中免受外切核苷酶的降解。所述间隔区可以由任何不会 改变文中所述载体的基本功能的核苷酸序列构成。

也可以用环形构建体来活化内源基因表达。本领域已知,环形质粒在转 染到细胞中时能整合到宿主细胞基因组中。据推测,转染过程中在环形质粒 中发生DNA断裂,从而产生能连接到染色体末端的游离DNA末端。构建体 中的某些断裂将发生在不破坏载体的关键功能的位置(例如,断裂发生在调控 序列下游),因此可以使构建体以能活化内源基因的构型整合到染色体中。如 上所述,可以在构建体上插入间隔区序列(例如,调控序列下游)。转染过程 中,发生在间隔区的断裂将在构建体上的某个位点形成游离末端,该游离末 端适合构建体整合到宿主细胞基因组中后活化内源基因。

本发明还包括由上述方法制得的细胞文库。一个文库可以包括得自一次 转染实验的所有克隆或者得自一次转染实验的一个亚组的克隆,所述亚组可 以过表达相同的基因或多个基因,例如,一类基因。转染可以用单个类型的 构建体或多个类型的构建体进行。

可以将得自两次或多次转染实验的所有重组细胞合并,将得自一次转染 实验的1或多个亚组的细胞合并或者将得自多次转染实验的亚组的细胞合并 来构成文库。所得文库可以表达相同基因,或多个基因,例如,一类基因。 同样,在每次转染过程中,可以使用一个构建体或多个构建体。

所述文库可以由相同细胞类型或不同细胞类型构成。

所述文库可以由一类细胞组成,该细胞含有一种类型活化构建体,所述 构建体在自发DNA断裂形成的断裂处或由同时施加(给相同细胞)或者分别 施加(给各个细胞群,然后将细胞合并在一起构成文库)的辐射、限制酶、和/ 或DNA断裂剂导致的断裂处整合到染色体中。文库可以由多类细胞组成, 这些细胞含有一个或多个构建体,所述构建体整合到用辐射、限制酶,和/ 或DNA断裂剂一起施加给相同细胞或者分别(施加给各个细胞群,然后将细 胞合并在一起构成文库)处理过的细胞的基因组中。

本发明还涉及从相同或不同转染实验中挑选各种细胞亚组来制备文库 的方法。例如,可以将所有表达核因子的细胞(由转染构建体20的细胞中核 绿色荧光蛋白的存在来确定)合并以形成含有活化核因子的细胞文库。类似 地,可以合并表达膜蛋白或分泌蛋白的细胞。也可以将细胞根据表型分组, 例如,生长因子独立型生长、生长因子独立型增殖、集落形成、细胞分化(例 如分化为神经细胞、肌细胞、上皮细胞等)、不依赖于贴壁的生长、活化细胞 因子(例如,激酶、转录因子、核酸酶等),细胞—细胞粘附的获得或丧失、 迁移或细胞活化(例如休眠或活化T细胞)。

本发明还涉及利用细胞文库来过表达内源基因的方法。筛选文库用于基 因的表达,并挑选出能表达所需基因产物的细胞。然后,可以用细胞来纯化 基因产物,用作随后使用。可以体外培养细胞或者使细胞体内表达基因来使 细胞进行表达。

本发明还涉及利用文库来鉴定新基因和基因产物的方法。

本发明还涉及通过用能刺激或影响非同源整合方式的试剂处理细胞来 提高基因活化效率的方法。已经证实,不同细胞类型的基因表达方式、染色 质结构以及甲基化方式显著不同。即使来自相同细胞类型的不同细胞系也可 能有明显差异。这些差异能通过影响DNA断裂方式和修复过程而影响非同 源整合的方式。例如,染色质化的DNA片段(可能与失活基因有关的性状) 可能对限制酶和化学试剂引起的断裂作用的抗性更高,而对辐射引起的断裂 作用敏感。

此外,可将失活基因甲基化,在这种情况中,被CpG甲基化阻断的限 制酶不能在失活基因附近切割甲基化位点,从而更难用甲基化敏感酶来活化 该基因。通过用各种DNA断裂剂在多个细胞系中建立活化文库可以避开这 些问题。这样做,可以产生更完全的整合方式,并能最大可能地活化给定基 因。

本发明的方法可包括给含有将要过表达的内源基因的细胞的DNA中导 入双链断裂。这些方法在载体整合之前或同时给细胞内的基因组DNA中导 入双链断裂。DNA断裂的机制对基因组中DNA的断裂方式会有显著影响。 这样,用辐射、限制酶、博来霉素或其它断裂剂可以在不同位置自发或人为 地产生DNA断裂。

为了提高整合效率以及整合位点分布的随机性,可以在转染之前或之后 用低、中或高剂量辐射处理细胞。借助人工诱导的双链断裂,这时作为DNA 修复过程的一部分,转染DNA可以整合到宿主细胞染色体中。通常,形成 用作整合位点的双链断裂是限速步骤。因此,通过用辐射(或其它DNA破坏 剂)来增加染色体断裂,在给定转染中能得到更多整合子。此外,由辐射引起 的DNA断裂的机制与自发断裂的机制不同。

当高能光子击中DNA分子时,辐射能直接诱导DNA断裂。或者,辐 射可以活化细胞中的某些化合物,后者接着与DNA链反应并使其断裂。而 另一方面,自发断裂被认为是由细胞内产生的反应性化合物(比如超氧化物和 过氧化物)和DNA分子之间的相互作用导致的。但是细胞内的DNA不是以 裸露、去蛋白化的聚合物的形式存在,而是与染色质结合,并以凝聚状态存 在。因此在细胞内导致双链断裂的试剂无法接近某些区域。辐射产生的光子 波长具有击中DNA的高度凝聚区的足够短的波长,从而诱发那些不能发生 自发断裂的DNA区域的断裂。因此,辐射能产生不同的DNA断裂方式,后 者接下去导致不同的整合方式。

这样,利用经过/未经过辐射处理的细胞中的相同活化构建体制得的文库 可能含有不同活化基因组。最后,辐射处理能将非同源整合效率提高5-10 倍,这使得能用较少细胞产生完整的文库。因此,辐射处理能提高基因活化 效率并在转染细胞中形成新的整合和活化方式。有用的辐射类型包括α、 β、γ、x-射线,以及紫外照射。适用的辐射剂量随细胞类型而不同,但通 常来说,导致0.1%到99%细胞存活的剂量范围是有用的。对于HT1080细胞, 这相当于大约0.1rads到1000rads的137Cs源的辐射剂量。也可以使用其它剂 量,只要该剂量能提高整合频率或者改变整合位点的形式。

除了辐射,也可以用限制酶来人工诱导转染细胞内的染色体断裂。与辐 射一样,DNA限制酶能形成染色体断裂,后者随之作为转染DNA的整合位 点。该大量的DNA断裂使得活化构建体的整体整合效率提高。另外,由限 制酶导致的断裂机制与辐射断裂不同,染色体断裂的方式也很可能不同。

较之光子和能破坏DNA的小代谢物,限制酶是相对大的分子。因此, 限制酶倾向于将比整个基因组的紧密程度小的区域断裂。如果目的基因存在 于基因组的可接近区域内,则用限制酶处理细胞能提高活化构建体整合到目 的基因上游的可能性。由于限制酶识别特异序列,并且由于给定的限制位点 不存在于目的基因的上游,可以使用多种限制酶。由于每种酶有不同的特性 (例如大小、稳定性、切割甲基化位点的能力以及最适反应条件),这些特性 会影响到宿主染色体中哪个位点被切割,因此使用多种限制酶是重要的。每 种酶,由于其可切割的限制位点的不同分布,将产生不同的整合方式。

因此,在导入活化构建体之前、期间或之后,导入限制酶(或能表达限制 酶的质粒)将导致不同基因组的活化。最后,限制酶诱导的断裂使整合效率提 高5-10倍(Yorifuji等,突变研究243:121(1990)),这就使得可以转染较少 的细胞而制备到完整的文库。这样,可以用限制酶形成新的整合方式,以便 使那些在自发断裂或其他人工诱导的断裂处通过非同源重组产生的文库中 不能被活化的基因活化。

还可以用限制酶使活化构建体偏性整合到基因组中的预期位点。例如, 已描述过几种罕见的限制酶,它们能平均每50-1000kb切割真核DNA。如果 一个罕见的限制酶识别序列恰巧位于目的基因的上游,通过在活化构建体进 行转染的同时导入该限制酶,可以择优地在目的基因上游形成DNA断裂。 然后,这些断裂可以作为活化构建体的整合位点。能在目的基因内部或附近 的合适位置进行切割并且其识别位点在基因组的其他位置不多出现,或者在 所述基因附近过多出现(例如,含有CpG的限制位点),任何这样的酶都可以。 对于以前未被鉴定的基因,可以使用具有8bp识别位点的限制酶(例如,NotI、 SfiI、PmeI、SwaI、SseI、SrfI、SgrAl、PacI、AscI、SgfI和Sse8387I)、识 别含有CpG的位点的酶(例如WagI、Bsi-WI、MluI和BssHII)以及其他罕见 的切割酶。

以这种方法,可以形成富含特定类型活化基因的“偏性”文库。就这方 面来说,含有CpG二核苷酸的限制酶位点尤其有用,因为这些位点在整个基 因组中含量少,而在许多基因5’端的CpG岛(正是用于基因活化的位置)中 含量丰富。因此,识别这些位点的酶能优先在基因序列5’端切割。

可以通过几种方法将限制酶导入宿主细胞。首先,可以通过电穿孔将限 制酶导入细胞(Yorifuji等,突变研究243:121(1990);Winegar等,突变研 究225:49(1989))。通常,导入细胞的限制酶的量与它在电穿孔介质中的浓 度成比例。必须通过调节电压、电容和电阻来优化每个细胞系的脉冲条件。 其次,可以由编码该酶的质粒在真核生物调控元件的控制下瞬时表达限制 酶。可以通过使用诱导型启动子以及改变诱导的强度来控制所产生的酶的含 量。在某些情况中,可能希望限制所产生的限制酶的量(由于其毒性)。在这 些情况中,可以利用弱的或突变的启动子、剪接位点、翻译起始密码子和 poly(A)尾部来降低所产生的酶量。再次,可以通过能与细胞膜融合或通透的 试剂来导入限制酶。脂质体和链球菌溶血素O(Pimplikar等,细胞生物学杂 志125:1025(1994))是这类试剂的例子。最后,可以利用机械穿孔和显微注 射来将核酸酶和其他蛋白质导入细胞。但是,任何能将活性酶递送到活细胞 中的方法都是适用的。

由博莱霉素和其他DNA损伤剂诱导的DNA断裂也可以产生不同的 DNA断裂方式。因此,任何能在细胞中产生双链断裂的试剂或培养条件都可 以用来提高非同源重组的效率和/或改变其位点。各类化学DNA损伤剂的例 子包括,但不限于,过氧化物和其他能产生自由基的化合物、烷基化试剂、 拓扑异构酶抑制剂、抗肿瘤药物、酸、取代核苷酸和烯二炔(enediyne)抗生素。

特异性化学DNA损伤剂包括,但不限于,博莱霉素、过氧化氢、氢过 氧化枯烯、氢过氧化叔丁基、次氯酸(与苯胺、1-胺或1-萘酚反应)、硝酸、 磷酸、阿霉素、9-脱氧阿霉素、去甲基-6-阿霉素、5-亚氨基柔红霉素、亚德 里亚霉素(adriamycin)、4-(9-丫啶氨基)甲磺间茴香胺、新制癌菌素、8-甲氧咖 啡因、依托泊甙、椭圆玫瑰树碱、碘代脱氧尿嘧啶核苷和溴脱氧尿苷。

已经证明可以通过将细胞预先暴露于低剂量DNA断裂剂,比如辐射或 博莱霉素中,来诱导细胞内的DNA修复机制。在转染前用这些试剂将细胞 预处理大约24小时,细胞在转染后能更有效地修复DNA断裂和整合DNA。 另外,可以使用较高剂量的辐射或其他DNA断裂剂,因为预处理后的 LD50(导致50%处理细胞死亡的剂量)更高。这就使得能以多种剂量产生随机 活化文库并在宿主细胞的染色体中形成分布不同的整合位点。

筛选

一旦制备了一个活化文库(或多个文库),就可以用许多检测方法来筛 选。根据目的蛋白质的特性(例如分泌的与胞内蛋白)和用于形成文库的活化 构建体的性质,可以使用以下描述的任何或所有检测方法。也可以使用其他 检测形式。

ELISA.可以利用酶联免疫吸附检测法(ELISA)来检测已活化的蛋白质。 如果活化的基因产物被分泌出来,在含有结合的目的蛋白质的特异抗体的孔 中温育活化文库细胞集的培养物上清液。如果一个或一群细胞已经活化了目 的基因,蛋白质将分泌到培养基中。通过筛选文库克隆集(所述集合可以是1 到100,000个以上文库成员),可以鉴定到含有目的基因已被活化的细胞的 集合。然后可以通过同胞选择、有限稀释或其他本领域已知技术将目的细胞 从其他文库成员中纯化出来。除了分泌蛋白,还可以使用ELISA来筛选表达 胞内或膜结合蛋白质的细胞。在这些情况下,不是筛选培养物上清液,而是 从文库集合(每个细胞在每个集合中至少出现100-1000次)中取出少量细胞、 裂解、澄清并加入包被抗体的小孔。

ELISA斑点检测:将ELISA斑点包被目的蛋白质的特异抗体。包被后, 用1%BSA/PBS将小孔于37℃封闭1小时。随后,将随机活化文库中的100, 000到500,000个细胞加入每个孔中(代表全部集合的约10%)。通常,每个 孔加入一个集合。如果细胞表达目的蛋白质的频率是1/10000(即集合包含 10000个单克隆,其中之一表达目的蛋白质),则每孔铺500000个细胞将产 生50个特异细胞。将细胞在孔中于37℃无移动或无干扰地温育24到48小 时。温育结束时,吸出细胞并将培养板用PBS/0.05%Tween 20洗3次,用 PBS/1%BSA洗3次。以适当的浓度将二抗加入孔中,于室温温育2小时或 者4℃温育16小时。可以将这些抗体生物素化或者直接用辣根过氧化酶(HRP) 标记。吸出二抗,用PBS/1%BSA将培养板洗3次。加入标记了HRP的三抗 或链霉抗生物素蛋白,并于室温温育1小时。

FACS检测:可以利用荧光激活细胞分选仪(FACS)以多种方法来筛选随 机活化文库。如果目的基因编码细胞表面蛋白质,则可以将荧光标记的抗体 与来自活化文库的细胞一起温育。如果目的基因编码分泌蛋白质,则可以将 细胞生物素化,并与偶联到目的蛋白质的特异抗体的链霉抗生物素蛋白一起 温育(Manz等,美国科学院学报92:1921(1995))。温育后,将细胞放入高浓 度明胶中(或其他聚合物,比如琼脂糖或甲基纤维素)以便限制分泌蛋白质的 扩散。当细胞分泌出蛋白质时,它被结合到细胞表面上的抗体捕获。就可以 通过荧光标记的二抗来检测是否存在目的蛋白质。对于分泌和膜结合蛋白 质,都可以随后根据其荧光信号分选细胞。然后可以分离出荧光细胞,扩增 并进一步经FACS、有限稀释或其他本领域已知的细胞纯化技术将其富集。

磁珠分离:这项技术的原理与FACS类似。通过将活化文库与偶联抗体 的、目的蛋白质特异的磁珠一起温育来检测膜结合蛋白质和捕获的分泌蛋白 质。如果蛋白质存在于细胞表面,磁珠会与该细胞结合。利用一个磁体,可 以将表达目的蛋白质的细胞从文库中的其他细胞中纯化出来。然后将细胞从 小珠上释放、扩增、分析并在需要时进一步纯化。

RT-PCR:收集少量细胞(至少等于集合中各克隆的数目)并裂解以便纯 化RNA。分离后,用逆转录酶将RNA进行逆转录。然后用目的基因的cDNA 的特异性引物进行PCR。

可供选择的是,可以使用跨越活化构建体中的合成外显子和内源基因的 外显子的引物。该引物不会与内源表达的目的基因杂交,也不使其扩增。反 之,如果活化构建体整合到目的基因的上游,并活化了基因表达,则该引物 与所述基因的第二个特异引物一起,依靠剪接到内源基因的外显子上的合成 外显子的存在而使被活化基因发生扩增。因此,可以用这个方法来检测那些 通常情况下目的基因的表达低于预期水平的细胞内的活化基因。

表型分组:在这个实施方案中,可以根据活化基因赋予的表型来挑选细 胞。可以选择的表型的例子包括增殖、生长因子独立型生长、集落形成、细 胞分化(例如分化成神经细胞、肌细胞、上皮细胞等)、不依赖于贴壁的生长、 对细胞因子的活化作用(例如,激酶,转录因子,核酸酶等)、获得或丧失细 胞-细胞粘着性、迁移和细胞活化(例如,休眠或活化的T细胞)。分离显示一 种表型(比如上面描述的)的活化细胞非常重要,因为预计是由整合构建体使 内源基因活化导致了所观察到的细胞表型。因此,活化基因可能是重要的治 疗药物或者是治疗或诱导所观察到的表型的药物靶。

可以通过瞬时上调文库细胞中的基因表达来有效地提高上述每一检测 方法的灵敏度。对于含有NF-kB位点的启动子(在活化构建体上),通过向文 库中加入PMA和肿瘤坏死因子-α可以做到这一点。单独加入丁酸钠或者它 与PMA和肿瘤坏死因子-α一起可以进一步增强基因表达。加入这些试剂可 以提高目的基因的表达,从而可以利用较低灵敏度的检测方法来鉴定目的基 因已活化的细胞。

由于建立了巨大的活化文库以便尽可能多地活化许多基因,将文库克隆 组织为集合是有益的。每个集合可以含有1到100000个以上单个克隆。因 此,在给定集合中,通常产生稀释浓度的许多活化蛋白质(原因在于集合的整 个尺寸和该集合内产生给定活化蛋白质的有限数目的细胞)。因此,筛选前将 蛋白质浓缩能有效地提高在筛选方法中检测活化蛋白质的能力。一个特别有 用的浓缩方法是超滤;但是,也可以用其他方法。例如,在结合所存在的多 数或全部蛋白质的条件下,通过吸附到离子交换、疏水、染料、羟基磷灰石、 凝集素以及其他合适的树脂上来非特异或半特异地浓缩蛋白质。这样在筛选 前可以将结合蛋白质以小体积移走。有益的做法是使细胞在无血清培养基中 生长以便协助蛋白质的浓缩。

在另一个实施方案中,活化构建体上可以包括的有用序列是表位标记。 所述表位标记可以包含一个能亲合纯化(例如在免疫亲合或螯合基质上)活化 蛋白质的氨基酸序列。因此,通过在活化构建体上包括表位标记可以纯化活 化文库中所有的活化蛋白质。通过将活化蛋白质从其他细胞和培养基蛋白质 中纯化出来,可以协助筛选新的蛋白质和酶活性。在某些情况中,可能会希 望在将活化蛋白质提纯后除去表位标记。通过在活化构建体上的表位标记下 游包括一个蛋白酶识别序列(例如,因子IIa或肠激酶切割位点)可以达到该目 的。将纯化的活化蛋白与合适的蛋白酶一起温育可以从蛋白质上释放出表位 标记。

在那些表位标记位于活化构建体上的文库中,可以利用亲合纯化将所有 活化蛋白质从所有其他细胞和培养基蛋白质中纯化出来。这不仅使活化蛋白 质得到浓缩,还使其从可能干扰用于筛选文库的检测方法的其它活性中纯化 出来。

一旦鉴定到含有过表达目的基因的细胞的克隆集合,可以采取措施来分 离活化细胞。利用许多本领域已知的方法可以实现活化细胞的分离。细胞纯 化方法的例子包括有限稀释、荧光活化细胞分选、磁珠分离、同胞选择和利 用克隆环进行的单克隆纯化。

在本发明的优选实施方案中,所述方法包括一个纯化表达产物的步骤。 在极其优选的实施方案中,培养表达内源基因产物的细胞以便产生工业应用 上,特别是在诊断和治疗以及药物开发用途上可行用量的基因产物。

任何用于本文所述方法中的载体可以包括一个可扩增标记。这样,可以 在细胞内使载体和目的DNA(即含有过表达的基因)得到扩增,并进一步增强 内源基因的表达。与此相应,所述方法可以包括一个扩增内源基因的步骤。

一旦已经分离了活化细胞,可以通过使含有目的基因和活化构建体的基 因座扩增来进一步提高表达。通过以下描述的各种方法,单独或组合使用可 以做到这一点。

可扩增标记是能挑选到更高拷贝数的基因。可扩增标记的例子包括二氢 叶酸还原酶、腺苷脱氨酶、天冬氨酸转氨甲酰酶、二氢乳清酸酶以及氨甲 酰磷酸合成酶。对于这些例子,可以选择拷贝数增加的可扩增标记和旁侧序 列(包括目的基因)用作由可扩增标记起作用的药物或毒性代谢物。总之,随 着药物或毒性代谢物浓度升高,含有较少拷贝可扩增标记的细胞死亡,而含 有拷贝增加的标记的细胞存活并形成集落。可以将这些集落分离、扩增并分 析目的基因产物的增加水平。

在活化构建体上插入一个可扩增标记将导致活化细胞中的目的基因与 可扩增标记并列。在存在增加量选择剂(通常是药物或代谢物)的情况下培养 细胞,就可以挑选出含有拷贝数增加的可扩增标记和目的基因的活化细胞。 例如,可以用氨甲喋呤来选择二氢叶酸还原酶(DHFR)的扩增。

当在每个升高药物浓度下得到抗药集落时,可以挑选出单个集落并鉴定 可扩增标记和目的基因的拷贝数,并分析目的基因的表达。可以挑选出活化 基因表达水平最高的单个克隆用于在更高药物浓度下的进一步扩增。在最高 药物浓度下,克隆会表达量已经大大增加的目的蛋白质。

扩增DHFR时,可以方便地在几个不同浓度的氨甲喋呤处铺上大约1× 107细胞。有用的氨甲喋呤的起始浓度在大约5到100nM之间。但是必须针 对每个细胞系和整合位点根据经验确定氨甲喋呤的最佳浓度。在含有氨甲喋 呤的培养基中生长之后,从最高浓度氨甲喋呤中挑出集落并分析目的基因表 达的提高。然后将具有最高浓度氨甲喋呤的克隆生长在更高浓度的氨甲喋呤 中以便挑选出进一步扩增的DHFR和目的基因。对于含有最高程度基因扩增 的克隆可以使用微摩和毫摩范围的氨甲喋呤浓度。

在活化构建体上插入一个病毒复制起点(例如,人细胞中的ori P或SV40 以及小鼠细胞中的多瘤ori)将导致在活化细胞中目的基因与病毒复制起点并 列。通过以反式导入病毒复制蛋白可以使起点和旁侧序列扩增。例如,使用 ori P(Epstein-Barr病毒的复制起点)时,可以瞬时或稳定表达EBNA-I。EBNA-I 能起始从整合的ori P基因座开始复制。所述复制可以从起点双向延伸。当产 生各个复制产物时,它又能起始复制。结果,可以得到许多拷贝病毒起点和 包括目的基因的旁侧基因组序列。该更高的拷贝数使细胞能产生更大量的目 的基因。

在某个频率处,复制产物会重新结合形成含有旁侧基因组序列(包括目的 基因)的环形分子。通过单细胞克隆以及Hirt提取和Southern印迹分析可以 分离出含有携带目的基因的环形分子的细胞。一旦得到纯化,可以将含有拷 贝数增加(通常10-50拷贝)的附加体基因组座位的细胞在培养基中增殖。为 了获得更高的扩增,可以通过在原始构建体中的第一个起点邻近出包括一个 第二起点来进一步增加附加体。例如,可以用T抗原来使ori P/SV40附加体 拷贝数增加到约1000(Heinzel等,病毒杂志62:3738(1988))。这种拷贝数的 显著增加能明显地提高蛋白质的表达。

本发明包括体外和体内过表达内源基因。因此,可以在体外用细胞以产 生预期量的基因产物或者可以在体内用细胞以在完整动物提供基因产物。

本发明还包括由本文所述方法产生的蛋白质。这些蛋白质得自已知或未 知基因。可以用所述方法制备的已知蛋白质的例子包括,但不限于,红细胞 生成素、胰岛素、生长激素、葡糖脑苷脂酶,组织纤溶酶原活化物、粒细胞 集落刺激因子(G-CSF)、粒细胞/巨噬细胞集落刺激因子(GM-CSF)、干扰 素α、干扰素β、干扰素γ,白介素-2、白介素-6、白介素-11、白介素-12、 TGF-β,凝血因子V,凝血因子-VII、凝血因子-VIII、凝血因子-IX、凝血 因子-X、TSH-β、骨生长因子-2、骨生长因子-7,肿瘤坏死因子、α- 1抗胰蛋白酶、抗凝血酶III,白血病抑制因子、胰高血糖素、蛋白C、蛋白 激酶C、巨噬细胞集落刺激因子(M-CSF)、干细胞因子、促卵泡激素β、尿 激酶、神经生长因子、胰岛素样生长因子、促胰岛素、甲状旁腺激素、乳铁 蛋白、补体抑制因子、血小板衍生生长因子,角质细胞生长因子、神经营养 蛋白-3、血小板生成素、绒膜促性腺激素、血栓调节蛋白、α糖苷、表皮生 长因子、FGF、巨噬细胞集落刺激因子以及上述每种蛋白质的细胞表面受体。

从活化细胞中纯化蛋白质产物时,可以采用任何本领域已知的蛋白质纯 化方法。

分离含有活化的膜蛋白编码基因的细胞

从药物开发的观点来看,那些编码膜相关蛋白质的基因特别令人感兴 趣。可以用这些基因和它们编码的蛋白质利用组合化学库和高产量筛选方法 来,例如,开发小分子药物。另一方面,可以用这些蛋白质或蛋白质的可溶 形式(例如缺少跨膜区的截短的蛋白质)作为人或动物的治疗活性剂。还可以 使用膜蛋白的鉴定利用双元杂交法或亲合捕集技术来鉴定新配体(例如,细胞 因子、生长因子以及其他效应分子)。膜蛋白还可能有许多其他应用。

目前鉴定编码完整膜蛋白的基因的手段包括从cDNA文库中分离所述 基因并将其测序。然后利用能鉴定蛋白质的跨膜区的疏水性曲线通过ORF 分析来鉴定完整膜蛋白质。不幸的是,用这个方法不能鉴定编码完整膜蛋白 的基因,除非该基因能在用于制备cDNA文库的细胞中表达。另外,许多基 因只在很少的细胞中,在很短的发育时期内,和/或以极低水平表达。因此, 不能用现有的方法来有效地鉴定这些基因。

利用本发明能在不知道基因的序列、结构、功能或表达方式的情况下活 化内源基因。利用本发明公开的方法,可以只在转录水平下活化基因,或者 在转录和翻译水平下活化基因。因此,可以在含有已整合载体的细胞中制备 由活化内源基因编码的蛋白质。此外,利用本文公开的特异载体,可以将由 活化内源基因产生的蛋白质进行修饰以便如包括一个表位标记。其他载体(例 如,上面描述的载体12-17)可以编码一个跟有表位标记的信号肽。可以用该 载体来分离那些已经活化完整膜蛋白质表达的细胞(见以下实施例5)。还可以 用该载体引导通常不分泌的蛋白质的分泌。

因此,本发明还涉及鉴定编码细胞完整膜蛋白质或跨膜蛋白质的内源基 因的方法。本发明的这些方法可以包括一或多个步骤。例如,本发明的一个 这种方法可包括(a)将本发明的一个或多个载体导入细胞中;(b)使载体通过非 同源重组整合到细胞基因组中;(c)由整合载体构建体上所含的转录调控序列 上调细胞中的内源基因,使其过表达;(d)筛选过表达内源基因的细胞;以及 (e)鉴定活化基因以便确定它作为编码细胞完整膜蛋白质的基因的同一性。在 相关实施方案中,本发明提供的这类方法还包括在鉴定活化基因之前从细胞 中分离活化基因。

为了鉴定编码完整膜蛋白质的基因,整合到细胞基因组的载体应包含一 个与外显子序列连接在一起的调控序列,所述外显子序列含有起始密码子、 信号序列和表位标记,随后是未配对的剪接供体位点。当内源基因发生整合 和活化时,产生含有来自载体的信号肽和表位标记的嵌合蛋白质,所述载体 与由内源基因的下游外显子编码的蛋白质融合在一起。该嵌合蛋白质,通过 载体编码的信号肽的存在,被引导到分泌途径,在此完成蛋白质的翻译并分 泌蛋白。但是,如果活化内源基因编码完整膜蛋白质,并且该基因的跨膜区 由位于载体整合位点3’处的外显子编码,则该嵌合蛋白质会到达细胞表 面,表位标记将会在细胞表面显示出来。利用已知的细胞分离方法(例如流式 细胞计分选、磁珠细胞分选、免疫吸附或其他本领域技术人员熟悉的方法), 可用该表位标记的抗体从细胞群中分离出显示表位标记且已活化完整膜蛋 白质编码的基因的细胞。然后用这些细胞来研究膜蛋白质的功能。另一方 面,用本领域已知的任何方法来从这些细胞中分离出活化基因,例如通过与 载体编码的外显子具有特异性的DNA探针进行杂交来对筛选由这些细胞制 备到的cDNA文库,或者利用本文描述的基因构建体。

由载体外显子编码的表位标记可以是一个能结合到抗体上的短肽、一个 能结合到底物(例如多组氨酸/二价金属离子载体、麦芽糖结合蛋白/麦芽糖载 体、谷胱苷肽S-转移酶/谷胱苷肽载体)上的短肽或者一个来自其上存在抗体 或配体的完整膜蛋白质的胞外区(缺少跨膜区)。但是,应当理解,可以根据 本发明等效地使用本领域技术人员熟悉的其他类型的表位标记。

非-靶向活化内源基因的载体

如上所述,非-靶向基因活化具有很多重要的用途,包括活化宿主细胞中 的内源基因,籍此提供很有效的方法,用于发现和分离新基因和蛋白质,并 产生大量特定的商业化蛋白质。对于非-靶向基因活化的一些应用而言,需要 产生细胞文库,其中文库的每个成员含有整合至宿主细胞基因组中唯一位置 的活化载体,而且,文库的每个成员活化了不同的内源基因。另外,需要从 文库中除去含有整合载体,但不能活化内源基因的细胞。由于真核基因组经 常含有缺少基因的大区域,因此,活化载体经常会整合至缺少基因的区域。 然而,这些整合载体不能活化内源基因,当活化载体中包括选择标记(由适当 启动子驱动,后面接着聚腺苷酸化信号)时,却仍能赋予宿主细胞以药物抗 性。对发现基因而言甚至更成问题,不管基因是否已被活化,这些细胞中都 产生了含有载体序列的转录物。在基因未被活化的情况下,这些含有载体序 列的转录物含有非-基因的基因组DNA序列。结果,当分离已活化的基因时, 无法分离到得自整合载体的所有RNA(或cDNA)分子(即含有载体序列的转 录物),因为这些转录物中很多不编码内源基因。为了克服这些困难,本发明 提供了高度特异性的载体和便于分离载体-活化的基因的方法。

本发明的这些载体可用于活化内源基因的表达,和分离对应于活化基因 的mRNA和cDNA。一个这种载体降低了细胞数目,所述中载体整合至基因 组中,但不能活化内源基因的表达(或转录)。通过除去这些细胞,可产生较 少的文库成员,通过对它们的筛选可以分离给定数目的活化基因。另外,不 能活化基因表达的含载体的细胞产生了RNA分子,该分子能干扰真正的活 化基因的分离。因此,本文所公开的载体可特别地用于产生适于蛋白质过表 达的细胞和/或分离对应于活化基因的cDNA分子。本发明第二种类型的载体 可用于从活化的内源基因中分离外显子I。结果,可使用这些载体从活化的 RNA转录物中得到全长基因。本文所述的每种功能性载体组分可以分开使 用,或者互相组合使用。

Poly(A)陷阱活化载体

为了便于分离已活化的基因,本发明提供了新的基因活化载体,该载体 能优先通过活化内源基因产生耐药集落。所述载体在本文中被称为“poly(A) 陷阱载体”。图8A-8F中示出了poly(A)陷阱载体的例子。图15A-15B示 出了一个被称为pRIG21b的二元poly(A)陷阱载体的核苷酸序列(SEQ ID NO:19)。这些载体含有转录调控序列(可以是任何转录调控序列,包括但不限 于本文所述的启动子,增强子和阻抑物,优选为启动子或增强子,最优选为 如CMV立即早期基因启动子,SV40 T抗原启动子,四环素诱导型启动子或 β-肌动蛋白启动子等启动子),所述调控序列与缺少poly(A)信号的选择标记 基因可操作相连。由于选择标记基因缺少聚腺苷酸化信号,其信息将不稳 定,不能有效产生标记基因产物。然而,如果活化载体整合至内源基因的上 游,选择标记可利用内源基因的聚腺苷酸化信号,从而产生足够量的选择标 记蛋白质以赋予药物抗性。因此,仅当内源基因被活化时,整合了该活化载 体的细胞一般才形成耐药集落。

poly(A)陷阱活化载体可包括任何选择或筛选标记。另外,选择标记可由 任何启动子表达,只要所述启动子在用于产生整合文库的细胞中可以起作用 即可。因此,选择标记可由病毒或非-病毒启动子表达。任选地,未配对的剪 接供体位点可包括在构建体中,优选包括在选择标记的3’方向,以使编码 选择标记的外显子直接被剪接至内源基因外显子的旁边。当载体上包括下游 转录调控序列和剪接供体位点时,在选择标记附近包括剪接供体位点导致从 信使RNA中除去这些下游元件。

在相关的实施方案中,第二个转录调控序列(可以是任何转录调控序列, 包括但不限于本文所述的启动子,增强子和阻抑物,优选为启动子或增强 子,最优选为启动子)可位于选择标记下游,并与选择标记方向相同。任选未 配对的剪接供体位点可与下游的转录调控序列相连接。在此构型中,poly(A) 陷阱载体能产生含有由载体-编码的下游外显子的信息,所述外显子被剪接至 内源外显子的旁边。如下文所述,根据由载体-编码的外显子的特性,这些嵌 合转录物可被翻译成天然或经修饰的蛋白质。

本文所用术语“由载体-编码的外显子”指载体中位于转录调控序列下 游,转录起始位点和未配对的剪接供体位点之间的区域。由载体-编码的外显 子存在于转录物的5’末端,所述转录物含有全加工信息的内源基因。类似 地,本文所用术语“由载体-编码的内含子”是位于未配对的剪接供体位点下 游的载体区域。当载体上存在线性化位点时,由载体-编码的内含子是位于由 载体-编码的外显子下游,于未配对的剪接供体位点和线性化位点之间的载体 区域。在RNA加工过程中,从活化的基因转录物中除去由载体-编码的内含 子。

剪接受体陷阱(SAT)载体

作为另一种除去不能活化内源基因的细胞的方法,本发明提供了另一类 载体,本文称之为“剪接受体陷阱”(SAT)载体。这些载体被设计成从载体 编码的剪接供体位点剪接至内源剪接受体位点。另外,经设计,载体在未发 生剪接的情况下可产生对宿主细胞有毒的产物(或能选择性针对宿主细胞的 产物)。因此,这些载体便于消除其中由载体-编码的外显子不能剪接至内源 外显子旁边的细胞。

剪接受体陷阱载体可含有正选择标记和负选择标记基因,它们在载体上 的取向相同。本文所用正选择标记是这样一类基因,通过其表达,可产生便 于分离表达该标记的细胞的蛋白质。类似地,本文所用负选择标记是另外一 类基因,通过其表达,可产生便于除去表达该标记的细胞的蛋白质。

在载体构建体中,优选用未配对的剪接供体位点将正选择标记和负选择 标记隔开。然而,在其它实施方案中,正选择标记可与负选择标记基因融合。 在此构型中,未配对的剪接供体位点位于正和负选择标记之间,以保留负选 择标记的阅读框。未配对的剪接供体位点优选位于正和负选择标记的连接 处。然而,未配对的剪接供体位点可位于融合基因的任何位置,致使通过剪 接至内源剪接受体位点,正选择标记以活性形式被表达,负选择标记以无活 性的形式被表达,或根本不表达。在此构型中,正选择标记位于负选择标记 的上游。

本领域技术人员参照本文所包括的描述可以清楚地知道:SAT载体上的 正和负选择标记不必表达成融合蛋白。在一个实施方案中,在正选择标记和 负选择标记之间插入了内部核糖体进入位点(ires)。在此构型中,未配对的剪 接供体位点可位于两个标记之间,或者位于任一标记基因的开放阅读框中, 使得通过剪接,正选择标记以活性形式被表达,负选择标记以无活性的形式 被表达,或根本不表达。在另一个实施方案中,驱动正选择标记和负选择标 记的转录调控序列不同。在此构型中,未配对的剪接供体位点位于负选择标 记的5’非翻译区域,或者位于负选择标记的开放阅读框中的任何位置,使 得通过剪接,负选择标记以无活性的形式产生,或根本不产生。另外,当正 和负标记由不同的转录调控序列驱动时,正选择标记可位于负选择标记的上 游或下游,正选择标记在其3’末端可含有或缺少剪接供体位点。

本文所述的载体可含有任何正选择标记。可用于本发明的正选择标记的 例子包括编码下列物质的基因:新霉素(neo)、次黄嘌呤磷酸核糖转移酶 (HPRT)、嘌呤霉素(pac)、二氢乳清酸酶,谷氨酰胺合成酶(GS)、组氨酸 D(hisD)、氨甲酰磷酸合成酶(CAD)、二氢叶酸还原酶(DHFR)、多抗药性1(mdr 1)、天冬氨酸转氨甲酰酶、黄嘌呤-鸟嘌呤磷酸核糖转移酶(gpt)和腺苷脱氨酶 (ada)。或者,载体可以含有一个筛选标记,代替正选择标记。筛选标记包括 任何能在宿主细胞中产生可识别表型的蛋白质。筛选标记的例子包括细胞表 面表位(如CD2)和酶(如β-半乳糖苷酶)。

本文所述的载体也可以含有,或任选含有任何可被选择去掉的负选择标 记。负选择标记的例子包括次黄嘌呤磷酸核糖转移酶(HPRT),胸苷激酶(TK) 和白喉毒素。负选择标记也可以是筛选标记,例如细胞表面蛋白或酶。通过 例如荧光激活细胞分选(FACS)或磁珠细胞分选可除去表达负选择标记的细 胞。

为了分离已活化内源基因表达的细胞,可将含有整合载体的细胞置于适 当药物选择之下。可同时保留选择正选择标记和去掉负选择标记。在另一实 施方案中,可依次选择。当依次选择时,首先选择保留正选择标记,再去掉 负选择标记。或者,首先去掉负选择标记,再选择保留正选择标记。

通过位于每个基因的翻译起始位点上游的转录调控元件可表达正和负 标记。当使用正/负标记融合基因或ires序列时,单个转录调控元件驱动这两 种标记的表达。可将poly(A)信号置于每个选择标记的3’方向。如果使用正 /负融合基因,可将单个poly(A)信号置于标记的3’方向。或者,可从载体 上去除poly(A)信号,以使基因活化事件具有额外的特异性(见下文的二元 poly(A)/剪接受体陷阱载体)。

二元poly(A)/剪接受体陷阱载体

为了进一步降低缺乏基因活化事件的细胞的数目,本发明还提供了这样 一种载体,其中仅当载体-编码的外显子被剪接至内源基因外显子的旁边,并 获得poly(A)信号时,载体才能赋予宿主细胞存活力。本文将这些载体称为“二 元poly(A)/剪接受体陷阱载体”或“二元poly(A)/SAT载体”。通过获得细胞 存活所需的剪接和聚腺苷酸化,可从活化文库中更有效地去除不能活化内源 基因的细胞。

二元poly(A)/剪接受体陷阱载体含有正选择标记和负选择标记,它们的 构型与SAT载体中的相同;然而,这两个基因都不含功能性的poly(A)信号。 因此,正选择标记只有通过剪接捕获到内源性的poly(A)信号才能以高水平表 达。除了缺少poly(A)信号外,此类载体的所有其它特征和方案都与本文所述 的SAT载体相同。图9A-9F和10A-10F显示出二元poly(A)/SAT载体的 例子。图16A-16B显示出一个被称为pRIG22b的此类二元poly(A)/SAT载 体的核苷酸序列(SEQ ID NO:20)。

活化内源基因蛋白质表达的载体

在很多非-靶向基因活化的例子中,需要由活化的内源基因产生蛋白质。 为了达到此目的,可将第二种转录调控序列(可以是任何转录调控序列,包括 但不限于本文所述的启动子,增强子和阻抑物,优选为启动子或增强子,最 优选为启动子)置于本文所述任何载体的选择标记下游。当使用poly(A)陷阱 载体,SAT载体,或二元poly(A)陷阱/SAT载体时,下游转录调控序列所处 的位置应使其能在与上游选择标记相同的方向上驱动表达。然而,为了用这 种类型的载体活化全长蛋白质的表达,必须将载体整合至内源基因的5’ UTR中以避免在外显子I的上游出现隐蔽的ATG起始密码子。

或者,为了使用非-靶向基因活化来增加蛋白表达的频率,可使载体上的 下游转录调控序列与后面紧接剪接供体位点的外显子序列可操作相连。在优 选实施方案中,载体外显子缺少起始密码子。该载体对活化不编码外显子I 中翻译起始密码子的基因的蛋白质表达特别有用。在另一个优选实施方案 中,载体外显子含有起始密码子。其它密码子可位于翻译起始密码子和剪接 供体位点之间。例如,载体外显子上可编码信号分泌序列的一部分。信号序 列的一部分可以是能与内源基因的部分信号序列互补以产生功能性信号序 列的任何氨基酸序列。该部分序列可编码1至100个氨基酸,可得自现存的 基因,或由新序列组成。因此,该载体可用于由外显子I中编码内源性信号 序列的一部分和在后续外显子中编码其余部分的基因产生和分泌蛋白质。在 另一例用于活化特定类型的内源基因的载体中,载体外显子上可编码功能性 信号序列。该载体使外显子I中编码信号序列的基因能产生和分泌蛋白质。 也可以使用该载体产生一般不能被分泌的蛋白质的分泌形式。

当载体外显子上包括起始密码子时,有利于在每个阅读框中产生载体。 通过改变起始密码子和剪接供体连接位点之间的核苷酸数目即可达到此目 的。总之,优选的载体构型能由内源基因产生蛋白质,而不用管外显子/内含 子结构,翻译起始密码子的位置或阅读框如何。

从活化的内源基因中分离外显子I所用的载体

上文所述的非-靶向基因活化载体可用于活化和分离内源基因,并由内源 基因产生蛋白质。然而,通过整合至内源基因的上游,这些载体中的每一个 都产生了缺少内源基因的外显子I的转录物。由于载体被设计成可产生转录 物,所述转录物含有由载体编码的外显子,该外显子被剪接至载体整合位点 下游的第一个剪接受体位点旁边,又因为真核基因的第一个外显子不含剪接 受体位点,通常,在得自非-靶向基因活化的mRNA分子上无法回收内源基 因的第一个外显子。对于一些基因,例如在第一个外显子中含有编码信息的 基因来说,需要有效回收经活化的内源基因的第一个外显子。

为了回收经活化的内源基因的第一个外显子,可在活化载体上包括转录 调控序列(可以是任何转录调控序列,包括但不限于本文所述的启动子,增强 子和阻抑物,优选为启动子或增强子,最优选为启动子),将其置于第二个转 录调控序列(可以是任何转录调控序列,包括但不限于本文所述的启动子,增 强子和阻抑物,优选为启动子或增强子,最优选为启动子)的下游,所述第二 个转录调控序列驱动由载体编码的外显子的表达。因此,上游转录调控序列 与未配对的剪接供体位点连接,而下游转录调控序列不与剪接供体位点相连 接。这两个转录调控序列的取向使得它们能在相同的方向上驱动表达。图12A -12G显示了这种外显子I回收载体的例子。这种类型的载体的整合会产生 至少两种不同类型的RNA转录物(图13)。第一种转录物得自上游转录调控 序列,并含有剪接至内源基因外显子II旁边的载体外显子。第二种转录物得 自下游转录调控序列,并且,沿5’至3’方向含有位于载体和基因转录起 始位点之间的区域,外显子I,外显子II和所有下游外显子。使用本文所述 的方法,可回收和分析这两种转录物,从而鉴定出基因中通过非-靶向基因活 化分离得到的外显子I。

位于活化载体上的外显子可编码选择标记,蛋白质,蛋白质的一部分, 分泌信号序列,信号序列的一部分,表位,或不编码任何物质。当蛋白质由 外显子编码时,可将poly(A)信号包括在由载体-编码的基因的下游。或者, 可省略poly(A)信号。在另一个实施方案中,正和负选择标记可与上游转录调 控序列可操作相连。在此实施方案中,未配对剪接供体位点相对于选择标记 的位置与上文对SAT载体和二元poly(A)/SAT载体所述的相同。

单外显子和多外显子基因捕获所用的基因活化载体

如上所述,在一个实施方案中,本发明的poly(A)陷阱载体可含有与选 择标记可操作相连的启动子,所述选择标记之后紧接着未配对的剪接供体位 点。当所述载体整合至基因中,或整合于基因附近时,会产生含有选择标记 的转录物,所述选择标记被剪接至内源基因上。由于内源基因编码poly(A) 信号,所得mRNA被聚腺苷酸化,从而使转录物的翻译水平足以使含有整合 载体的细胞具有药物抗性。

尽管上文所述的载体能“捕获”内源基因,但在该载体的几种潜在应用 中,不能使用位于选择标记下游的剪接供体位点,而且,在一些情况下,所 述剪接供体位点可干扰这些应用。首先,不能使用这些载体选择性地捕获单 外显子基因,因为这些基因不含剪接受体位点。第二,由于药物抗性仅依赖 于poly(A)信号上游的载体整合,因此这些载体经常“捕获”隐蔽基因。不幸 的是,基因组中存在隐蔽的poly(A)信号,导致形成耐药细胞,并产生含有选 择标记的非-基因转录物。这些细胞和转录物可干扰使用这些载体来寻找基因 的应用。第三,未经过本文所述(见上文)的那些新修饰,这些载体不能有效 地由活化的内源基因产生蛋白质。另外,甚至当在选择标记和剪接供体位点 之间包括内部核糖体进入位点(ires)时,内源基因的蛋白质表达水平也很低, 这是因为相对于从ires开始翻译而言,从转录物5’末端的第一个起始密码 子开始翻译通常更加有效。因此,需要能更加特异性地捕获内源基因,包括 单外显子基因,并能由活化的内源基因有效表达蛋白质的载体。

因此,在其它实施方案中,本发明提供了这种载体。在一个这种实施方 案中,载体可含有与一个或多个(即1,2,3,4,5或多个)选择标记可操作 相连的启动子,其中选择标记之后未接剪接供体位点或poly(A)信号(见图 17A-17G)。一般说来,由于选择标记不能被聚腺苷酸化,通过整合至宿主 细胞基因组,该载体不能产生足够量的选择标记。然而,如果载体整合至包 括单外显子基因在内的基因附近,或整合至所述基因中,选择标记将获得来 自内源基因的poly(A)信号,从而稳定化标记转录物,并赋予细胞药物抗性表 型。除了选择基因内部或附近的载体整合外,也可以按照本申请中题为“从 活化的内源基因中分离外显子I所用的载体”一节中所述,使用根据本发明 此方面的载体回收活化基因的外显子I。

在优选实施方案中,载体可在第一个选择标记上游含有第二个选择标记 (见图18)。上游选择标记优选与转录调控序列,最优选与启动子可操作相连。 任选地,未配对的剪接供体位点可位于上游选择标记的转录起始位点和翻译 起始位点之间。或者,剪接供体位点可位于上游选择标记开放阅读框中的任 何位置,使得当载体整合至宿主细胞基因组之后,通过从由载体编码的剪接 供体位点剪接至内源外显子,以无活性的形式产生,或根本不产生上游选择 标记。通过选择产生活性形式的下游正选择标记的细胞,可以分离出含有整 合至基因中,或整合至基因附近的载体的细胞。另外,通过对产生无活性形 式的上游选择标记的细胞进行选择,可除去其中载体转录物已被剪接至多- 外显子内源基因的外显子旁边的细胞。换句话说,可使用这些载体分离细 胞,所述细胞含有整合至单外显子基因或多外显子基因最靠3’端的外显子 的载体,因为在这些情况下,由载体编码的剪接供体位点和内源性poly(A) 信号之间缺少剪接受体位点。因此,大多数含有活化的多-外显子基因的细胞 不会在选择中存活,结果,含有活化的单外显子基因的细胞将在文库中大量 富集。

在另一个优选实施方案中,根据本发明此方面的载体可在第一个选择标 记的上游含有一个或多个(即1,2,3,4,5或多个,优选为1个)负选择标 记(见图19A和19B)。负选择标记优选与启动子可操作相连。任选地,未配 对的剪接供体位点可位于负选择标记的转录起始位点和翻译起始位点之 间。或者,剪接供体位点可位于负选择标记开放阅读框中的任何位置,使得 当载体整合至宿主细胞基因组之后,通过从由载体编码的剪接供体位点剪接 至内源外显子,以无活性的形式产生,或根本不产生负选择标记。通过选择 产生活性形式的正选择标记的细胞,并对产生活性形式的负选择标记的细胞 进行选择,可使用这些载体鉴定出含有整合至内源基因中,或整合至内源基 困上游的载体的细胞。由于(1)剪接至内源外显子旁边和(2)获得poly(A)信号 都是细胞存活所必需的,因此,在文库内,含有隐蔽的基因捕获事件的细胞 有所减少。其原因是:载体整合至隐蔽的剪接受体位点和隐蔽的poly(A)信号 这两者旁边的可能性实质上低于载体整合至单个隐蔽位点旁边的可能性。因 此,与以前的载体相比,这些载体捕获基因的特异性程度较高。

本领域技术人员参照本文所述的教导可以知道:可使用含有正和负选择 标记的载体由活化的内源基因产生蛋白质。一个能介导蛋白质产生的载体构 型由位于负选择标记5’UTR中的剪接供体位点组成。通过剪接,产生了嵌 合转录物,其含有与内源基因的第二个外显子相连接的负选择标记 5’UTR。该载体能活化基因的蛋白质产生,所述基因编码第二个或随后的 外显子中的翻译起始密码子。类似地,可将剪接供体位点置于负选择标记开 放阅读框中,放置在除非发生剪接,否则不会干扰标记功能的位置。也可以 使用类似的载体,所述载体含有剪接供体位点,所述位点所处的阅读框与翻 译起始密码子所处的阅读框不同。通过剪接至内源基因旁边,这些载体可产 生嵌合转录物,其含有与活化内源基因的外显子II融合的得自负选择标记的 起始密码子。因此,这些载体能活化编码外显子I中的翻译起始密码子的基 因的蛋白质表达。下文描述了能由活化的内源基因有效产生蛋白质的其它正 /负选择载体设计。

本发明的任何载体可在下游选择标记的3’方向含有内部核糖体进入位 点(ires)。Ires使得通过载体整合至内源基因即可翻译内源基因。任选地,可 在选择标记和ires序列之间包括翻译起始密码子。当存在起始密码子时,外 显子上可存在其它密码子。起始密码子(和如果存在其它密码子的话)可存在 于相对于剪接供体位点而言的任何,和总共所有的阅读框内。另外,翻译起 始密码子下游的密码子如果存在的话,可编码例如信号分泌序列,部分信号 序列,蛋白质(包括全长蛋白质,蛋白质的一部分,蛋白质基元,表位标记等), 或间隔区域。

在其它优选实施方案中,本文所述的任何载体可在选择标记上游含有与 外显子区域可操作相连的第二个转录调控序列(最优选为启动子),后面紧接 未配对的剪接供体位点。该上游外显子对于由活化的内源基因表达蛋白质特 别有用。外显子可缺少翻译起始密码子。或者,外显子可含有翻译起始密码 子。当存在起始密码子时,外显子上可存在其它密码子。起始密码子(和如果 存在其它密码子的话)可存在于相对于剪接供体位点而言的任何,和总共所有 的阅读框内。另外,翻译起始密码子下游的密码子如果存在的话,可编码例 如信号分泌序列,部分信号序列,蛋白质(包括全长蛋白质,蛋白质的一部分, 蛋白质基元,表位标记等),或间隔区域。

用于检测蛋白质-蛋白质相互作用的活化载体

检测蛋白质-蛋白质相互作用所用的遗传方法已被描述过(例见美国专利 号5,283,173;5,468,614和5,667,973,它们的内容皆全部列入本文作为参考)。 此类方法依赖于克隆编码DNA结合结构域的基因片断附近和框内的第一个 cDNA分子,和克隆编码转录活化结构域的基因片断附近和框内的第二个 cDNA分子。由位于嵌合基因上游的启动子区域表达每个嵌合基因。为了检 测表达,将这两个嵌合基因转染至报道细胞中。如果第一个嵌合蛋白质与第 二个嵌合蛋白质(经由与DNA结合和转录活化结构域融合的克隆cDNA所编 码的蛋白质)发生相互作用,DNA结合结构域和转录活化结构域会在单个蛋 白质复合物内相互连接。结果,蛋白质-蛋白质相互作用复合物可结合报道基 因的调控区域并活化其表达。

已知方法的局限性体现在:它仅能检测已被克隆为cDNA的基因之间的 蛋白质-蛋白质相互作用。如本文所述,很多基因以很低的水平,在罕见的细 胞类型中,或在短暂的发育阶段被表达;因此,这些基因一般会从cDNA文 库中丢失。另外,很多基因太大,以致于不能作为全长克隆被有效分离,从 而难以使用以前的这些方法。

本发明能活化内源基因或转染的基因组DNA的蛋白质表达。与以前的 方法不同的是,事实上不论其正常表达模式如何,任何基因都可被有效表 达。另外,由于本发明也能修饰由内源基因(或转染的基因组DNA)表达的蛋 白质,因此可以产生嵌合蛋白质以用于蛋白质-蛋白质相互作用分析。

为了通过本发明检测蛋白质-蛋白质相互作用,使用了两种载体。第一种 载体一般被称为BD/SD(结合结构域/剪接供体),其含有与编码DNA结合结 构域的多核苷酸可操作相连的启动子和未配对的剪接供体位点。第二种载体 一般被称为AD/SD(活化结构域/剪接供体),其含有与编码转录活化结构域的 多核苷酸可操作相连的启动子和未配对的剪接供体位点。为了给具有不同阅 读框的基因提供空间,可在相对于未配对的剪接供体位点而言的3个可能的 阅读框中的每一个中编码结合结构域和活化结构域。另外,与本文所述的其 它载体一样,BD/SD和AD/SD载体可具有其它功能性元件,包括选择标记 和可扩增标记。载体也可含有选择标记,其在构型中的取向允许选择出其中 的载体已使基因活化的细胞。多-启动子/活化外显子载体也是有用的。图25 中显示出几个BD/SD和AD/SD载体的例子。图26中显示了使用这些载体 检测蛋白质-蛋白质相互作用的例子。

BD/SD载体的DNA结合结构域可编码任何能结合特定核苷酸序列的蛋 白质结构域。当使用转录活化蛋白质提供DNA结合结构域时,可从BD/SD 载体中省略转录活化结构域。编码具有DNA结合结构域的蛋白质的基因例 子包括但不限于:酵母GAL4基因,酵母GCN4基因和酵母ADR1基因。也 可使用原核和真核来源的其它基因提供DNA结合结构域。

AD/SD载体的转录活化结构域当位于报道基因启动子区域附近时,可编 码能增强报道基因转录的蛋白质结构域。当使用转录活化蛋白质提供转录活 化结构域时,可从AD/SD载体上省略DNA结合结构域。编码具有转录活化 结构域的蛋白质的基因例子包括但不限于:酵母GAL4基因,酵母GCN4基 因和酵母ADR1基因。也可使用原核和真核来源的其它基因提供转录活化结 构域。

在本发明中,可使用上文所述的BD/SD和AD/SD载体检测蛋白质-蛋白 质相互作用,以活化位于基因组DNA序列中的基因的表达。

在一个实施方案中,BD/SD载体随机整合至报道细胞系的基因组中。与 本文所述的其它载体相同,BD/SD载体能活化位于载体整合位点下游的基因 的蛋白质表达。由于BD/SD载体上的活化外显子编码DNA结合结构域,活 化的内源蛋白质可作为融合蛋白质的形式被产生,所述融合蛋白质的N末端 含有DNA结合结构域。因此,通过将BD/SD载体整合至宿主细胞基因组中, 可产生融合蛋白质文库,其中每个蛋白质的N末端都含有DNA结合结构域。

据认为,AD/SD载体可整合至报道细胞系的基因组中以产生细胞文库, 其中文库的每个成员作为与转录活化结构域融合的不同内源基因被表达。

一旦产生,可用表达与转录活化结构域融合的特定基因(下文称之为基因 X)的载体转染BD/SD文库。事实上,这样可以检测基因组中编码的任何基 因与基因X的相互作用。类似地,可用表达与DNA结合结构域融合的特定 基因(如基因X)的载体转染AD/SD文库。事实上,这样可以检测基因组中编 码的任何基因与基因X的相互作用。据认为,在构建BD/SD或AD/SD文库 之前,特定基因可在宿主细胞中稳定表达。

在另一个实施方案中,将基因组DNA分别克隆至BD/SD和/或AD/SD 载体中DNA结合结构域和活化结构域的下游。如果存在基因,而且基因在 基因组DNA中的取向正确的话,BD/SD载体(或AD/SD载体)能将基因表达 为融合蛋白,所述融合蛋白可用于检测蛋白质-蛋白质相互作用。与原位整合 BD/SD(或AD/SD)载体相同,可检测任何基因,而不用管该基因以前是否作 为cDNA分子被分离过。

在另一个实施方案中,在第一个文库的细胞中产生了第二个文库。例 如,可将AD/SD载体整合至含有BD/SD文库的细胞中。反之,可将BD/SD 载体整合至含有AD/SD文库的细胞中。这样可以使所有蛋白质被表达成针 对所有活化结构域融合蛋白被检测的结合结构域融合蛋白。由于本发明能在 真核生物体中表达基本上所有的蛋白质(表达为与结合和活化结构域的融合 蛋白),该方法第一次能在单个文库中检测所有的蛋白质-蛋白质相互作用组 合。为了检查生物体中所有的蛋白质-蛋白质相互作用,文库中的文库必须基 本上是全面的。例如,为了检测含有100,000个基因的生物体中约50%的蛋 白质-蛋白质相互作用,第一个文库必须含有至少100,000个各自表达活化基 因的细胞。然后,在第一个文库的每个克隆中,可使用第二种载体产生具有 至少100,000个克隆的文库,所述克隆各自含有活化基因。因此,总文库含 有100,000个克隆x100,000个克隆,或总共1010个克隆。这是假定所有基因 以同等的频率被活化,每个基因活化事件导致在活化的内源基因框内产生融 合蛋白。为了产生具有大于50%蛋白质-蛋白质相互作用覆盖率的文库,和/ 或为了确保以较低频率被活化的蛋白质能表现出来,可产生较大的文库。

据认为可使用几种方法产生文库对文库的筛选。首先,通过将BD/SD 和AD/SD载体整合至相同报道细胞的基因组中,同时或依次产生两种文库。 第二,通过将BD/SD载体整合至报道细胞基因组中以产生第一个文库,通过 转染含有克隆的基因组DNA的AD/SD载体以产生第二个文库。据认为,在 此方法中,可首先产生AD/SD文库,接着导入含有克隆的基因组DNA的 BD/SD载体。据认为,也可以通过转染含有克隆的基因组DNA的BD/SD载 体(或AD/SD载体),接着将第二种载体整合至报道细胞的基因组中,籍此产 生第一个文库。第三,通过用BD/SD和AD/SD载体转染细胞,同时或依次 产生这两个文库,其中每个载体含有克隆的基因组DNA片断。第四,据认 为,当在BD/SD载体或AD/SD载体中使用克隆的基因组片断时,可在其它 载体中产生cDNA文库,并将此文库导入细胞。这样就可以检测cDNA文库 中存在的所有基因与基因组中的所有其它基因之间的相互作用。

由于文库/文库筛选涉及产生大的细胞文库,因此,重要的是使基因活化 的频率和文库成员中框内融合蛋白的产生最大化。至少有两种方法可以达到 此目的。第一,BD/SD和AD/SD载体可含有选择标记,其构型可“捕获” 基因。图8,9,10,17,19,21和25中显示了选择陷阱载体的例子。这些载体 选择其中活化载体已转录活化了基因的细胞。第二,可在BD/SD和AD/SD 载体中包括多启动子/活化外显子单位。每个启动子/活化外显子单位在相对 于未配对的剪接供体位点而言的不同阅读框内编码结合结构域(或活化结构 域)。图23中显示了多-启动子/外显子载体的例子。这种类型的载体确保任何 在转录水平上被活化的基因能作为框内融合蛋白由载体上的一个启动子/活 化外显子单位产生。第三,可使用有效的转染方法将载体导入报道细胞。在 此方面,通过逆转录病毒整合插入BD/SD和AD/SD载体是有利的。

可用于本发明的报道细胞包括能适当剪接由BD/SD和AD/SD载体产生 的转录物的任何细胞。报道细胞含有在由BD/SD和AD/SD载体表达的蛋白 质之间存在蛋白质-蛋白质相互作用时能以较高水平表达的报道基因。报道基 因可以是选择标记,例如本文所述的任何标记。或者,报道基因可以是筛选 标记。本文描述了有用的选择标记和筛选标记的例子。

在报道细胞中,基本启动子与报道基因可操作相连。为了增加存在蛋白 质-蛋白质相互作用时的报道基因表达量,可以使DNA结合位点位于基本启 动子内,或其附近,以使DNA结合位点能被BD/SD载体的DNA结合结构 域区域所编码的蛋白质识别。当缺乏蛋白质-蛋白质相互作用时,由BD/SD 产生的DNA结合结构域融合蛋白缺少转录活化结构域,因此,不能活化由 报道基因基本启动子驱动的转录。然而,如果由BD/SD产生的DNA结合结 构域融合蛋白能与由AD/SD载体产生的活化结构域融合蛋白相互作用,蛋 白质复合物可活化报道基因的表达。使用针对筛选标记的分析试验,或使用 针对选择标记的药物选择,可以检测增加的报道基因表达。

据认为可以将其它报道系统与本发明一起使用,用于检测蛋白质-蛋白质 相互作用。特别地,可以将任何蛋白质与本发明一起使用,所述蛋白质含有 两个分开的结构域,每个结构域需要与另一个紧密相邻以产生生物化学或结 构活性。

多-启动子/活化外显子载体

在目的为活化未知基因的蛋白质表达的非靶向基因活化应用中,一般必 须使用载体的集合。因此,在另一个实施方案中,本发明提供了含有一个或 多个启动子/活化外显子单位的载体(见图20A-20E)。

为了给真核细胞基因组中存在的多个基因结构提供空间,根据本发明此 方面的载体优选含有转录调控序列(例如启动子),所述序列与具有不同结构 的活化外显子可操作相连。总的说来,这些活化外显子能活化基本上所有内 源基因的蛋白质表达。例如,为了活化编码外显子II(或外显子II下游的外显 子)中的翻译起始密码子的基因的蛋白质表达,一个载体可含有转录调控序列 (例如启动子),所述序列与缺少翻译起始密码子的活化外显子可操作相连。 为了活化编码外显子I中的翻译起始密码子的所有类型的基因的蛋白质表 达,必须使用3个独立的载体,每个载体含有与不同活化外显子可操作相连 的转录调控序列(例如启动子)。每个活化外显子编码不同阅读框中的起始密 码子。其它活化外显子构型也是有用的。例如,为了活化编码外显子I中的 部分信号分泌序列的基因的蛋白质表达和分泌,必须使用3个独立的载体, 每个载体含有与不同活化外显子可操作相连的转录调控序列(例如启动子)。 每个活化外显子编码不同阅读框中的部分信号序列。为了活化编码外显子I 中的完整信号序列的基因的蛋白质表达和分泌,必须使用3个载体,每个载 体含有与不同活化外显子可操作相连的转录调控序列(例如启动子)。每个活 化外显子含有不同阅读框中的完整信号分泌序列。除了活化编码分泌蛋白质 的基因的表达外,启动子/编码完整信号序列的活化外显子也能活化一般不能 被分泌的蛋白质的表达和分泌。这样就有利于纯化一般位于细胞内的蛋白 质。

根据本发明此方面的载体的活化外显子中也可包括其它有用的编码序 列,包括但不限于编码蛋白质(包括全长蛋白质,蛋白质部分,蛋白质基元, 和/或表位标记)的序列。如本文所述,根据本发明此方面的载体可以各自或 集中整合至宿主细胞基因组中以产生细胞文库。文库的每个成员将潜在地过 表达不同的内源蛋白质。因此,这些载体的集合使得活化真核宿主细胞中的 所有或基本上所有内源基因成为可能。

如上文所述,当将载体集合整合至宿主细胞时,可以活化基本上任何基 因的蛋白质表达。不幸的是,为了由所有内源基因产生蛋白质,必须产生大 量文库成员。这部分是由于宿主细胞编码的大量基因所致。另外,使用此方 法,很多细胞将含有整合至内源基因中或内源基因附近的载体;然而,整合 的载体将含有活化外显子,所述外显子具有的结构与活化内源基因的蛋白质 表达不相容。例如,载体外显子可编码阅读框1(相对于剪接接头而言)中的起 始密码子,而由整合载体下游的第一个外显子编码的蛋白质可以位于阅读框 2(相对于剪接接头而言)中。因此,很多文库成员将含有整合载体,所述载体 已活化内源基因的转录,但不能产生由内源基因编码的蛋白质。

为了减少在载体整合至内源基因中,或内源基因附近之后不能活化蛋白 质表达的细胞数目,可使用含有多个启动子/活化外显子的载体。在此载体 上,每个启动子/活化外显子单位能活化具有不同结构的内源基因的蛋白质表 达。由于含有多个活化外显子的单个载体能产生各含有不同活化外显子的多 个转录物,整合至基因中或基因附近的单个载体能活化蛋白质表达,而不用 管内源基因的结构如何(见图21)。

多-启动子/活化外显子载体可含有两个或多个启动子/活化外显子。每个 启动子/活化外显子单位后面紧接着未配对的剪接供体位点。在一个这种实施 方案中,载体上包括两个启动子/活化外显子,其中每个启动子/活化外显子 能活化不同类型内源基因的蛋白质表达。在优选实施方案中,载体可含有3 个启动子/活化外显子,其中每个外显子编码不同阅读框中的翻译起始密码 子。在另一个优选实施方案中,载体可含有3个启动子/活化外显子,其中每 个外显子编码不同阅读框中的部分信号分泌序列。在另一个优选实施方案 中,载体可含有3个启动子/活化外显子,其中每个外显子编码不同阅读框中 的完整信号分泌序列。其它实施方案包括含有第四个启动子/活化外显子的上 述每个载体,其中第四个活化外显子不编码翻译起始密码子。

载体上可包括任何数目(例如1个或多个,2个或多个,3个或多个,4 个或多个,5个或多个等)的启动子/活化外显子单位。当单个载体上存在多个 启动子/活化外显子时,优选它们彼此的取向相同(即启动子在相同方向上驱 动表达)。

驱动不同活化外显子的转录的启动子可以彼此相同,或者,一个或多个 启动子可以不同。启动子可以是病毒的,细胞的,或合成的。启动子可以是 组成型或诱导型的启动子。也可以使用本领域技术人员熟知的或本文所述的 其它类型的启动子和调控序列来制备根据本发明此方面的载体。

任何含有多个启动子/活化外显子单位的载体可任选包括一个或多个选 择标记和/或可扩增标记。选择和/或可扩增标记可含有poly(A)信号。或者, 标记可缺少poly(A)信号。选择标记可以是正或负选择标记。选择标记可在标 记的上游,内部或下游含有未配对的剪接供体位点。或者,选择标记可缺少 未配对的剪接供体位点。当其存在时,选择标记和/或可扩增标记可位于启动 子/活化外显子单位的上游,内部或下游。相对于启动子/活化外显子单位而 言,选择和/或可扩增标记可以任何取向位于载体上。当选择标记的目的是捕 获内源基因时,优选选择标记的取向与启动子/活化外显子的相同。

可扩增标记

本文所述的任何载体也任选含有一个或多个(例如2,3,4,5或更多个) 可扩增标记。可扩增标记的例子包括上文详细描述的那些。优选可扩增标记 位于正/负选择标记的上游。当使用聚腺苷酸化陷阱载体时,较为有利的是从 可扩增标记中除去聚腺苷酸化信号,以消除在整合之前捕获得自载体串联体 化的由载体-编码的poly(A)信号的可能性。

当其存在时,可扩增标记可位于活化转录调控序列(即负责介导从载体至 整个内源基因的转录的启动子)上游。可扩增标记可以任何方向存在于载体上 (即开放阅读框可存在于任一条DNA链上)。

也应明白,可扩增标记也可以是与正选择标记相同的基因。可用作正选 择标记和可扩增标记的基因包括例如:二氢叶酸还原酶、腺苷脱氨酶(ada)、 二氢乳清酸酶、谷氨酰胺合成酶(GS)和氨甲酰磷酸合成酶(CAD)。

在一些实施方案中和对某些应用而言,需要在载体上放置多个可扩增标 记。使用一个以上可扩增标记可以对每个可扩增标记进行二元选择或者依次 选择。这样有利于分离已扩增了载体和侧翼基因组基因座,包括所需基因的 细胞。

启动子

应懂得可在这些活化载体上使用任何启动子和调节元件,以驱动选择标 记,可扩增标记(如果存在的话)和/或内源基因的表达。在其它优选实施方案 中,驱动内源基因表达的启动子是强启动子。CMV立即早期基因启动子, SV40T抗原启动子和β-肌动蛋白启动子是此类启动子的例子。在另一个优选 实施方案中,使用诱导型启动子驱动内源基因的表达。这样可以使内源蛋白 质以更加能被控制的方式表达。四环素诱导型启动子,热激启动子,ectdysone 启动子和金属硫蛋白启动子是此类启动子的例子。在另一个实施方案中,使 用组织特异性启动子驱动内源基因的表达。组织特异性启动子的例子包括但 不限于免疫球蛋白启动子,酪蛋白启动子和生长激素启动子。

限制性位点

本发明的载体可含有一个或多个限制性位点,所述位点位于载体中未配 对的剪接供体位点下游。在转染之前,可使用这些限制性位点线性化质粒载 体。在线性构型中,活化载体在相对于转录链的5’至3’方向含有启动子, 剪接供体位点和线性化位点。

载体内含子中也可包括限制性位点以便于除去含有载体内含子的cDNA 分子。在此实施方案中,载体在相对于转录链的5’至3’方向含有启动子, 剪接供体位点,限制性位点和线性化位点。通过将限制性位点包括在未配对 的剪接供体位点和线性化位点之间,可通过用适当的限制性酶消化cDNA, 除去未剪接的转录物。得自基因活化的cDNA分子已除去了含有限制性位点 的载体内含子,因此,不会被消化。这样可以在扩增/克隆的过程中优先富集 基因被活化的转录物,大大有利于鉴定和分析内源基因。

载体外显子中也可包括限制性位点以便于克隆活化的基因。基因活化之 后,从细胞中回收mRNA并合成为cDNA。通过用在载体外显子中切割的限 制性酶消化cDNA,基因被活化的cDNA分子将在5’末端含有适当突出端, 用于随后克隆至适当的载体中。这样便于分离基因被活化的cDNA分子。

在一个实施方案中,位于载体外显子中的限制性位点不同于位于载体内 含子中的限制性位点。这样有利于除去含有载体内含子的cDNA分子,因为 含有载体内含子的转录物的经消化的cDNA片段可被设计成具有与克隆载体 (见下文)不相容的突出端。或者,被相同酶识别的简并限制性位点可位于载 体外显子和内含子中。裂解这些位点的酶能裂解多个位点,在识别序列中具 有奇数碱基的位点,具有间断的回文,非回文序列的位点,或含有一个或多 个简并碱基的位点。换句话说,如果酶在载体外显子中产生的突出端不同于 在载体内含子中产生的突出端,可以使用被相同限制性内切核酸酶识别的限 制性位点。由于产生了不同的突出端,可使用含有与载体外显子突出端相 容,与载体内含子突出端不相容的位点的克隆载体,优先克隆含有载体外显 子而缺少载体内含子的cDNA分子。有用的简并限制性位点的例子包括能被 SfiI,Acci,AflIII,SapI,PleI,Tsp45I,ScrFI,TseI,PpuMI,RsrII和SgrAI识别的 DNA序列。

位于载体内含子和/或外显子中的限制性位点可以是罕见的限制性位点 (例如8 bp限制性位点)或极罕见的位点(例如由内含子编码的核酸酶识别的 位点)。具有8bp限制性位点的限制性酶的例子包括NotI,SfiI,PacI,AscI,FseI, PmeI,SgfI,SrfI,SbfI,Sse8387I和SwaI。由内含子编码的限制性酶的例子包 括I-PpoI,I-SceI,I-CeuI,PI-PspI和PI-TliI。或者,可将小于8bp的限制性位 点置于载体上。例如,可使用由7bp,6bp,5bp或4bp组成的限制性位点。 通常,使用较小的限制性识别位点会导致克隆小于全长的基因。在一些情况 下,例如产生杂交探针时,分离较小的cDNA克隆较为有利。

双向活化载体

本文所述的活化载体也可以是双向的。当载体上存在单个活化转录调控 序列时,仅当载体整合至适当位置(例如基因上游)并且整合的方向正确时才 会发生基因活化。即为了活化内源基因,活化构建体上的启动子必须面向内 源基因以转录编码链。该朝向需求的结果是:基因座内的整合事件仅有一半 可导致内源基因的转录活化。另一半整合事件导致载体转录远离所需基因。 因此,为了使基因活化的频率增加2倍,本发明提供了双向载体,该载体可 用于活化内源基因,而不用管载体整合至宿主细胞基因组中的方向如何。

根据本发明此方面的双向载体优选含有两个转录调控序列(可以是任何 转录调控序列,包括但不限于本文所述的启动子,增强子和阻抑物,优选为 启动子或增强子,最优选为启动子),两个剪接供体位点,和一个线性化位点。 当剪接供体位点有用时,每个转录调控序列与分开的剪接供体位点可操作相 连,转录调控序列/剪接供体对彼此的方向可以相反(即第一个转录调控序列 整合至宿主细胞基因组的方向可以与第二个转录调控序列整合至宿主细胞 基因组中的方向相反)。两个方向相反的转录调控序列/剪接供体位点可以被 线性化位点隔开。线性化位点的功能是在转录调控序列/剪接供体位点之间 (即在适于活化内源基因的位置)产生游离的DNA末端。图11A-11C显示了 本发明双向载体的例子。

两个方向相反的转录调控序列可以是相同的转录调控序列或不同的转 录调控序列。任选在任一个或两个由载体编码的外显子上包括翻译起始密码 子(如ATG)和一个或多个其它的密码子。当存在翻译起始密码子时,任一个 或两个载体外显子可编码蛋白质,蛋白质的一部分,信号分泌序列,部分信 号分泌序列,蛋白质基元或表位标记。或者,任一个或两个载体外显子可缺 少翻译起始密码子。

根据本发明此方面的双向载体可任选包括一个或多个选择标记和一个 或多个可扩增标记,包括本文详细描述过的那些选择标记和可扩增标记。如 上文所述,双向载体也可具有poly(A)陷阱载体,剪接受体陷阱载体,或二元 poly(A)/剪接受体陷阱载体的构型。也可将上文中针对非双向载体描述的其它 载体构型掺入双向载体。

用非-靶向活化载体共-转染基因组DNA

据认为,在转染至真核宿主细胞之前,本文所述的任何载体可以整合至 基因组DNA中,或要不然与之结合。这样实际上就可以高水平地表达基因 组中的任何基因,而不用管基因的正常表达特征如何。因此,可使用本发明 的载体活化由分离的基因组DNA片段编码的基因的表达。为了达到此目的, 可将载体整合至含有至少一个基因,或基因的一部分的基因组DNA中,或 要不然与之结合。一般,活化载体必须位于基因内或其上游以活化基因表 达。一旦插入(或连接),可通过将载体/基因组DNA导入适当的真核宿主细 胞来表达下游基因(表达成转录物或蛋白质)。导入宿主细胞之后,载体编码 的启动子驱动由分离的DNA编码的基因的表达,剪接之后,产生成熟的 mRNA分子。使用适当的活化载体,该方法可以由经转染的基因组DNA所 编码的任何基因表达蛋白质。另外,使用本文所述的方法,可产生和分离对 应于由经转染的基因组DNA所编码的基因的cDNA分子。

为了获得活化基因的稳定表达,可将经转染的活化载体/基因组DNA整 合至宿主细胞基因组。或者,将经转染的活化载体/基因组DNA维持为稳定 的附加体(例如使用病毒复制起点和/或核保留功能-见下文)。在另一个实施 方案中,可由例如质粒瞬时表达活化基因。

本文所用术语“基因组DNA”指的是未经剪接的细胞遗传物质。剪接 指的是在转录之后从基因中除去内含子的过程。因此,与mRNA和cDNA 相反,基因组DNA含有未剪接形式的外显子和内含子。由于大多数真核基 因含有外显子和内含子,而且本发明的很多载体被设计成能通过剪接至第一 个下游外显子旁边,并除去间插的内含子来活化基因组DNA中编码的基因, 因此,在本发明中,得自真核细胞的基因组DNA特别有用。

可使用本领域已知的任何方法分离可用于本发明的基因组DNA。分离 高分子量基因组DNA和超-高分子量基因组DNA(完整的,并被包装于琼脂 糖塞中)的多种方法已被描述(Sambrook等,分子克隆,冷泉港实验室出版社, (1989))。另外,分离多种大小的基因组DNA的商用试剂盒也是可以获得的 (Gibco/BRL,Stratagene,Clontech等)。

本发明中使用的基因组DNA可包含生物体的整个基因组。或者,基因 组DNA可仅包括生物体的整个基因组的一部分。例如,基因组DNA可含有 多个染色体,单个染色体,染色体的一部分,基因座,单个基因或基因的一 部分。

在导入宿主细胞之前,用于本发明的基因组DNA可以基本上是完整的 (即未片段化的)。或者,在导入宿主细胞之前,基因组DNA可以是片段化的。 通过例如机械剪切,核酸酶处理,化学处理,照射,或本领域已知的其它方 法可以实现此目的。当基因组DNA被片段化时,可调节片段化条件以产生 任何所需大小的DNA片段。一般说来,DNA片段应足够大以含有至少一个 基因,或基因的一部分(例如至少一个外显子)。无需预先进行克隆,可将基 因组DNA直接导入适当的真核宿主细胞。或者,可在转染之前将基因组 DNA(或基因组DNA片段)克隆至载体中。有用的载体包括但不限于高和中 等拷贝数的质粒(例如pUC,pBluescript,pACYC184,pBR322等),粘粒,细菌 人工染色体(BAC),酵母人工染色体(YAC),P1人工染色体(PAC)和噬菌体(例 如λ,M13等)。也可以使用本领域已知的其它克隆载体。当已经将基因组 DNA克隆至克隆载体时,特定的克隆DNA片段可被分离并用于本发明。例 如,可通过杂交来筛选YAC,BAC,PAC或粘粒文库以鉴定出作图于特定 染色体区域的克隆。任选地,一旦分离出这些克隆,可将它们安排好以产生 贯穿所需染色体区域的重叠群。为了快速分离该重叠群中存在的基因的 cDNA拷贝,这些基因组克隆可以分开或与活化载体一起被转染至宿主细 胞。然后可分离和分析含有载体编码的外显子,而缺少载体编码的内含子的 cDNA。因此,由于重叠群中存在的所有基因都可作为cDNA克隆被快速分 离,该方法大大增强了定位克隆方法的速度。

本文所述的任何活化载体,包括本领域技术人员熟知的衍生物可以与基 因组DNA一起共转染,因此,可用于本发明。形式最简单的载体可含有与 外显子可操作相连的启动子,所述外显子后面紧接着未配对的剪接供体位 点。其它有用的载体的例子包括但不限于poly(A)陷阱载体(例如图8,9, 11C,12F和17中所述的载体),二元poly(A)/剪接受体陷阱载体(例如图9, 10,12G,19和21中所述的载体),双向载体(例如图11中所述的载体),单 个外显子陷阱载体(例如图19中所述的载体),多-启动子/活化外显子载体(例 如图23中所述的载体),用于分离对应于活化基因的cDNA的载体,和用于 活化经活化的基因的蛋白质表达的载体(例如图2,3,4,8B-F,9B-C,9E- F,10B-C,10E-F,11,12,17B-G和23中所述的载体)。

活化载体也可含有病毒复制起点。病毒复制起点的存在使得含有基因组 片段的载体可作为附加体在宿主细胞中增殖。有用的病毒复制起点的例子包 括oriP(Epstein Barr病毒),SV40 ori,BPV ori,和痘苗病毒ori。为了便于由 这些起点开始复制,可由载体表达适当的病毒复制蛋白。例如,含有EBV oriP 和SV40 ori的载体也可分别编码和表达EBNA-1或T抗原。或者,可将载体 导入已在表达病毒复制蛋白(例如EBNA-1或T抗原)的细胞中。表达EBNA-1 和T抗原的细胞分别包括例如被EBNA-1表达单位转染的人293细胞 (Clontech)和COS-7细胞(美国典型培养物保藏中心;ATCC号CRL-1651)。

活化载体也可含有可扩增标记。这样就可以分离含有拷贝数有所增加的 载体和侧翼基因组DNA(或者为附加体,或者整合至宿主细胞基因组中)的细 胞。含有拷贝数有所增加的载体和侧翼基因组DNA的细胞以较高的水平表 达活化基因,便于基因分离和蛋白质产生。

可将活化载体和基因组DNA导入任何宿主细胞,所述细胞能自载体编 码的剪接供体位点剪接至由基因组DNA编码的剪接受体位点。在优选实施 方案中,将基因组DNA/活化载体转染至宿主细胞中,该细胞与分离得到基 因组DNA的细胞属于同一个种。然而,在一些情况下,较为有利的是将基 因组DNA转染至宿主细胞中,该细胞与分离得到基因组DNA的细胞属于不 同的种。例如,将得自一个种的基因组DNA转染至属于第二个种的宿主细 胞便于使用杂交技术分析在经转染的基因组DNA中被活化的基因。在高严 紧性的杂交条件下,能将由经转染的DNA编码的活化基因与得自宿主细胞 的基因区分开。将得自一个种的基因组DNA转染至属于另一个种的宿主细 胞也可被用于在异源细胞中生产蛋白质。这样就可以在能提供生长,蛋白质 修饰或制备优点的异源细胞中产生蛋白质。

活化载体也可以与基因组DNA一起被共转染至宿主细胞中,其中在导 入细胞之前,载体不与基因组DNA结合。在此实施方案中,在转染过程中 基因组DNA会变成片段,从而产生游离的DNA末端。这些DNA末端可通 过细胞的DNA配对机制与共转染的活化载体连接在一起。与活化载体连接 之后,可通过非-同源重组的方法将基因组DNA和活化载体整合至宿主细胞 基因组中。如果在进行此方法的过程中,载体与经转染的基因组DNA所编 码的基因相连接的话,载体将活化其表达。

或者,在转染之前,使非-靶向活化载体与基因组DNA物理连接。在优 选实施方案中,在转染之前使基因组DNA片段与载体相连接。这样较为有 利,因为它使载体与基因组DNA所编码的基因可操作相连的可能性最大化, 并使载体整合至不含异源基因组DNA的宿主细胞基因组的可能性最小化。

在相关实施方案中,可将基因组DNA克隆至活化载体中,使其位于活 化外显子的下游。在此实施方案中,在能容纳大基因组片段的载体中便于克 隆大基因组片断。因此,可在BAC,YAC,PAC,粘粒或能增殖大的基因组 DNA片段的类似载体中构建活化载体。

另一种连接活化载体与基因组DNA的方法包括转座。在此实施方案 中,在转染至细胞之前,通过转座或逆转录病毒整合反应将活化载体整合至 基因组DNA中。因此,活化载体可含有便于转座和/或逆转录病毒整合所必 需的顺式序列。图27中示出了含有转座子信号的载体例子;然而,据认为 本文所述的任何载体都可含有转座子信号。

本发明中可使用任何能将外源序列插入基因组DNA的转座系统。另 外,也可使用便于倒位和缺失的转座子来实施本发明。尽管缺失和倒位系统 不能将活化载体整合至基因组DNA中,但是,当基因组DNA已被克隆至活 化载体中时,却能使活化载体相对于克隆的基因组DNA而言改变位置。因 此,通过将活化载体(通过整合,倒位或缺失)改组至基因组片断内或外的多 个位置,即可活化给定基因组片断内的多个基因。可用于本发明的转座系统 的例子包括但不限于:dg,Tn3,Tn5,Tn7,Tn9,Tn10,Ty,逆转录病毒整合和逆 转录-转座子(Berg等,可移动的DNA,ASM出版社,华盛顿,p879-925(1989); Strathman等,美国国家科学院学报88:1247(1991);Berg等,基因 113:9(1992);Liu等,核酸研究15:9461(1987);Martin等,美国国家科学院学 报92:8398(1995);Phadnis等,美国国家科学院学报86:5908(1989); Tomcsanyi等,细菌学杂志172:6348(1990);Way等,基因32:369(1984); Bainton等,细胞65:805(1991);Ahmed等,分子生物学杂志178:941(1984); Benjamin等,细胞59:373(1989);Brown等,细胞49:347(1987);Eichinger等, 细胞54:955(1988);Eichinger,Genes Dev,4:324(1990);Braiterman等,分子细 胞生物学14:5719(1994);Braiterman等,分子细胞生物学14:5731(1994); York等,核酸研究26:1927(1998);Devine等,核酸研究18:3765(1994); Goryshin等,生物化学杂志273:7367(1998))。

使用转座,活化载体可整合至任何形式的基因组DNA中。例如,活化 载体可整合至完整的或片段化的基因组DNA中。或者,活化载体可整合至 基因组DNA的克隆片段中(图28)。在此实施方案中,基因组DNA可位于任 何克隆载体上,包括高和中等拷贝数的质粒(例如pUC,pBluescript, pACYC184,pBR322等),粘粒,细菌人工染色体(BAC),酵母人工染色体 (YAC),P1人工染色体(PAC)和噬菌体(例如λ,M13等)。也可以使用本领域 已知的其它克隆载体。如上文所述,可分离特定基因座的基因组片断,并将 其用作活化载体整合的底物。

整合活化载体之后,可将基因组DNA直接导入适当宿主细胞以表达活 化基因。或者,可将基因组DNA导入中间体宿主细胞并在其中增殖。例如, 将活化载体整合至BAC基因组文库之后,可将BAC文库转化至大肠杆菌。 这样就可以通过选择活化载体上存在的抗生素抗性标记来富集含有转座子 的质粒。结果,通过抗生素选择可除去缺少整合的活化载体的BAC质粒。

使用纯化的酶,可在体外发生转座介导的活化载体整合。或者,可在体 内发生转座反应。例如,可使用携有转座子的供体菌株在细菌中进行转座, 所述转座子或者位于载体上,或者作为整合的拷贝位于基因组中。将所需的 靶导入转座宿主,所述靶在该宿主中接受整合。然后通过遗传选择从宿主中 回收携有插入物的靶。类似地,可使用真核宿主细胞,例如酵母,植物,昆 虫或哺乳动物细胞,在转座子的介导下将活化载体整合至基因组DNA片段 中。

分离由活化的内源基因产生的mRNA和cDNA

在其它实施方案中,本发明涉及分离使用本发明的载体活化的基因,特 别是真核细胞基因组中所含基因的方法。这些方法利用了使用本发明的非- 靶向基因活化载体产生的mRNA分子的结构。本文所述的本发明方法实际上 可以分离任何活化基因,而不用管该基因以前是否被分离和鉴定过,也不用 管该基因是否具有已知的生物活性。通过本发明的整合载体所产生的嵌合转 录物的特性可以做到这一点。使用本文所述的方法,可将活化载体整合至细 胞基因组中。然而,通常将活化载体整合至很多细胞的基因组中以产生独特 整合事件的文库。该文库的每个成员含有位于独特整合位点的载体,并潜在 含有活化的内源基因。当活化载体整合至内源基因最靠3’方向的外显子上 游,并且其取向能允许至载体至整个内源基因进行转录时,就会发生基因活 化。整合位点可以位于内源基因的内含子或外显子中,或者可以位于基因转 录起始位点的上游。整合之后,活化构建体被设计成可以产生转录物,所述 转录物能从由活化载体编码的外显子剪接至由内源基因编码的外显子。结 果,产生了嵌合信息,其含有与内源基因的外显子相连接的载体外显子,其 中内源外显子得自位于载体整合位点下游的区域。该嵌合转录物的结构可被 用于基因回收目的。例如,嵌合转录物可被快速分离以用作探针(分离基因的 全长cDNA或基因组拷贝,或者鉴定基因)或被直接测序和/或鉴定。

为了分离通过载体插入来活化的嵌合转录物,由含有活化事件的文库成 员产生cDNA。也可以从文库成员库中分离嵌合转录物以增加该方法的流通 量。然后由收集自活化细胞的mRNA产生cDNA。或者,可使用总RNA来 产生cDNA。在任一种情况下,可使用寡dT引物,寡dT/poly(A)信号引物或 随机引物进行第一条链的合成。为了便于克隆cDNA产物,可使用具有下列 结构的基于poly dT的引物:5’-引物X(dT)1-100-3’。寡dT/poly(A)信号引物 可具有结构5’-(dT)10-30-引物X-N0-6-TTTATT-3’。随机引物可具有结构:5’ -(引物X)NNNNNN-3’。在每个引物中,引物X是任何可用于随后PCR扩增 靶核酸分子的序列。当需要克隆活化基因的扩增产物时,在引物X序列内包 括一个或多个限制性位点以便于随后的克隆将是有用的。也可使用本领域技 术人员熟知的其它引物产生第一链cDNA产物,包括缺少引物X区域的引 物。

根据本发明,引物可与一个或多个半抗原分子偶联以便于随后分离含有 这种引物的核酸分子(例如第一和/或第二链cDNA产物)。在引物与核酸分子 (经由在cDNA合成的过程中掺入而)结合之后,使用相应的配体选择性分离 含有半抗原化引物的分子,所述配体可以通过配体-半抗原相互作用与半抗原 特异性地相互作用和结合。在优选的此方面,配体可以与例如固体支持物结 合。一旦与固体支持物结合,可通过用溶液,优选为缓冲液或水洗涤固体基 质,将所需分子(含有半抗原化引物的核酸分子)与污染的核酸和其它物质分 开。裂解引物内的一个或多个裂解位点,或通过用高离子强度的洗脱缓冲液 处理含有核酸分子的固体支持物,可以从固体支持物上除去所需的核酸分 子。

可用于本发明此方面的优选固体支持物包括但不限于:硝酸纤维素,重 氮纤维素,玻璃,聚苯乙烯,聚氯乙烯,聚丙烯,聚乙烯,葡聚糖,Sepharose, 琼脂,淀粉,尼龙,乳胶珠,磁珠,顺磁珠,超级顺磁珠或微滴板,最优选 为含有一个或多个配体分子的磁珠,顺磁珠或超级顺磁珠,所述配体分子能 特异性地识别和结合引物上的半抗原分子。

本发明的引物分子上所用的特别优选的半抗原分子包括但不限于:(i)生 物素;(ii)抗体;(iii)酶;(iv)脂多糖;(v)脱铁运铁蛋白;(vi)铁运铁蛋白 (ferrotransferrin);(vii)胰岛素;(viii)细胞因子(生长因子,白细胞介素或集落 刺激因子);(ix)gp120;(x)β-肌动蛋白;(xi)LFA-1;(xii)Mac-1;(xiii)血型糖 蛋白;(xiv)层粘连蛋白;(xv)胶原;(xvi)纤连蛋白;(xvii)玻连蛋白;(xviii) 整联蛋白αvβ1和αvβ3;(xix)整联蛋白α3β1,α4β1,α4β7,α5β1,αvβ1,αIIbβ3, αvβ3和αvβ6;(xx)整联蛋白α1β1,α2β1,α3β1和αvβ3;(xxi)整联蛋白α1β1,α2β1, α3β1,α6β1,α7β1和α6β5;(xxii)锚蛋白;(xxiii)C3bi,血纤蛋白原或X因子; (xxiv)ICAM-1或ICAM-2;(xxv)血影蛋白或胞影蛋白;(xxvi)CD4;(xxvii) 细胞因子(例如生长因子,白细胞介素或集落刺激因子)受体;(xxviii)胰岛素 受体;(xxix)运铁蛋白受体;(xxx)Fe+++;(xxxi)多粘菌素B或内毒素-中和蛋 白(ENP);(xxxii)酶-特异性底物;(xxxiii)蛋白A,蛋白G,细胞表面Fc受体 或抗体-特异性抗原;和(xxxiv)亲和素和链霉亲和素。特别优选的是生物素。

依次与上述半抗原分子相对应的,根据本发明此方面的特别优选的配体 分子包括但不限于:(i)亲和素和链霉亲和素;(ii)蛋白A,蛋白G,细胞表 面Fc受体或抗体-特异性抗原;(iii)酶-特异性底物;(iv)多粘菌素B或内毒素 -中和蛋白(ENP);(v)Fe+++;(vi)运铁蛋白受体;(vii)胰岛素受体;(viii)细胞 因子(例如生长因子,白细胞介素或集落刺激因子)受体;(ix)CD4;(x)血影蛋 白或胞影蛋白;(xi)ICAM-1或ICAM-2;(xii)C3bi,血纤蛋白原或X因子; (xiii)锚蛋白;(xiv)整联蛋白α1β1,α2β1,α3β1,α6β1,α7β1和α6β5;(xv)整联 蛋白α1β1,α2β1,α3β1和αvβ3;(xvi)整联蛋白α3β1,α4β1,α4β7,α5β1,αvβ1, αIIbβ3,αvβ3和αvβ6;(xvii)整联蛋白αvβ1和αvβ3;(xviii)玻连蛋白;(xix)纤连 蛋白;(xx)胶原;(xxi)层粘连蛋白;(xxii)血型糖蛋白;(xxiii)Mac-1; (xxiv)LFA-1;(xxv)β-肌动蛋白;(xxvi)gp120;(xxvii)细胞因子(生长因子, 白细胞介素或集落刺激因子);(xxviii)胰岛素;(xxix)铁运铁蛋白;(xxx)脱铁 运铁蛋白;(xxxi)脂多糖;(xxxii)酶;(xxxiii)抗体;和(xxxiv)生物素。特别优 选与本发明生物素化的引物一起使用的是亲和素和链霉亲和素。

第一条链合成之后,可使用特异于载体编码的外显子的引物进行第二条 cDNA链的合成。这样就可以由衍生自载体编码的启动子的所有转录物产生 双链cDNA。由于转录物的5’末端缺少载体外显子,由内源启动子产生的 所有细胞mRNA(和cDNA)仍为单链形式。一旦进行第二条链的合成,可用 限制性酶消化cDNA,将其克隆至载体中并进行增殖。

为了便于克隆,可使用特异于载体外显子的引物和特异于第一条cDNA 链引物(如引物X)的引物,经PCR扩增含有载体外显子的cDNA分子。PCR 扩增导致产生不同长度的DNA片断,表示在第一条链合成和/或扩增不同基 因的多个嵌合转录物的过程中引发的位置不同。可将这些扩增产物克隆至质 粒中以进行鉴定,或者进行标记并用作探针。

也可使用其它扩增技术,例如使用RNA聚合酶进行线性扩增(Van Gelder,美国国家科学院学报87:1663-1667(1990);Eberwine,方法10:283- 288(1996))。例如,当使用RNA聚合酶进行线性扩增时,可将启动子(例如 T7启动子)置于载体外显子上。结果,基因活化的转录物将在转录物的5’末 端含有启动子序列。或者,可在第一条链和第二条链合成之后,将启动子连 接至cDNA分子上。使用任一种策略,然后在核糖核苷酸三磷酸存在下将 RNA聚合酶与cDNA一起保温,以由cDNA产生RNA转录物。然后逆转录 这些转录物以产生cDNA。由于RNA聚合酶可由单个cDNA分子产生几千 个转录物,又由于每个转录物都能逆转录成cDNA,因此可获得大扩增。至 于PCR,用RNA聚合酶扩增便于克隆活化基因。也可以使用其它类型的扩 增策略。

在另一个实施方案中,无需扩增即可分离出含有载体外显子的cDNA分 子。当在扩增过程中出现偏好(例如一个DNA片断的扩增比另一个更有效) 时,该方案是有用的。为了产生标记信息有所增强的cDNA,可从活化文库 中分离RNA。将引物(例如随机六聚体,寡(dT)或含有与poly(dT)或随机核苷 酸相连接之引物的杂合引物)与RNA退火,并用于介导第一条链的合成。然 后使第一链cDNA分子与特异于载体编码的外显子的引物杂交。该引物介导 第二条链的合成。第二条链合成之后,可用在载体外显子和第一条链引物(例 如引物X-见上文)中切割的限制性酶消化cDNA。然后将第二条链的产物克 隆至有用的载体中以使它们能被增殖。

本领域技术人员参照本文所含的描述可以清楚地知道:根据本发明的方 法制备的cDNA产物也可被克隆至适于转染或转化多种原核(细菌)或真核(酵 母,植物或动物,包括人和其它哺乳动物)细胞的克隆载体中。可以是表达载 体的克隆载体包括但不限于染色体-,附加体-和病毒-衍生的载体,例如衍生 自细菌质粒或噬菌体的载体,和衍生自上述组合的载体,例如粘粒和噬粒, BAC,MAC,YAC等。其它适用于本发明此方面的载体,和将DNA片断插 入所述载体和用这种克隆载体转化宿主细胞的方法是本领域技术人员所熟 知的。

除去未剪接的转录产物

在一些情况下,活化载体会整合至基因组中缺少基因的区域。或者,整 合至含有基因的区域,但其整合的方向导致非-编码链的转录。在每一种情况 下,都会产生基因被活化的转录物,其一般含有与载体编码的外显子相邻接 的未被转录的DNA序列。这些序列使鉴定和分析新基因变得更加困难。因 此,选择性除去这些基因组分子将是有利的。

为了除去含有载体编码的内含子的cDNA分子,用能识别位于载体编码 的内含子上的序列的限制性酶处理双链cDNA。优选限制性酶产生的突出端 不同于通过裂解载体外显子产生的突出端。这样就可以通过防止裂解产物连 接至克隆载体上而确保仅克隆活化基因。

从活化的内源基因中回收外显子I

为了从活化基因中回收外显子I,可使用特化载体产生非-靶向基因活化 文库。最简单形式的该载体自5’至3’含有启动子,未配对的剪接供体位 点和第二个启动子。下游启动子与上游启动子的方向相同。通过整合至内源 基因上游,这种类型的载体产生了两种类型的转录物。第一种转录物含有与 内源基因的外显子II相连接的载体外显子。上文描述了分离该转录物的方 法。第二种转录物含有内源基因的上游区域,其后紧接着与外显子II和其它 来自内源基因的下游外显子相连接的外显子I(图6)。

使用两步法,从含有整合载体的细胞中回收外显子I。第一步,使用上 文所述的方法分离含有载体外显子的转录物(即转录物#1型,图13)。一旦分 离完毕,可对包括外显子II的转录物的5’末端进行测序以测定侧翼内源外 显子的序列。第二步,一旦已知侧翼内源外显子的序列,可产生能与活化基 因的外显子II(或下游外显子)退火的PCR引物。使用改良形式的反向 PCR(Zeiner,M.,生物技术,17(6):1051-1053(1994)),用这些引物扩增转录物 #2中的外显子I。简单地说,通过以上文测定的序列信息为基础,用基因特 异性的引物进行第一条cDNA链的合成,即可扩增内源基因的外显子I。在 本领域技术人员众所周知的条件下,使用大肠杆菌DNA聚合酶I进行第二 条链的合成。然后用限制性酶消化双链cDNA,所述酶在第一链cDNA引物 上游的内源基因中裂解至少一次,但在载体外显子中不裂解。消化之后, cDNA自身连接,产生环状分子。使用在限制性/环化位点上游的内源基因中 退火的反向PCR引物,经PCR进行扩增,产生含有内源基因的外显子I序 列的DNA产物。

选择含有较高水平的基因活化转录物/蛋白质的细胞的方法

在本发明所公开的几个实施方案中,活化载体含有可扩增标记(例如 DHFR)和病毒复制起点(例如EBV oriP)。在其它实施方案中,可扩增标记和 病毒复制起点存在于含有克隆的基因组DNA片断的克隆载体上。在另一个 实施方案中,活化载体含有一个元件(例如DHFR),携有基因组插入物的克 隆载体含有另一个元件(例如OriP)。不论可扩增标记和病毒复制起点原来的 位置如何,在导入宿主细胞之前或之中,将元件连接在相同的DNA分子上。

除了顺式作用的元件外,附加体的有效复制一般也需要反式作用的病毒 蛋白质。反式作用的病毒蛋白质的例子包括EBNA-1和SV40 T抗原。为了 促进附加体的有效复制,可由附加体表达反式作用的病毒蛋白质。因此,可 由转座的活化载体表达病毒反式作用的蛋白质,或者,所述蛋白质可位于克 隆载体的骨架上。或者,可由导入附加体的真核宿主细胞表达反式作用的病 毒蛋白质。

一旦可扩增标记和病毒复制起点位于相同的分子上,并且存在于表达适 当病毒复制蛋白质的宿主细胞中,即可增加附加体的拷贝数。为了增加附加 体的拷贝数,可将细胞置于适当的选择之下。例如,如果DHFR存在于附加 体上,可在培养物中添加氨甲蝶呤。可以使用相对高浓度的选择试剂以分离 已具有高附加体拷贝数的群体中的细胞。或者,以较低的浓度使用选择试 剂,并且周期性地增加浓度。药物浓度的两倍增加会导致拷贝数的逐步增 加。

为了降低非-特异性药物抗性(即与附加体拷贝数增加不相关的药物抗性) 的频率,可在载体上放置一个以上可扩增标记。在附加体上包括多个可扩增 标记使得可以用多种药物(同时或依次)选择细胞。由于非-特异性的药物抗性 是相对罕见的事件,细胞对多种药物产生非-特异性药物抗性的可能性极小。 因此,附加体上多个可扩增标记的存在便于分离具有高附加体拷贝数的细 胞。

扩增附加体拷贝数可增加得自载体活化基因的转录物的数目。这反过来 有利于分离衍生自活化基因的cDNA分子。另外,扩增附加体拷贝数可显著 增加活化基因的蛋白质表达。较高水平的蛋白质产生有利于产生生物分析筛 选,细胞分析筛选和制备目的所用的蛋白质。

作为上文所述的很合乎需要的特征的结果,含有病毒复制起点和可扩增 标记的载体,和这些载体快速扩增附加体载体拷贝数的用途,代表了超越活 化基因组DNA中所存在基因的表达的重大突破。例如,可使用这些载体过 表达cDNA编码的基因,以产生高水平的蛋白质表达,而无需将基因整合至 具有可扩增标记的宿主细胞基因组。另外,与扩增染色体序列相同,可以分 离具有几百至几千个附加体载体拷贝的细胞,并在培养中维持这些细胞。因 此,本文所述的载体及其用途可以在哺乳动物细胞中高水平地增殖克隆的基 因组DNA,便于分离作为基因组插入物存在于载体上的基因的cDNA拷贝, 并可以使克隆的cDNA和真核基因的基因组拷贝的蛋白质产生最小化。

对本文描述的方法和应用的其他合适的改进和变化对本领域技术人员 是显而易见的,并且可以在不脱离本发明的范围或其实施方案下而进行。上 面已详细描述了本发明,参照以下实施例可以更清楚地理解本发明,这些实 施例在此仅做例证,而非意在限制本发明。

                         实施例

实施例1:转染细胞以活化内源基因表达

方法:构建pRIG-1

人DHFR由cDNA通过PCR进行扩增,所述cDNA是由HT1080细胞 使用引物DHFR-F1(5’TCCTTCGAAGCTTGTCATGGTTGGTTCGCT AAACTGCAT3’)(SEQ ID NO:1)和DHFR-R1(5’AAACTTAAG ATCGATTAATCATTCTTCTCATATACTTCAA3’)(SEQ ID NO:2)通过 PCR制备的,并将人DHFR克隆至pTARGETTM(Promega)中的T位点产生 pTARGET:DHFR。用NheI和XbaI消化PREP9分离RSV启动子,并将其插 入pTARGET:DHFR的NheI位点产生pTgT:RSV+DHFR。将寡核苷酸 JH169(5’ATCCACCATGGCTACAGGTGAGTACTCG3’)(SEQ ID NO:3)和 JH170(5’GATCCGAGTACTCACCTGTAGCCATGGTGGATTTAA3’) (SEQ ID NO:4)退火,并将其插入pTgT:RSV+DHFR的I-Ppo-I和NheI位点 以产生pTgT:RSV+DHFR+Exl。用引物Tet F1(5’GGCGAGATCTAGCGCT ATATGCGTTGATGCAAT3’)(SEQ ID NO:5)和Tet F2(5’GGCCAGATC TGCTACCTTAAGAGAGCCGAAACAAGCGCTCATGAGCCCGAA    3’) (SEQ ID NO:6)将相应于pBR322的230-508位核苷酸的279bp区进行PCR 扩增。用BglII消化扩增产物,并将其克隆至pTgT:RSV+RSV+DHFR+Exl 的BamHI位点产生pRIG-1。

转染—在HT1080细胞中形成pRIG-1基因活化文库

为了活化基因表达,从上述构建体组中选择合适的活化构建体。然后将 所选的活化构建体通过本领域任何已知转染方法导入细胞。转染方法的例子 包括电穿孔、脂质体转染、磷酸钙沉淀、DEAE右旋糖和受体介导的胞吞。 导入细胞中之后,使DNA经非同源重组整合到宿主细胞的基因组中。整合 可以在自发染色体断裂处或人工诱导的染色体断裂处进行。

方法:用pRIG1转染人细胞。使2×109HH1细胞(HT1080细胞的HPRT 亚克隆)在150mm组织培养板中生长至90%铺满。将培养液从细胞中吸出, 作为条件培养液保存(参见下文)。通过将细胞与胰蛋白酶短暂温育而使其从 培养板上脱落,将其加入培养液/10%胎牛血清中以便中和胰蛋白酶,并在 Jouan离心机中于1000rpm沉淀5分钟。将细胞在1X PBS中洗涤、计数并 如上述重新沉淀。将细胞沉淀以终浓度2.5×107细胞/ml重悬在1X PBS(Gibco BRL Cat#14200-075)中。然后将细胞暴露于50rads来自137Cs源 的γ照射中。用BamHI将pRIG1(图14A-14B;SEQ ID NO:18)线性化,用 酚/氯仿提纯,用乙醇沉淀并重悬于PBS中。将纯化和线性化的活化构建体 加入细胞悬浮液中至终浓度为40μg/ml。然后将DNA/照射过的细胞混合物 混匀,向每个0.4cm的电穿孔管(BioRad)中移入400μl该混合物。用电穿孔 装置(BioRad)给小管以250伏、600微法拉、50欧姆输送脉冲。电脉冲后, 将细胞于室温培养10分钟,然后移入含有青霉素/链霉素(Gibco/BRL)的α MEM/10%FBS中。将细胞铺在含有35mlαMEM/10%FBS/penstrep(33%条件 培养液/67%新鲜培养液)的培养板上,浓度为大约7×106细胞/150mm板。于 37℃培养24小时后,将取自60mg/ml储液的G418(Gibco/BRL)加入到每个 培养板中至终浓度为500μg/ml。经4天选择后,用新鲜的α MEM/10%FBS/penstrep/500μg/ml G418替换培养液。然后再将细胞保温7- 10天,培养物上清液用于检测新的蛋白因子的存在或者储存在-80℃用于后 面的分析。耐药克隆可以保存在液氮中用于后面的分析。

实施例2:利用电离辐射来提高DNA整合的频率和随机性

方法:HH1细胞90%铺满时收集,在1×PBS中洗涤,以7.5×106细胞 /ml的细胞浓度重悬于1×PBS中。向细胞中加入15μg线性化的 DNA(pRIG-1),并混匀。将400μl加入各电穿孔管(BioRad)中,用电穿孔仪 (BioRad)以250伏、600微法拉、50欧姆输送脉冲。电脉冲后,将细胞于室 温培养10分钟,然后移入2.5mlαMEM/10%FBS/1×penstrep中。从每次脉 冲照射中取300μl细胞在转染前或者转染后1或4小时以0、50、500和 5000rads照射。照射后,立即将细胞铺在含完全培养基的组织培养板上。铺 板24小时后,向培养物中加入G418至终浓度为500μg/ml。选择后7天时, 将培养基换成含有500μg/ml G418的新鲜完全培养基。选择后10天时,从 培养板中吸出培养基,用考马斯蓝/90%甲醇/10%乙酸将细胞集落染色,并计 数多于50个细胞的集落。

实施例3:用限制酶在基因组中产生随机、半随机或导向的断裂

方法:HHI细胞90%铺满时收集,在1×PBS中洗涤,以7.5×106细胞 /ml的细胞浓度重悬于1×PBS中。为了检测整合效率,向每份400μl等分 的细胞中加入15μg线性化的DNA(PGK-βgeo)并混匀。然后向几份细胞中 加入限制酶XbaI、NotI、HindIII、IppoI(10-500单位)以便分离细胞/DNA混 合物。取400μl加入每个电穿孔管中,用电穿孔仪(BioRad)以250伏、600 微法拉、50欧姆输送脉冲。电脉冲后,将细胞于室温培养10分钟,然后移 入2.5mlαMEM/10%FBS/1×penstrep中。从每次脉冲照射的2.5ml总细胞中 取300μl细胞铺在含完全培养基的组织培养板上。铺板24小时后,向培养 物中加入G418至终浓度为600μg/ml。选择后7天时,将培养基换成含有 600μg/ml G418的新鲜完全培养基。选择后10天时,从培养板中吸出培养 基,用考马斯蓝/90%甲醇/10%乙酸将细胞集落染色,并计数多于50个细胞 的集落。

实施例4:通过对位于整合载体上的两个可扩增标记进行选择来进行扩 增

载体整合到宿主细胞基因组后,可以通过同时或连续选择位于整合载体 上的1或多个可扩增标记使遗传基因座的拷贝数扩增。例如,可以使包含两 个可扩增标记的载体整合到基因组中,并通过对位于载体上的这两个可扩增 标记进行选择来提高给定基因(即位于载体整合位点处的基因)的表达。这种 方法大大方便了分离已经扩增了正确基因座(即含有整合载体的基因座)的细 胞克隆。

一旦载体通过非同源重组整合到基因组中,则可将含有在独特位置处整 合的载体的细胞的单个克隆与其他含有在基因组中其它位置处整合的载体 的细胞分离开。另一种方法是可选择混合的细胞群体用于扩增。

然后在对第一可扩增标记具有特异性的第一种选择试剂存在下培养含 有整合载体的细胞。该试剂挑选出已经扩增载体和内源染色体上的可扩增标 记的细胞。然后,通过在对第二可扩增标记具有特异性的第二种选择试剂存 在下培养细胞选择这些细胞用于第二个选择标记的扩增。经过该第二个选择 步骤,载体和旁侧基因组DNA均已扩增的细胞能存活,而只扩增了内源的 第一可扩增标记的细胞或者是具备了非特异性抗性的细胞不能存活。当含有 两个以上(如3,4,5或更多)的可扩增标记的载体整合到细胞基因组中时, 可以以类似的方式,通过在对整合载体上所含的其他可扩增标记具有特异性 的选择试剂存在下对细胞进行连续培养来做附加选择。挑选后,检测存活细 胞的所需基因的表达水平,并选出表达水平最高的细胞做进一步扩增。替代 的做法是,可以进一步培养对两种(如果使用了两个可扩增标记)或全部(如果 使用了两个以上可扩增标记)选择试剂具有抗性的细胞的集合,而不分离出单 个克隆。然后将这些细胞扩增,并在更高浓度的第一种选择试剂(通常是高两 倍)存在下进行培养。重复该过程直至达到预期的表达水平。

或者,可以同时针对两种(如果使用了两个可扩增标记)或全部(如果使用 了两个以上可扩增标记)可扩增标记来挑选含有整合载体的细胞。通过将两种 (如果使用了两个标记)或全部(如果使用了两个以上标记)选择试剂加入其中 培养了转染细胞的选择培养基中来实现同时挑选。大多数存活细胞已扩增了 整合载体。然后可以将这些克隆分别筛选来鉴定表达水平最高的细胞,或者 把它们作为一个集合来进行。给这些细胞施加更高浓度的各选择试剂(通常是 高两倍)。然后再检测存活细胞的表达水平。重复该过程直至达到预期表达水 平。

利用任何一种选择策略(即同时或连续选择),通过从没有细胞毒性的低 浓度到导致多数细胞死亡的高浓度滴定选择试剂来独立地确定所述选择试 剂的起始浓度。通常,选择能形成离散集落(例如,所铺的每100000个细胞 形成几百个集落)的浓度作为起始浓度。

实施例5:分离编码跨膜蛋白质的cDNA

pRIG8R1-CD2(图5A-5D;SEQ ID NO:7)、pRIG8R2-CD2(图6A-6C; SEQ ID NO:8)和pRIG8R3-CD2(图7A-7C;SEQ ID NO:9)载体含有可操纵 地连接到外显子上的CMV立即早期启动子,其后是一个未配对剪接供体位 点。载体上的外显子编码一个信号肽,该信号肽连接到CD2的胞外结构域(缺 少框内终止密码子)。每个载体在相对剪接供体位点来说是不同的读码框内编 码CD2。

为了建立活化基因文库,用50rads 137Cs源照射2×107细胞,并用15μ g线性化的pRIG8R1-CD2(SEQ ID NO:7)进行电穿孔。然后分别用 pRIG8R2-CD2(SEQ ID NO:8),再用pRIG8R3-CD2(SEQ ID NO:9)重复该 过程。转染后,将三组细胞合并,以每皿5×106细胞的浓度铺入150mm培 养皿中,来建立文库#1。转染后24小时,用500μg/mlG418将文库#1选择 14天。将含有整合至宿主细胞基因组中的载体的耐药克隆合并、等分并冷冻 以便分析。如上所述建立文库#2,但其中用pRIG8R1-CD2、pRIG8R2-CD2 和pRIG8R3-CD2分别转染3×107细胞、3×107细胞和1×107细胞。

为了分离含有编码完整膜蛋白质的活化基因的细胞,培养来自各文库的 3×106细胞并如下处理:

.用4ml胰蛋白酶-EDTA将细胞胰蛋白酶消化。

.在细胞脱落后,添加8mlαMEM/10%FBS中和胰蛋白酶。

.用无菌PBS将细胞洗一次,经800g离心7分钟收集。

将细胞沉淀重悬于2mlαMEM/10%FBS中。1ml用于分选,另1ml重铺 在含有500μg/mlG418的αMEM/10%FBS中,扩增并保存。

.将用于分选的细胞用无菌αMEM/10%FBS洗一次,经800g离心7分 钟收集。

.吸去上清液,将沉淀重悬于1mlαMEM/10%FBS中。取100μl所述 细胞用同种型对照物染色。

.向900μl细胞中加入200μl抗-CD2 FITC(Pharmingen目录号 #30054X),而向100μl细胞中加入20μl小鼠IgG1同种型对照物(Pharmingen 目录号#33814X)。将上述细胞在上培养20分钟。

.向含有用抗人CD2 FITC染色的细胞的试管中加入5ml PBS/1%FBS。 向同种型对照物中加入900μl PBS/1%FBS。以600g离心6分钟收集细胞。

.从试管中吸出上清液。将已用同种型对照物染色的细胞重悬于500μl αMEM/10%FBS中,将已用抗CD2 FITC染色的细胞重悬于1.5mlα MEM/10%FBS中。

.在FACS Vantage流式细胞计(Becton Dickinson Immunocytometry Systems;Mountain View,CA)上通过连续分选细胞5次来分选细胞。在每次 分选中,收集所示的细胞总数的百分比的代表荧光最强的细胞(见下文),将 其扩增,再分选。分选HT1080细胞作为阴性对照物。每次分选中分选并收 集到以下细胞群: 文库#1 文库#2 文库#3 #1分选 收集到500,000个细 胞(最高10%) 收集到100,000个细胞(最高10%) 收集到40,000个 细胞(最高10%) #2分选 收集到300,000个细 胞(最高5%) 收集到220,000个细胞(最高11%) 收集到14,000个 细胞(最高5%) #3分选 收集到90,000个细 胞(最高5%) 收集到40,000个细胞(最高10%) 收集到120,000个 细胞(最高10%) #4分选 收集到600,000个细 胞(最高40%) (a)收集到6,000个细胞(最高5%) (b)收集到10,000个细胞(次高5%) 收集到280,000个 细胞(最高13%) #5分选 (a)收集到260,000 (a)从#4分选的(a)组中收集到 未做 个细胞(最高10%) (b)收集到530,000 个细胞(次高25%) 100,000个细胞(最高10%)和 350,000个细胞(次高35%) (b)从#4分选的(b)组中收集到 120,000个细胞(最高10%)

将每个文库最后一次分选得到的细胞扩增并保存于液氮中。

从FACS分选细胞中分离活化基因

一旦经如上所述将细胞进行了分选,通过基于PCR的克隆从所述分选 细胞中分离活化内源基因。但本领域技术人员容易想到,可以等效地使用本 领域公知的任何克隆基因的方法来从FACS分选的细胞中分离活化基因。

按照以下方案分离基因:

(1)利用PolyATract System1000 mRNA分离试剂盒(Promega),从来自文 库#1和#2的3×107 CD2+细胞(如上所述,通过FACS分选5轮)中分离 mRNA。

(2)分离mRNA后,通过将0.5μl分离的mRNA稀释到99.5μl水中并 测定OD260来确定mRNA的浓度。从CD2+细胞回收到21μgmRNA。

(3)然后如下合成第一链cDNA:

(a)PCR仪维持在4℃,通过连续添加以下成分制备第一链反应混合物:

41μl DEPC处理过的ddH2O

4μl 10mM各种dNTP

8μl 0.1MDTT

16μl 5×MMLV第一链缓冲液(Gibco-BRL)

5μl(10pmol/μl)共有聚腺苷酸化位点引物GD.R1(SEQ ID NO:10)*

1μl RNAsin(Promega)

3μl(1.25μg/μl)mRNA

*备注:GDR1,5’TTTTTTTTTTTTCGTCAGCGGCCGCATCNNNN TTTATT3’(SEQ ID NO:10)是用于由mRNA合成第一链cDNA的“基因开 发”引物;该引物被设计成能与多腺苷酸化信号AATAAA和下游的多腺苷 酸区退火。它能给第一链导入一个NotI位点。

一旦制备好样品,即如下进行温育:

(b)70℃ 1分钟

(c)维持于42℃,然后向每份样品中加入2μl 400U/μl的 SuperScriptII(Gibco-BRL;Rockville,MD),以产生82μl的最终总体积。大约 3分钟后,如下温育样品:

(d)37℃ 30分钟

(e)94℃ 2分钟

(f)4℃ 5分钟

然后向各样品中加入2μl 20U/μl的RNace-IT(Stratagene),将样品于37 ℃温育10分钟。

(4)第一链合成后,用PCR洗涤试剂盒(Qiagen)如下纯化cDNA:

(a)将80μl第一链反应产物转移入1.7ml烷化的eppendorf管,并加 入400μl PB。

(b)然后将样品移入PCR纯化柱子,于14000RPM离心2分钟

(c)将柱子拆下,倾析出径流,向沉淀中加入750μl PE,然后将试管于 14000RPM离心2分钟。

(d)将柱子拆下,倾析出径流,将试管于14000RPM离心2分钟以便干 燥树脂。

(e)用50μl EB通过转移柱将cDNA洗脱至新的硅烷化的eppendorf管 中,然后以14000RPM离心2分钟。

(5)如下合成第二链cDNA:

(a)于室温,连续添加以下成分制备第二链反应混合物:

ddH2O                    55μl

10×PCR缓冲液             10μl

50mM MgCl2               5μl

10mM dNTP                 2μl

25pmol/μl RIG.751-Bio*  4μl

25pmol/μl GD.R2**       4μl

第一链产物                20μl

*备注:RIG.751-Bio,5’生物素-CAGATCACTAGAAGCTTTATTG CGG3’(SEQ ID NO:11),在由pRIG载体表达得到的转录产物的帽子位点处 退火。

**备注:GD.R2,5’TTTTCGTCAGCGGCCGCATC3’(SEQ ID NO:12) 是用于PCR扩增cDNA的引物,所述cDNA是使用引物GDR1(SEQ ID NO:10) 制备的。GD.R2是GDR1的亚序列,其带有到达polyA信号序列前的简并碱 基的配对序列。

(b)开始合成第二链:

94℃ 1分钟,

加入1μl Taq(5U/μl,Gibco-BRL),

加入1μl Vent DNA pol(0.1U/μl,New England Biolabs),

(c)于63℃温育2分钟,

(d)于72℃温育3分钟,

(e)将步骤(b)重复4次,

(f)于72℃温育6分钟,

(g)于4℃温育(维持),

(h)结束。

(6)用STE洗3次制备200μl 1mg/ml链霉抗生物素蛋白-Paramagnetic 颗粒(SA-PMP)。

(7)将第二链反应产物直接加入SA-PMP中,于室温温育30分钟。

(8)结合后,利用磁体收集SA-PMP,并回收径流物质。

(9)用500μl STE将磁珠洗3次。

(10)将磁珠重悬于50μl STE中,用磁体在试管底部收集磁珠。然后小 心地将STE上清液吸出。

(11)将磁珠重悬于50μl ddH2O中,在100℃水浴中放置2分钟,从PMP 上释放出纯化的cDNA。

(12)在磁体上收集PMP,并小心地吸出含有cDNA的上清液,从而回收 到纯化的cDNA。

(13)将纯化产物移至干净试管中,于14000RPM离心2分钟除去所有残 存的PMP。

(14)然后如下进行PCR反应以便特异扩增RIG活化cDNA:

(a)通过于室温连续添加以下成分来制备PCR反应混合物:

H2O                 59μl

10×PCR缓冲液        10μl

50mM MgCl2             5μl

10mM dNTP               2μl

25pmol/μl RIG.F781*   2μl

25pmol/μl GD.R2        2μl

第二链产物              20μl

*备注:RIG.F781,5’ACTCATAGGCCATAGAGGCCTATCACAGTT AAATTGCTAACGCAG3’(SEQ ID NO:13),在GD.F1、GD.F3、GD.F5-Bio 以及RIG.F751-Bio的下游退火,并引入一个SfiI位点用于cDNA的5’克 隆。该引物用于巢式PCR扩增RIG Exon1特异第二链cDNA。

(b)启动热循环器:

94℃ 3分钟,

加入1μl Taq(5U/μl,Gibco-BRL),

加入1μl 0.1U/μl的Vent DNA聚合酶(New England Biolabs),

将步骤(c)到(e)循环10次做PCR:

(c)94℃ 30秒,

(d)60℃ 40秒,

(e)72℃ 3分钟。

然后进行以下步骤完成PCR:

(f)94℃ 30秒,

(g)60℃ 40秒,

(h)72℃ 3分钟,

(i)72℃,每个循环20秒,共10个循环,

(j)72℃ 5分钟,

(k)维持于4℃。

(15)用50μl EB将文库材料洗脱后,加入10μl NEB缓冲液2、40μl dH2O和2μl SfiI,并于50℃消化1小时将样品进行消化,以便在由正向引 物(RIG.F781;SEQ ID NO:13)编码的SfiI位点处切割cDNA的5’端。

(16)SfiI消化后,向每份样品中加入5μl 1M NaCl和2μl NotI,于37 ℃将样品消化1小时以便在由第一链引物(GD.R1;SEQ ID NO:10)所编码的 NotI位点处切割cDNA的3’端。

(17)然后,在1%低熔点琼脂糖凝胶上分离消化过的cDNA。从胶上切下 大小为1.2Kb到8Kb范围的cDNA。

(18)用Qiaex II Gel Extraction(Qiagen)从切下的琼脂糖凝胶上回收 cDNA。在总共10μl的1XT4连接酶缓冲液(NEB)中,用400单位T4 DNA 连接酶(NEB)将2μl cDNA(大约30mg)与7μl(35ng)pBS-HSB(用SfiI/NotI 线性化过的)连接在一起。

(19)用得自步骤(18)的0.5μl连接反应混合物转化成大肠杆菌DH10B。

(20)回收103个菌落/0.5μl连接的DNA。

(21)用引物M13F20和JH182(RIG Exon1特异性)经PCR在12.5μl体积 中如下筛选这些菌落的外显子:

(a)将100μl LB(含有选择抗生素)分装到适当数量的96孔培养板中

(b)挑选出单菌落,接种到96孔培养板的各个孔中,将培养板在37℃培 养厢中不震荡放置2-3小时。

(c)在冰上如下制备PCR反应的“主混物”: 96孔培养板的数目: 12.5μl PCR rxn的总数:   1个板     96   2个板    192   3个板    288     4个板      384 dH2O   755μl   1.47ml   2.20ml     2.94ml 5×PCR预混液-4   250μl   500μl   750μl     1.0ml F引物预混液(25pmol/μl)   10μl   20μl   30μl     40μl R引物预混液(25pmol/μl)   10μl   20μl   30μl     40μl RNace-It cocktail   3.2μl   6.3μl   9.6μl     12.8μl Taq聚合酶(5U/μl)   3.2μl   6.3μl   9.6μl     12.8μl 总体积(ml)   1.01   2.02   3.03     4.04

(d)将10μl主混合物分装到PCR反应板的每个孔中

(e)从每份100μl大肠杆菌培养物中取2.5μl移入PCR反应板上的相应 孔中

(f)采用典型的PCR循环条件进行PCR反应:

(i)94℃/2分钟(细菌裂解和质粒变性),

(ii)92℃变性15秒;60℃引物退火20秒;72℃引物延伸40秒;做30 个循环,

(iii)72℃最终延伸5分钟,

(iv)维持于4℃。

(g)向PCR反应中加入溴酚蓝;将样品混匀、离心,然后将全部反应混 合物装入琼脂糖凝胶上。

(23)在所筛选的200个克隆中,78%是载体外显子阳性的。这些克隆中 的96个作为小量制备物,并依照Qiagen小量制备手册(1997年4月)用 Qiagen96孔turbo-prep纯化。

(24)将2μl DNA同时用NotI、BamHI、XhoI、HindIII、EcoRI在NEB 缓冲液3中(总体积为22μl)进行消化,然后在1%琼脂糖凝胶上电泳来除去 许多重复克隆。

结果:

用所述方案筛选两个不同的cDNA文库。在第一个文库(TMT#1)中,将 分离到的活化基因中的8个测序。在这8个基因中,4个基因编码已知的完 整膜蛋白质,6个是新基因。在第二个文库(TMT#2)中,将11个分离到的活 化基因进行测序。11个基因中,一个基因编码已知的完整膜蛋白质,一个基 因编码部分测序的与一个完整膜蛋白同源的基因,9个是新基因。在分离出 的基因对应已做鉴定的已知基因的所有情况下,该基因是完整膜蛋白质。

以下显示分离自每个文库的基因的示范性的显著性比对(得自 GenBank):

TMT#1显著性比对:

179761|gb|M76559|HUMCACNLB人神经DHP-敏感性

电压依赖性,钙通道α-2b亚单位mRNA

完整CD

长度=3600

>gi|3183974|emb|Y10183|HSMEMD人MEMD蛋白质的mRNA

长度=4235

TMT#2显著性比对:

>gi|476590|gb|U06715|HSU06715人细胞色素B561,HCYTO B561, mRNA

部分CD

长度=2463

>gi|2184843|gb|AA459959|AA459959 zx66c01.sl soares总胚胎Nb2HF8 9w人cDNA克隆7964143’类似于gb:J03171干扰素α受体前体(人)

长度=431。

实施例6:使用poly(A)陷阱载体活化内源基因

HT1080细胞(1×107细胞)用50rad 137Cs源照射,并用15μg线性化的 pRIG14(图29A-29B)进行电穿孔。转染后,将细胞以每皿5×106细胞的浓度 铺入150mm培养皿中。24小时之后,加入3μg/ml嘌呤霉素。于37℃,在 3μg/ml嘌呤霉素存在下将细胞保温12天。每5天换一次培养基。第12天 时,计数集落数目,细胞用胰蛋白酶消化,并重新铺于新培养皿上。将细胞 培养至90%铺满,收集细胞以进行冷冻储存和基因分离。一般每1×107个转 染细胞产生1000-3000个集落。

实施例7:使用二元poly(A)陷阱/SAT载体活化内源基因

1×107HH1细胞(HPRT阴性HT1080细胞)用50rad 137Cs源照射,并用 15μg线性化的pRIG-22进行电穿孔。转染后,将细胞以每皿5×106细胞的 浓度铺入150mm培养皿中。24小时之后,新霉素加至500μg/ml G481。于 37℃,在500μg/ml G481存在下将细胞保温4天。培养基用含有500μg/ml G481和AgThg的新鲜培养基置换,并在这两种药物存在下再培养7天。或 者,作为HPRT活性的对照,培养基用含有500μg/ml G481和HAT(得自Life Technologies,Inc.,Rockville,MD,并以厂商推荐的浓度使用)的新鲜培养基置 换,并在这两种药物存在下再培养7天。转染后的第12天时,计数集落数 目,细胞用胰蛋白酶消化,并重新铺于新培养皿上。将细胞培养至90%铺满, 收集细胞以进行冷冻储存和基因分离。一般说来,细胞经过G418/AgThg选 择之后,每1×107个转染细胞产生1000-3000个集落。与之形成对照的是, 细胞经过G418/HAT选择之后,每1×107个转染细胞产生约100个集落。

实施例8:分离已活化的基因

使用本发明的方法将非-靶向基因活化载体整合至真核细胞基因组。通过 将载体整合至多个细胞中,产生了文库,其中细胞表达不同的载体活化基 因。使用商用RNA分离试剂盒从这些细胞中分离RNA。在此实施例中,使 用Poly(A)Tract 1000(Promega)从细胞中分离RNA。将RNA转变为cDNA, 进行扩增,大小分级分离,并克隆至质粒中以进行分析和测序。以下是该方 法的简述:

1)将4ml GTC提取缓冲液(Poly(A)Tract 1000试剂盒-Promega)放置于 15ml聚酸酯螺旋盖试管中,并加入168μl 2-巯基乙醇,置于70℃水浴上。

2)针对每一个经处理的细胞沉淀物,将8ml稀释缓冲液置于15ml聚碳 酸酯螺旋盖试管中,加入168μl 2-巯基乙醇,并置于70℃水浴上。

3)取出在-80℃储存的细胞沉淀物(1×107-1×108个细胞),所述细胞 含有整合至其基因组的非-靶向基因活化载体。立即移取4ml GTC提取缓冲 液至细胞沉淀物上。上下吸取几次,直至沉淀物被重悬,将细胞悬浮液转移 至15ml翻盖(snap cap)聚丙烯试管中。

4)加入8ml稀释缓冲液,通过倒转进行混合。

5)加入10μl(500pmol)生物素化的寡dT引物并混合。

6)在70℃水浴上放置5分钟,每2分钟反转一次以确保均匀受热。

7)于25℃,用Sorvall HB-6转头,以7800rpm(10k×g)离心10分钟。在 此期间,通过使用Poly(A)Tract系统1000磁体,用6ml 0.5×SSC将6ml链 霉亲和素-顺磁颗粒(SA-PMP)洗涤3次。

8)洗涤3次之后,将SA-PMP重悬于6ml 0.5×SSC中。

9)移液以从RNA制品中取出上清液,加入经重悬的SA-PMP(取上清液 时要小心,不能破坏沉淀物)。

10)混合SA-PMP/RNA,并在室温下保温2分钟。

11)通过使用Poly(A)Tract系统1000磁体捕获磁珠。应注意由于液体的 粘度高,因此使所有珠沉淀需要较长时间。

12)倒出上清液,使用2ml移液管将珠重悬于1.7ml 0.5×SSC中,并转 移至2ml螺旋盖试管中。

13)使用所述磁体捕获SA-PMP,并通过用P1000移液除去上清液。

14)加入1.7ml 0.5×SSC,将试管反转几次以进行混合。

15)将步骤14和15再重复两次。

16)将SA-PMP重悬于1ml无核酸酶的水中,反转几次以进行混合。

17)捕获SA-PMP,移出mRNA。

18)将0.5ml mRNA置于两个经硅烷化的eppendorf管的每一个中,加入 50μl经DEPC-处理的3M NaOAc溶液和0.55ml异丙醇。反转几次以进行混 合,并置于-20℃放置至少4小时。

19)以最大RPM(14k)离心mRNA 10分钟。

20)小心移出上清液,用200μl 80%乙醇通过以14K RPM再次离心2分 钟而洗涤沉淀物。应注意沉淀物的颜色经常为棕色或棕黄色。这种颜色是由 残留的SA-PMP引起的。

21)取出洗涤试剂,让沉淀物在室温下干不超过10分钟。

22)将每份沉淀物重悬至5μl,并且集中到一个试管中。

23)以14K RPM离心2分钟以除去残留的SA-PMP,并小心取出mRNA。

24)通过将0.5μl稀释至99.5μl水中,并测定OD260来测定mRNA的 浓度。注意:1 OD 260=40μg RNA。

25)将PCR仪维持在4℃,通过连续添加以下成分建立受试样品和阴性 对照(HT1080)的第一链反应:

步骤1:

42μl DEPC处理过的ddH2O

4μl 10mM每种dNTP

8μl 0.1M DTT

16μl 5×MMLV第一链缓冲液

5μl(10pmol/μl)GDR1

1μl RNAsin(Promega)

4μl(1.25μg/μl)mRNA

步骤2:70℃ 1分钟

步骤3:维持于42℃

步骤4:1分钟后,加入2μl SuperScript II(Life Technologies,Inc., Rockville,MD),37℃保温30分钟

步骤5:94℃ 2分钟

步骤6:4℃/∞

步骤7:加入2μl RNase,37℃保温10分钟

步骤8:4℃/∞

26)在1%琼脂糖凝胶上分析8μl cDNA以检查cDNA合成,并使用得自 Qiagen的PCR纯化(cleanup)试剂盒,通过将70μl第一链反应产物转移入 1.5ml硅烷化的eppendorf管,并加入400μl PB,来纯化其余的cDNA。

27)转移至PCR纯化柱,以最大RPM离心2分钟。

28)将柱子拆下,倾析出径流,加入750μl PE,以最大RPM离心2分 钟。

29)将柱子拆下,倾析出径流,以最大RPM离心2分钟以便干燥树脂。

30)用50μl EB经转移柱洗脱至新的硅烷化的eppendorf管中,然后以最 大RPM离心2分钟。

31)在室温下建立第二链cDNA合成:

H2O                  8.5μl

10×PCR缓冲液         5μl

50mM MgCl2           2.5μl

10mM dNTPs            1μl

25pmol/μl GDF5Bio    10μl

25pmol/μl GDR2       10μl

第一链产物            15μl

步骤9:94℃ 1分钟

步骤10:60℃ 10分钟

加入0.25μl Taq聚合酶

步骤11:60℃ 2分钟

步骤12:72℃ 10分钟

步骤13:94℃ 1分钟

步骤14:最少再回到“步骤11”4次

步骤15:60℃ 2分钟

步骤16:72℃ 10分钟

步骤17:结束

32)用STE洗3次以制备100μl SA-PMP,并使用磁体进行收集。最后 一次洗涤之后,将珠重悬于150μl STE中。

33)使用Qiagen的PCR纯化试剂盒纯化第二链反应产物。洗脱至50μl EB中,并将第二链反应产物加入150μl PMP中。

34)室温下温和混合30分钟。

35)结合后,利用磁体收集SA-PMP,并回收径流物质(保留此物质!)。

36)磁珠用500μl STE洗3次,再用NEB 2(1×)洗1次。

37)将磁珠重悬于100μl NEB 2(1×)中。

38)加入2μl SfiI,于50℃消化30分钟,每10分钟温和混合一次。

39)用磁体回收纯化的cDNA,并小心除去上清液。

40)将产物转移至新试管中,以最大RPM离心2分钟以除去所有的珠。

41)建立PCR反应以特异性扩增RAGE活化的cDNA。

H2O                   37μl

10×PCR缓冲液          10μl

10mM dNTPs             2μl

25pmol/μl GDF 781     10μl

25pmol/μl GDR2        10μl

第二链产物             25μl

步骤1:94℃ 2分钟

步骤2:94℃ 45秒

步骤3:60℃ 10分钟

加入0.5μl Taq聚合酶

步骤4:72℃ 10分钟

步骤6:60℃ 2分钟

步骤7:72℃ 10分钟

步骤8:循环至步骤5,8更多次

步骤9:94℃ 45秒

步骤10:60℃ 2分钟

步骤11:72℃ 10分钟,每轮循环+20秒

步骤12:循环至步骤9,14更多次

步骤13:72℃ 5分钟

步骤14:维持于4℃

42)通过在1%琼脂糖凝胶上分析,检查HT1080的PCR扩增对文库物质 的特异性。如果cDNA扩增的特异性高,则可以使用Qiagen PCR纯化试剂 盒来纯化PCR产物。

43)用50μl EB将文库物质洗脱后,加入10μl NEB2、40μl dH2O和2 μl SfiI,并于50℃消化1小时。

44)加入5μl 1M NaCl和2μl NotI,于37℃消化1小时。

45)制备并电泳1%低熔点琼脂糖凝胶,并在凝胶上电泳文库物质。对物 质进行观察后,切下大小为500bp到10Kb的片断。

46)用Qiaex II Gel Extraction Protocol(Qiagen)从琼脂糖上回收文库 DNA,并将DNA洗脱至10μl EB中。在10μl总体积中将5μl该物质与4 μl pBS-HSB(SfiI/NotI)或pBS-SNS连接在一起。

47)每40μl大肠杆菌细胞用0.5μl已连接的DNA转化。

48)挑选菌落,在LB中培养过夜,分离质粒。

49)通过限制性消化和DNA测序分析基因活化的cDNA插入物。

实施例9:从扣除型cDNA库中分离活化基因

按实施例8步骤1-24所述,使用Poly-A Tract 1000系统(Promega)制 备未经转染的HT1080细胞的纯化mRNA,按下述,使用EZ-LinkTM Biotin LC-ASA试剂(Pierce)使其生物素化:

1)在硅烷化的微量离心管中加入25μl经DEPC-处理的dH2O和15μl 含有10μg HT1080 mRNA,将离心管置于冰上。

2)在柔和的光线下工作,在反应管中加入40μl已制备好的LC-ASA储 备试剂(于100%乙醇中,浓度为1mg/ml)。

3)在离心管上方5cm处设置紫外线(波长为365nm),使用该紫外线照射 反应混合物15分钟。

4)通过按厂商的说明,使反应混合物流经无RNase的MicroSpin P-30柱 (BioRad),从经标记的HT1080 mRNA中除去未连接的生物素试剂。

HT1080细胞用poly(A)陷阱pRIG活化载体转染,并按实施例1所述在 选择培养基中培养以产生耐药集落群。按实施例8所述,使用Promega Poly-A Tract 1000系统从集中的集落中制备纯化的mRNA。按实施例8步骤25所 述,使用寡GD.R1(TTTTTTTTTTTTCGTCAGCGGCCGCATCNNNNTTTAT T)(SEQ ID NO:10),由5μg此mRNA制备第一链cDNA。使反应混合物流 经Qiagen PCR快速纯化柱,将纯化的第一链cDNA回收至100μl EB中。

按下述进行生物素化的HT1080 mRNA(扣除群体)与制备自经pRIG-转 染之集落超级库的第一链cDNA(靶群体)的扣除杂交:

1)将9μg生物素化的mRNA加入含有0.5μg第一链cDNA的0.5ml 微量离心管中。

2)在该管中加入1/100体积的10mg/ml糖原,1/10体积的3M醋酸钠, pH5.5和2.6倍体积的100%乙醇,然后混合。

3)将该管于-80℃放置1小时,然后在微量冷冻离心管中离心20分钟。

4)使经沉淀的核酸团排水(drain),用70%乙醇洗涤1次,然后风干。

5)用5μl HBS(50mM HEPES,pH7.6;2mM EDTA;0.2% SDS;500mM NaCl)使沉淀物溶剂化,在上面覆盖5μl轻(light)矿物油,然后加热至95℃ 达2分钟,接着置于68℃放置24小时。

6)用100μl HB(不含SDS的HBS)稀释反应混合物,并用100μl氯仿提 取1次以除去油。

7)将经稀释的杂交混合物加至300μl经链霉亲和素包被的顺磁颗粒 (Promega),所述顺磁颗粒已用300μl HB预洗了3次。

8)室温下将混合物保温10分钟,通过磁捕获从溶液中除去SA-PMP和 结合的生物素-mRNA:DNA杂合体。

9)将步骤7和8重复1次。

10)对经清洗的溶液再进行一轮扣除杂交及对所捕获的杂合体的磁去除 (步骤1-9),不同之处如下:

步骤6:用2×PCR缓冲液(40mM Tris-HCl,pH8.4;100mM KCl)稀释杂 交反应物。

步骤7:用1×PCR缓冲液预先洗涤PMP。

根据实施例8,步骤31所述的热循环,通过混合45μl第一链cDNA, 7μl dH2O,5μl 50mM MgCl2,2μl 10mM每种dNTP的预混物,1μl 10× PCR缓冲液,20μl 12.5pmol/μl GD19F1-Bio(5’生物素-CTCGTTTAGTG CGGCCGCTCAG-ATCACTGAATTCTGACGACCT)(SEQ ID NO:14),20μl 12.5pmol/μl GD.R2(TTTTCGTCAGCGGCCGCATC)(SEQ ID NO:12)和0.5μ l Taq聚合酶,使用2次-扣除的第一链cDNA产生第二链cDNA。按实施例8, 步骤32-49所述,扩增第二链cDNA产物,对其进行进一步加工以产生基 于大肠杆菌的cDNA文库。

实施例10:选择性捕获被RIG-活化的转录物

按实施例6所述,用pRIG19活化载体(图30A-30C)转染HT1080细胞, 并在选择培养基中培养2周。根据厂商说明,使用TRIzol试剂(Life Technologies,Inc.,Rockville,MD),从含有108个细胞的沉淀物中制备总 RNA,并将总RNA溶解于720μl经DEPC-处理的dH2O(dH2ODEPC)。通过混 合80μl NEB 10×缓冲液2,8μl Promega RNasin和20μl RO1 Promega无 RNase的DNase,于37℃保温30分钟,依次用等体积的苯酚∶氯仿(1∶1)和氯 仿提取,与1/10体积的醋酸钠(pH5.5)混合,用2倍体积的100%乙醇沉淀 RNA,并将干燥的RNA沉淀物溶解于dH2ODEPC中至终浓度为4.8μg/μl, 即可从RNA制品中除去污染的基因组DNA。

通过在2ml不含RNase的微量离心管中混合150μl总RNA,150μl HBDEPC(50mM HEPES,pH7.6;2mM EDTA;500mM NaCl),3μl Promega RNasin和2.5μl(25pmol/μl)寡GD19.R1-Bio(见表1),然后于70℃保温5分 钟,接着于50℃保温15分钟,可从总细胞RNA库中选择性捕获得自pRIG19- 活化基因的mRNA转录物。用磁力捕获1ml得自Promega的经链霉亲和素 包被的顺磁颗粒(SA-PMP),用1.5ml 0.5×SSC洗涤共3次,所得SA-PMP 不重悬。将温热的寡核苷酸:RNA杂交反应物直接加至含有半-干SA-PMP的 试管中。室温下保温10分钟之后,用1ml 0.5×SSC将SA-PMP洗涤3次。

表1:引物和寡核苷酸序列 引物/寡核苷 酸序列名称                序列 SEQ ID  NO: 正向PCR引 物 GD19.F1- Bio  5’生物素-CTCGTTTAGTGCGG-  CCGCTCAGATCACTGAATTCTGACGACCT  14 GD19.F2- Bio  5’生物素-CTCGTTTAGTGGCG-  CGCCAGATCACTGAATTCTGACGACCT  15 GD19.F2  GACCTACTGATTAACGGCC-ATA  16 反向PCR引 物 GD.R1  TTTTTTTTTTTTCGTCAGCG-  GCCGCATCNNNNTTTATT  10 GD.R2  TTTTCGTCAGCGGCCGCATC  12  MRNA捕获 寡核苷酸 GD19.R1- Bio  TCGTCAGAATTCAGTGAT-CT-3’生物素  17

最终的磁捕获之后,将SA-PMP悬浮于190μl dH2ODEPC中,于68℃保 温15分钟。通过暴露于磁力中以固定化PMP,将含有RIG-活化转录物的清 亮溶液转移至微量离心管中。将63μl被捕获的RIG-活化转录物转移至PCR 管中,其中按下述使用PCR程序“1+2CDNA”进行第一和第二链cDNA合 成:

步骤1:4℃/∞:在含有RIG-活化的转录物的PCR管中加入20μl 5× Gibco BRL RT缓冲液,1μl Promega RNasin,10μl 100mM DTT,5μl各为 10mM的dNTP预混物,1μl 25pmol/μl寡核苷酸GD.R1(见表1)。

步骤2:70℃ 3分钟

步骤3:42℃ 10分钟

步骤4:加入2.5μl SuperScript II(Life Technologies,Inc.,Rockville, MD),37℃保温1小时

步骤5:94℃ 2分钟

步骤6:4℃/∞

在第一链cDNA混合物中加入2μl Stratagene RNase-It,并于37℃将混 合物保温15分钟。在反应物中加入600μl Qiagen PB试剂,然后转移至 Qiagen PCR纯化柱,并根据厂商提供的方法进行处理。从柱上将cDNA洗脱 至50μl EB中,并转移至PCR管中。按实施例9所述,使用寡核苷酸 GD19.F2-Bio(表1)和GD.R2(表1)进行第二链cDNA反应。按实施例9所述, 将第二链产物捕获在Promega SA-PMP上,不同之处在于最终的SA-PMP悬 浮液在1×NEB 4缓冲液中,使用限制性内切核酸酶AscI从颗粒上将捕获的 cDNA裂解下来。按实施例9所述,使用寡核苷酸GD19.F2和GD.R2扩增 第二链cDNA产物,使用内切核酸酶SfiI和NotI消化经扩增的cDNA,并 在克隆之前对cDNA进行大小选择。通过将cDNA集合体从Qiagen PCR纯 化柱上洗脱至30μl EB中,获得最终的cDNA纯品。使11μl cDNA与4μl 5×GibcoBRL连接酶缓冲液,4μl预先用SfiI,NotI和CIP消化而制备的 pGD5载体DNA混合。加入1μl T4 DNA连接酶,于16℃将反应混合物保 温过夜。使用1μl连接反应产物转化电-感受态大肠杆菌DH10B细胞,随后 将大肠杆菌细胞涂布于含有12.5μg/ml氯霉素的LB琼脂平板上。一般每μl 转化的连接混合物可回收60至80个细菌菌落。

实施例11:选择性捕获被RIG-活化的转录物

按实施例6所述,用pRIG19活化载体转染HT1080细胞,并在选择培 养基中培养2周。根据厂商说明,使用TRIzol试剂(Life Technologies,Inc.,), 从含有108个细胞的沉淀物中制备总RNA,并将总RNA溶解于720μl经 DEPC-处理的dH2O(dH2ODEPC)。通过混合80μl NEB 10×缓冲液2,8μl Promega RNasin和20μlRO1 Promega无RNase的DNase,于37℃保温30 分钟,依次用等体积的苯酚∶氯仿(1∶1)和氯仿提取,与1/10体积的醋酸钠 (pH5.5)混合,用2倍体积的100%乙醇沉淀RNA,并将干燥的RNA沉淀物 溶解于dH2ODEPC中至终浓度为4.8μg/μl,即可从RNA制品中除去污染的基 因组DNA。

通过在2ml不含RNase的微量离心管中混合150μl总RNA,150μl HBDEPC(50mM HEPES,pH7.6;2mM EDTA;500mM NaCl),3μl Promega RNasin和2.5μl(25pmol/μl)寡核苷酸GD19.R1-Bio(见表1),然后于70℃保 温5分钟,接着于50℃保温15分钟,可从总细胞RNA库中选择性捕获得自 pRIG19-活化的基因的mRNA转录物。用磁力捕获1ml得自Promega的经链 霉亲和素包被的顺磁颗粒(SA-PMP),用1.5ml 0.5×SSC洗涤共3次,所得 SA-PMP不重悬。将温热的寡核苷酸:RNA杂交反应产物直接加至含有半-干 SA-PMP的试管中。室温下保温10分钟之后,用1ml 0.5×SSC将SA-PMP 洗涤3次。最终的磁捕获之后,将SA-PMP悬浮于190μl dH2ODEPC中,于 68℃保温15分钟。通过暴露于磁力中以固定化PMP,将含有RIG-活化的转 录物的清亮溶液转移至微量离心管中。将63μl被捕获的RIG-活化转录物转 移至PCR管中,其中按下述使用PCR程序“1+2CDNA”进行第一和第二 链cDNA合成:

步骤1:4℃/∞:在含有RIG-活化转录物的PCR管中加入20μl 5×Gibco BRL RT缓冲液,1μl Promega RNasin,10μl100mM DTT,5μl各为10mM 的dNTP预混物,1μl 25pmol/μl寡核苷酸GD.R1(见表1)。

步骤2:70℃ 3分钟

步骤3:42℃ 10分钟

步骤4:加入2.5μl SuperScript II(Life Technologies,Inc),37℃保温1 小时

步骤5:94℃ 2分钟

步骤6:60℃/∞;在保持温度的同时加入下列物质:2μl 50mM MgCl2, 1μl 25pmol/μl寡核苷酸GD19.F1-Bio(见表1)和2μl Stratagene RNase-It。 10分钟之后,加入0.5μl Taq DNA聚合酶(Life Technologies,Inc),并继续循 环:

步骤7:72℃ 10分钟

步骤8:4℃/∞

将100μl体积的cDNA反应混合物转移至1.5ml硅烷化的微量离心管 中,依次用等体积的苯酚∶氯仿(1∶1)和氯仿提取,将水相转移至新管中,于37 ℃置于真空离心蒸发浓缩器(Speed-vac)中5分钟。通过加入74μl dH2O,20 μl NEB 10×缓冲液2,2μl 1mg/ml BSA,4μl SfiI,并于50℃保温1小时, 然后加入10μl 1M NaCl,4μl NotI并于37℃再保温1小时,而对cDNA进 行限制性消化。依次用等体积的苯酚∶氯仿(1∶1)和氯仿提取反应混合物,然后 通过加入1/100体积的10mg/ml糖原,1/30体积的3M醋酸钠,pH7.5和2 倍体积的100%无水乙醇,并于-80℃冷冻1小时以沉淀cDNA。用70%乙 醇将cDNA沉淀物洗涤1次,风干15分钟,然后在5μl dH2O,1μl 10× NEB连接酶缓冲液,4μl预先用SfiI,NotI和CIP消化而制备的pGD5载体 DNA中溶解。加入0.5μl T4 DNA连接酶,于16℃将反应混合物保温过夜。 在连接反应物中加入10μl dH2O,使用0.5μl连接反应物转化电-感受态大肠 杆菌DH10B细胞。一般每μl转化的连接混合物可回收6至10个菌落。

实施例12:连接活化载体与基因组DNA并转染至人的细胞

根据已公开的方法(Sambrook等,分子克隆,冷泉港实验室出版社, (1989)),从人细胞系HT1080(108个细胞)中收集基因组DNA。在导致不完全 消化的条件下用BamHI消化分离的基因组DNA。通过在反应中滴加BamHI 即可达到此目的。每个反应中含有10μg基因组DNA,和浓度为0.01,0.02, 0.04,0.08,0.16,0.32,0.64,1.28,2.56,5.62或11.24个单位的BamHI。于37℃ 保温1小时之后,通过苯酚提取,然后进行乙醇沉淀以终止反应。通过琼脂 糖凝胶电泳分离来自每个反应的经消化的DNA。混合主要含有10kb至400kb DNA的反应以与活化载体连接。然后将集中的经消化的基因组DNA加入含 有经BamHI线性化的活化载体的1×连接缓冲液中。加入连接酶(Life Technologies,Inc,40个单位),于16℃将连接反应物保温24小时。连接之 后,根据厂商提供的方法,使用LIPOFECTIN(Life Technologies,Inc)将基 因组DNA/活化载体转染至HT1080细胞。任选地,在转染之前或之后照射 HT1080细胞。当照射细胞时,发现剂量范围为0.1rad至200rad最有效。转 染之后,在完全培养基中培养细胞。在转染之后36小时,在培养基中加入 G418(300μg/ml)。在选择之后10至14天,集中,扩增和收集耐药克隆。从 收获的细胞中收集总RNA或mRNA。然后使用本文所述的方法(例见上文实 施例8)合成和分离得自载体活化基因的cDNA。

实施例13:用活化载体共转染BAC重叠群克隆

根据已公开的方法(Shizuya等,美国国家科学院学报89:8794(1992)), 在pUniBAC(图34A-34B)中产生基因组文库。一般说来,基因组片断的大 小可以为1kb至500kb,优选为50kb至500kb。在大肠杆菌中增殖BAC文 库。为了制备转染用的质粒,将文库涂布于含有12.5μg/ml氯霉素的LB琼 脂平板上。每个150mm平板上出现约1000个克隆。培养和选择之后,通过 加入LB从每个琼脂平板上洗下菌落并集中起来。在1升LB/12.5μg/ml氯 霉素中将每份集中的菌落(约10000个克隆)培养过夜。然后使用商用试剂盒 (Qiagen)从每份集中的菌落中分离BAC质粒。

用I-Ppo-I消化纯化的BAC克隆,该酶裂解BAC载体上侧翼于克隆位 点的唯一位点。由于I-Ppo-I是非常罕见的切割酶,它不会消化绝大多数基因 组DNA插入物。消化之后,根据厂商说明,使用LIPOFECTIN(Life Technologies,Inc)将线性化的基因组文库克隆共转染至HT1080细胞。简单地 说,在a-MEM(无血清)中混合10μg BAC基因组DNA与1μg线性化的 pRIG20(图31A-31C)。在DNA中加入5μg LIPOFECTIN,室温下保温混 合物15分钟。然后将DNA/LIPOFECTIN混合物加入6孔平皿的105HT1080 细胞中。在无血清的a-MEM中将细胞与DNA/LIPOFECTIN保温12小时, 洗涤细胞,并将其于a-MEM/10%FBS中放置36小时。为了选择已整合了载 体和基因组DNA的细胞,将经转染的细胞重新铺于10cm平皿中,在300μ g/ml G418存在下保温10天。按本文实施例8所述扩增并收集耐药克隆以分 离活化的cDNA分子。

实施例14:将活化载体体外整合至纯化的基因组DNA中并将整合产物 转染至宿主细胞中

使用公开的方法(Sambrook等,分子克隆,冷泉港实验室出版社,(1989); Shizuya等,美国国家科学院学报89:8794(1992)),分离基因组DNA并将其 克隆至细菌人工染色体pUniBAC(图34A-34B)中。将基因组插入物连接至 pUniBAC之后,将该质粒转化至大肠杆菌菌株DH10B(Life Technologies, Inc),并在四环素上进行选择。将各个细菌克隆集中为含有约1000个成员的 库。在1升LB/四环素中将每个库培养至饱和。使用商用试剂盒(Qiagen)从细 菌中分离含有基因组DNA插入物的pUniBAC质粒。

对每个pUniBAC克隆库而言,于37℃,将2μg文库与50ng活化载体 pRIG-T和1个单位的突变的Tn5转座酶一起保温2小时(转座酶可得自 Epicentre Technologies)。保温之后,将pUniBAC克隆转化至DH10B细胞中, 并进行氯霉素选择。组合每个库中的所有集落,并在1升LB/氯霉素上培养。 根据厂商说明,使用Qiagen Tip-500柱收获质粒。

对每个库而言,根据厂商说明,使用30μg Ex-gen 500(MBI Fermentas) 将20μg文库转染至2×106个HT1080细胞。在转染后48小时,将细胞置 于含有3μg/ml嘌呤霉素的培养基中。在嘌呤霉素存在下培养10天之后, 集中,扩增并收获耐药克隆以发现基因。为了分离经载体活化的基因,可按 实施例8所述分离每个细胞库的mRNA,将其转变为cDNA,并克隆至质粒 中。通过限制性消化和测序分析各个cDNA克隆。

实施例15:由克隆的基因组DNA产生蛋白质表达文库

按实施例13和14所述,在pUniBAC中产生含有基因组DNA插入物(平 均大小为100kb)的基因组文库。(注意:在本发明的一些实施方案中,将基因 组片段克隆至活化载体的线性化位点,其中活化载体优选为YAC,BAC, PAC或基于粘粒的载体)。在此实施例中,按实施例14所述,利用体外转座 将活化载体pRIG-TP整合至BAC基因组文库。图36中显示了pRIG-TP。整 合之后,将文库质粒转化至大肠杆菌,在氯霉素平板上选择含有整合的 pRIG-TP载体的BAC载体。集中菌落,在LB/四环素中培养至饱和。使用商 用试剂盒(Qiagen)收集BAC质粒。

对于每次转染而言,根据厂商说明,使用30μg Ex-gen 500(MBI Fermentas)将20μg BAC文库转染至2×106个HT1080细胞。在转染后48 小时,将细胞置于含有3μg/ml嘌呤霉素的培养基中。选择10天之后,集 中并扩增耐药克隆。将经扩增的耐药克隆库分成独立的组以进行冷冻,蛋白 质生产和附加体扩增。

为了分离并检测活化的分泌蛋白,收集培养物上清液,储存于-80℃直 至用于特定的试验。从细胞裂解物(通过本领域已知的任何方法制备)中收集 被活化的细胞内蛋白质并用于体外试验。

为了扩增BAC附加体的拷贝数,用浓度渐增的氨甲碟呤选择细胞。在 这些实验中,氨甲碟呤的起始浓度为20nM。每过7天使氨甲碟呤的浓度加 倍直至得到抗5μM的细胞。在每个氨甲碟呤浓度,取出一部分细胞进行储 存和蛋白质生产。如对非-氨甲碟呤选择的细胞的所述,从这些细胞中收集经 活化的分泌型和细胞内的蛋白质。

为了清楚理解的目的,通过阐述和实施例对本发明进行详细描述后,本 领域技术人员容易想到,可以在更宽和等效的条件配方以及其他参数范围 内对本发明进行改进或变化,而不会影响本发明的范围或其任何具体实施方 案,并且所述改进或变化包括在所附权利要求书的范围内。

本说明书提及的所有出版物、专利和专利申请用于表明与本发明相关的 本领域技术人员的技术水平,此处相同程度地引入作为参考文献,并视作每 篇出版物、专利和专利申请均是具体并单独地引入作为参考文献。

与相关申请的交叉参考

本申请是John.Harrington,Bruce Sherf和Stephen Rundlett于1999年3 月8日提交的,题为“非靶向活化内源基因的组合物和方法”的美国申请号 (__)的部分继续申请,而后者是1998年9月24日提交的美国申请号09/159, 643的部分继续申请,09/159,643是1997年9月26日提交的美国申请号 08/941,223的部分继续申请,所有这些内容都全文列入本文作为参考。

                         发明背景 

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈