遗传和表观遗传调节蛋白至特定基因组基因座的RNA引导的靶向

申请号 CN201480026276.5 申请日 2014-03-14 公开(公告)号 CN105408483A 公开(公告)日 2016-03-16
申请人 通用医疗公司; 发明人 J.K.乔昂格; M.梅德;
摘要 用于将异源功能性结构域诸如转录激活物RNA引导靶向特定基因组基因座的方法和构建体。本 发明 涉及用于将基因和表观基因调控蛋白,例如转录及货物,组蛋白修饰酶,DNA甲基化修饰物,RNA引导靶向特定的基因座的方法和构建物。本发明至少部分基于融合蛋白的开发,包括融合到Cas9核酸酶的异源功能性结构域(例如,转录激活结构域),所述Cas9核酸酶通过突变具有其核酸酶活性失活(也称为“dCas9”)。
权利要求

1.一种融合蛋白,其包含连接于异源功能性结构域的无催化活性的CRISPR相关
9(dCas9)蛋白。
2.根据权利要求1所述的融合蛋白,其中所述异源功能性结构域是转录激活结构域。
3.根据权利要求2所述的融合蛋白,其中所述转录激活结构域来自VP64或NF-κB p65。
4.根据权利要求1所述的融合蛋白,其中所述异源功能性结构域是转录沉默子或转录抑制结构域。
5.根据权利要求4所述的融合蛋白,其中所述转录抑制结构域是Krueppel相关盒(KRAB)结构域、ERF抑制结构域(ERD)或mSin3A相互作用结构域(SID)。
6.根据权利要求4所述的融合蛋白,其中所述转录沉默子是异染色质蛋白1(HP1),例如HP1α或HP1β。
7.根据权利要求1所述的融合蛋白,其中所述异源功能性结构域是修饰DNA的甲基化状态的酶。
8.根据权利要求7所述的融合蛋白,其中修饰DNA的甲基化状态的酶是DNA甲基转移酶(DNMT)或TET蛋白。
9.根据权利要求8所述的融合蛋白,其中所述TET蛋白是TET1。
10.根据权利要求1所述的融合蛋白,其中所述异源功能性结构域是修饰组蛋白亚单位的酶。
11.根据权利要求1所述的融合蛋白,其中修饰组蛋白亚单位的酶是组蛋白乙酰转移酶(HAT)、组蛋白脱乙酰基酶(HDAC)、组蛋白甲基转移酶(HMT)或组蛋白脱甲基酶。
12.根据权利要求1所述的融合蛋白,其中所述异源功能性结构域是生物系链。
13.根据权利要求12所述的融合蛋白,其中所述生物系链是MS2、Csy4或λN蛋白。
14.根据权利要求1所述的融合蛋白,其中所述无催化活性的Cas9蛋白来自化脓性链球菌。
15.根据权利要求1所述的融合蛋白,其中所述无催化活性的Cas9蛋白在D10、E762、H983或D986;以及在H840或N863处包含突变。
16.根据权利要求15所述的融合蛋白,其中所述突变是:
(i)D10A或D10N,和
(ii)H840A、H840N或H840Y。
17.根据权利要求1所述的融合蛋白,其中通过任选的间插接头将所述异源功能性结构域连接于无催化活性的Cas9蛋白的N末端或C末端,其中所述接头不干扰所述融合蛋白的活性。
18.根据权利要求1所述的融合蛋白,其还任选地通过一个或多个间插接头在N末端、C末端上和/或在所述无催化活性的CRISPR相关9(Cas9)蛋白与所述异源功能性结构域之间中包含核定位序列和一个或多个表位标签的一者或两者。
19.根据权利要求18所述的融合蛋白,其中所述表位标签是c-myc、6His或FLAG。
20.一种核酸,其编码权利要求1-19的任一项的融合蛋白。
21.一种表达载体,其包含权利要求20的核酸。
22.一种增加靶基因在细胞中的表达的方法,所述方法包括在所述细胞中表达权利要求2-3的融合蛋白,和一个或多个被导向所述靶基因的引导RNA。
23.一种减少细胞中的靶基因的方法,所述方法包括在所述细胞中表达权利要求4-6的融合蛋白,和一个或多个被导向所述靶基因的引导RNA。
24.一种减少细胞中的靶基因或其启动子或增强子的DNA甲基化的方法,所述方法包括在所述细胞中表达权利要求7-9的融合蛋白,和一个或多个被导向所述相关靶基因序列的引导RNA。
25.一种修饰细胞中与靶基因或其启动子或增强子相关的组蛋白的方法,所述方法包括在所述细胞中表达权利要求10-11的融合蛋白,和一个或多个被导向所述相关靶基因序列的引导RNA。

说明书全文

遗传和表观遗传调节蛋白至特定基因组基因座的RNA引导

的靶向

[0001] 优先权的声明
[0002] 本申请要求2013年3月15日提交的美国专利申请系列第61/799,647号、2013年6月21日提交的美国专利申请系列第61/838,178号、2013年6月21日提交的美国专利申请系列第61/838,148号和2013年12月26日提交的美国专利申请系列第61/921,007号
的权益。前述专利申请系列号的完整内容在此通过引用并入。
[0003] 联邦资助的研究或开发
[0004] 本发明是在由美国国家卫生研究院授予的基金第DP1GM105378号和由国防部的国防高等研究计划署(DARPA)授予的W911NF-11-2-0056下借助政府资助进行的。政府具有本发明的某些权利。

技术领域

[0005] 本发明涉及用于将遗传和表观遗传调节蛋白,例如,转录激活物、组蛋白修饰酶、DNA甲基化修饰剂RNA引导靶向至特定基因组基因座的方法和组合物。
[0006] 背景
[0007] 被称为CRISPR/Cas系统的成簇规律间隔短回文重复(CRISPR)和CRISPR相关(cas)基因被不同细菌和古细菌(archaea)用来介导抵抗病毒和其它外来核酸的防御。这些系统使用小RNA来以序列特异性方式检测和沉默外来核酸。
[0008] 已 描 述 了 3 个 类 型 的 CRISPR/Cas 系 统 (Makarova 等,Nat.Rev.Microbiol.9,467(2011);Makarova 等,Biol.Direct 1,7(2006);Makarova 等,Biol.Direct 6,38(2011))。最近的工作已显示II型CRISPR/Cas系统可被工程化来通过使用与DNA靶位点具有互补性的单一“引导RNA”和Cas9核酸酶在体外将靶向双链DNA断裂导向特定序列(Jinek等,Science 2012;337:816–821)。该可靶向的基于Cas9的系统也在培养的人细胞中(Mali等,Science.2013年2月15日;339(6121):823-6;Cong等,Science.2013年2月15日;339(6121):819-23)以及在斑鱼中在体内起作用(Hwang和Fu等,Nat Biotechnol.2013年3月;31(3):227-9)以诱导至内源基因内的靶向改变。
[0009] 概述
[0010] 本发明至少部分基于融合蛋白的开发,所述融合蛋白包括与其核酸酶活性已通过突变灭活的Cas9核酸酶(也称为“dCas9”)融合的异源功能性结构域(例如,转录激活结构域)。虽然公布的研究已使用引导RNA将具有催化活性但失活的Cas9核酸酶蛋白靶向特定基因组基因座,但还没有工作改造该系统来适用于招募另外的效应子结构域。该工作还提供了导致靶基因的表达平的升高(而非降低)的RNA引导的过程的首次例证。
[0011] 另外,本公开还提供了多重gRNA可用于将多种dCas9-VP64融合物带至单个启动子,从而导致转录的协同激活的首次例证。
[0012] 因此,在第一方面,本发明提供包含连接于异源功能性结构域(HFD)的无催化活性的CRISPR相关9(dCas9)蛋白的融合蛋白,所述异源功能性结构域修饰基因表达、组蛋白或DNA,例如转录激活结构域、转录阻遏物(例如,沉默子诸如异染色质蛋白1(HP1),例如HP1α或HP1β,或转录抑制结构域,例如,Krueppel相关盒(KRAB)结构域、ERF抑制结构域(ERD)或mSin3A相互作用结构域(SID))、修饰DNA的甲基化状态的酶(例如,DNA甲基转移酶(DNMT)或10-11易位(TET)蛋白,例如,也称为Tet甲基胞嘧啶双加酶1的TET1)或修饰组蛋白亚单位的酶(例如,组蛋白乙酰转移酶(HAT)、组蛋白脱乙酰酶(HDAC)或组蛋白脱甲基酶)。在一些实施方案中,所述异源功能性结构域是转录激活结构域,例如,来自VP64或NF-κB p65的转录激活结构域;催化DNA脱甲基化的酶,例如,TET;或组蛋白修饰(例如,LSD1、组蛋白甲基转移酶、HDAC或HAT)或转录沉默结构域,例如,来自异染色质蛋白1(HP1),例如,HP1α或HP1β;或生物系链,例如CRISPR/Cas亚型Ypest蛋白4(Csy4)、MS2或λN蛋白。
[0013] 在一些实施方案中,无催化活性的Cas9蛋白来自化脓性链球菌(S.pyogenes)。
[0014] 在一些实施方案中,无催化活性的Cas9蛋白在D10、E762、H983或D986;以及在H840或N863,例如在D10和H840处包含突变,例如D10A或D10N和H840A或H840N或H840Y。
[0015] 在一些实施方案中,所述异源功能性结构域通过任选的间插接头连接于无催化活性的Cas9蛋白的N末端或C末端,其中所述接头不干扰融合蛋白的活性。
[0016] 在一些实施方案中,所述融合蛋白在N末端、C末端或无催化活性的CRISPR相关9(Cas9)蛋白与异源功能性结构域之间中包括核定位序列和一个或多个表位标签(例如,c-myc、6His或FLAG标签)的任一者或两者,任选地具有一个或多个间插接头。
[0017] 在其它方面,本发明提供编码本文中描述的融合蛋白的核酸以及包含所述核酸的表达载体,和表达所述融合蛋白的宿主细胞。
[0018] 在另外的方面,本发明提供用于增加靶基因在细胞中的表达的方法。所述方法包括例如通过细胞与包括编码所述融合蛋白的序列的表达载体接触在所述细胞中表达如本文所述Cas9-HFD融合蛋白,以及还例如通过将细胞与一个或多个包含编码一个或多个引导RNA的核酸序列的表达载体接触来在细胞中表达一个或多个具有针对靶基因的互补性的引导RNA。
[0019] 除非另有定义,否则本文所用的所有技术和/或科学术语具有与本发明所属领域的普通技术人员通常所理解的含义相同的含义。本文中描述了用于本发明的方法和材料;还可使用本领域中已知的其它合适的方法和材料。所述材料、方法和实施例仅为示例性的并非旨在限制。本文中提及的所有出版物、专利申请、专利、序列、数据库条目和其它参考文献通过引用整体并入。如发生矛盾,则以本专利说明书包括定义为准。
[0020] 根据以下详细说明和附图以及权利要求,本发明特征和有利将是显而易见的。
[0021] 附图概述
[0022] 本专利或申请文件含有至少一个以彩色绘制的附图。具有彩色附图的本专利或专利申请公布的拷贝可在请求和支付必要的费用后由专利局提供。
[0023] 图1A是显示单一引导RNA(sgRNA)将Cas9核酸酶招募至特定DNA序列,从而引入靶向改变的示意图。显示的引导RNA的序列为GGAGCGAGCGGAGCGGUACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCG(SEQ ID NO:9)。
[0024] 图1B是显示用于将Cas9核酸酶招募至特定DNA序列,从而引入靶向改变的sgRNA的较长形式的示意图。显示的引导RNA的序列为GGAGCGAGCGGAGCGGUACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU(SEQ ID NO:10)。
[0025] 图1C是显示与转录激活结构域融合并被sgRNA招募至特定DNA序列的Cas9蛋白,所述Cas9蛋白含有D10A和H840A突变以使得蛋白质的核酸酶部分无催化活性。显示的引导RNA的序列为GGAGCGAGCGGAGCGGUACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU(SEQ ID NO:10)。
[0026] 图1D是描绘dCas9-VP64融合蛋白被嵌合sgRNA招募至特定基因组靶序列的示意图。
[0027] 图1E是举例说明16个sgRNA被靶向内源人VEGFA基因启动子的位置和取向的简图。小的水平箭头代表与基因组DNA序列互补的gRNA的前20nt,箭头从5’指向3’。灰色条指示先前在人293细胞中确定的相对于转录起始位点(直箭头)编号的DNA酶I高敏位点(Liu等,J Biol Chem.2001年4月6日;276(14):11323-34)。
[0028] 图2A是显示各种sgRNA对293细胞中的VEGFA蛋白表达的激活的条线图,每种与(灰色条)或不与(黑色条块)dCas9-VP64一起表达。计算相对于如方法中描述的脱靶sgRNA对照的VEGFA的激活倍数。以一式三份进行每一个实验,误差条代表平均值的标准误差。星号表示如通过配对单侧t检验(p<0.05)测定的被显著升高高于脱靶对照的的样品。
[0029] 图2B是显示多重sgRNA表达通过dCas9-VP64蛋白诱导VEGFA蛋白表达的协同激活的条线图。显示其中将指定的sgRNA组合与dCas9-VP64共表达的293细胞中的VEGFA蛋白的激活倍数。注意,在所有这些实验中,每一种用于转染的单独的sgRNA表达质粒的量相同。如2A中所述计算激活倍数值并以灰色条块显示。将每一个组合的由单独的sgRNA诱导的平均激活倍数值的计算的总和显示为黑色条块。星号表示被发现显著大于如通过方差分析(ANOVA)(p<0.05)测定的预期总和的所有组合。
[0030] 图3A是举例说明被靶向内源人NTF3基因启动子的6个sgRNA的位置和取向的简图。水平箭头代表与基因组DNA序列互补的sgRNA的前20nt,箭头从5’指向3’。灰线表示从UCSC基因组浏览器上的ENCODE DNA酶I超敏反应跟踪鉴定的潜在开放染色质的区域,条的更粗部分表示首先转录的外显子。显示的编号是相对于转录起始位点的(+1,直角箭头)。
[0031] 图3B是显示293细胞中sgRNA引导的dCas9-VP64对NTF3基因表达的激活的条线图。显示了用指定量的dCas9-VP64和NTF3靶向sgRNA表达质粒共转染的293细胞的通
4
过定量RT-PCR检测的并针对GAPDH对照(ΔCt x 10)标准化的NTF3mRNA的相对表达。以一式三份进行所有实验,误差条表示平均值的标准误差。星号表示如通过配对单侧T检验(P<0.05)测定比脱靶gRNA对照显著更大的样品。
[0032] 图3C是显示多重gRNA表达通过dCas9-VP64蛋白诱导NTF3 mRNA表达的协同激活。显示了用dCas9-VP64和指定的NTF3靶向gRNA表达质粒的组合共转染的293细胞的通过定量RT-PCR检测的并针对GAPDH对照(ΔCt x 104)标准化的NTF3mRNA的相对表达。注意,在所有这些实验中,每一个用于转染的单独的gRNA表达质粒的量相同。以一式三份进行所有实验,误差条表示平均值的标准误差。显示了每一个组合的由单独的gRNA诱导的平均激活倍数值的计算的总和。
[0033] 图4是sgRNA表达载体的示例性序列。
[0034] 图5是CMV-T7-Cas9D10A/H840A-3XFLAG-VP64表达载体的示例性序列。
[0035] 图6是CMV-T7-Cas9记录的D10A/H840A-3XFLAG-VP64表达载体的示例性序列。
[0036] 图7是Cas9-HFD即Cas9-激活物的示例性序列。任选的3xFLAG序列加以下划线;核定位信号PKKKRKVS(SEQ ID NO:11)以小写显示;两个接头以粗体显示;以及VP64转录激活物序列DALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDML(SEQ ID NO:12)加框表示。
[0037] 图 8A-8B 是 (8A)dCas9-NLS-3XFLAG-HP1α 和 (8B)dCas9-NLS-3XFLAG-HP1β的示例性序列。框=核定位信号;下划线=三重flag标签;双下划线=HP1α铰链和chromoshadow结构域。
[0038] 图9为dCas9-TET1的示例性序列。
[0039] 图10是显示利用各种dCas9-VP64融合构建体获得的结果的条线图。所测试的那些构建体中,最优化的dCas9-VP64体系结构包括N末端NLS(NFN)和位于dCas9与VP64之间的另外的NLS(N)或FLAG标签/NLS(NF)。VEGFA基因在人HEK293细胞中的表达通过由RNA引导的dCas9-VP64融合物介导的转录激活来激活。将编码dCas9-VP64的变体的表达质粒与表达3个靶向VEGFA起始密码子的上游区域中的位点的gRNA(在本实验中,从单一gRNA表达gRNA并且通过Csy4内切核糖核酸酶加工出所述gRNA)的质粒共转染。VEGFA蛋白表达通过ELISA来测量,并且显示了两个重复的平均值,误差东躲西藏表示平均值的标准误差。
[0040] 图11A-B是显示具有使Cas9催化功能灭活的替代性取代突变的dCas9-VP64激活物的活性的条线图。(11A)将表达具有对残基D10和H840的各种Cas9灭活取代的dCas9-VP64蛋白的质粒各自与单一gRNA或3个不同的靶向VEGFA上游区域的靶向gRNA(分别为蓝色和红色条块)共转染进HEK293细胞。(11B)还将表达这些dCas9-VP64变体的质粒转染进稳定地表达单个VEGFFA靶向gRNA的HEK293细胞系。通过ELISA测定VEGFA蛋
白水平,显示了两个重复的平均值和平均值的标准误差(误差条)。
[0041] 详述
[0042] 本文中描述了与Cas9蛋白的无催化活性的形式融合(出于使得能够在细胞和活生物体中将这些功能性结构域RNA引导地靶向特定基因组位置的目的)的异源功能性结构域(例如,转录激活结构域)的融合蛋白。
[0043] CRISPR/Cas系统在细菌中已进化为保护细菌免受侵入质粒和病毒伤害的防御机制。来源于外来核酸的短的原型间隔序列被整合在CRISPR基因座中,随后被翻译和加工成短的CRISPR RNA(crRNA)。这些与第二tracrRNA复合的crRNA随后使用它们的与侵入核酸互补的序列来引导Cas9介导的断裂,和随后外来核酸的破坏。在2012年,Doudna和同事证明由crRNA与tracrRNA的融合物组成的单一引导RNA(sgRNA)可在体外介导Cas9核酸酶至特定DNA序列的招募(图1C;Jinek等,Science 2012)。
[0044] 最近,sgRNA的更长形式已被用于在人细胞和斑马鱼中引入靶向改变(图1B;Mali 等 Science 2013,Hwang 和 Fu 等,Nat Biotechnol.2013 年 3 月;31(3):227-9)。
Qi等证明Cas9的无催化活性突变形式(被称为dCas9)的gRNA介导的招募可导致大
肠杆菌(E.coli)中的特定内源基因以及人细胞中的EGFP报告基因的抑制(Qi等,Cell
152,1173–1183(2013))。虽然本研究显示采用RNA引导的Cas9技术调控基因表达的潜能,但其不测试或显示异源功能性结构域(例如-转录激活结构域)是否可被融合于dCas9而不破坏其被可编程sgRNA或双重gRNA(dgRNA–即-定制的crRNA和tracrRNA)招募至特
定基因组位点的能
[0045] 如本文中所述,除了引导Cas9介导的核酸酶活性外,还可能使用CRISPR衍生的RNA来将与Cas9融合的异源功能性结构域(Cas9-HFD)靶向基因组中的特定位点(图1C)。例如,如本文中所述,可能使用单一引导RNA(sgRNA)来将Cas9-HFD例如Cas9转录激活物(在下文中被称为Cas9激活物)靶向特定基因的启动子,从而增加靶基因的表达。因此,可将Cas9-HFD定位至基因组中的位点,靶特异性由引导RNA的序列互补性确定。靶序列还包括PAM序列(与由RNA指定的序列相邻的由Cas9蛋白指定的2-5个核苷酸序列)。
[0046] Cas9-HFD通过将异源功能性结构域(例如,例如来自VP64或NF-κB p65的转录激活结构域)与无催化活性的Cas9蛋白的N末端或C末端融合来生成。
[0047] Cas9
[0048] 许多细菌表达Cas9蛋白变体。来自化脓性链球菌(Streptococcus pyogenes)的Cas9是目前最常使用的;一些另外的Cas9蛋白与化脓性链球菌Cas9具有高水平的序列同一性,并且使用相同的引导RNA。其它的更加多样,使用不同的gRNA,并且同样地识别不同的PAM序列(与由RNA指定的序列相邻的由蛋白质指定的2-5个核苷酸的序列)。Chylinski等将来自一大组细菌的Cas9蛋白分类(RNA Biology10:5,1–12;2013),并且许多Cas9蛋白列于补充图1和其补充表1中,所述图表通过引用并入本文。另外的Cas9蛋白描述于Esvelt等,Nat Methods.2013年11月;10(11):1116-21和Fonfara等,“Phylogeny of Cas9 determines functional exchangeability of dual-RNA and Cas9 among orthologous type II CRISPR-Cas systems.”Nucleic Acids Res.2013年11月22日中。[先于印刷的电子出版]doi:10.1093/nar/gkt1074。
[0049] 许多物种的Cas9分子可用于本文中描述的方法和组合物。虽然化脓性链球菌和嗜热链球菌Cas9分子是本文中的许多公开内容的主题,但同样地可使用本文中所列的其它物种的Cas9分子、来源于或基于所述物种的Cas9蛋白的Cas9分子。换句话说,虽然本文中的许多描述使用化脓性链球菌和嗜热链球菌Cas9分子,但来自其它物种的Cas9分子可替代它们。此类物种包括下表中所示的那些物种,所述表是基于Chylinski等,2013的补充图1产生的。
[0050]
[0051]
[0052]
[0053] 本文中描述的构建体和方法包括任何那些Cas9蛋白以及它们对应的引导RNA或相容的其它引导RNA的使用。已显示来自嗜热链球菌LMD-9CRISPR1系统的Cas9在Cong等(Science 339,819(2013))中的人细胞中起作用。另外,Jinek等人在体外显示来自嗜热链球菌和英诺克李斯特菌(L.innocua)(但非来自奈瑟氏脑膜炎球菌或空肠弯曲菌(C.jejuni)的Cas9直系同源物(其可使用不同的引导RNA)可被双重化脓性链球菌gRNA导向裂解靶质粒DNA,虽然效率略有降低。
[0054] 在一些实施方案中,本系统利用来自化脓性链球菌的Cas9蛋白(如在细菌中编码的或针对在哺乳动物细胞中的表达进行密码子最优化的),其在D10、E762、H983或D986和H840或N863处含有突变,例如D10A/D10N和H840A/H840N/H840Y,以使得蛋白的核酸酶部分催化失活;这些位置上的取代可以是丙酸(如它们在Nishimasu等,Cell 156,935–949(2014)中一样)或它们可以是其它残基,例如谷氨酰胺、天冬酰胺、酪氨酸、丝氨酸或天冬氨酸,例如,E762Q、H983N、H983Y、D986N、N863D、N863S或N863H(图1C)。可用于本文中描述的方法和组合物的自由化来活的化脓性链球菌Cas9的序列如下;D10A和H840A的示例性突变以粗体表示并加以下划线。
[0055]
[0056]
[0057] 在一些实施方案中,本文中使用的Cas9核酸酶与化脓性链球菌Cas9的序列具有至少约50%的同一性,即与SEQ ID NO:13具有至少50%的同一性。在一些实施方案中,所述核苷酸序列与SEQ ID NO:13具有约50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%或100%的同一性。
[0058] 在一些实施方案中,本文中使用的无催化活性的Cas9与无催化活性的化脓性链球菌Cas9的序列具有至少约50%的同一性,即,与SEQ ID NO:13具有至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%或100%的同一性,其中D10和H840处的突变,例如D10A/D10N和H840A/H840N/H840Y得到保持。
[0059] 在一些实施方案中,与SEQ ID NO:13的任何差异在非保守区中,如通过Chylinski等,RNA Biology 10:5,1–12;2013(例如,在补充图1及其补充表1中);
Esvelt等,Nat Methods.2013年11月;10(11):1116-21和Fonfara等,Nucl.Acids Res.(2014)42(4):2577-2590中所示的序列的序列比对鉴定的。[2013年11月22日先于印刷的电子版]doi:10.1093/nar/gkt1074,并且其中D10和H840处的突变,例如,D10A/D10N和H840A/H840N/H840Y得到保持。
[0060] 为了测定两个序列的百分比同一性,为了最佳比较目的,将所述序列比对(可根据需要在第一和第二氨基酸或核酸序列的一个或两个序列中引入缺口以进行最佳比对,并且为了比较目的可忽略非同源序列)。为了比较目的而比对的参照序列的长度为至少50%(在一些实施方案中,比对约50%、55%、60%、65%、70%、75%、85%、90%、95%或100%的参照序列的长度)。随后比较对应位置上的核苷酸或残基。当第一序列中的位置被与第二序列中的对应位置相同的核苷酸或残基占据时,则所述分子在该位置上是相同的。两个序列之间的百分比同一性是由序列序列共享的相同位置的数目的函数,该函数考虑了为一两个序列的最佳比对而需要引入的缺口数目和每一个缺口的长度。
[0061] 序列的比较和两个序列之间的百分比同一性的测定可使用数学算法来实现。为了本申请的目的,两个氨基酸序列之间的百分比同一性使用Needleman和Wunsch((1970)J.Mol.Biol.48:444-453)算法,使用Blossum 62评分矩阵,利用为12的缺口罚分、为4的缺口延伸罚分和为5的移码缺口罚分来测定,该算法已被整合进GCG软件包中的GAP程序。
[0062] 异源功能性结构域
[0063] 可在Cas9的N或C末端上融合转录激活结构域。另外,尽管本说明书举例说明转录激活结构域,但还可使用如在本领域中是已知的其它异源功能性结构域(例如,转录阻遏物(例如,KRAB、ERD、SID和其它,例如ets2阻遏因子(ERF)阻遏结构域(ERD)的氨基酸473–530、KOX1的KRAB结构域的氨基酸1–97或Mad mSIN3相互作用结构域(SID)的氨基酸1–36;参见Beerli等,PNAS USA 95:14628-14633(1998))或沉默子诸如异染色质蛋白1(HP1,也称为swi6),例如HP1α或HP1β;可招募与固定的RNA结合序列诸如被MS2衣壳蛋白、内切核糖核酸酶Csy4或λN蛋白结合的那些序列融合的长的非编码RNA(lncRNA)的蛋白质或肽;修饰DNA的甲基化状态的酶(例如,DNA甲基转移酶(DNMT)或TET蛋白);
或修饰组蛋白亚单位的酶(例如,组蛋白乙酰转移(HAT)、组蛋白脱乙酰酶(HDAC)、组蛋白甲基转移酶(例如,用于赖氨酸或精氨酸残基的甲基化)或组蛋白脱甲基酶(例如,用于赖氨酸或精氨酸残基的脱甲基化))。此类结构域的许多序列在本领域中是已知的,例如,催化DNA中的甲基化半胱氨酸的羟化的结构域。示例性蛋白包括10-11-易位(TET)1-3家族,将DNA中的5-甲基胞嘧啶(5-mC)转化成5-羟甲基胞嘧啶(5-hmC)的酶。
[0064] 人TET1-3的序列在本领域中是已知的并且示于下表中:
[0065]
[0066] *变体(1)代表较长的转录物并且编码较长的同种型(a)。变体(2)与变体1在5'UTR和3'UTR中以及在编码序列中不同。所得的同种型(b)是较短的并且相较于同种型a具有不同的C末端。
[0067] 在一些实施方案中,可包括催化结构域的全长序列的全部或部分,例如包含富含半胱氨酸的延伸和由7个高度保守的外显子编码的2OGFeDO结构域,例如包含氨基酸1580-2052的Tet1催化结构域、包含氨基酸1290-1905的Tet2和包含氨基酸966-1678的Tet3的催化模块。关于举例说明所有3个Tet蛋白中的至关重要的催化残基的比对,参见,例如,Iyer等,Cell Cycle.2009年6月1日;8(11):1698-710.Epub 2009年6月27日的图1,并且关于全长序列(参见,例如,seq 2c),参见其补充材料(可在ftp站点ftp.ncbi.nih.gov/pub/aravind/DONS/supplementary_material_DONS.html获得);在一些实施方案中,所述序列包括Tet1的氨基酸1418-2136或Tet2/3中的对应区域。
[0068] 其它催化分子可来自由Iyer等,2009鉴定的蛋白质。
[0069] 在一些实施方案中,异源性功能结构域是生物系链,并且包含MS2衣壳蛋白、内切核糖核酸酶Csy4或λN蛋白的全部或部分(例如来自其的DNA结合结构域)。这些蛋白可用于将含有特定茎环结构的RNA分子招募至由dCas9gRNA靶向序列指定的场所。例如,与MS2衣壳蛋白、内切核糖核酸酶Csy4或λN融合的dCas9可用于招募长的非编码RNA(lncRNA)诸如XIST或HOTAIR;参见,例如,Keryer-Bibens等,Biol.Cell 100:125–138(2008),其连接于Csy4、MS2或λN结合序列。或者,可将Csy4、MS2或λN蛋白结合序列连接于另一种蛋白质,如Keryer-Bibens等(同上)中描述的,并且可使用本文中描述的方法和组合物将所述蛋白质靶向dCas9结合位点。在一些实施方案中,Csy4是无催化活性的。
[0070] 在一些实施方案中,融合蛋白包括dCas9与异源功能性结构域之间的接头。可用于这些融合蛋白中(或串联结构中的融合蛋白之间)的接头可包括不干扰融合蛋白的功能的任何序列。在优选实施方案中,所述接头是短的,例如2-20个氨基酸,并且通常是柔性的(即,包含具有高度自由的氨基酸诸如甘氨酸、丙氨酸和丝氨酸)。在一些实施方案中,所述接头包含一个或多个由GGGS(SEQ ID NO:14)或GGGGS(SEQ ID NO:15)组成的单位,例如,2、3、4或更多个GGGS(SEQ ID NO:14)或GGGGS(SEQ ID NO:15)单位的重复。还可使用其它接头序列。
[0071] 使用方法
[0072] 所述Cas9-HFD系统是有用的并且是修饰内源基因的表达的通用工具。用于获得该系统的当前方法需要产生针对每一个待靶向的位点的新型工程化DNA结合蛋白(诸如工程化锌指或转录激活因子样效应子DNA结合结构域)。因为这些方法需要表达专工程化来结合每一个靶位点的大蛋白质,因此它们在它们用于多路技术的能力上受到限制。然而,Cas9-HFD需要仅单一Cas9-HFD蛋白的表达,所述蛋白可通过表达多个短的gRNA来被靶向基因组中的多个位点。该系统因而可容易地用于同时诱导许多基因表达或将多个Cas9-HFD招募至单个基因、启动子或增强子。该能力将具有广泛的用途,例如用于基础生物学研究,其中其可用于研究基因功能和维持多个基因在单个途径中的表达,以及用于合成生物学,其中其将使得研究者能够在负责多个输出信号的细胞中产生回路。该技术可被执行和适合用于多路复用的相对容易性使得其成为具有许多广泛应用的广泛有用的技术。
[0073] 本文所述方法包括将细胞与编码本文所述Cas9-HFD的核酸和编码一个或多个被导向选定的基因的引导RNA的核酸接触,从而调节该基因的表达。
[0074] 引导RNA(gRNA)
[0075] 引导RNA一般而言出现在两个不同的系统中:系统1,其使用一起指导Cas9进行裂解的单独的crRNA和tracrRNA,和系统2,其使用在单个系统中组合两个单独的引导RNA的嵌合crRNA-tracrRNA杂交体(被称为单一引导RNA或sgRNA,也参见Jinek等,Science2012;337:816–821)。tracrRNA可被可变地截短,并且已显示许多长度在所述单独的系统(系统1)和嵌合gRNA系统(系统2)中都具有功能。例如,在一些实施方案中,可从其3’末端将tracrRNA截短至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35或40nt。在一些实施方案中,可将tracrRNA分子从其5’末端截短至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35或
40nt。或者,可以从5’和3’末端截短tracrRNA分子,例如在5’末端截短至少1、2、3、4、5、6、
7、8、9、10、15或20nt并且在3’末端鞭短至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35或
40nt。参见,例如,Jinek等,Science 2012;337:816–821;Mali等,Science.2013年2月15日;339(6121):823-6;Cong等,Science.2013年2月15日;339(6121):819-23;以及Hwang和Fu等,Nat Biotechnol.2013年3月;31(3):227-9;Jinek等,Elife 2,e00471(2013))。
对于系统2,一般地更长长度的嵌合gRNA已显示更大的中靶活性,但不同长度的gRNA的相对特异性目有仍未确定,从而在某些情况下可能期望使用较短的gRNA。在一些实施方案中,gRNA与在转录起始位点上游约100-800bp内,例如在转录起始位点的上游约500bp内,包括转录起始位点,或在转录起始位点下游约100-800bp内,例如约500bp内的区域互补。在一些实施方案中,使用编码不止一个gRNA的载体(例如,质粒),例如编码导向靶基因的相同区域内的不同位点的2、3、4、5或更多个gRNA的质粒。
[0076] 可使用在其5’末端上具有与基因组DNA靶位点的互补链互补的17-20nt的引导RNA(例如单一gRNA或tracrRNA/crRNA)将Cas9核酸酶导向具有例如序列NGG的另外的邻近的前间区序列邻近基序(PAM)的特定17-20nt的基因组靶。因此,本方法可包括单一引导RNA的使用,所述单一引导RNA包含与通常反式编码的tracrRNA融合的crRNA,例如Mali等,Science 2013年2月15日;339(6121):823-6中描述的单一Cas9引导RNA,其在5’末端上具有例如25-17个,任选地20个或更少核苷酸(nt)的与靶序列互补的序列,例如,紧接前间区序列邻近基序(PAM)例如NGG、NAG或NNGG的5’的靶序列的互补链的20、19、18或17nt,优选地17或18nt。在一些实施方案中,所述单个Cas9引导RNA由如下序列组成:
[0077] (X17-20)GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCG(XN)(SEQ ID NO:1);
[0078] (X17-20)GUUUUAGAGCUAUGCUGAAAAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUC(XN)(SEQ ID NO:2);
[0079] (X17-20)GUUUUAGAGCUAUGCUGUUUUGGAAACAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUC(XN)(SEQ ID NO:3);
[0080] (X17-20)GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(XN)(SEQ ID NO:4)、
[0081] (X17-20)GUUUAAGAGCUAGAAAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:5);
[0082] (X17-20)GUUUUAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:6);或
[0083] (X17-20)GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:7);
[0084] 其中X17-20是与靶序列的17-20个连续核苷酸互补的核苷酸序列。先前已在文献(Jinek等,Science.337(6096):816-21(2012)和Jinek等,Elife.2:e00471(2013))描述了编码单一引导RNA的DNA。
[0085] 引导RNA可包含可以是不干扰核糖核酸对Cas9结合的任何序列的XN,其中N(在RNA中)可以是0-200例如0-100、0-50或0-20。
[0086] 在一些实施方案中,所述引导RNA在3’末端上包含一个或多个腺嘌呤(A)或尿嘧啶(U)核苷酸。在一些实施方案中,作为用作终止RNA PolIII转录的终止信号的一个或多个T的任选的存在的结果,所述RNA在分子的3’末端包括一个或多个U,例如,1至8个或更多个U(例如,U、UU、UUU、UUUU、UUUUU、UUUUUU、UUUUUUU、UUUUUUUU)。
[0087] 虽然本文中描述的一些实例利用单一gRNA,但还将所述方法与双重gRNA(例如在天然存在的系统中发现的crRNA和tracrRNA)一起使用。在该情况下,可将单一tracrRNA与多个不同的使用本系统表达的crRNA结合使用,例如下列序列:
[0088] (X17-20)GUUUUAGAGCUA(SEQ ID NO:102);
[0089] (X17-20)GUUUUAGAGCUAUGCUGUUUUG(SEQ ID NO:103);或
[0090] (X17-20)GUUUUAGAGCUAUGCU(SEQ ID NO:104);和tracrRNA序列。在该情况下,将crRNA在本文中描述的方法和分子中用作引导RNA,并且从相同或不同的DNA分子表达tracrRNA。在一些实施方案中,所述方法包括将细胞与tracrRNA接触,所述tracrRNA包含如下序列或由所述序列组成:GGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:8)或其活性部分(活性部分是保持与Cas9或dCas9形成复合物的能力的部分)。在一些实施方案中,可从其3’末端将tracrRNA分子截短至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35或40nt。在另一个实施方案中,可从其5’末端将tracrRNA截短至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35或40nt。或者,可从5’和3’末端将tracrRNA分子截短,例如,在5’末端截短至少1、2、3、4、5、6、7、8、9、10、15或20nt并且在3’末端截短至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35或40nt。除了SEQ ID NO:8以外,示例性tracrRNA还包括下列序列:UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:105)或其活性部分;或AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:106)或其活性部分。
[0091] 在一些实施方案中,当将(X17-20)GUUUUAGAGCUAUGCUGUUUUG(SEQ ID NO:102)用作crRNA时,使用下列tracrRNA:GGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:8)或其活性部分。
[0092] 在一些实施方案中,当将(X17-20)GUUUUAGAGCUA(SEQ ID NO:102)用作crRNA时,使用下列tracrRNA:UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:105)或其活性部分。
[0093] 在一些实施方案中,当将(X17-20)GUUUUAGAGCUAUGCU(SEQ ID NO:104)用作crRNA时,使用下列tracrRNA:AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:106)或其活性部分。
[0094] 在一些实施方案中,所述gRNA被靶向与基因组的其余部分中的任何序列相异至少3或更多个错配的位点以使脱靶效应减小至最小。
[0095] 经修饰的RNA寡核苷酸诸如核酸(LNA)已被证明通过以更有利的(稳定的)构象锁定经修饰的寡核苷酸来提高RNA-DNA杂交的特异性。例如,2’-O-甲基RNA是其中在2’氧与4’之间存在另外的共价键联的经修饰的基,当被掺入寡核苷酸中时其可提高总体热稳定性和选择性(式I)。
[0096]
[0097] 因此,在一些实施方案中,本文中公开的tru-gRNA可包含一个或多个经修饰的RNA寡核苷酸。例如,本文中描述的截短的引导RNA分子可具有与靶序列互补的引导RNA的一个或一些或全部区域被修饰,例如锁定的(2’-O-4’-C亚甲基桥)、5'-甲基胞苷、2'-O-甲基-假尿苷,或其中磷酸核糖主链已被聚酰胺链(肽核酸)例如合成核糖核酸替代。
[0098] 在其它实施方案中,tru-gRNA序列的一个、一些或全部核苷酸可被修饰,例如锁定的(2’-O-4’-C亚甲基桥)、5'-甲基胞苷、2'-O-甲基-假尿苷,或其中磷酸核糖主链已被聚酰胺链(肽核酸)例如合成核糖核酸替代。
[0099] 在一些实施方案中,所述单一引导RNA和/或crRNA和/或tracrRNA可在3’末端上包含一个或多个腺嘌呤(A)或尿嘧啶(U)核苷酸。
[0100] 现有基于Cas9的RGN使用gRNA-DNA异源双链体形成来引导靶向目标基因组位点。然而,RNA-DNA异源双链体可形成比它们的DNA-DNA对应物更加混杂的范围的结构。实际上,DNA-DNA双链体对错配更加敏感,从而表明DNA引导的核酸酶可能不不能容易地结合于脱靶序列,从而使得它们相较地比RNA引导的核酸酶更具特异性。因此,可用于本文中描述的方法的引导RNA可以是杂交体,即,即其中一个或多个脱氧核糖核苷酸例如短的DNA寡核苷酸替代gRNA的全部或部分,例如gRNA的互补区的全部或部分。该基于DNA的分子可替代单一gRNA系统中的gRNA的全部或部分或可选地可替代双重crRNA/tracrRNA系统中的crRNA和/或tracrRNA的全部或部分。将DNA整合进互补区的此类系统应当因DNA-DNA双链体对错配的总体不耐受性而相较于RNA-DNA双链体更容易靶向期望的基因组DNA序列。用于产生此类双链体的方法在本领域中是已知的,参见,例如,Barker等,BMC Genomics.2005年4月22日;6:57;和Sugimoto等,Biochemistry.2000年9月19日;39(37):11270-81。
[0101] 另外,在使用单独的crRNA和tracrRNA的系统中,其一者或两者可以是合成的并且包含一个或多个经修饰的(例如,锁定的)核苷酸或脱氧核糖核苷酸。
[0102] 在细胞背景中,Cas9与这些合成gRNA的复合物可用于提高CRISPR/Cas9核酸酶系统的全基因组特异性。
[0103] 所述方法可包括在细胞中表达本文中描述的Cas9gRNA加融合蛋白,或将所述细胞与其接触。
[0104] 表达系统
[0105] 为了使用描述的融合蛋白和引导RNA,可能期望从编码它们的核酸表达它们。这可以以多种方式来进行。例如,可将编码引导RNA或融合蛋白的核酸克隆入用于转化进用于复制和/或表达的原核或真核细胞的中间载体。中间载体通常是原核载体,例如,质粒或穿梭载体或昆虫载体,其用于贮存或操纵编码融合蛋白的核酸或用于产生融合蛋白。还可将编码引导RNA或融合蛋白的核酸克隆入表达载体,例如用于向植物细胞、动物细胞,优选地哺乳动物细胞或人细胞、真菌细胞、细菌细胞或原生动物细胞施用。
[0106] 为了获得表达,通常将编码引导RNA或融合蛋白的序列亚克隆入含有指导转录的启动子的表达载体。合适的细菌和真核启动子在本领域中是公在的,并且描述于例如Sambrook等,Molecular Cloning,A Laboratory Manual(2001年第3版);Kriegler,Gene Transfer and Expression:A Laboratory Manual(1990) 和 Current Protocols in Molecular Biology(Ausubel等,编辑,2010)中。用于表达工程化蛋白质的细菌表达系统可在例如大肠杆菌(E.coli)、芽孢杆菌属(Bacillus sp.)和沙门菌属(Salmonella)(Palva等,1983,Gene 22:229-235)中获得。此类表达系统的试剂盒是商购可得的。用于哺乳动物细胞、酵母和昆虫细胞的真核表达系统在本领域中是公知的并且也是商购可得的。
[0107] 用于指导核酸表达的启动子取决于具体应用。例如,强组成型启动子通常用于融合蛋白的表达和纯化。相反地,当将体内施用融合蛋白以进行基因调控时,可使用组成型或诱导型启动子,这取决于融合蛋白的具体用途。另外,用于施用融合蛋白的优选启动子可以是弱启动子,诸如HSV TK或具有类似活性的启动子。启动子还可包括响应反式激活的元件,例如,缺氧应答元件、Gal4应答元件、lac阻遏应答元件和小分子控制系统诸如四环素调节的系统和RU-486系统(参见,例如,Gossen&Bujard,1992,Proc.Natl.Acad.Sci.USA,89:5547;Oligino 等,1998,Gene Ther.,5:491-496;Wang 等,1997,Gene Ther.,4:432-441;Neering 等,1996,Blood,88:1147-55 和 Rendahl 等,1998,Nat.Biotechnol.,16:757-761)。
[0108] 除了启动子以外,表达载体通常还含有包含核酸在宿主细胞(原核或真核的)中表达所需的所有另外的元件的转录单位或表达盒。常见表达盒从而含有可操作地连接于例如编码融合蛋白的核酸序列的启动子和例如进行转录物的高效多腺苷酸化、转录终止、核糖体结合位点或翻译终止的所需的任何信号。表达盒的另外元件可包括例如增强子和异源剪接内含子信号。
[0109] 根据融合蛋白的期望用途(例如,在植物、动物、细菌、真菌、原生动物等中表达)选择用于将遗传信息转运至细胞的特定表达载体。标准细菌表达载体包括质粒诸如基于pBR322的质粒、pSKF、pET23D和商购可得的靶-融合表达系统诸如GST和LacZ。优选的标签-融合蛋白是麦芽糖结合蛋白(MBP)。此类标签-融合蛋白可用于纯化工程化TALE重复蛋白。还可将表位标签例如c-myc或FLAG添加至重组蛋白以提供用于监测表达和用于监测细胞和亚细胞定位的方便的分离方法。
[0110] 含有来自真核病毒的调控元件的表达载体通常用于真核表达载体,例如,SV40载体、乳头状瘤病毒载体和来源于爱泼斯坦-巴尔病毒的载体。其它示例性真核载体包括pMSG、pAV009/A+、pMTO10/A+、pMAMneo-5、杆状病毒pDSVE和允许在如下启动子指导下表达蛋白质的任何其它载体:SV40早期启动子、SV40晚期启动子、金属硫蛋白启动子、鼠乳腺肿瘤病毒动子、劳斯肉瘤病毒启动子、多角体蛋白启动子或经显示对于在真核细胞中的表达是有效的其它启动子。
[0111] 用于表达引导RNA的载体可包括驱动引导RNA表达的RNA Pol III启动子,例如H1、U6或7SK启动子。这些人启动子允许在质粒转染后在哺乳动物细胞中表达gRNA。或者,T7启动子可用于例如体外转录,并且所述RNA可被体外转录和纯化。可使用适合用于短的RNA例如siRNA、shRNA或其它小的RNA表达的载体。
[0112] 一些表达系统具有用于选择稳定地转染的细胞系的标志物诸如胸苷激酶、潮霉素B磷酸物转移酶和二氢叶酸还原酶。高产表达系统也是合适的,诸如在昆虫细胞中使用杆状病毒载体,利用在多角体蛋白启动子或其它强杆状病毒启动子的指导下的融合蛋白编码序列。
[0113] 通常被包括在表达载体中的元件还包括在大肠杆菌中起作用的复制子、编码抗生素抗性以允许选择具有重组质粒的细菌的基因和允许重组序列插入的质粒的非必需区中的独特限制性位点。
[0114] 标准转染法可用于产生表达大量蛋白质的细菌、哺乳动物、酵母或昆虫细胞系,随后使用标准技术(参见,例如,Colley等,1989,J.Biol.Chem.,264:17619-22;Guide to Protein Purification,于Methods in Enzymology,第182卷(Deutscher,编辑,1990)中)纯化所述蛋白质。真核和原核细胞的转化按照标准技术(参见,例
如,Morrison,1977,J.Bacteriol.132:349-351;Clark-Curtiss&Curtiss,Methods in Enzymology 101:347-362(Wu等,编辑,1983)来进行。
[0115] 可使用用于将外来核苷酸序列引入宿主细胞的任何已知方法。这些方法包括使用磷酸转染、聚凝胺、原生质体融合、电穿孔、核转染、脂质体、显微注射、裸DNA、质粒载体、病毒载体(游离型和融合型)和用于将克隆的基因组DNA、cDNA、合成DNA或其它外来遗传物质引入宿主细胞的任何其它公知的方法(参见,例如,Sambrook等,同上)。唯一必需的是,使用的特定遗传工程方法能够成功地将至少一个基因引入能够表达选择的蛋白质的宿主细胞。
[0116] 在一些实施方案中,所述融合蛋白包括提供给待被转运到细胞核的蛋白质的核定位结构域。几个核定位序列(NLS)是已知的,并且可使用任何适合的NLS。例如,许多NLS具有多个碱性氨基酸,称为二分基本重复(综述于Garcia-Bustos等,1991,Biochim.Biophys.Acta,1071:83-101)中。含NLS的二分基本重复可被置于嵌合蛋白的任何部分,并且导致嵌合蛋白被定位在细胞核内。在优选实施方案中,将核定位结构域整合进最终的融合蛋白内,因为本文中描述的融合蛋白的最终功能将通常需要被定位在细胞核中的蛋白质。然而,在其中DBD结构域本身或终嵌合蛋白内的另一个功能性结构域具有固有的核转运功能的情况下,可以不必添加单独的核定位结构域。
[0117] 本发明包括所述载体和包含所述载体的细胞。实施例
[0118] 在下列实施例中进一步描述本发明,所述实施例不限制权利要求中描述的本发明的范围。
[0119] 实施例1.工程化CRISPR/Cas激活系统:
[0120] 假设RNA引导的转录激活物可通过将强合成VP64激活结构域(Beerli等,Proc Natl Acad Sci USA 95,14628–14633(1998))与无催化活性的dCas9蛋白的羧基末端融合来产生(图1D)。
[0121] 为了在人细胞中表达引导RNA(gRNA),工程化载体,所述载体可表达由U6启动子驱动的全长嵌合gRNA(最初由Jinek等(Science2012)描述的crRNA与tracrRNA的融合物)。如下进行gRNA表达质粒的构建。将成对的编码可变20nt gRNA靶向序列的DNA寡核苷酸退火在一起以产生具有4bp的悬突的短的双链DNA片段(表1)。
[0122]
[0123]
[0124] 将这些片段连接入BsmBI消化的质粒pMLM3636以产生通过人U6启动子表达的编码嵌合的~102nt单链引导RNA的DNA(Mali等,Science.2013年2月15日;
339(6121):823-6;Hwang等,Nat Biotechnol.2013年3月;31(3):227-9)。pMLM3636质粒及其完全DNA序列可获自Addgene。参见图4。
[0125] 为了工程化Cas9激活物,将D10A、H840A催化突变(先前在Jinek等,2012;和Qi等,2013中描述的)引入野生型或密码子最优化的Cas9序列(图5)。这些突变使得Cas9无催化活性,从而使得其不再诱导双链断裂。在一个构建体中,将三重flag标签、核定位信号和VP64激活结构域与失活的Cas9的C末端融合(图6)。该融合蛋白的表达由CMV启动子驱动。
[0126] 如下进行dCas-VP64表达质粒的构建。使用引物(该引物将T7启动子位点添加至起始密码子的5’并且将核定位信号添加在Cas9编码序列的羧基末端)通过PCR从质粒pMJ841(Addgene质粒#39318)扩增编码具有灭活D10A/H840A突变的Cas9核酸酶(dCas9)的DNA,并如先前所述(Hwang等,Nat Biotechnol 31,227–229(2013))将其克隆进含有CMV启动子质粒以产生质粒pMLM3629。将编码三重FLAG表位的寡核苷酸退火,并克隆进质粒pMLM3629中的XhoI和PstI位点以产生表达具有C末端flag FLAG标签的dCas9的质粒pMLM3647。将编码后接合成VP64激活结构域的Gly4Ser接头的DNA序列引入质粒
pMLM3647中的FLAG-标记的dCas9的下游以产生质粒pSL690。通过QuikChange定点诱变(Agilent)将D10A/H840A突变引入质粒pJDS247,所述质粒编码已针对在人细胞中的表达进行了密码子最优化的FLAG标记的Cas9序列,以产生质粒pMLM3668。随后将编码Gly4Ser接头和VP64激活结构域的DNA序列克隆进pMLM3668以产生称为pMLM3705的密码子最优化的dCas9-VP64表达载体。
[0127] 如下进行细胞培养、转染和ELISA测定。将Flp-In T-Rex 293细胞维持在补充有10%FBS、1%penstrep和1%Glutamax(Invitrogen)的高级DMEM中。按照制造商的说明书利用脂质体LTX(Invitrogen)转染细胞。简言之,将160,000个293细胞接种在24孔板中,第二天用250ng gRNA质粒、250ng Cas9-VP64质粒、30ng pmaxGFP质粒(Lonza)、0.5ul Plus试剂和1.65ul脂质体LTX转染所述细胞。在转染后40小时收获来自感染的293细胞的组织培养基,使用R&D System’s Human VEGF-A ELISA试剂盒“人VEGF免疫测定”来测定分泌的VEGF-A蛋白。
[0128] 16个sgRNA被构建来靶向293细胞中的位于人VEGFA基因的转录起始位点上游、下游或其上的3个DNA酶I高敏位点(HSS)内的序列(图1E)。
[0129] 在测试16个VEGFA靶向gRNA招募新型dCas9-VP64融合蛋白的能力之前,首先测定这些gRNA的每一个的将Cas9核酸酶导向其在人293细胞中的期望的靶位点的能力。为了该目的,以1:3的比率转染gRNA和Cas9表达载体,因为先前的最优化实验表明使用该质粒比率在U2OS细胞中诱导了高水平的Cas9诱导的DNA裂解。
[0130] 除用125ng编码VEGFA靶向gRNA的质粒和375ng编码活性Cas9核酸酶的质粒(pMLM3639)转染细胞外,如上文中针对dCas9-VP16VEGFA实验所述进行293细胞的转染。转染后40小时,按照制造商的说明书,使用QIAamp DNA Blood Mini试剂盒(Qiagen)分离基因组DNA。使用Phusion Hot Start II高保真DNA聚合酶(NEB),利用3%DMSO和下列降落PCR循环:98℃的10个循环,10秒;72–62℃,-1℃/循环,15秒;72℃,30秒,随后98℃的25个循环,10秒;62℃,15秒;72℃,30秒进行VEGFA启动子中的3个不同靶向区的PCR扩增。使用引物oFYF434(5’-TCCAGATGGCACATTGTCAG-3’(SEQ ID NO:82))和oFYF435(5’-AGGGAGCAGGAAAGTGAGGT-3’(SEQ ID NO:83))扩增-500区域。使用引物oFYF438(5’-GCACGTAACCTCACTTTCCT-3’(SEQ ID NO:84))和oFYF439(5’-CTTGCTACCTCTTTCCTCTTTCT-3’(SEQ ID NO:85))扩增转录起始位点周围的区域。使用引物oFYF444(5’-AGAGAAGTCGAGGAAGAGAGAG-3’(SEQ ID NO:86))和oFYF445(5’-CAGCAGAAAGTTCATGGTTTCG-3’(SEQ ID NO:87))扩增+500区域。使用Ampure XP珠(Agencourt)纯化PCR产物,随后进行T7内切核酸酶I测定,并如先前所述(Reyon等,Nat Biotech 30,460-465(2012))在QIAXCEL毛细管电泳系统上进行分析。
[0131] 所有16个gRNA都能介导Cas9核酸酶诱导的插入缺失突变在它们各自的靶位点上的高效引入,如使用先前描述的T7E1基因分型测定评估的(表2)。因此,所有16个gRNA可与Cas9核酸酶复合并将其活性导向人细胞中的特定靶基因组位点。
[0132] 表2.由VEGFA靶向的gRNA和Cas9核酸酶诱导的插入缺失突变的频率
[0133]
[0134] 为了测试dCas9-VP64蛋白是否也可被相同的gRNA靶向人细胞中的特定基因组位点,如下进行VEGFA蛋白的酶联免疫印迹测定。转染后40小时收获用编码VEGFA靶向sgRNA和dCas9-VP64的质粒转染的Flp-In T-Rex HEK293细胞的培养基,如先前所述(Maeder等,Nat Methods 10,243–245(2013))测量VEGFA蛋白表达。通过将来自其中表达sgRNA和dCas9-VP64的细胞的培养基中的VEGFA蛋白的浓度除以来自其中表达脱靶sgRNA(被靶向EGFP报告基因中的序列)和dCas9-VP64的细胞的培养基中的VEGFA蛋白的浓度来计算VEGFA表达的激活倍数。
[0135] 当与dCas9-VP64在人293细胞中共表达时,测试的16个gRNA中有15个诱导显著的VEGFA蛋白表达的增加(图2A)。观察到的VEGFA诱导的量级在2至18.7-激活倍数的范围内,平均值为5-倍激活。对照实验显示单独的16个gRNA、单独的dCas9-VP64以及与被设计来结合EGFP受体基因序列的“脱靶”gRNA一起的dCas9-VP64的每一种的表达全都不能诱导升高的VEGFA表达(图2A),这表明特定gRNA和dCas9-VP64蛋白的共表达是启动子激活所需的。因此,dCas9-VP64被稳定地表达,并且可被gRNA导向激活人细胞中的特定基因组基因座的转录。在用gRNA3转染的细胞中观察到VEGFA的最大增加,所述gRNA3诱导蛋白质表达18.7倍。有趣地,3个最好的gRNA以及能够诱导3倍或更多倍的表达的9个gRNA中的6个靶向-500区域(转录起始位点上游离~500bp)。
[0136] 因为在一个方面,本文中描述的系统使用可变的gRNA来招募共同的dCas9-VP64激活融合物,因此可设想多重引导RNA在单个细胞中的表达可能使得能够多重或组合激活内源基因靶。为了测试该可能性,用dCas9-VP64表达质粒与各自单独地诱导从VEGFA启动子的表达的4个gRNA(V1、V2、V3和V4)的表达质粒一起转染293细胞。所有4个gRNA与dCas9-VP64的共表达诱导VEGFA蛋白表达的协同激活(即,大于每一个单独的激活物的预期的累加效应的倍数-激活)(图2B)。另外,这4个激活物中的3个的各种组合也协同地激活VEGFA启动子(图2B)。因为转录的协同激活据信由多个激活结构域至单个启动子的招募引起,因此在这些实验中,多个gRNA/dCas9-VP64复合物可能同时结合VEGFA启动子。
[0137] 这些实验表明,Cas9-HFD例如Cas9-激活蛋白(具有VP64转录激活结构域)和具有20nt的与人VEGF-A启动子中的位点互补的序列的sgRNA在人HEK293细胞中的共表达可导致VEGF-A表达的上调。通过ELISA测定测量VEGF-A蛋白的增加,并且发现单独gRNA可与Cas9-激活融合蛋白一起用于使VEGF-A蛋白水平升高达到~18倍(图2A)。另外,有可能通过转录协同(通过将多个靶向相同启动子中的不同位点的gRNA与Cas9-激活融合蛋白一起引入)来实现甚至更大的激活提高(图2B)。
[0138] 实施例2.工程化靶向内源人NTF3基因的CRISPR/Cas激活系统
[0139] 为了扩展本发现的一般性,我们测试RNA引导的激活物平台是否呆用于诱导人NTF3基因的表达。为了实现该目的,将6个sgRNA设计成人NTF3启动子中的预测的DNA酶I高敏位点(HSS),并且将表达这些gRNA的每一个的质粒与已针对人细胞表达进行了密码子最优化的编码dCas9-VP64蛋白的质粒共转染(图3A)。
[0140] 所有6个测试的gRNA诱导显著的NTF3转录物水平的升高,如通过定量RT-PCR检测的(图3B)。虽然不能精确地计算这6个RNA引导的激活物的倍数-激活值(因为转录物的基线水平基本上是不可检测的),但激活的NTF3mRNA表达的平均值在4倍的范围内变化。减少转染的gRNA和dCas9-VP64表达质粒的量导致更少的NTF3基因的激活(图3B),这表明了明确的剂量依赖性效应。
[0141] 另外,单独地以及以单一组合和双重组合用dCas9-VP64和NTF3靶向的gRNA表达质粒共转染293细胞。通过定量RT-PCR检测NTF3mRNA的相对表达,并将所述相对表达针对4
GAPDH对照(ΔCt x 10)进行标准化。在所有这些实验中,用于转染的每一个单独的gRNA表达质粒的量是相同的。图3B显示该多重gRNA表达通过dCas9-VP64蛋白诱导NTF3mRNA表达的协同激活。
[0142] 实施例3.工程化CRISPR/Cas-MS2、-Csy4和–λN融合系统–产生生物系链
[0143] 产生融合蛋白,其中将MS2衣壳蛋白、Csy4核酸酶(优选地无催化活性的Csy4,例如Haurwitz等329(5997):1355-8(2010)中描述的H29A突变体)或λN与灭活的dCas9的N或C末端融合。MS2和λN是结合特定RNA序列的噬菌体蛋白,从而可用作将dCas9蛋白系连于利用特定MS2或λN RNA结合序列标记的异源RNA序列的衔接子。将dCas9-MS2融合物或dCas9-λN融合物与在它们的5’或3’末端与MS2或λN茎环识别序列融合的嵌合长非编码RNA(lncRNA)共表达。嵌合Xist或嵌合RepA lncRNA将被dCas9融合物专门招募,并且该策略诱导靶向沉默的能力将通过测量靶基因表达来测量。所述系统将通过测试对衣壳蛋白和嵌合RNA的各种改变来最优化。已前已显示对MS2衣壳蛋白的N55K和ΔFG突变阻止蛋白质聚集并增加对茎-环RNA的亲和力。另外,我们将测试据报导增加对于MS2衣壳蛋白的亲和力的高亲和力C-环RNA突变体。下文给出MS2和λN蛋白的示例性序列;MS2以二聚体形式起作用,从而MS2蛋白可包括融合单链二聚体序列。
[0144] 1.单个MS2衣壳蛋白(wt、N55K或ΔFG)与dCas9的N末端或C末端的融合物的示例性序列
[0145] MS2衣壳蛋白氨基酸序列:
[0146] MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKVATQTVGGVELPVAAWRSYLNM ELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY(SEQ ID NO:88)[0147] MS2 N55K:
[0148] MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKVATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY(SEQ ID NO:89)[0149] MS2ΔFG:
[0150] MASNFTQFVLVDNGGTGDVTVAPSNFANGIAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKGAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY(SEQ ID NO:90)
[0151] 2.融合的二聚MS2衣壳蛋白(wt、N55K或ΔFG)与dCas9的N末端或C末端的融合物的示例性序列
[0152] 二聚MS2衣壳蛋白:
[0153] MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKVATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGLYGAMASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKVATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSLIN(SEQ ID NO91
[0154] MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKVATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGLYGAMASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKVATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSLIN(SEQ ID NO:92)
[0155] 二聚MS2ΔFG:
[0156] MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKGAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGLYGAMASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKGAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSLIN(SEQ ID NO:93)
[0157] 3.λN与dCas9的N末端或C末端的融合物的示例性序列
[0158] λN氨基酸序列:
[0159] MDAQTRRRERRAEKQAQWKAAN(SEQ ID NO:94)或
[0160] MDAQTRRRERRAEKQAQWKAANPLLVGVSAKPVNRPILSLNRKPKSRVESALNPIDLTVLAEYHKQIESNLQRIERKNQRTWYSKPGERGITCSGRQKIKGKSIPLI(SEQ ID NO:95)
[0161] 4.Csy4与dCas9的N末端或C末端的融合物的示例性序列
[0162] 在Haurwitz等329(5997):1355-8(2010)中给出了Cys4(例如灭活的形式)的示例性序列。
[0163] 将构建体在也表达已在其5’或3’末端与λN或MS2的同源茎-环识别序列融合的调控RNA例如长非编码RNA(lncRNA)诸如HOTAIR、HOTTIP、XIST或XIST RepA的细胞中表达。MS2的野生型和高亲和力序列分别为AAACAUGAGGAUUACCCAUGUCG(SEQ ID NO:96)和AAACAUGAGGAUCACCCAUGUCG(SEQ ID NO:97)(参见Keryer-Bibens等,同上,图2);λN所结合的nutL和nutR BoxB分别为GCCCUGAAGAAGGGC(SEQ ID NO:98)和GCCCUGAAAAAGGGC(SEQ ID NO:99)。Csy4所结合的序列为GTTCACTGCCGTATAGGCAG(截短的20nt)(SEQ ID NO:100)或GUUCACUGCCGUAUAGGCAGCUAAGAAA(SEQ ID NO:101)。
[0164] dCas9/MS2对表达MS2结合序列标记的lncRNA的细胞中的靶位点的结合将该lncRNA招募至dCas9结合位点;其中lncRNA是阻遏物,例如,XIST(dCas9结合位点附近的基因)被抑制。类似地,dCas9/λN对表达λN-结合序列标记的lncRNA的细胞中的靶位点的结合将该lncRNA招募至dCas9结合位点。
[0165] 实施例4.工程化CRISPR/Cas-HP1融合系统-序列-特异性沉默
[0166] 本文所述dCas9融合蛋白还可用于靶向沉默结构域,例如异染色质蛋白1(HP1,也称为swi6),例如HP1α或HP1β。可将其中异染色质已被除去的HP1α或HP1β的截短的形式靶向特定基因座来诱导异染色质形成和基因沉默。与dCas9融合的截短的HP1的示例性序列示于图8A-8B中。可将HP1序列与如上所述的灭活的dCas9的N或C末端融合。
[0167] 实施例5.工程化CRISPR/Cas-TET融合系统–序列-特异性脱甲基化
[0168] 本文中描述的dCas9融合蛋白还可用于靶向修饰DNA的甲基化状态的酶(例如,DNA甲基转移酶(DNMT)或TET蛋白)。可将TET1的截短形式靶向特定基因座以催化DNA脱甲基化。与dCas9融合的截短的TET1的示例性序列示于图9中。可将TET1序列融合于如上所述的灭活的dCas9的N或C末端。
[0169] 实施例6.工程化最优化的CRISPR/Cas-VP64融合物
[0170] 通过改变这些融合物内的核定位信号(NLS)和3xFLAG-标签的数目和位置最优化具有VP64激活结构域的基于dCas9的转录激活物的活性(图10)。含有N末端NLS和位于dCas9与VP64序列之间的NLS的dCas9-VP64融合物一致地诱导较高水平的靶基因激活,可能因激活物的增加的核定位导致(图10)。此外,当将3xFLAG标签置于dCas9的C末端与VP64的N末端之间时,观察到甚至更高水平的激活。3xFLAG标签可用作人工接头,在dCas9与VP64之间提供必要的间隔,并且可能允许更好地折叠VP64结构域(当在dCas9附近受约束时这可能是无法进行的)或由招募RNA聚合酶II的转录中介体复合物更好地识别VP64。或者,带负电荷的3xFLAG标签还可用作偶然的转录激活结构域,从而增强VP64结构域的效应。
[0171] 实施例7.最优化的无催化活性的Cas9蛋白(dCas9)
[0172] 通过改变消除dCas9结构域中的Cas9的核酸酶活性的失活突变的性质来进行dCas9-VP64激活物的另外的最优化(图11A-B)。在迄今公开的研究中,将催化残基D10和H840突变成丙氨酸(D10A和H840A)来破坏介导DNA的水解的活性位点网络。有人假设,这些位置上的丙氨酸取代可能导致dCas9的去稳定,从而导致亚最佳活性。因此,测试D10或H840上结构更加保守的取代(例如,至天冬酰或酪氨酸残基:D10N、H840N和H840Y)以看它们是否可导致通过具有这些不同突变的dCas9-VP64融合物的更大基因激活。当将具有这些变异取代的dCas9-VP64变体与靶向内源人VEGFA基因的上游区域的3个gRNA共转染进HEK293细胞时,除一个变体外,对于所有这些变体观察到更多的VEGFA蛋白质表达(图11A)。然而,当将所述dCas9-VP64变体仅与这些gRNA中的一个共转染时(图11A)或当转染进表达单一VEGFA靶向的gRNA的HEK293来源的细胞系时(图11B),该效应没有这样显著。
[0173] 其它实施方案
[0174] 应理解,虽然已结合其详细描述说明了本发明,但前述说明指在举例说明而不是限制本发明的范围,本发明的范围由所述权利要求的范围来界定。其它方面、有利方面和修改在下列权利要求的范围内。
QQ群二维码
意见反馈