首页 / 专利库 / 动物学 / 哺乳动物 / B4GALT1变体及其用途

B4GALT1变体及其用途

阅读:1086发布:2020-05-11

专利汇可以提供B4GALT1变体及其用途专利检索,专利查询,专利分析的服务。并且本文提供了变体B4GALT1基因组核酸分子、mRNA核酸分子和cDNA核酸分子及多肽,检测这些分子的存在的方法,调节内源B4GALT1基因组核酸分子、mRNA核酸分子和cDNA核酸分子及多肽的方法,通过检测所述变体B4GALT1基因组核酸分子、mRNA核酸分子和cDNA核酸分子及多肽的存在与否来确定发生心血管疾患 风 险的方法,以及 治疗 心血管疾患的方法。,下面是B4GALT1变体及其用途专利的具体信息内容。

1.一种包含与SEQ ID NO:1至少约90%、至少约95%、至少约98%或至少约99%同一的核酸序列的分离的核酸分子,条件是所述核酸序列包含与SEQ ID NO:1的位置53575至
53577相对应的编码丝酸的密码子,或其互补序列。
2.根据权利要求1所述的分离的核酸分子,其中所述核酸序列包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。
3.根据权利要求1或2所述的分离的核酸分子,其中所述核酸序列与SEQ ID NO:2的包含B4GALT1基因的外显子1至6的部分至少约90%、至少约95%、至少约98%或至少约99%同一。
4.根据权利要求1或2所述的分离的核酸分子,其中所述核酸序列包含SEQ ID NO:2。
5.一种载体,其包含根据权利要求1至4中任一项所述的分离的核酸分子。
6.根据权利要求5所述的载体,其还包含外源供体序列。
7.根据权利要求5或6所述的载体,其中所述载体包括质粒。
8.根据权利要求5或6所述的载体,其中所述载体包括病毒。
9.一种组合物,其包含根据权利要求1至4中任一项所述的分离的核酸分子以及载剂。
10.一种组合物,其包含根据权利要求5至8中任一项所述的载体以及载剂。
11.一种宿主细胞,其包含根据权利要求1至4中任一项所述的分离的核酸分子。
12.一种宿主细胞,其包含根据权利要求5至8中任一项所述的载体。
13.根据权利要求11或12所述的宿主细胞,其中所述分离的核酸分子与在所述宿主细胞中有活性的启动子可操作地连接。
14.根据权利要求13所述的宿主细胞,其中所述启动子是诱导型启动子。
15.根据权利要求11至14中任一项所述的宿主细胞,其中所述宿主细胞是细菌细胞、酵母细胞或昆虫细胞。
16.根据权利要求11至14中任一项所述的宿主细胞,其中所述宿主细胞是哺乳动物细胞。
17.一种包含至少约15个核苷酸并且与根据权利要求1至4中任一项所述的核酸分子杂交的核酸探针,条件是所述探针杂交至SEQ ID NO:1或SEQ ID NO:2的位置53575至53577,或其互补序列。
18.一种包含与SEQ ID NO:4至少约90%、至少约95%、至少约98%或至少约99%同一的核酸序列的分离的核酸分子,条件是所述核酸序列包含在与全长/成熟B4GALT1多肽的位置352相对应的位置处编码丝氨酸的密码子,或其互补序列。
19.根据权利要求18所述的分离的核酸分子,其中所述核酸序列与SEQ ID NO:4的包含B4GALT1基因的外显子1至6的部分至少约90%、至少约95%、至少约98%或至少约99%同一。
20.根据权利要求18或19所述的分离的核酸分子,其中所述核酸序列包含SEQ ID NO:
4。
21.一种载体,其包含根据权利要求18至20中任一项所述的分离的核酸分子。
22.根据权利要求21所述的载体,其还包含外源供体序列。
23.根据权利要求21或22所述的载体,其中所述载体包括质粒。
24.根据权利要求21或22所述的载体,其中所述载体包括病毒。
25.一种组合物,其包含根据权利要求18至20中任一项所述的分离的核酸分子以及载剂。
26.一种组合物,其包含根据权利要求21至24中任一项所述的载体以及载剂。
27.一种宿主细胞,其包含根据权利要求18至20中任一项所述的分离的核酸分子。
28.一种宿主细胞,其包含根据权利要求21至24中任一项所述的载体。
29.根据权利要求27或28所述的宿主细胞,其中所述分离的核酸分子与在所述宿主细胞中有活性的启动子可操作地连接。
30.根据权利要求29所述的宿主细胞,其中所述启动子是诱导型启动子。
31.根据权利要求27至30中任一项所述的宿主细胞,其中所述宿主细胞是细菌细胞、酵母细胞或昆虫细胞。
32.根据权利要求27至30中任一项所述的宿主细胞,其中所述宿主细胞是哺乳动物细胞。
33.一种包含至少约15个核苷酸并且与根据权利要求18至28中任一项所述的核酸分子杂交的核酸探针,条件是所述探针杂交至SEQ ID NO:4的位置1243至1245,或其互补序列。
34.一种包含编码与SEQ ID NO:8至少约90%、至少约95%、至少约98%或至少约99%同一的多肽的核酸序列的分离的核酸分子,条件是所述多肽在位置352处包含丝氨酸,或其互补序列。
35.根据权利要求34所述的分离的核酸分子,其中所述核酸序列编码SEQ ID NO:8的多肽序列。
36.一种载体,其包含根据权利要求34或35所述的分离的核酸分子。
37.根据权利要求36所述的载体,其还包含外源供体序列。
38.根据权利要求36或37所述的载体,其中所述载体包括质粒。
39.根据权利要求36或37所述的载体,其中所述载体包括病毒。
40.一种组合物,其包含根据权利要求34或35所述的分离的核酸分子以及载剂。
41.一种组合物,其包含根据权利要求36至39中任一项所述的载体以及载剂。
42.一种宿主细胞,其包含根据权利要求34或35所述的分离的核酸分子。
43.一种宿主细胞,其包含根据权利要求36至39中任一项所述的载体。
44.根据权利要求42或43所述的宿主细胞,其中所述分离的核酸分子与在所述宿主细胞中有活性的启动子可操作地连接。
45.根据权利要求44所述的宿主细胞,其中所述启动子是诱导型启动子。
46.根据权利要求42至45中任一项所述的宿主细胞,其中所述宿主细胞是细菌细胞、酵母细胞或昆虫细胞。
47.根据权利要求42至45中任一项所述的宿主细胞,其中所述宿主细胞是哺乳动物细胞。
48.一种包含至少约15个核苷酸并且与根据权利要求34或35所述的核酸分子杂交的核酸探针,条件是所述探针杂交至所述核酸序列的在位置352处编码丝氨酸的部分,或其互补序列。
49.一种包含与SEQ ID NO:6至少约90%、至少约95%、至少约98%或至少约99%同一的核酸序列的编码人类β-1,4-半乳糖基转移酶1(B4GALT1)蛋白的cDNA,条件是所述核酸序列在与全长/成熟B4GALT1多肽的位置352相对应的位置处编码丝氨酸,或其互补序列。
50.根据权利要求49所述的cDNA,其中所述核酸序列包含SEQ ID NO:6。
51.一种载体,其包含根据权利要求49或50所述的cDNA。
52.根据权利要求51所述的载体,其还包含外源供体序列。
53.根据权利要求51或52所述的载体,其中所述载体包括质粒。
54.根据权利要求51或52所述的载体,其中所述载体包括病毒。
55.一种组合物,其包含根据权利要求49或50所述的cDNA以及载剂。
56.一种组合物,其包含根据权利要求51至54中任一项所述的载体以及载剂。
57.一种宿主细胞,其包含根据权利要求49或50所述的cDNA。
58.一种宿主细胞,其包含根据权利要求51至54中任一项所述的载体。
59.根据权利要求57或58所述的宿主细胞,其中所述cDNA与在所述宿主细胞中有活性的启动子可操作地连接。
60.根据权利要求59所述的宿主细胞,其中所述启动子是诱导型启动子。
61.根据权利要求57至60中任一项所述的宿主细胞,其中所述宿主细胞是细菌细胞、酵母细胞或昆虫细胞。
62.根据权利要求57至60中任一项所述的宿主细胞,其中所述宿主细胞是哺乳动物细胞。
63.一种包含至少约15个核苷酸并且与根据权利要求49或50所述的cDNA杂交的核酸探针,条件是所述探针杂交至SEQ ID NO:6的位置1054至1056,或其互补序列。
64.一种分离的多肽,其包含与具有SEQ ID NO:8的B4GALT1变体多肽至少约90%、至少约95%、至少约98%或至少约99%同一的氨基酸序列,条件是所述多肽包含与SEQ ID NO:8的位置352相对应的丝氨酸。
65.根据权利要求64所述的多肽,其中所述B4GALT1变体多肽包含SEQ ID NO:8。
66.根据权利要求64或65所述的多肽,其中所述多肽还与异源肽融合。
67.根据权利要求66所述的多肽,其中所述异源分子包括免疫球蛋白Fc结构域、肽标签、荧光蛋白或转导结构域。
68.根据权利要求64至67中任一项所述的多肽,其中所述多肽还与标记连接。
69.根据权利要求68所述的多肽,其中所述标记包括聚乙二醇、聚唾液酸或乙醇酸。
70.根据权利要求68所述的多肽,其中所述标记包括可检测的荧光标记或放射性标记。
71.一种组合物,其包含根据权利要求64至70中任一项所述的多肽以及载剂或赋形剂。
72.一种宿主细胞,其表达根据权利要求64至70中任一项所述的多肽。
73.一种产生根据权利要求64至70中任一项所述的多肽的方法,其包括培养包含编码所述多肽的核酸分子的宿主细胞,由此所述细胞表达所述多肽,并且回收所表达的多肽。
74.根据权利要求73所述的方法,其中所述核酸分子受异源启动子的控制。
75.根据权利要求73或74所述的方法,其中所述核酸分子受诱导型启动子的控制。
76.一种检测人类受试者中B4GALT1变体核酸分子的方法,其包括对从所述受试者获得的样品进行测定以确定所述样品中的核酸分子是否包含在与全长/成熟B4GALT1多肽的位置352相对应的位置处编码丝氨酸的核酸序列。
77.根据权利要求76所述的方法,其中所述测定包括:
对所述样品中核酸分子的B4GALT1基因组序列的一部分进行测序,其中被测序的所述部分包括与SEQ ID NO:2的位置53575至53577相对应的位置;
对所述样品中核酸分子的B4GALT1 mRNA序列的一部分进行测序,其中被测序的所述部分包括与SEQ ID NO:4的位置1243至1245相对应的位置;或者
对所述样品中核酸分子的B4GALT1 cDNA序列的一部分进行测序,其中被测序的所述部分包括与SEQ ID NO:6的位置1054至1056相对应的位置。
78.根据权利要求76所述的方法,其中所述测定包括:
a)使所述样品与引物接触,所述引物与以下物质杂交:i)所述B4GALT1基因组序列的一部分,所述部分接近所述B4GALT1基因组序列的与SEQ ID NO:2的位置53575至53577相对应的位置;ii)所述B4GALT1 mRNA序列的一部分,所述部分接近与所述B4GALT1 mRNA的与SEQ ID NO:4的位置1243至1245相对应的位置;或者iii)所述B4GALT1 cDNA序列的一部分,所述部分接近与所述B4GALT1 cDNA的与SEQ ID NO:6的位置1054至1056相对应的位置;
b)延伸所述引物,使其至少通过:i)所述B4GALT1基因组序列的与位置53575至53577相对应的所述位置;ii)所述B4GALT1 mRNA的与位置1243至1245相对应的所述位置;或者iii)所述B4GALT1 cDNA的与位置1054至1056相对应的所述位置;并且
c)确定所述引物的延伸产物在以下位置处是否包含在SEQ ID NO:8的位置352处编码丝氨酸的核苷酸:i)与所述B4GALT1基因组序列的位置53575至53577相对应的所述位置;
ii)与所述B4GALT1 mRNA的位置1243至1245相对应的所述位置;或者iii)与所述B4GALT1 cDNA的位置1054至1056相对应的所述位置。
79.根据权利要求76所述的方法,其中所述测定包括:使所述样品与引物或探针接触,所述引物或探针在严格条件下与所述B4GALT1变体基因组序列、mRNA序列或cDNA序列而非对应的野生型B4GALT1序列特异性杂交;并且确定是否发生杂交。
80.一种检测人类受试者中B4GALT1 Asn352Ser的存在的方法,其包括对从所述人类受试者获得的样品进行测定以确定所述样品中的B4GALT1蛋白在位置352处是否包含丝氨酸残基。
81.一种确定人类受试者发生心血管疾患的易感性的方法,其包括:
a)对从所述受试者获得的样品进行测定以确定所述样品中的核酸分子是否包含在与全长/成熟B4GALT1多肽的位置352相对应的位置处编码丝氨酸的核酸序列;并且b)如果所述核酸分子包含在与全长/成熟B4GALT1多肽的位置352相对应的位置处编码丝氨酸的核酸序列,则将所述人类受试者分类为发生所述心血管疾患的险降低,或者如果所述核酸分子不包含在与全长/成熟B4GALT1多肽的位置352相对应的位置处编码丝氨酸的核酸序列,则将所述人类受试者分类为发生心血管疾患的风险增加。
82.根据权利要求81所述的方法,其中所述测定包括:
对所述样品中核酸分子的B4GALT1基因组序列的一部分进行测序,其中被测序的所述部分包括与SEQ ID NO:2的位置53575至53577相对应的位置;
对所述样品中核酸分子的B4GALT1 mRNA序列的一部分进行测序,其中被测序的所述部分包括与SEQ ID NO:4的位置1243至1245相对应的位置;或者
对所述样品中核酸分子的B4GALT1 cDNA序列的一部分进行测序,其中被测序的所述部分包括与SEQ ID NO:6的位置1054至1056相对应的位置。
83.根据权利要求81所述的方法,其中所述测定包括:
a)使所述样品与引物接触,所述引物与以下物质杂交:i)所述B4GALT1基因组序列的一部分,所述部分接近所述B4GALT1基因组序列的与SEQ ID NO:2的位置53575至53577相对应的位置;ii)所述B4GALT1 mRNA序列的一部分,所述部分接近与所述B4GALT1 mRNA的与SEQ ID NO:4的位置1243至1245相对应的位置;或者iii)所述B4GALT1 cDNA序列的一部分,所述部分接近与所述B4GALT1 cDNA的与SEQ ID NO:6的位置1054至1056相对应的位置;
b)延伸所述引物,使其至少通过:i)所述B4GALT1基因组序列的与位置53575至53577相对应的所述位置;ii)所述B4GALT1 mRNA的与位置1243至1245相对应的所述位置;或者iii)所述B4GALT1 cDNA的与位置1054至1056相对应的所述位置;并且
c)确定所述引物的延伸产物在以下位置处是否包含在SEQ ID NO:8的位置352处编码丝氨酸的核苷酸:i)与所述B4GALT1基因组序列的位置53575至53577相对应的所述位置;
ii)与所述B4GALT1 mRNA的位置1243至1245相对应的所述位置;或者iii)与所述B4GALT1 cDNA的位置1054至1056相对应的所述位置。
84.根据权利要求81所述的方法,其中所述测定包括:使所述样品与引物或探针接触,所述引物或探针在严格条件下与所述B4GALT1变体基因组序列、mRNA序列或cDNA序列而非对应的野生型B4GALT1序列特异性杂交;并且确定是否发生杂交。
85.根据权利要求81至84中任一项所述的方法,其中所述心血管疾患包括一种或多种血清脂质平升高。
86.根据权利要求85所述的方法,其中所述血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇中的一种或多种。
87.根据权利要求81至84中任一项所述的方法,其中所述心血管疾患包括冠状动脉化水平升高。
88.根据权利要求81至84中任一项所述的方法,其中所述心血管疾患包括心包脂肪水平升高。
89.根据权利要求81至84中任一项所述的方法,其中所述心血管疾患包括动脉粥样硬化血栓形成疾患。
90.根据权利要求89所述的方法,其中所述动脉粥样硬化血栓形成疾患包括纤维蛋白原水平升高。
91.根据权利要求90所述的方法,其中所述动脉粥样硬化血栓形成疾患包括由纤维蛋白原活性参与形成的血
92.根据权利要求81至84中任一项所述的方法,其中所述心血管疾患包括纤维蛋白原水平升高。
93.根据权利要求92所述的方法,其中所述心血管疾患包括由纤维蛋白原活性参与形成的血凝块。
94.根据权利要求81至93中任一项所述的方法,其还包括:c)对于发生心血管疾患的风险增加的受试者,施用治疗或抑制所述心血管疾患的治疗剂。
95.一种确定人类受试者发生心血管疾患的易感性的方法,其包括:
a)对从所述人类受试者获得的样品进行测定以确定所述样品中的B4GALT1蛋白在位置
352处是否包含丝氨酸残基;并且
b)如果所述B4GALT1多肽在与全长/成熟B4GALT1多肽的位置352相对应的位置处包含丝氨酸,则将所述人类受试者分类为发生所述心血管疾患的风险降低,或者如果所述B4GALT1多肽在与全长/成熟B4GALT1多肽的位置352相对应的位置处不包含丝氨酸,则将所述人类受试者分类为发生所述心血管疾患的风险增加。
96.根据权利要求95所述的方法,其中所述心血管疾患包括一种或多种血清脂质水平升高。
97.根据权利要求96所述的方法,其中所述血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇中的一种或多种。
98.根据权利要求95所述的方法,其中所述心血管疾患包括冠状动脉钙化水平升高。
99.根据权利要求95所述的方法,其中所述心血管疾患包括心包脂肪水平升高。
100.根据权利要求95所述的方法,其中所述心血管疾患包括动脉粥样硬化血栓形成疾患。
101.根据权利要求100所述的方法,其中所述动脉粥样硬化血栓形成疾患包括纤维蛋白原水平升高。
102.根据权利要求101所述的方法,其中所述动脉粥样硬化血栓形成疾患包括由纤维蛋白原活性参与形成的血凝块。
103.根据权利要求95所述的方法,其中所述心血管疾患包括纤维蛋白原水平升高。
104.根据权利要求103所述的方法,其中所述心血管疾患包括由纤维蛋白原活性参与形成的血凝块。
105.根据权利要求95至105中任一项所述的方法,其还包括:c)对于发生心血管疾患的风险增加的受试者,施用治疗或抑制所述心血管疾患的治疗剂。
106.一种有效地指导Cas酶结合至或切割内源B4GALT1基因的引导RNA,其中所述引导RNA包含与所述内源B4GALT1基因内的引导RNA识别序列杂交的DNA靶向区段,所述引导RNA识别序列包括或接近与SEQ ID NO:1的位置53575至53577相对应的位置。
107.根据权利要求106所述的引导RNA,其中所述引导RNA识别序列选自SEQ ID NO:9-
12。
108.根据权利要求106所述的引导RNA,其中所述引导RNA识别序列在与SEQ ID NO:1的位置53575至53577相对应的位置的约1000个核苷酸内。
109.根据权利要求108所述的引导RNA,其中所述引导RNA识别序列包括与SEQ ID NO:1的位置53575至53577相对应的位置。
110.根据权利要求109所述的引导RNA,其中所述内源B4GALT1基因包含SEQ ID NO:1。
111.根据权利要求106至110中任一项所述的引导RNA,其中所述引导RNA包括含所述DNA靶向区段和反式激活CRISPR RNA(tracrRNA)的成簇规律间隔短回文重复序列(CRISPR)RNA(crRNA)。
112.一种分离的核酸分子,其包含编码根据权利要求106至111中任一项所述的引导RNA的DNA。
113.一种载体,其包含根据权利要求112所述的分离的核酸分子以及异源核酸。
114.一种组合物,其包含根据权利要求106至112中任一项所述的引导RNA以及Cas蛋白。
115.一种细胞,其包含根据权利要求106至111中任一项所述的引导RNA。
116.一种修饰细胞中内源B4GALT1基因的方法,其包括使所述细胞的基因组与以下物质接触:
a)Cas蛋白;以及
b)引导RNA,所述与所述Cas蛋白形成复合物并与所述内源B4GALT1基因内的引导RNA识别序列杂交,其中所述引导RNA识别序列包括或接近与SEQ ID NO:1的位置53575至53577相对应的位置,其中所述Cas蛋白切割所述B4GALT1基因。
117.根据权利要求116所述的方法,其中所述引导RNA识别序列选自SEQ ID NO:9-12。
118.根据权利要求116所述的方法,其中所述引导RNA识别序列在与SEQ ID NO:1的位置53575至53577相对应的位置的约1000个核苷酸内。
119.根据权利要求118所述的方法,其中所述引导RNA识别序列包括与SEQ ID NO:1的位置53575至53577相对应的位置。
120.根据权利要求116至119中任一项所述的方法,其还包括使所述基因组与外源供体序列接触,所述外源供体序列包含与对应于SEQ ID NO:1的位置53575至53577的位置的5'靶序列杂交的5'同源臂以及与对应于SEQ ID NO:1的位置53575至53577的位置的3'靶序列杂交的3'同源臂,其中所述外源供体序列与所述内源B4GALT1基因重组。
121.根据权利要求120所述的方法,其中所述外源供体序列还包含被所述5'同源臂和所述3'同源臂侧接的核酸插入物。
122.根据权利要求116所述的方法,其中所述核酸插入物包含编码丝氨酸的核酸序列,并且其中在所述外源供体序列与所述内源B4GALT1基因重组后,所述核酸插入物被插入所述内源B4GALT1基因中,其中编码所述丝氨酸的所述核酸序列被插入所述内源B4GALT1基因的与SEQ ID NO:1的位置53575至53577相对应的位置中。
123.根据权利要求120至122中任一项所述的方法,其中所述外源供体序列的长度为约
50个核苷酸至约1kb。
124.根据权利要求123所述的方法,其中所述外源供体序列的长度为约80个核苷酸至约200个核苷酸。
125.根据权利要求120至124中任一项所述的方法,其中所述外源供体序列是单链寡脱核苷酸。
126.一种修饰细胞中内源B4GALT1基因的方法,其包括使所述细胞的基因组与以下物质接触:
a)Cas蛋白;以及
b)第一引导RNA,所述第一引导RNA与所述Cas蛋白形成复合物并与所述内源B4GALT1基因内的第一引导RNA识别序列杂交,其中所述第一引导RNA识别序列包含所述B4GALT1基因的起始密码子或在所述起始密码子的约1,000个核苷酸内或选自SEQ ID NO:9-12,其中所述Cas蛋白切割或改变所述内源B4GALT1基因的表达。
127.根据权利要求126所述的方法,其中所述第一引导RNA识别序列选自SEQ ID NO:9-
12。
128.根据权利要求126或权利要求127所述的方法,其中所述Cas蛋白是有核酸酶活性的Cas蛋白。
129.根据权利要求126或权利要求127所述的方法,其中所述Cas蛋白是与转录激活因子结构域或转录阻遏因子结构域融合的无核酸酶活性的Cas蛋白。
130.根据权利要求126至128中任一项所述的方法,其还包括使所述细胞的基因组与第二引导RNA接触,所述第二引导RNA与所述Cas蛋白形成复合物并与所述内源B4GALT1基因内的第二引导RNA识别序列杂交,其中所述第二引导RNA识别序列包含所述内源B4GALT1基因的终止密码子或在所述终止密码子的约1,000个核苷酸内或选自SEQ ID NO:9-12,其中所述细胞被修饰为在所述第一引导RNA识别序列与所述第二引导RNA识别序列之间包含缺失。
131.根据权利要求126至130中任一项所述的方法,其还包括将表达载体引入所述细胞中,其中所述表达载体包含重组B4GALT1基因,所述重组基因包含在与SEQ ID NO:2的位置
53575至53577相对应的位置处插入的编码丝氨酸的核苷酸序列。
132.根据权利要求131所述的方法,其中所述重组B4GALT1基因是B4GALT1小基因,其中相对于对应的野生型B4GALT1基因缺失了所述基因的一个或多个非必需区段。
133.根据权利要求132所述的方法,其中所述缺失区段包含一个或多个内含子序列。
134.根据权利要求126至130中任一项所述的方法,其还包括将表达载体引入所述细胞中,其中所述表达载体包含编码与SEQ ID NO:8至少约90%、至少约95%、至少约98%或至少约99%同一的B4GALT1多肽的核酸分子,并且在与SEQ ID NO:8相对应的位置352处包含丝氨酸。
135.根据权利要求126至13中任一项所述的方法,其还包括将B4GALT1多肽或其片段引入所述细胞中,其中所述蛋白质或其片段与SEQ ID NO:8至少约90%、至少约95%、至少约
98%或至少约99%同一,并且在与SEQ ID NO:8相对应的位置352处包含丝氨酸。
136.根据权利要求126至135中任一项所述的方法,其中所述Cas蛋白是Cas9。
137.一种用于修饰细胞的方法,其包括将表达载体引入所述细胞中,其中所述表达载体包含重组B4GALT1基因,所述重组基因包含在与SEQ ID NO:2的位置53575至53577相对应的位置处插入的编码丝氨酸的核苷酸序列。
138.根据权利要求137所述的方法,其中所述重组B4GALT1基因是B4GALT1小基因,其中相对于对应的野生型B4GALT1基因缺失了所述基因的一个或多个非必需区段。
139.根据权利要求138所述的方法,其中所述缺失区段包含一个或多个内含子序列。
140.一种用于修饰细胞的方法,其包括将表达载体引入所述细胞中,其中所述表达载体包含编码与SEQ ID NO:8至少约90%、至少约95%、至少约98%或至少约99%同一的B4GALT1多肽的核酸分子,并且在与SEQ ID NO:8相对应的位置352处包含丝氨酸。
141.一种用于修饰细胞的方法,其包括将B4GALT1多肽或其片段引入所述细胞中,其中所述B4GALT1多肽与SEQ ID NO:8至少约90%、至少约95%、至少约98%或至少约99%同一,并且在与SEQ ID NO:8相对应的位置352处包含丝氨酸。
142.一种治疗不是B4GALT1变体的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,其包括将以下物质引入所述受试者体内:
a)Cas蛋白或编码所述Cas蛋白的核酸;
b)引导RNA或编码所述引导RNA的核酸,其中所述引导RNA与所述Cas蛋白形成复合物并与内源B4GALT1基因内的引导RNA识别序列杂交,其中所述引导RNA识别序列包括或接近与SEQ ID NO:1的位置53575至53577相对应的位置;以及
c)外源供体序列,所述外源供体序列包含与对应于SEQ ID NO:1的位置53575至53577的位置的5'靶序列杂交的5'同源臂、与对应于SEQ ID NO:1的位置53575至53577的位置的
3'靶序列杂交的3'同源臂,以及在与SEQ ID NO:2的位置53575至53577相对应的位置处包含编码丝氨酸的核苷酸序列的、被所述5'同源臂和所述3'同源臂侧接的核酸插入物,其中所述Cas蛋白切割所述受试者体内细胞中的所述内源B4GALT1基因,并且所述外源供体序列与所述细胞中的所述内源B4GALT1基因重组,其中在所述外源供体序列与所述内源B4GALT1基因重组后,所述丝氨酸被插入与SEQ ID NO:1的位置53575至53577相对应的核苷酸处。
143.根据权利要求142所述的方法,其中所述引导RNA识别序列选自SEQ ID NO:9-12。
144.根据权利要求142所述的方法,其中所述引导RNA识别序列在与SEQ ID NO:1的位置53575至53577相对应的位置的约1000个核苷酸内。
145.根据权利要求142所述的方法,其中所述引导RNA识别序列包括与SEQ ID No:1的位置53575至53577相对应的位置。
146.根据权利要求142至145中任一项所述的方法,其中所述外源供体序列的长度为约
50个核苷酸至约1kb。
147.根据权利要求146所述的方法,其中所述外源供体序列的长度为约80个核苷酸至约200个核苷酸。
148.根据权利要求142至147中任一项所述的方法,其中所述外源供体序列是单链寡脱氧核苷酸。
149.根据权利要求142至148中任一项所述的方法,其中所述心血管疾患包括一种或多种血清脂质水平升高。
150.根据权利要求149所述的方法,其中所述血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇中的一种或多种。
151.根据权利要求142至148中任一项所述的方法,其中所述心血管疾患包括冠状动脉钙化水平升高。
152.根据权利要求142至148中任一项所述的方法,其中所述心血管疾患包括心包脂肪水平升高。
153.根据权利要求142至148中任一项所述的方法,其中所述心血管疾患包括动脉粥样硬化血栓形成疾患。
154.根据权利要求153所述的方法,其中所述动脉粥样硬化血栓形成疾患包括纤维蛋白原水平升高。
155.根据权利要求154所述的方法,其中所述动脉粥样硬化血栓形成疾患包括由纤维蛋白原活性参与形成的血凝块。
156.根据权利要求142至148中任一项所述的方法,其中所述心血管疾患包括纤维蛋白原水平升高。
157.根据权利要求156所述的方法,其中所述心血管疾患包括由纤维蛋白原活性参与形成的血凝块。
158.一种治疗不是B4GALT1变体的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,其包括将以下物质引入所述受试者体内:
a)Cas蛋白或编码所述Cas蛋白的核酸;
b)第一引导RNA或编码所述第一引导RNA的核酸,其中所述第一引导RNA与所述Cas蛋白形成复合物并与所述内源B4GALT1基因内的第一引导RNA识别序列杂交,其中所述第一引导RNA识别序列包含所述内源B4GALT1基因的起始密码子或在所述起始密码子的约1,000个核苷酸内或选自SEQ ID NO:9-12;以及
c)包含重组B4GALT1基因的表达载体,所述重组基因在与SEQ ID NO:2的位置53575至
53577相对应的位置处包含编码丝氨酸的核苷酸序列,其中所述Cas蛋白切割或改变所述内源B4GALT1基因在所述受试者体内细胞中的表达,并且所述表达载体在所述受试者体内的细胞中表达所述重组B4GALT1基因。
159.根据权利要求158所述的方法,其中所述第一引导RNA识别序列选自SEQ ID NO:9-
12。
160.根据权利要求158或权利要求159所述的方法,其中所述Cas蛋白是有核酸酶活性的Cas蛋白。
161.根据权利要求158或权利要求159所述的方法,其中所述Cas蛋白是与转录阻遏因子结构域融合的无核酸酶活性的Cas蛋白。
162.根据权利要求158至161中任一项所述的方法,其还包括将第二引导RNA引入所述受试者体内,其中所述第二引导RNA与所述Cas蛋白形成复合物并与所述内源B4GALT1基因内的第二引导RNA识别序列杂交,其中所述第二引导RNA识别序列包含所述内源B4GALT1基因的终止密码子或在所述终止密码子的约1,000个核苷酸内或选自SEQ ID NO:9-12,其中所述Cas蛋白在所述第一引导RNA识别序列和所述第二引导RNA识别序列内切割所述细胞中的所述内源B4GALT1基因,其中所述细胞被修饰为在所述第一引导RNA识别序列与所述第二引导RNA识别序列之间包含缺失。
163.根据权利要求158至162中任一项所述的方法,其中所述心血管疾患包括一种或多种血清脂质水平升高。
164.根据权利要求163所述的方法,其中所述血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇中的一种或多种。
165.根据权利要求158至162中任一项所述的方法,其中所述心血管疾患包括冠状动脉钙化水平升高。
166.根据权利要求158至162中任一项所述的方法,其中所述心血管疾患包括心包脂肪水平升高。
167.根据权利要求158至162中任一项所述的方法,其中所述心血管疾患包括动脉粥样硬化血栓形成疾患。
168.根据权利要求167所述的方法,其中所述动脉粥样硬化血栓形成疾患包括纤维蛋白原水平升高。
169.根据权利要求168所述的方法,其中所述动脉粥样硬化血栓形成疾患包括由纤维蛋白原活性参与形成的血凝块。
170.根据权利要求158至162中任一项所述的方法,其中所述心血管疾患包括纤维蛋白原水平升高。
171.根据权利要求170所述的方法,其中所述心血管疾患包括由纤维蛋白原活性参与形成的血凝块。
172.根据权利要求142至171中任一项所述的方法,其中所述Cas蛋白是Cas9。
173.一种治疗不是B4GALT1变体的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,其包括将与内源B4GALT1基因内的序列杂交并且降低B4GALT1多肽在所述受试者体内的细胞中表达的反义RNA、siRNA或shRNA引入所述受试者体内。
174.根据权利要求173所述的方法,其还包括将表达载体引入所述受试者体内,其中所述表达载体包含重组B4GALT1基因,所述重组B4GALT1基因在与SEQ ID NO:2的位置53575至
53577相对应的位置处包含编码丝氨酸的核苷酸序列,其中所述表达载体在所述受试者体内的细胞中表达所述重组B4GALT1基因。
175.根据权利要求173所述的方法,其还包括将表达载体引入所述受试者体内,其中所述表达载体包含编码与SEQ ID NO:8(B4GALT1 Asn352Ser)至少约90%、至少约95%、至少约98%或至少约99%同一的B4GALT1多肽的核酸分子,其中所述表达载体在所述受试者体内的细胞中表达编码所述B4GALT1多肽的所述核酸。
176.根据权利要求173所述的方法,其还包括将mRNA引入所述受试者体内,其中所述mRNA编码与SEQ ID NO:8(B4GALT1 Asn352Ser)至少约90%、至少约95%、至少约98%或至少约99%同一的B4GALT1多肽,其中所述mRNA在所述受试者体内的细胞中表达所述B4GALT1多肽。
177.根据权利要求173所述的方法,其还包括将B4GALT1 Asn352Ser多肽或其片段引入所述受试者体内,其中所述多肽与SEQ ID NO:8至少约90%、至少约95%、至少约98%或至少约99%同一并且在与SEQ ID NO:8相对应的位置352处包含丝氨酸。
178.根据权利要求173至177中任一项所述的方法,其中所述心血管疾患包括一种或多种血清脂质水平升高。
179.根据权利要求178所述的方法,其中所述血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇中的一种或多种。
180.根据权利要求173至177中任一项所述的方法,其中所述心血管疾患包括冠状动脉钙化水平升高。
181.根据权利要求173至177中任一项所述的方法,其中所述心血管疾患包括心包脂肪水平升高。
182.根据权利要求173至177中任一项所述的方法,其中所述心血管疾患包括动脉粥样硬化血栓形成疾患。
183.根据权利要求182所述的方法,其中所述动脉粥样硬化血栓形成疾患包括纤维蛋白原水平升高。
184.根据权利要求183所述的方法,其中所述动脉粥样硬化血栓形成疾患包括由纤维蛋白原活性参与形成的血凝块。
185.根据权利要求173至177中任一项所述的方法,其中所述心血管疾患包括纤维蛋白原水平升高。
186.根据权利要求185所述的方法,其中所述心血管疾患包括由纤维蛋白原活性参与形成的血凝块。
187.一种治疗不是B4GALT1变体的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,其包括将表达载体引入所述受试者体内,其中所述表达载体包含重组B4GALT1基因,所述B4GALT1重组基因包含在与SEQ ID NO:2的位置53575至53577相对应的位置处编码丝氨酸的核苷酸序列,其中所述表达载体在所述受试者体内的细胞中表达所述重组B4GALT1基因。
188.根据权利要求187所述的方法,其中重组B4GALT1基因与SEQ ID NO:2至少约90%、至少约95%、至少约98%或至少约99%同一。
189.根据权利要求187或权利要求188所述的方法,其中所述重组B4GALT1基因是B4GALT1小基因,其中相对于对应的野生型B4GALT1基因缺失了所述基因的一个或多个非必需区段。
190.根据权利要求187所述的方法,其中所述缺失区段包含一个或多个内含子序列。
191.根据权利要求187至190中任一项所述的方法,其中所述心血管疾患包括一种或多种血清脂质水平升高。
192.根据权利要求191所述的方法,其中所述血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇中的一种或多种。
193.根据权利要求187至190中任一项所述的方法,其中所述心血管疾患包括冠状动脉钙化水平升高。
194.根据权利要求187至190中任一项所述的方法,其中所述心血管疾患包括心包脂肪水平升高。
195.根据权利要求187至190中任一项所述的方法,其中所述心血管疾患包括动脉粥样硬化血栓形成疾患。
196.根据权利要求195所述的方法,其中所述动脉粥样硬化血栓形成疾患包括纤维蛋白原水平升高。
197.根据权利要求196所述的方法,其中所述动脉粥样硬化血栓形成疾患包括由纤维蛋白原活性参与形成的血凝块。
198.根据权利要求187至190中任一项所述的方法,其中所述心血管疾患包括纤维蛋白原水平升高。
199.根据权利要求198所述的方法,其中所述心血管疾患包括由纤维蛋白原活性参与形成的血凝块。
200.根据权利要求187至199中任一项所述的方法,其中所述表达载体是根据权利要求
5至8、21至24、36至39以及51至54中任一项所述的载体。
201.一种治疗不是B4GALT1变体的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,其包括将表达载体引入所述受试者体内,其中所述表达载体包含编码与SEQ ID NO:8(B4GALT1 Asn352Ser)至少约90%、至少约95%、至少约98%或至少约99%同一的B4GALT1多肽的核酸,其中所述表达载体在所述受试者体内的细胞中表达编码所述B4GALT1多肽的所述核酸。
202.根据权利要求201所述的方法,其中所述表达载体是根据权利要求5至8、21至24、
36至39以及51至54中任一项所述的载体。
203.一种治疗不是B4GALT1变体的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,其包括将mRNA引入所述受试者体内,其中所述mRNA编码与SEQ ID NO:8(B4GALT1 Asn352Ser)至少约90%、至少约95%、至少约98%或至少约99%同一的B4GALT1多肽,其中所述mRNA在所述受试者体内的细胞中表达所述B4GALT1多肽。
204.一种治疗不是B4GALT1变体的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,其包括将B4GALT1 Asn352Ser蛋白或其片段引入所述受试者体内,其中所述B4GALT1多肽与SEQ ID NO:8(B4GALT1 Asn352Ser)至少约90%、至少约95%、至少约98%或至少约99%同一。
205.根据权利要求204所述的方法,其中所述多肽是根据权利要求63至70中任一项所述的多肽。
206.根据权利要求142至205中任一项所述的方法,其中所述引入所述受试者体内包括流体学递送、病毒介导的递送、脂质-纳米颗粒介导的递送或静脉内输注。
207.根据权利要求201至206中任一项所述的方法,其中所述心血管疾患包括一种或多种血清脂质水平升高。
208.根据权利要求207所述的方法,其中所述血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇中的一种或多种。
209.根据权利要求201至206中任一项所述的方法,其中所述心血管疾患包括冠状动脉钙化水平升高。
210.根据权利要求201至206中任一项所述的方法,其中所述心血管疾患包括心包脂肪水平升高。
211.根据权利要求201至206中任一项所述的方法,其中所述心血管疾患包括动脉粥样硬化血栓形成疾患。
212.根据权利要求211所述的方法,其中所述动脉粥样硬化血栓形成疾患包括纤维蛋白原水平升高。
213.根据权利要求212所述的方法,其中所述动脉粥样硬化血栓形成疾患包括由纤维蛋白原活性参与形成的血凝块。
214.根据权利要求201至206中任一项所述的方法,其中所述心血管疾患包括纤维蛋白原水平升高。
215.根据权利要求214所述的方法,其中所述心血管疾患包括由纤维蛋白原活性参与形成的血凝块。

说明书全文

B4GALT1变体及其用途

[0001] 政府补助的引用
[0002] 本发明是根据美国国立卫生研究院(National Institutes of Health)授予的HL121007在政府支持下完成的。政府享有本发明的某些权利。
[0003] 序列表的引用
[0004] 本申请包括以名称为18923800202SEQ的文本文件通过电子方式提交的序列表,该文本文件创建于2018年6月4日,大小为161KB。该序列表通过引用并入本文。

技术领域

[0005] 本公开提供了变体B4GALT1基因组核酸分子、mRNA核酸分子和cDNA核酸分子及多肽,检测这些分子的存在的方法,调节内源B4GALT1基因组核酸分子、mRNA核酸分子和cDNA核酸分子及多肽的方法,通过检测变体B4GALT1基因组核酸分子、mRNA核酸分子和cDNA核酸分子及多肽的存在与否来确定发生心血管疾患险的方法,以及治疗心血管疾患的方法。

背景技术

[0006] 在整个说明书中引用了各种出版物,包括专利、公开的申请、登录号、技术文章和学术文章。每一项引用的出版物都通过引用整体并入本文用于所有目的。
[0007] β-1,4-半乳糖基转移酶1(B4GALT1)是β-1,4-半乳糖基转移酶基因家族的成员,其编码在不同糖缀合物和糖结构的生物合成中发挥作用的II型膜结合糖蛋白。由B4GALT1编码的酶在糖蛋白中N连接寡糖部分的加工中起关键作用,而蛋白连接的糖链通常调节糖蛋白的生物学功能。因此,B4GALT1活性受损可能会改变所有含有N连接寡糖的糖蛋白的结构。长形式的B4GALT1酶位于反面高尔基体中,在反面高尔基体中,该酶在将高甘露糖生物合成加工成复杂类型的N连接寡糖的过程中将半乳糖基残基转移到N-乙酰葡萄糖残基上。
由于添加半乳糖基残基是添加唾液酸的先决条件,因此B4GALT1缺陷会对阻断添加唾液酸残基发挥间接作用,并因此可改变血浆糖蛋白的半衰期。据报道,糖基化缺陷会影响各种糖蛋白(包括LDL受体)的细胞内运输。此外,N连接寡糖结构异常可能改变蛋白质折叠,进而改变糖蛋白的功能及其分泌。大部分蛋白质都含有N连接糖基化,包括细胞表面受体(例如,LDL受体和胰岛素受体)以及各种循环血浆蛋白(例如,载脂蛋白B和纤维蛋白原)。已经报道了患有由于B4GALT1基因中的蛋白截短突变为纯合性所致的遗传病的患者。一名这种患者具有严重的表型,其特征为a)严重的神经发育异常(包括脑积)、b)肌病以及c)凝血异常。
如所预测的,来源于循环转蛋白的寡糖缺少半乳糖和唾液酸残基。另外两名具有相同遗传缺陷的患者表现出较轻的表型,其特征为凝血功能紊乱、肝病和畸形特征。
[0008] 在美国和其他西方国家,心血管疾病是主要的死亡原因。动脉粥样硬化血栓形成心血管疾病诸如中风和心肌梗塞的主要危险因素包括血胆固醇升高和血栓形成趋势。许多参与脂质代谢和凝血的蛋白质都会被糖基化,并因此受B4GALT1的调节。了解心血管疾患发生和发展的潜在遗传因素可以改善风险分层并为新的治疗策略提供基础

发明内容

[0009] 本公开提供了包含与B4GALT1变体基因组序列(其包含被称为rs551564683的SNP)的同一性为至少约90%的核酸序列的核酸分子,条件是所述核酸序列还在与全长/成熟B4GALT1多肽的位置352相对应的位置处包含编码丝氨酸的核苷酸。
[0010] 本公开还提供了包含与B4GALT1变体mRNA序列(其包含被称为rs551564683的SNP)的同一性为至少约90%的核酸序列的核酸分子,条件是所述核酸序列还在与全长/成熟B4GALT1多肽的位置352相对应的位置处编码丝氨酸。
[0011] 本公开还提供了包含与B4GALT1变体cDNA序列(其包含被称为rs551564683的SNP)的同一性为至少约90%的核酸序列的编码B4GALT1多肽的cDNA分子,条件是所述核酸序列还在与全长/成熟B4GALT1多肽中的位置352相对应的位置处编码丝氨酸。
[0012] 本公开还提供了包含这些核酸分子中的任何一种或多种的载体或外源供体序列。
[0013] 本公开还提供了包含与B4GALT1多肽的同一性为至少约90%的氨基酸序列的分离的多肽,所述氨基酸序列在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸。
[0014] 本公开还提供了包含与在宿主细胞中有活性的异源启动子可操作地连接的这些核酸分子中的任何一种或多种的宿主细胞。
[0015] 本公开还提供了通过培养包含编码B4GALT1多肽的核酸分子的宿主细胞(其中所述核酸分子与在宿主细胞中有活性的异源启动子可操作地连接,从而表达核酸分子)并回收分离的多肽来产生B4GALT1多肽的方法。
[0016] 本公开还提供了包含这些核酸分子或多肽以及用于增加其稳定性的载剂的组合物。
[0017] 本公开还提供了检测人类受试者中B4GALT1变体核酸分子(其包含被称为rs551564683的SNP)的存在与否的方法,所述方法包括对来自人类受试者的生物样品进行测定以确定生物样品中的核酸分子是否包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的变体B4GALT1多肽的核酸序列。
[0018] 本公开还提供了检测人类受试者中在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的变体B4GALT1多肽的存在的方法,所述方法包括对来自人类受试者的生物样品进行测定以确定变体B4GALT1多肽的存在。
[0019] 本公开还提供了确定人类受试者发生心血管疾患的易感性的方法,所述方法包括:a)对来自人类受试者的生物样品进行测定以确定生物样品中的核酸分子是否包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的变体B4GALT1多肽的核酸序列;并且b)如果在生物样品中检测到包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的变体B4GALT1多肽的核酸序列的核酸分子,则将人类受试者分类为发生心血管疾患的风险降低,或者如果在生物样品中未检测到包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的变体B4GALT1多肽的核酸序列的核酸分子,则将人类受试者分类为发生心血管疾患的风险增加。
[0020] 本公开还提供了确定人类受试者发生心血管疾患的易感性的方法,所述方法包括:a)对来自人类受试者的生物样品进行测定以确定生物样品中的B4GALT1多肽在与位置352相对应的位置处是否包含丝氨酸;并且b)如果在生物样品中检测到在与全长/成熟
B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的B4GALT1多肽,则将人类受试者分类为发生心血管疾患的风险降低,或者如果在生物样品中未检测到在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的B4GALT1多肽,则将人类受试者分类为发生心血管疾患的风险增加。
[0021] 本公开还提供了有效地指导Cas酶结合或切割内源B4GALT1基因的引导RNA分子,其中所述引导RNA包含与内源B4GALT1基因内的引导RNA识别序列杂交的DNA靶向区段,所述引导RNA识别序列包括或接近(例如,在一定数量的核苷酸内,诸如下文所述)与野生型B4GALT1基因的位置53575至53577相对应的位置。
[0022] 本公开还提供了修饰细胞中内源B4GALT1基因的方法,所述方法包括使细胞的基因组与以下物质接触:a)Cas蛋白;以及b)引导RNA,所述引导RNA与Cas蛋白形成复合物并与内源B4GALT1基因内的引导RNA识别序列杂交,其中所述引导RNA识别序列包括或接近(例如,在一定数量的核苷酸内,诸如下文所述)与野生型B4GALT1基因的位置53575至53577相对应的位置,其中所述Cas蛋白切割内源B4GALT1基因。
[0023] 本公开还提供了修饰细胞中内源B4GALT1基因的方法,所述方法包括使细胞的基因组与以下物质接触:a)Cas蛋白;以及b)第一引导RNA,所述第一引导RNA与Cas蛋白形成复合物并与内源B4GALT1基因内的第一引导RNA识别序列杂交,其中所述第一引导RNA识别序列包含B4GALT1基因的起始密码子或在所述起始密码子的约1,000个核苷酸内,其中所述Cas蛋白切割或改变内源B4GALT1基因的表达。
[0024] 本公开还提供了用于修饰细胞的方法,所述方法包括将表达载体引入细胞中,其中所述表达载体包含重组B4GALT1基因,所述重组基因包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的B4GALT1多肽的核苷酸序列。
[0025] 本公开内容还提供了用于修饰细胞的方法,所述方法包括将表达载体引入细胞中,其中所述表达载体包含与在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的B4GALT1多肽的同一性为至少约90%的多肽的核酸分子,其中所述多肽还在与全长/成熟B4GALT1多肽的位置352相对应的位置处包含丝氨酸。
[0026] 本公开内容还提供了修饰细胞的方法,所述方法包括将多肽或其片段引入细胞中,其中所述多肽与在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的B4GALT1多肽的同一性为至少约90%,并且其中所述多肽还在与全长/成熟B4GALT1多肽中的位置352相对应的位置处包含丝氨酸。
[0027] 本公开还提供了治疗不是B4GALT1变体核酸分子或多肽(其包含被称为rs551564683的SNP)的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括将以下物质引入受试者体内:a)Cas蛋白或编码Cas蛋白的核酸;b)引导RNA或编码引导RNA的核酸,其中所述引导RNA与Cas蛋白形成复合物并与内源B4GALT1基因内的引导RNA识别序列杂交,其中所述引导RNA识别序列包括或接近与野生型B4GALT1基因的位置
53575至53577相对应的位置;以及c)外源供体序列,所述外源供体序列包含与对应于野生型B4GALT1基因的位置53575至53577的位置的5'靶序列杂交的5'同源臂、与对应于野生型B4GALT1基因的位置53575至53577的位置的3'靶序列杂交的3'同源臂,以及包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的B4GALT1多肽的核苷酸序列的、被5'同源臂和3'同源臂侧接的核酸插入物,其中所述Cas蛋白切割受试者细胞中的内源B4GALT1基因,并且所述外源供体序列与细胞中的内源B4GALT1基因重组,其中在外源供体序列与内源B4GALT1基因重组后,丝氨酸被插入与野生型B4GALT1基因的位置53575至
53577相对应的核苷酸处。
[0028] 本公开还提供了治疗不是B4GALT1变体核酸分子或多肽(其包含被称为rs551564683的SNP)的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括将以下物质引入受试者体内:a)Cas蛋白或编码Cas蛋白的核酸;b)第一引导RNA或编码第一引导RNA的核酸,其中所述第一引导RNA与Cas蛋白形成复合物并与内源B4GALT1基因内的第一引导RNA识别序列杂交,其中所述第一引导RNA识别序列包含内源B4GALT1基因的起始密码子或在所述起始密码子的约1,000个核苷酸内;以及c)包含重组B4GALT1基因的表达载体,所述重组基因包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的B4GALT1多肽的核苷酸序列,其中所述Cas蛋白切割或改变内源B4GALT1基因在受试者细胞中的表达,并且所述表达载体在受试者细胞中表达重组B4GALT1基因。
[0029] 本公开还提供了治疗不是B4GALT1变体核酸分子或多肽(其包含被称为rs551564683的SNP)的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括将与内源B4GALT1基因内的序列杂交并且降低B4GALT1多肽在受试者细胞中的表达的反义DNA、RNA、siRNA或shRNA引入受试者体内。
[0030] 本公开还提供了治疗不是B4GALT1变体核酸分子或多肽(其包含被称为rs551564683的SNP)的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法将表达载体引入受试者体内,其中所述表达载体包含重组B4GALT1基因,所述重组基因包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的
B4GALT1多肽的核苷酸序列,其中所述表达载体在受试者细胞中表达重组B4GALT1基因。
[0031] 本公开还提供了治疗不是B4GALT1变体核酸分子或多肽(其包含被称为rs551564683的SNP)的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法将表达载体引入受试者体内,其中所述表达载体包含编码在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的B4GALT1多肽的核酸分子,其中所述表达载体在受试者细胞中表达编码B4GALT1多肽的核酸。
[0032] 本公开还提供了治疗不是B4GALT1变体核酸分子或多肽(其包含被称为rs551564683的SNP)的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法将mRNA引入受试者体内,其中所述mRNA编码在与全长/成熟B4GALT1多肽中的位置
352相对应的位置处具有丝氨酸的B4GALT1多肽,其中所述mRNA在受试者细胞中表达
B4GALT1多肽。
[0033] 本公开还提供了治疗不是B4GALT1变体核酸分子或多肽(其包含被称为rs551564683的SNP)的携带者并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括将在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸的
B4GALT1多肽或其片段引入受试者体内。
[0034] 在本文描述或例示的任何方法中,心血管疾患可包括增加动脉粥样硬化风险的一种或多种血清脂质的水平。血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇或它们的任何亚组分(例如,HDL2、HDL2a、HDL2b、HDL2c、HDL3、HDL3a、HDL3b、HDL3c、HDL3d、LDL1、LDL2、LDL3、脂蛋白A、Lpa1、Lpa1、Lpa3、Lpa4或Lpa5)中的一种或多种。心血管疾患可包括冠状动脉化水平升高。心血管疾患可包括心包脂肪水平升高。心血管疾患可包括动脉粥样硬化血栓形成疾患。动脉粥样硬化血栓形成疾患可包括纤维蛋白原水平升高。动脉粥样硬化血栓形成疾患可包括纤维蛋白原介导的血。心血管疾患可包括纤维蛋白原水平升高。心血管疾患可包括纤维蛋白原介导的血凝块。心血管疾患可包括由纤维蛋白原活性参与形成的血凝块。纤维蛋白原介导的血凝块或由纤维蛋白原活性参与形成的血凝块可在人体的任何静脉或动脉中。附图说明
[0035] 图1示出了变体B4GALT1与LDL的代表性全基因组关联的结果。
[0036] 图2示出了变体B4GALT1与LDL的代表性TOPMed WGS关联的结果。
[0037] 图3示出了与前列B4GALT1相关的SNP的代表性单倍型结构的结果。
[0038] 图4示出了阿米什人中通过外显子组测序鉴定的变体B4GALT1基因与LDL的关联。
[0039] 图5示出了阿米什人中变体B4GALT1基因富集大于1000倍的频率
[0040] 图6示出了B4GALT1Asn352Ser与降低血清脂质的关联。
[0041] 图7示出了B4GALT1Asn352Ser与降低血清脂质和增加AST的高度关联。
[0042] 图8示出了B4GALT1Asn352Ser与所有脂质亚组分的关联。
[0043] 图9示出了B4GALT1Asn352Ser与降低纤维蛋白原水平的关联。
[0044] 图10示出了在以指定浓度注射反义吗啉基寡核苷酸的斑鱼幼鱼受精后5天b4galt1转录本减少。
[0045] 图11示出了在以指定浓度注射反义吗啉基寡核苷酸的斑马鱼幼鱼受精后5天反义吗啉基寡核苷酸脱靶效应的诊断标志。
[0046] 图12示出了每个实验中斑马鱼幼鱼受精后5天匀浆中的平均LDL浓度为100。
[0047] 图13示出了通过在斑马鱼中共表达50pg人类B4GALT1 mRNA来恢复LDL-c表型。
[0048] 图14示出了使用靶向基因分型的B4GALT1 N352S和LDL之间的遗传关联结果。
[0049] 图15示出了Flag-352Asn或Flag-352Ser亚细胞定位的共聚焦显微术图像。
[0050] 图16示出了与反面高尔基体网络标记TGN46相关的内源B4GALT1、Flag-352Asn和Flag-352Se亚细胞定位的共聚焦显微术图像。
[0051] 图17(图A和图B)示出了352Ser对B4GALT1蛋白稳态水平的影响;(图A)表达与游离EGFP的352Asn或352Ser Flag标签蛋白融合物的COS7细胞;以及(图B)通过RT-qPCR分析确定的B4GALT1基因的mRNA表达水平。
[0052] 图18(图A、图B和图C)示出了352Ser突变对活性的影响;(图A和图B)表达352Asn或352Ser Flag标签蛋白融合物的COS7细胞,该融合物在COS7细胞中表达并通过蛋白质印迹分析B4GALT1或Flag;(图C)免疫沉淀物中的B4GALT1活性。
[0053] 图19示出了B4GALT1 N352S基因型组的三唾液酸/二寡核苷酸比率。
[0054] 图20示出了来自配对的B4GALT1 N352S的次要(SS)纯合子和主要(NN)纯合子的糖蛋白的N-聚糖分析的代表性HILIC-FLR-MS谱图。

具体实施方式

[0055] 如本文所述,测序研究已经鉴定了在与全长/成熟B4GALT1多肽中的位置352相对应的位置处具有丝氨酸而不是在约11%-12%的旧秩阿米什人(OOA)(交互等位基因频率=6%)个体中存在的天冬酰胺(在一般人群中极为罕见)的B4GALT1变体。该突变在长度为398个氨基酸的人类蛋白质的位置352处或在短同种型的位置311处将天冬酰胺变为丝氨酸
(N352S)。已经观察到变体B4GALT1与低密度脂蛋白胆固醇(LDL)、总胆固醇、纤维蛋白原和eGFR水平降低、天冬氨酸转氨酶(AST)(而不是丙氨酸转氨酶(ALT))水平升高以及肌酸激酶和肌酸酐的血清水平、肌肉组织(而不是肝细胞或红细胞)中的表达以及嗜性粒细胞减少有关。有人认为N352S变体对一种或多种心血管疾患具有防护作用。进一步认为,B4GALT1(包括其变体状态)可用于诊断患者发生心血管疾患的风险。
[0056] 当在给定氨基酸或多核苷酸序列的编号的背景中使用时,短语“与……相对应”是指当将所述给定氨基酸或多核苷酸序列与指定参考序列(本文中的参考序列是(野生型/全长)B4GALT1的多核苷酸(gDNA序列、mRNA序列、cDNA序列)或多肽)进行比较时所述参考序列的残基的编号。换句话说,给定聚合物的残基数字或残基位置是相对于参考序列指定的,而不是通过给定氨基酸或多核苷酸序列内残基的实际数字位置指定的。例如,可以通过引入空位以优化两个序列之间的残基匹配来将给定氨基酸序列与参考序列进行比对。在这些情况下,尽管存在空位,但是给定氨基酸或多核苷酸序列中残基的编号是相对于与其比对的参考序列进行的。
[0057] 如本文所用,冠词的单数形式“一个”、“一种”和“所述”包括复数引用,除非上下文另外明确指出。
[0058] 如本文所用,并且除非从上下文中另外显而易见,否则“约”涵盖所述值的标准测量误差(例如,SEM)范围内的值。
[0059] 如本文所用,“和/或”是指并且涵盖关联列出项中的一个或多个的任何和所有可能组合,以及当以替代方式(“或”)解释时没有组合。
[0060] 如本文所用,术语“包含”或“包括”是指所列举要素中的一个或多个可包括未具体列举的其他要素。例如,“包含”或“包括”蛋白质的组合物可单独或与其他成分组合含有蛋白质。过渡短语“基本上由……组成”是指权利要求的范围应被解释为涵盖权利要求中所列举的指定要素以及不实质性影响所要求保护主题的基本和新颖特征的要素。因此,当在本公开的权利要求书中使用时,术语“基本上由……组成”并不旨在被解释为等同于“包含”。
[0061] 如本文所用,“任选”或“任选地”是指随后描述的事件或状况可能发生或可能不发生,并且该描述包括该事件或状况发生的情况以及该事件或状况不发生的情况。
[0062] 如本文所用,“或”是指特定列表的任何一个成员,并且还包括该列表的成员的任何组合。
[0063] 值范围的指定包括该范围内或限定该范围的所有整数(包括两个端点值),以及由该范围内的整数限定的所有子范围。
[0064] 应当理解,为清楚起见在单独实施方案的上下文中描述的本公开的特定特征也可以在单个实施方案中组合提供。相反,为简洁起见在单个实施方案的上下文中描述的本公开的各种特征也可以单独地或以任何合适的子组合提供。
[0065] 本公开提供了分离的B4GALT1基因组和mRNA变体、B4GALT1 cDNA变体或它们的任何互补序列,以及分离的B4GALT1多肽变体。人们认为这些变体与降低发生各种心血管疾患的风险有关,包括但不限于血清脂质水平升高、纤维蛋白原水平升高、冠状动脉钙化、冠状动脉疾病(CAD)和天冬氨酸转氨酶(AST)而不是丙氨酸转氨酶(ALT)水平升高。不希望受任何理论束缚,人们认为这些B4GALT1变体与肌肉组织中的表达有关,而不是与肝或红细胞中的表达有关,如实验观察到的AST而不是ALT水平升高所证明。本文还提供了包含B4GALT1基因组和mRNA变体、B4GALT1 cDNA变体以及分离的B4GALT1多肽变体的组合物。本文还提供了与B4GALT1基因组和mRNA变体以及B4GALT1 cDNA变体杂交的核酸分子。本公开还提供了包含B4GALT1基因组和mRNA变体、B4GALT1 cDNA变体以及B4GALT1多肽变体的载体和细胞。
[0066] 本公开还提供了检测生物样品中基因组和/或mRNA变体、B4GALT1 cDNA变体或它们的互补序列以及/或者B4GALT1多肽变体的存在和/或水平的方法。还提供了确定受试者发生心血管疾患的易感性的方法,以及诊断患有心血管疾患或有心血管疾患风险的受试者的方法。还提供了通过使用核酸酶剂、外源供体序列、转录激活因子、转录阻遏因子和表达载体的任何组合来修饰细胞的方法,所述表达载体用于表达重组B4GALT1基因或编码B4GALT1多肽的核酸。还提供了用于治疗患有心血管疾患或有发生心血管疾患风险的受试者治疗和预防方法。
[0067] 野生型人类基因组B4GALT1核酸的长度为大约56.7kb,包括6个外显子,位于人类基因组的9号染色体上。示例性野生型人类基因组B4GALT1序列被分配NCBI登录号NG_008919.1(SEQ ID NO:1)。人类基因组B4GALT1的变体以SEQ ID NO:2示出,包含单核苷酸多态性(SNP)(在位置53576处A变为G;在本文中称为变体B4GALT1)。变体SNP导致编码的
B4GALT1变体多肽在与全长/成熟B4GALT1多肽中的位置352相对应的位置处产生丝氨酸,而不是由野生型B4GALT1多肽编码的天冬酰胺。变体人类基因组B4GALT1核酸包含例如在与野生型人类基因组B4GALT1的位置53575至53577相对应的位置处编码丝氨酸的三个碱基(例如,agt),而不是野生型人类基因组B4GALT1的位置53575至53577处的三个碱基“aat”(分别将SEQ ID NO:2与SEQ ID NO:1进行比较)。在一些实施方案中,分离的核酸分子包含SEQ ID NO:2。在一些实施方案中,分离的核酸分子由SEQ ID NO:2组成。在一些实施方案中,分离的核酸分子是本文公开的任何基因组B4GALT1核酸分子的互补序列。
[0068] 在一些实施方案中,分离的核酸分子包含与SEQ ID NO:2的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%的核酸序列或者由所述核酸序列组成。在一些实施方案中,这种核酸序列还包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。在一些实施方案中,分离的核酸分子包含与SEQ ID NO:2中包含B4GALT1基因的外显子1至6的部分的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%的核酸序列或者由所述核酸序列组成。在一些实施方案中,这种核酸序列还包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。在一些实施方案中,分离的核酸分子包含与SEQ ID NO:2中包含外显子5的部分的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%的核酸序列或者由所述核酸序列组成。在一些实施方案中,这种核酸序列还包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。在一些实施方案中,分离的核酸分子包含与SEQ ID NO:2的同一性为至少约90%的核酸序列,条件是所述核酸序列包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。
[0069] 可以使用BLAST程序(基本局部比对搜索工具)和PowerBLAST程序(Altschul等人,J.Mol.Biol.,1990,215,403-410;Zhang和Madden,Genome Res.,1997,7,649-656)来常规确定核酸内特定核酸序列片段之间的互补性百分比,或者通过使用Gap程序(Wisconsin Sequence Analysis Package,Version 8for Unix,Genetics Computer Group,University Research Park,Madison Wis.)使用默认设置来确定,所述Gap程序使用Smith和Waterman的算法(Adv.Appl.Math.,1981,2,482-489)。
[0070] 在一些实施方案中,分离的核酸分子包含少于整个基因组的序列。在一些实施方案中,分离的核酸分子包含SEQ ID NO:2的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1000、至少约2000、至少约3000、至少约4000、至少约5000、至少约6000、至少约7000、至少约8000、至少约9000、至少约10000、至少约11000、至少约12000、至少约
13000、至少约14000、至少约15000、至少约16000、至少约17000、至少约18000、至少约19000或至少约20000个连续核苷酸或者由所述连续核苷酸组成。在一些实施方案中,此类分离的核酸分子还包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。在一些实施方案中,分离的核酸分子包含SEQ ID NO:2的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900或至少约1000个连续核苷酸或者由所述连续核苷酸组成。在一些实施方案中,此类分离的核酸分子还包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。在一些实施方案中,分离的核酸分子包含SEQ ID NO:2的外显子5的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约
100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900或至少约1000个连续核苷酸或者由所述连续核苷酸组成。在一些实施方案中,此类分离的核酸分子还包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。
[0071] 例如,在一些实施方案中,分离的核酸分子包含SEQ ID NO:2的至少15个连续核苷酸,其中所述连续核苷酸包括SEQ ID NO:2的核苷酸53575至53577。在一些此类实施方案中,分离的核酸分子包含SEQ ID NO:2的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,分离的核酸分子包含SEQ ID NO:2的15至50个连续核苷酸,其中所述连续核苷酸包括SEQ ID NO:2的核苷酸53575至53577。在一些此类实施方案中,分离的核酸分子包含SEQ ID NO:2的至少20、至少25或至少30个连续核苷酸。
[0072] 在一些实施方案中,本公开提供了一种包含与SEQ ID NO:2的一部分的同一性为至少90%的核酸序列的分离的核酸,其中SEQ ID NO:2的所述部分包含SEQ ID NO:2的核苷酸53575至53577,并且其中SEQ ID NO:2的所述部分的长度为至少15个核苷酸。在一些此类实施方案中,SEQ ID NO:2的所述部分的长度为至少20、至少25或至少30个核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:2的一部分的同一性为至少90%的核酸序列的分离的核酸,其中SEQ ID NO:2的所述部分包含SEQ ID NO:2的核苷酸53575至53577,并且其中SEQ ID NO:2的所述部分的长度为15至50个核苷酸。在一些此类实施方案中,SEQ ID NO:2的所述部分的长度为至少20、至少25或至少30个核苷酸。
[0073] 在一些实施方案中,本公开提供了一种包含与SEQ ID NO:2的一部分的同一性为至少95%的核酸序列的分离的核酸,其中SEQ ID NO:2的所述部分包含SEQ ID NO:2的核苷酸53575至53577,并且其中SEQ ID NO:2的所述部分的长度为至少15个核苷酸。在一些此类实施方案中,SEQ ID NO:2的所述部分的长度为至少20、至少25或至少30个核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:2的一部分的同一性为至少95%的核酸序列的分离的核酸,其中SEQ ID NO:2的所述部分包含SEQ ID NO:2的核苷酸53575至53577,并且其中SEQ ID NO:2的所述部分的长度为15至50个核苷酸。在一些此类实施方案中,SEQ ID NO:2的所述部分的长度为至少20、至少25或至少30个核苷酸。
[0074] 此类分离的核酸分子可以例如用于表达变体B4GALT1 mRNA和蛋白或作为外源供体序列。应当理解,群体内的基因序列可能由于多态性诸如SNP而变化。本文提供的示例仅是示例性序列,其他序列也是可能的。
[0075] 在一些实施方案中,分离的核酸分子包含变体B4GALT1小基因,其中相对于对应的野生型B4GALT1基因缺失了SEQ ID NO:2的一个或多个非必需区段。在一些实施方案中,缺失的非必需区段包含一个或多个内含子序列。在一些实施方案中,B4GALT1小基因可以包含例如与变体B4GALT1(SEQ ID NO:2)的外显子1至6中的一个或多个或这些外显子的任何组合相对应的外显子。在一些实施方案中,小基因包含SEQ ID NO:2的外显子5或由所述外显子组成。在一些实施方案中,B4GALT1小基因与SEQ ID NO:2中包含外显子1至6中的一个或多个或这些外显子的任何组合的部分的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%。在一些实施方案中,B4GALT1小基因与SEQ ID NO:2中包含外显子1至6中的一个或多个或这些外显子的任何组合的部分的同一性为至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%,并且包含与SEQ ID NO:2的位置53575至53577相对应的核苷酸。在一些实施方案中,B4GALT1小基因与SEQ ID NO:2中包含外显子5的部分的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%。
[0076] 本公开还提供了与变体B4GALT1基因组序列或变体B4GALT1小基因杂交的分离的核酸分子。在一些实施方案中,此类分离的核酸分子包含至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1000、至少约2000、至少约3000、至少约4000、至少约5000、至少约
6000、至少约7000、至少约8000、至少约9000、至少约10000、至少约11000、至少约12000、至少约13000、至少约14000、至少约15000、至少约16000、至少约17000、至少约18000、至少约
19000或至少约20000个核苷酸或者由所述核苷酸组成。在一些实施方案中,此类分离的核酸分子还与SEQ ID NO:2的位置53575至53577杂交。在一些实施方案中,分离的核酸分子与变体B4GALT1基因组或小基因的一部分在包括SEQ ID NO:2的位置53575至53577的约1000、约500、约400、约300、约200、约100、约50、约45、约40、约35、约30、约25、约20、约15、约10或约5个核苷酸或者在所述核苷酸范围内的区段处杂交。在一些实施方案中,分离的核酸分子与以下核酸分子的至少约15个连续核苷酸杂交:所述核酸分子与变体B4GALT1基因组DNA或小基因的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约
95%、至少约96%、至少约97%、至少约98%、至少约99%或100%。在一些实施方案中,此类分离的核酸分子还与SEQ ID NO:2的位置53575至53577杂交。在一些实施方案中,分离的核酸分子包含约15至约100个核苷酸或约15至约35个核苷酸或由所述核苷酸组成。
[0077] 例如,在一些实施方案中,本公开提供了一种包含至少15个核苷酸的分离的核酸分子,其中所述分离的核酸分子与包含SEQ ID NO:2的序列的核酸杂交,其中所述分离的核酸分子与SEQ ID NO:2的一部分杂交,其中SEQ ID NO:2的所述部分包含SEQ ID NO:2的核苷酸53575至53577。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。在一些实施方案中,本公开提供了一种包含15至50个核苷酸的分离的核酸分子,其中所述分离的核酸分子与包含SEQ ID NO:2的序列的核酸杂交,其中所述分离的核酸分子与SEQ ID NO:2的一部分杂交,其中SEQ ID NO:2的所述部分包含SEQ ID NO:2的核苷酸53575至53577。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。
[0078] 在一些实施方案中,分离的核酸分子与核酸的至少15个连续核苷酸杂交,其中所述连续核苷酸与SEQ ID NO:2的一部分的同一性为至少90%,其中所述连续核苷酸在与SEQ ID NO:2的位置53575至53577相对应的位置处包含SEQ ID NO:2的核苷酸53757至53577。在一些此类实施方案中,连续核苷酸的长度为至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子与核酸的至少15个连续核苷酸杂交,其中所述连续核苷酸与SEQ ID NO:2的一部分的同一性为至少95%,其中所述连续核苷酸在与SEQ ID NO:2的位置53575至53577相对应的位置处包含SEQ ID NO:2的核苷酸53757至53577。在一些此类实施方案中,连续核苷酸的长度为至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子与核酸的至少15个连续核苷酸杂交,其中所述连续核苷酸与SEQ ID NO:2的一部分的同一性为至少100%,其中所述连续核苷酸在与SEQ ID NO:2的位置53575至53577相对应的位置处包含SEQ ID NO:2的核苷酸53757至53577。在一些此类实施方案中,连续核苷酸的长度为至少20、至少25或至少30个核苷酸。
[0079] 在一些实施方案中,分离的核酸分子与核酸的15至50个连续核苷酸杂交,其中所述连续核苷酸与SEQ ID NO:2的一部分的同一性为至少90%,其中所述连续核苷酸在与SEQ ID NO:2的位置53575至53577相对应的位置处包含SEQ ID NO:2的核苷酸53757至53577。在一些此类实施方案中,连续核苷酸的长度为至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子与核酸的15至50个连续核苷酸杂交,其中所述连续核苷酸与SEQ ID NO:2的一部分的同一性为至少95%,其中所述连续核苷酸在与SEQ ID NO:2的位置53575至53577相对应的位置处包含SEQ ID NO:2的核苷酸53757至53577。在一些此类实施方案中,连续核苷酸的长度为至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子与核酸的15至50个连续核苷酸杂交,其中所述连续核苷酸与SEQ ID NO:2的一部分的同一性为至少100%,其中所述连续核苷酸在与SEQ ID NO:2的位置53575至53577相对应的位置处包含SEQ ID NO:2的核苷酸53757至53577。在一些此类实施方案中,连续核苷酸的长度为至少20、至少25或至少30个核苷酸。
[0080] 此类分离的核酸分子可以例如用作引导RNA、引物、探针或外源供体序列。
[0081] 代表性野生型B4GALT1基因组序列以SEQ ID NO:1列举。代表性变体B4GALT1基因组序列变体以SEQ ID NO:2列举。
[0082] 本公开还提供了包含B4GALT1 mRNA变体的分离的核酸分子。示例性野生型人类B4GALT1 mRNA被分配NCBI登录号NM_001497(SEQ ID NO:3),由4214个核苷酸碱基组成。人类B4GALT1 mRNA的变体以SEQ ID NO:4示出,包含SNP(在位置1244处A变为G;在本文中称为变体B4GALT1),其导致编码的B4GALT1变体多肽在与位置352相对应的位置处产生丝氨酸。变体人类B4GALT1 mRNA包含例如在与野生型人类B4GALT1 mRNA的位置1243至1245相对应的位置处编码丝氨酸的三个碱基“agu”,而不是野生型人类B4GALT1 mRNA的位置1243至
1245处的三个碱基“aau”(分别将SEQ ID NO:4与SEQ ID NO:3进行比较)。在一些实施方案中,分离的核酸分子包含SEQ ID NO:4。在一些实施方案中,分离的核酸分子由SEQ ID NO:4组成。
[0083] 在一些实施方案中,分离的核酸分子包含与SEQ ID NO:4的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%的核酸序列或者由所述核酸序列组成。在一些实施方案中,此类核酸序列还包含与SEQ ID NO:4的位置1243至1245相对应的核苷酸。在一些实施方案中,分离的核酸分子包含与SEQ ID NO:4中包含外显子1至6的部分的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约
97%、至少约98%、至少约99%或100%的核苷酸序列或者由所述核苷酸序列组成。在一些实施方案中,此类核酸序列还包含与SEQ ID NO:4的位置1243至1245相对应的核苷酸。在一些实施方案中,分离的核酸分子是本文公开的任何B4GALT1 mRNA分子的互补序列。
[0084] 在一些实施方案中,分离的核酸分子包含少于整个mRNA的序列。在一些实施方案中,分离的核酸分子包含SEQ ID NO:4的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约
900、至少约1000、至少约2000、至少约3000或至少约4000个连续核苷酸或者由所述连续核苷酸组成。在一些实施方案中,此类分离的核酸分子还包含与SEQ ID NO:4的位置1243至
1245相对应的核苷酸。在一些实施方案中,分离的核酸分子包含SEQ ID NO:4的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900或至少约1000个连续核苷酸或者由所述连续核苷酸组成。在一些实施方案中,此类分离的核酸分子还包含与SEQ ID NO:4的位置1243至1245相对应的核苷酸。在一些实施方案中,分离的核酸分子包含SEQ ID NO:4的外显子1至6的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约
60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约
500、至少约600、至少约700、至少约800、至少约900或至少约1000个连续核苷酸或者由所述连续核苷酸组成。在一些实施方案中,此类分离的核酸分子还包含与SEQ ID NO:4的位置
1243至1245相对应的核苷酸。
[0085] 在一些实施方案中,本公开提供了一种包含与SEQ ID NO:4的一部分的同一性为至少90%的核酸序列的分离的核酸分子,其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的核苷酸1243至1245,并且其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的至少15个核苷酸。在一些此类实施方案中,SEQ ID NO:4的所述部分是SEQ ID NO:4的至少20、至少25或至少30个核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:4的一部分的同一性为至少95%的核酸序列的分离的核酸分子,其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的核苷酸1243至1245,并且其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的至少15个核苷酸。在一些此类实施方案中,SEQ ID NO:4的所述部分是SEQ ID NO:4的至少20、至少25或至少30个核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:4的一部分的同一性为100%的核酸序列的分离的核酸分子,其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的核苷酸1243至1245,并且其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的至少15个核苷酸。在一些此类实施方案中,SEQ ID NO:4的所述部分是SEQ ID NO:4的至少20、至少25或至少30个核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:4的一部分的同一性为至少90%的核酸序列的分离的核酸分子,其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的核苷酸1243至1245,并且其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的15至50个核苷酸。在一些此类实施方案中,SEQ ID NO:4的所述部分是SEQ ID NO:4的至少20、至少25或至少30个核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:4的一部分的同一性为至少95%的核酸序列的分离的核酸分子,其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的核苷酸1243至1245,并且其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的
15至50个核苷酸。在一些此类实施方案中,SEQ ID NO:4的所述部分是SEQ ID NO:4的至少
20、至少25或至少30个核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:4的一部分的同一性为100%的核酸序列的分离的核酸分子,其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的核苷酸1243至1245,并且其中SEQ ID NO:4的所述部分包含SEQ ID NO:4的15至50个核苷酸。在一些此类实施方案中,SEQ ID NO:4的所述部分是SEQ ID NO:4的至少20、至少25或至少30个核苷酸。
[0086] 此类分离的核酸分子可以例如用于表达B4GALT1变体多肽或作为外源供体序列。应当理解,群体内的基因序列可能由于多态性诸如SNP而变化。本文提供的示例仅是示例性序列,其他序列也是可能的。
[0087] 在一些实施方案中,分离的核酸分子包含编码与变体Asn352Ser B4GALT1多肽(SEQ ID NO:8)的同一性为至少约75%、至少约80%、至少约85%、至少约90%、至少约
91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约
98%、至少约99%或100%的多肽的核酸序列或由所述核酸序列组成,条件是所述多肽在与位置352相对应的位置包含丝氨酸。在一些实施方案中,分离的核酸分子包含编码与SEQ ID NO:8的同一性为至少约90%的多肽的核酸序列或由所述核酸序列组成,条件是所述多肽在与位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的核酸分子包含编码与SEQ ID NO:8的同一性为至少约95%的多肽的核酸序列或由所述核酸序列组成,条件是所述多肽在与位置352相对应的位置处包含丝氨酸。
[0088] 例如,在一些实施方案中,分离的核酸分子包含编码具有长度为至少10个氨基酸的氨基酸序列的多肽的核酸序列,其中所述氨基酸序列与SEQ ID NO:8的氨基酸的一部分的同一性为90%,其中所述部分在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些此类实施方案中,核酸序列编码具有长度为至少15、至少20或至少25个氨基酸的氨基酸序列的多肽。在一些实施方案中,分离的核酸分子包含编码具有长度为至少10个氨基酸的氨基酸序列的多肽的核酸序列,其中所述氨基酸序列与SEQ ID NO:8的氨基酸的一部分的同一性为95%,其中所述部分在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些此类实施方案中,核酸序列编码具有长度为至少15、至少20或至少25个氨基酸的氨基酸序列的多肽。在一些实施方案中,分离的核酸分子包含编码具有长度为10至50个氨基酸的氨基酸序列的多肽的核酸序列,其中所述氨基酸序列与SEQ ID NO:8的氨基酸的一部分的同一性为90%,其中所述部分在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些此类实施方案中,核酸序列编码具有长度为至少15、至少20或至少25个氨基酸的氨基酸序列的多肽。在一些实施方案中,分离的核酸分子包含编码具有长度为10至50个氨基酸的氨基酸序列的多肽的核酸序列,其中所述氨基酸序列与SEQ ID NO:8的氨基酸的一部分的同一性为95%,其中所述部分在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些此类实施方案中,核酸序列编码具有长度为至少15、至少20或至少25个氨基酸的氨基酸序列的多肽。在一些实施方案中,分离的核酸分子包含编码与SEQ ID NO:8相同的多肽的核酸序列或由所述核酸序列组成。
[0089] 本公开还提供了与变体B4GALT1 mRNA序列杂交的分离的核酸分子。在一些实施方案中,此类分离的核酸分子包含至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1000、至少约2000、至少约3000或至少约4000个核苷酸或者由所述核苷酸组成。在一些实施方案中,此类分离的核酸分子还与SEQ ID NO:4的位置1243至1245杂交。在一些实施方案中,分离的核酸分子与变体B4GALT1 mRNA的一部分在包括SEQ ID NO:4的位置1243至
1245的约1000、约500、约400、约300、约200、约100、约50、约45、约40、约35、约30、约25、约
20、约15、约10或约5个核苷酸或者在所述核苷酸范围内的区段处杂交。
[0090] 在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,并且与变体B4GALT1 mRNA(例如,SEQ ID NO:4)的一部分在包括SEQ ID NO:4的位置1243至1245的5个核苷酸或者在所述核苷酸范围内的区段处杂交。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,与变体B4GALT1 mRNA(例如,SEQ ID NO:4)的一部分在包括SEQ ID NO:4的位置1243至1245的5个核苷酸或者在所述核苷酸范围内的区段处杂交,并且与SEQ ID NO:4的位置1243至1245杂交。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子包含15至50个核苷酸,与变体B4GALT1 mRNA(例如,SEQ ID NO:4)的一部分在包括SEQ ID NO:4的位置
1243至1245的区段处杂交,并且与SEQ ID NO:4的位置1243至1245杂交。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。
[0091] 在一些实施方案中,分离的核酸分子与以下核酸分子的至少约15个连续核苷酸杂交:所述核酸分子与变体B4GALT1 mRNA(诸如SEQ ID NO:4)的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约
98%、至少约99%或100%。在一些实施方案中,分离的核酸分子还与SEQ ID NO:4的位置
1243至1245杂交。在一些实施方案中,分离的核酸分子包含约15至约100个核苷酸或约15至约35个核苷酸或由所述核苷酸组成。
[0092] 在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,并且与变体B4GALT1 mRNA的一部分在包括SEQ ID NO:4的位置1243至1245的5个核苷酸或者在所述核苷酸范围内的区段处杂交,其中所述变体B4GALT1 mRNA与变体B4GALT1 mRNA(诸如SEQ ID NO:4)的同一性为至少90%。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,并且与变体B4GALT1 mRNA的一部分在包括SEQ ID NO:4的位置1243至1245的5个核苷酸或者在所述核苷酸范围内的区段处杂交,其中所述变体B4GALT1 mRNA与变体B4GALT1 mRNA(诸如SEQ ID NO:4)的同一性为至少95%。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,与变体B4GALT1 mRNA的一部分在包括SEQ ID NO:4的位置1243至1245的5个核苷酸或者在所述核苷酸范围内的区段处杂交,并且与SEQ ID NO:4的位置1243至1245杂交,其中所述变体B4GALT1 mRNA与变体B4GALT1 mRNA(诸如SEQ ID NO:4)的同一性为至少90%。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,与变体B4GALT1 mRNA的一部分在包括SEQ ID NO:4的位置1243至1245的5个核苷酸或者在所述核苷酸范围内的区段处杂交,并且与SEQ ID NO:4的位置1243至1245杂交,其中所述变体B4GALT1 mRNA与变体B4GALT1 mRNA(诸如SEQ ID NO:4)的同一性为至少95%。在一些此类实施方案中,分离的核酸分子包含至少20、至少25或至少30个核苷酸。在一些实施方案中,分离的核酸分子包含15至100个核苷酸或15至35个核苷酸或由所述核苷酸组成。
[0093] 此类分离的核酸分子可以例如用作引导RNA、引物、探针或外源供体序列。
[0094] 代表性野生型B4GALT1 mRNA序列以SEQ ID NO:3列举。代表性变体B4GALT1 mRNA序列以SEQ ID NO:4列举。
[0095] 本公开还提供了包含编码B4GALT1变体多肽的全部或部分的B4GALT1 cDNA变体的核酸分子。示例性野生型人类B4GALT1 cDNA(例如,被写为DNA的mRNA的编码区)由1197个核苷酸碱基(SEQ ID NO:5)组成。人类B4GALT1 cDNA的变体以SEQ ID NO:6示出,包含SNP(在位置1055处A变为G;在本文中称为变体B4GALT1),其导致编码的B4GALT1变体多肽在与位置352相对应的位置处产生丝氨酸。变体人类B4GALT1 cDNA包含例如在与全长/成熟野生型人类B4GALT1 cDNA的位置1054至1056相对应的位置处编码丝氨酸的“agt”,而不是野生型人类B4GALT1 cDNA在位置1054至1056处的三个碱基“aat”(分别将SEQ ID NO:6与SEQ ID NO:
5进行比较)。在一些实施方案中,核酸分子包含SEQ ID NO:6。在一些实施方案中,核酸分子由SEQ ID NO:6组成。在一些实施方案中,分离cDNA分子。
[0096] 在一些实施方案中,cDNA分子包含与SEQ ID NO:6的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约
98%、至少约99%或100%的核酸序列或者由所述核酸序列组成。在一些实施方案中,cDNA分子还包含与SEQ ID NO:6的位置1054至1056相对应的核苷酸。在一些实施方案中,分离的核酸分子是本文公开的任何B4GALT1 cDNA分子的互补序列。
[0097] 在一些实施方案中,cDNA分子包含少于整个cDNA的序列。在一些实施方案中,cDNA分子包含SEQ ID NO:6的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1000或至少约1100个连续核苷酸或者由所述连续核苷酸组成。在一些实施方案中,此类cDNA分子还包含与SEQ ID NO:6的位置1054至1056相对应的核苷酸。在一些实施方案中,cDNA分子包含SEQ ID NO:6的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约
300、至少约400或至少约500个连续核苷酸或者由所述连续核苷酸组成。在一些实施方案中,此类cDNA分子还包含与SEQ ID NO:6的位置1054至1056相对应的核苷酸。
[0098] 例如,在一些实施方案中,cDNA分子包含SEQ ID NO:6的至少15个连续核苷酸,其中所述连续核苷酸包括SEQ ID NO:6的核苷酸1054至1056。在一些此类实施方案中,分离的核酸分子包含SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,cDNA分子包含SEQ ID NO:6的15至50个连续核苷酸,其中所述连续核苷酸包括SEQ ID NO:6的核苷酸1054至1056。在一些此类实施方案中,分离的核酸分子包含SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:6的一部分的同一性为至少90%的核酸序列的cDNA分子,其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的核苷酸1054至1056,并且其中SEQ ID NO:6的所述部分包含SEQ ID NO:
6的至少15个连续核苷酸。在一些此类实施方案中,SEQ ID NO:6的所述部分是SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:6的一部分的同一性为至少95%的核酸序列的cDNA分子,其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的核苷酸1054至1056,并且其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的至少15个连续核苷酸。在一些此类实施方案中,SEQ ID NO:6的所述部分是SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:6的一部分的同一性为至少90%的核酸序列的cDNA分子,其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的核苷酸1054至1056,并且其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的15至50个连续核苷酸。在一些此类实施方案中,SEQ ID NO:6的所述部分是SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,本公开提供了一种包含与SEQ ID NO:6的一部分的同一性为至少95%的核酸序列的cDNA分子,其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的核苷酸1054至1056,并且其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的15至50个连续核苷酸。在一些此类实施方案中,SEQ ID NO:6的所述部分是SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,本公开提供了一种在与SEQ ID NO:6的核苷酸1054至1056相对应的位置处包含SEQ ID NO:
6的核苷酸1054至1056的cDNA分子,其中所述cDNA分子包含与SEQ ID NO:6的一部分的同一性为至少90%的核酸序列,其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的核苷酸1054至
1056,并且其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的至少15个连续核苷酸。在一些此类实施方案中,SEQ ID NO:6的所述部分是SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,本公开提供了一种在与SEQ ID NO:6的核苷酸1054至1056相对应的位置处包含SEQ ID NO:6的核苷酸1054至1056的cDNA分子,其中所述cDNA分子包含与SEQ ID NO:6的一部分的同一性为至少95%的核酸序列,其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的核苷酸1054至1056,并且其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的至少15个连续核苷酸。在一些此类实施方案中,SEQ ID NO:6的所述部分是SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,本公开提供了一种在与SEQ ID NO:6的核苷酸1054至1056相对应的位置处包含SEQ ID NO:6的核苷酸1054至1056的
cDNA分子,其中所述cDNA分子包含与SEQ ID NO:6的一部分的同一性为至少90%的核酸序列,其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的核苷酸1054至1056,并且其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的15至50个连续核苷酸。在一些此类实施方案中,SEQ ID NO:6的所述部分是SEQ ID NO:6的至少20、至少25或至少30个连续核苷酸。在一些实施方案中,本公开提供了一种在与SEQ ID NO:6的核苷酸1054至1056相对应的位置处包含SEQ ID NO:6的核苷酸1054至1056的cDNA分子,其中所述cDNA分子包含与SEQ ID NO:6的一部分的同一性为至少95%的核酸序列,其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的核苷酸
1054至1056,并且其中SEQ ID NO:6的所述部分包含SEQ ID NO:6的15至50个连续核苷酸。
在一些此类实施方案中,SEQ ID NO:6的所述部分是SEQ ID NO:6的至少20、至少25或至少
30个连续核苷酸。
[0099] 此类cDNA分子可以例如用于表达B4GALT1变体蛋白或作为外源供体序列。应当理解,群体内的基因序列可能由于多态性诸如SNP而变化。本文提供的示例仅是示例性序列,其他序列也是可能的。
[0100] 在一些实施方案中,cDNA分子包含编码与变体Asn352Ser B4GALT1多肽(SEQ ID NO:8)的同一性为至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约
99%或100%的多肽的核酸序列或由所述核酸序列组成,条件是所述多肽在与位置352相对应的位置包含丝氨酸。在一些实施方案中,cDNA分子包含编码与SEQ ID NO:8的同一性为至少约90%的多肽的核酸序列或由所述核酸序列组成,条件是所述多肽在与位置352相对应的位置处包含丝氨酸。在一些实施方案中,cDNA分子包含编码与SEQ ID NO:8的同一性为至少约95%的多肽的核酸序列或由所述核酸序列组成,条件是所述多肽在与位置352相对应的位置处包含丝氨酸。在一些实施方案中,cDNA分子包含编码与SEQ ID NO:8相同的多肽的核酸序列或由所述核酸序列组成。
[0101] 本公开还提供了与变体B4GALT1cDNA序列杂交的分离的核酸分子。在一些实施方案中,此类分离的核酸分子包含至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约200、至少约300、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1000或至少约1100个核苷酸或者由所述核苷酸组成。在一些实施方案中,此类分离的核酸分子还与SEQ ID NO:6的位置1054至1056杂交。在一些实施方案中,此类分离的核酸分子与变体B4GALT1 cDNA的一部分在包括SEQ ID NO:6的位置1054至1056的约600、约500、约
400、约300、约200、约100、约50、约45、约40、约35、约30、约25、约20、约15、约10或约5个核苷酸或者在所述核苷酸范围内的区段处杂交。在一些实施方案中,分离的核酸分子与以下cDNA分子的至少约15个连续核苷酸杂交:所述cDNA分子与变体B4GALT1 cDNA(诸如SEQ ID NO:6)的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约
95%、至少约96%、至少约97%、至少约98%、至少约99%或100%。在一些实施方案中,分离的核酸分子还与SEQ ID NO:6的位置1054至1056杂交。在一些实施方案中,分离的核酸分子包含约15至约100个核苷酸或约15至约35个核苷酸或由所述核苷酸组成。
[0102] 在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,并且与变体B4GALT1 cDNA的一部分在包括SEQ ID NO:6的位置1054至1056的5个核苷酸或者在所述核苷酸范围内的区段处杂交,其中所述变体B4GALT1 cDNA与变体B4GALT1 cDNA(诸如SEQ ID NO:6)的同一性为至少90%。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,并且与变体B4GALT1 cDNA的一部分在包括SEQ ID NO:6的位置1054至1056的5个核苷酸或者在所述核苷酸范围内的区段处杂交,其中所述变体B4GALT1 cDNA与变体B4GALT1 cDNA(诸如SEQ ID NO:6)的同一性为至少95%。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,并且与变体B4GALT1 cDNA的一部分在包括SEQ ID NO:6的位置1054至1056的5个核苷酸或者在所述核苷酸范围内的区段处杂交,其中所述变体B4GALT1 cDNA与变体B4GALT1 cDNA(诸如SEQ ID NO:6)的同一性为100%。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,与变体B4GALT1 cDNA的一部分在包括SEQ ID NO:6的位置1054至1056的5个核苷酸或者在所述核苷酸范围内的区段处杂交,并且与SEQ ID NO:6的位置1054至1056杂交,其中所述变体B4GALT1 cDNA与变体B4GALT1 cDNA(诸如SEQ ID NO:6)的同一性为至少90%。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,与变体B4GALT1 cDNA的一部分在包括SEQ ID NO:6的位置1054至1056的5个核苷酸或者在所述核苷酸范围内的区段处杂交,并且与SEQ ID NO:6的位置1054至1056杂交,其中所述变体B4GALT1 cDNA与变体B4GALT1 cDNA(诸如SEQ ID NO:6)的同一性为至少95%。在一些实施方案中,分离的核酸分子包含至少15个核苷酸或由所述核苷酸组成,与变体B4GALT1 cDNA的一部分在包括SEQ ID NO:6的位置1054至1056的5个核苷酸或者在所述核苷酸范围内的区段处杂交,并且与SEQ ID NO:6的位置1054至1056杂交,其中所述变体B4GALT1 cDNA与变体B4GALT1 cDNA(诸如SEQ ID NO:6)的同一性为100%。在一些实施方案中,分离的核酸分子包含15至100个核苷酸或15至35个核苷酸或由所述核苷酸组成。
[0103] 此类分离的核酸分子可以例如用作引导RNA、引物、探针、外源供体序列、反义RNA、siRNA或shRNA。
[0104] 代表性野生型B4GALT1cDNA序列以SEQ ID NO:5列举。代表性变体B4GALT1 cDNA序列以SEQ ID NO:6列举。
[0105] 本文公开的核酸分子可以包含天然存在的B4GALT1基因或mRNA转录本的核酸序列,或者可以包含非天然存在的序列。在一些实施方案中,天然存在的序列可能由于同义突变或不影响编码的B4GALT1多肽的突变而不同于非天然存在的序列。例如,所述序列可以是相同的,除了同义突变或不影响编码的B4GALT1多肽的突变以外。同义突变或取代是在编码蛋白质的基因的外显子中一个核苷酸取代另一个核苷酸,使得产生的氨基酸序列未被修饰。这可能是因为遗传密码的简并性,即一些氨基酸由一个以上的三碱基对密码子编码。同义取代例如用于密码子优化过程中。本文公开的核酸分子可以是经密码子优化的。
[0106] 本文还提供了可以与所公开的核酸分子相互作用的功能性多核苷酸。功能性多核苷酸是具有特定功能诸如结合靶分子或催化特定反应的核酸分子。功能性多核苷酸的示例包括但不限于反义分子、适配体、核酶、三链形成分子和外部引导序列。功能性多核苷酸可以充当靶分子具有的特定活性的效应物、抑制物、调节物和刺激物,或者功能性多核苷酸可以具有独立于任何其他分子的从头合成活性。
[0107] 反义分子被设计成通过规范或非规范碱基配对与靶核酸分子相互作用。反义分子和靶分子的相互作用被设计成通过例如RNA酶-H介导的RNA-DNA杂交体降解来促进靶分子的破坏。可替代地,反义分子被设计成中断通常在靶分子上发生的加工功能,诸如转录或复制。可以基于靶分子的序列来设计反义分子。存在许多通过鉴定靶分子的最易接近区域来优化反义效率的方法。示例性方法包括但不限于使用DMS和DEPC的体外选择实验和DNA修饰研究。反义分子一般以小于或等于约10-6、小于或等于约10-8、小于或等于约10-10或者小于或等于约10-12的解离常数(kd)结合靶分子。有助于设计和使用反义分子的方法和技术的代表性样品可以在以下美国专利的非限制性列表中找到:5,135,917、5,294,533、5,627,158、5,641,754、5,691,317、5,780,607、5,786,138、5,849,903、5,856,103、5,919,772、5,955,
590、5,990,088、5,994,320、5,998,602、6,005,095、6,007,995、6,013,522、6,017,898、6,
018,042、6,025,198、6,033,910、6,040,296、6,046,004、6,046,319和6,057,437。反义分子的示例包括但不限于反义RNA、小干扰RNA(siRNA)和短发夹RNA(shRNA)。
[0108] 本文公开的分离的核酸分子可以包含RNA、DNA或者RNA和DNA两者。分离的核酸分子也可以诸如在载体中与异源核酸序列连接或融合,或者与异源标记连接或融合。例如,本文公开的分离的核酸分子可以在包含分离的核酸分子和异源核酸序列的载体或外源供体序列中。分离的核酸分子也可以与异源标记诸如荧光标记连接或融合。标记的其他示例在本文其他地方公开。
[0109] 标记可以是直接可检测的(例如,荧光团)或间接可检测的(例如,半抗原、酶或荧光团猝灭剂)。此类标记可以通过光谱、光化学、生物化学、免疫化学或化学手段检测。此类标记包括例如可以用辐射计数设备测量的放射性标记;可以用分光光度计目视观察或测量的颜料、染料或其他色原;可以用自旋标记分析仪测量的自旋标记;以及荧光标记(例如,荧光团),其中输出信号是通过激发合适的分子加合物而产生的,并且可以通过激发被染料吸收的光来可视化,或者可以用标准荧光计或成像系统来测量。标记也可以是例如化学发光物质,其中输出信号是通过对信号化合物进行化学修饰而产生的;含金属的物质;或者酶,其中会发生酶依赖性地二次生成信号,诸如从无色底物形成有色产物。术语“标记”也可以指可以选择性地结合到缀合分子上的“标签”或半抗原,使得所述缀合分子在随后与底物一起添加时用于生成可检测信号。例如,可以使用生物素作为标签,然后使用辣根过化物(HRP)的抗生物素蛋白或链霉亲和素缀合物与标签结合,然后使用量热底物(例如,四甲基联苯胺(TMB))或荧光底物检测HRP的存在。可以用作标签以促进纯化的示例性标记包括但不限于myc、HA、FLAG或3XFLAG、6XHis或聚组氨酸、谷胱甘肽S-转移酶(GST)、麦芽糖结合蛋白、表位标签或免疫球蛋白的Fc部分。许多标记是已知的,包括例如颗粒、荧光团、半抗原、酶及其量热、荧光和化学发光底物以及其他标记。
[0110] 所公开的核酸分子可以由例如核苷酸或者非天然或经修饰核苷酸诸如核苷酸类似物或核苷酸替代物构成。此类核苷酸包括含有经修饰碱基、糖或磷酸盐基团或者在其结构中并入非天然部分的核苷酸。非天然核苷酸的示例包括但不限于双脱氧核苷酸、生物素化、胺化、脱氨基、烷基化、苄基化和荧光团标记的核苷酸。
[0111] 本文公开的核酸分子也可以包含一种或多种核苷酸类似物或替代物。核苷酸类似物是含有对碱基、糖或磷酸盐部分的修饰的核苷酸。对碱基部分的修饰包括但不限于对A、C、G和T/U的天然和合成修饰,以及不同的嘌呤或嘧啶碱基,诸如假尿苷、尿嘧啶-5-基、次黄嘌呤-9-基(I)和2-氨基腺嘌呤-9-基。经修饰碱基包括但不限于5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和嘌呤的6-甲基和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基和其他烷基衍生物、2-硫代尿嘧啶、2-硫代胸腺嘧啶和2-硫代胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基尿嘧啶和胞嘧啶、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫代尿嘧啶、8-卤代、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代特别是5-溴代、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。某些核苷酸类似物诸如5-取代的嘧啶、6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤(包括但不限于2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶、5-丙炔基胞嘧啶和5-甲基胞嘧啶)可以增加双链形成的稳定性。通常,碱基修饰可以与例如糖修饰诸如2'-O-甲氧基乙基结合,以实现独特的性质,诸如增加双链稳定性。
[0112] 核苷酸类似物也可以包括对糖部分的修饰。对糖部分的修饰包括但不限于核糖和脱氧核糖的天然修饰以及合成修饰。糖修饰包括但不限于2'位置的以下修饰:OH;F;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;或者O-烷基-O-烷基,其中烷基、烯基和炔基可以是取代或未取代的C1-10烷基或C2-10烯基和C2-10炔基。示例性2'糖修饰也包括但不限于-O[(CH2)nO]mCH3、-O(CH2)nOCH3、-O(CH2)nNH2、-O(CH2)nCH3、-O(CH2)n-ONH2和-O(CH2)nON[(CH2)nCH3)]2,其中n和m为1至约10。
[0113] 2'位置的其他修饰包括但不限于C1-10烷基、取代的低级烷基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲烷基、RNA裂解基团、报告基团、嵌入剂、用于改善寡核苷酸的药代动学性质的基团或者用于改善寡核苷酸的药效动力学性质的基团,以及具有类似性质的其他取代基。也可在糖的其他位置进行类似修饰,特别是在3'末端核苷酸或2'-5'连接的寡核苷酸中糖的3'位置以及5'末端核苷酸的5'位置。经修饰糖也可以包括在桥环氧处含有修饰诸如CH2和S的糖。核苷酸糖类似物也可以具有糖模拟物,诸如环丁基部分代替戊呋喃糖基糖。
[0114] 核苷酸类似物也可以在磷酸盐部分被修饰。经修饰磷酸盐部分包括但不限于可以被修饰以使两个核苷酸之间的键包含以下物质的磷酸盐部分:硫代磷酸盐、手性硫代磷酸盐、二硫代磷酸盐、磷酸三盐、氨基烷基磷酸三盐、甲基和其他烷基膦酸盐(包括3'-亚烷基膦酸盐和手性膦酸盐、次膦酸盐)、氨基磷酸盐(包括3'-氨基氨基磷酸盐和氨基烷基磷酸盐、硫代磷酸盐)、硫代烷基膦酸盐、硫代烷基磷酸三盐和烷磷酸盐。两个核苷酸之间的这些磷酸盐键或经修饰磷酸盐键可以通过3'-5'键或2'-5'键连接,并且所述键可以包含反极性,诸如3'-5'与5'-3'或2'-5'与5'-2'。还包括各种盐、混合盐和游离酸形式。
[0115] 核苷酸替代物包括具有与核苷酸类似的功能特性但不包含磷酸盐部分的分子,诸如肽核酸(PNA)。核苷酸替代物包括将以Watson-Crick或Hoogsteen方式识别核酸但通过除磷酸盐部分以外的部分连接在一起的分子。核苷酸替代物在与适当的靶核酸相互作用时能够符合双螺旋型结构。
[0116] 核苷酸替代物还包括磷酸盐部分或糖部分已被替换的核苷酸或核苷酸类似物。在一些实施方案中,核苷酸替代物可不包含标准磷原子。磷酸盐的替代物可以是例如短链烷基或环烷基核苷间键、混合的杂原子和烷基或环烷基核苷间键,或者一个或多个短链杂原子或杂环核苷间键。这些替代物包括具有以下部分的替代物:吗啉基键(部分由核苷的糖部分形成);硅氧烷主链;硫化物、亚砜和砜主链;甲乙酰基和硫代甲乙酰基主链;亚甲基甲乙酰基和硫代甲乙酰基主链;含烯的主链;氨基磺酸盐主链;亚甲基亚氨基和亚甲基肼基主链;磺酸盐和磺酰胺主链;酰胺主链;以及具有混合的N、O、S和CH2组成部分的其他部分。
[0117] 还应当理解,在核苷酸替代物中,核苷酸的糖和磷酸盐部分都可以被例如酰胺型键(氨基乙基甘氨酸)(PNA)替换。
[0118] 也可以将其他类型的分子(缀合物)与核苷酸或核苷酸类似物连接,以增强例如细胞摄取。可以将缀合物与核苷酸或核苷酸类似物化学连接。此类缀合物包括例如脂质部分(诸如胆固醇部分)、胆酸、硫醚(诸如己基-S-三苯基甲硫醇)、硫代胆固醇、脂族链(诸如十二烷二醇或十一烷基残基)、磷脂(诸如二-十六烷基-外消旋-甘油或1,2-二-O-十六烷基-外消旋-甘油-3-H-膦酸三乙铵)、聚胺或聚乙二醇链、金刚烷乙酸、棕榈基部分或十八烷基胺或己基氨基-羰基-羟胆固醇部分。
[0119] 本公开还提供了包含本文公开的任何一种或多种核酸分子的载体。在一些实施方案中,载体包含本文公开的任何一种或多种核酸分子以及异源核酸。载体可以是能够转运核酸分子的病毒或非病毒载体。在一些实施方案中,载体是质粒或粘粒(例如,可以将另外的DNA区段连接到其中的环状双链DNA)。在一些实施方案中,载体是病毒载体,其中可以将另外的DNA区段连接到病毒基因组中。在一些实施方案中,载体可以在其引入的宿主细胞中自主复制(例如,具有细菌复制起点的细菌载体和游离型哺乳动物载体)。在一些实施方案中,载体(例如,非游离型哺乳动物载体)可以在引入宿主细胞后整合到宿主细胞的基因组中,从而与宿主基因组一起复制。此外,特定载体可以指导与其可操作地连接的基因表达。此类载体在本文中称为“重组表达载体”或“表达载体”。此类载体也可以是靶向载体(即外源供体序列)。
[0120] 在一些实施方案中,通过将编码所公开的遗传变体的核酸分子插入表达载体中,使得基因与表达控制序列诸如转录和翻译控制序列可操作地连接,来表达由本文公开的各种遗传变体编码的蛋白质。表达载体包括但不限于质粒、粘粒、逆转录病毒、腺病毒、腺相关病毒(AAV)、植物病毒(诸如花椰菜花叶病毒和烟草花叶病毒)、酵母人工染色体(YAC)、Epstein-Barr(EBV)衍生的附加体等。在一些实施方案中,可以将包含所公开的遗传变体的核酸分子连接到载体中,使得载体内的转录和翻译控制序列发挥其预期的功能,即调控遗传变体的转录和翻译。选择表达载体和表达控制序列以使其与所使用的表达宿主细胞相容。可以将包含所公开的遗传变体的核酸序列与变体遗传信息插入分开的载体或相同的表达载体中。可以通过标准方法将包含所公开的遗传变体的核酸序列插入表达载体中(例如,在包含所公开的遗传变体以及载体的核酸上连接互补限制性位点,或者在不存在限制性位点的情况下采用平末端连接)。
[0121] 除了包含所公开的遗传变体的核酸序列之外,重组表达载体还可以携带控制宿主细胞中遗传变体的表达的调控序列。表达载体的设计(包括调控序列的选择)可以取决于诸如要转化的宿主细胞的选择、所需蛋白质的表达水平等因素。哺乳动物宿主细胞表达所需的调控序列可以包括例如指导哺乳动物细胞中高水平蛋白表达的病毒元件,诸如来源于逆转录病毒LTR的启动子和/或增强子、来源于巨细胞病毒(CMV)的启动子和/或增强子(诸如CMV启动子/增强子)、来源于猿猴病毒40(SV40)的启动子和/或增强子(诸如SV40启动子/增强子)、来源于腺病毒的的启动子和/或增强子(例如,腺病毒主要晚期启动子(AdMLP))、来源于多瘤的启动子和/或增强子以及强大的哺乳动物启动子(诸如天然免疫球蛋白和肌动蛋白启动子)。在细菌细胞或真菌细胞(例如,酵母细胞)中表达多肽的方法也是众所周知的。
[0122] 启动子可以是例如组成型活性启动子、条件启动子、诱导型启动子、时间受限启动子(例如,发育调控启动子)或空间受限启动子(例如,细胞特异性或组织特异性启动子)。启动子的示例可以在例如WO 2013/176772中找到。
[0123] 诱导型启动子的示例包括例如化学调控启动子和物理调控启动子。化学调控启动子包括例如醇调控启动子(例如,醇脱氢酶(alcA)基因启动子)、四环素调控启动子(例如,四环素响应性启动子、四环素操纵子序列(tetO)、tet-On启动子或tet-Off启动子)、类固醇调控启动子(例如,大鼠糖皮质激素受体、雌激素受体的启动子或蜕皮激素受体的启动子)或金属调控启动子(例如,金属蛋白启动子)。物理调控启动子包括例如温度调控启动子(例如,热激启动子)和光调控启动子(例如,光诱导型启动子或光阻遏型启动子)。
[0124] 组织特异性启动子可以是例如神经元特异性启动子、胶质细胞特异性启动子、肌肉细胞特异性启动子、心脏细胞特异性启动子、肾细胞特异性启动子、骨细胞特异性启动子、内皮细胞特异性启动子或免疫细胞特异性启动子(例如,B细胞启动子或T细胞启动子)。
[0125] 发育调控启动子包括例如仅在胚胎发育阶段或仅在成年细胞中有活性的启动子。
[0126] 除了包含所公开的遗传变体和调控序列的核酸序列之外,重组表达载体还可以携带另外的序列,例如调控载体在宿主细胞中复制的序列(例如,复制起点)以及选择标记基因。选择标记基因可以促进选择已引入载体的宿主细胞(参见例如美国专利4,399,216、4,634,665和5,179,017)。例如,选择标记基因可以赋予已引入载体的宿主细胞对药物(诸如G418、潮霉素或氨甲蝶呤)的抗性。示例性选择标记基因包括但不限于二氢叶酸还原酶(DHFR)基因(用于通过甲氨蝶呤选择/扩增的dhfr宿主细胞)、neo基因(用于G418选择)和谷氨酸合成酶(GS)基因。
[0127] 本公开还提供了包含变体B4GALT1多肽(Asn352Ser)的分离的多肽。示例性野生型人类B4GALT1多肽被分配UniProt登录号P15291(SEQ ID NO:7),由398个氨基酸组成。人类变体B4GALT1多肽在与全长/成熟B4GALT1多肽(SEQ ID NO:8)的位置352相对应的位置处包含丝氨酸,而不是野生型人类B4GALT1中相同位置处的天冬酰胺(分别将SEQ ID NO:8与SEQ ID NO:7进行比较)。在一些实施方案中,分离的多肽包含SEQ ID NO:8。在一些实施方案中,分离的多肽由SEQ ID NO:8组成。
[0128] 在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%的氨基酸序列或者由所述氨基酸序列组成。在一些实施方案中,分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约90%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约90%的氨基酸序列或由所述氨基酸序列组成,并且在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约
90%的氨基酸序列或由所述氨基酸序列组成,条件是所述分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。
[0129] 在一些实施方案中,分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约95%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约95%的氨基酸序列或由所述氨基酸序列组成,并且在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约95%的氨基酸序列或由所述氨基酸序列组成,条件是所述分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约98%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约98%的氨基酸序列或由所述氨基酸序列组成,并且在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约98%的氨基酸序列或由所述氨基酸序列组成,条件是所述分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约99%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约99%的氨基酸序列或由所述氨基酸序列组成,并且在与SEQ ID NO:8的位置
352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的同一性为至少约99%的氨基酸序列或由所述氨基酸序列组成,条件是所述分离的多肽在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。
[0130] 在一些实施方案中,分离的多肽包含SEQ ID NO:8的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约150、至少约200、至少约250、至少约300或至少约350个连续氨基酸或者由所述连续氨基酸组成。在一些实施方案中,分离的多肽还在与SEQ ID NO:8的位置
352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少约8、至少约10、至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约
45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约150、至少约
200、至少约250、至少约300或至少约350个连续氨基酸的同一性为至少约70%、至少约
75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约
94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽还在与SEQ ID NO:8的位置
352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少约8、至少约10、至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约
45、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约150、至少约
200、至少约250、至少约300或至少约350个连续氨基酸的同一性为至少约90%、至少约
91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约
98%、至少约99%或100%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽还在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。
[0131] 在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少300个连续氨基酸的同一性为至少90%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少300个连续氨基酸的同一性为至少90%的氨基酸序列或由所述氨基酸序列组成,并且分离的多肽还在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少300个连续氨基酸的同一性为至少95%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少300个连续氨基酸的同一性为至少95%的氨基酸序列或由所述氨基酸序列组成,并且分离的多肽还在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少300个连续氨基酸的同一性为至少98%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少300个连续氨基酸的同一性为至少98%的氨基酸序列或由所述氨基酸序列组成,并且分离的多肽还在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少300个连续氨基酸的同一性为至少99%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少300个连续氨基酸的同一性为至少99%的氨基酸序列或由所述氨基酸序列组成,并且分离的多肽还在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。
[0132] 在一些实施方案中,分离的多肽包含SEQ ID NO:8的至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90或至少约100个连续氨基酸或者由所述连续氨基酸组成。在一些实施方案中,分离的多肽还在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少约8、至少约10、至少约15、至少约20、至少约25、至少约
30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90或至少约100个连续氨基酸的同一性为至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或100%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽还在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。在一些实施方案中,分离的多肽包含与SEQ ID NO:8的至少约8、至少约10、至少约15、至少约
20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约60、至少约70、至少约80、至少约90或至少约100个连续氨基酸的同一性为至少约90%、至少约91%、至少约
92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约
99%或100%的氨基酸序列或由所述氨基酸序列组成。在一些实施方案中,分离的多肽还在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸。
[0133] 代表性野生型B4GALT1多肽序列以SEQ ID NO:7列举。代表性B4GALT1变体多肽序列以SEQ ID NO:8列举。
[0134] 本文公开的分离的多肽可以包含天然存在的B4GALT1多肽的氨基酸序列,或者可以包含非天然存在的序列。在一些实施方案中,天然存在的序列可能由于保守性氨基酸取代而不同于非天然存在的序列。例如,所述序列可以是相同的,除了保守性氨基酸取代以外。
[0135] 在一些实施方案中,本文公开的分离的多肽与异源多肽或异源分子或标记连接或融合,所述标记的许多示例在本文其他地方公开。例如,蛋白质可以与提供增加或降低的稳定性的异源多肽融合。融合结构域或异源多肽可以位于多肽的N末端、C末端或内部。融合伴侣可例如帮助提供T辅助表位(免疫学融合伴侣),或者可帮助以比天然重组多肽更高的产量表达蛋白质(表达增强剂)。某些融合伴侣既是免疫学融合伴侣又是表达增强融合伴侣。可选择其他融合伴侣以增加多肽的溶解度或促进将多肽靶向所需的细胞内区室。一些融合伴侣包括促进多肽的纯化的亲和标签。
[0136] 在一些实施方案中,融合蛋白直接与异源分子融合或经由接头诸如肽接头与异源分子连接。可例如基于以下因素来选择合适的肽接头序列:1)能够采用灵活的延伸构象;2)抵抗采用可以与第一多肽和第二多肽上的功能性表位相互作用的二级结构;以及3)缺少可能与多肽功能性表位反应的疏水或带电残基。例如,肽接头序列可含有Gly、Asn和Ser残基。其他接近中性的氨基酸诸如Thr和Ala也可用于接头序列。可有效地用作接头的氨基酸序列包括例如在以下文献中公开的氨基酸序列:Maratea等人,Gene,1985,40,39-46;Murphy等人,Proc.Natl.Acad.Sci.USA,1986,83,8258-8262;以及美国专利4,935,233和4,751,180。
接头序列的长度一般可为例如1至约50个氨基酸。当第一多肽和第二多肽具有可以用于分离功能结构域并防止空间干扰的非必需N末端氨基酸区域时,一般不需要接头序列。
[0137] 在一些实施方案中,多肽与细胞穿透结构域可操作地连接。例如,细胞穿透结构域可以来源于HIV-1TAT蛋白、人类乙型肝炎病毒的TLM细胞穿透基序、MPG、Pep-1、VP22、单纯疱疹病毒的细胞穿透肽或者聚精氨酸肽序列。参见例如WO 2014/089290。细胞穿透结构域可以位于蛋白质的N末端、C末端或任何地方。
[0138] 在一些实施方案中,为了易于追踪或纯化,多肽与异源多肽诸如荧光蛋白、纯化标签或表位标签可操作地连接。荧光蛋白的示例包括但不限于绿色荧光蛋白(例如,GFP、GFP-2、tagGFP、turboGFP、eGFP、Emerald、Azami Green、Monomeric Azami Green、CopGFP、AceGFP、ZsGreenl)、黄色荧光蛋白(例如,YFP、eYFP、Citrine、Venus、YPet、PhiYFP、ZsYellowl)、蓝色荧光蛋白(例如,eBFP、eBFP2、Azurite、mKalamal、GFPuv、Sapphire、T-sapphire)、青色荧光蛋白(例如,eCFP、Cerulean、CyPet、AmCyanl、Midoriishi-Cyan)、红色荧光蛋白(mKate、mKate2、mPlum、DsRed单体、mCherry、mRFP1、DsRed-Express、DsRed2、DsRed-Monomer、HcRed-Tandem、HcRedl、AsRed2、eqFP611、mRaspberry、mStrawberry、Jred)、橙色荧光蛋白(mOrange、mKO、Kusabira-Orange、Monomeric Kusabira-Orange、mTangerine、tdTomato)和任何其他合适的荧光蛋白。标签的示例包括但不限于谷胱甘肽S-转移酶(GST)、几丁质结合蛋白(CBP)、麦芽糖结合蛋白、硫氧还蛋白(TRX)、聚(NANP)、串联亲和纯化(TAP)标签、myc、AcV5、AU1、AU5、E、ECS、E2、FLAG、血凝素(HA)、nus、Softag 1、Softag 3、Strep、SBP、Glu-Glu、HSV、KT3、S、S1、T7、V5、VSV-G、组氨酸(His)、生物素羧基载体蛋白(BCCP)和钙调蛋白。在一些实施方案中,异源分子是免疫球蛋白Fc结构域、肽标签、转导结构域、聚(乙二醇)、聚唾液酸或乙醇酸。
[0139] 在一些实施方案中,分离的多肽包含非天然或经修饰氨基酸或者肽类似物。例如,存在许多D-氨基酸或具有与天然存在的氨基酸不同的功能性取代基的氨基酸。公开了天然存在的肽的相反立体异构体,以及肽类似物的立体异构体。可以通过以下过程将这些氨基酸轻松地并入多肽链中:向tRNA分子中充入选择的氨基酸并改造利用例如琥珀密码子的基因构建体,以便以位点特异性方式将类似氨基酸插入肽链中。
[0140] 在一些实施方案中,分离的多肽是肽模拟物,其可以被生产为类似于肽,但是不经由天然肽键进行连接。例如,氨基酸或氨基酸类似物的键包括但不限于:-CH2NH-、-CH2S-、-CH2-、-CH=CH-(顺式和反式)、-COCH2-、-CH(OH)CH2-和-CHH2SO-。肽类似物诸如b-丙氨酸、氨基丁酸等可以在键接原子之间具有一个以上的原子。氨基酸类似物和肽类似物通常具有增强的或所需的特性,诸如更经济的生产性、更高的化学稳定性、增强的药理特性(半衰期、吸收、效力、功效等)、改变的特异性(例如,广泛的生物活性)、降低的抗原性和其他所需特性。
[0141] 在一些实施方案中,分离的多肽包含D-氨基酸,其可以用于产生更稳定的肽,因为D氨基酸不能被肽酶识别。共有序列的一个或多个氨基酸被相同类型的D-氨基酸系统取代(例如,D-赖氨酸代替L-赖氨酸)可以用于产生更稳定的肽。半胱氨酸残基可以用于环化两个或更多个肽或者将它们附接在一起。这对于约束肽限形成特定构象可能是有益的(参见例如Rizo和Gierasch,Ann.Rev.Biochem.,1992,61,387)。
[0142] 本公开还提供了编码本文公开的任何多肽的核酸分子。这包括与特定多肽序列有关的所有简并序列(即,具有编码一个特定多肽序列的序列的所有核酸,以及编码所公开的变体和蛋白序列的衍生物的所有核酸,包括简并核酸)。因此,尽管本文中可能未写出每个特定核酸序列,但实际上本文中通过所公开的多肽序列公开和描述了每个序列。
[0143] 本公开还提供了包含本文公开的任何一种或多种核酸分子和/或任何一种或多种多肽的组合物。在一些实施方案中,组合物包含载剂。在一些实施方案中,载剂增加了核酸分子和/或多肽的稳定性(例如,在降解产物保持低于阈值(诸如低于起始核酸或蛋白质的0.5重量%)的给定储存条件(例如,-20℃、4℃或环境温度)下延长了时间;或增加了体内稳定性)。载剂的示例包括但不限于聚(乳酸)(PLA)微球、聚(D,L-乳酸-乙醇酸)(PLGA)微球、脂质体、微胶粒、反相微胶粒、脂质螺旋体和脂质微管。
[0144] 本公开还提供了产生本文公开的任何B4GALT1多肽或其片段的方法。此类B4GALT1多肽或其片段可以通过任何合适的方法产生。例如,B4GALT1多肽或其片段可以从包含编码此类B4GALT1多肽或其片段的核酸分子(例如,重组表达载体)的宿主细胞产生。此类方法可以包括在足以产生B4GALT1多肽或其片段的条件下培养包含编码B4GALT1多肽或其片段的核酸分子(例如,重组表达载体)的宿主细胞,从而产生B4GALT1多肽或其片段。核酸可以与在宿主细胞中有活性的启动子可操作地连接,并且可以在表达核酸的条件下进行培养。此类方法还可以包括回收所表达的B4GALT1多肽或其片段。回收还可以包括纯化B4GALT1多肽或其片段。
[0145] 用于蛋白质表达的合适系统的示例包括宿主细胞,诸如:细菌细胞表达系统(例如,大肠杆菌(Escherichia coli)、乳酸乳球菌(Lactococcus lactis))、酵母细胞表达系统(例如,酿酒酵母(Saccharomyces cerevisiae)、毕赤酵母(Pichia pastoris))、昆虫细胞表达系统(例如,杆状病毒介导的蛋白表达)和哺乳动物细胞表达系统。
[0146] 编码B4GALT1多肽或其片段的核酸分子的示例在本文其他地方更详细地公开。在一些实施方案中,对核酸分子进行密码子优化以在宿主细胞中表达。在一些实施方案中,核酸分子与在宿主细胞中有活性的启动子可操作地连接。启动子可以是异源启动子(即,不是天然存在的B4GALT1启动子的启动子)。适用于大肠杆菌的启动子的示例包括但不限于阿拉伯糖、lac、tac和T7启动子。适用于乳酸乳球菌的启动子的示例包括但不限于P170和乳链菌肽启动子。适用于酿酒酵母的启动子的示例包括但不限于组成型启动子诸如醇脱氢酶(ADHI)或烯醇酶(ENO)启动子或诱导型启动子诸如PHO、CUP1、GAL1和G10。适用于毕赤酵母的启动子的示例包括但不限于醇氧化酶I(AOX I)启动子、甘油3磷酸脱氢酶(GAP)启动子和谷胱甘肽依赖性甲醛脱氢酶(FLDI)启动子。适用于杆状病毒介导的系统的启动子的示例是晚期病毒强多体蛋白启动子。
[0147] 在一些实施方案中,核酸分子与B4GALT1多肽或其片段同框地编码标签以促进蛋白纯化。标签的示例在本文其他地方公开。此类标签可以例如与伴侣配体结合(例如,固定在树脂上),使得可以将标签蛋白质与所有其他蛋白质(例如,宿主细胞蛋白质)分离。亲和色谱法、高效液相色谱法(HPLC)和尺寸排阻色谱法(SEC)是可以用于提高表达蛋白纯度的方法的示例。
[0148] 也可以使用其他方法来产生B4GALT1多肽或其片段。例如,可以通过蛋白质化学技术将两个或更多个肽或多肽连接在一起。例如,可以使用Fmoc(9-芴基甲氧基羰基)或Boc(叔丁氧基羰基)化学法来化学合成肽或多肽。可以通过标准化学反应来合成此类肽或多肽。例如,可以合成肽或多肽而不从其合成树脂上切割下来,而可以合成肽或蛋白质的另一个片段,然后将其从树脂上切割下来,从而暴露出在另一个片段上功能性封闭的末端基团。通过肽缩合反应,可以分别经由这两个片段的羧基和氨基末端的肽键将这两个片段共价连接。可替代地,可以如本文所述在体内独立地合成肽或多肽。一旦分离,就可经由类似的肽缩合反应将这些独立的肽或多肽连接以形成肽或其片段。
[0149] 在一些实施方案中,酶促连接克隆的或合成的肽区段允许将相对短的肽片段连接以产生更大的肽片段、多肽或完整蛋白质结构域(Abrahmsen等人,Biochemistry,1991,30,4151)。可替代地,天然化学连接合成肽可以用于从较短的肽片段合成构建大肽或多肽。该方法可以包括两步化学反应(参见Dawson等人,Science,1994,266,776-779)。第一步可以是未保护的合成肽-硫酯与另一个包含氨基末端Cys残基的未保护的肽区段发生化学选择性反应,以产生硫酯连接的中间体作为初始共价产物。在不改变反应条件的情况下,该中间体可以进行自发的快速分子内反应,从而在连接位点形成天然的肽键。
[0150] 在一些实施方案中,可以将未保护的肽区段化学连接,其中由于化学连接而在肽区段之间形成的键是非天然(非肽)键(参见Schnolzer等人,Science,1992,256,221)。
[0151] 本公开还提供了包含本文公开的任何一种或多种核酸分子和/或任何一种或多种多肽的细胞(例如,重组宿主细胞)。细胞可以是体外的、离体的或体内的。核酸分子可以与启动子和其他调控序列连接,因此它们被表达以产生编码的蛋白质。
[0152] 在一些实施方案中,细胞是全能细胞或多能细胞(例如,胚胎干(ES)细胞,诸如啮齿动物ES细胞、小鼠ES细胞或大鼠ES细胞)。全能细胞包括可以产生任何细胞类型的未分化细胞,而多能细胞包括能够发展为一种以上的分化细胞类型的未分化细胞。此类多能细胞和/或全能细胞可以是例如ES细胞或ES样细胞,诸如诱导性多能干(iPS)细胞。ES细胞包括胚胎来源的全能细胞或多能细胞,其能够在引入胚胎后对发育胚胎的任何组织起作用。ES细胞可以来源于囊胚的内部细胞团,并且能够分化为三个脊椎动物胚层(内胚层、外胚层和中胚层)中任何一个的细胞。
[0153] 在一些实施方案中,细胞是原代体细胞,或不是原代体细胞的细胞。体细胞可以包括不是配子、生殖细胞、配子母细胞或未分化干细胞的任何细胞。在一些实施方案中,细胞也可以是原代细胞。原代细胞包括直接从生物体、器官或组织分离的细胞或细胞培养物。原代细胞包括既不转化也不永生的细胞。原代细胞包括从生物体、器官或组织获得的先前未在组织培养中传代或先前已在组织培养中传代但不能在组织培养中无限期传代的任何细胞。此类细胞可以通过常规技术分离,并且包括例如体细胞、造血细胞、内皮细胞、上皮细胞、成纤维细胞、间充质细胞、角化细胞、黑素细胞、单核细胞、单个核细胞、脂肪细胞、前脂肪细胞、神经元、神经胶质细胞、肝细胞、骨骼成肌细胞和平滑肌细胞。例如,原代细胞可以来源于结缔组织、肌肉组织、神经系统组织或上皮组织。
[0154] 在一些实施方案中,细胞通常可能不会无限期增殖,但是由于突变或改变,可以逃脱正常的细胞衰老,而可以继续分裂。此类突变或改变可以自然发生或有意诱导。永生化细胞的示例包括但不限于中国仓鼠卵巢(CHO)细胞、人类胚胎肾细胞(例如,HEK 293细胞)和小鼠胚胎成纤维细胞(例如,3T3细胞)。许多类型的永生化细胞是众所周知的。永生化或原代细胞包括通常用于培养或者用于表达重组基因或蛋白质的细胞。在一些实施方案中,细胞是分化细胞,诸如肝细胞(例如,人类肝细胞)。
[0155] 细胞可以来自任何来源。例如,细胞可以是真核细胞、动物细胞、植物细胞或真菌(例如,酵母)细胞。此类细胞可以是鱼细胞或鸟细胞,或者此类细胞可以是哺乳动物细胞,诸如人类细胞、非人类哺乳动物细胞、啮齿动物细胞、小鼠细胞或大鼠细胞。哺乳动物包括但不限于人类、非人类灵长类动物、猴、猿、猫、狗、马、公、鹿、野牛、绵羊、啮齿动物(例如,小鼠、大鼠、仓鼠、豚鼠)、家畜(例如,牛类,诸如奶牛、犍牛等;羊类,诸如绵羊、山羊等;以及猪类,诸如猪和公猪等)。鸟类包括但不限于鸡、火鸡、鸵鸟、鹅、鸭等。还包括家养动物和农业动物。术语“非人类动物”不包括人类。
[0156] 本公开还提供了用于在来自受试者人类的生物样品中检测B4GALT1变体基因、mRNA、cDNA和/或多肽的存在的方法。应当理解,群体内的基因序列以及由此类基因编码的mRNA和蛋白质可能由于多态性诸如单核苷酸多态性而变化。本文提供的B4GALT1基因、mRNA、cDNA和多肽的序列仅仅是示例性序列。B4GALT1基因、mRNA、cDNA和多肽的其他序列也是可能的。
[0157] 生物样品可以来源于受试者的任何细胞、组织或生物流体。样品可包括任何临床相关的组织,诸如骨髓样品、肿瘤活体组织切片、细针抽吸物或体液样品,诸如血液、血浆、血清、淋巴液、腹水、囊肿液或尿液。在某些情况下,样品包括腮抹拭子。在本文公开的方法中使用的样品将根据测定形式、检测方法的性质以及用作样品的组织、细胞或提取物而有所不同。可以根据所使用的测定方法对生物样品进行不同的处理。例如,当检测变体B4GALT1核酸分子时,可以采用被设计成分离或富集样品的基因组DNA的初步处理。各种已知技术可用于该目的。当检测B4GALT1 mRNA的水平时,可以使用不同的技术来富集生物样品的mRNA。可以使用各种方法来检测mRNA的存在或水平或者特定变体基因组DNA基因座的存在。
[0158] 在一些实施方案中,本公开提供了检测变体B4GALT1核酸分子的存在与否的方法,所述方法包括对生物样品中的至少一部分核酸进行测序以确定所述核酸在与SEQ ID NO:2的位置53757至53577相对应的位置处是否包含SEQ ID NO:2的核苷酸53757至53577。
[0159] 在一些实施方案中,本公开提供了检测变体B4GALT1核酸分子的存在与否的方法,所述方法包括对生物样品中的至少一部分核酸进行测序以确定所述核酸在与SEQ ID NO:4的位置1243至1245相对应的位置处是否包含SEQ ID NO:4的核苷酸1243至1245。
[0160] 在一些实施方案中,本公开提供了检测变体B4GALT1核酸分子的存在与否的方法,所述方法包括对生物样品中的至少一部分核酸进行测序以确定所述核酸在与SEQ ID NO:6的位置1054至1056相对应的位置处是否包含SEQ ID NO:6的核苷酸1054至1056。
[0161] 在一些实施方案中,检测人类受试者中变体B4GALT1核酸分子(例如,基因、mRNA或cDNA)的存在与否的方法包括:对来自人类受试者的生物学样品进行测定以确定生物样品中的核酸分子是否包含在SEQ ID NO:8的位置352处编码丝氨酸的核酸序列。在一些实施方案中,生物样品包括细胞或细胞裂解物。此类方法可以包括例如从受试者获得包含B4GALT1基因、mRNA或cDNA的生物样品,并对生物样品进行测定以确定B4GALT1基因、mRNA或cDNA的与SEQ ID NO:2(基因)的位置53757至53577、SEQ ID NO:4(mRNA)的位置1243至1245或SEQ ID NO:6(cDNA)的位置1054至1056相对应的位置编码丝氨酸,而不是与变体B4GALT1多肽的位置352相对应的位置处的天冬酰胺。此类测定可以包括例如确定特定B4GALT1核酸分子的这些位置的身份。
[0162] 在一些实施方案中,所述测定包括:对来自人类受试者的生物样品中核酸分子的B4GALT1基因组序列的一部分进行测序,其中测序的所述部分包括与SEQ ID NO:2的位置53575至53577相对应的位置;对来自人类受试者的生物样品中核酸分子的B4GALT1 mRNA序列的一部分进行测序,其中测序的所述部分包括与SEQ ID NO:4的位置1243至1245相对应的位置;或者对来自人类受试者的生物样品中核酸分子的B4GALT1 cDNA序列的一部分进行测序,其中测序的所述部分包括与SEQ ID NO:6的位置1054至1056相对应的位置。
[0163] 在一些实施方案中,所述测定包括:a)使生物样品与引物接触,所述引物与以下物质杂交:i)B4GALT1基因组序列的一部分,所述部分接近B4GALT1基因组序列的与SEQ ID NO:2的位置53575至53577相对应的位置;ii)B4GALT1 mRNA序列的一部分,所述部分与B4GALT1 mRNA的与SEQ ID NO:4的位置1243至1245相对应的位置;或者iii)B4GALT1 cDNA序列的一部分,所述部分与B4GALT1 cDNA的与SEQ ID NO:6的位置1054至1056相对应的位置;b)延伸所述引物,使其至少通过:i)B4GALT1基因组序列的与位置53575至53577相对应的位置;ii)B4GALT1 mRNA的与位置1243至1245相对应的位置;或者iii)B4GALT1 cDNA的与位置1054至1056相对应的位置;并且c)确定所述引物的延伸产物在以下位置处是否包含编码SEQ ID NO:8的位置352处的丝氨酸的核苷酸:i)与B4GALT1基因组序列的位置53575至53577相对应的位置;ii)与B4GALT1 mRNA的位置1243至1245相对应的位置;或者iii)与B4GALT1 cDNA的位置1054至1056相对应的位置。在一些实施方案中,仅分析B4GALT1基因组DNA。在一些实施方案中,仅分析B4GALT1 mRNA。在一些实施方案中,仅分析B4GALT1 cDNA。
[0164] 在一些实施方案中,所述测定包括使生物样品与引物或探针接触,所述引物或探针在严格条件下与变体B4GALT1基因组序列、mRNA序列或cDNA序列而非对应的野生型B4GALT1序列特异性杂交,并且确定是否发生杂交。
[0165] 在一些实施方案中,上述测定法包括RNA测序(RNA-Seq)。在一些实施方案中,所述测定还包括逆转录聚合酶链反应(RT-PCR)。
[0166] 在一些实施方案中,所述方法利用具有足够核苷酸长度的探针和引物来与靶核酸序列结合,并且特异性检测和/或鉴定包含变体B4GALT1基因、mRNA或cDNA的多核苷酸。杂交条件或反应条件可以由操作者确定以获得该结果。该长度可以是在选择的检测方法中足够有用的任何长度。一般来讲,例如,使用约8、约11、约14、约16、约18、约20、约22、约24、约26、约28、约30、约40、约50、约75、约100、约200、约300、约400、约500、约600或约700个核苷酸或更多个核苷酸,或者约11至约20、约20至约30、约30至约40、约40至约50、约50至约100、约100至约200、约200至约300、约300至约400、约400至约500、约500至约600、约600至约700或约700至约800或更多个核苷酸长度。此类探针和引物可以在高严格杂交条件下与靶序列特异性杂交。探针和引物可具有核酸序列与靶序列完全相同的连续核苷酸,但是可通过常规方法设计与靶核酸序列不同并且保留特异性检测和/或鉴定靶核酸序列的能力的探针。因此,探针和引物可以与靶核酸分子共享约80%、约85%、约90%、约91%、约92%、约93%、约
94%、约95%、约96%、约97%、约98%、约99%或100%的序列同一性或互补性。
[0167] 在一些实施方案中,特异性引物可以用于扩增变体B4GALT1基因座和/或B4GALT1变体mRNA或cDNA,以产生扩增子,所述扩增子可以用作特异性探针或本身可以被检测以鉴定变体B4GALT1基因座或确定生物样品中特异性B4GALT1 mRNA或cDNA的水平。B4GALT1变体基因座可以用于表示包括与SEQ ID NO:2中的位置53575至53577相对应的位置的基因组核酸序列。当探针在允探针与生物样品中的核酸分子结合的条件下与核酸分子杂交时,这种结合可以被检测到并且可以指示变体B4GALT1基因座的存在或者生物样品中变体B4GALT1 mRNA或cDNA的存在或水平。已经描述了结合探针的这种鉴定。特异性探针可包含与变体B4GALT1基因的特异性区域的同一性(或互补性)为至少约80%、约80%至约85%、约85%至约90%、约90%至约95%和约95%至约100%的序列。特异性探针可包含与变体B4GALT1 mRNA的特异性区域的同一性(或互补性)为至少约80%、约80%至约85%、约85%至约90%、约90%至约95%和约95%至约100%的序列。特异性探针可包含与变体B4GALT1 cDNA的特异性区域的同一性(或互补性)为至少约80%、约80%至约85%、约85%至约90%、约90%至约95%和约95%至约100%的序列。
[0168] 在一些实施方案中,为了确定生物样品的核酸互补序列在变体B4GALT1基因基因座(SEQ ID NO:2)中的位置53575至53577处是否包含丝氨酸编码核苷酸,可使生物样品经历使用引物对的核酸扩增方法,所述引物对包括来源于与位置53575至53577相邻的5'侧接序列的第一引物以及来源于与位置53575至53577相邻的3'侧接序列的第二引物,以产生可诊断变体B4GALT1基因基因座(SEQ ID NO:2)中的位置53575至53577处的SNP的存在的扩增子。在一些实施方案中,扩增子的长度范围可从引物对加一个核苷酸碱基对的组合长度到可通过DNA扩增方案产生的扩增子的任何长度。该距离的范围可以从一个核苷酸碱基对一直到扩增反应的极限,或为约两万个核苷酸碱基对。任选地,引物对侧接包括位置53575至53577以及位置53575至53577的每一侧至少1、2、3、4、5、6、7、8、9、10个或更多个核苷酸的区域。可以从mRNA和/或cDNA序列产生类似的扩增子。
[0169] 制备和使用探针和引物的代表性方法在以下文献中描述:例如Molecular Cloning:A Laboratory Manual,第2版,第1-3卷.Sambrook等人,Cold Spring Harbor 
Laboratory Press,Cold Spring Harbor,N.Y.1989(下文称为“Sambrook等人,1989”);
Current Protocols in Molecular Biology,ed.Ausubel等人,Greene Publishing and Wiley-Interscience,New York,1992(定期更新)(下文称为“Ausubel等人,1992”);以及Innis等人,PCR Protocols:A Guide to Methods and Applications,Academic Press:
San Diego,1990)。PCR引物对可以来源于已知序列,例如通过使用用于该目的的计算机程序,诸如Vector NTI版本10中的PCR引物分析工具(Informax Inc.,Bethesda Md.);
PrimerSelect(DNASTAR Inc.,Madison,Wis.);以及Primer3(版本0.4.0.COPYRGT.,1991,Whitehead Institute for Biomedical Research,Cambridge,Mass.)。另外,可以使用已知指南目测扫描序列并手动确定引物。
[0170] 如下文进一步详述,任何常规的核酸杂交或扩增或测序方法都可以用于特异性检测变体B4GALT1基因基因座的存在和/或变体B4GALT1 mRNA或cDNA的水平。在一些实施方案中,核酸分子可以用作引物以扩增B4GALT1核酸的区域,或者核酸分子可以用作在严格条件下与包含变体B4GALT1基因基因座的核酸分子或包含变体B4GALT1 mRNA或cDNA的核酸分子杂交的探针。
[0171] 已知多种核酸技术,包括例如核酸测序、核酸杂交和核酸扩增。核酸测序技术的说明性示例包括但不限于链终止(Sanger)测序和染料终止测序。
[0172] 其他方法涉及除测序以外的核酸杂交方法,包括使用针对纯化DNA、扩增DNA和固定细胞制备物的标记引物或探针(荧光原位杂交)。在一些方法中,可在检测之前扩增靶核酸或在检测的同时扩增靶核酸。核酸扩增技术的说明性示例包括但不限于聚合酶链反应(PCR)、连接酶链反应(LCR)、链置换扩增(SDA)和基于核酸序列的扩增(NASBA)。其他方法包括但不限于连接酶链反应、链置换扩增和嗜热SDA(tSDA)。
[0173] 可以使用任何方法来检测未扩增的或扩增的多核苷酸,包括例如杂交保护分析(HPA)、实时定量评估扩增过程以及确定样品中最初存在的靶序列的量(但不是基于实时扩增)。
[0174] 还提供了不一定需要进行序列扩增的用于鉴定核酸的方法,所述方法基于例如使用适当的探针对染色体材料进行DNA(DNA:DNA)印迹杂交、原位杂交(ISH)和原位荧光杂交(FISH)等已知方法。DNA印迹可以用于检测特异性核酸序列。在此类方法中,将从样品中提取的核酸片段化,在基质凝胶上进行电泳分离,然后转移到膜滤器中。使滤膜结合的核酸与标记探针杂交,所述标记探针与目标序列互补。检测与滤膜结合的杂交探针。
[0175] 在杂交技术中,可以采用严格条件,使得探针或引物将与其靶标特异性杂交。在一些实施方案中,多核苷酸引物或探针在严格条件下将与其靶序列(例如,变体B4GALT1基因基因座、mRNA或cDNA)杂交的程度比与其他序列(例如,对应的野生型B4GALT1基因基因座、mRNA或cDNA)的杂交程度大得多,诸如至少比背景高2倍或比背景高10倍。严格条件取决于序列,并且在不同情况下会有所不同。通过控制杂交和/或洗涤条件的严格性,可以鉴定与探针100%互补的靶序列(同源探测)。可替代地,可以调节严格条件以允许序列中存在一些错配,以便检测较低程度的同一性(异源探测)。一般来讲,探针的长度小于约1000个核苷酸或小于约500个核苷酸。
[0176] 促进DNA杂交的适当的严格条件(例如,在约45℃的6X氯化钠/柠檬酸钠(SSC)中杂交,然后用50℃的2X SSC洗涤)是已知的,或者可以在Current Protocols in Molecular Biology,John Wiley&Sons,N.Y.(1989),6.3.1-6.3.6中找到。通常,用于杂交和检测的严格条件将是盐浓度小于约1.5M Na离子,通常在pH 7.0至8.3下为约0.01至1.0M Na离子浓度(或其他盐),并且对于短探针(例如,10至50个核苷酸),温度为至少约30℃,对于较长探针(例如,大于50个核苷酸),温度为至少约60℃。通过添加去稳定剂如甲酰胺也可实现严格条件。示例性低严格条件包括在37℃的30%至35%甲酰胺、1M NaCl、1%SDS(十二烷基硫酸钠)的缓冲溶液中杂交,并在50至55℃的1X至2X SSC(20X SSC=3.0M NaCl/0.3M柠檬酸三钠)中洗涤。示例性中等严格条件包括在37℃的40至45%甲酰胺、1.0M NaCl、1%SDS中杂交,并在55至60℃的0.5X至1X SSC中洗涤。示例性高严格条件包括在37℃的50%甲酰胺、1M NaCl、1%SDS中杂交,并在60至65℃的0.1X SSC中洗涤。任选地,洗涤缓冲液可包含约0.1%至约1%的SDS。杂交的持续时间通常小于约24小时,通常为约4小时至约12小时。洗涤的持续时间将为至少足以达到平衡的时间长度。
[0177] 在杂交反应中,特异性通常是杂交后洗涤的功能,关键因素是最终洗涤溶液的离子强度和温度。对于DNA-DNA杂交体,可以根据Meinkoth和Wahl的方程式(Anal.Biochem.,1984,138,267-284)粗略估计Tm:Tm=81.5℃+16.6(log M)+0.41(%GC)-0.61(%甲酰胺)-
500/L;其中M是单价阳离子的摩尔浓度,%GC是DNA中鸟苷和胞嘧啶核苷酸的百分比,%甲酰胺是杂交溶液中甲酰胺的百分比,并且L是碱基对中杂交体的长度。Tm是50%的互补靶序列与完全匹配的探针杂交的温度(在限定的离子强度和pH下)。每错配1%,Tm降低约1℃;因此,可以调节Tm、杂交和/或洗涤条件以与所需同一性的序列杂交。例如,如果寻求同一性大于等于90%的序列,则可以将Tm降低10℃。一般来讲,在限定的离子强度和pH下,将严格条件选择为比特异性序列及其互补序列的热熔点(Tm)低约5℃。但是,极严格条件可以利用在比热熔点(Tm)低1℃、2℃、3℃或4℃的条件下进行杂交和/或洗涤;中等严格条件可以利用在比热熔点(Tm)低6℃、7℃、8℃、9℃或10℃的条件下进行杂交和/或洗涤;低严格条件可以利用在比热熔点(Tm)低11℃、12℃、13℃、14℃、15℃或20℃的条件下进行杂交和/或洗涤。
使用该方程式、杂交和洗涤组成以及所需的Tm,本领域普通技术人员将理解,固有地描述了杂交和/或洗涤溶液的严格性的变化。如果所需的错配程度导致Tm低于45℃(水溶液)或32℃(甲酰胺溶液),则最好增加SSC浓度,以便可以使用更高的温度。
[0178] 还提供了用于检测生物样品中变体B4GALT1多肽的存在或水平的方法,所述方法包括例如蛋白质测序和免疫测定。在一些实施方案中,检测人类受试者中B4GALT1 Asn352Ser的存在的方法包括对来自人类受试者的生物样品进行测定以确定生物样品中B4GALT1 Asn352Ser的存在。
[0179] 蛋白质测序技术的说明性非限制性示例包括但不限于质谱分析和埃德曼(Edman)降解。免疫测定的说明性示例包括但不限于免疫沉淀、蛋白质印迹、免疫组织化学、ELISA、免疫细胞化学、流式细胞术和免疫PCR。使用各种已知技术(例如,量热、荧光、化学发光或放射性技术)可检测地标记的多克隆或单克隆抗体适用于免疫测定。
[0180] 本公开还提供了用于确定受试者发生心血管疾患的易感性或发生心血管疾患的风险的方法。受试者可以是任何生物体,包括例如人类、非人类哺乳动物、啮齿动物、小鼠或大鼠。在一些实施方案中,所述方法包括检测来自受试者的生物样品中变体B4GALT1基因组DNA、mRNA或cDNA的存在。应当理解,群体内的基因序列以及由此类基因编码的mRNA可以由于多态性诸如SNP而变化。本文提供的B4GALT1基因、mRNA、cDNA和多肽的序列仅仅是示例性序列,其他此类序列也是可能的。
[0181] 心血管疾患的非限制性示例包括一种或多种血清脂质水平升高。血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇或它们的任何亚组分(例如,HDL2、HDL2a、HDL2b、HDL2c、HDL3、HDL3a、HDL3b、HDL3c、HDL3d、LDL1、LDL2、LDL3、脂蛋白A、Lpa1、Lpa1、Lpa3、Lpa4或Lpa5)中的一种或多种。心血管疾患可包括冠状动脉钙化水平升高。心血管疾患能包括IId型糖基化(CDG-IId)。心血管疾患可包括心包脂肪水平升高。心血管疾患还可包括冠状动脉疾病(CAD)、心肌梗塞(MI)、外周动脉疾病(PAD)、中风、栓塞、深静脉血栓形成(DVT)以及出血性疾病和凝血病。心血管疾患可包括动脉粥样硬化血栓形成疾患。动脉粥样硬化血栓形成疾患可包括纤维蛋白原水平升高。动脉粥样硬化血栓形成疾患可包括纤维蛋白原介导的血凝块。心血管疾患可包括纤维蛋白原水平升高。心血管疾患可包括纤维蛋白原介导的血凝块。心血管疾患可包括由纤维蛋白原活性参与形成的血凝块。纤维蛋白原介导的血凝块或由纤维蛋白原活性参与形成的血凝块可在人体的任何静脉或动脉中。
[0182] 在一些实施方案中,确定人类受试者发生心血管疾患的易感性的方法包括:a)对来自人类受试者的生物样品进行测定以确定生物样品中的核酸分子是否包含在与全长/成熟变体B4GALT1 Asn352Ser多肽的位置352相对应的位置处编码丝氨酸的核酸序列;并且b)如果在生物样品中检测到包含在全长/成熟变体B4GALT1 Asn352Ser多肽的位置352处编码丝氨酸的核酸序列的核酸分子,则将人类受试者分类为发生心血管疾患的风险降低,或者如果在生物样品中未检测到包含在全长/成熟变体B4GALT1 Asn352Ser多肽的位置352处编码丝氨酸的核酸序列的核酸分子,则将人类受试者分类为发生心血管疾患的风险增加。在一些实施方案中,变体B4GALT1 Asn352Ser多肽包含SEQ ID NO:8。在一些实施方案中,生物样品中的核酸分子是基因组DNA、mRNA或cDNA。
[0183] 在一些实施方案中,本公开提供了确定人类受试者发生心血管疾患的易感性的方法,所述方法包括:a)对来自人类受试者的生物样品进行测定以确定生物样品中的核酸分子在与SEQ ID NO:2的位置53757至53577相对应的位置处是否包含SEQ ID NO:2的核苷酸53757至53577;并且b)如果在生物样品中检测到在与SEQ ID NO:2的位置53757至53577相对应的位置处包含SEQ ID NO:2的核苷酸53757至53577的核酸分子,则将人类受试者分类为发生心血管疾患的风险降低,或者如果在生物样品中未检测到在与SEQ ID NO:2的位置
53757至53577相对应的位置处包含SEQ ID NO:2的核苷酸53757至53577的核酸分子,则将人类受试者分类为发生心血管疾患的风险增加。
[0184] 在一些实施方案中,本公开提供了确定人类受试者发生心血管疾患的易感性的方法,所述方法包括:a)对来自人类受试者的生物样品进行测定以确定生物样品中的核酸分子在与SEQ ID NO:4的位置1243至1245相对应的位置处是否包含SEQ ID NO:4的核苷酸1243至1245;并且b)如果在生物样品中检测到在与SEQ ID NO:4的位置1243至1245相对应的位置处包含SEQ ID NO:4的核苷酸1243至1245的核酸分子,则将人类受试者分类为发生心血管疾患的风险降低,或者如果在生物样品中未检测到在与SEQ ID NO:4的位置1243至
1245相对应的位置处包含SEQ ID NO:4的核苷酸1243至1245的核酸分子,则将人类受试者分类为发生心血管疾患的风险增加。
[0185] 在一些实施方案中,本公开提供了确定人类受试者发生心血管疾患的易感性的方法,所述方法包括:a)对来自人类受试者的生物样品进行测定以确定生物样品中的核酸分子在与SEQ ID NO:6的位置1054至1056相对应的位置处是否包含SEQ ID NO:6的核苷酸1054至1056;并且b)如果在生物样品中检测到在与SEQ ID NO:6的位置1054至1056相对应的位置处包含SEQ ID NO:6的核苷酸1054至1056的核酸分子,则将人类受试者分类为发生心血管疾患的风险降低,或者如果在生物样品中未检测到在与SEQ ID NO:6的位置1054至
1056相对应的位置处包含SEQ ID NO:6的核苷酸1054至1056的核酸分子,则将人类受试者分类为发生心血管疾患的风险增加。
[0186] 在一些实施方案中,所述方法包括检测生物样品中变体B4GALT1基因组DNA的存在。在一些实施方案中,此类方法包括确定受试者发生心血管疾患的易感性或发生心血管疾患的风险,包括:a)从受试者获得包含基因组DNA的生物样品;b)对基因组DNA进行测定以确定DNA中占据与变体B4GALT1基因(参见例如SEQ ID NO:2)的位置53575至53577相对应的位置的核苷酸的身份;并且c)如果基因组DNA中与变体B4GALT1基因的位置53575至53577相对应的位置编码丝氨酸而不是天冬酰胺,则将受试者分类为发生心血管疾患的风险降低。可替代地,如果基因组DNA中与变体B4GALT1基因的位置53575至53577相对应的位置不编码丝氨酸也不编码天冬酰胺,则将受试者分类为发生心血管疾患的风险增加。
[0187] 在一些实施方案中,此类方法包括诊断患有心血管疾患的受试者,包括:a)从受试者获得包含基因组DNA的生物样品;b)对基因组DNA进行测定以确定DNA中占据与变体B4GALT1基因(参见例如SEQ ID NO:2)的位置53575至53577相对应的位置的核苷酸的身份;
并且c)如果基因组DNA中与变体B4GALT1基因的位置53575至53577相对应的位置编码丝氨酸而不是天冬酰胺,则将受试者分类为患有心血管疾患。可替代地,如果基因组DNA中与变体B4GALT1基因的位置53575至53577相对应的位置不编码丝氨酸也不编码天冬酰胺,则将受试者分类为未患有心血管疾患。
[0188] 在一些实施方案中,所述方法包括检测生物样品中变体B4GALT1 mRNA的存在。在一些实施方案中,此类方法包括确定受试者发生心血管疾患的易感性或发生心血管疾患的风险,包括:a)从受试者获得包含mRNA的生物样品;b)对mRNA进行测定以确定mRNA中占据与变体B4GALT1 mRNA(参见例如SEQ ID NO:4)的位置1243至1245相对应的位置的核苷酸的身份;并且c)如果mRNA中与变体B4GALT1 mRNA的位置1243至1245相对应的位置编码丝氨酸而不是天冬酰胺,则将受试者分类为发生心血管疾患的风险降低。可替代地,如果mRNA中与变体B4GALT1 mRNA的位置1243至1245相对应的位置不编码丝氨酸也不编码天冬酰胺,则将受试者分类为发生心血管疾患的风险增加。
[0189] 在一些实施方案中,此类方法包括诊断患有心血管疾患的受试者,包括:a)从受试者获得包含mRNA的生物样品;b)对mRNA进行测定以确定mRNA中占据与变体B4GALT1 mRNA(参见例如SEQ ID NO:4)的位置1243至1245相对应的位置的核苷酸的身份;并且c)如果基因组mRNA中与变体B4GALT1 mRNA的位置1243至1245相对应的位置编码丝氨酸而不是天冬酰胺,则将受试者分类为患有心血管疾患。可替代地,如果mRNA中与变体B4GALT1 mRNA的位置1243至1245相对应的位置不编码丝氨酸也不编码天冬酰胺,则将受试者分类为未患有心血管疾患。
[0190] 在一些实施方案中,所述方法包括检测生物样品中变体B4GALT1 cDNA的存在。在一些实施方案中,此类方法包括确定受试者发生心血管疾患的易感性或发生心血管疾患的风险,包括:a)从受试者获得包含cDNA的生物样品;b)对cDNA进行测定以确定cDNA中占据与变体B4GALT1 cDNA(参见例如SEQ ID NO:6)的位置1054至1056相对应的位置的核苷酸的身份;并且c)如果cDNA中与变体B4GALT1 cDNA的位置1054至1056相对应的位置编码丝氨酸而不是天冬酰胺,则将受试者分类为发生心血管疾患的风险降低。可替代地,如果cDNA中与变体B4GALT1 cDNA的位置1054至1056相对应的位置不编码丝氨酸也不编码天冬酰胺,则将受试者分类为发生心血管疾患的风险增加。
[0191] 在一些实施方案中,此类方法包括诊断患有心血管疾患的受试者,包括:a)从受试者获得包含cDNA的生物样品;b)对cDNA进行测定以确定cDNA中占据与变体B4GALT1 cDNA(参见例如SEQ ID NO:6)的位置1054至1056相对应的位置的核苷酸的身份;并且c)如果基因组cDNA中与变体B4GALT1 cDNA的位置1054至1056相对应的位置编码丝氨酸而不是天冬酰胺,则将受试者分类为患有心血管疾患。可替代地,如果cDNA中与变体B4GALT1 cDNA的位置1054至1056相对应的位置不编码丝氨酸也不编码天冬酰胺,则将受试者分类为未患有心血管疾患。
[0192] 在一些实施方案中,所述测定包括:对来自人类受试者的生物样品中核酸分子的B4GALT1基因组序列的一部分进行测序,其中测序的所述部分包括与SEQ ID NO:2的位置53575至53577相对应的位置;对来自人类受试者的生物样品中核酸分子的B4GALT1 mRNA序列的一部分进行测序,其中测序的所述部分包括与SEQ ID NO:4的位置1243至1245相对应的位置;或者对来自人类受试者的生物样品中核酸分子的B4GALT1 cDNA序列的一部分进行测序,其中测序的所述部分包括与SEQ ID NO:6的位置1054至1056相对应的位置。
[0193] 在一些实施方案中,所述测定包括:a)使生物样品与引物接触,所述引物与以下物质杂交:i)B4GALT1基因组序列的一部分,所述部分接近B4GALT1基因组序列的与SEQ ID NO:2的位置53575至53577相对应的位置;ii)B4GALT1 mRNA序列的一部分,所述部分与B4GALT1 mRNA的与SEQ ID NO:4的位置1243至1245相对应的位置;或者iii)B4GALT1 cDNA序列的一部分,所述部分与B4GALT1 cDNA的与SEQ ID NO:6的位置1054至1056相对应的位置;b)延伸所述引物,使其至少通过:i)B4GALT1基因组序列的与位置53575至53577相对应的位置;ii)B4GALT1 mRNA的与位置1243至1245相对应的位置;或者iii)B4GALT1 cDNA的与位置1054至1056相对应的位置;并且c)确定所述引物的延伸产物在以下位置处是否包含编码SEQ ID NO:8的位置352处的丝氨酸的核苷酸:i)与B4GALT1基因组序列的位置53575至53577相对应的位置;ii)与B4GALT1 mRNA的位置1243至1245相对应的位置;或者iii)与B4GALT1 cDNA的位置1054至1056相对应的位置。
[0194] 在一些实施方案中,所述测定包括使生物样品与引物或探针接触,所述引物或探针在严格条件下与变体B4GALT1基因组序列、mRNA序列或cDNA序列而非对应的野生型B4GALT1序列特异性杂交,并且确定是否发生杂交。在一些实施方案中,引物或探针与生物样品中基因组DNA内与SEQ ID NO:2的位置53575至53577相对应的位置特异性杂交。在一些实施方案中,引物或探针与生物样品中mRNA内与SEQ ID NO:4的位置1243至1245相对应的位置特异性杂交。在一些实施方案中,引物或探针与生物样品中cDNA内与SEQ ID NO:6的位置1054至1056相对应的位置特异性杂交。
[0195] 可以用于本文公开的方法中的其他测定包括例如逆转录聚合酶链反应(RT-PCR)或定量RT-PCR(qRT-PCR)。可以用于本文公开的方法中的其他测定包括例如RNA测序(RNA-Seq),接着确定生物样品中变体mRNA或cDNA的存在和量。
[0196] 本公开还提供了确定人类受试者发生心血管疾患的易感性或诊断患有心血管疾患的受试者的方法,所述方法包括:a)对来自人类受试者的生物样品进行测定以确定生物样品中的B4GALT1多肽在与SEQ ID NO:8的位置352相对应的位置处是否包含丝氨酸;并且b)如果在生物样品中检测到在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸的B4GALT1多肽,则将人类受试者分类为发生心血管疾患的风险降低,或者如果在生物样品中未检测到在与SEQ ID NO:8的位置352相对应的位置处包含丝氨酸的B4GALT1多肽,则将人类受试者分类为发生心血管疾患的风险增加。在一些实施方案中,所述方法还包括从受试者获得生物样品。
[0197] 在一些实施方案中,在受试者被诊断出患有心血管疾患或被诊断为发生心血管疾患的风险增加的情况下,向受试者施用治疗或预防心血管疾患的治疗剂或预防剂。可替代地,所述方法还可以包括施用经定制以预防或减轻与发展至临床晚期心血管疾患相关联的一种或多种症状的治疗剂,特别是在LDL水平升高的患者和/或患有血栓形成事件或处于增加的血栓形成事件风险中的患者中。
[0198] 本公开还提供了通过使用核酸酶剂、外源供体序列、转录激活因子、转录阻遏因子、反义分子(诸如反义RNA、siRNA和shRNA)、B4GALT1多肽或其片段以及表达载体的任何组合来修饰细胞的方法,所述表达载体用于表达重组B4GALT1基因或编码B4GALT1多肽的核酸。所述方法可以体外、离体或体内发生。可以以任何形式和通过本文其他地方所述的任何方式将核酸酶剂、外源供体序列、转录激活因子、转录阻遏因子、反义分子(诸如反义RNA、siRNA和shRNA)、B4GALT1多肽或其片段以及表达载体引入细胞中,并且可以以任何组合同时或顺序引入所有或一些。一些方法仅涉及改变细胞中的内源B4GALT1基因。一些方法仅涉及通过使用转录激活因子或阻遏因子或者通过使用反义分子(诸如反义RNA、siRNA和shRNA)来改变内源B4GALT1基因的表达。一些方法仅涉及将重组B4GALT1基因或编码
B4GALT1多肽或其片段的核酸引入细胞中。一些方法仅涉及将B4GALT1多肽或其片段(例如,本文公开的B4GALT1多肽或其片段中的任何一种或任何组合)引入细胞中。其他方法既涉及改变细胞中的内源B4GALT1基因又涉及将B4GALT1多肽或其片段或者重组B4GALT1基因或编码B4GALT1多肽或其片段的核酸引入细胞中。其他方法既涉及改变细胞中内源B4GALT1基因的表达又涉及将B4GALT1多肽或其片段或者重组B4GALT1基因或编码B4GALT1多肽或其片段的核酸引入细胞中。
[0199] 本公开提供了通过使用核酸酶剂和/或外源供体序列来修饰细胞(例如,多能细胞或分化细胞)内基因组中的内源B4GALT1基因的方法。所述方法可以体外、离体或体内发生。核酸酶剂可以单独使用或与外源供体序列组合使用。可替代地,外源供体序列可以单独使用或与核酸酶剂组合使用。
[0200] 响应于双链断裂(DSB)的修复主要通过两条保守的DNA修复途径进行:非同源末端连接(NHEJ)和同源重组(HR)(参见Kasparek和Humphrey,Seminars in Cell&Dev.Biol.,2011,22,886-897)。由外源供体序列介导的靶核酸(例如,内源B4GALT1基因)的修复可以包括在两个多核苷酸之间交换遗传信息的任何过程。例如,NHEJ还可以通过将断裂末端与外源供体序列的末端直接连接(即,基于NHEJ的捕获)而导致外源供体序列的靶向整合。修复还可以经由过同源定向修复(HDR)或同源重组(HR)进行。HDR或HR包括一种可能需要核苷酸序列同源性的核酸修复形式,使用“供体”分子作为模板来修复“靶”分子(即,经历双链断裂的分子),并导致将遗传信息从供体转移到靶标。
[0201] 可以通过使细胞与外源供体序列接触来产生对基因组中内源B4GALT1基因的靶向遗传修饰,所述外源供体序列包含与内源B4GALT1基因内靶基因组基因座处的5'靶序列杂交的5'同源臂以及与内源B4GALT1基因内靶基因组基因座处的3'靶序列杂交的3'同源臂。外源供体序列可以与靶基因组基因座重组,以产生对内源B4GALT1基因的靶向遗传修饰。作为一个示例,5'同源臂可以与对应于SEQ ID NO:1的位置53575至53577的位置的5'靶序列杂交,并且3'同源臂可以与对应于SEQ ID NO:1的位置53575至53577的位置的3'靶序列杂交。此类方法可以导致例如由此产生的B4GALT1基因包含在与全长/成熟多肽的位置352相对应的位置处编码丝氨酸的核苷酸序列。外源供体序列的示例在本文其他地方公开。
[0202] 例如,可以通过使细胞或细胞的基因组与Cas蛋白和一种或多种引导RNA接触来产生对基因组中内源B4GALT1基因的靶向遗传修饰,所述一种或多种引导RNA与内源B4GALT1基因中靶基因组基因座内的一种或多种引导RNA识别序列杂交。例如,此类方法可以包括使细胞与Cas蛋白和引导RNA接触,所述引导RNA与内源B4GALT1基因内的引导RNA识别序列杂交。在一些实施方案中,引导RNA识别序列位于与SEQ ID NO:1的外显子5相对应的区域内。在一些实施方案中,引导RNA识别序列可以包括或接近与SEQ ID NO:1的位置53575至53577相对应的位置。例如,引导RNA识别序列可以在与SEQ ID NO:1的位置53575至53577相对应的位置的约1000、约500、约400、约300、约200、约100、约50、约45、约40、约35、约30个、约25、约20、约15、约10或约5个核苷酸内。作为又一个示例,引导RNA识别序列可以包括或接近内源B4GALT1基因的起始密码子或内源B4GALT1基因的终止密码子。例如,引导RNA识别序列可以在起始密码子或终止密码子的约10、约20、约30、约40、约50、约100、约200、约300、约400、约500或约1,000个核苷酸内。Cas蛋白和引导RNA形成复合物,并且Cas蛋白切割引导RNA识别序列。Cas蛋白进行切割会产生双链断裂或单链断裂(例如,如果Cas蛋白是切口酶)。此类方法可以导致例如内源B4GALT1基因中与SEQ ID NO:1的外显子5相对应的区域被破坏、起始密码子被破坏、终止密码子被破坏或编码序列被缺失。可以用于所述方法中的Cas(例如,Cas9)蛋白和引导RNA的示例和变体在本文其他地方描述。
[0203] 在一些实施方案中,可以使用两种或更多种核酸酶剂。例如,可以使用两种核酸酶剂,每一种靶向核酸酶识别序列,所述核酸酶识别序列在与SEQ ID NO:1的外显子5相对应的区域内,或者包括或接近与SEQ ID No:1的位置53575至53577相对应的位置(例如,在与SEQ ID NO:1的位置53575至53577相对应的位置的约1000、约500、约400、约300、约200、约100、约50、约45、约40、约35、约30、约25、约20、约15、约10或约5个核苷酸内)。作为另一个示例,可以使用两种或更多种核酸酶剂,每一种靶向包括或接近起始密码子的核酸酶识别序列。作为另一个示例,可以使用两种核酸酶剂,一种靶向包括或接近起始密码子的核酸酶识别序列,一种靶向包括或接近终止密码子的核酸酶识别序列,其中核酸酶剂进行切割可以导致两个核酸酶识别序列之间的编码区的缺失。作为又一个示例子,可以使用三种或更多种核酸酶剂,其中一种或多种(例如,两种)靶向包括或接近起始密码子的核酸酶识别序列,一种或多种(例如,两种)靶向包括或接近终止密码子的核酸酶识别序列,其中核酸酶剂进行切割可以导致包括或接近起始密码子的核酸酶识别序列与包括或接近终止密码子的核酸酶识别序列之间的编码区的缺失。
[0204] 在一些实施方案中,还可以使细胞与一种或多种附加引导RNA接触,所述一种或多种附加引导RNA与内源B4GALT1基因中靶基因组基因座内的附加引导RNA识别序列杂交。通过使细胞与一种或多种附加RNA(例如,与第二引导RNA识别序列杂交的第二引导RNA)接触,Cas蛋白进行切割可以产生两个或更多个双链断裂或者两个或更多个单链断裂(例如,如果Cas蛋白是切口酶)。
[0205] 在一些实施方案中,可以使细胞另外与一种或多种外源供体序列接触,所述一种或多种外源供体序列与内源B4GALT1基因中的靶基因组基因座重组以产生靶向遗传修饰。可以用于所述方法中的外源供体序列的示例和变型在本文其他地方公开。
[0206] 可以以任何形式和通过本文其他地方所述的任何方式将Cas蛋白、引导RNA和外源供体序列引入细胞中,并且可以以任何组合同时或顺序引入Cas蛋白、引导RNA和外源供体序列中的所有或一些。
[0207] 在一些实施方案中,外源供体序列对靶核酸(例如,内源B4GALT1基因)的修复经由同源定向修复(HDR)进行。当Cas蛋白切割内源B4GALT1基因中的两条DNA链以产生双链断裂时,当Cas蛋白是切割靶核酸中的一条DNA链以产生单链断裂的切口酶时,或者当使用Cas切口酶来产生由两个偏移切口形成的双链断裂时,即可以进行同源定向修复。在此类方法中,外源供体序列包含与5'和3'靶序列相对应的5'和3'同源臂。引导RNA识别序列或切割位点可以与5'靶序列相邻、与3'靶序列相邻、与5'靶序列和3'靶序列都相邻,或者与5'靶序列和3'靶序列都不相邻。在一些实施方案中,外源供体序列还可以包含被5'和3'同源臂侧接的核酸插入物,并且所述核酸插入物插入5'和3'靶序列之间。如果不存在核酸插入物,则外源供体序列可以起到缺失5'和3'靶序列之间的基因组序列的作用。外源供体序列的示例在本文其他地方公开。
[0208] 可替代地,由外源供体序列介导的对内源B4GALT1基因的修复可以经由非同源末端连接(NHEJ)介导的连接进行。在此类方法中,外源供体序列的至少一个末端包含一个短单链区域,所述区域与内源B4GALT1基因中由Cas介导的切割产生的至少一个短悬端互补。外源供体序列中的互补末端可以侧接核酸插入物。例如,外源供体序列的每个末端可以包含一个短单链区域,所述区域与内源B4GALT1基因中由Cas介导的切割产生的短悬端互补,并且外源供体序列中的这些互补区域可以侧接核酸插入物。
[0209] 可以通过切除由Cas介导的切割产生的双链断裂的平末端来产生短悬端(即,交错末端)。此类切除可以产生片段连接所需的微同源区域,但是这会在B4GALT1基因中产生不需要的或不可控制的改变。可替代地,可以通过使用成对的Cas切口酶来产生此类短悬端。例如,可以使细胞与切割DNA相对链的第一切口酶和第二切口酶接触,从而通过双切口对基因组进行修饰。这可以通过使细胞与以下物质接触来实现:第一Cas蛋白切口酶、与内源B4GALT1基因中靶基因组基因座内的第一引导RNA识别序列杂交的第一引导RNA、第二Cas蛋白切口酶,以及与内源B4GALT1基因中靶基因组基因座内的第二引导RNA识别序列杂交的第二引导RNA。第一Cas蛋白和第一引导RNA形成第一复合物,并且第二Cas蛋白和第二引导RNA形成第二复合物。第一Cas蛋白切口酶在第一引导RNA识别序列内切割基因组DNA的第一链,第二Cas蛋白切口酶在第二引导RNA识别序列内切割基因组DNA的第二链,并且任选地外源供体序列与内源B4GALT1基因中的靶基因组基因座重组以产生靶向遗传修饰。
[0210] 第一切口酶可以切割基因组DNA的第一链(即,互补链),并且第二切口酶可以切割基因组DNA的第二链(即,非互补链)。可以例如通过使Cas9的RuvC结构域中的催化残基突变(例如,本文其他地方所述的D10A突变)或使Cas9的HNH结构域中的催化残基突变(例如,本文其他地方所述的H840A)来产生第一切口酶和第二切口酶。在此类方法中,可以使用双切口来产生具有交错末端(即,短悬端)的双链断裂。可以将第一引导RNA识别序列和第二引导RNA识别序列定位成产生切割位点,使得DNA的第一链和第二链上由第一切口酶和第二切口酶产生的切口形成双链断裂。当第一CRISPR RNA识别序列和第二CRISPR RNA识别序列内的切口偏移时,就会产生短悬端。偏移窗口可以为例如至少约5bp、至少约10bp、至少约20bp、至少约30bp、至少约40bp、至少约50bp、至少约60bp、至少约70bp、至少约80bp、至少约90bp、至少约100bp或更大。参见例如Ran等人,Cell,2013,154,1380-1389;Mali等人,Nat.Biotech.,213,31,833-838;以及Shen等人,Nat.Methods,2014,11,399-404。
[0211] 可以使用本文所述的方法引入各种类型的靶向遗传修饰。此类靶向修饰可以包括例如一个或多个核苷酸的添加、一个或多个核苷酸的缺失、一个或多个核苷酸的取代、点突变或其组合。例如,可以改变(例如,缺失、插入或取代)至少1个、至少2个、至少3个、至少4个、至少5个、至少7个、至少8个、至少9个或至少10个或更多个核苷酸以形成靶向基因组修饰。
[0212] 此类靶向遗传修饰可以导致靶基因组基因座的破坏。破坏可以包括调控元件(例如,启动子或增强子)的改变、错义突变、无义突变、移码突变、截短突变、无效突变或者少量核苷酸的插入或缺失(例如,导致移码突变),并且其可以导致等位基因失活(即,功能丧失)或丢失。例如,靶向修饰可以包括内源B4GALT1基因的起始密码子的破坏,使得起始密码子不再起作用。
[0213] 在一些实施方案中,靶向修饰可以包括第一引导RNA识别序列和第二引导RNA识别序列或Cas切割位点之间的缺失。如果使用外源供体序列(例如,修复模板或靶向载体),则修饰可以包括第一引导RNA识别序列和第二引导RNA识别序列或Cas切割位点之间的缺失以及5'和3'靶序列之间核酸插入物的插入。
[0214] 在一些实施方案中,如果单独或与核酸酶剂组合使用外源供体序列,则修饰可以包括5'和3'靶序列之间的缺失以及第一同源染色体和第二同源染色体对中5'和3'靶序列之间核酸插入物的插入,从而产生纯合的修饰基因组。可替代地,如果外源供体序列包含5'和3'同源臂而没有核酸插入物,则修饰可以包括5'和3'靶序列之间的缺失。
[0215] 第一引导RNA识别序列和第二引导RNA识别序列之间的缺失或5'和3'靶序列之间的缺失可以是精确缺失,其中缺失的核酸仅由第一核酸酶切割位点和第二核酸酶切割位点之间的核酸序列组成或者仅由5'和3'靶序列之间的核酸序列组成,使得在修饰的基因组靶基因座处没有其他缺失或插入。第一引导RNA识别序列和第二引导RNA识别序列之间的缺失也可以是延伸超出第一核酸酶切割位点和第二核酸酶切割位点的不精确缺失,这与通过非同源末端连接(NHEJ)进行的不精确修复一致,从而在修饰的基因组基因座处产生其他缺失和/或插入。例如,缺失可以延伸超出超出第一Cas蛋白切割位点和第二Cas蛋白切割位点约1bp、约2bp、约3bp、约4bp、约5bp、约10bp、约20bp、约30bp、约40bp、约50bp、约100bp、约
200bp、约300bp、约400bp、约500bp、或更多。同样,修饰的基因组基因座可以包含与NHEJ进行的不精确修复一致的其他插入,诸如约1bp、约2bp、约3bp、约4bp、约5bp、约10bp、约20bp、约30bp、约40bp、约50bp、约100bp、约200bp、约300bp、约400bp、约500bp或更多的插入。
[0216] 靶向遗传修饰可以是例如双等位基因修饰或单等位基因修饰。双等位基因修饰包括其中对对应同源染色体上(例如,在二倍体细胞中)的相同基因座进行相同修饰或者对对应同源染色体上的相同基因座进行不同修饰的事件。在一些实施方案中,靶向遗传修饰是单等位基因修饰。单等位基因修饰包括其中仅对一个等位基因进行修饰(即,仅在两个同源染色体之一中对内源B4GALT1基因进行修饰)的事件。同源染色体包括在相同基因座处具有相同基因但等位基因可能不同的染色体(例如,在减数分裂过程中配对的染色体)。
[0217] 单等位基因突变可以形成对于靶向B4GALT1修饰而言是杂合的细胞。杂合性包括其中仅B4GALT1基因的一个等位基因(即,两个同源染色体上的对应等位基因)具有靶向修饰的情况。
[0218] 双等位基因修饰可以形成靶向修饰的纯合性。纯合性包括其中B4GALT1基因的两个等位基因(即,两个同源染色体上的对应等位基因)都具有靶向修饰的情况。可替代地,双等位基因修饰可以形成靶向修饰的复合杂合性(例如,半合性)。复合杂合性包括靶基因座的两个等位基因(即,两个同源染色体上的等位基因)都被修饰但它们以不同方式被修饰(例如,一个等位基因被靶向修饰,而另一个基因失活或破坏)的情况。
[0219] 本文公开的方法还可以包括鉴定具有经修饰B4GALT1基因的细胞。可以使用多种方法来鉴定具有靶向遗传修饰诸如缺失或插入的细胞。此类方法可以包括鉴定具有B4GALT1基因中的靶向遗传修饰的一种细胞。可以进行筛选以鉴定具有经修饰基因组基因座的此类细胞。筛选步骤可以包括进行定量测定来评估对亲本染色体的等位基因(MOA)的修饰(例如,等位基因丢失(LOA)和/或等位基因获得(GOA)测定)。
[0220] 合适的定量测定的其他示例包括荧光介导的原位杂交(FISH)、比较基因组杂交、等温DNA扩增、与固定探针的定量杂交、 探针、 分子信标探针或ECLIPSETM探针技术。也可以使用常规测定来筛选靶向修饰,诸如长距离PCR、DNA印迹或Sanger测序。此类测定通常用于获得插入的靶向载体与靶向基因组基因座之间连接的证据。例如,对于长距离PCR分析,一种引物可以识别插入的DNA内的序列,而另一种引物可以识别超出靶向载体同源臂末端的靶基因组基因座序列。
[0221] 下一代测序(NGS)也可以用于筛选。下一代测序也可以称为“NGS”或“大规模平行测序”或“高通量测序”。在一些实施方案中,没有必要使用选择标记来筛选靶细胞。例如,可以在不使用选择盒的情况下依靠本文所述的MOA和NGS测定。
[0222] 本公开还提供了用于改变编码B4GALT1多肽的核酸的表达的方法。在一些实施方案中,通过用核酸酶剂进行切割以引起编码内源B4GALT1多肽的核酸的破坏来改变表达,如本文其他地方进一步详述。在一些实施方案中,通过使用与转录激活因子结构域或转录阻遏因子结构域融合或连接的DNA结合蛋白来改变表达。在一些实施方案中,通过使用RNA干扰组合物诸如反义RNA、shRNA或siRNA来改变表达。
[0223] 在一些实施方案中,可以通过使细胞或细胞内的基因组与在内源B4GALT1基因或编码B4GALT1多肽的核酸内的靶基因组基因座处的识别序列处诱导一个或多个切口或双链断裂的核酸酶剂接触来修饰内源B4GALT1基因或编码B4GALT1多肽的核酸的表达。此类切割可以导致内源B4GALT1基因或编码B4GALT1多肽的核酸的表达的破坏。例如,核酸酶识别序列可以包括或接近内源B4GALT1基因的起始密码子。例如,识别序列可以在起始密码子的约10、约20、约30、约40、约50、约100、约200、约300、约400、约500或约1,000个核苷酸内,并且核酸酶剂进行切割可以破坏起始密码子。在一些实施方案中,可以使用两种或更多种核酸酶剂,每一种靶向包括或接近起始密码子的核酸酶识别序列。在一些实施方案中,可以使用两种核酸酶剂,一种靶向包括或接近起始密码子的核酸酶识别序列,一种靶向包括或接近终止密码子的核酸酶识别序列,其中核酸酶剂进行切割可以导致两个核酸酶识别序列之间的编码区的缺失。在一些实施方案中,可以使用三种或更多种核酸酶剂,其中一种或多种(例如,两种)靶向包括或接近起始密码子的核酸酶识别序列,一种或多种(例如,两种)靶向包括或接近终止密码子的核酸酶识别序列,其中核酸酶剂进行切割可以导致包括或接近起始密码子的核酸酶识别序列与包括或接近终止密码子的核酸酶识别序列之间的编码区的缺失。修饰内源B4GALT1基因或编码B4GALT1多肽的核酸的其他示例在本文中其他地方公开。
[0224] 在一些实施方案中,可以通过使细胞或细胞内的基因组与DNA结合蛋白(其与内源B4GALT1基因内的靶基因组基因座结合)接触来修饰内源B4GALT1基因或编码B4GALT1多肽的核酸的表达。DNA结合蛋白可以是例如与转录激活因子结构域或转录阻遏因子结构域融合的无核酸酶活性的Cas蛋白。DNA结合蛋白的其他示例包括与转录激活因子结构域或转录阻遏因子结构域融合的锌指蛋白,或与转录激活因子结构域或转录阻遏因子结构域融合的转录激活因子样效应(TALE)蛋白。此类蛋白的示例在本文其他地方公开。
[0225] DNA结合蛋白的识别序列(例如,引导RNA识别序列)可以在内源B4GALT1基因或编码B4GALT1多肽的核酸内适用于改变表达的任何地方。在一些实施方案中,识别序列可以在调控元件诸如增强子或启动子内,或者可以在调控元件附近。例如,识别序列可以包括或接近内源B4GALT1基因的起始密码子。在一些实施方案中,识别序列可以在起始密码子的约10、约20、约30、约40、约50、约100、约200、约300、约400、约500或约1,000个核苷酸内。
[0226] 在一些实施方案中,反义分子可以用于改变内源B4GALT1基因或编码B4GALT1多肽的核酸的表达。反义分子的示例包括但不限于反义RNA、siRNA和shRNA。此类反义RNA、siRNA或shRNA可以被设计成靶向mRNA的任何区域。例如,反义RNA、siRNA或shRNA可以被设计成靶向B4GALT1 mRNA独特的区域。
[0227] 可以通过任何方式将本文公开的核酸和蛋白质引入细胞中。在一些实施方案中,可以通过任何方式实现引入,并且可以以任何组合同时或顺序将一种或多种组分(例如,两种组分或所有组分)引入细胞中。例如,可以在引入核酸酶剂之前引入外源供体序列,或者可以在引入核酸酶剂之后引入外源供体序列(例如,可以在引入核酸酶剂之前或之后约1、约2、约3、约4、约8、约12、约24、约36、约48或约72小时施用外源供体序列)。使细胞的基因组与核酸酶剂或外源供体序列接触可以包括将一种或多种核酸酶剂或编码核酸酶剂的核酸(例如,一种或多种Cas蛋白或者编码一种或多种Cas蛋白的核酸,以及一种或多种引导RNA或者编码一种或多种引导RNA(即,一种或多种CRISPR RNA以及一种或多种tracrRNA)的核酸)以及/或者一种或多种外源供体序列引入细胞中。使细胞的基因组接触(即,使细胞接触)可以包括仅将一种上述组分、一种或多种组分或者所有组分引入细胞中。
[0228] 可以以蛋白质的形式或以编码核酸酶剂的核酸(诸如RNA(例如,信使RNA(mRNA))或DNA)的形式将核酸酶剂引入细胞中。当以DNA的形式引入时,DNA可以与在细胞中有活性的启动子可操作地连接。此类DNA可以在一种或多种表达构建体中。
[0229] 在一些实施方案中,可以以蛋白质(诸如与gRNA复合的Cas蛋白)的形式或以编码Cas蛋白的核酸(诸如RNA(例如,信使RNA(mRNA))或DNA)的形式将Cas蛋白引入细胞中。可以以RNA的形式或以编码引导RNA的DNA的形式将引导RNA引入细胞中。当以DNA的形式引入时,编码Cas蛋白和/或引导RNA的DNA可以与在细胞中有活性的启动子可操作地连接。此类DNA可以在一种或多种表达构建体中。例如,此类表达构建体可以是单个核酸分子的组分。可替代地,它们可以以任何组合在两个或更多个核酸分子之间分离(即,编码一种或多种CRISPR RNA的DNA、编码一种或多种tracrRNA的DNA以及编码Cas蛋白的DNA可以是单独的核酸分子的组分)。
[0230] 在一些实施方案中,可以经由DNA微环将编码核酸酶剂(例如,Cas蛋白和引导RNA)的DNA和/或编码外源供体序列的DNA引入细胞中。DNA微环是可以用于非病毒基因转移的超螺旋DNA分子,其既没有复制起点,也没有抗生素选择标记。因此,DNA微环的大小通常比质粒载体小。这些DNA不含细菌DNA,因此缺少在细菌DNA中发现的未甲基化CpG基序。
[0231] 本文所述的方法不依赖于将核酸或蛋白质引入细胞中的特定方法,只要核酸或蛋白质可以进入至少一个细胞的内部。将核酸和蛋白质引入各种细胞类型的方法是已知的,包括但不限于稳定转染方法、瞬时转染方法和病毒介导的方法。
[0232] 转染方案以及将核酸或蛋白质引入细胞中的方案可能会有所不同。非限制性转染方法包括使用脂质体、纳米颗粒、钙、树状大分子和阳离子聚合物(诸如DEAE-右旋糖酐或聚乙烯亚胺)的基于化学的转染方法。非化学方法包括电穿孔、声穿孔和光转染。基于颗粒的转染包括使用基因枪或磁辅助转染。病毒方法也可以用于转染。
[0233] 还可以通过电穿孔、通过胞浆内注射、通过病毒感染、通过腺病毒、通过腺相关病毒、通过慢病毒、通过逆转录病毒、通过转染、通过脂质介导的转染或通过核转染将核酸或蛋白质引入细胞中。核转染是一种改进的电穿孔技术,不仅能够将核酸底物递送到细胞质,还能够使其通过核膜进入细胞核。另外,在本文公开的方法中使用核转染通常需要比常规电穿孔少得多的细胞(例如,仅需要约200万个细胞,而常规电穿孔则需要700万个细胞)。在一些实施方案中,使用 NUCLEOFECTORTM系统进行核转染。
[0234] 也可以通过显微注射来实现将核酸或蛋白质引入细胞中。显微注射mRNA通常注射到细胞质中(例如,将mRNA直接递送到翻译机器),而显微注射蛋白质或编码Cas蛋白的DNA通常注射到细胞核中。可替代地,也可以通过同时注射到细胞核和细胞质中进行显微注射:可以先将针引入细胞核中并注射第一剂量,然后在将针从细胞中取出的同时将第二剂量注射到细胞质中。如果将核酸酶剂蛋白注射到细胞质中,则该蛋白可包含核定位信号以确保递送到细胞核/原核。
[0235] 用于将核酸或蛋白质引入细胞中的其他方法可以包括例如载体递送、颗粒介导的递送、外泌体介导的递送、脂质-纳米颗粒介导的递送、细胞穿透肽介导的递送或可植入装置介导的递送。向受试者施用核酸或蛋白质以体内修饰细胞的方法在本文其他地方公开。也可以通过流体动力学递送(HDD)来实现将核酸和蛋白质引入细胞中。
[0236] 用于将核酸或蛋白质引入细胞中的其他方法可以包括例如载体递送、颗粒介导的递送、外泌体介导的递送、脂质-纳米颗粒介导的递送、细胞穿透肽介导的递送或可植入装置介导的递送。在一些实施方案中,可以在载剂(诸如聚(乳酸)(PLA)微球、聚(D,L-乳酸-乙醇酸)(PLGA)微球、脂质体、微胶粒、反相微胶粒、脂质螺旋体和脂质微管)中将核酸或蛋白质引入细胞中。
[0237] 可以在一段时间内一次或多次将核酸或蛋白质引入细胞中。在一些实施方案中,可以在一段时间内至少两次、在一段时间内至少三次、在一段时间内至少四次、在一段时间内至少五次、在一段时间内至少六次、在一段时间内至少七次、在一段时间内至少八次、在一段时间内至少九次、在一段时间内至少十次、在一段时间内至少十一次、在一段时间内至少十二次、在一段时间内至少十三次、在一段时间内至少十四次、在一段时间内至少十五次、在一段时间内至少十六次、在一段时间内至少十七次、在一段时间内至少十八次、在一段时间内至少十九次或在一段时间内至少二十次进行引入。
[0238] 在一些实施方案中,在所述方法和组合物中使用的细胞具有稳定并入其基因组中的DNA构建体。在此类情况下,接触可以包括向细胞提供已经稳定并入其基因组中的构建体。在一些实施方案中,在本文公开的方法中使用的细胞可具有稳定并入其基因组中的预先存在的Cas编码基因(即,Cas预备细胞)。在一些实施方案中,多核苷酸整合到细胞的基因组中并且能够被其子代遗传。任何方案都可用于稳定并入DNA构建体或者靶向基因组整合系统的各种组件。
[0239] 在所需识别序列中诱导切口或双链断裂的任何核酸酶剂或者与所需识别序列结合的任何DNA结合蛋白都可以用于本文公开的方法和组合物中。可以使用天然存在的或天然的核酸酶剂,只要该核酸酶剂在所需识别序列中诱导切口或双链断裂即可。同样,可以使用天然存在的或天然的DNA结合蛋白,只要该DNA结合蛋白与所需识别序列结合即可。可替代地,可以使用经修饰的或工程化的核酸酶或DNA结合蛋白。工程化的核酸酶剂或DNA结合蛋白可以来源于天然的、天然存在的核酸酶剂或DNA结合蛋白,或者可以人工形成或合成。例如,工程化的核酸酶剂或DNA结合蛋白可以识别识别序列,其中识别序列不是天然的(未工程化的或未经修饰的)核酸酶剂或DNA结合蛋白会识别的序列。对核酸酶剂或DNA结合蛋白的修饰可以少至蛋白质切割剂中的一个氨基酸或核酸切割剂中的一个核苷酸。
[0240] 核酸酶剂的识别序列包括核酸酶剂在该处诱导切口或双链断裂的DNA序列。同样,DNA结合蛋白的识别序列包括DNA结合蛋白将与其结合的DNA序列。识别序列可以是细胞内源的(或天然的),或者识别序列可以是细胞外源的。识别序列也可以是希望定位在靶基因座处的目标多核苷酸外源的。在一些实施方案中,识别序列在宿主细胞的基因组中仅存在一次。
[0241] 还提供了例示的识别序列的活性变体和片段。此类活性变体可以包含与给定识别序列至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%或100%的序列同一性,其中所述活性变体保留生物活性并且能够以序列特异性方式被核酸酶剂识别和切割。通过核酸酶剂测量识别序列的双链断裂的测定法是已知的(例如, qPCR测定法,Frendewey等人,Methods in Enzymology,2010,476,295-307)。
[0242] 识别序列的长度可以变化,并且包括例如对于锌指蛋白或锌指核酸酶(ZFN)对为约30至约36bp(即,对于每个ZFN为约15至约18bp)、对于TALE蛋白或转录激活因子样效应核酸酶(TALEN)为36bp、对于CRISPR/Cas9引导RNA为约20bp的识别序列。
[0243] DNA结合蛋白或核酸酶剂的识别序列可以定位在靶基因组基因座中或附近的任何地方。识别序列可以位于基因(例如,B4GALT1基因)的编码区域内,或影响基因表达的调控区域内。DNA结合蛋白或核酸酶剂的识别序列可以位于内含子、外显子、启动子、增强子、调控区域或任何非蛋白编码区域中。
[0244] 可以在本文公开的各种方法和组合物中使用的一种类型的DNA结合蛋白是TALE。TALE可以与例如表观遗传修饰结构域、转录激活结构域或转录阻遏结构域融合或连接。此类结构域的示例在下文关于Cas蛋白进行描述,并且也可以在例如PCT公开WO 2011/145121中找到。相应地,可以在本文公开的各种方法和组合物中使用的一种类型的核酸酶剂是TALEN。转录激活因子样(TAL)效应核酸酶是一类序列特异性核酸酶,可以用于在原核或真核生物体基因组中的特定靶序列处产生双链断裂。通过将天然的或工程化的TAL效应物或其功能部分与核酸内切酶诸如FokI的催化结构域融合来产生TAL效应核酸酶。独特的模块化TAL效应物DNA结合结构域可以设计具有任何给定DNA识别特异性的蛋白质。因此,可以将TAL效应核酸酶的DNA结合结构域工程化以识别特定DNA靶位点,并因此用于在所需靶序列处形成双链断裂。合适的TAL核酸酶的示例以及用于制备合适的TAL核酸酶的方法例如在以下美国专利申请公开中公开:2011/0239315、2011/0269234、2011/0145940、2003/0232410、
2005/0208489、2005/0026157、2005/0064474、2006/0188987和2006/0063231。
[0245] 在一些TALEN中,TALEN的每个单体包含约33至约35个TAL重复序列,这些重复序列经由两个高变残基识别单个碱基对。在一些TALEN中,核酸酶剂是包含与独立核酸酶诸如FokI核酸内切酶可操作地连接的基于TAL重复序列的DNA结合结构域的嵌合蛋白。例如,核酸酶剂可以包含第一基于TAL重复序列的DNA结合结构域和第二基于TAL重复序列的DNA结合结构域,其中第一基于TAL重复序列的DNA结合结构域和第二基于TAL重复序列的DNA结合结构域中的每一者与FokI核酸酶可操作地连接,其中第一基于TAL重复序列的DNA结合结构域和第二基于TAL重复序列的DNA结合结构域识别靶DNA序列的每条链中被长度可变(约12至约20bp)的间隔序列隔开的两个连续靶DNA序列,并且其中FokI核酸酶亚基二聚化以产生在靶序列处形成双链断裂的活性核酸酶。
[0246] DNA结合蛋白的另一个示例是锌指蛋白。此类锌指蛋白可以与例如表观遗传修饰结构域、转录激活结构域或转录阻遏结构域连接或融合。此类结构域的示例在下文关于Cas蛋白进行描述,并且也可以在例如PCT公开WO 2011/145121中找到。相应地,可以在本文公开的各种方法和组合物中使用的核酸酶剂的另一示例是ZFN。在一些ZFN中,ZFN的每个单体包含三个或更多个基于锌指的DNA结合结构域,其中每个基于锌指的DNA结合结构域与3bp的亚位点结合。在其他ZFN中,ZFN是包含与独立核酸酶诸如FokI核酸内切酶可操作地连接的基于锌指的DNA结合结构域的嵌合蛋白。例如,核酸酶剂可以包含第一ZFN和第二ZFN,其中第一ZFN和第二ZFN中的每一者与FokI核酸酶亚基可操作地连接,其中第一ZFN和第二ZFN识别靶DNA序列的每条链中被约5至约7bp的间隔序列隔开的两个连续靶DNA序列,并且其中FokI核酸酶亚基二聚化以产生形成双链断裂的活性核酸酶。
[0247] 用于本文所述的方法和组合物中的其他合适的DNA结合蛋白和核酸酶剂包括在本文其他地方描述的CRISPR-Cas系统。
[0248] 可以通过任何已知方式将DNA结合蛋白或核酸酶剂引入细胞中。可以将编码DNA结合蛋白或核酸酶剂的多肽直接引入细胞中。可替代地,可以将编码DNA结合蛋白或核酸酶剂的多核苷酸引入细胞中。当将编码DNA结合蛋白或核酸酶剂的多核苷酸引入细胞中时,DNA结合蛋白或核酸酶剂可以在细胞内瞬时、条件性或组成性表达。例如,编码DNA结合蛋白或核酸酶剂的多核苷酸可以包含在表达盒中,并且与条件型启动子、诱导型启动子、组成型启动子或组织特异性启动子可操作地连接。此类启动子在本文其他地方进一步详细讨论。在一些实施方案中,可以将DNA结合蛋白或核酸酶剂作为编码DNA结合蛋白或核酸酶剂的mRNA引入细胞中。
[0249] 编码DNA结合蛋白或核酸酶剂的多核苷酸可以稳定地整合在细胞的基因组中并且与在细胞中有活性的启动子可操作地连接。可替代地,编码DNA结合蛋白或核酸酶剂的多核苷酸可以在靶向载体中或者在与包含插入多核苷酸的靶向载体分开的载体或质粒中。
[0250] 当通过引入编码DNA结合蛋白或核酸酶剂的多核苷酸将DNA结合蛋白或核酸酶剂提供给细胞时,可以对这种编码DNA结合蛋白或核酸酶剂的多核苷酸进行修饰以取代与天然存在的编码DNA结合蛋白或核酸酶剂的多核苷酸序列相比在目标细胞中使用频率更高的密码子。在一些实施方案中,可以对编码DNA结合蛋白或核酸酶剂的多核苷酸进行修饰以取代与天然存在的多核苷酸序列相比在给定的目标原核细胞或真核细胞(包括细菌细胞、酵母细胞、人类细胞、非人类细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其他目标宿主细胞)中使用频率更高的密码子。
[0251] 本文公开的方法可以利用成簇规律间隔短回文重复序列(CRISPR)/CRISPR相关的(Cas)系统或此类系统的组件来修饰细胞内的基因组。CRISPR-Cas系统包括转录本以及参与Cas基因表达或指导其活性的其他元件。CRISPR-Cas系统可以是I型、II型或III型系统。可替代地,CRISPR/Cas系统可以是例如V型系统(例如,V-A亚型或V-B亚型)。本文公开的方法和组合物可以通过利用CRISPR复合物(包含与Cas蛋白复合的引导RNA(gRNA))进行核酸的定点切割来使用CRISPR-Cas系统。
[0252] 在本文公开的方法中使用的CRISPR-Cas系统是非天然存在的。例如,一些CRISPR-Cas系统使用包含并非一起天然存在的gRNA和Cas蛋白的非天然存在的CRISPR复合物。
[0253] Cas蛋白一般包含可以与引导RNA(gRNA,在下文更详细描述)相互作用的至少一个RNA识别或结合结构域。Cas蛋白还可以包含核酸酶结构域(例如,DNA酶或RNA酶结构域)、DNA结合结构域、解旋酶结构域、蛋白质-蛋白质相互作用结构域、二聚化结构域和其他结构域。核酸酶结构域具有用于核酸切割的催化活性,所述核酸切割包括核酸分子的共价键的断裂。切割可以产生平末端或交错末端,并且可以是单链的或双链的。野生型Cas9蛋白通常会产生平切割产物。可替代地,野生型Cpf1蛋白(例如,FnCpf1)可以产生具有5个核苷酸的5'短悬端的切割产物,其中切割发生在非靶向链上距PAM序列第18个碱基对后以及靶向链上第23个碱基后。Cas蛋白可以具有在内源B4GALT1基因中产生双链断裂(例如,具有平末端的双链断裂)的完整切割活性,或者其也可以是在内源B4GALT1基因中产生单链断裂的切口酶。
[0254] Cas蛋白的示例包括但不限于Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5e(CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9(Csn1或Csx12)、Cas10、Casl0d、CasF、CasG、CasH、Csy1、Csy2、Csy3、Cse1(CasA)、Cse2(CasB)、Cse3(CasE)、Cse4(CasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4和Cu1966及其同系物或修改版本。
[0255] 在一些实施方案中,Cas蛋白是Cas9蛋白或来源于II型CRISPR-Cas系统的Cas9蛋白。Cas9蛋白来自II型CRISPR-Cas系统,通常具有结构保守的四个关键基序。基序1、2和4是RuvC样基序,并且基序3是HNH基序。示例性Cas9蛋白包括但不限于来自以下物种的Cas9蛋白:酿脓链球菌(Streptococcus pyogenes)、嗜热链球菌(Streptococcus thermophilus)、链球菌属某种(Streptococcus sp.)、金黄色葡萄球菌(Staphylococcus aureus)、达松维尔拟诺卡氏菌(Nocardiopsis  dassonvillei)、始旋链霉菌(Streptomyces pristinaespiralis)、产绿色链霉菌(Streptomyces viridochromogenes)、产绿色链霉菌(Streptomyces viridochromogenes)、玫瑰链孢囊菌(Streptosporangium roseum)、玫瑰链孢囊菌(Streptosporangium roseum)、酸热脂环酸杆菌(Alicyclobacillus 
acidocaldarius)、假蕈状芽孢杆菌(Bacillus pseudomycoides)、还原硒酸盐芽孢杆菌(Bacillus selenitireducens)、兴安微小杆菌(Exiguobacterium sibiricum)、德氏乳杆菌(Lactobacillus delbrueckii)、唾液乳杆菌(Lactobacillus salivarius)、海洋微颤菌(Microscilla marina)、伯克霍尔德氏菌目细菌(Burkholderiales bacterium)、降解极单胞菌(Polaromonas naphthalenivorans)、极单胞菌属某种(Polaromonas sp.)、瓦氏鳄球藻(Crocosphaera  watsonii)、蓝丝菌属某种(Cyanothece sp.)、绿微囊藻
(Microcystis aeruginosa)、聚球藻属某种(Synechococcus sp.)、阿拉伯糖醋盐杆菌(Acetohalobium arabaticum)、丹氏制氨菌(Ammonifex degensii)、热角军纤维素
(Caldicelulosiruptor becscii)、矿菌候选种(Candidatus Desulforudis)、肉毒梭状芽孢杆菌(Clostridium botulinum)、艰难梭状芽孢杆菌(Clostridium difficile)、大芬戈尔德菌(Finegoldia magna)、嗜热盐碱厌氧菌(Natranaerobius thermophilus)、嗜热丙酸降解发酵菌(Pelotomaculum  thermopropionicum)、嗜酸性喜温硫杆菌
(Acidithiobacillus caldus)、嗜酸性氧化亚铁硫杆菌(Acidithiobacillus 
ferrooxidans)、酒色别样着色菌(Allochromatium vinosum)、海杆菌属某种
(Marinobacter sp.)、嗜盐亚消化球菌(Nitrosococcus halophilus)、瓦氏亚硝化球菌(Nitrosococcus watsoni)、游海假交替单胞菌(Pseudoalteromonas haloplanktis)、消旋纤线杆菌(Ktedonobacter racemifer)、调查甲烷盐菌(Methanohalobium evestigatum)、多变鱼腥藻(Anabaena variabilis)、泡沫节球藻(Nodularia spumigena)、念珠藻属某种(Nostoc  sp.)、极大螺旋藻(Arthrospira maxima)、钝顶螺旋藻(Arthrospira 
platensis)、螺旋藻属某种(Arthrospira sp.)、林氏藻属某种(Lyngbya sp.)、原型微鞘藻(Microcoleus chthonoplastes)、颤藻属某种(Oscillatoria sp.)、石袍藻(Petrotoga mobilis)、非洲栖热腔菌(Thermosipho africanus)或藻青菌(Acaryochloris marina)。
Cas9家族成员的其他示例在PCT公开WO 2014/131833中描述。来自酿脓链球菌的Cas9(被分配SwissProt登录号Q99ZW2)是一种示例性酶。来自金黄色葡萄球菌的Cas9(被分配UniProt登录号J7RUA5)是另一种示例性酶。
[0256] Cas蛋白的另一个示例是Cpf1(来自普雷沃菌属(Prevotella)和弗朗西斯氏菌属(Francisella)1的CRISPR)蛋白。Cpf1是一种大蛋白(约1300个氨基酸),其中包含与Cas9的对应结构域同源的RuvC样核酸酶结构域以及与Cas9的富含特征性精氨酸簇对应的部分。但是,Cpf1缺少Cas9蛋白中存在的HNH核酸酶结构域,并且RuvC样结构域在Cpf1序列中是连续的,而在Cas9中,RuvC样结构域包含长插入物,包括HNH结构域。示例性Cpf1蛋白包括但不限于来自以下物种的Cpf1蛋白:土拉热弗朗西斯菌(Francisella tularensis)1、土拉热弗朗西斯菌新凶手亚种(Francisella tularensis subsp.novicida)、苏格兰普雷沃菌(Prevotella albensis)、毛螺科菌(Lachnospiraceae bacterium)MC2017 1、解蛋白丁酸弧菌(Butyrivibrio proteoclasticus)、佩莱格里尼菌科细菌(Peregrinibacteria 
bacterium)GW2011_GWA2_33_10、帕库氏菌(Parcubacteria bacterium)GW2011_GWC2_44_
17、密斯氏菌属某种(Smithella sp.)SCADC、氨基酸球菌属某种(Acidaminococcus sp.)BV3L6、毛螺科菌MA2020、白蚁甲烷支原体菌候选种(Candidatus Methanoplasma 
termitum)、挑剔真杆菌(Eubacterium eligens)、牛眼莫拉氏菌(Moraxella bovoculi)
237、稻田钩端螺旋体(Leptospira inadai)、毛螺科菌ND2006、狗口腔卟啉单胞菌
(Porphyromonas crevioricanis)3、解糖胨普雷沃菌(Prevotella disiens)和猕猴卟啉单胞菌(Porphyromonas macacae)。来自新凶手弗朗西斯菌(Francisella novicida)U112的Cpf1(FnCpf1;被分配UniProt登录号A0Q7Q2)是一种示例性酶。
[0257] Cas蛋白可以是野生型蛋白(即,天然存在的蛋白)、经修饰的Cas蛋白(即,Cas蛋白变体)或者野生型或经修饰Cas蛋白的片段。Cas蛋白也可以是野生型或经修饰Cas蛋白的活性变体或片段。活性变体或片段可以包含与野生型或经修饰Cas蛋白或其一部分至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%或至少99%或100%的序列同一性,其中所述活性变体保留在所需切割位点处进行切割的能力,因此保留切口诱导活性或双链断裂诱导活性。切口诱导活性或双链断裂诱导活性的测定法是已知的,一般测量Cas蛋白在含有切割位点的DNA底物上的总体活性和特异性。
[0258] Cas蛋白可以包含至少一个核酸酶结构域,诸如DNA酶结构域。例如,野生型Cpf1蛋白一般包含切割可能呈二聚体构型的靶DNA的两条链的RuvC样结构域。Cas蛋白可以包含至少两个核酸酶结构域,诸如DNA酶结构域。例如,野生型Cas9蛋白一般包含RuvC样核酸酶结构域和HNH样核酸酶结构域。RuvC和HNH结构域可以分别切割双链DNA链的不同链,以在DNA中形成双链断裂。
[0259] Cas蛋白(例如,有核酸酶活性的Cas蛋白或无核酸酶活性的Cas蛋白)也可以作为融合蛋白与异源多肽可操作地连接。例如,Cas蛋白可以与切割结构域、表观遗传修饰结构域、转录激活结构域或转录阻遏因子结构域融合。转录激活域的示例包括单纯疱疹病毒VP16激活结构域、VP64(VP16的四聚体衍生物)、NFκB p65激活结构域、p53激活结构域1和2、CREB(cAMP响应元件结合蛋白)激活结构域、E2A激活结构域和NFAT(激活T细胞的核因子)激活结构域。其他示例包括但不限于来自Oct1、Oct-2A、SP1、AP-2、CTF1、P300、CBP、PCAF、SRC1、PvALF、ERF-2、OsGAI、HALF-1、C1、AP1、ARF-5、ARF-6、ARF-7、ARF-8、CPRF1、CPRF4、MYC-RP/GP、TRAB1PC4和HSF1的激活域。例如参见美国专利申请公开2016/0237456、欧洲专利EP3045537和PCT公开WO 2011/145121。
[0260] 在一些实施方案中,可以使用包含与MS2-p65-HSF1配对的dCas9-VP64融合蛋白的转录激活系统。此类系统中的引导RNA可以被设计有附加到sgRNA四环和茎环2(被设计成结合二聚化MS2噬菌体外壳蛋白)的适配体序列。参见例如Konermann等人,Nature,2015,517,583-588。转录阻遏因子结构域的示例包括诱导型cAMP早期阻遏因子(ICER)域、Kruppel相关盒A(KRAB-A)阻遏因子结构域、富含YY1甘氨酸的阻遏因子结构域、Sp1样阻遏因子、E(spl)阻遏因子、IκB阻遏因子和MeCP2。其他示例包括但不限于来自A/B、KOX、TGF-β-诱导型早期基因(TIEG)、v-erbA、SID、SID4X、MBD2、MBD3、DNMT1、DNMG3A、DNMT3B、Rb、ROM2的转录阻遏因子结构域。参见例如欧洲专利EP3045537和PCT公开WO 2011/145121。Cas蛋白也可以与提供增加或降低的稳定性的异源多肽融合。融合结构域或异源多肽可以位于Cas蛋白的N末端、C末端或内部。
[0261] Cas融合蛋白的示例是与提供亚细胞定位的异源多肽融合的Cas蛋白。此类异源多肽可以包括例如一个或多个核定位信号(NLS),诸如用于靶向细胞核的SV40 NLS、用于靶向线粒体的线粒体定位信号、ER滞留信号等。此类亚细胞定位信号可以位于Cas蛋白的N末端、C末端或任何地方。NLS可以包含一段碱性氨基酸,并且可以是单部分序列或两部分序列。
[0262] Cas蛋白也可以与细胞穿透结构域可操作地连接。例如,细胞穿透结构域可以来源于HIV-1TAT蛋白、人类乙型肝炎病毒的TLM细胞穿透基序、MPG、Pep-1、VP22、单纯疱疹病毒的细胞穿透肽或者聚精氨酸肽序列。细胞穿透结构域可以位于Cas蛋白的N末端、C末端或任何地方。
[0263] 为了易于追踪或纯化,Cas蛋白也可以与异源多肽诸如荧光蛋白、纯化标签或表位标签可操作地连接。荧光蛋白的示例包括绿色荧光蛋白(例如,GFP、GFP-2、tagGFP、turboGFP、eGFP、Emerald、Azami Green、Monomeric Azami Green、CopGFP、AceGFP、ZsGreenl)、黄色荧光蛋白(例如,YFP、eYFP、Citrine、Venus、YPet、PhiYFP、ZsYellowl)、蓝色荧光蛋白(例如,eBFP、eBFP2、Azurite、mKalamal、GFPuv、Sapphire、T-sapphire)、青色荧光蛋白(例如,eCFP、Cerulean、CyPet、AmCyanl、Midoriishi-Cyan)、红色荧光蛋白(mKate、mKate2、mPlum、DsRed单体、mCherry、mRFP1、DsRed-Express、DsRed2、DsRed-Monomer、HcRed-Tandem、HcRedl、AsRed2、eqFP611、mRaspberry、mStrawberry、Jred)、橙色荧光蛋白(mOrange、mKO、Kusabira-Orange、Monomeric Kusabira-Orange、mTangerine、tdTomato)和任何其他合适的荧光蛋白。标签的示例包括谷胱甘肽S-转移酶(GST)、几丁质结合蛋白(CBP)、麦芽糖结合蛋白、硫氧还蛋白(TRX)、聚(NANP)、串联亲和纯化(TAP)标签、myc、AcV5、AU1、AU5、E、ECS、E2、FLAG、血凝素(HA)、nus、Softag 1、Softag 3、Strep、SBP、Glu-Glu、HSV、KT3、S、S1、T7、V5、VSV-G、组氨酸(His)、生物素羧基载体蛋白(BCCP)和钙调蛋白。
[0264] Cas9蛋白也可以与外源供体序列或标记的核酸结合。这种结合(即,物理连接)可以通过共价相互作用或非共价相互作用来实现,并且所述结合可以是直接的(例如,通过直接融合或化学缀合,这可以通过对蛋白质上的半胱氨酸或赖氨酸残基进行修饰或者内含肽修饰来实现),或者可以通过一种或多种中间接头或衔接分子诸如链霉亲和素或适配体来实现。用于合成蛋白质-核酸缀合物的非共价策略包括生物素-链霉亲和素方法和镍-组氨酸方法。可以通过使用各种化学方法将适当功能化的核酸和蛋白质连接在一起来合成共价蛋白质-核酸缀合物。这些化学方法中的一些涉及将寡核苷酸直接附接到蛋白质表面上的氨基酸残基(例如,赖氨酸胺或半胱氨酸硫醇),而其他更复杂的方案则需要蛋白质的翻译后修饰或者催化性或反应性蛋白结构域的参与。用于将蛋白质共价附接到核酸的方法可以包括例如将寡核苷酸化学交联到蛋白质赖氨酸或半胱氨酸残基、表达的蛋白质连接、化学酶法和使用光适配体。可以将外源供体序列或标记的核酸结合到Cas9蛋白的C末端、N末端或内部区域。在一些实施方案中,将外源供体序列或标记的核酸结合到Cas9蛋白的C末端或N末端。同样,可以将Cas9蛋白结合到外源供体序列或标记的核酸的5'端、3'端或内部区域。在一些实施方案中,将Cas9蛋白结合到外源供体序列或标记的核酸的5'端或3'端。
[0265] 可以以任何形式提供Cas蛋白。例如,可以以蛋白质(诸如与gRNA复合的Cas蛋白)的形式提供Cas蛋白。可替代地,可以以编码Cas蛋白的核酸(诸如RNA(例如,信使RNA(mRNA))或DNA)的形式提供Cas蛋白。在一些实施方案中,可以对编码Cas蛋白的核酸进行密码子优化以在特定细胞或生物体中有效翻译成蛋白质。例如,可以对编码Cas蛋白的核酸进行修饰以取代与天然存在的多核苷酸序列相比在细菌细胞、酵母细胞、人类细胞、非人类细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其他目标宿主细胞中使用频率更高的密码子。当将编码Cas蛋白的核酸引入细胞中时,Cas蛋白可以在细胞中瞬时、条件性或组成性表达。
[0266] 编码Cas蛋白的核酸可以稳定地整合在细胞的基因组中并且与在细胞中有活性的启动子可操作地连接。可替代地,编码Cas蛋白的核酸可以与表达构建体中的启动子可操作地连接。表达构建体包括能够指导基因或其他目标核酸序列(例如,Cas基因)的表达并且可以将这种目标核酸序列转移到靶细胞的任何核酸构建体。例如,编码Cas蛋白的核酸可以在包含核酸插入物的靶向载体和/或包含编码gRNA的DNA的载体中。可替代地,它可以在与包含核酸插入物的靶向载体分开和/或与包含编码gRNA的DNA的载体分开的载体或质粒中。可以用于表达构建体中的启动子包括在例如以下细胞中的一者或多者中有活性的启动子:真核细胞、人类细胞、非人类细胞、哺乳动物细胞、非人类哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、仓鼠细胞、兔细胞、多能细胞、胚胎干(ES)细胞或受精卵。此类启动子可以是例如条件型启动子、诱导型启动子、组成型启动子或组织特异性启动子。在一些实施方案中,启动子可以是双向启动子,其在一个方向上驱动Cas蛋白的表达,而在另一个方向上驱动引导RNA的表达。此类双向启动子可以由以下启动子构成:1)完整的常规单向Pol III启动子,其包含3个外部控制元件:远端序列元件(DSE)、近端序列元件(PSE)和TATA盒;以及2)第二基本Pol III启动子,其包括以反向取向融合到DSE的5'末端的PSE和TATA盒。例如,在H1启动子中,DSE与PSE和TATA盒相邻,并且可以通过形成杂合启动子来使启动子双向化,在所述杂合启动子中,通过附加来源于U6启动子的PSE和TATA盒来控制反向方向上的转录。使用双向启动子表达编码Cas蛋白和引导RNA的基因同时允许产生紧凑表达盒来促进递送。
[0267] 本公开还提供了与Cas蛋白(例如,Cas9蛋白)结合并且将Cas蛋白靶向到靶DNA(例如,B4GALT1基因)内的特定位置的引导RNA(gRNA)。在一些实施方案中,引导RNA有效地指导Cas酶结合或切割内源B4GALT1基因的,其中引导RNA包含与内源B4GALT1基因内的引导RNA识别序列杂交的DNA靶向区段,所述引导RNA识别序列包括或接近例如SEQ ID NO:1的位置53575至53577。例如,引导RNA识别序列可以在SEQ ID NO:1的位置53575至53577的约5、约
10、约15、约20、约25、约30、约35、约40、约45、约50、约100个、约200、约300、约400、约500或约1,000个核苷酸内。其他示例性引导RNA包含与内源B4GALT1基因内的引导RNA识别序列杂交的DNA靶向区段,所述引导RNA识别序列在与SEQ ID NO:1外显子5相对应的区域内。其他示例性引导RNA包含与内源B4GALT1基因内的引导RNA识别序列杂交的DNA靶向区段,所述引导RNA识别序列包括或接近内源B4GALT1基因的起始密码子,或者包括或接近内源B4GALT1基因的终止密码子。例如,引导RNA识别序列可以在起始密码子的约5、约10、约15、约20、约
25、约30、约35、约40、约45、约50、约100、约200、约300、约400、约500或约1,000个核苷酸内,或者在终止密码子的约5、约10、约15、约20、约25、约30、约35、约40、约45、约50、约100、约
200、约300、约400、约500或约1,000个核苷酸内。内源B4GALT1基因可以是来自任何生物体的B4GALT1基因。例如,B4GALT1基因可以是人类B4GALT1基因或来自另一种生物体(诸如非人类哺乳动物、啮齿动物、小鼠或大鼠)的直系同源物。
[0268] 在一些实施方案中,引导RNA识别序列存在于人类B4GALT1基因的5'端。在一些实施方案中,引导RNA识别序列与人类B4GALT1基因的转录起始位点(TSS)相邻。在一些实施方案中,引导RNA识别序列存在于人类B4GALT1基因的3'端。在一些实施方案中,引导RNA识别序列接近SEQ ID NO:1的位置53575至53577。接近SEQ ID NO:1的位置53575至53577的示例性引导RNA识别序列包括但不限于ATTAGTTTTTAGAGGCATGT(SEQ ID NO:9)和GGCTCTCAGGCCAAGTGTAT(SEQ ID NO:10)(都在SEQ ID NO:1的位置53575至53577的5’)以及TACTCCTTCCCCCTTTAGGA(SEQ ID NO:11)和GTCCGAGGCTCTGGGCCTAG(SEQID NO:12)(都在SEQ ID NO:1的位置53575至53577的3’)。
[0269] 引导RNA可以包含两个区段:DNA靶向区段和蛋白结合区段。一些gRNA包含两个单独的RNA分子:激活因子RNA(例如,tracrRNA)和靶标RNA(例如,CRISPR RNA或crRNA)。其他gRNA是单个RNA分子(单个RNA多核苷酸;单分子gRNA、单引导RNA或sgRNA)。例如,对于Cas9,单引导RNA可以包含与tracrRNA融合的crRNA(例如,经由接头)。例如,对于Cpf1,仅需要crRNA即可实现切割。gRNA包括双分子(即,模块化)gRNA和单分子gRNA。
[0270] 给定gRNA的DNA靶向区段(crRNA)包含与靶DNA中的序列(即,引导RNA识别序列)互补的核苷酸序列。gRNA的DNA靶向区段经由杂交(即,碱基配对)以序列特异性方式与靶DNA(例如,B4GALT1基因)相互作用。因此,DNA靶向区段的核苷酸序列可变化并确定靶DNA内gRNA和靶DNA将与之相互作用的位置。可以对主题gRNA的DNA靶向区段进行修饰以与靶DNA内的任何所需序列杂交。天然存在的crRNA根据CRISPR-Cas系统和生物体而有所不同,但是通常包含长度为约21至约72个核苷酸的靶向区段,其被两个长度为约21至约46个核苷酸的正向重复序列(DR)侧接。在酿脓链球菌的情况下,DR的长度为36个核苷酸,并且靶向区段的长度为30个核苷酸。位于3'的DR与对应的tracrRNA互补并与之杂交,后者又与Cas蛋白结合。
[0271] DNA靶向区段的长度可以为至少约12个核苷酸、至少约15个核苷酸、至少约17个核苷酸、至少约18个核苷酸、至少约19个核苷酸、至少约20个核苷酸、至少约25个核苷酸、至少约30个核苷酸、至少约35个核苷酸或至少约40个核苷酸。此类DNA靶向区段的长度可以为约12个核苷酸至约100个核苷酸、约12个核苷酸至约80个核苷酸、约12个核苷酸至约50个核苷酸、约12个核苷酸至约40个核苷酸、约12个核苷酸至约30个核苷酸、约12个核苷酸至约25个核苷酸或约12个核苷酸至约20个核苷酸。例如,DNA靶向区段可以为约15个核苷酸至约25个核苷酸(例如,约17个核苷酸至约20个核苷酸,或约17个核苷酸、约18个核苷酸、约19个核苷酸或约20个核苷酸)。参见例如美国专利申请公开2016/0024523。对于来自酿脓链球菌的Cas9,典型的DNA靶向区段的长度为约16至约20个核苷酸或约17至约20个核苷酸。对于来自金黄色葡萄球菌的Cas9,典型的DNA靶向区段的长度为约21至约23个核苷酸。对于Cpf1,典型的DNA靶向区段的长度为至少约16个核苷酸或至少约18个核苷酸。
[0272] DNA靶向序列与靶DNA内的引导RNA识别序列之间的互补百分比可以为至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约
95%、至少约97%、至少约98%、至少约99%或100%。DNA靶向序列与靶DNA内的引导RNA识别序列之间的互补百分比在约20个连续核苷酸内可以为至少约60%。例如,DNA靶向序列与靶DNA内的引导RNA识别序列之间的互补百分比在靶DNA的互补链内引导RNA识别序列的5'端的约14个连续核苷酸内为约100%,并且在其余核苷酸内低至约0%。在这种情况下,可以认为DNA靶向序列的长度为约14个核苷酸。作为另一个示例,DNA靶向序列与靶DNA内的引导RNA识别序列之间的互补百分比在靶DNA的互补链内引导RNA识别序列的5'端的七个连续核苷酸内为约100%,并且在其余核苷酸内低至约0%。在这种情况下,可以认为DNA靶向序列的长度为约7个核苷酸。在一些引导RNA中,DNA靶序列内的至少约17个核苷酸与靶DNA互补。
例如,DNA靶向序列的长度可以为约20个核苷酸,并且可以包含与靶DNA(引导RNA识别序列)的1、2或3个错配。在一些实施方案中,错配不与原间隔邻近基序(PAM)序列相邻(例如,错配在DNA靶向序列的5'端,或者错配距离PAM序列至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18或至少19个碱基对)。
[0273] 引导RNA可以包括提供其他所需特征(例如,修饰或调控的稳定性;亚细胞靶向;用荧光标记跟踪;蛋白质或蛋白质复合物的结合位点;等)的修饰或序列。此类修饰的示例包括例如5'帽(例如,7-甲基鸟苷酸酯帽(m7G));3'聚腺苷酸化尾巴(即,3'poly(A)尾巴);核糖开关序列(例如,允许蛋白质和/或蛋白质复合物调控稳定性和/或调控可及性);稳定性控制序列;形成dsRNA双链(即,发夹)的序列;将RNA靶向亚细胞位置(例如,细胞核、线粒体、叶绿体等)的修饰或序列;提供跟踪(例如,与荧光分子直接缀合、与有助于荧光检测的部分缀合、允许荧光检测的序列等)的修饰或序列;提供蛋白质(例如,作用于DNA的蛋白质,包括转录激活因子、转录阻遏因子、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰转移酶、组蛋白脱乙酰酶等)结合位点的修饰或序列;及其组合。
[0274] 可以以任何形式提供引导RNA。例如,可以作为两个分子(单独的crRNA和tracrRNA)或作为一个分子(sgRNA)以RNA的形式提供gRNA,并且可以任选地以与Cas蛋白的复合物的形式提供gRNA。例如,可以通过使用例如T7 RNA聚合酶进行体外转录来制备gRNA。
也可以通过化学合成来制备引导RNA。
[0275] 也可以以编码gRNA的DNA的形式提供gRNA。编码gRNA的DNA可以编码单个RNA分子(sgRNA)或单独的RNA分子(例如,单独的crRNA和tracrRNA)。在后一种情况下,可以作为一个DNA分子或作为分别编码crRNA和tracrRNA的单独DNA分子提供编码gRNA的DNA。当以DNA的形式提供gRNA时,gRNA可以在细胞中瞬时、条件性或组成性表达。编码gRNA的DNA可以稳定地整合在细胞的基因组中并且与在细胞中有活性的启动子可操作地连接。可替代地,编码gRNA的DNA可以与表达构建体中的启动子可操作地连接。例如,编码gRNA的DNA可以在包含异源核酸的载体中。载体还可以包含外源供体序列并且/或者载体还可以包含编码Cas蛋白的核酸。可替代地,编码gRNA的DNA可以在与包含外源供体序列的载体和/或包含编码Cas蛋白的核酸的载体分开的载体或质粒中。可以用于此类表达构建体中的启动子包括在例如以下细胞中的一者或多者中有活性的启动子:真核细胞、人类细胞、非人类细胞、哺乳动物细胞、非人类哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、仓鼠细胞、兔细胞、多能细胞、胚胎干细胞或受精卵。此类启动子可以是例如条件型启动子、诱导型启动子、组成型启动子或组织特异性启动子。此类启动子也可以是例如双向启动子。合适的启动子的具体示例包括RNA聚合酶III启动子,诸如人类U6启动子、大鼠U6聚合酶III启动子或小鼠U6聚合酶III启动子。
[0276] 本公开还提供了包含本文公开的一种或多种引导RNA(例如,1、2、3、4种或多种引导RNA)以及载剂的组合物,所述载剂增加了分离的核酸或蛋白质的稳定性(例如,在降解产物保持低于阈值(诸如低于起始核酸或蛋白质的0.5重量%)的给定储存条件(例如,-20℃、4℃或环境温度)下延长了时间;或增加了体内稳定性)。此类载剂的示例包括但不限于聚(乳酸)(PLA)微球、聚(D,L-乳酸-乙醇酸)(PLGA)微球、脂质体、微胶粒、反相微胶粒、脂质螺旋体和脂质微管。此类组合物还可以包含Cas蛋白诸如Cas9蛋白,或编码Cas蛋白的核酸。此类组合物还可以包含一种或多种(例如,1、2、3、4种或更多种)外源供体序列和/或一种或多种(例如,1、2、3、4种或更多种)靶向载体以及/或者如本文其他地方公开的一种或多种(例如,1、2、3、4种或更多种)表达载体。
[0277] 引导RNA识别序列包括存在于靶DNA(例如,B4GALT1基因)中的、gRNA的DNA靶向区段将与之结合的核酸序列。例如,引导RNA识别序列包括引导RNA被设计成与其具有互补性的序列,其中引导RNA识别序列与DNA靶向序列之间的杂交促进了CRISPR复合物的形成。假如存在足够的互补性以引起杂交并促进CRISPR复合物的形成,则不一定需要完全互补。引导RNA识别序列还包括Cas蛋白的切割位点,在下文更详细描述。引导RNA识别序列可以包含可以位于例如细胞的细胞核或细胞质中或者细胞的细胞器(诸如线粒体或叶绿体)内的任何多核苷酸。
[0278] 靶DNA内的引导RNA识别序列可以被Cas蛋白或gRNA靶向(即,与Cas蛋白或gRNA结合或杂交或互补)。合适的DNA/RNA结合条件包括细胞中通常存在的生理条件。其他合适的DNA/RNA结合条件是已知的。
[0279] Cas蛋白可以在存在于靶DNA中的、gRNA的DNA靶向区段将与之结合的核酸序列内或外的位点处切割核酸。“切割位点”包括核酸中Cas蛋白产生单链断裂或双链断裂的位置。例如,CRISPR复合物(包含与引导RNA识别序列杂交并与Cas蛋白复合的gRNA)的形成可以导致在存在于靶DNA中的、gRNA的DNA靶向区段将与之结合的核酸序列中或附近(在距离所述核酸序列1、2、3、4、5、6、7、8、9、10、20或50个或更多个碱基对内)切割一条或两条链。切割位点可以仅在核酸的一条链上或在两条链上。切割位点可以在核酸的两条链上的相同位置(产生平末端)或可以在每条链上的不同位点(产生交错末端(即,短悬端))。在一些实施方案中,第一链上的切口酶的引导RNA识别序列与第二链上的切口酶的引导RNA识别序列相隔至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少15、至少20、至少25、至少30、至少40、至少50、至少75、至少100、至少250、至少500或至少1,000个碱基对。
[0280] Cas蛋白对靶DNA进行位点特异性切割可以发生在由以下两者确定的位置处:i)gRNA与靶DNA之间的碱基配对互补性,以及ii)靶DNA中的短基序,称为原间隔邻近基序(PAM)。PAM可以侧接引导RNA识别序列。在一些实施方案中,引导RNA识别序列可以在3'端被PAM侧接。可替代地,引导RNA识别序列可以在5'端被PAM侧接。例如,Cas蛋白的切割位点可以是PAM序列上游或下游的约1至约10或约2至约5个碱基对(例如,3个碱基对)。在一些情况下(例如,当使用来自酿脓链球菌的Cas9或紧密相关的Cas9时),非互补链的PAM序列可以是5'-N1GG-3',其中N1是任何DNA核苷酸并且正好是靶DNA的非互补链的引导RNA识别序列的
3'。因此,互补链的PAM序列将是5'-CCN2-3',其中N2是任何DNA核苷酸并且正好是靶DNA的互补链的引导RNA识别序列的5'。在一些情况下,N1和N2可以互补,并且N1-N2碱基对可以是任何碱基对(例如,N1=C且N2=G;N1=G且N2=C;N1=A且N2=T;或者N1=T且N2=A)。在Cas9来自金黄色葡萄球菌的情况下,PAM可以是NNGRRT(SEQ ID NO:13)或NNGRR(SEQ ID NO:14),其中N可以是A、G、C或T,并且R可以是G或A。在一些情况下(例如,对于FnCpf1),PAM序列可以位于5'端的上游并且具有序列5'-TTN-3'。
[0281] 引导RNA识别序列的示例包括与gRNA的DNA靶向区段互补的DNA序列,或除PAM序列外的此类DNA序列。例如,靶基序可以是紧接在Cas9蛋白识别的NGG基序之前的20个核苷酸的DNA序列,诸如GN19NGG(SEQ ID NO:15)或N20NGG(SEQ ID NO:16)(参见例如PCT公开WO 2014/165825)。5'端的鸟嘌呤可以促进细胞中RNA聚合酶的转录。引导RNA识别序列的其他示例可以在5'端包括两个鸟嘌呤核苷酸(例如,GGN20NGG;SEQ ID NO:17)以促进体外T7聚合酶的有效转录。参见,例如,PCT公开WO 2014/065596。其他引导RNA识别序列的长度可以为约4至约22个核苷酸,包括5'G或GG以及3'GG或NGG。在一些实施方案中,引导RNA识别序列的长度可以为约14至约20个核苷酸。
[0282] 引导RNA识别序列可以是细胞内源或外源的任何核酸序列。引导RNA识别序列可以是编码基因产物(例如,蛋白质)的序列或非编码序列(例如,调控序列),或者可以包括这两者。
[0283] 在一些实施方案中,引导RNA识别序列可以位于与SEQ ID NO:1的外显子5相对应的区域内。在一些实施方案中,引导RNA识别序列可以包括或接近SEQ ID NO:1的位置53575至53577。例如,引导RNA识别序列可以在与SEQ ID NO:1的位置53575至53577相对应的位置的约1000、约500、约400、约300、约200、约100、约50、约45、约40、约35、约30个、约25、约20、约15、约10或约5个核苷酸内。在一些实施方案中,引导RNA识别序列可以包括或接近内源B4GALT1基因的起始密码子或内源B4GALT1基因的终止密码子。例如,引导RNA识别序列可以在起始密码子或终止密码子的约10、约20、约30、约40、约50、约100、约200、约300、约400、约500或约1,000个核苷酸内。
[0284] 本文公开的方法和组合物可以利用外源供体序列(例如,靶向载体或修复模板)来修饰内源B4GALT1基因,而无需切割内源B4GALT1基因,也无需随后用核酸酶剂切割内源B4GALT1基因。外源供体序列是指包括实现与靶序列的位点特异性重组所需的元件的任何核酸或载体。与核酸酶剂组合使用外源供体序列可通过促进同源定向修复而在内源B4GALT1基因内产生更精确的修饰。
[0285] 在此类方法中,核酸酶剂切割内源B4GALT1基因以产生单链断裂(切口)或双链断裂,并且外源供体序列经由非同源末端连接(NHEJ)介导的连接或通过同源定向修复事件与内源B4GALT1基因重组。用外源供体序列进行修复可去除或破坏核酸酶切割位点,使得已被靶向的等位基因不能被核酸酶剂再次靶向。
[0286] 外源供体序列可以包含脱氧核糖核酸(DNA)或核糖核酸(RNA),它们可以是单链的或双链的,并且可以是线性形式或环状形式。例如,外源供体序列可以是单链寡脱氧核苷酸(ssODN)。示例性外源供体序列的长度为约50个核苷酸至约5kb、约50个核苷酸至约3kb或约50个核苷酸至约1,000个核苷酸。其他示例性外源供体序列的长度为约40至约200个核苷酸。例如,外源供体序列的长度可以为约50至约60、约60至约70、约70至约80、约80至约90、约90至约100、约100至约110、约110至约120、约120至约130、约130至约140、约140至约150、约150至约160、约160至约170、约170至约180、约180至约190或约190至约200个核苷酸。可替代地,外源供体序列的长度可以为约50至约100、约100至约200、约200至约300、约300至约400、约400至约500、约500至约600、约600至约700、约700至约800、约800至约900或约900至约1,000个核苷酸。可替代地,外源供体序列的长度可以为约1kb至约1.5kb、约1.5kb至约
2kb、约2kb至约2.5kb、约2.5kb至约3kb、约3kb至约3.5kb、约3.5kb至约4kb、约4kb至约
4.5kb或约4.5kb至约5kb。可替代地,外源供体序列的长度可以例如不超过约5kb、不超过约
4.5kb、不超过约4kb、不超过约3.5kb、不超过约3kb、不超过约2.5kb、不超过约2kb、不超过约1.5kb、不超过约1kb、不超过约900个核苷酸、不超过约800个核苷酸、不超过约700个核苷酸、不超过约600个核苷酸、不超过约500个核苷酸、不超过约400个核苷酸、不超过约300个核苷酸、不超过约200个核苷酸、不超过约100个核苷酸或不超过约50个核苷酸。
[0287] 在一些实施方案中,外源供体序列是长度为约80个核苷酸至约200个核苷酸(例如,长度为约120个核苷酸)的ssODN。在另一个示例中,外源供体序列是长度为约80个核苷酸至约3kb的ssODN。此类ssODN可以具有例如长度分别为约40个核苷酸至约60个核苷酸的同源臂。此类ssODN还可以具有例如长度分别为约30个核苷酸至约100个核苷酸的同源臂。同源臂可以是对称的(例如,长度分别为约40个核苷酸或约60个核苷酸),或者它们可以是不对称的(例如,一个同源臂的长度为约36个核苷酸,一个同源臂的长度为约91个核苷酸)。
[0288] 外源供体序列可以包括提供其他所需特征(例如,修饰或调控的稳定性;用荧光标记跟踪或检测;蛋白质或蛋白质复合物的结合位点;等等)的修饰或序列。外源供体序列可以包含一种或多种荧光标记、纯化标签、表位标签或其组合。例如,外源供体序列可包含一种或多种荧光标记(例如,荧光蛋白或者其他荧光团或染料),诸如至少1种、至少2种、至少3种、至少4种或至少5种荧光标记。示例性荧光标记包括荧光团,诸如荧光素(例如,6-羧基荧光素(6-FAM))、Texas Red、HEX、Cy3、Cy5、Cy5.5、Pacific Blue、5-(和-6)-羧基四甲基若丹明(TAMRA)和Cy7。商业上有许多荧光染料可用于标记寡核苷酸(例如,来自Integrated DNA Technologies的荧光染料)。此类荧光标记(例如,内部荧光标记)可以用于例如检测已经直接整合到切割的内源B4GALT1基因中的外源供体序列,所述切割的基因具有与外源供体的末端相容的突出末端。标记或标签可以在5'末端、3'末端或者在外源供体序列内部。例如,外源供体序列可以在5'末端与来自Integrated DNA Technologies的IR700荧光团(5’700)缀合。
[0289] 外源供体序列还可以包含核酸插入物,所述核酸插入物包括要整合到内源B4GALT1基因中的DNA片段。在内源B4GALT1基因中整合核酸插入物可以导致在内源B4GALT1基因中添加目标核酸序列、在内源B4GALT1基因中缺失目标核酸序列或在内源B4GALT1基因中替换目标核酸序列(即,缺失和插入)。一些外源供体序列被设计用于在内源B4GALT1基因中插入核酸插入物,而在内源B4GALT1基因中没有任何对应的缺失。其他外源供体序列被设计成在内源B4GALT1基因中缺失目标核酸序列,而没有核酸插入物的任何对应插入。其他外源供体序列被设计成在内源B4GALT1基因中缺失目标核酸序列,并用核酸插入物替换。
[0290] 内源B4GALT1基因中缺失和/或替换的核酸插入物和对应核酸可以具有各种长度。内源B4GALT1基因中缺失和/或替换的示例性核酸插入物或对应核酸的长度为约1个核苷酸至约5kb,或长度为约1个核苷酸至约1,000个核苷酸。例如,内源B4GALT1基因中缺失和/或替换的核酸插入物或对应核酸的长度可以为约1至约10、约10至约20、约20至约30、约30至约40、约40至约50、约50至约60、约60至约70、约70至约80、约80至约90、约90至约100、约100至约110、约110至约120、约120至约130、约130至约140、约140至约150、约150至约160、约
160至约170、约170至约180、约180至约190或约190至约200个核苷酸。同样,内源B4GALT1基因中缺失和/或替换的核酸插入物或对应核酸的长度可以为约1至约100、约100至约200、约
200至约300、约300至约400、约400至约500、约500至约600、约600至约700、约700至约800、约800至约900或约900至约1000个核苷酸。同样,内源B4GALT1基因中缺失和/或替换的核酸插入物或对应核酸的长度可以为约1kb至约1.5kb、约1.5kb至约2kb、约2kb至约2.5kb、约
2.5kb至约3kb、约3kb至约3.5kb、约3.5kb至约4kb、约4kb至约4.5kb或约4.5kb至约5kb。
[0291] 核酸插入物可以包含基因组DNA或任何其他类型的DNA。例如,核酸插入物可以包含cDNA。
[0292] 核酸插入物可以包含与全部或部分内源B4GALT1基因(例如,基因中编码B4GALT1多肽的特定基序或区域的一部分)同源的序列。例如,核酸插入物可以包含以下序列:与靶向在内源B4GALT1基因中进行替换的序列相比,所述序列包含一个或多个点突变(例如,1、2、3、4、5或更多个)或者一个或多个核苷酸插入或缺失。
[0293] 内源B4GALT1基因中缺失和/或替换的核酸插入物或对应核酸可以是编码区诸如外显子;非编码区诸如内含子、非翻译区或调控区(例如,启动子、增强子或转录阻遏子结合元件);或其任何组合。
[0294] 核酸插入物还可以包含编码选择标记的多核苷酸。可替代地,核酸插入物可以不含编码选择标记的多核苷酸。选择标记可以包含在选择盒中。在一些实施方案中,选择盒可以是自缺失盒。作为一个示例,自缺失盒可以包含与小鼠Prm1启动子可操作地连接的Cre基因(包含编码Cre重组酶的两个外显子,由内含子隔开)以及与人遍在蛋白启动子可操作地r连接的新霉素抗性基因。示例性选择标记包括新霉素磷酸转移酶(neo)、潮霉素B磷酸转移酶(hygr)、嘌呤霉素-N-乙酰基转移酶(puror)、杀稻瘟素S脱氨酶(bsrr)、黄嘌呤/鸟嘌呤磷酸核糖基转移酶(gpt)或单纯疱疹病毒胸苷激酶(HSV-k)或其组合。编码选择标记的多核苷酸可以与在靶向细胞中有活性的启动子可操作地连接。启动子的示例在本文其他地方描述。
[0295] 核酸插入物还可以包含报告基因。示例性报告基因包括编码以下蛋白的基因:荧光素酶、β-半乳糖苷酶、绿色荧光蛋白(GFP)、增强型绿色荧光蛋白(eGFP)、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)、增强型黄色荧光蛋白(eYFP)、蓝色荧光蛋白(BFP)、增强型蓝色荧光蛋白(eBFP)、DsRed、ZsGreen、MmGFP、mPlum、mCherry、tdTomato、mStrawberry、J-Red、mOrange、mKO、mCitrine、Venus、YPet、Emerald、CyPet、Cerulean、T-Sapphire和碱性磷酸酶。此类报告基因可以与在靶向细胞中有活性的启动子可操作地连接。启动子的示例在本文其他地方描述。
[0296] 核酸插入物还可以包含一个或多个表达盒或缺失盒。特定盒可以包含目标核苷酸序列、编码选择标记的多核苷酸以及报告基因中的一者或多者,以及影响表达的各种调控组件。可以包括的选择标记和报告基因的示例在本文其他地方详细讨论。
[0297] 核酸插入物可以包含侧接有位点特异性重组靶序列的核酸。可替代地,核酸插入物可以包含一个或多个位点特异性重组靶序列。尽管整个核酸插入物可以被此类位点特异性重组靶序列侧接,但是核酸插入物内的任何目标区域或单个目标多核苷酸也可以被此类位点侧接。可以侧接核酸插入物或核酸插入物中的任何目标多核苷酸的位点特异性重组靶序列可以包括例如loxP、lox511、lox2272、lox66、lox71、loxM2、lox5171、FRT、FRT11、FRT71、attp、att、FRT、rox或其组合。在一些实施方案中,位点特异性重组位点侧接核酸插入物内包含的编码选择标记和/或报告基因的多核苷酸。将核酸插入物整合到内源B4GALT1基因中之后,可以去除位点特异性重组位点之间的序列。在一些实施方案中,可以使用两个外源供体序列,每个外源供体序列具有包含位点特异性重组位点的核酸插入物。外源供体序列可以靶向侧接目标核酸的5'和3'区域。将两个核酸插入物整合到靶基因组基因座中之后,可以去除两个插入的位点特异性重组位点之间的目标核酸。
[0298] 核酸插入物还可以包含限制性核酸内切酶(即,限制性酶)的一个或多个限制性位点,所述限制性核酸内切酶包括I型、II型、III型和IV型核酸内切酶。I型和III型限制性核酸内切酶识别特定识别序列,但是通常在距核酸酶结合位点的可变位置处切割,所述核酸酶结合位点可以与切割位点(识别序列)相距数百个碱基对。在II型系统中,限制活性与任何甲基化酶活性无关,并且切割通常发生在结合位点内或附近的特定位点。大多数II型酶会切割回文序列,但是IIa型酶会识别非回文识别序列并在识别序列之外切割,IIb型酶会在识别序列之外的两个位点两次切割序列,并且IIs型酶会识别不对称识别序列并在一侧上与识别序列的限定距离为约1至约20个核苷酸处切割。IV型限制性酶靶向甲基化DNA。
[0299] 在一些实施方案中,外源供体序列在5'末端和/或3'末端具有短单链区域,所述区域与靶基因组基因座处(例如,B4GALT1基因中)由核酸酶介导的或Cas蛋白介导的切割产生的一个或多个短悬端互补。这些短悬端也可以称为5'和3'同源臂。例如,一些外源供体序列在5'末端和/或3'末端具有短单链区,所述区域与靶基因组基因座处在5'和/或3'靶序列处由Cas蛋白介导的切割产生的一个或多个短悬端互补。在一些实施方案中,此类外源供体序列仅在5'末端或仅在3'末端具有互补区域。例如,一些此类外源供体序列仅在5'末端具有与靶基因组基因座处在5'靶序列处产生的短悬端互补的互补区域,或仅在3'末端具有与靶基因组基因座处在3'靶序列处产生的短悬端互补的互补区域。其他此类外源供体序列在5'和3'末端都具有互补区域。例如,其他此类外源供体序列在5'和3'末端都具有例如分别与靶基因组基因座处由Cas介导的切割产生的第一短悬端和第二短悬端互补的互补区域。例如,如果外源供体序列是双链的,则单链互补区域可以从供体序列顶部链的5'末端和从供体序列底部链的5'末端,从而在每个末端形成5'短悬端。可替代地,单链互补区域可以从供体序列顶部链的3'末端和从模板底部链的3'末端延伸,从而形成3'短悬端。
[0300] 互补区域可以具有足以促进外源供体序列与内源B4GALT1基因之间连接的任何长度。示例性互补区域的长度为约1至约5个核苷酸、约1至约25个核苷酸或约5至约150个核苷酸。例如,互补区域的长度可以为至少约1、至少约2、至少约3、至少约4、至少约5、至少约6、至少约7、至少约8、至少约9、至少约10、至少约11、至少约12、至少约13、至少约14、至少约15、至少约16、至少约17、至少约18、至少约19、至少约20、至少约21、至少约22、至少约23、至少约24或至少约25个核苷酸。可替代地,互补区域的长度可以为约5至约10、约10至约20、约
20至约30、约30至约40、约40至约50、约50至约60、约60至约70、约70至约80、约80至约90、约
90至约100、约100至约110、约110至约120、约120至约130、约130至约140、约140至约150个核苷酸或更长。
[0301] 此类互补区域可以与由两对切口酶产生的短悬端互补。可以通过使用切割DNA相对链以产生第一双链断裂的第一切口酶和第二切口酶以及切割DNA相对链以产生第二双链断裂的第三切口酶和第四切口酶来产生具有交错末端的双链断裂。例如,Cas蛋白可以用于在与第一引导RNA、第二引导RNA、第三引导RNA和第四引导RNA相对应的第一引导RNA识别序列、第二引导RNA识别序列、第三引导RNA识别序列和第四引导RNA识别序列上形成切口。可以将第一引导RNA识别序列和第二引导RNA识别序列定位成产生第一切割位点,使得DNA的第一链和第二链上由第一切口酶和第二切口酶产生的切口形成双链断裂(即,第一切割位点包括第一引导RNA识别序列和第二引导RNA识别序列内的切口)。同样,可以将第三引导RNA识别序列和第四引导RNA识别序列定位成产生第二切割位点,使得DNA的第一链和第二链上由第三切口酶和第四切口酶产生的切口形成双链断裂(即,第二切割位点包括第三引导RNA识别序列和第四引导RNA识别序列内的切口)。在一些实施方案中,第一引导RNA识别序列和第二引导RNA识别序列以及/或者第三引导RNA识别序列和第四引导RNA识别序列内的切口可以是形成短悬端的偏移切口。偏移窗口可以为例如至少约5bp、至少约10bp、至少约20bp、至少约30bp、至少约40bp、至少约50bp、至少约60bp、至少约70bp、至少约80bp、至少约90bp、至少约100bp或更大。在此类实施方案中,双链外源供体序列可以被设计有单链互补区域,所述单链互补区域与由第一引导RNA识别序列和第二引导RNA识别序列内的切口以及由第三引导RNA识别序列和第四引导RNA识别序列内的切口产生的短悬端互补。然后可以通过非同源末端连接介导的连接插入这种外源供体序列。
[0302] 在一些实施方案中,外源供体序列(即,靶向载体)包含同源臂。如果外源供体序列还包含核酸插入物,则同源臂可以侧接核酸插入物。为了便于参考,同源臂在本文中称为5'和3'(即上游和下游)同源臂。该术语涉及同源臂与核酸插入物在外源供体序列内的相对位置。
[0303] 当同源臂和靶序列彼此共有足够水平的序列同一性以充当同源重组反应的底物时,这两个区域彼此对应。特定靶序列与在外源供体序列中发现的对应同源臂之间的序列同一性可以是允许同源重组发生的任何程度的序列同一性。例如,外源供体序列(或其片段)的同源臂和靶序列(或其片段)共有的序列同一性的量可以为至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少
93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的序列同一性,使得所述序列进行同源重组。此外,同源臂与对应靶序列之间的对应同源区域可以具有足以促进同源重组的任何长度。示例性同源臂的长度为约25个核苷酸至约2.5kb、约25个核苷酸至约1.5kb或约25个核苷酸至约500个核苷酸。例如,给定同源臂(或每个同源臂)和/或对应靶序列可以包含长度为约25至约30、约30至约40、约40至约50、约50至约60、约60至约
70、约70至约80、约80至约90、约90至约100、约100至约150、约150至约200、约200至约250、约250至约300、约300至约350、约350至约400、约400至约450或约450至约500个核苷酸的对应同源区域,使得同源臂具有足以与内源B4GALT1基因内对应靶序列进行同源重组的同源性。可替代地,特定同源臂(或每个同源臂)和/或对应靶序列可以包含长度为约0.5kb至约
1kb、约1kb至约1.5kb、约1.5kb至约2kb或约2kb至约2.5kb的对应同源区域。例如,同源臂的长度可以分别为约750个核苷酸。同源臂可以是对称的(每个的长度大致相同),也可以是不对称的(一个长于另一个)。
[0304] 同源臂可以与细胞天然的基因座(例如,靶基因座)相对应。可替代地,它们可以与整合到细胞基因组中的异源或外源DNA区段的某个区域(包括例如转基因、表达盒或者异源或外源DNA区域)相对应。在一些实施方案中,靶向载体的同源臂可以与酵母人工染色体(YAC)、细菌人工染色体(BAC)、人类人工染色体的某个区域或者适当的宿主细胞中包含的任何其他工程化区域相对应。在一些实施方案中,靶向载体的同源臂可以与BAC文库、粘粒文库或P1噬菌体文库的某个区域相对应或来源于这些文库,或者可以来源于合成DNA。
[0305] 当核酸酶剂与外源供体序列组合使用时,5'和3'靶序列一般位于距离核酸酶切割位点足够近的位置,以在核酸酶切割位点处产生单链断裂(切口)或双链断裂时促进靶序列与同源臂之间发生同源重组事件。核酸酶切割位点包括切口或双链断裂通过核酸酶剂(例如,与引导RNA复合的Cas9蛋白)在该处产生的DNA序列。如果内源B4GALT1基因内与外源供体序列的5'和3'同源臂相对应的靶序列与核酸酶切割位点的距离能够在核酸酶切割位点处形成单链断裂或双链断裂时促进5'和3'靶序列与同源臂之间的同源重组事件的发生,则所述靶序列与核酸酶切割位点“足够接近”。因此,与外源供体序列的5'和/或3'同源臂相对应的靶序列可以例如在给定核酸酶切割位点的至少1个核苷酸内或在特定核酸酶切割位点的至少10个核苷酸至约1,000个核苷酸内在一些实施方案中,核酸酶切割位点可以紧邻靶序列中的至少一个或两个。
[0306] 与外源供体序列的同源臂相对应的靶序列和核酸酶切割位点的空间关系可以变化。在一些实施方案中,靶序列可以位于核酸酶切割位点的5',靶序列可以位于核酸酶切割位点的3',或者靶序列可以侧接核酸酶切割位点。
[0307] 本公开还提供了使用本文公开的用于修饰或改变内源B4GALT1基因表达的方法来治疗或预防患有心血管疾患或有发生心血管疾患风险的受试者的心血管疾患的治疗方法和方法。本公开内容还提供了使用减少内源B4GALT1 mRNA表达的方法或者使用向患有心血管疾患或有发生心血管疾患风险的受试者提供编码B4GALT1多肽的重组核酸、提供编码B4GALT1多肽的mRNA或提供B4GALT1多肽的方法来治疗或预防所述受试者的心血管疾患的治疗方法和方法。所述方法可以包括将一种或多种核酸分子或蛋白质引入受试者体内、受试者的器官中或受试者的细胞(例如,体内或离体)中。
[0308] 在一些实施方案中,本公开提供了用于疗法的编码B4GALT1多肽的mRNA(例如,本文讨论的多核苷酸,例如包含SEQ ID NO:4的序列的mRNA)。在一些此类实施方案中,所述疗法正在治疗或预防心血管疾患。
[0309] 在一些实施方案中,本公开提供了用于疗法的B4GALT1多肽(例如,本文讨论的多肽,例如包含SEQ ID NO:8的序列的多肽)。在一些此类实施方案中,所述疗法正在治疗或预防心血管疾患。
[0310] 受试者包括接受预防性或治疗性治疗的人类以及其他哺乳动物受试者(例如,猫科动物、犬科动物、啮齿动物、小鼠或大鼠)或非哺乳动物受试者(例如,家禽)。此类受试者可以是例如不是变体B4GALT1的携带者(或仅是变体B4GALT1的杂合携带者)并且患有心血管疾患或易发心血管疾患的受试者(例如,人类)。
[0311] 心血管疾患的非限制性示例包括一种或多种血清脂质水平升高。血清脂质包括胆固醇、LDL、HDL、甘油三酯、HDL胆固醇和非HDL胆固醇或它们的任何亚组分(例如,HDL2、HDL2a、HDL2b、HDL2c、HDL3、HDL3a、HDL3b、HDL3c、HDL3d、LDL1、LDL2、LDL3、脂蛋白A、Lpa1、Lpa1、Lpa3、Lpa4或Lpa5)中的一种或多种。心血管疾患可包括冠状动脉钙化水平升高。心血管疾患能包括IId型糖基化(CDG-IId)。心血管疾患可包括心包脂肪水平升高。心血管疾患可包括动脉粥样硬化血栓形成疾患。动脉粥样硬化血栓形成疾患可包括纤维蛋白原水平升高。动脉粥样硬化血栓形成疾患可包括纤维蛋白原介导的血凝块。心血管疾患可包括纤维蛋白原水平升高。心血管疾患可包括纤维蛋白原介导的血凝块。心血管疾患可包括由纤维蛋白原活性参与形成的血凝块。纤维蛋白原介导的血凝块或由纤维蛋白原活性参与形成的血凝块可在人体的任何静脉或动脉中。
[0312] 此类方法可以包括基因组编辑或基因治疗。例如,可以对不是变体B4GALT1的内源B4GALT1基因进行修饰以包含与变体B4GALT1相关的变异(即,在与全长/成熟B4GALT1多肽的位置352相对应的位置处用丝氨酸替换天冬酰胺)。作为另一个示例,可以敲除或灭活不是变体B4GALT1的内源B4GALT1基因。同样,可以敲除或灭活不是变体B4GALT1的内源B4GALT1基因,并且可以引入并表达包含与变体B4GALT1相关的修饰的B4GALT1基因(例如,完整的变体B4GALT1或包含所述修饰的小基因)。类似地,可以敲除或灭活不是变体B4GALT1的内源B4GALT1基因,并且可以引入并表达编码B4GALT1变体多肽的重组DNA,可以引入并表达编码B4GALT1变体多肽的mRNA(例如,细胞内蛋白替代疗法),并且/或者可以引入变体B4GALT1多肽(例如,蛋白替代疗法)。
[0313] 在一些实施方案中,所述方法包括引入并表达包含与B4GALT1rs551564683变体相关的修饰的重组B4GALT1基因(例如,完整的变体B4GALT1或包含所述修饰的小基因),引入并表达编码变体B4GALT1多肽或其片段的重组核酸(例如,DNA),引入并表达编码变体B4GALT1多肽或其片段的一种或多种mRNA(例如,细胞内蛋白替代疗法),或者引入变体B4GALT1多肽或其片段(例如,蛋白替代疗法),而无需敲除或灭活不是变体B4GALT1的内源B4GALT1基因。在一些实施方案中,此类方法也可以与如下方法组合进行:其中诸如通过使用反义RNA、siRNA或shRNA靶向不是变体B4GALT1的内源B4GALT1 mRNA,以减少表达。
[0314] B4GALT1基因或小基因或者编码变体B4GALT1多肽或其片段的DNA可以以不修饰基因组的表达载体的形式引入并表达,也可以以使得其可以在基因组上整合到内源B4GALT1基因座中的靶向载体的形式引入,也可以以使得其在基因组上整合到内源B4GALT1基因座以外的基因座(诸如安全港基因座)中的形式引入。基因组整合的B4GALT1基因可以与B4GALT1启动子或另一启动子(诸如整合位点的内源启动子)可操作地连接。安全港基因座是其中转基因可以在所有目标组织中稳定可靠地表达而不会不利地影响基因结构或表达的染色体位点。安全港基因座可以具有例如以下一个或多个或者全部特征:1)与任何基因的5'端的距离大于约50kb;与任何癌症相关基因的距离大于约300kb;与任何microRNA的距离大于约300kb;在基因转录单位之外并且在超保守区域之外。合适的安全港基因座的示例包括但不限于腺相关病毒位点1(AAVS1)、趋化因子(CC基序)受体5(CCR5)基因基因座和小鼠ROSA26基因座的人类同源物。
[0315] 在一些实施方案中,所述方法包括治疗不是变体B4GALT1的携带者(或仅是变体B4GALT1的杂合携带者)并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括:将以下物质引入受试者体内或引入受试者细胞中:a)与内源B4GALT1基因内的核酸酶识别序列结合的核酸酶剂(或编码核酸酶剂的核酸),其中所述核酸酶识别序列包括或接近SEQ ID NO:1的位置53575至53577;b)外源供体序列,所述外源供体序列包含与SEQ ID NO:1的位置53575至53577的靶序列5'杂交的5'同源臂,以及包含编码丝氨酸的核酸序列的、被
5'同源臂和3'同源臂侧接的核酸插入物。核酸酶剂可以切割受试者细胞中的内源B4GALT1基因,并且外源供体序列可以与细胞中的内源B4GALT1基因重组,其中在外源供体序列与内源B4GALT1基因重组后,编码丝氨酸的核酸序列被插入与SEQ ID NO:1的位置53575至53577相对应的核苷酸处。可以用于此类方法中的核酸酶剂(例如,Cas9蛋白和引导RNA)的示例在本文其他地方公开。
[0316] 在一些实施方案中,所述方法包括治疗不是变体B4GALT1的携带者(或仅是变体B4GALT1的杂合携带者)并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括:将外源供体序列引入受试者体内或引入受试者细胞中,所述外源供体序列包含与对应于SEQ ID NO:1的位置53575至53577的位置的5'靶序列杂交的5'同源臂、与SEQ ID NO:1的位置53575至53577的3'靶序列杂交的3'同源臂,以及包含编码丝氨酸的核酸序列的、被5'同源臂和3'同源臂侧接的核酸插入物。外源供体序列可以与细胞中的内源B4GALT1基因重组,其中在外源供体序列与内源B4GALT1基因重组后,编码丝氨酸的核苷酸序列被插入与SEQ ID NO:1的位置53575至53577相对应的核苷酸处。
[0317] 一些此类方法包括治疗不是变体B4GALT1的携带者(或仅是变体B4GALT1的杂合携带者)并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括将以下物质引入受试者体内或引入受试者细胞中:a)与内源B4GALT1基因内的核酸酶识别序列结合的核酸酶剂(或编码核酸酶剂的核酸),其中所述核酸酶识别序列包含内源B4GALT1基因的起始密码子,或在所述起始密码子的约10、约20、约30、约40、约50、约100、约200、约300、约400、约500或约1,000个核苷酸内,或选自SEQ ID NO:9-12。核酸酶剂可以切割并破坏受试者细胞中的内源B4GALT1基因的表达。
[0318] 在一些实施方案中,所述方法包括治疗不是变体B4GALT1的携带者(或仅是变体B4GALT1的杂合携带者)并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括将以下物质引入受试者体内或引入受试者细胞中:a)与内源B4GALT1基因内的核酸酶识别序列结合的核酸酶剂(或编码核酸酶剂的核酸),其中所述核酸酶识别序列包含内源B4GALT1基因的起始密码子或者在所述起始密码子的约10、约20、约30、约40、约50、约100、约200、约300、约400、约500或约1,000个核苷酸内或者选自SEQ ID NO:9-12;以及b)包含重组B4GALT1基因的表达载体,所述重组基因在与全长/成熟B4GALT1多肽的位置352相对应的位置处包含编码丝氨酸的位置53575至53577处的核苷酸序列。表达载体可以是不在基因组上进行整合的载体。可替代地,可以引入包含重组B4GALT1基因的靶向载体(即,外源供体序列),所述重组基因在与全长/成熟B4GALT1多肽的位置352相对应的位置处包含编码丝氨酸的位置53575至53577处的核苷酸序列。核酸酶剂可以切割并破坏受试者细胞中的B4GALT1基因的表达,并且表达载体可以在受试者细胞中表达重组B4GALT1基因。可替代地,基因组整合的重组B4GALT1基因可以在受试者细胞中表达。可以用于此类方法中的核酸酶剂(例如,有核酸酶活性的Cas9蛋白和引导RNA)的示例在本文其他地方公开。合适的引导RNA和引导RNA识别序列的示例也在本文其他地方公开。步骤b)可以可替代地包括引入表达载体或靶向载体,所述表达载体或靶向载体包含编码与变体B4GALT1 Asn352Ser多肽或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的B4GALT1多肽的核酸(例如,DNA)并且/或者包含与变体B4GALT1 mRNA或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的序列。同样,步骤b)还可以包括引入mRNA,所述mRNA编码与变体B4GALT1 Asn352Ser多肽或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的B4GALT1 Asn352Ser多肽并且/或者具有与变体B4GALT1 mRNA或其片段的同一性为至少90%、至少95%、至少
96%、至少97%、至少98%、至少99%或100%的互补DNA(或其部分)。同样,步骤b)还可以包括引入蛋白质,所述蛋白质包含与变体B4GALT1 Asn352Ser多肽或其片段的同一性为至少
90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的氨基酸序列。
[0319] 在一些实施方案中,还将第二核酸酶剂引入受试者体内或受试者细胞中,其中所述第二核酸酶剂与内源B4GALT1基因内的第二核酸酶识别序列结合,其中所述第二核酸酶识别序列包含内源B4GALT1基因的终止密码子或者在所述终止密码子的约10、约20、约30、约40、约50、约100、约200、约300、约400、约500或约1,000个核苷酸内或者选自SEQ ID NO:9-12,其中所述核酸酶剂在第一核酸酶识别序列和第二核酸酶识别序列内切割细胞中的内源B4GALT1基因,其中所述细胞被修饰为在第一核酸酶识别序列与第二核酸酶识别序列之间包含缺失。在一些实施方案中,第二核酸酶剂可以是Cas9蛋白和引导RNA。合适的引导RNA以及接近终止密码子的引导RNA识别序列在本文其他地方公开。
[0320] 在一些实施方案中,所述方法还可以包括治疗不是变体B4GALT1的携带者(或仅是变体B4GALT1的杂合携带者)并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括将以下物质引入受试者体内或引入受试者细胞中:与内源B4GALT1 mRNA内的区域内的序列杂交的反义RNA、siRNA或shRNA。例如,反义RNA、siRNA或shRNA可以与SEQ ID NO:3(B4GALT1 mRNA)的外显子5中的区域内的序列杂交并且降低受试者细胞中的B4GALT1 mRNA的表达。在一些实施方案中,此类方法还可以包括将包含重组B4GALT1基因的表达载体引入受试者体内,所述重组基因包含在SEQ ID NO:2的位置53575至53577处插入的编码丝氨酸的核苷酸序列。表达载体可以是不在基因组上进行整合的载体。可替代地,可以引入包含重组B4GALT1基因的靶向载体(即,外源供体序列),所述重组基因在与SEQ ID NO:2的位置53575至53577相对应的位置处包含编码丝氨酸的核酸序列。在使用表达载体的方法中,表达载体可以在受试者细胞中表达重组B4GALT1基因。可替代地,在重组B4GALT1基因被基因组整合的方法中,重组B4GALT1基因可以在受试者细胞中表达。
[0321] 在一些实施方案中,此类方法可以可替代地包括引入表达载体或靶向载体,所述表达载体或靶向载体包含编码与变体B4GALT1Asn352Ser多肽或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的B4GALT1多肽的核酸(例如,DNA)并且/或者包含与变体B4GALT1 mRNA或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的序列。同样,此类方法可以可替代地包括引入mRNA,所述mRNA编码与变体B4GALT1 Asn352Ser多肽或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的多肽并且/或者具有与变体B4GALT1 mRNA或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的互补DNA(或其部分)。同样,此类方法可以可替代地包括引入多肽,所述多肽包含与变体B4GALT1 Asn352Ser多肽或其片段的同一性为至少90%、至少95%、至少
96%、至少97%、至少98%、至少99%或100%的序列。
[0322] 在一些实施方案中,此类方法可以包括治疗不是变体B4GALT1的携带者(或仅是变体B4GALT1的杂合携带者)并且患有心血管疾患或易发心血管疾患的受试者的方法,所述方法包括将表达载体引入受试者体内或引入受试者细胞中,其中所述表达载体包含重组B4GALT1基因,所述重组基因在与全长/成熟B4GALT1多肽的位置352相对应的位置处包含编码丝氨酸的位置53575至53577处的核苷酸序列,其中所述表达载体在受试者细胞中表达重组B4GALT1基因。表达载体可以是不在基因组上进行整合的载体。可替代地,可以引入包含重组B4GALT1基因的靶向载体(即,外源供体序列),所述重组基因在与全长/成熟B4GALT1多肽的位置352相对应的位置处包含SEQ ID NO:2的编码丝氨酸的位置53575至53577处的核苷酸序列。在使用表达载体的方法中,表达载体可以在受试者细胞中表达重组B4GALT1基因。可替代地,在重组B4GALT1基因被基因组整合的方法中,重组B4GALT1基因可以在受试者细胞中表达。
[0323] 此类方法可以可替代地包括引入表达载体或靶向载体,所述表达载体或靶向载体包含编码与变体B4GALT1 Asn352Ser多肽或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的B4GALT1多肽的核酸(例如,DNA)并且/或者包含与变体B4GALT1 mRNA或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的序列。同样,此类方法可以可替代地包括引入mRNA,所述mRNA编码与变体B4GALT1多肽或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的多肽并且/或者具有与变体B4GALT1 mRNA或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的互补DNA(或其部分)。同样,此类方法可以可替代地包括引入蛋白质,所述蛋白质包含与变体B4GALT1 Asn352Ser多肽或其片段的同一性为至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的序列。
[0324] 用于任何上述方法中的合适的表达载体和重组B4GALT1基因在本文其他地方公开。例如,重组B4GALT1基因可以是完整的B4GALT1变体基因,或者可以是B4GALT1小基因,其中相对于对应的野生型B4GALT1基因缺失了所述基因的一个或多个非必需区段。例如,缺失区段可以包含一个或多个内含子序列,并且小基因可以包含外显子1至6。完整的B4GALT1变体基因的示例是与SEQ ID NO:2的同一性为至少90%、至少95%、至少96%、至少97%、至少
98%、至少99%或100%的变体基因。
[0325] 在一些实施方案中,此类方法包括修饰患有心血管疾患或易发心血管疾患的受试者体内的细胞的方法。在此类方法中,可以经由以有效方案进行施用将核酸酶剂和/或外源供体序列和/或重组表达载体引入细胞中,所述有效方案意味着施用剂量、施用途径和施用频率能够延迟发作、降低严重性、抑制进一步恶化和/或改善所治疗的心血管疾患的至少一种体征或症状。术语“症状”是指受试者所感知的疾病的主观迹象,而“体征”是指医生所观察到的疾病的客观迹象。如果受试者已经罹患疾病,则所述方案可以被称为治疗有效方案。如果受试者相对于一般人群处于较高的疾病风险中,但尚未出现症状,则所述方案可以被称为预防有效方案。在一些情况下,可以相对于同一受试者的历史对照或过去经历在单个患者中观察到治疗或预防功效。在其他情况下,可以在临床前或临床试验中相对于未治疗受试者的对照人群在治疗受试者的人群中证明治疗或预防功效。
[0326] 递送可以是任何合适的方法,如本文其他地方公开。例如,可以通过例如载体递送、病毒递送、颗粒介导的递送、纳米颗粒介导的递送、脂质体介导的递送、外泌体介导的递送、脂质介导的递送、脂质-纳米颗粒介导的递送、细胞穿透肽介导的递送或可植入装置介导的递送来递送核酸酶剂或外源供体序列或重组表达载体。具体示例包括流体动力学递送、病毒介导的递送和脂质-纳米颗粒介导的递送。
[0327] 可以通过任何合适的途径进行施用,包括但不限于肠胃外、静脉内、口服、皮下、动脉内、颅内、鞘内、腹膜内、局部、鼻内或肌内。例如,经常用于蛋白替代疗法的具体示例是静脉内输注。施用频率和剂量数量可以取决于核酸酶剂或外源供体序列或重组表达载体的半衰期、受试者的状况以及施用途径以及其他因素。用于施用的药物组合物最好是无菌的且基本上是等渗的,并且在GMP条件下制造。可以以单位剂型(即,单次施用的剂量)提供药物组合物。可以使用一种或多种生理学和药学上可接受的载剂、稀释剂、赋形剂或助剂来配制药物组合物。制剂取决于所选的施用途径。术语“药学上可接受的”是指载剂、稀释剂、赋形剂或助剂与制剂的其他成分相容并且对其接受者基本上无害。
[0328] 其他此类方法包括在来自患有或易发心血管疾患的受试者的细胞中的离体方法。然后可以将具有靶向遗传修饰的细胞移植回受试者体内。
[0329] 本公开提供了通过本文所述的任何方法减少内源野生型B4GALT1的表达或增加B4GALT1 Asn352Ser的表达来降低有需要的受试者体内的LDL的方法。本公开提供了通过本文所述的任何方法减少内源野生型B4GALT1的表达或增加B4GALT1 Asn352Ser的表达来降低有需要的受试者体内的总胆固醇的方法。本公开提供了通过本文所述的任何方法减少内源野生型B4GALT1的表达或增加B4GALT1Asn352Ser的表达来降低有需要的受试者体内的纤维蛋白原的方法。本公开提供了通过本文所述的任何方法减少内源野生型B4GALT1的表达或增加B4GALT1 Asn352Ser的表达来降低有需要的受试者体内的eGFR的方法。本公开提供了通过本文所述的任何方法减少内源野生型B4GALT1的表达或增加B4GALT1 Asn352Ser的表达来增加有需要的受试者体内的AST而不是ALT的方法。本公开提供了通过本文所述的任何方法减少内源野生型B4GALT1的表达或增加B4GALT1 Asn352Ser的表达来增加有需要的受试者体内的肌酸酐的方法。
[0330] 本公开还提供了诊断发生心血管疾患的风险或诊断发生心血管疾患的风险并治疗有需要的受试者的心血管疾患的方法,所述方法包括:要求进行测试以提供来自受试者的样品中是否存在如本文所述的变体B4GALT1基因、mRNA、cDNA或多肽的分析结果;并且在那些不具有变体B4GALT1基因、mRNA、cDNA或多肽的受试者中,向所述受试者施用如本文所述的治疗剂。可以使用本文所述的任何测试,从而确定是否存在变体B4GALT1基因、mRNA、cDNA或多肽。
[0331] 本公开内容还提供了本文公开的任何变体B4GALT1基因、mRNA、cDNA、多肽和杂交核酸分子在制造用于降低有需要的受试者体内的LDL、总胆固醇、纤维蛋白原、eGFR并增加AST(而不是ALT)和肌酸酐的药物中的用途。本公开还提供了任何变体B4GALT1基因、mRNA、cDNA、多肽和杂交核酸分子在制造用于治疗冠状动脉疾病、冠状动脉钙化和相关疾病的药物中的用途。
[0332] 本公开内容还提供了本文公开的任何变体B4GALT1基因、mRNA、cDNA、多肽和杂交核酸分子用于降低有需要的受试者体内的LDL、总胆固醇、纤维蛋白原、eGFR并增加AST(而不是ALT)和肌酸酐的用途。
[0333] 本公开还提供了任何变体B4GALT1基因、mRNA、cDNA、多肽和杂交核酸分子用于治疗冠状动脉疾病、冠状动脉钙化、IId型糖基化(CDG-IId)和相关疾病的用途。
[0334] 本公开还提供了本文公开的任何变体B4GALT1基因、mRNA、cDNA、多肽和杂交核酸分子用于修饰有需要的受试者体内的细胞中的B4GALT1基因的用途。
[0335] 本公开还提供了本文公开的任何变体B4GALT1基因、mRNA、cDNA、多肽和杂交核酸分子用于改变有需要的受试者体内的细胞中B4GALT1基因的表达的用途。
[0336] 本公开还提供了本文公开的任何变体B4GALT1基因、mRNA、cDNA、多肽和杂交核酸分子用于诊断发生本文公开的任何心血管疾患的风险的用途。
[0337] 本公开还提供了本文公开的任何变体B4GALT1基因、mRNA、cDNA、多肽和杂交核酸分子用于诊断患有本文公开的任何心血管疾患的受试者的用途。
[0338] 上文或下文引用的所有专利文献、网站、其他公开、登录号等全文通过引用并入用于所有目的,其程度如同每个单独项被确切且单独地指明通过引用如此并入。如果序列的不同版本在不同时间与登录号相关联,则是指在本申请的有效提交日与登录号相关联的版本。有效提交日是指实际提交日或优先权申请的提交日中较早的一者,如果适用,请参考登录号。同样,如果公开、网站等的不同版本在不同时间发布,则除非另外指出,否则是指在本申请的有效提交日最近发布的版本。除非另外明确指出,否则本公开的任何特征、步骤、要素、实施方案或方面可以与任何其他特征、步骤、要素、实施方案或方面组合使用。尽管出于清楚和理解的目的已经通过例示和示例的方式相当详细地描述了本公开,但是显然可在所附权利要求的范围内进行某些改变和修改。
[0339] 使用核苷酸碱基的标准字母缩写以及氨基酸的单字母代码示出了本文所述的核苷酸和氨基酸序列。核苷酸序列遵循以下标准惯例:从序列的5'端开始,向前(即,在每行中从左到右)继续到3'端。仅显示每个核苷酸序列的一条链,但是对所显示链的任何提及均应理解为包括互补链。氨基酸序列遵循以下标准惯例:从序列的氨基末端开始,向前(即,在每行中从左到右)继续到羧基末端。
[0340] 提交于2018年4月18日的美国申请号62/659,344、提交于2017年8月25日的美国申请号62/550,161以及提交于2017年6月5日的美国申请号62/515,140全文通过引用并入本文。
[0341] 提供以下实施例以更详细地描述实施方案。这些实施例旨在说明而非限制要求保护的实施方案。
[0342] 实施例
[0343] 实施例1:在全基因组统计显著性上确定染色体9p.21上与血清脂质性状相关联的新基因座
[0344] 材料和方法:
[0345] 芯片基因分型和QC:从OOA个体的全血中提取基因组DNA,并使用picogreen进行定量。马里兰大学生物聚合物核心实验室(University of Maryland Biopolymer Core Facility)利用Affymetrix 500K和6.0芯片进行全基因组基因分型。使用BRLMM算法进行基因型识别。识别率小于0.93、孟德尔错误水平高或性别不匹配的样品被排除。识别率小于
0.95、HWEpval小于1.0E-6或MAF小于0.01的SNP被排除。X和Y染色体上的SNP以及线粒体基因组也被排除。
[0346] WGS和QC:文库制备和全基因组测序由麻省理工学院和哈佛大学博德研究所(Broad Institute of MIT and Harvard)进行。密歇根大学NHLBI信息学资源核心实验室(NHLBI Informatics Resource Core at the University of Michigan)对所有TOPMed样品进行比对、碱基识别和序列质量评分,并为通过读取深度为至少10的所有质量过滤器的所有变体提供bcf文件,将该文件用于分析。对该文件施加进一步的QC,包括去除LCR中的所有位点或X染色体。缺失率大于5%、HWE p值小于1.0E-09且MAF小于0.1%的变体也被去除。
进行样品QC以去除缺失率大于5%、孟德尔错误水平高(在一些情况下)或同卵(MZ)双胞胎(每对中的一个)的样品。
[0347] WES和QC:外显子组捕获和测序在再生元遗传学中心(Regeneron Genetics Center)(RGC)进行,如下文更详细描述。简要地说,利用v4化学方法使用双端75bp读段在Illumina HiSeq 2500平台上对捕获的文库进行测序。对捕获的碱基进行双端测序以使
85%以上的碱基的覆盖率达到20倍或更高,这足以在大部分靶向碱基中识别杂合变体。使用如在RGC DNAseq分析流程中实现的BWA-MEM和GATK进行读段比对和变体识别。识别率小于0.90、孟德尔错误水平高、同卵(MZ)双胞胎(每对中的一个)或性别不匹配的样品被排除。
识别率小于0.90的SNP和单态SNP也被排除。X和Y染色体中的SNP以及线粒体基因组也被排除。
[0348] 关联分析:采集空腹血样用于脂质分析。使用Friedewald公式计算LDL,并且在一些分析中,通过将LDL水平除以0.7来对接受降脂药物的受试者进行了调整。使用线性混合模型进行遗传关联分析,以使用基于系谱的亲属关系矩阵和/或根据WES估计亲属关系的家族校正来解释家族相关性。还针对年龄、年龄平方、性别、群组和APOB R3527Q基因型对分析进行了调整。阿米什人中富含APOB R3527Q,并且之前已经鉴定APOB R3527Q对LDL水平(58mg/dl)有很大作用(Shen等人,Arch Intern.Med.,2010,170,1850-1855),并因此考虑了该变体在LDL分析中的作用。将全基因组校正后的p值5.0E-08用作显著性阈值。
[0349] 使用全基因组关联研究(GWAS)鉴定染色体9p区域与LDL之间的关联:
[0350] 为了鉴定新基因中与心血管疾患风险因素相关联的致病变体,使用利用Affymetrix 500K和6.0芯片基因分型的1852名旧秩阿米什人(Old Order Amish)受试者进行全基因组关联分析。这些参与者的基本特征在表1中示出。
[0351] 表1:研究人群的基本特征
[0352]
[0353]
[0354] GWAS发现样品中包括几乎所有的WGS精细作图样品(96%)。
[0355] GWAS或WGS样品中仅包括30%的WES样品。
[0356] 如图1所示,发现LDL与染色体9p上的基因座之间存在很强的新关联信号。最相关(lead associated)的SNP是rs855453(p=2.2E-08),并且在阿米什人中的频率为15%,而在一般人群中的频率为25%。次要“T”等位基因与LDL水平降低10mg/dl有关。因此,该GWAS SNP在阿米什人和非阿米什人中都很常见,并且作用很大,但是从未在任何大型GWAS荟萃分析中被鉴定。这些特征与之前的研究(APOC3和LIPE)相匹配,并据此得出以下结论:该GWAS SNP不是该区域中的因果/功能变体,而是与在一般人群中罕见但在阿米什人群中常见的另一变体连不平衡(LD)。此外,基于多个品种的5个独立杂交进行的多个研究还发现,大鼠基因组中位于大鼠5号染色体上的同线区域具有血清胆固醇和甘油三酯水平的QTL(大鼠基因组数据库(RGD),Scl12.26.35.44、54和Stl 28)。
[0357] 使用全外显子组测序(WES)进行确认:
[0358] 随后对4,565名阿米什人个体进行高质量QC和WES,这些个体的基本特征在表1中示出。对LDL进行混合模型全外显子组分析的结果将B4GALT1 rs551564683错义变体鉴定为最显著关联,其p值为3.3E-18并且作用大小为LDL降低14.7mg/dl。rs551564683变体在阿米什人中的MAF为6%,而在一般人群中极为罕见。该变体在dbSNP中没有频率或群体信息,在ExAC数据库(60,000个样品)中不存在,并且在NHLBI精准医疗Trans-Omics(Trans-Omics for Precision Medicine)(TOPMed)数据集中15,387名非阿米什人的WGS中仅发现一个拷贝。此外,在研究人员可获得的其他群体群组的汇总数据集(总共125,401名个体)中,仅发现了该变体的79个杂合子和5个纯合子(表明在阿米什人群中的富集超过一千倍)。该错义变体与LD的r2估计值为0.5的GWAS变体相距500Kb。没有与rs551564683完全相关的变体;实际上,第二最显著SNP是rs149557496,其p值为E-14。因此,rs551564683关联的强度不仅确认了9号染色体GWAS基因座的真实性,而且rs551564683具有偶然变体所期望的所有特征。
[0359] 使用全基因组测序(WGS)精细作图染色体9p区域:
[0360] 使用在较小样品上可用的WGS来填补外显子组测序的空位,以进一步证明rs551564683具有因果性。生成1083名OOA的WGS数据,作为TOPMed程序的一部分。WGS样品的基本特征在表1中示出。WGS捕获可能与目标区域中的重要变体相关的所有SNP和插入缺失(插入/缺失)-编码和非编码。由于重要变体的频率为约6%,因此不太可能存在不足的序列读段而导致变体识别器漏检变体。但是,在QC程序中可能会排除某些变体。通过调查未通过QC的变体,在分析中添加2个其他变体。关联分析将B4GALT1基因中的错义SNP(N352S)
rs551564683鉴定为该区域中与LDL最显著关联的变体,其p值为2.9E-06且作用大小为-
16.4mg/dl(参见表2)。
[0361] 表2:OOA中含rs551564683的基因型的平均(n)LDL水平(mg/dl)
[0362]
[0363] TOPMed WGS数据集提供了与LDL有关的20个变体,其p值为2.9E-06至2.5E-05,并且与命中率最高的rs551564683(r2=0.83-0.94)高度但不完全相关(参见图2中的红色)。调整rs551564683的条件分析完全消除了20个变体的关联信号,并且在该区域中未揭示任何其他信号,这强烈暗示了其为单个因果变体。
[0364] 通过仔细研究这20个变体(参见图2中的红色),将这些变体分为2组:阴影三角形内的7个红色变体和13个非阴影的红色变体。阴影三角形中的7个红色变体几乎彼此完全相关,并且其命中率最高的rs551564683的r2为0.83。基于以下三个原因,这7个变体由于存在因果/功能关系而被安全地排除:1)在OOA之外相对常见(maf>1%),2)在TOPMed内来自Framingham心脏研究(FHS)的3877个样品中,未显示与LDL有任何关联,以及3)在4,565名OOA受试者的WES数据中,这7个变体中的一个变体具有6.3E-14的LDL关联p值,其命中率最高的rs551564683为3.3E-18。
[0365] 图2中阴影矩形中的另一组变体也具有仅为约10E-6的关联p值且彼此完全相关,并且其命中率最高的rs551564683的r2为0.68。该组也由于存在因果/功能关系而被排除,因为它们在OOA之外很常见(maf为约4%),并且在TOPMed内来自FHS的3877个样品中未显示与LDL有任何关联。
[0366] 保留了图2中命中率最高的rs551564683和13个非阴影的红色变体,它们在9号染色体的短臂上从31.5Mb到35.5Mb延伸超过4Mb。如上所述,这13个变体几乎彼此完全相关,并且其命中率最高的rs551564683的r2为0.91-0.94。在这些变体中,命中率最高的rs551564683是唯一的编码变体,并且在预测变体对蛋白质功能的影响的9种算法中,有5种算法将其归类为有破坏性或有害。命中率最高的rs551564683和这13个变体在OOA中的maf为6%,而在一般群体中几乎不存在。
[0367] 单倍型分析:
[0368] 不同基因座之间的r2不完美是重组事件的结果。对主要14-SNP单倍型进行了详细分析。图3示出了该4Mb区域中的3个主要单倍型。有115名单倍型A受试者(1个纯合子和114个杂合子)在14个SNP处具有相同的基因型,没有提供有关哪个SNP可能具有因果关系的信息。6名受试者具有单倍型B,其在rs551564683加上4个上游SNP处含有杂合子基因型,7名单倍型C受试者在rs551564683加上9个下游SNP处含有杂合子基因型。重组单倍型B和C聚集在相关受试者中,这证明了它们不是基因分型错误的假象。表3示出了将单倍型B和C个体添加到单个组中后与单倍型A个体相比rs551564683的p值。
[0369] 表3:单倍型分析结果
[0370]   A B C B+C携带者 115 7 6 13
总数量 1063 1070 1069 1076
rs551564683 3.43E-05 1.40E-05 1.18E-05 4.82E-06
[0371] 单独添加单倍型B和C中的每一者都提高了p值,同时添加它们两者进一步提高了p值。提高的p值表明单倍型B和C两者都携带因果等位基因。B与C之间唯一的共同SNP是rs551564683,它被认为是因果变体。
[0372] B4GALT1先天性糖基化障碍支持rs551564683功能性作用:
[0373] 进行全表型关联研究(PheWAS)以测试rs551564683与阿米什人数据库中所有性状的关联。在LDL(p=3.3E-18)和总胆固醇(p=3.0E-18)之后观察到与天冬氨酸转氨酶(AST)(p=3.0E-8)存在最强关联,其中次要等位基因纯合子的AST水平相比野生型纯合子增加两倍。之前报道过先天性糖基化障碍(CGD)病例中AST升高,这是由于B4GALT1中的移码插入导致形成截短的功能障碍蛋白。此外,观察到与纤维蛋白原水平存在很强关联(p=5.0E-4),其中次要纯合子水平比野生型低约20%,这与同一CDG患者中的凝血缺陷一致。此外,在小型实验中,与13个野生型纯合子相比,在13个次要等位基因纯合子中发现肌酸激酶血清水平增加50%(p=0.02)。这种与错义SNP相关的表型一致性以及由B4GALT1中的截短插入引起的那些进一步为B4GALT1 rs551564683SNP是该区域中的因果/功能基因和变体提供了证据。
[0374] 在759名阿米什人个体的子集中检查了脂质亚组分与rs551564683之间的关联,并且发现了p值显著或不显著的与几乎所有亚组分的较低水平存在关联,如表4所示。
[0375] 冠状动脉钙化评分、大动脉钙化评分和心包脂肪显示出与较低水平存在相关的趋势,但无明显p值。
[0376] PheWAS还发现rs551564683与较高的肌酸酐和较低的eGFR以及较高的血细胞比容和较低的嗜碱性粒细胞有关。
[0377] 表4:759名OOA个体中rs551564683与脂质亚组分之间的关联
[0378]
[0379]
[0380] 实施例2:样品制备和测序
[0381] 从阿米什人受试者中获得基因组DNA样品浓度,然后将样品转移到内部设备中,并储存在-80℃下(LiCONiC TubeStore),直到进行序列分析。通过荧光(Life Technologies)确定样品量,并通过在2%的预制琼脂糖凝胶(Life Technologies)上p跑100ng样品来评估质量。
[0382] 将DNA样品归一化,并使用聚焦声能(Covaris LE220)将每个样品剪切成平均长度为150个碱基对的片段。使用内部开发的全自动方法,利用来自Kapa Biosystems的定制试剂盒制备剪切的基因组DNA,用于外显子组捕获。在文库制备过程中,将独特的6个碱基对条形码添加到每个DNA片段,以促进多重外显子组捕获和测序。在可从IDT获得的进行一些修改的xGen设计上,进行外显子组捕获之前先汇集等量的样品。在Illumina v4 HiSeq 2500上使用75bp双端测序对多重样品进行测序。
[0383] 将在Illumina Hiseq 2500平台上生成的原始序列数据上载到DNAnexus(DNAnexus Inc.,Mountain View,CA)中的高性能计算资源,并且自动化工作流程将原始.bcl文件处理为带注释的变体识别。使用CASAVA软件(Illumina Inc.,San Diego,CA),基于样品特异性条形码将原始读段分配给适当的样品以供分析。
[0384] 然后使用BWA-mem(Li和Durbin,Bioinformatics,2009,25,1754-1760)将样品特异性读段与参考序列进行比对。这样就为每个样品生成一个二进制比对文件(BAM),其中包含特定样品的所有读段以及每个读段被定位到的基因组坐标。一旦比对,将利用Picard MarkDuplicates工具(picard.sourceforge.net)对样品的读段进行评价,以鉴定并标记重复读段,从而生成每个重复读段被标记的比对文件(duplicatesMarked.BAM)。
[0385] 然后使用基因组分析工具包(GATK)(Van der Auwera,Cur.Protocols in Bioinformatics,2013,11,11-33;McKenna,Genome Res.,2010,20,1297-1303)对每个样品的比对和重复标记的读段进行局部重新比对。然后使用GATK HaplotypeCaller处理重新比对、重复标记的读段,并鉴定样品与基因组参考不同的所有外显子位置,包括单核苷酸变异和插入缺失,以及样品内的变体在该特定样品与参考不同的任何位置处的接合性。
[0386] 在每个变体位点处输出相关度量,包括分配给参考和交互等位基因的读段计数、代表基因型识别可信度的基因型质量以及该位置处变体识别的整体质量。然后使用GATK的变体质量评分重新校准(VQSR),通过使用训练数据集评价样品变体的总体质量评分来评估并重新计算该评分以提高特异性。捕获每个样品的度量统计信息,以评价捕获性能、比对性能和变体识别。完成群组测序后,通过使用GATK进行联合基因分型来生成项目级VCF,以在群组中任何样品都携带来自参考基因组的变体的任何位点处产生所有样品的基因型和相关度量信息。该项目级VCF用于下游统计分析。除VQSR外,还使用GATK利用质量值/深度(QD)度量对变体进行注释,并且保留QD大于2.0、缺失率小于1%以及Hardy-Weinberg平衡p值大-6于1.0x 10 的双等位基因变体以供进一步分析。
[0387] 在进行下游序列数据分析之前,所报告性别与遗传确定性别不符的样品,杂合率高、序列覆盖率低(定义为20X覆盖率小于靶向碱基的75%)或隐秘亲缘程度异常高的样品,以及遗传鉴定的样品重复被排除。
[0388] 使用利用ANNOVAR的注释流程(Wang等人,Nuc.Acids Res.,2010,38,e164)以及用于注释和分析的其他自定义算法对序列变体进行注释。根据变体的潜在功能作用对变体进行分类,然后在公开获得的人口控制数据库中按观察到的频率对这些变体进行过滤,以便滤除可能是良性变体的常见多态性和高频率。引入基于多个物种比对来对变体功能作用以及保守性评分进行生物信息学预测的算法作为变体注释过程的一部分,并使用这些算法来告知已鉴定候选变体的潜在有害性。
[0389] 实施例3:阿米什人中富含B4GALT1 rs551564683 N352S频率
[0390] 通过对约4700名阿米什人受试者进行外显子组测序和关联分析,发现9号染色体上的rs551564683与总胆固醇水平高度相关(p=1.3E-10)(参见图4)。RS551564683编码一个错义变体,其中B4GALT1蛋白中位置352处的丝氨酸变为天冬酰胺。该区域中第二与LDL高度相关的变体是rs149557496,其p值仅为10-5,这表明N352S变体是最可能的致病变体。具体参见图4,在外显子组序列数据中,具有Asn352Ser B4GALT1的最高LD中的变体是HRCT1中的rs149557496,距离为2.8Mb,R2为0.78,在阿米什人中LDL的P值为10-5。阿米什人中的全基因组序列数据(TOPMED)未能鉴定出该区域中与LDL-C更加高度相关的变体。
[0391] 进一步的分析表明,B4GALT1 N352S变体频率在阿米什人群中的富集超过一千倍(参见图5)。数据显示,在4725名阿米什人的群组中,鉴定出548名含rs551564683等位基因的杂合子携带者,而13名携带者的等位基因是纯合子(参见图5)。相比之下,对研究人员可获得的其他群体群组的汇总数据集(总共125,401名个体)进行了分析,并且在该汇总数据集中仅鉴定出79个杂合子和5个纯合子。据估计,阿米什人群组中的等位基因频率为约0.06,相比之下,汇总数据集中的等位基因频率为约0.0025(参见图5)。据认为,遗传漂变可能是该等位基因在阿米什人中频率较高的原因。
[0392] 实施例4:B4GALT1 N352S与血清脂质降低和AST增加有关
[0393] 评估了B4GALT1 N352S变异与各种表型(包括血脂、冠状动脉疾病(CAD)和肝性状)的关联。关联基于阿米什人群组进行,该群组中的个体对参考等位基因是纯合的,对交互等位基因是杂合的,以及对交互等位基因是纯合的。确定了脂质和肝性状以及CAD风险的基因型平均值,其中通过去除受试者年龄和年龄平方、受试者性别和研究的影响来调整作用量度(因为表型数据是从几年来的多项研究中收集的)。在心包脂肪的情况下,进一步调整了BMI的基因型平均值。在95%的置信区间内测量了该变异对所测量的表型的作用大小。性状和结果在图6、图7和图8中示出。
[0394] 如图6所示,N352S变异的存在通常与血清脂质降低相关,特别是对于总胆固醇(p值为1.3x 10-10)和LDL(p值为1.8x 10-9)水平而言,这实现了很强的统计学意义。对这种改变是杂合和纯合的个体显示了LDL水平分别降低了17.3mg/dL和31.2mg/dL。该变体与冠状动脉钙化降低之间存在趋势。另外,这种变异的存在与天冬氨酸转氨酶(AST)水平升高相关(p值为6.0x 10-8)。确定AST水平的隐性模型p值为9x 10-23。该变异似乎与丙氨酸转氨酶(ALT)水平、碱性磷酸酶水平或肝脂肪水平升高无关。胆固醇、LDL和AST水平在图7中以图形方式示出。在图7中,示出了受试者的胆固醇、LDL和AST水平,所述受试者对参考等位基因是纯合的(TT)、对交互等位基因是杂合的(CT)以及对交互等位基因是纯合的(CC)。所示的值未经调整。根据对受试者年龄和年龄平方、性别和研究的调整,重新计算了所述值(在图7的底部以表的形式示出)。
[0395] 还评估了N352S改变对脂质亚组分的作用。这些结果在图8中示出。关联基于阿米什人群组进行,该群组中的个体对参考等位基因是纯合的,对交互等位基因是杂合的,以及对交互等位基因是纯合的。图8中的结果表明,B4GALT1 N352S改变与所测试的所有脂质亚组分减少有关。
[0396] 实施例5:B4GALT1 N352S与纤维蛋白原水平降低有关
[0397] 还在样品子集中评估了B4GALT1 N352S变异与纤维蛋白原水平的关联。与在实施例4中评估的血清脂质、CAD和肝性状一样,与纤维蛋白原水平的关联基于阿米什人群组进行,该群组中的个体对交互等位基因是纯合的,对参考等位基因是杂合的,以及对交互等位基因是纯合的。在两个个体亚组中确定了纤维蛋白原水平的基因型平均值,-未采用氯吡格雷方案(未接受药物)的个体,和采用氯吡格雷方案(接受氯吡格雷)的个体,并且作为分析的一部分,通过去除受试者年龄和年龄平方、受试者性别和研究的作用来调整每组中的平均水平。在95%的置信区间内测量了该变异对纤维蛋白原水平的作用大小。如图9所示,N352S变异的存在与未接受药物组(p值为1.15x 10-3)和接受氯吡格雷组(p值为2.74x 10-5)中的每一者中纤维蛋白原水平降低有关。未接受药物亚组显示出纤维蛋白原降低约24mg/dL(参见图9)。接受氯吡格雷亚组显示出纤维蛋白原降低约32.5mg/dL(参见图9)。
[0398] 实施例6:其他B4GALT1 N352S关联
[0399] 在阿米什人群组中,还对B4GALT1 N352S变异与其他性状(包括肌酸酐水平、估计的肾小球滤过率(eGFR)、嗜碱性粒细胞水平和血细胞比容百分比)之间的关联进行了评估。如图9所示,该变体与肌酸酐水平小幅增加略微相关,但不与eGFR、嗜碱性粒细胞水平或血细胞比容百分比显著相关。
[0400] 实施例7:斑马鱼中的b4galt1直系同源物敲低
[0401] 与基于细胞的测定中的证据并行,采用斑马鱼模型来研究B4GALT1 p.Asn352Ser对LDL的影响。
[0402] 斑马鱼饲养、吗啉基注射和验证
[0403] 使用野生型(Tubingen)斑马鱼种质来产生用于吗啉基注射的胚胎。在27-29℃下饲养并繁殖成年鱼,并在28.5℃下养育胚胎。根据马里兰大学机构动物护理和使用委员会(University of Maryland Institutional Animal Care and Use Committee)批准的方案圈养和饲养所有动物。吗啉基反义寡核苷酸(MO)基于之前公开的靶向b4galt1的MO获得(Gene Tools,Inc.)(Machingo等人,Dev.Biol.,2006,297,471-482)。在1-2个细胞阶段注射MO,并通过对野生型b4galt1转录本进行qRT-PCR定量来验证。通过对p53的δ113同种型进行qRT-PCR定量来评估脱靶毒性(Robu等人,PLoS Genet.,2007,3,e78)。对于mRNA拯救实验,从pCS2+质粒载体转录人类B4GALT1 mRNA,所述载体含有该基因的野生型或N352S变体的开放阅读框(ORF)。将mRNA与不同浓度的MO混合,并共同注射到1-2个细胞阶段的胚胎中。对于每个注射实验,总共注射200-400个胚胎,并且每个实验至少重复3次。
[0404] 斑马鱼中的LDL定量
[0405] 在每个实验中,将一百条受精后5天(dpf)的幼鱼在400μl冷的10μM丁基化羟基甲苯中进行均质化。通过0.45μm Dura PVDF膜滤器(Millipore)过滤匀浆,以制备脂质提取物。使用HDL和LDL/VLDL胆固醇测定试剂盒(Cell Biolabs,Inc.),按照制造商的方案处理匀浆。沉淀和稀释后,使用SpectraMax Gemini EM读板仪和SoftMax Pro微孔板数据采集和分析软件(Molecular Devices)通过荧光分析对样品进行分析。
[0406] 使用CRISPR/Cas9介导的靶向外显子2产生斑马鱼直系同源物(b4galt1)的基因组敲除。与敲除动物中关于小鼠胚胎致死率的报道一致,注射的F0动物不能成年,并且始终在幼年期死亡。为了避免缺乏生存力,采用一种敲低方法,即使用之前报道的剪接阻断反义吗啉基寡核苷酸(MO)来注射到胚胎中(Machingo等人,Dev.Biol.,2006,297,471-482)。通过qRT-PCR在两个不同浓度下验证MO的功效(参见图10),并排除脱靶毒性的可能性(参见图11)。为了量化LDL水平的变化,注射8ng MO,并将被注射的胚胎培养至受精后(dpf)5天,在此阶段,按照之前公开的方案测定幼鱼的总LDL(O'Hare等人,J.Lipid Res.,2014,55,
2242-2253)。与对照幼鱼相比,观察到MO注射的幼鱼中LDL的显著降低,这与b4galt1在LDL内稳态中的作用一致(参见图12)。使用第二剪接阻断MO靶向外显子2证实了该结果,在注射
2ng MO后,所述第二剪接阻断MO靶向外显子2使LDL浓度降低(数据未显示)。为了验证这些观察结果的特异性并测试人类B4GALT1在斑马鱼中的功能,通过从带有人类基因开放阅读框(ORF)的pCS2+质粒体外转录产生编码人类基因的全长加帽mRNA。为了评估野生型人类mRNA拯救敲低表型的能力,将其与b4galt1 MO共同注射到胚胎中,并评估未喂食幼鱼中的LDL。将三种浓度的mRNA(10pg、25pg和50pg)与8ng MO共同注射。共同注射50pg B4GALT1 mRNA导致LDL水平与仅注射对照MO的幼鱼中的那些在统计学上没有区别(p值=0.14),这表明人类mRNA可以拯救斑马鱼基因敲低的作用(参见图12;用靶向b4galt1的MO、与WT人类B4GALT1 mRNA共同注射的MO(WT拯救)或与编码Asn352Ser突变的B4GALT1 mRNA共同注射的MO(N352S拯救)处理幼鱼)。
[0407] 这些数据为使用该系统来对人类B4GALT1中的变体进行功能性解释提供了支持,并且表明人类野生型B4GALT1 mRNA在斑马鱼中对全身LDL水平的调节具有功能。进一步研究了p.Asn352Ser对B4GALT1功能的影响。使用定点诱变(O'Hare等人,Hepatology,2017,65,1526-1542),将T到C的变化引入人类B4GALT1 ORF构建体的编码序列中以产生全长
mRNA。共同注射B4GALT1 p.352Ser mRNA与MO导致拯救LDL表型的能力降低。所得的LDL浓度比共同注射野生型mRNA与MO产生的LDL浓度低15%,这具有统计学显著作用(39.9μM相比
46.6μM,p值=0.02)。然而,该LDL水平在统计学上比单独的b4galt1 MO高(p值=0.01)(参见图12),这表明该错义变体引入了部分功能缺陷。
[0408] 实施例8:靶向基因分型
[0409] 使用QuantStudio系统(Thermo Fisher Scientific)对3,236名OOA受试者进行靶向SNP基因分型。根据14个SNP的LD结构,选择7个SNP进行基因分型,并且rs551564683的关联证据为4.1E-13,而其他SNP的关联证据为约E-10(图14),从而确认rs551564683是该区域中的因果变体。
[0410] 实施例9:B4GALT1 N352S在缺乏蛋白质稳定性或细胞定位改变的情况下导致酶促活性降低
[0411] 在过表达人类表位标记的Flag-B4GALT1 352Asn或表位标记的Flag-B4GALT1 352Ser的COS-7和Huh7细胞中对B4GALT1的性质进行研究(图15和16)。参见图15,使用
B4GALT1或Flag抗体得到的Flag-352Asn或Flag-352Ser的共聚焦显微术图像表明染色模式相同(比例尺=10μm)。参见图16,通过Huh7细胞的间接免疫荧光进行的亚细胞定位显示了内源表达的B4GALT1和高尔基体标记TGN56的共定位。无论过表达人类表位标记的Flag-B4GALT1 352Asn还是表位标记的Flag-B4GALT1 352Ser,都观察到类似的共定位模式(图
16)。参见图16,在人类肝癌Huh7细胞中过表达的内源B4GALT1、Flag-352Asn和Flag-352ser与反面高尔基体网络标记TGN46共定位。示出了与反面高尔基体网络标记TGN46相关的内源B4GALT1、Flag-352Asn和Flag-352Se亚细胞定位的共聚焦显微术图像,其中比例尺=10μm。
[0412] 观察到COS-7细胞的内源B4GALT1含量低(图17,图B),因此使用该细胞系来评估错义突变对蛋白质稳定性和/或稳态水平以及半乳糖基转移酶活性的影响。结果表明,错义突变不影响蛋白质稳定性和/或稳态水平(通过蛋白质印迹)(图17)。参见图17,示出了352Ser对蛋白质稳定性和/或稳态水平的影响。图A示出了表达与游离EGFP一起的352Asn或352Ser Flag标签蛋白融合物的COS7细胞在COS7细胞中表达。使用商业抗体通过蛋白质印迹分析细胞裂解物的B4GALT1、Bactin和EGFP。示出了四个相似实验中的一个实验。图B示出了通过RT-qPCR分析确定的B4GALT1基因的mRNA表达水平。数据表示4个实验的平均值±S.E.。
[0413] 为了确定352Ser的催化活性,分析未转染的COS-7细胞以及仅用表达载体转染或含有野生型或突变型B4GALT1的cDNA插入物的COS-7细胞的裂解物中的半乳糖基转移酶活性。当相对于FLAG标记的蛋白的表达进行归一化(图18中的免疫印迹实验,图A和B)时,与352Asn相比,352Ser的酶促活性降低了大约50%(图18,图C)。参见图18,示出了352Ser突变对活性的作用。图A和B示出了表达352Asn或352Ser Flag标签蛋白融合物的COS7细胞在COS7细胞中表达。将细胞裂解物与兔抗Flag IgG或兔免疫前对照IgG一起孵育。使用商业抗体通过蛋白质印迹分析免疫沉淀物中的B4GALT1或Flag。示出了四个相似实验中的一个实验。图C示出了用商业试剂盒(R&D)测量的免疫沉淀物中的B4GALT1活性。每个数据点代表所计算的B4GALT1比活性与免疫沉淀物中回收的352Asn或352Ser蛋白量之比的平均值。使用ImageJ软件通过光密度测定法对来自蛋白质印迹ECL的信号进行定量。数据表示4个实验的平均值±S.E.(*,p<0.05,352Asn相对于352Ser)。
[0414] 这些实验表明,这种错义突变对蛋白质表达水平及其定位没有作用,但是会导致酶促活性降低。
[0415] 实施例10:先天性糖基化障碍(CDG)测试的缺糖转铁蛋白
[0416] 使用来自3个基因型组的24名受试者(8个次要纯合子、8个杂合子和8个主要纯合子)的0.1ml血清样品进行CDG测试。根据亲属关系系数,将每个次要纯合子与作为同胞或紧密相关的同性个体的杂合子和主要纯合子相匹配。也将年龄和携带者状况与APOBR3527Q中主要脂质改变基因等位基因相匹配。
[0417] 使用免疫亲和柱将水稀释的样品洗涤两次。使用质谱仪对洗脱蛋白进行糖基化谱分析,所述质谱仪在对APOCIII和转铁蛋白具有特异性的2个扫描范围内运行。将每种蛋白质的糖型比用来确定糖基化缺乏。在Mayo诊所的Mayo医学实验室进行CDG测试。
[0418] 结果显示,所有24个样品的单寡糖/二寡糖转铁蛋白比、α-寡糖/二寡糖转铁蛋白比、ApoCIII-1/ApoCIII-2比和ApoCIII-0/ApoCIII-2比均具有正常水平。然而,虽然所有野生型样品的三唾液酸/二寡糖转铁蛋白比均具有正常水平,但是所有杂合子的水平均处于中间范围,并且所有次要纯合子的水平均异常且显著高于匹配的野生型和杂合子(p=7.6E-10)(图19)。这些结果表明,这种错义突变由于B4GALT1酶促活性降低而与糖基化缺陷有关。
[0419] 实施例11:血浆糖蛋白的整体N连接聚糖分析
[0420] 为了确定去唾液酸化和低半乳糖基化是仅影响转铁蛋白还是扩展到其他糖蛋白,Regneron的分析化学小组进行了整体N-聚糖分析。一式两份地从5对主要和次要纯合子的血清中提取富含凝集素的糖蛋白,并且使用亲水相互作用色谱法对标记的聚糖进行整体N连接聚糖分离,并通过荧光检测并通过质谱(HILIC-FLR-MS)分析(图20和表5)。参见图20,示出了来自配对的B4GALT1 N352S的次要(SS)纯合子和主要(NN)纯合子的糖蛋白的N-聚糖分析的代表性HILIC-FLR-MS谱图。结果表明,次要纯合子具有显著较高水平的低半乳糖基化且唾液酸化较低的聚糖,包括仅具有一个半乳糖和一种唾液酸的双触角聚糖(p=3.1E-5)、具有一个半乳糖的无唾液酸化双触角聚糖(p=0.001)以及缺失半乳糖和唾液酸的截短双触角聚糖(p=0.005)。另一方面,次要纯合子具有显著较低水平的含两个半乳糖和两个唾液酸的双触角聚糖(p=0.001)(表5)。次要纯合子中的总半乳糖基化(p=9.2E-5)和唾液酸化(p=0.001)显著降低,而岩藻糖基化水平没有差异(p=0.5)。血清的CDT和整体N-聚糖分析均显示次要纯合子中缺糖糖蛋白的水平显著增加,这表明B4GALT1N352S导致蛋白质糖基化缺陷。
[0421] 表5:主要纯合子与次要纯合子之间显著不同的聚糖的峰面积%平均值(±sd)
[0422] 聚糖 主要纯合子 次要纯合子 P值G0F 0.58±0.34 1.84±0.48 0.005
G1 0.19±0.12 0.91±0.16 0.001
G1S1 0.63±0.16 4.7±0.38 3.1E-5
G2S2 39.3±0.79 31.5±1.8 0.001
[0423] 本公开不限于上文描述和例示的实施方案,但是能够在所附权利要求的范围内进行变化和修改。本公开也不以任何方式受到本文中引用的任何标题的使用的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈