首页 / 专利库 / 专利权 / 发明 / 主要发明 / 单倍型划分

单倍型划分

阅读:570发布:2020-05-13

专利汇可以提供单倍型划分专利检索,专利查询,专利分析的服务。并且本 发明 涉及鉴定是所选择表型的主要决定因素的突变和/或多态性的方法并且基于单倍型的鉴定和其划分为所述表型的主要决定因素的组。,下面是单倍型划分专利的具体信息内容。

1.一种鉴定是表型主要决定因素的突变和/或多态性的方法,包 括检测所研究基因的所选择的每组突变和/或多态性的残余偏离(δ)。
2.根据权利要求1的方法,其中确定每个亚组的突变和/或多态 性的残余偏离(δ)。
3.根据权利要求2的方法,其中单倍型划分{1...m}的残余偏 离(δ)基于每个可能亚组的突变和/或多态性。
4.根据前面任一项权利要求的方法,其中残余偏离(δ)等于
δ = δ ( Π ) = Σ i = 1 m ( χi - χ π ( i ) ) 2 .
5.根据权利要求1至4的方法用于预测是相应超高表型和次低 表型的主要决定因素的超高和/或次低单倍型的用途。
6.根据权利要求1至4的方法用于鉴定表型上重要性单核苷酸 多态性SNPs的用途。
7.一种检测有效作为个体至少一个表型的指示的单倍型的检测 方法,该检测方法包括步骤:
(a)从待检测个体获得遗传物质的检测样品,所述物质至少包括 选择的基因或其片段
(b)分析所述基因或其片段的核苷酸序列,查看该基因内的任何 一个或多个SNP位点是否存在任何单核苷酸多态性(SNPs);和
(c)如果存在所述SNPs,鉴定它们以确定所述个体的单倍型,并 根据上面的权利要求1至4对所述单倍型进行分析。
8.用权利要求1至4的方法鉴定的表型上重要的单倍型用于诊 断或治疗以所述表型为特征的疾病

说明书全文

发明涉及确定至少一个基因中多态性或突变的重要性的新方 法;和由此鉴定的重要的多态性或突变。

自20世纪80年代后期基因测序技术出现,和人类基因组计划建 立以来,已经发现了关于多种类基因的序列结构或性质的大量信息, 特别是人。而且,由于基因测序方法进化,任何给定基因内检测到的 变异数量已有增加。假定典型的基因长度可以是3万个基和平均每 1100个碱基发生变异,于是为了确定哪个变体具有临床或技术重要 性,需要从事极多工作。然而,这是开发可利用的知识的先决步骤。

一些基因比其它的基因更易变异。高度多态性基因给需要确定核 酸分子中给定位点的哪个变异,或核酸分子中给定位点的哪个变异组 合是重要的研究者们提供了特殊挑战。于是在任何给定群体内,来自 很多生物体或个体的单一基因的研究可以产生大量信息,因为给定基 因中存在多个多态性位点的地方,个体与个体之间多态性特征可以有 差异。因此,当研究很多多态性位点时,产生了每一个体的特征的模 式或标记。这被称为单倍型(haplotype)。每一单倍型代表多个多态 性位点的特定变异组合。因此,为了确定哪个有意义,筛选(sift) 单倍型是有经验的研究者们的工作。如同有经验的读者将认识到这是 一个长久、困难和常常沉闷的任务。如果有,为了确定每一单倍型的 含义,它可以包括研究基因或由其编码的蛋白的多种性质。

怀着这个目的,我们发展了促进遗传变异研究的方法。我们的方 法涉及研究基因内的很多变异并确定其重要性。更具体地说,我们的 方法涉及检查至少一个基因中多个多态性位点的多个变异以确定其重 要性。基本上,我们的方法可用于研究不同单倍型的相对重要性。因 此,为了确定哪个是最重要的,它有效地筛分多个单倍型。它因此具 有分类巨大量数据的能以选择其最相关形式。

人类身材是由多种遗传和环境因素的相互作用产生的高度复杂的 性状。由于已知家族身高矮小与生长激素基因的遗传突变有关,因此 合理假定这个垂体表达基因中的多态性变异影响成年人身高。众所周 知这个基因内有大量多态性变异,实际上,GH1生长激素基因启动子 的近侧区显示出高平的序列变异,在535个碱基对片段内记录到16 个单核苷酸多态性。大多数这些SNPs存在于相同位置,其中GH1基因 不同于位于含有GH1的五个基因簇内的共生同源GH2、CSH1、CSH2和 CSHP1基因。这五个基因以66kb的簇位于染色体17q23上。

此外,人GH1基因的表达也受位于GH1基因的上游14.5kb和32kb 之间的基因座控制区(LCR)的影响。LCR含有多个DNase I高敏位点并 且是活化垂体和胎盘中的GH1基因簇的基因所需的。

因此,给定这个基因内高水平的变异,我们已利用它开发我们的 方法。更具体地说我们已经利用这个基因估计GH1基因表达的近侧启 动子区和LCR区中的多态性变异的相对重要性。

发明陈述

我们这里描述了单倍型划分(haplotype partitioning)的方法, 以鉴定是表型主要决定因素的突变和/或多态性,尤其是但不仅仅是有 利或不利的表型。例如,也许最典型地,该方法将用于鉴定全部或部 分导致生理情况或紊乱的突变和/或多态性,例如疾病或异常或不良状 态。

因此,本发明单倍型划分的方法包括检测每个所选择组的考虑中 的基因突变和/或多态性的残余偏离(residual deviance)(δ)。

更理想地,该方法包括检测可能亚组的突变和/或多态性的残余偏 离(δ),因此最有利地,基于每个可能亚组的突变和/或多态性,进 行该方法以研究单倍型划分{1...m}的残余偏离(δ)。

最理想地,该方法还包括使用下列函数

δ = δ ( Π ) = Σ i = 1 m ( χ i - χ π ( i ) ) 2

(定义见11和14页)

本发明的方法适用于但不仅仅适用于所述突变和/或多态性的作 用强烈相互依赖的情形,例如在有连不平衡的情况下。

使用这个方法有可能鉴定引起例如表达水平(突变和/或多态性存 在于基因的启动子区的情况)或例如蛋白功能(突变和/或多态性存在 于基因的蛋白编码序列的情况)相当大比例残余偏离的那些突变和/或 多态性。

有利地,本发明的方法可用于预测,从而随后获得超高 (super-maximal)或次低(sub-minimal)的单倍型,它们可以有效 作为例如随后试验方案的实验对照。

这里描述了鉴定引起所研究的相当大比例表型的突变和/或多态 性其它方法并且组成本发明的各个方面和/或实施方案。

根据本发明的更多方面,这里描述了单核苷酸多态性(SNPs)形式 的重要的突变和/或多态性,它是至少一个所选择表型的主要决定因 素。

更具体地说,这些SNPs可以位于至少一个所选择基因的近侧启动 子,因此可以确定相应蛋白的表达水平,和个体可能的选择表型。

由此可见这些SNPs或SNPs的该亚组的知识在诊断技术中具有实 用性。

根据本发明的另一方面,提供了检验有效作为个体至少一个表型 的指示的单倍型的检测方法,该检测方法包括步骤:

(a)从待检测个体获得遗传物质的检测样品,所述物质至少包括 选择的基因或其片段;和

(b)分析所述基因或其片段的核苷酸序列,查看该基因内的任何 一个或多个SNP位点是否存在任何单核苷酸多态性;

(c)如果所述SNPs存在,鉴定它们并使用上述方法对它们进行分 析。

本领域技术人员将认识到在前方法可以在基因的一个或多个区域 处或内进行,为了确定启动子内多态性变异的作用,可以在N末端, 或者为了确定多态性变异对蛋白的作用,可以在编码区内。

此外,本发明的方法在确定超高和次低单倍型中有用,因此根据 另一方面,本发明也包括至少一个基因的超高和/或次低单倍型的鉴 定。

在这里给出的实例中,生长激素基因的超高单倍型由下列编码序 列限定:AGGGGTTAT-ATGGAG,处于相对于GH1基因转录起始位点的 SNP-476、-364、-339、-308、-301、-278、-168、-75、-57、-31、 -6、-1、+3、+16、+25、+59。相反,次低单倍型由相同位点的下 列编码序列限定:AG-TTTTGGGGCCACT。

根据本发明的另一方面提供了由上述方法鉴定的至少一个单倍 型,具体地说,提供了所述单倍型在诊断或治疗给定疾病中或在开发 超表达蛋白中的用途。

这里提及的术语超表达包括给定蛋白相对于野生型过表达。

现在通过下列信息描述本发明的方法,其涉及进行鉴定各种单倍 型的材料和方法,提供它们的划分,和估计它们的功能重要性。

附图简述

图1:在不同板上测定的阴性对照的GH1基因启动子表达(a),和 野生型单倍型(1)的标准化的表达水平,显示为野生型的多个板式平均 表达水平(b)。

图2:16个SNPs在GH1启动子中相对于转录起始位点的位置(用箭 头表示)。阴影线盒代表外显子1。也示出了转录因子、核因子1(NF1)、 Pit-1和维生素D受体(VDRE)的结合位点的位置,TATA盒和翻译起始 密码子(ATG)。

图3:40个GH1单倍型相对于野生型(单倍型1)的标准化的表达水 平。与萤光素酶报道基因表达水平显著降低(与单倍型1相比)有关的 单倍型用阴影线棒表示。与萤光素酶报道基因表达水平显著增加(与单 倍型1相比)有关的单倍型用实心棒表示。单倍型以流行降序排列。

图4:与用k SNPs(阴影棒)的单倍型划分有关的标准化的表达水 平的最小相对残余偏离δR(∏k,min)。虚线曲线描述包括最小-δR-划分 ∏k,min的单倍型数量。

图5:最小偏离中间树(minimum deviance intermediate trees) 的大小和交叉证实(cross-validated)δR值之间的关系,使用六个 选择的SNPs(编号1、6、7、9、11和14)。点(水平)虚线相当于完全 增长树的交叉证实δR的一个SE;破折号(垂直)虚线表示完全增长树的 一个SE内存在交叉证实δR的最小的树。

图6:使用六个选择的SNPs(编号1、6、7、9、11和14),通过 二元回归单倍型划分获得的GH1基因启动子表达的回归树。结点 (node)上的数字是指拆分各个结点的SNPs。终止结点(“叶”)描述 为正方形并从左至右编号。

图7:连接154名男性白种人中观察到至少8次的七个单倍型(圆) 的“降低中值网(reduced median network)”。每一圆的尺寸与对照 样品中各个单倍型的频率成正比。已经包括单倍型H12和H23作为连 接结点,尽管它们分别仅仅观察到5和2次。每一分支旁边给出单倍 型不同的SNPs。暗点标出了未观察到的单倍型或在SNP位点4和5双 突变。

图8:电泳迁移率变动(EMSA)分析揭示的GH1启动子SNP等位基因 之间蛋白结合能力的差异。箭头表示等位基因特异性相互作用蛋白。 箭头尖表示Pit-1样结合蛋白的位置。-ve(阴性对照)、+ve(阳性 对照)、S(特异性竞争物)、N(非特异性竞争物)、P(Pit-1共有序 列)、P*(催乳激素基因Pit-1结合位点)、TSS(转录起始位点)。

材料和方法

人类受试者

从取自未经选择身高的154名白种人来源的男性英国军队新兵的 淋巴细胞获得DNA样品。124名这些个体的身高数据已知(平均值1.76 ±0.07m)并发现身高分布为正态(Shapiro-Wilk统计W=0.984、p= 0.16)。从当地多区域道德委员会获得了这些研究的伦理批准。

聚合酶链式反应(PCR)扩增

使用寡核苷酸引物GH1F(5’GGGAGCCCCAGCAATGC 3’;-615至 -599)和GH1R(5’TGTAGGAAGTCTGGGGTGC 3’;2598至2616)[相对 于转录起始位点+1(GenBank登记号J03071)来编号]进行3.2kb GH1 基因特异性片段的PCR扩增。用LCR5A(5′CCAAGTACCTCAGATGCAAGG 3′;-315至-334)和LCR3.0(5′CCTTAGATCTTGGCCTAGGCC 3′;1589至 1698)PCR扩增GH1 LCR的含有位点I和II的1.9kb片段[LCR序列 是从GenBank登记号AC005803获得,同时LCR编号遵循Jin等1999; GenBank(登记号AF010280)]。两个反应的条件相同;简言之,使用 ExpandTM高保真系统(Roche)扩增200ng淋巴细胞DNA,使用98℃2 分钟的热启动,随后95℃3分钟,30个循环的95℃30秒,64℃30 秒,68℃1分钟。对于最后20个循环,每个循环增加5秒68℃延伸 步骤。这之后是68℃进一步孵育7分钟。

克隆和测序

最初,不克隆直接对PCR产物进行测序。使用引物GH1S1(5’ GTGGTCAGTGTTGGAACTGC 3’:-556至-537)从3.2kb GH1特异性PCR 片段对GH1基因的近侧启动子区进行测序。使用引物LCR5.0(5′ CCTGTCACCTGAGGATGGG3′;993至1011)、LCR3.1(5′ TGTGTTGCCTGGACCCTG3′;1093至1110)、LCR3.2(5′ CAGGAGGCCTCACAAGCC3′;628至645)和LCR3.3(5′ ATGCATCAGGGCAATCGC3′;211至228)对1.9kb GH1 LCR片段进行测 序。使用BigDye v2.0(Applied Biosystems)和ABI Prism 377或 3100DNA测序仪进行测序。在启动子区或LCR变异体的杂合子的情况 下,测序前合适的片段克隆入pGEM-T(Promega)。

萤光素酶报道基因表达载体的构建

用引物GHPROM5(5′AGATCTGACCCAGGAGTCCTCAGC3′;-520至-501) 和GHPROM3A(5′AAGCTTGCAGCTAGGTGAGCTGTC 3′;44至62)或 GHPROM3C(5′AAGCTTGCCGCTAGGTGAGCTGTC 3′;44至62),根据该 单倍型+59位置的碱基,40个不同的GH1近侧启动子单倍型(表1)的 各个实例被PCR扩增为582bp片段。为了促进克隆,全部引物具有添 加到其5′末端的部分或全部非模板限制性核酸内切酶识别序列(在上 面以粗体表示);BglII(GHPROM5)和HindIII(GHPROM3A和GHPROM3C)。 然后PCR片段克隆入pGEM-T。起初用HindIII(New England Biolabs) 消化质粒DNA并用绿豆核酸酶(New England Biolabs)去除5′突出端。 用BglII(New England Biolabs)消化而释放启动子片段并凝胶纯化。 NcoI(New England Biolabs)消化制备萤光素酶报道基因载体pGL3 Basic并用绿豆核酸酶去除5′突出端。然后用BglII(New England Biolabs)消化该载体并凝胶纯化。限制性启动子片段克隆入萤光素酶 报道基因载体GL3 Basic。使用引物RV3(5′CTAGCAAAATAGGCTGTCCC 3′;4760至4779)、GH1SEQ1(5′CCACTCAGGGTCCTGTG 3′;27至43)、 LUCSEQ1(5′CTGGATCTACTGGTCTGC 3′;683至700)和LUCSEQ2(5′ GACGAACACTTCTTCATCG 3′;1372至1390)分离(Qiagen midiprep system)质粒DNA(pGL3GH系列)并测序以确保GH1启动子和萤光素酶 基因序列正确。也通过用NcoI和BglII限制性酶切pGL3GH1(单倍型 1),随后平末端化(blunt-ending)/连接以除去SNP位点1-5而制备 截短GH1近侧启动子构建体(-288至+62)。

通过定点诱变(SDM)[定点诱变试剂盒(Stratagene)]以产生预测 的超高单倍型(AGGGGTTAT-ATGGAG)和次低单倍型(AG-TTGTGGGACCACT 和AG-TTTTGGGGCCACT)而制备人工的近侧启动子单倍型报道基因构建 体。

为了制备LCR近侧启动子融合构建体,用BglII限制性酶切1.9kb LCR片段,所得1.6kb片段克隆入pGL3中就在582bp启动子片段上 游的Bg1II位点。三个不同的LCR单倍型克隆入pGL3Basic,位于分 别含有“高表达启动子单倍型”(H27)、“低表达启动子单倍型”(H23) 和“标准表达启动子单倍型”(H1)的三个GH1近侧启动子构建体之一 的5′端而产生总共九个不同的LCR-GH1近侧启动子构建体 (pGL3GHLCR)。然后分离(Qiagen midiprep)质粒DNA并使用合适的引 物检查序列。

萤光素酶报道基因试验

在缺乏表达生长激素的人垂体细胞系下,选择大鼠GC垂体细胞 (Bancroft 1973;Bodner and Karin 1989)进行体外表达实验。大鼠 GC细胞在含有15%血清和2.5%胎血清的DMEM中生长。人HeLa细 胞在含有5%胎牛血清的DMEM中生长。两个细胞系都在37℃、5%CO2下生长。使用TfxTM-20(Promega)以96孔板规格进行脂质体介导的 GC细胞和HeLa细胞的转染。从培养瓶中移出融合的细胞,用新鲜培 养基稀释并铺入96孔板,使得随后几天达到~80%融合。

转染混合物含有无血清培养基、250ng pGL3GH或pGL3GHLCR构建 体、2ng pRL-CMV和0.5μl TfxTM-20试剂(Promega),每孔总体积90 μl。1小时后,向每孔添加200μl完全培养基。转染后,细胞在37 ℃、5%CO2下培养24小时,之后裂解进行报道试验。

使用双萤光素酶报道试验系统(Promega)进行萤光素酶试验。在微 板发光计(Applied Biosystems)上进行试验,然后对Renilla活性标 准化。在三个独立板上,以每板六次重复(即总共18个独立测定)分析 每一构建体。对于近侧启动子试验,每板包括阴性(无启动子的pGL3 Basic)和阳性(含有SV40启动子的pGL3)对照。对于LCR分析,含有 近侧启动子但缺乏LCR的构建体用作阴性对照。

电泳迁移率变动分析(EMSA)

对一起覆盖了全部16个SNP位点(表2)的双链寡核苷酸进行 EMSA。如Berg等(1994)所述制备来自GC和HeLa细胞的核提取物。用 [γ-33P]-dATP放射性标记寡核苷酸并在凝胶电泳后用放射自显影方法 检测。含有终浓度20mM Hepes pH7.9,4%甘油、1mM MgCl2、0.5mM DTT、 50mM KCl、1.2μg HeLa细胞或GC细胞的核提取物、0.4μg poly[dI-dC].poly[dI-dC]、0.4pM放射性标记的寡核苷酸、40pM未 标记的竞争寡核苷酸(过量100倍)的EMSA反应物是合适的,总体积 10μl。EMSA反应物在上孵育60分钟并于4%PAGE凝胶上,100V电 泳45分钟,然后放射自显影。对于每一反应,双链未标记的测试寡核 苷酸用作特异性竞争物,同时来源于NF1基因启动子(5’ CCCCGGCCGTGGAAAGGATCCCAC 3’)的寡核苷酸用作非特异性竞争物。 相当于人催乳激素(PRL)基因Pit-1结合位点(5’ TCATTATATTCATGAAGAT 3’)和Pit-1共有序列结合位点(5’ TGTCTTCCTGAATATGAATAAGAAATA 3’)的双链寡核苷酸用作蛋白结合SNP 8个位点的特异性竞争物。

引物延伸试验

进行引物延伸试验以证实含有不同SNP单倍型的构建体利用相同 的转录起始位点。引物延伸遵循Triezenberg等(1992)的方法。

数据标准化

阴性对照(无启动子的pGL3 Basic)的表达测定显示各板之间的 相当大的差异(图1a)。为了校正基线表达和板作用的数据,从相同板 上所有其它活性值减去给定板上阴性对照的平均活性。然后计算每板 上近侧启动子单倍型1(H1)的平均(板校正的)活性,并用相同板上所 有其它单倍型相关活性除以这个值。这两个转换确保了阴性对照活性 等于零,同时H1的平均活性相一致,与板数无关。因此所得活性值可 以解释为与H1相比的倍数改变,经基线和板作用两种校正。既然转换 后没有检测到显著的板作用,那么组合各板的数据。图1b中阐明了H1 的这个标准程序结果。与分析近侧启动子单倍型使用的类似程序也用 于LCR-启动子融合构建体表达数据,单倍型A用作参照单倍型。

统计分析

用Shapiro-Wilk统计(W)在SAS统计分析软件(SAS Institute Inc.,Cary NC,USA)的程序UNIVARIATE中执行来检测近侧启动子单 倍型的标准表达水平与高斯分布(Gaussian distribution)的曲线适 合度。多重(即40倍)检验调节显著性估计,设置p临界=0.05/40≈0.001。 使用这个标准,发现两个启动子单倍型的表达水平显著不同于高斯分 布,即H21(W=0.727,p=0.0002)和H40(W=0.758,p=0.0004)。对 于另外38个单倍型,认为表达水平与标准一致,并因此使用Tukey′s studentized范围检验(SAS程序GLM)接受配对比较。使用Wilcoxon 秩和(rank sum)统计(SAS程序NPAR1WAY)的正态近似z进行不同单倍 型组之间表达水平的配对比较。

这个研究中分析的SNPs以复合体和高度交互方式发挥对近侧启 动子表达的影响。此外,由于连锁不平衡,发现与个体多态性有关的 表达水平强烈相互依懒。因此预期大量的观察到的表达水平变异将归 因于多态性位点的小亚组的变异。为了正式评估SNPs之间相关结构, 和能够鉴定用于进一步研究的重要多态性的合适亚组,计算近侧启动 子SNPs的全部可能亚组的单倍型划分的残余偏离。

对于一组数据的给定划分{1...m}=∏=π1∪...∪πk指出x1,...,xm,和 如果i∈πj,π(i)=j,∏的残余偏离δ定义为

δ = δ ( Π ) = Σ i = 1 m ( χ i - χ π ( i ) ) 2 .

当数据组根本没有划分时,那么δ=δ(∏0)=421.7,任何其它划分∏ 的相对残余偏离定义为δR(∏)=δ(∏)/δ(∏0)。

鉴定了六个SNPs(编号为1,6,7,9,11和14;见下)导致表达 水平的相当大比例(~60%)的残余偏离,同时激发相对少的单倍型变 异。通过使用统计学软件R用二元回归划分(Ihaka and Gentleman 1996) 构建的回归树(regression tree)进一步分析这些SNPs的统计学相 互依赖性。在树构建方法中,SNPs各个地用作每一结点(node)的预 测变量,以选择反应变量(即标准近侧启动子表达)方面两个最均一的 单倍型亚组。选择用来引入新拆分口(split)的结点和SNP,使得由 所得中间树的终止结点(“叶”)定义的划分的R减到最小。继续这 个方法直到全部叶对应于各个单倍型(“完全增长树(fully grown tree)”)。用10倍交叉证实估计每步的δR估计的可靠性并计算标准 误(SE)。

使用SAS软件包的CANCORR程序对所研究的124名身高已知个体 进行身高和近侧启动子体外表达水平回归分析。让μnor,h1和μnor,h2表示给 定个体携带的两个单倍型的平均标准表达水平。H1不纯合个体(n= 109)的身高示范为

身高= α 0 + α 1 · μ nor , h 1 + μ nor , h 2 2 + α 2 · μ nor , h 1 2 + μ nor , h 2 2 2 + α 3 · μ nor , h 1 · μ nor , h 2

并计算决定系数(coefficient of determination)r2。

构建在154名研究个体中观察到至少8次的七个启动子单倍型 (H1-H7)的降低中值网(reduced median network)(Bandelt等1995)。

连锁不平衡分析

使用Morton等(2001)为双等位基因位点设计的参数ρ估计从总共 154名研究个体中随机选择的100名个体的启动子SNPs之间和SNPs 和LCR单倍型之间的连锁不平衡(LD)。当ρ=1相当于表明完全LD的两 个位点时,ρ=0表明完全缺乏LD。发现在该群体样品(杂合性iY5%) 中仅仅八个SNPs的充分多态性足以有理由纳入。由于其完好的SNP4 的LD(仅存在两个配对单倍型),SNP5被排除。使用内部(in-house) 执行预期极大(EM)算法获得了LD分析所需的组合LCR-近侧启动子单 倍型频率的最大似然估计。

结果

近侧启动子多态性频率和单倍型

已经报道了GH1基因启动子区在535bp片段内含有16个多态性 核苷酸(表3;Giordano等1997;Wagner等1997)。为了便于鉴定这 些SNPs编号为1-16(图2)。在154名英国男性白种人研究中,发现 这些SNPs中有15个(除编号2之外的全部)具有多态性(小等位基因 频率0.003至0.41;表3)。16个位置的变异归于总共36个不同的启 动子单倍型(表1)。因此单倍型1(H1)可以描述为16个碱基 (GGGGGGTATGAAGAAT)的序列,代表从-476至+59的16个SNP位置。 对于H1,此后称为“野生型”,36个启动子单倍型的频率从0.339 至0.0033(编号25-36)变化(表1)。作为显示矮小身高的4个个体的 独立研究,发现了另外4个单倍型(编号37-40)(表1)。这些单倍型是 该研究组中所没有的,但是为了完整性,包括在随后的分析中。

近侧启动子单倍型和相对启动子强度

通过体外报道基因试验研究40个启动子单倍型并发现它们驱动 大鼠垂体细胞中萤光素酶基因表达的能力不同(表4)。发现表达水平在 12倍的范围内变化,最低表达单倍型(编号17)显示野生型的30%的平均 水平,而最高表达单倍型(编号27)显示野生型的389%的平均水平(表 4)。与H1相比,十二个单倍型(编号3、4、5、7、11、13、17、 19、23、24、26和29)与萤光素酶报道基因表达水平显著降低有 关。相反,与H1相比,总共10个单倍型(编号14、20、27、30、34、 36、37、38、39和40)与萤光素酶报道基因表达水平显著增加有 关(表4)。引物延伸试验显示了含有不同SNP单倍型的构建体,利用相 同的转录起始位点(数据未显示)。发现HeLa细胞中报道基因构建体的 表达比GC细胞低1000倍(数据未显示)。

图3用图表方式呈现了40个不同的GH1启动子单倍型的体外表达 水平。很明显低表达单倍型趋势更频繁发生,而高表达单倍型趋向较 不频繁发生(Wilcoxon P<0.01)。由于这些发现暗示选择的作用,因此 在各个SNPs水平寻找选择作用。对于这里研究的15个SNPs,发现对照 中的平均表达水平(用单倍型频率来衡量)和罕见等位基因的频率是正 相关(Spearman等级相关系数,r=0.32)。如果SNP7作为逸出值 (outlier)(它具有与罕见等位基因有关的特别高的表达水平)被排除 的话,那么r=0.53,单因素p<0.05。

与缺乏SNPs 1-5的截短启动子构建体有关的体外表达水平是野生 型(单倍型1)的102±5%。因此可能推论SNPs 1-5可能对GH1基因表 达具有有限的直接影响。

发现与各个SNPs有关的表达水平强烈相互依赖。因此以得以鉴定 不相称地(disproportionately)有助于体外表达水平中观察到的变 异的关键多态性位点亚组的方式进行了划分表达数据的尝试。对包括 所有的16个SNPs的全部单倍型进行划分产生了δR(∏16)=0.245的相对 残余偏离。这可以通过24.5%的表达水平变异不是单倍型变异引起来 解释。对于1≤k<16,最小-δR-划分∏k,min定义为产生最小相对残余偏离 δR的具有k个SNPs的单倍型划分。图4描述了k和δR(∏k,min)之间的关 系,连同包括∏k,min的单倍型数量。k=6和k=7之间质的差异很明显, 因为与∏k,min有关的单倍型数量从13增加至22,而δR(∏k,min)仅少量降 低[δR(∏6,min)=0.397与δR(∏7,min)=0.371]。因此得出结论限定∏6,min的SNP1、 6、7、9、11和14代表进一步分析的关键多态性的良好选择。剩余的 SNPs中,六个(编号3、4、8、10、12和16)将被分类为“无关紧要 信息型(marginally informative)”。这些标记与六个关键SNPs组 合一起限定观察到的40单倍型中的39个,并事实上解释所有可解释 的偏离(deviance)(δR(∏12,min)=0.245)。另外四个SNPs(编号2、5、13 和15)在标准体外表达水平方面是“无信息型”,因为在我们的样品 中它们是单态性(编号2),或与其它标记处于完好(编号5和13)或近 似完好(编号15)的连锁不平衡。

接下来使用一系列连续增长(即嵌套)回归树估计六个关键SNPs 的相关结构。遵循回归树分析惯例(Therneau和Atkinson 1997),选 择具有完全增长树的交叉验证δR一个SE内的最小中间树作为代表性 的划分(图5)。发现这个“最佳”树包括10个内部和11个终止结点(图 6,表5)。该树的相对残余偏离等于δR=0.398,因此解释了通过单倍型 划分可解释的(1-0.397)/(1-0.245)≈80%的偏离。

一个最重要的拆分口是通过SNP7,它自己本身引起15%的可解释 的偏离。携带这个SNP的C等位基因的四个单倍型定义均一的亚组(叶 11),平均标准表达水平比H1高1.8倍。携带SNP7的T等位基因的单倍 型被SNP9进一步细分(sub-divided),具有等位基因T的这个多态性 比等位基因G(μnor=0.84;Wilcoxon z=7.09,p<0.001)引起更高的表达 (μnor=1.26)。所得nnTTnn单倍型被SNP6(G/T)拆分,nGTTnn形成包括 野生型单倍型H1的终止结点(叶8)。有趣的是,nTTTnn单倍型,当被SNP 11细分时,显示表达水平有惊人的差异。发现nTTTGn是低表达者 (μnor=0.64),而单倍型nTTTAn显示最高平均表达(μnor=3.89;Wilcoxon z=5.11,p<0.001)。

SNPs7和9的单倍型nnTGnn被SNPs14和1细分,所得单倍型中的 三个形成终止结点(叶1、6和7)。第四个单倍型,GnTGnA是中间表达者 (μnor=0.86),其被SNPs11和6进一步拆分。有趣的是,仅仅SNP14 和1等位基因一个特殊的组合在SNP7和9nnTGnn背景上引起表达增加 (AnTGnG,叶7,μnor=1.83)。当考虑单倍型GnTGnA时,对于SNPs6和11 也注意到类似的表达的非累加效应:而SNP11等位基因A与SNP6等位 基因T组合与比G更高的表达有关(GTTGAAμnor=1.18对GTTGGA μnor=0.74; Wilcoxon z=7.09,p<0.001),相反的情况与SNP6等位基因G组合 (GGTGAA μnor=0.74对GGTGGA μnor=1.04;Wilcoxon z=5.28,p<0.001) 也如此。

单倍型多样性的进化

在本研究中发现15个GH1基因启动子具有多态性,基因转换潜在 解释在14个位置可替换的等位基因,因为它们与在四个共生同源人基 因中至少一个的类似位置中的那些相同(表3)。与10个其它哺乳动物 的直向同源生长激素(GH)基因启动子序列比较揭示人GH1基因的核苷 酸位置-75、-57、-31、-6、+3、+16和+25(相当于包括SNPs8-15) 中的最常见等位基因在哺乳动物进化过程中严格保守(Krawczak等 1999)。有趣的是,人GH1基因中的-1位置最罕见的三个可替换等位 基因(SNP12)与哺乳动物直向基因中严格保守的那些相同。

“降低中值网(reduced median network)”(图7)揭示野生型单 倍型H1不通过单一突变事件直接与其它常见单倍型相联系。第二个最 常见的单倍型H2通过H23和H12与H1相联系,而第三个最常见的单 倍型H3,通过非保守单倍型或双突变与H1相联系。由于每一单倍型观 察的数量少,认为以致引入更多单倍型的这个网的扩充不可靠。此外, 该网的扩充将需要多个单一碱基对取代的引入。由于这些不能与预先 存在的单倍型之间的系列循环基因转换区分开来,这个网所得的距离 (distance)将不太可能反映真正的进化关系。然而,这可以安全假 定为图7所述网的情况,其中连接七个最常见的单倍型,因为每一突 变仅发生一次。

注意到大多数SNPs存在随物理距离连锁不平衡的普遍下降,伴有 一些显著的例外(表6)。因此,发现SNP9与其它SNPs有强烈的LD,包 括显示出与所有其它近侧启动子SNPs相比较弱的LD的SNP16。这个发 现提示SNP9的起源相对较晚。然而,发现SNP10与SNP12而不是与SNP 11具有完好的LD(ρ=0.381),而SNP8与SNP11比与SNP10具有更强的 LD(ρ=0.925对0.687)。这些反常发现提示近侧启动子SNPs当中LD的 现存模式不太可能仅仅通过随距离重组衰退而产生,而是可能反映其 它机制的作用如频发突变、基因转换或选择。

超高和次低单倍型的预测和功能测试

基于由单倍型依赖性近侧启动子表达数据获得的“最佳的”回归 树,对预测表达水平方面的潜在“超高”和“次低”单倍型进行了尝 试。为此,选择六个关键SNPs的等位基因考虑树的合适叶的平均表达 水平(表5)。确定剩余SNPs的等位基因,以便分别最大化或最小化各 个SNPs的表达。因此,对于预测的超高单倍型,SNPs6、7、9和11 的等位基因作为叶10,而SNPs1和14的等位基因作为叶7。选择次低 单倍型代表叶1(SNPs1、7、9和14)。然而SNPs6和11的等位基 因的最佳选择有些不明确,因为叶2(提示等位基因T和G)和4(提 示等位基因G和A)预测了类似低的平均表达水平。因此,决定产生两 个构建体进行体外测试。剩余SNPs的假定单倍型的完成产生了

超高单倍型AGGGGTTAT-ATGGAG和

次低单倍型AG-TTGTGGGACCACT、AG-TTTTGGGGCCACT。

然后构建这三个人工单倍型并在大鼠垂体细胞表达,分别产生与 野生型(单倍型1)相比145±4、55±5和20±8%的表达水平。

迁移率变动(EMSA)分析揭示的SNP等位基因之间的差异

使用大鼠垂体细胞作为核内蛋白来源,对所有等位基因变异体的 所有近侧启动子SNP位点进行EMSAs。在位点-168、-75、-57、-31、 -6/-1/+3和+16/+25注意到蛋白相互作用条带(表7)。在位点-75 (SNP8)、-57(SNP9)、-31(SNP10)、-6/-1/+3(SNPs11、12、 13)和+16/+25(SNPs14、15)注意到蛋白相互作用条带数量的等位 基因内差异[图8;表7]。在后两个位点的情况下,特异性SNP等位基 因组合上的EMSA分析提示差异蛋白结合可分别归因于SNP位点12和 15的等位基因变异(表7)。当使用HeLa细胞提取物重复分析时,仅仅 位置-57显示蛋白质相互作用证据,而且仅仅是G等位基因,不是T 等位基因(数据未显示)。利用对应于两个不同的Pit-1结合位点的寡 核苷酸的竞争实验结果与是Pit-1的两个SNP8相互作用蛋白一致(图 8)。然而,剩余未受影响的等位基因-特异性蛋白质相互作用暗示包括 的另一个蛋白不是Pit-1。

启动子单倍型体外表达和体内身高材间的关联

尝试将单倍型特异性的GH1近侧启动子的体外表达与124名男性 白种人的成年人身高关联起来。每一单倍型归于其来自标准体外表达 数据的平均表达值(表4)并计算每一个体的两个单倍型的平均 Ax=(μnor,h1+μnor,h2)/2。从分析中排除H1纯合的个体,因为它们的Ax值 (1.0)不会有助于任何构成原因的变异。这得到具有合适基因型的109 名身高已知个体的样品(表8)。与Ax值超过和低于中值(0.9)相比,当 身高超过和低于中值(1.765m)时,暴露出身高和GH1近侧启动子单倍 型有关体外表达的证据(χ2=4.846,1d.f.,P=0.028)。虽然如此,使 用二次幂多项式的回归分析证明了两个μnor值它们自身是相对差的身 高预测者。由于决定系数(coefficient of determination)是 r2=0.025,可能推断大约2.5%的身高变异由参考GH1基因近侧启动子 单倍型体外表达解释。

基因座控制区(LCR)多态性和近侧启动子强度

在随机选自该研究组的100名个体筛选中,在GH1 LCR的位点I 和II内发现三个新的多态性变化(垂体特异性表达GH1基因所需;Jin 等1999)。这些位于核苷酸位置990(G/A;0.90/0.10)、1144(A/C; 0.65/0.35)和1194(C/T;0.65/0.35)[按Jin等1999编号]。1144 和1194位的多态性处于总连锁不平衡,并观察到三个不同的单倍型: 单倍型A(990G,1144A,1194C;0.55)、单倍型B(990G,1144C,1194T; 0.35)和单倍型C(990A,1144A,1194C;0.10)。

为了确定三个LCR单倍型是否对下游GH1基因的表达发挥差异作 用,构建很多不同的LCR-GH1近侧启动子构建体。三个可替换1.6kb含 LCR片段克隆入pGL3,就在三个不同类型的近侧启动子单倍型上游, 即“高表达启动子”(H27)、“低表达启动子”(H23)和“标准表达启 动子”(H1),共产生九个不同的LCR-GH1近侧启动子构建体。然后这 些构建体在大鼠GC细胞和HeLa细胞中表达,并测定所得萤光素酶活 性。在GC细胞中,与单独近侧启动子相比,LCR的存在增强表达高达 至2.8倍(表9)。然而,这个诱导效应的程度依赖于连接的启动子单 倍型。双因素方差分析(表10)揭示了两个主要作用和启动子*LCR相互 作用显著,主要影响由近侧启动子发挥。表9中还包括在95%显著性 水平的Tukey studentized范围检验的结果,每一启动子单倍型逐一 进行。连同启动子单倍型1,LCR单倍型A的活性显著不同于N的活性 (含有近侧启动子但缺乏LCR),而不是显著不同于LCR单倍型B和C 的活性;LCR单倍型B和C彼此以及与N有显著差异。然而,对于启 动子27,发现LCR单倍型之间无显著性差异。在HeLa细胞中,任何 近侧启动子单倍型都没有注意到LCR介导的表达诱导(数据未显示)。

由于LCR和近侧启动子SNPs之间的物理距离太大而不允许连接物 理单倍型,因此使用来自包括在近侧启动子的SNP LD间分析中的100 名个体的基因型数据,用最大似然法估计它们之间的连锁不平衡(LD)。 发现除了SNP16的所有SNPs的启动子SNPs和LCR单倍型之间配对 (pair-wise)LD是高的(表6)。因此可以推断SNP16在SNP9发生 前常遭受频发突变,SNP9是发现与SNP16强烈连锁不平衡的唯一SNP。 LCR单倍型之间的实质差异存在于它们与SNPs4、8和16的LD方面(表 6),提示LCR单倍型B与单倍型A相反,具有相对年轻的年龄。

在我们的研究中,我们已经确定了GH1基因的近侧启动子内16 个SNP位置中的15个发生的变异证明其本身有总共40个不同的启动 子单倍型。发现12个单倍型与单倍型1相比与萤光素酶报道基因表达 水平显著降低有关,而10个单倍型与水平显著增加有关。我们的数据 表明可归因于GH1基因启动子的多态性变异(2.5%)的成年人身高变异 性的常规估计可能保守并认为最小。

从我们的研究组观察到的单倍型频率,可以预料正常群体大约 8.2%具有过低的GH1近侧启动子单倍型表达(相同或不相同),其与体 外GH产量有关,该产量等于或小于野生型产量的50%。

在生长激素基因的近侧启动子区已经鉴定了各种顺式作用调节序 列。这些因素中的一些可以协同发挥它们的作用,而其它的看来以互 相排斥方式结合启动子基序。GH1基因启动子区的检查提示15个SNPs 中的一些位于转录因子结合位点内(图)。因此,聚集在转录起始位点 周围的三个SNPs(SNPs11-13),一个存在于与TATA盒相邻的近侧VDRE 的3’末端(SNP10),一个处于远端VDRE内(SNP9),一个处于近侧 Pit-1结合位点内(SNP8)和一个处于NF1结合位点内(SNP6)。截短 启动子构建体的表达分析与SNPs1-5对GH1基因表达的有限影响一 致。

单倍型划分鉴定了6个SNPs(编号1、6、7、9、11和14)作为GH1 基因表达水平的主要决定因素,另外6个SNPs是无关紧要的信息型(编 号3、4、8、10、12和16)。EMSA分析研究了所有16个SNPs的功 能重要性,表明GH1近侧启动子中的6个多态性位点与核酸结合蛋白 相互作用;这些位点中5个位点[SNP8(-75)、9(-57)、10(-31)、 12(-1)和15(+25)]的可替换等位基因显示有差异的蛋白结合。

我们的研究也集中于预测在表达水平方面潜在的超高和次低单倍 型。当测试时,一个次低单倍型确实显示出比任何天然存在单倍型更 低水平的表达,这是表明这里所述单倍型划分方法的功效的结果。

我们假设GH1基因启动子强度的单倍型依赖性差异的分子基础因 此可以在于多个转录因子与它们的同源结合位点的可替换形式的差异 结合的净效果。这些位点的可替换形式不同,由于它们含有各种SNPs 的不同等位基因,但是组合构成启动子单倍型的观察到的排列。人基 因的转录活化是由转录因子与基因启动子上它们的同源结合位点的不 同组合和改变(permutation)而介导的。一些转录因子通过顺式作用 DNA序列基序直接协调,其它的通过蛋白-蛋白相互作用间接协调,其 中已经被比作三维拼图玩具(jigsaw puzz1e):DNA序列基序提供拼 图模板,转录因子组成拼图。启动子的这个模块观察有助于任何人 想象给定单倍型中不同SNP组合的作用如何被转移(transfused), 以致对转录因子结合、transcriptosone装配和由此对基因表达发挥 差异作用。因此,例如,观察到的GH1启动子SNPs对基因表达的非累 加效应可以通过给定蛋白在1SNP位点的等位基因-特异性差异结合依 次影响第二个蛋白在本身常进行等位基因特异性蛋白结合的另一个 SNP位点的结合来了解。

在我们的研究中,LCR片段用来增强GH1近侧启动子的活性高达 2.8倍,尽管发现增强的程度依赖于连接的近侧启动子单倍型的特性。 相反,也发现给定单倍型的近侧启动子活性的增强依赖于LCR单倍型 的特性。总之,这些发现暗示GH1基因表达内个体间差异的遗传基础 可能极其复杂。

因此,我们的结果证明了单倍型在预测核酸分子功能中的重要性 和因此代表遗传资料分析的有效阶段。

表1.

16个位置的遗传变异定义的GH1近侧启动子单倍型   No.                   SNP相对于GH1基因转录开始位点的位置                   n        -476 -364 -339 -308 -301 -278 -168 -75 -57 -31 -6 -1 +3 +16 +25 +59   1    G    G    G    G    G    G    T    A   T   G   A  A  G  A   A   T    103   2    G    G    G    G    G    T    T    A   G   G   G  A  G  A   A   T    50   3§  G    G    G    T    T    G    T    A   G   G   A  A  G  A   A   T    28   4§  G    G    G    T    T    G    T    A   G   -   A  A  G  A   A   T    16   5§  G    G    G    G    G    T    T    G   G   G   G  A  G  A   A   T    13   6    G    G    G    T    T    G    T    A   G   -   A  A  G  A   A   G    9   7§  G    G    G    G    G    T    T    A   G   G   G  T  G  A   A   T    8   8    G    G    G    T    T    G    T    A   G   G   G  A  G  A   A   T    6   9    G    G    G    G    G    T    T    A   T   G   G  A  G  A   A   T    6   10   G    G    G    T    T    G    T    A   G   -   G  A  G  A   A   T    6   11§G    G    G    G    G    T    T    G   G   G   G  A  G  G   C   T    5   12   G    G    G    G    G    T    T    A   G   G   A  A  G  A   A   T    5   13§G    G    -    G    G    T    T    G   G   G   G  A  G  A   A   T    5   14   G    G    G    G    G    T    C    A   G   G   G  T  G  A   A   T    5   15   G    G    G    T    T    G    T    A   G   G   G  T  G  A   A   T    4   16   G    G    G    G    G    T    T    G   G   G   A  A  G  A   A   T    4   17§G    G    -    G    G    T    T    A   G   G   G  A  G  A   A   T    4   18   G    G    G    G    G    T    T    A   G   -   G  A  G  A   A   T    3   19§A    G    G    G    G    T    T    A   G   G   G  A  G  A   A   T    3   20   G    G    G    G    G    G    T    A   G   -   A  A  G  A   A   T    3   21   G    G    G    G    G    T    T    G   G   G   G  A  G  A   A   G    3   22   G    G    G    T    T    G    T    A   T   G   A  A  G  A   A   T    3   23§G    G    G    G    G    G    T    A   G   G   A  A  G  A   A   T    2   24§G    G    G    T    T    G    T    G   G   -   A  A  G  A   A   T    2   25   G    G    G    T    T    G    T    A   G   G   A  A  G  A   A   G    1   26§G    G    G    G    G    T    T    G   G   G   G  T  G  A   A   T    1   27   G    G    G    G    G    T    T    A   T   G   A  A  G  A   A   T    1   28   G    G    G    G    G    T    T    A   G   -   A  A  G  A   A   T    1   29§A    G    G    G    G    T    T    A   G   G   A  A  G  A   A   T    1   30   G    G    -    G    G    T    T    A   G   G   A  A  G  A   A   T    1   31   G    G    G    G    G    T    T    G   G   -   G  A  G  A   A   T    1   32   G    G    G    T    T    G    T    G   G   G   G  A  G  A   A   G    1   33   G    G    G    G    G    T    T    A   G   G   G  A  G  G   C   T    1   34   G    G    -    G    G    T    C    A   G   G   G  T  G  A   A   T    1   35   G    G    G    G    G    G    T    A   G   G   A  C  C  A   A   T    1   36   G    G    G    G    G    T    T    A   G   G   G  T  G  A   A   G    1   37$ A    G    G    G    G    T    T    A   G   G   G  A  G  G   A   T    0   38$ G    G    G    G    G    T    C    A   G   G   A  A  G  A   A   T    0   39$ G    G    G    T    T    G    T    A   G   G   G  A  G  A   C   T    0   40$ G    G    G    G    G    T    C    A   G   G   G  A  G  A   A   T    0

n:154名男性英国白种人的频率;§:在GC细胞中显示萤光素酶活性显 著降低水平(单倍型1的55%)的单倍型;$:仅仅在GH缺乏的单独病例中 发现。-表示所考虑的碱基缺乏。

表2

用于显示等位基因-特异性蛋白结合的SNP位点的EMSA分析的双 链寡核苷酸引物序列。SNP位点11-15以不同的等位基因组合进行研 究。TSS:转录起始位点。   SNP/等位基因  距离TSS     序列5′→3′                 的位置   8A            -89→-61    CCATGCATAAATGTACACAGAAACAGGTG                             CACCTGTTTCTGTGTACATTTATGCATGG   8G                        CCATGCATAAATGTGCACAGAAACAGGTG                             CACCTGTTTCTGTGCACATTTATGCATGG   9G            -72→-42    CAGAAACAGGTGGGGGCAACAGTGGGAGAGA                             TCTCTCCCACTGTTGCCCCCACCTGTTTCTG   9T                        CAGAAACAGGTGGGGTCAACAGTGGGAGAGA                             TCTCTCCCACTGTTGACCCCACCTGTTTCTG   10G           -45→-15    GAGAAGGGGCCAGGGTATAAAAAGGGCCCAC                             GTGGGCCCTTTTTATACCCTGGCCCCTTCTC   10ΔG                     GAGAAGGGGCCAGGTATAAAAAGGGCCCAC                             GTGGGCCCTTTTTATACCTGGCCCCTTCTC   11,12,13    -18→+15    CCACAAGAGACCAGCTCAAGGATCCCAAGGCCC   AAG                       GGGCCTTGGGATCCTTGAGCTGGTCTCTTGTGG   11,12,13                CCACAAGAGACCGGCTCAAGGATCCCAAGGCCC   GAG                       GGGCCTTGGGATCCTTGAGCCGGTCTCTTGTGG   11,12,13                CCACAAGAGACCGGCTCTAGGATCCCAAGGCCC   GTG                       GGGCCTTGGGATCCTAGAGCCGGTCTCTTGTGG   14,15        +4→+37     ATCCCAAGGCCCAACTCCCCGAACCACTCAGGGT   AA                        ACCCTGAGTGGTTCGGGGAGTTGGGCCTTGGGAT   14,15                    ATCCCAAGGCCCGACTCCCCGCACCACTCAGGGT   GC                        ACCCTGAGTGGTGCGGGGAGTCGGGCCTTGGGAT   14,15                    ATCCCAAGGCCCGACTCCCCGAACCACTCAGGGT   GA                        ACCCTGAGTGGTTCGGGGAGTCGGGCCTTGGGAT   14,15                    ATCCCAAGGCCCAACTCCCCGCACCACTCAGGGT   AC                        ACCCTGAGTGGTGCGGGGAGTTGGGCCTTGGGAT

表3:

154名男性白种人的GH1基因启动子中15个SNPs的等位基因频 率和GH簇的共生同源(paralogous)基因的类似位置的相应核苷酸                   GH1          GH1共生同源基因§  SNP  位置$ 等位基因 频率       GH2     CSH1    CSH2   CSHP1 1    -476     G    304(0.987)    A       G       G      A               A    4(0.013) 3    -339     G    297(0.964)    G       G       G      G               -    11(0.036) 4    -308     G    232(0.753)    T       C       C      T               T    76(0.247) 5    -301     G    232(0.753)    T       T       T      T               T    76(0.247) 6    -278     G    185(0.601)    T       A       A      T               T    123(0.399) 7    -168     T    302(0.981)    T       C       C      T               C    6(0.019) 8    -75      A    273(0.886)    G       A       A      G               G    35(0.114) 9    -57      G    195(0.633)    A       T       T      G               T    113(0.367) 10   -31      G    267(0.867)    -       G       G      G               -    41(0.133) 11   -6       A    181(0.588)    A       G       G      A               G    127(0.412) 12   -1       A    287(0.932)    A       T       T      C               T    20(0.065)               C    1(0.003) 13   +3       G    307(0.997)    G       G        G     C               C    1(0.003) 14   +16      A    302(0.981)    A       A        A     G               G    6(0.019) 15   +25      A    302(0.981)    A       A        A     C               C    6(0.019) 16   +59      T    293(0.951)    G       G        G     G               G    15(0.049)

$:相对于GH1转录起始位点;§:人GH簇中的四个共生同源基因 的野生型序列的类似位置的碱基

表4

40个不同的SNP单倍型的体外GH1基因启动子表达分析  单倍型编号   n    μnor   σnor   Tukey  17          18    0.304    0.054    a----------------  3           18    0.324    0.170    a----------------  19          18    0.332    0.062    a----------------  23          18    0.359    0.042    ab---------------  24          18    0.395    0.107    abc--------------  11          18    0.406    0.069    abc--------------  26          18    0.410    0.181    abc--------------  13          18    0.483    0.084    abcd-------------  29          18    0.502    0.149    abcd-------------  4           18    0.528    0.205    abcde------------  5           18    0.536    0.205    abcde------------  7           18    O.553    0.154    abcdef-----------  21          18    0.577    0.206    *  9           18    0.635    0.268    abcdefg----------  15          18    0.725    O.271    abcdefgh---------  25          18    0.790    O.229    -bcdefghi--------  32          18    0.793    0.242    -bcdefghi--------  33          18    0.807    0.225    --cdefghi--------  35          18    0.809    0.230    --cdefghi--------  18          12    0.819    0.217    --cdefghi--------  10          18    0.855    0.135    ---defghi--------  12          18    0.958    0.357    ----efghij-------  16          18    0.988    0.290    -----fghijk------  1           90    1.000    0.174    ------ghijk------  6           18    1.075    0.404    -------hijkl-----  2           18    1.078    0.150    -------hijkl-----  31          18    1.208    0.353    --------ijklm----  28          18    1.317    0.312    ---------jklmn---  8           18    1.333    0.453    ---------jklmn---  22          18    1.403    0.380    ----------klmno--  30          18    1.447    O.345    -----------lmno--  36          18    1.451    0.368    -----------lmno--  39          18    1.468    0.653    -----------lmno--  20          18    1.600    O.342    ------------mnop-  38          18    1.697    0.752    -------------nop-  40          18    1.733    1.112    *  14          18    1.806    O.386    --------------op-  37          18    1.825    0.765    --------------op-  34          18    1.997    0.352    ---------------p-  27          18    3.890    0.901    ----------------q  阴性对照    90    0.000    0.005

n:测定的数量;μnor:平均标准表达水平(即与H1相比的倍数改变); σnor:表达水平的标准差;Tukey:Tukey’′s studentized范围检验的结 果,具有重叠组字母的单倍型在它们的平均表达水平方面没有统计学 差异;*:非高斯分布

表5

GH1基因启动子表达数据的单倍型划分   单倍型§ 叶& nhap  n   μnor σnor   δ(叶)   nnCnnn    11   4      72  1.809  0.725   36.27   nGTTnn    8    2      108 1.067  0.267   7.62   nTTTGn    9    1      18  0.635  0.268   1.22   nTTTAn    10   1      18  3.890  0.902   13.82   AnTGnA    1    2      36  0.418  0.142   0.71   GnTGnG    6    2      36  0.607  0.262   2.39   AnTGnG    7    1      18  1.825  0.765   9.95   GTTGGA    2    10     174 0.740  0.427   31.54   GGTGAA    4    8      144 0.735  0.474   32.16   GGTGGA    3    5      90  1.035  0.493   21.66   GTTGAA    5    4      72  1.178  0.384   10.47

nhap:叶中包括的单倍型数量;μnor:平均标准表达水平;σnor:表 达水平的标准差;δ(叶):叶内的残余偏离;§:以SNP1、6、7、9、 11和14的顺序给出的等位基因(n:任何碱基);&:如图4编号。

表6

100名男性白种人的GH1近侧启动子SNPs和LCR单倍型之间的连 锁不平衡,                                SNP   SNP   4      6     8      9     10      11      12&      16   4     -.-    1.000 0.802  0.893 0.731   0.554   0.638     0.567   6     1.000  -.-   0.927  0.868 0.632   0.891   0.867     0.111   8     0.802  0.927 -.-    1.000 0.687   0.925   0.242     0.251   9     0.893  0.868 1.000  -.-   1.000   0.905   1.000     1.000   10    0.731  0.632 0.687  1.000 -.-     0.381   1.000     0.415   11    0.554  0.891 0.925  0.905 0.381   -.-     1.000     0.044   12&  0.638  0.867 0.242  1.000 1.000   1.000   -.-       0.025   16    0.567  0.111 0.251  1.000 0.415   0.044   0.025     -.-   LCR$ 4      6     8      9     10      11      12        16   A     0.153  0.829 1.000  0.931 0.601   0.782   0.800     0.064   B     1.000  0.952 0.922  0.958 0.531   0.873   0.831     0.643   C     0.840  0.997 0.491  0.840 0.875   0.482   1.000     0.289

&:发现200个染色中的一条携带SNP12等位基因C;这条染色体从 包括SNP12的所有LD分析中排除;$:对于每一LCR单倍型,针对其 它两种LCR单倍型的组合计算ρ,因此使LCR转向双等位基因系统。

表7

使用大鼠垂体细胞核提取物,证明在GH1基因启动子中各种SNP 位点的等位基因特异性差异蛋白结合的EMSA分析结果   SNP        双链寡核苷酸  序列变异 蛋白相互作用条带的编号 转录因子结合位              的位置                  强       中     弱    点/功能区   8          -89→-61      -75A      -        1      -     Pit-1                            -75G      1        1      -     Pit-1   9          -72→-42      -57T      1        -      -     维生素D受体                            -57G      2        -      -     维生素D受体   10         -45→-15      -31G      1        -      -     TATA盒                            -31ΔG    -        -      1     TATA盒   11,12,13 -18→+15      -6/-1/+3  -        -      -     TSS                            AAG                            -6/-1/+3  -        -      -     TSS                            GAG                            -6/-1/+3  1        -      -     TSS                            GTG   14,15     +4→+37       +16/+25   2        1      -     5’UTR                            AA                            +16/+25   2        -      -     5’UTR                            AC                            +16/+25   1        -      -     5’UTR                            GC                            +16/+25   2        1      -     5’UTR                            GA

TSS:转录起始位点           5’UTR:5’非翻译区

表8

124名男性白种人的成年人身高和GH1近侧启动子单倍型相关的 体外表达数据之间的关联             Ax<0.9 Ax>0.9 身高<1.765 34       22 身高>1.765 21       32

Ax:个体的两个单倍型的平均标准体外表达水平   即. Ax=(μnor,h1+μnor,h2)/2。

表9

不同LCR-GH1近侧启动子构建体的来源于GC细胞的平均、标准荧光素 酶活性±标准差 启动子单倍型                      LCR单倍型               N               A               B                C H1           1.00±0.26x    2.47±0.41yz    2.30±0.46y    2.77±0.55z H23          1.00±0.14x    1.72±0.55yz    2.14+0.52z     1.35+0.48xy H27          1.00±0.26x    1.11±0.36x     1.00±0.41x    1.25±0.27x

x,y,z:启动子单倍型内Tukey′s studentized范围检验;具有重叠组 字母的LCR单倍型(A、B和C)在它们的平均表达水平方面没有统计学 差异。N:含有近侧启动子但缺乏LCR的构建体。每种情况下,LCR单 倍型相对于N进行标准化。

表10

LCR-GH1近侧启动子构建体的标准萤光素酶活性的双因素ANOVA分析   来源          DF       均方       F值       Pr>F   启动子单倍型  2        51.46      390.97    <0.0001   LCR单倍型     3        5.67       43.08     <0.0001   相互作用      6        3.09       23.48     <0.0001

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈