首页 / 专利库 / 疗法 / 疫苗 / 全细胞疫苗 / 马传染性贫血病毒驴白细胞弱毒疫苗株的全长基因序列

传染性贫血病毒驴白细胞弱毒疫苗株的全长基因序列

阅读:99发布:2020-05-11

专利汇可以提供传染性贫血病毒驴白细胞弱毒疫苗株的全长基因序列专利检索,专利查询,专利分析的服务。并且本 发明 提供了 马 传染性贫血病毒(EIAV)驴白细胞弱毒 疫苗 株含有8258个 碱 基的前病毒DNA全长基因序列及其结构,其所编码的全部 蛋白质 的基因序列和 氨 基酸序列和蛋白质的二级结构,以及该疫苗毒株的 调控序列 和非必需区序列。这些序列和结构的数据可应用于包括 艾 滋病毒在内的所有慢病毒属病毒的疫苗研制和使用该属病毒作为载体进行的 基因 治疗 ,还可应用于对EIAV的血清学及分子 生物 学诊断方法及其所需 试剂 的研制。,下面是传染性贫血病毒驴白细胞弱毒疫苗株的全长基因序列专利的具体信息内容。

1.传染性贫血病毒(Equine Infectious Anemia Virus,EIAV)驴白细胞弱毒疫苗株的全 长基因序列,其特征在于该基因由8258个核苷酸组成,5’-3’的序列为:   1     TGTGGGGTTT  TTATGAGGGG  TTTTATAAAT  GATTATAAGA  GTAAAAAGAA  GGGGGCTGAT  GCTCTCATAA  CCTTGTATAA  CCCAAAGGAC  TAGCTCATGT   100 101     TGCTAGGCAA  CTAAACCGCA  ATATCCTGTA  GTTCCTCTTG  CGTTCCGCAT  TTGTGACGTT  TTAAGTTCCT  GTTTTTACAG  TATATAAGTG  CTTGTATTCT   200 201     GACAATTGGG  CACTCAGATT  CTGCGGTCTG  AGTCCCTTCT  CTGCTGGGCT  AGACTAGCCT  TTGTAATAAA  TATAATTCTC  TGCTAAGTCC  CTGTCTCTAG   300 301     TTTGTCTTGT  TTTCAAGATC  TAACAGCTGG  CGCCCGAACA  GGGACCTGAG  GGCGCAGACC  CTGCCTGCTG  AACCTGGCTG  ATCATAGGAT  CCCTAGGACA   400 401     GCAGAGGAGA  ACTTACAGAA  GTCTTCTGGA  GGTGTTCCTG  GCCACAACAC  AGGAAGACAG  GTAAGATGGG  AGACTCTTTG  ACATGGAGCA  AAGCGCTCAA   500 501     GAAGTTAGAG  AAGGTGACGG  TACAAGGGTC  TCAAAAGCTA  ACTACTGGTA  ACTGTAATTG  GGCGCTGAAT  TTGGTGGACT  TATTCCATGA  CACCAATTTT   600 601     GGTAAAGAAA  AAGACTGGCA  ATTAAGGGAC  GTCATTCCAT  TGTTAGAGGA  CGTTTCCCAG  ACGTTGTCAG  GACAAGAGAG  AGAGGCATTT  GAAAAAACTT   700 701     GGTGGGCAAT  AGCTGCCGTT  AAGATGGGCT  TACAAATTAA  TACTGTGAAT  GATGCAAAAA  CAACATTTTC  TATATTAAAA  GCCAAGTTTG  AAAGAAAGAC   800 801     TGCAAATAAT  ACCAAAAAGC  AGTCTGAGCC  CGAGGAAGAA  TACCCAATAA  TGATTGATGG  GGCTGGAAAC  AGAAACTTTC  GGCCATTAAC  ACCCAGAGGA   900 901     TATACTACCT  GGGTAAATAC  TATACAGCAA  AACAATCTCT  TAAATGAAGC  TAGTGTGAAT  TTATTTGGTA  TTTTATCAGT  AGACTGTACT  TCTGAGGAAA  1000 1001    TGAATGCATT  TTTGGATGTA  GTACCAGGAC  AAGCAGGACA  AAAACAAGTA  CTATTGGATA  ATCTTGATAA  GATTGCAGAA  GAATGGGATC  GTAGGCACCC  1100 1101    GTTGCCAAAT  CCTCCATTAG  TGGCACCACC  ACAAGGGCCT  ATTCCCATGA  CAGCAAGGTT  CATTAGGGGA  TTGGGAGTTC  CTAGAGAAAG  ACAGATGAAA  1200 1201    CCTGCTTTTG  ATCAGTTTAG  ACAAACTTAT  AGACAATGGA  TAATAGAAGC  AATGACAGAA  GGGATAAAAA  TAATGATTGG  GAAACCCAAA  GCGCAAAATA  1300 1301    TTAGGCAAGG  ACCCAAAGAA  CCCTATCCAG  AGTTTATAGA  CAGATTGCTG  TCTCAGATAA  AAAGTGAGGG  ACATCCGGCT  GATATAACTA  AATTCCTGAC  1400 1401    AGACACTTTA  ACTATTCAGA  ATGCTAATGA  TGAATGCAAA  AATGCTATGA  GACATTTGAG  GCCAGAAGAT  ACTTTAGAAG  AGAAAATGTA  TGCATGTAGA  1500 1501    GATATTGGCA  CTATGAGACA  AAAAATGGCA  TTATTAGCCA  AGGCACTTCA  AGCAGGATTA  GCTGGTCCTA  TGAAGGGAGG  AATATTTAAA  GGGGGACCCT  1600 1601    TAGGGGCGAA  GCAGACATGT  TATAATTGTG  GAAAACCAGG  ACATTTTTCT  AGTCAATGTA  AAGCACCTAA  AATATGTTTT  AAGTGCAAAC  AGCCAGGACA  1700 1701    TTTCTCAAAA  CAATGTATAA  ATGCTCCAAA  AAACGGGAAA  CAAGGGGCTC  AGGGGAGGCC  CCAGAAACAA  ACTTTCCCTG  TGCAGAAGGA  GTCAATGAAC  1800 1801    AAAACACAAA  AAGAGGAGAA  ACAGCAAGGG  ACCTTATATC  CAGATTTAAG  TCAGATGAAA  CAGGAATACA  AGATCAAGGA  AGAGGAAAAT  CAAGAGGATC  1900 1901    TCAATCTGAA  CAGTTTGTGG  GAGTAACTTA  TAATTTAGAA  AAGAGACCAA  CTACAATAGT  CTTGATTAAT  GACACACCCT  TAAATGTATT  GTTGGACACA  2000 2001    GGAGCAGACA  CATCAGTACT  AACTATTGCA  CATTGTAATA  GGTTAAAGTA  TGGAGGAAGA  AAATATCAAG  GTACAGGTAT  TGTTGGGGTT  GGAGGTAATG  2100 2101    TAGAAACATT  TTCCACTCCT  GTTACAGTGA  AAAAGAAAGG  AAAACAAATT  AAAACTAGAA  TGTTAGTAGC  AGATATCCCA  GTTACTATTT  TGGGGCGAGA  2200 2201    TATTCTTCAA  GAATTAGGCG  CACAATTACT  AATGGCTCAA  CTTTCAAAAG  AAATAACCCC  AAGAGAAATT  AAATTAAAAA  CAGGCACAGT  AGGGCCTAAG  2300 2301    GTTCCCCAAT  GGCCACTTAC  TAAAGAGAAG  TTGTTAGGTG  CTAAAGAAAT  AGTCAAAAAA  TTGTTGGATG  AAGGTAAAAT  ATCAGAAGCC  AGTGATGATA  2400 2401    ATCCTTATAA  TTCTCCTATA  TTTGTAATAA  AAAAGAAATC  TGGAAAGTGG  AGATTATTGC  AAGATTTAAG  AGAGTTAATT  AAGGGTGGTA  CAAGTAGAAC  2500 2501    TGAAATATCC  AGAGGATTAC  CTCATCCAGG  GGGATTAATT  AAATGTAATC  ATATGACAGT  ATTAGATATT  GGAGATGCAT  ATTTCACTAT  ACCATTAGAT  2600 2601    CCAAAGTTTA  GACAATATAC  AGCATTTACT  GTGCCATCCA  TTAATCATCA  GGAACCAGAT  AAAAGATATG  TGTGGAATTG  CTTGCCACAA  GGTTTTGTGT  2700 2701    TAAGTCCATA  CATATATCAA  AAAACATTAC  AGGACATATT  ACAAGCTTTT  AGAGAAAGGC  ATCCAGATGT  ACAATTATAT  CAATATATGG  ATGATTTATT  2800 2801    CATTGGGAGT  AATGAATCTA  AAAGACAACA  TAAGGAACTA  GTAGAAGAAT  TAAGAGCTAT  TCTTTTAGAA  AAGGGCTTTG  AGACGCCTGG  GGATAAATTG  2900 2901    CAGGAAGAAG  CACCCTATAA  TTGGCTGGGA  TATCAACTTA  GTCCAGGCAA  TTGGAAAGTA  CAAAAGATGC  AATTAGAATT  GGTAAAAGAG  CCAACATTAA  3000 3001    ATGATGTGCA  AAAATCAAAG  GGAAATATAA  CATGGATGAG  CTCAGGGGTT  CCTGGATTAA  CAGTGAAGCA  AATAGCTGCT  ACCACTAAAG  GTTGCTTAGA  3100 3101    TTTAAATCAT  AAAGGTAGTA  GGACCAGAGA  AGCCCAAAAA  GACTTAGAGG  AAATTATTAA  AAGTTTCAGA  AGCTCAGGAT  TCCCATATTA  TAACCCAGAA  3200 3201    GAAGAAGTAA  TCTGTGAGAT  TGAAATTACT  AAAAATTATG  AGGCTACTTA  TATAATAAAA  CAGTCTCAAG  GAATAT1GTG  GGCAGGAAAG  AAAATTATGA  3300 3301    GGGCTAATAA  AGGATGGTCC  GCAGCAAAAA  ATCTAATGTT  ATTGTTACAA  CATGTAGCCA  CAGAAAGTAT  TGTTAGAATT  GGAACATGTC  CAAAATTTAA  3400 3401    AGTACCTTTT  ACTAAAGAAC  AAGTCAAATG  GGAAATGGAA  AAGGGATGGT  ATTATTCATG  GCTACCAGAC  ATGGTATATT  CACATCAAGT  TGTTCATGAT  3500 3501    GATTGGAGAC  TGAAATTAGT  AGAGCAACCA  ACATCTGGTA  TAACAATTTA  TACTGATGGG  GGTAAACAGA  ATGAAGAAGG  AGTTGCAGCT  TATGTGACTA  3600 3601   GTAATGGGAA  AACTAAACAA  AAAAGGTTAG  GGCCTGTTAC  TCATCAAACT  GCTGAGAGGA  TAGCAATACA  AATGGCATTA  GAAGATACTG  AAGAGACATT  3700 3701   GGTAAATATA  GTAACTGATA  GTTACTACTG  TTGGAAAAAT  ATTACAGAAG  GATTAGGGTT  AGAAGGACCA  GACAGCCCCT  GGTGGCCAAT  AATTCAAAAT  3800 3801   ATTAGGGCTA  AAGAAATGGT  TTATTTTGCT  TGGGTACCAG  GTCACAAAGG  AATATATGGC  AATCAATTGG  CAGATGAGGC  TACTAAAATA  ACAGAGGAAA  3900 3901   TTATGTTAGC  ATATCAAGGC  ACACAGATTA  GGGAAAAAAG  AGATGAAGAT  GCAGGGTATG  ATTTGTGTAT  TCCTTATGAC  ATAATGATAC  CTGTCTCTGA  4000 4001   GACAAAAGTT  ATACCCACAG  ATGTAAAAAT  ACAGGTACCT  CACAAATGTT  TTGGATGGGT  AACTGGTAAG  TCATCAATGG  CTAAGCAAGG  ATTATTAATC  4100 4101   AATGGGGGAA  TAATTGATGA  AGGATACACA  GGTGAAATAC  AGGTAATTTG  TACTAATATT  GGAAAGAGTA  ACATGAAACT  CAGGGAAGGA  CAAAAGTTTG  4200 4201   CACAATTAAT  CATATTACAG  CATCGATCAA  ATGATAAACA  AATCTGGGAT  GAAAATAAAA  CATCTCAAAG  GGGAGATAAA  GGGTTTGGAA  GCACAGGTAT  4300 4301   ATTTTGGGTA  GAGAATATCC  AAGAGGCGCA  AGATGAACAT  GAAAATTGGC  ATACATCTCC  AAAGATATTG  GCAAAAAGAT  ATGGGTTACC  ATTGACTGTA  4400 4401   GCTAAACAGA  TAACTCAAGA  ATGCCCTCAT  TGTACTAAAC  AAGGATCTGG  ACCAGCAGGT  TGTGTAATGA  GATCTCCTAA  TCATTGGCAG  GCTGATTGTA  4500 4501   CACATTTAGA  AAACAGGGTA  ATAATGACAT  TTGTAGAGTC  TAATTCAGGA  TACATTCATG  CTACTCTATT  GTCCAAAGAA  AATGCCTTGT  GTCCTTCATT  4600 4601   GGCTATTTTG  GAATGGGTGA  GGTTATTTTC  TCCTAAATCT  TTACATACAG  ACAATGGTAC  TAATTTTGTG  GCAGAGTCAG  TAGCAAATCT  GTTGAAATTC  4700 4701   CTGAAGGTGA  CACATACTAC  AGGAATACCT  TATCACCCAG  AGAGCCAAGG  CATTGTGGAA  AGAGCAAACA  GGACATTAAA  AGAAAGAATT  AAAAGTCATA  4800 4801   GAGGAAATAC  TCAGACACTT  GAAGCAGCAT  TACAACTTGC  TCTCATTACT  TGTAACAAAG  GGAGGGAAAG  TATGGGAGGA  CAAACTCCAT  GGGAAGTATT  4900 4901   TATTACTAAT  CAGGCTCAAA  CAATACATGA  AGAACTTTTA  TTACAACAAG  CACAATCTTC  TAAAAAATTT  TGTTTTTATA  AAATTCCTGG  TGAGCATAAT  5000 5001   TGGAAGGGGC  CCACCAGAGT  GTTGTGGAAA  GGTGATGGAG  CAGTAGTGGT  CAATGATGAG  GAAAAAGGAA  TAATTGCTGT  GCCTTTAACC  AGGACTAAAT  5100 5101   TATTAATAAG  ACCAAATTGA  GCATTGTTTC  AGGAATCACC  ACCAGTCAGC  TATCATTGTC  AACTGTGTTT  CCTGAGATCA  TTGGGAATTG  ACTACCTTGA  5200 5201   CAGCTCGCTG  AAGAAGAAGA  ACAAACAAAG  ACAGAAGGCC  ATCAGGGAGG  AAGACAACCT  CAGTATCTTG  TTATAAGGTT  TGGTGTATGG  GATTATTTGG  5300 5301   TAAAGGGGTA  ACATGGTCAG  CATTACATTC  TATGGGGGTA  TCCCAGGGGG  AATATCAACC  CCTATCACCC  AACAAACAGA  ATCAACAGAC  ACACAGAAAG  5400 5401   GGGATCATAT  GGTATATCAA  CCCTATTGTT  ATAATGATAG  CCATAAAGAA  GAAATGGCAG  AGACAAGAGA  CACAAGATAC  CAAGAAGAAA  TGAACCGGAA  5500 5501   AGAAGATAAA  GAAGATAAAA  GAAAGAATAA  CTGGTGGAAG  ATAGGTATGT  TCTTATTGTG  TCTGTTAGAG  ATCACTGGAG  GATTCCTCTG  GTGGTATGAG  5600 5601   AGGCAACAAC  ATTCATATTA  TATAAGATTG  GTTACAATAG  GAGGTAGACT  GAATGGTTCA  GGAATGACTA  GTGCCATAAA  ATGTTGGGGT  TCATTTCCTG  5700 5701   GGTGTAGGCC  ATTTACTAAC  TATTTCAGTT  ATGAGACTAA  TAGGACTGTT  AGTAGAGATA  ATAATACTGC  TACTCTGTTA  GATACTTATC  AAAGAGAAAT  5800 5801   AACAAACATA  TACAGGACAT  CTTGTGTGGA  TAGTGATCAC  TGTCAAGAAT  ATAAATGTAA  GCAAGTACAG  TTGAAAAAGA  ACAGCAATAA  CATTATAATG  5900 5901   AATAATTGTA  GTAACAATAG  GTGTGAAGAG  TTTTGGGGGT  TTAGCTGGTT  AGAATGTAAT  CAGACAGAAA  ATGCAATAAC  TATATTGGTC  CCAGAAATAG  6000 6001   AAATACAGCA  AAGAAAGAAC  ACTTGGATTC  CAAAAAGGTG  TGAGAAAACT  TGGGCTAAGG  TAAAACATTG  TCCAATGGAT  TTATTATATG  GTATAAATAA  6100 6101   AATAAGAATG  TGTGTCCAAC  CTCCATTCTT  TTTGTTTAAA  CAGAATGATA  CTTCTAATAA  TACTAATATT  CTCAGTAATT  GTGGACCTTT  AGTATTTCTT  6200 6201   GGAATATTTG  AGGACAATAA  GGCAGCAATC  CAGAATGGGA  GTTGCACTCT  TCACAGGACA  AATATTAACA  GGCCAGATTA  TAGTGGATTT  TACCAAGTGC  6300 6301   CTATATTTTA  TATATGCACC  TTGACAGGAT  TTCAAAGTTG  TAATAATGGA  TCAATAATTA  GTATAATTAT  GTATGAGTCT  AATAATGTTC  AATACTTGTT  6400 6401   ATGCAATACT  AGTAATACTA  ATAGTACCAA  TAATGCTAAT  GTCTCTTGTG  TGGTACAAAG  TTTTGGAGTG  ATAGGACAGG  CACATGTGGC  ATTGCCCAGA  6500 6501   AAAAATAAGA  GGTTACAATC  TCCAAAGTTT  GCTCACTATA  ATTGCACCAT  AAATAATAAA  ACAGAGTTAA  GGCGATGGCA  ATTGGTAAAA  ACATCAGGCA  6600 6601   TCACTCCTTT  ACCCATTTCC  TCTACAGCTA  ATACTGGATT  AGTCAGACAC  AAGAGAGACT  TTGGTATATC  TGCTATAATA  GCTGCCATTG  TAGCTGCTAG  6700 6701   TGCTATTGCT  GCTAGTGCTA  CTATGTCTTA  TATCGCTTTG  ACAGAAGTCA  ACAAATTAGA  TAGTGTACAA  AATCATACTT  TTGAAGTAGA  GAACAATACT  6800 6801   ATCAATAACA  TAGAGTTAAC  AGAAGAGCAA  ATTCATATAT  TATATGCTAT  GGTTCTCCAA  ACACATGCAG  ATGTTCAATT  GTTAAAAGAA  CAACAAAAGA  6900 6901   TTGAGGAAAC  ATTTAATTTA  ATTGGATGTA  TAGAAAGATC  ACATACATTT  TGTCATACTG  GACATCCCTG  GAATGAATCA  TGGGGTCAGT  TAAATGATTC  7000 7001   TACACAGTGG  GATGACTGGG  TAGATAAGAT  GGAAAATTTA  AATCATGATA  TATTAACAAC  ACTTCATACT  GCTAGAAATA  ATCTAGAACA  ATCTATGATA  7100 7101   ACTTTCAATA  CACCTGACAG  TGTAGCACAA  TTTGGAAAAA  ATATTTGGAG  TCATATTGCA  AATTGGATTC  CTAGATTAGG  AGCTTCCATA  ATTAAATATA  7200 7201   TAGTGTTGAT  ATTACTTATA  TATGTGTTAC  TAACCTCTGC  ACCTAAGATC  CTCAGAGGCC  TCTTGACAAC  GATGAGTGGT  GCAGGATCCT  CCGCCAGTCG  7300 7301   CTACCTGAAG  AAAAGATACC  ATCACAAACA  TGCATCGCGA  GGAGACATCT  GGGCCCAGGT  CCAATATCAT  GCGTACCTGG  CAGACGAGAC  TCATGGCTCA  7400 7401   GGGGACAAGT  CCAACATGCG  GAAGCTCTCC  AGGAACAACT  GGAATGGCGA  ATCAGAGGAG  TACAACAGAC  GACAAAAAAA  TTGGAAAAAG  TTATTAAAGA  7500 7501   GATCTGGAGA  GAATTACAAT  ACACACGAAG  ACAACATGGG  GACTATGGGT  CGTTTGGTGA  CTACCGCCGC  CGAGAAGAAG  AACGTCGGGG  TGAATCCTCA  7600 7601   CCAAGGGTCC  TTAACCCTGG  AGATTCAAAG  CAAAGGAGGA  AACATCTATG  ACTGTTGCAT  TAAGGCTCAA  GAAGGAACTC  TTGCTATTCC  TTGCTGTGGC  7700 7701   TTCCCACTAT  GGCCGTTTTG  GGGACTTATA  ATCATATTAG  AACGCTTGTT  GGGATATGGG  CTTCGGGAAA  TTGCAAAAAT  TATAATGATT  CTAGGGAAAG  7800 7801   GACTAAGTAT  AATAATTACA  GGATTAAGAA  AATTATGTGA  TTATATTGGG  AAAATGCTAA  ATCCAGCTAC  ATCTCATGTA  ACAATGCCTC  AATATGATGT  7900 7901   TTAGAAAAAC  AAGGGGGGAA  CTGTGGGATT  AATATAAGAT  TCTTATAAGT  GAATATGAAA  GTTGCTGATG  CTCTCAAGTT  GCTGATGCTC  TCATAACCTT  8000 8001   ATGACTAGCT  CATGTTGCCA  GGCAACTGAA  CTGTGATAAC  CTTTTGTTCC  TCATTATAGT  TCCGCTTTTG  TATAGTTCCG  CTTTTGTGAC  GCGTTAAGTT  8100 8101   CCTGTTTTTA  CAGTATATAA  GTGCTTATAT  TCTGACATTT  GGTCACTCAG  ATTCTGCGGT  CTGAGTCCCT  TCTCTGCTGG  GCTAGACTAG  CCTTTGTAAT  8200 8201   AAATATAATT  CTCTGCTAAG  TCCCTGTCTC  TAGTTTGTCT  TGTTTTCAAG  ATCTAACA    8258
2.马传染贫血性病毒(EIAV)驴白细胞弱毒疫苗株的全长基因序列,共包括8个功能 基因,分别是5’-LTR、gag、pol、env、tat、rev、S2和3’LTR,其特征在于: (1)5’LTR由325个核苷酸组成,位于全长基因的第1位至第325位,5’-3’的序列为:    1   TGTGGGGTTT  TTATGAGGGG  TTTTATAAAT  GATTATAAGA  GTAAAAAGAA  GGGGGCTGAT  GCTCTCATAA  CCTTGTATAA  CCCAAAGGAC  TAGCTCATGT  100  101   TGCTAGGCAA  CTAAACCGCA  ATATCCTGTA  GTTCCTCTTG  CGTTCCGCAT  TTGTGACGTT  TTAAGTTCCT  GTTTTTACAG  TATATAAGTG  CTTGTATTCT  200  201   GACAATTGGG  CACTCAGATT  CTGCGGTCTG  AGTCCCTTCT  CTGCTGGGCT  AGACTAGCCT  TTGTAATAAA  TATAATTCTC  TGCTAAGTCC  CTGTCTCTAG  300  301   TTTGTCTTGT  TTTCAAGATC  TAACA  325 (2)3’LTR由337个核苷酸组成,位于全长基因的第7922位至第8258位,5’-3’的序列
为:    1   TGTGGGATTA  ATATAAGATT  CTTATAAGTG  AATATGAAAG  TTGCTGATGC  TCTCAAGTTG  CTGATGCTCT  CATAACCTTA  TGACTAGCTC  ATGTTGCCAG  100  101   GCAACTGAAC  TGTGATAACC  TTTTGTTCCT  GATTATAGTT  CCGCTTTTGT  ATAGTTCCGC  TTTTGTGACG  CGTTAAGTTC  CTGTTTTTAC  AGTATATAAG  200  201   TGCTTATATT  CTGACATTTG  GTCACTCAGA  TTCTGCGGTC  TGAGTCCCTT  CTCTGCTGGG  CTAGACTAGC  CTTTGTAATA  AATATAATTC  TCTGCTAAGT  300  301   CCCTGTCTCT  AGTTTGTCTT  GTTTTCAAGA  TCTAACA  337 (3)gag基因由1461个核苷酸组成,位于全长基因的第466位至第1926位,5’-3’的序 列为:    1   ATGGGAGACT  CTTTGACATG  GAGCAAAGCG  CTCAAGAAGT  TAGAGAAGGT  GACGGTACAA  GGGTCTCAAA  AGCTAACTAG  TGGTAACTGT  AATTGGGCGC  100  101   TGAATTTGGT  GGACTTATTC  CATGACACCA  ATTTTGGTAA  AGAAAAAGAC  TGGCAATTAA  GGGACGTCAT  TCCATTGTTA  GAGGACGTTT  CCCAGACGTT  200  201   GTCAGGACAA  GAGAGAGAGG  CATTTGAAAA  AACTTGGTGG  GCAATAGCTG  CCGTTAAGAT  GGGCTTACAA  ATTAATACTG  TGAATGATGC  AAAAACAACA  300  301   TTTTCTATAT  TAAAAGCCAA  GTTTGAAAGA  AAGACTGCAA  ATAATACCAA  AAAGCAGTCT  GAGCCCGAGG  AAGAATACCC  AATAATGATT  GATGGGGCTG  400  401   GAAACAGAAA  CTTTCGGCCA  TTAACACCCA  GAGGATATAC  TACCTGGGTA  AATACTATAC  AGCAAAACAA  TCTCTTAAAT  GAAGCTAGTG  TGAATTTATT  500  501   TGGTATTTTA  TCAGTAGACT  GTACTTCTGA  GGAAATGAAT  GCATTTTTGG  ATGTAGTACC  AGGACAAGCA  GGACAAAAAC  AAGTACTATT  GGATAATCTT  600  601   GATAAGATTG  CAGAAGAATG  GGATCGTAGG  CACCCGTTGC  CAAATCCTCC  ATTAGTGGCA  CCACCACAAG  GGCCTATTCC  CATGACAGCA  AGGTTCATTA  700  701   GGGGATTGGG  AGTTCCTAGA  GAAAGACAGA  TGAAACCTGC  TTTTGATCAG  TTTAGACAAA  CTTATAGACA  ATGGATAATA  GAAGCAATGA  CAGAAGGGAT  800  801   AAAAATAATG  ATTGGGAAAC  CCAAAGCGCA  AAATATTAGG  CAAGGACCCA  AAGAACCCTA  TCCAGAGTTT  ATAGACAGAT  TGCTGTCTCA  GATAAAAAGT  900  901   GAGGGACATC  CGGCTGATAT  AACTAAATTC  CTGACAGACA  CTTTAACTAT  TCAGAATGCT  AATGATGAAT  GCAAAAATGC  TATGAGACAT  TTGAGGCCAG  1000 1001   AAGATACTTT  AGAAGAGAAA  ATGTATGCAT  GTAGAGATAT  TGGCACTATG  AGACAAAAAA  TGGCATTATT  AGCCAAGGCA  CTTCAAGCAG  GATTAGCTGG  1100 1101   TCCTATGAAG  GGAGGAATAT  TTAAAGGGGG  ACCCTTAGGG  GCGAAGCAGA  CATGTTATAA  TTGTGGAAAA  CCAGGACATT  TTTCTAGTCA  ATGTAAAGCA  1200 1201   CCTAAAATAT  GTTTTAAGTG  CAAACAGCCA  GGACATTTCT  CAAAACAATG  TAGAAATGCT  CCAAAAAACG  GGAAACAAGG  GGCTCAGGGG  AGGCCCCAGA  1300 1301   AACAAACTTT  CCCTGTGCAG  AAGGAGTCAA  TGAACAAAAC  ACAAAAAGAG  GAGAAACAGC  AAGGGACCTT  ATATCCAGAT  TTAAGTCAGA  TGAAACAGGA  1400 1401   ATACAAGATC  AAGGAAGAGG  AAAATCAAGA  GGATCTCAAT  CTGAACAGTT  TGTGGGAGTA  A   1461 (4)pol基因由3432个核苷酸组成,位于全长基因的第1689位至第5120位,5’-3’的 序列为:    1   ACAGCCAGGA  CATTTCTCAA  AACAATGTAT  AAATGCTCCA  AAAAACGGGA  AACAAGGGGC  TCAGGGGAGG  CCCCAGAAAC  AAACTTTCCC  TGTGCAGAAG  100  101   GAGTCAATGA  ACAAAACACA  AAAAGAGGAG  AAACAGCAAG  GGACCTTATA  TCCAGATTTA  AGTCAGATGA  AACAGGAATA  CAAGATCAAG  GAAGAGGAAA  200  201   ATCAAGAGGA  TCTCAATCTG  AACAGTTTGT  GGGAGTAACT  TATAATTTAG  AAAAGAGACC  AACTACAATA  GTCTTGATTA  ATGACACACC  CTTAAATGTA  300  301   TTGTTGGACA  CAGGAGCAGA  CACATCAGTA  CTAACTATTG  CACATTGTAA  TAGGTTAAAG  TATGGAGGAA  GAAAATATCA  AGGTACAGGT  ATTGTTGGGG  400  401   TTGGAGGTAA  TGTAGAAACA  TTTTCCACTC  CTGTTACAGT  GAAAAAGAAA  GGAAAACAAA  TTAAAACTAG  AATGTTAGTA  GCAGATATCC  CAGTTACTAT  500  501   TTTGGGGCGA  GATATTCTTC  AAGAATTAGG  CGCACAATTA  CTAATGGCTC  AACTTTCAAA  AGAAATAACC  CCAAGAGAAA  TTAAATTAAA  AACAGGCACA  600  601   GTAGGGCCTA  AGGTTCCCCA  ATGGCCACTT  ACTAAAGAGA  AGTTGTTAGG  TGCTAAAGAA  ATAGTCAAAA  AATTGTTGGA  TGAAGGTAAA  ATATCAGAAG  700  701   CCAGTGATGA  TAATCCTTAT  AATTCTCCTA  TATTTGTAAT  AAAAAAGAAA  TCTGGAAAGT  GGAGATTATT  GCAAGATTTA  AGAGAGTTAA  TTAAGGGTGG  800  801   TACAAGTAGA  ACTGAAATAT  CCAGAGGATT  ACCTCATCCA  GGGGGATTAA  TTAAATGTAA  TCATATGACA  GTATTAGATA  TTGGAGATGC  ATATTTCACT  900  901   ATACCATTAG  ATCCAAAGTT  TAGACAATAT  ACAGCATTTA  CTGTGCCATC  CATTAATCAT  CAGGAACCAG  ATAAAAGATA  TGTGTGGAAT  TGCTTGCCAC  1000 1001   AAGGTTTTGT  GTTAAGTCCA  TACATATATC  AAAAAACATT  ACAGGACATA  TTACAAGCTT  TTAGAGAAAG  GCATCCAGAT  GTACAATTAT  ATCAATATAT  1100 1101   GGATGATTTA  TTCATTGGGA  GTAATGAATC  TAAAAGACAA  CATAAGGAAC  TAGTAGAAGA  ATTAAGAGCT  ATTCTTTTAG  AAAAGGGCTT  TGAGACGCCT  1200 1201   GGGGATAAAT  TGCAGGAAGA  AGCACCCTAT  AATTGGCTGG  GATATCAACT  TAGTCCAGGC  AATTGGAAAG  TACAAAAGAT  GCAATTAGAA  TTGGTAAAAG  1300 1301   AGCCAACATT  AAATGATGTG  CAAAAATCAA  AGGGAAATAT  AACATGGATG  AGCTCAGGGG  TTCCTGGATT  AACAGTGAAG  CAAATAGCTG  CTACCACTAA  1400 1401   AGGTTGCTTA  GATTTAAATC  ATAAAGGTAG  TAGGACCAGA  GAAGCCCAAA  AAGACTTAGA  GGAAATTATT  AAAAGTTTCA  GAAGCTCAGG  ATTCCCATAT  1500 1501   TATAACCCAG  AAGAAGAAGT  AATCTGTGAG  ATTGAAATTA  CTAAAAATTA  TGAGGCTACT  TATATAATAA  AACAGTCTCA  AGGAATATTG  TGGGCAGGAA  1600 1601   AGAAAATTAT  GAGGGCTAAT  AAAGGATGGT  CCGCAGCAAA  AAATCTAATG  TTATTGTTAC  AACATGTAGC  CACAGAAAGT  ATTGTTAGAA  TTGGAACATG  1700 1701   TCCAAAATTT  AAAGTACCTT  TTACTAAAGA  ACAAGTCAAA  TGGGAAATGG  AAAAGGGATG  GTATTATTCA  TGGCTACCAG  ACATGGTATA  TTCACATCAA  1800 1801   GTTGTTCATG  ATGATTGGAG  ACTGAAATTA  GTAGAGCAAC  CAACATCTGG  TATAACAATT  TATACTGATG  GGGGTAAACA  GAATGAAGAA  GGAGTTGCAG  1900 1901   CTTATGTGAC  TAGTAATGGG  AAAACTAAAC  AAAAAAGGTT  AGGGCCTGTT  ACTCATCAAA  CTGCTGAGAG  GATAGCAATA  CAAATGGCAT  TAGAAGATAC  2000 2001   TGAAGAGACA  TTGGTAAATA  TAGTAACTGA  TAGTTACTAC  TGTTGGAAAA  ATATTACAGA  AGGATTAGGG  TTAGAAGGAC  CAGACAGCCC  CTGGTGGCCA  2100 2101   ATAATTCAAA  ATATTAGGGC  TAAAGAAATG  GTTTATTTTG  CTTGGGTACC  AGGTCACAAA  GGAATATATG  GCAATCAATT  GGCAGATGAG  GCTACTAAAA  2200 2201   TAACAGAGGA  AATTATGTTA  GCATATCAAG  GCACACAGAT  TAGGGAAAAA  AGAGATGAAG  ATGCAGGGTA  TGATTTGTGT  ATTCCTTATG  ACATAATGAT  2300 2301   ACCTGTCTCT  GAGACAAAAG  TTATACCCAC  AGATGTAAAA  ATACAGGTAC  CTCACAAATG  TTTTGGATGG  GTAACTGGTA  AGTCATCAAT  GGCTAAGCAA  2400 2401   GGATTATTAA  TCAATGGGGG  AATAATTGAT  GAAGGATACA  CAGGTGAAAT  ACAGGTAATT  TGTACTAATA  TTGGAAAGAG  TAACATGAAA  CTCAGGGAAG  2500 2501   GACAAAAGTT  TGCACAATTA  ATCATATTAC  AGCATCGATC  AAATGATAAA  CAAATCTGGG  ATGAAAATAA  AACATCTCAA  AGGGGAGATA  AAGGGTTTGG  2600 2601   AAGCACAGGT  ATATTTTGGG  TAGAGAATAT  CCAAGAGGCG  CAAGATGAAC  ATGAAAATTG  GCATACATCT  CCAAAGATAT  TGGCAAAAAG  ATATGGGTTA  2700 2701   CCATTGACTG  TAGCTAAACA  GATAACTCAA  GAATGCCCTC  ATTGTACTAA  ACAAGGATCT  GGACCAGCAG  GTTGTGTAAT  GAGATCTCCT  AATCATTGGC  2800 2801   AGGCTGATTG  TACACATTTA  GAAAACAGGG  TAATAATGAC  ATTTGTAGAG  TCTAATTCAG  GATACATTCA  TGCTACTCTA  TTGTCCAAAG  AAAATGCCTT  2900 2901   GTGTCCTTCA  TTGGCTATTT  TGGAATGGGT  GAGGTTATTT  TCTCCTAAAT  CTTTACATAC  AGACAATGGT  ACTAATTTTG  TGGCAGAGTC  AGTAGCAAAT  3000 3001   CTGTTGAAAT  TCCTGAAGGT  GACACATACT  ACAGGAATAC  CTTATCACCC  AGAGAGCCAA  GGGATTGTGG  AAAGAGCAAA  CAGGACATTA  AAAGAAAGAA  3100 3101   TTAAAAGTCA  TAGAGGAAAT  ACTCAGACAC  TTGAAGCAGC  ATTACAACTT  GCTCTCATTA  CTTGTAACAA  AGGGAGGGAA  AGTATGGGAG  GACAAACTCC  3200 3201   ATGGGAAGTA  TTTATTACTA  ATCAGGCTCA  AACAATACAT  GAAGAACTTT  TATTACAACA  AGCACAATCT  TCTAAAAAAT  TTTGTTTTTA  TAAAATTCCT  3300 3301   GGTGAGCATA  ATTGGAAGGG  GCCCACCAGA  GTGTTGTGGA  AAGGTGATGG  AGCAGTAGTG  GTCAATGATG  AGGAAAAAGG  AATAATTGCT  GTGCCTTTAA  3400 401    CCAGGACTAA  ATTATTAATA  AGACCAAATT  GA        3432 (5)env基因由2592个核苷酸组成,位于全长基因的第5313位至第7904位,5’-3’的序 列为: 1      ATGGTCAGCA  TTACATTCTA  TGGGGGTATC  CCAGGGGGAA  TATCAACCCC  TATCACCCAA  CAAACAGAAT  CAACAGACAC  ACAGAAAGGG  GATCATATGG  100 101    TATATCAACC  CTATTGTTAT  AATGATAGCC  ATAAAGAAGA  AATGGCAGAG  ACAAGAGACA  CAAGATACCA  AGAAGAAATG  AACCGGAAAG  AAGATAAAGA  200 201    AGATAAAAGA  AAGAATAACT  GGTGGAAGAT  AGGTATGTTC  TTATTGTGTC  TGTTAGAGAT  CACTGGAGGA  TTCCTCTGGT  GGTATGAGAG  GCAACAACAT  300 301    TCATATTATA  TAAGATTGGT  TACAATAGGA  GGTAGACTGA  ATGGTTCAGG  AATGACTAGT  GCCATAAAAT  GTTGGGGTTC  ATTTCCTGGG  TGTAGGCCAT  400 401   TTACTAACTA  TTTCAGTTAT  GAGACTAATA  CGACTGTTAG  TAGAGATAAT  AATACTGCTA  CTCTGTTAGA  TACTTATCAA  AGAGAAATAA  CAAACATATA   500 501   CAGGACATCT  TGTGTGGATA  GTGATCACTG  TCAAGAATAT  AAATGTAAGC  AAGTACAGTT  GAAAAAGAAC  AGCAATAACA  TTATAATGAA  TAATTGTAGT   600 601   AACAATAGGT  GTGAAGAGTT  TTGGGGGTTT  AGCTGGTTAG  AATGTAATCA  GACAGAAAAT  GCAATAACTA  TATTGGTCCC  AGAAATAGAA  ATACAGCAAA   700 701   GAAAGAACAC  TTGGATTCCA  AAAAGGTGTG  AGAAAACTTG  GGCTAAGGTA  AAACATTGTC  CAATGGATTT  ATTATATGGT  ATAAATAAAA  TAAGAATGTG   800 801   TGTCCAACCT  CCATTCTTTT  TGTTTAAACA  GAATGATACT  TCTAATAATA  CTAATATTCT  CAGTAATTGT  GGACCTTTAG  TATTTCTTGG  AATATTTGAG   900 901   GACAATAAGG  CAGCAATCCA  GAATGGGAGT  TGCACTCTTC  ACAGGACAAA  TATTAACAGG  CCAGATTATA  GTGGATTTTA  CCAAGTGCCT  ATATTTTATA   1000 1001  TATGCACCTT  GACAGGATTT  CAAAGTTGTA  ATAATGGATC  AATAATTAGT  ATAATTATGT  ATGAGTCTAA  TAATGTTCAA  TACTTGTTAT  GCAATACTAG   1100 1101  TAATACTAAT  AGTACCAATA  ATGCTAATGT  CTCTTGTGTG  GTACAAAGTT  TTGGAGTGAT  AGGACAGGCA  CATGTGGCAT  TGCCCAGAAA  AAATAAGAGG   1200 1201  TTACAATCTC  CAAAGTTTGC  TCACTATAAT  TGCACCATAA  ATAATAAAAC  AGAGTTAAGG  CGATGGCAAT  TGGTAAAAAC  ATCAGGCATC  ACTCCTTTAC   1300 1301  CCATTTCCTC  TACAGCTAAT  ACTGGATTAG  TCAGACACAA  GAGAGACTTT  GGTATATCTG  CTATAATAGC  TGCCATTGTA  GCTGCTAGTG  CTATTGCTGC   1400 1401  TAGTGCTACT  ATGTCTTATA  TCGCTTTGAC  AGAAGTCAAC  AAATTAGATA  GTGTACAAAA  TCATACTTTT  GAAGTAGAGA  ACAATACTAT  CAATAACATA   1500 1501  GAGTTAACAG  AAGAGCAAAT  TCATATATTA  TATGCTATGG  TTCTCCAAAC  ACATGCAGAT  GTTCAATTGT  TAAAAGAACA  ACAAAAGATT  GAGGAAACAT   1600 1601  TTAATTTAAT  TGGATGTATA  GAAAGATCAC  ATACATTTTG  TCATACTGGA  CATCCCTGGA  ATGAATCATG  GGGTCAGTTA  AATGATTCTA  CACAGTGGGA   1700 1701  TGACTGGGTA  GATAAGATGG  AAAATTTAAA  TCATGATATA  TTAACAACAC  TTCATACTGC  TAGAAATAAT  CTAGAACAAT  CTATGATAAC  TTTCAATACA   1800 1801  CCTGACAGTG  TAGCACAATT  TGGAAAAAAT  ATTTGGAGTC  ATATTGCAAA  TTGGATTCCT  AGATTAGGAG  CTTCCATAAT  TAAATATATA  GTGTTGATAT   1900 1901  TACTTATATA  TGTGTTACTA  ACCTCTGCAC  CTAAGATCCT  CAGAGGCCTC  TTGACAACGA  TGAGTGGTGC  AGGATCCTCC  GCCAGTCGCT  ACCTGAAGAA   2000 2001  AAGATACCAT  CACAAACATG  CATCGCGAGG  AGACATCTGG  GCCCAGGTCC  AATATCATGC  GTACCTGGCA  GACGAGACTC  ATGGCTCAGG  GGACAAGTCC   2100 2101  AACATGCGGA  AGCTCTCCAG  GAACAACTGG  AATGGCGAAT  CAGAGGAGTA  CAACAGACGA  CAAAAAAATT  GGAAAAAGTT  ATTAAAGAGA  TCTGGAGAGA   2200 2201  ATTACAATAC  ACACGAAGAC  AACATGGGGA  CTATGGGTCG  TTTGGTGACT  ACCGCCGCCG  AGAAGAAGAA  CGTCGGGGTG  AATCCTCACC  AAGGGTCCTT   2300 2301  AACCCTGGAG  ATTCAAAGCA  AAGGAGGAAA  CATCTATGAC  TGTTGCATTA  AGGCTCAAGA  AGGAACTCTT  GCTATTCCTT  GCTGTGGCTT  CCCACTATGG   2400 2401  CCGTTTTGGG  GACTTATAAT  CATATTAGAA  CGCTTGTTGG  GATATGGGCT  TCGGGAAATT  GCAAAAATTA  TAATGATTCT  AGGGAAAGGA  CTAAGTATAA   2500 501   TAATTACAGG  ATTAAGAAAA  TTATGTGATT  ATATTGGGAA  AATGCTAAAT  CCAGCTACAT  CTCATGTAAC  AATGCCTCAA  TATGATGTTT  AG  2592 (6)tat基因由237个核苷酸组成,第一外显子位于全长基因的第365位至第462位,第 二外显子位于全长基因的第5138位至第5276位,tat基因5’-3’的完整序列为:   1   CTGCTGAACC  TGGCTGATCA  TAGGATCCCT  AGGACAGCAG  AGGAGAACTT  ACAGAAGTCT  TCTGGAGGTG  TTCCTGGCCA  CAACACAGGA  AGACAGGTAC   100 101   CACCAGTCAG  CTATCATTGT  CAACTGTGTT  TCCTGAGATC  ATTGGGAATT  GACTACCTTG  ACAGCTCGCT  GAAGAAGAAG  AACAAACAAA  GACAGAAGGC   200 TAA      237 (7)rev基因由495个核苷酸组成,第一外显子位于全长基因的第5454位至第5546位,第 二外显子位于全长基因的第7250位至第7651位,tat基因5’-3’的完整序列为:   1   ATGGCAGAGA  CAAGAGACAC  AAGATACCAA  GAAGAAATGA  ACCGGAAAGA  AGATAAAGAA  GATAAAAGAA  AGAATAACTG  GTGGAAGATA  GGTCCTCAGA   100 101   GGCCTCTTGA  CAACGATGAG  TGGTGCAGGA  TCCTCCGCCA  GTCGCTACCT  GAAGAAAAGA  TACCATCACA  AACATGCATC  GCGAGGAGAC  ATCTGGGCCC   200 201   AGGTCCAATA  TCATGCGTAC  CTGGCAGACG  AGACTCATGG  CTCAGGGGAC  AAGTCCAACA  TGCGGAAGCT  CTCCAGGAAC  AACTGGAATG  GCGAATCAGA   200 301   CGAGTACAAC  AGACGACAAA  AAAATTGGAA  AAAGTTATTA  AAGAGATCTG  GAGAGAATTA  CAATACACAC  GAAGACAACA  TGGGGACTAT  GGGTCGTTTG   400 01    GTGACTACCG  CCGCCGAGAA  GAAGAACGTC  GGGGTGAATC  CTCACCAAGG  GTCCTTAACC  CTGGAGATTC  AAAGCAAAGG  AGGAAACATC  TATGA        495 (8)S2基因由207个核苷酸组成,位于全长基因的第5287位至第5493位,5’-3’的序列 为: 1     ATGGGATTAT  TTGGTAAAGG  GGTAACATGG  TCAGCATTAC  ATTCTATGGG  GGTATCCCAG  GGGGAATATC  AACCCCTATC  ACCCAACAAA  CAGAATCAAC   100 101  AGACACACAG  AAAGGGGATC  ATATGGTATA  TCAACCCTAT  TGTTATAATG  ATAGCCATAA  AGAAGAAATG  GCAGAGACAA  GAGACACAAG  ATACCAAGAA  200 201  GAAATGA     207 (9)上述所有基因的结构与功能。
3.根据权利要求1,马传染性贫血病毒驴白细胞弱毒疫苗株的全长基因包括gag、pol、env、 tat、rev和S2等6个功能基因,分别编码相应的蛋白质,其特征在于: (1)gag基因编码的前体蛋白质由486个基酸组成,分子量为55.032千道尔顿,等电点为 8.90,氨基酸序列从N端到C端为: MGDSLTWSKALKKLEKVTVQGSQKLTSGNCNWALNLVDLFHDTNFGKEKDWQLRDVIPLLED VSQTLSGQEREAFEKTWWAIAAVKMGLQINTVNDAKTTFSILKAKFERKTANNTKKQSEPEE EYPIMIDGAGNRNFRPLTPRGYTTWVNTIQQNNLLNEASVNLFGILSVDCTSEEMNAFLDVV PGQAGQKQVLLDNLDKIAEEWDRRHPLPNPPLVAPPQGPIPMTARFIRGLGVPRERQMKPAF DQFRQTYRQWIIEAMTEGIKIMIGKPKAQNIRQGPKEPYPEFIDRLLSQIKSEGHPADITKF LTDTLTIQNANDECKNAMRHLRPEDTLEEKMYACRDIGTMRQKMALLAKALQAGLAGPMKGG IFKGGPLGAKQTCYNCGKPGHFSSQCKAPKICFKCKQPGHFSKQCRNAPKNGKQGAQGRPQK QTFPVQKESMNKTQKEEKQQGTLYPDLSQMKQEYKIKEEENQEDLNLNSLWE (2)pol基因编码的前体蛋白质由1143个氨基酸组成,分子量为128.742千道尔顿,等电点 为8.64,氨基酸序列从N端到C端为: TARTFLKTMYKCSKKRETRGSGEAPETNFPCAEGVNEQNTKRGETARDLISRFKSDETGIQD QGRGKSRGSQSEQFVGVTYNLEKRPTTIVLINDTPLNVLLDTGADTSVLTIAHCNRLKYGGR KYQGTGIVGVGGNVETFSTPVTVKKKGKQIKTRMLVADIPVTILGRDILQELGAQLLMAQLS KEITPREIKLKTGTVGPKVPQWPLTKEKLLGAKEIVKKLLDEGKISEASDDNPYNSPIFVIK KKSGKWRLLQDLRELIKGGTSRTEISRGLPHPGGLIKCNHMTVLDIGDAYFTIPLDPKFRQY TAFTVPSINHQEPDKRYVWNCLPQGFVLSPYIYQKTLQDILQAFRERHPDVQLYQYMDDLFI GSNESKRQHKELVEELRAILLEKGFETPGDKLQEEAPYNWLGYQLSPGNWKVQKMQLELVKE PTLNDVQKSKGNITWMSSGVPGLTVKQIAATTKGCLDLNHKGSRTREAQKDLEEIIKSFRSS GFPYYNPEEEVICEIEITKNYEATYIIKQSQGILWAGKKIMRANKGWSAAKNLMLLLQHVAT ESIVRIGTCPKFKVPFTKEQVKWEMEKGWYYSWLPDMVYSHQVVHDDWRLKLVEQPTSGITI YTDGGKQNEEGVAAYVTSNGKTKQKRLGPVTHQTAERIAIQMALEDTEETLVNIVTDSYYCW KNITEGLGLEGPDSPWWPIIQNIRAKEMVYFAWVPGHKGIYGNQLADEATKITEEIMLAYQG TQIREKRDEDAGYDLCIPYDIMIPVSETKVIPTDVKIQVPHKCFGWVTGKSSMAKQGLLING GIIDEGYTGEIQVICTNIGKSNMKLREGQKFAQLIILQHRSNDKQIWDENKTSQRGDKGFGS TGIFWVENIQEAQDEHENWHTSPKILAKRYGLPLTVAKQITQECPHCTKQGSGPAGCVMRSP NHWQADCTHLENRVIMTFVESNSGYIHATLLSKENALCPSLAILEWVRLFSPKSLHTDNGTN FVAESVANLLKFLKVTHTTGIPYHPESQGIVERANRTLKERIKSHRGNTQTLEAALQLALIT CNKGRESMGGQTPWEVFITNQAQTIHEELLLQQAQSSKKFCFYKIPGEHNWKGPTRVLWKGD GAVVVNDEEKGIIAVPLTRTKLLIRPN (3)env基因编码的前体蛋白质由863个氨基酸组成,分子量为98.454千道尔顿,含有19 个糖基化位点,等电点为8.33,氨基酸序列从N端到C端为: MVSITFYGGIPGGISTPITQQTESTDTQKGDHMVYQPYCYNDSHKEEMAETRDTRYQEEMNR KEDKEDKRKNNWWKIGMFLLCLLEITGGFLWWYERQQHSYYIRLVTIGGRLNGSGMTSAIKC WGSFPGCRPFTNYFSYETNRTVSRDNNTATLLDTYQREITNIYRTSCVDSDHCQEYKCKQVQ LKKNSNNIIMNNCSNNRCEEFWGFSWLECNQTENAITILVPEIEIQQRKNTWIPKRCEKTWA KVKHCPMDLLYGINKIRMCVQPPFFLFKQNDTSNNTNILSNCGPLVFLGIFEDNKAAIQNGS CTLHRTNINRPDYSGFYQVPIFYICTLTGFQSCNNGSIISIIMYESNNVQYLLCNTSNTNST NNANVSCVVQSFGVIGQAHVALPRKNKRLQSPKFAHYNCTINNKTELRRWQLVKTSGITPLP ISSTANTGLVRHKRDFGISAIIAAIVAASAIAASATMSYIALTEVNKLDSVQNHTFEVENNT INNIELTEEQIHILYAMVLQTHADVQLLKEQQKIEETFNLIGCIERSHTFCHTGHPWNESWG QLNDSTQWDDWVDKMENLNHDILTTLHTARNNLEQSMITFNTPDSVAQFGKNIWSHIANWIP RLGASIIKYIVLILLIYVLLTSAPKILRGLLTTMSGAGSSASRYLKKRYHHKHASRGDIWAQ VQYHAYLADETHGSGDKSNMRKLSRNNWNGESEEYNRRQKNWKKLLKRSGENYNTHEDNMGT MGRLVTTAAEKKNVGVNPHQGSLTLEIQSKGGNIYDCCIKAQEGTLAIPCCGFPLWPFWGLI IILERLLGYGLREIAKIIMILGKGLSIIITGLRKLCDYIGKMLNPATSHVTMPQYDV (4)rev基因编码的蛋白质由164个氨基酸组成,分子量为19.831千道尔顿,等电点为9.81, 氨基酸序列从N端到C端为: MAETRDTRYQEEMNRKEDKEDKRKNNWWKIGPQRPLDNDEWCRILRQSLPEEKIPSQTCIAR RHLGPGPISCVPGRRDSWLRGQVQHAEALQEQLEWRIRGVQQTTKKLEKVIKEIWRELQYTR RQHGDYGSFGDYRRREEERRGESSPRVLNPGDSKQRRKHL (5)tat基因编码的蛋白质由78个氨基酸组成,分子量为8.811千道尔顿,等电点为9.31, 氨基酸序列从N端到C端为: LLNLADHRIPRTAEENLQKSSGGVPGHNTGRQVPPVSYHCQLCFLRSLGIDYLDSSLKKKN KQRQKAIREEDNLSILL (6)S2基因编码的蛋白质由68个氨基酸组成,分子量为7.883千道尔顿,等电点为10.26, 氨基酸序列从N端到C端为: MGLFGKGVTWSALHSMGVSQGEYQPLSPNKQNQQTHRKGIIWYINPIVIMIAIKKKWQRQET QDTKKK (7)上述所有基因编码的蛋白质的结构和功能。
4.根据权利要求1和2所述特征,马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗株的全 长基因序列及其各基因的结构和序列及其与EIAV野毒株的比较分析,可用于设计和构 建滋病毒(HIV)及其它慢病毒疫苗。
5.根据权利要求1和3所述特征,比较马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗株 与野毒株之间基因序列和蛋白氨基酸序列的差异可用于建立EIAV感染的诊断方法,包 括: (1)分子生物学方法,其特征在于针对EIAV疫苗株的基因序列及其与野毒株的基因序 列差异区设计相应的PCR引物及基因探针,用于EIAV的核酸诊断和进行鉴别诊断; (2)血清学方法,其特征在于针对EIAV疫苗毒株蛋白的抗原表位和免疫原性,设计相 应的实验方法来检测EIAV感染动物血清的抗EIAV抗体和EIAV抗原的方法,以及根 据EIAV疫苗株与野毒株蛋白的抗原表位的差异以及相应抗体反应的差异而进行血清 学鉴别诊断。
6.根据权利要求1和2和3所述特征,由马传染贫血性病毒(EIAV)驴白细胞弱毒疫苗 株的全长基因序列确定的各基因、各蛋白分别具有独特的不同于EIAV野毒株一级结构 和高级结构,可用于设计和构建艾滋病毒(HIV)及其它慢病毒的多肽疫苗、基因工程亚 单位疫苗、基因缺失疫苗、DNA疫苗、活载体疫苗和诊断试剂等。
7.根据权利要求1,马传染贫血性病毒驴白细胞弱毒疫苗株的全长基因,其特征在于可用 来构建基因转移的载体,用于疾病基因治疗;其特征还在于用于构建感染性分子克隆 及其在疫苗研究方面的应用。

说明书全文

发明属于病毒学和分子生物学专业领域,涉及对一种慢病毒疫苗株的全长基因序列的 发现,确切地说是阐明我国成功研制的用于控制传染性贫血病的减毒活疫苗毒株的全基 因结构和序列、其编码蛋白质的序列以及它们的应用范围。

马传染性贫血病毒(Equine Infectious Anemia Virus,EIAV)是引起马属动物发生传染性贫 血症病原体,对畜牧业具有巨大危害,是兽医界颇受重视的病原体之一。EIAV属逆转录病 毒科慢病毒属(lentivirus),与同属于慢病毒属的人类免疫缺陷病毒(Human Immunodificiencv Virus,HIV)在基因组结构,基因编码蛋白以及基因调控方式等方面有许多相似之处 (J.M.Coffin,The Structure And Classification of Retroviruses,in:The Retroviridae,Vol.1,p19,edited by J.A.Levy,Plenum press)。由于EIAV是最早发现的动物病 毒之一和最先发现的慢病毒,其基因高度变异引起慢性迁延性的疾病和自身免疫性病理, 从而成为研究慢病毒感染、免疫病理、病毒酶功能以及免疫保护机理的重要动物模型 (R.C.Montelaro et,al Equine Retroviruses,In:vol.2,P.257)。

我国自六十年代起投入巨资对该病毒的生物学性状进行了研究,分离并培育出与国外 EIAV毒株有明显生物学差异的强毒株并进行了体外驴白细胞传代。经过多年努,逐步驯 化了该病毒并使之成为无致病力,但可以使动物在接种之后产生免疫保护的疫苗株。该疫 苗株自1976年开始生产,1978年在全国大规模应用(沈荣显等,马传染性贫血免疫的研 究。中国农业科学,第4期P1-15,1979)。至今已接种7000万匹次的马、骡、驴,完全 控制了该病在我国的流行。

对病毒基因组的研究是在70年代分子生物学技术发展并得到广泛应用之后才兴起的。 现在GenBank中已发表的马传染性贫血病毒的基因组序列均来源于美国强毒株(Wyoming 株)和日本强毒株(Goshun株),以及由它们衍生得到的细胞培养适应株的基因序列。然 而这些毒株均不是疫苗毒株。我国研制成功的EIAV弱毒疫苗至今还是目前世界上唯一经 过大规模应用、长时间检验而被证明是安全和有效的慢病毒疫苗(R.C.Montelaro,et al.in: Vaccines against Retroviruses,Vol.4,P605,R.C.Montelaro et,al Equine Retroviruses,in:vol.2, P.257)。由于我国的马传染性贫血疫苗毒株是由经典路线制造出的,其基因组序列尚未被 阐明。这一方面不能从基因平上保护我国的EIAV疫苗的知识产权,另一方面也限制了 该疫苗模型对其他慢病毒疫苗研制的指导作用。

本发明的任务在于阐明一种能有效保护马属动物免于患马传染性贫血病的EIAV弱毒活 疫苗株的全基因的结构和核苷酸序列及由其编码蛋白的结构和基酸序列,保护我国自主 知识产权。同时经过将EIAV弱毒疫苗基因序列和蛋白结构与EIAV强毒株进行对比,揭示 该疫苗毒株在传代过程中毒力减弱的分子机理和其诱导保护性免疫的组分和机理,从而为 至今尚未突破的包括HIV在内的其他慢病毒疫苗的研究提供重要的参考。该发明可直接指 导滋病疫苗和其它慢病毒疫苗的研制,进一步研究该疫苗毒株及其各主要基因和所编码 的蛋白质可分别用于EIAV疫苗株和EIAV强毒株的核酸鉴别诊断和血清学鉴别诊断试剂的 研制,并且用其构建的载体还可用于基因治疗

本发明是通过以下技术手段实现的:首先用PCR方法扩增EIAV疫苗株的基因,分别 克隆到质粒载体中再进行DNA序列的分析,得到该病毒的全长基因序列。

经传统生物学手段研制的EIAV驴白细胞弱毒疫苗毒株(第125代),来源于农业部授 权该毒种保存单位中国农业科学院哈尔滨兽医研究所马传染性贫血研究室。该疫苗毒株在 体外驴白细胞复制过程中以前病毒DNA的形式整合到驴白细胞的染色体上,本发明取此前 病毒DNA作为扩增病毒基因的材料。本发明首先利用基因组DNA提取试剂盒从病毒感染 的驴白细胞中提取染色体DNA,并以此为模板用PCR方法扩增EIAV疫苗毒株的前病毒 DNA。扩增引物的设计是根据国际EIAV强毒株序列,先用其各区段EIAV基因进行预扩 增。经过多次摸索,并根据对得到的扩增片段进行测序中获得的EIAV疫苗株的部分序列 资料,设计出EIAV疫苗弱毒株特异性引物,分段扩增病毒基因并克隆到质粒载体上,进 而对全部基因进行克隆和序列测定,获得了病毒基因组全长序列(见说明书附图1)和其 主要结构基因(gag基因,pol基因和env基因)及主要调控基因(5’LTR,3’LTR,rev基因,S2 基因,tat基因等)的序列(分别见说明书附图4,6,8,2,3,12,14,10)。

利用GCG软件对全长基因序列的开放读码框架进行分析,得到各个结构基因及调控基 因所编码的蛋白质的氨基酸序列(详细序列分别见说明书附图5,7,9,11,13,15)。各 基因在全长基因序列中的组合方式以及它们的相对位置见说明书附图1,各基因在全长基 因序列中的具体位置见说明书附图17。

将得到的疫苗株序列与GenBank所发表的国际标准株序列(Wyoming株,GeneBank Accession Number:AF028232)进行核苷酸和氨基酸同源性的比较,结果发现,各基因与国 外标准野毒株的核苷酸同源性在73.46-90.06%之间,其中env基因、rev基因和S2基因与 国际标准株的差异较大,同源性分别为73.46%,73.54%和75.76%。氨基酸序列与国际标 准株相应序列的同源性比较结果发现,外膜蛋白(Env蛋白)及Rev蛋白和S2蛋白的变异 均较大,氨基酸同源性分别为67.41%,64.85%和54.54%(详见说明书附图18)。

另外,还利用GCG软件对该疫苗株各结构基因和调控基因所编码蛋白质的二级结构进 行预测,分析结果见说明附图19,20,21,22,22,23,24。疫苗株Env和Tat蛋白二级 结构与国外标准株的相应蛋白的二级结构的比较发现有显著差异(见说明书附图25,26)。 马传贫驴白细胞疫苗株的Env蛋白与国外标准强毒株(AF028232)的Env蛋白在多个区域 的α螺旋、β片层和转等结构都有不同,其中转角结构的数量和位置的不同,可能是导 致了两者间二级结构有明显差异的主要原因。马传贫驴白细胞疫苗株的Tat蛋白的二级结 构图羧基端有一明显的疏水基团(菱形框所示),其临近区域为β片层结构并形成较集中的 亲水基团,其氨基端有四个转角结构;国外标准强毒株(AF028232)的Tat蛋白的二级结 构图的羧基端无疏水基团,其临近区域为松散的无规则卷曲结构,并有两个独立的亲水基 团,其氨基端有丰富的转角结构。

通过对氨基酸序列分析发现,马传贫疫苗株的Env蛋白包含19个潜在的糖基化位点, 国外标准强毒株(AF028232)的Env蛋白包含23个潜在的糖基化位点,各个位点的位置 见见说明书附图27。

通过对各个基因编码的蛋白组成及等电点(PI)进行分析,得到各个蛋白的分子量和等 电点,具体数据见说明书附图28。

本发明是在国内外首次阐明我国研制的EIAV弱毒疫苗株的全基因序列,将从基因水平 上提供对我国自主研制的该疫苗的知识产权保护。鉴于我国的EIAV弱毒疫苗是目前世界 上唯一经受过长时间和大规模现场应用验证的安全而有效的慢病毒疫苗,本发明阐明的该 疫苗弱毒株全基因序列和结构的特征、各结构基因和调控基因的特征及其编码的蛋白质的 特征和功能将为其他慢病毒疫苗的研制提供重要的指导,并将大大推动这些疫苗研究的进 程。当前艾滋病毒(HIV)疫苗的研究正处于进退两难之中,一方面现有各类基因工程HIV 疫苗均未显示明显有效的迹象,而另一方面显示出一定保护作用的HIV弱毒活疫苗又因不 安全而无法推进(邵一鸣,艾滋病疫苗研究现状及其发展方向,中国科学发展报告,1999, 94-101,科学出版社)。历史上在人及动物最有效的疫苗都是弱毒活疫苗(R.C.Montelaro,et a1.in:Vaccines against Retroviruses,Vol.4,P605,)。由于HIV和EIAV均属慢病毒,其基因 结构和编码蛋白的功能均很相似,因而EIAV弱毒疫苗的成功经验为艾滋病毒弱毒疫苗的 研制提供了很好的借鉴。本发明使得这种对HIV疫苗具有重要意义的借鉴由可能变为现实。 该发明除可直接指导艾滋病疫苗和其它慢病毒疫苗的研制外,通过进一步研究该疫苗毒株 及其各主要基因和所编码的蛋白质可分别用于对EIAV疫苗株和强毒株的核酸诊断和血清 学诊断。使用EIAV弱毒疫苗株构建携带外源基因的载体还有望用于基因治疗。

以下实施例对于本发明马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗全长基因序列的 应用进行详细的说明,但不意味着限制本发明的内容。

实施例1马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗全长基因结构及序列分析可 用于阐明该疫苗毒株的致弱机制和诱导保护性免疫的机理

将EIAV弱毒疫苗全长基因序列与国外EIAV强毒株、中国EIAV强毒株及部分致弱株 的序列进行比较,从基因和蛋白水平来阐明强弱毒株之间在结构和功能上的差异,从中确 定与EIAV的致病性和免疫原性相关的基因及其蛋白的组分或基因及蛋白的调控机制,最 终阐明EIAV驴白细胞弱毒疫苗毒力致弱和诱导保护性免疫的基因和蛋白结构及其调控的 机理,还可为研究逆转录病毒的基因调控和基因功能提供重要的理论基础。 实施例2马传染性贫血病毒驴白细胞弱毒疫苗全长基因结构和序列可用于艾滋病毒(HIV)

及其他慢病毒减毒活疫苗的构建。

根据实施例1的设计方案,参照马传染性贫血病毒弱毒疫苗的致弱和免疫保护机制对 艾滋病毒(HIV)及其它已发现的动物慢病毒,包括猴免疫缺损病毒(Simian Immunodeficiency Virus,SIV)、猫免疫缺损病毒(Feline Immunodeficiency Virus,FIV)、免疫缺损病毒(Bovine Immunodeficiency Virus,BIV)、维斯纳慢病毒(Visna Lentivirus)、和山羊关节炎脑炎病毒 (Caprine Arthritis-Encephalitis Virus,CAEV)进行基因改造,从而构建相应的减毒活疫苗, 进行实验室和临床研究。 实施例3马传染性贫血病毒驴白细胞弱毒疫苗全长基因结构及序列和其编码蛋白的氨基 酸及其二、三级结构分析可用于艾滋病毒(HIV)及其他慢病毒基因工程疫苗的构建。

根据实施例1的设计方案,将艾滋病毒(HIV)及其他慢病毒(SIV、FIV、BIV、Visna 和CAEV等)的基因组避免或去除与毒力有关的基因,或根据基因序列及蛋白二级结构分 析结果(图25、26、27)对有关蛋白进行结构改造,将能诱导保护性免疫的蛋白的基因分 别克隆到各类表达载体中,构建成各种形式(多肽、亚单位、病毒样颗粒和活载体等)的 基因工程疫苗,进行实验室和临床研究。 实施例4马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列及其编码的蛋白质的氨基酸

序列可用于构建基因重组抗原,用于马传染性贫血病毒感染的血清学诊断。

根据马传染性贫血病毒疫苗株全基因序列及其编码的氨基酸序列分析的研究结果,可 以分别选取包含主要抗原表位的基因,构建原核和真核表达载体,在大肠杆菌或真核细胞 中表达EIAV蛋白,经层析方法纯化后可用于血清学诊断和制备诊断试剂。 实施例5马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列可用于马传染性贫血病毒疫苗

株和野毒株感染的PCR鉴别诊断。

根据实施例2的研究结果,选择EIAV野毒株和疫苗株的基因序列差异最大的区域设计 PCR引物,根据PCR扩增产物的差异来对强弱毒株的感染进行鉴别诊断。 实施例6马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列可用于构建进行基因治疗的

基因转移载体。

利用中国株马传染性贫血病毒疫苗株构建用于基因治疗的基因转移载体。马传染性贫 血病毒不能引起人类发病,采用文献报道的方法构建源于该疫苗株的基因转移载体,不但 可以克服以往所用的鼠白血病病毒来源的基因转移载体的基因转移效率较低和不能转染未 分裂细胞等缺陷,而且有较好的安全保障。 实施例8利用GCG软件包对马传染性贫血病毒驴白细胞疫苗株(chb101)的Env、Tat 蛋白的二级结构进行预测分析,并与国外强毒株(GenBank Accession Number:AF028232) 的Env、Tat蛋白的二级结构进行比较(如图25、图26所示),可以发现EIAV强毒株与疫 苗毒株的蛋白在二级结构水平上有显著差异,其中α螺旋、β片层和转角结构的数量和位 置均有不同。强烈提示这种蛋白质高级结构的差异可能是它们功能差异的基础,是基因工 程、疫苗的重要候选抗原。根据此原理,也可对艾滋病毒和其他慢病毒的相应蛋白基因进 行改造,以研究将其作为疫苗抗原的可能性。

以下为说明书附图的简要说明:     图1为马传染性贫血病毒驴白细胞弱毒疫苗株全长基因序列(8258个核苷酸),5’-3’方向。 图2为5’LTR(位于全长基因的第1-325位核苷酸)的全部DNA序列(5’-3’),包括U3区(核苷 酸1-207位)、R区(核苷酸208-285位)和U5区(核苷酸286-325位),全长325个核苷酸。 图3为3’LTR(位于全长基因的第7922-8258位核苷酸)的DNA序列(5’-3’),包括U3区(核苷 酸7922-8140位)、R区(核苷酸8141-8218位)和U5区(核苷酸8219-8258位),全长337个 核苷酸。 图4为gag基因(位于全长基因的第466-1926位核苷酸)的全部DNA序列(5’-3’),全长1461 个核苷酸。 图5为gag基因编码的氨基酸序列,全长486个核苷酸。 图6为pol基因(位于全长基因的第1689-5120位核苷酸)的全部DNA序列(5’-3’)。 图7为pol基因编码的氨基酸序列,全长1143个核苷酸。 图8为Env基因(位于全长基因的第5313-7904位核苷酸)的全部DNA序列(5’-3’)。 图9为env基因编码的氨基酸序列,全长863个核苷酸。 图10为tat基因(包括第一外显子位于全长基因的第365-462位核苷酸,第二外显子位于全 长基因的第5138-5276位核苷酸)的全部DNA序列(5’-3’),全长237个核苷酸。 图11为tat基因编码的氨基酸序列,全长78个核苷酸。 图12为rev基因(包括第一外显子位于全长基因的第5454-5546位核苷酸,第二外显子位于 全长基因的第7250-7651位核苷酸)的全部DNA序列(5’-3’),全长495个核苷酸。 图13为rev基因编码的氨基酸序列,全长164个核苷酸。 图14为S2基因(位于全长基因的第5287-5493位核苷酸)的全部DNA序列(5’-3’)。 图15为S2基因编码的氨基酸序列,全长68个核苷酸。 图16为EIAV驴白细胞弱毒疫苗株的基因结构图,图中可见5’LTR,3’LTR,gag,pol,env, S2,rev,tat基因的相对位置和长度。 图17为马传染性贫血病毒驴白细胞弱毒疫苗株各功能基因在全长基因序列中的位置。 图18为马传染性贫血病毒驴白细胞弱毒疫苗株各功能基因的核苷酸序列及其编码的氨基酸 序列与国际标准株(Wyoming株,GeneBank Accession Number:AF028232)相应序列的同源 性比较结果 图19为马传染性贫血病毒驴白细胞弱毒疫苗株env基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图20为马传染性贫血病毒驴白细胞弱毒疫苗株gag基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图21为马传染性贫血病毒驴白细胞弱毒疫苗株pol基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图22为马传染性贫血病毒驴白细胞弱毒疫苗株rev基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图23为马传染性贫血病毒驴白细胞弱毒疫苗株tat基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图24为马传染性贫血病毒驴白细胞弱毒疫苗株S2基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图25为马传贫驴白细胞疫苗株的Env蛋白与国外强毒株(GenBank Accession Number: AF028232)的Env蛋白的二级结构的比较示意图。图中chb101为疫苗株Env蛋白的二级 结构图,af028232为国外强毒Env蛋白的二级结构图。图标1所指多边形框代表亲水基因, 图标2所指菱形框代表疏水基因。比较可见二者在多个区域的α螺旋、β片层和转角等结 构都有不同,其中转角结构的数量和位置的不同,可能是导致了两者间二级结构有明显差 异的主要原因。 图26为马传贫驴白细胞疫苗株的Tat蛋白与国外强毒株(GenBank Accession Number: AF028232)的Tat蛋白的二级结构的比较示意图。图中chb101为疫苗株Tat蛋白的二级结 构图,af028232为国外强毒株Tat蛋白的二级结构图。二者比较可见chb101的羧基端有一 明显的疏水基团(菱形框所示),其临近区域为β片层结构并形成较集中的亲水基团,其氨 基端有四个转角结构;af028232的羧基端无疏水基团,其临近区域为松散的无规则卷曲结 构,并有两个独立的亲水基团,其氨基端有丰富的转角结构。 图27为马传贫弱毒疫苗株Env蛋白与国外强毒株Env蛋白潜在的糖基化位点图。图中 chb101-env为为马传贫弱毒疫苗株Env蛋白的氨基酸序列,28232-env为国外强毒株Env 蛋白的氨基酸序列,方框内为潜在的糖基化位点的序列。 图28为马传贫弱毒疫苗株各功能蛋白的分子量及等电点的理论值,其中env基因编码的前 体蛋白包含19个糖基化位点,完全糖化后分子量视糖基化程度而定,表中所列为未经糖基 化的蛋白分子量。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈