专利汇可以提供马传染性贫血病毒驴白细胞弱毒疫苗株的全长基因序列专利检索,专利查询,专利分析的服务。并且本 发明 提供了 马 传染性贫血病毒(EIAV)驴白细胞弱毒 疫苗 株含有8258个 碱 基的前病毒DNA全长基因序列及其结构,其所编码的全部 蛋白质 的基因序列和 氨 基酸序列和蛋白质的二级结构,以及该疫苗毒株的 调控序列 和非必需区序列。这些序列和结构的数据可应用于包括 艾 滋病毒在内的所有慢病毒属病毒的疫苗研制和使用该属病毒作为载体进行的 基因 治疗 ,还可应用于对EIAV的血清学及分子 生物 学诊断方法及其所需 试剂 的研制。,下面是马传染性贫血病毒驴白细胞弱毒疫苗株的全长基因序列专利的具体信息内容。
1.马传染性贫血病毒(Equine Infectious Anemia Virus,EIAV)驴白细胞弱毒疫苗株的全 长基因序列,其特征在于该基因由8258个核苷酸组成,5’-3’的序列为: 1 TGTGGGGTTT TTATGAGGGG TTTTATAAAT GATTATAAGA GTAAAAAGAA GGGGGCTGAT GCTCTCATAA CCTTGTATAA CCCAAAGGAC TAGCTCATGT 100 101 TGCTAGGCAA CTAAACCGCA ATATCCTGTA GTTCCTCTTG CGTTCCGCAT TTGTGACGTT TTAAGTTCCT GTTTTTACAG TATATAAGTG CTTGTATTCT 200 201 GACAATTGGG CACTCAGATT CTGCGGTCTG AGTCCCTTCT CTGCTGGGCT AGACTAGCCT TTGTAATAAA TATAATTCTC TGCTAAGTCC CTGTCTCTAG 300 301 TTTGTCTTGT TTTCAAGATC TAACAGCTGG CGCCCGAACA GGGACCTGAG GGCGCAGACC CTGCCTGCTG AACCTGGCTG ATCATAGGAT CCCTAGGACA 400 401 GCAGAGGAGA ACTTACAGAA GTCTTCTGGA GGTGTTCCTG GCCACAACAC AGGAAGACAG GTAAGATGGG AGACTCTTTG ACATGGAGCA AAGCGCTCAA 500 501 GAAGTTAGAG AAGGTGACGG TACAAGGGTC TCAAAAGCTA ACTACTGGTA ACTGTAATTG GGCGCTGAAT TTGGTGGACT TATTCCATGA CACCAATTTT 600 601 GGTAAAGAAA AAGACTGGCA ATTAAGGGAC GTCATTCCAT TGTTAGAGGA CGTTTCCCAG ACGTTGTCAG GACAAGAGAG AGAGGCATTT GAAAAAACTT 700 701 GGTGGGCAAT AGCTGCCGTT AAGATGGGCT TACAAATTAA TACTGTGAAT GATGCAAAAA CAACATTTTC TATATTAAAA GCCAAGTTTG AAAGAAAGAC 800 801 TGCAAATAAT ACCAAAAAGC AGTCTGAGCC CGAGGAAGAA TACCCAATAA TGATTGATGG GGCTGGAAAC AGAAACTTTC GGCCATTAAC ACCCAGAGGA 900 901 TATACTACCT GGGTAAATAC TATACAGCAA AACAATCTCT TAAATGAAGC TAGTGTGAAT TTATTTGGTA TTTTATCAGT AGACTGTACT TCTGAGGAAA 1000 1001 TGAATGCATT TTTGGATGTA GTACCAGGAC AAGCAGGACA AAAACAAGTA CTATTGGATA ATCTTGATAA GATTGCAGAA GAATGGGATC GTAGGCACCC 1100 1101 GTTGCCAAAT CCTCCATTAG TGGCACCACC ACAAGGGCCT ATTCCCATGA CAGCAAGGTT CATTAGGGGA TTGGGAGTTC CTAGAGAAAG ACAGATGAAA 1200 1201 CCTGCTTTTG ATCAGTTTAG ACAAACTTAT AGACAATGGA TAATAGAAGC AATGACAGAA GGGATAAAAA TAATGATTGG GAAACCCAAA GCGCAAAATA 1300 1301 TTAGGCAAGG ACCCAAAGAA CCCTATCCAG AGTTTATAGA CAGATTGCTG TCTCAGATAA AAAGTGAGGG ACATCCGGCT GATATAACTA AATTCCTGAC 1400 1401 AGACACTTTA ACTATTCAGA ATGCTAATGA TGAATGCAAA AATGCTATGA GACATTTGAG GCCAGAAGAT ACTTTAGAAG AGAAAATGTA TGCATGTAGA 1500 1501 GATATTGGCA CTATGAGACA AAAAATGGCA TTATTAGCCA AGGCACTTCA AGCAGGATTA GCTGGTCCTA TGAAGGGAGG AATATTTAAA GGGGGACCCT 1600 1601 TAGGGGCGAA GCAGACATGT TATAATTGTG GAAAACCAGG ACATTTTTCT AGTCAATGTA AAGCACCTAA AATATGTTTT AAGTGCAAAC AGCCAGGACA 1700 1701 TTTCTCAAAA CAATGTATAA ATGCTCCAAA AAACGGGAAA CAAGGGGCTC AGGGGAGGCC CCAGAAACAA ACTTTCCCTG TGCAGAAGGA GTCAATGAAC 1800 1801 AAAACACAAA AAGAGGAGAA ACAGCAAGGG ACCTTATATC CAGATTTAAG TCAGATGAAA CAGGAATACA AGATCAAGGA AGAGGAAAAT CAAGAGGATC 1900 1901 TCAATCTGAA CAGTTTGTGG GAGTAACTTA TAATTTAGAA AAGAGACCAA CTACAATAGT CTTGATTAAT GACACACCCT TAAATGTATT GTTGGACACA 2000 2001 GGAGCAGACA CATCAGTACT AACTATTGCA CATTGTAATA GGTTAAAGTA TGGAGGAAGA AAATATCAAG GTACAGGTAT TGTTGGGGTT GGAGGTAATG 2100 2101 TAGAAACATT TTCCACTCCT GTTACAGTGA AAAAGAAAGG AAAACAAATT AAAACTAGAA TGTTAGTAGC AGATATCCCA GTTACTATTT TGGGGCGAGA 2200 2201 TATTCTTCAA GAATTAGGCG CACAATTACT AATGGCTCAA CTTTCAAAAG AAATAACCCC AAGAGAAATT AAATTAAAAA CAGGCACAGT AGGGCCTAAG 2300 2301 GTTCCCCAAT GGCCACTTAC TAAAGAGAAG TTGTTAGGTG CTAAAGAAAT AGTCAAAAAA TTGTTGGATG AAGGTAAAAT ATCAGAAGCC AGTGATGATA 2400 2401 ATCCTTATAA TTCTCCTATA TTTGTAATAA AAAAGAAATC TGGAAAGTGG AGATTATTGC AAGATTTAAG AGAGTTAATT AAGGGTGGTA CAAGTAGAAC 2500 2501 TGAAATATCC AGAGGATTAC CTCATCCAGG GGGATTAATT AAATGTAATC ATATGACAGT ATTAGATATT GGAGATGCAT ATTTCACTAT ACCATTAGAT 2600 2601 CCAAAGTTTA GACAATATAC AGCATTTACT GTGCCATCCA TTAATCATCA GGAACCAGAT AAAAGATATG TGTGGAATTG CTTGCCACAA GGTTTTGTGT 2700 2701 TAAGTCCATA CATATATCAA AAAACATTAC AGGACATATT ACAAGCTTTT AGAGAAAGGC ATCCAGATGT ACAATTATAT CAATATATGG ATGATTTATT 2800 2801 CATTGGGAGT AATGAATCTA AAAGACAACA TAAGGAACTA GTAGAAGAAT TAAGAGCTAT TCTTTTAGAA AAGGGCTTTG AGACGCCTGG GGATAAATTG 2900 2901 CAGGAAGAAG CACCCTATAA TTGGCTGGGA TATCAACTTA GTCCAGGCAA TTGGAAAGTA CAAAAGATGC AATTAGAATT GGTAAAAGAG CCAACATTAA 3000 3001 ATGATGTGCA AAAATCAAAG GGAAATATAA CATGGATGAG CTCAGGGGTT CCTGGATTAA CAGTGAAGCA AATAGCTGCT ACCACTAAAG GTTGCTTAGA 3100 3101 TTTAAATCAT AAAGGTAGTA GGACCAGAGA AGCCCAAAAA GACTTAGAGG AAATTATTAA AAGTTTCAGA AGCTCAGGAT TCCCATATTA TAACCCAGAA 3200 3201 GAAGAAGTAA TCTGTGAGAT TGAAATTACT AAAAATTATG AGGCTACTTA TATAATAAAA CAGTCTCAAG GAATAT1GTG GGCAGGAAAG AAAATTATGA 3300 3301 GGGCTAATAA AGGATGGTCC GCAGCAAAAA ATCTAATGTT ATTGTTACAA CATGTAGCCA CAGAAAGTAT TGTTAGAATT GGAACATGTC CAAAATTTAA 3400 3401 AGTACCTTTT ACTAAAGAAC AAGTCAAATG GGAAATGGAA AAGGGATGGT ATTATTCATG GCTACCAGAC ATGGTATATT CACATCAAGT TGTTCATGAT 3500 3501 GATTGGAGAC TGAAATTAGT AGAGCAACCA ACATCTGGTA TAACAATTTA TACTGATGGG GGTAAACAGA ATGAAGAAGG AGTTGCAGCT TATGTGACTA 3600 3601 GTAATGGGAA AACTAAACAA AAAAGGTTAG GGCCTGTTAC TCATCAAACT GCTGAGAGGA TAGCAATACA AATGGCATTA GAAGATACTG AAGAGACATT 3700 3701 GGTAAATATA GTAACTGATA GTTACTACTG TTGGAAAAAT ATTACAGAAG GATTAGGGTT AGAAGGACCA GACAGCCCCT GGTGGCCAAT AATTCAAAAT 3800 3801 ATTAGGGCTA AAGAAATGGT TTATTTTGCT TGGGTACCAG GTCACAAAGG AATATATGGC AATCAATTGG CAGATGAGGC TACTAAAATA ACAGAGGAAA 3900 3901 TTATGTTAGC ATATCAAGGC ACACAGATTA GGGAAAAAAG AGATGAAGAT GCAGGGTATG ATTTGTGTAT TCCTTATGAC ATAATGATAC CTGTCTCTGA 4000 4001 GACAAAAGTT ATACCCACAG ATGTAAAAAT ACAGGTACCT CACAAATGTT TTGGATGGGT AACTGGTAAG TCATCAATGG CTAAGCAAGG ATTATTAATC 4100 4101 AATGGGGGAA TAATTGATGA AGGATACACA GGTGAAATAC AGGTAATTTG TACTAATATT GGAAAGAGTA ACATGAAACT CAGGGAAGGA CAAAAGTTTG 4200 4201 CACAATTAAT CATATTACAG CATCGATCAA ATGATAAACA AATCTGGGAT GAAAATAAAA CATCTCAAAG GGGAGATAAA GGGTTTGGAA GCACAGGTAT 4300 4301 ATTTTGGGTA GAGAATATCC AAGAGGCGCA AGATGAACAT GAAAATTGGC ATACATCTCC AAAGATATTG GCAAAAAGAT ATGGGTTACC ATTGACTGTA 4400 4401 GCTAAACAGA TAACTCAAGA ATGCCCTCAT TGTACTAAAC AAGGATCTGG ACCAGCAGGT TGTGTAATGA GATCTCCTAA TCATTGGCAG GCTGATTGTA 4500 4501 CACATTTAGA AAACAGGGTA ATAATGACAT TTGTAGAGTC TAATTCAGGA TACATTCATG CTACTCTATT GTCCAAAGAA AATGCCTTGT GTCCTTCATT 4600 4601 GGCTATTTTG GAATGGGTGA GGTTATTTTC TCCTAAATCT TTACATACAG ACAATGGTAC TAATTTTGTG GCAGAGTCAG TAGCAAATCT GTTGAAATTC 4700 4701 CTGAAGGTGA CACATACTAC AGGAATACCT TATCACCCAG AGAGCCAAGG CATTGTGGAA AGAGCAAACA GGACATTAAA AGAAAGAATT AAAAGTCATA 4800 4801 GAGGAAATAC TCAGACACTT GAAGCAGCAT TACAACTTGC TCTCATTACT TGTAACAAAG GGAGGGAAAG TATGGGAGGA CAAACTCCAT GGGAAGTATT 4900 4901 TATTACTAAT CAGGCTCAAA CAATACATGA AGAACTTTTA TTACAACAAG CACAATCTTC TAAAAAATTT TGTTTTTATA AAATTCCTGG TGAGCATAAT 5000 5001 TGGAAGGGGC CCACCAGAGT GTTGTGGAAA GGTGATGGAG CAGTAGTGGT CAATGATGAG GAAAAAGGAA TAATTGCTGT GCCTTTAACC AGGACTAAAT 5100 5101 TATTAATAAG ACCAAATTGA GCATTGTTTC AGGAATCACC ACCAGTCAGC TATCATTGTC AACTGTGTTT CCTGAGATCA TTGGGAATTG ACTACCTTGA 5200 5201 CAGCTCGCTG AAGAAGAAGA ACAAACAAAG ACAGAAGGCC ATCAGGGAGG AAGACAACCT CAGTATCTTG TTATAAGGTT TGGTGTATGG GATTATTTGG 5300 5301 TAAAGGGGTA ACATGGTCAG CATTACATTC TATGGGGGTA TCCCAGGGGG AATATCAACC CCTATCACCC AACAAACAGA ATCAACAGAC ACACAGAAAG 5400 5401 GGGATCATAT GGTATATCAA CCCTATTGTT ATAATGATAG CCATAAAGAA GAAATGGCAG AGACAAGAGA CACAAGATAC CAAGAAGAAA TGAACCGGAA 5500 5501 AGAAGATAAA GAAGATAAAA GAAAGAATAA CTGGTGGAAG ATAGGTATGT TCTTATTGTG TCTGTTAGAG ATCACTGGAG GATTCCTCTG GTGGTATGAG 5600 5601 AGGCAACAAC ATTCATATTA TATAAGATTG GTTACAATAG GAGGTAGACT GAATGGTTCA GGAATGACTA GTGCCATAAA ATGTTGGGGT TCATTTCCTG 5700 5701 GGTGTAGGCC ATTTACTAAC TATTTCAGTT ATGAGACTAA TAGGACTGTT AGTAGAGATA ATAATACTGC TACTCTGTTA GATACTTATC AAAGAGAAAT 5800 5801 AACAAACATA TACAGGACAT CTTGTGTGGA TAGTGATCAC TGTCAAGAAT ATAAATGTAA GCAAGTACAG TTGAAAAAGA ACAGCAATAA CATTATAATG 5900 5901 AATAATTGTA GTAACAATAG GTGTGAAGAG TTTTGGGGGT TTAGCTGGTT AGAATGTAAT CAGACAGAAA ATGCAATAAC TATATTGGTC CCAGAAATAG 6000 6001 AAATACAGCA AAGAAAGAAC ACTTGGATTC CAAAAAGGTG TGAGAAAACT TGGGCTAAGG TAAAACATTG TCCAATGGAT TTATTATATG GTATAAATAA 6100 6101 AATAAGAATG TGTGTCCAAC CTCCATTCTT TTTGTTTAAA CAGAATGATA CTTCTAATAA TACTAATATT CTCAGTAATT GTGGACCTTT AGTATTTCTT 6200 6201 GGAATATTTG AGGACAATAA GGCAGCAATC CAGAATGGGA GTTGCACTCT TCACAGGACA AATATTAACA GGCCAGATTA TAGTGGATTT TACCAAGTGC 6300 6301 CTATATTTTA TATATGCACC TTGACAGGAT TTCAAAGTTG TAATAATGGA TCAATAATTA GTATAATTAT GTATGAGTCT AATAATGTTC AATACTTGTT 6400 6401 ATGCAATACT AGTAATACTA ATAGTACCAA TAATGCTAAT GTCTCTTGTG TGGTACAAAG TTTTGGAGTG ATAGGACAGG CACATGTGGC ATTGCCCAGA 6500 6501 AAAAATAAGA GGTTACAATC TCCAAAGTTT GCTCACTATA ATTGCACCAT AAATAATAAA ACAGAGTTAA GGCGATGGCA ATTGGTAAAA ACATCAGGCA 6600 6601 TCACTCCTTT ACCCATTTCC TCTACAGCTA ATACTGGATT AGTCAGACAC AAGAGAGACT TTGGTATATC TGCTATAATA GCTGCCATTG TAGCTGCTAG 6700 6701 TGCTATTGCT GCTAGTGCTA CTATGTCTTA TATCGCTTTG ACAGAAGTCA ACAAATTAGA TAGTGTACAA AATCATACTT TTGAAGTAGA GAACAATACT 6800 6801 ATCAATAACA TAGAGTTAAC AGAAGAGCAA ATTCATATAT TATATGCTAT GGTTCTCCAA ACACATGCAG ATGTTCAATT GTTAAAAGAA CAACAAAAGA 6900 6901 TTGAGGAAAC ATTTAATTTA ATTGGATGTA TAGAAAGATC ACATACATTT TGTCATACTG GACATCCCTG GAATGAATCA TGGGGTCAGT TAAATGATTC 7000 7001 TACACAGTGG GATGACTGGG TAGATAAGAT GGAAAATTTA AATCATGATA TATTAACAAC ACTTCATACT GCTAGAAATA ATCTAGAACA ATCTATGATA 7100 7101 ACTTTCAATA CACCTGACAG TGTAGCACAA TTTGGAAAAA ATATTTGGAG TCATATTGCA AATTGGATTC CTAGATTAGG AGCTTCCATA ATTAAATATA 7200 7201 TAGTGTTGAT ATTACTTATA TATGTGTTAC TAACCTCTGC ACCTAAGATC CTCAGAGGCC TCTTGACAAC GATGAGTGGT GCAGGATCCT CCGCCAGTCG 7300 7301 CTACCTGAAG AAAAGATACC ATCACAAACA TGCATCGCGA GGAGACATCT GGGCCCAGGT CCAATATCAT GCGTACCTGG CAGACGAGAC TCATGGCTCA 7400 7401 GGGGACAAGT CCAACATGCG GAAGCTCTCC AGGAACAACT GGAATGGCGA ATCAGAGGAG TACAACAGAC GACAAAAAAA TTGGAAAAAG TTATTAAAGA 7500 7501 GATCTGGAGA GAATTACAAT ACACACGAAG ACAACATGGG GACTATGGGT CGTTTGGTGA CTACCGCCGC CGAGAAGAAG AACGTCGGGG TGAATCCTCA 7600 7601 CCAAGGGTCC TTAACCCTGG AGATTCAAAG CAAAGGAGGA AACATCTATG ACTGTTGCAT TAAGGCTCAA GAAGGAACTC TTGCTATTCC TTGCTGTGGC 7700 7701 TTCCCACTAT GGCCGTTTTG GGGACTTATA ATCATATTAG AACGCTTGTT GGGATATGGG CTTCGGGAAA TTGCAAAAAT TATAATGATT CTAGGGAAAG 7800 7801 GACTAAGTAT AATAATTACA GGATTAAGAA AATTATGTGA TTATATTGGG AAAATGCTAA ATCCAGCTAC ATCTCATGTA ACAATGCCTC AATATGATGT 7900 7901 TTAGAAAAAC AAGGGGGGAA CTGTGGGATT AATATAAGAT TCTTATAAGT GAATATGAAA GTTGCTGATG CTCTCAAGTT GCTGATGCTC TCATAACCTT 8000 8001 ATGACTAGCT CATGTTGCCA GGCAACTGAA CTGTGATAAC CTTTTGTTCC TCATTATAGT TCCGCTTTTG TATAGTTCCG CTTTTGTGAC GCGTTAAGTT 8100 8101 CCTGTTTTTA CAGTATATAA GTGCTTATAT TCTGACATTT GGTCACTCAG ATTCTGCGGT CTGAGTCCCT TCTCTGCTGG GCTAGACTAG CCTTTGTAAT 8200 8201 AAATATAATT CTCTGCTAAG TCCCTGTCTC TAGTTTGTCT TGTTTTCAAG ATCTAACA 8258
2.马传染贫血性病毒(EIAV)驴白细胞弱毒疫苗株的全长基因序列,共包括8个功能 基因,分别是5’-LTR、gag、pol、env、tat、rev、S2和3’LTR,其特征在于: (1)5’LTR由325个核苷酸组成,位于全长基因的第1位至第325位,5’-3’的序列为: 1 TGTGGGGTTT TTATGAGGGG TTTTATAAAT GATTATAAGA GTAAAAAGAA GGGGGCTGAT GCTCTCATAA CCTTGTATAA CCCAAAGGAC TAGCTCATGT 100 101 TGCTAGGCAA CTAAACCGCA ATATCCTGTA GTTCCTCTTG CGTTCCGCAT TTGTGACGTT TTAAGTTCCT GTTTTTACAG TATATAAGTG CTTGTATTCT 200 201 GACAATTGGG CACTCAGATT CTGCGGTCTG AGTCCCTTCT CTGCTGGGCT AGACTAGCCT TTGTAATAAA TATAATTCTC TGCTAAGTCC CTGTCTCTAG 300 301 TTTGTCTTGT TTTCAAGATC TAACA 325 (2)3’LTR由337个核苷酸组成,位于全长基因的第7922位至第8258位,5’-3’的序列
为: 1 TGTGGGATTA ATATAAGATT CTTATAAGTG AATATGAAAG TTGCTGATGC TCTCAAGTTG CTGATGCTCT CATAACCTTA TGACTAGCTC ATGTTGCCAG 100 101 GCAACTGAAC TGTGATAACC TTTTGTTCCT GATTATAGTT CCGCTTTTGT ATAGTTCCGC TTTTGTGACG CGTTAAGTTC CTGTTTTTAC AGTATATAAG 200 201 TGCTTATATT CTGACATTTG GTCACTCAGA TTCTGCGGTC TGAGTCCCTT CTCTGCTGGG CTAGACTAGC CTTTGTAATA AATATAATTC TCTGCTAAGT 300 301 CCCTGTCTCT AGTTTGTCTT GTTTTCAAGA TCTAACA 337 (3)gag基因由1461个核苷酸组成,位于全长基因的第466位至第1926位,5’-3’的序 列为: 1 ATGGGAGACT CTTTGACATG GAGCAAAGCG CTCAAGAAGT TAGAGAAGGT GACGGTACAA GGGTCTCAAA AGCTAACTAG TGGTAACTGT AATTGGGCGC 100 101 TGAATTTGGT GGACTTATTC CATGACACCA ATTTTGGTAA AGAAAAAGAC TGGCAATTAA GGGACGTCAT TCCATTGTTA GAGGACGTTT CCCAGACGTT 200 201 GTCAGGACAA GAGAGAGAGG CATTTGAAAA AACTTGGTGG GCAATAGCTG CCGTTAAGAT GGGCTTACAA ATTAATACTG TGAATGATGC AAAAACAACA 300 301 TTTTCTATAT TAAAAGCCAA GTTTGAAAGA AAGACTGCAA ATAATACCAA AAAGCAGTCT GAGCCCGAGG AAGAATACCC AATAATGATT GATGGGGCTG 400 401 GAAACAGAAA CTTTCGGCCA TTAACACCCA GAGGATATAC TACCTGGGTA AATACTATAC AGCAAAACAA TCTCTTAAAT GAAGCTAGTG TGAATTTATT 500 501 TGGTATTTTA TCAGTAGACT GTACTTCTGA GGAAATGAAT GCATTTTTGG ATGTAGTACC AGGACAAGCA GGACAAAAAC AAGTACTATT GGATAATCTT 600 601 GATAAGATTG CAGAAGAATG GGATCGTAGG CACCCGTTGC CAAATCCTCC ATTAGTGGCA CCACCACAAG GGCCTATTCC CATGACAGCA AGGTTCATTA 700 701 GGGGATTGGG AGTTCCTAGA GAAAGACAGA TGAAACCTGC TTTTGATCAG TTTAGACAAA CTTATAGACA ATGGATAATA GAAGCAATGA CAGAAGGGAT 800 801 AAAAATAATG ATTGGGAAAC CCAAAGCGCA AAATATTAGG CAAGGACCCA AAGAACCCTA TCCAGAGTTT ATAGACAGAT TGCTGTCTCA GATAAAAAGT 900 901 GAGGGACATC CGGCTGATAT AACTAAATTC CTGACAGACA CTTTAACTAT TCAGAATGCT AATGATGAAT GCAAAAATGC TATGAGACAT TTGAGGCCAG 1000 1001 AAGATACTTT AGAAGAGAAA ATGTATGCAT GTAGAGATAT TGGCACTATG AGACAAAAAA TGGCATTATT AGCCAAGGCA CTTCAAGCAG GATTAGCTGG 1100 1101 TCCTATGAAG GGAGGAATAT TTAAAGGGGG ACCCTTAGGG GCGAAGCAGA CATGTTATAA TTGTGGAAAA CCAGGACATT TTTCTAGTCA ATGTAAAGCA 1200 1201 CCTAAAATAT GTTTTAAGTG CAAACAGCCA GGACATTTCT CAAAACAATG TAGAAATGCT CCAAAAAACG GGAAACAAGG GGCTCAGGGG AGGCCCCAGA 1300 1301 AACAAACTTT CCCTGTGCAG AAGGAGTCAA TGAACAAAAC ACAAAAAGAG GAGAAACAGC AAGGGACCTT ATATCCAGAT TTAAGTCAGA TGAAACAGGA 1400 1401 ATACAAGATC AAGGAAGAGG AAAATCAAGA GGATCTCAAT CTGAACAGTT TGTGGGAGTA A 1461 (4)pol基因由3432个核苷酸组成,位于全长基因的第1689位至第5120位,5’-3’的 序列为: 1 ACAGCCAGGA CATTTCTCAA AACAATGTAT AAATGCTCCA AAAAACGGGA AACAAGGGGC TCAGGGGAGG CCCCAGAAAC AAACTTTCCC TGTGCAGAAG 100 101 GAGTCAATGA ACAAAACACA AAAAGAGGAG AAACAGCAAG GGACCTTATA TCCAGATTTA AGTCAGATGA AACAGGAATA CAAGATCAAG GAAGAGGAAA 200 201 ATCAAGAGGA TCTCAATCTG AACAGTTTGT GGGAGTAACT TATAATTTAG AAAAGAGACC AACTACAATA GTCTTGATTA ATGACACACC CTTAAATGTA 300 301 TTGTTGGACA CAGGAGCAGA CACATCAGTA CTAACTATTG CACATTGTAA TAGGTTAAAG TATGGAGGAA GAAAATATCA AGGTACAGGT ATTGTTGGGG 400 401 TTGGAGGTAA TGTAGAAACA TTTTCCACTC CTGTTACAGT GAAAAAGAAA GGAAAACAAA TTAAAACTAG AATGTTAGTA GCAGATATCC CAGTTACTAT 500 501 TTTGGGGCGA GATATTCTTC AAGAATTAGG CGCACAATTA CTAATGGCTC AACTTTCAAA AGAAATAACC CCAAGAGAAA TTAAATTAAA AACAGGCACA 600 601 GTAGGGCCTA AGGTTCCCCA ATGGCCACTT ACTAAAGAGA AGTTGTTAGG TGCTAAAGAA ATAGTCAAAA AATTGTTGGA TGAAGGTAAA ATATCAGAAG 700 701 CCAGTGATGA TAATCCTTAT AATTCTCCTA TATTTGTAAT AAAAAAGAAA TCTGGAAAGT GGAGATTATT GCAAGATTTA AGAGAGTTAA TTAAGGGTGG 800 801 TACAAGTAGA ACTGAAATAT CCAGAGGATT ACCTCATCCA GGGGGATTAA TTAAATGTAA TCATATGACA GTATTAGATA TTGGAGATGC ATATTTCACT 900 901 ATACCATTAG ATCCAAAGTT TAGACAATAT ACAGCATTTA CTGTGCCATC CATTAATCAT CAGGAACCAG ATAAAAGATA TGTGTGGAAT TGCTTGCCAC 1000 1001 AAGGTTTTGT GTTAAGTCCA TACATATATC AAAAAACATT ACAGGACATA TTACAAGCTT TTAGAGAAAG GCATCCAGAT GTACAATTAT ATCAATATAT 1100 1101 GGATGATTTA TTCATTGGGA GTAATGAATC TAAAAGACAA CATAAGGAAC TAGTAGAAGA ATTAAGAGCT ATTCTTTTAG AAAAGGGCTT TGAGACGCCT 1200 1201 GGGGATAAAT TGCAGGAAGA AGCACCCTAT AATTGGCTGG GATATCAACT TAGTCCAGGC AATTGGAAAG TACAAAAGAT GCAATTAGAA TTGGTAAAAG 1300 1301 AGCCAACATT AAATGATGTG CAAAAATCAA AGGGAAATAT AACATGGATG AGCTCAGGGG TTCCTGGATT AACAGTGAAG CAAATAGCTG CTACCACTAA 1400 1401 AGGTTGCTTA GATTTAAATC ATAAAGGTAG TAGGACCAGA GAAGCCCAAA AAGACTTAGA GGAAATTATT AAAAGTTTCA GAAGCTCAGG ATTCCCATAT 1500 1501 TATAACCCAG AAGAAGAAGT AATCTGTGAG ATTGAAATTA CTAAAAATTA TGAGGCTACT TATATAATAA AACAGTCTCA AGGAATATTG TGGGCAGGAA 1600 1601 AGAAAATTAT GAGGGCTAAT AAAGGATGGT CCGCAGCAAA AAATCTAATG TTATTGTTAC AACATGTAGC CACAGAAAGT ATTGTTAGAA TTGGAACATG 1700 1701 TCCAAAATTT AAAGTACCTT TTACTAAAGA ACAAGTCAAA TGGGAAATGG AAAAGGGATG GTATTATTCA TGGCTACCAG ACATGGTATA TTCACATCAA 1800 1801 GTTGTTCATG ATGATTGGAG ACTGAAATTA GTAGAGCAAC CAACATCTGG TATAACAATT TATACTGATG GGGGTAAACA GAATGAAGAA GGAGTTGCAG 1900 1901 CTTATGTGAC TAGTAATGGG AAAACTAAAC AAAAAAGGTT AGGGCCTGTT ACTCATCAAA CTGCTGAGAG GATAGCAATA CAAATGGCAT TAGAAGATAC 2000 2001 TGAAGAGACA TTGGTAAATA TAGTAACTGA TAGTTACTAC TGTTGGAAAA ATATTACAGA AGGATTAGGG TTAGAAGGAC CAGACAGCCC CTGGTGGCCA 2100 2101 ATAATTCAAA ATATTAGGGC TAAAGAAATG GTTTATTTTG CTTGGGTACC AGGTCACAAA GGAATATATG GCAATCAATT GGCAGATGAG GCTACTAAAA 2200 2201 TAACAGAGGA AATTATGTTA GCATATCAAG GCACACAGAT TAGGGAAAAA AGAGATGAAG ATGCAGGGTA TGATTTGTGT ATTCCTTATG ACATAATGAT 2300 2301 ACCTGTCTCT GAGACAAAAG TTATACCCAC AGATGTAAAA ATACAGGTAC CTCACAAATG TTTTGGATGG GTAACTGGTA AGTCATCAAT GGCTAAGCAA 2400 2401 GGATTATTAA TCAATGGGGG AATAATTGAT GAAGGATACA CAGGTGAAAT ACAGGTAATT TGTACTAATA TTGGAAAGAG TAACATGAAA CTCAGGGAAG 2500 2501 GACAAAAGTT TGCACAATTA ATCATATTAC AGCATCGATC AAATGATAAA CAAATCTGGG ATGAAAATAA AACATCTCAA AGGGGAGATA AAGGGTTTGG 2600 2601 AAGCACAGGT ATATTTTGGG TAGAGAATAT CCAAGAGGCG CAAGATGAAC ATGAAAATTG GCATACATCT CCAAAGATAT TGGCAAAAAG ATATGGGTTA 2700 2701 CCATTGACTG TAGCTAAACA GATAACTCAA GAATGCCCTC ATTGTACTAA ACAAGGATCT GGACCAGCAG GTTGTGTAAT GAGATCTCCT AATCATTGGC 2800 2801 AGGCTGATTG TACACATTTA GAAAACAGGG TAATAATGAC ATTTGTAGAG TCTAATTCAG GATACATTCA TGCTACTCTA TTGTCCAAAG AAAATGCCTT 2900 2901 GTGTCCTTCA TTGGCTATTT TGGAATGGGT GAGGTTATTT TCTCCTAAAT CTTTACATAC AGACAATGGT ACTAATTTTG TGGCAGAGTC AGTAGCAAAT 3000 3001 CTGTTGAAAT TCCTGAAGGT GACACATACT ACAGGAATAC CTTATCACCC AGAGAGCCAA GGGATTGTGG AAAGAGCAAA CAGGACATTA AAAGAAAGAA 3100 3101 TTAAAAGTCA TAGAGGAAAT ACTCAGACAC TTGAAGCAGC ATTACAACTT GCTCTCATTA CTTGTAACAA AGGGAGGGAA AGTATGGGAG GACAAACTCC 3200 3201 ATGGGAAGTA TTTATTACTA ATCAGGCTCA AACAATACAT GAAGAACTTT TATTACAACA AGCACAATCT TCTAAAAAAT TTTGTTTTTA TAAAATTCCT 3300 3301 GGTGAGCATA ATTGGAAGGG GCCCACCAGA GTGTTGTGGA AAGGTGATGG AGCAGTAGTG GTCAATGATG AGGAAAAAGG AATAATTGCT GTGCCTTTAA 3400 401 CCAGGACTAA ATTATTAATA AGACCAAATT GA 3432 (5)env基因由2592个核苷酸组成,位于全长基因的第5313位至第7904位,5’-3’的序 列为: 1 ATGGTCAGCA TTACATTCTA TGGGGGTATC CCAGGGGGAA TATCAACCCC TATCACCCAA CAAACAGAAT CAACAGACAC ACAGAAAGGG GATCATATGG 100 101 TATATCAACC CTATTGTTAT AATGATAGCC ATAAAGAAGA AATGGCAGAG ACAAGAGACA CAAGATACCA AGAAGAAATG AACCGGAAAG AAGATAAAGA 200 201 AGATAAAAGA AAGAATAACT GGTGGAAGAT AGGTATGTTC TTATTGTGTC TGTTAGAGAT CACTGGAGGA TTCCTCTGGT GGTATGAGAG GCAACAACAT 300 301 TCATATTATA TAAGATTGGT TACAATAGGA GGTAGACTGA ATGGTTCAGG AATGACTAGT GCCATAAAAT GTTGGGGTTC ATTTCCTGGG TGTAGGCCAT 400 401 TTACTAACTA TTTCAGTTAT GAGACTAATA CGACTGTTAG TAGAGATAAT AATACTGCTA CTCTGTTAGA TACTTATCAA AGAGAAATAA CAAACATATA 500 501 CAGGACATCT TGTGTGGATA GTGATCACTG TCAAGAATAT AAATGTAAGC AAGTACAGTT GAAAAAGAAC AGCAATAACA TTATAATGAA TAATTGTAGT 600 601 AACAATAGGT GTGAAGAGTT TTGGGGGTTT AGCTGGTTAG AATGTAATCA GACAGAAAAT GCAATAACTA TATTGGTCCC AGAAATAGAA ATACAGCAAA 700 701 GAAAGAACAC TTGGATTCCA AAAAGGTGTG AGAAAACTTG GGCTAAGGTA AAACATTGTC CAATGGATTT ATTATATGGT ATAAATAAAA TAAGAATGTG 800 801 TGTCCAACCT CCATTCTTTT TGTTTAAACA GAATGATACT TCTAATAATA CTAATATTCT CAGTAATTGT GGACCTTTAG TATTTCTTGG AATATTTGAG 900 901 GACAATAAGG CAGCAATCCA GAATGGGAGT TGCACTCTTC ACAGGACAAA TATTAACAGG CCAGATTATA GTGGATTTTA CCAAGTGCCT ATATTTTATA 1000 1001 TATGCACCTT GACAGGATTT CAAAGTTGTA ATAATGGATC AATAATTAGT ATAATTATGT ATGAGTCTAA TAATGTTCAA TACTTGTTAT GCAATACTAG 1100 1101 TAATACTAAT AGTACCAATA ATGCTAATGT CTCTTGTGTG GTACAAAGTT TTGGAGTGAT AGGACAGGCA CATGTGGCAT TGCCCAGAAA AAATAAGAGG 1200 1201 TTACAATCTC CAAAGTTTGC TCACTATAAT TGCACCATAA ATAATAAAAC AGAGTTAAGG CGATGGCAAT TGGTAAAAAC ATCAGGCATC ACTCCTTTAC 1300 1301 CCATTTCCTC TACAGCTAAT ACTGGATTAG TCAGACACAA GAGAGACTTT GGTATATCTG CTATAATAGC TGCCATTGTA GCTGCTAGTG CTATTGCTGC 1400 1401 TAGTGCTACT ATGTCTTATA TCGCTTTGAC AGAAGTCAAC AAATTAGATA GTGTACAAAA TCATACTTTT GAAGTAGAGA ACAATACTAT CAATAACATA 1500 1501 GAGTTAACAG AAGAGCAAAT TCATATATTA TATGCTATGG TTCTCCAAAC ACATGCAGAT GTTCAATTGT TAAAAGAACA ACAAAAGATT GAGGAAACAT 1600 1601 TTAATTTAAT TGGATGTATA GAAAGATCAC ATACATTTTG TCATACTGGA CATCCCTGGA ATGAATCATG GGGTCAGTTA AATGATTCTA CACAGTGGGA 1700 1701 TGACTGGGTA GATAAGATGG AAAATTTAAA TCATGATATA TTAACAACAC TTCATACTGC TAGAAATAAT CTAGAACAAT CTATGATAAC TTTCAATACA 1800 1801 CCTGACAGTG TAGCACAATT TGGAAAAAAT ATTTGGAGTC ATATTGCAAA TTGGATTCCT AGATTAGGAG CTTCCATAAT TAAATATATA GTGTTGATAT 1900 1901 TACTTATATA TGTGTTACTA ACCTCTGCAC CTAAGATCCT CAGAGGCCTC TTGACAACGA TGAGTGGTGC AGGATCCTCC GCCAGTCGCT ACCTGAAGAA 2000 2001 AAGATACCAT CACAAACATG CATCGCGAGG AGACATCTGG GCCCAGGTCC AATATCATGC GTACCTGGCA GACGAGACTC ATGGCTCAGG GGACAAGTCC 2100 2101 AACATGCGGA AGCTCTCCAG GAACAACTGG AATGGCGAAT CAGAGGAGTA CAACAGACGA CAAAAAAATT GGAAAAAGTT ATTAAAGAGA TCTGGAGAGA 2200 2201 ATTACAATAC ACACGAAGAC AACATGGGGA CTATGGGTCG TTTGGTGACT ACCGCCGCCG AGAAGAAGAA CGTCGGGGTG AATCCTCACC AAGGGTCCTT 2300 2301 AACCCTGGAG ATTCAAAGCA AAGGAGGAAA CATCTATGAC TGTTGCATTA AGGCTCAAGA AGGAACTCTT GCTATTCCTT GCTGTGGCTT CCCACTATGG 2400 2401 CCGTTTTGGG GACTTATAAT CATATTAGAA CGCTTGTTGG GATATGGGCT TCGGGAAATT GCAAAAATTA TAATGATTCT AGGGAAAGGA CTAAGTATAA 2500 501 TAATTACAGG ATTAAGAAAA TTATGTGATT ATATTGGGAA AATGCTAAAT CCAGCTACAT CTCATGTAAC AATGCCTCAA TATGATGTTT AG 2592 (6)tat基因由237个核苷酸组成,第一外显子位于全长基因的第365位至第462位,第 二外显子位于全长基因的第5138位至第5276位,tat基因5’-3’的完整序列为: 1 CTGCTGAACC TGGCTGATCA TAGGATCCCT AGGACAGCAG AGGAGAACTT ACAGAAGTCT TCTGGAGGTG TTCCTGGCCA CAACACAGGA AGACAGGTAC 100 101 CACCAGTCAG CTATCATTGT CAACTGTGTT TCCTGAGATC ATTGGGAATT GACTACCTTG ACAGCTCGCT GAAGAAGAAG AACAAACAAA GACAGAAGGC 200 TAA 237 (7)rev基因由495个核苷酸组成,第一外显子位于全长基因的第5454位至第5546位,第 二外显子位于全长基因的第7250位至第7651位,tat基因5’-3’的完整序列为: 1 ATGGCAGAGA CAAGAGACAC AAGATACCAA GAAGAAATGA ACCGGAAAGA AGATAAAGAA GATAAAAGAA AGAATAACTG GTGGAAGATA GGTCCTCAGA 100 101 GGCCTCTTGA CAACGATGAG TGGTGCAGGA TCCTCCGCCA GTCGCTACCT GAAGAAAAGA TACCATCACA AACATGCATC GCGAGGAGAC ATCTGGGCCC 200 201 AGGTCCAATA TCATGCGTAC CTGGCAGACG AGACTCATGG CTCAGGGGAC AAGTCCAACA TGCGGAAGCT CTCCAGGAAC AACTGGAATG GCGAATCAGA 200 301 CGAGTACAAC AGACGACAAA AAAATTGGAA AAAGTTATTA AAGAGATCTG GAGAGAATTA CAATACACAC GAAGACAACA TGGGGACTAT GGGTCGTTTG 400 01 GTGACTACCG CCGCCGAGAA GAAGAACGTC GGGGTGAATC CTCACCAAGG GTCCTTAACC CTGGAGATTC AAAGCAAAGG AGGAAACATC TATGA 495 (8)S2基因由207个核苷酸组成,位于全长基因的第5287位至第5493位,5’-3’的序列 为: 1 ATGGGATTAT TTGGTAAAGG GGTAACATGG TCAGCATTAC ATTCTATGGG GGTATCCCAG GGGGAATATC AACCCCTATC ACCCAACAAA CAGAATCAAC 100 101 AGACACACAG AAAGGGGATC ATATGGTATA TCAACCCTAT TGTTATAATG ATAGCCATAA AGAAGAAATG GCAGAGACAA GAGACACAAG ATACCAAGAA 200 201 GAAATGA 207 (9)上述所有基因的结构与功能。
3.根据权利要求1,马传染性贫血病毒驴白细胞弱毒疫苗株的全长基因包括gag、pol、env、 tat、rev和S2等6个功能基因,分别编码相应的蛋白质,其特征在于: (1)gag基因编码的前体蛋白质由486个氨基酸组成,分子量为55.032千道尔顿,等电点为 8.90,氨基酸序列从N端到C端为: MGDSLTWSKALKKLEKVTVQGSQKLTSGNCNWALNLVDLFHDTNFGKEKDWQLRDVIPLLED VSQTLSGQEREAFEKTWWAIAAVKMGLQINTVNDAKTTFSILKAKFERKTANNTKKQSEPEE EYPIMIDGAGNRNFRPLTPRGYTTWVNTIQQNNLLNEASVNLFGILSVDCTSEEMNAFLDVV PGQAGQKQVLLDNLDKIAEEWDRRHPLPNPPLVAPPQGPIPMTARFIRGLGVPRERQMKPAF DQFRQTYRQWIIEAMTEGIKIMIGKPKAQNIRQGPKEPYPEFIDRLLSQIKSEGHPADITKF LTDTLTIQNANDECKNAMRHLRPEDTLEEKMYACRDIGTMRQKMALLAKALQAGLAGPMKGG IFKGGPLGAKQTCYNCGKPGHFSSQCKAPKICFKCKQPGHFSKQCRNAPKNGKQGAQGRPQK QTFPVQKESMNKTQKEEKQQGTLYPDLSQMKQEYKIKEEENQEDLNLNSLWE (2)pol基因编码的前体蛋白质由1143个氨基酸组成,分子量为128.742千道尔顿,等电点 为8.64,氨基酸序列从N端到C端为: TARTFLKTMYKCSKKRETRGSGEAPETNFPCAEGVNEQNTKRGETARDLISRFKSDETGIQD QGRGKSRGSQSEQFVGVTYNLEKRPTTIVLINDTPLNVLLDTGADTSVLTIAHCNRLKYGGR KYQGTGIVGVGGNVETFSTPVTVKKKGKQIKTRMLVADIPVTILGRDILQELGAQLLMAQLS KEITPREIKLKTGTVGPKVPQWPLTKEKLLGAKEIVKKLLDEGKISEASDDNPYNSPIFVIK KKSGKWRLLQDLRELIKGGTSRTEISRGLPHPGGLIKCNHMTVLDIGDAYFTIPLDPKFRQY TAFTVPSINHQEPDKRYVWNCLPQGFVLSPYIYQKTLQDILQAFRERHPDVQLYQYMDDLFI GSNESKRQHKELVEELRAILLEKGFETPGDKLQEEAPYNWLGYQLSPGNWKVQKMQLELVKE PTLNDVQKSKGNITWMSSGVPGLTVKQIAATTKGCLDLNHKGSRTREAQKDLEEIIKSFRSS GFPYYNPEEEVICEIEITKNYEATYIIKQSQGILWAGKKIMRANKGWSAAKNLMLLLQHVAT ESIVRIGTCPKFKVPFTKEQVKWEMEKGWYYSWLPDMVYSHQVVHDDWRLKLVEQPTSGITI YTDGGKQNEEGVAAYVTSNGKTKQKRLGPVTHQTAERIAIQMALEDTEETLVNIVTDSYYCW KNITEGLGLEGPDSPWWPIIQNIRAKEMVYFAWVPGHKGIYGNQLADEATKITEEIMLAYQG TQIREKRDEDAGYDLCIPYDIMIPVSETKVIPTDVKIQVPHKCFGWVTGKSSMAKQGLLING GIIDEGYTGEIQVICTNIGKSNMKLREGQKFAQLIILQHRSNDKQIWDENKTSQRGDKGFGS TGIFWVENIQEAQDEHENWHTSPKILAKRYGLPLTVAKQITQECPHCTKQGSGPAGCVMRSP NHWQADCTHLENRVIMTFVESNSGYIHATLLSKENALCPSLAILEWVRLFSPKSLHTDNGTN FVAESVANLLKFLKVTHTTGIPYHPESQGIVERANRTLKERIKSHRGNTQTLEAALQLALIT CNKGRESMGGQTPWEVFITNQAQTIHEELLLQQAQSSKKFCFYKIPGEHNWKGPTRVLWKGD GAVVVNDEEKGIIAVPLTRTKLLIRPN (3)env基因编码的前体蛋白质由863个氨基酸组成,分子量为98.454千道尔顿,含有19 个糖基化位点,等电点为8.33,氨基酸序列从N端到C端为: MVSITFYGGIPGGISTPITQQTESTDTQKGDHMVYQPYCYNDSHKEEMAETRDTRYQEEMNR KEDKEDKRKNNWWKIGMFLLCLLEITGGFLWWYERQQHSYYIRLVTIGGRLNGSGMTSAIKC WGSFPGCRPFTNYFSYETNRTVSRDNNTATLLDTYQREITNIYRTSCVDSDHCQEYKCKQVQ LKKNSNNIIMNNCSNNRCEEFWGFSWLECNQTENAITILVPEIEIQQRKNTWIPKRCEKTWA KVKHCPMDLLYGINKIRMCVQPPFFLFKQNDTSNNTNILSNCGPLVFLGIFEDNKAAIQNGS CTLHRTNINRPDYSGFYQVPIFYICTLTGFQSCNNGSIISIIMYESNNVQYLLCNTSNTNST NNANVSCVVQSFGVIGQAHVALPRKNKRLQSPKFAHYNCTINNKTELRRWQLVKTSGITPLP ISSTANTGLVRHKRDFGISAIIAAIVAASAIAASATMSYIALTEVNKLDSVQNHTFEVENNT INNIELTEEQIHILYAMVLQTHADVQLLKEQQKIEETFNLIGCIERSHTFCHTGHPWNESWG QLNDSTQWDDWVDKMENLNHDILTTLHTARNNLEQSMITFNTPDSVAQFGKNIWSHIANWIP RLGASIIKYIVLILLIYVLLTSAPKILRGLLTTMSGAGSSASRYLKKRYHHKHASRGDIWAQ VQYHAYLADETHGSGDKSNMRKLSRNNWNGESEEYNRRQKNWKKLLKRSGENYNTHEDNMGT MGRLVTTAAEKKNVGVNPHQGSLTLEIQSKGGNIYDCCIKAQEGTLAIPCCGFPLWPFWGLI IILERLLGYGLREIAKIIMILGKGLSIIITGLRKLCDYIGKMLNPATSHVTMPQYDV (4)rev基因编码的蛋白质由164个氨基酸组成,分子量为19.831千道尔顿,等电点为9.81, 氨基酸序列从N端到C端为: MAETRDTRYQEEMNRKEDKEDKRKNNWWKIGPQRPLDNDEWCRILRQSLPEEKIPSQTCIAR RHLGPGPISCVPGRRDSWLRGQVQHAEALQEQLEWRIRGVQQTTKKLEKVIKEIWRELQYTR RQHGDYGSFGDYRRREEERRGESSPRVLNPGDSKQRRKHL (5)tat基因编码的蛋白质由78个氨基酸组成,分子量为8.811千道尔顿,等电点为9.31, 氨基酸序列从N端到C端为: LLNLADHRIPRTAEENLQKSSGGVPGHNTGRQVPPVSYHCQLCFLRSLGIDYLDSSLKKKN KQRQKAIREEDNLSILL (6)S2基因编码的蛋白质由68个氨基酸组成,分子量为7.883千道尔顿,等电点为10.26, 氨基酸序列从N端到C端为: MGLFGKGVTWSALHSMGVSQGEYQPLSPNKQNQQTHRKGIIWYINPIVIMIAIKKKWQRQET QDTKKK (7)上述所有基因编码的蛋白质的结构和功能。
4.根据权利要求1和2所述特征,马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗株的全 长基因序列及其各基因的结构和序列及其与EIAV野毒株的比较分析,可用于设计和构 建艾滋病毒(HIV)及其它慢病毒疫苗。
5.根据权利要求1和3所述特征,比较马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗株 与野毒株之间基因序列和蛋白氨基酸序列的差异可用于建立EIAV感染的诊断方法,包 括: (1)分子生物学方法,其特征在于针对EIAV疫苗株的基因序列及其与野毒株的基因序 列差异区设计相应的PCR引物及基因探针,用于EIAV的核酸诊断和进行鉴别诊断; (2)血清学方法,其特征在于针对EIAV疫苗毒株蛋白的抗原表位和免疫原性,设计相 应的实验方法来检测EIAV感染动物血清的抗EIAV抗体和EIAV抗原的方法,以及根 据EIAV疫苗株与野毒株蛋白的抗原表位的差异以及相应抗体反应的差异而进行血清 学鉴别诊断。
6.根据权利要求1和2和3所述特征,由马传染贫血性病毒(EIAV)驴白细胞弱毒疫苗 株的全长基因序列确定的各基因、各蛋白分别具有独特的不同于EIAV野毒株一级结构 和高级结构,可用于设计和构建艾滋病毒(HIV)及其它慢病毒的多肽疫苗、基因工程亚 单位疫苗、基因缺失疫苗、DNA疫苗、活载体疫苗和诊断试剂等。
7.根据权利要求1,马传染贫血性病毒驴白细胞弱毒疫苗株的全长基因,其特征在于可用 来构建基因转移的载体,用于疾病的基因治疗;其特征还在于用于构建感染性分子克隆 及其在疫苗研究方面的应用。
马传染性贫血病毒(Equine Infectious Anemia Virus,EIAV)是引起马属动物发生传染性贫 血症病原体,对畜牧业具有巨大危害,是兽医界颇受重视的病原体之一。EIAV属逆转录病 毒科慢病毒属(lentivirus),与同属于慢病毒属的人类免疫缺陷病毒(Human Immunodificiencv Virus,HIV)在基因组结构,基因编码蛋白以及基因调控方式等方面有许多相似之处 (J.M.Coffin,The Structure And Classification of Retroviruses,in:The Retroviridae,Vol.1,p19,edited by J.A.Levy,Plenum press)。由于EIAV是最早发现的动物病 毒之一和最先发现的慢病毒,其基因高度变异引起慢性迁延性的疾病和自身免疫性病理, 从而成为研究慢病毒感染、免疫病理、病毒酶功能以及免疫保护机理的重要动物模型 (R.C.Montelaro et,al Equine Retroviruses,In:vol.2,P.257)。
我国自六十年代起投入巨资对该病毒的生物学性状进行了研究,分离并培育出与国外 EIAV毒株有明显生物学差异的强毒株并进行了体外驴白细胞传代。经过多年努力,逐步驯 化了该病毒并使之成为无致病力,但可以使动物在接种之后产生免疫保护的疫苗株。该疫 苗株自1976年开始生产,1978年在全国大规模应用(沈荣显等,马传染性贫血免疫的研 究。中国农业科学,第4期P1-15,1979)。至今已接种7000万匹次的马、骡、驴,完全 控制了该病在我国的流行。
对病毒基因组的研究是在70年代分子生物学技术发展并得到广泛应用之后才兴起的。 现在GenBank中已发表的马传染性贫血病毒的基因组序列均来源于美国强毒株(Wyoming 株)和日本强毒株(Goshun株),以及由它们衍生得到的细胞培养适应株的基因序列。然 而这些毒株均不是疫苗毒株。我国研制成功的EIAV弱毒疫苗至今还是目前世界上唯一经 过大规模应用、长时间检验而被证明是安全和有效的慢病毒疫苗(R.C.Montelaro,et al.in: Vaccines against Retroviruses,Vol.4,P605,R.C.Montelaro et,al Equine Retroviruses,in:vol.2, P.257)。由于我国的马传染性贫血疫苗毒株是由经典路线制造出的,其基因组序列尚未被 阐明。这一方面不能从基因水平上保护我国的EIAV疫苗的知识产权,另一方面也限制了 该疫苗模型对其他慢病毒疫苗研制的指导作用。
本发明的任务在于阐明一种能有效保护马属动物免于患马传染性贫血病的EIAV弱毒活 疫苗株的全基因的结构和核苷酸序列及由其编码蛋白的结构和氨基酸序列,保护我国自主 知识产权。同时经过将EIAV弱毒疫苗基因序列和蛋白结构与EIAV强毒株进行对比,揭示 该疫苗毒株在传代过程中毒力减弱的分子机理和其诱导保护性免疫的组分和机理,从而为 至今尚未突破的包括HIV在内的其他慢病毒疫苗的研究提供重要的参考。该发明可直接指 导艾滋病疫苗和其它慢病毒疫苗的研制,进一步研究该疫苗毒株及其各主要基因和所编码 的蛋白质可分别用于EIAV疫苗株和EIAV强毒株的核酸鉴别诊断和血清学鉴别诊断试剂的 研制,并且用其构建的载体还可用于基因治疗。
本发明是通过以下技术手段实现的:首先用PCR方法扩增EIAV疫苗株的基因,分别 克隆到质粒载体中再进行DNA序列的分析,得到该病毒的全长基因序列。
经传统生物学手段研制的EIAV驴白细胞弱毒疫苗毒株(第125代),来源于农业部授 权该毒种保存单位中国农业科学院哈尔滨兽医研究所马传染性贫血研究室。该疫苗毒株在 体外驴白细胞复制过程中以前病毒DNA的形式整合到驴白细胞的染色体上,本发明取此前 病毒DNA作为扩增病毒基因的材料。本发明首先利用基因组DNA提取试剂盒从病毒感染 的驴白细胞中提取染色体DNA,并以此为模板用PCR方法扩增EIAV疫苗毒株的前病毒 DNA。扩增引物的设计是根据国际EIAV强毒株序列,先用其各区段EIAV基因进行预扩 增。经过多次摸索,并根据对得到的扩增片段进行测序中获得的EIAV疫苗株的部分序列 资料,设计出EIAV疫苗弱毒株特异性引物,分段扩增病毒基因并克隆到质粒载体上,进 而对全部基因进行克隆和序列测定,获得了病毒基因组全长序列(见说明书附图1)和其 主要结构基因(gag基因,pol基因和env基因)及主要调控基因(5’LTR,3’LTR,rev基因,S2 基因,tat基因等)的序列(分别见说明书附图4,6,8,2,3,12,14,10)。
利用GCG软件对全长基因序列的开放读码框架进行分析,得到各个结构基因及调控基 因所编码的蛋白质的氨基酸序列(详细序列分别见说明书附图5,7,9,11,13,15)。各 基因在全长基因序列中的组合方式以及它们的相对位置见说明书附图1,各基因在全长基 因序列中的具体位置见说明书附图17。
将得到的疫苗株序列与GenBank所发表的国际标准株序列(Wyoming株,GeneBank Accession Number:AF028232)进行核苷酸和氨基酸同源性的比较,结果发现,各基因与国 外标准野毒株的核苷酸同源性在73.46-90.06%之间,其中env基因、rev基因和S2基因与 国际标准株的差异较大,同源性分别为73.46%,73.54%和75.76%。氨基酸序列与国际标 准株相应序列的同源性比较结果发现,外膜蛋白(Env蛋白)及Rev蛋白和S2蛋白的变异 均较大,氨基酸同源性分别为67.41%,64.85%和54.54%(详见说明书附图18)。
另外,还利用GCG软件对该疫苗株各结构基因和调控基因所编码蛋白质的二级结构进 行预测,分析结果见说明附图19,20,21,22,22,23,24。疫苗株Env和Tat蛋白二级 结构与国外标准株的相应蛋白的二级结构的比较发现有显著差异(见说明书附图25,26)。 马传贫驴白细胞疫苗株的Env蛋白与国外标准强毒株(AF028232)的Env蛋白在多个区域 的α螺旋、β片层和转角等结构都有不同,其中转角结构的数量和位置的不同,可能是导 致了两者间二级结构有明显差异的主要原因。马传贫驴白细胞疫苗株的Tat蛋白的二级结 构图羧基端有一明显的疏水基团(菱形框所示),其临近区域为β片层结构并形成较集中的 亲水基团,其氨基端有四个转角结构;国外标准强毒株(AF028232)的Tat蛋白的二级结 构图的羧基端无疏水基团,其临近区域为松散的无规则卷曲结构,并有两个独立的亲水基 团,其氨基端有丰富的转角结构。
通过对氨基酸序列分析发现,马传贫疫苗株的Env蛋白包含19个潜在的糖基化位点, 国外标准强毒株(AF028232)的Env蛋白包含23个潜在的糖基化位点,各个位点的位置 见见说明书附图27。
通过对各个基因编码的蛋白组成及等电点(PI)进行分析,得到各个蛋白的分子量和等 电点,具体数据见说明书附图28。
本发明是在国内外首次阐明我国研制的EIAV弱毒疫苗株的全基因序列,将从基因水平 上提供对我国自主研制的该疫苗的知识产权保护。鉴于我国的EIAV弱毒疫苗是目前世界 上唯一经受过长时间和大规模现场应用验证的安全而有效的慢病毒疫苗,本发明阐明的该 疫苗弱毒株全基因序列和结构的特征、各结构基因和调控基因的特征及其编码的蛋白质的 特征和功能将为其他慢病毒疫苗的研制提供重要的指导,并将大大推动这些疫苗研究的进 程。当前艾滋病毒(HIV)疫苗的研究正处于进退两难之中,一方面现有各类基因工程HIV 疫苗均未显示明显有效的迹象,而另一方面显示出一定保护作用的HIV弱毒活疫苗又因不 安全而无法推进(邵一鸣,艾滋病疫苗研究现状及其发展方向,中国科学发展报告,1999, 94-101,科学出版社)。历史上在人及动物最有效的疫苗都是弱毒活疫苗(R.C.Montelaro,et a1.in:Vaccines against Retroviruses,Vol.4,P605,)。由于HIV和EIAV均属慢病毒,其基因 结构和编码蛋白的功能均很相似,因而EIAV弱毒疫苗的成功经验为艾滋病毒弱毒疫苗的 研制提供了很好的借鉴。本发明使得这种对HIV疫苗具有重要意义的借鉴由可能变为现实。 该发明除可直接指导艾滋病疫苗和其它慢病毒疫苗的研制外,通过进一步研究该疫苗毒株 及其各主要基因和所编码的蛋白质可分别用于对EIAV疫苗株和强毒株的核酸诊断和血清 学诊断。使用EIAV弱毒疫苗株构建携带外源基因的载体还有望用于基因治疗。
以下实施例对于本发明马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗全长基因序列的 应用进行详细的说明,但不意味着限制本发明的内容。
实施例1马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗全长基因结构及序列分析可 用于阐明该疫苗毒株的致弱机制和诱导保护性免疫的机理
将EIAV弱毒疫苗全长基因序列与国外EIAV强毒株、中国EIAV强毒株及部分致弱株 的序列进行比较,从基因和蛋白水平来阐明强弱毒株之间在结构和功能上的差异,从中确 定与EIAV的致病性和免疫原性相关的基因及其蛋白的组分或基因及蛋白的调控机制,最 终阐明EIAV驴白细胞弱毒疫苗毒力致弱和诱导保护性免疫的基因和蛋白结构及其调控的 机理,还可为研究逆转录病毒的基因调控和基因功能提供重要的理论基础。 实施例2马传染性贫血病毒驴白细胞弱毒疫苗全长基因结构和序列可用于艾滋病毒(HIV)
及其他慢病毒减毒活疫苗的构建。
根据实施例1的设计方案,参照马传染性贫血病毒弱毒疫苗的致弱和免疫保护机制对 艾滋病毒(HIV)及其它已发现的动物慢病毒,包括猴免疫缺损病毒(Simian Immunodeficiency Virus,SIV)、猫免疫缺损病毒(Feline Immunodeficiency Virus,FIV)、牛免疫缺损病毒(Bovine Immunodeficiency Virus,BIV)、维斯纳慢病毒(Visna Lentivirus)、和山羊关节炎脑炎病毒 (Caprine Arthritis-Encephalitis Virus,CAEV)进行基因改造,从而构建相应的减毒活疫苗, 进行实验室和临床研究。 实施例3马传染性贫血病毒驴白细胞弱毒疫苗全长基因结构及序列和其编码蛋白的氨基 酸及其二、三级结构分析可用于艾滋病毒(HIV)及其他慢病毒基因工程疫苗的构建。
根据实施例1的设计方案,将艾滋病毒(HIV)及其他慢病毒(SIV、FIV、BIV、Visna 和CAEV等)的基因组避免或去除与毒力有关的基因,或根据基因序列及蛋白二级结构分 析结果(图25、26、27)对有关蛋白进行结构改造,将能诱导保护性免疫的蛋白的基因分 别克隆到各类表达载体中,构建成各种形式(多肽、亚单位、病毒样颗粒和活载体等)的 基因工程疫苗,进行实验室和临床研究。 实施例4马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列及其编码的蛋白质的氨基酸
序列可用于构建基因重组抗原,用于马传染性贫血病毒感染的血清学诊断。
根据马传染性贫血病毒疫苗株全基因序列及其编码的氨基酸序列分析的研究结果,可 以分别选取包含主要抗原表位的基因,构建原核和真核表达载体,在大肠杆菌或真核细胞 中表达EIAV蛋白,经层析方法纯化后可用于血清学诊断和制备诊断试剂。 实施例5马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列可用于马传染性贫血病毒疫苗
株和野毒株感染的PCR鉴别诊断。
根据实施例2的研究结果,选择EIAV野毒株和疫苗株的基因序列差异最大的区域设计 PCR引物,根据PCR扩增产物的差异来对强弱毒株的感染进行鉴别诊断。 实施例6马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列可用于构建进行基因治疗的
基因转移载体。
利用中国株马传染性贫血病毒疫苗株构建用于基因治疗的基因转移载体。马传染性贫 血病毒不能引起人类发病,采用文献报道的方法构建源于该疫苗株的基因转移载体,不但 可以克服以往所用的鼠白血病病毒来源的基因转移载体的基因转移效率较低和不能转染未 分裂细胞等缺陷,而且有较好的安全保障。 实施例8利用GCG软件包对马传染性贫血病毒驴白细胞疫苗株(chb101)的Env、Tat 蛋白的二级结构进行预测分析,并与国外强毒株(GenBank Accession Number:AF028232) 的Env、Tat蛋白的二级结构进行比较(如图25、图26所示),可以发现EIAV强毒株与疫 苗毒株的蛋白在二级结构水平上有显著差异,其中α螺旋、β片层和转角结构的数量和位 置均有不同。强烈提示这种蛋白质高级结构的差异可能是它们功能差异的基础,是基因工 程、疫苗的重要候选抗原。根据此原理,也可对艾滋病毒和其他慢病毒的相应蛋白基因进 行改造,以研究将其作为疫苗抗原的可能性。
以下为说明书附图的简要说明: 图1为马传染性贫血病毒驴白细胞弱毒疫苗株全长基因序列(8258个核苷酸),5’-3’方向。 图2为5’LTR(位于全长基因的第1-325位核苷酸)的全部DNA序列(5’-3’),包括U3区(核苷 酸1-207位)、R区(核苷酸208-285位)和U5区(核苷酸286-325位),全长325个核苷酸。 图3为3’LTR(位于全长基因的第7922-8258位核苷酸)的DNA序列(5’-3’),包括U3区(核苷 酸7922-8140位)、R区(核苷酸8141-8218位)和U5区(核苷酸8219-8258位),全长337个 核苷酸。 图4为gag基因(位于全长基因的第466-1926位核苷酸)的全部DNA序列(5’-3’),全长1461 个核苷酸。 图5为gag基因编码的氨基酸序列,全长486个核苷酸。 图6为pol基因(位于全长基因的第1689-5120位核苷酸)的全部DNA序列(5’-3’)。 图7为pol基因编码的氨基酸序列,全长1143个核苷酸。 图8为Env基因(位于全长基因的第5313-7904位核苷酸)的全部DNA序列(5’-3’)。 图9为env基因编码的氨基酸序列,全长863个核苷酸。 图10为tat基因(包括第一外显子位于全长基因的第365-462位核苷酸,第二外显子位于全 长基因的第5138-5276位核苷酸)的全部DNA序列(5’-3’),全长237个核苷酸。 图11为tat基因编码的氨基酸序列,全长78个核苷酸。 图12为rev基因(包括第一外显子位于全长基因的第5454-5546位核苷酸,第二外显子位于 全长基因的第7250-7651位核苷酸)的全部DNA序列(5’-3’),全长495个核苷酸。 图13为rev基因编码的氨基酸序列,全长164个核苷酸。 图14为S2基因(位于全长基因的第5287-5493位核苷酸)的全部DNA序列(5’-3’)。 图15为S2基因编码的氨基酸序列,全长68个核苷酸。 图16为EIAV驴白细胞弱毒疫苗株的基因结构图,图中可见5’LTR,3’LTR,gag,pol,env, S2,rev,tat基因的相对位置和长度。 图17为马传染性贫血病毒驴白细胞弱毒疫苗株各功能基因在全长基因序列中的位置。 图18为马传染性贫血病毒驴白细胞弱毒疫苗株各功能基因的核苷酸序列及其编码的氨基酸 序列与国际标准株(Wyoming株,GeneBank Accession Number:AF028232)相应序列的同源 性比较结果 图19为马传染性贫血病毒驴白细胞弱毒疫苗株env基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图20为马传染性贫血病毒驴白细胞弱毒疫苗株gag基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图21为马传染性贫血病毒驴白细胞弱毒疫苗株pol基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图22为马传染性贫血病毒驴白细胞弱毒疫苗株rev基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图23为马传染性贫血病毒驴白细胞弱毒疫苗株tat基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图24为马传染性贫血病毒驴白细胞弱毒疫苗株S2基因编码蛋白的二级结构示意图,图标 1所指多边形框代表亲水基因,图标2所指菱形框代表疏水基因。 图25为马传贫驴白细胞疫苗株的Env蛋白与国外强毒株(GenBank Accession Number: AF028232)的Env蛋白的二级结构的比较示意图。图中chb101为疫苗株Env蛋白的二级 结构图,af028232为国外强毒Env蛋白的二级结构图。图标1所指多边形框代表亲水基因, 图标2所指菱形框代表疏水基因。比较可见二者在多个区域的α螺旋、β片层和转角等结 构都有不同,其中转角结构的数量和位置的不同,可能是导致了两者间二级结构有明显差 异的主要原因。 图26为马传贫驴白细胞疫苗株的Tat蛋白与国外强毒株(GenBank Accession Number: AF028232)的Tat蛋白的二级结构的比较示意图。图中chb101为疫苗株Tat蛋白的二级结 构图,af028232为国外强毒株Tat蛋白的二级结构图。二者比较可见chb101的羧基端有一 明显的疏水基团(菱形框所示),其临近区域为β片层结构并形成较集中的亲水基团,其氨 基端有四个转角结构;af028232的羧基端无疏水基团,其临近区域为松散的无规则卷曲结 构,并有两个独立的亲水基团,其氨基端有丰富的转角结构。 图27为马传贫弱毒疫苗株Env蛋白与国外强毒株Env蛋白潜在的糖基化位点图。图中 chb101-env为为马传贫弱毒疫苗株Env蛋白的氨基酸序列,28232-env为国外强毒株Env 蛋白的氨基酸序列,方框内为潜在的糖基化位点的序列。 图28为马传贫弱毒疫苗株各功能蛋白的分子量及等电点的理论值,其中env基因编码的前 体蛋白包含19个糖基化位点,完全糖化后分子量视糖基化程度而定,表中所列为未经糖基 化的蛋白分子量。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
全细胞癌症疫苗及其选择方法 | 2020-05-11 | 45 |
一株适应全悬浮培养的ST细胞及其应用和培养疫苗病毒的方法 | 2020-05-12 | 646 |
一种鼠李糖修饰的肿瘤全细胞疫苗 | 2020-05-11 | 969 |
含全细胞百日咳抗原的组合疫苗 | 2020-05-11 | 112 |
一种Marc-145全悬浮细胞直接培养猪蓝耳病病毒疫苗的方法 | 2020-05-11 | 146 |
BHK-21细胞全悬浮培养技术在新城疫疫苗生产中的应用 | 2020-05-11 | 618 |
灭活的葡萄球菌全细胞疫苗 | 2020-05-11 | 838 |
基于表达HBsAg的热失活全重组汉逊酵母细胞的乙肝治疗疫苗 | 2020-05-12 | 255 |
包括白喉类毒素、破伤风类毒素、全细胞百日咳和乙型肝炎表面抗原的四价联合疫苗及其制备方法 | 2020-05-13 | 670 |
适应全悬浮无血清培养的MDCK细胞系及其在培养流感病毒、生产流感病毒疫苗中的应用 | 2020-05-13 | 402 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。