大肠杆菌是引起人尿道感染和许多肠胃
疾病如婴幼儿腹泻、旅行者腹泻 等的最常见的原因之一,位于大肠杆菌表面的脂多糖是其致病的诱因,而O- 抗原是脂多糖最外层结构,是免疫系统识别的目标和
噬菌体吸附的位点。O- 抗原的缺失会造成许多病原体的血清敏感,或者严重削弱病原体的毒
力 [Frank et a1(1987)“The function of antibody and complement in the lysis of bacteria”.Rev Infect Dis 177:1750-1753.Pluschke G et al“Role of the capsule and the O-antigen in resistance of O18:KlEscherichia coli to complement-mediated king.J Bacteriol 42:907-913]。大肠杆菌是一 个种,种内的菌株一般通过O-抗原和H-抗原(有时通过K-抗原)来鉴定。其中 O-抗原具有高度多样性,大肠杆菌有166种不同的O-抗原,O-抗原的变化可 能是大肠杆菌的起源和维持其多样性的主要原因[Reeves,P.R(1992) “Variation in antigens,niche specific selection and bacterial populations”.FEMS Microbiol.Lett,100:509-516]。有些O-抗原如O157, O111,O26具有强烈的致病性。大肠杆菌O52:H19属于STEC(Shiga toxin- producing Escherichia coli),即产Shiga毒素(stx)的大肠杆菌[Sabine Furst etal(2000)“Identification and characterisation of Escherichia coli strain of O157 and non-O157 serogroups containing three distinct Shiga toxin genes”.J.Med.Microbiol.Vol 49,383-388]。STEC菌株是引起 出血性结肠炎和溶血尿毒综合症(HUS)的常见原因,大量证据表明Shiga毒 素在HUS的致病性上扮演重要
角色[Obrif TG,Del Vecchio P J,Brown J E etal.(1988).“Diret cytotoxic action of Shiga toxin on human vascular endothelial cells”.Infect Immun,56:2372-2378.Louse CB,Obrig TG(1995).Specific interaction of Escherichia xoli O157:H7 derived Shiga-like toxin II with human renal endothelical cells.J.Infect Dis,172:1397-1401]。而大肠杆菌O52:H10属于产肠毒素的大肠杆菌 (enterotoxigenic Escherichia coli,ETEC)。以前的流行病工作表明ETEC 在婴幼儿腹泻中常表现出来[Begaud E,Mondet D,Germani Y.(1993) “Molecular characterization of enterotoxigenic Escherichia coli (ETEC)isolated in New Caledonia(value of potential protective antigens in oral vaccine candidates)”,Res Microbiol,Nov- Dec;144(9):721-728]。而ETEC又常出现在社会经济地位低,卫生条件差, 有
水及食物污染源的情况下,并在夏季多发。ETEC也是旅行者腹泻和在成人 中几次爆发的主要的初始原因,在发展中国家ETEC的感染高峰是在两岁以内 [Black RE,(1981)“Enterotoxigenic Escherichia coli diarrhoea:acquired immunity and transmission in an endemicarea”BULL WHO.159:253-258. N.Taneja etal(2003)“Nosocomial outbreak of diarrhoea by enterotoxigenic Escherichia coli among preterm neonates in a tertiary care hospital in India:pitfalls in healthcare”Journal of Hospital Infection,53:193-197]。
O-抗原是革兰氏阴性细菌脂多糖中的O特异性多糖成分,它由许多重复 的寡糖单位组成。O-抗原的合成过程研究得较清楚:先由糖基转移酶将核苷 二
磷酸单糖转移到一个固定在细胞内膜的脂分子上,然后在内膜的内侧合成 寡糖单位,O-抗原的寡糖单位再通过转运酶被转移到内膜外侧,而后通过聚 合酶聚合成多糖,再被连接到一个糖脂分子上形成脂多糖分子 [Whitfield,C.(1995)“Biosynthesis of lipopolysaccharide O antigens”.Trends in Microbiology.3:178-185;Schnaitman,C.A.and J.D.Klena.(1993)“Genetics of lipopolysaccharide biosynthesis in entericbacteria”.Microbiological Reviews,57(3):655-682]。编码负责 O-抗原合成的所有酶分子的基因一般在
染色体上相邻排列,形成一个基因簇 [Reeves,P.R.,et al.(1996)“Bacterial polysaccharide synthesis and gene nomenclature”Trends in Microbiology,4:495-503]。在大肠杆菌和沙
门氏菌中, O-抗原基因簇位于galF和gnd基因之间[Lei Wang.et al(2001)“Sequence analysis of four Shigella boydii O-antigen loci:implication for Escherichia coli and Shigella relationships”.Infection and Immunity,11:6923-6930;Lei Wang and Peter Reeves(2000)“The Escherichia coli O111 and Salmonella enterica O35 gene clusters:gene clusters encoding the same colitose-containing O antigen are highly conserved”.Journal of Bacteriology.182:5256-5261]。O-抗原基因簇含 有三类基因:糖合成路径基因,糖基转移酶基因,寡糖单位处理基因。其中 糖合成路径基因编码的酶合成O-抗原所需的核苷二磷酸单糖;糖基转移酶基 因编码的酶将核苷二磷酸单糖及其它分子转到单糖上从而使单糖聚合成寡糖 单位;寡糖单位处理基因包括转运酶基因和聚合酶基因,它们将寡糖单位转 移到细菌内膜外侧,再聚合成多糖。糖基转移酶基因和寡糖单位处理基因只 存在于携带这些基因的基因簇里。O-抗原中单糖的不同,单糖间联结键的不 同和寡糖单位之间联结键的不同构成了O-抗原的多样性,而单糖的组成、单 糖间的联结键及寡糖单位之间的联结键是由O-抗原基因簇中的基因控制着, 所以O-抗原基因簇决定了O-抗原的合成,也决定了O-抗原的多样性。
目前在大肠杆菌中发现寡糖单位处理基因有两类。一类是wzx和wzy基 因,它们分别编码转运酶和聚合酶,它们是在绝大多数大肠杆菌的O-抗原基 因簇中从事寡糖单位转移和聚合的基因,是最常见的寡糖单位处理基因。另 一类是ABC转运系统(ATP-binding cassette transport system),包括ABC 转运子(ABC transporter)和结合ATP的ABC转运蛋白(ABC transport protein),它们在大肠杆菌的O-抗原基因簇中分别由wzm基因和wzt基因编 码。在大肠杆菌中,目前只发现在O8、O9的O-抗原基因簇中有ABC转运系统[N Kido et al(1995)”Expression of the O9 polysaccharide of Eschefichia coli:sequencing of the E.coli O9 rfb gene cluster,characterization of mannosyl transferases,and evidence for an ATP-binding cassette transport system”J.Bacteriol,2178-2187,Vol 177,No.8]。研究表 明,组成O-抗原的多糖是在细胞膜的内膜面向
细胞质一面进行组装,然后通 过ABC转运系统转到膜外。在ABC转运系统中,聚合和转位机制似乎是协同作 用的。而且这种聚合转位机制可能和膜结合的多糖的
生物合成机制相联系, 并形成一个巨大的分子复合物。[Joanne Young and I.Barry Holland(1999) “ABCtransporters:bacterial exporters-revisited five years on” Biochimica et Biophysica Acta.1461:177-200; W.Saurin,E.Dassa(1994),Protein Sci.3:325-344]。
因为O-抗原是极强的抗原,是大肠杆菌重要的致病因素之一,同时它又 具有极强的多样性,这启示我们能研究一种快速、准确地检测大肠杆菌及其 O-抗原的特异性好、灵敏度高的方法。以表面多糖为目标的血清学免疫反应 自上世纪30年代以来一直被用于对细菌的分型和鉴定,是鉴定致病菌的唯 一的手段。这种诊断方法需要大量的抗血清,而抗血清一般种类不全,数量 不足,大量的抗血清在制备和储存中也存在一些困难。另一方面此法耗时长、 灵敏度低、漏检率高、准确性差,所以,现在普遍认为这种传统的血清学检 测方法将为现代分子生物学方法取代。1993年,Luk,J.M.C et.al用沙门氏 菌(S.enterica)O-抗原基因簇的特异核苷酸序列通过PCR方法鉴定了沙门 氏菌的O-抗原[Luk,J.M.C.et.al.(1993)“Selective amplification of abequose and paratose synthase genes(rfb)by polymerase chain reaction for identification of S.enterica ma jor serogroups(A,B,C2,and D)”, J.Clin.Microbiol.31:2118-2123]。Luk,et.al的方法是将相应于沙门氏菌 血清型E1,D1,A,B和C2的O-抗原内的CDP-阿比可糖和CDP-泰威糖的合成基因 的核苷酸序列排列后得到对不同血清型的沙门氏菌特异的寡核苷酸。1996 年,Paton,A.W et.al用对E.coli O111的O-抗原特异的源于wbdI基因的寡核 苷酸鉴定了一株产毒素的E.coli O111的血清型[“Molecular microbiological investigation of an outbreak of Hemolytic-Uremic Syndrome caused by dry fermented sausage contaminated with Shiga-like toxin producing Escherichia coli”J.Clin.Microbiol.34:1622-1627], 但是后来的研究表明Paton,A.W et.al的用源于wbdI基因的寡核苷酸鉴定 E.coli O111的血清型的方法有
假阳性结果出现。Bastin D.A.and Reeves,P.R. 认为,这是由于wbdI基因是一个推测的糖合成路径基因[Bastin D.A.and Reeves,P.R.(1995)Sequence and analysis of the O antigen gene(rfb) cluster of Escherichia coli O111.Gene 164:17-23],在其它细菌的O-抗 原的结构中也可能有这个糖,所以糖合成路径基因对于O-抗原并不是高度特 异的。
本发明的目的是提供了一种对大肠杆菌O52的O-抗原特异的核苷酸。它 是大肠杆菌O52的O-抗原基因簇中的核苷酸,是源于糖基转移酶基因和ABC 转运系统基因的特异的核苷酸。
本发明的一个目的是提供了大肠杆菌O52的O-抗原基因簇的全长核苷酸 序列。
本发明的次一目的是提供了构成大肠杆菌O52的O-抗原基因簇的基因: ABC转运系统的基因wzm,wzt;糖基转移酶基因,包括orf5、orf14、orf15、 orf16;糖合成路径基因,包括rmlB、rmlA、galE、glf、dmhB、dmhA、hddA、 gmhA、hddC、gmhB。
本发明的又一目的是提供了寡核苷酸,它们分别源于大肠杆菌O52的O- 抗原基因簇中编码糖基转移酶的基因包括orf5、orf14、orf15、orf16;源 于编码ABC转运系统的wzm基因;它们是上述基因内的寡核苷酸,长度在 10-20nt;它们对大肠杆菌O52的O-抗原是特异的;尤其是表1中列出的寡 核苷酸,它们对大肠杆菌O52的O-抗原是高度特异的,而且这些寡核苷酸还 可重新组合,组合后的寡核苷酸对大肠杆菌O52的O-抗原也是高度特异的。
本发明的另一个目的是提供的上述寡核苷酸可作为引物用于核酸扩增反 应,或者作为探针用于杂交反应,或者用于制造
基因芯片或微阵列,从而通 过这些方法来检测和鉴定大肠杆菌O52的O-抗原及检测和鉴定大肠杆菌 O52。
本发明的再一个目的是提供了分离大肠杆菌O52的O-抗原基因簇全序列 的方法,按照本方法操作可以获得其他细菌的O-抗原基因簇全序列,也可以 获得编码其他多糖抗原的细菌的基因簇的全序列。
本发明的目的是由以下技术方案实现的。
本发明是对大肠杆菌O52的O-抗原特异的核苷酸,其特征在于,其是如 SEQ ID NO:1所示的分离的核苷酸,全长18900个
碱基;或者具有一个或多 个插入、缺失或取代的碱基,同时保持所述分离的核苷酸功能的SEQ ID NO:1 的核苷酸。
前述的对大肠杆菌O52的O-抗原特异的核苷酸,其特征在于,其由16个 基因组成,都位于galF基因和gnd基因之间。
前述的对大肠杆菌O52的O-抗原特异的核苷酸,其特征在于,所述的基 因是:ABC转运系统的wzm基因;糖基转移酶基因,包括orf5、orf14、orf15、 orf16基因;其中所述的基因orf5是SEQ ID NO:1中的5239至6093碱基的 核苷酸;wzm是SEQ ID NO:1中的6095至6868碱基的核苷酸;orf14是SEQ ID NO:1中的12608至13936碱基的核苷酸;orf15是SEQ ID NO:1中的13929 至16088碱基的核苷酸;orf16是SEQ ID NO:1中的16244至17389碱基的 核苷酸。
前述的对大肠杆菌O52的O-抗原特异的核苷酸,其特征在于,其源于所 述的ABC转运系统的基因或糖基转移酶基因;或糖合成路径基因中的寡核苷 酸;以及它们的混合或它们的重组。
前述的对大肠杆菌O52的O-抗原特异的核苷酸,其特征在于,所述的
源于orf5基因的寡核苷酸对是:
SEQ ID NO:1中的5445至5462碱基的核苷酸和5970至5988碱基的核 苷酸;SEQ ID NO:1中的5266至5283碱基的核苷酸和5651至5668碱基的 核苷酸;SEQ ID NO:1中的5362至5379碱基的核苷酸和5783至5800碱基 的核苷酸;
源于wzm基因的寡核苷酸对是:
SEQ ID NO:1中的6314至6331碱基的核苷酸和6840至6857碱基的核 苷酸;SEQ ID NO:1中的6180至6197碱基的核苷酸和6689至6705碱基的 核苷酸;SEQ ID NO:1中的6422至6439碱基的核苷酸和6711至6728碱基 的核苷酸;
源于orf14基因的寡核苷酸对是:
SEQ ID NO:1中的12940至12958碱基的核苷酸和13869至13886碱基 的核苷酸;SEQ ID NO:1中的13003至13020碱基的核苷酸和13743至13762 碱基的核苷酸;SEQ ID NO:1中的13853至13872碱基的核苷酸和13345至 13363碱基的核苷酸;
源于orf15基因的寡核苷酸对是:
SEQ ID NO:1中的14317至14335碱基的核苷酸和15064至15080碱基 的核苷酸;SEQ ID NO:1中的14518至145 35碱基的核苷酸和15248至15267 碱基的核苷酸;SEQ ID NO:1中的14421至14438碱基的核苷酸和14845至 14864碱基的核苷酸;
源于orf16基因的寡核苷酸对是:
SEQ ID NO:1中的16286至16304碱基的核苷酸和16935至16952碱基 的核苷酸;SEQ ID NO:1中的16305至16321碱基的核苷酸和16813至16831 碱基的核苷酸;SEQ ID NO:1中的16588至16605碱基的核苷酸和17257至 17273碱基的核苷酸。
前述的对大肠杆菌O52的O-抗原特异的核苷酸在检测表达O-抗原的细 菌、在诊断中鉴定细菌的O-抗原和细菌的其它多糖抗原的应用。
前述的对大肠杆菌O52的O-抗原特异的核苷酸的重组分子,而且通过插 入表达可提供表达大肠杆菌O52的O-抗原,并成为细菌
疫苗。
前述的对大肠杆菌O52的O-抗原特异的核苷酸的应用,其特征在于它作 为引物用于PCR、作为探针用于杂交反应与
荧光检测、或用于制造基因芯片 或微阵列,可用这些方法检测人体和环境中的细菌。
前述的对大肠杆菌O52的O-抗原特异的核苷酸的分离方法,其特征在于, 包括下述步骤:
(1)基因组的提取:在5mL的LB培养基中37℃过夜培养大肠杆菌O52, 离心收集细胞。用500ul 50mM Tris-HCl(pH8.0)和10ul 0.4M EDTA重悬细 胞,37℃温育20分钟,然后加入10ul 10mg/ml的溶菌酶继续保温20分钟。 之后加入3ul 20mg/ml的蛋白酶K、15ul 10%SDS,50℃温育2小时,再加入 3ul 10mg/ml的RNase,65℃温育30分钟。加等体积酚抽提混合物,取上 清液再用等体积的酚∶氯仿∶异戊醇(25∶24∶1)混合溶液抽提两次,取 上清液再用等体积的乙醚抽提以除去残余的酚;上清液用2倍体积
乙醇沉淀 DNA,用玻璃丝卷出DNA并用70%乙醇洗DNA,将DNA重悬于30ul TE中,基 因组DNA通过0.4%的琼脂糖凝胶
电泳检测;
(2)通过PCR扩增大肠杆菌O52中的O-抗原基因簇:大肠杆菌O52的 O-抗原基因簇通过Long PCR扩增;首先根据经常发现于O-抗原基因簇启动 子区的JumpStart序列设计上游引物(#1523-ATT GTG GCT GCA GGG ATC AAA GAA AT),再根据O-抗原基因簇下游的gnd基因设计下游引物(#1524-TAG TCG CGT GNG CCT GGA TTA AGT TCG C);用Boehringer Mannheim公司的Expand Long Template PCR方法扩增O-抗原基因簇,PCR反应程序如下:在94℃预变性 2分钟;然后94℃变性10秒,60℃
退火30秒,68℃延伸15分钟,这样进行 30个循环;最后,在68℃继续延伸7分钟,得到PCR产物,用0.8%的琼脂糖 凝胶电泳检测PCR产物的大小及其特异性;合并6管long PCR产物,并用 Promega公司的Wizard PCR Preps纯化
试剂盒纯化PCR产物;
(3)构建O-抗原基因簇文库:用被
修改的Novagen DNaseI Shot Gun法 构建O-抗原基因簇文库;反应体系是300ng PCR纯化产物,0.9ul 0.1M MnCl2, 1ul 1∶2000稀释的1mg/ml的DNaseI,反应在室温中进行;酶切10分钟使DNA
片段大小集中在1kb-3kb之间,而后加入2ul 0.1M EDTA终止反应;合并4 管同样的反应体系,用等体积的酚抽提一次,用等体积的酚∶氯仿∶异戊醇 (25∶24∶1)溶液抽提一次,再用等体积的乙醚抽提一次后,用2.5倍体 积的无水乙醇沉淀DNA,并用70%乙醇洗沉淀,最后重悬于18ul水中。随后 在此混合物中加入2.5ul dNTP(1mMdCTP,1mMdGTP,1mMdTTP,10mMdATP),1.25 ul 100mM DTT和5单位的T4DNA聚合酶,11℃反应30分钟,将酶切产物补 成平端,75℃终止反应后,加入5单位的Tth DNA聚合酶及其相应的缓冲液 并将体系扩大为80ul,70℃反应20分钟,使DNA的3′端加dA尾;此混合物 经等体积氯仿∶异戊醇(24∶1)溶液抽提和等体积乙醚抽提后与Promega 公司的3×10-3的pGEM-T-Easy载体于16℃连接24小时,总体积为90ul, 其中有9ul的10×buffer和25单位的T4DNA连接酶;最后用1/10体积的3M NaAc(pH5.2)和2倍体积的无水乙醇沉淀连接混合物,再用70%乙醇洗沉淀, 干燥后溶于30ul水中得到连接产物;
(4)对文库中的克隆测序:从文库中挑选插入片段在750b以上的120 个克隆由上海
生物工程有限公司用ABI377型DNA自动测序仪对克隆中的插 入片段进行单向测序,使序列达到80%的
覆盖率,再通过将相联系的序列进 行反向测序及测通得到剩余20%的序列,从而获得O-抗原基因簇的所有序列。
(5)核苷酸序列的拼接及分析:用英国剑桥MRC(Medical Research Council)分子生物学实验室出版的Staden package
软件包的Pregap4和Gap4 软件拼接和编辑所有的序列,从而得到大肠杆菌O52的O-抗原基因簇的核苷 酸全长序列,序列的
质量主要由两个方面来保证:1)对大肠杆菌O52的基 因组作6个Long PCR反应,然后混合这些产物以产生文库。2)对每个碱基, 保证3个以上高质量的覆盖率;在得到大肠杆菌O52的O-抗原基因簇的核 苷酸序列后,用美国国家生物技术信息学中心(The National Center for Biotechnology Information,NCBI)的orffinder发现基因,找到16个开 放的阅读框,用blast系列软件与GenBank中的基因比较以发现这些开放的 阅读框的功能并确定它们是什么基因,再用英国sanger中心的Artemis软 件完成基因注释,用Clustral W软件做DNA和
蛋白质序列间的精确比对,最 后得到大肠杆菌O52的O-抗原基因簇的结构;
(6)特异基因的筛选:针对大肠杆菌O52的O-抗原基因簇中的ABC转 运系统基因(包括wzm、wzt基因)和糖基转移酶基因(包括orf5、orf14、orf15、 orf16基因)设计引物;在每个基因内各设计了三对引物,每对引物分布在相 应基因内的不同地方以确保其特异性;用这些引物以表2中所列的166株大 肠杆菌和43株志贺氏菌的基因组为模板进行PCR,所有引物都在大肠杆菌O52 中得到阳性结果;其中,源于wzt基因的三对引物被发现除了在大肠杆菌O52 中得到了预期大小的正确的一条带外,在第24、26、27组中也都得到同样 大小的特异性带。以第24、26、27组中的每个菌的基因组DNA做模板PCR 后,发现在痢疾志贺氏菌8型、所有弗氏志贺氏菌、所有宋内志贺氏菌中都 得到了阳性结果;此外在第8组的大肠杆菌O43中也得到阳性结果;所以wzt 基因对大肠杆菌O52并不是特异的;而源于orf5、wzm、orf14、orf15、or16 基因的每对引物除了在大肠杆菌O52中得到预期大小的正确的PCR产物带 外,在表2中所列的其他基因组中都没有扩增到大小正确的带。也就是说, 在大多数组中没有得到任何PCR产物带,虽然在少数组中得到PCR产物带, 但其大小不符合预期大小,所以orf5、wzm、orf14、orf15、or16基因对大 肠杆菌O52及其O-抗原都是高度特异的。
也就是,本发明的第一个方面,提供了大肠杆菌O52的O-抗原基因簇的 全长核苷酸序列,它的全序列如SEQ ID NO:1所示,全长18900个碱基;或 者具有一个或多个插入、缺失或取代的碱基,同时保持所述分离的核苷酸功 能的SEQ ID NO:1的核苷酸。通过本发明的方法得到了大肠杆菌O52的O-抗 原基因簇的结构,如表3所述,它总共由16个基因组成,都位于galF基因 和gnd基因之间。
本发明的第二个方面,提供了大肠杆菌O52的O-抗原基因簇中的基因, 即ABC转运系统的基因,包括wzm、wzt基因;糖基转移酶基因,包括orf5、 orf14、orf15、orf16基因;细菌多糖抗原中特殊的糖合成路径基因,包括 rmlB、rmlA、galE、glf、dmhB、dmhA、hddA、gmhA、hddC、gmhB基因。它 们在O-抗原基因簇中的起始
位置和终止位置及核苷酸序列都列在图2中。 本发明尤其涉及到糖基转移酶基因、ABC转运系统的基因,因为糖合成路径 基因即合成核苷二磷酸单糖的基因现在被预示对较多胞外多糖是常见的、共 同的,对细菌的O-抗原并不是很特异的,而本发明涉及到的糖基转移酶基因、 ABC转运系统的基因对大肠杆菌O52的O-抗原是高度特异的。
本发明的第三个方面,提供了源于大肠杆菌O52的O-抗原基因簇中的ABC 转运系统的wzm基因和糖基转移酶基因,包括orf5、orf14、orf15、orf16 基因的寡核苷酸,它们是这些基因中的任何一段寡核苷酸。但是,优先被用 的是列于表1中的寡核苷酸对,在表1中也列出了这些寡核苷酸对在O-抗 原基因簇中的位置及以这些寡核苷酸对为引物所做的PCR反应的产物的大 小,这些PCR反应可用表1中的退火
温度进行。用这些引物以表2中所列的 166株大肠杆菌和43株志贺氏菌的基因组为模板进行PCR,所有引物都在大 肠杆菌O52中得到阳性结果即得到预期大小的正确的PCR产物带。其中,源 于wzt的三对引物被发现在大肠杆菌O43、痢疾志贺氏菌8型、弗氏志贺氏 菌、宋内志贺氏菌中也得到阳性结果。所以源于wzt的三对引物及wzt基因 对大肠杆菌O52并不是特异的,因此源于wzt的三对引物没有被列于表1中。 而源于orf5、wzm、orf14、orf15、or16基因的每对引物除了在大肠杆菌O52 中得到预期大小的正确的PCR产物带外,在表2中所列的其他基因组中都没 有扩增到大小正确的带。也就是说,在大多数组中没有得到任何PCR产物带, 虽然在少数组中得到PCR产物带,但其大小不符合预期大小,所以源于orf5、 wzm、orf14、orf15、or16基因的寡核苷酸对大肠杆菌O52及其O-抗原都是 高度特异的。更详细地说,以这些寡核苷酸对为引物所做的PCR反应在大多 数细菌中均未得到任何产物,虽然在有些菌中得到了PCR产物带,但其大小 不符合预期大小,这是由于引物结合到基因组的别的位置造成,这种问题可 通过用基因内的其它引物做PCR来避免。所以,可以确定这些引物即表1所 列的寡核苷酸对大肠杆菌O52及它的O-抗原是高度特异的。
所述的对大肠杆菌O52的O-抗原特异的核苷酸的分离方法包括下述步 骤:1)基因组的提取;2)PCR扩增大肠杆菌O52中的O-抗原基因簇;3)O- 抗原基因簇文库的构建;4)对文库中的克隆测序;5)核苷酸序列的拼接及 分析,最终获得O-抗原基因簇的结构;6)特异基因的筛选。
本发明的其他方面由于本文的技术的公开,对本领域的技术人员而言是 显而易见的。
如本发明所用,“寡核苷酸”主要是指来源于O-抗原基因簇中的编码糖 基转移酶的基因、编码转运酶的基因和编码聚合酶的基因内的一段核苷酸分 子,它们在长度上可改变,一般在10到20个核苷酸范围内改变。更确切的 说这些寡核苷酸是源于orf5基因(核苷酸位置是从SEQ ID NO:1的5239至6093 碱基),wzm基因(核苷酸位置是从SEQ ID NO:1的6095至6868碱基),orf14 基因(核苷酸位置是从SEQ ID NO:1的12608至13936碱基),orf15基因(核 苷酸位置是从SEQ ID NO:1的13929至16088碱基),orf16基因(核苷酸位 置是从SEQ ID NO:1的16244至17389碱基的核苷酸)。源于以上基因内的 寡核苷酸对大肠杆菌O52是高度特异的。
此外,有时两个遗传相似的编码不同O-抗原的基因簇通过基因重组或突 变产生新的O-抗原,从而产生新的细菌类型,新的突变株。在这种环境中, 需要筛选出多对寡核苷酸同重组基因杂交以提高检测的特异性。因此,本发 明提供了一整套多对寡核苷酸的混合物,它们源于糖基转移酶基因;源于ABC 转运系统的wzm基因;也源于糖合成路径基因。这些基因的混合物对一个特 殊的细菌多糖抗原来说是特异的,从而使这套寡核苷酸对这个细菌的多糖抗 原是特异的。更具体地说,这些寡核苷酸的混合物是源于糖基转移酶基因、 源于ABC转运系统的基因中的寡核苷酸与源于糖合成路径基因中的寡核苷酸 的组合。
在另一方面,本发明涉及寡核苷酸的鉴定,它们可以用于检测表达O-抗 原的细菌和在诊断中鉴定细菌的O-抗原。
本发明涉及到一种检测食品中的一个或多个细菌多糖抗原的方法,这些 抗原可以使样品能与以下至少一个基因的寡核苷酸特异性杂交,这些基因 是:(i)编码糖基转移酶的基因(ii)编码源于ABC转运系统的wzm基因。 在条件
许可的情况下至少一个寡核苷酸能与至少一个表达特殊的O-抗原的细 菌的一个以上的那样的基因特异性杂交,这些细菌是大肠杆菌O52。可用PCR 方法检测,更可以将本发明方法中的核苷酸标记后作为探针通过杂交反应如 southern-blot或荧光检测,或者通过基因芯片或微阵列检测样品中的抗原 及细菌。
本发明者考虑到以下情况:当单个的特异的寡核苷酸检测无效时,寡核 苷酸的混合物能与靶区域特异性杂交以检测样品。因此本发明提供了一套寡 核苷酸用于本发明所述的检测方法。这里所说的寡核苷酸是指源于编码糖基 转移酶的基因、编码ABC转运系统的wzm基因的寡核苷酸。这套寡核苷酸对 一个特殊的细菌的O-抗原来说是特异的,这一特殊的细菌O-抗原是由大肠 杆菌O52表达的。
另一方面,本发明涉及到一种检测
排泄物中的一个或多个细菌多糖抗原 的方法,这些抗原可以使样品能与以下至少一个基因的寡核苷酸特异性杂 交,这些基因是:(i)编码糖基转移酶的基因(ii)编码源于ABC转运系统 的wzm基因。在条件许可的情况下至少一个寡核苷酸能与至少一个表达特殊 的O-抗原的细菌的一个以上的那样的基因特异性杂交。这些细菌是大肠杆菌 O52。可用本发明中的寡核苷酸作引物通过PCR的方法检测样品,也可将本 发明中的寡核苷酸分子标记后作为探针通过杂交反应如southern-blot或荧 光检测,或者通过基因芯片或微阵列检测样品中的抗原及细菌。
一般,一对寡核苷酸可能与同样的基因杂交也可与不同的基因杂交,但 它们中必须有一个寡核苷酸能特异性杂交到特殊抗
原型的特异序列上,另一 个寡核苷酸可杂交于非特异性区域。因此,当特殊的多糖抗原基因簇中的寡 核苷酸被重新组合时,至少能选出一对寡核苷酸与多糖抗原基因簇中特异基 因混合物杂交,或者选出多对寡核苷酸与特异基因的混合物杂交。甚至即使 当一个特殊的基因簇中所有基因都独一无二时,此方法也能应用于识别此基 因簇内的基因混合物的核苷酸分子。因此本发明提供了一整套用于检测本发 明方法的多对寡核苷酸,在这里多对寡核苷酸是源于编码糖基转移酶的基 因、编码ABC转运系统的wzm基因,这套寡核苷酸对一个特殊的细菌多糖来 说是特异的,这套寡核苷酸可能是糖合成中必须基因的核苷酸。
另一方面,本发明也涉及到一种检测源于病人的样品中的一个或多个细 菌多糖抗原的方法。样品中的一个或多个细菌多糖抗原可以使样品能与以下 至少一个基因中的一对寡核苷酸中的一个特异性杂交,这些基因是:(i)编 码糖基转移酶的基因(ii)源于ABC转运系统的wzm基因。在条件许可的情 况下至少一个寡核苷酸能与样品中的至少一个表达特殊的O-抗原的细菌的一 个以上的那样的基因特异性杂交,这些细菌是大肠杆菌O52。可用本发明中 的寡核苷酸作引物通过PCR的方法检测样品,也可将本发明中的寡核苷酸标 记后作为探针通过杂交反应,或者通过基因芯片或微阵列检测样品中的抗原 及细菌。
更详细地说,以上描述的方法可以理解为当寡核苷酸对被使用时,其中 的一个寡核苷酸分子能杂交到一个并不是来源于糖基转移酶基因和源于ABC 转运系统的wzm基因的序列上。此外,当两个寡核苷酸都能杂交上时,它们 可能杂交于同一基因也可能杂交到不同基因上。也即,当交叉反应出现问题 时,可选择寡核苷酸的混合物来检测混合的基因以提供检测的特异性。
本发明者相信本发明不必限于以上所提的核苷酸序列编码的特定的O-抗 原,而且广泛应用于检测所有表达O-抗原和鉴定O-抗原的细菌。而且,由 于O-抗原合成和其他多糖抗原(如细菌胞外抗原)合成之间的相似性,发明 者相信本发明的方法和分子也应用于这些其他的多糖抗原。
本发明首次公开了大肠杆菌O52的O-抗原基因簇的全长序列,而且可从 这个未被克隆的全长基因簇的序列中产生重组分子,通过插入表达可产生表 达大肠杆菌O52的O-抗原,并成为有用的疫苗。
下面结合具体
实施例,进一步阐述本发明。应理解这些实施例仅用于说 明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验 方法,通常按照常规条件如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring Harbor Laboratory Press,1989)中所述的条件。
实施例1:基因组的提取,在5mL的LB培养基中37℃过夜培养志贺氏菌, 离心收集细胞。用500ul 50mM Tris-HCl(pH8.0)和10ul 0.4M EDTA重悬细 胞,37℃温育20分钟,然后加入10ul 10mg/ml的溶菌酶继续保温20分钟。 之后加入3ul 20mg/ml的蛋白酶K、15ul 10%SDS,50℃温育2小时,再加入 3ul 10mg/ml的RNase,65℃温育30分钟。加等体积酚抽提混合物,取上 清再用等体积的酚∶氯仿∶异戊醇(25∶24∶1)混合溶液抽提两次,取上 清液,再用等体积的乙醚抽提以除去残余的酚。上清液用2倍体积乙醇沉淀 DNA,用玻璃丝卷出DNA并用70%乙醇洗DNA,最后将DNA重悬于30ul TE中。 基因组DNA通过0.4%的琼脂糖凝胶电泳检测。
实施例2:通过PCR扩增大肠杆菌O52中的O-抗原基因簇,大肠杆菌O52 的O-抗原基因簇通过Long PCR扩增。首先根据经常发现于O-抗原基因簇启 动子区的JumpStart序列设计上游引物(#1523-ATT GTG GCT GCA GGG ATC AAA GAA AT),再根据O-抗原基因簇下游的gnd基因设计下游引物(#1524-TAG TCG CGT GNG CCT GGA TTA AGT TCG C)。用Boehringer Mannheim公司的Expand Long Template PCR方法扩增O-抗原基因簇,PCR反应程序如下:在94℃预变性 2分钟;然后94℃变性10秒,60℃退火30秒,68℃延伸15分钟,这样进行 30个循环。最后,在68℃继续延伸7分钟,得到PCR产物,用0.8%的琼脂糖 凝胶电泳检测PCR产物的大小及其特异性。合并6管long PCR产物,并用 Promega公司的Wizard PCR Preps纯化试剂盒纯化PCR产物。
实施例3:O-抗原基因簇文库的构建,用被修改的Novagen DNaseI shot gun法构建O-抗原基因簇文库。反应体系是300ng PCR纯化产物,0.9ul 0.1M MnCl2,1ul 1∶2000稀释的1mg/ml的DNaseI,反应在室温中进行。酶切10 分钟使DNA片段大小集中在1kb-3kb之间,而后加入2ul 0.1M EDTA终止反 应。合并4管同样的反应体系,用等体积的酚抽提一次,用等体积的酚∶氯 仿∶异戊醇(25∶24∶1)溶液抽提一次,再用等体积的乙醚抽提一次后, 用2.5倍体积的无水乙醇沉淀DNA,并用70%乙醇洗沉淀,最后重悬于18ul 水中。随后在此混合物中加入2.5ul dNTP(1mMdCTP,1mMdGTP,1mMdTTP, 10mMdATP),1.25ul 100mM DTT和5单位的T4DNA聚合酶,11℃反应30分 钟,将酶切产物补成平端,75℃终止反应后,加入5单位的Tth DNA聚合酶 及其相应的缓冲液并将体系扩大为80ul,70℃反应20分钟,使DNA的3′端 加dA尾。此混合物经等体积氯仿∶异戊醇(24∶1)溶液抽提和等体积乙醚 抽提后与Promega公司的3×10-3的pGEM-T-Easy载体于16℃连接24小时, 总体积为90ul。其中有9ul的10×buffer和25单位的T4DNA连接酶。最后 用1/10体积的3M NaAc(pH5.2)和2倍体积的无水乙醇沉淀连接混合物, 再用70%乙醇洗沉淀,干燥后溶于30ul水中得到连接产物。
实施例4:感受态细胞的制备,参照Bio-Rad公司提供的方法制备感受态 细胞大肠杆菌DH5□。取一环大肠杆菌DH5□单菌落于5ml的LB培养基中,180 rpm培养10小时后,取2ml培养物转接到200ml的LB培养基中,37℃250rpm 剧烈振荡培养到OD600 0.5左右,然后
冰浴冷却20分钟,于4℃4000rpm离 心15分钟。倾尽上清,用冷的冰预冷的去离子灭菌水200ml吹散菌体,于4 ℃4000rpm离心15分钟。再用冷的冰预冷的去离子灭菌水100ml吹散菌体, 于4℃4000rpm离心15分钟。用冷的冰预冷的10%的甘油悬浮细胞,4℃ 6000rpm离心10分钟,弃上清液,最后沉淀用1ml冰预冷的10%的甘油悬浮 细胞,即为感受态细胞。将制得的感受态细胞分装为50ul一管,-70℃保存。
实施例5:电转化感受态细胞,取2-3ul连接产物与50ul感受态大肠杆 菌DH5□混合后,转到Bio-Rad公司的0.2cm的电击杯中电击,
电压为2.5 千伏,时间为5.0毫秒-6.0毫秒。电击后立即在杯中加入1ml的SOC培养基 使菌复苏。然后立即将菌涂在含有
氨苄青霉素、X-Gal和IPTG的LB固体培 养基上37℃倒置过夜培养,次日得到蓝白菌落。将得到的白色菌落即白色克 隆转到含有氨苄青霉素的LB固体培养基上培养,同时从每个克隆中提取质 粒并用EcoR I酶切鉴定其中的插入片段的大小,得到的白色克隆群构成了 大肠杆菌O52的O-抗原基因簇文库。
实施例6:对文库中的克隆测序,从文库中挑选插入片段在750b以上的 120个克隆由上海生物工程有限公司用ABI377型DNA自动测序仪对克隆中的 插入片段单向进行测序,使序列达到80%的覆盖率。剩余20%的序列再进行 反向测序及测通,从而获得O-抗原基因簇的所有序列。
实施例7:核苷酸序列的拼接及分析,用英国剑桥MRC(Medical Research Council)分子生物学实验室出版的Staden package
软件包的Pregap4和Gap4 软件拼接和编辑所有的序列,从而得到大肠杆菌O52的O-抗原基因簇的核苷 酸全长序列(见序列列表)。序列的质量主要由两个方面来保证:1)对大肠 杆菌O52的基因组作6个Long PCR反应,然后混合这些产物以产生文库。2) 对每个碱基,保证3个以上高质量的覆盖率。在得到大肠杆菌O52的O-抗原 基因簇的核苷酸序列后,用美国国家生物技术信息学中心(The National Center for Biotechnology Information,NCBI)的orffinder发现基因, 找到16个开放的阅读框,用blast系列软件与GenBank中的基因比较以发 现这些开放的阅读框的功能并确定它们是什么基因,再用英国sanger中心 的Artemis软件完成基因注释,用Clustral W软件做DNA和蛋白质序列间 的精确比对,最后得到大肠杆菌O52的O-抗原基因簇的结构(见图1)。
通过检索和比较,发现orf1与Escherichia coli的rmlB基因在297 个氨基酸的序列中有97%的相同性,表明它们之间有高度的同源性。所以可 以确定orf1是rmlB基因。orf2与Vibrio cholerae的rmlA基因在289 个氨基酸的序列中有82%的相同性,表明它们之间有高度的同源性。所以, 可以确定orf2是rmlA基因。orf3与Thermotoga maritima的gaiE基因 在316个氨基酸的序列中有30%的相同性,表明它们之间有高度的同源性。 所以,可以确定orf3是gaiE基因。orf4与Klebsiella pneumoniae的glf 基因在375个氨基酸的序列中都有60%的相同性,表明它们之间也有高度的 同源性。此外它与其他菌的glf基因的序列也表现出较高的相同性。所以, 可以确定orf4是glf基因。以上四个基因都属于糖合成路径基因。orf5 与Salmonella typhimurium LT2的糖基转移酶在266个氨基酸的序列中有 28%的相同性,47%的相似性,这个糖基转移酶属于糖基转移酶家族2 (Glycos_transf_2 pfam00535),orf5也与Streptococcus pneumoniae推 测的鼠李糖的糖基转移酶在279个氨基酸的序列中有24%的相同性,45%的相 似性,所以orf5也是一个糖基转移酶基因,命名为orf5。orf6与Bacillus halodurans的ABC转运子的转位酶在233个氨基酸中有31%的相同性,与 Klebsiella pneumoniae的整合到膜上的O-抗原转位蛋白在241个氨基酸中 有26%的相同性,也与Escherichia coli的ABC转运子的整合的膜蛋白在236 个氨基酸中有25%的相同性,这个膜蛋白由wzm基因编码,所以确定orf6是ABC转运 子的转位酶基因,命名为wzm。orf7与Actinobacillus actinomycetemcomitans的转运蛋白TagH在202个氨基酸中有44%的相同性, 这个蛋白是ABC转运系统中结合ATP的亚单位,是转运多糖的具有ATP酶活 性的蛋白。orf7也与Klebsiella pneumoniae的ABC转运系统中的转运蛋 白在219个氨基酸中有42%的相同性,所以确定orf7是ABC转运系统中结 合ATP的具有ATP酶活性的转运蛋白,命名为wzt。Orf8与Yersinia pseudotuberculosis的DmhB在276个氨基酸序列中有63%的相同性;orf9 与Yersinia pseudotuberculosis中的DmhA在342个氨基酸序列中有91% 的相同性;orf10与Yersinia pseudotuberculosis中的HddA在342个氨 基酸序列中有85%的相同性;orf11与Yersinia pseudotuberculosis中的 GmhA在195个氨基酸序列中有85%的相同性;orf12与Yersinia pseudotuberculosis中的HddC在225个氨基酸序列中有71%的相同性;orf13 与Yersinia pseudotuberculosis中的GmhB在176个氨基酸序列中有62% 的相同性。而在Yersinia pseudotuberculosis中,orf8、orf9、orf10、 orf11、orf12和orf13这五个基因编码的酶是负责合成6-脱
氧-D-甘露己 糖(6d-Hepp)的。因此分别将orf8、orf9、orf10、orf11、orf12、orf13 命名为dmhB、dmhA、hddA、gmhA、hddC、gmhB。虽然大肠杆菌O52的O-抗 原结构未知,但从我们的试验可以推测在大肠杆菌O52的O-抗原结构中也含 有6-脱氧-D-甘露己糖。orf14与Agrobacterium tumefaciens str.C58 的一个糖基转移酶在240个氨基酸序列中有27%的相同性,48%的相似性。 这个糖基转移酶属于糖基转移酶家族1(pfam00534,Glycos_transf_1),可 以确定orf14是一个糖基转移酶基因,命名为orf14。orf15与Campylobacter jejuni的一个糖基转移酶在282个氨基酸序列中有28%的相同性,48%的相 似性。这个糖基转移酶属于糖基转移酶家族2(pfam00535,Glycos_transf_2), 可以确定orf15也是一个糖基转移酶基因,命名为orf15。orf16与Serratia marcescens的rfbF基因编码的蛋白在371个氨基酸序列中有44%的相同性, 67%的相似性;与Klebsiella pneumoniae的888基因编码的蛋白在370个 氨基酸中有45%的相同性,65%的相似性。而这两个蛋白都是半乳糖转移酶, 所以可以确定orf16也是一个糖基转移酶,命名为orf16。从以上分析可知, 大肠杆菌O52的O-抗原基因簇由16个基因组成,它们都位于galF基因和gnd 基因之间,且具有同样的转录方向。
实施例8:特异基因的筛选,针对大肠杆菌O52的O-抗原基因簇中的 orf5、wzm、orf14、orf15、or16基因设计引物,这些基因在核苷酸序列中的 位置见表1。
表1列出了大肠杆菌O52的O抗原基因簇中糖基转移酶基因和ABC转运 系统的wzm基因及基因内的引物及PCR数据。在表中列出了大肠杆菌O52的 O抗原基因簇的糖基转移酶基因、wzm基因及它们的相应的功能和大小。在 每个基因内,我们各设计了三对引物,每对引物分布在相应基因内的不同地 方以确保其特异性。在表中还列出了每个引物在SEQ ID NO:1中的位置和大 小。以每对引物用表1中所列的相应的退火温度以表2中的所有菌的基因组 为模板进行PCR,得到了相应的PCR产物,其大小也列于表中。
mdh(mala te dehydrogenase)基因是存在于所有的大肠杆菌的基因组中 且高度保守的一个基因,所以我们根据mdh基因设计了引物#101(-TTC ATC CTA AAC TCC TTA TT)和#102(-TAA TCG CAG GGG AAA GCA GG),然后从166株 大肠杆菌中提取基因组,方法如前所述。用这对引物从166株大肠杆菌的基 因组中PCR以鉴定大肠杆菌并检测其基因组的质量。
表2是用于筛选特异基因的166株大肠杆菌和43株志贺氏菌及它们的 来源,为了检测的方便,我们将它们每8-10个菌分为一组,总共27组,它 们的来源都列于表中。
在第8组中含有大肠杆菌O52的基因组DNA作为阳性对照。以每组菌做 模板,用表1中的每对引物按如下条件做PCR:在94℃预变性2分钟后,94 ℃变性15秒,退火温度因引物的不同而不同(参照表1),退火时间是50 秒,72℃延伸2分钟,这样进行30个循环。最后在72℃继续延伸10分钟, 反应体系是25ul。反应完毕后,取10ulPCR产物通过0.8%琼脂糖凝胶电泳 检测扩增出的片段。
对于orf5、wzm、wzt、orf14、orf15、or16基因,每个基因都有三对 引物被检测。其中,源于wzt的三对引物在用表2中所列的基因组为模板PCR 后,发现除了在大肠杆菌O52中得到了预期大小的正确的一条带外,在第24、 26、27组中也都得到同样大小的特异性带。以第24、26、27组中的每个菌 的基因组DNA做模板PCR后,发现在痢疾志贺氏菌8型、所有弗氏志贺氏菌、 所有宋内志贺氏菌中都得到了阳性结果;此外在第8组的大肠杆菌O43中也 得到阳性结果。所以wzt基因对大肠杆菌O52并不是特异的。而源于orf5、 wzm、orf14、orf15、or16基因的每对引物除了在大肠杆菌O52中得到预期 大小的正确的PCR产物带外,在表2中所列的其他基因组中都没有扩增到大 小正确的带。也就是说,在大多数组中没有得到任何PCR产物带,虽然在少 数组中得到PCR产物带,但其大小不符合预期大小,所以orf5、wzm、orf14、 orf15、or16基因对大肠杆菌O52及其O-抗原都是高度特异的。
最后,通过PCR从大肠杆菌O52中筛选到对大肠杆菌O52的O-抗原高度 特异的基因:orf5、wzm、orf14、orf15、or16基因。这些基因内的任何一 段10-20nt的寡核苷酸对大肠杆菌O52的O-抗原是特异的,尤其是上述每个 基因中的引物即寡核苷酸对经PCR检测后证实对大肠杆菌O52是高度特异 的。所有这些寡核苷酸都可用于快速准确地检测人体和环境中的大肠杆菌 O52,并能鉴定它们的O-抗原。
表3是大肠杆菌O52的O-抗原基因簇的结构表,在表中列出了大肠杆菌 O52的O-抗原基因簇的结构,共由16个基因组成,每个基因用方框表示, 并在方框内写入基因的名称,数字表示的是O-抗原基因簇中的开放阅读框 (orf)的顺序。在O-抗原基因簇的两端是galF基因和gnd基因,它们不属 于O-抗原基因簇,我们只是用它们的一段序列设计引物来扩增O-抗原基因 簇的全长序列。
表4是大肠杆菌O52的O-抗原基因簇中的基因的位置表,在表中列出了 大肠杆菌O52的O-抗原基因簇中的所有开放阅读框在全序列中的准确位置, 在每个开放阅读框的起始密码子和终止密码子的下面划线。在细菌中开放阅 读框的起始密码子有两个:ATG和GTG。
序列列表
SEQUENCE LISTING <110>南开大学
<120>对大肠杆菌O52的O-抗原特异的核苷酸
<160>1
<170>PatentIn version 3.1
<210>1
<211> 18900
<212>DNA
<213>Escherichia coli
<400>1
attgtggctg cagggatcaa agaaatcgtt ctggtcacac acgcatcgaa aaactcggtg 60
gaaaaccact tcgatacctc gtatgaactg gaagcactgc ttgagcagcg cgtgaagcgt 120
cagctgctgg ctgaagttca atctatctgt cctcctggcg tgaccatcat gaacgttcgc 180
caggcgcagc cgttgggcct gggacactct atcctgtgcg cacatccgat tgtcggcgat 240
aacccgtttg tggttgtgtt gccggatatc gtgctggaca acgcaagcgc cgacccgctg 300
cgctacaacc ttgccgccat ggtagcgcgt ttcaacgaaa ccgggcgtag ccaggtgctg 360
gcgaaacgta tgccgggcga cctgtctgaa tactccgtca tcaaaacgaa agagccgctg 420
gatgtcgaag gtaaagttag ccgtatcgtt gattttatcg aaaaacctga ccagccgcag 480
acgctggaat ccgatctgat ggccgtaggc cgctatgtac tttccgctga tatctggcct 540
gaactggcga agaccgtgcc gggggcgtgg ggccgaattc aactgacgga tgcgatcgcc 600
gaactggcga ataagcagtc tgttgacgcg atgctgatga cgggtgagag ctacgactgc 660
gggaagaaga tggggtatat gcaggcgttt gtgcagtatg ggttgcgcaa cctgaaggaa 720
ggggctaaga tcaggaaaag tattgaaaag ttgttatctt aagtcgtttc tcagtaaacg 780
ataaagcaaa tttaagaacg gcgttttaga acggcagatg ggcataagta tgtagggtaa 840
cctactacta gcttcactgc ctttttattt cataaaacaa agtaaaaaat aacaataggt 900
tagaaatgta ggcgttgcat atcgtttata agatttttcc ttgagttcaa atgcatttaa 960
gacgaaaata gttgccgaaa ttttttgggt ttgcaggtgg gagtcgttgc ggatttttgc 1020
cttgacataa atgattttta tcattgaagg tgcagtgcgc tggtagctgg agagccaggg 1080
gcggtagcgt gtctaatcat aagtgtcttt tataatattc agattgttct taacaaacat 1140
tcatattatc aagccataag ttataagtca tagcggaaat tcaaagtgaa aatactggtt 1200
acaggtggtg caggttttat tgggtctgca gttgttcgtc atataattaa taatacgcaa 1260
gactctgtca tcaatgttga taaacttacc tatgcaggta atttggaatc tctgacagag 1320
attgagaata acgagcggta taaatttgag catgcggata tttgcgacag cgttgcaata 1380
gccaatattt ttgcacatca ccaaccagat gcaataatgc atttggcagc cgaaagccac 1440
gttgatcgtt caatcacagg ccctgcagac tttattgaaa ccaatattgt tggaacatat 1500
atcttactag aagaagctcg taagtattgg ctagcactta gtgaagatcg caaaggtgca 1560
tttcgcttcc accatatttc tacggatgag gtttatggtg accttcctca tccggatgaa 1620
gtatcgtcag atacaatatt gccattgttt acagaacaaa cttcatattc ccctagcagt 1680
ccatattccg cctctaaggc atccagtgat cacttagttc gtgcatggcg gcgtacatat 1740
ggattaccca ccatagtgac aaattgttct aataattatg ggccgtacca tttccctgaa 1800
aaactcattc cgttaattat tctgaatgca attgcgggta aacttttacc tgtttatggg 1860
aacggtgagc aaattcgaga ttggttatat gttgaagatc atgcccgggc actttatgaa 1920
gtcgtcacaa agggtgtgcc gggagaaaca tataatattg gtggtcataa cgaacgtaaa 1980
aatatcgatg tagtgaaaac tatttgtcgc attctcgatg aattgattgc agataaacca 2040
gatggcattg aaaattttga acagttgatt cggtatgtta gcgatcgtcc agggcatgac 2100
cttagatatg ccattgacgc cagtaaaatt aaacaagatt taggttgggt gccgcaagaa 2160
acgtttgaaa cgggtatcac taaaaccatt cactggtatt taaataataa agaatggtgg 2220
cagcgtgtga tggatggttc gtacgctggt gaacgcttag ggctcgtaga gtagtaagga 2280
taaaagatga aaggtattat tttagcaggc ggctctggca ctagattgta tccaataact 2340
cgtggtgtat caaaacaact attaccaatc tatgataaac caatgattta ttacccgctt 2400
tccacactta tgctagcggg tattcaagat atattaataa taaccactga agaagataat 2460 gcgagtttcc agcggttact cggtgatggc agtaattttg gtattcggct taattatgcc 2520 gtgcaaccca gccctgatgg attagcgcag gcattcctca ttggtgagaa atttatagga 2580 aacgataaag tttgtttggt gctgggtgat aatatttttt atggccaatc atttatcaaa 2640 atcctgcaga atgctgttgc aagagaatac ggtgcaacag tatttggtta tcaagtgaaa 2700 gaccctgaac gcttcggtgt agttgaattt gatagcgaga tgcgggctgt atctattgaa 2760 gaaaaaccgt caaaaccaaa atcaaattat gcagtcactg gactttactt ctatgataat 2820 cgcgttatcg atttcgctaa aaaagttaaa ccttcagtga gaggggagct ggagattact 2880 gatcttaatg acatgtatct caaagaaggt actcttaacg tagagctact ggggcgtggt 2940 tttgcttggt tggatacagg gacccacgaa agtttgcatg aagcgtcatc cttcgtgcaa 3000 accatccaga atgttcaggg cctcaaggtt gcatgtcttg aagagattgc attaagaaat 3060 ggttggttaa gcaaagaaga agcaataaaa aatgcactac ctatgaagaa aaatgattat 3120 ggtcaataca ttatagcacg tgcaaaaggt gaatgatgga tgctagaaaa aatggagtcc 3180 tgattacagg cggtgctggg tttataggta aagcattgat caccgaaatg gtcgaaaggc 3240 agatcccact agtgtcgttc gatatttcgg ataaaccaga ctcgttgcct gagctaagtg 3300 aatattttaa ctggtataaa tttagctacc tcgaatcttc tcagcgtata aaagaactgc 3360 atgagatagt tagccgccac aatattaaga cagttattca tttggcaaca actatgtttc 3420 cacatgaatc gaaaaaaaat atcgataaag attgtctgga aaatgtttat gcgaatgtct 3480 gttttttcaa aaacctatat gaaaatggtt gtgagaaaat tatatttgca tcatcgggtg 3540 gcactgttta cggaaaatcc gatacaccat tttctgaaga tgatgcactt ttaccagaga 3600 tcagttatgg cttaagcaaa gttatgactg agacatactt acgatttatt gctaaagaac 3660 tcaatggtaa atccatatca ttgcggatct caaatcctta tggagaaggg cagagaatag 3720 atggtaagca aggtgtaata ccaatatttt taaataaaat ctcaaatgat attccaattg 3780 atattattgg ttcaattgag agtaaaagag attatattta tataagtgat cttgtacaag 3840 ccttcatgtg ttcattagaa tatgaaggac atgaagatat ttttaacata ggttctggag 3900 aatctattac gttaaaaaaa cttattgaaa ctatcgaatt taaattgaat aaaaaggcag 3960 taatcggttt tcaagatcct atccatacca atgctaacgg aattatttta gatattaagc 4020 gagctatggc tgagttagga tggcgtccga cggttgtact cgatgatggc attgataaat 4080 taataaaatc aattaggtgt aagtaattat gaataaggtc cttatcattg gtagtggatt 4140 tagcggtgca acaatagcaa gactgttggc tgaagagaat attaaagtaa agataataga 4200 cgacagaaag catattggtg gtaactgcta tgatgagcgg gatgagaaaa caggcattaa 4260 tgtccacgtt tatggaccgc atattttcca tacggataat gaagatgtat ggaattttgt 4320 gaataaatat gggacattcc agccatatac aacgaggctt aaagcgaatg caaaaggcca 4380 gatttattcg ttacctgtaa atcttcatac aattaatcaa tactataaaa cagcattgtc 4440 tcctactgaa gccaggaaac tgattgcgag caaaggtgat cagacaatta atgatcctca 4500 gtcttttgaa gaacaagctt taaaatttgt tggtgaagat ttatacaaaa cattctttta 4560 tggctatcct aaaaaacagt ggggtatgga gccaaaggaa ataccagcat ctgtattaaa 4620 gcgtctccca gtacgtttta actatgatga taactatttt ttccataaat tccagggcat 4680 acctcgtgat ggctacacac cattatttca aaatttactg aaccacccaa atatagagtt 4740 tgaattagga aagaaagtaa atagagcaac tgttgaagaa ttaatcacct ccgagcaata 4800 cggacatgta tttttctctg gagcgattga tcatttctac gactatgaat ttggcatgtt 4860 gcaatatcgt acgctggatt ttgaaaagtt ttacagcgaa gacgatgatt atcagggttg 4920 tgttgtaatg tcttattgtg atgaagatgt tccttatacc cgcgtaacgg aacataaata 4980 tttcacgcca tgggaagagc ataaaggaag cgtgttatac aaagagttta gtcgtagttg 5040 cgataaagaa gatattccat attatccagt tagacttgtc tctggaaata gcatatggaa 5100 caaatatgaa caaaaggcaa aagaagagac taatataaca ttcatcgggc gtttggctac 5160 atatcgctat ctcgatatgg atgtctgtat taaagaagct attgaatgtg ctcaattgta 5220 tataaagaat aataaagaat gatatatacg gtagtcatgg tctcgtataa tcggacgagc 5280 aagttaaaag aatcgatagt acagctttta gcaacaaata ttaatgaaat tattattgtt 5340 gacaatcatt caggtaaaga aacaagagcc atattagagg aagcctcact tcaggatgaa 5400 cgtgttaaaa tcataaatct tgatgagaat agaggagcat catttggttt cagcattggg 5460 ttgaactacg ttgaagaaaa atatgagcag tctgtgacga ctttcctaga tgatgatgcg 5520 tattttgatc aagtattcct tgataactta aaaatcgaat gtaagcacta tgaatatcga 5580 tttcctttta taacccccaa ggttatcaat aaaaaaggaa tgcgtttaac gatgaatcgg 5640 ccaatgacct gcattcccag gtccttgttc aaagtagtaa aatatttaaa aaatagaaga 5700 cagtttgggg agaaaaatga gcttgtggaa gcagcaagtt ttatagggtt aacgattgtt 5760 aacactgctg atgataaaaa atcattactt atcccgattg attattttat ttattatgat 5820 gatctcacct tcactcatcg attagctaaa aaaaatggtg aactaggtat ttatcttaat 5880 gatctagttg tcatgcatga tattgagggg ggcgtgagga aatatgatgc ctttaggttg 5940 tcatatttac tatcaaacag tattaaattt agcaaagagg ttggtgatac actatatatt 6000 tattctatgt ttattcactg ctatcatttt ttaaattgcc tgaagaattt aaaactgaca 6060 gtctttgtta gagctctatt gagaaaaagg taacatgagt atcatgtcgt taaaaaccct 6120 tgaattggtt tgggttaaag caaagcttaa tctaaaatca gaagcatcaa taaactattt 6180 aagttatgct tggtggatta tcgaaccagt ccttcaaatg gcaatttact atttggtttt 6240 tgcatatctt cttaagcaag gtggtcatga ttacgtccca ttcctgttaa ctggactgat 6300 cccctggata tggtttggtc gcagcgttag tcatgcgcaa gggagtatca ttcaaggaaa 6360 gtacctaatg aatcaggtac atatttctaa gatattcttc cctttgacat ttatattgca 6420 ggatgcgtta aagcagatac ttgtatttat tctgctattt atttttttag tcttgtacgg 6480 ctatgattat actcttggct tgctttggat tattccagtc atttttgttc agctattatt 6540 aatagttgca ttttctttga tagtgtcaat cattgttccc tttgtcagag atttttcatt 6600 tgtaattgaa accggccttc aaattatgat gttttgctca ggtatatttt tcaattacaa 6660 aagtataccg gcgatggaat cgaagatttt cttcattaac ccgatggcag taattcttag 6720 ttcgtaccgt gatgtattga tgtatcataa tgcaccaaat attaagctgc tcgcatatgt 6780 agttctgctt tctttaatta tgatttctat ttcgttgtat gcatttaaga gattagaatt 6840 catcttccca cgagttgttc agaaatgaag aatgaaaaga ttattgagct aaaaaacgta 6900 ggtttagttt atagagaaaa gaaaacactc tttacttacg atgaatatga agctttgaca 6960 aacattacat tcgatgttta tcgtggcgaa actcttggaa taattgggcg taatggagca 7020 gggaaatcta cattactacg agttctggcg ggtattatta agcctgattc tgggcaaata 7080 actattcatt caaacagtat ttctctaatg gcccttcagg caggatttga tcccaactta 7140 tcaggtcgtc agaatactat ctttagtgga atggtcctcg gtcatagatt gtcttatatc 7200 aaatcaatta ttgaagacat caaagtatat tcagagctta atgagttctt cgaaaaacca 7260 attaaaaatt attcatcagg tatgctagca cgtttgggtt tctcaattgc catgtatact 7320 acccctgaag ttctgttaat tgatgaagta ctgggtgtcg gtgacgtgac ttttgcagag 7380 aaagcacaaa aaagcattcg tgaaaaaata aagtcagaca caacagtcgt catcgtttcg 7440 catgacgaac accagttgaa gctcctttcc gatcgacttg tttgcattga aaacggtgtt 7500 gttctggatg aaggtccaag agacagtgta tacaataaat ataatttgat tatgaaactg 7560 acaagttatg ggcttaagct cctggaatac aaaaatactg aaacagtagc ttttaaggtt 7620 ggagatataa atccaacagc tgaatattca gatgttaatt ttaatattga tgttgatgtg 7680 gtctccgtca gttttaaaac cacaacaagt gattgggaaa gagtatccat taaagacaac 7740 agtttctggc ttcgccttaa tcataataaa atttataaaa ttaaatttaa agataccaaa 7800 gatcatgacg gtgtatttga gctatccgtc ggttattaaa atggcagata aaattgtctt 7860 catagcattt tatgtgcata catcttcact tcgtataatt tggtaactga gtatgagaaa 7920 agtattcatt ctagggtcta ctggttacgt tggtaatcat cttaaatcat ttcttagtga 7980 tgctttttcg ctggtaacag ttggaagaaa aaattcagat attcattttg atctggaaac 8040 tggtgaattt aatgatttac tggatcaagt aaacaatgat gacaccatca tttttctttc 8100 agcagtctct gcgcctgatc aatgtgagaa aaactatgac gttgcgcata agattaatgt 8160 gaaaaataca attactttga tatctgaatt acttaaaaaa aatgcgcgag tgattttctc 8220 atcaagtgat gttgtatttg gtggtacatc tgatgtgtgc actgaaatgt cagaacgaaa 8280 accatttggc aaatatggtc aaatgaaatg tgaagttgaa gaacattttt caaataaccc 8340 tgggttcttc gtaatacgat tttcgtacat tttagggaaa ggtgataaat tctctgaaat 8400 ggtaaaagag cacagtttga atagtaaatt attagatgta tttgatggtt ttgagcgcag 8460 tgttgtttca attaatgatg tattgttagg catcaaaaat attatattga attggagcca 8520 aattgatact cgcatcgtta atttctccgg cccggatctt gtcagtcgac aacagattgt 8580 tttggcgcta gcgcaggaaa aatttccaga actgcagtat caatttacag atgcgccaga 8640 atcattttgg ctgggtaggc caaaaaaaat taataccaaa agtcgttttc tcgaatctat 8700 tcttgataga tcatgtgaat catatttaaa cgttattaag gggtaagcat atatgaataa 8760 tgtattaatt acaggattca ctggacaagt tggttctcaa ttagcagatt atattttaga 8820 gaatacaacc gacacagtaa ttggaatgat gcgttggcaa gagccaatgg ataatatcta 8880 tcatttaaca gaccggatta ataaaaagga tagagtattc atccaatacg cagaccttaa 8940 tgactatact tccatgtata acttaattga agcgaagcgt ccaaaattca ttttccacct 9000 tgctgcgcag tcatttcccc gcacctcatt cgatattccg atcgagacct tgcagaccaa 9060 tattattggt actgccaatc tgttggaatg cattaaaaaa ctaaaacaac aagatggtta 9120 tgatcctgtt gttcatgttt gttcttctag tgaagtttat ggtagagcaa aagtaggtga 9180 agctttaaac gaagatacgc agttccatgg cgctagccct tacagcatta gtaaaattgg 9240 taccgattat ttagggcgtt tttatggcga ggcatatggg ttgcgtacat ttatcactcg 9300 catgggcaca catacaggcc cacgccgtag tgatgtattt ttcgaaagta ctgttgccaa 9360 gcagattgcc ttgatcgaag ctggacatca ggaaccaaaa ttaaaagttg gcaatttagc 9420 aagcgtacgt actttccaag atgctagaga cgctgtgcgt gcatactatt tattagctct 9480 ggagagcgaa aaagggaatg ttcctttcgg cgaagcattt aatattgcag gtgaagaagc 9540 attcaaactt cctgaggtta tagacctttt actgagcttt agcactcgtg acgatattga 9600 agttgttaca gatacagatc gcctgcgtcc tattgatgcc gattaccaaa tgtttgataa 9660 tactaaaatc aggaatttca ttgactggaa accggaaata aaagcgacag atatgtttcg 9720 tgatttactc cagcactgga gaaaagaaat cgcatctggc cgcattcctc tgaatcgtta 9780 atagggattc ttttgttatg aaagttagaa gcaaagcgcc tctacgttta ggcattgcag 9840 gaggtgggac agatgtttca ccttatagcg atacattcgg tgggtgtgta ctgaatgcga 9900 ccatcaatat gtatgcgtat gcttacattg atgatgagct tgaaggtagt aaagttattt 9960 ttgaggcaac cgaccttaat atcagagaag agattgatct taccaatggt gtaacgattg 10020 aggggaagct aaaactgcat cgagcagttt accttcgagt catgaatgat tattttgacg 10080 gcgaattaaa accggttcgt atcattactc attctgacgc tcctgcaggt agcggtttgg 10140 ggtcatcatc gacggttgtt gtttcaatgc ttgaaggact acggcaaatg tattctctgc 10200 ctcttggaga atatgatctg gcccagttag cattcaagat tgagcgagta gactgtggtt 10260 tatcaggtgg taaacaagat cagtatgctg caacatttgg tggttttaat ttcatggagt 10320 tttatgaagg taatcgcgtt attgttaacc cacttagaat tcgtagatat ataataaatg 10380 agttagagtc atccctgatt ctttatttta caggggcttc gagagactct gcgaaaatta 10440 ttgatgacca gattagatct ttagagagtg acaaagagtc taaactgatg gctatgcata 10500 aagttaaaga atcagcatat cagattaaag aacacttact caaatctgat atcgatgcta 10560 tggccgcgac attcctggat gcatgggaaa gtaagaaaaa cacctcatcg tcaatcagta 10620 atccgatgat tgagaaaatc gagaaggaag tgtttagtat cggtgttaag tcaatgaaag 10680 tttcaggtgc cggtggcggt ggttttatga tgctattcgt tgaaccggag cgaaaacagt 10740 tgatcgaacg taaactacaa gagtttggtg gcgaagtcta taaattccaa tttgtcgagg 10800 atggagcata ttcatggaca atgtaaatta tattaaagca tatcttgatg acagcattgc 10860 agtaaaaaaa ttgcttcagg aatctgacag tgtattgagc caaatctctt tagttgcaga 10920 tttgattatc aatgcatata aaaacgggaa taaagtaatt cttgccggga atggtggtag 10980 tgctgctgat tctcagcata tcgcggctga gttcgtcagt cgcttctttt tcgatagacc 11040 aggattacca gccattgcta tcaccactga tacctcgatg ctaacggcta tcggcaatga 11100 ctacggattt gataaactat ttgcaagaca actgcaagct caaagcaagc caggtgatgt 11160 tttcattggc atcagtactt caggtaactc cgttaatatc attaacgcga tggaactggc 11220 aaaagaactg ggtgtgacaa gcgtggcgct atgtggtgaa gcaggtaagc ttaaagattt 11280 ggtagactat tcaattaatg taccttctaa aattacacca tacattcaag aatgccatat 11340 ttgcattggt catatgatct gcgcaattgt tgaacgtgcc attttcaaac cagaagataa 11400 ataattatgt atgatgtagt tattttggca ggagggctag gtactcgtct gaagagtgtt 11460 agtggcgagc ttcctaagcc aatggtagat atttcagggc aaccatttct ttatcgtcta 11520 atgacgtatc ttgaaaaaca aggagctacc agaattatac tatcattatc ctacaaagct 11580 gactatatca tcgacagggt tgtccatgac aaccctgttg gttgtgaggt tgactttgtt 11640 gtcgaaaaag aacctctagg aactggtggc gcaattaaat atgccagttc taaagtcaga 11700 acggataaat tcattgttct taatggtgat acgtactgcg agcttaatta tagtgacttc 11760 atagaagctt cgaagggaac agatcttcta atatctggtg tcgaagttaa tgatgtcgct 11820 cgttatggta gtttagattt agatgagaaa tctaatgtta atgctatggt agaaaaggga 11880 agaactggcc ctggaattat taacagtgga atttatattg tctcaaagga aattatgagc 11940 aagtttgctg ggaataaatt ttcttttgaa tctgattttt tgcctaaatt caaaggagag 12000 tttaaggcct acgttaattc ctcatatttt atcgatatag gaattcctga agattatttc 12060 attgcatgtg agagatttaa atgaaagtgg catttcttga tcgcgatggt gtaattaata 12120 aggaagtcaa ttatctatat aaaattgaag attttgaatt taccaaaaac tgtatcagtg 12180 gcatgaaaag atttattgct catggttata aaataatcat tgtgacaaat caggccggaa 12240 ttgccaaagg atattacacc ttatctgatt atgataaatt gacaaagtgg tataggggta 12300 tcttgaaatc acagggtatc gatatattag atatctatta ttgccctcat catccagatg 12360 gaattggccc tgaatatcga tgtgattgtc cgtgccgcaa acctaatacg ggtatgttcg 12420 agtctgcagc tcgtgattat tccattgact taaaacaatc ttttattgtt ggtgataaac 12480 tgggtgatgt agaagccgga ttaaagtttg ggttgggccg agttttttta gttgagacgg 12540 gccatcagat tcctgctgta ggttatgcca catatccagt ttattctgat ctgttatcta 12600 ttccattatg aaaaacacaa tcaccagatt tttgaagaaa gcttttgtta aattcaggta 12660 taccaggctc gcacgtaagc tttggaaatt atttgccctc atggttaacg ctcattaccc 12720 aaggcggtta ttaattaaag cgttgaacgt taatgctgaa caaaatgcaa atgaatttac 12780 tgtttttcca aaaattttaa agtcaagttc agataaaaat gcgctagtca ttatgccttt 12840 ttatggaaat gatgccgtcg ggaaaaatat tgatacaaaa attgcgacat taaaatccct 12900 aggattcaca attcacgcta ttgttttcaa taattcacct tgggattcaa atagtgttga 12960 ttgggattat acttataata taaaatgtcg gaacggaaag ttcggcactc taagacacga 13020 tgtcaatcag caaataattc ctgatggaaa taaaattgac gattggcttg atgatgaaat 13080 atgtcaattt gttgctgcac tttctgcgat gaataattat cagattgcaa ttgttaatta 13140 tgtcttcctg tcaaaattgt gtttatatct taaacctaat acagtctcag tgatcgatac 13200 tcacgatgtt tttgctaaga ggaacactcg aatggcaaaa attggtattt cacaagataa 13260 attctatttc tctacatcga agaaagaaga aaccattggg ttatcaagag ctaattatat 13320 atttgctatt caagaagcag aaggccgtta cttcagggag aatgttagtt cccaagtcat 13380 tgttcagcca cctattctgg acgtaaactt tattgattat gtcccaacat ccaataaaaa 13440 gatcgttgtt ggctttatgg cctctgggca ctatccaaat gtcgttgcga tcaacaattt 13500 tatcgatagc ttaagtaaac ttgatcataa tgtaagactc gatatttcag gaacaatttg 13560 cggagctctt gaaggtagac agtaccctgg ttttgttaat atcctcggtt tttgtgagag 13620 ccttgataag ttctaccatt cctgcgatgt aattatcaat ccagatgaat tactttcagg 13680 gttgaaagtt aaatgtctgg aggcgctttc ttatggtgtt ccattagttt caactaaagc 13740 tgctatggaa gggattgagt cgacagaaga gtaccatcag atcgaatctg cgcaaaagtg 13800 tgctgagttc attacatcgc ttaaaaaaga tgagctcatt aacatggcta ctcatagtcg 13860 aaatgtcttt gccaacttta atcagcgcta taatttccaa tccactttgc gaaaggtttt 13920 gaaagacaat gggtgatgat atctttaaaa tttccgttat tttacctgta tacggcggcg 13980 aagtttattt agagcaatgt ctcgacagtg ttctgtctca aacatataag aatctggaaa 14040 taataatagt caatgacggt agccctgatg cttgccctca gattattgat cgatacgctt 14100 cgagcgatac aagaatcatt gctatccata aaaaaaacgc aggttacgga gctgcaatca 14160 actctgggct agatgttgca agcggcgatt ttatttctat catcgaaaca gacgattggg 14220 ttcagcttga tatgtttgag cgtctaatag acgcttataa taaaatcccg aatccggtca 14280 ttaaagcaag tttcaataga ataagtaatg aagttgtaat caatactcag tcccttgcgc 14340 atttatgtac atttgataat gataacttgg cagaaattgt accagaaaat tcagttgagc 14400 ttttcttgct tgaatcatca atctggactg gcttgtatag aagagatttt cttgaagaaa 14460 atcatattcg cttctatgaa agtcctgggg cttcatatca ggatatgccc tttaaattca 14520 tcacctatgc ctctgtagaa aagataactc ttttgaatgt gcctgtttat aactacaggg 14580 tcatgaacgt gggctcatcc agtgctagtg ctgacaaggc attaatatct tttaataatt 14640 atgatattat aaaaaaacac cttcttagtg ttggaacgtt tcaaaaatac ctgaatcatt 14700 tttattttca ccatcttttt gatttagttt tccattattc tcgtttgaga ggcgatggat 14760 tgaagtcata tcaggaagct gctattgctg tttttgaaca ggctaaagaa gaaggtttcc 14820 agccagtaac ttctaatgtt tcattttcct ccgatacaaa tgactattat tataatcatg 14880 ttcttccaat ttataatgag ttgatgagta acaggattat aaaaacagtt cagacaagaa 14940 acaggattaa aaagaaagtc gtttccaaac tacgttttat tactaacaaa ttaataattg 15000 aaccaattat taatgctgtt tcatcaaaaa tggattcctc ctcatcttta ctttccaaac 15060 attttcggga ggagttagat tcttcatttt tgaagatgtc gaaagaactt actgataaag 15120 tcgatgtcat ttcaggacag aataaaaatg gttctgtact aataaaagta gcgcctacta 15180 accagtttta ttattacatg aaggtaaatt cctctcggat ctctaaacta cgtgaagaat 15240 tcaaacgcgg ccttgatgaa tttagccttc aaaatgagag gaaattattt ggtttttatg 15300 aattactgcc atactttgaa catcaaggca ttgagttgga attaccttta tctttaacat 15360 tatttacgga tgaagataga gttatattgt caaatattga ttcaatctta cgtcacgaaa 15420 aagaattaat tcagcatctt gatctatctg aattaccggt tactctagca accaactatt 15480 tcaaagctgg cttgaagtat cttccaggcc gattcactga agaattcaaa ggctctgttg 15540 ctatagattg tggggcttgg gttggtgata cagctatcat gttcgctagc tttggattta 15600 aagaagtact tgccttagaa cctgtagctg ataattataa ctgtatggtt cggaatcttg 15660 agcgtaatca tcaatattta aatgatacta ttaaaccctt aaatgttgct gtcagcaatg 15720 tatctggcga actttcgatg atgaaagttg gggatgatgg agtaggctca tgtgttgttg 15780 aagacgagca gtctgacatt aaagttcaat cggtcactat tgatagtctg acgtttgaag 15840 atcgtgttgg tttgattaaa ttcgatattg aaggctatga gattaatgcc cttaatggtg 15900 caatcgagac aatcaaaaaa cacaagcccg tgttgctgat ttctgtttat cacttgtggt 15960 tgcagccaga gcaaattttt gaatgtaaga aatttgttga aaatctcaat atgggttatc 16020 aattcaagtt tgttcacctc cagcctgagc gtgatctggt gtatgaatac atgcttgtgt 16080 gttggtgatt tgtaatagtc tttattttga ttcacaaaca aatcagggat gatttgtttt 16140 gctttattta aaactgatat tttcttcgaa gtataagatg acgtgctgag gttttaaatt 16200 ttaacaggat aatagcttaa ggaaggagat gtgagtttta aatatgaaaa taaagatatg 16260 ttattttgtg aactccgctt ggtatttcga attacattgg ttagatcgtg ccttatcagt 16320 tctggaagca ggatatgatg tctatatttt tgcgaattat tctgacaagt ctattctgga 16380 tcgctttact agtttaggat ttaagtgtat tgatagtaaa ataaaagagc aaaatatcaa 16440 tcctgttgtt ttcttttgcg atataactcg ctcatttaga acattgaata aaattaatcc 16500 tgatattgtg catagccgca cgattaaacc tggtgtgatt agttgtttat gggccagaat 16560 ccgaaacaaa aaaatggtct atagttttgt tgggttaggt agagtttttg aaagcaataa 16620 ggtcatttac caaatggtta agttcttaat tgctaatatg tatagaagat ttttcttaaa 16680 tattgattgt tgtatcctct ttgaacataa aaaagatcag caaaaaataa ttgaactatt 16740 agatattcca aaaaataaaa ctgaagttat tgatggcgca ggtattaata tagactattt 16800 ttgttatagt acaccaccta ataataccaa ggttaaagtt ttttttgcaa gtcgcatgct 16860 ttggagtaaa gggctacgca cgttaattga tgctagtaga attttaaaat tacaaggcat 16920 cgaatttgag atattagttg cgggcattct tgttgacaat gatcgcgacg ctataagtat 16980 aactcagata gaagagtggc ataactccgg tgatatcatt tggctgggca agcgtagcga 17040 tatcaaggaa ttaattgaaa gtgtggatat agtcgctttg ccatctgttt actctgaagg 17100 tattcctcga attcttttag aagccggtgc aatcggtcgt cctgttataa gttttgacac 17160 tggtggttgt gggagtttaa tacttgacgg ttataacggt ttccttgtgc ctaaaggaaa 17220 tgtgaaccta ttttctcaga agcttggtat ccttattagc gatcctcttg agcgcactaa 17280 gatggggcag aatgccagaa agcgagtaga ggaaaagtat tcatctaccg ttgtcatacg 17340 aaaaaccgtt caaatctata ataaactcac aatgcaagaa gtgctctaat attgagcaac 17400 aacttatctg agcttgtcgc tatgcgtttt tttagttact tatgacagtt attaatttca 17460 ctcaaacatc tatttcttta tacaacttgt cgttctccta atatataatt tcttaaattc 17520 tgtctgttca tagacagata ctacctgaca ggagtatgta atgtctaagc aacaaatcgg 17580 cgtagtcggt atggctgtga tggggcgcaa cctggcgctc aacatcgaaa gccgtggtta 17640 taccgtctct atcttcaacc gctcccgtga aaaaaccgaa gaagttgtcg ctgagaatcc 17700 aggcaaaaag ctggttcctc actacacggt caaggagttc gtcgagtctc ttgagacccc 17760 acgtcgtatc ctgttaatgg tgaaagcagg cgcgggcacc gatgctgcca tcgattccct 17820 gaaaccttac cttgataaag gtgacatcat cattgatggt ggtaacacct tcttccagga 17880 taccattcgt cgtaaccgtg agctgtctgc tgaaggcttt aacttcatcg gtaccggcgt 17940 atccggcggc gaagagggcg cgctgaaggg cccatctatc atgcctggcg gccagaaaga 18000 agcgtatgag ttggttgcgc ctatcctgac caagattgct gctgtagctg aagacggcga 18060 gccttgcgta acctacatcg gtgctgacgg tgcgggtcat tacgtgaaaa tggtccacaa 18120 cggtatcgaa tacggcgaca tgcagctgat tgctgaagcc tattctctgc tgaaaggcgg 18180 cctgaacctg tctaacgaag agctggcaac caccttcacc gagtggaatg aaggcgagct 18240 gagcagctac ctgatcgaca tcaccaaaga catcttcacc aaaaaagatg aagacggtaa 18300 atacctggtt gatgtgatcc tcgacgaagc ggcgaacaaa ggcaccggta aatggactag 18360 ccagagctct ctggacctgg gcgaaccgct gtcgctgatc actgaatctg ttttcgcgcg 18420 ctacatctcc tccctgaaag accagcgcgt ggcggcatct aaagtgctga ctggcccgca 18480 ggctaaactg gctggcgata aagcagagtt cgttgagaaa gtgcgtcgcg cactgtacct 18540 gggtaaaatc gtctcctacg cgcagggctt ctctcagctg cgtgccgcgt ctgacgagta 18600 caactgggat ctgaactacg gcgaaatcgc gaagatcttc cgcgcgggct gcatcattcg 18660 tgcacagttc ctgcagaaaa tcaccgacgc ctacgctgaa aacgcgagta tcgccaacct 18720 gctgctggca ccgtacttca aaaatatcgc tgatgaatac cagcaggcgc tgcgtgacgt 18780 ggtggcctat gctgtgcaga acggtattcc ggtaccgacc ttctctgcag cagtggcgta 18840 ctacgatagc taccgcgctg cggtactgcc ggcgaacctg atccaggcac agcgcgacta 18900 表1大肠杆菌O52的O-抗原基因簇中糖基转移酶基因和ABC转运系统wzm基因及其中引物及PCR数据 基因 功能 基因的碱基 位置 正向引物 反向引物 PCR产物 长度 产生正确 大小电泳 带的组数 PCR的退 火温度 (℃) Orf5 糖基转移酶 5239-6093 #329(5445-5462) #330(5970-5988) 542bp 0** 58 #331(5266-5283) #332(5651-5668) 404bp 0 58 #333(5362-5379) #334(5783-5800) 439bp 0 53 wzm ABC转运子 6095-6868 #311(6314-6331) #312(6840-6857) 544bp 0* 58 #313(6180-6197) #314(6689-6705) 526bp 0 55 #315(6422-6439) #316(6711-6728) 361bp 0 58 Orf14 糖基转移酶 12608-13936 #305(12940-12958) #306(13869-13886) 946bp 0 53 #307(13003-13020) #308(13743-13762) 760bp 0 56 #309(13853-13872) #310(13345-13363) 491bp 0** 50 Orf15 糖基转移酶 13929-16088 #323(14317=14335) #324(15064-15080) 764bp 0 55 #325(14518-14535) #326(15248-15267) 750bp 0 50 #327(14421-14438) #328(14845-14864) 444bp 0 55 Orf16 糖基转移酶 16244-17389 #317(16286-16304) #318(16935-16952) 685bp 0 58 #319(16305-16321) #320(16813-16831) 527bp 0 55 #321(16588-16605) #322(17257-17273) 686bp 0 56
*在一组中产生一条错误大小的带;**在一组中产生两条错误大小的带。 表2 166株大肠杆菌和43株志贺氏菌及它们的来源 组号 该组中含有的菌株 来源 1 野生型大肠杆菌O1,O2,O3,O4,O10,O16,O18,O39 IMVSa 2 野生型大肠杆菌O40,O41,O48,O49,O71,O73,O88,O100 IMVS 3 野生型大肠杆菌O102,O109,O119,O120,O121,O125,O126,O137 IMVS 4 野生型大肠杆菌O138,O139,O149,O7,O5,O6,O11,O12 IMVS 5 野生型大肠杆菌O13,O14,O15,O17,O19ab,O20,O21,O22 IMVS 6 野生型大肠杆菌O23,O24,O25,O26,O27,O28,O29,O30 IMVS 7 野生型大肠杆菌O32,O33,O34,O35,O36,O37,O38,O42 IMVS 8 野生型大肠杆菌O43,O44,O45,O46,O50,O51,O52,O53 IMVS 9 野生型大肠杆菌O54,O55,O56,O57,O58,O59,O60,O61 IMVS 10 野生型大肠杆菌O62,O63,O64,O65,O66,O68,O69,O70 IMVS 11 野生型大肠杆菌O74,O75,O76,O77,O78,O79,O80,O81 IMVS 12 野生型大肠杆菌O82,O83,O84,O85,O86,O87,O89,O90 IMVS 13 野生型大肠杆菌O91,O92,O95,O96,O97,O98,O99,O101 IMVS 14 野生型大肠杆菌O112,O162,O113,O114,O115,O116,O117,O118 IMVS 15 野生型大肠杆菌O123,O165,O166,O167,O168,O169,O170,O171 See b 16 野生型大肠杆菌O172,O173,O127,O128,O129,O130,O131,O132, See c 17 野生型大肠杆菌O133,O134,O135,O136,O140,O141,O142,O143 IMVS 18 野生型大肠杆菌O144,O145,O146,O147,O148,O150,O151,O152 IMVS 19 野生型大肠杆菌O153,O154,O155,O156,O157,O158,O159,O164 IMVS 20 野生型大肠杆菌O160,O161,O163,O8,O9,O 24,O111 IMVS 21 野生型大肠杆菌O103,O104,O105,O106,O107,O108,O110 IMVS 22 鲍氏志贺氏菌血清型B4,B5,B6,B8,B9,B11,B12,B14 See d 23 鲍氏志贺氏菌血清型B1,B3,B7,B8,B10,B13,B15,B16,B17,B18 See d 24 痢疾志贺氏菌血清型D1,D2,D3,D4,D5,D6,D7,D8 See d 25 痢疾志贺氏菌血清D9,D10,D11,D12,D13 See d 26 弗氏志贺氏菌F6a,F1a,F1b,F2a,F2b,F3,F4a,F4b,F5(v:7)F5(v:4) See d 27 宋内氏志贺氏菌D5,DR See d a. Institude of Medical and Veterinary Science,Anelaide,Australia b. O123 from IMVS;the rest from Statens Serum Institut,Copenhagen,Denmark c. 172 and 173 from Statens Serum Institut,Copenhagen,Denmark,the rest from IMVS d. 中国
预防医学科学院流行病学研究所 表3是大肠杆菌O52的O-抗原基因簇的结构表 表4是大肠杆菌O52的O-抗原基因簇中的基因的位置表 ATTGTGGCTG CAGGGATCAA AGAAATCGTT CTGGTCACAC ACGCATCGAA AAACTCGGTG 60 GAAAACCACT TCGATACCTC GTATGAACTG GAAGCACTGC TTGAGCAGCG CGTGAAGCGT 120 CAGCTGCTGG CTGAAGTTCA ATCTATCTGT CCTCCTGGCG TGACCATCAT GAACGTTCGC 180 CAGGCGCAGC CGTTGGGCCT GGGACACTCT ATCCTGTGCG CACATCCGAT TGTCGGCGAT 240 AACCCGTTTG TGGTTGTGTT GCCGGATATC GTGCTGGACA ACGCAAGCGC CGACCCGCTG 300 CGCTACAACC TTGCCGCCAT GGTAGCGCGT TTCAACGAAA CCGGGCGTAG CCAGGTGCTG 360 GCGAAACGTA TGCCGGGCGA CCTGTCTGAA TACTCCGTCA TCAAAACGAA AGAGCCGCTG 420 GATGTCGAAG GTAAAGTTAG CCGTATCGTT GATTTTATCG AAAAACCTGA CCAGCCGCAG 480 ACGCTGGAAT CCGATCTGAT GGCCGTAGGC CGCTATGTAC TTTCCGCTGA TATCTGGCCT 540 GAACTGGCGA AGACCGTGCC GGGGGCGTGG GGCCGAATTC AACTGACGGA TGCGATCGCC 600 GAACTGGCGA ATAAGCAGTC TGTTGACGCG ATGCTGATGA CGGGTGAGAG CTACGACTGC 660 GGGAAGAAGA TGGGGTATAT GCAGGCGTTT GTGCAGTATG GGTTGCGCAA CCTGAAGGAA 720 GGGGCTAAGA TCAGGAAAAG TATTGAAAAG TTGTTATCTT AAGTCGTTTC TCAGTAAACG 780 ATAAAGCAAA TTTAAGAACG GCGTTTTAGA ACGGCAGATG GGCATAAGTA TGTAGGGTAA 840 CCTACTACTA GCTTCACTGC CTTTTTATTT CATAAAACAA AGTAAAAAAT AACAATAGGT 900 TAGAAATGTA GGCGTTGCAT ATCGTTTATA AGATTTTTCC TTGAGTTCAA ATGCATTTAA 960 GACGAAAATA GTTGCCGAAA TTTTTTGGGT TTGCAGGTGG GAGTCGTTGC GGATTTTTGC 1020 CTTGACATAA ATGATTTTTA TCATTGAAGG TGCAGTGCGC TGGTAGCTGG AGAGCCAGGG 1080 GCGGTAGCGT GTCTAATCAT AAGTGTCTTT TATAATATTC AGATTGTTCT TAACAAACAT 1140 TCATATTATC AAGCCATAAG TTATAAGTCA TAGCGGAAAT TCAAAGTGAA AATACTGGTT 1200 ACAGGTGGTG CAGGTTTTAT TGGGTCTGCA GTTGTTCGTC ATATAATTAA TAATACGCAA 1260 GACTCTGTCA TCAATGTTGA TAAACTTACC TATGCAGGTA ATTTGGAATC TCTGACAGAG 1320 ATTGAGAATA ACGAGCGGTA TAAATTTGAG CATGCGGATA TTTGCGACAG CGTTGCAATA 1380
rmlB基因的起始 GCCAATATTT TTGCACATCA CCAACCAGAT GCAATA ATGC ATTTGGCAGC CGAAAGCCAC 1440 GTTGATCGTT CAATCACAGG CCCTGCAGAC TTTATTGAAA CCAATATTGT TGGAACATAT 1500 ATCTTACTAG AAGAAGCTCG TAAGTATTGG CTAGCACTTA GTGAAGATCG CAAAGGTGCA 1560 TTTCGCTTCC ACCATATTTC TACGGATGAG GTTTATGGTG ACCTTCCTCA TCCGGATGAA 1620 GTATCGTCAG ATACAATATT GCCATTGTTT ACAGAACAAA CTTCATATTC CCCTAGCAGT 1680 CCATATTCCG CCTCTAAGGC ATCCAGTGAT CACTTAGTTC GTGCATGGCG GCGTACATAT 1740 GGATTACCCA CCATAGTGAC AAATTGTTCT AATAATTATG GGCCGTACCA TTTCCCTGAA 1800 AAACTCATTC CGTTAATTAT TCTGAATGCA ATTGCGGGTA AACTTTTACC TGTTTATGGG 1860 AACGGTGAGC AAATTCGAGA TTGGTTATAT GTTGAAGATC ATGCCCGGGC ACTTTATGAA 1920 GTCGTCACAA AGGGTGTGCC GGGAGAAACA TATAATATTG GTGGTCATAA CGAACGTAAA 1980 AATATCGATG TAGTGAAAAC TATTTGTCGC ATTCTCGATG AATTGATTGC AGATAAACCA 2040 GATGGCATTG AAAATTTTGA ACAGTTGATT CGGTATGTTA GCGATCGTCC AGGGCATGAC 2100 CTTAGATATG CCATTGACGC CAGTAAAATT AAACAAGATT TAGGTTGGGT GCCGCAAGAA 2160 ACGTTTGAAA CGGGTATCAC TAAAACCATT CACTGGTATT TAAATAATAA AGAATGGTGG 2220
rmlB基因的终止 CAGCGTGTGA TGGATGGTTC GTACGCTGGT GAACGCTTAG GGCTCGTAGA GTAG TAAGGA 2280 rmiA基因的起始 TAAAAG ATGA AAGGTATTAT TTTAGCAGGC GGCTCTGGCA CTAGATTGTA TCCAATAACT 2340 CGTGGTGTAT CAAAACAACT ATTACCAATC TATGATAAAC CAATGATTTA TTACCCGCTT 2400 TCCACACTTA TGCTAGCGGG TATTCAAGAT ATATTAATAA TAACCACTGA AGAAGATAAT 2460 GCGAGTTTCC AGCGGTTACT CGGTGATGGC AGTAATTTTG GTATTCGGCT TAATTATGCC 2520 GTGCAACCCA GCCCTGATGG ATTAGCGCAG GCATTCCTCA TTGGTGAGAA ATTTATAGGA 2580 AACGATAAAG TTTGTTTGGT GCTGGGTGAT AATATTTTTT ATGGCCAATC ATTTATCAAA 2640 ATCCTGCAGA ATGCTGTTGC AAGAGAATAC GGTGCAACAG TATTTGGTTA TCAAGTGAAA 2700 GACCCTGAAC GCTTCGGTGT AGTTGAATTT GATAGCGAGA TGCGGGCTGT ATCTATTGAA 2760 GAAAAACCGT CAAAACCAAA ATCAAATTAT GCAGTCACTG GACTTTACTT CTATGATAAT 2820 CGCGTTATCG ATTTCGCTAA AAAAGTTAAA CCTTCAGTGA GAGGGGAGCT GGAGATTACT 2880 GATCTTAATG ACATGTATCT CAAAGAAGGT ACTCTTAACG TAGAGCTACT GGGGCGTGGT 2940 TTTGCTTGGT TGGATACAGG GACCCACGAA AGTTTGCATG AAGCGTCATC CTTCGTGCAA 3000 ACCATCCAGA ATGTTCAGGG CCTCAAGGTT GCATGTCTTG AAGAGATTGC ATTAAGAAAT 3060 GGTTGGTTAA GCAAAGAAGA AGCAATAAAA AATGCACTAC CTATGAAGAA AAATGATTAT 3120
galE基因的起始rmlA基因的终止 GGTCAATACA TTATAGCACG TGCAAAAGGT GA ATGATGGA TGCTAGAAAA AATGGAGTCC 3180 TGATTACAGG CGGTGCTGGG TTTATAGGTA AAGCATTGAT CACCGAAATG GTCGAAAGGC 3240 AGATCCCACT AGTGTCGTTC GATATTTCGG ATAAACCAGA CTCGTTGCCT GAGCTAAGTG 3300 AATATTTTAA CTGGTATAAA TTTAGCTACC TCGAATCTTC TCAGCGTATA AAAGAACTGC 3360 ATGAGATAGT TAGCCGCCAC AATATTAAGA CAGTTATTCA TTTGGCAACA ACTATGTTTC 3420 CACATGAATC GAAAAAAAAT ATCGATAAAG ATTGTCTGGA AAATGTTTAT GCGAATGTCT 3480 GTTTTTTCAA AAACCTATAT GAAAATGGTT GTGAGAAAAT TATATTTGCA TCATCGGGTG 3540 GCACTGTTTA CGGAAAATCC GATACACCAT TTTCTGAAGA TGATGCACTT TTACCAGAGA 3600 TCAGTTATGG CTTAAGCAAA GTTATGACTG AGACATACTT ACGATTTATT GCTAAAGAAC 3660 TCAATGGTAA ATCCATATCA TTGCGGATCT CAAATCCTTA TGGAGAAGGG CAGAGAATAG 3720 ATGGTAAGCA AGGTGTAATA CCAATATTTT TAAATAAAAT CTCAAATGAT ATTCCAATTG 3780 ATATTATTGG TTCAATTGAG AGTAAAAGAG ATTATATTTA TATAAGTGAT CTTGTACAAG 3840 CCTTCATGTG TTCATTAGAA TATGAAGGAC ATGAAGATAT TTTTAACATA GGTTCTGGAG 3900 AATCTATTAC GTTAAAAAAA CTTATTGAAA CTATCGAATT TAAATTGAAT AAAAAGGCAG 3960 TAATCGGTTT TCAAGATCCT ATCCATACCA ATGCTAACGG AATTATTTTA GATATTAAGC 4020 GAGCTATGGC TGAGTTAGGA TGGCGTCCGA CGGTTGTACT CGATGATGGC ATTGATAAAT 4080
galE基因的终止glf基因的起始 TAATAAAATC AATTAGGTGT AAG TAATT AT GAATAAGGTC CTTATCATTG GTAGTGGATT4140 TAGCGGTGCA ACAATAGCAA GACTGTTGGC TGAAGAGAAT ATTAAAGTAA AGATAATAGA 4200 CGACAGAAAG CATATTGGTG GTAACTGCTA TGATGAGCGG GATGAGAAAA CAGGCATTAA 4260 TGTCCACGTT TATGGACCGC ATATTTTCCA TACGGATAAT GAAGATGTAT GGAATTTTGT 4320 GAATAAATAT GGGACATTCC AGCCATATAC AACGAGGCTT AAAGCGAATG CAAAAGGCCA 4380 GATTTATTCG TTACCTGTAA ATCTTCATAC AATTAATCAA TACTATAAAA CAGCATTGTC 4440 TCCTACTGAA GCCAGGAAAC TGATTGCGAG CAAAGGTGAT CAGACAATTA ATGATCCTCA 4500 GTCTTTTGAA GAACAAGCTT TAAAATTTGT TGGTGAAGAT TTATACAAAA CATTCTTTTA 4560 TGGCTATCCT AAAAAACAGT GGGGTATGGA GCCAAAGGAA ATACCAGCAT CTGTATTAAA 4620 GCGTCTCCCA GTACGTTTTA ACTATGATGA TAACTATTTT TTCCATAAAT TCCAGGGCAT 4680 ACCTCGTGAT GGCTACACAC CATTATTTCA AAATTTACTG AACCACCCAA ATATAGAGTT 4740 TGAATTAGGA AAGAAAGTAA ATAGAGCAAC TGTTGAAGAA TTAATCACCT CCGAGCAATA 4800 CGGACATGTA TTTTTCTCTG GAGCGATTGA TCATTTCTAC GACTATGAAT TTGGCATGTT 4860 GCAATATCGT ACGCTGGATT TTGAAAAGTT TTACAGCGAA GACGATGATT ATCAGGGTTG 4920 TGTTGTAATG TCTTATTGTG ATGAAGATGT TCCTTATACC CGCGTAACGG AACATAAATA 4980 TTTCACGCCA TGGGAAGAGC ATAAAGGAAG CGTGTTATAC AAAGAGTTTA GTCGTAGTTG 5040 CGATAAAGAA GATATTCCAT ATTATCCAGT TAGACTTGTC TCTGGAAATA GCATATGGAA 5100 CAAATATGAA CAAAAGGCAA AAGAAGAGAC TAATATAACA TTCATCGGGC GTTTGGCTAC 5160 ATATCGCTAT CTCGATATGG ATGTCTGTAT TAAAGAAGCT ATTGAATGTG CTCAATTGTA 5220
Orf5基因的起始glf基因的终止 TATAAAGAAT AATAAAGA AT GATATATACG GTAGTCATGG TCTCGTATAA TCGGACGAGC 5280 AAGTTAAAAG AATCGATAGT ACAGCTTTTA GCAACAAATA TTAATGAAAT TATTATTGTT 5340 GACAATCATT CAGGTAAAGA AACAAGAGCC ATATTAGAGG AAGCCTCACT TCAGGATGAA 5400 CGTGTTAAAA TCATAAATCT TGATGAGAAT AGAGGAGCAT CATTTGGTTT CAGCATTGGG 5460 TTGAACTACG TTGAAGAAAA ATATGAGCAG TCTGTGACGA CTTTCCTAGA TGATGATGCG 5520 TATTTTGATC AAGTATTCCT TGATAACTTA AAAATCGAAT GTAAGCACTA TGAATATCGA 5580 TTTCCTTTTA TAACCCCCAA GGTTATCAAT AAAAAAGGAA TGCGTTTAAC GATGAATCGG 5640 CCAATGACCT GCATTCCCAG GTCCTTGTTC AAAGTAGTAA AATATTTAAA AAATAGAAGA 5700 CAGTTTGGGG AGAAAAATGA GCTTGTGGAA GCAGCAAGTT TTATAGGGTT AACGATTGTT 5760 AACACTGCTG ATGATAAAAA ATCATTACTT ATCCCGATTG ATTATTTTAT TTATTATGAT 5820 GATCTCACCT TCACTCATCG ATTAGCTAAA AAAAATGGTG AACTAGGTAT TTATCTTAAT 5880 GATCTAGTTG TCATGCATGA TATTGAGGGG GGCGTGAGGA AATATGATGC CTTTAGGTTG 5940 TCATATTTAC TATCAAACAG TATTAAATTT AGCAAAGAGG TTGGTGATAC ACTATATATT 6000 TATTCTATGT TTATTCACTG CTATCATTTT TTAAATTGCC TGAAGAATTT AAAACTGACA 6060
orf5基因的终止wzm因的起始 GTCTTTGTTA GAGCTCTATT GAGAAAAAGG TAAC ATGAGT ATCATGTCGT TAAAAACCCT6120 TGAATTGGTT TGGGTTAAAG CAAAGCTTAA TCTAAAATCA GAAGCATCAA TAAACTATTT 6180 AAGTTATGCT TGGTGGATTA TCGAACCAGT CCTTCAAATG GCAATTTACT ATTTGGTTTT 6240 TGCATATCTT CTTAAGCAAG GTGGTCATGA TTACGTCCCA TTCCTGTTAA CTGGACTGAT 6300 CCCCTGGATA TGGTTTGGTC GCAGCGTTAG TCATGCGCAA GGGAGTATCA TTCAAGGAAA 6360 GTACCTAATG AATCAGGTAC ATATTTCTAA GATATTCTTC CCTTTGACAT TTATATTGCA 6420 GGATGCGTTA AAGCAGATAC TTGTATTTAT TCTGCTATTT ATTTTTTTAG TCTTGTACGG 6480 CTATGATTAT ACTCTTGGCT TGCTTTGGAT TATTCCAGTC ATTTTTGTTC AGCTATTATT 6540 AATAGTTGCA TTTTCTTTGA TAGTGTCAAT CATTGTTCCC TTTGTCAGAG ATTTTTCATT 6600 TGTAATTGAA ACCGGCCTTC AAATTATGAT GTTTTGCTCA GGTATATTTT TCAATTACAA 6660 AAGTATACCG GCGATGGAAT CGAAGATTTT CTTCATTAAC CCGATGGCAG TAATTCTTAG 6720 TTCGTACCGT GATGTATTGA TGTATCATAA TGCACCAAAT ATTAAGCTGC TCGCATATGT 6780 AGTTCTGCTT TCTTTAATTA TGATTTCTAT TTCGTTGTAT GCATTTAAGA GATTAGAATT 6840
wzt基因的起始wzm基因的终止 CATCTTCCCA CGAGTTGTTC AGAA ATGAAG AATGAAAAGA TTATTGAGCT AAAAAACGTA 6900 GGTTTAGTTT ATAGAGAAAA GAAAACACTC TTTACTTACG ATGAATATGA AGCTTTGACA 6960 AACATTACAT TCGATGTTTA TCGTGGCGAA ACTCTTGGAA TAATTGGGCG TAATGGAGCA 7020 GGGAAATCTA CATTACTACG AGTTCTGGCG GGTATTATTA AGCCTGATTC TGGGCAAATA 7080 ACTATTCATT CAAACAGTAT TTCTCTAATG GCCCTTCAGG CAGGATTTGA TCCCAACTTA 7140 TCAGGTCGTC AGAATACTAT CTTTAGTGGA ATGGTCCTCG GTCATAGATT GTCTTATATC 7200 AAATCAATTA TTGAAGACAT CAAAGTATAT TCAGAGCTTA ATGAGTTCTT CGAAAAACCA 7260 ATTAAAAATT ATTCATCAGG TATGCTAGCA CGTTTGGGTT TCTCAATTGC CATGTATACT 7320 ACCCCTGAAG TTCTGTTAAT TGATGAAGTA CTGGGTGTCG GTGACGTGAC TTTTGCAGAG 7380 AAAGCACAAA AAAGCATTCG TGAAAAAATA AAGTCAGACA CAACAGTCGT CATCGTTTCG 7440 CATGACGAAC ACCAGTTGAA GCTCCTTTCC GATCGACTTG TTTGCATTGA AAACGGTGTT 7500 GTTCTGGATG AAGGTCCAAG AGACAGTGTA TACAATAAAT ATAATTTGAT TATGAAACTG 7560 ACAAGTTATG GGCTTAAGCT CCTGGAATAC AAAAATACTG AAACAGTAGC TTTTAAGGTT 7620 GGAGATATAA ATCCAACAGC TGAATATTCA GATGTTAATT TTAATATTGA TGTTGATGTG 7680 GTCTCCGTCA GTTTTAAAAC CACAACAAGT GATTGGGAAA GAGTATCCAT TAAAGACAAC 7740 AGTTTCTGGC TTCGCCTTAA TCATAATAAA ATTTATAAAA TTAAATTTAA AGATACCAAA 7800
wzt基因的终止 GATCATGACG GTGTATTTGA GCTATCCGTC GGTTAT TAAA ATGGCAGATA AAATTGTCTT 7860
dmhB基因的起始 CATAGCATTT TATGTGCATA CATCTTCACT TCGTATAATT TGGTAACTGA GT ATGAGAAA 7920 AGTATTCATT CTAGGGTCTA CTGGTTACGT TGGTAATCAT CTTAAATCAT TTCTTAGTGA 7980 TGCTTTTTCG CTGGTAACAG TTGGAAGAAA AAATTCAGAT ATTCATTTTG ATCTGGAAAC 8040 TGGTGAATTT AATGATTTAC TGGATCAAGT AAACAATGAT GACACCATCA TTTTTCTTTC 8100 AGCAGTCTCT GCGCCTGATC AATGTGAGAA AAACTATGAC GTTGCGCATA AGATTAATGT 8160 GAAAAATACA ATTACTTTGA TATCTGAATT ACTTAAAAAA AATGCGCGAG TGATTTTCTC 8220 ATCAAGTGAT GTTGTATTTG GTGGTACATC TGATGTGTGC ACTGAAATGT CAGAACGAAA 8280 ACCATTTGGC AAATATGGTC AAATGAAATG TGAAGTTGAA GAACATTTTT CAAATAACCC 8340 TGGGTTCTTC GTAATACGAT TTTCGTACAT TTTAGGGAAA GGTGATAAAT TCTCTGAAAT 8400 GGTAAAAGAG CACAGTTTGA ATAGTAAATT ATTAGATGTA TTTGATGGTT TTGAGCGCAG 8460 TGTTGTTTCA ATTAATGATG TATTGTTAGG CATCAAAAAT ATTATATTGA ATTGGAGCCA 8520 AATTGATACT CGCATCGTTA ATTTCTCCGG CCCGGATCTT GTCAGTCGAC AACAGATTGT 8580 TTTGGCGCTA GCGCAGGAAA AATTTCCAGA ACTGCAGTAT CAATTTACAG ATGCGCCAGA 8640 ATCATTTTGG CTGGGTAGGC CAAAAAAAAT TAATACCAAA AGTCGTTTTC TCGAATCTAT 8700
dmhB基因的终止dmhA基因的起始 TCTTGATAGA TCATGTGAAT CATATTTAAA CGTTATTAAG GGG TAAGCAT AT ATGAATAA 8760 TGTATTAATT ACAGGATTCA CTGGACAAGT TGGTTCTCAA TTAGCAGATT ATATTTTAGA 8820 GAATACAACC GACACAGTAA TTGGAATGAT GCGTTGGCAA GAGCCAATGG ATAATATCTA 8880 TCATTTAACA GACCGGATTA ATAAAAAGGA TAGAGTATTC ATCCAATACG CAGACCTTAA 8940 TGACTATACT TCCATGTATA ACTTAATTGA AGCGAAGCGT CCAAAATTCA TTTTCCACCT 9000 TGCTGCGCAG TCATTTCCCC GCACCTCATT CGATATTCCG ATCGAGACCT TGCAGACCAA 9060 TATTATTGGT ACTGCCAATC TGTTGGAATG CATTAAAAAA CTAAAACAAC AAGATGGTTA 9120 TGATCCTGTT GTTCATGTTT GTTCTTCTAG TGAAGTTTAT GGTAGAGCAA AAGTAGGTGA 9180 AGCTTTAAAC GAAGATACGC AGTTCCATGG CGCTAGCCCT TACAGCATTA GTAAAATTGG 9240 TACCGATTAT TTAGGGCGTT TTTATGGCGA GGCATATGGG TTGCGTACAT TTATCACTCG 9300 CATGGGCACA CATACAGGCC CACGCCGTAG TGATGTATTT TTCGAAAGTA CTGTTGCCAA 9360 GCAGATTGCC TTGATCGAAG CTGGACATCA GGAACCAAAA TTAAAAGTTG GCAATTTAGC 9420 AAGCGTACGT ACTTTCCAAG ATGCTAGAGA CGCTGTGCGT GCATACTATT TATTAGCTCT 9480 GGAGAGCGAA AAAGGGAATG TTCCTTTCGG CGAAGCATTT AATATTGCAG GTGAAGAAGC 9540 ATTCAAACTT CCTGAGGTTA TAGACCTTTT ACTGAGCTTT AGCACTCGTG ACGATATTGA 9600 AGTTGTTACA GATACAGATC GCCTGCGTCC TATTGATGCC GATTACCAAA TGTTTGATAA 9660 TACTAAAATC AGGAATTTCA TTGACTGGAA ACCGGAAATA AAAGCGACAG ATATGTTTCG 9720
dmhA基因的终止 TGATTTACTC CAGCACTGGA GAAAAGAAAT CGCATCTGGC CGCATTCCTC TGAATCGT TA 9780
hddA基因的起始 ATAGGGATTC TTTTGTT ATG AAAGTTAGAA GCAAAGCGCC TCTACGTTTA GGCATTGCAG 9840 GAGGTGGGAC AGATGTTTCA CCTTATAGCG ATACATTCGG TGGGTGTGTA CTGAATGCGA 9900 CCATCAATAT GTATGCGTAT GCTTACATTG ATGATGAGCT TGAAGGTAGT AAAGTTATTT 9960 TTGAGGCAAC CGACCTTAAT ATCAGAGAAG AGATTGATCT TACCAATGGT GTAACGATTG 10020 AGGGGAAGCT AAAACTGCAT CGAGCAGTTT ACCTTCGAGT CATGAATGAT TATTTTGACG 10080 GCGAATTAAA ACCGGTTCGT ATCATTACTC ATTCTGACGC TCCTGCAGGT AGCGGTTTGG 10140 GGTCATCATC GACGGTTGTT GTTTCAATGC TTGAAGGACT ACGGCAAATG TATTCTCTGC 10200 CTCTTGGAGA ATATGATCTG GCCCAGTTAG CATTCAAGAT TGAGCGAGTA GACTGTGGTT 10260 TATCAGGTGG TAAACAAGAT CAGTATGCTG CAACATTTGG TGGTTTTAAT TTCATGGAGT 10320 TTTATGAAGG TAATCGCGTT ATTGTTAACC CACTTAGAAT TCGTAGATAT ATAATAAATG 10380 AGTTAGAGTC ATCCCTGATT CTTTATTTTA CAGGGGCTTC GAGAGACTCT GCGAAAATTA 10440 TTGATGACCA GATTAGATCT TTAGAGAGTG ACAAAGAGTC TAAACTGATG GCTATGCATA 10500 AAGTTAAAGA ATCAGCATAT CAGATTAAAG AACACTTACT CAAATCTGAT ATCGATGCTA 10560 TGGCCGCGAC ATTCCTGGAT GCATGGGAAA GTAAGAAAAA CACCTCATCG TCAATCAGTA 10620 ATCCGATGAT TGAGAAAATC GAGAAGGAAG TGTTTAGTAT CGGTGTTAAG TCAATGAAAG 10680 TTTCAGGTGC CGGTGGCGGT GGTTTTATGA TGCTATTCGT TGAACCGGAG CGAAAACAGT 10740 TGATCGAACG TAAACTACAA GAGTTTGGTG GCGAAGTCTA TAAATTCCAA TTTGTCGAGG 10800
gmhA基因的起始hddA基因的终止 ATGGAGCATA TTC ATGGACA ATG TAAATTA TATTAAAGCA TATCTTGATG ACAGCATTGC10860 AGTAAAAAAA TTGCTTCAGG AATCTGACAG TGTATTGAGC CAAATCTCTT TAGTTGCAGA 10920 TTTGATTATC AATGCATATA AAAACGGGAA TAAAGTAATT CTTGCCGGGA ATGGTGGTAG 10980 TGCTGCTGAT TCTCAGCATA TCGCGGCTGA GTTCGTCAGT CGCTTCTTTT TCGATAGACC 11040 AGGATTACCA GCCATTGCTA TCACCACTGA TACCTCGATG CTAACGGCTA TCGGCAATGA 11100 CTACGGATTT GATAAACTAT TTGCAAGACA ACTGCAAGCT CAAAGCAAGC CAGGTGATGT 11160 TTTCATTGGC ATCAGTACTT CAGGTAACTC CGTTAATATC ATTAACGCGA TGGAACTGGC 11220 AAAAGAACTG GGTGTGACAA GCGTGGCGCT ATGTGGTGAA GCAGGTAAGC TTAAAGATTT 11280 GGTAGACTAT TCAATTAATG TACCTTCTAA AATTACACCA TACATTCAAG AATGCCATAT 11340 TTGCATTGGT CATATGATCT GCGCAATTGT TGAACGTGCC ATTTTCAAAC CAGAAGATAA 11400 gmhA基因的终止hddC基因的起始 A TAATT ATGT ATGATGTAGT TATTTTGGCA GGAGGGCTAG GTACTCGTCT GAAGAGTGTT11460 AGTGGCGAGC TTCCTAAGCC AATGGTAGAT ATTTCAGGGC AACCATTTCT TTATCGTCTA 11520 ATGACGTATC TTGAAAAACA AGGAGCTACC AGAATTATAC TATCATTATC CTACAAAGCT 11580 GACTATATCA TCGACAGGGT TGTCCATGAC AACCCTGTTG GTTGTGAGGT TGACTTTGTT 11640 GTCGAAAAAG AACCTCTAGG AACTGGTGGC GCAATTAAAT ATGCCAGTTC TAAAGTCAGA 11700 ACGGATAAAT TCATTGTTCT TAATGGTGAT ACGTACTGCG AGCTTAATTA TAGTGACTTC 11760 ATAGAAGCTT CGAAGGGAAC AGATCTTCTA ATATCTGGTG TCGAAGTTAA TGATGTCGCT 11820 CGTTATGGTA GTTTAGATTT AGATGAGAAA TCTAATGTTA ATGCTATGGT AGAAAAGGGA 11880 AGAACTGGCC CTGGAATTAT TAACAGTGGA ATTTATATTG TCTCAAAGGA AATTATGAGC 11940 AAGTTTGCTG GGAATAAATT TTCTTTTGAA TCTGATTTTT TGCCTAAATT CAAAGGAGAG 12000 TTTAAGGCCT ACGTTAATTC CTCATATTTT ATCGATATAG GAATTCCTGA AGATTATTTC 12060
gmhB基因的起始hddC基因的终止 ATTGCATGTG AGAGATTTAA ATGAAAGTGG CATTTCTTGA TCGCGATGGT GTAATTAATA 12120 AGGAAGTCAA TTATCTATAT AAAATTGAAG ATTTTGAATT TACCAAAAAC TGTATCAGTG 12180 GCATGAAAAG ATTTATTGCT CATGGTTATA AAATAATCAT TGTGACAAAT CAGGCCGGAA 12240 TTGCCAAAGG ATATTACACC TTATCTGATT ATGATAAATT GACAAAGTGG TATAGGGGTA 12300 TCTTGAAATC ACAGGGTATC GATATATTAG ATATCTATTA TTGCCCTCAT CATCCAGATG 12360 GAATTGGCCC TGAATATCGA TGTGATTGTC CGTGCCGCAA ACCTAATACG GGTATGTTCG 12420 AGTCTGCAGC TCGTGATTAT TCCATTGACT TAAAACAATC TTTTATTGTT GGTGATAAAC 12480 TGGGTGATGT AGAAGCCGGA TTAAAGTTTG GGTTGGGCCG AGTTTTTTTA GTTGAGACGG 12540 GCCATCAGAT TCCTGCTGTA GGTTATGCCA CATATCCAGT TTATTCTGAT CTGTTATCTA 12600 orf14基因的起始gmhB基因的终止 TTCCA TTATG AAAAACACAA TCACCAGATT TTTGAAGAAA GCTTTTGTTA AATTCAGGTA 12660 TACCAGGCTC GCACGTAAGC TTTGGAAATT ATTTGCCCTC ATGGTTAACG CTCATTACCC 12720 AAGGCGGTTA TTAATTAAAG CGTTGAACGT TAATGCTGAA CAAAATGCAA ATGAATTTAC 12780 TGTTTTTCCA AAAATTTTAA AGTCAAGTTC AGATAAAAAT GCGCTAGTCA TTATGCCTTT 12840 TTATGGAAAT GATGCCGTCG GGAAAAATAT TGATACAAAA ATTGCGACAT TAAAATCCCT 12900 AGGATTCACA ATTCACGCTA TTGTTTTCAA TAATTCACCT TGGGATTCAA ATAGTGTTGA 12960 TTGGGATTAT ACTTATAATA TAAAATGTCG GAACGGAAAG TTCGGCACTC TAAGACACGA 13020 TGTCAATCAG CAAATAATTC CTGATGGAAA TAAAATTGAC GATTGGCTTG ATGATGAAAT 13080 ATGTCAATTT GTTGCTGCAC TTTCTGCGAT GAATAATTAT CAGATTGCAA TTGTTAATTA 13140 TGTCTTCCTG TCAAAATTGT GTTTATATCT TAAACCTAAT ACAGTCTCAG TGATCGATAC 13200 TCACGATGTT TTTGCTAAGA GGAACACTCG AATGGCAAAA ATTGGTATTT CACAAGATAA 13260 ATTCTATTTC TCTACATCGA AGAAAGAAGA AACCATTGGG TTATCAAGAG CTAATTATAT 13320 ATTTGCTATT CAAGAAGCAG AAGGCCGTTA CTTCAGGGAG AATGTTAGTT CCCAAGTCAT 13380 TGTTCAGCCA CCTATTCTGG ACGTAAACTT TATTGATTAT GTCCCAACAT CCAATAAAAA 13440 GATCGTTGTT GGCTTTATGG CCTCTGGGCA CTATCCAAAT GTCGTTGCGA TCAACAATTT 13500 TATCGATAGC TTAAGTAAAC TTGATCATAA TGTAAGACTC GATATTTCAG GAACAATTTG 13560 CGGAGCTCTT GAAGGTAGAC AGTACCCTGG TTTTGTTAAT ATCCTCGGTT TTTGTGAGAG 13620 CCTTGATAAG TTCTACCATT CCTGCGATGT AATTATCAAT CCAGATGAAT TACTTTCAGG 13680 GTTGAAAGTT AAATGTCTGG AGGCGCTTTC TTATGGTGTT CCATTAGTTT CAACTAAAGC 13740 TGCTATGGAA GGGATTGAGT CGACAGAAGA GTACCATCAG ATCGAATCTG CGCAAAAGTG 13800 TGCTGAGTTC ATTACATCGC TTAAAAAAGA TGAGCTCATT AACATGGCTA CTCATAGTCG 13860 AAATGTCTTT GCCAACTTTA ATCAGCGCTA TAATTTCCAA TCCACTTTGC GAAAGGTTTT 13920 orf15基因的起始orf14基因的终止 GAAAGACA AT GGG TGATGAT ATCTTTAAAA TTTCCGTTAT TTTACCTGTA TACGGCGGCG 13980 AAGTTTATTT AGAGCAATGT CTCGACAGTG TTCTGTCTCA AACATATAAG AATCTGGAAA 14040 TAATAATAGT CAATGACGGT AGCCCTGATG CTTGCCCTCA GATTATTGAT CGATACGCTT 14100 CGAGCGATAC AAGAATCATT GCTATCCATA AAAAAAACGC AGGTTACGGA GCTGCAATCA 14160 ACTCTGGGCT AGATGTTGCA AGCGGCGATT TTATTTCTAT CATCGAAACA GACGATTGGG 14220 TTCAGCTTGA TATGTTTGAG CGTCTAATAG ACGCTTATAA TAAAATCCCG AATCCGGTCA 14280 TTAAAGCAAG TTTCAATAGA ATAAGTAATG AAGTTGTAAT CAATACTCAG TCCCTTGCGC 14340 ATTTATGTAC ATTTGATAAT GATAACTTGG CAGAAATTGT ACCAGAAAAT TCAGTTGAGC 14400 TTTTCTTGCT TGAATCATCA ATCTGGACTG GCTTGTATAG AAGAGATTTT CTTGAAGAAA 14460 ATCATATTCG CTTCTATGAA AGTCCTGGGG CTTCATATCA GGATATGCCC TTTAAATTCA 14520 TCACCTATGC CTCTGTAGAA AAGATAACTC TTTTGAATGT GCCTGTTTAT AACTACAGGG 14580 TCATGAACGT GGGCTCATCC AGTGCTAGTG CTGACAAGGC ATTAATATCT TTTAATAATT 14640 ATGATATTAT AAAAAAACAC CTTCTTAGTG TTGGAACGTT TCAAAAATAC CTGAATCATT 14700 TTTATTTTCA CCATCTTTTT GATTTAGTTT TCCATTATTC TCGTTTGAGA GGCGATGGAT 14760 TGAAGTCATA TCAGGAAGCT GCTATTGCTG TTTTTGAACA GGCTAAAGAA GAAGGTTTCC 14820 AGCCAGTAAC TTCTAATGTT TCATTTTCCT CCGATACAAA TGACTATTAT TATAATCATG 14880 TTCTTCCAAT TTATAATGAG TTGATGAGTA ACAGGATTAT AAAAACAGTT CAGACAAGAA 14940 ACAGGATTAA AAAGAAAGTC GTTTCCAAAC TACGTTTTAT TACTAACAAA TTAATAATTG 15000 AACCAATTAT TAATGCTGTT TCATCAAAAA TGGATTCCTC CTCATCTTTA CTTTCCAAAC 15060 ATTTTCGGGA GGAGTTAGAT TCTTCATTTT TGAAGATGTC GAAAGAACTT ACTGATAAAG 15120 TCGATGTCAT TTCAGGACAG AATAAAAATG GTTCTGTACT AATAAAAGTA GCGCCTACTA 15180 ACCAGTTTTA TTATTACATG AAGGTAAATT CCTCTCGGAT CTCTAAACTA CGTGAAGAAT 15240 TCAAACGCGG CCTTGATGAA TTTAGCCTTC AAAATGAGAG GAAATTATTT GGTTTTTATG 15300 AATTACTGCC ATACTTTGAA CATCAAGGCA TTGAGTTGGA ATTACCTTTA TCTTTAACAT 15360 TATTTACGGA TGAAGATAGA GTTATATTGT CAAATATTGA TTCAATCTTA CGTCACGAAA 15420 AAGAATTAAT TCAGCATCTT GATCTATCTG AATTACCGGT TACTCTAGCA ACCAACTATT 15480 TCAAAGCTGG CTTGAAGTAT CTTCCAGGCC GATTCACTGA AGAATTCAAA GGCTCTGTTG 15540 CTATAGATTG TGGGGCTTGG GTTGGTGATA CAGCTATCAT GTTCGCTAGC TTTGGATTTA 15600 AAGAAGTACT TGCCTTAGAA CCTGTAGCTG ATAATTATAA CTGTATGGTT CGGAATCTTG 15660 AGCGTAATCA TCAATATTTA AATGATACTA TTAAACCCTT AAATGTTGCT GTCAGCAATG 15720 TATCTGGCGA ACTTTCGATG ATGAAAGTTG GGGATGATGG AGTAGGCTCA TGTGTTGTTG 15780 AAGACGAGCA GTCTGACATT AAAGTTCAAT CGGTCACTAT TGATAGTCTG ACGTTTGAAG 15840 ATCGTGTTGG TTTGATTAAA TTCGATATTG AAGGCTATGA GATTAATGCC CTTAATGGTG 15900 CAATCGAGAC AATCAAAAAA CACAAGCCCG TGTTGCTGAT TTCTGTTTAT CACTTGTGGT 15960 TGCAGCCAGA GCAAATTTTT GAATGTAAGA AATTTGTTGA AAATCTCAAT ATGGGTTATC 16020 AATTCAAGTT TGTTCACCTC CAGCCTGAGC GTGATCTGGT GTATGAATAC ATGCTTGTGT 16080 orf15基因的终止 GTTGG TGATT TGTAATAGTC TTTATTTTGA TTCACAAACA AATCAGGGAT GATTTGTTTT 16140 GCTTTATTTA AAACTGATAT TTTCTTCGAA GTATAAGATG ACGTGCTGAG GTTTTAAATT 16200 orf16基因的起始 T TAACAGGAT AATAGCTTAA GGAAGGAGAT GTGAGTTTTA AATATGAAAA TAAAGATATG 16260 TTATTTTGTG AACTCCGCTT GGTATTTCGA ATTACATTGG TTAGATCGTG CCTTATCAGT 16320 TCTGGAAGCA GGATATGATG TCTATATTTT TGCGAATTAT TCTGACAAGT CTATTCTGGA 16380 TCGCTTTACT AGTTTAGGAT TTAAGTGTAT TGATAGTAAA ATAAAAGAGC AAAATATCAA 16440 TCCTGTTGTT TTCTTTTGCG ATATAACTCG CTCATTTAGA ACATTGAATA AAATTAATCC 16500 TGATATTGTG CATAGCCGCA CGATTAAACC TGGTGTGATT AGTTGTTTAT GGGCCAGAAT 16560 CCGAAACAAA AAAATGGTCT ATAGTTTTGT TGGGTTAGGT AGAGTTTTTG AAAGCAATAA 16620 GGTCATTTAC CAAATGGTTA AGTTCTTAAT TGCTAATATG TATAGAAGAT TTTTCTTAAA 16680 TATTGATTGT TGTATCCTCT TTGAACATAA AAAAGATCAG CAAAAAATAA TTGAACTATT 16740 AGATATTCCA AAAAATAAAA CTGAAGTTAT TGATGGCGCA GGTATTAATA TAGACTATTT 16800 TTGTTATAGT ACACCACCTA ATAATACCAA GGTTAAAGTT TTTTTTGCAA GTCGCATGCT 16860 TTGGAGTAAA GGGCTACGCA CGTTAATTGA TGCTAGTAGA ATTTTAAAAT TACAAGGCAT 16920 CGAATTTGAG ATATTAGTTG CGGGCATTCT TGTTGACAAT GATCGCGACG CTATAAGTAT 16980 AACTCAGATA GAAGAGTGGC ATAACTCCGG TGATATCATT TGGCTGGGCA AGCGTAGCGA 17040 TATCAAGGAA TTAATTGAAA GTGTGGATAT AGTCGCTTTG CCATCTGTTT ACTCTGAAGG 17100 TATTCCTCGA ATTCTTTTAG AAGCCGGTGC AATCGGTCGT CCTGTTATAA GTTTTGACAC 17160 TGGTGGTTGT GGGAGTTTAA TACTTGACGG TTATAACGGT TTCCTTGTGC CTAAAGGAAA 17220 TGTGAACCTA TTTTCTCAGA AGCTTGGTAT CCTTATTAGC GATCCTCTTG AGCGCACTAA 17280 GATGGGGCAG AATGCCAGAA AGCGAGTAGA GGAAAAGTAT TCATCTACCG TTGTCATACG 17340
orf16基因的终止 AAAAACCGTT CAAATCTATA ATAAACTCAC AATGCAAGAA GTGCTC TAAT ATTGAGCAAC 17400 AACTTATCTG AGCTTGTCGC TATGCGTTTT TTTAGTTACT TATGACAGTT ATTAATTTCA 17460 CTCAAACATC TATTTCTTTA TACAACTTGT CGTTCTCCTA ATATATAATT TCTTAAATTC 17520 TGTCTGTTCA TAGACAGATA CTACCTGACA GGAGTATGTA ATGTCTAAGC AACAAATCGG 17580 CGTAGTCGGT ATGGCTGTGA TGGGGCGCAA CCTGGCGCTC AACATCGAAA GCCGTGGTTA 17640 TACCGTCTCT ATCTTCAACC GCTCCCGTGA AAAAACCGAA GAAGTTGTCG CTGAGAATCC 17700 AGGCAAAAAG CTGGTTCCTC ACTACACGGT CAAGGAGTTC GTCGAGTCTC TTGAGACCCC 17760 ACGTCGTATC CTGTTAATGG TGAAAGCAGG CGCGGGCACC GATGCTGCCA TCGATTCCCT 17820 GAAACCTTAC CTTGATAAAG GTGACATCAT CATTGATGGT GGTAACACCT TCTTCCAGGA 17880 TACCATTCGT CGTAACCGTG AGCTGTCTGC TGAAGGCTTT AACTTCATCG GTACCGGCGT 17940 ATCCGGCGGC GAAGAGGGCG CGCTGAAGGG CCCATCTATC ATGCCTGGCG GCCAGAAAGA 18000 AGCGTATGAG TTGGTTGCGC CTATCCTGAC CAAGATTGCT GCTGTAGCTG AAGACGGCGA 18060 GCCTTGCGTA ACCTACATCG GTGCTGACGG TGCGGGTCAT TACGTGAAAA TGGTCCACAA 18120 CGGTATCGAA TACGGCGACA TGCAGCTGAT TGCTGAAGCC TATTCTCTGC TGAAAGGCGG 18180 CCTGAACCTG TCTAACGAAG AGCTGGCAAC CACCTTCACC GAGTGGAATG AAGGCGAGCT 18240 GAGCAGCTAC CTGATCGACA TCACCAAAGA CATCTTCACC AAAAAAGATG AAGACGGTAA 18300 ATACCTGGTT GATGTGATCC TCGACGAAGC GGCGAACAAA GGCACCGGTA AATGGACTAG 18360 CCAGAGCTCT CTGGACCTGG GCGAACCGCT GTCGCTGATC ACTGAATCTG TTTTCGCGCG 18420 CTACATCTCC TCCCTGAAAG ACCAGCGCGT GGCGGCATCT AAAGTGCTGA CTGGCCCGCA 18480 GGCTAAACTG GCTGGCGATA AAGCAGAGTT CGTTGAGAAA GTGCGTCGCG CACTGTACCT 18540 GGGTAAAATC GTCTCCTACG CGCAGGGCTT CTCTCAGCTG CGTGCCGCGT CTGACGAGTA 18600 CAACTGGGAT CTGAACTACG GCGAAATCGC GAAGATCTTC CGCGCGGGCT GCATCATTCG 18660 TGCACAGTTC CTGCAGAAAA TCACCGACGC CTACGCTGAA AACGCGAGTA TCGCCAACCT 18720 GCTGCTGGCA CCGTACTTCA AAAATATCGC TGATGAATAC CAGCAGGCGC TGCGTGACGT 18780 GGTGGCCTAT GCTGTGCAGA ACGGTATTCC GGTACCGACC TTCTCTGCAG CAGTGGCGTA 18840 CTACGATAGC TACCGCGCTG CGGTACTGCC GGCGAACCTG ATCCAGGCAC AGCGCGACTA 18900
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上 的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等 同变化与修饰,均仍属于本发明技术方案的范围内。