合理设计的合成抗体文库及其用途 |
|||||||
申请号 | CN200880116593.0 | 申请日 | 2008-09-12 | 公开(公告)号 | CN101855242A | 公开(公告)日 | 2010-10-06 |
申请人 | 阿迪马布公司; | 发明人 | M·瓦斯克斯; M·费尔德豪斯; T·U·格恩格罗斯; K·D·维特拉普; | ||||
摘要 | 本 发明 提供通过特别设计具有定向序列多样性和长度多样性的文库来克服产生编码 抗体 的多核苷酸文库已知方法的固有缺点的方法。所述文库被设计成反映由人免疫系统天然产生的免疫前抗体库并且基于对公众可获取的人抗体序列 数据库 的分析研究所获悉的合理设计。 | ||||||
权利要求 | 1.一种合成多核苷酸文库,其中所述多核苷酸编码至少106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列包含: |
||||||
说明书全文 | 发明背景抗体作为研究工具以及在诊断和治疗应用中具有重要意义。然而,有用抗体的鉴定十分困难,而且一旦被鉴定出来,常常需要相当可观的重新设计或‘人源化’后,才适合于治疗用途。 用于鉴定所需抗体的现有方法通常包括代表性抗体的噬菌体展示,所述代表性抗体例如通过扩增得自B细胞或组织的核酸而获得的人文库(human libraries),又或者合成文库。然而,这些方法都有局限性。例如,本领域已知的大多数人抗体文库只含有可通过实验从来源(例如B细胞)俘获或克隆的抗体序列多样性。因此,人抗体文库可能完全缺乏或不足以代表某些有用的抗体序列。本领域已知的合成文库或共有序列文库还有其它局限性,例如编码非天然存在(例如非人类)的具有免疫原性潜力的序列的可能。此外,本领域的某些合成文库受以下两种限制中的至少一种所困:(1)文库在理论上可能含有的成员数目(即理论多样性(theoretical diversity))可能大于实际上可以合成的成员数目,和(2)实际合成的成员数目可能大得无法筛选出物理实现(physical realization)的文库中的每个成员,因此降低了可以分离具有特定性质的文库成员的概率。 例如,能够筛选出1012个文库成员的物理实现的文库(例如酵母展示、噬菌体展示、核糖体展示等)可能只采集到包含在具有1013个成员的文库中的序列的约10%。假定CDRH3长度中位值约为12.7个氨基酸(Rock等,J.Exp.Med.,1994,179:323-328),仅CDRH3中的理论序列变异体数就大约有2012.7种,即约3.3×1016种变异体。这一数字未计入发生在CDRH1和CDRH2、重链构架区以及与不同轻链配对中的已知变异,每条轻链还在其相应的CDRL1、CDRL2和CDRL3中具有变异。最后,从这些文库中分离出的抗体常常不适于改进候选分子结合的合理亲和力成熟技术。 因此,存在对具有有系统地代表候选抗体的定向多样性(directeddiversity)的较小(即能够合成和物理实现的)抗体文库的需要,所述候选抗体是非免疫原性的(即更似人的)并具有所需性质(例如识别大量抗原的能力)。然而,要获得这类文库需要权衡限制文库所代表的序列多样性(使得能够合成和物理实现,可能具有超采样(oversampling),同时限制引入非人类序列)而同时保持足以识别大量抗原的多样性水平的竞争目的。在本发明之前,本领域已知“虽然含有重链CDR3长度多样性的文库已有报道,但是无法合成编码天然重链CDR3库(repertoire)中存在的序列多样性和长度多样性两者的DNA”(Hoet等,Nat.Biotechnol.,2005,23:344,通过引用其全部予以结合)。 因此,最好是具有下列特征(a)~(e)的抗体文库:(a)可以容易地合成,(b)可以物理实现并且在某些情况下可以超采样,(c)含有足够的多样性以识别由免疫前人抗体库(preimmune human repertoire)所识别的所有抗原(即在负选择之前),(d)在人体内是非免疫原性的(即包含人源序列),和(e)含有CDR长度多样性和序列多样性,以及构架多样性,代表了天然存在的人抗体。本发明的实施方案至少首次提供具有这些所需特征的抗体文库(antibody libraries)。 发明概述 本发明至少涉及多个合成多核苷酸文库、产生和使用本发明文库的方法、包括本发明文库的试剂盒和计算机可读形式。在一些实施方案中,本发明的文库被设计成反映由人免疫系统天然产生的免疫前抗体库(preimmune repertoire),并且本发明的文库基于对公众可获取的人抗体序列数据库的分析研究所获悉的合理设计。应当了解的是,下文中描述了本发明的某些非限制性实施方案。正如本说明书全文中所描述的一样,本发明还包括许多其它的实施方案。 在某些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码至少106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列包含: (i)0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1氨基酸序列相应位置上12个最频繁出现的氨基酸之中; (ii)人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列; (iii)0~约3个氨基酸的N2氨基酸序列,其中N2氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和 (iv)人CDRH3H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。 在其它实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码至少约106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列包含: (i)0~约3个氨基酸的N1氨基酸序列,其中: (a)最N-端的N1氨基酸,如果存在,则选自R、G、P、L、S、A、V、K、I、Q、T和D; (b)第二最N-端的N1氨基酸,如果存在,则选自G、P、R、S、L、V、E、A、D、I、T和K;和 (c)第三最N-端的N1氨基酸,如果存在,则选自G、R、P、S、L、A、V、T、E、D、K和F; (ii)人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列; (iii)0~约3个氨基酸的N2氨基酸序列,其中: (a)最N-端的N2氨基酸,如果存在,则选自G、P、R、L、S、A、T、V、E、D、F和H; (b)第二最N-端的N2氨基酸,如果存在,则选自G、P、R、S、T、L、A、V、E、Y、D和K;和 (c)第三最N-端的N2氨基酸,如果存在,则选自G、P、S、R、L、A、T、V、D、E、W和Q;和 (iv)人CDRH3 H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。 在又一些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码至少约106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列与下式所表示的氨基酸序列有至少约80%相同: [X]-[N1]-[DH]-[N2]-[H3-JH],其中: (i)X是任何氨基酸残基或无氨基酸残基; (ii)N1是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合; (iii)DH是选自以下的氨基酸序列:由IGHD1-1、IGHD1-20、IGHD1-26、IGHD1-7、IGHD2-15、IGHD2-2、IGHD2-21、IGHD2-8、IGHD3-10、IGHD3-16、IGHD3-22、IGHD3-3、IGHD3-9、IGHD4-17、IGHD4-23、IGHD4-4、IGHD-4-11、IGHD5-12、IGHD5-24、IGHD5-5、IGHD-5-18、IGHD6-13、IGHD6-19、IGHD6-25、IGHD6-6和IGHD7-27编码的不包括终止密码子的所有可能读框及其N-端和C-端截短; (iv)N2是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;和 (v)H3-JH是选自以下的氨基酸序列:AEYFQH、EYFQH、YFQH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV,或者与它们之中的任一个有至少80%同一性的序列。 在又一个实施方案中,本发明包括其中所述文库基本由众多多核苷酸组成,所述多核苷酸编码与下式所表示的氨基酸序列有至少约80%相同的CDRH3氨基酸序列: [X]-[N1]-[DH]-[N2]-[H3-JH],其中: (i)X是任何氨基酸残基或无氨基酸残基; (ii)N1是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合; (iii)DH是选自以下的氨基酸序列:由IGHD1-1、IGHD1-20、IGHD1-26、IGHD1-7、IGHD2-15、IGHD2-2、IGHD2-21、IGHD2-8、IGHD3-10、IGHD3-16、IGHD3-22、IGHD3-3、IGHD3-9、IGHD4-17、IGHD4-23、IGHD4-4、IGHD-4-11、IGHD5-12、IGHD5-24、IGHD5-5、IGHD-5-18、IGHD6-13、IGHD6-19、IGHD6-25、IGHD6-6和IGHD7-27编码的不包括终止密码子的所有可能读框及其N-端和C-端截短; (iv)N2是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;和 (v)H3-JH是选自以下的氨基酸序列:AEYFQH、EYFQH、YFOH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV,或者与它们之中的任一个有至少80%同一性的序列。 在另一个实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码一种或多种全长抗体重链序列,并且其中该重链的CDRH3氨基酸序列包含: (i)0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1氨基酸序列相应位置上12个最频繁出现的氨基酸之中; (ii)人CDRH3 DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列; (iii)0~约3个氨基酸的N2氨基酸序列,其中N2氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和 (iv)人CDRH3 H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。 下面的实施方案可贯穿应用于本发明的实施方案。一方面,一种或多种CDRH3氨基酸序列还包含N-端尾残基。又一方面,N-端尾残基选自G、D和E。 再一方面,N1氨基酸序列选自G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合。在某些其它方面,N1氨基酸序列可以有约0~约5个氨基酸。 再一方面,N2氨基酸序列选自G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合。在某些其它方面,N2序列可以有约0~约5个氨基酸。 再一方面,H3-JH氨基酸序列选自AEYFQH、EYFQH、YFQH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV。 在其它实施方案中,本发明包括合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+1对中的至少一对在CDRH3氨基酸序列的中心环(central loop)内出现的百分比在下列规定范围内: Tyr-Tyr的量为约2.5%~约6.5%; Ser-Gly的量为约2.5%~约4.5%; Ser-Ser的量为约2%~约4%; Gly-Ser的量为约1.5%~约4%; Tyr-Ser的量为约0.75%~约2%; Tyr-Gly的量为约0.75%~约2%;和 Ser-Tyr的量为约0.75%~约2%。 在又一些实施方案中,本发明包括合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+2对中的至少一对在CDRH3氨基酸序列的中心环内出现的百分比在下列规定范围内: Tyr-Tyr的量为约2.5%~约4.5%; Gly-Tyr的量为约2.5%~约5.5%; Ser-Tyr的量为约2%~约4%; Tyr-Ser的量为约1.75%~约3.75%; Ser-Gly的量为约2%~约3.5%; Ser-Ser的量为约1.5%~约3%; Gly-Ser的量为约1.5%~约3%;和 Tyr-Gly的量为约1%~约2%。 在另一个实施方案中,本发明包括合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+3对中的至少一对在CDRH3氨基酸序列的中心环内出现的百分比在下列规定范围内: Gly-Tyr的量为约2.5%~约6.5%; Ser-Tyr的量为约1%~约5%; Tyr-Ser的量为约2%~约4%; Ser-Ser的量为约1%~约3%; Gly-Ser的量为约2%~约5%;和 Tyr-Tyr的量为约0.75%~约2%。 在本发明的一个方面,在该文库中,所述规定的i-i+1对中的至少2、3、4、5、6或7对在规定范围内。在另一个方面,CDRH3氨基酸序列是人的。在再一个方面,所述多核苷酸编码至少约106种独特的CDRH3氨基酸序列。 在本发明的其它方面,所述多核苷酸还编码一种或多种是CDRH3氨基酸序列的N-端的重链chassis氨基酸序列,并且所述一种或多种重链chassis序列选自由IGHV1-2、IGHV1-3、IGHV1-8、IGHV1-18、IGHV1-24、IGHV1-45、IGHV1-46、IGHV1-58、IGHV1-69、IGHV2-5、IGHV2-26、IGHV2-70、IGHV3-7、IGHV3-9、IGHV3-11、IGHV3-13、IGHV3-15、IGHV3-20、IGHV3-21、IGHV3-23、IGHV3-30、IGHV3-33、IGHV3-43、IGHV3-48、IGHV3-49、IGHV3-53、IGHV3-64、IGHV3-66、IGHV3-72、IGHV3-73、IGHV3-74、IGHV4-4、IGHV4-28、IGHV4-31、IGHV4-34、IGHV4-39、IGHV4-59、IGHV4-61、IGHV4-B、IGHV5-51、IGHV6-1和IGHV7-4-1编码的约Kabat氨基酸1~约Kabat氨基酸94,或者与它们之中的任一个有至少约80%同一性的序列。 在另一个方面,所述多核苷酸还编码一种或多种是CDRH3氨基酸序列的C-端的FRM4氨基酸序列,其中所述一种或多种FRM4氨基酸序列选自由IGHJ1、IGHJ2、IGHJ3、IGHJ4、IGHJ5和IGHJ6编码的FRM4氨基酸序列,或者与它们之中的任一个有至少约80%同一性的序列。在又一个方面,所述多核苷酸还编码一种或多种是FRM4序列的C-端的免疫球蛋白重链恒定区氨基酸序列。 在再一个方面,CDRH3氨基酸序列表达为全长重链的组成部分。在其它方面,全长重链选自IgG1、IgG2、IgG3和IgG4或其组合。在一个实施方案中,CDRH3氨基酸序列的长度为约2~约30、约8~约19或约10~约18个氨基酸残基。在其它方面,该文库中的合成多核苷酸编码约106~约1014、约107~约1013、约108~约1012、约109~约1012或约1010~约1012种独特的CDRH3氨基酸序列。 在某些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多抗体VKCDR3氨基酸序列,所述VKCDR3氨基酸序列在衍生自特定IGKV或IGKJ种系序列的选定VKCDR3氨基酸序列中包含在Kabat位置89、90、91、92、93、94、95、95A、96和97上存在的约1~约10个氨基酸。 一方面,所述合成多核苷酸编码表33中所列举的氨基酸序列中的一个或多个或与表33中所列举的氨基酸序列中的任一个有至少约80%相同的序列。 在一些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多独特的抗体VKCDR3氨基酸序列,所述VKCDR3氨基酸序列与下式所表示的氨基酸序列有至少约80%同一性: [VK_Chassis]-[L3-VK]-[X]-[JK*],其中: (i)VK_Chassis是选自以下的氨基酸序列:由IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列; (ii)L3-VK是由IGKV基因区段(gene segment)编码的VKCDR3部分;和 (iii)X是任何氨基酸残基;和 (iv)JK*是氨基酸序列,选自由IGJK1、IGJK2、IGJK3、IGJK4和IGJK5编码的序列,其中每个IGJK序列的第一残基不存在。 在又一些方面,X可选自F、L、I、R、W、Y和P。 在某些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多VλCDR3氨基酸序列,所述VλCDR3氨基酸序列都与下式所表示的氨基酸序列有至少约80%同一性: [Vλ_Chassis]-[L3-Vλ]-[Jλ],其中: (i)Vλ_Chassis是选自以下的氨基酸序列:由IGλV1-36、IGλV1-40、IGλV1-44、IGλV1-47、IGλV1-51、IGλV10-54、IGλV2-11、IGλV2-14、IGλV2-18、IGλV2-23、IGλV2-8、IGλV3-1、IGλV3-10、IGλV3-12、IGλV3-16、IGλV3-19、IGλV3-21、IGλV3-25、IGλV3-27、IGλV3-9、IGλV4-3、IGλV4-60、IGλV4-69、IGλV5-39、IGλV5-45、IGλV6-57、IGλV7-43、IGλV7-46、IGλV8-61、IGλV9-49和IGλV10-54编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列; (ii)L3-Vλ是由IGλV区段编码的VλCDR3部分;和 (iii)Jλ是氨基酸序列,选自由IGλJ1-01、IGλJ2-01、IGλJ3-01、IGλJ3-02、IGλJ6-01、IGλJ7-01和IGλJ7-02编码的序列,并且其中每个IGJλ序列的第一残基可以缺失或可以不缺失。 在进一步的方面,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多抗体蛋白,所述抗体蛋白包含: (i)权利要求1的CDRH3氨基酸序列;和 (ii)在衍生自特定IGKV或IGKJ种系序列的选定VKCDR3序列中包含Kabat位置89、90、91、92、93、94、95、95A、96和97上存在的约1~约10个氨基酸的VKCDR3氨基酸序列。 在再进一步的方面,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多抗体蛋白,所述抗体蛋白包含: (i)权利要求1的CDRH3氨基酸序列;和 (ii)与下式所表示的氨基酸序列有至少约80%同一性的VKCDR3氨基酸序列: [VK_Chassis]-[L3-VK]-[X]-[JK*],其中: (a)VK_Chassis是选自以下的氨基酸序列:由IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列; (b)L3-VK是由IGKV基因区段编码的VKCDR3部分;和 (c)X是任何氨基酸残基;和 (d)JK*是氨基酸序列,选自由IGJK1、IGJK2、IGJK3、IGJK4和IGJK5编码的序列,其中每个IGJK序列的第一残基不存在。 在一些方面,VKCDR3氨基酸序列包含表33中所列举的序列中的一个或多个或与表33中所列举的序列中的任一个有至少约80%相同的序列。在其它方面,抗体蛋白以异二聚体形式表达。在又一方面,人抗体蛋白表达为抗体片段。在本发明另外的其它方面,抗体片段选自Fab、Fab′、F(ab′)2、Fv片段、双链抗体、线性抗体和单链抗体。 在某些实施方案中,本发明包括从本文所述任何文库的多肽表达产物中分离出来的抗体。 在又一些方面,所述多核苷酸还包含促进同源重组的5’多核苷酸序列和3’多核苷酸序列。 在一个实施方案中,所述多核苷酸还编码替代性支架(alternativescaffold)。 在另一个实施方案中,本发明包括由本文所述的任何合成多核苷酸文库编码的多肽文库。 在又一个实施方案中,本发明包括载体文库,所述载体文库包含本文所述的任何多核苷酸文库。在某些其它方面,本发明包括细胞群,所述细胞包含本发明的载体。 一方面,细胞群的倍增时间为约1小时~约3小时、约3小时~约8小时、约8小时~约16小时、约16小时~约20小时或20小时~约30小时。再一方面,所述细胞是酵母细胞。又一方面,所述酵母是酿酒酵母(Saccharomyces cerevisiae)。 在其它实施方案中,本发明包括具有总的理论多样性为N种独特的CDRH3序列的文库,其中N为约106~约1015;并且其中物理实现的总的理论CDRH3多样性的大小至少约为3N,因此得出包含在文库总的理论多样性内的任何个别CDRH3序列存在于实际文库中的概率为至少约95%。 在某些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多抗体VλCDR3氨基酸序列,所述VλCDR3氨基酸序列在由单一种系序列编码的选定VλCDR3序列中包含在Kabat位置89、90、91、92、93、94、95、95A、95B、95C、96和97上存在的约1~约10个氨基酸。 在一些实施方案中,本发明涉及合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中该文库的总的理论多样性为约106~约1015种独特的CDRH3序列。 在又一些实施方案中,本发明涉及制备编码众多抗体VK氨基酸序列的合成多核苷酸文库的方法,该方法包括: (i)提供多核苷酸序列,其编码: (a)一种或多种VK_Chassis氨基酸序列,选自由IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们中的任一个有至少约80%同一性的序列; (b)一种或多种L3-VK氨基酸序列,其中L3-VK是由IGKV基因区段编码的VKCDR3氨基酸序列部分; (c)一个或多个X残基,其中X是任何氨基酸残基;和 (d)一种或多种JK*氨基酸序列,其中JK*是氨基酸序列,选自由IGKJ1、IGKJ2、IGKJ3、IGKJ4和IGKJ5编码的氨基酸序列,其中每个序列的第一个氨基酸残基不存在;和 (ii)装配所述多核苷酸序列,产生编码众多人VK序列的合成多核苷酸文库,所述人VK序列由下式表示: [VK_Chassis]-[L3-VK]-[X]-[JK*]。 在一些实施方案中,本发明涉及制备编码众多抗体轻链CDR3序列的合成多核苷酸文库的方法,该方法包括: (i)测定在衍生自单一种系多核苷酸序列的选定轻链CDR3氨基酸序列中每个位置上每种氨基酸残基出现的百分比; (ii)设计编码众多人抗体轻链CDR3氨基酸序列的合成多核苷酸,其中在设计的轻链CDR3氨基酸序列内任何位置上的任何氨基酸的出现百分比在衍生自单一种系多核苷酸序列的选定轻链CDR3氨基酸序列的出现百分比在至少约30%的范围内,如(i)中测定的一样;和 (iii)合成一种或多种在(ii)中设计出的多核苷酸。 在其它实施方案中,本发明涉及制备编码众多抗体Vλ氨基酸序列的合成多核苷酸文库的方法,该方法包括: (i)提供多核苷酸序列,其编码: (a)一种或多种Vλ_Chassis氨基酸序列,选自由IGλV1-36、IGλV1-40、IGλV1-44、IGλV1-47、IGλV1-51、IGλV10-54、IGλV2-11、IGλV2-14、IGλV2-18、IGλV2-23、IGλV2-8、IGλV3-1、IGλV3-10、IGλV3-12、IGλV3-16、IGλV3-19、IGλV3-21、IGλV3-25、IGλV3-27、IGλV3-9、IGλV4-3、IGλV4-60、IGλV4-69、IGλV5-39、IGλV5-45、IGλV6-57、IGλV7-43、IGλV7-46、IGλV8-61、IGλV9-49和IGλV10-54编码的约Kabat残基1~约Kabat残基88,或者与它们中的任一个有至少约80%相同的序列; (b)一种或多种L3-Vλ序列,其中L3-Vλ是由IGλV基因区段编码的VλCDR3氨基酸序列部分; (c)一种或多种Jλ序列,其中Jλ是氨基酸序列,选自由IGλJ1-01、IGλJ2-01、IGλJ3-01、IGλJ3-02、IGλJ6-01、IGλJ7-01和IGλJ7-02编码的氨基酸序列,其中每个序列的第一个氨基酸残基可以存在或可以不存在;和 (ii)装配所述多核苷酸序列,产生编码众多人Vλ氨基酸序列的合成多核苷酸文库,所述人Vλ氨基酸序列由下式表示: [Vλ_Chassis]-[L3-Vλ]-[Jλ]。 在某些实施方案中,由本发明文库中的多核苷酸编码的氨基酸序列是人氨基酸序列。 本发明还涉及制备合成多核苷酸文库的方法,该方法包括提供和装配本发明的多核苷酸序列。 在另一个方面,本发明包括制备编码众多抗体CDRH3氨基酸序列的合成多核苷酸文库的方法,该方法包括: (i)提供多核苷酸序列,其编码: (a)一种或多种约0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1序列相应位置上12个最频繁出现的氨基酸之中; (b)一种或多种人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列; (c)一种或多种约0~约3个氨基酸的N2氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和 (d)一种或多种人CDRH3H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列;和 (ii)装配所述多核苷酸序列,产生编码众多人抗体CDRH3氨基酸序列的合成多核苷酸文库,所述CDRH3氨基酸序列由下式表示: [N1]-[DH]-[N2]-[H3-JH]。 在一个方面,一种或多种多核苷酸序列通过分合合成法(split-poolsynthesis)进行合成。 在另一个方面,本发明的方法还包括使装配的合成多核苷酸与包含重链chassis和重链恒定区的载体重组而形成全长重链的步骤。 在另一个方面,本发明的方法还包括提供促进同源重组的5’多核苷酸序列和3’多核苷酸序列的步骤。在又一个方面,本发明的方法还包括使装配的合成多核苷酸与包含重链chassis和重链恒定区的载体重组而形成全长重链的步骤。 在一些实施方案中,重组步骤在酵母中进行。在某些实施方案中,所述酵母是酿酒酵母。 在某些其它的实施方案中,本发明包括分离一种或多种宿主细胞的方法,所述宿主细胞表达一种或多种抗体,该方法包括: (i)在一种或多种宿主细胞中表达权利要求40和46中任一项的人抗体; (ii)使宿主细胞与一种或多种抗原接触;和 (iii)分离一种或多种具有与一种或多种抗原结合的抗体的宿主细胞。 在另一个方面,本发明的方法还包括从一种或多种宿主细胞中分离一种或多种抗体的步骤,所述宿主细胞提供识别一种或多种抗原的抗体。在再一个方面,本发明的方法还包括从一种或多种宿主细胞中分离编码一种或多种抗体的多核苷酸序列的步骤,所述宿主细胞提供识别一种或多种抗原的抗体。 在某些其它的实施方案中,本发明包括试剂盒,所述试剂盒包含编码众多抗体CDRH3氨基酸序列的合成多核苷酸文库,或本文公开的任何其它序列。 在又一些方面,由本文所述的合成多核苷酸文库编码的CDRH3氨基酸序列,或本文公开的任何其它序列都是计算机可读形式。 附图简述 图1表示用于构建文库的在片段(例如CDR3)和载体(例如包含chassis和恒定区)之间的重组示意图。 图2表示自Jackson等人文献(J.Immunol Methods,2007,324:26,通过引用其全部予以结合)编制的重排人抗体序列的N1区和N2区的长度分布。 图3表示自NCBI数据库(附录A)编制的重排人κ轻链序列的CDRL3区的长度分布。 图4表示自NCBI数据库(附录B)编制的重排人λ轻链序列的CDRL3区的长度分布。 图5表示在[DH]-[N2]-[JH]区段连接之前和之后,用于合成CDRH3区的424种克隆载体的示意图。 图6表示重链载体在与CDRH3重组之前的结构示意图。 图7表示整合到重链载体上的CDRH3示意图,以及CDRH3的多核苷酸序列和多肽序列。 图8表示κ轻链载体在CDRL3重组之前的结构示意图。 图9表示整合到轻链载体上的CDRL3示意图,以及CDRL3的多核苷酸序列和多肽序列。 图10表示与预期(即设计)的分布相比,通过用按实施例10所述方法合成的424种载体中的10种转化获得的96个菌落的CDRH3结构域(Kabat位置95~102)的长度分布(实测)。 图11表示与预期(即设计)的分布相比,通过用按实施例10所述方法合成的424种载体中的10种转化获得的96个菌落的DH区段的长度分布(实测)。 图12表示与预期(即设计)的分布相比,通过用按实施例10所述方法合成的424种载体中的10种转化获得的96个菌落的N2区段的长度分布(实测)。 图13表示与预期(即设计)的分布相比,通过用按实施例10所述方法合成的424种载体中的10种转化获得的96个菌落的H3-JH区段的长度分布(实测)。 图14表示与预期(即设计)的分布相比,从按照实施例10.4概述的方法转化(即含有重链chassis和恒定区的载体与CDRH3插入序列共转化)的酵母细胞制备的291种序列的CDRH3结构域的长度分布(实测)。 图15表示与预期(即设计)的分布相比,从按照实施例10.4概述的方案转化的酵母细胞制备的291种序列的[尾]-[N1]区的长度分布(实测)。 图16表示与理论(即设计)的分布相比,从按照实施例10.4概述的方案转化的酵母细胞制备的291种序列的DH区的长度分布(实测)。 图17表示与理论(即设计)的分布相比,从按照实施例10.4概述的方案转化的酵母细胞制备的291种序列的N2区的长度分布(实测)。 图18表示与理论(即设计)的分布相比,从按照实施例10.4概述的方案转化的酵母细胞制备的291种序列的H3-JH区的长度分布(实测)。 图19表示与理论(即设计)的家族来源(familial origin)相比,在291种序列中鉴定的JH区段的家族来源(实测)。 图20表示与理论(即设计)的chassis呈现(chassis representation)相比,文库中16种chassis中每一种的呈现(实测)。VH3-23呈现两次;一次以CAR结尾,一次以CAK结尾。这些呈现被加在一起,正如VH3-33的10种变异体与VH3-30的1种变异体一样。 图21表示从实施例6.2的VKCDR3文库中选出的86种序列的CDRL3长度(实测)与人序列(人)和设计序列(设计)的比较。 图22表示与理论(即设计)的chassis呈现相比,从文库中选出的86种序列中轻链chassis的呈现(实测)。 图23表示相对于Lee等人的免疫前抗体库(Immunogenetics,2006,57:917,通过引用其全部予以结合),本发明的示例性文库中的不同CDRH3长度的出现频率。 图24表示从本发明文库中选出的6种抗体的结合曲线。 图25表示从本发明文库中选出的10种抗体结合鸡蛋白溶菌酶的结合曲线。 发明详述 本发明至少涉及合成多核苷酸文库、产生和使用本发明文库的方法、包括本发明文库的试剂盒和计算机可读形式。本申请所教导的文库至少部分从由其装配的组分方面进行了描述。 在某些实施方案中,本发明提供根据天然存在的人抗体库(humanantibody repertoire)中的组成和CDR长度分布具体设计的抗体文库。据估计,即使不存在抗原刺激,人体也可制造至少约107种不同的抗体分子。众多抗体的抗原结合部位可与多种相关但不相同的表位交叉反应。此外,人抗体库大到足以确保有抗原结合部位去契合几乎任何潜在的表位,尽管亲和力低下。 哺乳动物免疫系统进化成特有的遗传机制,能够使它以十分经济的方式,在转录之前通过在染色体上以组合的方式连接单独的基因区段,产生几乎无限数量的不同的轻链和重链。通过组合装配选自两个或更多个家族的基因区段的DNA序列来合成免疫球蛋白(Ig)链的每一类型(即κ轻链、λ轻链和重链),产生一条多肽链。准确地讲,重链和轻链各自由可变区和恒定(C)区组成。重链可变区由得自以下3个家族的基因区段装配的DNA序列编码:可变(IGHV)、连接(IGHJ)和多样性(IGHD)。轻链可变区由得自用于κ轻链和λ轻链每一个的2个家族的基因区段装配的DNA序列编码:可变(IGLV)和连接(IGLJ)。每个可变区(重链和轻链)还与恒定区再结合,产生全长免疫球蛋白链。 虽然V、D和J基因区段的组合装配使它实质上产生了抗体可变区多样性,但是在前B细胞阶段,通过这些基因区段的不精确连接以及在基因区段之间的接点上引入非模板核苷酸,在体内也会引入更多的多样性。 在B细胞识别抗原后,B细胞被诱导进行增殖。在增殖期间,B细胞受体基因座进行极高速的体细胞突变,突变速度远高于基因组突变的正常速度。发生的突变主要局限在Ig可变区,并包括取代、插入和缺失。这种体细胞超突变使得能够产生表达对抗原具有亲和力增强的抗体的B细胞。这类抗原驱动的体细胞超突变精细调节抗体对给定抗原的应答。 已做过大量努力以产生具有广泛多样性的抗体文库,并模拟抗体针对各种抗原的亲和力成熟的天然过程,尤其是针对与自身免疫病、癌症和感染性疾病等疾病有关的抗原的亲和力成熟的天然过程。最好抗体文库包含针对靶标可以容易地进行筛选的候选结合分子。然而,作为代表性免疫前人抗体库的抗体文库的广阔前景仍然难以捉摸。除上文和本申请全文列举的缺点外,本领域已知的合成文库还常常遇到噪声(即非常大的文库增加了许多表达不好和/或错折叠的序列的存在),同时本领域已知的完整人抗体文库可能倾向于针对某些抗原类别(例如自身抗原)。此外,合成和物理实现技术的局限性限制了本领域抗体文库的功能多样性。本发明最先提供全合成的抗体文库,所述文库代表了人免疫前抗体库(例如在组成和长度上),并且可采用例如高通量方法容易地进行筛选(即它是可物理实现的,并且在某些情况下可以超采样),以获得例如新的治疗药和/或诊断药。 具体地讲,本发明的合成抗体文库具有识别任何抗原(包括人源的自身抗原)的潜力。在已表达的人文库中通常丧失识别自身抗原的能力,因为供体免疫系统通过负选择除去自身反应性抗体。本发明的另一个特征是采用阳性克隆选择筛选抗体文库,例如通过FACS(荧光激活细胞分选仪)避开了产生杂交瘤文库和上清液筛选的标准但繁琐的方法。更进一步,所述文库或其子文库可以筛选多次,以发现针对其它所需靶标的额外抗体。 在进一步说明本发明之前,先给某些术语做了如下定义。 1.定义 除非另有说明,否则本文所使用的所有科技术语具有本发明相关领域普通技术人员通常理解的含义。下面的定义是对本领域现有技术的补充,并且是针对本申请中所描述的实施方案。 术语“抗体”在本文中以最广义的含义使用,准确地讲,至少包括单克隆抗体、多克隆抗体、多特异性抗体(例如双特异性抗体)、嵌合抗体、人源化抗体、人抗体和抗体片段。抗体是一种蛋白质,包含基本上或部分由免疫球蛋白基因或免疫球蛋白基因的片段编码的一条或多条多肽。公认的免疫球蛋白基因包括κ、λ、α、γ、δ、ε和μ恒定区基因,以及无数的免疫球蛋白可变区基因。 “抗体片段”包含完整抗体的一部分,例如其抗原结合区的一个或多个部分。抗体片段的实例包括Fab、Fab′、F(ab′)2和Fv片段、双链抗体(diabodies)、线性抗体(linear antibodies)、单链抗体以及由完整抗体和抗体片段形成的多特异性抗体。 “完整抗体”是包含全长重链和全长轻链及Fc区的抗体。完整抗体亦称“全长杂二聚体”抗体或免疫球蛋白。 术语“可变(的)”是指在序列中具有变异性并参与决定具体抗体的特异性和结合亲和力的免疫球蛋白结构域部分(即“可变结构域”)。变异性在整个抗体可变结构域内不是均匀分布的;它集中在重链可变区和轻链可变区各自的亚结构域内。这些亚结构域称为“超变”区或“互补决定区”(CDR)。可变结构域较保守的(即非超变的)部分称为“构架”区(FRM)。天然存在的重链和轻链的可变结构域各自包含4个FRM区,这4个FRM区大多采用β-折叠构型,通过3个超变区连接形成环,它们再连接β-折叠结构,并且在某些情况下形成β-折叠结构的组成部分。每条链的超变区通过FRM十分接近地保持在一起并且与其它链的超变区一起促成抗原结合部位的形成(参见Kabat等,Sequencesof Proteins of Immunological Interest(免疫目标的蛋白质序列),第5版,美国国立卫生研究院公共卫生局(Public Health Service,NationalInstitutes of Health,Bethesda),Md.,1991,通过引用其全部予以结合)。恒定结构域不直接参与抗原结合,但却具有各种效应子功能,例如抗体依赖性、细胞介导的细胞毒性和补体活化。 本发明的“chassis”表示分别不是CDRH3或CDRL3中的组成部分的抗体重链可变(IGHV)结构域部分或轻链可变(IGLV)结构域部分。本发明的chassis定义为始于FRM1的第一个氨基酸并止于FRM3的最后一个氨基酸的抗体可变区部分。就重链而论,chassis包括的氨基酸包括约Kabat位置1~约Kabat位置94。就轻链(κ和λ)而论,chassis定义为包括约Kabat位置1~约Kabat位置88。与本文提供或公共数据库可获取的相应种系可变结构域序列相比,本发明的chassis可含有某些修饰。这些修饰可以是经工程改造的(例如以去除N-联糖基化位点)或是天然存在的(例如以构成等位基因变异)。例如,本领域已知免疫球蛋白基因库是多态性的(Wang等,Immunol.Cell.Biol.,2008,86:111;Collins等,Immunogenetics,2008,DOI 10.1007/s00251-008-0325-z,在线发表,通过引用其全部予以结合);本发明还包括代表这些等位基因变异体的chassis、CDR(例如CDRH3)和恒定区。在一些实施方案中,可以根据存在于不同患者群的等位基因变异选择用于本发明具体实施方案的等位基因变异体,例如来鉴定在这些患者群中是非免疫原性的抗体。在某些实施方案中,本发明抗体的免疫原性可取决于患者群的主要组织相容性复合体(MHC)基因中的等位基因变异。在本发明的文库设计中,还可考虑这类等位基因变异。在本发明的某些实施方案中,载体中包含chassis和恒定区,并且通过同源重组将CDR3区引入chassis和恒定区之间。 在一些实施方案中,1、2或3个核苷酸可接在重链chassis之后,形成部分(如为1或2个)或完整的(如为3个)密码子。当存在完全密码子时,这些核苷酸则编码称为“尾(tail)”的氨基酸残基,并占据第95位。 本文所使用的“CDRH3编号体系”将CDRH3的第一个氨基酸定义为Kabat位置95(“尾”,当存在时),将CDRH3的最后一个氨基酸定义为位置102。“尾”之后的氨基酸称为“N1”,且当存在时,指定编号为96、96A、96B等。N1区段之后是“DH”区段,指定编号97、97A、97B、97C等。DH区段之后是“N2”区段,当其存在时,被编号为98、98A、98B等。最后,一套“H3-JH”区段的最C-端的氨基酸残基指定编号为102。紧接它之前的残基(N-端)如存在时为101,再前一个(如存在时)为100。为了方便起见,且在别处也是显而易见的,其余的H3-JH氨基酸以倒序编号,自紧接100的N-端氨基酸从99开始,接99的N-端残基为99A,接着为99B、99C等等,以此类推。因此,某些CDRH3序列残基编号的实例可包括下列编号:有N1和N2的13个氨基酸CDR-H3 (95)(96)(96A)(97)(97A)(97B)(97C)(97D)(98)(99)(100)(101)(102) |---|--------|-----------------------|----|------------------| Tail N1 DH N2 H3-JH 无N1和N2的10个氨基酸CDR-H3 (97)(97A)(97B)(97C)(97D)(97E)(97F)(97G)(101)(102) |--------------------------------------|---------| DH H3-JH 本文所使用的术语“多样性”是指多样化(variety)或显而易见的异质性(heterogeneity)。术语“序列多样性”是指在总体上代表序列若干可能性的多种序列,例如天然人抗体中存在的那些。例如,重链CDR3(CDRH3)序列多样性可指已知的人DH和H3-JH区段,包括N1和N2区,结合起来形成重链CDR3序列的多种可能性。轻链CDR3(CDRL3)序列多样性可指天然存在的轻链可变区(构成CDRL3)(即L3-VL)和连接(即L3-JL)区段结合起来形成轻链CDR3序列的多种可能性。本文所使用的H3-JH是指构成CDRH3的部分IGHJ基因。本文所使用的L3-VL和L3-JL分别是指构成CDRL3的部分IGLV基因和部分IGLJ基因(κ或λ)。 本文所使用的术语“表达”包括参与产生多肽的任何步骤,包括但不限于转录、转录后修饰、翻译、翻译后修饰和分泌。 本文所使用的术语“宿主细胞”往往是指要向其中导入本发明多核苷酸的细胞。应当了解的是,这类术语不仅仅是指具体的主题细胞,而且还指这类细胞的子代或可能的子代。因为由于突变或环境影响所致,某些修饰可发生在后续世代,所以这类子代实际上不可能与亲本细胞完全相同,但仍将其包括在本文所使用的术语范围内。 术语“长度多样性”是指特定核苷酸序列或氨基酸序列的长度上的变化。例如,在天然存在的人抗体中,重链CDR3序列的长度呈现不同,例如从大约3个氨基酸到超过大约35个氨基酸不等,轻链CDR3序列的长度也各不相同,例如从大约5个氨基酸到大约16个氨基酸不等。在本发明之前,本领域就已经知道有可能设计出含有序列多样性或长度多样性的抗体文库(参见例如Hoet等,Nat.Biotechnol.,2005,23:344;Kretzschmar和von Ruden,Curr.Opin.Biotechnol.,200213:598;以及Rauchenberger等,J.Biol.Chem.,2003278:38194,各文献通过引用其全部予以结合);然而,本发明至少涉及含有天然存在的人序列的序列多样性和长度多样性的合成抗体文库的设计。在某些情况下,已经合成出含有序列多样性和长度多样性的合成文库,然而这些文库含有太多的理论多样性以致无法合成完整的经设计的所有组成成分(repertoire),和/或有太多的理论成员以致无法物理实现整个文库或对整个文库进行超采样。 如本文所使用的一样,已经特别设计出同时含有序列多样性和长度多样性的具有“定向多样性(directed diversity)”的设计序列。定向多样性不是随机的。 本文所使用的“随机的”是指产生随机确定的氨基酸序列的一种方法,所述氨基酸序列被视为概率分布的一个要素的样本。 术语“多核苷酸文库”是指按照本发明方法特别设计的具有本文所述多样性的两种或更多种多核苷酸。术语“多肽文库”是指按照本发明方法特别设计的具有本文所述多样性的两种或更多种多肽。术语“合成多核苷酸文库”是指包括合成多核苷酸的多核苷酸文库。术语“载体文库”在本文中是指至少两种不同载体的文库。本文所使用的术语“人抗体文库”至少包括多核苷酸文库或多肽文库,被设计成代表天然存在的人抗体的序列多样性和长度多样性。 如本说明书全文中所描述的一样,术语“文库”在本文中以其最广义使用,并且还可包括子文库,子文库可以或不可以结合起来产生本发明的文库。 本文所使用的术语“合成多核苷酸”是指通过化学方法形成的分子,与之相反的是天然来源的分子或天然来源的分子通过基于模板的扩增而获得的分子(例如由B细胞群克隆的免疫球蛋白链通过PCR扩增不是本文所使用的“合成(的)”)。在某些情况下,例如当提及包含多个组分(例如N1、DH、N2和/或H3-JH)的本发明文库时,本发明包括其中至少一种前述组分是合成的文库。举例来说,其中某些组分是合成的文库,虽然其它组分属于天然来源的或者是天然来源的分子通过基于模板的扩增而获得的,也应被本发明所包括。 术语“分合合成法(split-pool synthesis)”是指其中将多个第一次反应的产物混合(合并),然后在参与多个第二次反应之前分离(分开)的一种方法。实施例9描述了278种DH区段(产物)各自在单独的反应中的合成。在合成之后,将这278种区段混合(合并),然后在141个柱中分配(分开)进行N2区段的合成。这使得278种DH区段的每一种能够与141种N2区段的每一种配对。如本说明书其它部分所述,这些数量是无限的。 “免疫前”抗体文库具有类似于天然存在的人抗体序列(在这些序列进行了负选择或体细胞超突变之前)的序列多样性和长度多样性。例如,一般认为,Lee等人(Immunogenetics,2006,57:917,通过引用其全部予以结合)披露的序列组代表了来自免疫前抗体库的序列。在本发明的某些实施方案中,本发明的序列将会类似于这些序列(例如就组成和长度而言)。在本发明的某些实施方案中,将这类抗体文库设计成小到足以化学合成和物理实现,但大到足以编码具有识别任何抗原的潜力的抗体。在本发明的一个实施方案中,抗体文库包含约107~约1020种不同的抗体和/或编码文库抗体的多核苷酸序列。在一些实施方案中,将本发明的文库设计成包括103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019或1020种不同的抗体和/或编码所述抗体的多核苷酸序列。在某些实施方案中,本发明的文库可包含或编码约103~约105、约105~约107、约107~约109、约109~约1011、约1011~约1013、约1013~约1015、约1015~约1017或约1017~约1020种不同的抗体。在本发明的某些实施方案中,文库的多样性可表征为大于或小于上文列举的一种或多种多样性,例如大于约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019或1020种或者小于约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019或1020种。在本发明的某些其它实施方案中,存在于物理实现的文库中具有上文列举的大小的目标抗体的概率至少约为0.0001%、0.001%、0.01%、0.1%、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、99%、99.5%或99.9%(有关在物理实现的文库中存在的特定序列的概率的更多信息,参见详述中的文库采样)。本发明的抗体文库还可包括针对例如自身(即人)抗原的抗体。在已表达的人抗体文库中可能不存在本发明的抗体,其中的原因包括因为自身反应性抗体被供体免疫系统通过负选择去除掉。然而,在某些情况下,新的重链/轻链配对可以产生自身反应性抗体特异性(Griffiths等的美国专利5,885,793,通过引用其全部予以结合)。在本发明的某些实施方案中,文库中独特重链的数目可约为10、50、102、150、103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019、1020种以上。在本发明的某些实施方案中,文库中独特轻链的数目可约为5、10、25、50、102、150、500、103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019、1020种以上。 本文所使用的术语“人抗体CDRH3文库”至少包括设计成代表天然存在的人抗体的序列多样性和长度多样性的多核苷酸文库或多肽文库。“免疫前”CDRH3文库具有类似于天然存在的人抗体CDRH3序列(在这些序列进行负选择和体细胞超突变之前)的序列多样性和长度多样性。已知的人CDRH3序列有代表公开在各种数据集,包括Jackson等,J.Immunol Methods,2007,324:26;Martin,Proteins,1996,25:130;以及Lee等,Immunogenetics,2006,57:917,各文献通过引用其全部予以结合。在本发明的某些实施方案中,将这类CDRH3文库设计成小到足以化学合成和物理实现,但大到足以编码具有识别任何抗原的潜力的CDRH3。在本发明的一个实施方案中,抗体文库包括约106~约1015种不同的CDRH3序列和/或编码所述CDRH3序列的多核苷酸序列。在一些实施方案中,将本发明的文库设计成约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015或1016种不同的CDRH3序列和/或编码所述CDRH3序列的多核苷酸序列。在一些实施方案中,本发明的文库可包括或编码约103~约106、约106~约108、约108~约1010、约1010~约1012、约1012~约1014或约1014~约1016种不同的CDRH3序列。在本发明的某些实施方案中,文库的多样性可表征为大于或小于上文列举的一种或多种多样性,例如大于约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015或1016或者小于约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015或1016。在本发明的某些实施方案中,存在于物理实现的文库中具有上文列举的大小的目标CDRH3的概率至少约为0.0001%、0.001%、0.01%、0.1%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、85%、90%、95%、99%、99.5%或99.9%(有关在物理实现的文库中存在的特定序列的概率的更多信息,参见详述中的文库采样)。本发明的免疫前CDRH3文库还可包括针对例如自身(即人)抗原的CDRH3。在已表达的人抗体文库中可能不存在这类CDRH3,因为自身反应性CDRH3被供体免疫系统通过负选择去除掉。 含有“VKCDR3”序列和“VλCDR3”序列的本发明文库分别是指CDRL3序列的κ亚群(sub-set)和λ亚群。这些文库可以定向多样性进行设计,在总体上代表人抗体CDRL3库的长度多样性和序列多样性。这些文库的“免疫前”形式具有类似于天然存在的人抗体CDRL3序列(在这些序列进行负选择之前)的序列多样性和长度多样性。已知的人CDRL3序列有代表公开在各种数据集,包括NCBI数据库(有关轻链序列数据集,参见附录A和附录B)和Martin,Proteins,1996,25:130,通过引用其全部予以结合。在本发明的某些实施方案中,将这类CDRL3文库设计成小到足以化学合成和物理实现,但大到足以编码具有识别任何抗原的潜力的CDRL3。 在本发明的一个实施方案中,抗体文库包含约105种不同的CDRL3序列和/或编码所述CDRL3序列的多核苷酸序列。在一些实施方案中,将本发明的文库设计成包含约101、102、103、104、106、107或108种不同的CDRL3序列和/或编码所述CDRL3序列的多核苷酸序列。在一些实施方案中,本发明的文库可包含或编码约101~约103、约103~约105或约105~约108种不同的CDRL3序列。在本发明的某些实施方案中,文库的多样性可表征为大于或小于上文列举的一种或多种多样性,例如大于约101、102、103、104、105、106、107或108或者小于约101、102、103、104、105、106、107或108。在本发明的某些实施方案中,存在于物理实现的文库中具有上文列举的大小的目标CDRL3的概率至少约为0.0001%、0.001%、0.01%、0.1%、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、99%、99.5%或99.9%(有关在物理实现的文库中存在的特定序列的概率的更多信息,参见详述中的文库采样)。本发明的免疫前CDRL3文库还可包括针对例如自身(即人)抗原的CDRL3。在已表达的人抗体文库中可能不存在这类CDRL3,因为自身反应性CDRL3被供体免疫系统通过负选择去除掉。 本文所使用的术语“已知的重链CDR3序列”是指从人B细胞群克隆的共有结构域中的重链CDR3序列。这类序列的实例是已发表的序列或由公共数据集获取的序列,包括例如Zemlin等,JMB,2003,334:733;Lee等,Immunogenetics,2006,57:917;以及Jackson等J.ImmunolMethods,2007,324:26,各文献通过引用其全部予以结合。 本文所使用的术语“已知的轻链CDR3序列”是指从人B细胞群克隆的共有结构域中的轻链CDR3序列(例如κ或λ)。这类序列的实例是已发表的序列或由公共数据集获取的序列,包括例如NCBI数据库(参见本文所附的附录A和附录B)。 本文所使用的术语“抗体结合区”是指能够结合抗原的免疫球蛋白或抗体可变区的一个或多个部分。抗体结合区通常为例如抗体轻链(或其可变区或者一个或多个CDR)、抗体重链(或其可变区或者一个或多个CDR)、重链Fd区、组合的抗体轻链和重链(或其可变区),例如Fab、F(ab’)2、单一结构域或单链抗体(scFv)或者识别抗原的全长抗体的任一区,例如IgG(例如IgG1、IgG2、IgG3或IgG4亚型(subtype))、IgA1、IgA2、IgD、IgE或IgM抗体。 术语“构架区”是指本领域公认的存在于更趋异(即超变)CDR之间的抗体可变区部分。这类构架区通常称为构架1~4(FRM1、FRM2、FRM3和FRM4),为6个CDR(3个来自重链,3个来自轻链)在三维空间内布局提供支架,以形成抗原结合表面。 术语“规范结构(canonical structure)”是指抗原结合(CDR)环所采用的主链构象。根据比较结构研究,发现6个抗原结合环中有5个只具有有限的可利用的构象库(only a limited repertoire of availableconformations)。各个规范结构可通过多肽主链的扭转角表征。因此,抗体间的对应环可能具有十分相似的三维结构,尽管在大部分环中氨基酸序列变异性甚高(Chothia和Lesk,J.Mol.Biol.,1987,199:901;Chothia等,Nature,1989,342:877;Martin和Thornton,J.Mol.Biol.,1996,263:800,各文献通过引用其全部予以结合)。此外,在所采用的环结构与其周围的氨基酸序列之间有某种关系。具体规范类别的构象取决于环的长度和位于环内以及保守构架内(即环外)关键位置上的氨基酸残基。因此,可以根据这些关键氨基酸残基的存在,确定具体的规范类别。术语“规范结构”还可包括考虑有关抗体的线性序列,例如按Kabat分类的线性序列(Kabat等,“Sequences of Proteins ofImmunological Interest(免疫目标的蛋白质序列)”,第5版,U.S.Department of Heath and Human Services,1992)。Kabat编号方案是广泛采用的标准,用于按连贯方式为抗体可变结构域氨基酸残基编号。还可利用其它结构考虑来确定抗体的规范结构。例如,通过Kabat编号方式无法完全反映出来的差异可通过Chothia等人的编号体系进行描述和/或通过例如结晶学和二维计算建模或三维计算建模等其它技术进行揭示。因此,可将给定抗体序列归入尤其可供鉴定适当chassis序列的规范类别(例如根据在文库中包括多种规范结构的要求)。文献中记载了抗体氨基酸序列的Kabat编号方式和Chothia等人所描述的结构考虑,及其用于解释抗体结构规范方面的意义。 术语“CDR”是指互补决定区(CDR),其中3个构成轻链可变区的结合特征(CDRL1、CDRL2和CDRL3),另外3个构成重链可变区的结合特征(CDRH1、CDRH2和CDRH3)。CDR对抗体分子的功能活性产生影响,且被包含支架区或构架区的氨基酸序列分隔开来。CDR边界和长度的精确界定取决于不同分类和编号体系。因此,可通过Kabat、Chothia、接触或任何其它边界定义,包括本文所述的编号体系,来引用CDR。尽管边界不同,但是这些体系中的每一个都在可变序列内所构成的所谓“超变区”中有某种程度的重叠。因此,按照这些体系的CDR定义可能在相对于相邻构架区的长度和边界区域方面不同。参见例如Kabat、Chothia和/或MacCallum等(Kabat等,“Sequences of Proteins of Immunological Interest(免疫目标的蛋白质序列)”,第5版,U.S.Department of Health and Human Services,1992;Chothia等,J.Mol.Biol.,1987,196:901;和MacCallum等,J.Mol.Biol.,1996,262:732,各文献通过引用其全部予以结合)。 术语“氨基酸”或“氨基酸残基”通常是指具有其领域公认定义的氨基酸,例如选自以下的氨基酸:丙氨酸(Ala或A)、精氨酸(Arg或R)、天冬酰胺(Asn或N)、天冬氨酸(Asp或D)、半胱氨酸(Cys或C)、谷氨酰胺(Gln或Q)、谷氨酸(Glu或E)、甘氨酸(Gly或G)、组氨酸(His或H)、异亮氨酸(Ile或I):亮氨酸(Leu或L)、赖氨酸(Lys或K)、甲硫氨酸(Met或M)、苯丙氨酸(Phe或F)、脯氨酸(Pro或P)、丝氨酸(Ser或S)、苏氨酸(Thr或T)、色氨酸(Trp或W)、酪氨酸(Tyr或Y)和缬氨酸(Val或V),虽然按需要可以采用修饰的氨基酸、合成的氨基酸或不常见的氨基酸。总的来讲,氨基酸可以分成以下几组:具有非极性侧链的氨基酸(例如Ala、Cys、Ile、Leu、Met、Phe、Pro、Val);具有带负电荷的侧链的氨基酸(例如Asp、Glu);具有带正电荷的侧链的氨基酸(例如Arg、His、Lys);或具有不带电荷的极性侧链的氨基酸(例如Asn、Cys、Gln、Gly、His、Met、Phe、Ser、Thr、Trp和Tyr)。 术语“多核苷酸”是指核酸,例如DNA分子和RNA分子及其类似物(例如使用核苷酸类似物或采用核酸化学法产生的DNA或RNA)。多核苷酸可以按需要,以合成方式例如采用本领域公认的核酸化学法或者以酶的方式采用例如聚合酶来制备,并且如有需要,可被修饰。典型的修饰包括甲基化、生物素化和其它本领域已知的修饰。另外,核酸分子可以是单链或双链,且需要时,与可检测部分连接。 术语“理论多样性(theoretical diversity)”、“总的理论多样性(theoretical total diversity)”或“理论库(theoretical repertoire)”是指文库设计中变异体的最大数目。例如,假定3个残基的氨基酸序列,如果残基1和残基3可各自为5种氨基酸类型中的任一种,残基2可以是20种氨基酸类型中的任一种,则理论多样性为5×20×5=500种可能序列。同样,如果序列X由4种氨基酸区段的组合构建而成,如果区段1具有100种可能序列,区段2具有75种可能序列,区段3具有250种可能序列,区段4具有30种可能序列,则片段X总的理论多样性可为100×75×200×30,即5.6×105种可能序列。 术语“物理实现(physical realization)”是指实际上可通过例如任何展示方法在物理上采样的部分理论多样性。示例性的展示方法包括:噬菌体展示、核糖体展示和酵母展示。对于合成序列,物理实现的文库的大小取决于(1)实际上可以合成的理论多样性的分数,和(2)具体筛选方法的限制。筛选方法的示例性限制包括可在具体测定法(例如核糖体展示、噬菌体展示、酵母展示)中筛选的变异体数和用于筛选试验的宿主细胞(例如酵母、哺乳动物细胞、细菌)的转化效率。因此,为了说明,假定理论多样性为1012个成员的文库,最大可包括1011个成员的示例性的物理实现的文库(例如在酵母、细菌细胞、核糖体展示中等;有关详述见下文)将采集文库理论多样性的约10%的样本。然而,如果合成少于1011个文库成员(其理论多样性为1012),且物理实现的文库最大可包括1011个成员,则在物理实现的文库中采集的样本要小于文库理论多样性的10%。同样,最大可包括多于1012个成员的物理实现的文库将“超采集”理论多样性的样本,这就意味着每种成员可能存在不止一个(假定整个1012理论多样性是合成的)。 术语“所有可能的读框”包括至少3个正向读框和在一些实施方案中,还包括3个反向读框。 术语“目标抗体”是指从本发明文库分离的具有目标性质的任何抗体。目标性质可包括但不限于与特定抗原或表位结合、阻断两个分子间的结合相互作用或激发某些生物效应。 术语“功能性表达”是指由人B细胞进行表达并且不含提前终止密码子(premature stop codon)的免疫球蛋白基因。 术语“全长重链”是指含有免疫球蛋白重链规范结构域中的每一个的免疫球蛋白重链,包括4个构架区、3个CDR和1个恒定区。术语“全长轻链”是指含有免疫球蛋白轻链规范结构域中的每一个的免疫球蛋白轻链,包括4个构架区、3个CDR和1个恒定区。 本文所使用的术语“独特(的)”是指在设计的理论多样性内,一种序列不同于(例如具有不同的化学结构)所有其它的序列。应当了解的是,在具体的物理实现中,理论多样性的众多独特的序列很可能不止1拷贝。例如,包含3种独特序列的文库,如果每种序列在该文库中出现3次,则可包含共9个成员。然而,在某些实施方案中,每种独特的序列可能只出现一次。 本文所使用的术语“异源部分”是指向抗体添加某一组分,其中该组分通常不是抗体的组成部分。示例性的异源部分包括药物、毒素、成像剂和可能提供不是抗体本身固有活性的任何其它组分。 本文所使用的术语“每个位置上每种氨基酸残基的出现百分比(percent occurrence)”是指样本中各情况的百分比,其中氨基酸存在于具体序列内指定位置上。例如,假定下列3种序列: K V R K Y P K R P, K出现在位置1的情况是100%,P出现在位置3的情况是约67%。在本发明的某些实施方案中,要选择用于比较的序列为人免疫球蛋白序列。 本文所使用的术语“最频繁出现的氨基酸”,在多肽群中某一序列的特定位置上是指在规定多肽群中在规定位置上具有最高出现百分比的氨基酸残基。例如,在由人B细胞功能性表达的CDRH3序列的N1序列中,3个最N-端位置的每一个上最频繁出现的氨基酸见表21,在由人B细胞功能性表达的CDRH3序列的N2序列中,3个最N-端位置的每一个上最频繁出现的氨基酸见表22。 为了分析本发明文库和其它文库的某些二联体(duplet)的出现(实施例13)和信息含量(实施例14),给CDRH3的“中心环(central loop)”作出定义。如果从Kabat CDRH3(95-102)中去掉C-端5个氨基酸,则其余的序列称为“中心环”。因此,考虑实施例13的二联体出现计算法(duplet occurrence calculation),采用大小为6以下的CDRH3可能无助于二联体出现的分析。大小为7的CDRH3仅有助于i-i+1数据集,大小为8的CDRH3还可有助于i-i+2数据集,大小为9以上的CDRH3还可有助于i-i+3数据集。例如,大小为9的CDRH3可具有位置95-96-97-98-99-100-100A-101-102上的氨基酸,但是只有头4个残基(粗体字)可为中心环的组成部分,并且有助于成对出现(二联体)统计分析。再举例来说,大小为14的CDRH3可具有序列:95-96-97-98-99-100-100A-100B-100C-100D-100E-100F-101-102。在此处,只有头9个残基(粗体字)有助于中心环。 文库筛选需要基因型-表型连锁(genotype-phenotype linkage)。术语“基因型-表型连锁”按与其领域公认的含义一致的方式使用,并且是指可以从文库中分离出编码具有特定表型(例如结合抗原)的蛋白质的核酸(基因型)的事实。举例来说,在噬菌体表面上表达的抗体片段可根据其与抗原的结合而分离出来(例如Ladner等)。抗体与抗原的结合同时能够分离出含有编码该抗体片段的核酸的噬菌体。因此,表型(抗体片段的抗原结合特性)与基因型(编码抗体片段的核酸)是“连锁”的。保持基因型-表型连锁的其它方法包括以下文献中的方法:Wittrup等(美国专利第6,300,065、6,331,391、6,423,538、6,696,251、6,699,658号和美国公布号20040146976,各文献通过引用其全部予以结合);Miltenyi(美国专利第7,166,423号,通过引用其全部予以结合);Fandl(美国专利第6,919,183号,美国公布号20060234311,各文献通过引用其全部予以结合);Clausell-Tormos等(Chem.Biol.,2008,15:427,通过引用其全部予以结合);Love等(Nat.Biotechnol.,2006,24:703,通过引用其全部予以结合);以及Kelly等(Chem.Commun.,2007,14:1773,通过引用其全部予以结合)。以其中可同时回收抗体和基因且同时又保持它们之间的连锁的方式,用编码抗体的基因来定位抗体蛋白的任何方法都是适当的。 2.文库的设计 将本发明的抗体文库设计成反映通过人免疫系统天然产生的免疫前抗体库的某些方面。本发明的某些文库以收集人V、D和J基因以及其它人重链和轻链序列大型数据库而获取的合理设计知识为基础(例如公众已知的种系序列;得自Jackson等人的序列(J.ImmunolMethods,2007,324:26,通过引用其全部予以结合);得自Lee等人的序列(Immunogenetics,2006,57:917,通过引用其全部予以结合);以及重排的VK和Vλ的汇编序列-参见本文所附的附录A和附录B)。其它信息可参见例如Scaviner等,Exp.Clin.Immunogenet.,1999,16:234;Tomlinson等,J.Mol.Biol.,1992,227:799;以及Matsuda等,J.Exp.Med.,1998,188:2151,各文献通过引用其全部予以结合。在本发明的某些实施方案中,代表存在于人抗体库中的可能的V、D和J多样性以及接点多样性(junctional diversity)(即N1和N2)的表达盒是作为单链或双链DNA寡核苷酸从头合成的。在本发明的某些实施方案中,将编码CDR序列的寡核苷酸表达盒与一种或多种含有重链或轻链chassis序列的接纳体载体一起导入酵母。没有采用基于引物的PCR扩增或得自哺乳动物cDNA或mRNA的模板指导的克隆步骤。通过标准同源重组,接受体酵母使表达盒(例如CDR3)与含有chassis序列和多个恒定区的接纳体载体进行重组,产生有正确顺序的合成的全长人重链和/或轻链免疫球蛋白文库,该文库可以遗传方式增殖、表达、展示和筛选。本领域普通技术人员容易理解的是,可以设计包含在接纳体载体上的chassis以产生不是全长人重链和/或轻链的构建体。例如,在本发明的某些实施方案中,可以设计chassis以编码多肽的多个部分,所述多肽编码抗体片段或抗体片段的亚基,致使当含有CDR的寡核苷酸表达盒与接纳体载体进行重组时,产生编码抗体片段或其亚基的序列。 在某些实施方案中,本发明提供包含约107~约1020个抗体成员的合成的免疫前人抗体库,其中所述抗体库包含: (a)选出的人抗体重链chassis(即重链可变区的氨基酸1~94,采Kabat的定义); (b)根据人IGHD和IGHJ种系序列设计的CDRH3库,CDRH3库包含下列部分: (i)任选一个或多个尾区; (ii)一个或多个N1区,包含约0~约10个氨基酸,所述氨基酸选自20种以内的由末端脱氧核苷酸转移酶(TdT)的作用优先编码并由人B细胞功能性表达的氨基酸类型; (iii)一个或多个DH区段,基于一个或多个选出的IGHD区段,及其一个或多个N-端或C-端截短; (iv)一个或多个N2区,包含约0~约10个氨基酸,所述氨基酸选自20种以内的由TdT的活性优先编码并由人B细胞功能性表达的氨基酸;和 (v)一个或多个H3-JH区段,基于一个或多个IGHJ区段,及其一个或多个N-端截短(例如直到XXWG); (c)一个或多个选出的人抗体κ轻链和/或λ轻链chassis;和 (d)根据人IGLV和IGLJ种系序列设计的CDRL3库,其中“L”可以是κ轻链或λ轻链。 重链chassis可以是与免疫球蛋白重链可变结构域Kabat残基1~94具有同源性的任何序列。重链chassis的非限制性实例包括在实施例中,本领域普通技术人员容易理解的是,可以采用其中及本说明书全文中所提供的原理来得到另外的重链chassis。 如上所述,重链chassis区之后任选为“尾”区。尾区包含0、1个或多个在比较天然存在的重链序列的基础上可以选出或可以不选的氨基酸。例如,在本发明的某些实施方案中,可将本领域可获得的重链序列进行比较,并将在天然存在的序列中尾位置上最频繁出现的残基包括在文库中(例如以产生例如最近似于人序列的序列)。在其它实施方案中,可以采用使用较不常出现的氨基酸。在又一些实施方案中,可以使用从任何氨基酸组中选出的氨基酸。在本发明的某些实施方案中,尾的长度为0(无残基)或1个(例如G/D/E)氨基酸。为清楚起见,而且不受理论的束缚,在天然存在的人库中,VH基因的FRM3区提供编码尾残基的头2/3的密码子。因此,天然存在的重链序列中该位置上的氨基酸可视为部分由IGHV基因编码(2/3),部分由CDRH3编码(1/3)。然而,为了清楚说明本发明的某些方面,本文中将编码尾残基的全部密码子(以及由此产生的氨基酸)描述为CDRH3序列的组成部分。 如上所述,有2种肽区段衍生自通过TdT在天然存在的人抗体库中添加的核苷酸。这些区段被称为N1和N2(本文亦称N1和N2区段、结构域、区或序列)。在本发明的某些实施方案中,N1和N2的长度约为0、1、2或3个氨基酸。虽然不受理论的束缚,但是我们认为这些长度最接近地模拟存在于人库中的N1和N2的长度(参见图2)。在本发明的其它实施方案中,N1和N2的长度可约为4、5、6、7、8、9或10个氨基酸。同样,用以产生N1和N2区段的氨基酸残基的组成也可变化。在本发明的某些实施方案中,用以产生N1和N2区段的氨基酸可以从在人库的N1和N2结构域中的8种最频繁出现的氨基酸(例如G、R、S、P、L、A、V和T)中选出。在本发明的其它实施方案中,用以产生N1和N2区段的氨基酸可选自少于约20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4或3个优先由TdT活性编码并由人B细胞功能性表达的氨基酸。或者,N1和N2可包含选自任何氨基酸组的氨基酸。具有同样长度或组成的N1和N2不是必需的,N1和N2的长度和组成的独立变化是通过其将额外多样性引至文库的一种方法。 文库的DH区段以由天然存在的IGHD基因库编码的肽为基础,其中N-端和C-端的残基渐进缺失(progressive deletion)。IGHD基因可在多个读框中读取,代表这些读框的肽及其N-端和C-端缺失也包括在本发明的文库中。在本发明的某些实施方案中,短至3个氨基酸残基的DH区段也可包括在文库中。在本发明的其它实施方案中,短至约1、2、4、5、6、7或8个氨基酸的DH区段也可包括在文库中。 文库的H3-JH区段以由天然存在的IGHJ基因库编码的肽为基础,其中N-端的残基渐进缺失。构成CDRH3的组成部分的IGHJ区段的N-端部分在本文中亦称H3-JH。在本发明的某些实施方案中,H3-JH区段可通过N-端渐进缺失一个或多个H3-JH残基(直到2个H3-JH残基)表示。在本发明的其它实施方案中,文库的H3-JH区段可含有N-端缺失(或不含缺失)直到约6、5、4、3、2、1或0个H3-JH残基。 文库的轻链chassis可以是与天然存在的轻链(κ或λ)序列的Kabat残基1~88具有同源性的任何序列。在本发明的某些实施方案中,本发明的轻链chassis利用VL和JL区段以组合方式进行合成,产生在chassis和CDR3序列中具有多样性的一种或多种轻链序列文库。在本发明的其它实施方案中,使用简并寡核苷酸或三核苷酸来合成轻链CDR3序列,并且使轻链CDR3序列与轻链chassis和轻链恒定区重组,形成全长轻链。 本发明还提供产生和使用这类文库的方法,以及包含一种或多种免疫球蛋白结构域或抗体片段的文库。有关要求保护的抗体文库中的各组分的设计和合成的更多详情见下文。 2.1.抗体文库Chassis序列的设计 在构建本发明的某些文库中的一个步骤是选择chassis序列,这些chassis序列以天然存在的可变结构域序列(例如IGHV和IGLV)为基础。可以任意或通过选择符合某种标准的chassis进行这种选择。可查询例如Kabat数据库(一种含有非丰余重排抗体序列的电子数据库)的这些最常呈现的重链和轻链种系序列。可以运用BLAST检索算法,或者更专业的工具例如SoDA(Volpe等,Bioinformatics,2006,22:438-44,通过引用其全部予以结合),将重排的抗体序列与应用VBASE2数据库的种系序列(Retter等,Nucleic Acids Res.,2005,33:D671-D674)或人V、D和J基因的类似集合体(collection)进行比较,以鉴定最频繁用来产生功能抗体的种系家族。 可以利用若干标准选择用于包括在本发明文库中的chassis。例如,可以从文库中排除已知(或已确定)在酵母或用于本发明的其它生物(例如细菌、哺乳动物细胞、真菌或植物)中表达不佳的序列。Chassis还可根据其在人外周血中的代表性来选择。在本发明的某些实施方案中,最好可选择与在人外周血中有高代表性的种系序列相当的chassis。在其它实施方案中,最好可选择与较不常有代表性的种系序列相当的chassis,以增加例如规范文库的多样性。因此,可以选择chassis以产生代表最大和在结构上最不同组别的功能性人抗体文库。在本发明的其它实施方案中,例如,如果需要产生具有较少chassis变异性和较多CDR变异性的较少且较集中的文库,则可以利用较少变化的chassis。在本发明的一些实施方案中,chassis可根据其在本发明细胞(例如酵母细胞)中的表达和由所选序列代表的规范结构的多样性来选择。因此还可以产生在本发明细胞中表达良好并具有规范结构的多样性的文库。 2.1.1.重链Chassis序列的设计 在本发明的某些实施方案中,抗体文库包含可变重链结构域和可变轻链结构域或其部分。这些结构域中的每一个都由某些组分构成,这将在本文提供的实施例中更全面予以描述。在某些实施方案中,可以使用本文所述文库来分离可用作诊断药和/或治疗药的完全人抗体。虽然不受理论的束缚,但是具有与最常见于外周血(例如人外周血)的序列最相似或相同的序列的抗体当作为治疗剂给予时,不大可能具有免疫原性。 在不受理论束缚的情况下,而且为了说明本发明的某些实施方案,文库的VH结构域可视为包含3个主要组分:(1)VH“chassis”,它包括氨基酸1~94(采用Kabat编号方式),(2)CDRH3,在本文中被定义为包括Kabat CDRH3本身(位置95~102),和(3)FRM4区,包括氨基酸103~113(Kabat编号方式)。因此,整个VH结构可以示意图的方式(不按比例制图)如下表示: (1)...(94) (95)...(102) (103)...(113) |-------------------------|---------------|------------------| VH Chassis CDRH3 FRM4 根据人IGHV种系库进行的VH chassis序列的选择和设计,当再看本文所提供的实施例时将会变得更清楚。在本发明的某些实施方案中,选用于文库的VH chassis序列可相当于所有功能性表达的人IGHV种系序列。或者,可以按照一种或多种标准选择IGHV种系序列以呈现在文库中。例如,在本发明的某些实施方案中,所选定的IGHV种系序列可以是由健康成人、儿童或胎儿外周血中分离的抗体分子中最有代表性的序列之一。 在某些实施方案中,最好可将VH chassis的设计建立在利用患有疾病(例如自身免疫病)的成人、儿童或胎儿的IGHV种系序列的基础上。虽然不受理论的束缚,但是有可能的是,分析从自身免疫病个体外周血分离的抗体分子中的种系序列使用率(usage),可提供有益于设计识别人抗原的抗体的信息。 在一些实施方案中,用于呈现在本发明文库中的IGHV种系序列的选择可根据其在外周血中出现的频率。举例来说,4种IGHV1种系序列(IGHV1-2、IGHV1-18、IGHV1-46和IGHV1-69)构成外周血中IGHV1家族库的约80%。因此,所选定的用于呈现在文库中的具体IGHV1种系序列可包括这样的序列,这些序列最频繁出现且累计构成存在于外周血中的IGHV1家族库的至少约80%。可采用类似方法从任何其它IGHV家族选出具体的IGHV种系序列(即IGHV1、IGHV2、IGHV3、IGHV4、IGHV5、IGHV6和IGHV7)。因此,选用于将特定IGHV家族呈现于本发明文库中的具体种系序列可构成存在于外周血中的特定IGHV家族成员库的至少约100%、99%、98%、97%、96%95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、75%、70%、65%、60%、55%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或0%。 在一些实施方案中,所选定的IGHV种系序列可选来使VHchassis文库的结构多样性最大化。可通过例如比较IGHV种系序列中CDRH1和CDRH2的长度、组成和规范结构,来评价结构多样性。在人IGHV序列中,CDRH1(Kabat定义)的长度可为5、6或7个氨基酸,而CDRH2(Kabat定义)的长度可为16、17、18或19个氨基酸。IGHV种系序列(特别是CDR结构域)的氨基酸组成,可通过如实施例中所提供的序列比对来评价。可按照例如Chothia等人所述方法确定规范结构(Chothia等,J.Mol.Biol.,1992,227:799,通过引用其全部予以结合)。 在本发明的某些实施方案中,根据可以使分离具有特定特性的抗体的概率最大化的IGHV种系序列来设计VH chassis可能是有利的。例如,在一些实施方案中,虽然不受理论的束缚,但是将IGHV种系序列限于只包括正在进行临床开发中的抗体或已获准作为治疗药的抗体中使用的种系序列可能是有利的。另一方面,在一些实施方案中,产生含有未呈现在临床使用中的抗体的VH chassis的文库可能是有利的。这类文库能够产生具有新特性的抗体,所述新特性优于使用“典型”IGHV种系序列获得的特征,或者能够研究“非典型”IGHV种系序列或规范结构的结构和性质。 本领域普通技术人员容易了解的是,可以采用多种其它标准选择呈现在本发明文库中的IGHV种系序列。本文所述的任一标准还可与任何其它标准结合。更多示例性的标准包括在某些细胞培养系统中以充分水平表达的能力,具体抗体形式(例如完整免疫球蛋白和抗体片段)中的溶解度,以及各个结构域、完整免疫球蛋白或抗体片段的热力学稳定性。可应用本发明的方法选择在本发明抗体文库中具有功效的任何IGHV种系序列。 在本发明的某些实施方案中,文库的VH chassis可包含一个或多个下列IGHV种系序列的约Kabat残基1~约Kabat残基94:IGHV1-2、IGHV1-3、IGHV1-8、IGHV1-18、IGHV1-24、IGHV1-45、IGHV1-46、IGHV1-58、IGHV1-69、IGHV2-5、IGHV2-26、IGHV2-70、IGHV3-7、IGHV3-9、IGHV3-11、IGHV3-13、IGHV3-15、IGHV3-20、IGHV3-21、IGHV3-23、IGHV3-30、IGHV3-33、IGHV3-43、IGHV3-48、IGHV3-49、IGHV3-53、IGHV3-64、IGHV3-66、IGHV3-72、IGHV3-73、IGHV3-74、IGHV4-4、IGHV4-28、IGHV4-31、IGHV4-34、IGHV4-39、IGHV4-59、IGHV4-61、IGHV4-B、IGHV5-51、IGHV6-1和IGHV7-4-1。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。 在其它实施方案中,文库的VH chassis可包含下列IGHV种系序列的约Kabat残基1~约Kabat残基94:IGHV1-2、IGHV1-18、IGHV1-46、IGHV1-69、IGHV3-7、IGHV3-15、IGHV3-23、IGHV3-30、IGHV3-33、IGHV3-48、IGHV4-31、IG3HV4-34、IGHV4-39、IGHV4-59、IGHV4-61、IGHV4-B和IGHV5-51。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。这些chassis的氨基酸序列见表5。 2.1.1.1.重链Chassis变异体 虽然预期选出的其序列基于IGHV种系序列的VH chassis支持CDRH3序列的巨大多样性,但是可通过改变氨基酸残基来产生VHchassis中更多的多样性,所述氨基酸残基构成选用于文库的每个chassis中的CDRH1和/或CDRH2区(参见实施例2)。 在本发明的某些实施方案中,在重排的人重链序列数据集内对序列同一性进行分析之后,使构成IGHV种系序列的CDRH1和CDRH2区或其它区的氨基酸残基发生改变或突变,所述重排的人重链序列根据其从中衍生重排序列的原IGHV种系序列的同一性进行分类。例如,从重排的抗体序列集中,确定每个抗体的IGHV种系序列,并根据IGHV种系序列对重排序列进行分类。这种确定是在序列同一性的基础作出的。 接着,测定在这些序列中的每个位置上20种氨基酸残基中任一种的出现。在本发明的某些实施方案中,例如如果需要增加VH chassis的抗原结合部分的多样性,则令人特别感兴趣的是不同氨基酸残基在CDRH1和CDRH2内各个位置上的出现率(occurrence)。在本发明的其它实施方案中,最好可评价不同氨基酸残基在构架区中的出现率。虽然不受理论的束缚,但是构架区的改变可通过改变CDR的空间定向来影响抗原结合。 在确定氨基酸在各目标位置上的出现率之后,可按照某种标准,在VH chassis序列中产生改变。在一些实施方案中,目的可以是产生具有序列变异性的额外VH chassis,该变异性尽可能接近地模拟在重排的人抗体序列(衍生自相应的IGHV种系序列)的重链结构域中所观察到的变异性,因此可能获得性质上最似人序列的序列(即最接近地模拟人序列的组成和长度的序列)。既然如此,便可例如按模拟天然存在的频率的频率,来合成额外的VH chassis序列,该VH chassis序列包括天然存在于特定位置上的突变,以及包括本发明文库中这些VHchassis序列中的一个或多个。在本发明的另一个实施方案中,可能希望包括这样的VH chassis,即仅呈现在重排的人抗体序列的给定位置上最常发生的突变。例如,如上所述并参照示例性的表6和表7,与其精确模拟人序列的变异性,不如可选择仅包括最频繁出现在每个位置上的最前面的19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个氨基酸残基。举例来说,并参照表6,如果希望包括最前面的4个最频繁出现在VH1-69序列位置31上的氨基酸残基,则VH1-69序列的位置31将发生变化以包括S、N、T和R。虽然不受理论的束缚,但是我们认为通过模拟重排的重链序列的天然存在的组成而引入多样性,很可能产生在组成上更似人的抗体。然而,本发明的文库不限于通过该方法使之多样化的重链序列,可以采用任何标准以将多样性引入重链chassis,包括随机或合理的诱变。例如,在本发明的某些实施方案中,用中性氨基酸残基和/或较小氨基酸残基取代存在于IGHV种系序列的残基可能是优选的。虽然不受理论的束缚,但是中性和/或较小氨基酸残基可以为显示CDR序列的多样性提供较多柔性和较小空间位阻的环境。 实施例2说明将该方法应用于衍生自特定IGHV种系的重链。本领域普通技术人员容易了解的是,该方法可应用于任何种系序列,并可用来产生至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、1000、104、105、106种或更多种各重链chassis的变异体。 2.1.2.轻链Chassis序列的设计 本发明的轻链chassis可以κ轻链序列和/或λ轻链序列为基础。有关用于呈现在文库中的轻链可变(IGLV)种系序列的选择的原理类似于用于选择重链序列的原理(见上文及实施例1和实施例2)。同样,用于将变异性引入所选定的重链chassis的方法也同样可用于将变异性引入轻链chassis。 在不受理论束缚的情况下,而且为了说明本发明的某些实施方案,可以将文库的VL结构域视为包含3个主要组分:(1)VL“chassis”,它包括氨基酸1~88(采用Kabat编号方式),(2)VLCDR3,在本文中被定义为包括Kabat CDRL3本身(位置89~97),和(3)FRM4区,包括氨基酸98~107(Kabat编号方式)。因此,整个VL结构可以示意图的方式(不按比例制图)如下表示: (1)...(88) (89)...(97) (98)...(107) |------------------------------|----------------|----------------------| VL Chassis CDRL3 FRM4 在本发明的某些实施方案中,文库的VL chassis包括一种或多种基于IGKV种系序列的chassis。在本发明的某些实施方案中,文库的VL chassis可包含一个或多个下列IGKV种系序列的约Kabat残基1~约Kabat残基88:IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。 在其它实施方案中,文库的VL chassis可包含下列IGKV种系序列的约Kabat残基1~约Kabat残基88:IGKV1-05、IGKV1-12、IGKV1-27、IGKV1-33、IGKV1-39、IGKV2-28、IGKV3-11、IGKV3-15、IGKV3-20和IGKV4-1。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。这些chassis的氨基酸序列见表11。 在本发明的某些实施方案中,文库的VL chassis包括一种或多种基于IGλV种系序列的chassis。在本发明的某些实施方案中,文库的VL chassis可包含一个或多个下列IGλV种系序列的约Kabat残基1~约Kabat残基88:IGλV3-1、IGλV3-21、IGλV2-14、IGλV1-40、IGλV3-19、IGλV1-51、IGλV1-44、IGλV6-57、IGλV2-8、IGλV3-25、IGλV2-23、IGλV3-10、IGλV4-69、IGλV1-47、IGλV2-11、IGλV7-43、IGλV7-46、IGλV5-45、IGλV4-60、IGλV10-54、IGλV8-61、IGλV3-9、IGλV1-36、IGλV2-18、IGλV3-16、IGλV3-27、IGλV4-3、IGλV5-39、IGλV9-49和IGλV3-12。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、75%、70%、65%、60%、55%或50%相同的氨基酸序列。 在其它实施方案中,文库的VL chassis可包含下列IGλV种系序列的约Kabat残基1~约Kabat残基88:IGλV3-1、IGλV3-21、IGλV2-14、IGλV1-40、IGλV3-19、IGλV1-51、IGλV1-44、IGλV6-57、IGλV4-69、IGλV7-43和IGλV5-45。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、75%、70%、65%、60%、55%或50%相同的氨基酸序列。这些chassis的氨基酸序列见表14。 2.2.抗体文库CDRH3组分的设计 本领域已知重链CDR3区中的多样性对于大多数抗体特异性就已足够(Xu和Davis,Immunity,2000,13:27-45,通过引用其全部予以结合),并且采用CDRH3作为多样化的主要来源,创建了现有的成功文库(Hoogenboom等,J.Mol.Biol.,1992,227:381;Lee等,J.Mol.Biol.,2004,340:1073,各文献通过引用其全部予以结合)。DH区和N1/N2区有助于CDRH3功能多样性同样是已知的(Schroeder等,J.Immunol.,2005,174:7773和Mathis等,Eur J Immunol.,1995,25:3115,各文献通过引用其全部予以结合)。对本发明来说,天然存在的人抗体的CDHR3区可以分成5个区段:(1)尾区段,(2)N1区段,(3)DH区段,(4)N2区段,和(5)JH区段。正如下文中的说明一样,尾、N1和N2区段可以存在或可以不存在。 在本发明的某些实施方案中,用于选择氨基酸序列以合成CDRH3文库的方法包括频率分析法和生成现有的重排抗体序列相应的变异性分布。在该方法中,测定了特定氨基酸残基在重排的CDRH3(或任何其它重链或轻链区)的特定位置上的出现频率,更多详情见实施例部分。然后,可选择自然界较常用的氨基酸以包括在本发明的文库内。 2.2.1.DH区段库的设计和选择 在本发明的某些实施方案中,文库含有CDRH3区,CDRH3区包含一个或多个基于IGHD基因种系库设计的区段。在本发明的一些实施方案中,根据最频繁使用的人IGHD基因及其渐进N-端和C-端缺失,选择和设计选用于包含在文库中的DH区段,以模拟IGHD基因区段的体内加工。在本发明的一些实施方案中,文库的DH区段的长度为约3~约10个氨基酸。在本发明的一些实施方案中,文库的DH区段的长度约为0、1、2、3、4、5、6、7、8、9或10个氨基酸或其组合。在某些实施方案中,本发明的文库可含有长度分布范围广的DH区段(例如约0~约10个氨基酸)。在其它实施方案中,DH的长度分布可能有一定的限制(例如约1~约5个氨基酸、约3个氨基酸、约3个和约5个氨基酸等等)。在文库的某些实施方案中,最短的DH区段可约为0、1、2、3、4、5、6、7、8、9或10个氨基酸。 在本发明的某些实施方案中,文库可含有代表任何IGHD种系序列的任何读框的DH区段。在本发明的某些实施方案中,选用于包含在文库中的DH区段包括一个或多个下列IGHD序列或其衍生物(即任何读框和任何程度的N-端和C-端截短):IGHD3-10、IGHD3-22、IGHD6-19、IGHD6-13、IGHD3-3、IGHD2-2、IGHD4-17、IGHD1-26、IGHD5-5/5-18、IGHD2-15、IGHD6-6、IGHD3-9、IGHD5-12、IGHD5-24、IGHD2-21、IGHD3-16、IGHD4-23、IGHD1-1、IGHD1-7、IGHD4-4/4-11、IGHD1-20、IGHD7-27、IGHD2-8和IGHD6-25。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、其等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、995%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。 表1中列举了IGHD3-10读框1的渐进N-端和C-端缺失以便说明。本发明还包括其它IGHD序列和读框的N-端和C-端缺失,利用例如表16中提供的非限制性示例性数据和/或上文概述的方法,本领域普通技术人员可以容易地确定这些序列。表18(实施例5)列举了用于本发明的某些实施方案中的某些DH区段。 表1:基因IGHD3-10读框1的渐进N-端和C-端缺失以产生DH区段的实例 DH SEQ ID NO: DH SEQ ID NO: VLLWFGELL LWFGEL VLLWFGEL LWFGE VLLWFGE LWFG VLLLWFG LWF VLLWF WFGELL VLLW WFGEL VLL WFGE LLWFGELL WFG LLWFGEL FGELL LLWFGE FGEL LLWFG FGE LLWF GELL LLW GEL LWFGELL ELL 在本发明的某些实施方案中,选用于包含在文库中的DH区段包括下列IGHD序列中的一个或多个、或其衍生物(即任何读框和任何程度的N-端和C-端截短):IGHD3-10、IGHD3-22、IGHD6-19、IGHD6-13、IGHD3-03、IGHD2-02、IGHD4-17、IGHD1-26、IGHD5-5/5-18和IGHD2-15。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、其等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。 在本发明的某些实施方案中,选用于包含在文库中的DH区段包括一个或多个下列IGHD序列(其中符号“_x”表示基因的读框)或其衍生物(即任何程度的N-端或C-端截短):IGHD1-26_1、IGHD1-26_3、IGHD2-2_2、IGHD2-2_3、IGHD2-15_2、IGHD3-3_3、IGHD3-10_1、IGHD3-10_2、IGHD3-10_3、IGHD3-22_2、IGHD4-17_2、IGHD5-5_3、IGHD6-13_1、IGHD6-13_2、IGHD6-19_1和IGHD6-19_2。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、其等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。 在本发明的某些实施方案中,将文库设计成反映预先确定的长度分布的N-端和C-端缺失的IGHD区段。例如,在文库的某些实施方案中,文库的DH区段可以设计成模拟存在于人库中的DH区段的天然长度分布。例如,不同IGHD区段在重排的人抗体重链结构域中的相对出现率(relative occurrence)来自Lee等人(Lee等,Immunogenetics,2006,57:917,通过引用其全部予以结合)。表2表示得自Lee等人的IGHD区段中前68%的相对出现率。 表2.得自Lee等人的IGHD基因使用率在前68%的相对出现率 IGHD读框 序列(亲本) SEQ ID NO: 相对出现率 IGHD3-10_1 VLLWFGELL 4.3% IGHD3-10_2 YYYGSGSYYN 8.4% IGHD3-10_3 ITMVRGVII 4.0% IGHD3-22_2 YYYDSSGYYY 15.6% IGHD6-19_1 GYSSGWY 7.4% IGHD6-19_2 GIAVAG 6.0% IGHD6-13_1 GYSSSWY 8.4% IGHD6-13_2 GIAAAG 5.3% IGHD3-3_3 ITIFGWII 7.4% IGHD2-2_2 GYCSSTSCYT 5.2% IGHD2-2_3 DIVVVPAAM 4.1% IGHD4-17_2 DYGDY 6.8% IGHD读框 序列(亲本) SEQ ID NO: 相对出现率 IGHD1-26_1 GIVGATT 2.9% IGHD1-26_3 YSGSYY 4.3% IGHD5-5_3 GYSYGY 4.3% IGHD2-15_2 GYCSGGSCYS 5.6% 在某些实施方案中,这些相对出现率可用来设计文库,所述文库具有类似于外周血中存在的IGHD使用率的DH发生率。在本发明的其它实施方案中,可优选使文库偏向较长或较短的DH区段或特定组成的DH区段。在其它实施方案中,最好可按相同比例使用选用于文库的所有DH区段。 在本发明的某些实施方案中,使用10个最频繁出现的IGHD序列的最常用的读框,并形成这些序列的渐进N-端和C-端缺失,因此提供用于构建本发明的CDRH3库的共278种非丰余DH区段(表18)。在本发明的一些实施方案中,可应用上文所述方法来产生包含最前面的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个已表达的IGHD序列及其渐进N-端和C-端缺失的文库。如同文库的所有其它组分一样,虽然DH区段可选自普遍表达的区段,但是基于其较不普遍表达的事实来选择这些基因区段也在本发明的范围内。这在例如获得针对自身抗原的抗体或在进一步扩大文库的多样性方面可能是有利的。或者,DH区段可按与其在实际的人重链序列的出现率完全成比例的方式来使用以加入组成多样性。 在本发明的某些实施方案中,可以限制含有二硫环编码区段的IGHD基因的渐进缺失,以使得保持环的完整,并避免不成对的半胱氨酸残基的存在。在本发明的其它实施方案中,不论不成对的半胱氨酸残基是否存在,都可以忽略环的存在,至于任何其它区段则可发生IGHD基因区段的渐进缺失。在本发明另外的实施方案中,可使半胱氨酸残基突变成为任何其它氨基酸。 2.2.2.H3-JH区段库的设计和选择 有6种IGHJ(连接)区段,即IGHJ1、IGHJ2、IGHJ3、IGHJ4、IGHJ5和IGHJ6。表20(实施例5)表示亲本区段和渐进N-端缺失的氨基酸序列。与IGHD基因进行的N-端和C-端缺失类似,通过N-端“蚕食(nibbling)”,即通过外切核酸酶活性使一个或多个密码子渐进缺失,将天然变异引入IGHJ基因。 H3-JH区段是指作为CDRH3组成部分的IGHJ区段部分。在本发明的某些实施方案中,文库的H3-JH区段包含下列序列中的一个或多个:AEYFQH(SEQ ID NO:__)、EYFQH(SEQ ID NO:_)、YFQH(SEQ ID NO:_)、FQH(SEQ ID NO:_)、QH(SEQ ID NO:__)、H(SEQ ID NO:_)、YWYFDL(SEQ ID NO:__)、WYFDL(SEQ ID NO:__)、YFDL(SEQ ID NO:__)、FDL(SEQ ID NO:_)、DL(SEQ IDNO:__)、L(SEQ ID NO:_)、AFDV(SEQ ID NO:__)、FDV(SEQID NO:_)、DV(SEQ ID NO:__)、V(SEQ ID NO:__)、YFDY(SEQID NO:__)、FDY(SEQ ID NO:_)、DY(SEQ ID NO:__)、Y(SEQID NO:_)、NWFDS(SEQ ID NO:__)、WFDS(SEQ ID NO:__)、FDS(SEQ ID NO:__)、DS(SEQ ID NO:__)、S(SEQ ID NO:_)、YYYYYGMDV(SEQ ID NO:_)、YYYYGMDV(SEQ ID NO:_)、YYYGMDV(SEQ ID NO:__)、YYGMDV(SEQ ID NO:_)、YGMDV(SEQ ID NO:_)、GMDV(SEQ ID NO:_)、MDV(SEQ IDNO:__)和DV(SEQ ID NO:__)。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、其等位基因变异,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、60%、55%或50%相同的氨基酸序列。 在本发明的其它实施方案中,H3-JH区段可包含约0、1、2、3、4、5、6、7、8、9个或更多个氨基酸。例如,JH1_4的H3-JH区段(表20)的长度为3个残基,而无缺失JH6的H3-JH区段长度为9个残基。IGHJ区段的FRM4-JH区始于序列WG(Q/R)G(SEQ ID NO:_),相当于构成构架4的组成部分的IGHJ区段部分。在本发明的某些实施方案中,如表20中所列,有28种包括在文库中的H3-JH区段。在某些其它的实施方案中,可利用约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个上文或表20中所列举的IGHJ区段,来产生文库。 2.2.3.N1和N2区段库的设计和选择 末端脱氧核苷酸转移酶(TdT)是一种得自脊椎动物的高度保守的酶,它催化5′三磷酸与单链或双链DNA的3′羟基连接。因此,该酶用作不依赖模板的聚合酶(Koiwai等,Nucleic Acids Res.,1986,14:5777;Basu等,Biochem.Biophys.Res.Comm.,1983,111:1105,各文献通过引用其全部予以结合)。在体内,TdT负责将核苷酸添加到抗体重链的V-D和D-J接点上(Alt和Baltimore,PNAS,1982,79:4118;Collins等,J.Immunol.,2004,172:340,各文献通过引用其全部予以结合)。准确地讲,TdT负责产生位于D(多样性)区两侧的N1和N2(非模板)区段。 在本发明的某些实施方案中,根据在天然存在的人抗体N1和N2区段中存在的氨基酸使用率的统计偏倚,合理设计N1和N2区段的长度和组成。通过该方法产生的文库的一个实施方案见实施例5。按照自人数据库编制的数据(Jackson等,J.Immunol Methods,2007,324:26,通过引用其全部予以结合),对于N1,有平均3.02个氨基酸插入,对于N2,有平均2.4个氨基酸插入,未考虑2个核苷酸以下的插入(图2)。在本发明的某些实施方案中,将N1和N2区段的长度限于0~3个氨基酸。在本发明的其它实施方案中,可将N1和N2的长度限于小于约4、5、6、7、8、9或10个氨基酸。 在本发明的一些实施方案中,可根据天然人抗体的N1和N2序列中特定氨基酸的出现频率来选择这些序列的组成(对于该分析的实例,参见实施例5中的表21~23)。在本发明的某些实施方案中,在这些区中的8个最常出现的氨基酸(即G、R、S、P、L、A、T和V)被用于设计合成的N1和N2区段。在本发明的其它实施方案中,约最多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18或19个最常出现的氨基酸可用于合成的N1和N2区段的设计。在又一些实施方案中,所有20种氨基酸都可用于这些区段。最后,虽然将本发明设计的N1和N2区段的组成建立在天然存在的N1和N2区段的组成的基础上是可行的,但是这不是必要条件。N1和N2区段可包含选自任何氨基酸组的氨基酸,或者按照本发明文库设计所认定的其它标准进行设计。本领域普通技术人员可以容易地了解,用于设计本发明文库任何部分的标准可随具体文库的应用而变化。本发明的一个目的是,可通过使用选自任何氨基酸组的N1和N2区段、无N1或N2区段、或者使用具有本文所述组成以外的组成的N1和N2区段,来产生功能文库是可行的。 本发明的文库和本领域已知的其它文库之间的一个重要差别是在设计文库时,考虑天然存在的配对氨基酸和三联氨基酸序列的组成。表23表示前25种在N1和N2区中天然存在的二联体。这些中的许多可用以下通式表示:(G/P)(G/R/S/P/L/A/V/T)(SEQ ID NO:_)或(R/S/L/A/V/T)(G/P)(SEQ ID NO:_)。在本发明的某些实施方案中,合成的N1区和N2区可包含所有的这些二联体。在其它实施方案中,文库可包含前2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个最常见的天然存在的N1和/或N2二联体。在本发明的其它实施方案中,文库可包括较不频繁存在(即前25个以外)的二联体。考虑到本文教导的方法,可以容易地确定这些另外的二联体(duplet)或三联体(triplet)的组成。 最后,天然存在的三联体N1区和N2区的数据表明天然存在的N1和N2三联体序列常常可用下式表示:(G)(G)(G/R/S/P/L/A/V/T)(SEQ ID NO:_)、(G)(R/S/P/L/A/V/T)(G)(SEQ ID NO:_)或(R/S/P/L/A/V/T)(G)(G)(SEQ ID NO:_)。在本发明的某些实施方案中,文库可包含前2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个最频繁出现的N1和/或N2三联体。在本发明的其它实施方案中,文库可包括较不频繁存在(即前25个以外)的三联体。考虑到本文教导的方法,可以容易地确定这些另外的二联体或三联体的组成。 在本发明的某些实施方案中,用来创建CDRH3文库的N1区段共有约59种,N2区段共有约59种。在本发明的其它实施方案中,N1区段、N2区段或两者的数目增加至约141种(参见例如实施例5)。在本发明的其它实施方案中,可以选择总共约0、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、220、240、260、280、300、320、340、360、380、400、420、440、460、480、500、1000、104种或更多种N1和/或N2区段以包括在本发明的文库中。 考虑到本说明书的教导,本领域普通技术人员可以容易地认识到,将本文详述分析法扩展以产生例如延伸到本文所提供的以外的天然存在的配对N区和三联N区的其它级次(或较高数量级),也尽在常规实验法的范围内(例如应用序列比对、SoDA算法和任何人序列数据库(Volpe等,Bioinformatics,2006,22:438-44,通过引用其全部予以结合)。基于本文教导的信息,普通技术人员还要认识到,目前已可通过改变用于N1库(pool)和/或N2库的独特氨基酸序列的数目,来产生更大多样化或更少多样化(即更集中)的文库。 如上所述,预期有许多替代性的实施方案,其中N1和N2区段的组成和长度与本文实施例中所提供的不同。在一些实施方案中,亚化学计量合成的三核苷酸可用于合成N1和N2区段。有关用三核苷酸进行亚化学计量合成可参见Knappik等(美国专利第6,300,064号,通过引用其全部予以结合)。考虑N1和N2序列中的长度变异,使用亚化学计量合成法能够使合成得以进行。 除了上述实施方案以外,还可使用TdT活性的模型来确定本发明文库中N1和N2序列的组成。例如,有研究提出了通过TdT活性在多核苷酸中掺入特定核苷酸碱基(A、C、G、T)的概率依赖于碱基和链中恰好要加入碱基之前的碱基的类型。Jackson等(J.Immunol.Methods,2007,324:26,通过引用其全部予以结合)构建了描述该方法的Markov模型。在本发明的某些实施方案中,该模型可用来确定用于本发明文库的N1和/或N2区段的组成。或者,Jackson等人提供的参数可进一步使产生更接近模拟人序列的序列变得更完善。 2.2.4.使用N1、DH、N2和H3-JH区段设计CDRH3文库 本发明的CDRH3文库包含起始氨基酸(在某些示例性实施方案中为G、D、E)或缺乏起始氨基酸(在本文标为位置95),接着是N1、DH、N2和H3-JH区段。因此,在本发明的某些实施方案中,整体设计的CDRH3文库可用下式表示: [G/D/E/-]-[N1]-[DH]-[N2]-[H3-JH]。 虽然上文中较全面地描述了本发明文库的CDRH3每个部分的组成,但上面提供的尾的组成(G/D/E/-)是非限制性的,任何氨基酸(或无氨基酸)都可用于该位置。因此,本发明的某些实施方案可用下式表示: [X]-[N1]-[DH]-[N2]-[H3-JH], 其中[X]是任何氨基酸残基或无残基。 在本发明的某些实施方案中,通过同源重组,使合成的CDRH3库与所选定的VH chassis序列和重链恒定区结合。因此,在本发明的某些实施方案中,可能必需包括位于合成的CDRH3文库5’端和3’端的DNA序列,以促进合成的CDRH3文库与含有所选定的chassis和恒定区的载体之间的同源重组。在某些实施方案中,载体还含有GHJ基因非蚕食区(non-nibbled region)(即FRM4-JH)的至少一部分的编码序列。因此,可将编码N-端序列(例如CA(K/R/T))的多核苷酸添加到合成的CDRH3序列上,其中N-端多核苷酸与Chassis的FRM3同源,而可将编码C-端序列(例如WG(Q/R)G)的多核苷酸添加到合成的CDRH3上,其中C-端多核苷酸与FRM4-JH同源。虽然该示例性实施方案中提供了序列WG(Q/R)G,但是将氨基酸在C-端添加到FRM4-JH中的该序列中也可包括在编码C-端序列的多核苷酸内。既然如此,编码N-端和C-端序列多核苷酸的目的是必将促进同源重组,本领域普通技术人员应认识到,这些序列可比下述序列长或短。因此,在本发明的某些实施方案中,整体设计的CDRH3库,包括促进与所选定的chassis进行同源重组所必需的序列,可用下式表示(与载体同源的区加有下划线): CA[R/K/T]-[X]-[N1]-[DH]-[N2]-[H3-JH]-[WG(Q/R)G]。 在本发明的其它实施方案中,CDRH3库可用下式表示,它不包括上式中所提供的T残基: CA[R/K]-[XHN1]-[DH]-[N2]-[H3-JH]-[WG(Q/R)G]。 有关描述V、D和J基因集合体的参考文献包括Scaviner等,Exp.Clin,Immunogenet.,1999,16:243和Ruiz等,Exp.Clin,Immunogenet,有1999,16:173,各文献通过引用其全部予以结合。 2.2.5.CDRH3长度分布 如本申请全文中所述,除说明天然存在的CDRH3区段的组成之外,本发明还考虑天然存在的CDRH3区段的长度分布。Zemlin等(JMB,2003,334:733,通过引用其全部予以结合)和Lee等(Immunogenetics,2006,57:917,通过引用其全部予以结合)的研究提供了对天然存在的CDRH3长度的分析。这些数据显示约95%的天然存在的CDRH3序列的长度为约7~约23个氨基酸。在某些实施方案中,本发明提供合理设计的具有CDRH3区段的抗体文库,所述CDRH3区段直接模拟天然存在的CDRH3序列的大小分布。在本发明的某些实施方案中,CDRH3的长度可以是约2~约30个、约3~约35个、约7~约23个、约3~约28个、约5~约28个、约5~约26个、约5~约24个、约7~约24个、约7~约22个、约8~约19个、约9~约22个、约9~约20个、约10~约18个、约11~约20个、约11~约18个、约13~约18个或约13~约16个残基。 在本发明的某些实施方案中,本发明CDRH3文库的长度分布可根据某一长度范围内序列的百分比来确定。例如,在本发明的某些实施方案中,长度为约10~约18个氨基酸残基的CDRH3构成文库中这种序列的约84%~约94%。在一些实施方案中,该长度范围内的序列构成文库中这种序列的约89%。 在本发明的其它实施方案中,长度为约11~约17个氨基酸残基的CDRH3构成文库中这种序列的约74%~约84%。在一些实施方案中,该长度范围内的序列构成文库中这种序列的约79%。 在本发明另外的实施方案中,长度为约12~约16个残基的CDRH3构成文库中这种序列的约57%~约67%。在一些实施方案中,该长度范围内的序列构成文库中这种序列的约62%。 在本发明的某些实施方案中,长度为约13~约15个残基的CDRH3构成文库中这种序列的约35%~约45%。在一些实施方案中,该长度范围的序列构成文库中这种序列的约40%。 2.3.抗体文库CDRL3组分的设计 本发明的CDRL3文库可通过若干种方法之一产生。所构建的并且用于本发明具体实施方案的CDRL3文库的实际形式将取决于文库使用的目的。在一个具体实施方案中可以使用不只一种CDRL3文库;例如,含有CDRH3多样性与κ轻链和λ轻链的文库也在本发明的范围内。 在本发明的某些实施方案中,CDRL3文库是VKCDR3(κ)文库和/或VλCDR3(λ)文库。本文所描述的CDRL3文库与本领域的CDRL3文库显著不同。首先,考虑了长度变异,这种长度变异与在实际人序列中所观察的长度变异一致。第二,考虑了CDRL3的重要部分是由IGLV基因编码的这一事实。第三,在IGLV基因编码的CDRL3部分内氨基酸的变异形式不是随机的,而是基于取决于IGLV基因的同一性进行选择的。总之,第二和第三个区别特征意味着真实模拟在人序列中所观察到的形式的CDRL3文库,在FRM1~FRM3中不能使用不依赖chassis序列的通用设计。第四,还明确考虑了JL对于CDRL3的影响,而且在相关位置上对每个氨基酸残基的计数都以JL基因本身的组成和天然变异为基础。 如上文和本申请全文所述,本发明文库设计的一个独特的方面是种系或“基于chassis的”方面,这意味着保留更多实际的人序列的完整性和变异性。这与文献中所描述的并且旨在产生“万全之策(one-size-fits-all)”(例如共有序列)的文库的其它基于密码子的合成法或简并寡核苷酸合成法大不相同(例如,Knappik等,J Mol Biol,2000,296:57;Akamatsu等,J Immunol,1993,151:4651,各文献通过引用其全部予以结合)。 在本发明的某些实施方案中,通过对在公共数据库或其它数据库中可获取的数据进行分析来确定特定氨基酸在VL序列内的规定位置上的出现形式,数据库例如NCBI数据库(参见例如本文所附的附录A和附录B的GI编号)。在本发明的某些实施方案中,根据同一性对这些序列进行比较,并且根据其所衍生的种系基因来将这些序列指派到各家族。然后可确定在各种系家族中在所述序列各个位置上的氨基酸组成。在本文提供的实施例中对该方法进行了说明。 2.3.1.极简VKCDR3文库(Minimalist VKCDR3 Libraries) 在本发明的某些实施方案中,轻链CDR3文库为VKCDR3文库。本发明的某些实施方案可以仅用最常见的VKCDR3长度,即9个残基;该长度按人VKCDR3序列中的优势比例(大于约70%)出现。在长度为9的人VKCDR3序列中,位置89~95由IGKV基因编码,位置96~97由IGKJ基因编码。对人κ轻链序列的分析表明,在IGKJ基因的使用率上无大的偏差。因此,在本发明的某些实施方案中,可以按相同比例呈现5种IGKJ基因中的每一种以创建(M VK chassis)×(5种JK基因)的组合文库,即大小为M×5的文库。然而,在本发明的其它实施方案中,最好可使IGKJ基因呈现有倾向性,例如以限制文库的大小或偏倚已知具有特殊性质的IGKJ基因的文库。 如实施例6.1中所述,由IGKJ基因编码的第一个氨基酸(位置96)的研究表明存在于该位置的7个最常见的残基为L、Y、R、W、F、P和I。这些残基累计占天然存在的κ轻链序列位置96上存在的残基的约85%。在本发明的某些实施方案中,位置96上的氨基酸残基可以是这7个残基之一。在本发明的其它实施方案中,该位置的氨基酸可从其它13个氨基酸残基的任一个中选出。在本发明另外的实施方案中,位置96上的氨基酸残基可从出现在位置96上的前1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个氨基酸中选出,或者甚至在不出现在位置96上的残基中选出。同样,选出的占据位置96的氨基酸的出现次数可相等或有所偏重。在本发明的某些实施方案中,最好可包括选出的各种氨基酸以等量占据位置96。在本发明的其它实施方案中,最好可使位置96的组成有所偏重以包括与其它残基相比出现较频繁或较不频繁的特定残基。例如,如实施例6.1中所示,当使用IGKJ1种系序列时,精氨酸在位置96上的出现最为频繁。因此,在本发明的某些实施方案中,最好可根据选用于呈现在文库中的IGKJ种系序列和/或IGKV种系序列的来源,使位置96上的氨基酸使用有所偏重。 因此,在本发明的某些实施方案中,极简VKCDR3文库可用一种或多种下列氨基酸序列表示: [VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[JK*] [VK_Chassis]-[L3-VK]-[X]-[JK*] 在这些图解示例性序列中,VK_Chassis表示选用于包含在本发明文库中的任何VK chassis(例如参见表11)。准确地讲,VK_Chassis包含所选定的IGKV序列的约Kabat残基1~88。L3-VK表示由所选定的IGKV基因编码的VKCDR3部分(在该实施方案中为Kabat残基89-95)。F、L、I、R、W、Y和P是7个在VKCDR3位置96上最常出现的氨基酸,其长度为9,X为任何氨基酸,JK*为无N-端残基的IGKJ氨基酸序列(即N-端残基被F、L、I、R、W、Y、P或X取代)。因此,在极简VKCDR3文库中的一个可能的实施方案中,可通过使用10种VK chassis(每种与其相应的L3-VK配对)、位置96上的7个氨基酸(即X)和1种JK*序列,来产生70个成员。该文库另一个实施方案可具有350个成员,通过使10种VK chassis(每种与其相应的L3-VK配对)与位置96上的7个氨基酸和所有5种JK*基因组合产生。该文库的又一个实施方案可具有1,125个成员,通过使15种VK chassis(每种与其相应的H3-JK配对)与位置96上的15个氨基酸和所有5种JK*基因组合产生,等等。本领域普通技术人员可以容易地认识到,许多其它组合是可行的。此外,虽然我们认为保持VK chassis与L3-VK之间的配对导致产生在组成上更类似于人κ轻链序列的文库,但是L3-VK区还可以与不同的VK chassis区进行组合上的变化,以产生额外的多样性。 2.3.2.复杂度约105的VKCDR3文库 虽然人VKCDR3序列的优势长度约为9个氨基酸,但是其它长度以可测量的频率出现,累计接近VKCDR3序列的将近30%。具体地讲,在代表性样品中,长度为8和10的VKCDR3分别是VKCDR3长度的约8.5%和约16%(实施例6.2;图3)。因此,更复杂的VKCDR3文库可包括长度为8、10和11个氨基酸的CDR。这类文库可占人VKCDR3序列集合体中所观察到的长度分布的更大百分比,或者甚至引入不频繁出现在人VKCDR3序列中的VKCDR3长度(例如小于8个残基或大于11个残基)。 本发明文库中包括的κ轻链长度变异的多样性还能够使序列包括发生在VK-JK接点(即上述位置96)上的氨基酸以外的序列变异性。在本发明的某些实施方案中,可通过对衍生自特定种系序列的序列集合体进行比对,来确定VK区段和/或JK区段内的序列变异形式。在本发明的某些实施方案中,可通过序列比对,来确定VKCDR3内氨基酸残基的出现频率(例如参见实施例6.2和表30)。在本发明的一些实施方案中,这种出现频率可用来将变异性引入用来合成VKCDR3文库的VK_Chassis、L3-VK和/或JK区段。在本发明的某些实施方案中,在天然存在的抗体库中,出现在任何特定位置上的前1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个氨基酸均可包括在本发明VKCDR3文库的所述位置上。在本发明的某些实施方案中,在VKCDR3或VK轻链内的任何特定位置上,任何氨基酸的出现百分比可约为0%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或100%。在本发明的某些实施方案中,在本发明的VKCDR3或κ轻链文库内的任何位置上,任何氨基酸的出现百分比至少是在天然存在的VKCDR3或κ轻链结构域内的任何位置上任何氨基酸出现百分比的约1%、2%、3%、4%、5%、6%、7%、8%、9%10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、100%、120%、140%、160%、180%或200%。 在本发明的一些实施方案中,VKCDR3文库可以使用简并寡核苷酸合成(有关IUPAC碱基符号定义参见表31)。在本发明的一些实施方案中,寡核苷酸合成和遗传密码的限制可能需要VKCDR3序列的特定位置上包括较多或较少的氨基酸。该方法的示例性实施方案参见实施例6.2。 2.3.3.更复杂的VKCDR3文库 在某些情况下,在使用遗传密码和简并寡核苷酸合成法中的固有限制需要在VKCDR3内的特定位置上包括比天然位置上存在的氨基酸多或少的氨基酸(例如实施例6.2,表32)。这种限制可通过使用基于密码子的合成方法来克服(Virnekas等,Nucleic Acids Res.,1994,22:5600,通过引用其全部予以结合),该方法能够精确合成编码特定氨基酸的寡核苷酸,并且能够对掺到任何位置上的任何特定氨基酸的比例进行较好程度的控制。实施例6.3更详细地描述了这种方法。 在本发明的一些实施方案中,可以采用基于密码子的合成方法,来改变在VKCDR3或κ轻链内的任何特定位置上任何氨基酸的出现百分比。在某些实施方案中,在文库中的VKCDR3或κ轻链序列的任何位置上,任何氨基酸的出现百分比可约为0%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或100%。在本发明的一些实施方案中,在任何位置上任何氨基酸的出现百分比可约为1%、2%、3%或4%。在本发明的某些实施方案中,在本发明的VKCDR3或κ轻链文库内的任何位置上,任何氨基酸的出现百分比可至少是在天然存在的VKCDR3或κ轻链结构域内的任何位置上任何氨基酸出现百分比的约1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、100%、120%、140%、160%、180%或200%。 在本发明的某些实施方案中,可以改变VKCDR3(以及用于文库的任何其它序列,不论是否是VKCDR3的组成部分)以去掉不需要的氨基酸基序。例如,在包括酵母和哺乳动物细胞在内的多个表达系统中,具有N-X-(S或T)-Z(其中X和Z与P不同)形式的肽序列,将进行翻译后修饰(N-联糖基化)。在本发明的某些实施方案中,可以避免在某些位置引入N残基,以便避免引入N-联糖基化位点。在本发明的一些实施方案中,这些修饰可能不是必需的,这取决于用于表达文库的生物和培养条件。然而,即使用于表达文库的具有潜在N-联糖基化位点的生物不能进行N-联糖基化(例如细菌),但最好也要避免N-X-(S/T)序列,因为从这类文库分离的抗体以后(例如将到来的临床开发)可在不同系统(例如酵母、哺乳动物细胞)中表达,而且可变结构域(特别是CDR)中存在的糖部分可导致活性的不良改变。 在本发明的某些实施方案中,优选可分别创建不同长度的子文库(例如长度5、6、7、8、9、10、11个以上的一种或多种),然后按人序列中VKCDR3的长度分布比将子文库混合;例如,在长度为8、9和10的天然VKCDR3序列中出现的大约1∶9∶2的分布比(参见图3)。在其它实施方案中,最好可按不同于天然VKCDR3序列中长度分布的比率将这些子文库混合,以产生例如更集中的文库或具有特殊性质的文库。 2.3.4.VλCDR3文库 用于设计本发明的极简VλCDR3文库的原理类似于上文列举的VKCDR3文库的原理,并在实施例中进行了详细说明。与IGKV基因不同,本发明的VλCDR3文库与本发明的VKCDR3文库之间的一个差别是IGVλ基因对CDRL3(即L3-Vλ)的影响不限于氨基酸残基的固定数目。因此,虽然VK(包括L3-VK)和JK区段的组合(其中包括了位置96),产生长度仅为9个残基的CDRL3,但是即使当仅考虑Vλ(包括L3-Vλ)和Jλ区段时,在VλCDR3文库内便可达到长度变异。 对于VKCDR3序列,通过上文概述的同样方法,可将额外的变异性引入VλCDR3序列中,即确定VλCDR3序列内特定残基的出现频率,以及通过简并寡核苷酸合成法或基于三核苷酸的合成法合成编码所需组成的寡核苷酸。 2.4.合成的抗体文库 在本发明的某些实施方案中,重链chassis序列和轻链chassis序列以及重链CDR3序列和轻链CDR3序列都是合成的。可通过各种方法合成本发明的多核苷酸序列。例如,可在通过Feldhaus等人所描述的分合DNA合成法来进行序列合成(Feldhaus等,Nucleic AcidsResearch,2000,28:534;Omstein等,Biopolymers,1978,17:2341;以及Brenner和Lerner,PNAS,1992,87:6378(各文献通过引用其全部予以结合))。 在本发明的一些实施方案中,对代表存在于人抗体库中的可能的V、D和J多样性以及接点多样性的表达盒进行从头合成,成为双链DNA寡核苷酸、代表编码链的单链DNA寡核苷酸或代表非编码链的单链DNA寡核苷酸。然后将这些序列与含有chassis序列的接纳体载体,以及一部分FRM4和恒定区(在某些情况下)一起导入宿主细胞。不需要采用得自哺乳动物cDNA或mRNA的基于引物的PCR扩增或者得自哺乳动物cDNA或mRNA的模板指导的克隆步骤。 2.5.通过酵母同源重组进行的文库构建 在某些实施方案中,本发明利用酵母细胞以高效率促进同源重组的固有能力。下面简要描述了在酵母中同源重组的机制及其应用。 按照一个示例性实施方案,同源重组可以在例如酿酒酵母中进行,酿酒酵母具有被设计成以高效率进行同源重组的遗传机器。示例性的酿酒酵母品系包括EM93、CEN.PK2、RM11-1a、YJM789和BJ5465。一般认为这种机制是为了染色体修复而得到进化,亦称“缺口修复(gap repair)”或“缺口填补(gap filling)”。在利用该机制时,可将突变引入酵母基因组的特定基因座。例如,携带突变基因的载体可含有2个序列区段,所述区段与预期被间隔或突变的基因的5′和3′可读框(ORF)序列同源。载体还可编码阳性选择标记,例如两侧是2个同源DNA区段的营养酶等位基因(例如URA3)和/或抗生素抗性标记(例如遗传霉素/G418)。其它选择标记和抗生素抗性标记为本领域普通技术人员所知。在本发明的一些实施方案中,将这种载体(例如质粒)线性化,并转化至酵母细胞中。通过质粒与酵母基因组在2个同源重组位点进行的同源重组,在酵母基因组的野生型基因与两侧是2个同源序列区段的突变基因(包括选择标记基因)之间发生DNA内容物的相互交换。通过针对一种或多种选择标记进行选择,存活的酵母细胞将会是其中野生型基因已被突变基因置换的细胞(Pearson等,Yeast,1998,14:391,通过引用其全部予以结合)。这种机制已用来在所有6,000个酵母基因或可读框(ORF)中产生系统突变,以用于功能基因组学研究。因为交换是相互的,所以同样方法还成功用来将酵母基因组DNA片段克隆到质粒载体中(Iwasaki等,Gene,1991,109:81,通过引用其全部予以结合)。 在利用酵母中存在的内源性同源重组机器时,无需连接步骤,还可将基因片段或合成的寡核苷酸克隆到质粒载体中。在同源重组的这种应用中,获得(例如通过寡核苷酸合成法、PCR扩增、限制性消化另一载体等)靶基因片段(即待插入质粒载体的片段,例如CDR3)。将与质粒载体的选定区同源的DNA序列添加到靶基因片段的5′和3′端。这些同源区可以是完全合成的,或者是用掺入同源序列的引物通过PCR扩增靶基因片段添加的。质粒载体可包括阳性选择标记,例如营养酶等位基因(例如URA3)或抗生素抗性标记(例如遗传霉素/G418)。然后通过对位于与靶基因片段有共同序列同源性的区域之间进行独特的限制性切割使质粒载体线性化,从而在切割位点产生人工缺口。使线性化的质粒载体和两侧是与质粒载体同源的序列的靶基因片段共同转化到酵母宿主品系中。然后酵母能够识别载体和靶基因片段之间同源的序列段,并通过在缺口上的同源重组促进DNA内容物的相互交换。因而无需连接便将靶基因片段插入载体。 当靶基因片段呈单链DNA的形式时,例如作为环状M13噬菌体衍生形式或作为单链寡核苷酸时,上述方法也被证实是行之有效的(Simon和Moore,Mol.Cell Biol.,1987,7:2329;Ivanov等,Genetics,1996,142:693;以及DeMarini等,2001,30:520.,各文献通过引用其全部予以结合)。因此,可重组到有缺口载体的靶标形式可以是双链或单链,并可得自化学合成、PCR、限制性消化或其它方法。 若干因素可影响酵母中同源重组的效率。例如,缺口修复的效率与位于线性化载体和靶基因两侧的同源序列长度相关。在某些实施方案中,对于同源序列的长度,可使用约20个以上碱基对,约80个碱基对可得到几乎最优化的结果(Hua等,Plasmid,1997,38:91;Raymond等,Genome Res.,2002,12:190,各文献通过引用其全部予以结合)。在本发明的某些实施方案中,至少大约5、10、15、20、21、22、23、24、25、26、27、28、29、30、31、32、33、3435、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、187、190或200个同源碱基对可用来促进重组。在其它实施方案中,使用介于约20个和约40个之间的碱基对。另外,载体与基因片段之间的相互交换是严格序列依赖性的,即它不会引起移码。因此,缺口修复克隆确保了基因片段既高效率又精确的插入。高效率使得有可能在一次转化尝试中将2、3个以上靶定基因片段同时克隆到同一载体上(Raymond等,Biotechniques,1999,26:134,通过引用其全部予以结合)。此外,通过同源重组的精确序列保守性质使得可能将所选定的基因或基因片段克隆到表达载体或融合载体中以指导功能研究(El-Deiry等,Nature Genetics,1992,1:4549;Ishioka等,PNAS,1997,94:2449,各文献通过引用其全部予以结合)。 采用同源重组,还在酵母中构建了基因片段文库。例如,在载体pJG4-5中构建了人脑cDNA文库作为双杂合融合文库(two-hybridfusion library)(Guidotti和Zervos,Yeast,1999,15:715,通过引用其全部予以结合)。还有研究报告了共6,000对PCR引物被用来扩增6,000个已知的酵母ORF,以研究酵母基因组蛋白相互作用(Hudson等,Genome Res.,1997,7:1169,通过引用其全部予以结合)。在2000年,Uetz等人在酿酒酵母中进行了蛋白质-蛋白质相互作用的综合分析(Uetz等,Nature,2000,403:623,通过引用其全部予以结合)。通过采用分析酵母蛋白质之间所有可能组合中的双杂种相互作用的综合系统,对芽殖酵母的蛋白质-蛋白质相互作用图谱进行了研究(Ito等,PNAS,2000,97:1143,通过引用其全部予以结合),采用该系统,还研究了牛痘病毒的基因组蛋白质连锁图(McCraith等,PNAS,2000,97:4879,通过引用其全部予以结合)。 在本发明的某些实施方案中,可通过同源重组将合成的CDR3(重链或轻链)与编码重链chassis或轻链chassis、一部分FRM4和恒定区的载体连接,形成全长重链或轻链。在本发明的某些实施方案中,同源重组直接在酵母细胞中进行。在一些实施方案中,该方法包括: (a)转化至酵母细胞: (i)编码重链chassis或轻链chassis、一部分FRM4和恒定区的线性化载体,其中线性化位点在Chassis的FRM3末端与恒定区的起点之间;和 (ii)作为线性双链的CDR3插入核苷酸序列的文库,其中每个CDR3插入序列中都包含编码CDR3以及5′侧翼序列和3′侧翼序列的核苷酸序列,所述侧翼序列与(i)的载体在线性化位点上的末端足够同源,使得能够在载体与CDR3插入序列的文库之间发生同源重组;和 (b)允许在转化酵母细胞中在载体与CDR3插入序列之间发生同源重组,使得CDR3插入序列掺入载体,产生编码全长重链或轻链的载体。 如上所述,CDR3插入序列可具有与线性化载体末端同源的5′侧翼序列和3′侧翼序列。当将CDR3插入序列和线性化载体导入宿主细胞(例如酵母细胞)时,通过这2个线性双链DNA(即载体和插入序列)在5′端和3′端进行同源序列重组,由CDR3片段插入序列填补因载体线性化而产生的“缺口”(线性化位点)。通过这一同源重组事件,便产生了包含可变CDR3插入序列的编码全长重链或轻链的环状载体文库。实施例中提供了这些方法的具体实例。 可进行后续分析以测定导致CDR3序列正确插入载体的同源重组的效率。例如,直接从选出的酵母克隆进行CDR3插入序列的PCR扩增,可以揭示有多少克隆是重组体。在某些实施方案中,使用最小约90%重组克隆的文库。在某些其它的实施方案中,使用具有以下最小百分比的重组克隆的文库:约1%、5%10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。选出的克隆经相同的PCR扩增还可揭示插入序列大小。 为了证实在选出的克隆中插入序列的序列多样性,可以用已知在扩增区内切割或不切割的限制性内切酶,对具有正确插入序列大小的PCR扩增产物进行“指纹分析”。从凝胶电泳图中,可以确定所分析的克隆是否具有相同同一性或者具有截然不同或多样化同一性。还可对PCR产物直接进行测序以揭示插入序列的同一性和克隆方法的保真度,并证实克隆的独立性和多样性。图1表示用于构建文库的片段(例如CDR3)与载体(例如包含chassis、部分FRM4和恒定区)间重组的示意图。 2.6.表达和筛选系统 可以表达和筛选通过本文所述任何技术或其它合适技术产生的多核苷酸文库,以鉴定具有所需结构和/或活性的抗体。例如,可使用无细胞提取物(例如核糖体展示)、噬菌体展示、原核细胞(例如细菌展示)或真核细胞(例如酵母展示),来进行抗体表达。在本发明的某些实施方案中,在酵母中表达抗体文库。 在其它实施方案中,将多核苷酸进行工程改造以用作可在无细胞提取物中进行表达的模板。例如,可以使用美国专利第5,324,637、5,492,817、5,665,563号(各专利通过引用其全部予以结合)中所描述的载体和提取物,而且许多是市售的。可以采用将多核苷酸(即基因型)与多肽(即表型)相联系的核糖体展示和其它无细胞技术,例如,ProfusionTM(参见例如美国专利第6,348,315、6,261,804、6,258,558和6,214,553号,各专利通过引用其全部予以结合)。 或者,可以在大肠杆菌(E.coli)表达系统,例如Pluckthun和Skerra(Meth.Enzymol.,1989,178:476;Biotechnology,1991,9:273,各文献通过引用其全部予以结合)所描述的大肠杆菌表达系统中表达本发明的多核苷酸。可按照Better和Horwitz(Meth.Enzymol.,1989,178:476,通过引用其全部予以结合)所述方法,表达突变蛋白以分泌在培养基中和/或在细菌胞质内。在一些实施方案中,编码VH和VL的单一结构域各与信号序列的编码序列的3’端连接,例如ompA、phoA或pelB信号序列(Lei等,J.Bacteriol.,1987,169:4379,通过引用其全部予以结合)。这些基因融合物在双顺反子构建体中装配,致使它们可从单一载体表达,并分泌到大肠杆菌的周质间隙,在此它们将再折叠,并且可恢复活性形式(Skerra等,Biotechnology,1991,9:273,通过引用其全部予以结合)。例如,抗体重链基因可与抗体轻链基因同时表达以产生抗体或抗体片段。 在本发明的其它实施方案中,使用如例如US20040072740、US20030100023和US20030036092(各文献通过引用其全部予以结合)中所述的分泌信号和脂化部分,使抗体序列在大肠杆菌等原核生物的膜表面上表达。 哺乳动物细胞等高等真核细胞,例如骨髓瘤细胞(例如NS/0细胞)、杂交瘤细胞、中国仓鼠卵巢(CHO)细胞和人胚肾(HEK)细胞,也可用于表达本发明的抗体。通常,在哺乳动物细胞表达的抗体被设计成分泌到培养基中,或在细胞表面上表达。可以例如完整抗体分子的形式或以各个VH和VL片段、Fab片段、单一结构域的形式、或以单链(scFv)形式产生抗体或抗体片段(Huston等,PNAS,1988,85:5879,通过引用其全部予以结合)。 或者,可以通过锚定的周质表达(anchored periplasmic expression)(APEx 2-杂合表面展示)(参见例如Jeong等,PNAS,2007,104:8247,通过引用其全部予以结合),或者通过其它锚定方法(参见例如Mazor等,Nature Biotechnology,2007,25:563,通过引用其全部予以结合),来表达和筛选抗体。 在本发明的其它实施方案中,可采用哺乳动物细胞展示,来选择抗体(Ho等,PNAS,2006,103:9637,通过引用其全部予以结合)。 得自本发明文库的抗体的筛选可通过任何合适的方法进行。例如,可通过标准免疫测定法和/或亲和层析法评价结合活性。可采用标准测定法,例如美国专利第5,798,208号(通过引用其全部予以结合)等中所披露的血红蛋白噬斑测定法,来实现本发明抗体的催化功能的筛选,例如蛋白水解功能。可采用例如BIACORETM仪器,在体外进行候选抗体与治疗靶的结合能力的测定,这是根据表面等离子共振,来测量抗体与给定靶或抗原的结合速率。可使用多种动物模型中的任一种进行体内测定法,然后,适当时在人体内进行后续试验。还包括基于细胞的生物学实验。 本发明的一个方面是文库中的抗体可以表达和筛选的速度。在本发明的某些实施方案中,抗体文库可在酵母中表达,其倍增时间约为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24小时以内。在一些实施方案中,倍增时间为约1~约3小时,约2~约4小时、约3~约8小时、约3~约24小时、约5~约24小时、约4~约6小时、约5~约22小时、约6~约8小时、约7~约22小时、约8~约10小时、约7~约20小时、约9~约20小时、约9~约18小时、约11~约18小时、约11~约16小时、约13~约16小时、约16~约20小时或约20~约30小时。在本发明的某些实施方案中,抗体文库在酵母中表达,其倍增时间为约16~约20小时、约8~约16小时或约4~约8小时。因此,与花数天时间表达和筛选抗体文库的现有已知技术相比,本发明的抗体文库可在数小时内进行表达和筛选。在哺乳动物细胞中,这类筛选方法的通量方面的限制步骤仅仅是使分离细胞群重复再生长所需要的时间,在某些情况下,其倍增时间大于用于本发明的酵母的倍增时间。 在本发明的某些实施方案中,可在一个或多个富集步骤之后确定文库的组成(例如通过针对抗原结合或其它性质进行筛选)。例如,在一个或多个筛选步骤之后,其组成包含约x%本发明序列或文库的文库可富集至含有约2x%、3x%、4x%、5x%、6x%、7x%、8x%、9x%、10x%、20x%、25x%、40x%、50x%、60x%、75x%、80x%、90x%、95x%或99x%本发明序列或文库。在本发明的其它实施方案中,与在一个或多个富集步骤之前的本发明序列或文库的出现相比,本发明的序列或文库可富集约2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、100倍、1,000倍以上。在本发明的某些实施方案中,文库可含有至少某一数量的特定序列类型,例如CDRH3、CDRL3、重链、轻链或完整抗体(例如至少约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019或1020)。在某些实施方案中,这些序列可以在一个或多个富集步骤期间富集,以提供包含至少约102、103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018或1019个相应序列的文库。 2.7.亲和力成熟的诱变方法 如上所述,可以通过包括根据结合一种或多种抗原或者生物活性对本发明文库的抗体进行筛选的选择方法,来鉴定抗体lead。还可对这些抗体lead的编码序列进行体外或体内诱变以产生在初始抗体lead方面引入多样性的二级文库。然后,可按照与用于从一级文库选出初始抗体lead同样的方法,在体外或体内进一步筛选出与靶抗原结合或有生物活性的经诱变的抗体lead。第一抗体lead的这种诱变和选择有效地模拟了亲和力成熟过程,该过程天然存在于产生对抗原的亲和力逐步增加的抗体的哺乳动物中。在本发明的一个实施方案中,仅CDRH3区是经过诱变的。在本发明的另一个实施方案中,整个可变区是经过诱变的。在本发明的其它实施方案中,CDRH1、CDRH2、CDRH3、CDRL1、CDRL2和/CDRL3中的一种或多种可经过诱变。在本发明的一些实施方案中,“轻链改组”可用作亲和力成熟方案的组成部分。在某些实施方案中,这可包括将一个或多个重链与多个轻链配对,以选出提高抗体亲和力和/或生物活性的轻链。在本发明的某些实施方案中,可与一个或多个重链配对的轻链的数目至少约为2、5、10、100、1000、104、105、106、107、108、109或1010个。在本发明的某些实施方案中,这些轻链由质粒编码。在本发明的其它实施方案中,可将轻链整合到宿主细胞的基因组内。 可通过各种方法诱变抗体lead的编码序列。诱变方法的实例包括但不限于定点诱变、易错PCR诱变、表达盒诱变和随机PCR诱变。或者,可以合成具有所需突变的寡核苷酸编码区,并且例如通过重组或连接将其引入待诱变的序列。 可以使用定点诱变或点诱变来逐渐改变特定区域中的CDR序列。这可以通过采用寡核苷酸指导的诱变或PCR来实现。例如,在重链区或轻链区或两区内,抗体lead的短序列可用经合成方式诱变的寡核苷酸置换。该方法对于诱变大量的CDR序列可能不是高效的,但却可用来微调特定lead以获得对特异性靶蛋白的较高亲和力。 表达盒诱变还可用来诱变特定区域的CDR序列。在典型的表达盒诱变中,单一模板的序列模块(block)或区通过使序列完全或部分随机排列而被置换。然而,可通过寡核苷酸的随机序列数,以统计学的方法限制可以获取的最大信息量。与点诱变相同,该方法也可用于特定lead的微调以获得对特异性靶蛋白的较高亲和力。 可按照以下文献所述方案,采用易错PCR或“毒(poison)”PCR诱变CDR序列:Caldwell和Joyce,PCR Methods and Applications,1992,2:28;Leung等,Technique,1989,1:11;Shafikhani等,Biotechniques,1997,23:304;以及Stemmer等,PNAS,1994,91:10747(各文献通过引用其全部予以结合)。 易错PCR的条件可包括(a)有效诱导Taq DNA聚合酶功能失常的高浓度Mn2+(例如约0.4mM~约0.6mM);和(b)在PCR反应中一种不成比例的高浓度核苷酸底物(例如dGTP),这能引起将该高浓度的底物不正确地掺入模板,并产生突变。另外,其它因素例如PCR循环次数、所使用的DNA聚合酶种类和模板长度,都可影响将“错误”核苷酸错掺入PCR产物的速度。市售的试剂盒可用于所选定的抗体文库的诱变,例如“多样性PCR随机诱变试剂盒(Diversity PCR randommutagenesis kit)”(CLONTECHTM)。 在某些实施方案中,基于PCR的诱变中所使用的引物对可包括与表达载体中的同源重组位点匹配的区。这种设计可允许在诱变之后,通过同源重组容易地将PCR产物再引入回到重链或轻链chassis载体。 其它基于PCR的诱变方法也可单用或与上述易错PCR联用。例如,PCR扩增的CDR区段可用脱氧核糖核酸酶(DNA酶)消化,以在双链DNA中产生切口(nick)。可通过其它外切核酸酶(例如Bal 31)将这些切口扩大成缺口(gap)。然后可在低浓度的常规底物dGTP、dATP、dTTP和dCTP与一种不成比例的高浓度底物(例如dGTP)的情况下,通过使用DNA Klenow聚合酶由随机序列填补缺口。这种填平反应可在填补的缺口区产生高频率突变。这些脱氧核糖核酸酶消化方法可与易错PCR联用以在所需要的CDR区段产生高频率突变。 还可通过利用前B细胞突变的固有能力,在体内诱变由第一抗体lead扩增的CDR或抗体区段。前B细胞中的Ig基因对高速突变特别敏感。在前B细胞增殖的同时,Ig启动子和增强子促进前B细胞环境中的这类高速突变。因此,可将CDR基因区段克隆至含有人Ig增强子和启动子的哺乳动物表达载体中。可将这种构建体导入前B细胞系,例如38B9,无疑在前B细胞中能使VH和VL基因区段发生突变(Liu和Van Ness,Mol.Immunol.,1999,36:461,通过引用其全部予以结合)。可从培养的前B细胞系中扩增诱变的CDR区段,并且可通过例如同源重组将其重新引入返回含chassis的载体中。 在一些实施方案中,可使用简并密码子或三核苷酸重新合成从筛选文库中分离出来的“命中(hit)”的CDR,并且应用缺口修复,重新克隆至重链或轻链载体。 3.文库采样 在本发明的某些实施方案中,本发明的文库包含设计的非随机的库,其中在物理实现的文库中,可以这样的水平超采样文库特定组分(例如CDRH3)但不一定是所有组分或整个文库的理论多样性,即任何给定数目的理论文库在文库中至少以某种频率(例如至少1次、2次、3次、4次、5次以上)存在于物理实现的文库中,所述水平有某种统计置信度(例如95%)。 在文库中,一般假定给定克隆的拷贝数服从泊松概率分布(Poisson probability distribution)(参见Feller,W.An Introduction toProbability Theory and Its Application,1968,Wiley New York,通过引用其全部予以结合)。泊松随机数为零的概率,在文库的情况下相当于缺失一个给定组分成员的概率(见下文)为e-N,其中N为随机数的平均值。例如,如果有106个可能的文库理论成员,物理实现的文库有107个成员,其中抽取理论文库的每个成员的概率相等,则每个成员在物理实现的文库中出现的平均次数为107/106=10,且给定成员的拷贝数为零的概率为e-N=e-10=0.000045;即99.9955%机会是在这个10X超采样文库中,106个理论成员中的任一个有至少一个拷贝。对于2.3X超采样文库,给定组分存在的把握(confident)有90%。对于3X超采样文库,给定组分存在的把握有95%。对于4.6X超采样文库,给定克隆存在的把握有99%等等。 因此,如果M是可切实物理实现的理论文库成员的最大数,则M/3是最大的理论库大小,对于这个大小,可采集到理论文库的任何给定成员的把握可有95%。重要的是要注意,一个给定成员呈现的机会为95%与每一个可能的成员呈现的机会为95%之间是有区别的。在某些实施方案中,本发明提供合理设计的具有多样性的文库,使得任何给定成员有95%的可能呈现在物理实现的文库中。在本发明的其它实施方案中,设计这样的文库以使任何给定成员至少有约0.0001%、0.001%、0.01%、0.1%、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、99%、99.5%或99.9%的可能呈现在物理实现的文库中。有关综述参见例如Firth和Patrick,Biomol.Eng.,2005,22:105;以及Patrick等,Protein Engineering,2003,16:451,各文献通过引用其全部予以结合。 在本发明的某些实施方案中,文库可具有X种独特成员的总的理论多样性,且物理实现的总的理论多样性可含有至少约1X、2X、3X、4X、5X、6X、7X、8X、9X、10X或更多个成员。在一些实施方案中,物理实现的总的理论多样性可含有约1X~约2X、约2X~约3X、约3X~约4X、约4X~约5X、约5X~约6X个成员。在其它实施方案中,物理实现的总的理论多样性可含有约1X~约3X或约3X~约5X个总成员。 在所有定向进化实验基础上的一个假设是,理论上可能的分子多样性的量与合成它、物理实现它和筛选它的能力相比十分巨大。当文库的多样性被最大化时,在给定文库中发现具有改进性质的变异体的可能性被最大化。Patrick等人利用简单的统计学推导出一列方程式和计算机算法以评估通过随机化寡核苷酸诱变、易错PCR和体外重组构建的文库中独特序列变异体的数目。他们编写了一套用于计算文库统计数据的程序,例如GLUE、GLUE-IT、PEDEL、PEDEL-AA和DRIVeR。这些程序参见Patrick等,Protein Engineering,2003,16:451以及Firth等,Nucleic Acids Res.,2008,36:W281,其中有如何存取程序的说明书,各文献通过引用其全部予以结合。 构建其中理论多样性的一些组分(例如CDRH3)是超采样的,而其它方面(VH/VL配对)则不是的物理实现的文库是可行的。例如,假设一个文库,其中设计出108种存在于单一VH chassis中的CDRH3区段,然后与105种VL基因配对以产生1013(=108*105)种可能的完整杂二聚抗体。如果构建了这一物理实现的文库,其多样性为109个转化子克隆(transformant clone),则CDRH3多样性是10倍(=109/108)超采样的,然而可能的VH/VL配对采样不足达10-4(=109/1013)。在该实例中,平均起来,每个CDRH3仅与得自可能的105种二联体的10个VL样本配对。在本发明的某些实施方案中,正是CDRH3多样性是优选超采样的。 3.1.本发明多核苷酸序列的其它变异体 在某些实施方案中,本发明涉及与本文教导的多核苷酸杂交的多核苷酸或与本文教导的多核苷酸互补的序列杂交的多核苷酸。例如,本发明包括在低严格性条件、中等严格性条件或高严格性条件下杂交和洗涤之后仍与本文教导的多核苷酸或本文教导的多核苷酸的互补序列保持杂交的分离多核苷酸。 示例性的低严格性条件包括在约37℃下,用约30%~约35%甲酰胺、约1M NaCl、约1%SDS(十二烷基硫酸钠)的缓冲液杂交,并在约50℃~约55℃下,在约1X~约2X SSC(20X SSC=3.0M NaCl/0.3M柠檬酸三钠)中洗涤。 示例性的中等严格性条件包括约37℃下,在约40%~约45%甲酰胺、约1M NaCl、约1%SDS中杂交,并在约55℃~约60℃下,在约0.5X~约1X SSC中洗涤。 示例性的高严格性条件包括在约37℃下,在约50%甲酰胺、约1M NaCl、约1%SDS中杂交,并在约60℃~约65℃下,在约0.1X SSC中洗涤。 任选洗涤缓冲液可包含约0.1%~约1%SDS。 杂交的持续时间一般小于约24小时,通常约4~约12小时。 3.2.子文库和包含本发明文库或子文库的较大文库 如本申请全文中所述,在某些实施方案中,本发明的文库以其类似于人的序列组成和长度以及产生物理实现的文库的能力而著称,该文库含有文库的特定组分所有成员(或在某些情况下甚至超采样)。本发明包括包含本文所述文库的组合的文库(例如CDRH3文库和CDRL3文库)。本发明还包括包含本文所述文库的部分的子文库(例如特定重链chassis的CDRH3文库或CDRH3文库的子集)。本领域普通技术人员容易理解的是,本文所述文库中的每一个都具有若干组分(例如CDRH3、VH、CDRL3、VL等),并且可以改变这些组分的多样性以产生落入本发明范围的子文库。 此外,含有本发明的文库或子文库之一的文库也落入本发明的范围内。例如,在本发明的某些实施方案中,本发明的一个或多个文库或子文库可包含在较大的文库中,所述较大的文库可包括通过其它方法得到的序列,例如通过随机或半随机合成法得到的非人类序列或人序列。在本发明的某些实施方案中,多核苷酸文库中不论其它99%的序列的组成如何,至少约1%的序列可以是本发明的序列(例如CDRH3序列、CDRL3序列、VH序列、VL序列)。在本发明的其它实施方案中,在任何多核苷酸文库中,不论其它序列的组成如何,至少约0.001%、0.01%、0.1%、2%、5%、10%、20%、30%、40%、50%、60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的序列可以是本发明的序列。在一些实施方案中,在任何多核苷酸文库中,不论其它序列的组成如何,本发明的序列可构成序列的约0.001%~约1%、约1%~约2%、约2%~约5%、约5%~约10%、约10%~约15%、约15%~约20%、约20%~约25%、约25%~约30%、约30%~约35%、约35%~约40%、约40%~约45%、约45%~约50%、约50%~约55%、约55%~约60%、约60%~约65%、约65%~约70%、约70%~约75%、约75%~约80%、约80%~约85%、约85%~约90%、约90%~约95%或约95%~约99%。因此,比一个或多个本发明文库或子文库的多样性更多但仍包含一个或多个本发明文库或子文库的文库同样落入本发明的范围内,其量是其中一个或多个本发明文库或子文库可有效筛选出来并可从由一个或多个本发明文库或子文库编码的序列中分离出来的量。 3.3.替代性支架 在本发明的某些实施方案中,可在替代性支架上展示本发明文库的氨基酸产物(例如CDRH3或CDRL3)。研究显示,这些支架中的若干种产生具有抵得上抗体特异性和亲和力的特异性和亲和力的分子。示例性的替代性支架包括衍生自以下的替代性支架:纤连蛋白(例如AdNectin)、β-夹层(β-sandwich)(例如iMab)、脂笼蛋白(例如Anticalin)、EETI-II/AGRP、BPTI/LACI-D1/ITI-D2(例如Kunitz结构域)、硫氧还蛋白(例如肽适体)、A蛋白(例如Affibody)、锚蛋白重复序列(例如DARPin)、γB-晶体蛋白/泛蛋白(例如Affilin)、CTLD3(例如Tetranectin)和(LDLR-A模件)3(例如Avimers)。有关替代性支架的其它信息参见Binz等,Nat.Biotechnol.,200523:1257和Skerra,Current Opin.inBiotech.,200718:295-304,各文献通过引用其全部予以结合。 4.本发明的其它实施方案 在某些实施方案中,本发明包括合成的免疫前人抗体CDRH3文库,该文库包含107~108种代表存在于已知重链CDR3序列的序列多样性和长度多样性的多核苷酸序列。 在其它实施方案中,本发明包括合成的免疫前人抗体CDRH3文库,该文库包含编码由下式表示的CDRH3的多核苷酸序列: [G/D/E/-][N1][DH][N2][H3-JH], 其中[G/D/E/-]的长度为0-1个氨基酸,[N1]为0-3个氨基酸,[DH]的长度为3-10个氨基酸,[N2]的长度为0-3个氨基酸,[H3-JH]的长度为2-9个氨基酸。 在本发明的某些实施方案中,[G/D/E/-]由选自以下的氨基酸序列表示:G、D、E及无。 在本发明的一些实施方案中,[N1]由选自以下的氨基酸序列表示:G、R、S、P、L、A、V、T、(G/P)(G/R/S/P/L/A/V/T)、(R/S/L/A/V/T)(G/P)、GG(G/R/S/P/L/A/V/T)、G(R/S/P/L/A/V/T)G、(R/S/P/L/A/V/T)GG及无。 在本发明的某些实施方案中,[N2]由选自以下的氨基酸序列表示:G、R、S、P、L、A、V、T、(G/P)(G/R/S/P/L/A/V/T)、(R/S/L/A/V/T)(G/P)、GG(G/R/S/P/L/A/V/T)、G(R/S/P/L/A/V/T)G、(R/S/P/L/A/V/T)GG及无。 在本发明的一些实施方案中,[DH]包含选自以下的序列:IGHD3-10读框1、IGHD3-10读框2、IGHD3-10读框3、IGHD3-22读框2、IGHD6-19读框1、IGHD6-19读框2、IGHD6-13读框1、IGHD6-13读框2、IGHD3-03读框3、IGHD2-02读框2、IGHD2-02读框3、IGHD4-17读框2、IGHD1-26读框1、IGHD1-26读框3、IGHD5-5/5-18读框3、IGHD2-15读框2及上述IGHD的所有可能的N-端和C-端截短直到3个氨基酸。 在本发明的某些实施方案中,[H3-JH]包含选自以下的序列:AEYFQH、EYFQH、YFQH、FQH、QH、YWYFDL、WYFDL、YFDL、FDL、DL、AFDV、FDV、DV、YFDY、FDY、DY、NWFDS、WFDS、FDS、DS、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV、MDV和DV。 在本发明的一些实施方案中,由[G/D/E/-][N1][ext-DH][N2][H3-JH]表示的序列包含长度为约3~约26个氨基酸的序列。 在本发明的某些实施方案中,由[G/D/E/-][N1][ext-DH][N2][H3-JH]表示的序列包含长度为约7~约23个氨基酸的序列。 在本发明的一些实施方案中,文库包含约107~约1010种序列。 在本发明的某些实施方案中,文库包含约107种序列。 在本发明的一些实施方案中,文库的多核苷酸序列还包含编码位于相应的文库序列N末端上的构架3(FRM3)区的5’多核苷酸序列,其中FRM3区包含约1~约9个氨基酸残基的序列。 在本发明的某些实施方案中,FRM3区包含选自CAR、CAK和CAT的序列。 在本发明的一些实施方案中,多核苷酸序列还包含编码位于相应的文库序列C末端上的构架4(FRM4)的3’多核苷酸序列,其中FRM4区包含约1~约9个氨基酸残基的序列。 在本发明的某些实施方案中,文库包含FRM4区,该FRM4区包含选自WGRG和WGQG的序列。 在本发明的一些实施方案中,多核苷酸序列还包含编码相应的多肽序列的FRM3区,该多肽序列包含选自CAR、CAK和CAT的序列;且多核苷酸序列还包含编码相应的多肽序列的FRM4区,该多肽序列包含选自WGRG和WGQG的序列。 在本发明的某些实施方案中,多核苷酸序列还包含促进与重链chassis同源重组的5’序列和3’序列。 在一些实施方案中,本发明包括合成的免疫前人抗体轻链文库,该文库包含编码由下式表示的人抗体κ轻链的多核苷酸序列: [IGKV(1-95)][F/L/I/R/W/Y][JK]。 在本发明的某些实施方案中,[IGKV(1-95)]选自IGKV3-20(1-95)、IGKV1-39(1-95)、IGKV3-11(1-95)、IGKV3-15(1-95)、IGKV1-05(1-95)、IGKV4-01(1-95)、IGKV2-28(1-95)、IGKV 1-33(1-95)、IGKV1-09(1-95)、IGKV1-12(1-95)、IGKV2-30(1-95)、IGKV1-27(1-95)、IGKV1-16(1-95)和所述组别的截短直到并包括Kabat的位置95。 在本发明的一些实施方案中,[F/L/I/R/W/Y]是选自F、L、I、R、W和Y的氨基酸。 在本发明的某些实施方案中,[JK]包含选自TFGQGTKVEIK和TFGGGT的序列。 在本发明的一些实施方案中,轻链文库包括κ轻链文库。 在本发明的某些实施方案中,多核苷酸序列还包含促进与轻链chassis同源重组的5’序列和3’序列。 在一些实施方案中,本发明包括用于产生包含107~108种多核苷酸序列的合成的免疫前人抗体CDRH3文库的方法,所述方法包括: a)选择编码CDRH3序列的CDRH3多核苷酸序列,方法如下: {0~5个氨基酸,选自10个以内由末端脱氧核苷酸转移酶(TdT)优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是 {仅IGHD的所有可能的N-端或C-端截短以及N-端和C-端截短的所有可能的组合},后面是 {0~5个氨基酸,选自10个以内由TdT优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是 {IGHJ的所有可能的N-端截短,直到DXWG,其中X为S、V、L或Y};和 b)通过化学合成法合成a)中所述的CDRH3文库,其中产生了合成的免疫前人抗体CDRH3文库。 在某些实施方案中,本发明包括合成的免疫前人抗体CDRH3文库,该文库包含107~1010种代表编码由下式表示的CDRH3的已知的人IGHD和IGHJ种系序列的多核苷酸序列: {0~5个氨基酸,选自10个以内由末端脱氧核苷酸转移酶(TdT)优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是 {仅IGHD的所有可能的N-端或C-端截短以及N-端和C-端截短的所有可能的组合},后面是 {0~5个氨基酸,选自10个以内由TdT优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是 {IGHJ的所有可能的N-端截短,直到DXWG,其中X为S、V、L或Y}。 在某些实施方案中,本发明包括合成的免疫前人抗体重链可变结构域文库,该文库包含107~1010种编码人抗体重链可变结构域的多核苷酸序列,所述文库包含: a)抗体重链chassis,和 b)根据人IGHD和IGHJ种系序列设计的CDRH3库,方法如下: {0~5个氨基酸,选自10个以内由末端脱氧核苷酸转移酶(TdT)优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是 {仅IGHD的所有可能的N-端或C-端截短以及N-端和C-端截短的所有可能的组合},后面是 {0~5个氨基酸,选自10个以内由TdT优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是 {IGHJ的所有可能的N-端截短,直到DXWG,其中X为S、V、L或Y}。 在本发明的一些实施方案中,合成的免疫前人抗体重链可变结构域文库表达成选自IgG1全长链、IgG2全长链、IgG3全长链和IgG4全长链的全长链。 在本发明的某些实施方案中,人抗体重链chassis选自IGHV4-34、IGHV3-23、IGHV5-51、IGHV1-69、IGHV3-30、IGHV4-39、IGHV1-2、IGHV1-18、IGHV2-5、IGHV2-70、IGHV3-7、IGHV6-1、IGHV1-46、IGHV3-33、IGHV4-31、IGHV4-4、IGHV4-61和IGHV3-15。 在本发明的一些实施方案中,合成的免疫前人抗体重链可变结构域文库包含107~1010种编码人抗体重链可变结构域的多核苷酸序列,所述文库包含: a)抗体重链chassis,和 b)合成的免疫前人抗体CDRH3文库。 在本发明的一些实施方案中,多核苷酸序列为单链编码多核苷酸序列。 在本发明的某些实施方案中,多核苷酸序列为单链非编码多核苷酸序列。 在本发明的一些实施方案中,多核苷酸序列为双链多核苷酸序列。 在某些实施方案中,本发明包括倍增时间为4小时以内的可复制细胞群,在该细胞中表达合成的免疫前人抗体库。 在本发明的一些实施方案中,可复制细胞群为酵母细胞。 在某些实施方案中,本发明包括产生全长抗体文库的方法,所述方法包括用免疫前人抗体重链可变结构域文库和合成的免疫前人抗体轻链文库转化细胞。 在一些实施方案中,本发明包括产生全长抗体文库的方法,所述方法包括用免疫前人抗体重链可变结构域文库和合成的免疫前人抗体轻链文库转化细胞。 在某些实施方案中,本发明包括产生抗体文库的方法,所述方法包括通过分合DNA合成法合成多核苷酸序列。 在本发明的一些实施方案中,多核苷酸序列选自单链编码多核苷酸序列、单链非编码多核苷酸序列和双链多核苷酸序列。 在某些实施方案中,本发明包括合成的全长免疫前人抗体文库,该文库包含约107~约1010种代表存在于已知重链CDR3序列中的序列多样性和长度多样性的多核苷酸序列。 在某些实施方案中,本发明包括从人抗体文库中选择目标抗体的方法,所述方法包括提供合成的免疫前人抗体CDRH3文库,该文库包含(N)种代表存在于已知重链CDR3序列中的序列多样性和长度多样性的多核苷酸序列的理论多样性,其中物理实现的该多样性是实际文库大小的至少3(N),从而提供单个目标抗体存在于文库中的概率为95%,并且选出目标抗体。 在本发明的一些实施方案中,理论多样性为约107~约108种多核苷酸序列。 实施例 通过下列不得解释为是限制性的实施例对本发明进行进一步说明。本申请全文所引用的所有参考文献、专利和公布的专利申请的内容通过引用结合到本文中。 总体说来,除非另有说明,否则应用为本领域技术人员所掌握以及文献中有记载的化学常规技术、分子生物学技术、重组DNA技术、PCR技术、免疫学(尤其例如抗体技术)、表达系统(例如酵母表达、无细胞表达、噬菌体展示、核糖体展示和PROFUSIONTM)以及任何必需的细胞培养物来实施本发明。参见例如Sambrook,Fritsch和Maniatis,Molecular Cloning:Cold Spring Harbor Laboratory Press(1989);DNACloning,第1、2卷,(D.N.Glover主编,1985);Oligonucleotide Synthesis(寡核苷酸合成)(M.J.Gait主编,1984);PCR Handbook CurrentProtocols in Nucleic Acid Chemistry(核酸化学法中PCR最新方案手册),Beaucage主编,John Wiley & Sons(1999)(编者);Oxford Handbook ofNucleic Acid Structure(牛津大学核酸结构手册),Neidle主编,OxfordUniv Press(1999);PCR Protocols:A Guide to Methods and Applications(PCR方案:方法与应用指南),Innis等,Academic Press(1990);PCREssential Techniques:Essential Techniques(PCR基本技术:基本技术),Burke主编,John Wiley & Son Ltd(1996);The PCR Technique:RT-PCR(PCR技术:RT-PCR),Siebert主编,Eaton Pub.Co.(1998);AntibodyEngineering Protocols(Methods in Molecular Biology)(抗体工程方案(分子生物学方法)),510,Paul,S.,Humana Pr(1996);AntibodyEngineering:A Practical Approach(Practical Approach Series,169)(抗体工程:实用方法(实用方法系列,169)),McCafferty主编,Irl Pr(1996);Antibodies:A Laboratory Manual(抗体实验室指南),HarloW等,C.S.H.L.Press,Pub.(1999);Current Protoco in Molecular Biology(分子生物学最新方案),主编Ausubel等,John Wiley & Sons(1992);Large-Scale Mammalian Cell Culture Technology(大规模哺乳动物细胞培养技术),Lubiniecki,A.主编,Marcel Dekker,Pub.,(1990);PhageDisplay:A Laboratory Manual(噬菌体展示实验室指南),C.Barbas(主编,),CSHL Press,(2001);Antibodv Phage Display(抗体噬菌体展示),PO’Brien(主编),Humana Press(2001);Border等,Nature Biotechnology,1997,15:553;Border等,Methods Enzymol.,2000,328:430;核糖体展示,参见Pluckthun等人的美国专利第6,348,315号;以及ProfusionTM,参见Szostak等人的美国专利第6,258,558、6,261,804和6,214,553号;以及细菌周质表达,参见US20040058403A1。本段落所引述的各参考文献都通过引用其全部予以结合。 有关利用Kabat惯例以及筛选经比对的核苷酸和氨基酸序列的程序进行抗体序列分析的更多详情可参见例如Johnson等,Methods Mol.Biol.,2004,248:11;Johnson等,Int.Immunol.,1998,10:1801;Johnson等,Methods Mol.Biol.,1995,51:1;Wu等,Proteins,1993,16:1;以及Martin,Proteins,1996,25:130。本段落所引述的各参考文献都通过引用其全部予以结合。 有关采用Chothia惯例进行抗体序列分析的更多详情可参见例如Chothia等,J.Mol.Biol.,1998,278:457;Morea等,Biophys.Chem.,1997,68:9;Morea等,J.Mol.Biol.,1998,275:269;Al-Lazikani等,J.Mol.Biol.,1997,273:927。Barre等,Nat.Struct.Biol.,1994,1:915;Chothia等,J.Mol.Biol.,1992,227:799;Chothia等,Nature,1989,342:877;以及Chothia等,J.Mol.Biol.,1987,196:901。CDRH3构象的进一步分析可参见Shirai等,FEBS Lett.,1999,455:188以及Shirai等,FEBS Lett.,1996,399:1。有关Chothia分析的更多详情可参见例如Chothia等,Cold Spring Harb.Symp.Quant Biol.,1987,52:399。本段落所引述的各参考文献都通过引用其全部予以结合。 有关CDR接触考虑(CDR contact consideration)的更多详情可参见例如MacCallum等,J.Mol.Biol.,1996,262:732,通过引用其全部予以结合。 有关本文所提及的抗体序列和数据库的更多详情可参见例如: Tomlinson等,J.Mol.Biol.,1992,227:776, VBASE2(Retter等,Nucleic Acids Res.,2005,33:D671); BLAST(www.ncbi.nlm.nih.gov/BLAST/); CDHIT(bioinformatics.ljcrf.edu/cd-hi/); EMBOSS(www.hgmp.mrc.ac.uk/Software/EMBOSS/); PHYLIP(evolution.genetics.washington.edu/phylip.html);和 FASTA(fasta.bioch.virginia.edu)。本段落所引述的各参考文献都通过引用其全部予以结合。 实施例1:示例性VH Chassis文库的设计 本实施例说明本发明示例性非限制性VH chassis序列的选择和设计。通过对人IGHV种系序列的集合体进行分析,选出VH chassis序列(Scaviner等,Exp.Clin.Immunogenet.,1999,16:234;Tomlinson等,J.Mol.Biol.,1992,227:799;Matsuda等,J.Exp.Med.,1998,188:2151,各文献通过引用其全部予以结合)。如详述以及下文所论述的一样,可采用多种标准从这些数据来源或其它数据来源选择VH chassis序列以包含在文库中。 对于由人IGHV种系序列的每一种编码的蛋白质,表3(改编自以下文献提供的资料:Scaviner等,Exp.Clin.Immunogenet.,1999,16:234;Matsuda等,J.Exp.Med.,1998,188:2151;以及Wang等,Immunol.Cell.Biol.,2008,86:111,各文献通过引用其全部予以结合)列举了CDRH1和CDRH2长度、规范结构以及外周血中相对出现率的估算值。 表3.得自外周血的抗体的IGHV特征和出现率 IGHV种系 CDRH1 的长度 CDRH2 的长度 规范结构1 外周血中相对出现 率的估算值2 IGHV1-2 5 17 1-3 37 IGHV1-3 5 17 1-3 15 IGHV1-8 5 17 1-3 13 IGHV1-18 5 17 1-2 25 IGHV1-24 5 17 1-U 5 IGHV1-45 5 17 1-3 0 IGHV1-46 5 17 1-3 25 IGHV1-58 5 17 1-3 2 IGHV1-69 5 17 1-2 58 IGHV2-5 7 16 3-1 10 IGHV2-26 7 16 3-1 9 IGHV2-70 7 16 3-1 13 IGHV3-7 5 17 1-3 26 IGHV3-9 5 17 1-3 15 IGHV3-11 5 17 1-3 13 IGHV3-13 5 16 1-1 3 IGHV3-15 5 19 1-4 14 IGHV3-20 5 17 1-3 3 IGHV3-21 5 17 1-3 19 IGHV种系 CDRH1 的长度 CDRH2 的长度 规范结构1 外周血中相对出现 率的估算值2 IGHV3-23 5 17 1-3 80 IGHV3-30 5 17 1-3 67 IGHV3-33 5 17 1-3 28 IGHV3-43 5 17 1-3 2 IGHV3-48 5 17 1-3 21 IGHV3-49 5 19 1-U 8 IGHV3-53 5 16 1-1 7 IGHV3-64 5 17 1-3 2 IGHV3-66 5 17 1-3 3 IGHV3-72 5 19 1-4 2 IGHV3-73 5 19 1-4 3 IGHV3-74 5 17 1-3 14 IGHV4-4 5 16 1-1 33 IGHV4-28 6 16 2-1 1 IGHV4-31 7 16 3-1 25 IGHV4-34 5 16 1-1 125 IGHV4-39 7 16 3-1 63 IGHV4-59 5 16 1-1 51 IGHV4-61 7 16 3-1 23 IGHV种系 CDRH1 的长度 CDRH2 的长度 规范结构1 外周血中相对出现 率的估算值2 IGHV4-B 6 16 2-1 7 IGHV5-51 5 17 1-2 52 IGHV6-1 7 18 3-5 26 IGHV7-4-1 5 17 1-2 8 1改编自Chothia等,J.Mol.Biol.,1992,227:799 2改编自Wang等人的表S1,Immunol.Cell.Biol.,2008,86:111 在本示例性的文库中,选择了17个种系序列以呈现在文库的VHchassis中(表4)。正如下面更详细的描述一样,考虑chassis的结构多样性和用于临床的抗体中呈现的特定种系序列,根据这些序列在成人外周血中相对高的呈现来选择。这17个序列占用来推导表4中的结果的重链序列总样本的约76%。如详述中所概述的一样,这些标准是非限制性的,本领域普通技术人员容易了解的是,可以采用多种其它标准来选择VH chassis序列,而且本发明不限于包含表4中所提供的17种VH chassis基因的文库。 表4.选用于示例性文库的VH Chassis VH Chassis 相对 出现率 CDRH1 的长度 CDRH2 的长度 备注 VH1-2 37 5 17 VH1家族最高使用率之一 VH1-18 25 5 17 VH1家族最高使用率之一 VH1-46 25 5 17 VH1家族最高使用率之一 VH1-69 58 5 17 VH1家族的最高使用率。4个选出的 VH1chassis代表VH1库的约80%。 VH3-7 26 5 17 VH3家族中最高使用率之一 VH3-15 14 5 19 非最高使用率之一,但具有独特结构 (H2的长度为19)。在具有这类结构的 那些中有最高出现率。 VH3-23 80 5 17 在VH3家族中的最高使用率。 VH Chassis 相对 出现率 CDRH1 的长度 CDRH2 的长度 备注 VH3-30 67 5 17 VH3家族中最高使用率之一 VH3-33 28 5 17 VH3家族中最高使用率之一 VH3-48 21 5 17 VH3家族中最高使用率之一。6个选 出的VH3chassis占VH3库的约70%。 VH4-31 25 7 16 VH4家族中最高使用率之一 VH4-34 125 5 16 VH4家族中的最高使用率 VH4-39 63 7 16 VH4家族中最高使用率之一 VH4-59 51 5 16 VH4家族中最高使用率之一 VH4-61 23 7 16 VH4家族中最高使用率之一 VH4-B 7 6 16 VH4家族中非最高使用率之一,但具 有独特结构(H1的长度为6)。6个选 出的VH4chassis占VH4家族库的接 近90%。 VH5-51 52 5 17 高使用率 在文库的这个具体实施方案中,不包括从IGHV2、IGHV6和IGHV7种系家族中的序列得到的VH chassis。如详述中所描述的一样,该实例并不是限制性的,因为在一些实施方案中,最好可包括这些家族的一个或多个,特别是因为已可获得具有相似序列的有关抗体的临床信息,以产生具有可能未广泛深入研究的其它多样性的文库,或更详细地研究这些IGHV家族的性质和潜力。本发明文库的积木化设计容易引入这些VH chassis序列和其它VH chassis序列。用于文库的这个具体实施方案中的VH chassis的氨基酸序列见表5,所述序列衍生自IGHV种系序列。详细的衍生方法见下文。 表5.选用于包含在示例性文库中的VH Chassis的氨基酸序列 1为了与选用于包含在文库中的其它VH3家族成员相称,使VH3-15中的原KT序列突变成RA(粗体字/加下划线),并且使TT突变成AR(粗体字/加下划线)。对RA进行修饰,以使得不产生多达约20个氨基酸的独特序列段。虽然不受理论的束缚,但是我们预期这种修饰将减少将新的T细胞表位引入VH3-15衍生的chassis序列的机会。避免T细胞表位是可视为在设计本发明某些文库中的又一标准。 2为了去除CDR-H2中可能的N-联糖基化位点,将VH4-34中的原NHS基序突变成DHS。在本发明的某些实施方案中,例如,如果将该文库转化到酵母中,这便可防止不需要的N-联糖基化。 表5提供了17个chassis的氨基酸序列。在核苷酸区域中,大多数相应的种系核苷酸序列包括在3’端的两个添加的核苷酸(即密码子的2/3)。在大多数情况下,这2个核苷酸为GA。在许多情况下,在与IGHD基因区段重组之前,在体内核苷酸被加到IGHV衍生的基因区段的3’端。任何添加的核苷酸都会使所得到的密码子编码下列2个氨基酸之一:Asp(如果密码子为GA或GA)或Glu(如果密码子为GA或GA)。两个3’端核苷酸中的1个或2个还可在最终重排的重链序列中缺失。如果只缺失A,则所得氨基酸极频繁地为G。如果2个核苷酸均缺失,该位置为“空”,但是后面是加入通用的V-D或由IGHD基因编码的氨基酸。更多详情见实施例5。在FRM3C-端的CAR或CAK基序之后的这个第一位置称为“尾”(表5)。在文库的本示例性实施方案中,该残基可以是G、D、E或无残基。因此,将尾加到上文列举的任何chassis上(表5)可以产生下列4种图示序列之一,其中在VH chassis之后的残基为尾: (1)[VH_Chassis]-[G] (2)[VH_Chassis]-[D] (3)[VH_Chassis]-[E] (4)[VH_Chassis] 这些结构还可用下列格式表示: [VH_Chassis]-[G/D/E/-], 其中连字符号(-)表示空位或零位。 采用定义部分定义的CDRH3编号体系,例如对于例子(1)、(2)和(3),上述序列分别是指第95位的氨基酸为G、D或E,而上面的例子4的序列可没有第95位,CDRH3本身可始于第96位或第97位。 在本发明的一些实施方案中,具有规范结构1-1(CDRH1中5个残基,CDRH2中16个)的VH3-66,也可包括在文库中。包含VH3-66可补偿从文库中除去的可能在某些条件下在酵母中表达不佳的其它chassis(例如VH4-34和VH4-59)。 实施例2:CDRH1和CDRH2内具有变异的VH Chassis变异体的设 计 本实施例说明通过使实施例1所示的每个chassis的CDRH1和CDRH2区产生突变将更多的多样性引入VH chassis。采用下列方法选择每个chassis的氨基酸变异的位置和性质:首先,对重排的人重链抗体序列的序列同一性进行了分析(Lee等,Immunogenetics,2006,57:917;Jackson等,J.Immunol.Methods,2007,324:26),并通过其相应的IGHV种系序列的来源进行了分类。作为说明性实施例,数据集中约200个序列与IGHV1-69种系具有最大同一性,这就表明它们很可能都衍生自IGHV1-69。接着,确定氨基酸残基在实施例1中所选定的每个种系家族的CDRH1和CDRH2区段内每个位置上的出现率。对于VH1-69,这些出现率见表6和表7。第二,如有可能,优选中性和/或较小的氨基酸残基作为置换残基。虽然不受理论的束缚,但是选择这些氨基酸残基的原因是希望提供柔性较大和位阻较小的环境以显示CDR序列的多样性。 表6.氨基酸残基在IGHV1-69衍生的CDRH1序列内的每个位置上的出现率 在表中残基编号(Kabat体系)下用粗体字的第二排提供起始种系序列。表中的表值表示在规定的CDRH1(表6)或CDRH2(表7)位置上观察到给定氨基酸残基(第一栏)的次数。例如,在所分析的基于IGHV1-69的序列集中,观察到在位置33上的氨基酸类型G(甘氨酸)为24次。因此,应用上述标准,在位置31用N、在位置32上用L(H在某些情况下可能带有电荷)、在位置33用G和T、在位置34无变异体以及在位置35用N,构建了变异体,得到下列VH1-69chassisCDRH1单个氨基酸变异体序列: YAIS(SEQ ID NO:__) SAISSEQ ID NO:__) SYIS(SEQ ID NO:__) SYIS(SEQ ID NO:__) SYAI(SEQ ID NO:__) 同样,对于VH1-69chassis CDRH2,对所制的表7进行的分析为选择下列的单个氨基酸变异体序列提供了基础: IIPIFGTANYAQKFQG(SEQ ID NO:__) GIPIFGTANYAQKFQG(SEQ ID NO:__) GIIPIGTANYAQKFQG(SEQID NO:__) GIIPIFGTAYAQKFQG(SEQ ID NO:__) 采用同样的方法,设计和构建其它所选定的chassis的变异体;所得到的各个示例性chassis的CDRH1和CDRH2的变异体见表8。本领域普通技术人员容易理解的是,本文所述方法可用来产生其它VH chassis和VL chassis的变异体。 正如详述中具体说明的一样,可以采用其它标准选择改变哪些氨基酸和所得到的已改变序列的同一性。这对于任何重链chassis序列或本发明的任何其它序列都是如此。上面概述的方法是为了说明目的并且是非限制性的。 实施例3:示例性VK Chassis文库的设计 本实施例描述了示例性VK chassis文库的设计。本领域普通技术人员应理解的是,同样的原理可用来设计Vλ文库或同时含有VK和Vλchassis的文库。Vλchassis文库的设计见实施例4。 同之前实施例1中的说明一样,对于IGHV种系序列,对人IGKV种系序列的序列特征以及在得自外周血的抗体中的出现率进行了分析。数据见表9。 表9.IGKV基因特征和在得自外周血的抗体中的出现率 1改编自Tomlinson等,EMBO J.,1995,14:4628,通过引用其全部予以结合。括号中的数字是指CDRL3的规范结构,如果假定为最常见的长度(有关CDRL3的更多详情参见实施例5)。 2从自NCBI数据库编制的人VK序列集中估算;GI编号全集见附录A。 14个最常出现的IGKV种系基因(表9第6栏中的粗体字)占外周血的整个库使用率的正好90%以上。从表9的分析来看,选出10个IGKV种系基因以作为chassis呈现在本示例性文库(表10)。除V1-12和V1-27以外所有都在前10个最常出现的当中。在最终10个chassis集中,为了保持chassis与短(即长度为11或12个残基)CDRL1序列的比例约为80%,未将在外周血中的出现率排第10位的IGKV种系基因VH2-30包括在文库的本示例性实施方案中。将V1-12包括在其位置上。V1-17更类似于已选择的V1家族的其它成员;因此,将V1-27而不是V1-17包括在内。在其它实施方案中,文库可包括12个chassis(例如表10中的10个加上V1-17和V2-30),或严格按出现率(表9)或任何其它标准选择的任何“N”个chassis的不同集。10个选出的VKchassis占数据集中使用率的约80%,一般认为该数据集代表了整个κ轻链库。 表10.选用于示例性文库的VK Chassis Chassis CDR-L1 长度 CDR-L2 长度 规范结构 外周血中相对出现率的估算值 VK1-5 11 7 2-1-(U) 69 VK1-12 11 7 2-1-(1) 32 VK1-27 11 7 2-1-(1) 27 VK1-33 11 7 2-1-(1) 43 VK1-39 11 7 2-1-(1) 147 VK2-28 16 7 4-1-(1) 62 VK3-11 11 7 2-1-(1) 87 VK3-15 11 7 2-1-(1) 53 VK3-20 12 7 6-1-(1) 195 VK4-1 17 7 3-1-(1) 83 表10中列举的精选VK chassis的氨基酸序列见表11。 表11.选用于包含在示例性文库中的VK Chassis的氨基酸序列 Chassis FRM1 CDRL1 FRM2 CDRL2 FRM3 CDRL3 1 SEQ ID NO: VK1-5 DIQMTQS PSTLSAS VGDRVTI TC RASQSI SSWLA WYQQKP GKAPKL LIY DASSLE S GVPSRFSGSGSGT EFTLTISSLQPDD FATYYC QYNSY S VK1-12 DIQMTQS PSSVSAS VGDRVTI TC RASQGI SSWLA WYQQKP GKAPKL LIY AASSLQ S GVPSRFSGSGSGT DFTLTISSLQPED FATYYC QANSF P VK1-27 DIQMTQS PSSLSAS VGDRVTI TC RASQGI SNYLA WYQQKP GKVPKL LIY AASTLQ S GVPSRFSGSGSGT DFTLTISSLQPED VATYYC KYNSA P VK1-33 DIQMTQS PSSLSAS VGDRVTI TC QASQDI SNYLN WYQQKP GKAPKL LIY DASNLE T GVPSRFSGSGSGT DFTFTISSLQPED IATYYC QYDNL P VK1-39 DIQMTQS PSSLSAS VGDRVTI TC RASQSI SSYLN WYQQKP GKAPKL LIY AASSLQ S GVPSRFSGSGSGT DFTLTISSLQPED FATYYC QSYST P VK2-28 DIVMTQS PLSLPVT PGEPASI SC RSSQSL LHSNGY NYLD WYLQKP GQSPQL LIY LGSNRA S GVPDRFSGSGSGT DFTLKISRVEAED VGVYYC QALQT P VK3-11 EIVLTQS PATLSLS PGERATL SC RASQSV SSYLA WYQQKP GQAPRL LIY DASNRA T GIPARFSGSGSGT DFTLTISSLEPED FAVYYC QRSNW P VK3-15 EIVMTQS PATLSVS PGERATL SC RASQSV SSNLA WYQQKP GQAPRL LIY GASTRA T GIPARFSGSGSGT EFTLTISSLQSED FAVYYC QYNNW P Chassis FRM1 CDRL1 FRM2 CDRL2 FRM3 CDRL3 1 SEQ ID NO: VK3-20 EIVLTQS PGTLSLS PGERATL SC RASQSV SSSYLA WYQQKP GQAPRL LIY GASSRA T GIPDRFSGSGSGT DFTLTISRLEPED FAVYYC QYGSS P VK4-1 DIVMTQS PDSLAVS LGERATI NC KSSQSV LYSSNN KNYLA WYQQKP GQPPKL LIY WASTRE S GVPDRFSGSGSGT DFTLTISSLQAED VAVYYC QYYST P 1注意有助于VKCDR3的IGKV基因部分不视为本文所述chassis的组成部分。VK chassis定义为IGKV编码序列的Kabat残基1~88,即始于FRM1而止于FRM3。由IGKV基因提供的VKCDR3序列部分在本文亦称L3-VK区。 实施例4:示例性VλChassis文库的设计 本实施例描述了示例性VλChassis文库的设计。同之前实施例1-3中的说明一样,对于VH和VK chassis序列,对人IgλV种系衍生的序列的序列特征和在外周血中的出现率进行了分析。如同将本文提供的其它序列指定种系家族一样,将序列指定种系家族通过SoDA和VBASE2进行(Volpe和Kepler,Bioinformatics,2006,22:438;Mollova等,BMS Systems Biology,2007,1S:P30,各文献通过引用其全部予以结合)。数据见表12。 表12.IGλV基因特征和在外周血中的出现率 IGλV基因 替代性名称 规范结构1 IGVλ基因对 CDRL3的贡献 外周血中相对出 现率的估算值2 IGλV3-1 3R 11-7(*) 8 11.5 IGλV3-21 3H 11-7(*) 9 10.5 IGλV2-14 2A2 14-7(A) 9 10.1 IGλV1-40 1E 14-7(A) 9 7.7 IGλV3-19 3L 11-7(*) 9 7.6 IGλV1-51 1B 13-7(A) 9 7.4 IGλV1-44 1C 13-7(A) 9 7.0 IGλV6-57 6A 13-7(B) 7 6.1 IGλV基因 替代性名称 规范结构1 IGVλ基因对 CDRL3的贡献 外周血中相对出 现率的估算值2 IGλV2-8 2C 14-7(A) 9 4.7 IGλV3-25 3M 11-7(*) 9 4.6 IGλV2-23 2B2 14-7(A) 9 4.3 IGλV3-10 3P 11-7(*) 9 3.4 IGλV4-69 4B 12-11(*) 7 3.0 IGλV1-47 1G 13-7(A) 9 2.9 IGλV2-11 2E 14-7(A) 9 1.3 IGλV7-43 7A 14-7(B) 8 1.3 IGλV7-46 7B 14-7(B) 8 1.1 IGλV5-45 5C 14-11(*) 8 1.0 IGλV4-60 4A 12-11(*) 7 0.7 IGλV10- 54 8A 14-7(B) 8 0.7 IGλV8-61 10A 13-7(C) 9 0.7 IGλV3-9 3J 11-7(*) 8 0.6 IGλV1-36 1A 13-7(A) 9 0.4 IGλV2-18 2D 14-7(A) 9 0.3 IGλV3-16 3A 11-7(*) 9 0.2 IGλV3-27 11-7(*) 7 0.2 IGλV4-3 5A 14-11(*) 8 0.2 IGλV5-39 4C 12-11(*) 12 0.2 IGλV9-49 9A 12-12(*) 12 0.2 IGλV基因 替代性名称 规范结构1 IGVλ基因对 CDRL3的贡献 外周血中相对出 现率的估算值2 IGλV3-12 3I 11-7(*) 9 0.1 1改编自Williams等,J.Mol.Biol.1996:264,220-32。(*)表示规范结构完全由CDR L1和L2的长度界定。当对于相同的L1和L2长度组合可能有截然不同的结构时,存在于给定基因的结构表示为A、B或C。 2从自NCBI数据库编制的一组人Vλ序列中估算;GI代码全集见附录B。 为了从表12中选出序列子集充当chassis,先放弃外周血中的呈现小于1%的序列(从对与附录B提供的GI代码对应的已公布序列进行的分析推算)。从其余18个种系序列中,选出对于各独特规范结构和构成CDRL3部分的出现最多的基因、以及呈现大于5%水平的任何种系基因,来构成示例性Vλchassis。这11个序列的一览表见下表13。这11个序列代表所分析的数据集中所有组成成分(repertoire)的大约73%(附录B)。 表13.选用于示例性文库的VλChassis Chassis CDRL1长度 CDRL2长度 规范结构 相对出现率 Vλ3-1 11 7 11-7(*) 11.5 Vλ3-21 11 7 11-7(*) 10.5 Vλ2-14 14 7 14-7(A) 10.1 Vλ1-40 14 7 14-7(A) 7.7 Vλ3-19 11 7 11-7(*) 7.6 Vλ1-51 13 7 13-7(A) 7.4 Vλ1-44 13 7 13-7(A) 7.0 Vλ6-57 13 7 13-7(B) 6.1 Vλ4-69 12 11 12-11(*) 3.0 Vλ7-43 14 7 14-7(B) 1.3 Vλ5-45 11 11 14-11(*) 1.0 表13中所列举的精选chassis的氨基酸序列见下表14。 表14.选用于包含在示例性文库中的VλChassis的氨基酸序列 1Vλ3-1chassis的CDRL1的最后1个氨基酸S不同于IGλV3-1种系基因中的相应氨基酸C。这样做是避免在所得的合成轻链中有可能不配对的CYS(C)氨基酸。 2注意,关于VK chassis,有助于VλCDR3的IGλV基因部分不被视为本文所述chassis的组成部分。Vλchassis定义为IGλV编码序列的Kabat残基1~88,即始于FRM1而止于FRM3。由IGλV基因提供的VλCDR3序列部分在本文中亦称L3-Vλ区。 实施例5:CDRH3文库的设计 本实施例描述了由CDHR3文库的各个组分来设计CDHR3文库。实际上,CDRH3序列衍生自包括称为IGHV、IGHD和IGHJ的3种不同基因重组的复杂过程。除重组之外,这些基因还可进行渐进核苷酸缺失:从IGHV基因的3’端、IGHD基因的任一端和/或IGHJ基因的5’端。非模板核苷酸添加也可发生在V、D和J序列之间的接点上。在V-D接点上的非模板添加称为“N1”,在D-J接点上添加的称为“N2”。D基因区段可以3个正向读框读取,在某些情况下,为3个反向读框。 在本示例性文库的设计中,将密码子(核苷酸三联体)或单个氨基酸指定为基本单位,以将所有序列保持在所需读框内。因此,通过氨基酸或密码子的添加或缺失,而并非单核苷酸,来进行基因区段的所有缺失或添加。根据本申请的CDRH3编号体系,CDRH3自氨基酸编号95(当存在时;参见实施例1)延伸到氨基酸102。 实施例5.1:DH区段的选择 在本说明性实施例中,按照与用于选择chassis序列同样的原理,对用于文库的DH基因区段进行选择。首先,使用以下文献的数据,对IGHD基因使用率进行了分析:Lee等,Immunogenetics,2006,57:917;Corbett等,PNAS,1982,79:4118;以及Souto-Carneiro等,J.Immunol.,2004,172:6790(各文献通过引用其全部予以结合),其中在人序列中最频繁观察到的那些IGHD基因优先呈现于文库中。其次,通过运用SoDA算法(Volpe等,Bioinformatics,2006,22:438,通过引用其全部予以结合)和序列比对,与已知重链序列进行比较,估计IGHD基因区段任一端的缺失程度。对于本示例性文库,包括了渐进缺失的DH区段,短至3个氨基酸。如详述中所列举的一样,本发明的其它实施方案包含具有不同长度缺失的DH区段,例如约1、2、4、5、6、7、8、9或10个氨基酸。表15表示在主要从外周血B细胞分离出来的人抗体重链序列中,IGHD基因使用的相对出现率(一览表改编自Lee等,Immunogenetics,2006,57:917,通过引用其全部予以结合)。 表15.基于外周血中相对出现率的IGHD基因的使用* IGHD基因 外周血中相对出现率的估算值3 IGHD3-10 117 IGHD3-22 111 IGHD6-19 95 IGHD6-13 93 IGHD3-3 82 IGHD2-2 63 IGHD4-17 61 IGHD基因 外周血中相对出现率的估算值3 IGHD1-26 51 IGHD5-5/5-181 49 IGHD2-15 47 IGHD6-6 38 IGHD3-9 32 IGHD5-12 29 IGHD5-24 29 IGHD2-21 28 IGHD3-16 18 IGHD4-23 13 IGHD1-1 9 IGHD1-7 9 IGHD4-4/4-112 7 IGHD1-20 6 IGHD7-27 6 IGHD2-8 4 IGHD6-25 3 1虽然在基因组中的基因截然不同,但是IGHD5-5和IGHD5-18的核苷酸序列是100%相同,因此在重排的VH序列中无法分辨。 2IGHD4-4和IGHD4-11同样是100%相同。 3改编自Lee等,Immunogenetics,2006,57:917,通过合并了同一IGHD基因的不同等位基因的信息。 *IGHD1-14也包括在本发明的文库中。 表16表示存在于天然存在的人抗体中的10个最普遍表达的IGHD基因序列(在三个读框中)的翻译。最常出现在外周血中的这些读框用灰色突出显示。同表15一样,有关IGHD序列使用和读框统计的数据均得自Lee等,2006,有关IGHD序列读框使用的数据还进一步补充了以下文献的数据:Corbett等,PNAS,1982,79:4118和Souto-Carneiro等,J.Immunol,2004,172:6790,各文献通过引用其全部予以结合。 表16.在三个读框(RF)中,10个最常见的天然存在的IGHD序列的翻译 #表示终止密码子。 灰色突出显示的读框相当于最常用的读框。 在本示例性文库中,选择出现在外周血中最频繁用于重链序列的前10个IGHD基因用于呈现在文库中。文库的其它实施方案可以容易地使用较多或较少的D基因。表17中列举了所选定的IGHD基因的氨基酸序列,包括在渐进N-端和C-端缺失直到最少3个残基之后,最常用的读框和变异体总数。如表17所示,仅某些IGHD基因最常出现的等位基因包括在说明性文库中。然而,这不是必需的,本发明的其它实施方案可使用在外周血中较不频繁出现的IGHD读框。 表17.选用于示例性文库的D基因 IGHD基因1 氨基酸序列 SEQ ID NO: 变异体总数2 IGHD1-26_1 GIVGATT 15 IGHD1-26_3 YSGSYY 10 IGHD2-2_2 GYCSSTSCYT 93 IGHD2-2_3 DIVVVPAAM 28 IGHD2-15_2 GYCSGGSCYS 9 IGHD基因1 氨基酸序列 SEQ ID NO: 变异体总数2 IGHD3-3_3 ITIFGVVII 28 IGHD3-10_1 VLLWFGELL 28 IGHD3-10_2 YYYGSGSYYN 36 IGHD3-10_3 ITMVRGVII 28 IGHD3-22_2 YYYDSSGYYY 36 IGHD4-17_2 DYGDY 6 IGHD5-5_3 GYSYGY 10 IGHD6-13_1 GYSSSWY 15 IGHD6-13_2 GIAAAG 10 IGHD6-19_1 GYSSGWY 15 IGHD6-19_2 GIAVAG 10 1读框(RF)规定为基因名称后的_RF。 2在大多数情况下,用(N-1)乘以(N-2)除以2得到变异体总数,其中N为整个D区段的氨基酸总长度。 3如本文所详述,在该说明性实施方案中,含有推定二硫键(2个C或Cys残基)的区段的变异体数受到限制。 对于表17中精选的每个序列,通过从N-端和/或C-端进行系统性缺失直到剩下3个氨基酸来产生变异体。例如,对于上述IGHD4-17_2,可以使用全长序列DYGDY(SEQ ID NO:_)产生渐进缺失变异体:DYGD(SEQ ID NO:_)、YGDY(SEQ ID NO:_)、DYG(SEQ ID NO:_)、GDY(SEQ ID NO:_)和YGD(SEQ ID NO:_)。总体说来,对于大小为N的任何全长序列,可能有(N-1)*(N-2)/2个总变异体的总数,包括起始全长序列。对于二硫键-环-编码区段,以IGHD2-2和IGHD2-15的读框2(即IGHD2-2_2和IGH2-15_2)为例,限制渐进缺失使得环保持完整,即在相应的DH区段变异体中,仅缺失氨基酸N-端至第一个Cys,或C-端至第二个Cys。采用上述策略以避免在示例形式的文库中存在不成对的半胱氨酸残基。然而,如详述中所论述的一样,文库的其它实施方案可包括不成对的半胱氨酸残基,或者用其它氨基酸取代这些半胱氨酸残基。在其中IGHD基因的截短受存在Cys残基的限制的情况下,仅产生9个变异体(包括起始全长序列);例如,对于IGHD2-2_2,变异体将是:GYCSSTSCYT(SEQID NO:_)、GYCSSTSCY(SEQ ID NO:_)、YCSSTSCYT(SEQ IDNO:_)、CSSTSCYT(SEQ ID NO:_)、GYCSSTSC(SEQ IDNO:_)、YCSSTSCY(SEQ ID NO:_)、CSSTSCY(SEQ ID NO:_)、YCSSTSC(SEQ ID NO:_)和CSSTSC(SEQ ID NO:_)。 按照以上所概述的标准,从选出的IGHD基因区段中获得293种DH序列,包括原始IGHD基因区段。某些序列是丰余的。例如,有可能从IGHD3-10_2(全长序列GSGSYYN(SEQ ID NO:_))或者以两种不同方式从IGHD3-22_2(SEQ ID NO:_)(DSSG)获得YYY变异体。当去除丰余序列时,在文库的这个说明性实施方案中,独特DH区段序列的数目为278。表18中列举了这些序列。 表18.用于本示例性文库中的DH基因区段* DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD1-26_1-1 ATT IGHD3-10_2- 20 YYGSG IGHD1-26_1-2 GAT IGHD3-10_2- 21 YYYGS IGHD1-26_1-3 GIV IGHD3-10_2- 22 GSGSYY IGHD1-26_1-4 IVG IGHD3-10_2- 23 SGSYYN IGHD1-26_1-5 VGA IGHD3-10_2- 24 YGSGSY IGHD1-26_1-6 GATT IGHD3-10_2- 25 YYGSGS IGHD1-26_1-7 GIVG IGHD3-10_2- 26 YYYGSG IGHD1-26_1-8 IVGA IGHD3-10_2- 27 GSGSYYN IGHD1-26_1-9 VGAT IGHD3-10_2- 28 YGSGSYY IGHD1-26_1-10 GIVGA IGHD3-10_2- 29 YYGSGSY DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD1-26_1-11 IVGAT IGHD3-10_2- 30 YYYGSGS IGHD1-26_1-12 VGATT IGHD3-10_2- 31 YGSGSYYN IGHD1-26_1-13 GIVGAT IGHD3-10_2- 32 YYGSGSYY IGHD1-26_1-14 IVGATT IGHD3-10_2- 33 YYYGSGSY IGHD1-26_1-15 GIVGATT IGHD3-10_2- 34 YYGSGSYYN IGHD1-26_3-1 YSG IGHD3-10_2- 35 YYYGSGSYY IGHD1-26_3-2 YSGS IGHD3-10_2- 36 YYYGSGSYYN IGHD1-26_3-3 YSGSY IGHD3-10_3-1 GVI IGHD1-26_3-4 YSGSYY IGHD3-10_3-2 ITM IGHD2-02_2-1 CSSTSC IGHD3-10_3-3 MVR IGHD2-02_2-2 CSSTSCY IGHD3-10_3-4 RGV IGHD2-02_2-3 YCSSTSC IGHD3-10_3-5 TMV IGHD2-02_2-4 CSSTSCYT IGHD3-10_3-6 VII IGHD2-02_2-5 GYCSSTSC IGHD3-10_3-7 VRG IGHD2-02_2-6 YCSSTSCY IGHD3-10_3-8 GVII IGHD2-02_2-7 GYCSSTSCY IGHD3-10_3-9 ITMV IGHD2-02_2-8 YCSSTSCYT IGHD3-10_3- 10 MVRG DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD2-02_2-9 GYCSSTSCYT IGHD3-10_3- 11 RGVI IGHD2-02_3-1 AAM IGHD3-10_3- 12 TMVR IGHD2-02_3-2 DIV IGHD3-10_3- 13 VRGV IGHD2-02_3-3 IVV IGHD3-10_3- 14 ITMVR IGHD2-02_3-4 PAA IGHD3-10_3- 15 MVRGV IGHD2-02_3-5 VPA IGHD3-10_3- 16 RGVII IGHD2-02_3-6 VVP IGHD3-10_3- 17 TMVRG IGHD2-02_3-7 VVV IGHD3-10_3- 18 VRGVI IGHD2-02_3-8 DIVV IGHD3-10_3- 19 ITMVRG IGHD2-02_3-9 IVVV IGHD3-10_3- 20 MVRGVI IGHD2-02_3-10 PAAM IGHD3-10_3- 21 TMVRGV IGHD2-02_3-11 VPAA IGHD3-10_3- 22 VRGVII IGHD2-02_3-12 VVPA IGHD3-10_3- 23 ITMVRGV IGHD2-02_3-13 VVVP IGHD3-10_3- 24 MVRGVII DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD2-02_3-14 DIVVV IGHD3-10_3- 25 TMVRGVI IGHD2-02_3-15 IVVVP IGHD3-10_3- 26 ITMVRGVI IGHD2-02_3-16 VPAAM IGHD3-10_3- 27 TMVRGVII IGHD2-02_3-17 VVPAA IGHD3-10_3- 28 ITMVRGVII IGHD2-02_3-18 VVVPA IGHD3-22_2-1 DSS IGHD2-02_3-19 DIVVVP IGHD3-22_2-2 GYY IGHD2-02_3-20 IVVVPA IGHD3-22_2-3 SGY IGHD2-02_3-21 VVPAAM IGHD3-22_2-4 SSG IGHD2-02_3-22 VVVPAA IGHD3-22_2-5 YDS IGHD2-02_3-23 DIVVVPA IGHD3-22_2-6 YYD IGHD2-02_3-24 IVVVPAA IGHD3-22_2-7 DSSG IGHD2-02_3-25 VVVPAAM IGHD3-22_2-8 GYYY IGHD2-02_3-26 DIVVVPAA IGHD3-22_2-9 SGYY IGHD2-02_3-27 IVVVPAAM IGHD3-22_2- 10 SSGY IGHD2-02_3-28 DIVVVPAAM IGHD3-22_2- 11 YDSS IGHD2-15_2-1 CSGGSC IGHD3-22_2- 12 YYDS IGHD2-15_2-2 CSGGSCY IGHD3-22_2- 13 YYYD DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD2-15_2-3 YCSGGSC IGHD3-22_2- 14 DSSGY IGHD2-15_2-4 CSGGSCYS IGHD3-22_2- 15 SGYYY IGHD2-15_2-5 GYCSGGSC IGHD3-22_2- 16 SSGYY IGHD2-15_2-6 YCSGGSCY IGHD3-22_2- 17 YDSSG IGHD2-15_2-7 GYCSGGSCY IGHD3-22_2- 18 YYDSS IGHD2-15_2-8 YCSGGSCYS IGHD3-22_2- 19 YYYDS IGHD2-15_2-9 GYCSGGSCYS IGHD3-22_2- 20 DSSGYY IGHD3-03_3-1 FGV IGHD3-22_2- 21 SSGYYY IGHD3-03_3-2 GVV IGHD3-22_2- 22 YDSSGY IGHD3-03_3-3 IFG IGHD3-22_2- 23 YYDSSG IGHD3-03_3-4 ITI IGHD3-22_2- 24 YYYDSS IGHD3-03_3-5 TIF IGHD3-22_2- 25 DSSGYYY IGHD3-03_3-6 VVI IGHD3-22_2- 26 YDSSGYY IGHD3-03_3-7 FGVV IGHD3-22_2- 27 YYDSSGY DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD3-03_3-8 GVVI IGHD3-22_2- 28 YYYDSSG IGHD3-03_3-9 IFGV IGHD3-22_2- 29 YDSSGYYY IGHD3-03_3-10 ITIF IGHD3-22_2- 30 YYDSSGYY IGHD3-03_3-11 TIFG IGHD3-22_2- 31 YYYDSSGY IGHD3-03_3-12 VVII IGHD3-22_2- 32 YYDSSGYYY IGHD3-03_3-13 FGVVI IGHD3-22_2- 33 YYYDSSGYY IGHD3-03_3-14 GVVII IGHD3-22_2- 34 YYYDSSGYYY IGHD3-03_3-15 IFGVV IGHD4-17_2-1 DYG IGHD3-03_3-16 ITIFG IGHD4-17_2-2 GDY IGHD3-03_3-17 TIFGV IGHD4-17_2-3 YGD IGHD3-03_3-18 FGVVII IGHD4-17_2-4 DYGD IGHD3-03_3-19 IFGVVI IGHD4-17_2-5 YGDY IGHD3-03_3-20 ITIFGV IGHD4-17_2-6 DYGDY IGHD3-03_3-21 TIFGVV IGHD5-5_3-1 SYG IGHD3-03_3-22 IFGVVII IGHD5-5_3-2 YGY IGHD3-03_3-23 ITIFGVV IGHD5-5_3-3 YSY IGHD3-03_3-24 TIFGVVI IGHD5-5_3-4 GYSY IGHD3-03_3-25 ITIFGVVI IGHD5-5_3-5 SYGY DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD3-03_3-26 TIFGVVII IGHD5-5_3-6 YSYG IGHD3-03_3-27 ITIFGVVII IGHD5-5_3-7 GYSYG IGHD3-10_1-1 ELL IGHD5-5_3-8 YSYGY IGHD3-10_1-2 FGE IGHD5-5_3-9 GYSYGY IGHD3-10_1-3 GEL IGHD6-13_1-1 SSS IGHD3-10_1-4 LLW IGHD6-13_1-2 SSW IGHD3-10_1-5 LWF IGHD6-13_1-3 SWY IGHD3-10_1-6 VLL IGHD6-13_1-4 SSSW IGHD3-10_1-7 WFG IGHD6-13_1-5 SSWY IGHD3-10_1-8 FGEL IGHD6-13_1-6 YSSS IGHD3-10_1-9 GELL IGHD6-13_1-7 GYSSS IGHD3-10_1-10 LLWF IGHD6-13_1-8 SSSWY IGHD3-10_1-11 LWFG IGHD6-13_1-9 YSSSW IGHD3-10_1-12 VLLW IGHD6-13_1- 10 GYSSSW IGHD3-10_1-13 WFGE IGHD6-13_1- 11 YSSSWY IGHD3-10_1-14 FGELL IGHD6-13_1- 12 GYSSSWY IGHD3-10_1-15 LLWFG IGHD6-19_1-1 GWY IGHD3-10_1-16 LWFGE IGHD6-19_1-2 GYS IGHD3-10_1-17 VLLWF IGHD6-19_1-3 SGW IGHD3-10_1-18 WFGEL IGHD6-19_1-4 YSS DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD3-10_1-19 LLWFGE IGHD6-19_1-5 GYSS IGHD3-10_1-20 LWFGEL IGHD6-19_1-6 SGWY IGHD3-10_1-21 VLLWFG IGHD6-19_1-7 SSGW IGHD3-10_1-22 WFGELL IGHD6-19_1-8 YSSG IGHD3-10_1-23 LLWFGEL IGHD6-19_1-9 GYSSG IGHD3-10_1-24 LWFGELL IGHD6-19_1- 10 SSGWY IGHD3-10_1-25 VLLWFGE IGHD6-19_1- 11 YSSGW IGHD3-10_1-26 LLWFGELL IGHD6-19_1- 12 GYSSGW IGHD3-10_1-27 VLLWFGEL IGHD6-19_1- 13 YSSGWY IGHD3-10_1-28 VLLW FGELL IGHD6-19_1- 14 GYSSGWY IGHD3-10_2-1 GSG IGHD6-19_2-1 AVA IGHD3-10_2-2 GSY IGHD6-19_2-2 GIA IGHD3-10_2-3 SGS IGHD6-19_2-3 IAV IGHD3-10_2-4 SYY IGHD6-19_2-4 VAG IGHD3-10_2-5 YGS IGHD6-19_2-5 AVAG IGHD3-10_2-6 YYG IGHD6-19_2-6 GIAV IGHD3-10_2-7 YYN IGHD6-19_2-7 IAVA IGHD3-10_2-8 YYY IGHD6-19_2-8 GIAVA IGHD3-10_2-9 GSGS IGHD6-19_2-9 IAVAG DH区段命名1 肽 SEQ ID NO: DH区段命名 肽 SEQ ID NO: IGHD3-10_2-10 GSYY IGHD6-19_2- 10 GIAVAG IGHD3-10_2-11 SGSY IGHD6-13_2-1 AAA IGHD3-10_2-12 SYYN IGHD6-13_2-2 AAG IGHD3-10_2-13 YGSG IGHD6-13_2-3 IAA IGHD3-10_2-14 YYGS IGHD6-13_2-4 AAAG IGHD3-10_2-15 YYYG IGHD6-13_2-5 GIAA IGHD3-10_2-16 GSGSY IGHD6-13_2-6 IAAA IGHD3-10_2-17 GSYYN IGHD6-13_2-7 GIAAA IGHD3-10_2-18 SGSYY IGHD6-13_2-8 IAAAG IGHD3-10_2-19 YGSGS IGHD6-13_2-9 GIAAAG 1如下使序列命名格式化:(IGHD基因名称)_(读框)-(变异体数) *注意,当从文库中排除丰余区段时,多少有些随意地提供某些变异体的来源(即某些区段的来源可能不只一个亲本,包括表中所述区段)。 表19表示按照上述方法选出的278种DH区段的长度分布。 表19.选用于包含在示例性文库中的DH区段的长度分布 DH大小 出现次数 3 78 4 64 5 50 6 38 DH大小 出现次数 7 27 8 20 9 12 10 4 如上所述,根据本申请中定义的CDRH3编号体系,IGHD衍生的氨基酸(即DH区段)的编号自位置97开始,后面是位置97A、97B等。在文库的本示例性实施方案中,最短的DH区段有3个氨基酸:97、97A和97B,而最长的DH区段有10个氨基酸:97、97A、97B、97C、97D、97E、97F、97G、97H和97I。 实施例5.2:H3-JH区段的选择 有6种人种系IGHJ基因。在抗体基因体内装配期间,这些区段在其5’端渐进缺失。在文库的这个示例性实施方案中,包括了无缺失或有1、2、3、4、5、6或7个缺失(在氨基酸水平)、产生短至13个氨基酸的JH区段的IGHJ基因区段(表20)。还包括了其中IGHJ基因区段渐进缺失(在其5’/N-端)产生15、14、12或11个氨基酸的本发明的其它实施方案。 表20.选用于示例性文库的IGHJ基因区段 IGHJ区段 [H3-JH]-[FRM4]1 SEQ ID NO: H3-JH SEQ ID NO: JH1亲本或 JH1_1 AEYFQHWGQGTLVTVSS AEYFQH JH1_2 EYFQHWGQGTLVTVSS EYFQH JH1_3 YFQHWGQGTLVTVSS YFQH JH1_4 FQHWGQGTLVTVSS FQH JH1_5 QHWGQGTLVTVSS QH JH2亲本或 JH2_1 YWYFDLWGRGTLVTVSS YWYFDL JH2_2 WYFDLWGRGTLVTVSS WYFDL JH2_3 YFDLWGRGTLVTVSS YFDL IGHJ区段 [H3-JH]-[FRM4]1 SEQ ID NO: H3-JH SEQ ID NO: JH2_4 FDLWGRGTLVTVSS FDL JH2_5 DLWGRGTLVTVSS DL JH3亲本或 JH3_1 AFDVWGQGTMVTVSS AFDV JH3_2 FDVWGQGTMVTVSS FDV JH3_3 DVWGQGTMVTVSS DV JH4亲本或 JH4_1 YFDYWGQGTLVTVSS YFDY JH4_2 FDYWGQGTLVTVSS FDY JH4_3 DYWGQGTLVTVSS DY JH5亲本或 JH5_1 NWFDSWGQGTLVTVSS NWFDS JH5_2 WFDSWGQGTLVTVSS WFDS JH5_3 FDSWGQGTLVTVSS FDS JH5_4 DSWGQGTLVTVSS DS JH6亲本或 JH6_1 YYYYYGMDVWGQGTTVTVSS YYYYYGMDV JH6_2 YYYYGMDVWGQGTTVTVSS YYYYGMDV JH6_3 YYYGMDVWGQGTTVTVSS YYYGMDV JH6_4 YYGMDVWGQGTTVTVSS YYGMDV JH6_5 YGMDVWGQGTTVTVSS YGMDV JH6_6 GMDVWGQGTTVTVSS GMDV JH6_7 MDVWGQGTTVTVSS MDV IGHJ区段 [H3-JH]-[FRM4]1 SEQ ID NO: H3-JH SEQ ID NO: JH6_8 DVWGQGTTVTVSS DV 1H3-JH定义为包括在CDRH3的Kabat定义内的IGHJ区段部分;FRM4定义为编码构架区4的IGHJ区段部分。 根据本申请的CDRH3编号体系,例如JH6_1对CDRH3的贡献可通过位置99F、99E、99D、99C、99B、99A、100、101和102(分别为Y、Y、Y、Y、Y、G、M、D和V)标明。同样,JH4_3序列可为CDRH3提供氨基酸位置101和102(分别为D和Y)。然而,在示例性文库的所有情况下,按照用于抗体可变区的标准Kabat编号体系(Kabat,op.cit.1991),JH区段将为FRM4区提供氨基酸103~113。在文库的其它实施方案中,情况可能并非如此。 实施例5.3:N1和N2区段的选择 虽然考虑通过模拟天然存在的渐进缺失过程(如上述说明)增强的V-D-J重组可产生丰富的多样性,但是CDRH3序列在体内的多样性通过在V-D接点和D-J接点非模板添加大量不同的核苷酸而进一步放大。 在含有约2,700种抗体序列的样品中鉴定出分别位于V-D接点和D-J接点上的N1和N2区段(Jackson等,J.Immunol.Methods,2007,324:26),还通过Volpe等人的SoDA方法进行了分析(Volpe等,Bioinformatics,2006,22:438-44;(Jackson等和Volpe等,两个文献都通过引用其全部予以结合)。这些序列的分析揭示了N1和N2的长度和组成的形式。对于构建本示例性CDRH3文库,采用本文所述合成方案,从上述分析中得到特别短的氨基酸序列,并用来产生掺入到CDRH3设计中的多个N1和N2区段。 如详述中所述,基于对长度和组成的这些参数的统计偏倚的了解,本发明的某些实施方案包括具有合理设计的长度和组成的N1和N2区段,所述参数通过对人抗体中天然存在的N1和N2区段进行比较而获得。按照自人数据库编制的数据(参见例如Jackson等,J.Immunol Methods,2007,324:26,通过引用其全部予以结合),不考虑2个以内核苷酸的插入,对于N1有平均约3.02个氨基酸插入,对于N2有平均约2.4个氨基酸插入。图2表示人抗体中N1区和N2区的长度分布。在本发明的这个示例性实施方案,N1和N2的长度被固定在0、1、2或3个氨基酸。人抗体中这些序列的天然存在的组成用作包括不同氨基酸残基的指导。 表21中列出1个氨基酸、2个氨基酸和3个氨基酸N1添加的天然存在的组成,表22中定义相应N2添加的天然存在的组成。N1和N2集中最频繁出现的二联体汇总于表23。 表21.天然存在的1、2和3个氨基酸N1添加的组成* 位置1 出现次数 位置2 出现次数 位置3 出现次数 R 251 G 97 G 101 G 249 P 67 R 66 位置1 出现次数 位置2 出现次数 位置3 出现次数 P 173 R 67 P 47 L 130 S 42 S 47 S 117 L 39 L 38 A 84 V 33 A 33 V 62 E 24 V 28 K 61 A 21 T 27 I 55 D 18 E 24 Q 51 I 18 D 22 T 51 T 18 K 18 D 50 K 16 F 14 E 49 Y 16 I 13 F 3 H 13 W 13 H 32 F 12 N 10 N 30 Q 11 Y 10 W 28 N 5 H 8 Y 21 W 5 Q 5 M 16 C 4 C 3 C 3 M 4 M 3 1546 530 530 *序列C-端定义为“CARX”,或VH的等同成分,其中“X”为“尾”(例如D、E、G或无氨基酸残基)。 表22.天然存在的1、2和3个氨基酸N2添加的组成* 位置1 出现次数 位置2 出现次数 位置3 出现次数 G 242 G 244 G 156 P 219 P 138 P 79 R 180 R 86 S 54 L 132 S 85 R 51 S 123 T 77 L 49 A 97 L 74 A 41 T 78 A 69 T 31 V 75 V 46 V 29 E 57 E 41 D 23 D 56 Y 38 E 23 F 54 D 36 W 23 H 54 K 30 Q 19 Q 53 F 29 F 17 I 49 W 27 Y 17 N 45 H 24 H 16 Y 40 I 23 I 11 K 35 Q 23 K 11 W 29 N 21 N 8 M 20 M 8 C 6 C 6 C 5 M 6 1644 1124 670 *定义为序列C-端至D区段但不是由IGHJ基因编码。 表23.前25个天然存在的N1和N2二联体 序列 出现数 累计频率 独立频率 GG 17 0.037 0.037 PG 15 0.070 0.033 RG 15 0.103 0.033 PP 13 0.132 0.029 GP 12 0.158 0.026 GL 11 0.182 0.024 PT 10 0.204 0.022 TG 10 0.226 0.022 GV 9 0.246 0.020 RR 9 0.266 0.020 SG 8 0.284 0.018 RP 7 0.299 0.015 IG 6 0.312 0.013 GS 6 0.325 0.013 SR 6 0.338 0.013 PA 6 0.352 0.013 LP 6 0.365 0.013 VG 6 0.378 0.013 KG 6 0.389 0.011 GW 5 0.400 0.011 FP 5 0.411 0.011 LG 5 0.422 0.011 序列 出现数 累计频率 独立频率 RS 5 0.433 0.011 TP 5 0.444 0.011 EG 5 0.455 0.011 实施例5.3.1N1区段的选择 对位于V和D之间的接点上已鉴定的N1区段进行的分析表明,8个最频繁出现的氨基酸残基为G、R、S、P、L、A、T和V(表21)。在N1区段中氨基酸添加的数目通常为0、1、2或3个(图2)。4个以上氨基酸的添加相对罕见。因此,在文库的本示例性实施方案中,将N1区段设计成包括0、1、2或3个氨基酸。然而,在其它实施方案中,还使用了4、5个或更多个氨基酸的N1区段。G和P总是在N1区中最常出现的氨基酸残基之中。因此,在文库的本示例性实施方案中,作为二肽的N1区段具有GX、XG、PX或XP形式,其中X是上面所列出的8个最常出现的氨基酸中的任一个。由于比起P残基,更频繁地观察到G残基的事实,因此,示例性N1文库的三肽成员形式为GXG、GGX或XGG,其中X再次为上面所列出的8个最频繁出现的氨基酸残基之一。所得到的用于文库的本示例性实施方案中的N1序列集,包括“零”添加量至59个序列,见表24。 表24.选用于包含在示例性文库中的N1序列 区段类型 序列 数目 “零” (无添加)V区段与D区段直接连接 1 单体 G,P,R,A,S,L,T,V 8 二聚体 GG,GP,GR,GA,GS,GL,GT,GV,PG,RG,AG,SG,LG, TG,VG,PP,PR,PA,PS,PL,PT,PV,RP,AP,SP,LP,TP, VP 28 三聚体 GGG,GPG,GRG,GAG,GSG,GLG,GTG,GVG,PGG, RGG,AGG,SGG,LGG,TGG,VGG,GGP,GGR,GGA, GGS,GG L,GGT,GGV 22 按照本申请的CDRH3编号体系,表24中所列举的序列为CDRH3提供下列位置:单体提供位置96,二聚体提供96和96A,三聚体提供96、96A和96B。在替代性实施方案中,其中四聚体和更长的区段可以包括在N1序列之中,相应编号可继续到包括96C,等等。 实施例5.3.2N2区段的选择 同样,对位于D和J之间的接点上的已鉴定的N2区段进行的分析表明,8个最频繁出现的氨基酸残基同样为G、R、S、P、L、A、T和V(表22)。在N2区段中氨基酸添加的数目也通常为0、1、2或3个(图2)。对于示例性文库中N2区段的设计,使用扩大的序列集。准确地讲,除了在表24中列举的用于N1的59个序列以外,还使用了表25中的序列。 表25.N2添加中的额外序列 区段类型 序列 新的数目 总数 单体 D,E,F,H,I,K,M,Q,W,Y 10 18 二聚体 AR,AS,AT,AY,DL,DT,EA,EK,FH,FS,HL, HW,IS,KV,LD,LE,LR,LS,LT,NR,NT,QE, Q L,QT,RA,RD,RE,RF,RH,RL,RR,RS,RV, SA,SD,SE,SF,SI,SK,SL,SQ,SR,SS,ST, SV,TA,TR,TS,TT,TW,VD,VS,WS,YS 54 82 三聚体 AAE,AYH,DTL,EKR,ISR,NTP, PKS,PRP,PTA,PTQ,REL,RPL, SAA,SAL,SGL,SSE,TGL,WGT 18 40 因此,文库的本示例性实施方案共含有141个N2序列,包括“零”状态。本领域普通技术人员容易了解的是,这141个序列也可用于N1区,且这类实施方案属于本发明的范围。另外,可通过使用在天然存在的抗体的N1区和N2区中,比G、R、S、P、L、A、T和V较不频繁出现的氨基酸,并且在文库中包括4、5或更多个氨基酸的N1和N2区段,来进一步增加N1和N2序列的长度多样性和组成多样性。表21~23和图2提供有关天然存在的抗体中N1和N2序列的组成和长度的信息,用于模拟天然组成和长度的额外N1区和N2区的设计。 按照本申请的CDRH3编号体系,N2序列可始于位置98(如果存在)并延伸到98A(二聚体)和98B(三聚体)。替代性实施方案可占据位置98C、98D,等等。 实施例5.4.CDRH3文库 当考虑“尾”(即G/D/E/-)时,示例性文库中的CDRH3可用下列通式表示: [G/D/E/-]-[N1]-[DH]-[N2]-[H3-JH] 在文库的本示例性非限制性实施方案中,[G/D/E/-]表示4个可能的末端氨基酸“尾”的每一个;N1可以是表24中59个序列中的任一个;DH可以是表18中278个序列中的任一个;N2可以是表24和表25中141个序列中的任一个;H3-JH可以是表20中28个H3-JH序列中的任一个。把每个组分上的变异数相乘,得出该CDRH3文库的总的理论多样性或理论库大小,即4×59×278×141×28=2.59×108。 然而,如之前的实施例中所述,可从文库中排除丰余性。在本示例性实施方案中,将尾和N1区段合并,并从文库中去除丰余性。例如,就VH chassis、尾和N1区而论,可按2种不同的方式得到序列[VH_Chassis]-[G]:[VH_Chassis]+[G]+[无残基]或[VH_Chassis]+[无残基]+[G]。去除丰余序列从236个可能的组合(即4个尾×59个N1)中得到共212个独特的[G/D/E/-]-[N1]区段。因此,本示例性CDRH3文库的实际多样性为212×278×141×28=2.11×108。图23表示相对于Lee等人的免疫前抗体库,该文库中不同CDRH3长度的出现频率。 表26采用本申请的CDRH3编号体系进一步说明了上述CDRH3文库的具体示例性序列。在不使用某一位置的情况下,表中用连字符(-)来代替。 实施例6:VKCDR3文库的设计 本实施例描述了多种示例性VKCDR3文库的设计。如详述中所述,制备或用于本发明具体实施方案的VKCDR3文库的实际形式将取决于文库使用的目的。在本实施例中,采用了轻链可变区的Kabat编号体系。 为了有利于研究出现形式,从可公开获取的NCBI数据库(附录A)中获取人κ轻链序列。同重链序列(实施例2)一样,根据序列同一性,将从可公开获取的数据库中获取的每个序列指派给其最近的种系基因。然后,确定每个κ轻链子集内每个位置上的氨基酸组成。 实施例6.1.:极简VKCDR3文库 本实施例描述了“极简”VKCDR3文库的设计,其中VKCDR3库都限于9个残基的长度。对人序列的VKCDR3长度的分析表明,绝大部分(超过70%)在CDRL3的Kabat定义内具有9个氨基酸:位置89~97。因此,本示例性极简文库设计只考虑长度为9的VKCDR3。对人κ轻链序列进行的分析表明,在IGKJ基因使用中没有大的偏倚;在人体中有5个这样的IKJ基因。表27表示在3个数据集中的IGKJ基因使用率,即Juul等(Clin.Exp.Immunol.,1997,109:194,通过引用其全部予以结合);Klein和Zachau(Eur.J.Immunol.,1993,23:3248,通过引用其全部予以结合);以及附录A中提供的κ轻链数据集(带标记的LUA)。 表27.各数据集中的IGKJ基因使用率 基因 Klein Juul LUA IGKJ1 35.0% 29.0% 29.3% IGKJ2 25.0% 23.0% 24.1% IGKJ3 7.0% 8.0% 12.1% IGKJ4 26.0% 24.0% 26.5% IGKJ5 6.0% 18.0% 8.0% 因此,“M”个VK chassis和5个IGKJ基因的简单组合就可产生大小为M×5的文库。在Kabat编号体系中,对于长度为9个的VKCDR3,第96号氨基酸是由IGKJ基因编码的第一个。对人序列中占据该位置的氨基酸进行的分析表明,7个最常见的残基为L、Y、R、W、F、P和I,累计占存在于位置96上的残基的约85%。其余13个氨基酸占另外的15%。所有20种氨基酸在位置96的出现情况见表28。 表28.人VK数据集中位置96上20种氨基酸残基的出现情况 类型 次数 百分比 累计 L 333 22.3 22.3 类型 次数 百分比 累计 Y 235 15.8 38.1 R 222 14.9 52.9 W 157 10.5 63.5 F 148 9.9 73.4 I 96 6.4 79.8 P 90 6.0 85.9 Q 53 3.6 89.4 N 39 2.6 92.0 H 31 2.1 94.1 V 21 1.4 95.5 G 20 1.3 96.8 C 14 0.9 97.8 K 7 0.5 98.3 S 6 0.4 98.7 A 5 0.3 99.0 D 5 0.3 99.3 E 5 0.3 99.7 T 5 0.3 100.0 M 0 0.0 100.0 为了确定最常存在于位置96上的7个残基的来源,对已知的人IGKJ氨基酸序列进行了仔细检查(表29)。 表29.已知的人IGKJ氨基酸序列 基因 序列 IGKJ1 WTFGQGTKVEIK IGKJ2 YTFGQGTKLEIK IGKJ3 FTFGPGTKVDIK IGKJ4 LTFGGGTKVEIK IGKJ5 ITFGQGTRLEIK 虽然不受理论的束缚,但是在重排的人序列位置96上7个最常出现的氨基酸中有5个似乎来自由5个人IGKJ基因中的每一个编码的第一个氨基酸,即W、Y、F、L和I。 P和R残基的来源证据较少。虽然不受理论的束缚,但大多数人IGKV基因核苷酸序列终止于序列CC,这发生在最后一个完全密码子(例如编码表11所示的C-端残基)的末端(即3’)之后。因此,不论哪一个核苷酸位于该序列(即CCX,其中X可以是任何核苷酸)之后,该密码子都会编码脯氨酸(P)残基。因此,当IGKJ基因进行渐进缺失(恰如在重链的IGHJ中;参见实施例5)时,第一个完全氨基酸都丢失,如果在IGKV基因中不发生缺失,则将会产生P残基。 为了确定位置96上精氨酸残基的来源,对位置96上含有R的重排κ轻链序列上的IGKJ基因的来源进行了分析。分析表明,当IGKJ基因为IGKJ1时,R最频繁出现在位置96上。IGKJ1的种系W(位置1;表29)由GG编码。虽然不受理论的束缚,但是单个核苷酸由变成C(得到CGG)或变成A(得到AGG)将因此产生编码Arg(R)的密码子。A变成G(得到GGG)产生编码Gly(G)的密码子。R较常出现在人序列的位置96上,约为G的10倍(当IGKJ基因为IGKJ1时),并且R由CGG编码常多过由AGG编码。因此,虽然不受理论的束缚,但是C可来源于IGKV基因结束时的前述2个C之一。然而,当VKCDR3的长度为9时,不论出现的机制如何,R和P都是在位置96上最常观察到的氨基酸类型之中。因此,极简VKCDR3文库可用下列氨基酸序列表示: [VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGGGTKVEIK] 在该序列中,VK_Chassis表示任何选出的VK chassis(对于非限制性实例,参见表11),尤其是由IGKV基因编码的Kabat残基1~88。L3-VK表示由选出的IGKV基因编码的VKCDR3部分(在该实施方案中,残基89~95)。F/L/I/R/W/Y/P表示氨基残基(amino residue)F、L、I、R、W、Y或P中的任一个。在该示例性图中,描述了IKJ4(没有第一残基)。虽然不受理论的束缚,但是除IGKJ4为人体中最使用的IGKJ基因之一以外,预期GGG氨基酸序列导致比含有GXG氨基酸序列的任何其它IGKJ基因都大的构象柔性,其中X是除G以外的氨基酸。在一些实施方案中,这对产生具有较高程度的构象柔性极简免疫前抗体库可能是有利的。就表11所示10个VK chassis而论,一个实现的极简VKCDR3文库可能具有70个成员,得自10个VK chassis×7个接点(位置96)选项和一个IGKJ衍生的序列(例如IGKJ4)的组合。尽管使用IGKJ4描述了文库的这个实施方案,但是使用其它4个IGKJ序列之一设计极简VKCDR3文库是可行的。例如,文库的另一个实施方案可具有350个成员(10个VK chassis乘以7个接点乘以5个IGKJ基因)。 本领域普通技术人员容易了解的是,一种或多种极简VKCDR3文库可使用任一IGKJ基因构建。采用上述标记法,这些极简VKCDR3文库可具有由例如下式表示的序列: JK1:[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGQGTKVEIK]; JK2:[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGQGTKLEIK]; JK3:[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGPGTKVDIK];和 JK5:[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGQGTRLEIK]. 实施例6.2:复杂度约105的VKCDR3文库 在本实施例中,把实施例6.1中所描述的9个残基的VKCDR3库扩大到包括长度为8个和10个残基的VKCDR3。此外,虽然之前所列举的VKCDR3文库包括VK chassis和IGKJ基因无助于VKCDR3的多个部分,但是本示例性形式只集中在包含VKCDR3部分的残基上。例如,当与已含有VK chassis序列的载体重组且恒定区序列是所需要的时,这个实施方案可能是有利的。 虽然人VKCDR3序列的主要长度是9个氨基酸,但是其它长度似乎以可测量的比率累计将近κ轻链序列的30%。具体地讲,长度为8和10的VKCDR3分别表示代表性样品中的序列的约8.5%和约16%(图3)。因此,更复杂的VKCDR3文库包括长度为8~10个氨基酸的CDR;这种文库占在人VKCDR3序列的典型集合体中观察到的长度分布的95%以上。这种文库还使得能够包括VK和JK基因间接点以外的额外变异。本实施例描述了这类文库。文库包含10个子文库,每个围绕表11所示的10个示例性VK chassis之一进行了设计。无疑,这里的示例性方法可归纳为视为M个不同的chassis,其中M可小于或大于10。 为了表征占据Kabat位置89~95的多肽区段内的变异性,可分别对衍生自实施例3的10个种系序列中每一个的人κ轻链序列集合体进行比对和比较(即种系组别内)。这个分析使我们能够了解按种系分组的每个κ轻链序列中每个单独位置上序列变异的形式。下表显示衍生自IGKV1-39的序列的结果。 表30.IGKV1-39衍生的序列中氨基酸类型的出现百分比 氨基酸 P89 P90 P91 P92 P93 P94 P95 A 0 0 1 0 0 4 1 C 0 0 0 0 0 0 0 D 0 0 1 1 3 0 0 E 0 1 0 0 0 0 0 F 0 0 0 5 0 2 0 G 0 0 2 1 2 0 0 氨基酸 P89 P90 P91 P92 P93 P94 P95 H 1 1 0 4 0 0 0 1 0 0 1 0 4 5 1 K 0 0 0 1 2 0 0 L 3 0 0 1 1 3 7 M 0 0 0 0 0 1 0 N 0 0 3 2 6 2 0 P 0 0 0 0 0 4 85 Q 96 97 0 0 0 0 0 R 0 0 0 0 5 0 2 S 0 0 80 4 65 6 3 T 0 0 9 0 10 65 1 V 0 0 0 0 0 1 1 W 0 0 0 0 0 0 0 Y 0 0 2 80 0 3 0 例如,在位置89上,2个氨基酸Q和L,占所观察的变异性的约99%,因此在本示例性文库中(参见下文),仅Q和L包括在位置89上。当然,在较大的文库中,也可包括其它较不频繁出现的氨基酸类型(例如H)。 同样,在位置93上有较多变异,其中氨基酸类型S、T、N、R和I都处在最频繁出现的之中。因此,本示例性文库的目的是在位置93上包括这5个氨基酸,尽管无疑在更多样化的文库中可包括其它氨基酸。然而,因为该文库是通过标准化学寡核苷酸合成法构建的,受遗传密码限制的束缚,所以使得在位置93上的示例性文库的实际氨基酸由S、T、N、R、P和H组成,其中P和H替换I(参见下表32中的示例性9残基VKCDR3)。可按照下文实施例6.3中所述方法,采用寡核苷酸的基于密码子的合成法来克服这种限制。在其它位置上以及对于其它序列都可按照同样的方法进行:对每个位置氨基酸类型的出现进行分析,从最频繁出现的子集中进行选择,后面是按照遗传密码的规定进行调整。 如上所述,文库采用了使用标准寡核苷酸合成设备和简并寡核苷酸的实用易行的合成方法。为了有利于对文库进行描述,将使用简并核苷酸的IUPAC代码,见表31。 表31.简并碱基符号定义 IUPAC符号 碱基对组成 A A(100%) C C(100%) G G(100%) T T(100%) R A(50%)G(50%) Y C(50%)T(50%) W A(50%)T(50%) S C(50%)G(50%) M A(50%)C(50%) K G(50%)T(50%) B C(33%)G(33%)T(33%)(*) D A(33%)G(33%)T(33%) H A(33%)C(33%)T(33%) V A(33%)C(33%)G(33%) N A(25%)C(25%)G(25%)T(25%) (*)33%在这里是1/3(即33.3333...%)的省略形式。 使用具有长度为9的VKCDR3的VK1-39 chassis作为例子,VKCDR3文库可用下列4种寡核苷酸表示(表32中的左栏),其中CDRL3各位置上编码的相应氨基酸(Kabat编号)在该表右栏提供。 表32.编码VK1-39CDR3文库的示例性寡核苷酸 寡核苷酸序列 89 90 91 92 93 94 95 95A 96 97 CWGSAAWCATHCMVTABTCCTTWCACT LQ EQ ST FSY HNPRST IST P - FY T CWGSAAWCATHCMVTABTCCTMTCACT LQ EQ ST FSY HNPRST IST P - IL T 寡核苷酸序列 89 90 91 92 93 94 95 95A 96 97 CWGSAAWCATHCMVTABTCCTWGGACT LQ EQ ST FSY HNPRST IST P - WR T CWGSAAWCATHCMVTABTCCTCBTACT LQ EQ ST FSY HNPRST IST P PLR - T 例如,表32中第1种核苷酸的第一个密码子(CWG),相当于Kabat位置89,表示50%CTG和50%CAG,分别编码Leu(L)和Gln(Q)。因此,可预期已表达的多肽具有L和Q的机会各为约50%。同样,对于第4种寡核苷酸的Kabat位置95A,密码子CBT表示CCT、CGT和CTT各为1/3,在翻译时依次相当于Pro(P)、Leu(L)和Arg(R)各1/3。通过使在肽序列每个位置上可供选择的数目相乘,便可得到在肽区域由每种寡核苷酸引起的复杂度。对于上述VK1-39实例,前3种寡核苷酸的数目为864,对于第4种寡核苷酸为1,296。因此,编码长度为9的VK1-39CDR3的寡核苷酸为文库贡献了3,888个成员。然而,如表32所示,在位置95A上具有L或R的序列(当位置96是空的时)与在位置96上具有L或R(且95A是空的)的序列相同。因此,3,888这个数值过高估计了LR的贡献,独特成员的实际数目稍有降低,为3,024。如表33中所示,对于所有10个VK chassis,在校正过度计数的LR对大小9个VKCDR3的贡献后,整个代表大小为8、9和10的VKCDR3的寡核苷酸的总体复杂度为约1.3×105或1.2×105个独特序列。 实施例6.3:更复杂的VKCDR3文库 本实施例说明,通过采用基于密码子的合成方法,可在每个位置上怎样获得更多真实呈现的氨基酸变异(Vimekas等,Nucleic AcidsRes.,1994,22:5600)。这种合成方案还可供较好地控制某一位置上所包括的特定氨基酸的比例。例如,如上文的VK1-39序列中所述,位置89被设计为50%Q和50%L;然而,正如表30显示的一样,Q的使用比L的使用频繁得多。本实施例的更复杂VKCDR3文库说明不同的Q和L的相对出现率,例如90%Q和10%L。这类控制在基于密码子的合成方案内得到较好的应用,尤其当考虑多种氨基酸类型时。 本实施例还描述了使用表11中所述的10个VK chassis来实施基于密码子的合成方案。当然,可用较多或较少的这类chassis实施同样的方法。正如详述中所指出的一样,本文库以及之前实施例文库设计的独特方面,是基于种系或chassis的方面,这就意味着更好地保持了实际的人κ轻链序列的完整性和变异性。这与文献中披露并皆在产生“万全之策”(例如共有序列)的κ轻链文库的其它基于密码子的合成法或简并寡核苷酸合成方法大不相同(例如,Knappik等,J Mol Biol,2000,296:57;Akamatsu等,J Immunol,1993,151:4651)。 因此,参照所获得的有关VK1-39的表30,可以设计出表34的长度为9的VKCDR3文库。这里出于实用的原因,以5个百分点的倍数标明在每个位置上的比例。随着更好的合成方案的开发,可获得较好的分辨率-例如分辨率为1%、2%、3%或4%。 表34.具有CDR长度为9个残基的VK1-39文库在每个VKCDR3位置上的氨基酸组成(%) (*)对于所有chassis的长度为9的VK CDR3,大多通过接点和IGKJ多样性确定的位置96和97的组成可能相同。 表34的文库可具有1.37×106个独特多肽序列,通过将表中末行的数字相乘来计算。 在某些位置上,对于Asn(N)加下划线的表值表示其中在VKCDR3上具有N-联糖基化位点的可能性被降到最小或消除的区域。具有N-X-(S或T)-Z形式的肽序列,其中X和Z不同于P,可在包括酵母和哺乳动物细胞在内的多个表达系统中进行翻译后修饰。此外,这类修饰的性质取决于具体的细胞类型,以及甚至是给定的细胞类型的培养条件。N-联糖基化当发生在抗体分子可能参与抗原结合的区域内(例如CDR)时可能是不利的,因为抗体的功能可因此受可能难以控制的因素影响。例如,从上述位置91而论,可观察到位置92从不为P。位置94在95%的情况下不为P。然而,位置93在75%(65+10)的情况下为S或T。因此,允许位置91上的N可产生不需要的基序N-X-(T/S)-Z(其中X和Z均不同于P),因此即使在实际人序列中观察到N具有某种频率,也可发生零出现(参见表30)。同样的论据也适用于位置92和94上的N。然而,应当了解的是,如果使抗体文库在不能够N-联糖基化的系统中表达,例如细菌或在其中不发生N-联糖基化的培养条件下,这个考虑则可能不适用。然而,即使用于表达具有潜在N-联糖基化位点的文库的生物不能够进行N-联糖基化(例如细菌),也最好避免N-X-(S/T)序列,因为从这类文库分离的抗体可稍后(例如进入临床开发)在不同系统(例如酵母、哺乳动物细胞)进行表达,并且可变结构域特别是CDR中存在的糖部分,可导致不需要的活性改变。这些实施方案也包括在本发明的范围内。据我们所知,本领域已知的VKCDR3文库没有考虑这个影响,因此,其成员的比例可能具有上述不良性质。 我们还设计与表34中所概述的文库有关的长度为8和10的VKCDR3的其它子文库。在这些实施方案中,位置89~94和位置97的组成与表34所示组成相同。在位置95和位置95A上引入了额外的多样性,后者限定VKCDR3长度仅为10,见表35。 表35.长度为8和10的VK1-39文库的氨基酸组成(%) (*)位置96在大小为8的VKCDR3中缺失。 (**)与大小为9的VKCDR3的组成相同。 因此,可如之前一样得出长度为8的VK1-39文库的独特成员总数,该数为3.73×105(即3×3×4×6×8×8×9×3)。同样,长度为10的VK1-39文库的复杂度可以是0.9×106(即是大小为9的文库的8倍,因为插入位置95A上有额外8倍的变异)。因此,在整个VK1-39文库中可有共12.7×106个独特成员,通过规定长度的每一个中的独特成员数求和得到。在本发明的某些实施方案中,可优选产生长度分别为8、9和10的各个子文库,然后按反映人序列中VKCDR3的长度分布比,将子文库混合;例如天然VKCDR3序列中存在的约1∶9∶2的分布比(参见图3)。本发明为普通技术人员合成相当于其它VKchassis的VKCDR3文库提供了组成和方法。 实施例7:极简VλCDR3文库 本实施例描述了极简VλCDR3文库的设计。用于设计该文库(或更复杂的Vλ文库)的原理类似于用于设计VKCDR3文库的原理。然而,与VK基因不同,IgλV区段对CDRL3的影响不限于氨基酸的固定数目。因此,即使当只考虑Vλchassis和Jλ序列的组合时,也可在极简VλCDR3文库中获得长度变异。 对人序列的VλCDR3长度进行的仔细检查表明,9~12的长度约占序列的几乎95%,8~12的长度约占序列的97%(图4)。表36表示自NCBI数据库(参见附录B)编制的重排的人λ轻链序列中6个已知IGλJ基因的使用率(出现百分比),表37表示由这些基因编码的序列。 表36.自NCBI数据库(参见附录B)编制的λ轻链序列的IGλJ基因使用率 基因_等位基因 LUA Jλ1_01 20.2% Jλ2_01 42.2% Jλ3_02 36.2% Jλ6_01 0.6% Jλ7_01 0.9% 表37.所观察到的人IGλJ氨基酸序列 IGλJ3-01和IGλJ7-02未呈现在已进行分析的序列之中;因此,未包括在表36中。如表36中所示,IGλJ1-01、IGλJ2-01和IGλJ3-02在其使用率上过多呈现,因此在表37中使用粗体字。在本发明的一些实施方案中,例如,可使用仅仅这3个过多呈现的序列。在本发明的其它实施方案中,可以使用所有6个区段,可以使用6个区段中的任意1、2、3、4或5个区段或者其任何组合。 如表14所示,由IGλV基因区段提供的CDRL3部分为7、8或9个氨基酸。CDRL3和FRM4的其余部分衍生自IGλJ序列(表37)。IGλJ序列为CDRL3提供1个或2个氨基酸。如果2个氨基酸由IGλJ提供,该贡献则来自IGλJ区段的N-端2个残基:YV(IGλJ1-01)、VV(IGλJ2-01)、WV(IGλJ3-01)、VV(IGλJ3-02)或AV(IGλJ7-01和IGλJ7-02)。如果1个氨基酸是来自IGλJ的贡献,则它就是V残基,这是在IGλJ区段的N-端残基缺失后形成的。 在本发明的这个非限制性示例性实施方案中,把FRM4区段固定为FGGGTKLTVL,相当于IGλJ2-01和IGλJ3-02。 11个精选chassis中的7个(Vλ1-40、Vλ3-19、Vλ3-21、Vλ6-57、Vλ1-44、Vλ1-51和Vλ4-69)在最后一个完全密码子之后有额外2个核苷酸。在这7例的4例中,对附录B中提供的数据集进行的分析表明,添加一个核苷酸(即,不受理论的限制,通过TdT的活性)导致CDRL3长度的进一步增加。该作用可视为是由引入由这4个IGλV序列提供的L3-Vλ序列的变异体所致(表38)。 因此,在本发明的本示例性实施方案中,chassis的最终集是15个:11个由表14中的chassis提供,另外4个由表38的chassis提供。15个chassis相应的L3-Vλ结构域为CDRL3提供7~10个氨基酸。当考虑由IGλJ序列提供的氨基酸时,CDRL3长度的总变异为8~12个氨基酸,接近图4中的分布。因此,在本发明的这个示例性实施方案中,极简Vλ文库可如下表示:15个Chassis×5个IGλJ衍生的区段=75个序列。这里,15个chassis是Vλ1-40、Vλ1-44、Vλ1-51、Vλ2-14、Vλ3-1*、Vλ3-19、Vλ3-21、Vλ4-69、Vλ6-57、Vλ5-45、Vλ7-43、Vλ1-40+、Vλ3-19+、Vλ3-21+和Vλ6-57+。5个IGλJ衍生的区段为YVFGGGTKLTVL(IGλJ1)、VVFGGGTKLTVL(IGλJ2)、WVFGGGTKLTVL(IGλJ3)、AVFGGGTKLTVL(IGλJ)和-VFGGGTKLTVL(得自之前序列中的任一个)。 实施例8:与“参比”抗体匹配 本领域已知的人目标抗体的CDRH3序列(例如已用于临床的抗体)在设计的本发明文库中具有接近的对应物。得自临床上相关抗体的一组15个CDRH3序列见表39。 表39.参比抗体的CDRH3序列 抗体名称 靶标 来源 状态 CDHR3序列 SEQ ID NO: CAB1 TNF-α 噬菌体展示- 人类文库 FDA批准 AKVSYLSTASSLDY CAB2 EGFR 转基因小鼠 FDA批准 VRDRVTGAFDI CAB3 IL-12/IL-23 噬菌体展示- 人类文库 III期 KTHGSHDN CAB4 白介素- 1-β 转基因小鼠 III期 ARDLRTGPFDY CAB5 RANKL 转基因小鼠 III期 AKDPGTTVIMSWFDP CAB6 IL-12/IL-23 转基因小鼠 III期 ARRRPGQGYFDF CAB7 TNF-α 转基因小鼠 III期 ARDRGASAGGNYYYYGMDV CAB8 CTLA4 转基因小鼠 III期 ARDPRGATLYYYYYGMDV CAB9 CD20 转基因小鼠 III期 AKDIQYGNYYYGMDV CAB10 CD4 转基因小鼠 III期 ARVINWFDP CAB11 CTLA4 转基因小鼠 III期 ARTGWLGPFDY CAB12 IGF1-R 转基因小鼠 II期 AKDLGWSDSYYYYYGMDV 抗体名称 靶标 来源 状态 CDHR3序列 SEQ ID NO: CAB13 EGFR 转基因小鼠 II期 ARDGITMVRGVMKDYFDY CAB14 EGFR 噬菌体展示- 人类文库 II期 ARVSIFGVGTFDY CAB15 BLyS 噬菌体展示- 人类文库 II期 ARSRDLLLFPHHALSP 将上述序列中的每一个与实施例5文库中的每个成员进行比较,记录具有相同长度和最少氨基酸错配数的一个或多个成员。结果概括于下表40中。对于大多数情况,具有80%同一性或好于80%同一性的匹配存在于示例性CDRH3文库中。虽然不受理论的束缚,但是就这些抗体中每一个的特异性和结合亲和力受其CDRH3序列影响的程度来说,这些文库成员的一个或多个对相关靶标可具有可测量的亲和力。 表40.参比抗体CDRH3与设计文库的匹配 抗体名称 错配数(*) 长度 最佳匹配的 %同一性 CAB1 5 14 64% CAB2 2 11 82% CAB3 4 8 50% CAB4 2 11 82% CAB5 3 15 80% CAB6 3 12 75% CAB7 2 20 90% CAB8 0 19 100% CAB9 3 15 80% CAB10 1 9 89% 抗体名称 错配数(*) 长度 最佳匹配的 %同一性 CAB11 1 11 91% CAB12 2 18 89% CAB13 2 18 89% CAB14 1 13 92% CAB15 7 16 56% (*)对于文库中的最佳匹配序列 假定物理实现的具有约108个截然不同成员的文库实际上可含有每个仅一个成员,则具有与目标抗体接近的百分同一性的这类序列可存在于物理实现的文库中。本实施例还强调了本发明文库优于本领域现有文库的许多明显差别之一;即可以精确列举本发明文库的成员。相比之下,本领域已知的CDRH3文库无法以本文所述方式明确列举。例如,本领域已知的众多文库(例如Hoet等,Nat.Biotechnol.,2005,23:344;Griffiths等,EMBO J.,1994,13:3245;Griffiths等,EMBO J.,1993,12:725;Marks等,J.Mol.Biol.,1991,222:581,各文献通过引用其全部予以结合)通过克隆天然人CDRH3序列而获得,它们确切的组成没有表征,这就使得无法列举。 通过其它(例如随机或半随机/偏倚的)方法(Knappik等,J MolBiol,2000,296:57,通过引用其全部予以结合)产生的合成文库往往具有非常大量的独特成员。因此,虽然与给定输入序列匹配(例如80%以上)可存在于这类文库的理论呈现中,但是实际上,合成然后产生这样的物理实现的理论文库的概率可能极小,即含有这类序列随后并选出符合这类匹配的抗体的物理实现的理论文库。例如,Knappik文库中长度为19的CDRH3可具有1019种以上的截然不同的序列。在实际实现的这类文库中,约1/10的序列的长度可以是19,最大的总文库可具有大约1010~1012个转化体;因此,预先确定的给定成员存在的概率实际上几乎为零(小于一千万分之一)。其它文库(例如Enzelberger等,WO2008053275和Ladner US20060257937,各文献通过引用其全部予以结合)都有本申请全文中所记载的至少一种限制。 因此,例如,就抗体CAB14而论,实施例5中设计的文库有7个成员,这与CAB14的CDRH3序列(见表39)仅1个氨基酸位置不同。因为该CDRH3序列的总长度为13,所以对于本发明文库的这7个序列中的每一个,相同氨基酸的百分比为12/13即约92%。可以估计在Knappik等人的文库中得到这类匹配(或更好的匹配)的概率约为1.4×10-9;在具有相等氨基酸比例(即完全随机)的文库中还可能更低,约为5.5×10-10。因此,在物理实现的具有约1010个转化体(其中约1/10的长度可以是13)文库中,可能有这些最佳配对中的1种或2种情况。然而,至于较长序列(例如CAB 12),在Knappik文库中,具有约89%或更佳匹配的成员的概率在约10-15以下,致使在物理实现的文库中各情况的预期数基本上为零。就类似于实际人CDRH3序列的目标序列来说,在设计成模拟人序列的实施例5的文库中将存在紧密匹配。因此,比起本领域的现有文库,本发明文库的许多相对优势之一随着CDRH3的长度增加而变得更加显而易见。 实施例9:编码DH、N2和H3-JH区段的寡核苷酸的分合合成法 本实施例概述了用于合成用来构建本发明示例性文库的寡核苷酸的方法。采用约39μmol/g树脂的加载量,使用Custom PrimerSupportTM 200dT40S树脂(GE Healthcare)来合成寡核苷酸。柱(直径=30μm)、玻璃料(frits)购自Biosearch Technologies,Inc。合成中使用30μL的柱床体积,将120nmol树脂加载到每个柱中。使用比率为400/122(体积/体积)的二氯甲烷(DCM)和甲醇(MeOH)的混合物来加载树脂。采用Dr.192寡核苷酸合成仪和标准硫代磷酸酯化学法合成寡核苷酸。 如下进行用于[DH]-[N2]-[H3-JH]寡核苷酸合成的分合法:首先,合成寡核苷酸前导序列,该序列含有随机选择的10个核苷酸序列(ATGCACAGTT;SEQ ID NO:___)、BsrDI识别位点(GCAATG)和2个碱基“重叠序列(overlap sequence)”(TG、AC、AG、CT或GA)。下面解释这些区段每一个的目的。在合成这18个核苷酸序列之后,合成DH区段;将约1g树脂(具有仍缀合的18个核苷酸区段)悬浮于20mL DCM/MeOH中。将约60μL所得浆液(120nmol)分配到278个寡核苷酸合成柱的每一个中。这278个柱用来合成表18中的278个DH区段,3’至上述18核苷酸区段。在合成之后,将278个DH区段如下合并:将树脂和玻璃料从柱中推出,收集到20mL注射筒(无活塞)中。然后每个柱用0.5mL MeOH洗涤,除去吸附在柱壁上的任何残留树脂。注射筒中的树脂用MeOH洗涤3次,使用低孔隙率玻璃纤维滤器以保留树脂。然后使树脂干燥后称重。 随后将含有278个DH区段的合并树脂(约1.36g)悬浮于约17mLDCM/MeOH中,将约60μL所得浆液分配到两套141个柱的每一个里面。然后按一式两份(共282个柱)合成表24和表25中列举的141种N2区段,3’至在第一步骤中合成的278个DH区段。然后如上所述,合并282个柱中的树脂,洗涤后干燥。 将从N2合成中所得的合并树脂(约1.35g)悬浮于约17mLDCM/MeOH中,将约60μL所得浆液分配到280个柱的每一个里面,代表了28个H3-JH区段每个合成10次。然后在10个柱中,合成28个IGHJ区段每一个的一部分(下面有更详细的说明),包括表20的H3-JH,3’至N2区段。切割最终的寡核苷酸,通过暴露在气态氨(85℃,2小时,60psi)中脱保护。 采用分合合成法来合成示例性CDRH3文库。然而,要了解的是,寡核苷酸合成的最新进展,也就是通过包括分开但无合并的合成方法能够以较高保真度合成较长寡核苷酸和产生文库的寡核苷酸,可以用于本发明的替代性实施方案。因此,本文所述的分合合成法,是获得文库寡核苷酸的一种可行方法,但并不是限制性的。合成本申请所述寡核苷酸的其它可行方法之一是使用三核苷酸。预期这可提高合成保真度,因为可减少或消除移码突变体。 实施例10:CDRH3和重链文库的构建 本实施例概述了用于产生本发明示例性CDRH3和重链文库的方法。采用两步骤方法来产生CDRH3文库。第一步包括一套编码尾和N1区段的载体的装配,第二步包括应用实施例9中概述的分合核酸合成方法产生编码DH、N2和H3-JH区段的寡核苷酸。然后,将用化学方法合成的寡核苷酸连接到载体上,产生基于本文所述编号体系的CDRH3残基95~102。这个CDRH3文库随后通过PCR扩增,重组到含有实施例1和2中所述的重链chassis变异体的多个载体中。使用编码实施例1的10个重链chassis的寡核苷酸作为模板,通过Mutagenesis(StratageneTM)产生CDRH1和CDRH2变异体。除重链chassis之外,大量载体含有IgG1的重链恒定区(即CH1、CH2和CH3),使得在CDRH3与含有重链chassis和恒定区的载体重组时形成全长重链。在这个示例性实施方案中,在酿酒酵母中进行重组以产生全长重链并表达全长重链。 为了产生包含重链和轻链的全长杂二聚体IgG,同样在酵母细胞中表达轻链蛋白。用于该实施方案中的轻链文库为κ轻链文库,其中VKCDR3使用简并寡核苷酸进行合成(参见实施例6.2)。由于编码轻链文库的寡核苷酸较短(与编码重链文库的相比),因此轻链CDR3寡核苷酸可采用寡核苷酸合成标准方法从头合成,无需用亚组分装配(正如重链CDR3合成一样)。一种或多种轻链可以在表达本发明文库的特定重链克隆的各酵母细胞内进行表达。一种或多种轻链已从附加型(例如质粒)载体和从酵母基因组的整合位点中进行了成功表达。 下面将进一步提供有关各个组分的装配以合成本发明CDRH3文库,以及随后示例性CDRH3文库与含有chassis和恒定区的载体结合的详情。在本发明的这个具体示例性实施方案中,该方法所包括的步骤的特征一般是:(i)424种编码尾和N1区的载体的合成;(ii)将编码[DH]-[N2]-[H3-JH]区段的寡核苷酸连接到这424种载体上;(iii)使在这些连接中所产生的载体中的CDRH3序列进行PCR扩增;和(iv)这些PCR扩增的CDRH3结构域同源重组到含有chassis和恒定区的酵母表达载体中。 实施例10.1:编码尾和N1区的载体的合成 本实施例说明424种编码CDRH3的尾和N1区的载体的合成法。在本发明的这个示例性实施方案中,尾限于G、D、E或无,N1区限于表24中所示的59个序列之一。如本说明书全文中所述,许多其它实施方案是可行的。 在所述方法的第一步中,构建了一种“基础载体”(pJM204,是一种pUC衍生的克隆载体),它含有:(i)编码所有28个IGHJ区段C-端部分所共有的2个氨基酸(SS)的核酸序列,和(ii)编码IgG1的一部分CH1恒定区的核酸序列。因此,基础载体含有编码可表示为下列序列的插入序列: [SS]-[CH1~], 其中SS为28个IGHJ区段C-端的共有部分,CH1~为IgG1的一部分CH1恒定区,即:ASTKGPSVFPLAPSSKSTSGGTAALGCLVKDYFPEPVTVSWNSGALTSGVHTFPAVLQSSGLYSLSSVVTVPSSSLG(SEQ ID NO:___)。 接下来,将424种不同寡核苷酸克隆到基础载体即[SS]-[CH1~]的编码区的上游(即5’)。通过标准方法合成了这424种寡核苷酸(每一种编码表5列举的17个重链chassis之一的C-端部分),加上4个示例性尾区段(G/D/E/-)之一,以及59个示例性N1区段(表24)之一。因此,这424种寡核苷酸编码可由下式表示的多个序列: [~FRM3]-[G/D/E/-]-[N1], 其中~FRM3表示表5中的17个重链chassis之一的FRM3区的C-端部分,G/D/E/-表示G、D、E或无,N1表示表24中列举的59个N1序列之一。如本说明书全文中所述,本发明不限于表5中列举的chassis、其CDRH1和CDRH2变异体(表8),用于该实施例中的4个示例性尾选项或表24中提供的59个N1区段。 分两组合成了由上述序列表示的寡核苷酸序列:一组含有与表5列举的17个重链chassis中的16个上相应区相同的~FRM3区,另一组含有与VH3-15上相应区相同的~FRM3区。在前一组中,对于~FRM3,使用编码DTAVYYCAR(SEQ ID NO:_)的寡核苷酸。在随后的PCR扩增中,将VH5-51的V残基改变成M,相当于VH5-51种系序列。在后一组(具有与VH3-15共有的序列),对于~FRM3,使用编码以下序列的较大寡核苷酸:AISGSGGSTYYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCAK(SEQ ID NO:___)。将编码~FRM3区的2种寡核苷酸的每一种与编码4个尾区之一(G/D/E/-)的寡核苷酸和59个N1区段之一配对,得到各~FRM3的共236种可能的组合(即1×4×59),或者当考虑两组~FRM3序列时,得到共472种可能的组合。然而,这些组合中的48个是丰余的,仅唯一呈现的这些序列用于本示例性CDRH3文库,得到424种编码[~FRM3]-[G/D/E/-]-[N1]序列的独特寡核苷酸。 如上所述,在将编码[~FRM3]-[G/D/E/-]-[N1]和[SS]-[CH1~]区段的寡核苷酸克隆至载体后,将另外的序列添加到载体上以促进在分合合成法期间所合成的编码[DH]-[N2]-[H3-JH]片段的寡核苷酸的后续插入。这些添加的序列包含编码选择标记蛋白的多核苷酸,两侧是II型限制性内切酶的识别位点,例如: [II型RS 1]-[选择标记蛋白]-[II型RS 2]。 在这个示例性实施方案中,选择标记蛋白为ccdB,且II型限制性内切酶识别位点对BsrDI和BbsI具有特异性。在某些大肠杆菌菌株中,ccdB蛋白是有毒的,因此当该基因存在时,阻止了这些细菌的生长。 具有基于VH3-23chassis的~FRM3区、D尾残基和长度为零的N1区段的212种载体之一的5’端的一个实例如下: VH3-23 ~~~~~~~~~~~~~~~~ A I S G S G G S T Y· 961 GCTATTAG TGGTAGTGGT GGTAGCACAT CGATAATC ACCATCACCA CCATCGTGTA VH3-23 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ·Y A D S V K G R F T I S R D N S K N T L Y L Q M N S 1041 ACTACGCAGA CTCCGTGAAG GGCCGGTTCA CCATCTCCAG AGACAATTCC AAGAACACGC TGTATCTGCA AATGAACAGC TGATGCGTCT GAGGCACTTC CCGGCCAAGT GGTAGAGGTC TCTGTTAAGG TTCTTGTGCG ACATAGACGT TTACTTGTCG VH3-23 ccdB ~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~ BsrDI ~~~~~~ L R A E D T A V Y Y C A K 1121 CTGAGAGCCG AGGACACGGC GGTGTACTAC TGCGCCAAGG ACCATTGCGC TTAGCCTAGG TTATATTCCC CAGAACATCA GACTCTCGGC TCCTGTGCCG CCACATGATG ACGCGGTTCC TGGTAACGCG AATCGGATCC AATATAAGGG GTCTTGTAGT 基于其它16种chassis之一的~FRM3区、D残基为尾和长度为零的N1区段的212种载体之一的一个实例如下: 构架3 ~~~~~~~~~~~~~~~~ D T A V Y Y C A R 961 GACACGGCG GTGTACTACT GCGCCAGAGA CTGTGCCGC CACATGATGA CGCGGTCTCT ccdB ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ BsrDI ~~~~~~ 1041 CCATTGCGCT TAGCCTAGGT TATATTCCCC AGAACATCAG GTTAATGGCG TTTTTGATGT CATTTTCGCG GTGGCTGAGA GGTAACGCGA ATCGGATCCA ATATAAGGGG TCTTGTAGTC CAATTACCGC AAAAACTACA GTAAAAGCGC CACCGACTCT ccdB ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1121 TCAGCCACTT CTTCCCCGAT AACGGAAACC GGCACACTGG CCATATCGGT GGTCATCATG CGCCAGCTTT CATCCCCGAT AGTCGGTGAA GAAGGGGCTA TTGCCTTTGG CCGTGTGACC GGTATAGCCA CCAGTAGTAC GCGGTCGAAA GTAGGGGCTA ccdB ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1201 ATGCACCACC GGGTAAAGTT CACGGGAGAC TTTATCTGAC AGCAGACGTG CACTGGCCAG GGGGATCACC ATCCGTCGCC TACGTGGTGG CCCATTTCAA GTGCCCTCTG AAATAGACTG TCGTCTGCAC GTGACCGGTC CCCCTAGTGG TAGGCAGCGG ccdB ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1281 CGGGCGTGTC AATAATATCA CTCTGTACAT CCACAAACAG ACGATAACGG CTCTCTCTTT TATAGGTGTA AACCTTAAAC GCCCGCACAG TTATTATAGT GAGACATGTA GGTGTTTGTC TGCTATTGCC GAGAGAGAAA ATATCCACAT TTGGAATTTG ccdB ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1361 TGCATTTCAC CAGCCCCTGT TCTCGTCAGC AAAAGAGCCG TTCATTTCAATAAACCGGGC GACCTCAGCC ATCCCTTCCT ACGTAAAGTG GTCGGGGACAAGAGCAGTCG TTTTCTCGGC AAGTAAAGTT ATTTGGCCCG CTGGAGTCGG TAGGGAAGGA ccdB ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1441 GATTTTCCGC TTTCCAGCGT TCGGCACGCA GACGACGGGC TTCATTCTGC ATGGTTGTGC TTACCAGACC GGAGATATTG CTAAAAGGCG AAAGGTCGCA AGCCGTGCGT CTGCTGCCCG AAGTAAGACG TACCAACACG AATGGTCTGG CCTCTATAAC ccdB ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1521 ACATCATATA TGCCTTGAGC AACTGATAGC TGTCGCTGTC AACTGTCACT GTAATACGCT GCTTCATAGC ATACCTCTTT TGTAGTATAT ACGGAACTCG TTGACTATCG ACAGCGACAG TTGACAGTGA CATTATGCGA CGAAGTATCG TATGGAGAAA ccdB ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1601 TTGACATACT TCGGGTATAC ATATCAGTAT ATATTCTTAT ACCGCAAAAA TCAGCGCGCA AATATGCATA CTGTTATCTG AACTGTATGA AGCCCATATG TATAGTCATA TATAAGAATA TGGCGTTTTT AGTCGCGCGT TTATACGTAT GACAATAGAC ccdB CH1 ~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~ BbsI ~~~~~~~ A S T K G P S V F P L A P S· 1681 GCTTTTAGTA AGCCGCCTAG GTCATCAGAA GACAACTCAG CTAGCACCAA GGGCCCATCG GTCTTTCCCC TGGCACCCTC CGAAAATCAT TCGGCGGATC CAGTAGTCTT CTGTTGAGTC GATCGTGGTT CCCGGGTAGC CAGAAAGGGG ACCGTGGGAG CH1 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ·S K S T S G G T A A L G C L V K D Y F P E P V T V S W· 1761 CTCCAAGAGC ACCTCTGGGG GCACAGCGGC CCTGGGCTGC CTGGTCAAGG ACTACTTCCC CGAACCGGTG ACGGTGTCGT GAGGTTCTCG TGGAGACCCC CGTGTCGCCG GGACCCGACG GACCAGTTCC TGATGAAGGG GCTTGGCCAC TGCCACAGCA CH1 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ·N S G A L T S G V H T F P A V L Q S S G L 1841 GGAACTCAGG CGCCCTGACC AGCGGCGTGC ACACCTTCCC GGCTGTCCTA CAGTCCTCAG GACTC CCTTGAGTCC GCGGGACTGG TCGCCGCACG TGTGGAAGGG CCGACAGGAT GTCAGGAGTC CTGAG 所有424种载体的序列都得到证实。在[DH]-[N2]-[H3-JH]片段克隆之前和之后,424种载体的内含物的示意图见图5。下面是含有得自VH3-23的FRM3区的424种载体之一的示例性序列。 引物EMK135 ~~~~~~~~~~~~~~~ VH3-23 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ A I S G S G G S T Y Y A D S V K G R F 561 GCTATTA GTGGTAGTGG TGGTAGCACA TACTACGCAG ACTCCGTGAA GGGCCGGTTC CGATAAT CACCATCACC ACCATCGTGT ATGATGCGTC TGAGGCACTT CCCGGCCAAG VH3-23 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ T I S R D N S K N T L Y L Q M N S L R A E D T A V Y Y· 641 ACCATCTCCA GAGACAATTC CAAGAACACG CTGTATCTGC AAATGAACAG CCTGAGAGCC GAGGACACGG CGGTGTACTA TGGTAGAGGT CTCTGTTAAG GTTCTTGTGC GACATAGACG TTTACTTGTC GGACTCTCGG CTCCTGTGCC GCCACATGAT VH3-23 D J1 ~~~~~~~~ ~~~~~~~~~~~~~~~~~ ~~~~~~~~~~ JH6 ~~~~~~~~~~ N1_9 N2 ~~~~~~~~~ ~~~~~~~ ·C A K D A G G Y Y Y G S G S Y Y N A A A Y Y Y Y Y G M· 721 CTGCGCCAAG GACGCCGGAG GATATTATTA TGGGTCAGGA AGCTATTACA ACGCTGCGGC TTACTACTAC TATTATGGCA GACGCGGTTC CTGCGGCCTC CTATAATAAT ACCCAGTCCT TCGATAATGT TGCGACGCCG AATGATGATG ATAATACCGT JH6 ~~~~~~~~~~~~~~~~~~~~~~ J1 CH1 ~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~ NheI ~~~~~~ ·D V W G Q G T T V T V S S A S T K G P S V F P L A P 801 TGGACGTGTG GGGACAAGGT ACAACAGTCA CCGTCTCCTC AGCTAGCACC AAGGGCCCAT CGGTCTTTCC CCTGGCACCC ACCTGCACAC CCCTGTTCCA TGTTGTCAGT GGCAGAGGAG TCGATCGTGG TTCCCGGGTA GCCAGAAAGG GGACCGTGGG CH1 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ S S K S T S G G T A A L G C L V K D Y F P E P V T V S· 881 TCCTCCAAGA GCACCTCTGG GGGCACAGCG GCCCTGGGCT GCCTGGTCAA GGACTACTTC CCCGAACCGG TGACGGTGTC AGGAGGTTCT CGTGGAGACC CCCGTGTCGC CGGGACCCGA CGGACCAGTT CCTGATGAAG GGGCTTGGCC ACTGCCACAG EK137 CH1引物 ~~~~~~~~~~~~~~~~ CH1 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ·W N S G A L T S G V H T F P A V L Q S S G L Y S L S S· 961 GTGGAACTCA GGCGCCCTGA CCAGCGGCGT GCACACCTTC CCGGCTGTCC TACAGTCCTC AGGACTCTAC TCCCTCAGCA CACCTTGAGT CCGCGGGACT GGTCGCCGCA CGTGTGGAAG GGCCGACAGG ATGTCAGGAG TCCTGAGATG AGGGAGTCGT CH1 ~~~~~~~~~~~~~~~~~~~~ · V V T V P S S S L G 1041 GCGTGGTGAC CGTGCCCTCC AGCAGCTTGG GC CGCACCACTG GCACGGGAGG TCGTCGAACC CG 实施例10.2:编码DH、N2、H3-JH区段的寡核苷酸克隆至含有尾和N1区段的载体中 本实施例描述了将编码[D]-[N2]-[H3-JH]区段(通过分合合成法制备;实施例9)的寡核苷酸克隆到实施例10.1中所产生的424种载体中。总的来讲,通过分合合成法产生的[DH]-[N2]-[H3-JH]寡核苷酸通过PCR进行了扩增,以产生双链寡核苷酸,引入限制位点(即BsrDI和BbsI)并完成在分合合成法中未合成的IGHJ区段的3’部分,所述限制位点可产生与载体上的突出端互补的突出端。将扩增的寡核苷酸用限制性内切酶BsrDI(在邻近DH区段处切割)和BbsI(接近JH区段末端处切割)进行消化。然后将切割的寡核苷酸纯化后,连接至之前已用BsrDI和BbsI消化的424种载体上。在连接之后,将反应物纯化,乙醇沉淀后,重新溶解。 下面对用于在分合合成法中合成的[DH]-[N2]-[H3-JH]寡核苷酸之一的该方法进行了说明。下列寡核苷酸(SEQ ID NO:__)是在分合合成期间合成的一种寡核苷酸: 1 ATGCACAGTTGCAATGTATTACTATGGATCTGGTTCTTACTATAAT 51TATTATTACTACTATGGTATGGACGTATGGGGGCAAGGGACC 99 头10个核苷酸(ATGCACAGTT;SEQ ID NO:___)表示在下面的PCR扩增步骤中增加至20个碱基对的随机序列部分。序列的这个部分提高BsrDI消化的效率,并有利于寡核苷酸的下游纯化。 核苷酸11-16(加下划线)表示BsrDI识别位点。合成了在该位点之后的二碱基重叠序列(在本实施例中为TG;粗体字),其与所述424种载体中的某一些用BsrDI(即取决于具体载体的尾/N1区的组成)消化产生的二碱基突出端互补。如下所述,其它寡核苷酸含有不同的二碱基突出端。 二碱基重叠后面是DH基因区段(核苷酸19-48),在这个实施例中,后面是编码10个残基DH区段YYYGSGSYYN(即表17的IGHD3-10_2;SEQ ID NO:___)的30bp序列(TATTACTATGGATCTGGTTCTTACTATAAT,SEQ ID NO:___)。 在这个实施例中,编码DH区段的寡核苷酸区后面是9个碱基区(GTGGGCGGA;粗体字;核苷酸49-57),编码N2区段(在这个情况下为VGG;表24)。 该示例性寡核苷酸的其余部分表示在分合合成法中合成的JH区段部分(TATTATTACTACTATGGTATGGACGTATGGGGGCAAGGGACC;SEQ ID NO:___;核苷酸58-99;加下划线),编码序列YYYYYYGMDVWGQGT(表20;SEQ ID NO:___)。在随后下述PCR扩增中加入IGHJ区段的其余部分。 在将分合合成的寡核苷酸从树脂上切割后,脱去保护,将它们用作用于PCR反应的模板,该PCR反应将另外随机选择的10个核苷酸(例如GACGAGCTTC;SEQ ID NO:_)加到5’端,将IGHJ区段的其余部分加上BbsI限制位点加到3’端。这些添加有利于将[DH]-[N2]-[JH]寡核苷酸克隆到424种载体上。如上所述(实施例9),分合合成法的最后一轮包括280个柱:10个柱用于编码28个H3-JH区段之一的寡核苷酸的每一种。根据其H3-JH区段的同一性,将从这280个柱中得到的寡核苷酸产物合并成共28个合并物。然后在5个独立的PCR反应中,使用5种正向引物和1种反向引物,使这28个合并物的每一个进行扩增,所述正向引物的每一种编码不同的二碱基重叠(在DH区段之前;参见上文),所述反向引物具有待扩增的相当于H3-JH区段的家族来源的序列。这11种引物的序列如下: 正向引物 AC GACGAGCTTCAATGCACAGTTGCAATGAC (SEQ ID NO:__) AG GACGAGCTTCAATGCACAGTTGCAATGAG (SEQ ID NO:__) CT GACGAGCTTCAATGCACAGTTGCAATGCT (SEQ ID NO:__) GA GACGAGCTTCAATGCACAGTTGCAATGGA (SEQ ID NO:__) TG GACGAGCTTCAATGCACAGTTGCAATGTG (SEQ ID NO:__) 反向引物 JH1 TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCAAGGTGCCCTGGCCCCA(SEQ ID NO:__) JH2 TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACAGTGACCAAGGTGCCACGGCCCCA(SEQ ID NO:__) JH3 TGCATCAGTGCGACTAACGGAAGACTCTGAAGAGACGGTGACCATTGTCCCTTGGCCCCA(SEQ ID NO:__) JH4 TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCAAGGTTCCTTGGCCCCA(SEQ ID NO:__) JH5 TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCAAGGTTCCCTGGCCCCA(SEQ ID NO:__) JH6 TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCGTGGTCCCTTGCCCCCA(SEQ ID NO:__) 在标准条件下,使用Taq聚合酶进行扩增。对寡核苷酸进行8个循环的扩增,以保持呈现出不同长度的序列。解链在95℃下进行30秒钟,在58℃下退火,在72℃下的延伸时间为15秒钟。 使用上文列举的示例性分合法衍生的寡核苷酸作为实例,用TG引物和JH6引物进行PCR扩增,其中引物的退火部分用下划线表示: TG GACGAGCTTCAATGCACAGTTGCAATGTG(SEQ ID NO:__) JH6 TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCGTGGTCCCTTGCCCCCA(SEQ ID NO:__) 作为退火部分5’端的TG引物部分包括上述随机的10个碱基对。作为退火部分5’端的JH6引物部分包括JH6区段的其余部分和BbsI限制位点。在反应中形成下列PCR产物(SEQ ID NO:__)(所添加的序列用下划线表示): GACGAGCTTCATGCACAGTTGCAATGTGTATTACTATGGATCTGGTTCTTACTATAATGTGGGCGGATATTATTACTACTATGGTATGGACGTATGGGGGCAAGGGACCACGGTCACCGTCTCCTCAGAGTCTTCCGTTAGTCGCACTGATGCAG 然后,根据用于反应的正向引物,将各个反应的PCR产物合并成5种合并物(pool),产生在BsrDI消化后得到相同二碱基突出端的序列集。然后,PCR产物的5种合并物用BsRDI和BbsI消化(100μg PCR产物;1mL反应体积;200U BbsI;100U BsrDI;2小时;37℃;NEB缓冲液2)。经消化的寡核苷酸用苯酚/氯仿抽提两次,乙醇沉淀,短暂风干,在4℃下静置过夜后,用300μL TE缓冲液重新溶解。 然后,将在之前的各小节中所描述的424种载体中的每一种用BsrDI和BbsI消化,每种载体产生二碱基突出端,该突出端与PCR产物的5种合并物之一所含的突出端互补。因此,将限制消化PCR产物的5种合并物之一与424种载体的每一种连接,这取决于其相容末端,共计424种连接。 实施例10.3:得自424种载体的CDRH3的PCR扩增 本实施例描述了得自上述424种载体的CDRH3区的PCR扩增。如上所述,424种载体呈2组:一组用于VH3-23家族,具有以CAK结尾的FRM3(212种载体),另一种用于其它16个chassis,具有以CAR结尾的FRM3(212种载体)。使用识别质粒的一部分CH1区的反向引物(EK137;参见表41)和VH3-23特异性引物EK135(参见表41),使基于VH3-23的载体中的CDRH3进行扩增。使用相同的反向引物(EK137)和表41中所示5种FRM3特异性引物(EK139、EK140、EK141、EK143和EK144)中的每一种,使得自具有以CAR结尾的FRM3的212种载体的CDRH3进行扩增。因此,进行了212次VH3-23扩增和212×5次FRM3PCR反应,共计1,272次反应。使用EK 133正向引物,使得自212种基于VH3-23的载体的CDRH3进行了另外的PCR反应扩增,使得在制备这些chassis CAK而不是原CAR(VH3-23*)的最后3个氨基酸同时,将扩增子克隆到其它5个VH3家族成员chassis中。用于各个反应的引物见表41。 表41.用于CDRH3序列扩增的引物 引物 编号 相容的 Chassis 引物序列 SEQ ID NO EK135 VH3-23 CACATACTACGCAGACTCCGTG EK133 VH3-48; VH3-7; VH3-15; VH3-30; VH3-33; VH3-23* CAAATGAACAGCCTGAGAGCCGAGGACACGGCGGTGTACTACTG EK139 VH4-B; VH4-31; VH4-34; VH4-39; VH4-59; VH4-61 AAGCTGAGTTCTGTGACCGCCGCAGACACGGCGGTGTACTACTG EK140 VH1-46; VH1-69 GAGCTGAGCAGCCTGAGATCTGAGGACACGGCGGTGTACTACTG EK141 VH1-2 GAGCTGAGCAGGCTGAGATCTGACGACACGGCGGTGTACTACTG EK143 VH5-51 CAGTGGAGCAGCCTGAAGGCCTCGGACACGGCGATGTACTACTG EK144 VH1-18 GAGCTGAGGAGCCTGAGATCTGACGACACGGCGGTGTACTACTG EK137 CH1 反向引物 GTAGGACAGCCGGGAAGG 实施例10.4:PCR扩增的CDRH3区同源重组到重链Chassis中 在扩增之后,按照反应产物最终将克隆到其中的相应VH chassis,将反应产物合并。表42列举了这些合并物,其中在最后2栏提供的每个合并物的PCR引物用来获得CDRH3序列。 表42.用于扩增424种载体的CDRH3区的PCR引物 合并物编号(任意) HC Chassis靶标 5’引物 3’引物 1 1-46 EK140 EK137 1-69 EK140 EK137 2 1-2 EK141 EK137 3 1-18 EK144 EK137 4 4-B EK139 EK137 4-31 EK139 EK137 4-342 EK139 EK137 4-39 EK139 EK137 4-59 EK139 EK137 4-61 EK139 EK137 5 5-51 EK143 EK137 6 3-151 EK133 EK137 3-7 EK133 EK137 3-33 EK133 EK137 3-33 EK133 EK137 3-48 EK133 EK137 合并物编号(任意) HC Chassis靶标 5’引物 3’引物 7 3-23 EMK135 EK137 8 3-23* EK133 EK137 *在制备这些chassis CAK而不是原CAR的最后3个氨基酸的同时,使扩增子克隆到其它5个VH3家族成员chassis中(即不是VH3-23)。 1如表5中所述,将VH3-15中的原KT序列突变成RA,原TT突变成AR。 2如表5中所述,从这个chassis的CDRH2中去除用于N-联糖基化的潜在位点。 按照上文中概述的方法,在合并扩增的CDRH3区之后,将重链chassis表达载体按照其来源合并后切割,以产生用于与扩增的CDRH3进行同源重组的“缺口”。图6表示在与CDRH3重组之前重链载体的结构示意图。在本发明的这个示例性实施方案中,总共有编码重链chassis和IgG1恒定区但无CDRH3的152种载体。这152种载体代表了17个独立的可变重链基因家族(表5;实施例1和实施例2)。表5所述的重链chassis序列和表8所述的CDRH1/H2变异体代表了家族中的15个(即150种载体)。VH 3-30与VH3-33仅相差一个氨基酸;因此,VH3-30包括在VH3-33变异体合并物中。在这个示例性实施方案中,将4-34VH家族成员保持独立于所有其它家族,文库中没有包括其变异体。因此,由152种载体产生了共16种合并物,代表了17个重链chassis。 载体合并物用限制性内切酶SfiI消化,该酶切割在载体中位于可变结构域的FRM3终点和CH1起点之间的2个位点。 VH3-48 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ S V K G R F T I S R D N A K N S L Y L Q M N S L R A E · 2801 CTCTGTGAAG GGCCGATTCA CCATCTCCAG AGACAATGCC AAGAACTCAC TGTATCTGCA AATGAACAGC CTGAGAGCTG GAGACACTTC CCGGCTAAGT GGTAGAGGTC TCTGTTACGG TTCTTGAGTG ACATAGACGT TTACTTGTCG GACTCTCGAC Constant DTAVYYCAR ~~~~~~~~~~~~~~~~ VH3-48 VTVSS所有J所共有 ~~ ~~~~~ SfiI SfiI ~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~ · D T A V Y Y C A R V T · 2881 AGGACACGGC GGTGTACTAC TGCGCCAGAG GCCAATAGGG CCAACTATAA CAGGGGTACC CCGGCCAATA AGGCCGTCAC TCCTGTGCCG CCACATGATG ACGCGGTCTC CGGTTATCCC GGTTGATATT GTCCCCATGG GGCCGGTTAT TCCGGCAGTG VTVSS common to all J ~~~~~~~~~~~ hIgGlm17,1 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ NheI ~~~~~~ · V S S A S T K G P S V F P L A P S S K S T S G G T A 2961 CGTCTCCTCA GCTAGCACCA AGGGCCCATC GGTCTTCCCC CTGGCACCCT CCTCCAAGAG CACCTCTGGG GGCACAGCGG GCAGAGGAGT CGATCGTGGT TCCCGGGTAG CCAGAAGGGG GACCGTGGGA GGAGGTTCTC GTGGAGACCC CCGTGTCGCC 然后将有缺口的载体合并物与适当的(即相容的)CDRH3扩增子合并物相混合,得到如上所述50∶1的插入序列与载体比。然后将混合物转化到电感受态(electrocompetent)酵母(酿酒酵母)中,所述酵母已含有质粒或包含VK轻链文库的整合基因(见下文)。通过将稀释的经电穿孔的细胞接种到选择性琼脂平板上,测定出文库多样性程度。在本发明的这个示例性实施方案中,琼脂平板缺乏色氨酸,且酵母缺乏内源性合成色氨酸的能力。这个缺陷通过包括TRP标记的重链chassis质粒来纠正,使得接受质粒并使之与CDRH3插入序列重组的任何酵母都可以生长。然后,使电穿孔细胞在缺乏色氨酸的液体培养基中生长超过约100倍。将等分的文库在50%甘油中冷冻后,保存在-80℃下。在此阶段获得的每个转化体均代表一个可表达完全IgG分子的克隆。图5提供CDRH3整合到重链载体和随附序列上的示意图。 然后根据如表43中所述的重链家族成员的近似呈现,得到重链文库合并物。 表43.用于设计文库的数据集、预期(设计)文库和实际(实测)文库中的重链Chassis的出现率 Chassis 数据集中的相对 出现率(1) 预期值(2) 观察值(3) VH1-2 5.1 6.0 6.4 VH1-18 3.4 3.7 3.8 VH1-46 3.4 5.2 4.7 VH1-69 8.0 8.0 10.7 VH3-7 3.6 6.1 4.5 VH3-15 1.9 6.9 3.6 VH3-23 11.0 13.2 17.1 VH3-33/30 13.1 12.5 6.6 VH3-48 2.9 6.3 7.5 VH4-31 3.4 2.5 4.3 Chassis 数据集中的相对 出现率(1) 预期值(2) 观察值(3) VH4-34 17.2 7.0 4.7 VH4-39 8.7 3.9 3.0 VH4-59 7.0 7.8 9.2 VH4-61 3.2 1.9 2.4 VH4-B 1.0 1.4 0.8 VH5-51 7.2 7.7 10.5 (1)如实施例1中所述,这17种序列占用来代表人库的人VH序列整个样品的约76%。 (2)基于合并的各chassis类型的子文库。 (3)得自文库的531种序列的使用率;参见图20。 实施例10.5:VH3-23中的K94R突变以及VH3-33、VH3-30、VH3-7和VH3-48中的R94K突变 本实施例描述了在VH3-23、VH3-33、VH3-30、VH3-7和VH3-48中位置94的突变。在VH3-23中,将这个位置上的氨基酸由K突变为R。在VH3-33、VH3-30、VH3-7和VH3-48中,将这个氨基酸由R突变为K。在VH3-32中,将这个位置由K突变为R。产生这些突变的目的是提高文库中CDRH3呈现的多样性。例如,在天然存在的VH3-23序列中,约90%在位置94上具有K,而约10%位置为R。通过进行这些改变,CDRH3呈现的多样性增加,文库的总体多样性也是如此。 使用424种载体作为模板进行扩增。对于K94R突变,含有序列DTAVYYCAK(VH3-23)的载体用K被变为R的PCR引物进行扩增,并且加入5’尾用于与VH3-48、VH3-33、VH-30和VH3-7进行同源重组。3-48上的“T”碱基不改变所编码的氨基酸,因此,具有T::C错配的相同引物仍允许同源重组到3-48chassis中。 此外,得自由424种载体含有DTAVYYCAR序列的扩增产物(按照上述方法产生)可以同源重组到VH3-23(CAR)载体中,在该构架将R变为K,因此,进一步增加CDRH3呈现在这个chassis中的多样性。 240 294 VH3-48(240) TCTGCAAATGAACAGCCTGAGAGCTGAGGACACGGCGGTGTACTACTGCGCCAGA VH3-33/30(240)TCTGCAAATGAACAGCCTGAGAGCCGAGGACACGGCGGTGTACTACTGCGCCAGA VH3-7(240) TCTGCAAATGAACAGCCTGAGAGCCGAGGACACGGCGGTGTACTACTGCGCCAGA VH3-23(240) TCTGCAAATGAACAGCCTGAGAGCCGAGGACACGGCGGTGTACTACTGCGCCAAG 实施例11:VK文库构建 本实施例描述了本发明VK文库的构建。本文所述示例性VK文库相当于实施例6.2中所述的复杂度约105的VKCDR3文库。如实施例6和本申请全文中所述,其它VK文库都在本发明范围内,Vλ文库也是如此。 合成了10种VK chassis(表11),它不含VKCDR3,但在VKCDR3的位置上却代以2个SfiI限制位点,同重链载体一样。κ恒定区在SfiI限制位点之后。图8表示在与CDRL3重组之前轻链载体的结构示意图。 然后按照实施例6.2中所述方法,使用简并寡核苷酸(表33),合成了10种VKCDR寡核苷酸文库。然后使寡核苷酸作为独立的合并物进行PCR扩增,以将其制成双链,并加入另外的核苷酸,所述核苷酸是用于与含有VK chassis和恒定区序列的有缺口的(通过SfiI)载体进行有效同源重组所需要的。在本发明这个实施方案中,VKCDR3合并物呈长度为8、9和10个的氨基酸,将其在PCR后以1∶8∶1的比例混合。然后通过同源重组,使合并物克隆到相应的由SfiI切成缺口的VK chassis中,正如上文给出的CDRH3区中所述一样。CDRL3整合到轻链载体和随附序列的示意图见图9。 然后根据存在于循环的B细胞合并物中的VK家族成员的近似呈现,产生κ轻链文库合并物。所使用的10种κ可变区和最终文库合并物中的相对频率见表44。 表44.在用于设计文库的数据集、预期(设计)文库和实际(实测)文库中VK Chassis的出现率 Chassis 数据集中的相对出现率(1) 预期值(2) 实测值(3) VK1-5 8.6 7.1 5.8 VK1-12 4.0 3.6 3.5 VK1-27 3.3 3.6 8.1 VK1-33 5.3 7.1 3.5 VK1-39 18.5 21.4 17.4 VK2-28 7.7 7.1 5.8 VK3-11 10.9 10.7 20.9 VK3-15 6.6 7.1 4.7 VK3-20 24.5 21.4 18.6 VK4-1 10.4 10.7 11.6 (1)如实施例3中所述,在所研究的VK序列的完整数据集中,这10种chassis占出现率的约80%。 (2)对得自第2栏的数据的比率四舍五入,然后归一化用于实际实验设置。相应的取比率整数,对于VK1-39和VK3-20为6,对于VK3-11和VK4-1为3,对于VK-15、VK1-33、VK2-28和VK3-15为2,对于VK1-12和VK1-27为1。 (3)得自文库的86种序列集中的Chassis使用率;同样参见图22。 实施例12:示例性文库的表征 本实施例说明了按照本文所述方法构建的本发明示例性文库的特征。 实施例12.1.重链的表征 为了表征分合合成法的产物,随机选择含有[尾]-[N1]-[DH]-[N2]-[H3-JH]产物的424种载体中的10种并转化至大肠杆菌。分合产物的理论多样性约为1.1×106(即278×141×28)。由转化中选出96个菌落,产生每个克隆的正向序列和反向序列。96个测序反应中,所得的90个序列从中可鉴定出CDRH3区,这些序列中约70%与文库中的设计序列匹配。与理论分布(基于设计)相比较,得自10种载体的经测序的CDRH3区段的长度分布见图10。由10种载体中获得的各DH、N2和H3-JH区段的长度分布见图11-13。 一旦文库(包含在与设计匹配的载体中)的CDRH3组分的长度分布得到证实,则对呈现在按照实施例10.4中所述方法转化的酵母中的CDRH3结构域和重链家族呈现进行表征。获得超过500种以上的单次通过(single-pass)序列。在这些当中,531种产生足够的序列信息以鉴定重链chassis,291种产生足够的序列信息以表征CDRH3。按照本文所述的同源重组方法,使这些CDRH3结构域与重链chassis和恒定区整合。与理论长度分布相比较,得自291种序列的CDRH3结构域的长度分布见图14。平均理论长度为14.4±4个氨基酸,而平均实测长度为14.3±3个氨基酸。与理论值相比较的CDRH3各个部分的实测长度见图15-18。图19表示在291种序列中鉴定的JH区段的家族来源,图20表示文库的chassis的16种的呈现。这些序列中未呈现VH3-15chassis。稍后将含有VH3-15chassis并具有CDRH3多样性的酵母转化体导入所需组成的文库中来校正。 实施例12.2.轻链的表征 在酵母通过实施例10.4所述方法进行转化之后,测定了得自实施例6.2所述VKCDR3文库的CDRL3组分的长度分布。人序列文库的86种序列的CDRL3长度与设计序列的CDRL3长度的比较见图21。图22表示得自选自文库的86种序列的轻链chassis的呈现。约91%的CDRL3序列与设计的精确匹配,约9%的相差一个氨基酸。 实施例13:设计的CDRH3文库的组成的表征 本实施例提供有关示例性文库的CDRH3结构域的组成的数据,以及与本领域其它文库的比较。更准确地讲,本实施例提供对出现在文库的CDRH3结构域上的400种可能的氨基酸对(20种氨基酸×20种氨基酸)的出现率所作的分析。通过检查CDRH3中i残基的最近邻(i-i+1;指定为IP1)、次最近邻(i-i+2;指定为IP2)和第三最近邻(i-i+3;指定为IP3),用计算机计算出这些氨基酸对的发生率。本领域之前已知的文库(例如Knappik等,J.Mol.Biol.,2000,296:57;Sidhu等,J.Mol.Biol.,2004,338:299;以及Lee等,J.Mol.Biol.2004,340:1073,各文献通过引用其全部予以结合)只考虑了在整个CDRH3的中心都保持相同组成的同时,CDRH3内个别位置上20种氨基酸的出现率,没有本文考虑的成对出现率。实际上,按照Sidhu等(J.Mol.Biol.,2004,338:299,通过引用其全部予以结合),“在CDR-H3中,对某些残基类型有一些偏倚,但是所有20种天然氨基酸残基都以可观的程度出现,在环的中心部分有非常少的位置特异性偏倚”。因此,本发明预料不到地首次提出这样的认识,即当考虑上文引述的氨基酸对的出现率时,CDRH3环的中心部分里面的确存在位置特异性偏倚。本实施例说明,与本领域的其它文库相比,本文所述文库更真实地再现了存在人序列中的这些氨基酸对的出现率。因此,本文所述文库的组成可视为比本领域的其它文库更接近“人”的组成。 为了研究CDRH3结构域的成对组成,选出了始于位置95上的一部分CDRH3。为了与Knappik等人和Lee等人提供的数据进行比较,忽略了所分析的CDRH3中每一种的最后5个残基。因此,为了这项分析,i-i+X(X=1~3)对的两个成员必须落入始于位置95并止于(但包括)自CDRH3C-端起的第6个残基的区域内。所分析的部分称为“中心环”(参见定义)。 为了估计本发明代表性文库的对分布,采用了抽样法。通过依次随机选择424种尾加上N1区段之一、278种DH区段之一、141种N2区段之一和28种JH区段之一(后者被截短至仅包括95~102KabatCDRH3),产生了多个序列。重复该方法10,000次,得到10,000个序列的样本。通过选择用于随机数发生的不同种子(seed),还得到其它10,000个序列的独立样本,观察到对分布的结果几乎相同。对于本文提供的计算结果,使用了第三种更大的样本,即50,000个序列。同样的方法用于文库的替代性实施方案(N1-141),借此从1068种尾+N1区段(在从2乘以4乘以141即1128种可能组合中排除丰余序列后得出)选出第一区段。 根据Knappik等人的图7a(第71页)中提供的出现百分比,确定了Knappik等人的成对组成。下表45中重复提供相关数据。 表45.Knappik等人的CDRH3(来自Knappik等人的图7a)的CDRH3位置95~100(相当于本发明文库的位置95~99B)的组成 氨基酸 计划(%) 实测(%) A 4.1 3.0 C 1.0 1.0 D 4.1 4.2 E 4.1 2.3 F 4.1 4.9 G 15.0 10.8 H 4.1 4.6 I 4.1 4.5 K 4.1 2.9 L 4.1 6.6 氨基酸 计划(%) 实测(%) M 4.1 3.3 N 4.1 4.5 P 4.1 4.8 Q 4.1 2.9 R 4.1 4.1 S 4.1 5.6 T 4.1 4.5 V 4.1 3.7 W 4.1 2.0 Y 15.0 19.8 根据Lee等人表5中所示文库,确定了Lee等人的成对组成,其中相当于来自本发明以及自来Knappik等人所分析的CDRH3区的位置,由Lee等人的“XYZ”密码子组成。Lee等人的XYZ密码子是具有下列碱基组成的简并密码子: 位置1(X):19%A、17%C、38%G和26%T; 位置2(Y):34%A、18%C、31%G和17%T;和 位置3(Z):24%G和76%T。 当排除约2%的编码终止密码子的密码子(这在功能性表达人CDRH3序列中不存在),且将百分比再归一化至100%时,可从Lee等人(表46)的XYZ密码子的组成推导出下列的氨基酸呈现。 表46.Lee等人基于简并XYZ密码子组成的CDRH3组成。 类型 百分比 类型 百分比 A 6.99% M 0.79% C 6.26% N 5.02% D 10.03% P 3.13% E 3.17% Q 1.42% 类型 百分比 类型 百分比 F 3.43% R 6.83% G 12.04% S 9.35% H 4.49% T 3.49% I 2.51% V 6.60% K 1.58% W 1.98% L 4.04% Y 6.86% 在IP1、IP2和IP3构形的每一个中,可通过将Knappik等人和Lee等人的各个氨基酸组成相乘,来计算400种氨基酸对每一种的出现率。例如,对于Knappik等人的文库,用15%乘以4.1%计算YS对的出现率,得到6.1%;注意,SY对的出现率应相同。同样,对于Lee等人的基于XYZ密码子的文库,YS对的出现率可以是6.86%(Y)乘以9.35%(S),得到6.4%;对于SY同样相同。 对于人CDRH3序列,忽略Kabat定义中的最后5个氨基酸,来进行计算。通过忽略了人CDRH3 C-端的5个氨基酸,可使这些序列与Lee等人的基于XYZ密码子的序列进行比较。虽然Lee等人也提供了具有“NNK”和“NNS”密码子的本发明文库,但是这些文库的成对组成与人CDRH3成对组成偏离得甚至更远。由Lee等人设计的XYZ密码子在某种程度上重复了CDRH3中观察到的个别氨基酸类型的偏倚。 在应用上述方法得到样本序列后,将同一方法用于本发明的文库。虽然有可能用文库中的所有序列进行这些计算,但是10,000~20,000个成员的独立随机样本给出无法区分的结果。因此,本文所报告的数值来自50,000个成员的样本。 分别制作了IP1、IP2和IP3的3个表(表47、表48和表49)。从400对中选出20种最频繁出现的包括在表中。大约1,000种人序列(Lee等,2006)的样本表示为“免疫前(Preimmune)”,大约2,500种序列(Jackson等,2007)的样本表示为“Humabs”,后者的更亲和力成熟的子集表示为“成熟(Matured)”,它不包括所有免疫前集。本领域的合成文库表示为HuCAL(Knappik等,2000)和XYZ(Lee等,e 2004)。包括以下2个本发明的代表性文库:LUA-59包括59种N1区段、278种DH区段、141种N2区段和28种H3-JH区段(参见上述实施例);LUA-141包括141种N1区段、278种DH区段、141种N2区段和28种H3-JH区段(参见上述实施例)。从每种相应文库的数据集中排除了由N1和尾序列组合产生的丰余性。在某些实施方案中,还可根据400种氨基酸对(特别是表47-49的氨基酸对)中任一种的出现百分比来限定本发明。在某些实施方案中,可根据这些氨基酸对中的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种以上来限定本发明。在本发明的某些实施方案中,某些氨基酸对的出现百分比可落入下表中由“LUA-”(下边界)和“LUA+”(上边界)规定的范围内。在本发明的一些实施方案中,任何氨基酸对出现百分比的下边界可约为0.1、0.25、0.5、0.75、1、1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.25、3.5、3.75、4、4.25、4.5、4.75和5。在本发明的一些实施方案中,任何氨基酸对出现百分比的上边界可约为0.1、0.25、0.5、0.75、1、1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.25、3.5、3.75、4、4.25、4.5、4.75、5、5.25、5.5、5.75、6、6.25、6.5、6.75、7、7.25、7.5、7.75和8。按照本发明,所列举的任一下边界可与所列举的任一上边界组合以确立范围,反之亦然。 在本实施例中提供的分析,证实了比起本领域已知的其它文库,本发明文库的组成更接近地模拟人序列的组成。本领域的合成文库从本质上讲都无法以氨基酸对百分比的水平,再现实际人CDRH3序列的“中心环”部分的组成。本发明的文库具有更复杂的成对组成,它接近地再现实际人CDRH3序列中观察到的组成。可通过例如改变用来设计CDRH3文库的区段的组成,使这种再现的确切程度相对于实际人CDRH3序列的目标集最优化。此外,还可能利用这些度量来以计算的方式设计精确模拟存在于人序列的成对组成发生率的文库。 实施例14:示例性文库的信息量 量化从本质上讲比其它文库或序列集合体可能更复杂或“较不随机”的某些文库或序列集合体的观察结果的一种方法是应用信息论(Shannon,Bell Sys.Tech.J.,1984,27:379;Martin等,Bioinformatics,2005,21:4116;Weiss等,J.Theor.Biol.,2000,206:379,各文献通过引用其全部予以结合)。例如,可设计某种度量来量化具有固定氨基酸的位置与代表比所有20种氨基酸可能以相等概率出现的位置较不“随机”的事实。中间情况进而应导致这类度量的中间值。按照信息论,这种度量可用下式表示: 在这里,fi为出现率的归一化频率,i可为氨基酸类型(其中事件N可等于20)。当所有fi除1个以外为0时,I的值为0。在其它任一事件中I的值可能较小,即为负数,且当所有fi值相同并等于N时,达到最小值。对于氨基酸事件,N为20,所得到的I值可为-4.322。因为I被限定在基数2的对数内,I的单位为比特。 在单一位置水平上,HuCAL和XYZ文库的I值可分别从表45和表46中推算出,并且等于-4.08和-4.06。表50提供出现在之前介绍的带有上文定义的“中心环”的本发明非限制性示例性文库和人序列集相应的单个残基频率。 表50.中心环中的氨基酸类型频率 类型 免疫前 Humabs 成熟 LUA-59 LUA-141 A 5.46 5.51 5.39 5.71 6.06 C 1.88 1.46 1.22 1.33 1.34 D 7.70 7.51 7.38 4.76 5.23 E 2.40 2.90 3.28 3.99 4.68 F 2.29 2.60 2.81 1.76 2.17 G 14.86 15.42 15.82 24.90 18.85 H 1.46 1.79 2.01 0.20 0.67 I 3.71 3.26 2.99 3.99 4.34 类型 免疫前 Humabs 成熟 LUA-59 LUA-141 K 1.06 1.27 1.44 0.21 0.67 L 4.48 4.84 5.16 4.12 4.54 M 1.18 1.03 0.93 0.94 1.03 N 1.81 2.43 2.84 0.41 0.65 P 4.12 4.10 4.13 5.68 3.96 Q 1.60 1.77 1.95 0.21 0.68 R 5.05 5.90 6.41 3.35 4.11 S 12.61 11.83 11.37 11.18 12.77 T 4.59 5.11 5.47 4.36 4.95 V 6.21 5.55 5.12 8.13 7.67 W 2.79 2.91 3.07 1.57 1.98 Y 14.74 12.81 11.24 13.20 13.63 因此,对于免疫前、人、成熟、LUA-59和LUA-141集,通过上面给出的方程式计算的这些集的信息量可分别为-3.88、-3.93、-3.96、-3.56和-3.75。由于频率与完全一致(对于20种的每一种为5%)相差较大,因此数值往往较大,即较少负值。 通过计算就对于各对中每一对的频率值20×20即400个在上述方程式中的和,该同一方法可用来分析对组成或频率。分析表明,构成2个单元素(singleton)频率集的简单积的任何对频率等于各个单元素I值的和。如果2个单元素频率集均相同或近似,这就意味着I(独立对)=2*I(单个)。因此,对于对频率的一般集,可定义特殊情况的互信息MI为:MI(对)=I(对)-2*I(单个),以测量通过对频率本身的结构获得的信息量(与Martin等(2005)中的标准定义相比,例如,在考虑I(X)=-H(X)在其符号中)。当没有这类结构时,MI的值就为0。 由上文论述的对分布中计算的MI的值(相对于400个值的全集)见表51。 表51.CDRH3的中心环内的互信息 文库或集 i-i+1 i-i+2 i-i+3 免疫前 0.226 0.192 0.163 Humabs 0.153 0.128 0.111 成熟 0.124 0.107 0.100 LUA-59 0.422 0.327 0.278 LUA-141 0.376 0.305 0.277 HuCAL 0.000 0.000 0.000 XYZ 0.000 0.000 0.000 值得注意的是,在人序列进行进一步的体细胞突变这种相对于许多独立序列基本上是随机的过程时,人序列集内的MI值降低。同样值得注意的是,在对被视为相距越来越远时,MI值降低,且对人序列集和本发明示例性文库也都是如此。在两种情况下,当一对中的2个氨基酸相隔较远时,跨越实际区段(V、D、J加上V-D或D-J插入)的机会增加,并且其对频率变得更接近单元集频率的简单积。 实施例15:从文库中选择抗体 在本实施例中,对从本发明的文库(见实施例9-11和其它实施例)中选择抗体进行了说明。这些选择证实,本发明的文库编码能够结合抗原的抗体蛋白。在一次选择中,采用本文所述方法,从文库中分离出对“X抗原”(一种蛋白质抗原)有特异性的抗体。图24表示特异性结合X抗原的6种克隆的结合曲线及其Kd值。使用在质粒载体上具有重链并且κ轻链文库整合到酵母基因组的酵母进行该项选择。 在一次独立的选择中,分离出对模式抗原鸡蛋白溶菌酶(HEL)有特异性的抗体。图25表示10种特异性结合HEL的克隆的结合曲线;每一种的Kd>500nM。使用质粒载体上具有重链并且质粒载体上具有κ轻链文库的酵母进行这项选择。确定从文库分离的克隆的重链和轻链序列,并证实了存在多种克隆。得自4种克隆的一部分FRM3(加下划线)和完整CDRH3如下所示(表53和表54,后者使用了本发明的编号体系)。 表53.得自4个HEL结合体(Binder)的CDRH3和一部分FRM3的序列 分离出的重链chassis是VH3-23.0(对于EK080902和CR080363)、VH3-23.6(对于CR080362)和VH3-23.4(对于CR080372)。这些变异体在实施例2表8中作了定义。4种重链CDRH3序列的每一种与得自示例性文库的设计序列相匹配。对一种克隆的CDRL3序列(ED080902)进行了测定并如下所示,其中周围FRM区用下划线表示: CDRL3:YYCQESFHIPYTFGGG。 在这种情况下,CDRL3与表33第49行的简并VK1-39寡核苷酸序列的设计相匹配。该表的相关部分复制如下,占据分离CDRL3各位置的氨基酸用粗体字和下划线表示: 等同实施方案和方法 只需要采用常规实验方法,本领域技术人员就会认识或者能够确定本文所述具体实施方案和方法的许多等同实施方案和方法。随附权利要求书的范围包括了这样的等同实施方案和方法。 附录A 用来获得VK文库的κ轻链的GI编号 23868 2385488 16923194 58222611 70798854 98956311 32779 2385490 16923202 58222613 70798856 98956323 32810 2385492 16923208 58222615 70798858 98956325 33059 2385494 17226623 58222617 70798860 98956327 33144 2385495 17226631 58222619 70798862 98956337 33156 2385497 17226635 58222621 70798866 98956341 33170 2597932 17226639 58222623 70798868 98956343 33173 2597935 17226643 58222625 70798872 98956349 33183 2597937 17226645 58222627 70798874 98956355 33185 2597943 17226655 58222629 70798878 98956357 33189 2597946 17381491 58222631 70798880 98956365 33191 2597948 17385013 58222633 70798882 98956375 33195 2597950 17385015 58222635 70798884 98956379 33200 2597952 17385017 58222637 70798886 98956381 33202 2599531 17385019 58222639 70798888 98956383 33221 2599533 17385021 58222641 70798890 98956400 33227 2599535 17483729 58222643 70798892 98956404 33230 2599545 18025561 58222645 70798894 98956406 33233 2625059 18025563 58222647 70798896 98956414 33237 2632152 18025573 58222649 70798898 98956418 33268 2654047 18025575 58222651 70798900 98956422 33288 2654051 18025577 58222653 70798902 98956426 33290 2654055 18025579 58222655 70798904 98956428 33294 2773084 18025581 58222657 70798906 98956430 33296 2920359 18025583 58222659 70798914 98956432 33298 2995674 18025585 58222661 70798916 98956436 33300 2995676 18025587 58222663 70798918 98956440 33302 2995678 18025589 58222665 70798920 99022977 33304 2995680 18025591 58222667 70798922 99022979 33324 2995682 18025593 58222669 70798926 99022981 33330 2995688 18025595 58222671 70798928 99022983 33415 2995690 18025597 58222673 70798930 99022985 33416 3023134 18025599 58222675 70798934 99022987 33417 3023136 18025603 58222677 70798936 99022989 33418 3023138 18025605 58222679 70798940 99022991 33421 3023140 18025607 58222681 70798942 99022993 33422 3023142 18025611 58222683 70798946 99022995 33423 3023144 18025613 58222685 70798948 99022997 33424 3023146 18025617 58222687 70798950 99022999 33426 3023148 18025621 58222689 70798952 99023002 33647 3251385 18025623 58222691 70798954 99023004 33649 3251387 18025627 58222693 70798956 99023006 33655 3251389 18025629 58222695 71058688 99023008 33657 3251391 18025635 58222697 71058704 99023010 33659 3251744 18025639 58222699 71058712 99023012 33665 3251749 18025641 58222701 71058717 99023474 33669 3251983 18025645 58222703 71058719 99023476 33679 3251985 18025651 58222705 71058721 99023478 33683 3288824 18025653 58222707 71058723 99023480 33685 3378165 18025655 58222709 71058725 99023482 33756 3378177 18025657 58222711 71058727 99023484 34022 3378183 18025659 58222713 71058729 99025082 36657 3451194 18025661 58222715 71058731 99025083 37860 3603382 18025665 58222717 71482591 99025084 37909 3603384 18025667 58222719 71482622 99025903 38361 3603386 18025669 58222721 71482624 99025916 38362 3603388 18025677 58222723 71482634 99026398 38363 3603390 18025679 58222725 71482636 99026399 38367 3603392 18025681 58222727 71482638 99026416 38436 3603394 18025683 58222729 71482640 99026418 38438 3603396 18025685 58222731 71482642 109240611 38439 3641303 18025687 58222733 71482644 109240615 38440 3641307 18025689 58222735 71482646 109240619 38441 3644015 18025693 58222737 71482648 109240627 38442 3644021 18025697 58222739 71482650 109240631 38448 3746530 18025701 58222741 71482652 109240635 38485 3747011 18025705 58222743 71482654 109240637 38487 3747015 18025709 58222745 71792302 109240641 38489 3821085 18025715 58222747 71792306 109240643 38491 3821088 18025717 58222749 71792308 109240647 38493 3901025 18025719 58222751 73532341 109240655 38495 3928173 18092607 58222753 75707120 109240657 38497 3928181 18092609 58222755 75707124 109240661 38499 3928185 18092611 58222757 75707126 109240665 38501 3928189 18092613 58222759 75707128 109240669 38503 3928210 18092615 58222761 75707130 109240671 38505 3928211 18092617 58222763 75707132 109240675 178678 3928212 18092619 58222765 75707134 109240679 182338 3928214 18092621 58222767 75707138 109240687 182340 3928215 18092623 58222769 75707140 109240691 182342 3928219 18307263 58222771 75707148 109240695 182344 3928220 18307265 58222773 75707154 109240701 182346 3928222 18307267 58222775 75707156 109240705 182348 3928223 18307269 58222777 75707158 109240709 183962 3928224 18307271 58222779 75707160 109240713 183968 3928225 18307273 58222781 75707162 109240717 183972 3928227 18307275 58222783 75707168 109240721 185375 3928231 18307277 58222785 75707170 109240723 185377 3928232 18307279 58222787 75707172 109240729 185379 3928233 18307281 58222789 75707174 109240733 185381 3928234 18307283 58222791 75707176 109240737 185383 3928235 18307285 58222793 75707180 109240741 185385 3928236 18307289 58222795 75707188 109240745 185387 3928237 18307291 58222797 75707194 109240760 185389 3928238 18307293 58222799 75707196 109240764 185391 3928239 18626727 58222801 75707198 109240766 185393 3928240 18626728 58222803 75707204 109240770 185395 3928243 18626729 58222805 75707206 109241210 185397 3928244 18626730 58222807 75707208 109241212 185399 3928245 18632678 58222809 75707210 109241214 185401 3928248 18698406 58222811 75707220 109241216 185403 3928250 19170347 58222813 75707222 109241218 185415 3928251 19701578 58222815 75707226 109241220 185417 3928252 19744467 58222817 75707228 109241450 185419 3928253 19744471 58222819 75707230 109241549 185423 3928254 19744475 58222821 75707232 109241551 185427 3928257 19744479 58222823 75707234 109242373 185811 3928258 19744487 58222825 75707236 109242377 185813 3928259 19744491 58222828 75707238 109242379 185815 3928260 19744495 58222830 75707240 109242381 185816 3928261 19744499 58222832 75707242 109242383 185827 3928263 19744503 58222834 75707244 109242385 185829 3928264 19744507 58222836 75707246 109242387 185831 3928265 19744511 58222838 75707248 109242389 185833 3928266 19744515 58222840 75707250 109242395 185835 3928267 19744519 58222843 75707262 109242399 185837 3928276 19744523 58222845 75707264 109242401 185839 3928277 19744527 58222847 75707268 109242403 185841 3928278 19744531 58222849 75707270 109242409 185845 3928279 19744535 58222851 75707272 109242411 185847 3928280 19744539 58222853 75707274 109242417 185849 3928283 19744543 58222855 75707276 109242419 185855 3928287 19744547 58222857 75707278 109242421 185859 3928288 19744551 58222859 75707282 109242423 185862 3928289 19744555 58222861 75707284 109242425 185866 3928290 19744559 58222863 75707292 109242427 185868 3928291 19744563 58222865 75707298 109245190 185870 3928293 19744567 58222867 75707300 109245192 185872 3928294 19744571 58222869 75707302 109245194 185874 3928295 19744575 58222871 75707304 109693080 185880 3928296 19744579 58222873 75707306 109693082 185882 3928297 19744583 58222875 75707316 109693084 185884 3928298 19744587 58222877 75707318 109693094 185886 3928299 20372497 58222879 75707322 109693096 185888 3928301 20372499 58222881 75707324 109693100 185890 3928302 20372501 58222883 75707334 109693102 185892 3928303 20372503 58222885 75707338 109693110 185894 3928304 20372505 58222887 75707340 109693112 185896 3928308 20372507 58222889 75707362 109693114 185898 3928309 20372509 58222891 75707368 109693116 185904 3928310 20372511 58222893 75707370 109693118 185906 3928312 20372513 58222895 75707372 109693120 185908 3928315 20372515 58222897 75707374 109693135 185910 3928316 20372517 58222899 75707378 109693137 185912 3928317 20372519 58222901 75707382 109693139 185920 3928318 20372521 58222903 75707384 109693144 185922 3928319 20372523 58222905 75707386 109693146 185928 3928320 20372525 58222907 75707398 109693148 185934 3928321 20372527 58222909 75707406 109693150 185950 3928323 20372529 58222911 75707408 109693152 185980 3928324 20387057 58222913 75707410 109693154 185984 3928325 20387059 58222915 75707412 109693157 185987 3928326 20387061 58222917 75707416 109693159 185988 3928327 21311286 58222919 75707418 109693165 186008 3928329 21311288 58222923 75707420 109693167 186015 3928330 21311294 58222925 75707422 109693169 186017 3928331 21311296 58222927 75707424 109693171 186019 3928332 21311318 58222929 75707426 109693177 186040 3928333 21311322 58222931 75707428 109693179 186041 3928334 21669062 58222933 75707430 109693181 186042 3928335 21669064 58222935 75707432 109693183 186047 3928336 21669066 58222937 75707434 109693187 186199 3928337 21669068 58222939 75707444 109693189 186266 3928338 21669070 58222941 75707446 109693201 254719 3928339 21669072 58222943 75707448 109693203 257550 3928340 21669074 58222945 75707454 109693206 261239 3928341 21669076 58222947 75707460 109693210 265236 3928342 21669078 58222949 75707462 109693216 265240 3928343 21669080 58222951 75707464 109693218 298552 3928344 21669082 58222953 75707472 109693220 298560 3928345 21669084 58222955 75707476 109693222 298827 3928346 21669086 58222957 75707500 109693228 298829 3928347 21669088 58222959 75707502 109693230 299955 3928348 21669090 58222961 75707504 109693232 306919 3928349 21669092 58222963 75707506 109693235 306957 3928350 21669094 58222965 75707508 109693237 306959 3928351 21669096 58222967 75707510 109693239 306961 3928352 21669098 58222969 75707514 109693241 306963 3928353 21669100 58222971 75707516 109693249 306965 3928354 21669102 58222973 75707518 109693253 306967 3928355 21669104 58222975 75707520 109693255 306971 3928356 21669106 58222977 75707522 109693261 306980 3928357 21669108 58222979 75707524 109693264 306982 3928358 21669110 58222981 75707526 109942421 306984 3928359 21669112 58222983 75707528 109942431 306986 3928360 21669114 58222985 75707530 110290934 306988 3928361 21669116 58222987 75707534 110610132 306990 3928362 21669118 58222989 75707536 110624509 306992 3928363 21669120 58222991 75707540 110657101 306994 3928364 21669122 58222993 75707542 110657103 306996 3928365 21669124 58222995 75707544 110657105 306998 3928366 21669126 58222997 75707546 110657107 307000 3928367 21669128 58222999 75707548 110657109 348203 3928368 21669130 58223001 75707550 110657111 348205 3928369 21669132 58223003 75707552 110657113 348207 3928370 21669134 58223005 75707586 110657115 348211 3928371 21669136 58223007 75707598 110657123 386052 3928372 21669138 58223009 75707600 110657124 396631 3928373 21669140 58223011 75707602 110657125 397787 3928374 21669142 58223013 75707604 110657158 397789 3928375 21669144 58223015 75707618 110657159 397791 3928376 21669146 58223017 76058957 110657160 397793 3928377 21669148 58223019 76252624 110657161 397795 3928378 21727250 58223021 76252626 110657162 398490 3928379 21998806 58223023 76252630 110657163 398491 3928380 21998808 58223025 76252632 110657164 398492 3928381 21998810 58223027 76252634 110657165 404110 3928382 21998812 58223029 76252636 110657166 404112 3928383 21998814 58223031 76252638 110657167 404114 3928384 21998816 58223033 76252640 110657168 408365 3928385 21998818 58223035 76252642 110657169 409042 3928386 21998820 58223037 76252644 110657170 414035 3928387 21998822 58223039 76252646 110657171 415651 3928388 21998824 58223041 76781673 110657172 415710 3928389 21998826 58223043 77378090 110657173 415955 3928390 21998830 58223045 77378092 110657174 415957 3928391 21998832 58223047 77378094 110657175 415959 3928392 22086572 58223049 77378096 110657176 415961 3928393 22086575 58223051 77378098 110657177 415963 3928394 22086581 58223053 77378100 110657178 415965 3928395 22086587 58223055 77378102 110657179 415967 3928396 22086593 58223057 77378105 110657180 415969 3928397 22091617 58223059 77378107 110657181 415971 3928398 22214019 58223061 77378109 110657182 416329 3928399 22214023 58223063 77378111 110657183 416331 3928400 22297542 58223065 77378135 110657184 416333 3928401 22556681 58223067 77378137 110657185 416335 3928402 22556683 58223069 77378139 110657186 416337 3928403 22556684 58223071 77378141 110657187 430845 3928404 22607990 58223073 77378143 110657188 431039 3928405 22620896 58223075 77378145 110657189 431040 3928406 22620899 58223077 77378147 110657230 431041 3928407 22640510 58223079 77378149 110657232 431042 3928408 22640512 58223081 77378151 110657234 431043 3928409 22640513 58223083 77378153 110657236 431044 3928410 22642789 58223085 77378155 110657238 431045 3928411 22642790 58223087 77378157 110657240 431046 3928412 22642791 58223089 77378159 110657242 431047 3928413 22642808 58223091 77378161 110657244 431048 3928414 22642809 58223093 77378163 110657246 431049 3928415 22642810 58223095 77378165 110657248 431051 3928416 22642811 58223097 77378167 110657250 431052 3928417 22643188 58223099 77378169 110657252 431053 3928418 22643190 58223101 77378172 110657254 431067 3928419 22643192 58223103 77378174 110657256 431069 3928420 22643196 58223105 77378176 110657258 431071 3928421 22647625 58223107 77378224 110657615 431073 3928422 22647633 58223109 77378225 110657617 431075 3928423 23194480 58223111 77378228 110657619 431077 3928424 23194500 58223113 77378230 110657621 431079 3928425 23225992 58223115 77378234 110657624 431081 3928426 23225994 58223117 77378236 110657676 431083 3928427 23225996 58223119 77378237 110657678 431085 3928428 23234613 58223121 77378239 110657728 431087 3928430 23320663 58223123 77378241 110657730 431089 3928431 23342423 58223125 77378245 110658341 433889 3928432 23343554 58223127 77378247 110660158 436562 3928433 24412754 58223129 77378249 110660166 440153 3928434 24412756 58223131 77378251 110660174 441312 3928435 24412758 58223133 77378253 112184495 441314 3928436 24474081 58223135 77378255 112184497 441316 3928437 24850297 58223137 77379405 112184499 441318 3928438 26985941 58223139 77379407 112184501 441320 3928439 27368974 58223141 77379409 112184503 441322 3928440 27368976 58223149 77379412 112184505 441324 3928441 27368978 58223151 77379414 112184507 441330 3928442 27368981 58223153 77379416 112184509 441332 3928443 27368983 58223155 77379418 112184511 441334 3928444 27368986 58223157 77379420 112184513 441336 4100379 27368991 58223159 77379422 112189154 441338 4100381 27368993 58223161 77379425 112191695 441342 4100383 27368997 58223163 77379427 112191699 441344 4103644 27368999 58223165 77379429 112703827 441346 4103662 27369001 58223167 77379431 112708249 441348 4103664 27369003 58223169 77379433 112708250 441350 4103666 27369007 58223171 77379435 112711584 441352 4103674 27369009 58223173 77379437 112712351 441354 4128063 27369011 58223175 77379439 112712352 441356 4139195 27818830 58223177 77379441 112712353 441358 4139197 27867541 58223179 77379443 112712354 441360 4139199 27873542 58223181 77379445 112712355 441364 4139201 27875080 58223183 77379447 112712356 441366 4323178 27875088 58223185 77379449 112712357 441368 4323182 27875191 58223187 77379457 112712358 441370 4323186 27875199 58223189 77379459 112712359 441372 4323194 28611056 58223191 77379461 112712360 441374 4323809 28848873 58223193 77379463 112712361 441376 4323811 28883544 58223195 77379477 112712362 441378 4323813 28883548 58223197 77379479 112712363 441380 4323821 28883550 58223199 77379481 112712364 441382 4323823 29650328 58223201 77379483 112712365 441384 4323825 29650334 58223203 77379485 112712366 441386 4323829 29650337 58223205 77379487 112712367 441388 4323831 29650339 58223207 77379489 112712368 441390 4323833 29725711 58223209 77379491 112712369 441392 4323839 29725713 58223211 77379493 112712370 441394 4323841 29725715 58223213 77379495 112712371 441396 4323845 29725717 58223215 77379497 112712372 441398 4323847 29725719 58223217 77379499 112712373 441400 4323849 29725721 58223219 77379501 112712374 441402 4323851 29725723 58223221 77379503 112712375 441408 4323853 29725725 58223223 77379505 112712376 441412 4323855 29725727 58223225 77379507 112712377 441414 4323857 29725729 58223227 77379509 112712378 441416 4323859 29725731 58223229 77379511 112712379 441418 4323861 29725733 58223231 77379513 112712380 441422 4323863 30026987 58223233 77379515 112712381 441424 4323865 30258344 58223235 77379517 112712382 441426 4323869 30258346 58223237 77379519 112712383 441428 4323871 30793253 58223239 77379521 112727205 441430 4323873 30793255 58223241 77379523 112727206 441432 4323875 30793257 58223243 77379525 112727207 441434 4323877 30793259 58223245 77379527 112727208 441436 4323881 30793261 58223247 77379529 112727209 441440 4323883 30793263 58223249 77379545 112727210 441444 4323885 30793265 58223251 77994607 112727211 441446 4323887 30793565 58223253 77994611 112727212 441448 4323889 30793567 58223255 77994615 112727213 452060 4323891 30793569 58223257 77994619 112727214 452061 4323893 30793571 58223259 78629976 112727215 452062 4323895 30793573 58223261 78629977 112727216 452063 4323897 30841928 58223263 78629978 112727217 459655 4323899 30841931 58223265 80750467 112727218 460858 4323901 30841933 58223267 80975580 114155738 472970 4323903 30841935 58223269 80975600 114155883 472971 4323905 30841939 58223271 80975604 114155884 472972 4323907 30841943 58223273 80975616 114156208 472973 4323909 30841945 58223275 80975618 114207907 472974 4323911 30841947 58223277 80975638 114385493 472975 4323913 31879463 58223279 80975642 114385505 472976 4323915 31879464 58223281 80975644 114385507 487826 4323923 31879467 58223283 81020146 114385509 487827 4323927 31879468 58223285 81020229 114385511 493148 4323929 31879471 58223287 81020258 114385513 493149 4323931 31879472 58223289 81239122 114385515 493150 4323933 33021483 58223291 81251581 114385517 496044 4323935 33044572 58223293 81251585 114385521 496046 4323937 33044573 58223295 82794837 114385537 496048 4323939 33044574 58223297 83410334 114385539 496050 4323941 33044582 58223299 83697271 114385541 496053 4323945 33044586 58223301 83959521 114385543 496055 4323947 33051527 58223303 83959523 114385545 496059 4323949 33051528 58223305 83959525 114385547 496061 4323951 33070272 58223307 83959937 114385549 496063 4323953 33070283 58223309 83959939 114385551 496065 4323955 33070284 58223311 83964685 114385553 496071 4323957 33083474 58223313 83964762 114385567 496073 4323959 33083476 58223315 83964764 114385569 506420 4323961 33083477 58223317 83964766 114385571 506424 4323963 33083478 58223319 83964768 114385573 510839 4323965 33083479 58223321 83966574 114385575 510841 4323983 33083480 58223323 83966576 114385579 510843 4323989 33083481 58223325 83966578 114385581 510845 4323993 33083482 58223327 83966655 114385583 514428 4323997 33083483 58760238 83966657 114385585 514429 4323999 33085842 59890568 83966659 114385587 514430 4324005 33235609 59890571 83966661 114385589 514431 4324007 33235611 59894819 83966663 114385591 514432 4324009 33235613 60392126 83966665 114385593 514433 4324011 33235615 60616327 83966667 114385595 514434 4324013 33235617 60616352 83970756 114385597 515780 4324019 33235619 60650119 83970763 114385599 516137 4378181 33235621 60650123 83970769 114385601 516187 4378183 33235623 60734312 83970772 114385603 516198 4378185 33235625 61697118 84659318 114385605 516213 4378187 33235627 61853816 84659320 114385607 516249 4378189 33235629 61970154 84660715 114385609 516265 4378191 33235631 61970158 84660717 114385611 516316 4378193 33235633 61970160 84660719 114385613 545722 4378195 33304656 61970164 84660720 114385615 557650 4378197 33304658 61970168 84660721 114385617 557651 4378199 33304661 61970172 84660722 114385619 560677 4378201 33304663 61970176 84660723 114385621 560678 4378203 33355480 61970180 84660725 114385623 560841 4378207 33868634 61970184 84797793 114385625 560843 4378209 33868636 61970192 84797795 114385627 575228 4378211 33868638 61970194 84797797 114385629 575236 4378213 33868640 61970198 84797799 114385631 575240 4378215 33868642 61970202 84797801 114385633 575257 4378217 33868644 61970206 84797803 114385635 575261 4378221 33868646 61970228 84797805 114385645 587143 4378223 37287525 62001845 84797807 114385647 587245 4378225 37605051 62120916 84797823 114385649 587323 4378227 37694620 62120917 84797825 114385651 587325 4378229 37694622 62120918 84797827 114385653 587327 4378233 37694624 62120919 84797857 114385655 587329 4378237 37694626 62120920 84797861 114385659 587331 4378239 37694628 62120921 84797883 114385661 587333 4378243 37694630 62120922 84797915 114385663 587335 4378245 37694632 62120923 84797929 114385665 587337 4378247 37694634 62120924 84797959 114385669 587341 4378249 37694636 62120925 84797961 114385671 587343 4378251 37694638 62120926 84797963 114385673 587345 4378253 37694640 62120927 84797979 114385675 587347 4378255 37694642 62120929 84797981 114385677 587349 4378259 37694644 62120931 84797985 114385679 587351 4378261 37694646 62120932 84798001 114385681 587353 4378265 37694648 62120933 84798003 114385683 598165 4378267 37694650 62120934 84798005 114385685 598167 4378269 37694654 62120935 84798007 114385687 598170 4378271 37694660 62120938 84798009 114385689 598172 4378273 37694662 62120939 84798011 114385691 601979 4378275 37694664 62120940 84798033 114385693 601982 4378279 37694666 62120941 84798035 114385699 601984 4378281 37694668 62120943 84798055 114385701 609002 4378283 37694670 62120944 84798057 114385703 609004 4378287 37694672 62120945 84798059 114385705 619259 4378291 37694674 62120946 84798061 114385707 623043 4378293 37694676 62120947 84798063 114385709 624874 4378295 37694678 62120948 84798103 114385711 632983 4378297 37694680 62120949 84798107 114385713 632985 4378299 37694682 62120950 84798115 114385715 632987 4378301 37694684 62120951 84798117 114385717 633227 4378303 37694686 62120952 84798147 114385719 642581 4378305 37694688 62120953 84798149 114385721 681896 4378307 37694690 62120954 84798167 114385723 681899 4378309 37694692 62120955 84798169 114385725 685029 4378313 37694694 62120956 84798171 114385727 693862 4378315 37694696 62120957 84798173 114385729 722413 4378317 37694698 62120958 84798175 114385731 722417 4378319 37694700 62120959 84798177 114385744 722419 4378323 37694702 62120960 84798179 114385746 722421 4378325 37694704 62120961 84798181 114385748 722423 4378327 37694706 62120962 84798183 114385750 722425 4378331 37694708 62199500 84798197 114385752 722427 4378333 37694710 62421462 84798199 114385756 722429 4378335 37702652 62421466 84798201 114385774 722431 4378337 37732215 62720427 84798203 114385776 722433 4378339 37780362 62720431 84798213 114385778 722435 4378341 39103877 62720436 84798215 114385780 722437 4378343 39103879 62720442 84798217 114385782 722439 4378345 39103881 62720444 84798219 114385804 722441 4378347 39103883 62720446 84798241 114385806 722443 4378349 39103885 62720452 84798249 114385808 722455 4378351 39103887 62720454 84798255 114385921 722461 4378353 40231616 62720473 84798257 115268711 722463 4378359 40288410 62720475 84798267 115268713 722465 4378361 40288412 62720477 84798269 115268880 722467 4378363 40288414 62720483 84798271 115268892 722469 4378365 40288416 62860940 84798273 115268894 722471 4378367 40288418 62860955 84798275 115268896 722473 4378369 40388582 62860957 84798277 115268898 722475 4378371 40388585 62860959 84798279 115268900 722477 4378373 40388592 62860961 84798295 115268902 722479 4378375 40388599 62860963 84798309 115268904 722483 4378377 40647131 62860965 84798321 115268906 722485 4378379 40784425 62860981 84798323 115270875 722487 4378383 40784429 62860983 84798325 115270877 722489 4378385 40795876 62860987 84798327 116543556 722493 4378387 42541061 62860989 84798343 116543560 722495 4378389 42541069 62860991 84798345 116543564 722497 4378391 42794782 62860994 84798347 116546686 722503 4378393 42794786 62860996 84798349 116546688 722505 4378395 44829186 62861000 84798351 116551153 722511 4378397 45111420 62861002 84798364 116551156 722513 4378399 45386482 62861004 84798366 116551162 722515 4378401 46016047 62861012 84798370 116551171 722521 4558868 46093898 62861015 84798372 116551175 722523 4680172 46093902 62861017 84798374 116551179 722525 4759539 46093906 62861019 84798377 116551183 722529 4759543 46093910 62861022 84798381 116551188 722531 4759547 46575858 62861024 84798383 116551192 722535 4759551 47078185 62861029 84798386 116551201 722537 4759555 47154907 62861031 84798388 116551207 722539 4759563 47154909 62861037 84798390 116551216 722541 4759567 47154911 62861041 84798397 116551226 722543 4759575 47154913 62861045 84798407 116551231 722545 4759579 47154915 62861054 85632219 116551235 722549 4759583 47154917 62868475 85642735 116551239 722553 4759587 47154919 62868477 85644222 116551244 722555 4759591 47154921 62868479 85644224 116551249 722557 4759595 47271269 62999493 85644226 116551258 722559 4759599 47271271 63102866 85644228 116551313 722561 4761194 47271273 63102872 85644230 116551317 722569 4761281 47271275 63102874 85644232 116551321 722571 4761283 47271277 63102876 85644600 116551325 722573 4837686 47271279 63102880 85644602 116551329 722581 4837688 47271281 63102882 85644604 116551333 722585 4837690 47271283 63102888 85650161 116551337 722587 4837692 47271285 63102892 85650163 116551341 722591 4837694 47271287 63102898 85650165 116551347 722593 4837696 47271289 63102900 85650167 116551351 722599 4837698 47271291 63102902 85650169 116551369 722601 5006350 47271295 63102904 85650171 116551373 722603 5006354 47271297 63102906 85650173 116551377 722605 5006356 47271299 63102908 85650175 116551381 722607 5006358 47271307 63102910 85650177 116551404 722609 5006360 47271309 63102912 85650179 116551413 722615 5019510 47271311 63102916 85650276 116551418 732737 5019512 47271313 63102920 85650278 116551422 732739 5019514 47271315 63102922 85650280 116551427 732741 5019522 47271317 63102924 85657010 116551431 732743 5019524 49073024 63102928 85658337 116551436 732745 5019526 49073036 63102938 85658632 116551446 732747 5019538 50199324 63102940 85660488 116551452 758588 5081714 50199334 63102942 85660492 116551772 758598 5081716 50831237 63102954 85660494 116551776 758600 5081718 50844518 63102962 85660497 116551780 762823 5081720 50844522 63102964 85660498 116551785 773589 5081722 50844526 63102966 85660502 116551790 790442 5102680 50844536 63102968 86439043 116553242 790450 5419682 50844540 63102970 86439047 116555276 790794 5419684 50844548 63102972 86439051 116555819 790802 5419700 50844552 63102974 86439053 116555821 790810 5419702 50871685 63102976 86439057 116555823 791015 5419704 50871687 63102980 86439061 116559889 791019 5419706 50898144 63102986 86439063 116560960 791023 5419708 50898148 63102988 86439071 116634471 791027 5419710 50898150 63102992 86439075 116634475 791031 5419712 50898152 63102994 86439081 116795086 791035 5419731 50898154 63102996 86439147 117576090 809552 5419738 50898158 63102998 86439151 118143176 809553 5419740 50898160 63103012 86439153 118143178 809554 5524134 50898162 63103014 87298995 118147088 845515 5524140 50898164 63103030 87298999 118147090 845517 5524142 50898170 63103032 87299001 118147092 845519 5524144 51103388 63103034 87299003 118147094 845521 5524146 51103390 63103040 87299007 118147096 845523 5524148 51103392 63103044 87299009 118147098 845525 5524150 51103394 63103046 87299011 118147100 845527 5566507 51103396 63103048 87299015 118147102 845529 5578779 51103398 63103054 88496317 118147104 845531 5578781 51103400 63103056 88496922 118147106 845533 5578783 51103402 63103070 90092372 118147108 845535 5578785 51103404 63103072 90092373 118147110 854111 5578787 51103406 63103076 90092374 118147112 871275 5578789 51103408 63103078 90092387 118147114 871819 5578791 51103410 63103086 90092910 118147116 871823 5578793 51103412 63103096 90092911 118147118 882261 5578795 51103414 63103098 90092912 118147120 882263 5578797 51103416 63103106 90092913 118147122 882265 5578799 51103418 63103108 90823178 118147125 882267 5578801 51103420 63103110 90823182 118147127 882269 5578803 51103422 63103112 90823186 118425771 882271 5578805 51103424 63103114 90823190 118425773 882273 5578807 51103522 63103116 90823196 118425775 882275 5578809 51103526 63103118 90823198 118490144 882277 5578811 51103528 63103120 90994745 118490148 882279 5578815 51103532 63103140 90994747 118490152 882281 5690395 51103534 63103142 90994751 118490156 882283 5690399 51103536 63103144 92115496 119359417 882285 5690403 51103538 63103146 92115497 119836694 882287 5709454 51103540 63103148 92130102 119836767 882289 5731228 51103542 63103150 92130103 119838997 882291 5731232 51103544 63103154 92131782 119839065 882293 5731236 51103546 63103156 92131783 119839355 882295 5731242 51103548 66096574 92131784 119839523 882297 5731252 51103550 66096603 92131785 119841342 882299 5921608 51103552 66096637 92133663 119841388 882301 5921610 51103554 66711101 92133665 119841425 882303 5921614 51103556 66711102 92137567 119841512 882305 5921618 51103558 66711103 92140334 121309186 882307 5921620 51103560 66711104 92140336 124042790 882309 5921622 51103562 66711105 92141530 124042792 882311 5921624 51103564 66711106 92155949 124042815 882313 5921626 51103566 66711107 92157443 126146964 882315 5921640 51103568 66711108 92157445 126146965 882317 6110569 51103570 66711109 92157453 126146966 882319 6179861 51851021 66711110 92157459 126147776 882321 6179863 51949938 66711111 92157461 126147812 882323 6179865 53988135 66711112 92158828 126147817 882325 6179867 53988137 66711114 92158980 126147952 882327 6179869 54034484 66711116 92161545 126147954 882329 6492198 54145422 66711117 92249233 126147956 882331 6492200 54145426 66711118 92298212 126152193 894090 6492202 54145440 66711119 92298539 126152196 904629 6492204 54781098 66711120 92315622 126633956 913352 6648587 54781100 66711123 92315624 126633957 929640 6649889 54781102 66711124 92315626 126633958 929642 6649895 54781104 66711125 92315628 134125852 944925 6708204 54781106 66711126 92332837 134125853 950049 7012704 54781108 66711128 92332841 134125854 973411 7012706 54781110 66711129 92348102 134128019 973415 7024356 54781112 66711130 92348670 134269772 999107 7160978 54781126 66711131 92349881 134273023 1020008 7673384 54781129 66711132 92360819 145850477 1020012 7673388 54781202 66711133 92370888 145850518 1020016 7673392 54781204 66711134 92381676 145850519 1070309 7745134 54781206 66711135 92496960 145850520 1070313 8250280 54781208 66711136 92520581 145850521 1070315 8777870 54781213 66711137 92520583 145850522 1070317 8777874 54781216 66711138 92520584 145850523 1070321 8777878 54781218 66711139 92520586 145850524 1070325 8777880 54781220 66711140 92575636 145850525 1070327 8777884 54781223 66711141 92589636 145850526 1070347 8777888 54781225 66711142 92589637 145850527 1136554 8777890 54781227 66711143 92589638 145850528 1136556 8777892 54781229 66711144 92589639 145850529 1208913 9295278 54781231 66711145 92589640 145850530 1235764 9295280 55274149 66711146 92589641 145850531 1235766 9295282 55274153 66711147 92589642 145850532 1235768 9295284 55274159 67509857 92589643 145850533 1235770 9295286 55274163 67509861 92589644 145850534 1235772 9295290 55824376 68148126 92589645 145850535 1235774 9295292 56118076 68148140 92589646 145850536 1245380 9295296 56118080 68148142 92589647 145850537 1245382 9295298 56292538 68148144 92589648 145850558 1255605 9295300 56294837 68148150 92589649 145850561 1255607 9437312 56294841 68148152 92589650 145850563 1255608 9927567 56399565 68148154 92589651 145854440 1255609 9928208 56609227 68148158 92589652 145856824 1255612 9968441 56609228 68148160 92589653 145859735 1292860 9968443 56609229 68148164 92589656 148355517 1292862 9968486 56609230 68148166 92600475 148355518 1353813 9968488 56609232 68148174 92600479 148355519 1353815 9968490 56609235 70797818 92600487 148355520 1353817 9968492 56742105 70797820 92607622 148355521 1353819 9968494 56742106 70797822 92667306 148355522 1353821 9968496 58003567 70797824 92667307 148355523 1353825 9968498 58003568 70797826 92667308 148355524 1353827 9968500 58003569 70797828 92667309 148355525 1353831 9997457 58003570 70797830 92667310 148355526 1370131 10636524 58003571 70797832 92667329 148355527 1370135 11229436 58003572 70797834 92667331 148355528 1370137 11343336 58003573 70797836 92798195 148355529 1495627 11343337 58003587 70797838 92798196 148355530 1495628 11876718 58003588 70797842 92798197 148355531 1495629 11876734 58003589 70797844 92798198 148355532 1495630 11876735 58003608 70797846 92798199 148355533 1495631 11876736 58003609 70797850 92798218 148540957 1495632 11876737 58003610 70797852 92798220 148578450 1495633 11876738 58003611 70797854 92824835 148578452 1495634 11876739 58003612 70797856 92834676 148578454 1495635 11876740 58003613 70797858 92835832 148578455 1495637 11876741 58003614 70797860 92835834 148578456 1495638 11878173 58003615 70797866 92835836 148578457 1495639 11878175 58003616 70797870 92839400 148578458 1495640 11878177 58003618 70797872 92839402 148578460 1495641 11992075 58003619 70797874 92839403 149849068 1495642 11992193 58003620 70797876 92839404 149849080 1495643 12003249 58003622 70797878 92839405 149849084 1495644 12003251 58003623 70797884 92839406 149849088 1495645 12003253 58003624 70797886 92839407 150447881 1495646 12003255 58003625 70797888 92839408 150447883 1495647 12003257 58003626 70797890 92839409 150447885 1495648 12655491 58003627 70797894 92845038 150447887 1495649 12655493 58003628 70797898 92845490 150450134 1495650 12655500 58003629 70798601 92845651 150450135 1495651 12655502 58003630 70798603 92855396 150450136 1495652 12655504 58003631 70798605 92855400 150450137 1532001 12655519 58003632 70798607 92855404 150450138 1532002 12655521 58003633 70798609 92855408 150450139 1532027 12655525 58003634 70798611 92855412 150450140 1552277 12655527 58003656 70798613 92855416 150450636 1552283 12655529 58003657 70798615 92855420 150453145 1552285 12655531 58003658 70798617 92855424 150453147 1552287 12655541 58003659 70798619 92855428 150453149 1552291 12655558 58003660 70798621 92855432 150453151 1552295 12655565 58003661 70798623 92855436 150453153 1552299 12655567 58032596 70798627 92855441 150453154 1552319 12655569 58032603 70798629 92855444 150453155 1561601 12655643 58032606 70798631 92856854 150453156 1561605 12655655 58194104 70798633 92856855 150453157 1561607 12655662 58194120 70798635 92856859 150453159 1561609 12655665 58194136 70798637 92857001 150453161 1561611 12655672 58202701 70798639 92857003 150453163 1572702 12655713 58202709 70798641 92857012 150453165 1572704 12655723 58202711 70798643 92857016 150453167 1572706 12655730 58202713 70798645 92857018 150453169 1572708 12655732 58202715 70798649 92858156 150453171 1572710 12655736 58202717 70798653 92861312 150453174 1657324 12655738 58202719 70798655 92861313 150453213 1657326 12655740 58202721 70798657 92861314 150453216 1657328 12655748 58202723 70798659 92862784 153590356 1673592 12655751 58202725 70798661 92875826 153590359 1673602 12710669 58202727 70798667 92878541 153590361 1710418 12710671 58202729 70798669 92878543 153590363 1770403 12734084 58202733 70798671 92878545 153590365 1770415 12734089 58202735 70798673 92903931 153590367 1773056 12750933 58202737 70798675 92905358 153590371 1778125 12836990 58222454 70798677 92905360 156149223 1785869 12957385 58222456 70798679 92905362 156149224 1785873 12957387 58222458 70798681 94034254 156149225 1785877 13170940 58222460 70798683 94034257 156229617 1800286 13170944 58222462 70798685 94034261 156557387 1813653 13170948 58222464 70798687 94034264 156557389 1813655 13171333 58222466 70798690 94034267 156557391 1813657 13171339 58222468 70798692 94034271 156557393 1834498 13171341 58222470 70798694 94034285 156557399 1834563 13171343 58222473 70798696 94034316 156557403 1834564 13447996 58222476 70798698 94034339 156557405 1835872 13448000 58222478 70798700 94034342 156557407 1835873 13448002 58222480 70798702 94034384 156557411 1839291 13448004 58222482 70798706 94034387 156562058 1864110 13448006 58222484 70798708 94034390 157087534 1864112 13448010 58222487 70798710 94034393 157896695 1864114 13448012 58222489 70798712 94035272 157896697 1864116 13448016 58222491 70798716 94035284 157903220 1864118 13448018 58222493 70798718 94035289 158055245 1864136 13448022 58222497 70798720 94035298 158055254 1864138 13549147 58222499 70798722 94035300 158055268 1890131 13785652 58222501 70798724 94035312 158055282 1890133 13939245 58222503 70798732 94469910 158055285 1905798 13939277 58222505 70798734 94469912 158055288 1905937 13939331 58222507 70798736 94469914 158058441 1905941 13991697 58222509 70798738 94469922 158731523 1911732 14150696 58222511 70798742 94469924 158731524 1922370 14150698 58222513 70798744 94469926 158731525 1922438 14290262 58222515 70798750 95007504 158731526 1922466 14573212 58222517 70798752 95007510 158731527 1922501 14573214 58222519 70798758 95007512 158731528 1922528 14573216 58222521 70798760 95007514 158731529 1922535 14573218 58222523 70798764 95007516 158731530 1922602 14573220 58222525 70798766 95007518 158731531 1922618 14573222 58222527 70798768 95007520 158731532 1922645 14573226 58222529 70798770 95007522 158731533 1922679 14573254 58222531 70798772 95007524 158731534 1922796 14573256 58222533 70798774 95007526 158731536 1922805 14573258 58222535 70798776 95007528 158731538 1932772 14573260 58222537 70798778 95007530 158731539 1943727 14573262 58222539 70798780 95007532 158731540 2058533 14573264 58222541 70798782 95007534 158731541 2058535 14573266 58222543 70798784 95007536 158731542 2058678 14573268 58222545 70798786 95007538 158731545 2072271 14573270 58222547 70798788 95007540 158731546 2072273 14573272 58222549 70798792 95007542 158731547 2072279 14573274 58222551 70798794 95007544 158731548 2072981 14573276 58222553 70798796 95101759 158731550 2078359 14573278 58222556 70798798 95101761 158731551 2078371 14588864 58222558 70798800 95101767 158731552 2078373 14588866 58222560 70798802 95101769 158731553 2169989 14588868 58222562 70798804 95101777 158731554 2169990 14588870 58222564 70798806 98956195 158731555 2172285 14588872 58222566 70798808 98956209 158731556 2173403 14597098 58222568 70798810 98956219 158731557 2175768 14597112 58222570 70798812 98956223 158731558 2175852 14597124 58222572 70798814 98956232 158731559 2175867 14597127 58222575 70798816 98956244 158731560 2218123 14625743 58222577 70798818 98956249 158731561 2239113 14625918 58222579 70798820 98956255 158731562 2239115 14626493 58222581 70798824 98956261 158731563 2253439 14716957 58222583 70798826 98956263 158731564 2266632 14716961 58222585 70798828 98956271 158731565 2266634 14716969 58222587 70798830 98956277 158731566 2291087 14716971 58222589 70798832 98956279 158731567 2293965 14716973 58222591 70798834 98956281 158731568 2293967 15011457 58222593 70798836 98956285 158731569 2306827 15099974 58222595 70798838 98956289 158744132 2306829 15277619 58222597 70798840 98956291 158744140 2345025 15419020 58222599 70798842 98956293 158744148 2345029 15859220 58222601 70798844 98956299 158744156 2345031 15986229 58222603 70798846 98956301 158744164 2345033 16508167 58222605 70798848 98956303 158746355 2385484 16554974 58222607 70798850 98956305 158746363 2385486 16923186 58222609 70798852 98956307 158746371 附录B 用来获得Vλ文库的λ轻链的GI编号 31454 3142529 4566076 9968397 51103608 77379760 32808 3142531 4566078 9968401 51103612 77379824 32812 3142533 4566082 9968403 51103614 77379826 33335 3142535 4566084 9968405 51103616 77379828 33368 3142537 4566086 9968409 51490956 77379830 33383 3142539 4566088 9968411 54781261 77379832 33387 3142541 4566090 9968413 61815560 77379834 33412 3142543 4566092 9968415 62720404 77379836 33429 3142545 4566094 9968417 62720406 77379838 33431 3142547 4566096 9968419 62720408 77379840 33433 3142549 4566098 9968421 62720412 77379842 33703 3142553 4566101 9968423 62860947 77379846 33711 3142556 4566105 9968425 62860950 77379848 37918 3142558 4732059 9968427 62860967 77379850 37920 3142562 4761253 9968429 62860969 77379855 37922 3142564 4761255 9968433 62860971 77379857 37923 3142566 4761257 9968435 62860973 77379859 38359 3142569 4761259 9968437 62860975 77379861 38360 3142573 4761261 9968439 62860977 77379863 38364 3142577 4761263 10636511 62860979 77379865 38365 3142579 4761265 10636514 62860985 77379867 38366 3142581 4761267 10636518 62861006 77379869 38368 3142583 4761269 10636521 62861008 77379871 186078 3142585 4761271 10636527 62861010 77379875 186080 3142587 4761273 11992185 62861047 77379877 186082 3142589 4761277 11992187 62999489 77379879 186084 3142591 4761279 11992189 62999497 77379882 186086 3142593 4927957 11992191 62999501 77379884 186088 3142595 5019504 11992195 62999509 77379886 186090 3142597 5019506 11992197 70888031 77379888 186092 3142599 5019516 11992199 70888035 77379890 186094 3142601 5019518 11992201 70888037 77379894 186096 3142603 5019520 12666922 70888041 77379896 186097 3142612 5019528 12666924 70888043 77379900 186111 3142614 5019530 12666926 70888045 77379908 186162 3142616 5019532 12666928 70888047 77379910 186164 3142618 5019534 12666930 70888049 77379912 186168 3142620 5019536 12666932 70888051 77379916 186170 3142649 5174362 12666934 70888053 77379918 186172 3142651 5174364 12666936 70888055 80975584 186175 3142653 5174366 12666938 70888057 80975588 298556 3142656 5174378 12666940 70888059 80975598 405223 3142658 5524086 12666942 70888061 80975622 405227 3142660 5524106 12666944 70888063 80975628 409040 3142662 5524108 12666946 70888065 80975632 409041 3142668 5524118 12666948 70888067 80975636 409043 3142670 5524122 12666952 70888069 81020028 433485 3142672 5524132 12666954 70888071 81020064 434041 3142674 5578817 12666956 70888073 86438995 434045 3142676 5578819 12666958 70888075 86439001 439514 3142678 5578823 12666960 70888077 86439005 439516 3142680 5578825 12666962 70888079 86439015 441251 3142684 5578827 12830380 70888081 86439017 460854 3153359 5578829 12830382 70888083 86439087 460856 3153361 5578831 12830384 70888085 86439089 460860 3153365 5578833 13276707 70888087 86439091 465157 3153366 5911837 13877276 70888089 86439093 465167 3153368 6492194 14279402 70888091 86439095 465171 3153374 6492196 14279404 70888093 86439097 465175 3153376 6492206 14279406 70888095 86439099 469249 3335577 6492208 17226627 70888097 86439101 483911 3335579 6492210 17226649 70888099 86439105 487824 3335585 6492212 18307305 70888103 86439127 487825 3335587 6643078 18307307 70888105 86439133 487828 3335591 6643082 18307309 70888109 86439137 493153 3388046 6643086 18307311 70888111 86439139 506426 3388048 6643088 18307313 70888113 86439141 506428 3388050 6643090 18307315 70888115 90994749 515765 3388054 6643098 18307317 70888117 95007506 532599 3388056 6643104 18307319 70888121 95007546 532600 3388058 6643106 18307321 70888123 95007548 532603 3388060 6643114 18307329 70888125 95007550 560845 3388062 6643118 21311290 70888127 95007552 575230 3388064 6643120 21311292 70888129 95007554 575238 3388066 6643124 21669150 70888133 95007556 575242 3388070 6643126 21669152 70888137 95007558 685021 3388072 6643128 21669154 70888139 95007560 773591 3388074 6643136 21669156 70888141 95007562 871362 3388080 6643138 21669158 70888143 95007564 987068 3747019 6643154 21669160 70888147 95007566 987076 3821077 6643156 21669162 70888149 95007570 998390 3821078 6643158 21669164 70888151 95007572 998394 3821079 6643162 21669166 70888155 95007576 1055278 3821080 6643168 21669172 70888157 95007578 1070329 3821081 6643170 21669174 70888159 109240683 1070341 3821082 6643172 21669176 70888161 109240697 1070349 3821083 6643176 21669178 70888163 109240743 1143195 3821084 6643178 21669180 70888165 109240749 1200068 3821086 6643180 21669182 70888167 109240754 1235776 3821087 6643182 21669184 70888169 109240756 1235778 3821089 6643184 21669186 70888171 109240758 1235780 3821090 6643186 21669188 70888173 116795127 1235782 3821091 6643188 21669190 70888179 116795192 1255606 3821092 6643192 21669192 70888181 146336934 1255610 3821093 6643196 21669194 70888183 156632919 1255611 3821094 6643198 21669196 70888185 156632943 1255613 3821095 6643200 21669198 70888187 156632945 1552313 3821096 6643202 21669200 70888193 156632975 1561599 3821097 6643204 21669204 70888195 156633095 1770407 4103646 6643210 21669206 70888197 156633103 1864134 4103648 6643214 21669210 70888199 156633141 1864140 4103650 6643218 21669212 70888201 156633153 1864142 4103652 6643220 21669214 70888204 156633155 1864144 4103654 6643224 21669218 70888206 156633159 2078365 4103656 6643226 21669220 70888208 156633171 2654039 4103658 6643230 21669222 70888210 156633179 2654043 4103660 6643232 21669224 70888212 156633199 2865485 4103672 6643238 21669226 70888216 156633203 3023094 4324023 6643240 21669228 70888218 156633209 3023096 4324025 6643242 21669230 70888220 156633211 3023098 4324029 6643244 21669232 70888222 156633225 3023100 4324031 6643248 21669234 70888224 156633229 3023102 4324037 6643250 21669236 70888228 156633237 3023104 4324039 6643254 21669238 70888230 156633241 3023106 4324043 6643256 21669240 70888232 156633245 3023108 4324047 6643258 21669242 70888234 156633253 3023110 4324055 6643268 21669244 70888236 156633255 3023112 4324057 6643272 21669248 70888238 156633267 3023114 4324061 6643274 21669252 70888240 156633283 3023116 4324063 6643276 21669254 70888242 157093725 3023118 4324067 6643278 21669256 70888244 170684323 3023120 4324069 6643280 21669260 70888246 170684325 3023122 4324073 6643282 21669262 70888248 170684329 3023126 4324075 6643286 21669264 70888250 170684331 3023130 4324077 6643290 21669266 70888252 170684333 3023132 4324085 6643292 21669268 70888254 170684335 3091153 4324087 6643294 21669270 70888258 170684339 3091155 4324089 6643296 21669272 70888260 170684341 3091157 4324091 6643302 21669274 70888262 170684345 3091159 4324093 6643304 21669276 70888264 170684349 3091161 4324097 6643308 21669278 70888266 170684351 3091163 4324103 6643314 21669280 70888268 170684355 3091165 4324107 6643318 21669288 70888270 170684363 3091167 4324111 6643328 21998780 70888272 170684365 3091169 4324113 6643344 21998782 70888274 170684369 3091171 4324115 6643352 21998784 70888276 170684371 3091173 4324117 6643354 21998786 70888278 170684373 3091175 4324123 6643358 21998792 70888280 170684375 3091177 4324125 6643360 21998794 70888282 170684379 3091179 4324127 6643362 21998800 70888284 170684381 3091181 4324139 6643366 21998802 70888286 170684385 3091183 4324145 6643368 21998804 70888288 170684387 3091185 4324151 6643374 23194484 70888290 170684389 3091187 4324155 6643376 23194488 70888292 170684397 3091191 4324157 6643378 23194492 70888294 170684405 3091193 4324159 6643382 23194496 70888296 170684407 3091195 4324163 6643386 23343556 70888304 170684409 3091197 4324169 6643390 24474079 70888306 170684411 3091201 4324175 6643392 27369031 71482628 170684417 3091203 4324177 6643402 27369033 71482632 170684419 3091205 4324181 6643416 27369035 77378177 170684423 3091207 4324187 6643418 27369037 77378188 170684425 3091209 4324189 6643424 27369045 77378257 170684427 3091213 4324193 6643428 27369047 77378266 170684429 3093861 4324197 6643436 27369051 77378268 170684431 3093863 4324199 6643446 27369053 77378270 170684433 3093865 4324205 6643448 27369058 77378273 170684439 3093867 4324207 6643450 27369060 77378277 170684443 3093869 4324209 6643452 27369064 77378280 170684449 3093871 4324211 6643456 27369068 77378282 170684451 3093873 4324213 6643470 27369075 77378284 170684453 3093875 4324215 6643474 27369082 77378286 170684461 3093877 4324221 6643478 27369084 77378288 170684469 3093879 4324223 6643484 27369088 77378291 170684473 3093881 4324229 6643488 27818828 77378293 170684489 3093883 4324231 6643492 28394695 77378298 170684495 3093885 4324245 6643500 28394699 77378300 170684497 3093887 4324247 6643512 28394703 77378303 170684499 3093889 4324249 6643514 28394707 77378305 170684501 3093891 4324251 6643528 28394711 77378307 170684507 3093895 4324255 6643534 28394715 77378309 170684513 3093903 4324257 6643558 28848877 77378312 170684515 3142451 4324261 6643560 28848881 77378316 170684517 3142453 4324263 6643562 28848885 77378318 170684527 3142455 4324265 6643564 29342115 77378320 170684531 3142457 4324271 6643572 33304654 77378322 170684535 3142459 4324273 6643574 40647151 77378377 170684537 3142461 4324275 6643580 47271301 77378379 170684539 3142465 4324283 6643582 47271303 77378381 170684541 3142467 4324285 6643584 47271319 77378383 170684545 3142471 4468355 6643586 47271321 77378385 170684549 3142475 4468367 6643588 47271323 77378387 170684553 3142477 4468369 6643592 47271325 77378389 170684555 3142479 4468371 6643596 50199320 77378392 170684557 3142481 4565964 6643598 50199322 77378394 170684561 3142483 4565966 6643600 50199328 77378396 170684565 3142485 4565996 6643602 50199330 77378398 170684567 3142487 4566007 6643604 50199338 77378400 170684569 3142489 4566009 6643606 50199340 77378402 170684571 3142491 4566016 6643614 50871689 77379590 170684583 3142493 4566021 6643628 51103426 77379620 170684589 3142495 4566023 6643630 51103428 77379622 170684591 3142497 4566025 6649891 51103430 77379624 170684593 3142499 4566029 6649893 51103434 77379632 170684597 3142503 4566045 8920222 51103436 77379642 170684599 3142505 4566049 8920226 51103572 77379644 170684601 3142507 4566051 9864840 51103574 77379646 170684603 3142509 4566053 9968383 51103576 77379675 170684607 3142511 4566055 9968385 51103588 77379677 170684609 3142515 4566057 9968387 51103590 77379726 170684613 3142517 4566059 9968389 51103592 77379728 170684617 3142519 4566061 9968391 51103600 77379730 170684619 3142521 4566065 9968393 51103602 77379738 3142527 4566074 9968395 51103606 77379740 相关申请 本申请要求2007年9月14日申请的美国临时申请顺序号60/993,785的优先权,该申请通过引用全部结合到本文中。 |