合理设计的合成抗体文库及其用途

申请号 CN200880116593.0 申请日 2008-09-12 公开(公告)号 CN101855242A 公开(公告)日 2010-10-06
申请人 阿迪马布公司; 发明人 M·瓦斯克斯; M·费尔德豪斯; T·U·格恩格罗斯; K·D·维特拉普;
摘要 本 发明 提供通过特别设计具有定向序列多样性和长度多样性的文库来克服产生编码 抗体 的多核苷酸文库已知方法的固有缺点的方法。所述文库被设计成反映由人免疫系统天然产生的免疫前抗体库并且基于对公众可获取的人抗体序列 数据库 的分析研究所获悉的合理设计。
权利要求

1.一种合成多核苷酸文库,其中所述多核苷酸编码至少106种独特的抗体CDRH3基酸序列,所述CDRH3氨基酸序列包含:
(i)0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1氨基酸序列相应位置上12个最频繁出现的氨基酸之中;
(ii)人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列;
(iii)0~约3个氨基酸的N2氨基酸序列,其中N2氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和
(iv)人CDRH3 H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。
2.一种抗体,所述抗体分离自权利要求1的文库的多肽表达产物。
3.权利要求1的文库,其中一种或多种CDRH3氨基酸序列还包含N-端尾残基。
4.权利要求3的文库,其中所述N-端尾残基选自G、D和E。
5.权利要求1的文库,其中所述N1氨基酸序列选自G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合。
6.权利要求1的文库,其中所述N2氨基酸序列选自G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合。
7.权利要求1的文库,其中所述H3-JH氨基酸序列选自AEYFQH、EYFQH、YFQH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV。
8.权利要求1的文库,其中所述多核苷酸还包含促进同源重组的5’多核苷酸序列和3’多核苷酸序列。
9.权利要求1的文库,其中所述多核苷酸还编码一种或多种是CDRH3氨基酸序列的N-端的重链chassis氨基酸序列,并且所述一种或多种重链chassis氨基酸序列选自由IGHV1-2、IGHV1-3、IGHV1-8、IGHV1-18、IGHV1-24、IGHV1-45、IGHV1-46、IGHV1-58、IGHV1-69、IGHV2-5、IGHV2-26、IGHV2-70、IGHV3-7、IGHV3-9、IGHV3-11、IGHV3-13、IGHV3-15、IGHV3-20、IGHV3-21、IGHV3-23、IGHV3-30、IGHV3-33、IGHV3-43、IGHV3-48、IGHV3-49、IGHV3-53、IGHV3-64、IGHV3-66、IGHV3-72、IGHV3-73、IGHV3-74、IGHV4-4、IGHV4-28、IGHV4-31、IGHV4-34、IGHV4-39、IGHV4-59、IGHV4-61、IGHV4-B、IGHV5-51、IGHV6-1和IGHV7-4-1编码的约Kabat氨基酸1~约Kabat氨基酸94,或者与它们之中的任一个有至少约80%同一性的序列。
10.权利要求1的文库,其中所述多核苷酸还编码一种或多种是CDRH3氨基酸序列的C-端的FRM4氨基酸序列,其中所述一种或多种FRM4氨基酸序列选自由IGHJ1、IGHJ2、IGHJ3、IGHJ4、IGHJ5和IGHJ6编码的FRM4氨基酸序列,或者与它们之中的任一个有至少约80%同一性的序列。
11.权利要求10的文库,其中所述多核苷酸还编码一种或多种是FRM4氨基酸序列的C-端的免疫球蛋白重链恒定区氨基酸序列。
12.权利要求11的文库,其中所述CDRH3氨基酸序列表达为全长重链的组成部分。
13.权利要求12的文库,其中所述全长重链选自IgG1、IgG2、IgG3和IgG4或其组合。
14.权利要求1的文库,其中所述多核苷酸还编码替代性支架
15.权利要求1的文库,其中所述CDRH3氨基酸序列的长度为约2~约30、约8~约19或约10~约18个氨基酸残基。
16.权利要求1的文库,其中所述文库的合成多核苷酸编码约106~约1014、约107~约1013、约108~约1012、约109~约1012或约1010~约1012种独特的CDRH3氨基酸序列。
17.一种多肽文库,所述多肽文库由权利要求1的合成多核苷酸文库编码。
18.一种载体文库,所述载体文库包含权利要求1的多核苷酸文库。
19.一种细胞群,所述细胞包含权利要求18的载体。
20.权利要求19的细胞群,其中所述细胞群的倍增时间为约1小时~约3小时、约3小时~约8小时、约8小时~约16小时、约16小时~约20小时或20小时~约30小时。
21.权利要求19的细胞群,其中所述细胞是酵母细胞。
22.权利要求21的酵母细胞,其中所述酵母是酿酒酵母(Saccharomyces cerevisiae)。
23.一种合成多核苷酸文库,其中所述文库的总的理论多样性为N种独特的CDRH3序列,其中N为约106~约1015;并且其中物理实现的总的理论CDRH3多样性的大小为至少约3N,因此得出包含在文库总的理论多样性内的任何个别CDRH3序列存在于实际文库中的概率为至少约95%。
24.一种合成多核苷酸文库,其中所述多核苷酸编码至少约106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列包含:
(i)0~约3个氨基酸的N1氨基酸序列,其中:
(a)最N-端的N1氨基酸,如果存在,则选自R、G、P、L、S、A、V、K、I、Q、T和D;
(b)第二最N-端的N1氨基酸,如果存在,则选自G、P、R、S、L、V、E、A、D、I、T和K;和
(c)第三最N-端的N1氨基酸,如果存在,则选自G、R、P、S、L、A、V、T、E、D、K和F;
(ii)人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列;
(iii)0~约3个氨基酸的N2氨基酸序列,其中:
(a)最N-端的N2氨基酸,如果存在,则选自G、P、R、L、S、A、T、V、E、D、F和H;
(b)第二最N-端的N2氨基酸,如果存在,则选自G、P、R、S、T、L、A、V、E、Y、D和K;和
(c)第三最N-端的N2氨基酸,如果存在,则选自G、P、S、R、L、A、T、V、D、E、W和Q;和
(iv)人CDRH3H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。
25.一种抗体,所述抗体分离自权利要求24的文库的多肽表达产物。
26.一种合成多核苷酸文库,其中所述多核苷酸编码至少约106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列与下式所表示的氨基酸序列有至少约80%相同:
[X]-[N1]-[DH]-[N2]-[H3-JH],其中:
(i)X是任何氨基酸残基或无氨基酸残基;
(ii)N1是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;
(iii)DH是选自以下的氨基酸序列:由IGHD1-1、IGHD1-20、IGHD1-26、IGHD1-7、IGHD2-15、IGHD2-2、IGHD2-21、IGHD2-8、IGHD3-10、IGHD3-16、IGHD3-22、IGHD3-3、IGHD3-9、IGHD4-17、IGHD4-23、IGHD4-4、IGHD-4-11、IGHD5-12、IGHD5-24、IGHD5-5、IGHD-5-18、IGHD6-13、IGHD6-19、IGHD6-25、IGHD6-6和IGHD7-27编码的不包括终止密码子的所有可能读框及其N-端和C-端截短;
(iv)N2是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;和
(v)H3-JH是选自以下的氨基酸序列:AEYFQH、EYFQH、YFQH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV,或者与它们之中的任一个有至少80%同一性的序列。
27.一种抗体,所述抗体分离自权利要求26的文库的多肽表达产物。
28.一种合成多核苷酸文库,其中所述文库基本由众多多核苷酸组成,所述多核苷酸编码与下式所表示的氨基酸序列有至少约80%相同的CDRH3氨基酸序列:
[X]-[N1]-[DH]-[N2]-[H3-JH],其中:
(i)X是任何氨基酸残基或无氨基酸残基;
(ii)N1是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;
(iii)DH是选自以下的氨基酸序列:由IGHD1-1、IGHD1-20、IGHD1-26、IGHD1-7、IGHD2-15、IGHD2-2、IGHD2-21、IGHD2-8、IGHD3-10、IGHD3-16、IGHD3-22、IGHD3-3、IGHD3-9、IGHD4-17、IGHD4-23、IGHD4-4、IGHD-4-11、IGHD5-12、IGHD5-24、IGHD5-5、IGHD-5-18、IGHD6-13、IGHD6-19、IGHD6-25、IGHD6-6和IGHD7-27编码的不包括终止密码子的所有可能读框及其N-端和C-端截短;
(iv)N2是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;和
(v)H3-JH是选自以下的氨基酸序列:AEYFQH、EYFQH、YFQH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV,或者与它们之中的任一个有至少80%同一性的序列。
29.一种抗体,所述抗体分离自权利要求28的文库的多肽表达产物。
30.一种合成多核苷酸文库,其中所述多核苷酸编码一种或多种抗体重链氨基酸序列,并且其中所述重链的独特CDRH3氨基酸序列包含:
(i)0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1氨基酸序列相应位置上12个最频繁出现的氨基酸之中;
(ii)人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列;
(iii)0~约3个氨基酸的N2氨基酸序列,其中N2氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和
(iv)人CDRH3H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。
31.一种抗体,所述抗体分离自权利要求30的文库的多肽表达产物。
32.一种合成多核苷酸文库,其中所述多核苷酸编码众多抗体VKCDR3氨基酸序列,所述VKCDR3氨基酸序列在衍生自特定IGKV或IGKJ种系序列的选定VKCDR3氨基酸序列中包含在Kabat位置89、90、91、92、93、94、95、95A、96和97上存在的约1~约10个氨基酸。
33.权利要求32的文库,其中所述合成多核苷酸编码表33中所列举的氨基酸序列中的一个或多个或与表33中所列举的氨基酸序列中的任一个有至少约80%相同的序列。
34.一种抗体,所述抗体分离自权利要求32的文库的多肽表达产物。
35.一种合成多核苷酸文库,其中所述多核苷酸编码众多独特的抗体VKCDR3氨基酸序列,所述VKCDR3氨基酸序列与下式所表示的氨基酸序列有至少约80%同一性:
[VK_Chassis]-[L3-VK]-[X]-[JK*],其中:
(i)VK_Chassis是选自以下的氨基酸序列:由IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列;
(ii)L3-VK是由IGKV基因区段编码的VKCDR3部分;和
(iii)X是任何氨基酸残基;和
(iv)JK*是氨基酸序列,选自由IGJK1、IGJK2、IGJK3、IGJK4和IGJK5编码的氨基酸序列,其中每个氨基酸序列的第一个氨基酸残基不存在。
36.一种抗体,所述抗体分离自权利要求35文库的多肽表达产物。
37.权利要求35的文库,其中X选自F、L、I、R、W、Y和P。
38.一种合成多核苷酸文库,其中所述多核苷酸编码众多VλCDR3氨基酸序列,所述VλCDR3氨基酸序列都与下式所表示的氨基酸序列有至少约80%同一性:
[Vλ_Chassis]-[L3-Vλ]-[Jλ],其中:
(iP)VλChassis是选自以下的氨基酸序列:由IGλV1-36、IGλV1-40、IGλV1-44、IGλV1-47、IGλV1-51、IGλV10-54、IGλV2-11、IGλV2-14、IGλV2-18、IGλV2-23、IGλV2-8、IGλV3-1、IGλV3-10、IGλV3-12、IGλV3-16、IGλV3-19、IGλV3-21、IGλV3-25、IGλV3-27、IGλV3-9、IGλV4-3、IGλV4-60、IGλV4-69、IGλV5-39、IGλV5-45、IGλV6-57、IGλV7-43、IGλV7-46、IGλV8-61、IGλV9-49和IGλV10-54编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列;
(ii)L3-Vλ是由IGλV区段编码的VλCDR3部分;和
(iii)Jλ是氨基酸序列,选自由IGλJ1-01、IGλJ2-01、IGλJ3-01、IGλJ3-02、IGλJ6-01、IGλJ7-01和IGλJ7-02编码的氨基酸序列,并且其中每个序列的第一个氨基酸残基可以缺失或可以不缺失。
39.一种抗体,所述抗体分离自权利要求38的文库的多肽表达产物。
40.一种合成多核苷酸文库,其中所述多核苷酸编码众多抗体蛋白,所述抗体蛋白包含:
(i)权利要求1的CDRH3氨基酸序列;和
(ii)在衍生自特定IGKV或IGKJ种系序列的选定VKCDR3氨基酸序列中包含在Kabat位置89、90、91、92、93、94、95、95A、96和97上存在的约1~约10个氨基酸的VKCDR3氨基酸序列。
41.权利要求40的文库,其中所述VKCDR3氨基酸序列包含表33中所列举的氨基酸序列中的一个或多个或与表33中所列举的氨基酸序列中的任一个有至少约80%相同的序列。
42.一种抗体,所述抗体分离自权利要求40的文库。
43.权利要求40的文库,其中所述抗体蛋白以异二聚体形式表达。
44.权利要求40的文库,其中所述抗体蛋白表达为抗体片段
45.权利要求44的文库,其中所述抗体片段选自Fab、Fab′、F(ab′)2、Fv片段、双链抗体、线性抗体和单链抗体。
46.一种合成多核苷酸文库,其中所述多核苷酸编码众多抗体蛋白,所述抗体蛋白包含:
(i)权利要求1的CDRH3氨基酸序列;和
(ii)与下式所表示的氨基酸序列有至少约80%同一性的VKCDR3氨基酸序列:
[VK_Chassis]-[L3-VK]-[X]-[JK*],其中:
(a)VK_Chassis是选自以下的氨基酸序列:由IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列;
(b)L3-VK是由IGKV基因区段编码的VKCDR3部分;和
(c)X是任何氨基酸残基;和
(d)JK*是氨基酸序列,选自由IGJK1、IGJK2、IGJK3、IGJK4和IGJK5编码的氨基酸序列,其中每个IGJK氨基酸序列的第一个残基不存在。
47.一种抗体,所述抗体分离自权利要求46的文库。
48.一种合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+1对中的至少一对在CDRH3氨基酸序列的中心环内出现的百分比在下列规定范围内:
Tyr-Tyr的量为约2.5%~约6.5%;
Ser-Gly的量为约2.5%~约4.5%;
Ser-Ser的量为约2%~约4%;
Gly-Ser的量为约1.5%~约4%;
Tyr-Ser的量为约0.75%~约2%;
Tyr-Gly的量为约0.75%~约2%;和
Ser-Tyr的量为约0.75%~约2%。
49.权利要求48的文库,其中在该文库中规定的i-i+1对中的至少2、3、4、5、6或7对在规定的范围内。
50.一种抗体,所述抗体分离自权利要求48的文库的多肽表达产物。
51.权利要求48的文库,其中所述多核苷酸编码至少约106种独特的CDRH3氨基酸序列。
52.一种合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+2对中的至少一对在CDRH3氨基酸序列的中心环内出现的百分比在下列规定范围内:
Tyr-Tyr的量为约2.5%~约4.5%;
Gly-Tyr的量为约2.5%~约5.5%;
Ser-Tyr的量为约2%~约4%;
Tyr-Ser的量为约1.75%~约3.75%;
Ser-Gly的量为约2%~约3.5%;
Ser-Ser的量为约1.5%~约3%;
Gly-Ser的量为约1.5%~约3%;和
Tyr-Gly的量为约1%~约2%。
53.权利要求52的文库,其中在该文库中规定的i-i+2对中的至少2、3、4、5、6、7或8对在规定的范围内。
54.一种抗体,所述抗体分离自权利要求52的文库的多肽表达产物。
55.权利要求52的文库,其中所述多核苷酸编码至少约106种独特的CDRH3氨基酸序列。
56.一种合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+3对中的至少一对在CDRH3氨基酸序列的中心环内出现的百分比在下列规定范围内:
Gly-Tyr的量为约2.5%~约6.5%;
Ser-Tyr的量为约1%~约5%;
Tyr-Ser的量为约2%~约4%;
Ser-Ser的量为约1%~约3%;
Gly-Ser的量为约2%~约5%;和
Tyr-Tyr的量为约0.75%~约2%。
57.权利要求56的文库,其中在该文库中规定的i-i+3对中的至少2、3、4、5或6对在规定的范围内。
58.一种抗体,所述抗体分离自权利要求56的文库的多肽表达产物。
59.权利要求56的文库,其中所述多核苷酸编码至少约106种独特的CDRH3氨基酸序列。
60.一种制备合成多核苷酸文库的方法,所述方法包括提供和装配权利要求1、24、26、28、30、32、35、38、40、46、48、52和56中任一项的多核苷酸序列。
61.一种制备编码众多抗体CDRH3氨基酸序列的合成多核苷酸文库的方法,所述方法包括:
(i)提供多核苷酸序列,其编码:
(a)一种或多种0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1氨基酸序列相应位置上12个最频繁出现的氨基酸之中;
(b)一种或多种人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列;
(c)一种或多种0~约3个氨基酸的N2氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和
(d)一种或多种人CDRH3H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列;和
(ii)装配所述多核苷酸序列,产生编码众多人抗体CDRH3氨基酸序列的合成多核苷酸文库,所述CDRH3氨基酸序列由下式表示:
[N1]-[DH]-[N2]-[H3-JH]。
62.权利要求61的方法,其中所述一种或多种多核苷酸序列通过分合合成法进行合成。
63.权利要求61的方法,所述方法还包括提供促进同源重组的5’多核苷酸序列和3’多核苷酸序列的步骤。
64.权利要求61的方法,所述方法还包括使装配的合成多核苷酸与包含重链chassis和重链恒定区的载体重组而形成全长重链的步骤。
65.权利要求64的方法,其中所述重组步骤在酵母中进行。
66.权利要求65的方法,其中所述酵母是酿酒酵母。
67.一种分离一种或多种宿主细胞的方法,所述细胞表达一种或多种抗体,所述方法包括:
(i)在一种或多种宿主细胞中表达权利要求40和46中任一项的抗体,
(ii)使宿主细胞与一种或多种抗原接触;和
(iii)分离一种或多种具有与一种或多种抗原结合的抗体的宿主细胞。
68.权利要求67的方法,所述方法还包括从一种或多种宿主细胞中分离出一种或多种抗体。
69.权利要求67的方法,所述方法还包括从一种或多种宿主细胞中分离出编码一种或多种抗体的一种或多种多核苷酸序列的步骤。
70.一种试剂盒,所述试剂盒包含权利要求1的合成多核苷酸文库。
71.一种计算机可读形式的CDRH3氨基酸序列,所述CDRH3氨基酸序列由权利要求1、24、26、28、30、32、35、38、40、46、48、52和56中任一项的合成多核苷酸文库编码。

说明书全文

发明背景

抗体作为研究工具以及在诊断和治疗应用中具有重要意义。然而,有用抗体的鉴定十分困难,而且一旦被鉴定出来,常常需要相当可观的重新设计或‘人源化’后,才适合于治疗用途

用于鉴定所需抗体的现有方法通常包括代表性抗体的噬菌体展示,所述代表性抗体例如通过扩增得自B细胞或组织的核酸而获得的人文库(human libraries),又或者合成文库。然而,这些方法都有局限性。例如,本领域已知的大多数人抗体文库只含有可通过实验从来源(例如B细胞)俘获或克隆的抗体序列多样性。因此,人抗体文库可能完全缺乏或不足以代表某些有用的抗体序列。本领域已知的合成文库或共有序列文库还有其它局限性,例如编码非天然存在(例如非人类)的具有免疫原性潜的序列的可能。此外,本领域的某些合成文库受以下两种限制中的至少一种所困:(1)文库在理论上可能含有的成员数目(即理论多样性(theoretical diversity))可能大于实际上可以合成的成员数目,和(2)实际合成的成员数目可能大得无法筛选出物理实现(physical realization)的文库中的每个成员,因此降低了可以分离具有特定性质的文库成员的概率。

例如,能够筛选出1012个文库成员的物理实现的文库(例如酵母展示、噬菌体展示、核糖体展示等)可能只采集到包含在具有1013个成员的文库中的序列的约10%。假定CDRH3长度中位值约为12.7个基酸(Rock等,J.Exp.Med.,1994,179:323-328),仅CDRH3中的理论序列变异体数就大约有2012.7种,即约3.3×1016种变异体。这一数字未计入发生在CDRH1和CDRH2、重链构架区以及与不同轻链配对中的已知变异,每条轻链还在其相应的CDRL1、CDRL2和CDRL3中具有变异。最后,从这些文库中分离出的抗体常常不适于改进候选分子结合的合理亲和力成熟技术。

因此,存在对具有有系统地代表候选抗体的定向多样性(directeddiversity)的较小(即能够合成和物理实现的)抗体文库的需要,所述候选抗体是非免疫原性的(即更似人的)并具有所需性质(例如识别大量抗原的能力)。然而,要获得这类文库需要权衡限制文库所代表的序列多样性(使得能够合成和物理实现,可能具有超采样(oversampling),同时限制引入非人类序列)而同时保持足以识别大量抗原的多样性平的竞争目的。在本发明之前,本领域已知“虽然含有重链CDR3长度多样性的文库已有报道,但是无法合成编码天然重链CDR3库(repertoire)中存在的序列多样性和长度多样性两者的DNA”(Hoet等,Nat.Biotechnol.,2005,23:344,通过引用其全部予以结合)。

因此,最好是具有下列特征(a)~(e)的抗体文库:(a)可以容易地合成,(b)可以物理实现并且在某些情况下可以超采样,(c)含有足够的多样性以识别由免疫前人抗体库(preimmune human repertoire)所识别的所有抗原(即在负选择之前),(d)在人体内是非免疫原性的(即包含人源序列),和(e)含有CDR长度多样性和序列多样性,以及构架多样性,代表了天然存在的人抗体。本发明的实施方案至少首次提供具有这些所需特征的抗体文库(antibody libraries)。

发明概述

本发明至少涉及多个合成多核苷酸文库、产生和使用本发明文库的方法、包括本发明文库的试剂盒和计算机可读形式。在一些实施方案中,本发明的文库被设计成反映由人免疫系统天然产生的免疫前抗体库(preimmune repertoire),并且本发明的文库基于对公众可获取的人抗体序列数据库的分析研究所获悉的合理设计。应当了解的是,下文中描述了本发明的某些非限制性实施方案。正如本说明书全文中所描述的一样,本发明还包括许多其它的实施方案。

在某些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码至少106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列包含:

(i)0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1氨基酸序列相应位置上12个最频繁出现的氨基酸之中;

(ii)人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列;

(iii)0~约3个氨基酸的N2氨基酸序列,其中N2氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和

(iv)人CDRH3H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。

在其它实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码至少约106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列包含:

(i)0~约3个氨基酸的N1氨基酸序列,其中:

(a)最N-端的N1氨基酸,如果存在,则选自R、G、P、L、S、A、V、K、I、Q、T和D;

(b)第二最N-端的N1氨基酸,如果存在,则选自G、P、R、S、L、V、E、A、D、I、T和K;和

(c)第三最N-端的N1氨基酸,如果存在,则选自G、R、P、S、L、A、V、T、E、D、K和F;

(ii)人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列;

(iii)0~约3个氨基酸的N2氨基酸序列,其中:

(a)最N-端的N2氨基酸,如果存在,则选自G、P、R、L、S、A、T、V、E、D、F和H;

(b)第二最N-端的N2氨基酸,如果存在,则选自G、P、R、S、T、L、A、V、E、Y、D和K;和

(c)第三最N-端的N2氨基酸,如果存在,则选自G、P、S、R、L、A、T、V、D、E、W和Q;和

(iv)人CDRH3 H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。

在又一些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码至少约106种独特的抗体CDRH3氨基酸序列,所述CDRH3氨基酸序列与下式所表示的氨基酸序列有至少约80%相同:

[X]-[N1]-[DH]-[N2]-[H3-JH],其中:

(i)X是任何氨基酸残基或无氨基酸残基;

(ii)N1是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;

(iii)DH是选自以下的氨基酸序列:由IGHD1-1、IGHD1-20、IGHD1-26、IGHD1-7、IGHD2-15、IGHD2-2、IGHD2-21、IGHD2-8、IGHD3-10、IGHD3-16、IGHD3-22、IGHD3-3、IGHD3-9、IGHD4-17、IGHD4-23、IGHD4-4、IGHD-4-11、IGHD5-12、IGHD5-24、IGHD5-5、IGHD-5-18、IGHD6-13、IGHD6-19、IGHD6-25、IGHD6-6和IGHD7-27编码的不包括终止密码子的所有可能读框及其N-端和C-端截短;

(iv)N2是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;和

(v)H3-JH是选自以下的氨基酸序列:AEYFQH、EYFQH、YFQH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV,或者与它们之中的任一个有至少80%同一性的序列。

在又一个实施方案中,本发明包括其中所述文库基本由众多多核苷酸组成,所述多核苷酸编码与下式所表示的氨基酸序列有至少约80%相同的CDRH3氨基酸序列:

[X]-[N1]-[DH]-[N2]-[H3-JH],其中:

(i)X是任何氨基酸残基或无氨基酸残基;

(ii)N1是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;

(iii)DH是选自以下的氨基酸序列:由IGHD1-1、IGHD1-20、IGHD1-26、IGHD1-7、IGHD2-15、IGHD2-2、IGHD2-21、IGHD2-8、IGHD3-10、IGHD3-16、IGHD3-22、IGHD3-3、IGHD3-9、IGHD4-17、IGHD4-23、IGHD4-4、IGHD-4-11、IGHD5-12、IGHD5-24、IGHD5-5、IGHD-5-18、IGHD6-13、IGHD6-19、IGHD6-25、IGHD6-6和IGHD7-27编码的不包括终止密码子的所有可能读框及其N-端和C-端截短;

(iv)N2是选自以下的氨基酸序列:G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合;和

(v)H3-JH是选自以下的氨基酸序列:AEYFQH、EYFQH、YFOH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV,或者与它们之中的任一个有至少80%同一性的序列。

在另一个实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码一种或多种全长抗体重链序列,并且其中该重链的CDRH3氨基酸序列包含:

(i)0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1氨基酸序列相应位置上12个最频繁出现的氨基酸之中;

(ii)人CDRH3 DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列;

(iii)0~约3个氨基酸的N2氨基酸序列,其中N2氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和

(iv)人CDRH3 H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列。

下面的实施方案可贯穿应用于本发明的实施方案。一方面,一种或多种CDRH3氨基酸序列还包含N-端尾残基。又一方面,N-端尾残基选自G、D和E。

再一方面,N1氨基酸序列选自G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合。在某些其它方面,N1氨基酸序列可以有约0~约5个氨基酸。

再一方面,N2氨基酸序列选自G、P、R、A、S、L、T、V、GG、GP、GR、GA、GS、GL、GT、GV、PG、RG、AG、SG、LG、TG、VG、PP、PR、PA、PS、PL、PT、PV、RP、AP、SP、LP、TP、VP、GGG、GPG、GRG、GAG、GSG、GLG、GTG、GVG、PGG、RGG、AGG、SGG、LGG、TGG、VGG、GGP、GGR、GGA、GGS、GGL、GGT、GGV、D、E、F、H、I、K、M、Q、W、Y、AR、AS、AT、AY、DL、DT、EA、EK、FH、FS、HL、HW、IS、KV、LD、LE、LR、LS、LT、NR、NT、QE、QL、QT、RA、RD、RE、RF、RH、RL、RR、RS、RV、SA、SD、SE、SF、SI、SK、SL、SQ、SR、SS、ST、SV、TA、TR、TS、TT、TW、VD、VS、WS、YS、AAE、AYH、DTL、EKR、ISR、NTP、PKS、PRP、PTA、PTQ、REL、RPL、SAA、SAL、SGL、SSE、TGL、WGT及其组合。在某些其它方面,N2序列可以有约0~约5个氨基酸。

再一方面,H3-JH氨基酸序列选自AEYFQH、EYFQH、YFQH、FQH、QH、H、YWYFDL、WYFDL、YFDL、FDL、DL、L、AFDV、FDV、DV、V、YFDY、FDY、DY、Y、NWFDS、WFDS、FDS、DS、S、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV和MDV。

在其它实施方案中,本发明包括合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+1对中的至少一对在CDRH3氨基酸序列的中心环(central loop)内出现的百分比在下列规定范围内:

Tyr-Tyr的量为约2.5%~约6.5%;

Ser-Gly的量为约2.5%~约4.5%;

Ser-Ser的量为约2%~约4%;

Gly-Ser的量为约1.5%~约4%;

Tyr-Ser的量为约0.75%~约2%;

Tyr-Gly的量为约0.75%~约2%;和

Ser-Tyr的量为约0.75%~约2%。

在又一些实施方案中,本发明包括合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+2对中的至少一对在CDRH3氨基酸序列的中心环内出现的百分比在下列规定范围内:

Tyr-Tyr的量为约2.5%~约4.5%;

Gly-Tyr的量为约2.5%~约5.5%;

Ser-Tyr的量为约2%~约4%;

Tyr-Ser的量为约1.75%~约3.75%;

Ser-Gly的量为约2%~约3.5%;

Ser-Ser的量为约1.5%~约3%;

Gly-Ser的量为约1.5%~约3%;和

Tyr-Gly的量为约1%~约2%。

在另一个实施方案中,本发明包括合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中在该文库中,下列i-i+3对中的至少一对在CDRH3氨基酸序列的中心环内出现的百分比在下列规定范围内:

Gly-Tyr的量为约2.5%~约6.5%;

Ser-Tyr的量为约1%~约5%;

Tyr-Ser的量为约2%~约4%;

Ser-Ser的量为约1%~约3%;

Gly-Ser的量为约2%~约5%;和

Tyr-Tyr的量为约0.75%~约2%。

在本发明的一个方面,在该文库中,所述规定的i-i+1对中的至少2、3、4、5、6或7对在规定范围内。在另一个方面,CDRH3氨基酸序列是人的。在再一个方面,所述多核苷酸编码至少约106种独特的CDRH3氨基酸序列。

在本发明的其它方面,所述多核苷酸还编码一种或多种是CDRH3氨基酸序列的N-端的重链chassis氨基酸序列,并且所述一种或多种重链chassis序列选自由IGHV1-2、IGHV1-3、IGHV1-8、IGHV1-18、IGHV1-24、IGHV1-45、IGHV1-46、IGHV1-58、IGHV1-69、IGHV2-5、IGHV2-26、IGHV2-70、IGHV3-7、IGHV3-9、IGHV3-11、IGHV3-13、IGHV3-15、IGHV3-20、IGHV3-21、IGHV3-23、IGHV3-30、IGHV3-33、IGHV3-43、IGHV3-48、IGHV3-49、IGHV3-53、IGHV3-64、IGHV3-66、IGHV3-72、IGHV3-73、IGHV3-74、IGHV4-4、IGHV4-28、IGHV4-31、IGHV4-34、IGHV4-39、IGHV4-59、IGHV4-61、IGHV4-B、IGHV5-51、IGHV6-1和IGHV7-4-1编码的约Kabat氨基酸1~约Kabat氨基酸94,或者与它们之中的任一个有至少约80%同一性的序列。

在另一个方面,所述多核苷酸还编码一种或多种是CDRH3氨基酸序列的C-端的FRM4氨基酸序列,其中所述一种或多种FRM4氨基酸序列选自由IGHJ1、IGHJ2、IGHJ3、IGHJ4、IGHJ5和IGHJ6编码的FRM4氨基酸序列,或者与它们之中的任一个有至少约80%同一性的序列。在又一个方面,所述多核苷酸还编码一种或多种是FRM4序列的C-端的免疫球蛋白重链恒定区氨基酸序列。

在再一个方面,CDRH3氨基酸序列表达为全长重链的组成部分。在其它方面,全长重链选自IgG1、IgG2、IgG3和IgG4或其组合。在一个实施方案中,CDRH3氨基酸序列的长度为约2~约30、约8~约19或约10~约18个氨基酸残基。在其它方面,该文库中的合成多核苷酸编码约106~约1014、约107~约1013、约108~约1012、约109~约1012或约1010~约1012种独特的CDRH3氨基酸序列。

在某些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多抗体VKCDR3氨基酸序列,所述VKCDR3氨基酸序列在衍生自特定IGKV或IGKJ种系序列的选定VKCDR3氨基酸序列中包含在Kabat位置89、90、91、92、93、94、95、95A、96和97上存在的约1~约10个氨基酸。

一方面,所述合成多核苷酸编码表33中所列举的氨基酸序列中的一个或多个或与表33中所列举的氨基酸序列中的任一个有至少约80%相同的序列。

在一些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多独特的抗体VKCDR3氨基酸序列,所述VKCDR3氨基酸序列与下式所表示的氨基酸序列有至少约80%同一性:

[VK_Chassis]-[L3-VK]-[X]-[JK*],其中:

(i)VK_Chassis是选自以下的氨基酸序列:由IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列;

(ii)L3-VK是由IGKV基因区段(gene segment)编码的VKCDR3部分;和

(iii)X是任何氨基酸残基;和

(iv)JK*是氨基酸序列,选自由IGJK1、IGJK2、IGJK3、IGJK4和IGJK5编码的序列,其中每个IGJK序列的第一残基不存在。

在又一些方面,X可选自F、L、I、R、W、Y和P。

在某些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多VλCDR3氨基酸序列,所述VλCDR3氨基酸序列都与下式所表示的氨基酸序列有至少约80%同一性:

[Vλ_Chassis]-[L3-Vλ]-[Jλ],其中:

(i)Vλ_Chassis是选自以下的氨基酸序列:由IGλV1-36、IGλV1-40、IGλV1-44、IGλV1-47、IGλV1-51、IGλV10-54、IGλV2-11、IGλV2-14、IGλV2-18、IGλV2-23、IGλV2-8、IGλV3-1、IGλV3-10、IGλV3-12、IGλV3-16、IGλV3-19、IGλV3-21、IGλV3-25、IGλV3-27、IGλV3-9、IGλV4-3、IGλV4-60、IGλV4-69、IGλV5-39、IGλV5-45、IGλV6-57、IGλV7-43、IGλV7-46、IGλV8-61、IGλV9-49和IGλV10-54编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列;

(ii)L3-Vλ是由IGλV区段编码的VλCDR3部分;和

(iii)Jλ是氨基酸序列,选自由IGλJ1-01、IGλJ2-01、IGλJ3-01、IGλJ3-02、IGλJ6-01、IGλJ7-01和IGλJ7-02编码的序列,并且其中每个IGJλ序列的第一残基可以缺失或可以不缺失。

在进一步的方面,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多抗体蛋白,所述抗体蛋白包含:

(i)权利要求1的CDRH3氨基酸序列;和

(ii)在衍生自特定IGKV或IGKJ种系序列的选定VKCDR3序列中包含Kabat位置89、90、91、92、93、94、95、95A、96和97上存在的约1~约10个氨基酸的VKCDR3氨基酸序列。

在再进一步的方面,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多抗体蛋白,所述抗体蛋白包含:

(i)权利要求1的CDRH3氨基酸序列;和

(ii)与下式所表示的氨基酸序列有至少约80%同一性的VKCDR3氨基酸序列:

[VK_Chassis]-[L3-VK]-[X]-[JK*],其中:

(a)VK_Chassis是选自以下的氨基酸序列:由IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们之中的任一个有至少约80%同一性的序列;

(b)L3-VK是由IGKV基因区段编码的VKCDR3部分;和

(c)X是任何氨基酸残基;和

(d)JK*是氨基酸序列,选自由IGJK1、IGJK2、IGJK3、IGJK4和IGJK5编码的序列,其中每个IGJK序列的第一残基不存在。

在一些方面,VKCDR3氨基酸序列包含表33中所列举的序列中的一个或多个或与表33中所列举的序列中的任一个有至少约80%相同的序列。在其它方面,抗体蛋白以异二聚体形式表达。在又一方面,人抗体蛋白表达为抗体片段。在本发明另外的其它方面,抗体片段选自Fab、Fab′、F(ab′)2、Fv片段、双链抗体、线性抗体和单链抗体。

在某些实施方案中,本发明包括从本文所述任何文库的多肽表达产物中分离出来的抗体。

在又一些方面,所述多核苷酸还包含促进同源重组的5’多核苷酸序列和3’多核苷酸序列。

在一个实施方案中,所述多核苷酸还编码替代性支架(alternativescaffold)。

在另一个实施方案中,本发明包括由本文所述的任何合成多核苷酸文库编码的多肽文库。

在又一个实施方案中,本发明包括载体文库,所述载体文库包含本文所述的任何多核苷酸文库。在某些其它方面,本发明包括细胞群,所述细胞包含本发明的载体。

一方面,细胞群的倍增时间为约1小时~约3小时、约3小时~约8小时、约8小时~约16小时、约16小时~约20小时或20小时~约30小时。再一方面,所述细胞是酵母细胞。又一方面,所述酵母是酿酒酵母(Saccharomyces cerevisiae)。

在其它实施方案中,本发明包括具有总的理论多样性为N种独特的CDRH3序列的文库,其中N为约106~约1015;并且其中物理实现的总的理论CDRH3多样性的大小至少约为3N,因此得出包含在文库总的理论多样性内的任何个别CDRH3序列存在于实际文库中的概率为至少约95%。

在某些实施方案中,本发明包括合成多核苷酸文库,其中所述多核苷酸编码众多抗体VλCDR3氨基酸序列,所述VλCDR3氨基酸序列在由单一种系序列编码的选定VλCDR3序列中包含在Kabat位置89、90、91、92、93、94、95、95A、95B、95C、96和97上存在的约1~约10个氨基酸。

在一些实施方案中,本发明涉及合成多核苷酸文库,所述多核苷酸编码众多抗体CDRH3氨基酸序列,其中该文库的总的理论多样性为约106~约1015种独特的CDRH3序列。

在又一些实施方案中,本发明涉及制备编码众多抗体VK氨基酸序列的合成多核苷酸文库的方法,该方法包括:

(i)提供多核苷酸序列,其编码:

(a)一种或多种VK_Chassis氨基酸序列,选自由IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41编码的约Kabat氨基酸1~约Kabat氨基酸88,或者与它们中的任一个有至少约80%同一性的序列;

(b)一种或多种L3-VK氨基酸序列,其中L3-VK是由IGKV基因区段编码的VKCDR3氨基酸序列部分;

(c)一个或多个X残基,其中X是任何氨基酸残基;和

(d)一种或多种JK*氨基酸序列,其中JK*是氨基酸序列,选自由IGKJ1、IGKJ2、IGKJ3、IGKJ4和IGKJ5编码的氨基酸序列,其中每个序列的第一个氨基酸残基不存在;和

(ii)装配所述多核苷酸序列,产生编码众多人VK序列的合成多核苷酸文库,所述人VK序列由下式表示:

[VK_Chassis]-[L3-VK]-[X]-[JK*]。

在一些实施方案中,本发明涉及制备编码众多抗体轻链CDR3序列的合成多核苷酸文库的方法,该方法包括:

(i)测定在衍生自单一种系多核苷酸序列的选定轻链CDR3氨基酸序列中每个位置上每种氨基酸残基出现的百分比;

(ii)设计编码众多人抗体轻链CDR3氨基酸序列的合成多核苷酸,其中在设计的轻链CDR3氨基酸序列内任何位置上的任何氨基酸的出现百分比在衍生自单一种系多核苷酸序列的选定轻链CDR3氨基酸序列的出现百分比在至少约30%的范围内,如(i)中测定的一样;和

(iii)合成一种或多种在(ii)中设计出的多核苷酸。

在其它实施方案中,本发明涉及制备编码众多抗体Vλ氨基酸序列的合成多核苷酸文库的方法,该方法包括:

(i)提供多核苷酸序列,其编码:

(a)一种或多种Vλ_Chassis氨基酸序列,选自由IGλV1-36、IGλV1-40、IGλV1-44、IGλV1-47、IGλV1-51、IGλV10-54、IGλV2-11、IGλV2-14、IGλV2-18、IGλV2-23、IGλV2-8、IGλV3-1、IGλV3-10、IGλV3-12、IGλV3-16、IGλV3-19、IGλV3-21、IGλV3-25、IGλV3-27、IGλV3-9、IGλV4-3、IGλV4-60、IGλV4-69、IGλV5-39、IGλV5-45、IGλV6-57、IGλV7-43、IGλV7-46、IGλV8-61、IGλV9-49和IGλV10-54编码的约Kabat残基1~约Kabat残基88,或者与它们中的任一个有至少约80%相同的序列;

(b)一种或多种L3-Vλ序列,其中L3-Vλ是由IGλV基因区段编码的VλCDR3氨基酸序列部分;

(c)一种或多种Jλ序列,其中Jλ是氨基酸序列,选自由IGλJ1-01、IGλJ2-01、IGλJ3-01、IGλJ3-02、IGλJ6-01、IGλJ7-01和IGλJ7-02编码的氨基酸序列,其中每个序列的第一个氨基酸残基可以存在或可以不存在;和

(ii)装配所述多核苷酸序列,产生编码众多人Vλ氨基酸序列的合成多核苷酸文库,所述人Vλ氨基酸序列由下式表示:

[Vλ_Chassis]-[L3-Vλ]-[Jλ]。

在某些实施方案中,由本发明文库中的多核苷酸编码的氨基酸序列是人氨基酸序列。

本发明还涉及制备合成多核苷酸文库的方法,该方法包括提供和装配本发明的多核苷酸序列。

在另一个方面,本发明包括制备编码众多抗体CDRH3氨基酸序列的合成多核苷酸文库的方法,该方法包括:

(i)提供多核苷酸序列,其编码:

(a)一种或多种约0~约3个氨基酸的N1氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N1序列相应位置上12个最频繁出现的氨基酸之中;

(b)一种或多种人CDRH3DH氨基酸序列、其N-端和C-端截短、或者与它们之中的任一个有至少约80%同一性的序列;

(c)一种或多种约0~约3个氨基酸的N2氨基酸序列,其中N1氨基酸序列中的每个氨基酸都处在由人B细胞功能性表达的CDRH3氨基酸序列中的N2氨基酸序列相应位置上12个最频繁出现的氨基酸之中;和

(d)一种或多种人CDRH3H3-JH氨基酸序列、其N-端截短、或者与它们之中的任一个有至少约80%同一性的序列;和

(ii)装配所述多核苷酸序列,产生编码众多人抗体CDRH3氨基酸序列的合成多核苷酸文库,所述CDRH3氨基酸序列由下式表示:

[N1]-[DH]-[N2]-[H3-JH]。

在一个方面,一种或多种多核苷酸序列通过分合合成法(split-poolsynthesis)进行合成。

在另一个方面,本发明的方法还包括使装配的合成多核苷酸与包含重链chassis和重链恒定区的载体重组而形成全长重链的步骤。

在另一个方面,本发明的方法还包括提供促进同源重组的5’多核苷酸序列和3’多核苷酸序列的步骤。在又一个方面,本发明的方法还包括使装配的合成多核苷酸与包含重链chassis和重链恒定区的载体重组而形成全长重链的步骤。

在一些实施方案中,重组步骤在酵母中进行。在某些实施方案中,所述酵母是酿酒酵母。

在某些其它的实施方案中,本发明包括分离一种或多种宿主细胞的方法,所述宿主细胞表达一种或多种抗体,该方法包括:

(i)在一种或多种宿主细胞中表达权利要求40和46中任一项的人抗体;

(ii)使宿主细胞与一种或多种抗原接触;和

(iii)分离一种或多种具有与一种或多种抗原结合的抗体的宿主细胞。

在另一个方面,本发明的方法还包括从一种或多种宿主细胞中分离一种或多种抗体的步骤,所述宿主细胞提供识别一种或多种抗原的抗体。在再一个方面,本发明的方法还包括从一种或多种宿主细胞中分离编码一种或多种抗体的多核苷酸序列的步骤,所述宿主细胞提供识别一种或多种抗原的抗体。

在某些其它的实施方案中,本发明包括试剂盒,所述试剂盒包含编码众多抗体CDRH3氨基酸序列的合成多核苷酸文库,或本文公开的任何其它序列。

在又一些方面,由本文所述的合成多核苷酸文库编码的CDRH3氨基酸序列,或本文公开的任何其它序列都是计算机可读形式。

附图简述

图1表示用于构建文库的在片段(例如CDR3)和载体(例如包含chassis和恒定区)之间的重组示意图。

图2表示自Jackson等人文献(J.Immunol Methods,2007,324:26,通过引用其全部予以结合)编制的重排人抗体序列的N1区和N2区的长度分布。

图3表示自NCBI数据库(附录A)编制的重排人κ轻链序列的CDRL3区的长度分布。

图4表示自NCBI数据库(附录B)编制的重排人λ轻链序列的CDRL3区的长度分布。

图5表示在[DH]-[N2]-[JH]区段连接之前和之后,用于合成CDRH3区的424种克隆载体的示意图。

图6表示重链载体在与CDRH3重组之前的结构示意图。

图7表示整合到重链载体上的CDRH3示意图,以及CDRH3的多核苷酸序列和多肽序列。

图8表示κ轻链载体在CDRL3重组之前的结构示意图。

图9表示整合到轻链载体上的CDRL3示意图,以及CDRL3的多核苷酸序列和多肽序列。

图10表示与预期(即设计)的分布相比,通过用按实施例10所述方法合成的424种载体中的10种转化获得的96个菌落的CDRH3结构域(Kabat位置95~102)的长度分布(实测)。

图11表示与预期(即设计)的分布相比,通过用按实施例10所述方法合成的424种载体中的10种转化获得的96个菌落的DH区段的长度分布(实测)。

图12表示与预期(即设计)的分布相比,通过用按实施例10所述方法合成的424种载体中的10种转化获得的96个菌落的N2区段的长度分布(实测)。

图13表示与预期(即设计)的分布相比,通过用按实施例10所述方法合成的424种载体中的10种转化获得的96个菌落的H3-JH区段的长度分布(实测)。

图14表示与预期(即设计)的分布相比,从按照实施例10.4概述的方法转化(即含有重链chassis和恒定区的载体与CDRH3插入序列共转化)的酵母细胞制备的291种序列的CDRH3结构域的长度分布(实测)。

图15表示与预期(即设计)的分布相比,从按照实施例10.4概述的方案转化的酵母细胞制备的291种序列的[尾]-[N1]区的长度分布(实测)。

图16表示与理论(即设计)的分布相比,从按照实施例10.4概述的方案转化的酵母细胞制备的291种序列的DH区的长度分布(实测)。

图17表示与理论(即设计)的分布相比,从按照实施例10.4概述的方案转化的酵母细胞制备的291种序列的N2区的长度分布(实测)。

图18表示与理论(即设计)的分布相比,从按照实施例10.4概述的方案转化的酵母细胞制备的291种序列的H3-JH区的长度分布(实测)。

图19表示与理论(即设计)的家族来源(familial origin)相比,在291种序列中鉴定的JH区段的家族来源(实测)。

图20表示与理论(即设计)的chassis呈现(chassis representation)相比,文库中16种chassis中每一种的呈现(实测)。VH3-23呈现两次;一次以CAR结尾,一次以CAK结尾。这些呈现被加在一起,正如VH3-33的10种变异体与VH3-30的1种变异体一样。

图21表示从实施例6.2的VKCDR3文库中选出的86种序列的CDRL3长度(实测)与人序列(人)和设计序列(设计)的比较。

图22表示与理论(即设计)的chassis呈现相比,从文库中选出的86种序列中轻链chassis的呈现(实测)。

图23表示相对于Lee等人的免疫前抗体库(Immunogenetics,2006,57:917,通过引用其全部予以结合),本发明的示例性文库中的不同CDRH3长度的出现频率

图24表示从本发明文库中选出的6种抗体的结合曲线。

图25表示从本发明文库中选出的10种抗体结合鸡蛋白溶菌酶的结合曲线。

发明详述

本发明至少涉及合成多核苷酸文库、产生和使用本发明文库的方法、包括本发明文库的试剂盒和计算机可读形式。本申请所教导的文库至少部分从由其装配的组分方面进行了描述。

在某些实施方案中,本发明提供根据天然存在的人抗体库(humanantibody repertoire)中的组成和CDR长度分布具体设计的抗体文库。据估计,即使不存在抗原刺激,人体也可制造至少约107种不同的抗体分子。众多抗体的抗原结合部位可与多种相关但不相同的表位交叉反应。此外,人抗体库大到足以确保有抗原结合部位去契合几乎任何潜在的表位,尽管亲和力低下。

哺乳动物免疫系统进化成特有的遗传机制,能够使它以十分经济的方式,在转录之前通过在染色体上以组合的方式连接单独的基因区段,产生几乎无限数量的不同的轻链和重链。通过组合装配选自两个或更多个家族的基因区段的DNA序列来合成免疫球蛋白(Ig)链的每一类型(即κ轻链、λ轻链和重链),产生一条多肽链。准确地讲,重链和轻链各自由可变区和恒定(C)区组成。重链可变区由得自以下3个家族的基因区段装配的DNA序列编码:可变(IGHV)、连接(IGHJ)和多样性(IGHD)。轻链可变区由得自用于κ轻链和λ轻链每一个的2个家族的基因区段装配的DNA序列编码:可变(IGLV)和连接(IGLJ)。每个可变区(重链和轻链)还与恒定区再结合,产生全长免疫球蛋白链。

虽然V、D和J基因区段的组合装配使它实质上产生了抗体可变区多样性,但是在前B细胞阶段,通过这些基因区段的不精确连接以及在基因区段之间的接点上引入非模板核苷酸,在体内也会引入更多的多样性。

在B细胞识别抗原后,B细胞被诱导进行增殖。在增殖期间,B细胞受体基因座进行极高速的体细胞突变,突变速度远高于基因组突变的正常速度。发生的突变主要局限在Ig可变区,并包括取代、插入和缺失。这种体细胞超突变使得能够产生表达对抗原具有亲和力增强的抗体的B细胞。这类抗原驱动的体细胞超突变精细调节抗体对给定抗原的应答。

已做过大量努力以产生具有广泛多样性的抗体文库,并模拟抗体针对各种抗原的亲和力成熟的天然过程,尤其是针对与自身免疫病、癌症和感染性疾病等疾病有关的抗原的亲和力成熟的天然过程。最好抗体文库包含针对靶标可以容易地进行筛选的候选结合分子。然而,作为代表性免疫前人抗体库的抗体文库的广阔前景仍然难以捉摸。除上文和本申请全文列举的缺点外,本领域已知的合成文库还常常遇到噪声(即非常大的文库增加了许多表达不好和/或错折叠的序列的存在),同时本领域已知的完整人抗体文库可能倾向于针对某些抗原类别(例如自身抗原)。此外,合成和物理实现技术的局限性限制了本领域抗体文库的功能多样性。本发明最先提供全合成的抗体文库,所述文库代表了人免疫前抗体库(例如在组成和长度上),并且可采用例如高通量方法容易地进行筛选(即它是可物理实现的,并且在某些情况下可以超采样),以获得例如新的治疗药和/或诊断药。

具体地讲,本发明的合成抗体文库具有识别任何抗原(包括人源的自身抗原)的潜力。在已表达的人文库中通常丧失识别自身抗原的能力,因为供体免疫系统通过负选择除去自身反应性抗体。本发明的另一个特征是采用阳性克隆选择筛选抗体文库,例如通过FACS(荧光激活细胞分选仪)避开了产生杂交瘤文库和上清液筛选的标准但繁琐的方法。更进一步,所述文库或其子文库可以筛选多次,以发现针对其它所需靶标的额外抗体。

在进一步说明本发明之前,先给某些术语做了如下定义。

1.定义

除非另有说明,否则本文所使用的所有科技术语具有本发明相关领域普通技术人员通常理解的含义。下面的定义是对本领域现有技术的补充,并且是针对本申请中所描述的实施方案。

术语“抗体”在本文中以最广义的含义使用,准确地讲,至少包括单克隆抗体、多克隆抗体、多特异性抗体(例如双特异性抗体)、嵌合抗体、人源化抗体、人抗体和抗体片段。抗体是一种蛋白质,包含基本上或部分由免疫球蛋白基因或免疫球蛋白基因的片段编码的一条或多条多肽。公认的免疫球蛋白基因包括κ、λ、α、γ、δ、ε和μ恒定区基因,以及无数的免疫球蛋白可变区基因。

“抗体片段”包含完整抗体的一部分,例如其抗原结合区的一个或多个部分。抗体片段的实例包括Fab、Fab′、F(ab′)2和Fv片段、双链抗体(diabodies)、线性抗体(linear antibodies)、单链抗体以及由完整抗体和抗体片段形成的多特异性抗体。

“完整抗体”是包含全长重链和全长轻链及Fc区的抗体。完整抗体亦称“全长杂二聚体”抗体或免疫球蛋白。

术语“可变(的)”是指在序列中具有变异性并参与决定具体抗体的特异性和结合亲和力的免疫球蛋白结构域部分(即“可变结构域”)。变异性在整个抗体可变结构域内不是均匀分布的;它集中在重链可变区和轻链可变区各自的亚结构域内。这些亚结构域称为“超变”区或“互补决定区”(CDR)。可变结构域较保守的(即非超变的)部分称为“构架”区(FRM)。天然存在的重链和轻链的可变结构域各自包含4个FRM区,这4个FRM区大多采用β-折叠构型,通过3个超变区连接形成环,它们再连接β-折叠结构,并且在某些情况下形成β-折叠结构的组成部分。每条链的超变区通过FRM十分接近地保持在一起并且与其它链的超变区一起促成抗原结合部位的形成(参见Kabat等,Sequencesof Proteins of Immunological Interest(免疫目标的蛋白质序列),第5版,美国国立卫生研究院公共卫生局(Public Health Service,NationalInstitutes of Health,Bethesda),Md.,1991,通过引用其全部予以结合)。恒定结构域不直接参与抗原结合,但却具有各种效应子功能,例如抗体依赖性、细胞介导的细胞毒性和补体活化。

本发明的“chassis”表示分别不是CDRH3或CDRL3中的组成部分的抗体重链可变(IGHV)结构域部分或轻链可变(IGLV)结构域部分。本发明的chassis定义为始于FRM1的第一个氨基酸并止于FRM3的最后一个氨基酸的抗体可变区部分。就重链而论,chassis包括的氨基酸包括约Kabat位置1~约Kabat位置94。就轻链(κ和λ)而论,chassis定义为包括约Kabat位置1~约Kabat位置88。与本文提供或公共数据库可获取的相应种系可变结构域序列相比,本发明的chassis可含有某些修饰。这些修饰可以是经工程改造的(例如以去除N-联糖基化位点)或是天然存在的(例如以构成等位基因变异)。例如,本领域已知免疫球蛋白基因库是多态性的(Wang等,Immunol.Cell.Biol.,2008,86:111;Collins等,Immunogenetics,2008,DOI 10.1007/s00251-008-0325-z,在线发表,通过引用其全部予以结合);本发明还包括代表这些等位基因变异体的chassis、CDR(例如CDRH3)和恒定区。在一些实施方案中,可以根据存在于不同患者群的等位基因变异选择用于本发明具体实施方案的等位基因变异体,例如来鉴定在这些患者群中是非免疫原性的抗体。在某些实施方案中,本发明抗体的免疫原性可取决于患者群的主要组织相容性复合体(MHC)基因中的等位基因变异。在本发明的文库设计中,还可考虑这类等位基因变异。在本发明的某些实施方案中,载体中包含chassis和恒定区,并且通过同源重组将CDR3区引入chassis和恒定区之间。

在一些实施方案中,1、2或3个核苷酸可接在重链chassis之后,形成部分(如为1或2个)或完整的(如为3个)密码子。当存在完全密码子时,这些核苷酸则编码称为“尾(tail)”的氨基酸残基,并占据第95位。

本文所使用的“CDRH3编号体系”将CDRH3的第一个氨基酸定义为Kabat位置95(“尾”,当存在时),将CDRH3的最后一个氨基酸定义为位置102。“尾”之后的氨基酸称为“N1”,且当存在时,指定编号为96、96A、96B等。N1区段之后是“DH”区段,指定编号97、97A、97B、97C等。DH区段之后是“N2”区段,当其存在时,被编号为98、98A、98B等。最后,一套“H3-JH”区段的最C-端的氨基酸残基指定编号为102。紧接它之前的残基(N-端)如存在时为101,再前一个(如存在时)为100。为了方便起见,且在别处也是显而易见的,其余的H3-JH氨基酸以倒序编号,自紧接100的N-端氨基酸从99开始,接99的N-端残基为99A,接着为99B、99C等等,以此类推。因此,某些CDRH3序列残基编号的实例可包括下列编号:有N1和N2的13个氨基酸CDR-H3

(95)(96)(96A)(97)(97A)(97B)(97C)(97D)(98)(99)(100)(101)(102)

|---|--------|-----------------------|----|------------------|

 Tail  N1            DH               N2         H3-JH

无N1和N2的10个氨基酸CDR-H3

(97)(97A)(97B)(97C)(97D)(97E)(97F)(97G)(101)(102)

|--------------------------------------|---------|

       DH                                H3-JH

本文所使用的术语“多样性”是指多样化(variety)或显而易见的异质性(heterogeneity)。术语“序列多样性”是指在总体上代表序列若干可能性的多种序列,例如天然人抗体中存在的那些。例如,重链CDR3(CDRH3)序列多样性可指已知的人DH和H3-JH区段,包括N1和N2区,结合起来形成重链CDR3序列的多种可能性。轻链CDR3(CDRL3)序列多样性可指天然存在的轻链可变区(构成CDRL3)(即L3-VL)和连接(即L3-JL)区段结合起来形成轻链CDR3序列的多种可能性。本文所使用的H3-JH是指构成CDRH3的部分IGHJ基因。本文所使用的L3-VL和L3-JL分别是指构成CDRL3的部分IGLV基因和部分IGLJ基因(κ或λ)。

本文所使用的术语“表达”包括参与产生多肽的任何步骤,包括但不限于转录、转录后修饰、翻译、翻译后修饰和分泌。

本文所使用的术语“宿主细胞”往往是指要向其中导入本发明多核苷酸的细胞。应当了解的是,这类术语不仅仅是指具体的主题细胞,而且还指这类细胞的子代或可能的子代。因为由于突变或环境影响所致,某些修饰可发生在后续世代,所以这类子代实际上不可能与亲本细胞完全相同,但仍将其包括在本文所使用的术语范围内。

术语“长度多样性”是指特定核苷酸序列或氨基酸序列的长度上的变化。例如,在天然存在的人抗体中,重链CDR3序列的长度呈现不同,例如从大约3个氨基酸到超过大约35个氨基酸不等,轻链CDR3序列的长度也各不相同,例如从大约5个氨基酸到大约16个氨基酸不等。在本发明之前,本领域就已经知道有可能设计出含有序列多样性或长度多样性的抗体文库(参见例如Hoet等,Nat.Biotechnol.,2005,23:344;Kretzschmar和von Ruden,Curr.Opin.Biotechnol.,200213:598;以及Rauchenberger等,J.Biol.Chem.,2003278:38194,各文献通过引用其全部予以结合);然而,本发明至少涉及含有天然存在的人序列的序列多样性和长度多样性的合成抗体文库的设计。在某些情况下,已经合成出含有序列多样性和长度多样性的合成文库,然而这些文库含有太多的理论多样性以致无法合成完整的经设计的所有组成成分(repertoire),和/或有太多的理论成员以致无法物理实现整个文库或对整个文库进行超采样。

如本文所使用的一样,已经特别设计出同时含有序列多样性和长度多样性的具有“定向多样性(directed diversity)”的设计序列。定向多样性不是随机的。

本文所使用的“随机的”是指产生随机确定的氨基酸序列的一种方法,所述氨基酸序列被视为概率分布的一个要素的样本。

术语“多核苷酸文库”是指按照本发明方法特别设计的具有本文所述多样性的两种或更多种多核苷酸。术语“多肽文库”是指按照本发明方法特别设计的具有本文所述多样性的两种或更多种多肽。术语“合成多核苷酸文库”是指包括合成多核苷酸的多核苷酸文库。术语“载体文库”在本文中是指至少两种不同载体的文库。本文所使用的术语“人抗体文库”至少包括多核苷酸文库或多肽文库,被设计成代表天然存在的人抗体的序列多样性和长度多样性。

如本说明书全文中所描述的一样,术语“文库”在本文中以其最广义使用,并且还可包括子文库,子文库可以或不可以结合起来产生本发明的文库。

本文所使用的术语“合成多核苷酸”是指通过化学方法形成的分子,与之相反的是天然来源的分子或天然来源的分子通过基于模板的扩增而获得的分子(例如由B细胞群克隆的免疫球蛋白链通过PCR扩增不是本文所使用的“合成(的)”)。在某些情况下,例如当提及包含多个组分(例如N1、DH、N2和/或H3-JH)的本发明文库时,本发明包括其中至少一种前述组分是合成的文库。举例来说,其中某些组分是合成的文库,虽然其它组分属于天然来源的或者是天然来源的分子通过基于模板的扩增而获得的,也应被本发明所包括。

术语“分合合成法(split-pool synthesis)”是指其中将多个第一次反应的产物混合(合并),然后在参与多个第二次反应之前分离(分开)的一种方法。实施例9描述了278种DH区段(产物)各自在单独的反应中的合成。在合成之后,将这278种区段混合(合并),然后在141个柱中分配(分开)进行N2区段的合成。这使得278种DH区段的每一种能够与141种N2区段的每一种配对。如本说明书其它部分所述,这些数量是无限的。

“免疫前”抗体文库具有类似于天然存在的人抗体序列(在这些序列进行了负选择或体细胞超突变之前)的序列多样性和长度多样性。例如,一般认为,Lee等人(Immunogenetics,2006,57:917,通过引用其全部予以结合)披露的序列组代表了来自免疫前抗体库的序列。在本发明的某些实施方案中,本发明的序列将会类似于这些序列(例如就组成和长度而言)。在本发明的某些实施方案中,将这类抗体文库设计成小到足以化学合成和物理实现,但大到足以编码具有识别任何抗原的潜力的抗体。在本发明的一个实施方案中,抗体文库包含约107~约1020种不同的抗体和/或编码文库抗体的多核苷酸序列。在一些实施方案中,将本发明的文库设计成包括103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019或1020种不同的抗体和/或编码所述抗体的多核苷酸序列。在某些实施方案中,本发明的文库可包含或编码约103~约105、约105~约107、约107~约109、约109~约1011、约1011~约1013、约1013~约1015、约1015~约1017或约1017~约1020种不同的抗体。在本发明的某些实施方案中,文库的多样性可表征为大于或小于上文列举的一种或多种多样性,例如大于约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019或1020种或者小于约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019或1020种。在本发明的某些其它实施方案中,存在于物理实现的文库中具有上文列举的大小的目标抗体的概率至少约为0.0001%、0.001%、0.01%、0.1%、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、99%、99.5%或99.9%(有关在物理实现的文库中存在的特定序列的概率的更多信息,参见详述中的文库采样)。本发明的抗体文库还可包括针对例如自身(即人)抗原的抗体。在已表达的人抗体文库中可能不存在本发明的抗体,其中的原因包括因为自身反应性抗体被供体免疫系统通过负选择去除掉。然而,在某些情况下,新的重链/轻链配对可以产生自身反应性抗体特异性(Griffiths等的美国专利5,885,793,通过引用其全部予以结合)。在本发明的某些实施方案中,文库中独特重链的数目可约为10、50、102、150、103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019、1020种以上。在本发明的某些实施方案中,文库中独特轻链的数目可约为5、10、25、50、102、150、500、103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019、1020种以上。

本文所使用的术语“人抗体CDRH3文库”至少包括设计成代表天然存在的人抗体的序列多样性和长度多样性的多核苷酸文库或多肽文库。“免疫前”CDRH3文库具有类似于天然存在的人抗体CDRH3序列(在这些序列进行负选择和体细胞超突变之前)的序列多样性和长度多样性。已知的人CDRH3序列有代表公开在各种数据集,包括Jackson等,J.Immunol Methods,2007,324:26;Martin,Proteins,1996,25:130;以及Lee等,Immunogenetics,2006,57:917,各文献通过引用其全部予以结合。在本发明的某些实施方案中,将这类CDRH3文库设计成小到足以化学合成和物理实现,但大到足以编码具有识别任何抗原的潜力的CDRH3。在本发明的一个实施方案中,抗体文库包括约106~约1015种不同的CDRH3序列和/或编码所述CDRH3序列的多核苷酸序列。在一些实施方案中,将本发明的文库设计成约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015或1016种不同的CDRH3序列和/或编码所述CDRH3序列的多核苷酸序列。在一些实施方案中,本发明的文库可包括或编码约103~约106、约106~约108、约108~约1010、约1010~约1012、约1012~约1014或约1014~约1016种不同的CDRH3序列。在本发明的某些实施方案中,文库的多样性可表征为大于或小于上文列举的一种或多种多样性,例如大于约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015或1016或者小于约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015或1016。在本发明的某些实施方案中,存在于物理实现的文库中具有上文列举的大小的目标CDRH3的概率至少约为0.0001%、0.001%、0.01%、0.1%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、85%、90%、95%、99%、99.5%或99.9%(有关在物理实现的文库中存在的特定序列的概率的更多信息,参见详述中的文库采样)。本发明的免疫前CDRH3文库还可包括针对例如自身(即人)抗原的CDRH3。在已表达的人抗体文库中可能不存在这类CDRH3,因为自身反应性CDRH3被供体免疫系统通过负选择去除掉。

含有“VKCDR3”序列和“VλCDR3”序列的本发明文库分别是指CDRL3序列的κ亚群(sub-set)和λ亚群。这些文库可以定向多样性进行设计,在总体上代表人抗体CDRL3库的长度多样性和序列多样性。这些文库的“免疫前”形式具有类似于天然存在的人抗体CDRL3序列(在这些序列进行负选择之前)的序列多样性和长度多样性。已知的人CDRL3序列有代表公开在各种数据集,包括NCBI数据库(有关轻链序列数据集,参见附录A和附录B)和Martin,Proteins,1996,25:130,通过引用其全部予以结合。在本发明的某些实施方案中,将这类CDRL3文库设计成小到足以化学合成和物理实现,但大到足以编码具有识别任何抗原的潜力的CDRL3。

在本发明的一个实施方案中,抗体文库包含约105种不同的CDRL3序列和/或编码所述CDRL3序列的多核苷酸序列。在一些实施方案中,将本发明的文库设计成包含约101、102、103、104、106、107或108种不同的CDRL3序列和/或编码所述CDRL3序列的多核苷酸序列。在一些实施方案中,本发明的文库可包含或编码约101~约103、约103~约105或约105~约108种不同的CDRL3序列。在本发明的某些实施方案中,文库的多样性可表征为大于或小于上文列举的一种或多种多样性,例如大于约101、102、103、104、105、106、107或108或者小于约101、102、103、104、105、106、107或108。在本发明的某些实施方案中,存在于物理实现的文库中具有上文列举的大小的目标CDRL3的概率至少约为0.0001%、0.001%、0.01%、0.1%、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、99%、99.5%或99.9%(有关在物理实现的文库中存在的特定序列的概率的更多信息,参见详述中的文库采样)。本发明的免疫前CDRL3文库还可包括针对例如自身(即人)抗原的CDRL3。在已表达的人抗体文库中可能不存在这类CDRL3,因为自身反应性CDRL3被供体免疫系统通过负选择去除掉。

本文所使用的术语“已知的重链CDR3序列”是指从人B细胞群克隆的共有结构域中的重链CDR3序列。这类序列的实例是已发表的序列或由公共数据集获取的序列,包括例如Zemlin等,JMB,2003,334:733;Lee等,Immunogenetics,2006,57:917;以及Jackson等J.ImmunolMethods,2007,324:26,各文献通过引用其全部予以结合。

本文所使用的术语“已知的轻链CDR3序列”是指从人B细胞群克隆的共有结构域中的轻链CDR3序列(例如κ或λ)。这类序列的实例是已发表的序列或由公共数据集获取的序列,包括例如NCBI数据库(参见本文所附的附录A和附录B)。

本文所使用的术语“抗体结合区”是指能够结合抗原的免疫球蛋白或抗体可变区的一个或多个部分。抗体结合区通常为例如抗体轻链(或其可变区或者一个或多个CDR)、抗体重链(或其可变区或者一个或多个CDR)、重链Fd区、组合的抗体轻链和重链(或其可变区),例如Fab、F(ab’)2、单一结构域或单链抗体(scFv)或者识别抗原的全长抗体的任一区,例如IgG(例如IgG1、IgG2、IgG3或IgG4亚型(subtype))、IgA1、IgA2、IgD、IgE或IgM抗体。

术语“构架区”是指本领域公认的存在于更趋异(即超变)CDR之间的抗体可变区部分。这类构架区通常称为构架1~4(FRM1、FRM2、FRM3和FRM4),为6个CDR(3个来自重链,3个来自轻链)在三维空间内布局提供支架,以形成抗原结合表面。

术语“规范结构(canonical structure)”是指抗原结合(CDR)环所采用的主链构象。根据比较结构研究,发现6个抗原结合环中有5个只具有有限的可利用的构象库(only a limited repertoire of availableconformations)。各个规范结构可通过多肽主链的扭转表征。因此,抗体间的对应环可能具有十分相似的三维结构,尽管在大部分环中氨基酸序列变异性甚高(Chothia和Lesk,J.Mol.Biol.,1987,199:901;Chothia等,Nature,1989,342:877;Martin和Thornton,J.Mol.Biol.,1996,263:800,各文献通过引用其全部予以结合)。此外,在所采用的环结构与其周围的氨基酸序列之间有某种关系。具体规范类别的构象取决于环的长度和位于环内以及保守构架内(即环外)关键位置上的氨基酸残基。因此,可以根据这些关键氨基酸残基的存在,确定具体的规范类别。术语“规范结构”还可包括考虑有关抗体的线性序列,例如按Kabat分类的线性序列(Kabat等,“Sequences of Proteins ofImmunological Interest(免疫目标的蛋白质序列)”,第5版,U.S.Department of Heath and Human Services,1992)。Kabat编号方案是广泛采用的标准,用于按连贯方式为抗体可变结构域氨基酸残基编号。还可利用其它结构考虑来确定抗体的规范结构。例如,通过Kabat编号方式无法完全反映出来的差异可通过Chothia等人的编号体系进行描述和/或通过例如结晶学和二维计算建模或三维计算建模等其它技术进行揭示。因此,可将给定抗体序列归入尤其可供鉴定适当chassis序列的规范类别(例如根据在文库中包括多种规范结构的要求)。文献中记载了抗体氨基酸序列的Kabat编号方式和Chothia等人所描述的结构考虑,及其用于解释抗体结构规范方面的意义。

术语“CDR”是指互补决定区(CDR),其中3个构成轻链可变区的结合特征(CDRL1、CDRL2和CDRL3),另外3个构成重链可变区的结合特征(CDRH1、CDRH2和CDRH3)。CDR对抗体分子的功能活性产生影响,且被包含支架区或构架区的氨基酸序列分隔开来。CDR边界和长度的精确界定取决于不同分类和编号体系。因此,可通过Kabat、Chothia、接触或任何其它边界定义,包括本文所述的编号体系,来引用CDR。尽管边界不同,但是这些体系中的每一个都在可变序列内所构成的所谓“超变区”中有某种程度的重叠。因此,按照这些体系的CDR定义可能在相对于相邻构架区的长度和边界区域方面不同。参见例如Kabat、Chothia和/或MacCallum等(Kabat等,“Sequences of Proteins of Immunological Interest(免疫目标的蛋白质序列)”,第5版,U.S.Department of Health and Human Services,1992;Chothia等,J.Mol.Biol.,1987,196:901;和MacCallum等,J.Mol.Biol.,1996,262:732,各文献通过引用其全部予以结合)。

术语“氨基酸”或“氨基酸残基”通常是指具有其领域公认定义的氨基酸,例如选自以下的氨基酸:丙氨酸(Ala或A)、精氨酸(Arg或R)、天冬酰胺(Asn或N)、天冬氨酸(Asp或D)、半胱氨酸(Cys或C)、谷氨酰胺(Gln或Q)、谷氨酸(Glu或E)、甘氨酸(Gly或G)、组氨酸(His或H)、异亮氨酸(Ile或I):亮氨酸(Leu或L)、赖氨酸(Lys或K)、甲硫氨酸(Met或M)、苯丙氨酸(Phe或F)、脯氨酸(Pro或P)、丝氨酸(Ser或S)、苏氨酸(Thr或T)、色氨酸(Trp或W)、酪氨酸(Tyr或Y)和缬氨酸(Val或V),虽然按需要可以采用修饰的氨基酸、合成的氨基酸或不常见的氨基酸。总的来讲,氨基酸可以分成以下几组:具有非极性侧链的氨基酸(例如Ala、Cys、Ile、Leu、Met、Phe、Pro、Val);具有带负电荷的侧链的氨基酸(例如Asp、Glu);具有带正电荷的侧链的氨基酸(例如Arg、His、Lys);或具有不带电荷的极性侧链的氨基酸(例如Asn、Cys、Gln、Gly、His、Met、Phe、Ser、Thr、Trp和Tyr)。

术语“多核苷酸”是指核酸,例如DNA分子和RNA分子及其类似物(例如使用核苷酸类似物或采用核酸化学法产生的DNA或RNA)。多核苷酸可以按需要,以合成方式例如采用本领域公认的核酸化学法或者以酶的方式采用例如聚合酶来制备,并且如有需要,可被修饰。典型的修饰包括甲基化、生物素化和其它本领域已知的修饰。另外,核酸分子可以是单链或双链,且需要时,与可检测部分连接。

术语“理论多样性(theoretical diversity)”、“总的理论多样性(theoretical total diversity)”或“理论库(theoretical repertoire)”是指文库设计中变异体的最大数目。例如,假定3个残基的氨基酸序列,如果残基1和残基3可各自为5种氨基酸类型中的任一种,残基2可以是20种氨基酸类型中的任一种,则理论多样性为5×20×5=500种可能序列。同样,如果序列X由4种氨基酸区段的组合构建而成,如果区段1具有100种可能序列,区段2具有75种可能序列,区段3具有250种可能序列,区段4具有30种可能序列,则片段X总的理论多样性可为100×75×200×30,即5.6×105种可能序列。

术语“物理实现(physical realization)”是指实际上可通过例如任何展示方法在物理上采样的部分理论多样性。示例性的展示方法包括:噬菌体展示、核糖体展示和酵母展示。对于合成序列,物理实现的文库的大小取决于(1)实际上可以合成的理论多样性的分数,和(2)具体筛选方法的限制。筛选方法的示例性限制包括可在具体测定法(例如核糖体展示、噬菌体展示、酵母展示)中筛选的变异体数和用于筛选试验的宿主细胞(例如酵母、哺乳动物细胞、细菌)的转化效率。因此,为了说明,假定理论多样性为1012个成员的文库,最大可包括1011个成员的示例性的物理实现的文库(例如在酵母、细菌细胞、核糖体展示中等;有关详述见下文)将采集文库理论多样性的约10%的样本。然而,如果合成少于1011个文库成员(其理论多样性为1012),且物理实现的文库最大可包括1011个成员,则在物理实现的文库中采集的样本要小于文库理论多样性的10%。同样,最大可包括多于1012个成员的物理实现的文库将“超采集”理论多样性的样本,这就意味着每种成员可能存在不止一个(假定整个1012理论多样性是合成的)。

术语“所有可能的读框”包括至少3个正向读框和在一些实施方案中,还包括3个反向读框。

术语“目标抗体”是指从本发明文库分离的具有目标性质的任何抗体。目标性质可包括但不限于与特定抗原或表位结合、阻断两个分子间的结合相互作用或激发某些生物效应。

术语“功能性表达”是指由人B细胞进行表达并且不含提前终止密码子(premature stop codon)的免疫球蛋白基因。

术语“全长重链”是指含有免疫球蛋白重链规范结构域中的每一个的免疫球蛋白重链,包括4个构架区、3个CDR和1个恒定区。术语“全长轻链”是指含有免疫球蛋白轻链规范结构域中的每一个的免疫球蛋白轻链,包括4个构架区、3个CDR和1个恒定区。

本文所使用的术语“独特(的)”是指在设计的理论多样性内,一种序列不同于(例如具有不同的化学结构)所有其它的序列。应当了解的是,在具体的物理实现中,理论多样性的众多独特的序列很可能不止1拷贝。例如,包含3种独特序列的文库,如果每种序列在该文库中出现3次,则可包含共9个成员。然而,在某些实施方案中,每种独特的序列可能只出现一次。

本文所使用的术语“异源部分”是指向抗体添加某一组分,其中该组分通常不是抗体的组成部分。示例性的异源部分包括药物、毒素、成像剂和可能提供不是抗体本身固有活性的任何其它组分。

本文所使用的术语“每个位置上每种氨基酸残基的出现百分比(percent occurrence)”是指样本中各情况的百分比,其中氨基酸存在于具体序列内指定位置上。例如,假定下列3种序列:

K V R

K Y P

K R P,

K出现在位置1的情况是100%,P出现在位置3的情况是约67%。在本发明的某些实施方案中,要选择用于比较的序列为人免疫球蛋白序列。

本文所使用的术语“最频繁出现的氨基酸”,在多肽群中某一序列的特定位置上是指在规定多肽群中在规定位置上具有最高出现百分比的氨基酸残基。例如,在由人B细胞功能性表达的CDRH3序列的N1序列中,3个最N-端位置的每一个上最频繁出现的氨基酸见表21,在由人B细胞功能性表达的CDRH3序列的N2序列中,3个最N-端位置的每一个上最频繁出现的氨基酸见表22。

为了分析本发明文库和其它文库的某些二联体(duplet)的出现(实施例13)和信息含量(实施例14),给CDRH3的“中心环(central loop)”作出定义。如果从Kabat CDRH3(95-102)中去掉C-端5个氨基酸,则其余的序列称为“中心环”。因此,考虑实施例13的二联体出现计算法(duplet occurrence calculation),采用大小为6以下的CDRH3可能无助于二联体出现的分析。大小为7的CDRH3仅有助于i-i+1数据集,大小为8的CDRH3还可有助于i-i+2数据集,大小为9以上的CDRH3还可有助于i-i+3数据集。例如,大小为9的CDRH3可具有位置95-96-97-98-99-100-100A-101-102上的氨基酸,但是只有头4个残基(粗体字)可为中心环的组成部分,并且有助于成对出现(二联体)统计分析。再举例来说,大小为14的CDRH3可具有序列:95-96-97-98-99-100-100A-100B-100C-100D-100E-100F-101-102。在此处,只有头9个残基(粗体字)有助于中心环。

文库筛选需要基因型-表型连(genotype-phenotype linkage)。术语“基因型-表型连锁”按与其领域公认的含义一致的方式使用,并且是指可以从文库中分离出编码具有特定表型(例如结合抗原)的蛋白质的核酸(基因型)的事实。举例来说,在噬菌体表面上表达的抗体片段可根据其与抗原的结合而分离出来(例如Ladner等)。抗体与抗原的结合同时能够分离出含有编码该抗体片段的核酸的噬菌体。因此,表型(抗体片段的抗原结合特性)与基因型(编码抗体片段的核酸)是“连锁”的。保持基因型-表型连锁的其它方法包括以下文献中的方法:Wittrup等(美国专利第6,300,065、6,331,391、6,423,538、6,696,251、6,699,658号和美国公布号20040146976,各文献通过引用其全部予以结合);Miltenyi(美国专利第7,166,423号,通过引用其全部予以结合);Fandl(美国专利第6,919,183号,美国公布号20060234311,各文献通过引用其全部予以结合);Clausell-Tormos等(Chem.Biol.,2008,15:427,通过引用其全部予以结合);Love等(Nat.Biotechnol.,2006,24:703,通过引用其全部予以结合);以及Kelly等(Chem.Commun.,2007,14:1773,通过引用其全部予以结合)。以其中可同时回收抗体和基因且同时又保持它们之间的连锁的方式,用编码抗体的基因来定位抗体蛋白的任何方法都是适当的。

2.文库的设计

将本发明的抗体文库设计成反映通过人免疫系统天然产生的免疫前抗体库的某些方面。本发明的某些文库以收集人V、D和J基因以及其它人重链和轻链序列大型数据库而获取的合理设计知识为基础(例如公众已知的种系序列;得自Jackson等人的序列(J.ImmunolMethods,2007,324:26,通过引用其全部予以结合);得自Lee等人的序列(Immunogenetics,2006,57:917,通过引用其全部予以结合);以及重排的VK和Vλ的汇编序列-参见本文所附的附录A和附录B)。其它信息可参见例如Scaviner等,Exp.Clin.Immunogenet.,1999,16:234;Tomlinson等,J.Mol.Biol.,1992,227:799;以及Matsuda等,J.Exp.Med.,1998,188:2151,各文献通过引用其全部予以结合。在本发明的某些实施方案中,代表存在于人抗体库中的可能的V、D和J多样性以及接点多样性(junctional diversity)(即N1和N2)的表达盒是作为单链或双链DNA寡核苷酸从头合成的。在本发明的某些实施方案中,将编码CDR序列的寡核苷酸表达盒与一种或多种含有重链或轻链chassis序列的接纳体载体一起导入酵母。没有采用基于引物的PCR扩增或得自哺乳动物cDNA或mRNA的模板指导的克隆步骤。通过标准同源重组,接受体酵母使表达盒(例如CDR3)与含有chassis序列和多个恒定区的接纳体载体进行重组,产生有正确顺序的合成的全长人重链和/或轻链免疫球蛋白文库,该文库可以遗传方式增殖、表达、展示和筛选。本领域普通技术人员容易理解的是,可以设计包含在接纳体载体上的chassis以产生不是全长人重链和/或轻链的构建体。例如,在本发明的某些实施方案中,可以设计chassis以编码多肽的多个部分,所述多肽编码抗体片段或抗体片段的亚基,致使当含有CDR的寡核苷酸表达盒与接纳体载体进行重组时,产生编码抗体片段或其亚基的序列。

在某些实施方案中,本发明提供包含约107~约1020个抗体成员的合成的免疫前人抗体库,其中所述抗体库包含:

(a)选出的人抗体重链chassis(即重链可变区的氨基酸1~94,采Kabat的定义);

(b)根据人IGHD和IGHJ种系序列设计的CDRH3库,CDRH3库包含下列部分:

(i)任选一个或多个尾区;

(ii)一个或多个N1区,包含约0~约10个氨基酸,所述氨基酸选自20种以内的由末端脱核苷酸转移酶(TdT)的作用优先编码并由人B细胞功能性表达的氨基酸类型;

(iii)一个或多个DH区段,基于一个或多个选出的IGHD区段,及其一个或多个N-端或C-端截短;

(iv)一个或多个N2区,包含约0~约10个氨基酸,所述氨基酸选自20种以内的由TdT的活性优先编码并由人B细胞功能性表达的氨基酸;和

(v)一个或多个H3-JH区段,基于一个或多个IGHJ区段,及其一个或多个N-端截短(例如直到XXWG);

(c)一个或多个选出的人抗体κ轻链和/或λ轻链chassis;和

(d)根据人IGLV和IGLJ种系序列设计的CDRL3库,其中“L”可以是κ轻链或λ轻链。

重链chassis可以是与免疫球蛋白重链可变结构域Kabat残基1~94具有同源性的任何序列。重链chassis的非限制性实例包括在实施例中,本领域普通技术人员容易理解的是,可以采用其中及本说明书全文中所提供的原理来得到另外的重链chassis。

如上所述,重链chassis区之后任选为“尾”区。尾区包含0、1个或多个在比较天然存在的重链序列的基础上可以选出或可以不选的氨基酸。例如,在本发明的某些实施方案中,可将本领域可获得的重链序列进行比较,并将在天然存在的序列中尾位置上最频繁出现的残基包括在文库中(例如以产生例如最近似于人序列的序列)。在其它实施方案中,可以采用使用较不常出现的氨基酸。在又一些实施方案中,可以使用从任何氨基酸组中选出的氨基酸。在本发明的某些实施方案中,尾的长度为0(无残基)或1个(例如G/D/E)氨基酸。为清楚起见,而且不受理论的束缚,在天然存在的人库中,VH基因的FRM3区提供编码尾残基的头2/3的密码子。因此,天然存在的重链序列中该位置上的氨基酸可视为部分由IGHV基因编码(2/3),部分由CDRH3编码(1/3)。然而,为了清楚说明本发明的某些方面,本文中将编码尾残基的全部密码子(以及由此产生的氨基酸)描述为CDRH3序列的组成部分。

如上所述,有2种肽区段衍生自通过TdT在天然存在的人抗体库中添加的核苷酸。这些区段被称为N1和N2(本文亦称N1和N2区段、结构域、区或序列)。在本发明的某些实施方案中,N1和N2的长度约为0、1、2或3个氨基酸。虽然不受理论的束缚,但是我们认为这些长度最接近地模拟存在于人库中的N1和N2的长度(参见图2)。在本发明的其它实施方案中,N1和N2的长度可约为4、5、6、7、8、9或10个氨基酸。同样,用以产生N1和N2区段的氨基酸残基的组成也可变化。在本发明的某些实施方案中,用以产生N1和N2区段的氨基酸可以从在人库的N1和N2结构域中的8种最频繁出现的氨基酸(例如G、R、S、P、L、A、V和T)中选出。在本发明的其它实施方案中,用以产生N1和N2区段的氨基酸可选自少于约20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4或3个优先由TdT活性编码并由人B细胞功能性表达的氨基酸。或者,N1和N2可包含选自任何氨基酸组的氨基酸。具有同样长度或组成的N1和N2不是必需的,N1和N2的长度和组成的独立变化是通过其将额外多样性引至文库的一种方法。

文库的DH区段以由天然存在的IGHD基因库编码的肽为基础,其中N-端和C-端的残基渐进缺失(progressive deletion)。IGHD基因可在多个读框中读取,代表这些读框的肽及其N-端和C-端缺失也包括在本发明的文库中。在本发明的某些实施方案中,短至3个氨基酸残基的DH区段也可包括在文库中。在本发明的其它实施方案中,短至约1、2、4、5、6、7或8个氨基酸的DH区段也可包括在文库中。

文库的H3-JH区段以由天然存在的IGHJ基因库编码的肽为基础,其中N-端的残基渐进缺失。构成CDRH3的组成部分的IGHJ区段的N-端部分在本文中亦称H3-JH。在本发明的某些实施方案中,H3-JH区段可通过N-端渐进缺失一个或多个H3-JH残基(直到2个H3-JH残基)表示。在本发明的其它实施方案中,文库的H3-JH区段可含有N-端缺失(或不含缺失)直到约6、5、4、3、2、1或0个H3-JH残基。

文库的轻链chassis可以是与天然存在的轻链(κ或λ)序列的Kabat残基1~88具有同源性的任何序列。在本发明的某些实施方案中,本发明的轻链chassis利用VL和JL区段以组合方式进行合成,产生在chassis和CDR3序列中具有多样性的一种或多种轻链序列文库。在本发明的其它实施方案中,使用简并寡核苷酸或三核苷酸来合成轻链CDR3序列,并且使轻链CDR3序列与轻链chassis和轻链恒定区重组,形成全长轻链。

本发明还提供产生和使用这类文库的方法,以及包含一种或多种免疫球蛋白结构域或抗体片段的文库。有关要求保护的抗体文库中的各组分的设计和合成的更多详情见下文。

2.1.抗体文库Chassis序列的设计

在构建本发明的某些文库中的一个步骤是选择chassis序列,这些chassis序列以天然存在的可变结构域序列(例如IGHV和IGLV)为基础。可以任意或通过选择符合某种标准的chassis进行这种选择。可查询例如Kabat数据库(一种含有非丰余重排抗体序列的电子数据库)的这些最常呈现的重链和轻链种系序列。可以运用BLAST检索算法,或者更专业的工具例如SoDA(Volpe等,Bioinformatics,2006,22:438-44,通过引用其全部予以结合),将重排的抗体序列与应用VBASE2数据库的种系序列(Retter等,Nucleic Acids Res.,2005,33:D671-D674)或人V、D和J基因的类似集合体(collection)进行比较,以鉴定最频繁用来产生功能抗体的种系家族。

可以利用若干标准选择用于包括在本发明文库中的chassis。例如,可以从文库中排除已知(或已确定)在酵母或用于本发明的其它生物(例如细菌、哺乳动物细胞、真菌植物)中表达不佳的序列。Chassis还可根据其在人外周血中的代表性来选择。在本发明的某些实施方案中,最好可选择与在人外周血中有高代表性的种系序列相当的chassis。在其它实施方案中,最好可选择与较不常有代表性的种系序列相当的chassis,以增加例如规范文库的多样性。因此,可以选择chassis以产生代表最大和在结构上最不同组别的功能性人抗体文库。在本发明的其它实施方案中,例如,如果需要产生具有较少chassis变异性和较多CDR变异性的较少且较集中的文库,则可以利用较少变化的chassis。在本发明的一些实施方案中,chassis可根据其在本发明细胞(例如酵母细胞)中的表达和由所选序列代表的规范结构的多样性来选择。因此还可以产生在本发明细胞中表达良好并具有规范结构的多样性的文库。

2.1.1.重链Chassis序列的设计

在本发明的某些实施方案中,抗体文库包含可变重链结构域和可变轻链结构域或其部分。这些结构域中的每一个都由某些组分构成,这将在本文提供的实施例中更全面予以描述。在某些实施方案中,可以使用本文所述文库来分离可用作诊断药和/或治疗药的完全人抗体。虽然不受理论的束缚,但是具有与最常见于外周血(例如人外周血)的序列最相似或相同的序列的抗体当作为治疗剂给予时,不大可能具有免疫原性。

在不受理论束缚的情况下,而且为了说明本发明的某些实施方案,文库的VH结构域可视为包含3个主要组分:(1)VH“chassis”,它包括氨基酸1~94(采用Kabat编号方式),(2)CDRH3,在本文中被定义为包括Kabat CDRH3本身(位置95~102),和(3)FRM4区,包括氨基酸103~113(Kabat编号方式)。因此,整个VH结构可以示意图的方式(不按比例制图)如下表示:

     (1)...(94)              (95)...(102)     (103)...(113)

|-------------------------|---------------|------------------|

      VH Chassis              CDRH3            FRM4

根据人IGHV种系库进行的VH chassis序列的选择和设计,当再看本文所提供的实施例时将会变得更清楚。在本发明的某些实施方案中,选用于文库的VH chassis序列可相当于所有功能性表达的人IGHV种系序列。或者,可以按照一种或多种标准选择IGHV种系序列以呈现在文库中。例如,在本发明的某些实施方案中,所选定的IGHV种系序列可以是由健康成人、儿童或胎儿外周血中分离的抗体分子中最有代表性的序列之一。

在某些实施方案中,最好可将VH chassis的设计建立在利用患有疾病(例如自身免疫病)的成人、儿童或胎儿的IGHV种系序列的基础上。虽然不受理论的束缚,但是有可能的是,分析从自身免疫病个体外周血分离的抗体分子中的种系序列使用率(usage),可提供有益于设计识别人抗原的抗体的信息。

在一些实施方案中,用于呈现在本发明文库中的IGHV种系序列的选择可根据其在外周血中出现的频率。举例来说,4种IGHV1种系序列(IGHV1-2、IGHV1-18、IGHV1-46和IGHV1-69)构成外周血中IGHV1家族库的约80%。因此,所选定的用于呈现在文库中的具体IGHV1种系序列可包括这样的序列,这些序列最频繁出现且累计构成存在于外周血中的IGHV1家族库的至少约80%。可采用类似方法从任何其它IGHV家族选出具体的IGHV种系序列(即IGHV1、IGHV2、IGHV3、IGHV4、IGHV5、IGHV6和IGHV7)。因此,选用于将特定IGHV家族呈现于本发明文库中的具体种系序列可构成存在于外周血中的特定IGHV家族成员库的至少约100%、99%、98%、97%、96%95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、75%、70%、65%、60%、55%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或0%。

在一些实施方案中,所选定的IGHV种系序列可选来使VHchassis文库的结构多样性最大化。可通过例如比较IGHV种系序列中CDRH1和CDRH2的长度、组成和规范结构,来评价结构多样性。在人IGHV序列中,CDRH1(Kabat定义)的长度可为5、6或7个氨基酸,而CDRH2(Kabat定义)的长度可为16、17、18或19个氨基酸。IGHV种系序列(特别是CDR结构域)的氨基酸组成,可通过如实施例中所提供的序列比对来评价。可按照例如Chothia等人所述方法确定规范结构(Chothia等,J.Mol.Biol.,1992,227:799,通过引用其全部予以结合)。

在本发明的某些实施方案中,根据可以使分离具有特定特性的抗体的概率最大化的IGHV种系序列来设计VH chassis可能是有利的。例如,在一些实施方案中,虽然不受理论的束缚,但是将IGHV种系序列限于只包括正在进行临床开发中的抗体或已获准作为治疗药的抗体中使用的种系序列可能是有利的。另一方面,在一些实施方案中,产生含有未呈现在临床使用中的抗体的VH chassis的文库可能是有利的。这类文库能够产生具有新特性的抗体,所述新特性优于使用“典型”IGHV种系序列获得的特征,或者能够研究“非典型”IGHV种系序列或规范结构的结构和性质。

本领域普通技术人员容易了解的是,可以采用多种其它标准选择呈现在本发明文库中的IGHV种系序列。本文所述的任一标准还可与任何其它标准结合。更多示例性的标准包括在某些细胞培养系统中以充分水平表达的能力,具体抗体形式(例如完整免疫球蛋白和抗体片段)中的溶解度,以及各个结构域、完整免疫球蛋白或抗体片段的热力学稳定性。可应用本发明的方法选择在本发明抗体文库中具有功效的任何IGHV种系序列。

在本发明的某些实施方案中,文库的VH chassis可包含一个或多个下列IGHV种系序列的约Kabat残基1~约Kabat残基94:IGHV1-2、IGHV1-3、IGHV1-8、IGHV1-18、IGHV1-24、IGHV1-45、IGHV1-46、IGHV1-58、IGHV1-69、IGHV2-5、IGHV2-26、IGHV2-70、IGHV3-7、IGHV3-9、IGHV3-11、IGHV3-13、IGHV3-15、IGHV3-20、IGHV3-21、IGHV3-23、IGHV3-30、IGHV3-33、IGHV3-43、IGHV3-48、IGHV3-49、IGHV3-53、IGHV3-64、IGHV3-66、IGHV3-72、IGHV3-73、IGHV3-74、IGHV4-4、IGHV4-28、IGHV4-31、IGHV4-34、IGHV4-39、IGHV4-59、IGHV4-61、IGHV4-B、IGHV5-51、IGHV6-1和IGHV7-4-1。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。

在其它实施方案中,文库的VH chassis可包含下列IGHV种系序列的约Kabat残基1~约Kabat残基94:IGHV1-2、IGHV1-18、IGHV1-46、IGHV1-69、IGHV3-7、IGHV3-15、IGHV3-23、IGHV3-30、IGHV3-33、IGHV3-48、IGHV4-31、IG3HV4-34、IGHV4-39、IGHV4-59、IGHV4-61、IGHV4-B和IGHV5-51。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。这些chassis的氨基酸序列见表5。

2.1.1.1.重链Chassis变异体

虽然预期选出的其序列基于IGHV种系序列的VH chassis支持CDRH3序列的巨大多样性,但是可通过改变氨基酸残基来产生VHchassis中更多的多样性,所述氨基酸残基构成选用于文库的每个chassis中的CDRH1和/或CDRH2区(参见实施例2)。

在本发明的某些实施方案中,在重排的人重链序列数据集内对序列同一性进行分析之后,使构成IGHV种系序列的CDRH1和CDRH2区或其它区的氨基酸残基发生改变或突变,所述重排的人重链序列根据其从中衍生重排序列的原IGHV种系序列的同一性进行分类。例如,从重排的抗体序列集中,确定每个抗体的IGHV种系序列,并根据IGHV种系序列对重排序列进行分类。这种确定是在序列同一性的基础作出的。

接着,测定在这些序列中的每个位置上20种氨基酸残基中任一种的出现。在本发明的某些实施方案中,例如如果需要增加VH chassis的抗原结合部分的多样性,则令人特别感兴趣的是不同氨基酸残基在CDRH1和CDRH2内各个位置上的出现率(occurrence)。在本发明的其它实施方案中,最好可评价不同氨基酸残基在构架区中的出现率。虽然不受理论的束缚,但是构架区的改变可通过改变CDR的空间定向来影响抗原结合。

在确定氨基酸在各目标位置上的出现率之后,可按照某种标准,在VH chassis序列中产生改变。在一些实施方案中,目的可以是产生具有序列变异性的额外VH chassis,该变异性尽可能接近地模拟在重排的人抗体序列(衍生自相应的IGHV种系序列)的重链结构域中所观察到的变异性,因此可能获得性质上最似人序列的序列(即最接近地模拟人序列的组成和长度的序列)。既然如此,便可例如按模拟天然存在的频率的频率,来合成额外的VH chassis序列,该VH chassis序列包括天然存在于特定位置上的突变,以及包括本发明文库中这些VHchassis序列中的一个或多个。在本发明的另一个实施方案中,可能希望包括这样的VH chassis,即仅呈现在重排的人抗体序列的给定位置上最常发生的突变。例如,如上所述并参照示例性的表6和表7,与其精确模拟人序列的变异性,不如可选择仅包括最频繁出现在每个位置上的最前面的19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个氨基酸残基。举例来说,并参照表6,如果希望包括最前面的4个最频繁出现在VH1-69序列位置31上的氨基酸残基,则VH1-69序列的位置31将发生变化以包括S、N、T和R。虽然不受理论的束缚,但是我们认为通过模拟重排的重链序列的天然存在的组成而引入多样性,很可能产生在组成上更似人的抗体。然而,本发明的文库不限于通过该方法使之多样化的重链序列,可以采用任何标准以将多样性引入重链chassis,包括随机或合理的诱变。例如,在本发明的某些实施方案中,用中性氨基酸残基和/或较小氨基酸残基取代存在于IGHV种系序列的残基可能是优选的。虽然不受理论的束缚,但是中性和/或较小氨基酸残基可以为显示CDR序列的多样性提供较多柔性和较小空间位阻的环境。

实施例2说明将该方法应用于衍生自特定IGHV种系的重链。本领域普通技术人员容易了解的是,该方法可应用于任何种系序列,并可用来产生至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、1000、104、105、106种或更多种各重链chassis的变异体。

2.1.2.轻链Chassis序列的设计

本发明的轻链chassis可以κ轻链序列和/或λ轻链序列为基础。有关用于呈现在文库中的轻链可变(IGLV)种系序列的选择的原理类似于用于选择重链序列的原理(见上文及实施例1和实施例2)。同样,用于将变异性引入所选定的重链chassis的方法也同样可用于将变异性引入轻链chassis。

在不受理论束缚的情况下,而且为了说明本发明的某些实施方案,可以将文库的VL结构域视为包含3个主要组分:(1)VL“chassis”,它包括氨基酸1~88(采用Kabat编号方式),(2)VLCDR3,在本文中被定义为包括Kabat CDRL3本身(位置89~97),和(3)FRM4区,包括氨基酸98~107(Kabat编号方式)。因此,整个VL结构可以示意图的方式(不按比例制图)如下表示:

      (1)...(88)                  (89)...(97)       (98)...(107)

|------------------------------|----------------|----------------------|

VL Chassis                          CDRL3            FRM4

在本发明的某些实施方案中,文库的VL chassis包括一种或多种基于IGKV种系序列的chassis。在本发明的某些实施方案中,文库的VL chassis可包含一个或多个下列IGKV种系序列的约Kabat残基1~约Kabat残基88:IGKV1-05、IGKV1-06、IGKV1-08、IGKV1-09、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-27、IGKV1-33、IGKV1-37、IGKV1-39、IGKV1D-16、IGKV1D-17、IGKV1D-43、IGKV1D-8、IGKV2-24、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-40、IGKV2D-26、IGKV2D-29、IGKV2D-30、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3D-07、IGKV3D-11、IGKV3D-20、IGKV4-1、IGKV5-2、IGKV6-21和IGKV6D-41。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。

在其它实施方案中,文库的VL chassis可包含下列IGKV种系序列的约Kabat残基1~约Kabat残基88:IGKV1-05、IGKV1-12、IGKV1-27、IGKV1-33、IGKV1-39、IGKV2-28、IGKV3-11、IGKV3-15、IGKV3-20和IGKV4-1。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。这些chassis的氨基酸序列见表11。

在本发明的某些实施方案中,文库的VL chassis包括一种或多种基于IGλV种系序列的chassis。在本发明的某些实施方案中,文库的VL chassis可包含一个或多个下列IGλV种系序列的约Kabat残基1~约Kabat残基88:IGλV3-1、IGλV3-21、IGλV2-14、IGλV1-40、IGλV3-19、IGλV1-51、IGλV1-44、IGλV6-57、IGλV2-8、IGλV3-25、IGλV2-23、IGλV3-10、IGλV4-69、IGλV1-47、IGλV2-11、IGλV7-43、IGλV7-46、IGλV5-45、IGλV4-60、IGλV10-54、IGλV8-61、IGλV3-9、IGλV1-36、IGλV2-18、IGλV3-16、IGλV3-27、IGλV4-3、IGλV5-39、IGλV9-49和IGλV3-12。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、75%、70%、65%、60%、55%或50%相同的氨基酸序列。

在其它实施方案中,文库的VL chassis可包含下列IGλV种系序列的约Kabat残基1~约Kabat残基88:IGλV3-1、IGλV3-21、IGλV2-14、IGλV1-40、IGλV3-19、IGλV1-51、IGλV1-44、IGλV6-57、IGλV4-69、IGλV7-43和IGλV5-45。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、这些序列中的一个或多个等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、75%、70%、65%、60%、55%或50%相同的氨基酸序列。这些chassis的氨基酸序列见表14。

2.2.抗体文库CDRH3组分的设计

本领域已知重链CDR3区中的多样性对于大多数抗体特异性就已足够(Xu和Davis,Immunity,2000,13:27-45,通过引用其全部予以结合),并且采用CDRH3作为多样化的主要来源,创建了现有的成功文库(Hoogenboom等,J.Mol.Biol.,1992,227:381;Lee等,J.Mol.Biol.,2004,340:1073,各文献通过引用其全部予以结合)。DH区和N1/N2区有助于CDRH3功能多样性同样是已知的(Schroeder等,J.Immunol.,2005,174:7773和Mathis等,Eur J Immunol.,1995,25:3115,各文献通过引用其全部予以结合)。对本发明来说,天然存在的人抗体的CDHR3区可以分成5个区段:(1)尾区段,(2)N1区段,(3)DH区段,(4)N2区段,和(5)JH区段。正如下文中的说明一样,尾、N1和N2区段可以存在或可以不存在。

在本发明的某些实施方案中,用于选择氨基酸序列以合成CDRH3文库的方法包括频率分析法和生成现有的重排抗体序列相应的变异性分布。在该方法中,测定了特定氨基酸残基在重排的CDRH3(或任何其它重链或轻链区)的特定位置上的出现频率,更多详情见实施例部分。然后,可选择自然界较常用的氨基酸以包括在本发明的文库内。

2.2.1.DH区段库的设计和选择

在本发明的某些实施方案中,文库含有CDRH3区,CDRH3区包含一个或多个基于IGHD基因种系库设计的区段。在本发明的一些实施方案中,根据最频繁使用的人IGHD基因及其渐进N-端和C-端缺失,选择和设计选用于包含在文库中的DH区段,以模拟IGHD基因区段的体内加工。在本发明的一些实施方案中,文库的DH区段的长度为约3~约10个氨基酸。在本发明的一些实施方案中,文库的DH区段的长度约为0、1、2、3、4、5、6、7、8、9或10个氨基酸或其组合。在某些实施方案中,本发明的文库可含有长度分布范围广的DH区段(例如约0~约10个氨基酸)。在其它实施方案中,DH的长度分布可能有一定的限制(例如约1~约5个氨基酸、约3个氨基酸、约3个和约5个氨基酸等等)。在文库的某些实施方案中,最短的DH区段可约为0、1、2、3、4、5、6、7、8、9或10个氨基酸。

在本发明的某些实施方案中,文库可含有代表任何IGHD种系序列的任何读框的DH区段。在本发明的某些实施方案中,选用于包含在文库中的DH区段包括一个或多个下列IGHD序列或其衍生物(即任何读框和任何程度的N-端和C-端截短):IGHD3-10、IGHD3-22、IGHD6-19、IGHD6-13、IGHD3-3、IGHD2-2、IGHD4-17、IGHD1-26、IGHD5-5/5-18、IGHD2-15、IGHD6-6、IGHD3-9、IGHD5-12、IGHD5-24、IGHD2-21、IGHD3-16、IGHD4-23、IGHD1-1、IGHD1-7、IGHD4-4/4-11、IGHD1-20、IGHD7-27、IGHD2-8和IGHD6-25。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、其等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、995%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。

表1中列举了IGHD3-10读框1的渐进N-端和C-端缺失以便说明。本发明还包括其它IGHD序列和读框的N-端和C-端缺失,利用例如表16中提供的非限制性示例性数据和/或上文概述的方法,本领域普通技术人员可以容易地确定这些序列。表18(实施例5)列举了用于本发明的某些实施方案中的某些DH区段。

表1:基因IGHD3-10读框1的渐进N-端和C-端缺失以产生DH区段的实例

  DH   SEQ ID NO:   DH   SEQ ID NO:   VLLWFGELL   LWFGEL   VLLWFGEL   LWFGE   VLLWFGE   LWFG   VLLLWFG   LWF   VLLWF   WFGELL   VLLW   WFGEL   VLL   WFGE   LLWFGELL   WFG   LLWFGEL   FGELL   LLWFGE   FGEL   LLWFG   FGE   LLWF   GELL   LLW   GEL   LWFGELL   ELL

在本发明的某些实施方案中,选用于包含在文库中的DH区段包括下列IGHD序列中的一个或多个、或其衍生物(即任何读框和任何程度的N-端和C-端截短):IGHD3-10、IGHD3-22、IGHD6-19、IGHD6-13、IGHD3-03、IGHD2-02、IGHD4-17、IGHD1-26、IGHD5-5/5-18和IGHD2-15。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、其等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。

在本发明的某些实施方案中,选用于包含在文库中的DH区段包括一个或多个下列IGHD序列(其中符号“_x”表示基因的读框)或其衍生物(即任何程度的N-端或C-端截短):IGHD1-26_1、IGHD1-26_3、IGHD2-2_2、IGHD2-2_3、IGHD2-15_2、IGHD3-3_3、IGHD3-10_1、IGHD3-10_2、IGHD3-10_3、IGHD3-22_2、IGHD4-17_2、IGHD5-5_3、IGHD6-13_1、IGHD6-13_2、IGHD6-19_1和IGHD6-19_2。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、其等位基因变异体,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%或50%相同的氨基酸序列。

在本发明的某些实施方案中,将文库设计成反映预先确定的长度分布的N-端和C-端缺失的IGHD区段。例如,在文库的某些实施方案中,文库的DH区段可以设计成模拟存在于人库中的DH区段的天然长度分布。例如,不同IGHD区段在重排的人抗体重链结构域中的相对出现率(relative occurrence)来自Lee等人(Lee等,Immunogenetics,2006,57:917,通过引用其全部予以结合)。表2表示得自Lee等人的IGHD区段中前68%的相对出现率。

表2.得自Lee等人的IGHD基因使用率在前68%的相对出现率

  IGHD读框   序列(亲本)  SEQ ID NO:   相对出现率   IGHD3-10_1   VLLWFGELL   4.3%   IGHD3-10_2   YYYGSGSYYN   8.4%   IGHD3-10_3   ITMVRGVII   4.0%   IGHD3-22_2   YYYDSSGYYY   15.6%   IGHD6-19_1   GYSSGWY   7.4%   IGHD6-19_2   GIAVAG   6.0%   IGHD6-13_1   GYSSSWY   8.4%   IGHD6-13_2   GIAAAG   5.3%   IGHD3-3_3   ITIFGWII   7.4%   IGHD2-2_2   GYCSSTSCYT   5.2%   IGHD2-2_3   DIVVVPAAM   4.1%   IGHD4-17_2   DYGDY   6.8%

  IGHD读框   序列(亲本)  SEQ ID NO:   相对出现率   IGHD1-26_1   GIVGATT   2.9%   IGHD1-26_3   YSGSYY   4.3%   IGHD5-5_3   GYSYGY   4.3%   IGHD2-15_2   GYCSGGSCYS   5.6%

在某些实施方案中,这些相对出现率可用来设计文库,所述文库具有类似于外周血中存在的IGHD使用率的DH发生率。在本发明的其它实施方案中,可优选使文库偏向较长或较短的DH区段或特定组成的DH区段。在其它实施方案中,最好可按相同比例使用选用于文库的所有DH区段。

在本发明的某些实施方案中,使用10个最频繁出现的IGHD序列的最常用的读框,并形成这些序列的渐进N-端和C-端缺失,因此提供用于构建本发明的CDRH3库的共278种非丰余DH区段(表18)。在本发明的一些实施方案中,可应用上文所述方法来产生包含最前面的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个已表达的IGHD序列及其渐进N-端和C-端缺失的文库。如同文库的所有其它组分一样,虽然DH区段可选自普遍表达的区段,但是基于其较不普遍表达的事实来选择这些基因区段也在本发明的范围内。这在例如获得针对自身抗原的抗体或在进一步扩大文库的多样性方面可能是有利的。或者,DH区段可按与其在实际的人重链序列的出现率完全成比例的方式来使用以加入组成多样性。

在本发明的某些实施方案中,可以限制含有二硫环编码区段的IGHD基因的渐进缺失,以使得保持环的完整,并避免不成对的半胱氨酸残基的存在。在本发明的其它实施方案中,不论不成对的半胱氨酸残基是否存在,都可以忽略环的存在,至于任何其它区段则可发生IGHD基因区段的渐进缺失。在本发明另外的实施方案中,可使半胱氨酸残基突变成为任何其它氨基酸。

2.2.2.H3-JH区段库的设计和选择

有6种IGHJ(连接)区段,即IGHJ1、IGHJ2、IGHJ3、IGHJ4、IGHJ5和IGHJ6。表20(实施例5)表示亲本区段和渐进N-端缺失的氨基酸序列。与IGHD基因进行的N-端和C-端缺失类似,通过N-端“蚕食(nibbling)”,即通过外切核酸酶活性使一个或多个密码子渐进缺失,将天然变异引入IGHJ基因。

H3-JH区段是指作为CDRH3组成部分的IGHJ区段部分。在本发明的某些实施方案中,文库的H3-JH区段包含下列序列中的一个或多个:AEYFQH(SEQ ID NO:__)、EYFQH(SEQ ID NO:_)、YFQH(SEQ ID NO:_)、FQH(SEQ ID NO:_)、QH(SEQ ID NO:__)、H(SEQ ID NO:_)、YWYFDL(SEQ ID NO:__)、WYFDL(SEQ ID NO:__)、YFDL(SEQ ID NO:__)、FDL(SEQ ID NO:_)、DL(SEQ IDNO:__)、L(SEQ ID NO:_)、AFDV(SEQ ID NO:__)、FDV(SEQID NO:_)、DV(SEQ ID NO:__)、V(SEQ ID NO:__)、YFDY(SEQID NO:__)、FDY(SEQ ID NO:_)、DY(SEQ ID NO:__)、Y(SEQID NO:_)、NWFDS(SEQ ID NO:__)、WFDS(SEQ ID NO:__)、FDS(SEQ ID NO:__)、DS(SEQ ID NO:__)、S(SEQ ID NO:_)、YYYYYGMDV(SEQ ID NO:_)、YYYYGMDV(SEQ ID NO:_)、YYYGMDV(SEQ ID NO:__)、YYGMDV(SEQ ID NO:_)、YGMDV(SEQ ID NO:_)、GMDV(SEQ ID NO:_)、MDV(SEQ IDNO:__)和DV(SEQ ID NO:__)。在本发明的一些实施方案中,文库可含有这些序列中的一个或多个、其等位基因变异,或者编码与这些序列中的一个或多个有至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、60%、55%或50%相同的氨基酸序列。

在本发明的其它实施方案中,H3-JH区段可包含约0、1、2、3、4、5、6、7、8、9个或更多个氨基酸。例如,JH1_4的H3-JH区段(表20)的长度为3个残基,而无缺失JH6的H3-JH区段长度为9个残基。IGHJ区段的FRM4-JH区始于序列WG(Q/R)G(SEQ ID NO:_),相当于构成构架4的组成部分的IGHJ区段部分。在本发明的某些实施方案中,如表20中所列,有28种包括在文库中的H3-JH区段。在某些其它的实施方案中,可利用约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个上文或表20中所列举的IGHJ区段,来产生文库。

2.2.3.N1和N2区段库的设计和选择

末端脱氧核苷酸转移酶(TdT)是一种得自脊椎动物的高度保守的酶,它催化5′三磷酸与单链或双链DNA的3′羟基连接。因此,该酶用作不依赖模板的聚合酶(Koiwai等,Nucleic Acids Res.,1986,14:5777;Basu等,Biochem.Biophys.Res.Comm.,1983,111:1105,各文献通过引用其全部予以结合)。在体内,TdT负责将核苷酸添加到抗体重链的V-D和D-J接点上(Alt和Baltimore,PNAS,1982,79:4118;Collins等,J.Immunol.,2004,172:340,各文献通过引用其全部予以结合)。准确地讲,TdT负责产生位于D(多样性)区两侧的N1和N2(非模板)区段。

在本发明的某些实施方案中,根据在天然存在的人抗体N1和N2区段中存在的氨基酸使用率的统计偏倚,合理设计N1和N2区段的长度和组成。通过该方法产生的文库的一个实施方案见实施例5。按照自人数据库编制的数据(Jackson等,J.Immunol Methods,2007,324:26,通过引用其全部予以结合),对于N1,有平均3.02个氨基酸插入,对于N2,有平均2.4个氨基酸插入,未考虑2个核苷酸以下的插入(图2)。在本发明的某些实施方案中,将N1和N2区段的长度限于0~3个氨基酸。在本发明的其它实施方案中,可将N1和N2的长度限于小于约4、5、6、7、8、9或10个氨基酸。

在本发明的一些实施方案中,可根据天然人抗体的N1和N2序列中特定氨基酸的出现频率来选择这些序列的组成(对于该分析的实例,参见实施例5中的表21~23)。在本发明的某些实施方案中,在这些区中的8个最常出现的氨基酸(即G、R、S、P、L、A、T和V)被用于设计合成的N1和N2区段。在本发明的其它实施方案中,约最多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18或19个最常出现的氨基酸可用于合成的N1和N2区段的设计。在又一些实施方案中,所有20种氨基酸都可用于这些区段。最后,虽然将本发明设计的N1和N2区段的组成建立在天然存在的N1和N2区段的组成的基础上是可行的,但是这不是必要条件。N1和N2区段可包含选自任何氨基酸组的氨基酸,或者按照本发明文库设计所认定的其它标准进行设计。本领域普通技术人员可以容易地了解,用于设计本发明文库任何部分的标准可随具体文库的应用而变化。本发明的一个目的是,可通过使用选自任何氨基酸组的N1和N2区段、无N1或N2区段、或者使用具有本文所述组成以外的组成的N1和N2区段,来产生功能文库是可行的。

本发明的文库和本领域已知的其它文库之间的一个重要差别是在设计文库时,考虑天然存在的配对氨基酸和三联氨基酸序列的组成。表23表示前25种在N1和N2区中天然存在的二联体。这些中的许多可用以下通式表示:(G/P)(G/R/S/P/L/A/V/T)(SEQ ID NO:_)或(R/S/L/A/V/T)(G/P)(SEQ ID NO:_)。在本发明的某些实施方案中,合成的N1区和N2区可包含所有的这些二联体。在其它实施方案中,文库可包含前2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个最常见的天然存在的N1和/或N2二联体。在本发明的其它实施方案中,文库可包括较不频繁存在(即前25个以外)的二联体。考虑到本文教导的方法,可以容易地确定这些另外的二联体(duplet)或三联体(triplet)的组成。

最后,天然存在的三联体N1区和N2区的数据表明天然存在的N1和N2三联体序列常常可用下式表示:(G)(G)(G/R/S/P/L/A/V/T)(SEQ ID NO:_)、(G)(R/S/P/L/A/V/T)(G)(SEQ ID NO:_)或(R/S/P/L/A/V/T)(G)(G)(SEQ ID NO:_)。在本发明的某些实施方案中,文库可包含前2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个最频繁出现的N1和/或N2三联体。在本发明的其它实施方案中,文库可包括较不频繁存在(即前25个以外)的三联体。考虑到本文教导的方法,可以容易地确定这些另外的二联体或三联体的组成。

在本发明的某些实施方案中,用来创建CDRH3文库的N1区段共有约59种,N2区段共有约59种。在本发明的其它实施方案中,N1区段、N2区段或两者的数目增加至约141种(参见例如实施例5)。在本发明的其它实施方案中,可以选择总共约0、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、220、240、260、280、300、320、340、360、380、400、420、440、460、480、500、1000、104种或更多种N1和/或N2区段以包括在本发明的文库中。

考虑到本说明书的教导,本领域普通技术人员可以容易地认识到,将本文详述分析法扩展以产生例如延伸到本文所提供的以外的天然存在的配对N区和三联N区的其它级次(或较高数量级),也尽在常规实验法的范围内(例如应用序列比对、SoDA算法和任何人序列数据库(Volpe等,Bioinformatics,2006,22:438-44,通过引用其全部予以结合)。基于本文教导的信息,普通技术人员还要认识到,目前已可通过改变用于N1库(pool)和/或N2库的独特氨基酸序列的数目,来产生更大多样化或更少多样化(即更集中)的文库。

如上所述,预期有许多替代性的实施方案,其中N1和N2区段的组成和长度与本文实施例中所提供的不同。在一些实施方案中,亚化学计量合成的三核苷酸可用于合成N1和N2区段。有关用三核苷酸进行亚化学计量合成可参见Knappik等(美国专利第6,300,064号,通过引用其全部予以结合)。考虑N1和N2序列中的长度变异,使用亚化学计量合成法能够使合成得以进行。

除了上述实施方案以外,还可使用TdT活性的模型来确定本发明文库中N1和N2序列的组成。例如,有研究提出了通过TdT活性在多核苷酸中掺入特定核苷酸基(A、C、G、T)的概率依赖于碱基和链中恰好要加入碱基之前的碱基的类型。Jackson等(J.Immunol.Methods,2007,324:26,通过引用其全部予以结合)构建了描述该方法的Markov模型。在本发明的某些实施方案中,该模型可用来确定用于本发明文库的N1和/或N2区段的组成。或者,Jackson等人提供的参数可进一步使产生更接近模拟人序列的序列变得更完善。

2.2.4.使用N1、DH、N2和H3-JH区段设计CDRH3文库

本发明的CDRH3文库包含起始氨基酸(在某些示例性实施方案中为G、D、E)或缺乏起始氨基酸(在本文标为位置95),接着是N1、DH、N2和H3-JH区段。因此,在本发明的某些实施方案中,整体设计的CDRH3文库可用下式表示:

[G/D/E/-]-[N1]-[DH]-[N2]-[H3-JH]。

虽然上文中较全面地描述了本发明文库的CDRH3每个部分的组成,但上面提供的尾的组成(G/D/E/-)是非限制性的,任何氨基酸(或无氨基酸)都可用于该位置。因此,本发明的某些实施方案可用下式表示:

[X]-[N1]-[DH]-[N2]-[H3-JH],

其中[X]是任何氨基酸残基或无残基。

在本发明的某些实施方案中,通过同源重组,使合成的CDRH3库与所选定的VH chassis序列和重链恒定区结合。因此,在本发明的某些实施方案中,可能必需包括位于合成的CDRH3文库5’端和3’端的DNA序列,以促进合成的CDRH3文库与含有所选定的chassis和恒定区的载体之间的同源重组。在某些实施方案中,载体还含有GHJ基因非蚕食区(non-nibbled region)(即FRM4-JH)的至少一部分的编码序列。因此,可将编码N-端序列(例如CA(K/R/T))的多核苷酸添加到合成的CDRH3序列上,其中N-端多核苷酸与Chassis的FRM3同源,而可将编码C-端序列(例如WG(Q/R)G)的多核苷酸添加到合成的CDRH3上,其中C-端多核苷酸与FRM4-JH同源。虽然该示例性实施方案中提供了序列WG(Q/R)G,但是将氨基酸在C-端添加到FRM4-JH中的该序列中也可包括在编码C-端序列的多核苷酸内。既然如此,编码N-端和C-端序列多核苷酸的目的是必将促进同源重组,本领域普通技术人员应认识到,这些序列可比下述序列长或短。因此,在本发明的某些实施方案中,整体设计的CDRH3库,包括促进与所选定的chassis进行同源重组所必需的序列,可用下式表示(与载体同源的区加有下划线):

CA[R/K/T]-[X]-[N1]-[DH]-[N2]-[H3-JH]-[WG(Q/R)G]。

在本发明的其它实施方案中,CDRH3库可用下式表示,它不包括上式中所提供的T残基:

CA[R/K]-[XHN1]-[DH]-[N2]-[H3-JH]-[WG(Q/R)G]。

有关描述V、D和J基因集合体的参考文献包括Scaviner等,Exp.Clin,Immunogenet.,1999,16:243和Ruiz等,Exp.Clin,Immunogenet,有1999,16:173,各文献通过引用其全部予以结合。

2.2.5.CDRH3长度分布

如本申请全文中所述,除说明天然存在的CDRH3区段的组成之外,本发明还考虑天然存在的CDRH3区段的长度分布。Zemlin等(JMB,2003,334:733,通过引用其全部予以结合)和Lee等(Immunogenetics,2006,57:917,通过引用其全部予以结合)的研究提供了对天然存在的CDRH3长度的分析。这些数据显示约95%的天然存在的CDRH3序列的长度为约7~约23个氨基酸。在某些实施方案中,本发明提供合理设计的具有CDRH3区段的抗体文库,所述CDRH3区段直接模拟天然存在的CDRH3序列的大小分布。在本发明的某些实施方案中,CDRH3的长度可以是约2~约30个、约3~约35个、约7~约23个、约3~约28个、约5~约28个、约5~约26个、约5~约24个、约7~约24个、约7~约22个、约8~约19个、约9~约22个、约9~约20个、约10~约18个、约11~约20个、约11~约18个、约13~约18个或约13~约16个残基。

在本发明的某些实施方案中,本发明CDRH3文库的长度分布可根据某一长度范围内序列的百分比来确定。例如,在本发明的某些实施方案中,长度为约10~约18个氨基酸残基的CDRH3构成文库中这种序列的约84%~约94%。在一些实施方案中,该长度范围内的序列构成文库中这种序列的约89%。

在本发明的其它实施方案中,长度为约11~约17个氨基酸残基的CDRH3构成文库中这种序列的约74%~约84%。在一些实施方案中,该长度范围内的序列构成文库中这种序列的约79%。

在本发明另外的实施方案中,长度为约12~约16个残基的CDRH3构成文库中这种序列的约57%~约67%。在一些实施方案中,该长度范围内的序列构成文库中这种序列的约62%。

在本发明的某些实施方案中,长度为约13~约15个残基的CDRH3构成文库中这种序列的约35%~约45%。在一些实施方案中,该长度范围的序列构成文库中这种序列的约40%。

2.3.抗体文库CDRL3组分的设计

本发明的CDRL3文库可通过若干种方法之一产生。所构建的并且用于本发明具体实施方案的CDRL3文库的实际形式将取决于文库使用的目的。在一个具体实施方案中可以使用不只一种CDRL3文库;例如,含有CDRH3多样性与κ轻链和λ轻链的文库也在本发明的范围内。

在本发明的某些实施方案中,CDRL3文库是VKCDR3(κ)文库和/或VλCDR3(λ)文库。本文所描述的CDRL3文库与本领域的CDRL3文库显著不同。首先,考虑了长度变异,这种长度变异与在实际人序列中所观察的长度变异一致。第二,考虑了CDRL3的重要部分是由IGLV基因编码的这一事实。第三,在IGLV基因编码的CDRL3部分内氨基酸的变异形式不是随机的,而是基于取决于IGLV基因的同一性进行选择的。总之,第二和第三个区别特征意味着真实模拟在人序列中所观察到的形式的CDRL3文库,在FRM1~FRM3中不能使用不依赖chassis序列的通用设计。第四,还明确考虑了JL对于CDRL3的影响,而且在相关位置上对每个氨基酸残基的计数都以JL基因本身的组成和天然变异为基础。

如上文和本申请全文所述,本发明文库设计的一个独特的方面是种系或“基于chassis的”方面,这意味着保留更多实际的人序列的完整性和变异性。这与文献中所描述的并且旨在产生“万全之策(one-size-fits-all)”(例如共有序列)的文库的其它基于密码子的合成法或简并寡核苷酸合成法大不相同(例如,Knappik等,J Mol Biol,2000,296:57;Akamatsu等,J Immunol,1993,151:4651,各文献通过引用其全部予以结合)。

在本发明的某些实施方案中,通过对在公共数据库或其它数据库中可获取的数据进行分析来确定特定氨基酸在VL序列内的规定位置上的出现形式,数据库例如NCBI数据库(参见例如本文所附的附录A和附录B的GI编号)。在本发明的某些实施方案中,根据同一性对这些序列进行比较,并且根据其所衍生的种系基因来将这些序列指派到各家族。然后可确定在各种系家族中在所述序列各个位置上的氨基酸组成。在本文提供的实施例中对该方法进行了说明。

2.3.1.极简VKCDR3文库(Minimalist VKCDR3 Libraries)

在本发明的某些实施方案中,轻链CDR3文库为VKCDR3文库。本发明的某些实施方案可以仅用最常见的VKCDR3长度,即9个残基;该长度按人VKCDR3序列中的优势比例(大于约70%)出现。在长度为9的人VKCDR3序列中,位置89~95由IGKV基因编码,位置96~97由IGKJ基因编码。对人κ轻链序列的分析表明,在IGKJ基因的使用率上无大的偏差。因此,在本发明的某些实施方案中,可以按相同比例呈现5种IGKJ基因中的每一种以创建(M VK chassis)×(5种JK基因)的组合文库,即大小为M×5的文库。然而,在本发明的其它实施方案中,最好可使IGKJ基因呈现有倾向性,例如以限制文库的大小或偏倚已知具有特殊性质的IGKJ基因的文库。

如实施例6.1中所述,由IGKJ基因编码的第一个氨基酸(位置96)的研究表明存在于该位置的7个最常见的残基为L、Y、R、W、F、P和I。这些残基累计占天然存在的κ轻链序列位置96上存在的残基的约85%。在本发明的某些实施方案中,位置96上的氨基酸残基可以是这7个残基之一。在本发明的其它实施方案中,该位置的氨基酸可从其它13个氨基酸残基的任一个中选出。在本发明另外的实施方案中,位置96上的氨基酸残基可从出现在位置96上的前1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个氨基酸中选出,或者甚至在不出现在位置96上的残基中选出。同样,选出的占据位置96的氨基酸的出现次数可相等或有所偏重。在本发明的某些实施方案中,最好可包括选出的各种氨基酸以等量占据位置96。在本发明的其它实施方案中,最好可使位置96的组成有所偏重以包括与其它残基相比出现较频繁或较不频繁的特定残基。例如,如实施例6.1中所示,当使用IGKJ1种系序列时,精氨酸在位置96上的出现最为频繁。因此,在本发明的某些实施方案中,最好可根据选用于呈现在文库中的IGKJ种系序列和/或IGKV种系序列的来源,使位置96上的氨基酸使用有所偏重。

因此,在本发明的某些实施方案中,极简VKCDR3文库可用一种或多种下列氨基酸序列表示:

[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[JK*]

[VK_Chassis]-[L3-VK]-[X]-[JK*]

在这些图解示例性序列中,VK_Chassis表示选用于包含在本发明文库中的任何VK chassis(例如参见表11)。准确地讲,VK_Chassis包含所选定的IGKV序列的约Kabat残基1~88。L3-VK表示由所选定的IGKV基因编码的VKCDR3部分(在该实施方案中为Kabat残基89-95)。F、L、I、R、W、Y和P是7个在VKCDR3位置96上最常出现的氨基酸,其长度为9,X为任何氨基酸,JK*为无N-端残基的IGKJ氨基酸序列(即N-端残基被F、L、I、R、W、Y、P或X取代)。因此,在极简VKCDR3文库中的一个可能的实施方案中,可通过使用10种VK chassis(每种与其相应的L3-VK配对)、位置96上的7个氨基酸(即X)和1种JK*序列,来产生70个成员。该文库另一个实施方案可具有350个成员,通过使10种VK chassis(每种与其相应的L3-VK配对)与位置96上的7个氨基酸和所有5种JK*基因组合产生。该文库的又一个实施方案可具有1,125个成员,通过使15种VK chassis(每种与其相应的H3-JK配对)与位置96上的15个氨基酸和所有5种JK*基因组合产生,等等。本领域普通技术人员可以容易地认识到,许多其它组合是可行的。此外,虽然我们认为保持VK chassis与L3-VK之间的配对导致产生在组成上更类似于人κ轻链序列的文库,但是L3-VK区还可以与不同的VK chassis区进行组合上的变化,以产生额外的多样性。

2.3.2.复杂度约105的VKCDR3文库

虽然人VKCDR3序列的优势长度约为9个氨基酸,但是其它长度以可测量的频率出现,累计接近VKCDR3序列的将近30%。具体地讲,在代表性样品中,长度为8和10的VKCDR3分别是VKCDR3长度的约8.5%和约16%(实施例6.2;图3)。因此,更复杂的VKCDR3文库可包括长度为8、10和11个氨基酸的CDR。这类文库可占人VKCDR3序列集合体中所观察到的长度分布的更大百分比,或者甚至引入不频繁出现在人VKCDR3序列中的VKCDR3长度(例如小于8个残基或大于11个残基)。

本发明文库中包括的κ轻链长度变异的多样性还能够使序列包括发生在VK-JK接点(即上述位置96)上的氨基酸以外的序列变异性。在本发明的某些实施方案中,可通过对衍生自特定种系序列的序列集合体进行比对,来确定VK区段和/或JK区段内的序列变异形式。在本发明的某些实施方案中,可通过序列比对,来确定VKCDR3内氨基酸残基的出现频率(例如参见实施例6.2和表30)。在本发明的一些实施方案中,这种出现频率可用来将变异性引入用来合成VKCDR3文库的VK_Chassis、L3-VK和/或JK区段。在本发明的某些实施方案中,在天然存在的抗体库中,出现在任何特定位置上的前1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个氨基酸均可包括在本发明VKCDR3文库的所述位置上。在本发明的某些实施方案中,在VKCDR3或VK轻链内的任何特定位置上,任何氨基酸的出现百分比可约为0%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或100%。在本发明的某些实施方案中,在本发明的VKCDR3或κ轻链文库内的任何位置上,任何氨基酸的出现百分比至少是在天然存在的VKCDR3或κ轻链结构域内的任何位置上任何氨基酸出现百分比的约1%、2%、3%、4%、5%、6%、7%、8%、9%10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、100%、120%、140%、160%、180%或200%。

在本发明的一些实施方案中,VKCDR3文库可以使用简并寡核苷酸合成(有关IUPAC碱基符号定义参见表31)。在本发明的一些实施方案中,寡核苷酸合成和遗传密码的限制可能需要VKCDR3序列的特定位置上包括较多或较少的氨基酸。该方法的示例性实施方案参见实施例6.2。

2.3.3.更复杂的VKCDR3文库

在某些情况下,在使用遗传密码和简并寡核苷酸合成法中的固有限制需要在VKCDR3内的特定位置上包括比天然位置上存在的氨基酸多或少的氨基酸(例如实施例6.2,表32)。这种限制可通过使用基于密码子的合成方法来克服(Virnekas等,Nucleic Acids Res.,1994,22:5600,通过引用其全部予以结合),该方法能够精确合成编码特定氨基酸的寡核苷酸,并且能够对掺到任何位置上的任何特定氨基酸的比例进行较好程度的控制。实施例6.3更详细地描述了这种方法。

在本发明的一些实施方案中,可以采用基于密码子的合成方法,来改变在VKCDR3或κ轻链内的任何特定位置上任何氨基酸的出现百分比。在某些实施方案中,在文库中的VKCDR3或κ轻链序列的任何位置上,任何氨基酸的出现百分比可约为0%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或100%。在本发明的一些实施方案中,在任何位置上任何氨基酸的出现百分比可约为1%、2%、3%或4%。在本发明的某些实施方案中,在本发明的VKCDR3或κ轻链文库内的任何位置上,任何氨基酸的出现百分比可至少是在天然存在的VKCDR3或κ轻链结构域内的任何位置上任何氨基酸出现百分比的约1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、100%、120%、140%、160%、180%或200%。

在本发明的某些实施方案中,可以改变VKCDR3(以及用于文库的任何其它序列,不论是否是VKCDR3的组成部分)以去掉不需要的氨基酸基序。例如,在包括酵母和哺乳动物细胞在内的多个表达系统中,具有N-X-(S或T)-Z(其中X和Z与P不同)形式的肽序列,将进行翻译后修饰(N-联糖基化)。在本发明的某些实施方案中,可以避免在某些位置引入N残基,以便避免引入N-联糖基化位点。在本发明的一些实施方案中,这些修饰可能不是必需的,这取决于用于表达文库的生物和培养条件。然而,即使用于表达文库的具有潜在N-联糖基化位点的生物不能进行N-联糖基化(例如细菌),但最好也要避免N-X-(S/T)序列,因为从这类文库分离的抗体以后(例如将到来的临床开发)可在不同系统(例如酵母、哺乳动物细胞)中表达,而且可变结构域(特别是CDR)中存在的糖部分可导致活性的不良改变。

在本发明的某些实施方案中,优选可分别创建不同长度的子文库(例如长度5、6、7、8、9、10、11个以上的一种或多种),然后按人序列中VKCDR3的长度分布比将子文库混合;例如,在长度为8、9和10的天然VKCDR3序列中出现的大约1∶9∶2的分布比(参见图3)。在其它实施方案中,最好可按不同于天然VKCDR3序列中长度分布的比率将这些子文库混合,以产生例如更集中的文库或具有特殊性质的文库。

2.3.4.VλCDR3文库

用于设计本发明的极简VλCDR3文库的原理类似于上文列举的VKCDR3文库的原理,并在实施例中进行了详细说明。与IGKV基因不同,本发明的VλCDR3文库与本发明的VKCDR3文库之间的一个差别是IGVλ基因对CDRL3(即L3-Vλ)的影响不限于氨基酸残基的固定数目。因此,虽然VK(包括L3-VK)和JK区段的组合(其中包括了位置96),产生长度仅为9个残基的CDRL3,但是即使当仅考虑Vλ(包括L3-Vλ)和Jλ区段时,在VλCDR3文库内便可达到长度变异。

对于VKCDR3序列,通过上文概述的同样方法,可将额外的变异性引入VλCDR3序列中,即确定VλCDR3序列内特定残基的出现频率,以及通过简并寡核苷酸合成法或基于三核苷酸的合成法合成编码所需组成的寡核苷酸。

2.4.合成的抗体文库

在本发明的某些实施方案中,重链chassis序列和轻链chassis序列以及重链CDR3序列和轻链CDR3序列都是合成的。可通过各种方法合成本发明的多核苷酸序列。例如,可在通过Feldhaus等人所描述的分合DNA合成法来进行序列合成(Feldhaus等,Nucleic AcidsResearch,2000,28:534;Omstein等,Biopolymers,1978,17:2341;以及Brenner和Lerner,PNAS,1992,87:6378(各文献通过引用其全部予以结合))。

在本发明的一些实施方案中,对代表存在于人抗体库中的可能的V、D和J多样性以及接点多样性的表达盒进行从头合成,成为双链DNA寡核苷酸、代表编码链的单链DNA寡核苷酸或代表非编码链的单链DNA寡核苷酸。然后将这些序列与含有chassis序列的接纳体载体,以及一部分FRM4和恒定区(在某些情况下)一起导入宿主细胞。不需要采用得自哺乳动物cDNA或mRNA的基于引物的PCR扩增或者得自哺乳动物cDNA或mRNA的模板指导的克隆步骤。

2.5.通过酵母同源重组进行的文库构建

在某些实施方案中,本发明利用酵母细胞以高效率促进同源重组的固有能力。下面简要描述了在酵母中同源重组的机制及其应用。

按照一个示例性实施方案,同源重组可以在例如酿酒酵母中进行,酿酒酵母具有被设计成以高效率进行同源重组的遗传机器。示例性的酿酒酵母品系包括EM93、CEN.PK2、RM11-1a、YJM789和BJ5465。一般认为这种机制是为了染色体修复而得到进化,亦称“缺口修复(gap repair)”或“缺口填补(gap filling)”。在利用该机制时,可将突变引入酵母基因组的特定基因座。例如,携带突变基因的载体可含有2个序列区段,所述区段与预期被间隔或突变的基因的5′和3′可读框(ORF)序列同源。载体还可编码阳性选择标记,例如两侧是2个同源DNA区段的营养酶等位基因(例如URA3)和/或抗生素抗性标记(例如遗传霉素/G418)。其它选择标记和抗生素抗性标记为本领域普通技术人员所知。在本发明的一些实施方案中,将这种载体(例如质粒)线性化,并转化至酵母细胞中。通过质粒与酵母基因组在2个同源重组位点进行的同源重组,在酵母基因组的野生型基因与两侧是2个同源序列区段的突变基因(包括选择标记基因)之间发生DNA内容物的相互交换。通过针对一种或多种选择标记进行选择,存活的酵母细胞将会是其中野生型基因已被突变基因置换的细胞(Pearson等,Yeast,1998,14:391,通过引用其全部予以结合)。这种机制已用来在所有6,000个酵母基因或可读框(ORF)中产生系统突变,以用于功能基因组学研究。因为交换是相互的,所以同样方法还成功用来将酵母基因组DNA片段克隆到质粒载体中(Iwasaki等,Gene,1991,109:81,通过引用其全部予以结合)。

在利用酵母中存在的内源性同源重组机器时,无需连接步骤,还可将基因片段或合成的寡核苷酸克隆到质粒载体中。在同源重组的这种应用中,获得(例如通过寡核苷酸合成法、PCR扩增、限制性消化另一载体等)靶基因片段(即待插入质粒载体的片段,例如CDR3)。将与质粒载体的选定区同源的DNA序列添加到靶基因片段的5′和3′端。这些同源区可以是完全合成的,或者是用掺入同源序列的引物通过PCR扩增靶基因片段添加的。质粒载体可包括阳性选择标记,例如营养酶等位基因(例如URA3)或抗生素抗性标记(例如遗传霉素/G418)。然后通过对位于与靶基因片段有共同序列同源性的区域之间进行独特的限制性切割使质粒载体线性化,从而在切割位点产生人工缺口。使线性化的质粒载体和两侧是与质粒载体同源的序列的靶基因片段共同转化到酵母宿主品系中。然后酵母能够识别载体和靶基因片段之间同源的序列段,并通过在缺口上的同源重组促进DNA内容物的相互交换。因而无需连接便将靶基因片段插入载体。

当靶基因片段呈单链DNA的形式时,例如作为环状M13噬菌体衍生形式或作为单链寡核苷酸时,上述方法也被证实是行之有效的(Simon和Moore,Mol.Cell Biol.,1987,7:2329;Ivanov等,Genetics,1996,142:693;以及DeMarini等,2001,30:520.,各文献通过引用其全部予以结合)。因此,可重组到有缺口载体的靶标形式可以是双链或单链,并可得自化学合成、PCR、限制性消化或其它方法。

若干因素可影响酵母中同源重组的效率。例如,缺口修复的效率与位于线性化载体和靶基因两侧的同源序列长度相关。在某些实施方案中,对于同源序列的长度,可使用约20个以上碱基对,约80个碱基对可得到几乎最优化的结果(Hua等,Plasmid,1997,38:91;Raymond等,Genome Res.,2002,12:190,各文献通过引用其全部予以结合)。在本发明的某些实施方案中,至少大约5、10、15、20、21、22、23、24、25、26、27、28、29、30、31、32、33、3435、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、187、190或200个同源碱基对可用来促进重组。在其它实施方案中,使用介于约20个和约40个之间的碱基对。另外,载体与基因片段之间的相互交换是严格序列依赖性的,即它不会引起移码。因此,缺口修复克隆确保了基因片段既高效率又精确的插入。高效率使得有可能在一次转化尝试中将2、3个以上靶定基因片段同时克隆到同一载体上(Raymond等,Biotechniques,1999,26:134,通过引用其全部予以结合)。此外,通过同源重组的精确序列保守性质使得可能将所选定的基因或基因片段克隆到表达载体或融合载体中以指导功能研究(El-Deiry等,Nature Genetics,1992,1:4549;Ishioka等,PNAS,1997,94:2449,各文献通过引用其全部予以结合)。

采用同源重组,还在酵母中构建了基因片段文库。例如,在载体pJG4-5中构建了人脑cDNA文库作为双杂合融合文库(two-hybridfusion library)(Guidotti和Zervos,Yeast,1999,15:715,通过引用其全部予以结合)。还有研究报告了共6,000对PCR引物被用来扩增6,000个已知的酵母ORF,以研究酵母基因组蛋白相互作用(Hudson等,Genome Res.,1997,7:1169,通过引用其全部予以结合)。在2000年,Uetz等人在酿酒酵母中进行了蛋白质-蛋白质相互作用的综合分析(Uetz等,Nature,2000,403:623,通过引用其全部予以结合)。通过采用分析酵母蛋白质之间所有可能组合中的双杂种相互作用的综合系统,对芽殖酵母的蛋白质-蛋白质相互作用图谱进行了研究(Ito等,PNAS,2000,97:1143,通过引用其全部予以结合),采用该系统,还研究了痘病毒的基因组蛋白质连锁图(McCraith等,PNAS,2000,97:4879,通过引用其全部予以结合)。

在本发明的某些实施方案中,可通过同源重组将合成的CDR3(重链或轻链)与编码重链chassis或轻链chassis、一部分FRM4和恒定区的载体连接,形成全长重链或轻链。在本发明的某些实施方案中,同源重组直接在酵母细胞中进行。在一些实施方案中,该方法包括:

(a)转化至酵母细胞:

(i)编码重链chassis或轻链chassis、一部分FRM4和恒定区的线性化载体,其中线性化位点在Chassis的FRM3末端与恒定区的起点之间;和

(ii)作为线性双链的CDR3插入核苷酸序列的文库,其中每个CDR3插入序列中都包含编码CDR3以及5′侧翼序列和3′侧翼序列的核苷酸序列,所述侧翼序列与(i)的载体在线性化位点上的末端足够同源,使得能够在载体与CDR3插入序列的文库之间发生同源重组;和

(b)允许在转化酵母细胞中在载体与CDR3插入序列之间发生同源重组,使得CDR3插入序列掺入载体,产生编码全长重链或轻链的载体。

如上所述,CDR3插入序列可具有与线性化载体末端同源的5′侧翼序列和3′侧翼序列。当将CDR3插入序列和线性化载体导入宿主细胞(例如酵母细胞)时,通过这2个线性双链DNA(即载体和插入序列)在5′端和3′端进行同源序列重组,由CDR3片段插入序列填补因载体线性化而产生的“缺口”(线性化位点)。通过这一同源重组事件,便产生了包含可变CDR3插入序列的编码全长重链或轻链的环状载体文库。实施例中提供了这些方法的具体实例。

可进行后续分析以测定导致CDR3序列正确插入载体的同源重组的效率。例如,直接从选出的酵母克隆进行CDR3插入序列的PCR扩增,可以揭示有多少克隆是重组体。在某些实施方案中,使用最小约90%重组克隆的文库。在某些其它的实施方案中,使用具有以下最小百分比的重组克隆的文库:约1%、5%10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。选出的克隆经相同的PCR扩增还可揭示插入序列大小。

为了证实在选出的克隆中插入序列的序列多样性,可以用已知在扩增区内切割或不切割的限制性内切酶,对具有正确插入序列大小的PCR扩增产物进行“指纹分析”。从凝胶电泳图中,可以确定所分析的克隆是否具有相同同一性或者具有截然不同或多样化同一性。还可对PCR产物直接进行测序以揭示插入序列的同一性和克隆方法的保真度,并证实克隆的独立性和多样性。图1表示用于构建文库的片段(例如CDR3)与载体(例如包含chassis、部分FRM4和恒定区)间重组的示意图。

2.6.表达和筛选系统

可以表达和筛选通过本文所述任何技术或其它合适技术产生的多核苷酸文库,以鉴定具有所需结构和/或活性的抗体。例如,可使用无细胞提取物(例如核糖体展示)、噬菌体展示、原核细胞(例如细菌展示)或真核细胞(例如酵母展示),来进行抗体表达。在本发明的某些实施方案中,在酵母中表达抗体文库。

在其它实施方案中,将多核苷酸进行工程改造以用作可在无细胞提取物中进行表达的模板。例如,可以使用美国专利第5,324,637、5,492,817、5,665,563号(各专利通过引用其全部予以结合)中所描述的载体和提取物,而且许多是市售的。可以采用将多核苷酸(即基因型)与多肽(即表型)相联系的核糖体展示和其它无细胞技术,例如,ProfusionTM(参见例如美国专利第6,348,315、6,261,804、6,258,558和6,214,553号,各专利通过引用其全部予以结合)。

或者,可以在大肠杆菌(E.coli)表达系统,例如Pluckthun和Skerra(Meth.Enzymol.,1989,178:476;Biotechnology,1991,9:273,各文献通过引用其全部予以结合)所描述的大肠杆菌表达系统中表达本发明的多核苷酸。可按照Better和Horwitz(Meth.Enzymol.,1989,178:476,通过引用其全部予以结合)所述方法,表达突变蛋白以分泌在培养基中和/或在细菌胞质内。在一些实施方案中,编码VH和VL的单一结构域各与信号序列的编码序列的3’端连接,例如ompA、phoA或pelB信号序列(Lei等,J.Bacteriol.,1987,169:4379,通过引用其全部予以结合)。这些基因融合物在双顺反子构建体中装配,致使它们可从单一载体表达,并分泌到大肠杆菌的周质间隙,在此它们将再折叠,并且可恢复活性形式(Skerra等,Biotechnology,1991,9:273,通过引用其全部予以结合)。例如,抗体重链基因可与抗体轻链基因同时表达以产生抗体或抗体片段。

在本发明的其它实施方案中,使用如例如US20040072740、US20030100023和US20030036092(各文献通过引用其全部予以结合)中所述的分泌信号和脂化部分,使抗体序列在大肠杆菌等原核生物的膜表面上表达。

哺乳动物细胞等高等真核细胞,例如骨髓瘤细胞(例如NS/0细胞)、杂交瘤细胞、中国仓鼠卵巢(CHO)细胞和人胚肾(HEK)细胞,也可用于表达本发明的抗体。通常,在哺乳动物细胞表达的抗体被设计成分泌到培养基中,或在细胞表面上表达。可以例如完整抗体分子的形式或以各个VH和VL片段、Fab片段、单一结构域的形式、或以单链(scFv)形式产生抗体或抗体片段(Huston等,PNAS,1988,85:5879,通过引用其全部予以结合)。

或者,可以通过锚定的周质表达(anchored periplasmic expression)(APEx 2-杂合表面展示)(参见例如Jeong等,PNAS,2007,104:8247,通过引用其全部予以结合),或者通过其它锚定方法(参见例如Mazor等,Nature Biotechnology,2007,25:563,通过引用其全部予以结合),来表达和筛选抗体。

在本发明的其它实施方案中,可采用哺乳动物细胞展示,来选择抗体(Ho等,PNAS,2006,103:9637,通过引用其全部予以结合)。

得自本发明文库的抗体的筛选可通过任何合适的方法进行。例如,可通过标准免疫测定法和/或亲和层析法评价结合活性。可采用标准测定法,例如美国专利第5,798,208号(通过引用其全部予以结合)等中所披露的血红蛋白噬斑测定法,来实现本发明抗体的催化功能的筛选,例如蛋白水解功能。可采用例如BIACORETM仪器,在体外进行候选抗体与治疗靶的结合能力的测定,这是根据表面等离子共振,来测量抗体与给定靶或抗原的结合速率。可使用多种动物模型中的任一种进行体内测定法,然后,适当时在人体内进行后续试验。还包括基于细胞的生物学实验。

本发明的一个方面是文库中的抗体可以表达和筛选的速度。在本发明的某些实施方案中,抗体文库可在酵母中表达,其倍增时间约为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24小时以内。在一些实施方案中,倍增时间为约1~约3小时,约2~约4小时、约3~约8小时、约3~约24小时、约5~约24小时、约4~约6小时、约5~约22小时、约6~约8小时、约7~约22小时、约8~约10小时、约7~约20小时、约9~约20小时、约9~约18小时、约11~约18小时、约11~约16小时、约13~约16小时、约16~约20小时或约20~约30小时。在本发明的某些实施方案中,抗体文库在酵母中表达,其倍增时间为约16~约20小时、约8~约16小时或约4~约8小时。因此,与花数天时间表达和筛选抗体文库的现有已知技术相比,本发明的抗体文库可在数小时内进行表达和筛选。在哺乳动物细胞中,这类筛选方法的通量方面的限制步骤仅仅是使分离细胞群重复再生长所需要的时间,在某些情况下,其倍增时间大于用于本发明的酵母的倍增时间。

在本发明的某些实施方案中,可在一个或多个富集步骤之后确定文库的组成(例如通过针对抗原结合或其它性质进行筛选)。例如,在一个或多个筛选步骤之后,其组成包含约x%本发明序列或文库的文库可富集至含有约2x%、3x%、4x%、5x%、6x%、7x%、8x%、9x%、10x%、20x%、25x%、40x%、50x%、60x%、75x%、80x%、90x%、95x%或99x%本发明序列或文库。在本发明的其它实施方案中,与在一个或多个富集步骤之前的本发明序列或文库的出现相比,本发明的序列或文库可富集约2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、100倍、1,000倍以上。在本发明的某些实施方案中,文库可含有至少某一数量的特定序列类型,例如CDRH3、CDRL3、重链、轻链或完整抗体(例如至少约103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019或1020)。在某些实施方案中,这些序列可以在一个或多个富集步骤期间富集,以提供包含至少约102、103、104、105、106、107、108、109、1010、1011、1012、1013、1014、1015、1016、1017、1018或1019个相应序列的文库。

2.7.亲和力成熟的诱变方法

如上所述,可以通过包括根据结合一种或多种抗原或者生物活性对本发明文库的抗体进行筛选的选择方法,来鉴定抗体lead。还可对这些抗体lead的编码序列进行体外或体内诱变以产生在初始抗体lead方面引入多样性的二级文库。然后,可按照与用于从一级文库选出初始抗体lead同样的方法,在体外或体内进一步筛选出与靶抗原结合或有生物活性的经诱变的抗体lead。第一抗体lead的这种诱变和选择有效地模拟了亲和力成熟过程,该过程天然存在于产生对抗原的亲和力逐步增加的抗体的哺乳动物中。在本发明的一个实施方案中,仅CDRH3区是经过诱变的。在本发明的另一个实施方案中,整个可变区是经过诱变的。在本发明的其它实施方案中,CDRH1、CDRH2、CDRH3、CDRL1、CDRL2和/CDRL3中的一种或多种可经过诱变。在本发明的一些实施方案中,“轻链改组”可用作亲和力成熟方案的组成部分。在某些实施方案中,这可包括将一个或多个重链与多个轻链配对,以选出提高抗体亲和力和/或生物活性的轻链。在本发明的某些实施方案中,可与一个或多个重链配对的轻链的数目至少约为2、5、10、100、1000、104、105、106、107、108、109或1010个。在本发明的某些实施方案中,这些轻链由质粒编码。在本发明的其它实施方案中,可将轻链整合到宿主细胞的基因组内。

可通过各种方法诱变抗体lead的编码序列。诱变方法的实例包括但不限于定点诱变、易错PCR诱变、表达盒诱变和随机PCR诱变。或者,可以合成具有所需突变的寡核苷酸编码区,并且例如通过重组或连接将其引入待诱变的序列。

可以使用定点诱变或点诱变来逐渐改变特定区域中的CDR序列。这可以通过采用寡核苷酸指导的诱变或PCR来实现。例如,在重链区或轻链区或两区内,抗体lead的短序列可用经合成方式诱变的寡核苷酸置换。该方法对于诱变大量的CDR序列可能不是高效的,但却可用来微调特定lead以获得对特异性靶蛋白的较高亲和力。

表达盒诱变还可用来诱变特定区域的CDR序列。在典型的表达盒诱变中,单一模板的序列模(block)或区通过使序列完全或部分随机排列而被置换。然而,可通过寡核苷酸的随机序列数,以统计学的方法限制可以获取的最大信息量。与点诱变相同,该方法也可用于特定lead的微调以获得对特异性靶蛋白的较高亲和力。

可按照以下文献所述方案,采用易错PCR或“毒(poison)”PCR诱变CDR序列:Caldwell和Joyce,PCR Methods and Applications,1992,2:28;Leung等,Technique,1989,1:11;Shafikhani等,Biotechniques,1997,23:304;以及Stemmer等,PNAS,1994,91:10747(各文献通过引用其全部予以结合)。

易错PCR的条件可包括(a)有效诱导Taq DNA聚合酶功能失常的高浓度Mn2+(例如约0.4mM~约0.6mM);和(b)在PCR反应中一种不成比例的高浓度核苷酸底物(例如dGTP),这能引起将该高浓度的底物不正确地掺入模板,并产生突变。另外,其它因素例如PCR循环次数、所使用的DNA聚合酶种类和模板长度,都可影响将“错误”核苷酸错掺入PCR产物的速度。市售的试剂盒可用于所选定的抗体文库的诱变,例如“多样性PCR随机诱变试剂盒(Diversity PCR randommutagenesis kit)”(CLONTECHTM)。

在某些实施方案中,基于PCR的诱变中所使用的引物对可包括与表达载体中的同源重组位点匹配的区。这种设计可允许在诱变之后,通过同源重组容易地将PCR产物再引入回到重链或轻链chassis载体。

其它基于PCR的诱变方法也可单用或与上述易错PCR联用。例如,PCR扩增的CDR区段可用脱氧核糖核酸酶(DNA酶)消化,以在双链DNA中产生切口(nick)。可通过其它外切核酸酶(例如Bal 31)将这些切口扩大成缺口(gap)。然后可在低浓度的常规底物dGTP、dATP、dTTP和dCTP与一种不成比例的高浓度底物(例如dGTP)的情况下,通过使用DNA Klenow聚合酶由随机序列填补缺口。这种填平反应可在填补的缺口区产生高频率突变。这些脱氧核糖核酸酶消化方法可与易错PCR联用以在所需要的CDR区段产生高频率突变。

还可通过利用前B细胞突变的固有能力,在体内诱变由第一抗体lead扩增的CDR或抗体区段。前B细胞中的Ig基因对高速突变特别敏感。在前B细胞增殖的同时,Ig启动子和增强子促进前B细胞环境中的这类高速突变。因此,可将CDR基因区段克隆至含有人Ig增强子和启动子的哺乳动物表达载体中。可将这种构建体导入前B细胞系,例如38B9,无疑在前B细胞中能使VH和VL基因区段发生突变(Liu和Van Ness,Mol.Immunol.,1999,36:461,通过引用其全部予以结合)。可从培养的前B细胞系中扩增诱变的CDR区段,并且可通过例如同源重组将其重新引入返回含chassis的载体中。

在一些实施方案中,可使用简并密码子或三核苷酸重新合成从筛选文库中分离出来的“命中(hit)”的CDR,并且应用缺口修复,重新克隆至重链或轻链载体。

3.文库采样

在本发明的某些实施方案中,本发明的文库包含设计的非随机的库,其中在物理实现的文库中,可以这样的水平超采样文库特定组分(例如CDRH3)但不一定是所有组分或整个文库的理论多样性,即任何给定数目的理论文库在文库中至少以某种频率(例如至少1次、2次、3次、4次、5次以上)存在于物理实现的文库中,所述水平有某种统计置信度(例如95%)。

在文库中,一般假定给定克隆的拷贝数服从泊松概率分布(Poisson probability distribution)(参见Feller,W.An Introduction toProbability Theory and Its Application,1968,Wiley New York,通过引用其全部予以结合)。泊松随机数为零的概率,在文库的情况下相当于缺失一个给定组分成员的概率(见下文)为e-N,其中N为随机数的平均值。例如,如果有106个可能的文库理论成员,物理实现的文库有107个成员,其中抽取理论文库的每个成员的概率相等,则每个成员在物理实现的文库中出现的平均次数为107/106=10,且给定成员的拷贝数为零的概率为e-N=e-10=0.000045;即99.9955%机会是在这个10X超采样文库中,106个理论成员中的任一个有至少一个拷贝。对于2.3X超采样文库,给定组分存在的把握(confident)有90%。对于3X超采样文库,给定组分存在的把握有95%。对于4.6X超采样文库,给定克隆存在的把握有99%等等。

因此,如果M是可切实物理实现的理论文库成员的最大数,则M/3是最大的理论库大小,对于这个大小,可采集到理论文库的任何给定成员的把握可有95%。重要的是要注意,一个给定成员呈现的机会为95%与每一个可能的成员呈现的机会为95%之间是有区别的。在某些实施方案中,本发明提供合理设计的具有多样性的文库,使得任何给定成员有95%的可能呈现在物理实现的文库中。在本发明的其它实施方案中,设计这样的文库以使任何给定成员至少有约0.0001%、0.001%、0.01%、0.1%、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%、99%、99.5%或99.9%的可能呈现在物理实现的文库中。有关综述参见例如Firth和Patrick,Biomol.Eng.,2005,22:105;以及Patrick等,Protein Engineering,2003,16:451,各文献通过引用其全部予以结合。

在本发明的某些实施方案中,文库可具有X种独特成员的总的理论多样性,且物理实现的总的理论多样性可含有至少约1X、2X、3X、4X、5X、6X、7X、8X、9X、10X或更多个成员。在一些实施方案中,物理实现的总的理论多样性可含有约1X~约2X、约2X~约3X、约3X~约4X、约4X~约5X、约5X~约6X个成员。在其它实施方案中,物理实现的总的理论多样性可含有约1X~约3X或约3X~约5X个总成员。

在所有定向进化实验基础上的一个假设是,理论上可能的分子多样性的量与合成它、物理实现它和筛选它的能力相比十分巨大。当文库的多样性被最大化时,在给定文库中发现具有改进性质的变异体的可能性被最大化。Patrick等人利用简单的统计学推导出一列方程式和计算机算法以评估通过随机化寡核苷酸诱变、易错PCR和体外重组构建的文库中独特序列变异体的数目。他们编写了一套用于计算文库统计数据的程序,例如GLUE、GLUE-IT、PEDEL、PEDEL-AA和DRIVeR。这些程序参见Patrick等,Protein Engineering,2003,16:451以及Firth等,Nucleic Acids Res.,2008,36:W281,其中有如何存取程序的说明书,各文献通过引用其全部予以结合。

构建其中理论多样性的一些组分(例如CDRH3)是超采样的,而其它方面(VH/VL配对)则不是的物理实现的文库是可行的。例如,假设一个文库,其中设计出108种存在于单一VH chassis中的CDRH3区段,然后与105种VL基因配对以产生1013(=108*105)种可能的完整杂二聚抗体。如果构建了这一物理实现的文库,其多样性为109个转化子克隆(transformant clone),则CDRH3多样性是10倍(=109/108)超采样的,然而可能的VH/VL配对采样不足达10-4(=109/1013)。在该实例中,平均起来,每个CDRH3仅与得自可能的105种二联体的10个VL样本配对。在本发明的某些实施方案中,正是CDRH3多样性是优选超采样的。

3.1.本发明多核苷酸序列的其它变异体

在某些实施方案中,本发明涉及与本文教导的多核苷酸杂交的多核苷酸或与本文教导的多核苷酸互补的序列杂交的多核苷酸。例如,本发明包括在低严格性条件、中等严格性条件或高严格性条件下杂交和洗涤之后仍与本文教导的多核苷酸或本文教导的多核苷酸的互补序列保持杂交的分离多核苷酸。

示例性的低严格性条件包括在约37℃下,用约30%~约35%甲酰胺、约1M NaCl、约1%SDS(十二烷基硫酸钠)的缓冲液杂交,并在约50℃~约55℃下,在约1X~约2X SSC(20X SSC=3.0M NaCl/0.3M柠檬酸三钠)中洗涤。

示例性的中等严格性条件包括约37℃下,在约40%~约45%甲酰胺、约1M NaCl、约1%SDS中杂交,并在约55℃~约60℃下,在约0.5X~约1X SSC中洗涤。

示例性的高严格性条件包括在约37℃下,在约50%甲酰胺、约1M NaCl、约1%SDS中杂交,并在约60℃~约65℃下,在约0.1X SSC中洗涤。

任选洗涤缓冲液可包含约0.1%~约1%SDS。

杂交的持续时间一般小于约24小时,通常约4~约12小时。

3.2.子文库和包含本发明文库或子文库的较大文库

如本申请全文中所述,在某些实施方案中,本发明的文库以其类似于人的序列组成和长度以及产生物理实现的文库的能力而著称,该文库含有文库的特定组分所有成员(或在某些情况下甚至超采样)。本发明包括包含本文所述文库的组合的文库(例如CDRH3文库和CDRL3文库)。本发明还包括包含本文所述文库的部分的子文库(例如特定重链chassis的CDRH3文库或CDRH3文库的子集)。本领域普通技术人员容易理解的是,本文所述文库中的每一个都具有若干组分(例如CDRH3、VH、CDRL3、VL等),并且可以改变这些组分的多样性以产生落入本发明范围的子文库。

此外,含有本发明的文库或子文库之一的文库也落入本发明的范围内。例如,在本发明的某些实施方案中,本发明的一个或多个文库或子文库可包含在较大的文库中,所述较大的文库可包括通过其它方法得到的序列,例如通过随机或半随机合成法得到的非人类序列或人序列。在本发明的某些实施方案中,多核苷酸文库中不论其它99%的序列的组成如何,至少约1%的序列可以是本发明的序列(例如CDRH3序列、CDRL3序列、VH序列、VL序列)。在本发明的其它实施方案中,在任何多核苷酸文库中,不论其它序列的组成如何,至少约0.001%、0.01%、0.1%、2%、5%、10%、20%、30%、40%、50%、60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的序列可以是本发明的序列。在一些实施方案中,在任何多核苷酸文库中,不论其它序列的组成如何,本发明的序列可构成序列的约0.001%~约1%、约1%~约2%、约2%~约5%、约5%~约10%、约10%~约15%、约15%~约20%、约20%~约25%、约25%~约30%、约30%~约35%、约35%~约40%、约40%~约45%、约45%~约50%、约50%~约55%、约55%~约60%、约60%~约65%、约65%~约70%、约70%~约75%、约75%~约80%、约80%~约85%、约85%~约90%、约90%~约95%或约95%~约99%。因此,比一个或多个本发明文库或子文库的多样性更多但仍包含一个或多个本发明文库或子文库的文库同样落入本发明的范围内,其量是其中一个或多个本发明文库或子文库可有效筛选出来并可从由一个或多个本发明文库或子文库编码的序列中分离出来的量。

3.3.替代性支架

在本发明的某些实施方案中,可在替代性支架上展示本发明文库的氨基酸产物(例如CDRH3或CDRL3)。研究显示,这些支架中的若干种产生具有抵得上抗体特异性和亲和力的特异性和亲和力的分子。示例性的替代性支架包括衍生自以下的替代性支架:纤连蛋白(例如AdNectin)、β-夹层(β-sandwich)(例如iMab)、脂笼蛋白(例如Anticalin)、EETI-II/AGRP、BPTI/LACI-D1/ITI-D2(例如Kunitz结构域)、硫氧还蛋白(例如肽适体)、A蛋白(例如Affibody)、锚蛋白重复序列(例如DARPin)、γB-晶体蛋白/泛蛋白(例如Affilin)、CTLD3(例如Tetranectin)和(LDLR-A模件)3(例如Avimers)。有关替代性支架的其它信息参见Binz等,Nat.Biotechnol.,200523:1257和Skerra,Current Opin.inBiotech.,200718:295-304,各文献通过引用其全部予以结合。

4.本发明的其它实施方案

在某些实施方案中,本发明包括合成的免疫前人抗体CDRH3文库,该文库包含107~108种代表存在于已知重链CDR3序列的序列多样性和长度多样性的多核苷酸序列。

在其它实施方案中,本发明包括合成的免疫前人抗体CDRH3文库,该文库包含编码由下式表示的CDRH3的多核苷酸序列:

[G/D/E/-][N1][DH][N2][H3-JH],

其中[G/D/E/-]的长度为0-1个氨基酸,[N1]为0-3个氨基酸,[DH]的长度为3-10个氨基酸,[N2]的长度为0-3个氨基酸,[H3-JH]的长度为2-9个氨基酸。

在本发明的某些实施方案中,[G/D/E/-]由选自以下的氨基酸序列表示:G、D、E及无。

在本发明的一些实施方案中,[N1]由选自以下的氨基酸序列表示:G、R、S、P、L、A、V、T、(G/P)(G/R/S/P/L/A/V/T)、(R/S/L/A/V/T)(G/P)、GG(G/R/S/P/L/A/V/T)、G(R/S/P/L/A/V/T)G、(R/S/P/L/A/V/T)GG及无。

在本发明的某些实施方案中,[N2]由选自以下的氨基酸序列表示:G、R、S、P、L、A、V、T、(G/P)(G/R/S/P/L/A/V/T)、(R/S/L/A/V/T)(G/P)、GG(G/R/S/P/L/A/V/T)、G(R/S/P/L/A/V/T)G、(R/S/P/L/A/V/T)GG及无。

在本发明的一些实施方案中,[DH]包含选自以下的序列:IGHD3-10读框1、IGHD3-10读框2、IGHD3-10读框3、IGHD3-22读框2、IGHD6-19读框1、IGHD6-19读框2、IGHD6-13读框1、IGHD6-13读框2、IGHD3-03读框3、IGHD2-02读框2、IGHD2-02读框3、IGHD4-17读框2、IGHD1-26读框1、IGHD1-26读框3、IGHD5-5/5-18读框3、IGHD2-15读框2及上述IGHD的所有可能的N-端和C-端截短直到3个氨基酸。

在本发明的某些实施方案中,[H3-JH]包含选自以下的序列:AEYFQH、EYFQH、YFQH、FQH、QH、YWYFDL、WYFDL、YFDL、FDL、DL、AFDV、FDV、DV、YFDY、FDY、DY、NWFDS、WFDS、FDS、DS、YYYYYGMDV、YYYYGMDV、YYYGMDV、YYGMDV、YGMDV、GMDV、MDV和DV。

在本发明的一些实施方案中,由[G/D/E/-][N1][ext-DH][N2][H3-JH]表示的序列包含长度为约3~约26个氨基酸的序列。

在本发明的某些实施方案中,由[G/D/E/-][N1][ext-DH][N2][H3-JH]表示的序列包含长度为约7~约23个氨基酸的序列。

在本发明的一些实施方案中,文库包含约107~约1010种序列。

在本发明的某些实施方案中,文库包含约107种序列。

在本发明的一些实施方案中,文库的多核苷酸序列还包含编码位于相应的文库序列N末端上的构架3(FRM3)区的5’多核苷酸序列,其中FRM3区包含约1~约9个氨基酸残基的序列。

在本发明的某些实施方案中,FRM3区包含选自CAR、CAK和CAT的序列。

在本发明的一些实施方案中,多核苷酸序列还包含编码位于相应的文库序列C末端上的构架4(FRM4)的3’多核苷酸序列,其中FRM4区包含约1~约9个氨基酸残基的序列。

在本发明的某些实施方案中,文库包含FRM4区,该FRM4区包含选自WGRG和WGQG的序列。

在本发明的一些实施方案中,多核苷酸序列还包含编码相应的多肽序列的FRM3区,该多肽序列包含选自CAR、CAK和CAT的序列;且多核苷酸序列还包含编码相应的多肽序列的FRM4区,该多肽序列包含选自WGRG和WGQG的序列。

在本发明的某些实施方案中,多核苷酸序列还包含促进与重链chassis同源重组的5’序列和3’序列。

在一些实施方案中,本发明包括合成的免疫前人抗体轻链文库,该文库包含编码由下式表示的人抗体κ轻链的多核苷酸序列:

[IGKV(1-95)][F/L/I/R/W/Y][JK]。

在本发明的某些实施方案中,[IGKV(1-95)]选自IGKV3-20(1-95)、IGKV1-39(1-95)、IGKV3-11(1-95)、IGKV3-15(1-95)、IGKV1-05(1-95)、IGKV4-01(1-95)、IGKV2-28(1-95)、IGKV 1-33(1-95)、IGKV1-09(1-95)、IGKV1-12(1-95)、IGKV2-30(1-95)、IGKV1-27(1-95)、IGKV1-16(1-95)和所述组别的截短直到并包括Kabat的位置95。

在本发明的一些实施方案中,[F/L/I/R/W/Y]是选自F、L、I、R、W和Y的氨基酸。

在本发明的某些实施方案中,[JK]包含选自TFGQGTKVEIK和TFGGGT的序列。

在本发明的一些实施方案中,轻链文库包括κ轻链文库。

在本发明的某些实施方案中,多核苷酸序列还包含促进与轻链chassis同源重组的5’序列和3’序列。

在一些实施方案中,本发明包括用于产生包含107~108种多核苷酸序列的合成的免疫前人抗体CDRH3文库的方法,所述方法包括:

a)选择编码CDRH3序列的CDRH3多核苷酸序列,方法如下:

{0~5个氨基酸,选自10个以内由末端脱氧核苷酸转移酶(TdT)优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是

{仅IGHD的所有可能的N-端或C-端截短以及N-端和C-端截短的所有可能的组合},后面是

{0~5个氨基酸,选自10个以内由TdT优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是

{IGHJ的所有可能的N-端截短,直到DXWG,其中X为S、V、L或Y};和

b)通过化学合成法合成a)中所述的CDRH3文库,其中产生了合成的免疫前人抗体CDRH3文库。

在某些实施方案中,本发明包括合成的免疫前人抗体CDRH3文库,该文库包含107~1010种代表编码由下式表示的CDRH3的已知的人IGHD和IGHJ种系序列的多核苷酸序列:

{0~5个氨基酸,选自10个以内由末端脱氧核苷酸转移酶(TdT)优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是

{仅IGHD的所有可能的N-端或C-端截短以及N-端和C-端截短的所有可能的组合},后面是

{0~5个氨基酸,选自10个以内由TdT优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是

{IGHJ的所有可能的N-端截短,直到DXWG,其中X为S、V、L或Y}。

在某些实施方案中,本发明包括合成的免疫前人抗体重链可变结构域文库,该文库包含107~1010种编码人抗体重链可变结构域的多核苷酸序列,所述文库包含:

a)抗体重链chassis,和

b)根据人IGHD和IGHJ种系序列设计的CDRH3库,方法如下:

{0~5个氨基酸,选自10个以内由末端脱氧核苷酸转移酶(TdT)优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是

{仅IGHD的所有可能的N-端或C-端截短以及N-端和C-端截短的所有可能的组合},后面是

{0~5个氨基酸,选自10个以内由TdT优先编码并由人B细胞优先进行功能性表达的氨基酸},后面是

{IGHJ的所有可能的N-端截短,直到DXWG,其中X为S、V、L或Y}。

在本发明的一些实施方案中,合成的免疫前人抗体重链可变结构域文库表达成选自IgG1全长链、IgG2全长链、IgG3全长链和IgG4全长链的全长链。

在本发明的某些实施方案中,人抗体重链chassis选自IGHV4-34、IGHV3-23、IGHV5-51、IGHV1-69、IGHV3-30、IGHV4-39、IGHV1-2、IGHV1-18、IGHV2-5、IGHV2-70、IGHV3-7、IGHV6-1、IGHV1-46、IGHV3-33、IGHV4-31、IGHV4-4、IGHV4-61和IGHV3-15。

在本发明的一些实施方案中,合成的免疫前人抗体重链可变结构域文库包含107~1010种编码人抗体重链可变结构域的多核苷酸序列,所述文库包含:

a)抗体重链chassis,和

b)合成的免疫前人抗体CDRH3文库。

在本发明的一些实施方案中,多核苷酸序列为单链编码多核苷酸序列。

在本发明的某些实施方案中,多核苷酸序列为单链非编码多核苷酸序列。

在本发明的一些实施方案中,多核苷酸序列为双链多核苷酸序列。

在某些实施方案中,本发明包括倍增时间为4小时以内的可复制细胞群,在该细胞中表达合成的免疫前人抗体库。

在本发明的一些实施方案中,可复制细胞群为酵母细胞。

在某些实施方案中,本发明包括产生全长抗体文库的方法,所述方法包括用免疫前人抗体重链可变结构域文库和合成的免疫前人抗体轻链文库转化细胞。

在一些实施方案中,本发明包括产生全长抗体文库的方法,所述方法包括用免疫前人抗体重链可变结构域文库和合成的免疫前人抗体轻链文库转化细胞。

在某些实施方案中,本发明包括产生抗体文库的方法,所述方法包括通过分合DNA合成法合成多核苷酸序列。

在本发明的一些实施方案中,多核苷酸序列选自单链编码多核苷酸序列、单链非编码多核苷酸序列和双链多核苷酸序列。

在某些实施方案中,本发明包括合成的全长免疫前人抗体文库,该文库包含约107~约1010种代表存在于已知重链CDR3序列中的序列多样性和长度多样性的多核苷酸序列。

在某些实施方案中,本发明包括从人抗体文库中选择目标抗体的方法,所述方法包括提供合成的免疫前人抗体CDRH3文库,该文库包含(N)种代表存在于已知重链CDR3序列中的序列多样性和长度多样性的多核苷酸序列的理论多样性,其中物理实现的该多样性是实际文库大小的至少3(N),从而提供单个目标抗体存在于文库中的概率为95%,并且选出目标抗体。

在本发明的一些实施方案中,理论多样性为约107~约108种多核苷酸序列。

实施例

通过下列不得解释为是限制性的实施例对本发明进行进一步说明。本申请全文所引用的所有参考文献、专利和公布的专利申请的内容通过引用结合到本文中。

总体说来,除非另有说明,否则应用为本领域技术人员所掌握以及文献中有记载的化学常规技术、分子生物学技术、重组DNA技术、PCR技术、免疫学(尤其例如抗体技术)、表达系统(例如酵母表达、无细胞表达、噬菌体展示、核糖体展示和PROFUSIONTM)以及任何必需的细胞培养物来实施本发明。参见例如Sambrook,Fritsch和Maniatis,Molecular Cloning:Cold Spring Harbor Laboratory Press(1989);DNACloning,第1、2卷,(D.N.Glover主编,1985);Oligonucleotide Synthesis(寡核苷酸合成)(M.J.Gait主编,1984);PCR Handbook CurrentProtocols in Nucleic Acid Chemistry(核酸化学法中PCR最新方案手册),Beaucage主编,John Wiley & Sons(1999)(编者);Oxford Handbook ofNucleic Acid Structure(牛津大学核酸结构手册),Neidle主编,OxfordUniv Press(1999);PCR Protocols:A Guide to Methods and Applications(PCR方案:方法与应用指南),Innis等,Academic Press(1990);PCREssential Techniques:Essential Techniques(PCR基本技术:基本技术),Burke主编,John Wiley & Son Ltd(1996);The PCR Technique:RT-PCR(PCR技术:RT-PCR),Siebert主编,Eaton Pub.Co.(1998);AntibodyEngineering Protocols(Methods in Molecular Biology)(抗体工程方案(分子生物学方法)),510,Paul,S.,Humana Pr(1996);AntibodyEngineering:A Practical Approach(Practical Approach Series,169)(抗体工程:实用方法(实用方法系列,169)),McCafferty主编,Irl Pr(1996);Antibodies:A Laboratory Manual(抗体实验室指南),HarloW等,C.S.H.L.Press,Pub.(1999);Current Protoco in Molecular Biology(分子生物学最新方案),主编Ausubel等,John Wiley & Sons(1992);Large-Scale Mammalian Cell Culture Technology(大规模哺乳动物细胞培养技术),Lubiniecki,A.主编,Marcel Dekker,Pub.,(1990);PhageDisplay:A Laboratory Manual(噬菌体展示实验室指南),C.Barbas(主编,),CSHL Press,(2001);Antibodv Phage Display(抗体噬菌体展示),PO’Brien(主编),Humana Press(2001);Border等,Nature Biotechnology,1997,15:553;Border等,Methods Enzymol.,2000,328:430;核糖体展示,参见Pluckthun等人的美国专利第6,348,315号;以及ProfusionTM,参见Szostak等人的美国专利第6,258,558、6,261,804和6,214,553号;以及细菌周质表达,参见US20040058403A1。本段落所引述的各参考文献都通过引用其全部予以结合。

有关利用Kabat惯例以及筛选经比对的核苷酸和氨基酸序列的程序进行抗体序列分析的更多详情可参见例如Johnson等,Methods Mol.Biol.,2004,248:11;Johnson等,Int.Immunol.,1998,10:1801;Johnson等,Methods Mol.Biol.,1995,51:1;Wu等,Proteins,1993,16:1;以及Martin,Proteins,1996,25:130。本段落所引述的各参考文献都通过引用其全部予以结合。

有关采用Chothia惯例进行抗体序列分析的更多详情可参见例如Chothia等,J.Mol.Biol.,1998,278:457;Morea等,Biophys.Chem.,1997,68:9;Morea等,J.Mol.Biol.,1998,275:269;Al-Lazikani等,J.Mol.Biol.,1997,273:927。Barre等,Nat.Struct.Biol.,1994,1:915;Chothia等,J.Mol.Biol.,1992,227:799;Chothia等,Nature,1989,342:877;以及Chothia等,J.Mol.Biol.,1987,196:901。CDRH3构象的进一步分析可参见Shirai等,FEBS Lett.,1999,455:188以及Shirai等,FEBS Lett.,1996,399:1。有关Chothia分析的更多详情可参见例如Chothia等,Cold Spring Harb.Symp.Quant Biol.,1987,52:399。本段落所引述的各参考文献都通过引用其全部予以结合。

有关CDR接触考虑(CDR contact consideration)的更多详情可参见例如MacCallum等,J.Mol.Biol.,1996,262:732,通过引用其全部予以结合。

有关本文所提及的抗体序列和数据库的更多详情可参见例如:

Tomlinson等,J.Mol.Biol.,1992,227:776,

VBASE2(Retter等,Nucleic Acids Res.,2005,33:D671);

BLAST(www.ncbi.nlm.nih.gov/BLAST/);

CDHIT(bioinformatics.ljcrf.edu/cd-hi/);

EMBOSS(www.hgmp.mrc.ac.uk/Software/EMBOSS/);

PHYLIP(evolution.genetics.washington.edu/phylip.html);和

FASTA(fasta.bioch.virginia.edu)。本段落所引述的各参考文献都通过引用其全部予以结合。

实施例1:示例性VH Chassis文库的设计

本实施例说明本发明示例性非限制性VH chassis序列的选择和设计。通过对人IGHV种系序列的集合体进行分析,选出VH chassis序列(Scaviner等,Exp.Clin.Immunogenet.,1999,16:234;Tomlinson等,J.Mol.Biol.,1992,227:799;Matsuda等,J.Exp.Med.,1998,188:2151,各文献通过引用其全部予以结合)。如详述以及下文所论述的一样,可采用多种标准从这些数据来源或其它数据来源选择VH chassis序列以包含在文库中。

对于由人IGHV种系序列的每一种编码的蛋白质,表3(改编自以下文献提供的资料:Scaviner等,Exp.Clin.Immunogenet.,1999,16:234;Matsuda等,J.Exp.Med.,1998,188:2151;以及Wang等,Immunol.Cell.Biol.,2008,86:111,各文献通过引用其全部予以结合)列举了CDRH1和CDRH2长度、规范结构以及外周血中相对出现率的估算值。

表3.得自外周血的抗体的IGHV特征和出现率

  IGHV种系   CDRH1  的长度   CDRH2  的长度   规范结构1   外周血中相对出现  率的估算值2   IGHV1-2   5   17   1-3   37   IGHV1-3   5   17   1-3   15   IGHV1-8   5   17   1-3   13   IGHV1-18   5   17   1-2   25   IGHV1-24   5   17   1-U   5   IGHV1-45   5   17   1-3   0   IGHV1-46   5   17   1-3   25   IGHV1-58   5   17   1-3   2   IGHV1-69   5   17   1-2   58   IGHV2-5   7   16   3-1   10   IGHV2-26   7   16   3-1   9   IGHV2-70   7   16   3-1   13   IGHV3-7   5   17   1-3   26   IGHV3-9   5   17   1-3   15   IGHV3-11   5   17   1-3   13   IGHV3-13   5   16   1-1   3   IGHV3-15   5   19   1-4   14   IGHV3-20   5   17   1-3   3   IGHV3-21   5   17   1-3   19

  IGHV种系   CDRH1  的长度   CDRH2  的长度   规范结构1   外周血中相对出现  率的估算值2   IGHV3-23   5   17   1-3   80   IGHV3-30   5   17   1-3   67   IGHV3-33   5   17   1-3   28   IGHV3-43   5   17   1-3   2   IGHV3-48   5   17   1-3   21   IGHV3-49   5   19   1-U   8   IGHV3-53   5   16   1-1   7   IGHV3-64   5   17   1-3   2   IGHV3-66   5   17   1-3   3   IGHV3-72   5   19   1-4   2   IGHV3-73   5   19   1-4   3   IGHV3-74   5   17   1-3   14   IGHV4-4   5   16   1-1   33   IGHV4-28   6   16   2-1   1   IGHV4-31   7   16   3-1   25   IGHV4-34   5   16   1-1   125   IGHV4-39   7   16   3-1   63   IGHV4-59   5   16   1-1   51   IGHV4-61   7   16   3-1   23

  IGHV种系   CDRH1  的长度   CDRH2  的长度   规范结构1   外周血中相对出现  率的估算值2   IGHV4-B   6   16   2-1   7   IGHV5-51   5   17   1-2   52   IGHV6-1   7   18   3-5   26   IGHV7-4-1   5   17   1-2   8

1改编自Chothia等,J.Mol.Biol.,1992,227:799

2改编自Wang等人的表S1,Immunol.Cell.Biol.,2008,86:111

在本示例性的文库中,选择了17个种系序列以呈现在文库的VHchassis中(表4)。正如下面更详细的描述一样,考虑chassis的结构多样性和用于临床的抗体中呈现的特定种系序列,根据这些序列在成人外周血中相对高的呈现来选择。这17个序列占用来推导表4中的结果的重链序列总样本的约76%。如详述中所概述的一样,这些标准是非限制性的,本领域普通技术人员容易了解的是,可以采用多种其它标准来选择VH chassis序列,而且本发明不限于包含表4中所提供的17种VH chassis基因的文库。

表4.选用于示例性文库的VH Chassis

  VH  Chassis   相对  出现率   CDRH1  的长度   CDRH2  的长度   备注   VH1-2   37   5   17   VH1家族最高使用率之一   VH1-18   25   5   17   VH1家族最高使用率之一   VH1-46   25   5   17   VH1家族最高使用率之一   VH1-69   58   5   17   VH1家族的最高使用率。4个选出的  VH1chassis代表VH1库的约80%。   VH3-7   26   5   17   VH3家族中最高使用率之一   VH3-15   14   5   19   非最高使用率之一,但具有独特结构  (H2的长度为19)。在具有这类结构的  那些中有最高出现率。   VH3-23   80   5   17   在VH3家族中的最高使用率。

  VH  Chassis   相对  出现率   CDRH1  的长度   CDRH2  的长度   备注   VH3-30   67   5   17   VH3家族中最高使用率之一   VH3-33   28   5   17   VH3家族中最高使用率之一   VH3-48   21   5   17   VH3家族中最高使用率之一。6个选  出的VH3chassis占VH3库的约70%。   VH4-31   25   7   16   VH4家族中最高使用率之一   VH4-34   125   5   16   VH4家族中的最高使用率   VH4-39   63   7   16   VH4家族中最高使用率之一   VH4-59   51   5   16   VH4家族中最高使用率之一   VH4-61   23   7   16   VH4家族中最高使用率之一   VH4-B   7   6   16   VH4家族中非最高使用率之一,但具  有独特结构(H1的长度为6)。6个选  出的VH4chassis占VH4家族库的接  近90%。   VH5-51   52   5   17   高使用率

在文库的这个具体实施方案中,不包括从IGHV2、IGHV6和IGHV7种系家族中的序列得到的VH chassis。如详述中所描述的一样,该实例并不是限制性的,因为在一些实施方案中,最好可包括这些家族的一个或多个,特别是因为已可获得具有相似序列的有关抗体的临床信息,以产生具有可能未广泛深入研究的其它多样性的文库,或更详细地研究这些IGHV家族的性质和潜力。本发明文库的积木化设计容易引入这些VH chassis序列和其它VH chassis序列。用于文库的这个具体实施方案中的VH chassis的氨基酸序列见表5,所述序列衍生自IGHV种系序列。详细的衍生方法见下文。

表5.选用于包含在示例性文库中的VH Chassis的氨基酸序列

1为了与选用于包含在文库中的其它VH3家族成员相称,使VH3-15中的原KT序列突变成RA(粗体字/加下划线),并且使TT突变成AR(粗体字/加下划线)。对RA进行修饰,以使得不产生多达约20个氨基酸的独特序列段。虽然不受理论的束缚,但是我们预期这种修饰将减少将新的T细胞表位引入VH3-15衍生的chassis序列的机会。避免T细胞表位是可视为在设计本发明某些文库中的又一标准。

2为了去除CDR-H2中可能的N-联糖基化位点,将VH4-34中的原NHS基序突变成DHS。在本发明的某些实施方案中,例如,如果将该文库转化到酵母中,这便可防止不需要的N-联糖基化。

表5提供了17个chassis的氨基酸序列。在核苷酸区域中,大多数相应的种系核苷酸序列包括在3’端的两个添加的核苷酸(即密码子的2/3)。在大多数情况下,这2个核苷酸为GA。在许多情况下,在与IGHD基因区段重组之前,在体内核苷酸被加到IGHV衍生的基因区段的3’端。任何添加的核苷酸都会使所得到的密码子编码下列2个氨基酸之一:Asp(如果密码子为GA或GA)或Glu(如果密码子为GA或GA)。两个3’端核苷酸中的1个或2个还可在最终重排的重链序列中缺失。如果只缺失A,则所得氨基酸极频繁地为G。如果2个核苷酸均缺失,该位置为“空”,但是后面是加入通用的V-D或由IGHD基因编码的氨基酸。更多详情见实施例5。在FRM3C-端的CAR或CAK基序之后的这个第一位置称为“尾”(表5)。在文库的本示例性实施方案中,该残基可以是G、D、E或无残基。因此,将尾加到上文列举的任何chassis上(表5)可以产生下列4种图示序列之一,其中在VH chassis之后的残基为尾:

(1)[VH_Chassis]-[G]

(2)[VH_Chassis]-[D]

(3)[VH_Chassis]-[E]

(4)[VH_Chassis]

这些结构还可用下列格式表示:

[VH_Chassis]-[G/D/E/-],

其中连字符号(-)表示空位或零位。

采用定义部分定义的CDRH3编号体系,例如对于例子(1)、(2)和(3),上述序列分别是指第95位的氨基酸为G、D或E,而上面的例子4的序列可没有第95位,CDRH3本身可始于第96位或第97位。

在本发明的一些实施方案中,具有规范结构1-1(CDRH1中5个残基,CDRH2中16个)的VH3-66,也可包括在文库中。包含VH3-66可补偿从文库中除去的可能在某些条件下在酵母中表达不佳的其它chassis(例如VH4-34和VH4-59)。

实施例2:CDRH1和CDRH2内具有变异的VH Chassis变异体的设 计

本实施例说明通过使实施例1所示的每个chassis的CDRH1和CDRH2区产生突变将更多的多样性引入VH chassis。采用下列方法选择每个chassis的氨基酸变异的位置和性质:首先,对重排的人重链抗体序列的序列同一性进行了分析(Lee等,Immunogenetics,2006,57:917;Jackson等,J.Immunol.Methods,2007,324:26),并通过其相应的IGHV种系序列的来源进行了分类。作为说明性实施例,数据集中约200个序列与IGHV1-69种系具有最大同一性,这就表明它们很可能都衍生自IGHV1-69。接着,确定氨基酸残基在实施例1中所选定的每个种系家族的CDRH1和CDRH2区段内每个位置上的出现率。对于VH1-69,这些出现率见表6和表7。第二,如有可能,优选中性和/或较小的氨基酸残基作为置换残基。虽然不受理论的束缚,但是选择这些氨基酸残基的原因是希望提供柔性较大和位阻较小的环境以显示CDR序列的多样性。

表6.氨基酸残基在IGHV1-69衍生的CDRH1序列内的每个位置上的出现率

在表中残基编号(Kabat体系)下用粗体字的第二排提供起始种系序列。表中的表值表示在规定的CDRH1(表6)或CDRH2(表7)位置上观察到给定氨基酸残基(第一栏)的次数。例如,在所分析的基于IGHV1-69的序列集中,观察到在位置33上的氨基酸类型G(甘氨酸)为24次。因此,应用上述标准,在位置31用N、在位置32上用L(H在某些情况下可能带有电荷)、在位置33用G和T、在位置34无变异体以及在位置35用N,构建了变异体,得到下列VH1-69chassisCDRH1单个氨基酸变异体序列:

YAIS(SEQ ID NO:__)

SAISSEQ ID NO:__)

SYIS(SEQ ID NO:__)

SYIS(SEQ ID NO:__)

SYAI(SEQ ID NO:__)

同样,对于VH1-69chassis CDRH2,对所制的表7进行的分析为选择下列的单个氨基酸变异体序列提供了基础:

IIPIFGTANYAQKFQG(SEQ ID NO:__)

GIPIFGTANYAQKFQG(SEQ ID NO:__)

GIIPIGTANYAQKFQG(SEQID NO:__)

GIIPIFGTAYAQKFQG(SEQ ID NO:__)

采用同样的方法,设计和构建其它所选定的chassis的变异体;所得到的各个示例性chassis的CDRH1和CDRH2的变异体见表8。本领域普通技术人员容易理解的是,本文所述方法可用来产生其它VH chassis和VL chassis的变异体。

正如详述中具体说明的一样,可以采用其它标准选择改变哪些氨基酸和所得到的已改变序列的同一性。这对于任何重链chassis序列或本发明的任何其它序列都是如此。上面概述的方法是为了说明目的并且是非限制性的。

实施例3:示例性VK Chassis文库的设计

本实施例描述了示例性VK chassis文库的设计。本领域普通技术人员应理解的是,同样的原理可用来设计Vλ文库或同时含有VK和Vλchassis的文库。Vλchassis文库的设计见实施例4。

同之前实施例1中的说明一样,对于IGHV种系序列,对人IGKV种系序列的序列特征以及在得自外周血的抗体中的出现率进行了分析。数据见表9。

表9.IGKV基因特征和在得自外周血的抗体中的出现率

1改编自Tomlinson等,EMBO J.,1995,14:4628,通过引用其全部予以结合。括号中的数字是指CDRL3的规范结构,如果假定为最常见的长度(有关CDRL3的更多详情参见实施例5)。

2从自NCBI数据库编制的人VK序列集中估算;GI编号全集见附录A。

14个最常出现的IGKV种系基因(表9第6栏中的粗体字)占外周血的整个库使用率的正好90%以上。从表9的分析来看,选出10个IGKV种系基因以作为chassis呈现在本示例性文库(表10)。除V1-12和V1-27以外所有都在前10个最常出现的当中。在最终10个chassis集中,为了保持chassis与短(即长度为11或12个残基)CDRL1序列的比例约为80%,未将在外周血中的出现率排第10位的IGKV种系基因VH2-30包括在文库的本示例性实施方案中。将V1-12包括在其位置上。V1-17更类似于已选择的V1家族的其它成员;因此,将V1-27而不是V1-17包括在内。在其它实施方案中,文库可包括12个chassis(例如表10中的10个加上V1-17和V2-30),或严格按出现率(表9)或任何其它标准选择的任何“N”个chassis的不同集。10个选出的VKchassis占数据集中使用率的约80%,一般认为该数据集代表了整个κ轻链库。

表10.选用于示例性文库的VK Chassis

  Chassis   CDR-L1  长度   CDR-L2  长度   规范结构   外周血中相对出现率的估算值   VK1-5   11   7   2-1-(U)   69   VK1-12   11   7   2-1-(1)   32   VK1-27   11   7   2-1-(1)   27   VK1-33   11   7   2-1-(1)   43   VK1-39   11   7   2-1-(1)   147   VK2-28   16   7   4-1-(1)   62   VK3-11   11   7   2-1-(1)   87   VK3-15   11   7   2-1-(1)   53   VK3-20   12   7   6-1-(1)   195   VK4-1   17   7   3-1-(1)   83

表10中列举的精选VK chassis的氨基酸序列见表11。

表11.选用于包含在示例性文库中的VK Chassis的氨基酸序列

  Chassis   FRM1   CDRL1   FRM2   CDRL2   FRM3   CDRL3  1   SEQ ID  NO:   VK1-5   DIQMTQS  PSTLSAS  VGDRVTI  TC   RASQSI  SSWLA   WYQQKP  GKAPKL  LIY   DASSLE  S   GVPSRFSGSGSGT  EFTLTISSLQPDD  FATYYC   QYNSY  S   VK1-12   DIQMTQS  PSSVSAS  VGDRVTI  TC   RASQGI  SSWLA   WYQQKP  GKAPKL  LIY   AASSLQ  S   GVPSRFSGSGSGT  DFTLTISSLQPED  FATYYC   QANSF  P   VK1-27   DIQMTQS  PSSLSAS  VGDRVTI  TC   RASQGI  SNYLA   WYQQKP  GKVPKL  LIY   AASTLQ  S   GVPSRFSGSGSGT  DFTLTISSLQPED  VATYYC   KYNSA  P   VK1-33   DIQMTQS  PSSLSAS  VGDRVTI  TC   QASQDI  SNYLN   WYQQKP  GKAPKL  LIY   DASNLE  T   GVPSRFSGSGSGT  DFTFTISSLQPED  IATYYC   QYDNL  P   VK1-39   DIQMTQS  PSSLSAS  VGDRVTI  TC   RASQSI  SSYLN   WYQQKP  GKAPKL  LIY   AASSLQ  S   GVPSRFSGSGSGT  DFTLTISSLQPED  FATYYC   QSYST  P   VK2-28   DIVMTQS  PLSLPVT  PGEPASI  SC   RSSQSL  LHSNGY  NYLD   WYLQKP  GQSPQL  LIY   LGSNRA  S   GVPDRFSGSGSGT  DFTLKISRVEAED  VGVYYC   QALQT  P   VK3-11   EIVLTQS  PATLSLS  PGERATL  SC   RASQSV  SSYLA   WYQQKP  GQAPRL  LIY   DASNRA  T   GIPARFSGSGSGT  DFTLTISSLEPED  FAVYYC   QRSNW  P   VK3-15   EIVMTQS  PATLSVS  PGERATL  SC   RASQSV  SSNLA   WYQQKP  GQAPRL  LIY   GASTRA  T   GIPARFSGSGSGT  EFTLTISSLQSED  FAVYYC   QYNNW  P

  Chassis   FRM1   CDRL1   FRM2   CDRL2   FRM3   CDRL3  1   SEQ ID  NO:   VK3-20   EIVLTQS  PGTLSLS  PGERATL  SC   RASQSV  SSSYLA   WYQQKP  GQAPRL  LIY   GASSRA  T   GIPDRFSGSGSGT  DFTLTISRLEPED  FAVYYC   QYGSS  P   VK4-1   DIVMTQS  PDSLAVS  LGERATI  NC   KSSQSV  LYSSNN  KNYLA   WYQQKP  GQPPKL  LIY   WASTRE  S   GVPDRFSGSGSGT  DFTLTISSLQAED  VAVYYC   QYYST  P

1注意有助于VKCDR3的IGKV基因部分不视为本文所述chassis的组成部分。VK chassis定义为IGKV编码序列的Kabat残基1~88,即始于FRM1而止于FRM3。由IGKV基因提供的VKCDR3序列部分在本文亦称L3-VK区。

实施例4:示例性VλChassis文库的设计

本实施例描述了示例性VλChassis文库的设计。同之前实施例1-3中的说明一样,对于VH和VK chassis序列,对人IgλV种系衍生的序列的序列特征和在外周血中的出现率进行了分析。如同将本文提供的其它序列指定种系家族一样,将序列指定种系家族通过SoDA和VBASE2进行(Volpe和Kepler,Bioinformatics,2006,22:438;Mollova等,BMS Systems Biology,2007,1S:P30,各文献通过引用其全部予以结合)。数据见表12。

表12.IGλV基因特征和在外周血中的出现率

  IGλV基因   替代性名称   规范结构1   IGVλ基因对  CDRL3的贡献   外周血中相对出  现率的估算值2   IGλV3-1   3R   11-7(*)   8   11.5   IGλV3-21   3H   11-7(*)   9   10.5   IGλV2-14   2A2   14-7(A)   9   10.1   IGλV1-40   1E   14-7(A)   9   7.7   IGλV3-19   3L   11-7(*)   9   7.6   IGλV1-51   1B   13-7(A)   9   7.4   IGλV1-44   1C   13-7(A)   9   7.0   IGλV6-57   6A   13-7(B)   7   6.1

  IGλV基因   替代性名称   规范结构1   IGVλ基因对  CDRL3的贡献   外周血中相对出  现率的估算值2   IGλV2-8   2C   14-7(A)   9   4.7   IGλV3-25   3M   11-7(*)   9   4.6   IGλV2-23   2B2   14-7(A)   9   4.3   IGλV3-10   3P   11-7(*)   9   3.4   IGλV4-69   4B   12-11(*)   7   3.0   IGλV1-47   1G   13-7(A)   9   2.9   IGλV2-11   2E   14-7(A)   9   1.3   IGλV7-43   7A   14-7(B)   8   1.3   IGλV7-46   7B   14-7(B)   8   1.1   IGλV5-45   5C   14-11(*)   8   1.0   IGλV4-60   4A   12-11(*)   7   0.7   IGλV10-  54   8A   14-7(B)   8   0.7   IGλV8-61   10A   13-7(C)   9   0.7   IGλV3-9   3J   11-7(*)   8   0.6   IGλV1-36   1A   13-7(A)   9   0.4   IGλV2-18   2D   14-7(A)   9   0.3   IGλV3-16   3A   11-7(*)   9   0.2   IGλV3-27   11-7(*)   7   0.2   IGλV4-3   5A   14-11(*)   8   0.2   IGλV5-39   4C   12-11(*)   12   0.2   IGλV9-49   9A   12-12(*)   12   0.2

  IGλV基因   替代性名称   规范结构1   IGVλ基因对  CDRL3的贡献   外周血中相对出  现率的估算值2   IGλV3-12   3I   11-7(*)   9   0.1

1改编自Williams等,J.Mol.Biol.1996:264,220-32。(*)表示规范结构完全由CDR L1和L2的长度界定。当对于相同的L1和L2长度组合可能有截然不同的结构时,存在于给定基因的结构表示为A、B或C。

2从自NCBI数据库编制的一组人Vλ序列中估算;GI代码全集见附录B。

为了从表12中选出序列子集充当chassis,先放弃外周血中的呈现小于1%的序列(从对与附录B提供的GI代码对应的已公布序列进行的分析推算)。从其余18个种系序列中,选出对于各独特规范结构和构成CDRL3部分的出现最多的基因、以及呈现大于5%水平的任何种系基因,来构成示例性Vλchassis。这11个序列的一览表见下表13。这11个序列代表所分析的数据集中所有组成成分(repertoire)的大约73%(附录B)。

表13.选用于示例性文库的VλChassis

  Chassis   CDRL1长度  CDRL2长度   规范结构   相对出现率   Vλ3-1   11   7   11-7(*)   11.5   Vλ3-21   11   7   11-7(*)   10.5   Vλ2-14   14   7   14-7(A)   10.1   Vλ1-40   14   7   14-7(A)   7.7   Vλ3-19   11   7   11-7(*)   7.6   Vλ1-51   13   7   13-7(A)   7.4   Vλ1-44   13   7   13-7(A)   7.0   Vλ6-57   13   7   13-7(B)   6.1   Vλ4-69   12   11   12-11(*)   3.0   Vλ7-43   14   7   14-7(B)   1.3   Vλ5-45   11   11   14-11(*)   1.0

表13中所列举的精选chassis的氨基酸序列见下表14。

表14.选用于包含在示例性文库中的VλChassis的氨基酸序列

1Vλ3-1chassis的CDRL1的最后1个氨基酸S不同于IGλV3-1种系基因中的相应氨基酸C。这样做是避免在所得的合成轻链中有可能不配对的CYS(C)氨基酸。

2注意,关于VK chassis,有助于VλCDR3的IGλV基因部分不被视为本文所述chassis的组成部分。Vλchassis定义为IGλV编码序列的Kabat残基1~88,即始于FRM1而止于FRM3。由IGλV基因提供的VλCDR3序列部分在本文中亦称L3-Vλ区。

实施例5:CDRH3文库的设计

本实施例描述了由CDHR3文库的各个组分来设计CDHR3文库。实际上,CDRH3序列衍生自包括称为IGHV、IGHD和IGHJ的3种不同基因重组的复杂过程。除重组之外,这些基因还可进行渐进核苷酸缺失:从IGHV基因的3’端、IGHD基因的任一端和/或IGHJ基因的5’端。非模板核苷酸添加也可发生在V、D和J序列之间的接点上。在V-D接点上的非模板添加称为“N1”,在D-J接点上添加的称为“N2”。D基因区段可以3个正向读框读取,在某些情况下,为3个反向读框。

在本示例性文库的设计中,将密码子(核苷酸三联体)或单个氨基酸指定为基本单位,以将所有序列保持在所需读框内。因此,通过氨基酸或密码子的添加或缺失,而并非单核苷酸,来进行基因区段的所有缺失或添加。根据本申请的CDRH3编号体系,CDRH3自氨基酸编号95(当存在时;参见实施例1)延伸到氨基酸102。

实施例5.1:DH区段的选择

在本说明性实施例中,按照与用于选择chassis序列同样的原理,对用于文库的DH基因区段进行选择。首先,使用以下文献的数据,对IGHD基因使用率进行了分析:Lee等,Immunogenetics,2006,57:917;Corbett等,PNAS,1982,79:4118;以及Souto-Carneiro等,J.Immunol.,2004,172:6790(各文献通过引用其全部予以结合),其中在人序列中最频繁观察到的那些IGHD基因优先呈现于文库中。其次,通过运用SoDA算法(Volpe等,Bioinformatics,2006,22:438,通过引用其全部予以结合)和序列比对,与已知重链序列进行比较,估计IGHD基因区段任一端的缺失程度。对于本示例性文库,包括了渐进缺失的DH区段,短至3个氨基酸。如详述中所列举的一样,本发明的其它实施方案包含具有不同长度缺失的DH区段,例如约1、2、4、5、6、7、8、9或10个氨基酸。表15表示在主要从外周血B细胞分离出来的人抗体重链序列中,IGHD基因使用的相对出现率(一览表改编自Lee等,Immunogenetics,2006,57:917,通过引用其全部予以结合)。

表15.基于外周血中相对出现率的IGHD基因的使用*

  IGHD基因  外周血中相对出现率的估算值3   IGHD3-10   117   IGHD3-22   111   IGHD6-19   95   IGHD6-13   93   IGHD3-3   82   IGHD2-2   63   IGHD4-17   61

  IGHD基因  外周血中相对出现率的估算值3   IGHD1-26   51   IGHD5-5/5-181   49   IGHD2-15   47   IGHD6-6   38   IGHD3-9   32   IGHD5-12   29   IGHD5-24   29   IGHD2-21   28   IGHD3-16   18   IGHD4-23   13   IGHD1-1   9   IGHD1-7   9   IGHD4-4/4-112   7   IGHD1-20   6   IGHD7-27   6   IGHD2-8   4   IGHD6-25   3

1虽然在基因组中的基因截然不同,但是IGHD5-5和IGHD5-18的核苷酸序列是100%相同,因此在重排的VH序列中无法分辨。

2IGHD4-4和IGHD4-11同样是100%相同。

3改编自Lee等,Immunogenetics,2006,57:917,通过合并了同一IGHD基因的不同等位基因的信息。

*IGHD1-14也包括在本发明的文库中。

表16表示存在于天然存在的人抗体中的10个最普遍表达的IGHD基因序列(在三个读框中)的翻译。最常出现在外周血中的这些读框用灰色突出显示。同表15一样,有关IGHD序列使用和读框统计的数据均得自Lee等,2006,有关IGHD序列读框使用的数据还进一步补充了以下文献的数据:Corbett等,PNAS,1982,79:4118和Souto-Carneiro等,J.Immunol,2004,172:6790,各文献通过引用其全部予以结合。

表16.在三个读框(RF)中,10个最常见的天然存在的IGHD序列的翻译

#表示终止密码子。

灰色突出显示的读框相当于最常用的读框。

在本示例性文库中,选择出现在外周血中最频繁用于重链序列的前10个IGHD基因用于呈现在文库中。文库的其它实施方案可以容易地使用较多或较少的D基因。表17中列举了所选定的IGHD基因的氨基酸序列,包括在渐进N-端和C-端缺失直到最少3个残基之后,最常用的读框和变异体总数。如表17所示,仅某些IGHD基因最常出现的等位基因包括在说明性文库中。然而,这不是必需的,本发明的其它实施方案可使用在外周血中较不频繁出现的IGHD读框。

表17.选用于示例性文库的D基因

  IGHD基因1   氨基酸序列  SEQ ID NO:   变异体总数2   IGHD1-26_1   GIVGATT   15   IGHD1-26_3   YSGSYY   10   IGHD2-2_2   GYCSSTSCYT   93   IGHD2-2_3   DIVVVPAAM   28   IGHD2-15_2   GYCSGGSCYS   9

  IGHD基因1   氨基酸序列  SEQ ID NO:   变异体总数2   IGHD3-3_3   ITIFGVVII   28   IGHD3-10_1   VLLWFGELL   28   IGHD3-10_2   YYYGSGSYYN   36   IGHD3-10_3   ITMVRGVII   28   IGHD3-22_2   YYYDSSGYYY   36   IGHD4-17_2   DYGDY   6   IGHD5-5_3   GYSYGY   10   IGHD6-13_1   GYSSSWY   15   IGHD6-13_2   GIAAAG   10   IGHD6-19_1   GYSSGWY   15   IGHD6-19_2   GIAVAG   10

1读框(RF)规定为基因名称后的_RF。

2在大多数情况下,用(N-1)乘以(N-2)除以2得到变异体总数,其中N为整个D区段的氨基酸总长度。

3如本文所详述,在该说明性实施方案中,含有推定二硫键(2个C或Cys残基)的区段的变异体数受到限制。

对于表17中精选的每个序列,通过从N-端和/或C-端进行系统性缺失直到剩下3个氨基酸来产生变异体。例如,对于上述IGHD4-17_2,可以使用全长序列DYGDY(SEQ ID NO:_)产生渐进缺失变异体:DYGD(SEQ ID NO:_)、YGDY(SEQ ID NO:_)、DYG(SEQ ID NO:_)、GDY(SEQ ID NO:_)和YGD(SEQ ID NO:_)。总体说来,对于大小为N的任何全长序列,可能有(N-1)*(N-2)/2个总变异体的总数,包括起始全长序列。对于二硫键-环-编码区段,以IGHD2-2和IGHD2-15的读框2(即IGHD2-2_2和IGH2-15_2)为例,限制渐进缺失使得环保持完整,即在相应的DH区段变异体中,仅缺失氨基酸N-端至第一个Cys,或C-端至第二个Cys。采用上述策略以避免在示例形式的文库中存在不成对的半胱氨酸残基。然而,如详述中所论述的一样,文库的其它实施方案可包括不成对的半胱氨酸残基,或者用其它氨基酸取代这些半胱氨酸残基。在其中IGHD基因的截短受存在Cys残基的限制的情况下,仅产生9个变异体(包括起始全长序列);例如,对于IGHD2-2_2,变异体将是:GYCSSTSCYT(SEQID NO:_)、GYCSSTSCY(SEQ ID NO:_)、YCSSTSCYT(SEQ IDNO:_)、CSSTSCYT(SEQ ID NO:_)、GYCSSTSC(SEQ IDNO:_)、YCSSTSCY(SEQ ID NO:_)、CSSTSCY(SEQ ID NO:_)、YCSSTSC(SEQ ID NO:_)和CSSTSC(SEQ ID NO:_)。

按照以上所概述的标准,从选出的IGHD基因区段中获得293种DH序列,包括原始IGHD基因区段。某些序列是丰余的。例如,有可能从IGHD3-10_2(全长序列GSGSYYN(SEQ ID NO:_))或者以两种不同方式从IGHD3-22_2(SEQ ID NO:_)(DSSG)获得YYY变异体。当去除丰余序列时,在文库的这个说明性实施方案中,独特DH区段序列的数目为278。表18中列举了这些序列。

表18.用于本示例性文库中的DH基因区段*

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD1-26_1-1   ATT   IGHD3-10_2-  20   YYGSG   IGHD1-26_1-2   GAT   IGHD3-10_2-  21   YYYGS   IGHD1-26_1-3   GIV   IGHD3-10_2-  22   GSGSYY   IGHD1-26_1-4   IVG   IGHD3-10_2-  23   SGSYYN   IGHD1-26_1-5   VGA   IGHD3-10_2-  24   YGSGSY   IGHD1-26_1-6   GATT   IGHD3-10_2-  25   YYGSGS   IGHD1-26_1-7   GIVG   IGHD3-10_2-  26   YYYGSG   IGHD1-26_1-8   IVGA   IGHD3-10_2-  27   GSGSYYN   IGHD1-26_1-9   VGAT   IGHD3-10_2-  28   YGSGSYY   IGHD1-26_1-10   GIVGA   IGHD3-10_2-  29   YYGSGSY

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD1-26_1-11   IVGAT   IGHD3-10_2-  30   YYYGSGS   IGHD1-26_1-12   VGATT   IGHD3-10_2-  31   YGSGSYYN   IGHD1-26_1-13   GIVGAT   IGHD3-10_2-  32   YYGSGSYY   IGHD1-26_1-14   IVGATT   IGHD3-10_2-  33   YYYGSGSY   IGHD1-26_1-15   GIVGATT   IGHD3-10_2-  34   YYGSGSYYN   IGHD1-26_3-1   YSG   IGHD3-10_2-  35   YYYGSGSYY   IGHD1-26_3-2   YSGS   IGHD3-10_2-  36   YYYGSGSYYN   IGHD1-26_3-3   YSGSY   IGHD3-10_3-1   GVI   IGHD1-26_3-4   YSGSYY   IGHD3-10_3-2   ITM   IGHD2-02_2-1   CSSTSC   IGHD3-10_3-3   MVR   IGHD2-02_2-2   CSSTSCY   IGHD3-10_3-4   RGV   IGHD2-02_2-3   YCSSTSC   IGHD3-10_3-5   TMV   IGHD2-02_2-4   CSSTSCYT   IGHD3-10_3-6   VII   IGHD2-02_2-5   GYCSSTSC   IGHD3-10_3-7   VRG   IGHD2-02_2-6   YCSSTSCY   IGHD3-10_3-8   GVII   IGHD2-02_2-7   GYCSSTSCY   IGHD3-10_3-9   ITMV   IGHD2-02_2-8   YCSSTSCYT   IGHD3-10_3-  10   MVRG

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD2-02_2-9   GYCSSTSCYT   IGHD3-10_3-  11   RGVI   IGHD2-02_3-1   AAM   IGHD3-10_3-  12   TMVR   IGHD2-02_3-2   DIV   IGHD3-10_3-  13   VRGV   IGHD2-02_3-3   IVV   IGHD3-10_3-  14   ITMVR   IGHD2-02_3-4   PAA   IGHD3-10_3-  15   MVRGV   IGHD2-02_3-5   VPA   IGHD3-10_3-  16   RGVII   IGHD2-02_3-6   VVP   IGHD3-10_3-  17   TMVRG   IGHD2-02_3-7   VVV   IGHD3-10_3-  18   VRGVI   IGHD2-02_3-8   DIVV   IGHD3-10_3-  19   ITMVRG   IGHD2-02_3-9   IVVV   IGHD3-10_3-  20   MVRGVI   IGHD2-02_3-10   PAAM   IGHD3-10_3-  21   TMVRGV   IGHD2-02_3-11   VPAA   IGHD3-10_3-  22   VRGVII   IGHD2-02_3-12   VVPA   IGHD3-10_3-  23   ITMVRGV   IGHD2-02_3-13   VVVP   IGHD3-10_3-  24   MVRGVII

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD2-02_3-14   DIVVV   IGHD3-10_3-  25   TMVRGVI   IGHD2-02_3-15   IVVVP   IGHD3-10_3-  26   ITMVRGVI   IGHD2-02_3-16   VPAAM   IGHD3-10_3-  27   TMVRGVII   IGHD2-02_3-17   VVPAA   IGHD3-10_3-  28   ITMVRGVII   IGHD2-02_3-18   VVVPA   IGHD3-22_2-1   DSS   IGHD2-02_3-19   DIVVVP   IGHD3-22_2-2   GYY   IGHD2-02_3-20   IVVVPA   IGHD3-22_2-3   SGY   IGHD2-02_3-21   VVPAAM   IGHD3-22_2-4   SSG   IGHD2-02_3-22   VVVPAA   IGHD3-22_2-5   YDS   IGHD2-02_3-23   DIVVVPA   IGHD3-22_2-6   YYD   IGHD2-02_3-24   IVVVPAA   IGHD3-22_2-7   DSSG   IGHD2-02_3-25   VVVPAAM   IGHD3-22_2-8   GYYY   IGHD2-02_3-26   DIVVVPAA   IGHD3-22_2-9   SGYY   IGHD2-02_3-27   IVVVPAAM   IGHD3-22_2-  10   SSGY   IGHD2-02_3-28   DIVVVPAAM   IGHD3-22_2-  11   YDSS   IGHD2-15_2-1   CSGGSC   IGHD3-22_2-  12   YYDS   IGHD2-15_2-2   CSGGSCY   IGHD3-22_2-  13   YYYD

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD2-15_2-3   YCSGGSC   IGHD3-22_2-  14   DSSGY   IGHD2-15_2-4   CSGGSCYS   IGHD3-22_2-  15   SGYYY   IGHD2-15_2-5   GYCSGGSC   IGHD3-22_2-  16   SSGYY   IGHD2-15_2-6   YCSGGSCY   IGHD3-22_2-  17   YDSSG   IGHD2-15_2-7   GYCSGGSCY   IGHD3-22_2-  18   YYDSS   IGHD2-15_2-8   YCSGGSCYS   IGHD3-22_2-  19   YYYDS   IGHD2-15_2-9   GYCSGGSCYS   IGHD3-22_2-  20   DSSGYY   IGHD3-03_3-1   FGV   IGHD3-22_2-  21   SSGYYY   IGHD3-03_3-2   GVV   IGHD3-22_2-  22   YDSSGY   IGHD3-03_3-3   IFG   IGHD3-22_2-  23   YYDSSG   IGHD3-03_3-4   ITI   IGHD3-22_2-  24   YYYDSS   IGHD3-03_3-5   TIF   IGHD3-22_2-  25   DSSGYYY   IGHD3-03_3-6   VVI   IGHD3-22_2-  26   YDSSGYY   IGHD3-03_3-7   FGVV   IGHD3-22_2-  27   YYDSSGY

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD3-03_3-8   GVVI   IGHD3-22_2-  28   YYYDSSG   IGHD3-03_3-9   IFGV   IGHD3-22_2-  29   YDSSGYYY   IGHD3-03_3-10   ITIF   IGHD3-22_2-  30   YYDSSGYY   IGHD3-03_3-11   TIFG   IGHD3-22_2-  31   YYYDSSGY   IGHD3-03_3-12   VVII   IGHD3-22_2-  32   YYDSSGYYY   IGHD3-03_3-13   FGVVI   IGHD3-22_2-  33   YYYDSSGYY   IGHD3-03_3-14   GVVII   IGHD3-22_2-  34   YYYDSSGYYY   IGHD3-03_3-15   IFGVV   IGHD4-17_2-1   DYG   IGHD3-03_3-16   ITIFG   IGHD4-17_2-2   GDY   IGHD3-03_3-17   TIFGV   IGHD4-17_2-3   YGD   IGHD3-03_3-18   FGVVII   IGHD4-17_2-4   DYGD   IGHD3-03_3-19   IFGVVI   IGHD4-17_2-5   YGDY   IGHD3-03_3-20   ITIFGV   IGHD4-17_2-6   DYGDY   IGHD3-03_3-21   TIFGVV   IGHD5-5_3-1   SYG   IGHD3-03_3-22   IFGVVII   IGHD5-5_3-2   YGY   IGHD3-03_3-23   ITIFGVV   IGHD5-5_3-3   YSY   IGHD3-03_3-24   TIFGVVI   IGHD5-5_3-4   GYSY   IGHD3-03_3-25   ITIFGVVI   IGHD5-5_3-5   SYGY

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD3-03_3-26   TIFGVVII   IGHD5-5_3-6   YSYG   IGHD3-03_3-27   ITIFGVVII   IGHD5-5_3-7   GYSYG   IGHD3-10_1-1   ELL   IGHD5-5_3-8   YSYGY   IGHD3-10_1-2   FGE   IGHD5-5_3-9   GYSYGY   IGHD3-10_1-3   GEL   IGHD6-13_1-1   SSS   IGHD3-10_1-4   LLW   IGHD6-13_1-2   SSW   IGHD3-10_1-5   LWF   IGHD6-13_1-3   SWY   IGHD3-10_1-6   VLL   IGHD6-13_1-4   SSSW   IGHD3-10_1-7   WFG   IGHD6-13_1-5   SSWY   IGHD3-10_1-8   FGEL   IGHD6-13_1-6   YSSS   IGHD3-10_1-9   GELL   IGHD6-13_1-7   GYSSS   IGHD3-10_1-10   LLWF   IGHD6-13_1-8   SSSWY   IGHD3-10_1-11   LWFG   IGHD6-13_1-9   YSSSW   IGHD3-10_1-12   VLLW   IGHD6-13_1-  10   GYSSSW   IGHD3-10_1-13   WFGE   IGHD6-13_1-  11   YSSSWY   IGHD3-10_1-14   FGELL   IGHD6-13_1-  12   GYSSSWY   IGHD3-10_1-15   LLWFG   IGHD6-19_1-1   GWY   IGHD3-10_1-16   LWFGE   IGHD6-19_1-2   GYS   IGHD3-10_1-17   VLLWF   IGHD6-19_1-3   SGW   IGHD3-10_1-18   WFGEL   IGHD6-19_1-4   YSS

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD3-10_1-19   LLWFGE   IGHD6-19_1-5   GYSS   IGHD3-10_1-20   LWFGEL   IGHD6-19_1-6   SGWY   IGHD3-10_1-21   VLLWFG   IGHD6-19_1-7   SSGW   IGHD3-10_1-22   WFGELL   IGHD6-19_1-8   YSSG   IGHD3-10_1-23   LLWFGEL   IGHD6-19_1-9   GYSSG   IGHD3-10_1-24   LWFGELL   IGHD6-19_1-  10   SSGWY   IGHD3-10_1-25   VLLWFGE   IGHD6-19_1-  11   YSSGW   IGHD3-10_1-26   LLWFGELL   IGHD6-19_1-  12   GYSSGW   IGHD3-10_1-27   VLLWFGEL   IGHD6-19_1-  13   YSSGWY   IGHD3-10_1-28   VLLW FGELL   IGHD6-19_1-  14   GYSSGWY   IGHD3-10_2-1   GSG   IGHD6-19_2-1   AVA   IGHD3-10_2-2   GSY   IGHD6-19_2-2   GIA   IGHD3-10_2-3   SGS   IGHD6-19_2-3   IAV   IGHD3-10_2-4   SYY   IGHD6-19_2-4   VAG   IGHD3-10_2-5   YGS   IGHD6-19_2-5   AVAG   IGHD3-10_2-6   YYG   IGHD6-19_2-6   GIAV   IGHD3-10_2-7   YYN   IGHD6-19_2-7   IAVA   IGHD3-10_2-8   YYY   IGHD6-19_2-8   GIAVA   IGHD3-10_2-9   GSGS   IGHD6-19_2-9   IAVAG

  DH区段命名1   肽   SEQ  ID NO:   DH区段命名   肽   SEQ ID  NO:   IGHD3-10_2-10   GSYY   IGHD6-19_2-  10   GIAVAG   IGHD3-10_2-11   SGSY   IGHD6-13_2-1   AAA   IGHD3-10_2-12   SYYN   IGHD6-13_2-2   AAG   IGHD3-10_2-13   YGSG   IGHD6-13_2-3   IAA   IGHD3-10_2-14   YYGS   IGHD6-13_2-4   AAAG   IGHD3-10_2-15   YYYG   IGHD6-13_2-5   GIAA   IGHD3-10_2-16   GSGSY   IGHD6-13_2-6   IAAA   IGHD3-10_2-17   GSYYN   IGHD6-13_2-7   GIAAA   IGHD3-10_2-18   SGSYY   IGHD6-13_2-8   IAAAG   IGHD3-10_2-19   YGSGS   IGHD6-13_2-9   GIAAAG

1如下使序列命名格式化:(IGHD基因名称)_(读框)-(变异体数)

*注意,当从文库中排除丰余区段时,多少有些随意地提供某些变异体的来源(即某些区段的来源可能不只一个亲本,包括表中所述区段)。

表19表示按照上述方法选出的278种DH区段的长度分布。

表19.选用于包含在示例性文库中的DH区段的长度分布

  DH大小   出现次数   3   78   4   64   5   50   6   38

  DH大小   出现次数   7   27   8   20   9   12   10   4

如上所述,根据本申请中定义的CDRH3编号体系,IGHD衍生的氨基酸(即DH区段)的编号自位置97开始,后面是位置97A、97B等。在文库的本示例性实施方案中,最短的DH区段有3个氨基酸:97、97A和97B,而最长的DH区段有10个氨基酸:97、97A、97B、97C、97D、97E、97F、97G、97H和97I。

实施例5.2:H3-JH区段的选择

有6种人种系IGHJ基因。在抗体基因体内装配期间,这些区段在其5’端渐进缺失。在文库的这个示例性实施方案中,包括了无缺失或有1、2、3、4、5、6或7个缺失(在氨基酸水平)、产生短至13个氨基酸的JH区段的IGHJ基因区段(表20)。还包括了其中IGHJ基因区段渐进缺失(在其5’/N-端)产生15、14、12或11个氨基酸的本发明的其它实施方案。

表20.选用于示例性文库的IGHJ基因区段

  IGHJ区段   [H3-JH]-[FRM4]1   SEQ ID  NO:   H3-JH   SEQ ID NO:   JH1亲本或  JH1_1   AEYFQHWGQGTLVTVSS   AEYFQH   JH1_2   EYFQHWGQGTLVTVSS   EYFQH   JH1_3   YFQHWGQGTLVTVSS   YFQH   JH1_4   FQHWGQGTLVTVSS   FQH   JH1_5   QHWGQGTLVTVSS   QH   JH2亲本或  JH2_1   YWYFDLWGRGTLVTVSS   YWYFDL   JH2_2   WYFDLWGRGTLVTVSS   WYFDL   JH2_3   YFDLWGRGTLVTVSS   YFDL

  IGHJ区段   [H3-JH]-[FRM4]1   SEQ ID  NO:   H3-JH   SEQ ID NO:   JH2_4   FDLWGRGTLVTVSS   FDL   JH2_5   DLWGRGTLVTVSS   DL   JH3亲本或  JH3_1   AFDVWGQGTMVTVSS   AFDV   JH3_2   FDVWGQGTMVTVSS   FDV   JH3_3   DVWGQGTMVTVSS   DV   JH4亲本或  JH4_1   YFDYWGQGTLVTVSS   YFDY   JH4_2   FDYWGQGTLVTVSS   FDY   JH4_3   DYWGQGTLVTVSS   DY   JH5亲本或  JH5_1   NWFDSWGQGTLVTVSS   NWFDS   JH5_2   WFDSWGQGTLVTVSS   WFDS   JH5_3   FDSWGQGTLVTVSS   FDS   JH5_4   DSWGQGTLVTVSS   DS   JH6亲本或  JH6_1   YYYYYGMDVWGQGTTVTVSS   YYYYYGMDV   JH6_2   YYYYGMDVWGQGTTVTVSS   YYYYGMDV   JH6_3   YYYGMDVWGQGTTVTVSS   YYYGMDV   JH6_4   YYGMDVWGQGTTVTVSS   YYGMDV   JH6_5   YGMDVWGQGTTVTVSS   YGMDV   JH6_6   GMDVWGQGTTVTVSS   GMDV   JH6_7   MDVWGQGTTVTVSS   MDV

  IGHJ区段   [H3-JH]-[FRM4]1   SEQ ID  NO:   H3-JH   SEQ ID NO:   JH6_8   DVWGQGTTVTVSS   DV

1H3-JH定义为包括在CDRH3的Kabat定义内的IGHJ区段部分;FRM4定义为编码构架区4的IGHJ区段部分。

根据本申请的CDRH3编号体系,例如JH6_1对CDRH3的贡献可通过位置99F、99E、99D、99C、99B、99A、100、101和102(分别为Y、Y、Y、Y、Y、G、M、D和V)标明。同样,JH4_3序列可为CDRH3提供氨基酸位置101和102(分别为D和Y)。然而,在示例性文库的所有情况下,按照用于抗体可变区的标准Kabat编号体系(Kabat,op.cit.1991),JH区段将为FRM4区提供氨基酸103~113。在文库的其它实施方案中,情况可能并非如此。

实施例5.3:N1和N2区段的选择

虽然考虑通过模拟天然存在的渐进缺失过程(如上述说明)增强的V-D-J重组可产生丰富的多样性,但是CDRH3序列在体内的多样性通过在V-D接点和D-J接点非模板添加大量不同的核苷酸而进一步放大。

在含有约2,700种抗体序列的样品中鉴定出分别位于V-D接点和D-J接点上的N1和N2区段(Jackson等,J.Immunol.Methods,2007,324:26),还通过Volpe等人的SoDA方法进行了分析(Volpe等,Bioinformatics,2006,22:438-44;(Jackson等和Volpe等,两个文献都通过引用其全部予以结合)。这些序列的分析揭示了N1和N2的长度和组成的形式。对于构建本示例性CDRH3文库,采用本文所述合成方案,从上述分析中得到特别短的氨基酸序列,并用来产生掺入到CDRH3设计中的多个N1和N2区段。

如详述中所述,基于对长度和组成的这些参数的统计偏倚的了解,本发明的某些实施方案包括具有合理设计的长度和组成的N1和N2区段,所述参数通过对人抗体中天然存在的N1和N2区段进行比较而获得。按照自人数据库编制的数据(参见例如Jackson等,J.Immunol Methods,2007,324:26,通过引用其全部予以结合),不考虑2个以内核苷酸的插入,对于N1有平均约3.02个氨基酸插入,对于N2有平均约2.4个氨基酸插入。图2表示人抗体中N1区和N2区的长度分布。在本发明的这个示例性实施方案,N1和N2的长度被固定在0、1、2或3个氨基酸。人抗体中这些序列的天然存在的组成用作包括不同氨基酸残基的指导。

表21中列出1个氨基酸、2个氨基酸和3个氨基酸N1添加的天然存在的组成,表22中定义相应N2添加的天然存在的组成。N1和N2集中最频繁出现的二联体汇总于表23。

表21.天然存在的1、2和3个氨基酸N1添加的组成*

  位置1   出现次数   位置2   出现次数   位置3   出现次数   R   251   G   97   G   101   G   249   P   67   R   66

  位置1   出现次数   位置2   出现次数   位置3   出现次数   P   173   R   67   P   47   L   130   S   42   S   47   S   117   L   39   L   38   A   84   V   33   A   33   V   62   E   24   V   28   K   61   A   21   T   27   I   55   D   18   E   24   Q   51   I   18   D   22   T   51   T   18   K   18   D   50   K   16   F   14   E   49   Y   16   I   13   F   3   H   13   W   13   H   32   F   12   N   10   N   30   Q   11   Y   10   W   28   N   5   H   8   Y   21   W   5   Q   5   M   16   C   4   C   3   C   3   M   4   M   3   1546   530   530

*序列C-端定义为“CARX”,或VH的等同成分,其中“X”为“尾”(例如D、E、G或无氨基酸残基)。

表22.天然存在的1、2和3个氨基酸N2添加的组成*

  位置1   出现次数   位置2   出现次数   位置3   出现次数   G   242   G   244   G   156   P   219   P   138   P   79   R   180   R   86   S   54   L   132   S   85   R   51   S   123   T   77   L   49   A   97   L   74   A   41   T   78   A   69   T   31   V   75   V   46   V   29   E   57   E   41   D   23   D   56   Y   38   E   23   F   54   D   36   W   23   H   54   K   30   Q   19   Q   53   F   29   F   17   I   49   W   27   Y   17   N   45   H   24   H   16   Y   40   I   23   I   11   K   35   Q   23   K   11   W   29   N   21   N   8   M   20   M   8   C   6   C   6   C   5   M   6   1644   1124   670

*定义为序列C-端至D区段但不是由IGHJ基因编码。

表23.前25个天然存在的N1和N2二联体

  序列   出现数   累计频率   独立频率   GG   17   0.037   0.037   PG   15   0.070   0.033   RG   15   0.103   0.033   PP   13   0.132   0.029   GP   12   0.158   0.026   GL   11   0.182   0.024   PT   10   0.204   0.022   TG   10   0.226   0.022   GV   9   0.246   0.020   RR   9   0.266   0.020   SG   8   0.284   0.018   RP   7   0.299   0.015   IG   6   0.312   0.013   GS   6   0.325   0.013   SR   6   0.338   0.013   PA   6   0.352   0.013   LP   6   0.365   0.013   VG   6   0.378   0.013   KG   6   0.389   0.011   GW   5   0.400   0.011   FP   5   0.411   0.011   LG   5   0.422   0.011

  序列   出现数   累计频率   独立频率   RS   5   0.433   0.011   TP   5   0.444   0.011   EG   5   0.455   0.011

实施例5.3.1N1区段的选择

对位于V和D之间的接点上已鉴定的N1区段进行的分析表明,8个最频繁出现的氨基酸残基为G、R、S、P、L、A、T和V(表21)。在N1区段中氨基酸添加的数目通常为0、1、2或3个(图2)。4个以上氨基酸的添加相对罕见。因此,在文库的本示例性实施方案中,将N1区段设计成包括0、1、2或3个氨基酸。然而,在其它实施方案中,还使用了4、5个或更多个氨基酸的N1区段。G和P总是在N1区中最常出现的氨基酸残基之中。因此,在文库的本示例性实施方案中,作为二肽的N1区段具有GX、XG、PX或XP形式,其中X是上面所列出的8个最常出现的氨基酸中的任一个。由于比起P残基,更频繁地观察到G残基的事实,因此,示例性N1文库的三肽成员形式为GXG、GGX或XGG,其中X再次为上面所列出的8个最频繁出现的氨基酸残基之一。所得到的用于文库的本示例性实施方案中的N1序列集,包括“零”添加量至59个序列,见表24。

表24.选用于包含在示例性文库中的N1序列

  区段类型   序列   数目   “零”   (无添加)V区段与D区段直接连接   1   单体   G,P,R,A,S,L,T,V   8   二聚体   GG,GP,GR,GA,GS,GL,GT,GV,PG,RG,AG,SG,LG,  TG,VG,PP,PR,PA,PS,PL,PT,PV,RP,AP,SP,LP,TP,  VP   28   三聚体   GGG,GPG,GRG,GAG,GSG,GLG,GTG,GVG,PGG,  RGG,AGG,SGG,LGG,TGG,VGG,GGP,GGR,GGA,  GGS,GG L,GGT,GGV   22

按照本申请的CDRH3编号体系,表24中所列举的序列为CDRH3提供下列位置:单体提供位置96,二聚体提供96和96A,三聚体提供96、96A和96B。在替代性实施方案中,其中四聚体和更长的区段可以包括在N1序列之中,相应编号可继续到包括96C,等等。

实施例5.3.2N2区段的选择

同样,对位于D和J之间的接点上的已鉴定的N2区段进行的分析表明,8个最频繁出现的氨基酸残基同样为G、R、S、P、L、A、T和V(表22)。在N2区段中氨基酸添加的数目也通常为0、1、2或3个(图2)。对于示例性文库中N2区段的设计,使用扩大的序列集。准确地讲,除了在表24中列举的用于N1的59个序列以外,还使用了表25中的序列。

表25.N2添加中的额外序列

  区段类型   序列   新的数目   总数   单体   D,E,F,H,I,K,M,Q,W,Y   10   18   二聚体   AR,AS,AT,AY,DL,DT,EA,EK,FH,FS,HL,  HW,IS,KV,LD,LE,LR,LS,LT,NR,NT,QE,  Q L,QT,RA,RD,RE,RF,RH,RL,RR,RS,RV,  SA,SD,SE,SF,SI,SK,SL,SQ,SR,SS,ST,  SV,TA,TR,TS,TT,TW,VD,VS,WS,YS   54   82   三聚体   AAE,AYH,DTL,EKR,ISR,NTP,  PKS,PRP,PTA,PTQ,REL,RPL,  SAA,SAL,SGL,SSE,TGL,WGT   18   40

因此,文库的本示例性实施方案共含有141个N2序列,包括“零”状态。本领域普通技术人员容易了解的是,这141个序列也可用于N1区,且这类实施方案属于本发明的范围。另外,可通过使用在天然存在的抗体的N1区和N2区中,比G、R、S、P、L、A、T和V较不频繁出现的氨基酸,并且在文库中包括4、5或更多个氨基酸的N1和N2区段,来进一步增加N1和N2序列的长度多样性和组成多样性。表21~23和图2提供有关天然存在的抗体中N1和N2序列的组成和长度的信息,用于模拟天然组成和长度的额外N1区和N2区的设计。

按照本申请的CDRH3编号体系,N2序列可始于位置98(如果存在)并延伸到98A(二聚体)和98B(三聚体)。替代性实施方案可占据位置98C、98D,等等。

实施例5.4.CDRH3文库

当考虑“尾”(即G/D/E/-)时,示例性文库中的CDRH3可用下列通式表示:

[G/D/E/-]-[N1]-[DH]-[N2]-[H3-JH]

在文库的本示例性非限制性实施方案中,[G/D/E/-]表示4个可能的末端氨基酸“尾”的每一个;N1可以是表24中59个序列中的任一个;DH可以是表18中278个序列中的任一个;N2可以是表24和表25中141个序列中的任一个;H3-JH可以是表20中28个H3-JH序列中的任一个。把每个组分上的变异数相乘,得出该CDRH3文库的总的理论多样性或理论库大小,即4×59×278×141×28=2.59×108。

然而,如之前的实施例中所述,可从文库中排除丰余性。在本示例性实施方案中,将尾和N1区段合并,并从文库中去除丰余性。例如,就VH chassis、尾和N1区而论,可按2种不同的方式得到序列[VH_Chassis]-[G]:[VH_Chassis]+[G]+[无残基]或[VH_Chassis]+[无残基]+[G]。去除丰余序列从236个可能的组合(即4个尾×59个N1)中得到共212个独特的[G/D/E/-]-[N1]区段。因此,本示例性CDRH3文库的实际多样性为212×278×141×28=2.11×108。图23表示相对于Lee等人的免疫前抗体库,该文库中不同CDRH3长度的出现频率。

表26采用本申请的CDRH3编号体系进一步说明了上述CDRH3文库的具体示例性序列。在不使用某一位置的情况下,表中用连字符(-)来代替。

实施例6:VKCDR3文库的设计

本实施例描述了多种示例性VKCDR3文库的设计。如详述中所述,制备或用于本发明具体实施方案的VKCDR3文库的实际形式将取决于文库使用的目的。在本实施例中,采用了轻链可变区的Kabat编号体系。

为了有利于研究出现形式,从可公开获取的NCBI数据库(附录A)中获取人κ轻链序列。同重链序列(实施例2)一样,根据序列同一性,将从可公开获取的数据库中获取的每个序列指派给其最近的种系基因。然后,确定每个κ轻链子集内每个位置上的氨基酸组成。

实施例6.1.:极简VKCDR3文库

本实施例描述了“极简”VKCDR3文库的设计,其中VKCDR3库都限于9个残基的长度。对人序列的VKCDR3长度的分析表明,绝大部分(超过70%)在CDRL3的Kabat定义内具有9个氨基酸:位置89~97。因此,本示例性极简文库设计只考虑长度为9的VKCDR3。对人κ轻链序列进行的分析表明,在IGKJ基因使用中没有大的偏倚;在人体中有5个这样的IKJ基因。表27表示在3个数据集中的IGKJ基因使用率,即Juul等(Clin.Exp.Immunol.,1997,109:194,通过引用其全部予以结合);Klein和Zachau(Eur.J.Immunol.,1993,23:3248,通过引用其全部予以结合);以及附录A中提供的κ轻链数据集(带标记的LUA)。

表27.各数据集中的IGKJ基因使用率

  基因   Klein   Juul   LUA   IGKJ1   35.0%   29.0%   29.3%   IGKJ2   25.0%   23.0%   24.1%   IGKJ3   7.0%   8.0%   12.1%   IGKJ4   26.0%   24.0%   26.5%   IGKJ5   6.0%   18.0%   8.0%

因此,“M”个VK chassis和5个IGKJ基因的简单组合就可产生大小为M×5的文库。在Kabat编号体系中,对于长度为9个的VKCDR3,第96号氨基酸是由IGKJ基因编码的第一个。对人序列中占据该位置的氨基酸进行的分析表明,7个最常见的残基为L、Y、R、W、F、P和I,累计占存在于位置96上的残基的约85%。其余13个氨基酸占另外的15%。所有20种氨基酸在位置96的出现情况见表28。

表28.人VK数据集中位置96上20种氨基酸残基的出现情况

  类型   次数   百分比   累计   L   333   22.3   22.3

  类型   次数   百分比   累计   Y   235   15.8   38.1   R   222   14.9   52.9   W   157   10.5   63.5   F   148   9.9   73.4   I   96   6.4   79.8   P   90   6.0   85.9   Q   53   3.6   89.4   N   39   2.6   92.0   H   31   2.1   94.1   V   21   1.4   95.5   G   20   1.3   96.8   C   14   0.9   97.8   K   7   0.5   98.3   S   6   0.4   98.7   A   5   0.3   99.0   D   5   0.3   99.3   E   5   0.3   99.7   T   5   0.3   100.0   M   0   0.0   100.0

为了确定最常存在于位置96上的7个残基的来源,对已知的人IGKJ氨基酸序列进行了仔细检查(表29)。

表29.已知的人IGKJ氨基酸序列

  基因   序列   IGKJ1   WTFGQGTKVEIK   IGKJ2   YTFGQGTKLEIK   IGKJ3   FTFGPGTKVDIK   IGKJ4   LTFGGGTKVEIK   IGKJ5   ITFGQGTRLEIK

虽然不受理论的束缚,但是在重排的人序列位置96上7个最常出现的氨基酸中有5个似乎来自由5个人IGKJ基因中的每一个编码的第一个氨基酸,即W、Y、F、L和I。

P和R残基的来源证据较少。虽然不受理论的束缚,但大多数人IGKV基因核苷酸序列终止于序列CC,这发生在最后一个完全密码子(例如编码表11所示的C-端残基)的末端(即3’)之后。因此,不论哪一个核苷酸位于该序列(即CCX,其中X可以是任何核苷酸)之后,该密码子都会编码脯氨酸(P)残基。因此,当IGKJ基因进行渐进缺失(恰如在重链的IGHJ中;参见实施例5)时,第一个完全氨基酸都丢失,如果在IGKV基因中不发生缺失,则将会产生P残基。

为了确定位置96上精氨酸残基的来源,对位置96上含有R的重排κ轻链序列上的IGKJ基因的来源进行了分析。分析表明,当IGKJ基因为IGKJ1时,R最频繁出现在位置96上。IGKJ1的种系W(位置1;表29)由GG编码。虽然不受理论的束缚,但是单个核苷酸由变成C(得到CGG)或变成A(得到AGG)将因此产生编码Arg(R)的密码子。A变成G(得到GGG)产生编码Gly(G)的密码子。R较常出现在人序列的位置96上,约为G的10倍(当IGKJ基因为IGKJ1时),并且R由CGG编码常多过由AGG编码。因此,虽然不受理论的束缚,但是C可来源于IGKV基因结束时的前述2个C之一。然而,当VKCDR3的长度为9时,不论出现的机制如何,R和P都是在位置96上最常观察到的氨基酸类型之中。因此,极简VKCDR3文库可用下列氨基酸序列表示:

[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGGGTKVEIK]

在该序列中,VK_Chassis表示任何选出的VK chassis(对于非限制性实例,参见表11),尤其是由IGKV基因编码的Kabat残基1~88。L3-VK表示由选出的IGKV基因编码的VKCDR3部分(在该实施方案中,残基89~95)。F/L/I/R/W/Y/P表示氨基残基(amino residue)F、L、I、R、W、Y或P中的任一个。在该示例性图中,描述了IKJ4(没有第一残基)。虽然不受理论的束缚,但是除IGKJ4为人体中最使用的IGKJ基因之一以外,预期GGG氨基酸序列导致比含有GXG氨基酸序列的任何其它IGKJ基因都大的构象柔性,其中X是除G以外的氨基酸。在一些实施方案中,这对产生具有较高程度的构象柔性极简免疫前抗体库可能是有利的。就表11所示10个VK chassis而论,一个实现的极简VKCDR3文库可能具有70个成员,得自10个VK chassis×7个接点(位置96)选项和一个IGKJ衍生的序列(例如IGKJ4)的组合。尽管使用IGKJ4描述了文库的这个实施方案,但是使用其它4个IGKJ序列之一设计极简VKCDR3文库是可行的。例如,文库的另一个实施方案可具有350个成员(10个VK chassis乘以7个接点乘以5个IGKJ基因)。

本领域普通技术人员容易了解的是,一种或多种极简VKCDR3文库可使用任一IGKJ基因构建。采用上述标记法,这些极简VKCDR3文库可具有由例如下式表示的序列:

JK1:[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGQGTKVEIK];

JK2:[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGQGTKLEIK];

JK3:[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGPGTKVDIK];和

JK5:[VK_Chassis]-[L3-VK]-[F/L/I/R/W/Y/P]-[TFGQGTRLEIK].

实施例6.2:复杂度约105的VKCDR3文库

在本实施例中,把实施例6.1中所描述的9个残基的VKCDR3库扩大到包括长度为8个和10个残基的VKCDR3。此外,虽然之前所列举的VKCDR3文库包括VK chassis和IGKJ基因无助于VKCDR3的多个部分,但是本示例性形式只集中在包含VKCDR3部分的残基上。例如,当与已含有VK chassis序列的载体重组且恒定区序列是所需要的时,这个实施方案可能是有利的。

虽然人VKCDR3序列的主要长度是9个氨基酸,但是其它长度似乎以可测量的比率累计将近κ轻链序列的30%。具体地讲,长度为8和10的VKCDR3分别表示代表性样品中的序列的约8.5%和约16%(图3)。因此,更复杂的VKCDR3文库包括长度为8~10个氨基酸的CDR;这种文库占在人VKCDR3序列的典型集合体中观察到的长度分布的95%以上。这种文库还使得能够包括VK和JK基因间接点以外的额外变异。本实施例描述了这类文库。文库包含10个子文库,每个围绕表11所示的10个示例性VK chassis之一进行了设计。无疑,这里的示例性方法可归纳为视为M个不同的chassis,其中M可小于或大于10。

为了表征占据Kabat位置89~95的多肽区段内的变异性,可分别对衍生自实施例3的10个种系序列中每一个的人κ轻链序列集合体进行比对和比较(即种系组别内)。这个分析使我们能够了解按种系分组的每个κ轻链序列中每个单独位置上序列变异的形式。下表显示衍生自IGKV1-39的序列的结果。

表30.IGKV1-39衍生的序列中氨基酸类型的出现百分比

  氨基酸   P89   P90   P91   P92   P93   P94   P95   A   0   0   1   0   0   4   1   C   0   0   0   0   0   0   0   D   0   0   1   1   3   0   0   E   0   1   0   0   0   0   0   F   0   0   0   5   0   2   0   G   0   0   2   1   2   0   0

  氨基酸   P89   P90   P91   P92   P93   P94   P95   H   1   1   0   4   0   0   0   1   0   0   1   0   4   5   1   K   0   0   0   1   2   0   0   L   3   0   0   1   1   3   7   M   0   0   0   0   0   1   0   N   0   0   3   2   6   2   0   P   0   0   0   0   0   4   85   Q   96   97   0   0   0   0   0   R   0   0   0   0   5   0   2   S   0   0   80   4   65   6   3   T   0   0   9   0   10   65   1   V   0   0   0   0   0   1   1   W   0   0   0   0   0   0   0   Y   0   0   2   80   0   3   0

例如,在位置89上,2个氨基酸Q和L,占所观察的变异性的约99%,因此在本示例性文库中(参见下文),仅Q和L包括在位置89上。当然,在较大的文库中,也可包括其它较不频繁出现的氨基酸类型(例如H)。

同样,在位置93上有较多变异,其中氨基酸类型S、T、N、R和I都处在最频繁出现的之中。因此,本示例性文库的目的是在位置93上包括这5个氨基酸,尽管无疑在更多样化的文库中可包括其它氨基酸。然而,因为该文库是通过标准化学寡核苷酸合成法构建的,受遗传密码限制的束缚,所以使得在位置93上的示例性文库的实际氨基酸由S、T、N、R、P和H组成,其中P和H替换I(参见下表32中的示例性9残基VKCDR3)。可按照下文实施例6.3中所述方法,采用寡核苷酸的基于密码子的合成法来克服这种限制。在其它位置上以及对于其它序列都可按照同样的方法进行:对每个位置氨基酸类型的出现进行分析,从最频繁出现的子集中进行选择,后面是按照遗传密码的规定进行调整。

如上所述,文库采用了使用标准寡核苷酸合成设备和简并寡核苷酸的实用易行的合成方法。为了有利于对文库进行描述,将使用简并核苷酸的IUPAC代码,见表31。

表31.简并碱基符号定义

  IUPAC符号   碱基对组成   A   A(100%)   C   C(100%)   G   G(100%)   T   T(100%)   R   A(50%)G(50%)   Y   C(50%)T(50%)   W   A(50%)T(50%)   S   C(50%)G(50%)   M   A(50%)C(50%)   K   G(50%)T(50%)   B   C(33%)G(33%)T(33%)(*)   D   A(33%)G(33%)T(33%)   H   A(33%)C(33%)T(33%)   V   A(33%)C(33%)G(33%)   N   A(25%)C(25%)G(25%)T(25%)

(*)33%在这里是1/3(即33.3333...%)的省略形式。

使用具有长度为9的VKCDR3的VK1-39 chassis作为例子,VKCDR3文库可用下列4种寡核苷酸表示(表32中的左栏),其中CDRL3各位置上编码的相应氨基酸(Kabat编号)在该表右栏提供。

表32.编码VK1-39CDR3文库的示例性寡核苷酸

  寡核苷酸序列   89   90   91   92   93   94   95   95A   96   97   CWGSAAWCATHCMVTABTCCTTWCACT   LQ   EQ   ST   FSY   HNPRST   IST   P    -   FY   T   CWGSAAWCATHCMVTABTCCTMTCACT   LQ   EQ   ST   FSY   HNPRST   IST   P    -   IL   T

  寡核苷酸序列   89   90   91   92   93   94   95   95A   96   97   CWGSAAWCATHCMVTABTCCTWGGACT   LQ   EQ   ST   FSY   HNPRST   IST   P    -   WR   T   CWGSAAWCATHCMVTABTCCTCBTACT   LQ   EQ   ST   FSY   HNPRST   IST   P   PLR   -   T

例如,表32中第1种核苷酸的第一个密码子(CWG),相当于Kabat位置89,表示50%CTG和50%CAG,分别编码Leu(L)和Gln(Q)。因此,可预期已表达的多肽具有L和Q的机会各为约50%。同样,对于第4种寡核苷酸的Kabat位置95A,密码子CBT表示CCT、CGT和CTT各为1/3,在翻译时依次相当于Pro(P)、Leu(L)和Arg(R)各1/3。通过使在肽序列每个位置上可供选择的数目相乘,便可得到在肽区域由每种寡核苷酸引起的复杂度。对于上述VK1-39实例,前3种寡核苷酸的数目为864,对于第4种寡核苷酸为1,296。因此,编码长度为9的VK1-39CDR3的寡核苷酸为文库贡献了3,888个成员。然而,如表32所示,在位置95A上具有L或R的序列(当位置96是空的时)与在位置96上具有L或R(且95A是空的)的序列相同。因此,3,888这个数值过高估计了LR的贡献,独特成员的实际数目稍有降低,为3,024。如表33中所示,对于所有10个VK chassis,在校正过度计数的LR对大小9个VKCDR3的贡献后,整个代表大小为8、9和10的VKCDR3的寡核苷酸的总体复杂度为约1.3×105或1.2×105个独特序列。

实施例6.3:更复杂的VKCDR3文库

本实施例说明,通过采用基于密码子的合成方法,可在每个位置上怎样获得更多真实呈现的氨基酸变异(Vimekas等,Nucleic AcidsRes.,1994,22:5600)。这种合成方案还可供较好地控制某一位置上所包括的特定氨基酸的比例。例如,如上文的VK1-39序列中所述,位置89被设计为50%Q和50%L;然而,正如表30显示的一样,Q的使用比L的使用频繁得多。本实施例的更复杂VKCDR3文库说明不同的Q和L的相对出现率,例如90%Q和10%L。这类控制在基于密码子的合成方案内得到较好的应用,尤其当考虑多种氨基酸类型时。

本实施例还描述了使用表11中所述的10个VK chassis来实施基于密码子的合成方案。当然,可用较多或较少的这类chassis实施同样的方法。正如详述中所指出的一样,本文库以及之前实施例文库设计的独特方面,是基于种系或chassis的方面,这就意味着更好地保持了实际的人κ轻链序列的完整性和变异性。这与文献中披露并皆在产生“万全之策”(例如共有序列)的κ轻链文库的其它基于密码子的合成法或简并寡核苷酸合成方法大不相同(例如,Knappik等,J Mol Biol,2000,296:57;Akamatsu等,J Immunol,1993,151:4651)。

因此,参照所获得的有关VK1-39的表30,可以设计出表34的长度为9的VKCDR3文库。这里出于实用的原因,以5个百分点的倍数标明在每个位置上的比例。随着更好的合成方案的开发,可获得较好的分辨率-例如分辨率为1%、2%、3%或4%。

表34.具有CDR长度为9个残基的VK1-39文库在每个VKCDR3位置上的氨基酸组成(%)

(*)对于所有chassis的长度为9的VK CDR3,大多通过接点和IGKJ多样性确定的位置96和97的组成可能相同。

表34的文库可具有1.37×106个独特多肽序列,通过将表中末行的数字相乘来计算。

在某些位置上,对于Asn(N)加下划线的表值表示其中在VKCDR3上具有N-联糖基化位点的可能性被降到最小或消除的区域。具有N-X-(S或T)-Z形式的肽序列,其中X和Z不同于P,可在包括酵母和哺乳动物细胞在内的多个表达系统中进行翻译后修饰。此外,这类修饰的性质取决于具体的细胞类型,以及甚至是给定的细胞类型的培养条件。N-联糖基化当发生在抗体分子可能参与抗原结合的区域内(例如CDR)时可能是不利的,因为抗体的功能可因此受可能难以控制的因素影响。例如,从上述位置91而论,可观察到位置92从不为P。位置94在95%的情况下不为P。然而,位置93在75%(65+10)的情况下为S或T。因此,允许位置91上的N可产生不需要的基序N-X-(T/S)-Z(其中X和Z均不同于P),因此即使在实际人序列中观察到N具有某种频率,也可发生零出现(参见表30)。同样的论据也适用于位置92和94上的N。然而,应当了解的是,如果使抗体文库在不能够N-联糖基化的系统中表达,例如细菌或在其中不发生N-联糖基化的培养条件下,这个考虑则可能不适用。然而,即使用于表达具有潜在N-联糖基化位点的文库的生物不能够进行N-联糖基化(例如细菌),也最好避免N-X-(S/T)序列,因为从这类文库分离的抗体可稍后(例如进入临床开发)在不同系统(例如酵母、哺乳动物细胞)进行表达,并且可变结构域特别是CDR中存在的糖部分,可导致不需要的活性改变。这些实施方案也包括在本发明的范围内。据我们所知,本领域已知的VKCDR3文库没有考虑这个影响,因此,其成员的比例可能具有上述不良性质。

我们还设计与表34中所概述的文库有关的长度为8和10的VKCDR3的其它子文库。在这些实施方案中,位置89~94和位置97的组成与表34所示组成相同。在位置95和位置95A上引入了额外的多样性,后者限定VKCDR3长度仅为10,见表35。

表35.长度为8和10的VK1-39文库的氨基酸组成(%)

(*)位置96在大小为8的VKCDR3中缺失。

(**)与大小为9的VKCDR3的组成相同。

因此,可如之前一样得出长度为8的VK1-39文库的独特成员总数,该数为3.73×105(即3×3×4×6×8×8×9×3)。同样,长度为10的VK1-39文库的复杂度可以是0.9×106(即是大小为9的文库的8倍,因为插入位置95A上有额外8倍的变异)。因此,在整个VK1-39文库中可有共12.7×106个独特成员,通过规定长度的每一个中的独特成员数求和得到。在本发明的某些实施方案中,可优选产生长度分别为8、9和10的各个子文库,然后按反映人序列中VKCDR3的长度分布比,将子文库混合;例如天然VKCDR3序列中存在的约1∶9∶2的分布比(参见图3)。本发明为普通技术人员合成相当于其它VKchassis的VKCDR3文库提供了组成和方法。

实施例7:极简VλCDR3文库

本实施例描述了极简VλCDR3文库的设计。用于设计该文库(或更复杂的Vλ文库)的原理类似于用于设计VKCDR3文库的原理。然而,与VK基因不同,IgλV区段对CDRL3的影响不限于氨基酸的固定数目。因此,即使当只考虑Vλchassis和Jλ序列的组合时,也可在极简VλCDR3文库中获得长度变异。

对人序列的VλCDR3长度进行的仔细检查表明,9~12的长度约占序列的几乎95%,8~12的长度约占序列的97%(图4)。表36表示自NCBI数据库(参见附录B)编制的重排的人λ轻链序列中6个已知IGλJ基因的使用率(出现百分比),表37表示由这些基因编码的序列。

表36.自NCBI数据库(参见附录B)编制的λ轻链序列的IGλJ基因使用率

 基因_等位基因   LUA   Jλ1_01   20.2%   Jλ2_01   42.2%   Jλ3_02   36.2%   Jλ6_01   0.6%   Jλ7_01   0.9%

表37.所观察到的人IGλJ氨基酸序列

IGλJ3-01和IGλJ7-02未呈现在已进行分析的序列之中;因此,未包括在表36中。如表36中所示,IGλJ1-01、IGλJ2-01和IGλJ3-02在其使用率上过多呈现,因此在表37中使用粗体字。在本发明的一些实施方案中,例如,可使用仅仅这3个过多呈现的序列。在本发明的其它实施方案中,可以使用所有6个区段,可以使用6个区段中的任意1、2、3、4或5个区段或者其任何组合。

如表14所示,由IGλV基因区段提供的CDRL3部分为7、8或9个氨基酸。CDRL3和FRM4的其余部分衍生自IGλJ序列(表37)。IGλJ序列为CDRL3提供1个或2个氨基酸。如果2个氨基酸由IGλJ提供,该贡献则来自IGλJ区段的N-端2个残基:YV(IGλJ1-01)、VV(IGλJ2-01)、WV(IGλJ3-01)、VV(IGλJ3-02)或AV(IGλJ7-01和IGλJ7-02)。如果1个氨基酸是来自IGλJ的贡献,则它就是V残基,这是在IGλJ区段的N-端残基缺失后形成的。

在本发明的这个非限制性示例性实施方案中,把FRM4区段固定为FGGGTKLTVL,相当于IGλJ2-01和IGλJ3-02。

11个精选chassis中的7个(Vλ1-40、Vλ3-19、Vλ3-21、Vλ6-57、Vλ1-44、Vλ1-51和Vλ4-69)在最后一个完全密码子之后有额外2个核苷酸。在这7例的4例中,对附录B中提供的数据集进行的分析表明,添加一个核苷酸(即,不受理论的限制,通过TdT的活性)导致CDRL3长度的进一步增加。该作用可视为是由引入由这4个IGλV序列提供的L3-Vλ序列的变异体所致(表38)。

因此,在本发明的本示例性实施方案中,chassis的最终集是15个:11个由表14中的chassis提供,另外4个由表38的chassis提供。15个chassis相应的L3-Vλ结构域为CDRL3提供7~10个氨基酸。当考虑由IGλJ序列提供的氨基酸时,CDRL3长度的总变异为8~12个氨基酸,接近图4中的分布。因此,在本发明的这个示例性实施方案中,极简Vλ文库可如下表示:15个Chassis×5个IGλJ衍生的区段=75个序列。这里,15个chassis是Vλ1-40、Vλ1-44、Vλ1-51、Vλ2-14、Vλ3-1*、Vλ3-19、Vλ3-21、Vλ4-69、Vλ6-57、Vλ5-45、Vλ7-43、Vλ1-40+、Vλ3-19+、Vλ3-21+和Vλ6-57+。5个IGλJ衍生的区段为YVFGGGTKLTVL(IGλJ1)、VVFGGGTKLTVL(IGλJ2)、WVFGGGTKLTVL(IGλJ3)、AVFGGGTKLTVL(IGλJ)和-VFGGGTKLTVL(得自之前序列中的任一个)。

实施例8:与“参比”抗体匹配

本领域已知的人目标抗体的CDRH3序列(例如已用于临床的抗体)在设计的本发明文库中具有接近的对应物。得自临床上相关抗体的一组15个CDRH3序列见表39。

表39.参比抗体的CDRH3序列

  抗体名称   靶标   来源   状态   CDHR3序列   SEQ  ID  NO:   CAB1   TNF-α   噬菌体展示-  人类文库   FDA批准   AKVSYLSTASSLDY   CAB2   EGFR   转基因小鼠   FDA批准   VRDRVTGAFDI   CAB3   IL-12/IL-23   噬菌体展示-  人类文库   III期   KTHGSHDN   CAB4   白介素-  1-β   转基因小鼠   III期   ARDLRTGPFDY   CAB5   RANKL   转基因小鼠   III期   AKDPGTTVIMSWFDP   CAB6   IL-12/IL-23   转基因小鼠   III期   ARRRPGQGYFDF   CAB7   TNF-α   转基因小鼠   III期   ARDRGASAGGNYYYYGMDV   CAB8   CTLA4   转基因小鼠   III期   ARDPRGATLYYYYYGMDV   CAB9   CD20   转基因小鼠   III期   AKDIQYGNYYYGMDV   CAB10   CD4   转基因小鼠   III期   ARVINWFDP   CAB11   CTLA4   转基因小鼠   III期   ARTGWLGPFDY   CAB12   IGF1-R   转基因小鼠   II期   AKDLGWSDSYYYYYGMDV

  抗体名称   靶标   来源   状态   CDHR3序列   SEQ  ID  NO:   CAB13   EGFR   转基因小鼠   II期   ARDGITMVRGVMKDYFDY   CAB14   EGFR   噬菌体展示-  人类文库   II期   ARVSIFGVGTFDY   CAB15   BLyS   噬菌体展示-  人类文库   II期   ARSRDLLLFPHHALSP

将上述序列中的每一个与实施例5文库中的每个成员进行比较,记录具有相同长度和最少氨基酸错配数的一个或多个成员。结果概括于下表40中。对于大多数情况,具有80%同一性或好于80%同一性的匹配存在于示例性CDRH3文库中。虽然不受理论的束缚,但是就这些抗体中每一个的特异性和结合亲和力受其CDRH3序列影响的程度来说,这些文库成员的一个或多个对相关靶标可具有可测量的亲和力。

表40.参比抗体CDRH3与设计文库的匹配

  抗体名称   错配数(*)   长度   最佳匹配的  %同一性   CAB1   5   14   64%   CAB2   2   11   82%   CAB3   4   8   50%   CAB4   2   11   82%   CAB5   3   15   80%   CAB6   3   12   75%   CAB7   2   20   90%   CAB8   0   19   100%   CAB9   3   15   80%   CAB10   1   9   89%

  抗体名称   错配数(*)   长度   最佳匹配的  %同一性   CAB11   1   11   91%   CAB12   2   18   89%   CAB13   2   18   89%   CAB14   1   13   92%   CAB15   7   16   56%

(*)对于文库中的最佳匹配序列

假定物理实现的具有约108个截然不同成员的文库实际上可含有每个仅一个成员,则具有与目标抗体接近的百分同一性的这类序列可存在于物理实现的文库中。本实施例还强调了本发明文库优于本领域现有文库的许多明显差别之一;即可以精确列举本发明文库的成员。相比之下,本领域已知的CDRH3文库无法以本文所述方式明确列举。例如,本领域已知的众多文库(例如Hoet等,Nat.Biotechnol.,2005,23:344;Griffiths等,EMBO J.,1994,13:3245;Griffiths等,EMBO J.,1993,12:725;Marks等,J.Mol.Biol.,1991,222:581,各文献通过引用其全部予以结合)通过克隆天然人CDRH3序列而获得,它们确切的组成没有表征,这就使得无法列举。

通过其它(例如随机或半随机/偏倚的)方法(Knappik等,J MolBiol,2000,296:57,通过引用其全部予以结合)产生的合成文库往往具有非常大量的独特成员。因此,虽然与给定输入序列匹配(例如80%以上)可存在于这类文库的理论呈现中,但是实际上,合成然后产生这样的物理实现的理论文库的概率可能极小,即含有这类序列随后并选出符合这类匹配的抗体的物理实现的理论文库。例如,Knappik文库中长度为19的CDRH3可具有1019种以上的截然不同的序列。在实际实现的这类文库中,约1/10的序列的长度可以是19,最大的总文库可具有大约1010~1012个转化体;因此,预先确定的给定成员存在的概率实际上几乎为零(小于一千万分之一)。其它文库(例如Enzelberger等,WO2008053275和Ladner US20060257937,各文献通过引用其全部予以结合)都有本申请全文中所记载的至少一种限制。

因此,例如,就抗体CAB14而论,实施例5中设计的文库有7个成员,这与CAB14的CDRH3序列(见表39)仅1个氨基酸位置不同。因为该CDRH3序列的总长度为13,所以对于本发明文库的这7个序列中的每一个,相同氨基酸的百分比为12/13即约92%。可以估计在Knappik等人的文库中得到这类匹配(或更好的匹配)的概率约为1.4×10-9;在具有相等氨基酸比例(即完全随机)的文库中还可能更低,约为5.5×10-10。因此,在物理实现的具有约1010个转化体(其中约1/10的长度可以是13)文库中,可能有这些最佳配对中的1种或2种情况。然而,至于较长序列(例如CAB 12),在Knappik文库中,具有约89%或更佳匹配的成员的概率在约10-15以下,致使在物理实现的文库中各情况的预期数基本上为零。就类似于实际人CDRH3序列的目标序列来说,在设计成模拟人序列的实施例5的文库中将存在紧密匹配。因此,比起本领域的现有文库,本发明文库的许多相对优势之一随着CDRH3的长度增加而变得更加显而易见。

实施例9:编码DH、N2和H3-JH区段的寡核苷酸的分合合成法

本实施例概述了用于合成用来构建本发明示例性文库的寡核苷酸的方法。采用约39μmol/g树脂的加载量,使用Custom PrimerSupportTM 200dT40S树脂(GE Healthcare)来合成寡核苷酸。柱(直径=30μm)、玻璃料(frits)购自Biosearch Technologies,Inc。合成中使用30μL的柱床体积,将120nmol树脂加载到每个柱中。使用比率为400/122(体积/体积)的二氯甲烷(DCM)和甲醇(MeOH)的混合物来加载树脂。采用Dr.192寡核苷酸合成仪和标准硫代磷酸酯化学法合成寡核苷酸。

如下进行用于[DH]-[N2]-[H3-JH]寡核苷酸合成的分合法:首先,合成寡核苷酸前导序列,该序列含有随机选择的10个核苷酸序列(ATGCACAGTT;SEQ ID NO:___)、BsrDI识别位点(GCAATG)和2个碱基“重叠序列(overlap sequence)”(TG、AC、AG、CT或GA)。下面解释这些区段每一个的目的。在合成这18个核苷酸序列之后,合成DH区段;将约1g树脂(具有仍缀合的18个核苷酸区段)悬浮于20mL DCM/MeOH中。将约60μL所得浆液(120nmol)分配到278个寡核苷酸合成柱的每一个中。这278个柱用来合成表18中的278个DH区段,3’至上述18核苷酸区段。在合成之后,将278个DH区段如下合并:将树脂和玻璃料从柱中推出,收集到20mL注射筒(无活塞)中。然后每个柱用0.5mL MeOH洗涤,除去吸附在柱壁上的任何残留树脂。注射筒中的树脂用MeOH洗涤3次,使用低孔隙率玻璃纤维滤器以保留树脂。然后使树脂干燥后称重。

随后将含有278个DH区段的合并树脂(约1.36g)悬浮于约17mLDCM/MeOH中,将约60μL所得浆液分配到两套141个柱的每一个里面。然后按一式两份(共282个柱)合成表24和表25中列举的141种N2区段,3’至在第一步骤中合成的278个DH区段。然后如上所述,合并282个柱中的树脂,洗涤后干燥。

将从N2合成中所得的合并树脂(约1.35g)悬浮于约17mLDCM/MeOH中,将约60μL所得浆液分配到280个柱的每一个里面,代表了28个H3-JH区段每个合成10次。然后在10个柱中,合成28个IGHJ区段每一个的一部分(下面有更详细的说明),包括表20的H3-JH,3’至N2区段。切割最终的寡核苷酸,通过暴露在气态氨(85℃,2小时,60psi)中脱保护。

采用分合合成法来合成示例性CDRH3文库。然而,要了解的是,寡核苷酸合成的最新进展,也就是通过包括分开但无合并的合成方法能够以较高保真度合成较长寡核苷酸和产生文库的寡核苷酸,可以用于本发明的替代性实施方案。因此,本文所述的分合合成法,是获得文库寡核苷酸的一种可行方法,但并不是限制性的。合成本申请所述寡核苷酸的其它可行方法之一是使用三核苷酸。预期这可提高合成保真度,因为可减少或消除移码突变体。

实施例10:CDRH3和重链文库的构建

本实施例概述了用于产生本发明示例性CDRH3和重链文库的方法。采用两步骤方法来产生CDRH3文库。第一步包括一套编码尾和N1区段的载体的装配,第二步包括应用实施例9中概述的分合核酸合成方法产生编码DH、N2和H3-JH区段的寡核苷酸。然后,将用化学方法合成的寡核苷酸连接到载体上,产生基于本文所述编号体系的CDRH3残基95~102。这个CDRH3文库随后通过PCR扩增,重组到含有实施例1和2中所述的重链chassis变异体的多个载体中。使用编码实施例1的10个重链chassis的寡核苷酸作为模板,通过Mutagenesis(StratageneTM)产生CDRH1和CDRH2变异体。除重链chassis之外,大量载体含有IgG1的重链恒定区(即CH1、CH2和CH3),使得在CDRH3与含有重链chassis和恒定区的载体重组时形成全长重链。在这个示例性实施方案中,在酿酒酵母中进行重组以产生全长重链并表达全长重链。

为了产生包含重链和轻链的全长杂二聚体IgG,同样在酵母细胞中表达轻链蛋白。用于该实施方案中的轻链文库为κ轻链文库,其中VKCDR3使用简并寡核苷酸进行合成(参见实施例6.2)。由于编码轻链文库的寡核苷酸较短(与编码重链文库的相比),因此轻链CDR3寡核苷酸可采用寡核苷酸合成标准方法从头合成,无需用亚组分装配(正如重链CDR3合成一样)。一种或多种轻链可以在表达本发明文库的特定重链克隆的各酵母细胞内进行表达。一种或多种轻链已从附加型(例如质粒)载体和从酵母基因组的整合位点中进行了成功表达。

下面将进一步提供有关各个组分的装配以合成本发明CDRH3文库,以及随后示例性CDRH3文库与含有chassis和恒定区的载体结合的详情。在本发明的这个具体示例性实施方案中,该方法所包括的步骤的特征一般是:(i)424种编码尾和N1区的载体的合成;(ii)将编码[DH]-[N2]-[H3-JH]区段的寡核苷酸连接到这424种载体上;(iii)使在这些连接中所产生的载体中的CDRH3序列进行PCR扩增;和(iv)这些PCR扩增的CDRH3结构域同源重组到含有chassis和恒定区的酵母表达载体中。

实施例10.1:编码尾和N1区的载体的合成

本实施例说明424种编码CDRH3的尾和N1区的载体的合成法。在本发明的这个示例性实施方案中,尾限于G、D、E或无,N1区限于表24中所示的59个序列之一。如本说明书全文中所述,许多其它实施方案是可行的。

在所述方法的第一步中,构建了一种“基础载体”(pJM204,是一种pUC衍生的克隆载体),它含有:(i)编码所有28个IGHJ区段C-端部分所共有的2个氨基酸(SS)的核酸序列,和(ii)编码IgG1的一部分CH1恒定区的核酸序列。因此,基础载体含有编码可表示为下列序列的插入序列:

[SS]-[CH1~],

其中SS为28个IGHJ区段C-端的共有部分,CH1~为IgG1的一部分CH1恒定区,即:ASTKGPSVFPLAPSSKSTSGGTAALGCLVKDYFPEPVTVSWNSGALTSGVHTFPAVLQSSGLYSLSSVVTVPSSSLG(SEQ ID NO:___)。

接下来,将424种不同寡核苷酸克隆到基础载体即[SS]-[CH1~]的编码区的上游(即5’)。通过标准方法合成了这424种寡核苷酸(每一种编码表5列举的17个重链chassis之一的C-端部分),加上4个示例性尾区段(G/D/E/-)之一,以及59个示例性N1区段(表24)之一。因此,这424种寡核苷酸编码可由下式表示的多个序列:

[~FRM3]-[G/D/E/-]-[N1],

其中~FRM3表示表5中的17个重链chassis之一的FRM3区的C-端部分,G/D/E/-表示G、D、E或无,N1表示表24中列举的59个N1序列之一。如本说明书全文中所述,本发明不限于表5中列举的chassis、其CDRH1和CDRH2变异体(表8),用于该实施例中的4个示例性尾选项或表24中提供的59个N1区段。

分两组合成了由上述序列表示的寡核苷酸序列:一组含有与表5列举的17个重链chassis中的16个上相应区相同的~FRM3区,另一组含有与VH3-15上相应区相同的~FRM3区。在前一组中,对于~FRM3,使用编码DTAVYYCAR(SEQ ID NO:_)的寡核苷酸。在随后的PCR扩增中,将VH5-51的V残基改变成M,相当于VH5-51种系序列。在后一组(具有与VH3-15共有的序列),对于~FRM3,使用编码以下序列的较大寡核苷酸:AISGSGGSTYYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCAK(SEQ ID NO:___)。将编码~FRM3区的2种寡核苷酸的每一种与编码4个尾区之一(G/D/E/-)的寡核苷酸和59个N1区段之一配对,得到各~FRM3的共236种可能的组合(即1×4×59),或者当考虑两组~FRM3序列时,得到共472种可能的组合。然而,这些组合中的48个是丰余的,仅唯一呈现的这些序列用于本示例性CDRH3文库,得到424种编码[~FRM3]-[G/D/E/-]-[N1]序列的独特寡核苷酸。

如上所述,在将编码[~FRM3]-[G/D/E/-]-[N1]和[SS]-[CH1~]区段的寡核苷酸克隆至载体后,将另外的序列添加到载体上以促进在分合合成法期间所合成的编码[DH]-[N2]-[H3-JH]片段的寡核苷酸的后续插入。这些添加的序列包含编码选择标记蛋白的多核苷酸,两侧是II型限制性内切酶的识别位点,例如:

[II型RS 1]-[选择标记蛋白]-[II型RS 2]。

在这个示例性实施方案中,选择标记蛋白为ccdB,且II型限制性内切酶识别位点对BsrDI和BbsI具有特异性。在某些大肠杆菌菌株中,ccdB蛋白是有毒的,因此当该基因存在时,阻止了这些细菌的生长。

具有基于VH3-23chassis的~FRM3区、D尾残基和长度为零的N1区段的212种载体之一的5’端的一个实例如下:

                                                                            VH3-23

                                                                 ~~~~~~~~~~~~~~~~

                                                                  A  I  S   G  S  G   G  S  T  Y·

961                                                              GCTATTAG TGGTAGTGGT GGTAGCACAT

                                                                 CGATAATC ACCATCACCA CCATCGTGTA

                                                 VH3-23

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

        ·Y  A  D    S  V  K   G  R  F  T   I  S  R   D  N  S   K  N  T  L   Y  L  Q   M  N  S

1041    ACTACGCAGA CTCCGTGAAG GGCCGGTTCA CCATCTCCAG AGACAATTCC AAGAACACGC TGTATCTGCA AATGAACAGC

        TGATGCGTCT GAGGCACTTC CCGGCCAAGT GGTAGAGGTC TCTGTTAAGG TTCTTGTGCG ACATAGACGT TTACTTGTCG

                        VH3-23                                            ccdB

        ~~~~~~~~~~~~~~~~~~~~~~             ~~~~~~~~~~~~~~~~

                                                     BsrDI

                                                     ~~~~~~

         L  R  A  E   D  T  A   V  Y  Y   C  A  K

1121    CTGAGAGCCG AGGACACGGC GGTGTACTAC TGCGCCAAGG ACCATTGCGC TTAGCCTAGG TTATATTCCC CAGAACATCA

        GACTCTCGGC TCCTGTGCCG CCACATGATG ACGCGGTTCC TGGTAACGCG AATCGGATCC AATATAAGGG GTCTTGTAGT

基于其它16种chassis之一的~FRM3区、D残基为尾和长度为零的N1区段的212种载体之一的一个实例如下:

                                                                            构架3

                                                               ~~~~~~~~~~~~~~~~

                                                               D  T  A   V  Y  Y  C   A  R

961                                                            GACACGGCG GTGTACTACT GCGCCAGAGA

                                                               CTGTGCCGC CACATGATGA CGCGGTCTCT

                                           ccdB

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

        BsrDI

        ~~~~~~

1041    CCATTGCGCT TAGCCTAGGT TATATTCCCC AGAACATCAG GTTAATGGCG TTTTTGATGT CATTTTCGCG GTGGCTGAGA

        GGTAACGCGA ATCGGATCCA ATATAAGGGG TCTTGTAGTC CAATTACCGC AAAAACTACA GTAAAAGCGC CACCGACTCT

                                           ccdB

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1121    TCAGCCACTT CTTCCCCGAT AACGGAAACC GGCACACTGG CCATATCGGT GGTCATCATG CGCCAGCTTT CATCCCCGAT

        AGTCGGTGAA GAAGGGGCTA TTGCCTTTGG CCGTGTGACC GGTATAGCCA CCAGTAGTAC GCGGTCGAAA GTAGGGGCTA

                                          ccdB

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1201    ATGCACCACC GGGTAAAGTT CACGGGAGAC TTTATCTGAC AGCAGACGTG CACTGGCCAG GGGGATCACC ATCCGTCGCC

        TACGTGGTGG CCCATTTCAA GTGCCCTCTG AAATAGACTG TCGTCTGCAC GTGACCGGTC CCCCTAGTGG TAGGCAGCGG

                                          ccdB

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1281    CGGGCGTGTC AATAATATCA CTCTGTACAT CCACAAACAG ACGATAACGG CTCTCTCTTT TATAGGTGTA AACCTTAAAC

        GCCCGCACAG TTATTATAGT GAGACATGTA GGTGTTTGTC TGCTATTGCC GAGAGAGAAA ATATCCACAT TTGGAATTTG

                                          ccdB

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1361    TGCATTTCAC CAGCCCCTGT TCTCGTCAGC AAAAGAGCCG TTCATTTCAATAAACCGGGC GACCTCAGCC ATCCCTTCCT

        ACGTAAAGTG GTCGGGGACAAGAGCAGTCG TTTTCTCGGC AAGTAAAGTT ATTTGGCCCG CTGGAGTCGG TAGGGAAGGA

                                          ccdB

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1441    GATTTTCCGC TTTCCAGCGT TCGGCACGCA GACGACGGGC TTCATTCTGC ATGGTTGTGC TTACCAGACC GGAGATATTG

        CTAAAAGGCG AAAGGTCGCA AGCCGTGCGT CTGCTGCCCG AAGTAAGACG TACCAACACG AATGGTCTGG CCTCTATAAC

                                          ccdB

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1521    ACATCATATA TGCCTTGAGC AACTGATAGC TGTCGCTGTC AACTGTCACT GTAATACGCT GCTTCATAGC ATACCTCTTT

        TGTAGTATAT ACGGAACTCG TTGACTATCG ACAGCGACAG TTGACAGTGA CATTATGCGA CGAAGTATCG TATGGAGAAA

                                          ccdB

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

1601    TTGACATACT TCGGGTATAC ATATCAGTAT ATATTCTTAT ACCGCAAAAA TCAGCGCGCA AATATGCATA CTGTTATCTG

        AACTGTATGA AGCCCATATG TATAGTCATA TATAAGAATA TGGCGTTTTT AGTCGCGCGT TTATACGTAT GACAATAGAC

             ccdB                                         CH1

       ~~~~~~~~~~~~~~~       ~~~~~~~~~~~~~~~~~~~~~~~~~~

                                     BbsI

                                  ~~~~~~~

                                                  A    S  T  K   G  P  S   V  F  P  L   A  P  S·

1681    GCTTTTAGTA AGCCGCCTAG GTCATCAGAA GACAACTCAG CTAGCACCAA GGGCCCATCG GTCTTTCCCC TGGCACCCTC

        CGAAAATCAT TCGGCGGATC CAGTAGTCTT CTGTTGAGTC GATCGTGGTT CCCGGGTAGC CAGAAAGGGG ACCGTGGGAG

                                          CH1

         ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

        ·S  K  S   T  S  G  G   T  A  A   L  G  C   L  V  K  D   Y  F  P   E  P  V   T  V  S  W·

1761    CTCCAAGAGC ACCTCTGGGG GCACAGCGGC CCTGGGCTGC CTGGTCAAGG ACTACTTCCC CGAACCGGTG ACGGTGTCGT

        GAGGTTCTCG TGGAGACCCC CGTGTCGCCG GGACCCGACG GACCAGTTCC TGATGAAGGG GCTTGGCCAC TGCCACAGCA

                                       CH1

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

        ·N  S  G    A  L  T   S  G  V  H   T  F  P   A  V  L   Q  S  S  G   L

1841    GGAACTCAGG CGCCCTGACC AGCGGCGTGC ACACCTTCCC GGCTGTCCTA CAGTCCTCAG GACTC

        CCTTGAGTCC GCGGGACTGG TCGCCGCACG TGTGGAAGGG CCGACAGGAT GTCAGGAGTC CTGAG

所有424种载体的序列都得到证实。在[DH]-[N2]-[H3-JH]片段克隆之前和之后,424种载体的内含物的示意图见图5。下面是含有得自VH3-23的FRM3区的424种载体之一的示例性序列。

                                                               引物EMK135

                                                        ~~~~~~~~~~~~~~~

                                                        VH3-23

                                 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

                                 A  I  S   G  S  G   G  S  T   Y  Y  A  D   S  V  K   G  R  F

561                             GCTATTA GTGGTAGTGG TGGTAGCACA TACTACGCAG ACTCCGTGAA GGGCCGGTTC

                                CGATAAT CACCATCACC ACCATCGTGT ATGATGCGTC TGAGGCACTT CCCGGCCAAG

                                            VH3-23

      ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

        T  I  S  R   D  N  S   K  N  T   L  Y  L  Q   M  N  S   L  R  A   E  D  T  A   V  Y  Y·

641    ACCATCTCCA GAGACAATTC CAAGAACACG CTGTATCTGC AAATGAACAG CCTGAGAGCC GAGGACACGG CGGTGTACTA

       TGGTAGAGGT CTCTGTTAAG GTTCTTGTGC GACATAGACG TTTACTTGTC GGACTCTCGG CTCCTGTGCC GCCACATGAT

         VH3-23                              D                                    J1

       ~~~~~~~~        ~~~~~~~~~~~~~~~~~         ~~~~~~~~~~

                                                                                 JH6

                                                                          ~~~~~~~~~~

                       N1_9                                      N2

                 ~~~~~~~~~                        ~~~~~~~

       ·C  A  K   D  A  G  G   Y  Y  Y   G  S  G   S  Y  Y  N   A  A  A   Y  Y  Y   Y  Y  G  M·

721    CTGCGCCAAG GACGCCGGAG GATATTATTA TGGGTCAGGA AGCTATTACA ACGCTGCGGC TTACTACTAC TATTATGGCA

       GACGCGGTTC CTGCGGCCTC CTATAATAAT ACCCAGTCCT TCGATAATGT TGCGACGCCG AATGATGATG ATAATACCGT

                         JH6

       ~~~~~~~~~~~~~~~~~~~~~~

         J1                                                           CH1

       ~~~~~~~                              ~~~~~~~~~~~~~~~~~~~~~

                                                   NheI

                                                   ~~~~~~

       ·D  V  W    G  Q  G   T  T  V  T   V  S  S   A  S  T   K  G  P  S   V  F  P   L  A  P

801    TGGACGTGTG GGGACAAGGT ACAACAGTCA CCGTCTCCTC AGCTAGCACC AAGGGCCCAT CGGTCTTTCC CCTGGCACCC

       ACCTGCACAC CCCTGTTCCA TGTTGTCAGT GGCAGAGGAG TCGATCGTGG TTCCCGGGTA GCCAGAAAGG GGACCGTGGG

                                            CH1

       ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

       S  S  K  S   T  S  G   G  T  A   A  L  G  C   L  V  K   D  Y  F   P  E  P  V    T  V  S·

881    TCCTCCAAGA GCACCTCTGG GGGCACAGCG GCCCTGGGCT GCCTGGTCAA GGACTACTTC CCCGAACCGG TGACGGTGTC

       AGGAGGTTCT CGTGGAGACC CCCGTGTCGC CGGGACCCGA CGGACCAGTT CCTGATGAAG GGGCTTGGCC ACTGCCACAG

                                             EK137 CH1引物

                                             ~~~~~~~~~~~~~~~~

                                            CH1

       ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

      ·W  N  S    G  A  L  T   S  G  V   H  T  F   P  A  V  L   Q  S  S   G  L  Y   S  L  S  S·

961    GTGGAACTCA GGCGCCCTGA CCAGCGGCGT GCACACCTTC CCGGCTGTCC TACAGTCCTC AGGACTCTAC TCCCTCAGCA

       CACCTTGAGT CCGCGGGACT GGTCGCCGCA CGTGTGGAAG GGCCGACAGG ATGTCAGGAG TCCTGAGATG AGGGAGTCGT

                     CH1

       ~~~~~~~~~~~~~~~~~~~~

      · V  V  T   V  P  S   S  S  L  G

1041  GCGTGGTGAC CGTGCCCTCC AGCAGCTTGG GC

      CGCACCACTG GCACGGGAGG TCGTCGAACC CG

实施例10.2:编码DH、N2、H3-JH区段的寡核苷酸克隆至含有尾和N1区段的载体中

本实施例描述了将编码[D]-[N2]-[H3-JH]区段(通过分合合成法制备;实施例9)的寡核苷酸克隆到实施例10.1中所产生的424种载体中。总的来讲,通过分合合成法产生的[DH]-[N2]-[H3-JH]寡核苷酸通过PCR进行了扩增,以产生双链寡核苷酸,引入限制位点(即BsrDI和BbsI)并完成在分合合成法中未合成的IGHJ区段的3’部分,所述限制位点可产生与载体上的突出端互补的突出端。将扩增的寡核苷酸用限制性内切酶BsrDI(在邻近DH区段处切割)和BbsI(接近JH区段末端处切割)进行消化。然后将切割的寡核苷酸纯化后,连接至之前已用BsrDI和BbsI消化的424种载体上。在连接之后,将反应物纯化,乙醇沉淀后,重新溶解。

下面对用于在分合合成法中合成的[DH]-[N2]-[H3-JH]寡核苷酸之一的该方法进行了说明。下列寡核苷酸(SEQ ID NO:__)是在分合合成期间合成的一种寡核苷酸:

1    ATGCACAGTTGCAATGTATTACTATGGATCTGGTTCTTACTATAAT

51TATTATTACTACTATGGTATGGACGTATGGGGGCAAGGGACC    99

头10个核苷酸(ATGCACAGTT;SEQ ID NO:___)表示在下面的PCR扩增步骤中增加至20个碱基对的随机序列部分。序列的这个部分提高BsrDI消化的效率,并有利于寡核苷酸的下游纯化。

核苷酸11-16(加下划线)表示BsrDI识别位点。合成了在该位点之后的二碱基重叠序列(在本实施例中为TG;粗体字),其与所述424种载体中的某一些用BsrDI(即取决于具体载体的尾/N1区的组成)消化产生的二碱基突出端互补。如下所述,其它寡核苷酸含有不同的二碱基突出端。

二碱基重叠后面是DH基因区段(核苷酸19-48),在这个实施例中,后面是编码10个残基DH区段YYYGSGSYYN(即表17的IGHD3-10_2;SEQ ID NO:___)的30bp序列(TATTACTATGGATCTGGTTCTTACTATAAT,SEQ ID NO:___)。

在这个实施例中,编码DH区段的寡核苷酸区后面是9个碱基区(GTGGGCGGA;粗体字;核苷酸49-57),编码N2区段(在这个情况下为VGG;表24)。

该示例性寡核苷酸的其余部分表示在分合合成法中合成的JH区段部分(TATTATTACTACTATGGTATGGACGTATGGGGGCAAGGGACC;SEQ ID NO:___;核苷酸58-99;加下划线),编码序列YYYYYYGMDVWGQGT(表20;SEQ ID NO:___)。在随后下述PCR扩增中加入IGHJ区段的其余部分。

在将分合合成的寡核苷酸从树脂上切割后,脱去保护,将它们用作用于PCR反应的模板,该PCR反应将另外随机选择的10个核苷酸(例如GACGAGCTTC;SEQ ID NO:_)加到5’端,将IGHJ区段的其余部分加上BbsI限制位点加到3’端。这些添加有利于将[DH]-[N2]-[JH]寡核苷酸克隆到424种载体上。如上所述(实施例9),分合合成法的最后一轮包括280个柱:10个柱用于编码28个H3-JH区段之一的寡核苷酸的每一种。根据其H3-JH区段的同一性,将从这280个柱中得到的寡核苷酸产物合并成共28个合并物。然后在5个独立的PCR反应中,使用5种正向引物和1种反向引物,使这28个合并物的每一个进行扩增,所述正向引物的每一种编码不同的二碱基重叠(在DH区段之前;参见上文),所述反向引物具有待扩增的相当于H3-JH区段的家族来源的序列。这11种引物的序列如下:

正向引物

AC    GACGAGCTTCAATGCACAGTTGCAATGAC  (SEQ ID NO:__)

AG    GACGAGCTTCAATGCACAGTTGCAATGAG  (SEQ ID NO:__)

CT    GACGAGCTTCAATGCACAGTTGCAATGCT  (SEQ ID NO:__)

GA    GACGAGCTTCAATGCACAGTTGCAATGGA  (SEQ ID NO:__)

TG    GACGAGCTTCAATGCACAGTTGCAATGTG  (SEQ ID NO:__)

反向引物

JH1    TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCAAGGTGCCCTGGCCCCA(SEQ ID NO:__)

JH2    TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACAGTGACCAAGGTGCCACGGCCCCA(SEQ ID NO:__)

JH3    TGCATCAGTGCGACTAACGGAAGACTCTGAAGAGACGGTGACCATTGTCCCTTGGCCCCA(SEQ ID NO:__)

JH4    TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCAAGGTTCCTTGGCCCCA(SEQ ID NO:__)

JH5    TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCAAGGTTCCCTGGCCCCA(SEQ ID NO:__)

JH6    TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCGTGGTCCCTTGCCCCCA(SEQ ID NO:__)

在标准条件下,使用Taq聚合酶进行扩增。对寡核苷酸进行8个循环的扩增,以保持呈现出不同长度的序列。解链在95℃下进行30秒钟,在58℃下退火,在72℃下的延伸时间为15秒钟。

使用上文列举的示例性分合法衍生的寡核苷酸作为实例,用TG引物和JH6引物进行PCR扩增,其中引物的退火部分用下划线表示:

TG    GACGAGCTTCAATGCACAGTTGCAATGTG(SEQ ID NO:__)

JH6   TGCATCAGTGCGACTAACGGAAGACTCTGAGGAGACGGTGACCGTGGTCCCTTGCCCCCA(SEQ ID NO:__)

作为退火部分5’端的TG引物部分包括上述随机的10个碱基对。作为退火部分5’端的JH6引物部分包括JH6区段的其余部分和BbsI限制位点。在反应中形成下列PCR产物(SEQ ID NO:__)(所添加的序列用下划线表示):

GACGAGCTTCATGCACAGTTGCAATGTGTATTACTATGGATCTGGTTCTTACTATAATGTGGGCGGATATTATTACTACTATGGTATGGACGTATGGGGGCAAGGGACCACGGTCACCGTCTCCTCAGAGTCTTCCGTTAGTCGCACTGATGCAG

然后,根据用于反应的正向引物,将各个反应的PCR产物合并成5种合并物(pool),产生在BsrDI消化后得到相同二碱基突出端的序列集。然后,PCR产物的5种合并物用BsRDI和BbsI消化(100μg PCR产物;1mL反应体积;200U BbsI;100U BsrDI;2小时;37℃;NEB缓冲液2)。经消化的寡核苷酸用苯酚/氯仿抽提两次,乙醇沉淀,短暂干,在4℃下静置过夜后,用300μL TE缓冲液重新溶解。

然后,将在之前的各小节中所描述的424种载体中的每一种用BsrDI和BbsI消化,每种载体产生二碱基突出端,该突出端与PCR产物的5种合并物之一所含的突出端互补。因此,将限制消化PCR产物的5种合并物之一与424种载体的每一种连接,这取决于其相容末端,共计424种连接。

实施例10.3:得自424种载体的CDRH3的PCR扩增

本实施例描述了得自上述424种载体的CDRH3区的PCR扩增。如上所述,424种载体呈2组:一组用于VH3-23家族,具有以CAK结尾的FRM3(212种载体),另一种用于其它16个chassis,具有以CAR结尾的FRM3(212种载体)。使用识别质粒的一部分CH1区的反向引物(EK137;参见表41)和VH3-23特异性引物EK135(参见表41),使基于VH3-23的载体中的CDRH3进行扩增。使用相同的反向引物(EK137)和表41中所示5种FRM3特异性引物(EK139、EK140、EK141、EK143和EK144)中的每一种,使得自具有以CAR结尾的FRM3的212种载体的CDRH3进行扩增。因此,进行了212次VH3-23扩增和212×5次FRM3PCR反应,共计1,272次反应。使用EK 133正向引物,使得自212种基于VH3-23的载体的CDRH3进行了另外的PCR反应扩增,使得在制备这些chassis CAK而不是原CAR(VH3-23*)的最后3个氨基酸同时,将扩增子克隆到其它5个VH3家族成员chassis中。用于各个反应的引物见表41。

表41.用于CDRH3序列扩增的引物

  引物  编号   相容的  Chassis   引物序列  SEQ ID NO   EK135   VH3-23   CACATACTACGCAGACTCCGTG   EK133   VH3-48;  VH3-7;  VH3-15;  VH3-30;  VH3-33;  VH3-23*   CAAATGAACAGCCTGAGAGCCGAGGACACGGCGGTGTACTACTG   EK139   VH4-B;  VH4-31;  VH4-34;  VH4-39;  VH4-59;  VH4-61   AAGCTGAGTTCTGTGACCGCCGCAGACACGGCGGTGTACTACTG   EK140   VH1-46;  VH1-69   GAGCTGAGCAGCCTGAGATCTGAGGACACGGCGGTGTACTACTG   EK141   VH1-2   GAGCTGAGCAGGCTGAGATCTGACGACACGGCGGTGTACTACTG   EK143   VH5-51   CAGTGGAGCAGCCTGAAGGCCTCGGACACGGCGATGTACTACTG   EK144   VH1-18   GAGCTGAGGAGCCTGAGATCTGACGACACGGCGGTGTACTACTG   EK137   CH1  反向引物   GTAGGACAGCCGGGAAGG

实施例10.4:PCR扩增的CDRH3区同源重组到重链Chassis中

在扩增之后,按照反应产物最终将克隆到其中的相应VH chassis,将反应产物合并。表42列举了这些合并物,其中在最后2栏提供的每个合并物的PCR引物用来获得CDRH3序列。

表42.用于扩增424种载体的CDRH3区的PCR引物

  合并物编号(任意)   HC Chassis靶标   5’引物   3’引物   1   1-46   EK140   EK137   1-69   EK140   EK137   2   1-2   EK141   EK137   3   1-18   EK144   EK137   4   4-B   EK139   EK137   4-31   EK139   EK137   4-342   EK139   EK137   4-39   EK139   EK137   4-59   EK139   EK137   4-61   EK139   EK137   5   5-51   EK143   EK137   6   3-151   EK133   EK137   3-7   EK133   EK137   3-33   EK133   EK137   3-33   EK133   EK137   3-48   EK133   EK137

  合并物编号(任意)   HC Chassis靶标   5’引物   3’引物   7   3-23   EMK135   EK137   8   3-23*   EK133   EK137

*在制备这些chassis CAK而不是原CAR的最后3个氨基酸的同时,使扩增子克隆到其它5个VH3家族成员chassis中(即不是VH3-23)。

1如表5中所述,将VH3-15中的原KT序列突变成RA,原TT突变成AR。

2如表5中所述,从这个chassis的CDRH2中去除用于N-联糖基化的潜在位点。

按照上文中概述的方法,在合并扩增的CDRH3区之后,将重链chassis表达载体按照其来源合并后切割,以产生用于与扩增的CDRH3进行同源重组的“缺口”。图6表示在与CDRH3重组之前重链载体的结构示意图。在本发明的这个示例性实施方案中,总共有编码重链chassis和IgG1恒定区但无CDRH3的152种载体。这152种载体代表了17个独立的可变重链基因家族(表5;实施例1和实施例2)。表5所述的重链chassis序列和表8所述的CDRH1/H2变异体代表了家族中的15个(即150种载体)。VH 3-30与VH3-33仅相差一个氨基酸;因此,VH3-30包括在VH3-33变异体合并物中。在这个示例性实施方案中,将4-34VH家族成员保持独立于所有其它家族,文库中没有包括其变异体。因此,由152种载体产生了共16种合并物,代表了17个重链chassis。

载体合并物用限制性内切酶SfiI消化,该酶切割在载体中位于可变结构域的FRM3终点和CH1起点之间的2个位点。

                                           VH3-48

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

        S  V  K   G  R  F  T   I  S  R   D  N  A   K  N  S  L   Y  L  Q   M  N  S   L  R  A  E ·

2801  CTCTGTGAAG GGCCGATTCA CCATCTCCAG AGACAATGCC AAGAACTCAC TGTATCTGCA AATGAACAGC CTGAGAGCTG

      GAGACACTTC CCGGCTAAGT GGTAGAGGTC TCTGTTACGG TTCTTGAGTG ACATAGACGT TTACTTGTCG GACTCTCGAC

          Constant DTAVYYCAR

      ~~~~~~~~~~~~~~~~

      VH3-48                                                                  VTVSS所有J所共有

      ~~                                                                    ~~~~~

                                        SfiI                        SfiI

                              ~~~~~~~~~~~~~~~  ~~~~~~~~~~~~~~      

     ·  D  T  A   V  Y  Y   C  A  R

                                                                                         V  T ·

2881  AGGACACGGC GGTGTACTAC TGCGCCAGAG GCCAATAGGG CCAACTATAA CAGGGGTACC CCGGCCAATA AGGCCGTCAC

      TCCTGTGCCG CCACATGATG ACGCGGTCTC CGGTTATCCC GGTTGATATT GTCCCCATGG GGCCGGTTAT TCCGGCAGTG

      VTVSS common to all J

      ~~~~~~~~~~~

                                             hIgGlm17,1

              ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

             NheI

          ~~~~~~ 

     · V  S  S   A  S  T  K   G  P  S   V  F  P   L  A  P  S   S  K  S   T  S  G   G  T  A

2961  CGTCTCCTCA GCTAGCACCA AGGGCCCATC GGTCTTCCCC CTGGCACCCT CCTCCAAGAG CACCTCTGGG GGCACAGCGG

      GCAGAGGAGT CGATCGTGGT TCCCGGGTAG CCAGAAGGGG GACCGTGGGA GGAGGTTCTC GTGGAGACCC CCGTGTCGCC

然后将有缺口的载体合并物与适当的(即相容的)CDRH3扩增子合并物相混合,得到如上所述50∶1的插入序列与载体比。然后将混合物转化到电感受态(electrocompetent)酵母(酿酒酵母)中,所述酵母已含有质粒或包含VK轻链文库的整合基因(见下文)。通过将稀释的经电穿孔的细胞接种到选择性琼脂平板上,测定出文库多样性程度。在本发明的这个示例性实施方案中,琼脂平板缺乏色氨酸,且酵母缺乏内源性合成色氨酸的能力。这个缺陷通过包括TRP标记的重链chassis质粒来纠正,使得接受质粒并使之与CDRH3插入序列重组的任何酵母都可以生长。然后,使电穿孔细胞在缺乏色氨酸的液体培养基中生长超过约100倍。将等分的文库在50%甘油中冷冻后,保存在-80℃下。在此阶段获得的每个转化体均代表一个可表达完全IgG分子的克隆。图5提供CDRH3整合到重链载体和随附序列上的示意图。

然后根据如表43中所述的重链家族成员的近似呈现,得到重链文库合并物。

表43.用于设计文库的数据集、预期(设计)文库和实际(实测)文库中的重链Chassis的出现率

  Chassis   数据集中的相对  出现率(1)   预期值(2)   观察值(3)   VH1-2   5.1   6.0   6.4   VH1-18   3.4   3.7   3.8   VH1-46   3.4   5.2   4.7   VH1-69   8.0   8.0   10.7   VH3-7   3.6   6.1   4.5   VH3-15   1.9   6.9   3.6   VH3-23   11.0   13.2   17.1   VH3-33/30   13.1   12.5   6.6   VH3-48   2.9   6.3   7.5   VH4-31   3.4   2.5   4.3

  Chassis   数据集中的相对  出现率(1)   预期值(2)   观察值(3)   VH4-34   17.2   7.0   4.7   VH4-39   8.7   3.9   3.0   VH4-59   7.0   7.8   9.2   VH4-61   3.2   1.9   2.4   VH4-B   1.0   1.4   0.8   VH5-51   7.2   7.7   10.5

(1)如实施例1中所述,这17种序列占用来代表人库的人VH序列整个样品的约76%。

(2)基于合并的各chassis类型的子文库。

(3)得自文库的531种序列的使用率;参见图20。

实施例10.5:VH3-23中的K94R突变以及VH3-33、VH3-30、VH3-7和VH3-48中的R94K突变

本实施例描述了在VH3-23、VH3-33、VH3-30、VH3-7和VH3-48中位置94的突变。在VH3-23中,将这个位置上的氨基酸由K突变为R。在VH3-33、VH3-30、VH3-7和VH3-48中,将这个氨基酸由R突变为K。在VH3-32中,将这个位置由K突变为R。产生这些突变的目的是提高文库中CDRH3呈现的多样性。例如,在天然存在的VH3-23序列中,约90%在位置94上具有K,而约10%位置为R。通过进行这些改变,CDRH3呈现的多样性增加,文库的总体多样性也是如此。

使用424种载体作为模板进行扩增。对于K94R突变,含有序列DTAVYYCAK(VH3-23)的载体用K被变为R的PCR引物进行扩增,并且加入5’尾用于与VH3-48、VH3-33、VH-30和VH3-7进行同源重组。3-48上的“T”碱基不改变所编码的氨基酸,因此,具有T::C错配的相同引物仍允许同源重组到3-48chassis中。

此外,得自由424种载体含有DTAVYYCAR序列的扩增产物(按照上述方法产生)可以同源重组到VH3-23(CAR)载体中,在该构架将R变为K,因此,进一步增加CDRH3呈现在这个chassis中的多样性。

              240                                                 294

VH3-48(240)   TCTGCAAATGAACAGCCTGAGAGCTGAGGACACGGCGGTGTACTACTGCGCCAGA

VH3-33/30(240)TCTGCAAATGAACAGCCTGAGAGCCGAGGACACGGCGGTGTACTACTGCGCCAGA

VH3-7(240)    TCTGCAAATGAACAGCCTGAGAGCCGAGGACACGGCGGTGTACTACTGCGCCAGA

VH3-23(240)   TCTGCAAATGAACAGCCTGAGAGCCGAGGACACGGCGGTGTACTACTGCGCCAAG

实施例11:VK文库构建

本实施例描述了本发明VK文库的构建。本文所述示例性VK文库相当于实施例6.2中所述的复杂度约105的VKCDR3文库。如实施例6和本申请全文中所述,其它VK文库都在本发明范围内,Vλ文库也是如此。

合成了10种VK chassis(表11),它不含VKCDR3,但在VKCDR3的位置上却代以2个SfiI限制位点,同重链载体一样。κ恒定区在SfiI限制位点之后。图8表示在与CDRL3重组之前轻链载体的结构示意图。

然后按照实施例6.2中所述方法,使用简并寡核苷酸(表33),合成了10种VKCDR寡核苷酸文库。然后使寡核苷酸作为独立的合并物进行PCR扩增,以将其制成双链,并加入另外的核苷酸,所述核苷酸是用于与含有VK chassis和恒定区序列的有缺口的(通过SfiI)载体进行有效同源重组所需要的。在本发明这个实施方案中,VKCDR3合并物呈长度为8、9和10个的氨基酸,将其在PCR后以1∶8∶1的比例混合。然后通过同源重组,使合并物克隆到相应的由SfiI切成缺口的VK chassis中,正如上文给出的CDRH3区中所述一样。CDRL3整合到轻链载体和随附序列的示意图见图9。

然后根据存在于循环的B细胞合并物中的VK家族成员的近似呈现,产生κ轻链文库合并物。所使用的10种κ可变区和最终文库合并物中的相对频率见表44。

表44.在用于设计文库的数据集、预期(设计)文库和实际(实测)文库中VK Chassis的出现率

  Chassis  数据集中的相对出现率(1)   预期值(2)   实测值(3)   VK1-5   8.6   7.1   5.8   VK1-12   4.0   3.6   3.5   VK1-27   3.3   3.6   8.1   VK1-33   5.3   7.1   3.5   VK1-39   18.5   21.4   17.4   VK2-28   7.7   7.1   5.8   VK3-11   10.9   10.7   20.9   VK3-15   6.6   7.1   4.7   VK3-20   24.5   21.4   18.6   VK4-1   10.4   10.7   11.6

(1)如实施例3中所述,在所研究的VK序列的完整数据集中,这10种chassis占出现率的约80%。

(2)对得自第2栏的数据的比率四舍五入,然后归一化用于实际实验设置。相应的取比率整数,对于VK1-39和VK3-20为6,对于VK3-11和VK4-1为3,对于VK-15、VK1-33、VK2-28和VK3-15为2,对于VK1-12和VK1-27为1。

(3)得自文库的86种序列集中的Chassis使用率;同样参见图22。

实施例12:示例性文库的表征

本实施例说明了按照本文所述方法构建的本发明示例性文库的特征。

实施例12.1.重链的表征

为了表征分合合成法的产物,随机选择含有[尾]-[N1]-[DH]-[N2]-[H3-JH]产物的424种载体中的10种并转化至大肠杆菌。分合产物的理论多样性约为1.1×106(即278×141×28)。由转化中选出96个菌落,产生每个克隆的正向序列和反向序列。96个测序反应中,所得的90个序列从中可鉴定出CDRH3区,这些序列中约70%与文库中的设计序列匹配。与理论分布(基于设计)相比较,得自10种载体的经测序的CDRH3区段的长度分布见图10。由10种载体中获得的各DH、N2和H3-JH区段的长度分布见图11-13。

一旦文库(包含在与设计匹配的载体中)的CDRH3组分的长度分布得到证实,则对呈现在按照实施例10.4中所述方法转化的酵母中的CDRH3结构域和重链家族呈现进行表征。获得超过500种以上的单次通过(single-pass)序列。在这些当中,531种产生足够的序列信息以鉴定重链chassis,291种产生足够的序列信息以表征CDRH3。按照本文所述的同源重组方法,使这些CDRH3结构域与重链chassis和恒定区整合。与理论长度分布相比较,得自291种序列的CDRH3结构域的长度分布见图14。平均理论长度为14.4±4个氨基酸,而平均实测长度为14.3±3个氨基酸。与理论值相比较的CDRH3各个部分的实测长度见图15-18。图19表示在291种序列中鉴定的JH区段的家族来源,图20表示文库的chassis的16种的呈现。这些序列中未呈现VH3-15chassis。稍后将含有VH3-15chassis并具有CDRH3多样性的酵母转化体导入所需组成的文库中来校正。

实施例12.2.轻链的表征

在酵母通过实施例10.4所述方法进行转化之后,测定了得自实施例6.2所述VKCDR3文库的CDRL3组分的长度分布。人序列文库的86种序列的CDRL3长度与设计序列的CDRL3长度的比较见图21。图22表示得自选自文库的86种序列的轻链chassis的呈现。约91%的CDRL3序列与设计的精确匹配,约9%的相差一个氨基酸。

实施例13:设计的CDRH3文库的组成的表征

本实施例提供有关示例性文库的CDRH3结构域的组成的数据,以及与本领域其它文库的比较。更准确地讲,本实施例提供对出现在文库的CDRH3结构域上的400种可能的氨基酸对(20种氨基酸×20种氨基酸)的出现率所作的分析。通过检查CDRH3中i残基的最近邻(i-i+1;指定为IP1)、次最近邻(i-i+2;指定为IP2)和第三最近邻(i-i+3;指定为IP3),用计算机计算出这些氨基酸对的发生率。本领域之前已知的文库(例如Knappik等,J.Mol.Biol.,2000,296:57;Sidhu等,J.Mol.Biol.,2004,338:299;以及Lee等,J.Mol.Biol.2004,340:1073,各文献通过引用其全部予以结合)只考虑了在整个CDRH3的中心都保持相同组成的同时,CDRH3内个别位置上20种氨基酸的出现率,没有本文考虑的成对出现率。实际上,按照Sidhu等(J.Mol.Biol.,2004,338:299,通过引用其全部予以结合),“在CDR-H3中,对某些残基类型有一些偏倚,但是所有20种天然氨基酸残基都以可观的程度出现,在环的中心部分有非常少的位置特异性偏倚”。因此,本发明预料不到地首次提出这样的认识,即当考虑上文引述的氨基酸对的出现率时,CDRH3环的中心部分里面的确存在位置特异性偏倚。本实施例说明,与本领域的其它文库相比,本文所述文库更真实地再现了存在人序列中的这些氨基酸对的出现率。因此,本文所述文库的组成可视为比本领域的其它文库更接近“人”的组成。

为了研究CDRH3结构域的成对组成,选出了始于位置95上的一部分CDRH3。为了与Knappik等人和Lee等人提供的数据进行比较,忽略了所分析的CDRH3中每一种的最后5个残基。因此,为了这项分析,i-i+X(X=1~3)对的两个成员必须落入始于位置95并止于(但包括)自CDRH3C-端起的第6个残基的区域内。所分析的部分称为“中心环”(参见定义)。

为了估计本发明代表性文库的对分布,采用了抽样法。通过依次随机选择424种尾加上N1区段之一、278种DH区段之一、141种N2区段之一和28种JH区段之一(后者被截短至仅包括95~102KabatCDRH3),产生了多个序列。重复该方法10,000次,得到10,000个序列的样本。通过选择用于随机数发生的不同种子(seed),还得到其它10,000个序列的独立样本,观察到对分布的结果几乎相同。对于本文提供的计算结果,使用了第三种更大的样本,即50,000个序列。同样的方法用于文库的替代性实施方案(N1-141),借此从1068种尾+N1区段(在从2乘以4乘以141即1128种可能组合中排除丰余序列后得出)选出第一区段。

根据Knappik等人的图7a(第71页)中提供的出现百分比,确定了Knappik等人的成对组成。下表45中重复提供相关数据。

表45.Knappik等人的CDRH3(来自Knappik等人的图7a)的CDRH3位置95~100(相当于本发明文库的位置95~99B)的组成

  氨基酸   计划(%)   实测(%)   A   4.1   3.0   C   1.0   1.0   D   4.1   4.2   E   4.1   2.3   F   4.1   4.9   G   15.0   10.8   H   4.1   4.6   I   4.1   4.5   K   4.1   2.9   L   4.1   6.6

  氨基酸   计划(%)   实测(%)   M   4.1   3.3   N   4.1   4.5   P   4.1   4.8   Q   4.1   2.9   R   4.1   4.1   S   4.1   5.6   T   4.1   4.5   V   4.1   3.7   W   4.1   2.0   Y   15.0   19.8

根据Lee等人表5中所示文库,确定了Lee等人的成对组成,其中相当于来自本发明以及自来Knappik等人所分析的CDRH3区的位置,由Lee等人的“XYZ”密码子组成。Lee等人的XYZ密码子是具有下列碱基组成的简并密码子:

位置1(X):19%A、17%C、38%G和26%T;

位置2(Y):34%A、18%C、31%G和17%T;和

位置3(Z):24%G和76%T。

当排除约2%的编码终止密码子的密码子(这在功能性表达人CDRH3序列中不存在),且将百分比再归一化至100%时,可从Lee等人(表46)的XYZ密码子的组成推导出下列的氨基酸呈现。

表46.Lee等人基于简并XYZ密码子组成的CDRH3组成。

  类型   百分比   类型   百分比   A   6.99%   M   0.79%   C   6.26%   N   5.02%   D   10.03%   P   3.13%   E   3.17%   Q   1.42%

  类型   百分比   类型   百分比   F   3.43%   R   6.83%   G   12.04%   S   9.35%   H   4.49%   T   3.49%   I   2.51%   V   6.60%   K   1.58%   W   1.98%   L   4.04%   Y   6.86%

在IP1、IP2和IP3构形的每一个中,可通过将Knappik等人和Lee等人的各个氨基酸组成相乘,来计算400种氨基酸对每一种的出现率。例如,对于Knappik等人的文库,用15%乘以4.1%计算YS对的出现率,得到6.1%;注意,SY对的出现率应相同。同样,对于Lee等人的基于XYZ密码子的文库,YS对的出现率可以是6.86%(Y)乘以9.35%(S),得到6.4%;对于SY同样相同。

对于人CDRH3序列,忽略Kabat定义中的最后5个氨基酸,来进行计算。通过忽略了人CDRH3 C-端的5个氨基酸,可使这些序列与Lee等人的基于XYZ密码子的序列进行比较。虽然Lee等人也提供了具有“NNK”和“NNS”密码子的本发明文库,但是这些文库的成对组成与人CDRH3成对组成偏离得甚至更远。由Lee等人设计的XYZ密码子在某种程度上重复了CDRH3中观察到的个别氨基酸类型的偏倚。

在应用上述方法得到样本序列后,将同一方法用于本发明的文库。虽然有可能用文库中的所有序列进行这些计算,但是10,000~20,000个成员的独立随机样本给出无法区分的结果。因此,本文所报告的数值来自50,000个成员的样本。

分别制作了IP1、IP2和IP3的3个表(表47、表48和表49)。从400对中选出20种最频繁出现的包括在表中。大约1,000种人序列(Lee等,2006)的样本表示为“免疫前(Preimmune)”,大约2,500种序列(Jackson等,2007)的样本表示为“Humabs”,后者的更亲和力成熟的子集表示为“成熟(Matured)”,它不包括所有免疫前集。本领域的合成文库表示为HuCAL(Knappik等,2000)和XYZ(Lee等,e 2004)。包括以下2个本发明的代表性文库:LUA-59包括59种N1区段、278种DH区段、141种N2区段和28种H3-JH区段(参见上述实施例);LUA-141包括141种N1区段、278种DH区段、141种N2区段和28种H3-JH区段(参见上述实施例)。从每种相应文库的数据集中排除了由N1和尾序列组合产生的丰余性。在某些实施方案中,还可根据400种氨基酸对(特别是表47-49的氨基酸对)中任一种的出现百分比来限定本发明。在某些实施方案中,可根据这些氨基酸对中的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种以上来限定本发明。在本发明的某些实施方案中,某些氨基酸对的出现百分比可落入下表中由“LUA-”(下边界)和“LUA+”(上边界)规定的范围内。在本发明的一些实施方案中,任何氨基酸对出现百分比的下边界可约为0.1、0.25、0.5、0.75、1、1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.25、3.5、3.75、4、4.25、4.5、4.75和5。在本发明的一些实施方案中,任何氨基酸对出现百分比的上边界可约为0.1、0.25、0.5、0.75、1、1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.25、3.5、3.75、4、4.25、4.5、4.75、5、5.25、5.5、5.75、6、6.25、6.5、6.75、7、7.25、7.5、7.75和8。按照本发明,所列举的任一下边界可与所列举的任一上边界组合以确立范围,反之亦然。

在本实施例中提供的分析,证实了比起本领域已知的其它文库,本发明文库的组成更接近地模拟人序列的组成。本领域的合成文库从本质上讲都无法以氨基酸对百分比的水平,再现实际人CDRH3序列的“中心环”部分的组成。本发明的文库具有更复杂的成对组成,它接近地再现实际人CDRH3序列中观察到的组成。可通过例如改变用来设计CDRH3文库的区段的组成,使这种再现的确切程度相对于实际人CDRH3序列的目标集最优化。此外,还可能利用这些度量来以计算的方式设计精确模拟存在于人序列的成对组成发生率的文库。

实施例14:示例性文库的信息量

量化从本质上讲比其它文库或序列集合体可能更复杂或“较不随机”的某些文库或序列集合体的观察结果的一种方法是应用信息论(Shannon,Bell Sys.Tech.J.,1984,27:379;Martin等,Bioinformatics,2005,21:4116;Weiss等,J.Theor.Biol.,2000,206:379,各文献通过引用其全部予以结合)。例如,可设计某种度量来量化具有固定氨基酸的位置与代表比所有20种氨基酸可能以相等概率出现的位置较不“随机”的事实。中间情况进而应导致这类度量的中间值。按照信息论,这种度量可用下式表示:

I=Σi=1Nfilog2fi

在这里,fi为出现率的归一化频率,i可为氨基酸类型(其中事件N可等于20)。当所有fi除1个以外为0时,I的值为0。在其它任一事件中I的值可能较小,即为负数,且当所有fi值相同并等于N时,达到最小值。对于氨基酸事件,N为20,所得到的I值可为-4.322。因为I被限定在基数2的对数内,I的单位为比特。

在单一位置水平上,HuCAL和XYZ文库的I值可分别从表45和表46中推算出,并且等于-4.08和-4.06。表50提供出现在之前介绍的带有上文定义的“中心环”的本发明非限制性示例性文库和人序列集相应的单个残基频率。

表50.中心环中的氨基酸类型频率

  类型   免疫前   Humabs   成熟   LUA-59   LUA-141   A   5.46   5.51   5.39   5.71   6.06   C   1.88   1.46   1.22   1.33   1.34   D   7.70   7.51   7.38   4.76   5.23   E   2.40   2.90   3.28   3.99   4.68   F   2.29   2.60   2.81   1.76   2.17   G   14.86   15.42   15.82   24.90   18.85   H   1.46   1.79   2.01   0.20   0.67   I   3.71   3.26   2.99   3.99   4.34

  类型   免疫前   Humabs   成熟   LUA-59   LUA-141   K   1.06   1.27   1.44   0.21   0.67   L   4.48   4.84   5.16   4.12   4.54   M   1.18   1.03   0.93   0.94   1.03   N   1.81   2.43   2.84   0.41   0.65   P   4.12   4.10   4.13   5.68   3.96   Q   1.60   1.77   1.95   0.21   0.68   R   5.05   5.90   6.41   3.35   4.11   S   12.61   11.83   11.37   11.18   12.77   T   4.59   5.11   5.47   4.36   4.95   V   6.21   5.55   5.12   8.13   7.67   W   2.79   2.91   3.07   1.57   1.98   Y   14.74   12.81   11.24   13.20   13.63

因此,对于免疫前、人、成熟、LUA-59和LUA-141集,通过上面给出的方程式计算的这些集的信息量可分别为-3.88、-3.93、-3.96、-3.56和-3.75。由于频率与完全一致(对于20种的每一种为5%)相差较大,因此数值往往较大,即较少负值。

通过计算就对于各对中每一对的频率值20×20即400个在上述方程式中的和,该同一方法可用来分析对组成或频率。分析表明,构成2个单元素(singleton)频率集的简单积的任何对频率等于各个单元素I值的和。如果2个单元素频率集均相同或近似,这就意味着I(独立对)=2*I(单个)。因此,对于对频率的一般集,可定义特殊情况的互信息MI为:MI(对)=I(对)-2*I(单个),以测量通过对频率本身的结构获得的信息量(与Martin等(2005)中的标准定义相比,例如,在考虑I(X)=-H(X)在其符号中)。当没有这类结构时,MI的值就为0。

由上文论述的对分布中计算的MI的值(相对于400个值的全集)见表51。

表51.CDRH3的中心环内的互信息

  文库或集   i-i+1   i-i+2   i-i+3   免疫前   0.226   0.192   0.163   Humabs   0.153   0.128   0.111   成熟   0.124   0.107   0.100   LUA-59   0.422   0.327   0.278   LUA-141   0.376   0.305   0.277   HuCAL   0.000   0.000   0.000   XYZ   0.000   0.000   0.000

值得注意的是,在人序列进行进一步的体细胞突变这种相对于许多独立序列基本上是随机的过程时,人序列集内的MI值降低。同样值得注意的是,在对被视为相距越来越远时,MI值降低,且对人序列集和本发明示例性文库也都是如此。在两种情况下,当一对中的2个氨基酸相隔较远时,跨越实际区段(V、D、J加上V-D或D-J插入)的机会增加,并且其对频率变得更接近单元集频率的简单积。

实施例15:从文库中选择抗体

在本实施例中,对从本发明的文库(见实施例9-11和其它实施例)中选择抗体进行了说明。这些选择证实,本发明的文库编码能够结合抗原的抗体蛋白。在一次选择中,采用本文所述方法,从文库中分离出对“X抗原”(一种蛋白质抗原)有特异性的抗体。图24表示特异性结合X抗原的6种克隆的结合曲线及其Kd值。使用在质粒载体上具有重链并且κ轻链文库整合到酵母基因组的酵母进行该项选择。

在一次独立的选择中,分离出对模式抗原鸡蛋白溶菌酶(HEL)有特异性的抗体。图25表示10种特异性结合HEL的克隆的结合曲线;每一种的Kd>500nM。使用质粒载体上具有重链并且质粒载体上具有κ轻链文库的酵母进行这项选择。确定从文库分离的克隆的重链和轻链序列,并证实了存在多种克隆。得自4种克隆的一部分FRM3(加下划线)和完整CDRH3如下所示(表53和表54,后者使用了本发明的编号体系)。

表53.得自4个HEL结合体(Binder)的CDRH3和一部分FRM3的序列

分离出的重链chassis是VH3-23.0(对于EK080902和CR080363)、VH3-23.6(对于CR080362)和VH3-23.4(对于CR080372)。这些变异体在实施例2表8中作了定义。4种重链CDRH3序列的每一种与得自示例性文库的设计序列相匹配。对一种克隆的CDRL3序列(ED080902)进行了测定并如下所示,其中周围FRM区用下划线表示:

CDRL3:YYCQESFHIPYTFGGG。

在这种情况下,CDRL3与表33第49行的简并VK1-39寡核苷酸序列的设计相匹配。该表的相关部分复制如下,占据分离CDRL3各位置的氨基酸用粗体字和下划线表示:

等同实施方案和方法

只需要采用常规实验方法,本领域技术人员就会认识或者能够确定本文所述具体实施方案和方法的许多等同实施方案和方法。随附权利要求书的范围包括了这样的等同实施方案和方法。

附录A

用来获得VK文库的κ轻链的GI编号

23868    2385488    16923194    58222611    70798854    98956311

32779    2385490    16923202    58222613    70798856    98956323

32810    2385492    16923208    58222615    70798858    98956325

33059    2385494    17226623    58222617    70798860    98956327

33144    2385495    17226631    58222619    70798862    98956337

33156    2385497    17226635    58222621    70798866    98956341

33170    2597932    17226639    58222623    70798868    98956343

33173    2597935    17226643    58222625    70798872    98956349

33183    2597937    17226645    58222627    70798874    98956355

33185    2597943    17226655    58222629    70798878    98956357

33189    2597946    17381491    58222631    70798880    98956365

33191    2597948    17385013    58222633    70798882    98956375

33195    2597950    17385015    58222635    70798884    98956379

33200    2597952    17385017    58222637    70798886    98956381

33202    2599531    17385019    58222639    70798888    98956383

33221    2599533    17385021    58222641    70798890    98956400

33227    2599535    17483729    58222643    70798892    98956404

33230    2599545    18025561    58222645    70798894    98956406

33233    2625059    18025563    58222647    70798896    98956414

33237    2632152    18025573    58222649    70798898    98956418

33268    2654047    18025575    58222651    70798900    98956422

33288    2654051    18025577    58222653    70798902    98956426

33290    2654055    18025579    58222655    70798904    98956428

33294    2773084    18025581    58222657    70798906    98956430

33296    2920359    18025583    58222659    70798914    98956432

33298    2995674    18025585    58222661    70798916    98956436

33300    2995676    18025587    58222663    70798918    98956440

33302    2995678    18025589    58222665    70798920    99022977

33304    2995680    18025591    58222667    70798922    99022979

33324    2995682    18025593    58222669    70798926    99022981

33330    2995688    18025595    58222671    70798928    99022983

33415    2995690    18025597    58222673    70798930    99022985

33416    3023134    18025599    58222675    70798934    99022987

33417    3023136    18025603    58222677    70798936    99022989

33418    3023138    18025605    58222679    70798940    99022991

33421    3023140    18025607    58222681    70798942    99022993

33422    3023142    18025611    58222683    70798946    99022995

33423    3023144    18025613    58222685    70798948    99022997

33424    3023146    18025617    58222687    70798950    99022999

33426    3023148    18025621    58222689    70798952    99023002

33647    3251385    18025623    58222691    70798954    99023004

33649    3251387    18025627    58222693    70798956    99023006

33655    3251389    18025629    58222695    71058688    99023008

33657    3251391    18025635    58222697    71058704    99023010

33659    3251744    18025639    58222699    71058712    99023012

33665    3251749    18025641    58222701    71058717    99023474

33669    3251983    18025645    58222703    71058719    99023476

33679    3251985    18025651    58222705    71058721    99023478

33683    3288824    18025653    58222707    71058723    99023480

33685    3378165    18025655    58222709    71058725    99023482

33756    3378177    18025657    58222711    71058727    99023484

34022     3378183    18025659    58222713    71058729    99025082

36657     3451194    18025661    58222715    71058731    99025083

37860     3603382    18025665    58222717    71482591    99025084

37909     3603384    18025667    58222719    71482622    99025903

38361     3603386    18025669    58222721    71482624    99025916

38362     3603388    18025677    58222723    71482634    99026398

38363     3603390    18025679    58222725    71482636    99026399

38367     3603392    18025681    58222727    71482638    99026416

38436     3603394    18025683    58222729    71482640    99026418

38438     3603396    18025685    58222731    71482642    109240611

38439     3641303    18025687    58222733    71482644    109240615

38440     3641307    18025689    58222735    71482646    109240619

38441     3644015    18025693    58222737    71482648    109240627

38442     3644021    18025697    58222739    71482650    109240631

38448     3746530    18025701    58222741    71482652    109240635

38485     3747011    18025705    58222743    71482654    109240637

38487     3747015    18025709    58222745    71792302    109240641

38489     3821085    18025715    58222747    71792306    109240643

38491     3821088    18025717    58222749    71792308    109240647

38493     3901025    18025719    58222751    73532341    109240655

38495     3928173    18092607    58222753    75707120    109240657

38497     3928181    18092609    58222755    75707124    109240661

38499     3928185    18092611    58222757    75707126    109240665

38501     3928189    18092613    58222759    75707128    109240669

38503     3928210    18092615    58222761    75707130    109240671

38505     3928211    18092617    58222763    75707132    109240675

178678    3928212    18092619    58222765    75707134    109240679

182338    3928214    18092621    58222767    75707138    109240687

182340    3928215    18092623    58222769    75707140    109240691

182342    3928219    18307263    58222771    75707148    109240695

182344    3928220    18307265    58222773    75707154    109240701

182346    3928222    18307267    58222775    75707156    109240705

182348    3928223    18307269    58222777    75707158    109240709

183962    3928224    18307271    58222779    75707160    109240713

183968    3928225    18307273    58222781    75707162    109240717

183972    3928227    18307275    58222783    75707168    109240721

185375    3928231    18307277    58222785    75707170    109240723

185377    3928232    18307279    58222787    75707172    109240729

185379    3928233    18307281    58222789    75707174    109240733

185381    3928234    18307283    58222791    75707176    109240737

185383    3928235    18307285    58222793    75707180    109240741

185385    3928236    18307289    58222795    75707188    109240745

185387    3928237    18307291    58222797    75707194    109240760

185389    3928238    18307293    58222799    75707196    109240764

185391    3928239    18626727    58222801    75707198    109240766

185393    3928240    18626728    58222803    75707204    109240770

185395    3928243    18626729    58222805    75707206    109241210

185397    3928244    18626730    58222807    75707208    109241212

185399    3928245    18632678    58222809    75707210    109241214

185401    3928248    18698406    58222811    75707220    109241216

185403    3928250    19170347    58222813    75707222    109241218

185415    3928251    19701578    58222815    75707226    109241220

185417    3928252    19744467    58222817    75707228    109241450

185419    3928253    19744471    58222819    75707230    109241549

185423    3928254    19744475    58222821    75707232    109241551

185427    3928257    19744479    58222823    75707234    109242373

185811    3928258    19744487    58222825    75707236    109242377

185813    3928259    19744491    58222828    75707238    109242379

185815    3928260    19744495    58222830    75707240    109242381

185816    3928261    19744499    58222832    75707242    109242383

185827    3928263    19744503    58222834    75707244    109242385

185829    3928264    19744507    58222836    75707246    109242387

185831    3928265    19744511    58222838    75707248    109242389

185833    3928266    19744515    58222840    75707250    109242395

185835    3928267    19744519    58222843    75707262    109242399

185837    3928276    19744523    58222845    75707264    109242401

185839    3928277    19744527    58222847    75707268    109242403

185841    3928278    19744531    58222849    75707270    109242409

185845    3928279    19744535    58222851    75707272    109242411

185847    3928280    19744539    58222853    75707274    109242417

185849    3928283    19744543    58222855    75707276    109242419

185855    3928287    19744547    58222857    75707278    109242421

185859    3928288    19744551    58222859    75707282    109242423

185862    3928289    19744555    58222861    75707284    109242425

185866    3928290    19744559    58222863    75707292    109242427

185868    3928291    19744563    58222865    75707298    109245190

185870    3928293    19744567    58222867    75707300    109245192

185872    3928294    19744571    58222869    75707302    109245194

185874    3928295    19744575    58222871    75707304    109693080

185880    3928296    19744579    58222873    75707306    109693082

185882    3928297    19744583    58222875    75707316    109693084

185884    3928298    19744587    58222877    75707318    109693094

185886    3928299    20372497    58222879    75707322    109693096

185888    3928301    20372499    58222881    75707324    109693100

185890    3928302    20372501    58222883    75707334    109693102

185892    3928303    20372503    58222885    75707338    109693110

185894    3928304    20372505    58222887    75707340    109693112

185896    3928308    20372507    58222889    75707362    109693114

185898    3928309    20372509    58222891    75707368    109693116

185904    3928310    20372511    58222893    75707370    109693118

185906    3928312    20372513    58222895    75707372    109693120

185908    3928315    20372515    58222897    75707374    109693135

185910    3928316    20372517    58222899    75707378    109693137

185912    3928317    20372519    58222901    75707382    109693139

185920    3928318    20372521    58222903    75707384    109693144

185922    3928319    20372523    58222905    75707386    109693146

185928    3928320    20372525    58222907    75707398    109693148

185934    3928321    20372527    58222909    75707406    109693150

185950    3928323    20372529    58222911    75707408    109693152

185980    3928324    20387057    58222913    75707410    109693154

185984    3928325    20387059    58222915    75707412    109693157

185987    3928326    20387061    58222917    75707416    109693159

185988    3928327    21311286    58222919    75707418    109693165

186008    3928329    21311288    58222923    75707420    109693167

186015    3928330    21311294    58222925    75707422    109693169

186017    3928331    21311296    58222927    75707424    109693171

186019    3928332    21311318    58222929    75707426    109693177

186040    3928333    21311322    58222931    75707428    109693179

186041    3928334    21669062    58222933    75707430    109693181

186042    3928335    21669064    58222935    75707432    109693183

186047    3928336    21669066    58222937    75707434    109693187

186199    3928337    21669068    58222939    75707444    109693189

186266    3928338    21669070    58222941    75707446    109693201

254719    3928339    21669072    58222943    75707448    109693203

257550    3928340    21669074    58222945    75707454    109693206

261239    3928341    21669076    58222947    75707460    109693210

265236    3928342    21669078    58222949    75707462    109693216

265240    3928343    21669080    58222951    75707464    109693218

298552    3928344    21669082    58222953    75707472    109693220

298560    3928345    21669084    58222955    75707476    109693222

298827    3928346    21669086    58222957    75707500    109693228

298829    3928347    21669088    58222959    75707502    109693230

299955    3928348    21669090    58222961    75707504    109693232

306919    3928349    21669092    58222963    75707506    109693235

306957    3928350    21669094    58222965    75707508    109693237

306959    3928351    21669096    58222967    75707510    109693239

306961    3928352    21669098    58222969    75707514    109693241

306963    3928353    21669100    58222971    75707516    109693249

306965    3928354    21669102    58222973    75707518    109693253

306967    3928355    21669104    58222975    75707520    109693255

306971    3928356    21669106    58222977    75707522    109693261

306980    3928357    21669108    58222979    75707524    109693264

306982    3928358    21669110    58222981    75707526    109942421

306984    3928359    21669112    58222983    75707528    109942431

306986    3928360    21669114    58222985    75707530    110290934

306988    3928361    21669116    58222987    75707534    110610132

306990    3928362    21669118    58222989    75707536    110624509

306992    3928363    21669120    58222991    75707540    110657101

306994    3928364    21669122    58222993    75707542    110657103

306996    3928365    21669124    58222995    75707544    110657105

306998    3928366    21669126    58222997    75707546    110657107

307000    3928367    21669128    58222999    75707548    110657109

348203    3928368    21669130    58223001    75707550    110657111

348205    3928369    21669132    58223003    75707552    110657113

348207    3928370    21669134    58223005    75707586    110657115

348211    3928371    21669136    58223007    75707598    110657123

386052    3928372    21669138    58223009    75707600    110657124

396631    3928373    21669140    58223011    75707602    110657125

397787    3928374    21669142    58223013    75707604    110657158

397789    3928375    21669144    58223015    75707618    110657159

397791    3928376    21669146    58223017    76058957    110657160

397793    3928377    21669148    58223019    76252624    110657161

397795    3928378    21727250    58223021    76252626    110657162

398490    3928379    21998806    58223023    76252630    110657163

398491    3928380    21998808    58223025    76252632    110657164

398492    3928381    21998810    58223027    76252634    110657165

404110    3928382    21998812    58223029    76252636    110657166

404112    3928383    21998814    58223031    76252638    110657167

404114    3928384    21998816    58223033    76252640    110657168

408365    3928385    21998818    58223035    76252642    110657169

409042    3928386    21998820    58223037    76252644    110657170

414035    3928387    21998822    58223039    76252646    110657171

415651    3928388    21998824    58223041    76781673    110657172

415710    3928389    21998826    58223043    77378090    110657173

415955    3928390    21998830    58223045    77378092    110657174

415957    3928391    21998832    58223047    77378094    110657175

415959    3928392    22086572    58223049    77378096    110657176

415961    3928393    22086575    58223051    77378098    110657177

415963    3928394    22086581    58223053    77378100    110657178

415965    3928395    22086587    58223055    77378102    110657179

415967    3928396    22086593    58223057    77378105    110657180

415969    3928397    22091617    58223059    77378107    110657181

415971    3928398    22214019    58223061    77378109    110657182

416329    3928399    22214023    58223063    77378111    110657183

416331    3928400    22297542    58223065    77378135    110657184

416333    3928401    22556681    58223067    77378137    110657185

416335    3928402    22556683    58223069    77378139    110657186

416337    3928403    22556684    58223071    77378141    110657187

430845    3928404    22607990    58223073    77378143    110657188

431039    3928405    22620896    58223075    77378145    110657189

431040    3928406    22620899    58223077    77378147    110657230

431041    3928407    22640510    58223079    77378149    110657232

431042    3928408    22640512    58223081    77378151    110657234

431043    3928409    22640513    58223083    77378153    110657236

431044    3928410    22642789    58223085    77378155    110657238

431045    3928411    22642790    58223087    77378157    110657240

431046    3928412    22642791    58223089    77378159    110657242

431047    3928413    22642808    58223091    77378161    110657244

431048    3928414    22642809    58223093    77378163    110657246

431049    3928415    22642810    58223095    77378165    110657248

431051    3928416    22642811    58223097    77378167    110657250

431052    3928417    22643188    58223099    77378169    110657252

431053    3928418    22643190    58223101    77378172    110657254

431067    3928419    22643192    58223103    77378174    110657256

431069    3928420    22643196    58223105    77378176    110657258

431071    3928421    22647625    58223107    77378224    110657615

431073    3928422    22647633    58223109    77378225    110657617

431075    3928423    23194480    58223111    77378228    110657619

431077    3928424    23194500    58223113    77378230    110657621

431079    3928425    23225992    58223115    77378234    110657624

431081    3928426    23225994    58223117    77378236    110657676

431083    3928427    23225996    58223119    77378237    110657678

431085    3928428    23234613    58223121    77378239    110657728

431087    3928430    23320663    58223123    77378241    110657730

431089    3928431    23342423    58223125    77378245    110658341

433889    3928432    23343554    58223127    77378247    110660158

436562    3928433    24412754    58223129    77378249    110660166

440153    3928434    24412756    58223131    77378251    110660174

441312    3928435    24412758    58223133    77378253    112184495

441314    3928436    24474081    58223135    77378255    112184497

441316    3928437    24850297    58223137    77379405    112184499

441318    3928438    26985941    58223139    77379407    112184501

441320    3928439    27368974    58223141    77379409    112184503

441322    3928440    27368976    58223149    77379412    112184505

441324    3928441    27368978    58223151    77379414    112184507

441330    3928442    27368981    58223153    77379416    112184509

441332    3928443    27368983    58223155    77379418    112184511

441334    3928444    27368986    58223157    77379420    112184513

441336    4100379    27368991    58223159    77379422    112189154

441338    4100381    27368993    58223161    77379425    112191695

441342    4100383    27368997    58223163    77379427    112191699

441344    4103644    27368999    58223165    77379429    112703827

441346    4103662    27369001    58223167    77379431    112708249

441348    4103664    27369003    58223169    77379433    112708250

441350    4103666    27369007    58223171    77379435    112711584

441352    4103674    27369009    58223173    77379437    112712351

441354    4128063    27369011    58223175    77379439    112712352

441356    4139195    27818830    58223177    77379441    112712353

441358    4139197    27867541    58223179    77379443    112712354

441360    4139199    27873542    58223181    77379445    112712355

441364    4139201    27875080    58223183    77379447    112712356

441366    4323178    27875088    58223185    77379449    112712357

441368    4323182    27875191    58223187    77379457    112712358

441370    4323186    27875199    58223189    77379459    112712359

441372    4323194    28611056    58223191    77379461    112712360

441374    4323809    28848873    58223193    77379463    112712361

441376    4323811    28883544    58223195    77379477    112712362

441378    4323813    28883548    58223197    77379479    112712363

441380    4323821    28883550    58223199    77379481    112712364

441382    4323823    29650328    58223201    77379483    112712365

441384    4323825    29650334    58223203    77379485    112712366

441386    4323829    29650337    58223205    77379487    112712367

441388    4323831    29650339    58223207    77379489    112712368

441390    4323833    29725711    58223209    77379491    112712369

441392    4323839    29725713    58223211    77379493    112712370

441394    4323841    29725715    58223213    77379495    112712371

441396    4323845    29725717    58223215    77379497    112712372

441398    4323847    29725719    58223217    77379499    112712373

441400    4323849    29725721    58223219    77379501    112712374

441402    4323851    29725723    58223221    77379503    112712375

441408    4323853    29725725    58223223    77379505    112712376

441412    4323855    29725727    58223225    77379507    112712377

441414    4323857    29725729    58223227    77379509    112712378

441416    4323859    29725731    58223229    77379511    112712379

441418    4323861    29725733    58223231    77379513    112712380

441422    4323863    30026987    58223233    77379515    112712381

441424    4323865    30258344    58223235    77379517    112712382

441426    4323869    30258346    58223237    77379519    112712383

441428    4323871    30793253    58223239    77379521    112727205

441430    4323873    30793255    58223241    77379523    112727206

441432    4323875    30793257    58223243    77379525    112727207

441434    4323877    30793259    58223245    77379527    112727208

441436    4323881    30793261    58223247    77379529    112727209

441440    4323883    30793263    58223249    77379545    112727210

441444    4323885    30793265    58223251    77994607    112727211

441446    4323887    30793565    58223253    77994611    112727212

441448    4323889    30793567    58223255    77994615    112727213

452060    4323891    30793569    58223257    77994619    112727214

452061    4323893    30793571    58223259    78629976    112727215

452062    4323895    30793573    58223261    78629977    112727216

452063    4323897    30841928    58223263    78629978    112727217

459655    4323899    30841931    58223265    80750467    112727218

460858    4323901    30841933    58223267    80975580    114155738

472970    4323903    30841935    58223269    80975600    114155883

472971    4323905    30841939    58223271    80975604    114155884

472972    4323907    30841943    58223273    80975616    114156208

472973    4323909    30841945    58223275    80975618    114207907

472974    4323911    30841947    58223277    80975638    114385493

472975    4323913    31879463    58223279    80975642    114385505

472976    4323915    31879464    58223281    80975644    114385507

487826    4323923    31879467    58223283    81020146    114385509

487827    4323927    31879468    58223285    81020229    114385511

493148    4323929    31879471    58223287    81020258    114385513

493149    4323931    31879472    58223289    81239122    114385515

493150    4323933    33021483    58223291    81251581    114385517

496044    4323935    33044572    58223293    81251585    114385521

496046    4323937    33044573    58223295    82794837    114385537

496048    4323939    33044574    58223297    83410334    114385539

496050    4323941    33044582    58223299    83697271    114385541

496053    4323945    33044586    58223301    83959521    114385543

496055    4323947    33051527    58223303    83959523    114385545

496059    4323949    33051528    58223305    83959525    114385547

496061    4323951    33070272    58223307    83959937    114385549

496063    4323953    33070283    58223309    83959939    114385551

496065    4323955    33070284    58223311    83964685    114385553

496071    4323957    33083474    58223313    83964762    114385567

496073    4323959    33083476    58223315    83964764    114385569

506420    4323961    33083477    58223317    83964766    114385571

506424    4323963    33083478    58223319    83964768    114385573

510839    4323965    33083479    58223321    83966574    114385575

510841    4323983    33083480    58223323    83966576    114385579

510843    4323989    33083481    58223325    83966578    114385581

510845    4323993    33083482    58223327    83966655    114385583

514428    4323997    33083483    58760238    83966657    114385585

514429    4323999    33085842    59890568    83966659    114385587

514430    4324005    33235609    59890571    83966661    114385589

514431    4324007    33235611    59894819    83966663    114385591

514432    4324009    33235613    60392126    83966665    114385593

514433    4324011    33235615    60616327    83966667    114385595

514434    4324013    33235617    60616352    83970756    114385597

515780    4324019    33235619    60650119    83970763    114385599

516137    4378181    33235621    60650123    83970769    114385601

516187    4378183    33235623    60734312    83970772    114385603

516198    4378185    33235625    61697118    84659318    114385605

516213    4378187    33235627    61853816    84659320    114385607

516249    4378189    33235629    61970154    84660715    114385609

516265    4378191    33235631    61970158    84660717    114385611

516316    4378193    33235633    61970160    84660719    114385613

545722    4378195    33304656    61970164    84660720    114385615

557650    4378197    33304658    61970168    84660721    114385617

557651    4378199    33304661    61970172    84660722    114385619

560677    4378201    33304663    61970176    84660723    114385621

560678    4378203    33355480    61970180    84660725    114385623

560841    4378207    33868634    61970184    84797793    114385625

560843    4378209    33868636    61970192    84797795    114385627

575228    4378211    33868638    61970194    84797797    114385629

575236    4378213    33868640    61970198    84797799    114385631

575240    4378215    33868642    61970202    84797801    114385633

575257    4378217    33868644    61970206    84797803    114385635

575261    4378221    33868646    61970228    84797805    114385645

587143    4378223    37287525    62001845    84797807    114385647

587245    4378225    37605051    62120916    84797823    114385649

587323    4378227    37694620    62120917    84797825    114385651

587325    4378229    37694622    62120918    84797827    114385653

587327    4378233    37694624    62120919    84797857    114385655

587329    4378237    37694626    62120920    84797861    114385659

587331    4378239    37694628    62120921    84797883    114385661

587333    4378243    37694630    62120922    84797915    114385663

587335    4378245    37694632    62120923    84797929    114385665

587337    4378247    37694634    62120924    84797959    114385669

587341    4378249    37694636    62120925    84797961    114385671

587343    4378251    37694638    62120926    84797963    114385673

587345    4378253    37694640    62120927    84797979    114385675

587347    4378255    37694642    62120929    84797981    114385677

587349    4378259    37694644    62120931    84797985    114385679

587351    4378261    37694646    62120932    84798001    114385681

587353    4378265    37694648    62120933    84798003    114385683

598165    4378267    37694650    62120934    84798005    114385685

598167    4378269    37694654    62120935    84798007    114385687

598170    4378271    37694660    62120938    84798009    114385689

598172    4378273    37694662    62120939    84798011    114385691

601979    4378275    37694664    62120940    84798033    114385693

601982    4378279    37694666    62120941    84798035    114385699

601984    4378281    37694668    62120943    84798055    114385701

609002    4378283    37694670    62120944    84798057    114385703

609004    4378287    37694672    62120945    84798059    114385705

619259    4378291    37694674    62120946    84798061    114385707

623043    4378293    37694676    62120947    84798063    114385709

624874    4378295    37694678    62120948    84798103    114385711

632983    4378297    37694680    62120949    84798107    114385713

632985    4378299    37694682    62120950    84798115    114385715

632987    4378301    37694684    62120951    84798117    114385717

633227    4378303    37694686    62120952    84798147    114385719

642581    4378305    37694688    62120953    84798149    114385721

681896    4378307    37694690    62120954    84798167    114385723

681899    4378309    37694692    62120955    84798169    114385725

685029    4378313    37694694    62120956    84798171    114385727

693862    4378315    37694696    62120957    84798173    114385729

722413    4378317    37694698    62120958    84798175    114385731

722417    4378319    37694700    62120959    84798177    114385744

722419    4378323    37694702    62120960    84798179    114385746

722421    4378325    37694704    62120961    84798181    114385748

722423    4378327    37694706    62120962    84798183    114385750

722425    4378331    37694708    62199500    84798197    114385752

722427    4378333    37694710    62421462    84798199    114385756

722429    4378335    37702652    62421466    84798201    114385774

722431    4378337    37732215    62720427    84798203    114385776

722433    4378339    37780362    62720431    84798213    114385778

722435    4378341    39103877    62720436    84798215    114385780

722437    4378343    39103879    62720442    84798217    114385782

722439    4378345    39103881    62720444    84798219    114385804

722441    4378347    39103883    62720446    84798241    114385806

722443    4378349    39103885    62720452    84798249    114385808

722455    4378351    39103887    62720454    84798255    114385921

722461    4378353    40231616    62720473    84798257    115268711

722463    4378359    40288410    62720475    84798267    115268713

722465    4378361    40288412    62720477    84798269    115268880

722467    4378363    40288414    62720483    84798271    115268892

722469    4378365    40288416    62860940    84798273    115268894

722471    4378367    40288418    62860955    84798275    115268896

722473    4378369    40388582    62860957    84798277    115268898

722475    4378371    40388585    62860959    84798279    115268900

722477    4378373    40388592    62860961    84798295    115268902

722479    4378375    40388599    62860963    84798309    115268904

722483    4378377    40647131    62860965    84798321    115268906

722485    4378379    40784425    62860981    84798323    115270875

722487    4378383    40784429    62860983    84798325    115270877

722489    4378385    40795876    62860987    84798327    116543556

722493    4378387    42541061    62860989    84798343    116543560

722495    4378389    42541069    62860991    84798345    116543564

722497    4378391    42794782    62860994    84798347    116546686

722503    4378393    42794786    62860996    84798349    116546688

722505    4378395    44829186    62861000    84798351    116551153

722511    4378397    45111420    62861002    84798364    116551156

722513    4378399    45386482    62861004    84798366    116551162

722515    4378401    46016047    62861012    84798370    116551171

722521    4558868    46093898    62861015    84798372    116551175

722523    4680172    46093902    62861017    84798374    116551179

722525    4759539    46093906    62861019    84798377    116551183

722529    4759543    46093910    62861022    84798381    116551188

722531    4759547    46575858    62861024    84798383    116551192

722535    4759551    47078185    62861029    84798386    116551201

722537    4759555    47154907    62861031    84798388    116551207

722539    4759563    47154909    62861037    84798390    116551216

722541    4759567    47154911    62861041    84798397    116551226

722543    4759575    47154913    62861045    84798407    116551231

722545    4759579    47154915    62861054    85632219    116551235

722549    4759583    47154917    62868475    85642735    116551239

722553    4759587    47154919    62868477    85644222    116551244

722555    4759591    47154921    62868479    85644224    116551249

722557    4759595    47271269    62999493    85644226    116551258

722559    4759599    47271271    63102866    85644228    116551313

722561    4761194    47271273    63102872    85644230    116551317

722569    4761281    47271275    63102874    85644232    116551321

722571    4761283    47271277    63102876    85644600    116551325

722573    4837686    47271279    63102880    85644602    116551329

722581    4837688    47271281    63102882    85644604    116551333

722585    4837690    47271283    63102888    85650161    116551337

722587    4837692    47271285    63102892    85650163    116551341

722591    4837694    47271287    63102898    85650165    116551347

722593    4837696    47271289    63102900    85650167    116551351

722599    4837698    47271291    63102902    85650169    116551369

722601    5006350    47271295    63102904    85650171    116551373

722603    5006354    47271297    63102906    85650173    116551377

722605    5006356    47271299    63102908    85650175    116551381

722607    5006358    47271307    63102910    85650177    116551404

722609    5006360    47271309    63102912    85650179    116551413

722615    5019510    47271311    63102916    85650276    116551418

732737    5019512    47271313    63102920    85650278    116551422

732739    5019514    47271315    63102922    85650280    116551427

732741    5019522    47271317    63102924    85657010    116551431

732743    5019524    49073024    63102928    85658337    116551436

732745    5019526    49073036    63102938    85658632    116551446

732747    5019538    50199324    63102940    85660488    116551452

758588    5081714    50199334    63102942    85660492    116551772

758598    5081716    50831237    63102954    85660494    116551776

758600    5081718    50844518    63102962    85660497    116551780

762823    5081720    50844522    63102964    85660498    116551785

773589    5081722    50844526    63102966    85660502    116551790

790442    5102680    50844536    63102968    86439043    116553242

790450    5419682    50844540    63102970    86439047    116555276

790794    5419684    50844548    63102972    86439051    116555819

790802    5419700    50844552    63102974    86439053    116555821

790810    5419702    50871685    63102976    86439057    116555823

791015    5419704    50871687    63102980    86439061    116559889

791019    5419706    50898144    63102986    86439063    116560960

791023    5419708    50898148    63102988    86439071    116634471

791027    5419710    50898150    63102992    86439075    116634475

791031    5419712    50898152    63102994    86439081    116795086

791035    5419731    50898154    63102996    86439147    117576090

809552    5419738    50898158    63102998    86439151    118143176

809553    5419740    50898160    63103012    86439153    118143178

809554    5524134    50898162    63103014    87298995    118147088

845515    5524140    50898164    63103030    87298999    118147090

845517    5524142    50898170    63103032    87299001    118147092

845519    5524144    51103388    63103034    87299003    118147094

845521    5524146    51103390    63103040    87299007    118147096

845523    5524148    51103392    63103044    87299009    118147098

845525    5524150    51103394    63103046    87299011    118147100

845527    5566507    51103396    63103048    87299015    118147102

845529    5578779    51103398    63103054    88496317    118147104

845531    5578781    51103400    63103056    88496922    118147106

845533    5578783    51103402    63103070    90092372    118147108

845535    5578785    51103404    63103072    90092373    118147110

854111    5578787    51103406    63103076    90092374    118147112

871275    5578789    51103408    63103078    90092387    118147114

871819    5578791    51103410    63103086    90092910    118147116

871823    5578793    51103412    63103096    90092911    118147118

882261    5578795    51103414    63103098    90092912    118147120

882263    5578797    51103416    63103106    90092913    118147122

882265    5578799    51103418    63103108    90823178    118147125

882267    5578801    51103420    63103110    90823182    118147127

882269    5578803    51103422    63103112    90823186    118425771

882271    5578805    51103424    63103114    90823190    118425773

882273    5578807    51103522    63103116    90823196    118425775

882275    5578809    51103526    63103118    90823198    118490144

882277    5578811    51103528    63103120    90994745    118490148

882279    5578815    51103532    63103140    90994747    118490152

882281    5690395    51103534    63103142    90994751    118490156

882283    5690399    51103536    63103144    92115496    119359417

882285    5690403    51103538    63103146    92115497    119836694

882287    5709454    51103540    63103148    92130102    119836767

882289    5731228    51103542    63103150    92130103    119838997

882291    5731232    51103544    63103154    92131782    119839065

882293    5731236    51103546    63103156    92131783    119839355

882295    5731242    51103548    66096574    92131784    119839523

882297    5731252    51103550    66096603    92131785    119841342

882299    5921608    51103552    66096637    92133663    119841388

882301    5921610    51103554    66711101    92133665    119841425

882303    5921614    51103556    66711102    92137567    119841512

882305    5921618    51103558    66711103    92140334    121309186

882307    5921620    51103560    66711104    92140336    124042790

882309    5921622    51103562    66711105    92141530    124042792

882311    5921624    51103564    66711106    92155949    124042815

882313    5921626    51103566    66711107    92157443    126146964

882315    5921640    51103568    66711108    92157445    126146965

882317    6110569    51103570    66711109    92157453    126146966

882319    6179861    51851021    66711110    92157459    126147776

882321    6179863    51949938    66711111    92157461    126147812

882323    6179865    53988135    66711112    92158828    126147817

882325    6179867    53988137    66711114    92158980    126147952

882327    6179869    54034484    66711116    92161545    126147954

882329    6492198    54145422    66711117    92249233    126147956

882331    6492200    54145426    66711118    92298212    126152193

894090    6492202    54145440    66711119    92298539    126152196

904629    6492204    54781098    66711120    92315622    126633956

913352    6648587    54781100    66711123    92315624    126633957

929640    6649889    54781102    66711124    92315626    126633958

929642    6649895    54781104    66711125    92315628    134125852

944925    6708204    54781106    66711126    92332837    134125853

950049    7012704    54781108    66711128    92332841    134125854

973411    7012706    54781110    66711129    92348102    134128019

973415    7024356    54781112    66711130    92348670    134269772

999107    7160978    54781126    66711131    92349881    134273023

1020008   7673384    54781129    66711132    92360819    145850477

1020012   7673388    54781202    66711133    92370888    145850518

1020016   7673392    54781204    66711134    92381676    145850519

1070309   7745134    54781206    66711135    92496960    145850520

1070313   8250280    54781208    66711136    92520581    145850521

1070315   8777870    54781213    66711137    92520583    145850522

1070317    8777874    54781216    66711138    92520584    145850523

1070321    8777878    54781218    66711139    92520586    145850524

1070325    8777880    54781220    66711140    92575636    145850525

1070327    8777884    54781223    66711141    92589636    145850526

1070347    8777888    54781225    66711142    92589637    145850527

1136554    8777890    54781227    66711143    92589638    145850528

1136556    8777892    54781229    66711144    92589639    145850529

1208913    9295278    54781231    66711145    92589640    145850530

1235764    9295280    55274149    66711146    92589641    145850531

1235766    9295282    55274153    66711147    92589642    145850532

1235768    9295284    55274159    67509857    92589643    145850533

1235770    9295286    55274163    67509861    92589644    145850534

1235772    9295290    55824376    68148126    92589645    145850535

1235774    9295292    56118076    68148140    92589646    145850536

1245380    9295296    56118080    68148142    92589647    145850537

1245382    9295298    56292538    68148144    92589648    145850558

1255605    9295300    56294837    68148150    92589649    145850561

1255607    9437312    56294841    68148152    92589650    145850563

1255608    9927567    56399565    68148154    92589651    145854440

1255609    9928208    56609227    68148158    92589652    145856824

1255612    9968441    56609228    68148160    92589653    145859735

1292860    9968443    56609229    68148164    92589656    148355517

1292862    9968486    56609230    68148166    92600475    148355518

1353813    9968488    56609232    68148174    92600479    148355519

1353815    9968490    56609235    70797818    92600487    148355520

1353817    9968492    56742105    70797820    92607622    148355521

1353819    9968494    56742106    70797822    92667306    148355522

1353821    9968496    58003567    70797824    92667307    148355523

1353825    9968498    58003568    70797826    92667308    148355524

1353827    9968500    58003569    70797828    92667309    148355525

1353831    9997457    58003570    70797830    92667310    148355526

1370131    10636524   58003571    70797832    92667329    148355527

1370135    11229436   58003572    70797834    92667331    148355528

1370137    11343336   58003573    70797836    92798195    148355529

1495627    11343337   58003587    70797838    92798196    148355530

1495628    11876718   58003588    70797842    92798197    148355531

1495629    11876734   58003589    70797844    92798198    148355532

1495630    11876735   58003608    70797846    92798199    148355533

1495631    11876736   58003609    70797850    92798218    148540957

1495632    11876737   58003610    70797852    92798220    148578450

1495633    11876738   58003611    70797854    92824835    148578452

1495634    11876739   58003612    70797856    92834676    148578454

1495635    11876740   58003613    70797858    92835832    148578455

1495637    11876741   58003614    70797860    92835834    148578456

1495638    11878173   58003615    70797866    92835836    148578457

1495639    11878175   58003616    70797870    92839400    148578458

1495640    11878177   58003618    70797872    92839402    148578460

1495641    11992075   58003619    70797874    92839403    149849068

1495642    11992193   58003620    70797876    92839404    149849080

1495643    12003249   58003622    70797878    92839405    149849084

1495644    12003251   58003623    70797884    92839406    149849088

1495645    12003253   58003624    70797886    92839407    150447881

1495646    12003255   58003625    70797888    92839408    150447883

1495647    12003257    58003626    70797890    92839409    150447885

1495648    12655491    58003627    70797894    92845038    150447887

1495649    12655493    58003628    70797898    92845490    150450134

1495650    12655500    58003629    70798601    92845651    150450135

1495651    12655502    58003630    70798603    92855396    150450136

1495652    12655504    58003631    70798605    92855400    150450137

1532001    12655519    58003632    70798607    92855404    150450138

1532002    12655521    58003633    70798609    92855408    150450139

1532027    12655525    58003634    70798611    92855412    150450140

1552277    12655527    58003656    70798613    92855416    150450636

1552283    12655529    58003657    70798615    92855420    150453145

1552285    12655531    58003658    70798617    92855424    150453147

1552287    12655541    58003659    70798619    92855428    150453149

1552291    12655558    58003660    70798621    92855432    150453151

1552295    12655565    58003661    70798623    92855436    150453153

1552299    12655567    58032596    70798627    92855441    150453154

1552319    12655569    58032603    70798629    92855444    150453155

1561601    12655643    58032606    70798631    92856854    150453156

1561605    12655655    58194104    70798633    92856855    150453157

1561607    12655662    58194120    70798635    92856859    150453159

1561609    12655665    58194136    70798637    92857001    150453161

1561611    12655672    58202701    70798639    92857003    150453163

1572702    12655713    58202709    70798641    92857012    150453165

1572704    12655723    58202711    70798643    92857016    150453167

1572706    12655730    58202713    70798645    92857018    150453169

1572708    12655732    58202715    70798649    92858156    150453171

1572710    12655736    58202717    70798653    92861312    150453174

1657324    12655738    58202719    70798655    92861313    150453213

1657326    12655740    58202721    70798657    92861314    150453216

1657328    12655748    58202723    70798659    92862784    153590356

1673592    12655751    58202725    70798661    92875826    153590359

1673602    12710669    58202727    70798667    92878541    153590361

1710418    12710671    58202729    70798669    92878543    153590363

1770403    12734084    58202733    70798671    92878545    153590365

1770415    12734089    58202735    70798673    92903931    153590367

1773056    12750933    58202737    70798675    92905358    153590371

1778125    12836990    58222454    70798677    92905360    156149223

1785869    12957385    58222456    70798679    92905362    156149224

1785873    12957387    58222458    70798681    94034254    156149225

1785877    13170940    58222460    70798683    94034257    156229617

1800286    13170944    58222462    70798685    94034261    156557387

1813653    13170948    58222464    70798687    94034264    156557389

1813655    13171333    58222466    70798690    94034267    156557391

1813657    13171339    58222468    70798692    94034271    156557393

1834498    13171341    58222470    70798694    94034285    156557399

1834563    13171343    58222473    70798696    94034316    156557403

1834564    13447996    58222476    70798698    94034339    156557405

1835872    13448000    58222478    70798700    94034342    156557407

1835873    13448002    58222480    70798702    94034384    156557411

1839291    13448004    58222482    70798706    94034387    156562058

1864110    13448006    58222484    70798708    94034390    157087534

1864112    13448010    58222487    70798710    94034393    157896695

1864114    13448012    58222489    70798712    94035272    157896697

1864116    13448016    58222491    70798716    94035284    157903220

1864118    13448018    58222493    70798718    94035289    158055245

1864136    13448022    58222497    70798720    94035298    158055254

1864138    13549147    58222499    70798722    94035300    158055268

1890131    13785652    58222501    70798724    94035312    158055282

1890133    13939245    58222503    70798732    94469910    158055285

1905798    13939277    58222505    70798734    94469912    158055288

1905937    13939331    58222507    70798736    94469914    158058441

1905941    13991697    58222509    70798738    94469922    158731523

1911732    14150696    58222511    70798742    94469924    158731524

1922370    14150698    58222513    70798744    94469926    158731525

1922438    14290262    58222515    70798750    95007504    158731526

1922466    14573212    58222517    70798752    95007510    158731527

1922501    14573214    58222519    70798758    95007512    158731528

1922528    14573216    58222521    70798760    95007514    158731529

1922535    14573218    58222523    70798764    95007516    158731530

1922602    14573220    58222525    70798766    95007518    158731531

1922618    14573222    58222527    70798768    95007520    158731532

1922645    14573226    58222529    70798770    95007522    158731533

1922679    14573254    58222531    70798772    95007524    158731534

1922796    14573256    58222533    70798774    95007526    158731536

1922805    14573258    58222535    70798776    95007528    158731538

1932772    14573260    58222537    70798778    95007530    158731539

1943727    14573262    58222539    70798780    95007532    158731540

2058533    14573264    58222541    70798782    95007534    158731541

2058535    14573266    58222543    70798784    95007536    158731542

2058678    14573268    58222545    70798786    95007538    158731545

2072271    14573270    58222547    70798788    95007540    158731546

2072273    14573272    58222549    70798792    95007542    158731547

2072279    14573274    58222551    70798794    95007544    158731548

2072981    14573276    58222553    70798796    95101759    158731550

2078359    14573278    58222556    70798798    95101761    158731551

2078371    14588864    58222558    70798800    95101767    158731552

2078373    14588866    58222560    70798802    95101769    158731553

2169989    14588868    58222562    70798804    95101777    158731554

2169990    14588870    58222564    70798806    98956195    158731555

2172285    14588872    58222566    70798808    98956209    158731556

2173403    14597098    58222568    70798810    98956219    158731557

2175768    14597112    58222570    70798812    98956223    158731558

2175852    14597124    58222572    70798814    98956232    158731559

2175867    14597127    58222575    70798816    98956244    158731560

2218123    14625743    58222577    70798818    98956249    158731561

2239113    14625918    58222579    70798820    98956255    158731562

2239115    14626493    58222581    70798824    98956261    158731563

2253439    14716957    58222583    70798826    98956263    158731564

2266632    14716961    58222585    70798828    98956271    158731565

2266634    14716969    58222587    70798830    98956277    158731566

2291087    14716971    58222589    70798832    98956279    158731567

2293965    14716973    58222591    70798834    98956281    158731568

2293967    15011457    58222593    70798836    98956285    158731569

2306827    15099974    58222595    70798838    98956289    158744132

2306829    15277619    58222597    70798840    98956291    158744140

2345025    15419020    58222599    70798842    98956293    158744148

2345029    15859220    58222601    70798844    98956299    158744156

2345031    15986229    58222603    70798846    98956301    158744164

2345033    16508167    58222605    70798848    98956303    158746355

2385484    16554974    58222607    70798850    98956305    158746363

2385486    16923186    58222609    70798852    98956307    158746371

附录B

用来获得Vλ文库的λ轻链的GI编号

31454     3142529    4566076    9968397     51103608    77379760

32808     3142531    4566078    9968401     51103612    77379824

32812     3142533    4566082    9968403     51103614    77379826

33335     3142535    4566084    9968405     51103616    77379828

33368     3142537    4566086    9968409     51490956    77379830

33383     3142539    4566088    9968411     54781261    77379832

33387     3142541    4566090    9968413     61815560    77379834

33412     3142543    4566092    9968415     62720404    77379836

33429     3142545    4566094    9968417     62720406    77379838

33431     3142547    4566096    9968419     62720408    77379840

33433     3142549    4566098    9968421     62720412    77379842

33703     3142553    4566101    9968423     62860947    77379846

33711     3142556    4566105    9968425     62860950    77379848

37918     3142558    4732059    9968427     62860967    77379850

37920     3142562    4761253    9968429     62860969    77379855

37922     3142564    4761255    9968433     62860971    77379857

37923     3142566    4761257    9968435     62860973    77379859

38359     3142569    4761259    9968437     62860975    77379861

38360     3142573    4761261    9968439     62860977    77379863

38364     3142577    4761263    10636511    62860979    77379865

38365     3142579    4761265    10636514    62860985    77379867

38366     3142581    4761267    10636518    62861006    77379869

38368     3142583    4761269    10636521    62861008    77379871

186078    3142585    4761271    10636527    62861010    77379875

186080    3142587    4761273    11992185    62861047    77379877

186082    3142589    4761277    11992187    62999489    77379879

186084    3142591    4761279    11992189    62999497    77379882

186086    3142593    4927957    11992191    62999501    77379884

186088    3142595    5019504    11992195    62999509    77379886

186090    3142597    5019506    11992197    70888031    77379888

186092    3142599    5019516    11992199    70888035    77379890

186094    3142601    5019518    11992201    70888037    77379894

186096    3142603    5019520    12666922    70888041    77379896

186097    3142612    5019528    12666924    70888043    77379900

186111    3142614    5019530    12666926    70888045    77379908

186162    3142616    5019532    12666928    70888047    77379910

186164    3142618    5019534    12666930    70888049    77379912

186168    3142620    5019536    12666932    70888051    77379916

186170    3142649    5174362    12666934    70888053    77379918

186172    3142651    5174364    12666936    70888055    80975584

186175    3142653    5174366    12666938    70888057    80975588

298556    3142656    5174378    12666940    70888059    80975598

405223    3142658    5524086    12666942    70888061    80975622

405227    3142660    5524106    12666944    70888063    80975628

409040    3142662    5524108    12666946    70888065    80975632

409041    3142668    5524118    12666948    70888067    80975636

409043    3142670    5524122    12666952    70888069    81020028

433485    3142672    5524132    12666954    70888071    81020064

434041    3142674    5578817    12666956    70888073    86438995

434045    3142676    5578819    12666958    70888075    86439001

439514    3142678    5578823    12666960    70888077    86439005

439516    3142680    5578825    12666962    70888079    86439015

441251    3142684    5578827    12830380    70888081    86439017

460854    3153359    5578829    12830382    70888083    86439087

460856    3153361    5578831    12830384    70888085    86439089

460860    3153365    5578833    13276707    70888087    86439091

465157    3153366    5911837    13877276    70888089    86439093

465167    3153368    6492194    14279402    70888091    86439095

465171    3153374    6492196    14279404    70888093    86439097

465175    3153376    6492206    14279406    70888095    86439099

469249    3335577    6492208    17226627    70888097    86439101

483911    3335579    6492210    17226649    70888099    86439105

487824    3335585    6492212    18307305    70888103    86439127

487825    3335587    6643078    18307307    70888105    86439133

487828    3335591    6643082    18307309    70888109    86439137

493153    3388046    6643086    18307311    70888111    86439139

506426    3388048    6643088    18307313    70888113    86439141

506428    3388050    6643090    18307315    70888115    90994749

515765    3388054    6643098    18307317    70888117    95007506

532599    3388056    6643104    18307319    70888121    95007546

532600    3388058    6643106    18307321    70888123    95007548

532603    3388060    6643114    18307329    70888125    95007550

560845    3388062    6643118    21311290    70888127    95007552

575230    3388064    6643120    21311292    70888129    95007554

575238    3388066    6643124    21669150    70888133    95007556

575242    3388070    6643126    21669152    70888137    95007558

685021    3388072    6643128    21669154    70888139    95007560

773591    3388074    6643136    21669156    70888141    95007562

871362    3388080    6643138    21669158    70888143    95007564

987068    3747019    6643154    21669160    70888147    95007566

987076    3821077    6643156    21669162    70888149    95007570

998390    3821078    6643158    21669164    70888151    95007572

998394    3821079    6643162    21669166    70888155    95007576

1055278   3821080    6643168    21669172    70888157    95007578

1070329   3821081    6643170    21669174    70888159    109240683    

1070341   3821082    6643172    21669176    70888161    109240697

1070349   3821083    6643176    21669178    70888163    109240743

1143195   3821084    6643178    21669180    70888165    109240749

1200068   3821086    6643180    21669182    70888167    109240754

1235776   3821087    6643182    21669184    70888169    109240756

1235778   3821089    6643184    21669186    70888171    109240758

1235780   3821090    6643186    21669188    70888173    116795127

1235782   3821091    6643188    21669190    70888179    116795192

1255606   3821092    6643192    21669192    70888181    146336934

1255610   3821093    6643196    21669194    70888183    156632919

1255611   3821094    6643198    21669196    70888185    156632943

1255613   3821095    6643200    21669198    70888187    156632945

1552313   3821096    6643202    21669200    70888193    156632975

1561599   3821097    6643204    21669204    70888195    156633095

1770407   4103646    6643210    21669206    70888197    156633103

1864134   4103648    6643214    21669210    70888199    156633141

1864140   4103650    6643218    21669212    70888201    156633153

1864142   4103652    6643220    21669214    70888204    156633155

1864144   4103654    6643224    21669218    70888206    156633159

2078365    4103656    6643226    21669220    70888208    156633171

2654039    4103658    6643230    21669222    70888210    156633179

2654043    4103660    6643232    21669224    70888212    156633199

2865485    4103672    6643238    21669226    70888216    156633203

3023094    4324023    6643240    21669228    70888218    156633209

3023096    4324025    6643242    21669230    70888220    156633211

3023098    4324029    6643244    21669232    70888222    156633225

3023100    4324031    6643248    21669234    70888224    156633229

3023102    4324037    6643250    21669236    70888228    156633237

3023104    4324039    6643254    21669238    70888230    156633241

3023106    4324043    6643256    21669240    70888232    156633245

3023108    4324047    6643258    21669242    70888234    156633253

3023110    4324055    6643268    21669244    70888236    156633255

3023112    4324057    6643272    21669248    70888238    156633267

3023114    4324061    6643274    21669252    70888240    156633283

3023116    4324063    6643276    21669254    70888242    157093725

3023118    4324067    6643278    21669256    70888244    170684323

3023120    4324069    6643280    21669260    70888246    170684325

3023122    4324073    6643282    21669262    70888248    170684329

3023126    4324075    6643286    21669264    70888250    170684331

3023130    4324077    6643290    21669266    70888252    170684333

3023132    4324085    6643292    21669268    70888254    170684335

3091153    4324087    6643294    21669270    70888258    170684339

3091155    4324089    6643296    21669272    70888260    170684341

3091157    4324091    6643302    21669274    70888262    170684345

3091159    4324093    6643304    21669276    70888264    170684349

3091161    4324097    6643308    21669278    70888266    170684351

3091163    4324103    6643314    21669280    70888268    170684355

3091165    4324107    6643318    21669288    70888270    170684363

3091167    4324111    6643328    21998780    70888272    170684365

3091169    4324113    6643344    21998782    70888274    170684369

3091171    4324115    6643352    21998784    70888276    170684371

3091173    4324117    6643354    21998786    70888278    170684373

3091175    4324123    6643358    21998792    70888280    170684375

3091177    4324125    6643360    21998794    70888282    170684379

3091179    4324127    6643362    21998800    70888284    170684381

3091181    4324139    6643366    21998802    70888286    170684385

3091183    4324145    6643368    21998804    70888288    170684387

3091185    4324151    6643374    23194484    70888290    170684389

3091187    4324155    6643376    23194488    70888292    170684397

3091191    4324157    6643378    23194492    70888294    170684405

3091193    4324159    6643382    23194496    70888296    170684407

3091195    4324163    6643386    23343556    70888304    170684409

3091197    4324169    6643390    24474079    70888306    170684411

3091201    4324175    6643392    27369031    71482628    170684417

3091203    4324177    6643402    27369033    71482632    170684419

3091205    4324181    6643416    27369035    77378177    170684423

3091207    4324187    6643418    27369037    77378188    170684425

3091209    4324189    6643424    27369045    77378257    170684427

3091213    4324193    6643428    27369047    77378266    170684429

3093861    4324197    6643436    27369051    77378268    170684431

3093863    4324199    6643446    27369053    77378270    170684433

3093865    4324205    6643448    27369058    77378273    170684439

3093867    4324207    6643450    27369060    77378277    170684443

3093869    4324209    6643452    27369064    77378280    170684449

3093871    4324211    6643456    27369068    77378282    170684451

3093873    4324213    6643470    27369075    77378284    170684453

3093875    4324215    6643474    27369082    77378286    170684461

3093877    4324221    6643478    27369084    77378288    170684469

3093879    4324223    6643484    27369088    77378291    170684473

3093881    4324229    6643488    27818828    77378293    170684489

3093883    4324231    6643492    28394695    77378298    170684495

3093885    4324245    6643500    28394699    77378300    170684497

3093887    4324247    6643512    28394703    77378303    170684499

3093889    4324249    6643514    28394707    77378305    170684501

3093891    4324251    6643528    28394711    77378307    170684507

3093895    4324255    6643534    28394715    77378309    170684513

3093903    4324257    6643558    28848877    77378312    170684515

3142451    4324261    6643560    28848881    77378316    170684517

3142453    4324263    6643562    28848885    77378318    170684527

3142455    4324265    6643564    29342115    77378320    170684531

3142457    4324271    6643572    33304654    77378322    170684535

3142459    4324273    6643574    40647151    77378377    170684537

3142461    4324275    6643580    47271301    77378379    170684539

3142465    4324283    6643582    47271303    77378381    170684541

3142467    4324285    6643584    47271319    77378383    170684545

3142471    4468355    6643586    47271321    77378385    170684549

3142475    4468367    6643588    47271323    77378387    170684553

3142477    4468369    6643592    47271325    77378389    170684555

3142479    4468371    6643596    50199320    77378392    170684557

3142481    4565964    6643598    50199322    77378394    170684561

3142483    4565966    6643600    50199328    77378396    170684565

3142485    4565996    6643602    50199330    77378398    170684567

3142487    4566007    6643604    50199338    77378400    170684569

3142489    4566009    6643606    50199340    77378402    170684571

3142491    4566016    6643614    50871689    77379590    170684583

3142493    4566021    6643628    51103426    77379620    170684589

3142495    4566023    6643630    51103428    77379622    170684591

3142497    4566025    6649891    51103430    77379624    170684593

3142499    4566029    6649893    51103434    77379632    170684597

3142503    4566045    8920222    51103436    77379642    170684599

3142505    4566049    8920226    51103572    77379644    170684601

3142507    4566051    9864840    51103574    77379646    170684603

3142509    4566053    9968383    51103576    77379675    170684607

3142511    4566055    9968385    51103588    77379677    170684609

3142515    4566057    9968387    51103590    77379726    170684613

3142517    4566059    9968389    51103592    77379728    170684617

3142519    4566061    9968391    51103600    77379730    170684619

3142521    4566065    9968393    51103602    77379738

3142527    4566074    9968395    51103606    77379740

相关申请

本申请要求2007年9月14日申请的美国临时申请顺序号60/993,785的优先权,该申请通过引用全部结合到本文中。

QQ群二维码
意见反馈