Method, system, and software for identifying functional bio-molecule

申请号 JP2009123638 申请日 2009-05-21 公开(公告)号 JP2009277235A 公开(公告)日 2009-11-26
申请人 Maxygen Inc; マキシジェン, インコーポレイテッド; 发明人 GUSTAFSSON CLAES; GOVINDARAJAN SRIDAR; EMIG ROBIN; FOX RICHARD JOHN; ROY AJOY; MINSHULL JEREMY; DAVIS S CHRISTOPHER; COX ANTHONY; PATTEN PHIL; CASTLE LINDA A; SIEHL DANIEL L; GORTON REBECCA LYNNE; CHEN TEDDY;
摘要 PROBLEM TO BE SOLVED: To provide new methods of efficiently searching sequence space for identifying functional protein. SOLUTION: The present invention generally relates to methods of rapidly and efficiently searching biologically-related data space. More specifically, the invention includes methods of identifying bio-molecules with desired properties, or which are most suitable for acquiring such properties, from complex bio-molecule libraries or sets of such libraries. The invention also provides methods of modeling sequence-activity relationships. As many of the methods are computer-implemented, the invention additionally provides digital systems and software for performing these methods. COPYRIGHT: (C)2010,JPO&INPIT
权利要求
  • 最適化されたタンパク質改変体ライブラリを生成する方法であって、
    (a)ライブラリ中のタンパク質改変体が体系的に多様な配列を有し、かつデータがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取ることと、
    (b)該データから、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させることと、
    (c)該配列活性モデルを用いて、所望の活性を提供するために予測される該体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を選択することと、
    (d)最適化されたタンパク質改変体ライブラリのメンバーの配列それぞれが1つ以上の選択されたアミノ酸残基を含む、該最適化されたタンパク質改変体ライブラリを生成することと、
    を含む、方法。
  • 最適化されたタンパク質改変体ライブラリを生成するためのプログラム命令が設けられている機械可読媒体を含むコンピュータ・プログラム・プロダクトであって、該プログラム命令は、
    (a)ライブラリ中のタンパク質改変体が体系的に多様な配列を有し、かつデータがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取るためのコードと、
    (b)該データを用いて、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させるためのコードと、
    (c)該配列活性モデルを用いて、所望の活性を提供するために予測される該体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を選択するためのコードと、
    (d)最適化されたタンパク質改変体ライブラリのメンバーの配列それぞれが1つ以上の選択されたアミノ酸残基を含む、該最適化されたタンパク質改変体ライブラリを定義するためのコードと、
    を含む、コンピュータ・プログラム・プロダクト。
  • 说明书全文

    (関連出願の相互参照)
    本出願は、米国特許法に基づき、2002年3月1日出願の米国特許出願第60/360,982号による利益を主張し、その開示内容全体を本明細書に援用する。

    (著作権通知)
    この特許書類による開示の一部には、著作権保護の対象となる内容が含まれている。 著作権所有者は、特許商標局の特許ファイルまたは特許記録に表示される際に、だれがこの特許書類または特許開示を複製しても異存ないが、それ以外においては、全著作権を完全に保有する。

    (発明の分野)
    本発明は、分子生物学分野、分子進化分野、生命情報工学分野、およびデジタル・システム分野に関する。 より具体的には、本発明は、所望の特性をもつ生体分子標的を同定する方法、および生体分子の活性を計算によって予測する方法に関する。 システム(デジタル・システムを含む)、およびこれらの方法を実行するためのシステム・ソフトウェアもまた提供される。 本発明の方法は、産業利用、および治療利用のためのタンパク質の最適化に有用である。

    (背景)
    タンパク質設計は、長い間、困難な課題として知られているが、それは、探索可能な配列空間を構成する可能な分子が、組み合わせによって爆発的に増加するために他ならない。 タンパク質設計の問題は、最近、NP困難(NP−hard)として知られる問題クラスに属することが示された(非特許文献1)。 これは、多項式時間内にそのような問題を解決できる既知のアルゴリズムが存在しないことを意味する。 このような複雑さから、より良いタンパク質を設計するために、多くの近似解法が用いられており、有向進化の方法は、それらの中でも主要なものである。 タンパク質の有向進化においては、今日、スクリーニングおよび組み換えの様々なハイスループット形式が支配的で、しばしば反復的に行われる。

    配列空間は、すべてのタンパク質近接点(neighbor)が一連の単一点変異によって取得可能である空間として説明できる。 非特許文献2。 例えば、100残基の長さをもつタンパク質は、20の可能値(すなわち、各次元につき20の天然に存在するアミノ酸)をもつ100次元目的ということになる。 これらのタンパク質の各々が、対応する適合性(fitness)を、何らかの複雑なランドスケープ(landscape)上にもつ。 そのような「適合性ランドスケープ(fitness landscape)」モデルは、最初、Sewall Wright(非特許文献3)によって研究されたが、それ以来、他のものによって詳述されている(非特許文献4;非特許文献5;非特許文献6;非特許文献7;非特許文献8)。 タンパク質の配列空間は、莫大であり、徹底的に探索することは不可能である。 従って、機能的タンパク質を同定するために配列空間を効率的に探索する新規の方法は、非常に望ましいだろう。

    Pierceら、「タンパク質設計はNP困難である」、Prot. Eng. 15(10):779−782(2002) Smith、「自然選択およびタンパク質空間の概念」、Nature,225(232):563−4(1970) Wright、「進化における突然変異、同系交配、異種交配、および選択の役割」、Proceedings of 6th International Conference on Genetics,1:356−366(1932) Eigen,M. 、「物質の自己組織化と生体高分子の進化」、Naturwissenschaften,58(10):465−523(1971) Kauffman,S. ら、「ラグド・ランドスケープ上の適合歩行の一般理論に向けて」、J. Theor. Biol. ,128(1):11−45(1987) Kauffman,E. S. ら、「ラグド適合性ランドスケープのNKモデル、およびその免疫応答成熟化への適用」、J. Theor. Biol. ,141(2):211−45(1989) Schuster,P. ら、「ランドスケープ:複雑な最適化問題および生体高分子構造」、Comput. Chem. ,18(3):295−324(1994) Govindarajan,S. ら、「折り畳み可能なランドスケープにおけるモデルタンパク質の進化」、Proteins,29(4):461−6(1997)

    機能的タンパク質を同定するために配列空間を効率的に探索する新規の方法を提供すること。

    (発明の要旨)
    本発明の一態様は、改変のためのアミノ酸残基をタンパク質改変体ライブラリ中で同定する方法、装置、およびソフトウェアに関係する。 これらの残基は、その後、安定性、触媒活性、治療活性、病原菌耐性、毒素耐性、毒性などの所望の活性に影響を与えるように、ライブラリのタンパク質改変体の配列中で変えられる。 この態様の方法は、以下の一連の演算によって記述可能である:(a)タンパク質改変体のトレーニング・セット(training set)を特徴付けるデータを受け取る演算;(b)データから、アミノ酸残基のタイプ、および配列中のその対応位置の関数として活性を予測する配列活性モデルを発展させる演算;および(c)配列活性モデルを使用して、所望の活性に影響を与えるために変化されるべき、体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を同定する演算である。 この方法で、ライブラリのタンパク質改変体は、体系的に多様な配列をもつものでもよい。 さらに、該データは、トレーニング・セット中の各タンパク質改変体に関する活性情報および配列情報を提供する。
    また、いくつかの実施形態で、この方法は、(d)新規タンパク質改変体ライブラリに固定されたまま(変えられることの対照として)残ることになる1つ以上のアミノ酸残基を同定するために、配列活性モデルを用いることを含んでいる。
    タンパク質改変体ライブラリは、様々なソースからのタンパク質を含んでもよい。 一実施例においては、メンバーに天然に存在するタンパク質が含まれ、例えば単一遺伝子ファミリーのメンバーによってコードされた天然に存在するタンパク質なども含まれる。 別の実施例においては、組み換えに基づく多様性発生機構を用いることによって得られたタンパク質が、メンバーに含まれる。 この目的のためには、1つ以上の天然に存在する親タンパク質のすべて、または一部をコードする核酸を用いて、古典的なDNAシャフリング(すなわち、DNAの断片化を媒介とする組み換え)、または合成DNAシャフリング(すなわち、合成オリゴヌクレオチドを媒介とする組み換え)を行うことが可能である。 さらに別の実施例では、DOEを実施し、体系的に多様な配列を同定することによって、メンバーを得る。

    概して、配列活性モデルは、配列情報から活性を予測するのに有効であればどのような形式のものであってもよい。 好適な実施形態では、そのようなモデルは、部分最小二乗モデルなどの回帰モデルである。 別の実施例では、そのようなモデルはニューラル・ネットワーク法である。

    配列活性モデルを用いて固定用または改変用の残基を同定するのに、多くの異なった可能な解析技術のうちのいずれを用いてもよい。 ある場合には、変異を定義するための「参照配列」が用いられる。 そのような配列は、モデルによって、所望の活性における最高値(または、最高値のうちの1つ)を有すると予測されたものであってもよい。 別の場合には、元のタンパク質改変体ライブラリのメンバーを参照配列としてもよい。 この方法において、参照配列から、変異を与える部分配列を選択することが可能である。 付加的に、または代替的に、残基位置(または、ある特定位置の特異的な残基)のランク付けが、所望の活性に対する影響の順序で、配列活性モデルによって行われる。

    この方法の目標の1つが、新規のタンパク質改変体ライブラリを生成することであってもよい。 この過程の一部として、この方法によって、この新規ライブラリを生成するのに用いられる配列を同定してもよい。 そのような配列は、上記(c)で同定された残基に変異をもつものか、または、そのような変異を次に導入するために用いる前駆体である。 タンパク質改変体の新規ライブラリを生成するため、突然変異誘発、または組み換えに基づく多様性発生機構を実施し、そのような配列に修正を加えてもよい。 これによって、有向進化処置の一部を形成することが可能である。 さらに、新規ライブラリは新規の配列活性モデルを開発するのに使用可能である。

    いくつかの実施形態では、新規タンパク質改変体ライブラリの1つ以上のメンバーを製造用に選択することがこの方法に含まれる。 発現系を用い、次いで、そのようなメンバーの1つ以上を合成、および/または、発現することも可能である。

    本発明のさらに別の態様は、装置およびコンピュータ・プログラム・プロダクトに関係し、それらには、プログラム命令、および/またはこの方法を実行するためのデータ配置、ならびに上記のソフトウェアが提供されている機械可読媒体が含まれる。 プログラム命令は、しばしば、ある特定の方法演算を行うためのコード(code)として提供される。 データは、本発明の機能を実施するのに使用される場合、データ構造、データベース・テーブル、データ・オブジェクト、または特定の情報の他の適切な配列として提供可能である。 本発明の方法、またはシステムのいかなるものも、その全体または一部を、機械可読媒体に提供されるプログラム命令、および/または、データとして表すことが可能である。
    本発明はさらに、以下の項目を提供する。
    (項目1)
    所望の活性に影響を与えるために、タンパク質改変体ライブラリ中で変化させるためのアミノ酸残基を特定する方法であって、
    (a)ライブラリ中のタンパク質改変体が体系的に多様な配列を有し、かつデータがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取ることと、
    (b)該データから、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させることと、
    (c)該配列活性モデルを用いて、該所望の活性に影響を与えるために変化させる該体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を特定することと、
    を含む、方法。
    (項目2)
    (d)前記配列活性モデルを用いて、新規のタンパク質改変体ライブラリ中でも固定され続ける1つ以上のアミノ酸残基を特定することをさらに含む、項目1の方法。
    (項目3)
    前記タンパク質改変体ライブラリは、天然に存在するタンパク質またはそれから派生されるタンパク質を含む、項目1の方法。
    (項目4)
    前記天然に存在するタンパク質は、単一の遺伝子ファミリーのメンバーにコードされるタンパク質を含む、項目3の方法。
    (項目5)
    前記タンパク質改変体ライブラリは、組換えに基づく多様性生成メカニズムを用いることによって得られるタンパク質を含む、項目1の方法。
    (項目6)
    DOEを実行して、前記体系的に多様な配列を特定することをさらに含む、項目1の方法。
    (項目7)
    前記活性は、タンパク質安定性ではない、項目1の方法。
    (項目8)
    前記配列活性モデルは、回帰モデルである、項目1の方法。
    (項目9)
    前記配列活性モデルは、部分最小二乗モデルである、項目1の方法。
    (項目10)
    前記配列活性モデルは、ニューラル・ネットワークである、項目1の方法。
    (項目11)
    前記配列活性モデルを用いて、1つ以上のアミノ酸残基を特定することは、組換えに基づく多様性生成メカニズムで使用するための配列を特定することをさらに含み、該配列は、(c)で特定された前記1つ以上のアミノ酸残基での変化と含む、項目1の方法。
    (項目12)
    前記配列活性モデルを用いることは、前記所望の活性の最高値を有するモデルにより予測される配列を特定することを含む、項目1の方法。
    (項目13)
    前記モデルを用いることは、最善の配列の部分配列を選択することをさらに含む、項目12の方法。
    (項目14)
    前記配列活性モデルを用いて1つ以上のアミノ酸残基を特定することは、前記所望の活性に影響を与えるために、前記配列活性モデルを用いて、残基位置をランク付けすることを含む、項目1の方法。
    (項目15)
    前記配列活性モデルを用いて1つ以上のアミノ酸残基を特定することは、前記所望の活性に影響を与えるために、前記配列活性モデルを用いて、残基位置にある残基タイプをランク付けすることを含む、項目1の方法。
    (項目16)
    前記モデルを用いることは、遺伝的アルゴリズムで、適合性関数として前記モデルを用いることを含む、項目1の方法。
    (項目17)
    前記配列活性モデルを用いて、前記体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を特定することは、新規のタンパク質改変体ライブラリを生成する際使用するための1つ以上の配列を特定することを含む、項目1の方法。
    (項目18)
    前記配列は、1つ以上の特定されたアミノ酸残基の変化をコードするオリゴヌクレオチド配列である、項目17の方法。
    (項目19)
    前記オリゴヌクレオチド配列を用いて、突然変異生成または組換えに基づく多様性生成メカニズムを実行して、前記新規のタンパク質改変体ライブラリを生成することをさらに含む、項目18の方法。
    (項目20)
    突然変異生成または組換えに基づく多様性生成メカニズムを実行することは、有向進化手法で用いられる、項目19の方法。
    (項目21)
    前記オリゴヌクレオチド配列は、(i)天然に存在する親タンパク質間で最も高い活性を有する天然に存在する親タンパク質、または(ii)最も高い活性を有する前記配列活性モデルにより予測される配列の少なくとも一部分をコードする、項目18の方法。
    (項目22)
    前記新規のタンパク質改変体ライブラリを特徴付ける活性および配列データを用いて、新規の配列活性モデルを発展させることをさらに含む、項目17の方法。
    (項目23)
    生産するための前記新規のタンパク質改変体ライブラリの1つ以上のメンバーを選択することをさらに含む、項目17の方法。
    (項目24)
    前記新規のタンパク質改変体ライブラリの選択されたメンバーの1つ以上を発現させることをさらに含む、項目23の方法。
    (項目25)
    (i)前記新規のタンパク質改変体ライブラリの選択されたメンバーを発現させることができる発現システムを提供することと、
    (ii)該新規のタンパク質改変体ライブラリの該選択されたメンバーを発現させることと、
    をさらに含む、項目23の方法。
    (項目26)
    (c)で特定された前記1つ以上のアミノ酸残基は、前記配列活性モデルを用いて予測される参照配列または前記タンパク質改変体ライブラリのメンバーを記載する参照配列中で特定される、項目1の方法。
    (項目27)
    所望の活性に影響を与えるために、タンパク質改変体ライブラリ中で変化させるためのアミノ酸残基を特定する方法であって、
    (a)データがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、1つ以上の天然に存在する親タンパク質の全てまたは部分をコードする核酸上で、古典的または合成DNAシャッフリングを実行することにより得られたタンパク質を含むタンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取ることと、
    (b)該データから、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させることと、
    (c)該配列活性モデルを用いて、該ライブラリのタンパク質中の、該所望の活性に影響を与えるために変化させる1つ以上のアミノ酸残基を特定することと、
    を含む、方法。
    (項目28)
    所望の活性に影響を与えるために、タンパク質改変体ライブラリ中で変化させるためのアミノ酸残基を特定する方法であって、
    (a)データがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取ることと、
    (b)該データから、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させることと、
    (c)該配列活性モデルを用いて、該タンパク質改変体ライブラリのタンパク質中の、有向進化手法で使用するための1つ以上の配列を特定するために変化させる1つ以上のアミノ酸残基を特定することと、
    を含む、方法。
    (項目29)
    前記配列は、1つ以上の特定されたアミノ酸残基の変化をコードするオリゴヌクレオチド配列である、項目28の方法。
    (項目30)
    所望の活性に影響を与えるために、タンパク質改変体ライブラリ中で変化させるためのアミノ酸残基を特定する方法であって、
    (a)データがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取ることと、
    (b)該データから、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させることと、
    (c)該所望の活性に影響を与えるために、該配列活性モデルを用いて、残基位置または特定の残基位置にある残基タイプをランク付けすることと、
    (d)該ランク付けを用いて、該タンパク質改変体ライブラリのタンパク質中の、該所望の活性に影響を与えるために変化させるか、または固定させる1つ以上のアミノ酸残基を特定することと、
    を含む、方法。
    (項目31)
    最適化されたタンパク質改変体ライブラリを生成する方法であって、
    (a)ライブラリ中のタンパク質改変体が体系的に多様な配列を有し、かつデータがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取ることと、
    (b)該データから、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させることと、
    (c)該配列活性モデルを用いて、所望の活性を提供するために予測される該体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を選択することと、
    (d)最適化されたタンパク質改変体ライブラリのメンバーの配列それぞれが1つ以上の選択されたアミノ酸残基を含む、該最適化されたタンパク質改変体ライブラリを生成することと、
    を含む、方法。
    (項目32)
    所望の活性に影響を与えるために、タンパク質改変体ライブラリ中で変化させるためのアミノ酸残基を特定するためのプログラム命令が設けられているコンピュータ可読媒体を含むコンピュータ・プログラム・プロダクトであって、前記命令は、
    (a)ライブラリ中のタンパク質改変体が体系的に多様な配列を有し、かつデータがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取るためのコードと、
    (b)該データを用いて、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させるためのコードと、
    (c)該配列活性モデルを用いて、該所望の活性に影響を与えるために変化させる該体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を特定するためのコードと、
    を含む、コンピュータ・プログラム・プロダクト。
    (項目33)
    前記プログラム命令は、(d)前記配列活性モデルを用いて、新規のタンパク質改変体ライブラリ中で固定され続ける1つ以上のアミノ酸残基を特定するためのコードをさらに含む、項目32のコンピュータ・プログラム・プロダクト。
    (項目34)
    前記プログラム命令は、DOEを実行して、前記体系的に多様な配列を特定するためのコードをさらに含む、項目32のコンピュータ・プログラム・プロダクト。
    (項目35)
    前記配列活性モデルは、回帰モデルである、項目32のコンピュータ・プログラム・プロダクト。
    (項目36)
    前記配列活性モデルは、部分最小二乗モデルである、項目32のコンピュータ・プログラム・プロダクト。
    (項目37)
    前記配列活性モデルは、ニューラル・ネットワークである、項目32のコンピュータ・プログラム・プロダクト。
    (項目38)
    前記配列活性モデルを用いるための前記コードは、前記所望の活性の最高値を有するモデルにより予測される配列を特定するためのコードを含む、項目32のコンピュータ・プログラム・プロダクト。
    (項目39)
    前記モデルを用いるための前記コードは、最善の配列の部分配列を選択するためのコードをさらに含む、項目38のコンピュータ・プログラム・プロダクト。
    (項目40)
    前記配列活性モデルを用いて1つ以上のアミノ酸残基を特定するための前記コードは、前記所望の活性に影響を与えるために、該配列活性モデルを用いて、残基位置をランク付けするためのコードを含む、項目32のコンピュータ・プログラム・プロダクト。
    (項目41)
    前記配列活性モデルを用いて1つ以上のアミノ酸残基を特定するための前記コードは、前記所望の活性に影響を与えるために、該配列活性モデルを用いて、残基位置にある残基タイプをランク付けするためのコードを含む、項目32のコンピュータ・プログラム・プロダクト。
    (項目42)
    前記モデルを用いるための前記コードは、遺伝的アルゴリズムで、適合性関数として該モデルを用いるためのコードを含む、項目32のコンピュータ・プログラム・プロダクト。
    (項目43)
    前記配列活性モデルを用いて、前記体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を特定するための前記コードは、新規のタンパク質改変体ライブラリを生成する際使用するための1つ以上の配列を特定するためのコードを含む、項目32のコンピュータ・プログラム・プロダクト。
    (項目44)
    前記配列は、1つ以上の特定されたアミノ酸残基の変化をコードするオリゴヌクレオチド配列である項目43のコンピュータ・プログラム・プロダクト。
    (項目45)
    前記オリゴヌクレオチド配列は、前記配列活性モデルにより、(i)天然に存在する親タンパク質間で最も高い活性を有する天然に存在する親タンパク質、または(ii)最も高い活性を有すると予測される配列の少なくとも一部分をコードする、項目44のコンピュータ・プログラム・プロダクト。
    (項目46)
    前記新規のタンパク質改変体ライブラリを特徴付ける活性および配列データを用いて、新規の配列活性モデルを発展させるためのコードをさらに含む、項目43のコンピュータ・プログラム・プロダクト。
    (項目47)
    生産されるための前記新規のタンパク質改変体ライブラリの1つ以上のメンバーを選択するためのコードをさらに含む、項目43のコンピュータ・プログラム・プロダクト。
    (項目48)
    (c)の前記コードは、(i)前記配列活性モデルを用いて予測される参照配列、または(ii)前記タンパク質改変体ライブラリのメンバーを記載する参照配列中の前記1つ以上のアミノ酸残基を特定する、項目32のコンピュータ・プログラム・プロダクト。
    (項目49)
    所望の活性に影響を与えるために、タンパク質改変体ライブラリ中で変化させるためのアミノ酸残基を特定するためのプログラム命令が設けられているコンピュータ可読媒体を含むコンピュータ・プログラム・プロダクトであって、該プログラム命令は、
    (a)データがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、1つ以上の天然に存在する親タンパク質の全てまたは部分をコードする核酸上で、古典的または合成DNAシャッフリングを実行することにより得られたタンパク質を含むタンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取るためのコードと、
    (b)該データを用いて、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させるためのコードと、
    (c)該配列活性モデルを用いて、該ライブラリのタンパク質中の、該所望の活性に影響を与えるために変化させる1つ以上のアミノ酸残基を特定するためのコードと、
    を含む、コンピュータ・プログラム・プロダクト。
    (項目50)
    所望の活性に影響を与えるために、タンパク質改変体ライブラリ中で変化させるためのアミノ酸残基を特定するためのプログラム命令が設けられている機械可読媒体を含むコンピュータ・プログラム・プロダクトであって、該プログラム命令は、
    (a)データがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取るためのコードと、
    (b)該データを用いて、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させるためのコードと、
    (c)該配列活性モデルを用いて、該タンパク質改変体ライブラリのタンパク質中の、有向進化手法で使用するための1つ以上の配列を特定するために変化させる1つ以上のアミノ酸残基を特定するためのコードと、
    を含む、コンピュータ・プログラム・プロダクト。
    (項目51)
    所望の活性に影響を与えるために、タンパク質改変体ライブラリ中で変化させるためのアミノ酸残基を特定するためのプログラム命令が設けられている機械可読媒体を含むコンピュータ・プログラム・プロダクトであって、該プログラム命令は、
    (a)データがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取るためのコードと、
    (b)該データを用いて、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させるためのコードと、
    (c)該所望の活性に影響を与えるために、該配列活性モデルを用いて、残基位置または特定の残基位置にある残基タイプをランク付けするためのコードと、
    (d)該ランク付けを用いて、該タンパク質改変体ライブラリのタンパク質中の、該所望の活性に影響を与えるために変化させるか、または固定させる1つ以上のアミノ酸残基を特定するためのコードと、
    を含む、コンピュータ・プログラム・プロダクト。
    (項目52)
    最適化されたタンパク質改変体ライブラリを生成するためのプログラム命令が設けられている機械可読媒体を含むコンピュータ・プログラム・プロダクトであって、該プログラム命令は、
    (a)ライブラリ中のタンパク質改変体が体系的に多様な配列を有し、かつデータがトレーニング・セット中の各タンパク質改変体に対する活性および配列情報を提供する、タンパク質改変体ライブラリの該トレーニング・セットを特徴付ける該データを受け取るためのコードと、
    (b)該データを用いて、該配列中のアミノ酸残基タイプおよび対応する位置の関数として活性を予測する配列活性モデルを発展させるためのコードと、
    (c)該配列活性モデルを用いて、所望の活性を提供するために予測される該体系的に多様な配列中の特定の位置にある1つ以上のアミノ酸残基を選択するためのコードと、
    (d)最適化されたタンパク質改変体ライブラリのメンバーの配列それぞれが1つ以上の選択されたアミノ酸残基を含む、該最適化されたタンパク質改変体ライブラリを定義するためのコードと、
    を含む、コンピュータ・プログラム・プロダクト。
    (項目53)
    人工進化に最も適した生体高分子配列改変体の集団のメンバーを特定する方法であって、
    (a)2つ以上の所望の目的に対して、生体高分子配列改変体の集団のメンバーを選択またはスクリーニングして、多目的適合性データ・セットを生成することと、
    (b)該多目的適合性データ・セット中のパレート・フロントを特定することと、
    (c)該パレート・フロントの近傍にある1つ以上のメンバーを選択することと、
    を含み、人工進化に最も適した生体高分子配列改変体の該集団の該メンバーを特定する、方法。
    (項目54)
    工程(c)は、
    (i)前記パレート・フロントの近傍にある前記メンバーの少なくともいくつかに対して、前記2つ以上の所望の目的の加重和を算出することと、
    (ii)該パレート・フロントの近傍にある他のメンバーより高い加重和を含む少なくとも1つのメンバーを選択することと、
    を含む、項目53の方法。
    (項目55)
    工程(c)は、
    (i)前記パレート・フロントに対する相対的近接および配列空間での相対的分離に準じて、前記1つ以上のメンバーをランク付けすることと、
    (ii)該パレート・フロントの近傍にある他のメンバーより高いランクである少なくとも1つのメンバーを選択することと、
    を含む、項目53の方法。
    (項目56)
    コンピュータ・プログラム・プロダクトであって、
    (a)少なくとも1つの親生体高分子配列に、1つ以上の多目的進化的アルゴリズムを適用して、生体高分子配列改変体のセットを生成することと、
    (b)2つ以上の所望の目的に対して、生体高分子配列改変体の該セットのメンバーを選択またはスクリーニングすることと、
    (c)該2つ以上の所望の目的の関数として生体高分子配列改変体の該セットをプロットして、生体高分子配列改変体プロットを生成することと、
    (d)該生体高分子配列改変体プロットで、パレート・フロントを特定して、生体高分子配列改変体の該セットの他のメンバーと比べて、多数の改善された目的を含む生体高分子配列改変体の該セットのメンバーを特定することと、
    のための1つ以上の論理命令を有するコンピュータ可読媒体を含む、コンピュータ・プログラム・プロダクト。
    (項目57)
    所望の特性を含む配列を予測する方法であって、
    (a)少なくとも1つの人工進化手法を用いて、少なくとも1つの親配列を進化させ、人工的に進化させた配列の少なくとも1つの集団を生成することと、
    (b)少なくとも1つの所望の特性に対して、人工的に進化させた配列の該集団を選択またはスクリーニングして、選択された人工的に進化させた配列の集団を生成することと、
    (c)選択された人工的に進化させた配列の該集団で、ニューラル・ネットワークをトレーニングして、トレーニングされたニューラル・ネットワークを生成することと、
    (d)該トレーニングされたニューラル・ネットワークを用いて、該少なくとも1つの所望の特性を含む1つ以上の配列を予測することと、
    を含む、方法。
    (項目58)
    所望の特性を含む配列を予測するためのコンピュータ・システムであって、
    (a)ニューラル・ネットワークおよび配列を保存できるデータベースを含む少なくとも1つのコンピュータ・システムと、
    (b)(i)少なくとも1つの人工進化手法を用いて、少なくとも1つの親配列を進化させ、人工的に進化させた配列の少なくとも1つの集団を生成することと、
    (ii)少なくとも1つの所望の特性に対して、人工的に進化させた配列の該集団を選択またはスクリーニングして、選択された人工的に進化させた配列の集団を生成することと、
    (iii)選択された人工的に進化させた配列の該集団で、ニューラル・ネットワークをトレーニングして、トレーニングされたニューラル・ネットワークを生成することと、
    (iv)該トレーニングされたニューラル・ネットワークを用いて、該少なくとも1つの所望の特性を含む1つ以上の配列を予測することと、
    のための1つ以上の倫理命令を含むシステム・ソフトウェアと、
    を含む、コンピュータ・システム。
    (項目59)
    所望の特性を含む配列を予測するためのコンピュータ・プログラム・プロダクトであって、
    (a)少なくとも1つの人工進化手法を用いて、少なくとも1つの親配列を進化させ、人工的に進化させた配列の少なくとも1つの集団を生成することと、
    (b)少なくとも1つの所望の特性に対して、人工的に進化させた配列の該集団を選択またはスクリーニングして、選択された人工的に進化させた配列の集団を生成することと、
    (c)選択された人工的に進化させた配列の該集団で、ニューラル・ネットワークをトレーニングして、トレーニングされたニューラル・ネットワークを生成することと、
    (d)該トレーニングされたニューラル・ネットワークを用いて、該少なくとも1つの所望の特性を含む1つ以上の配列を予測することと、
    のための1つ以上の論理命令を有するコンピュータ可読媒体を含む、コンピュータ・プログラム・プロダクト。
    (項目60)
    少なくとも1つの標的ポリペプチド配列の少なくとも1つの特性を予測する方法であって、
    (a)ポリペプチド配列改変体の集団の少なくともサブセットが該少なくとも1つの特性を含む、ポリペプチド配列改変体の該集団の2つ以上のメンバーに共通な1つ以上のモチーフを特定し、モチーフ・データ・セットを生成することと、
    (b)該モチーフ・データ・セットから得た少なくとも1つのモチーフを、該少なくとも1つの特性と相関させて、モチーフ・スコアリング関数を生成することと、
    (c)該モチーフ・スコアリング関数を用いて、該少なくとも1つの標的ポリペプチド配列をスコアリングすることと、
    を含み、該少なくとも1つの標的ポリペプチド配列の該少なくとも1つの特性を予測する、方法。
    (項目61)
    少なくとも1つの標的ポリペプチド配列の少なくとも1つの特性を予測するためのシステムであって、
    (a)配列を保存できるデータベースを含む少なくとも1つのコンピュータと、
    (b)(i)ポリペプチド配列改変体の集団の少なくともサブセットが該少なくとも1つの特性を含む、ポリペプチド配列改変体の該集団の2つ以上のメンバーに共通な1つ以上のモチーフを特定し、モチーフ・データ・セットを生成することと、
    (ii)該モチーフ・データ・セットから得た少なくとも1つのモチーフを、該少なくとも1つの特性と相関させて、モチーフ・スコアリング関数を生成することと、
    (iii)該モチーフ・スコアリング関数を用いて、該少なくとも1つの標的ポリペプチド配列をスコアリングして、該少なくとも1つの標的ポリペプチド配列の該少なくとも1つの特性を予測することと、
    のための1つ以上の倫理命令を含むシステム・ソフトウェアと、
    を含む、システム。
    (項目62)
    少なくとも1つの標的ポリペプチド配列の少なくとも1つの特性を予測するためのコンピュータ・プログラム・プロダクトであって、
    (a)ポリペプチド配列改変体の集団の少なくともサブセットが該少なくとも1つの特性を含む、ポリペプチド配列改変体の該集団の2つ以上のメンバーに共通な1つ以上のモチーフを特定し、モチーフ・データ・セットを生成することと、
    (b)該モチーフ・データ・セットから得た少なくとも1つのモチーフを、該少なくとも1つの特性と相関させて、モチーフ・スコアリング関数を生成することと、
    (c)該モチーフ・スコアリング関数を用いて、該少なくとも1つの標的ポリペプチド配列をスコアリングして、該少なくとも1つの標的ポリペプチド配列の該少なくとも1つの特性を予測することと、
    のための1つ以上の論理命令を有するコンピュータ可読媒体を含む、コンピュータ・プログラム・プロダクト。
    (項目63)
    配列活性を予測するためのシステムであって、
    (a)配列を保存できるデータベースを含む少なくとも1つのコンピュータと、
    (b)(i)少なくとも1つの活性に対して、親配列のセットを選択して、選択された親配列のセットを生成することと、
    (ii)選択された親配列の該セットを、1つ以上の人工進化手法にかけて、進化させた配列のセットを生成することと、
    (iii)該少なくとも1つの活性に対して、進化させた配列の該セットを選択して、選択された進化させた配列のセットを生成することと、
    (iv)配列改変体のセットに対して、配列活性プロットを提供することと、
    (v)該配列活性プロットから得た1つ以上の配列の少なくとも1つの活性を予測することと、
    のための1つ以上の論理命令を含むシステム・ソフトウェアと、
    を含む、システム。
    (項目64)
    配列活性を予測するためのコンピュータ・プログラム・プロダクトであって、
    (a)少なくとも1つの活性に対して、親配列のセットを選択して、選択された親配列のセットを生成することと、
    (b)選択された親配列の該セットを、1つ以上の人工進化手法にかけて、進化させた配列のセットを生成することと、
    (c)該少なくとも1つの活性に対して、進化させた配列の該セットを選択して、選択された進化させた配列のセットを生成することと、
    (d)配列改変体のセットに対して、配列活性プロットを提供することと、
    (e)該配列活性プロットから得た1つ以上の配列の少なくとも1つの活性を予測することと、
    のための1つ以上の論理命令を有するコンピュータ可読媒体を含む、コンピュータ・プログラム・プロダクト。
    (項目65)
    所望のサイズのライブラリを生成する方法であって、
    (a)少なくとも1つの初期ポリペプチド配列の1つ以上のホモログを特定することと、
    (b)該ホモログおよび該初期ポリペプチドの配列を比較することと、
    (c)該ホモログの配列および該初期ポリペプチド配列中の対応する位置にある残基タイプに関して可変アミノ酸残基が異なる可変アミノ酸残基を特定することと、
    (d)進化的に保存された可変アミノ酸残基のセットを特定することと、
    (e)進化的に保存された可変アミノ酸残基の該セットを組み込んでいるタンパク質改変体のライブラリを生成することと、
    を含む、方法。
    (項目66)
    工程(b)は、少なくとも1つの置換マトリクスを用いて、進化的に保存された可変アミノ酸残基の前記セットを特定することを含む、項目65の方法。
    (項目67)
    前記方法により生成された前記ライブラリは、前記初期ポリペプチド配列の適合性と比べて、高い平均的適合性を含む、項目65の方法。
    (項目68)
    前記ホモログは、ポリペプチドの系統発生的ファミリーを含む、項目65の方法。
    (項目69)
    1つ以上の所望の特性に対して、工程(e)で提供される前記ライブラリのメンバーをスクリーニングまたは選択することをさらに含む、項目65の方法。
    (項目70)
    繰り返される工程(a)で、前記少なくとも1つの初期ポリペプチドとして、少なくとも1つのスクリーニングまたは選択されたメンバーを用いて、工程(a)〜(e)を繰り返すことをさらに含む、項目65の方法。
    (項目71)
    所望のサイズのライブラリを生成するためのシステムであって、
    (a)ポリペプチド配列のセットを保存できるデータベースを含む少なくとも1つのコンピュータと、
    (b)(i)選択された進化的タイムスケールから、少なくとも1つの初期ポリペプチド配列の1つ以上のホモログを特定することと、
    (ii)該ホモログおよび該初期ポリペプチドの配列を比較することと、
    (iii)該ホモログの配列および該初期ポリペプチド配列中の対応する位置にある残基タイプに関して可変アミノ酸残基が異なる可変アミノ酸残基を特定することと、
    (iv)進化的に保存された可変アミノ酸残基のセットを特定することと、
    のための1つ以上の論理命令を含むシステム・ソフトウェアと、
    を含む、システム。
    (項目72)
    前記システム・ソフトウェアは、
    (v)セットが、進化的に保存された可変アミノ酸残基の前記セットをコードするオリゴヌクレオチドを含む、前記初期ポリペプチドのポリペプチド改変体を集団的にコードするオリゴヌクレオチド配列の該セットを特定するための論理命令をさらに含む、項目71のシステム。
    (項目73)
    所望のサイズのライブラリを生成するためのコンピュータ・プログラム・プロダクトであって、
    (i)少なくとも1つの初期ポリペプチド配列/選択された進化的タイムスケールから得た配列の1つ以上のホモログを特定することと、
    (ii)該ホモログおよび該初期ポリペプチドの配列を比較することと、
    (iii)該ホモログの配列および該初期ポリペプチド配列中の対応する位置にある残基タイプに関して可変アミノ酸残基が異なる可変アミノ酸残基を特定することと、
    (iv)進化的に保存された可変アミノ酸残基のセット特定することと、
    のための1つ以上の論理命令を有するコンピュータ可読媒体を含む、コンピュータ・プログラム・プロダクト。

    本発明のこれらの特徴および他の特徴は、以下における発明の詳細な説明によってより詳細に、かつ添付の図面と併せて記述される。

    図1は、1世代以上のタンパク質改変体ライブラリを生成するのに使用可能な、特定の改変用残基の同定を含む、一連の演算を示すフローチャートである。

    図2は、仮想セットのデータをプロットした凸型パレート・フロントを示すグラフである。

    図3は、仮想セットのデータをプロットした非凸型パレート・フロントを示すグラフである。

    図4は、人工進化に最も適した生体高分子配列改変体集団のメンバーを同定する方法の一実施形態で実行される特定のステップを示す図である。

    図5は、生体高分子文字列改変体セットにおいて、他のメンバーに比べて、複数の目標で向上を示す生体高分子文字列改変体セットのメンバーを同定する方法の一実施形態で実行される特定のステップを示す図である。

    図6は、有向進化のためにライブラリを進化させる方法の一実施形態で実行されるステップを示す図である。

    図7は、文字列ライブラリにおいて、より適合した集団を生み出す方法の一実施形態で実行される特定のステップを示す図である。

    図8は、人工進化させるポリペプチド改変体中のアミノ酸位置を選択する方法の一実施形態で実行される特定のステップを示す図である。

    図9は、人工進化させるポリペプチド改変体中のアミノ酸位置を選択する方法の別の実施形態で実行される特定のステップを示す図である。

    図10は、ポリペプチドの配列−活性相関に重要なポリペプチド中のアミノ酸を同定する方法の一実施形態で実行される特定のステップを示す図である。

    図11は、配列空間を効率的に探索する方法の一実施形態で実行される特定のステップを示す図である。

    図12は、配列空間を効率的に探索する方法の一実施形態で実行される特定のステップを図解する図である。

    図13は、所望の特性をもつ文字列を予測する方法の一実施形態で実行される特定のステップを示す図である。

    図14は、本発明の一実施形態による一例の組織系統図を概略的に図解する。

    図15は、標的ポリペプチド文字列の特性を予測する方法の一実施形態で実行される特定のステップを示す図である。

    図16は、デジタル装置の一例を示す概略図である。

    (発明の詳細な説明)
    (I.定義)
    本発明に関し詳細に説明する前に、本発明が特定の組成物またはシステムに限定されず、当然ながら、様々なかたちを取り得るということが理解されるべきである。 また、本明細書中で用いられた用語は、特定の実施例を説明するためのみのものであって、限定的には意図されていないことが理解されるべきである。 この明細書およびそれに添えられた請求の範囲で使用され、内容および文脈によって異なることが明確に指示されない限り、単数形(「a」、「an」および「the」)で記載されているものは、複数の指示物も包括する。 即ち、例えば、「装置」に関して言及されたことは、そのような装置を2つ以上組み合わせたもの、およびそれと同様のものも包括する。 別に指示されないかぎり、「または」という接続詞は、二者択一(alternative)における特性(features)の選択(Aの選択とBの選択とが互いに排他的であるところの、AまたはB)と、連言(conjunction)における特質の選択(AおよびBの両方が選択されるところの、AまたはB)とを包括し、ブール論理演算子としての正しい意味に用いられるものとする。
    以下の定義および、本開示全体に含まれる定義は、当業者に公知であるものに補足するものである。

    「生体分子」とは、生物で一般的に見いだされる分子のことをいう。 好適な生物学的分子は多数のサブユニットで構成され、典型的には、自然界においてポリマーである生体高分子(すなわち、「生体高分子」)が含まれる。 典型的な生体分子には、例えば、RNA、RNA類似体、DNA、DNA類似体、ポリペプチド、ポリペプチド類似体、ペプチド核酸(PNA)、RNAおよびDNAの合成物(例えば、キメラプラスト(chimeraplast))、またはそれらと同様のものを含んだ、RNA(ヌクレオチド・サブユニットから形成される)、DNA(ヌクレオチド・サブユニットから形成される)、およびポリペプチド(アミノ酸サブユニットから形成される)などの、天然に存在するポリマーといくつかの構造的性質を共有する分子が含まれるが、これらに限定されるものではない。 また、生体分子には、例えば、脂質、炭化物、または1つ以上の遺伝的にコード可能な分子(例えば、1つ以上の酵素か酵素系路)によって生成された他の有機分子なども含まれる。

    「核酸」という用語は、一本鎖、または二本鎖の形態をもつデオキシリボヌクレオチド、またはリボヌクレオチド、およびそれらのポリマー(例えば、オリゴヌクレオチド、ポリヌクレオチドなど)のことをいう。 特に限定されていない限り、この用語には、参照核酸と同様の結合特性を持ち、かつ天然に存在するヌクレオチドと同様の方法で代謝される公知の天然ヌクレオチド・アナログを含有する核酸も包括される。 また別に指示されない限り、ある特定の核酸配列はまた、明確に指示された配列に加えて、保存的な修正をもつ改変体(例えば、縮重コドン置換)および相補的配列を暗黙に包括する。 具体的には、1つ以上の選択された(またはすべての)コドンの第3位を、混合塩基、および/またはデオキシイノシン残基で置換した配列を生成することで、縮重コドン置換を行うことが可能である(Batzerら、Nucleic Acid Res.19:5081(1991);Ohtsukaら、J.Biol.Chem.260:2605−2608(1985);Rossoliniら、Mol.Cell.Probes 8:91−98(1994))。 核酸とういう用語は、例えば、オリゴヌクレオチド、ポリヌクレオチド、遺伝子、cDNA、および、ある遺伝子にコードされたmRNAと互換性をもって使用される。

    「核酸配列」とは、核酸を構成するヌクレオチドの順序とアイデンティティのことをいう。

    「ポリヌクレオチド」とは、文脈によって、ヌクレオチド(A、C、T、U、G、など、または、天然に存在するヌクレオチド類似体、もしくは人工ヌクレオチド類似体)のポリマー、またはヌクレオチドのポリマーを表す文字列(character string)のことをいう。 どのような特定のポリヌクレオチド配列も、所定の核酸か、またはそれに相補的な核酸のいずれかを、特定することが可能である。

    「遺伝子」という用語は、広い意味で使用され、生物学的機能に関連しているあらゆるDNAセグメントのことをいう。 即ち、遺伝子はコーディング配列を含み、さらに、場合によっては、それらの発現に必要な調節配列も含む。 また場合によっては、遺伝子は、非発現DNAセグメント、例えば他のタンパク質の認識配列を形成する非発現DNAセグメントを含む。 遺伝子は、目的となるソースからのクローニング、または既知の配列情報もしくは予測された配列情報からの合成を含む様々なソース(source)から得ることが可能であり、さらに、望ましいパラメータをもつように設計された配列を含んでいてもよい。

    2つの核酸からのそれぞれの配列が、子孫の核酸に一体化されるとき、2つの核酸が「組み換えられた」という。 2つの配列に関し、両方の核酸が組み換えの基質であるとき、それらの配列が「直接」組み換えられたという。

    「ポリペプチド」および「タンパク質」という用語は、本明細書において、アミノ酸残基のポリマーのことをいい、互換性をもって使用される。 通常、そのようなポリマーは、少なくとも約30アミノ酸残基をもち、さらに、一般的には少なくとも約50アミノ酸残基をもつ。 それらは、より典型的には、少なくとも約100アミノ酸残基を含有する。 この用語は、天然に存在するアミノ酸のポリマーに加えて、1つ以上のアミノ酸残基が、対応する天然に存在するアミノ酸の類似体、誘導体、または模倣物(mimetic)であるアミノ酸ポリマーにも適用される。 例えば、ポリペプチドは、例えば、炭水化物残基の添加によって修飾、または誘導体化され得、糖タンパク質を形成する。 「ポリペプチド」および「タンパク質」という用語には、非糖タンパク質に加えて、糖タンパク質も含まれる。

    「モチーフ」とは、生物学的分子内もしくは生物学的分子間のサブユニットのパターンをいう。 モチーフは、例えば、符号化されていない生物学的分子のサブユニット・パターン、もしくは生物学的分子の符号化された表象のサブユニット・パターンをいうことができる。

    「スクリーニング」とは、1個以上の生体分子の1つ以上の特性が決定される過程をいう。 例えば、通常のスクリーニング過程は、1つ以上のライブラリの1個以上のメンバーの1つ以上の特性が決定される過程を含む。

    「選択」とは、1個以上の生体分子が、目的の1つ以上の特性をもっているものとして同定される過程をいう。 従って、例えば、1個以上のライブラリ・メンバーの1つ以上の特性を決定するために、ライブラリをスクリーニングすることが可能である。 ライブラリ・メンバーの1つ以上が、目的の特性をもっているものとして同定される場合、その特性が選択されたことになる。 選択には、ライブラリ・メンバーの単離も含まれうるが、これは必ずしも必要でない。 さらに、選択およびスクリーニングは、同時に可能なものであり、実際に、しばしば同時になされる。

    「共変動(covariation)」という用語は、2つ以上の変数(例えば、ポリペプチドなどにおけるアミノ酸等)が相関して変化することをいう。

    「遺伝的アルゴリズム」とは、進化過程を模擬する過程である。 遺伝的アルゴリズム(GA)は、完全に特徴付けされていないか、または完全な特徴付けをするには複雑すぎる問題で、しかし何らかの分析的評価が利用可能であるような問題を解決するために、さまざまな分野で用いられている。 すなわち、GAは、何らかの定量可能な測定によって、解の相対的値(または、少なくとも、別のものとの比較における、一つの潜在解の相対的値)を評価することができる問題を解決するのに用いられる。 本発明のコンテクストにおいて、遺伝的アルゴリズムとは、コンピュータにおける文字列の選択、または演算の過程であって、通常、そのような文字列が1つ以上の生体学的分子(例えば、核酸、タンパク質、またはPNAなど)に対応する過程である。

    「有向進化(directed evolution)」、または「人工進化(artificial evolution)」とは、人為選択、組換え、または他の演算によって、人工的に文字列を変える過程を指し、すなわち、そのような過程は、(1)個体の改変体があり、その改変体のあるものは(2)遺伝性であり、そのような改変体のあるものは(3)適合性(所定の特性(望ましい特徴)に関する選択の結果によって決定される自己増殖の成功)が異なることを特徴とする自己増殖的集団で起きる。 そのような自己増殖的集団は、例えば、物理的な集団(physical population)であるか、またはコンピュータ・システムにおける仮想的な集団(virtual population)でありうる。

    「遺伝的演算子(genetic operator)」は、ユーザによって定義された演算子、または演算子のセットであって、それぞれ、文字列を演算するための論理命令が1セット含まれている。 遺伝的演算子は、所定の選択手段によって、探索空間(所定の望ましい特性をもった個体の集団)の興味深い(有用な)領域を見つけるために、個体の集団に変化を引き起こす目的で適用される。 所定の(または、部分的にあらかじめ規定された)選択手段は、計算ツール(文字列ライブラリを記述する情報の分析によって導かれる論理ステップを含んだ演算子)、および物理的目的物の物理特性を分析するための物理的ツールを含み、文字列ライブラリを記述する情報の表象を物理的に形成する目的で、物質から製作する(合成する)ことが可能である。 好適な実施形態では、論理演算子のいくつか、またはすべてがデジタル・システムで行われる。

    文字列(string)の演算(例えば、組換え、ハイブリッド生成、伸長、断片化、分断、挿入、欠失、変換など)に関して言及する際、その演算は、生物学的分子を符号化した表象に対して行うか、または、符号化された表象によって、その演算が捕捉できるように符号化される以前の「分子」に対して行うことができると理解されるものとする。

    「データ構造」とは、情報、または通常、情報の多数の「ピース」を保存するための組織(organization)および必要に応じて関連している装置のことをいう。 データ構造は、情報の単純な記録(例えば、リスト)であってもよく、あるいは、データ構造に含まれている情報に関する追加情報(例えば、注釈)を含有すること、データ構造の様々な「メンバー」(すなわち、情報の「ピース」)の間の相関を確立すること、さらに、データ構造外部のリソースへのポインタまたはリンクを提供することが可能である。 データ構造は、無形でありうるが、有形の媒体(例えば、紙、コンピュータの読み取り可能な媒体など)に保存、または表象されるとき有形となる。 データ構造は、様々なインフォメーション・アーキテクチャを表すことができる。 その中には、単純なリスト、リンク付きリスト、インデックス付きリスト、データ・テーブル、インデックス、ハッシュ・インデックス、フラット・ファイル・データベース、リレーショナル・データベース、ローカル・データベース、分散データベース、シン・クライアント・データベース、および同様のものが含まれるが、それらに限定はされるものではない。 好適な実施形態において、データ構造は、1つ以上の文字列の保存に十分なフィールドを提供する。 データ構造は、場合によっては、文字列のアラインメントが可能なように組織化され、さらに、場合によっては、アラインメントおよび/または文字列の類似性、および/または、文字列の相違に関する情報が保存できるように組織化される。 ある実施形態において、このような情報は、アライメント「スコア」(例えば、類似指数)であって、かつ/または、個々のサブユニット(例えば、核酸の場合、ヌクレオチド)のアラインメントを表すアラインメント・マップである。 「符号化された文字列」という用語は、ある生物学的分子に関し、該分子に関する所望される配列/構造情報を保存する該分子の表象のことをいう。 全般にわたって言及されるように、生体分子の非配列的特性はデータ構造に保存可能であって、そのような非配列的特性のアライメントは、配列に基づいたアラインメントと同様な方法で行うことが可能である。

    2つの核酸が配列類似性を示すとき、それらは共通の先祖をもつと一般に考えられている。 しかし、ホモロジーを確証するのに必要な配列類似性の正確なレベルは、当技術分野内において様々である。 この開示の目的とするところにおいては、一般に、2つの核酸配列が十分な配列同一性を共有し、それらの間で起こる直接組換えが可能なとき、それら2つの核酸配列は相同(homologous)であると見なされる。

    「系統発生的ファミリー(phylogenetic family)」とは、共通の進化的関係、または系統パターンを共有する生物、核酸配列、ポリペプチド配列、または同様のもののことをいう。

    「部分配列」、または「フラグメント」とは、核酸、またはアミノ酸の全配列における任意の部分のことをいう。

    「ライブラリ」、または「集団」とは、核酸配列(例えば、遺伝子、オリゴヌクレオチドなど)、またはその発現プロダクト(例えば、酵素)などの、少なくとも2つの異なった分子、および/または、文字列の集合のことをいう。 ライブラリまたは集団は、一般に多数の異なった分子を含んでいる。 例えば、ライブラリまたは集団は、一般的には、少なくとも約100個の異なった分子、より一般的には、少なくとも約1000個の異なった分子を含み、かつ、しばしば少なくとも約10,000個以上の異なった分子を含む。

    「決定ツリーと回帰ツリー(Classification And Regression Trees)」、別名「CART」とは、可能な一変量分岐(univariate splits)すべての徹底的なグリッド・サーチ(grid search)を用い、それにより決定ツリーの分岐を発見する決定ツリープログラムのことをいう。

    「体系的変化(Systematic variance)」とは、あるアイテムまたは1セットのアイテムの異なる記述子が、異なった組み合わせで変えられることをいう。

    「体系的に多様なデータ(Systematically varied data)」とは、あるアイテムまたは1セットのアイテムの異なる記述子が、異なる組み合わせで変えられることから、生成、派生、または帰結するデータのことをいう。 多数の異なる記述子を同時に変えることも可能であるが、それは異なった組み合わせにおいてである。 例えば、アミノ酸の組み合わせが変えられている複数のポリペプチドから集められた活性データは、体系的に多様なデータである。

    「記述子」とは、あるアイテムを記載するか、または同定する働きをもつもののことをいう。 例えば、文字列中の文字は、その文字列によって表されるポリペプチド中のアミノ酸の記述子となり得るものである。

    「ハイパーボックス(hyperbox)」とは、所与のデータ・セットに関し、パレート・フロント(Pareto Front)に少なくとも隣接した状態にある少なくとも1個の個体(例えば、スコアリングされた生体分子、または該生体分子の文字列表象)を含む目的空間(objective space)(例えば、配列空間(sequence space))内の選択された領域をいう。

    「配列」および「文字列」という用語は、タンパク質におけるアミノ酸残基の順序とアイデンティティ(すなわち、タンパク質配列もしくはタンパク質文字列)、または核酸におけるヌクレオチドの順序とアイデンティティ(すなわち、核酸配列もしくは核酸文字列)のことをいい、本明細書においては、互換性をもって使用される。

    (II. 改良タンパク質改変体ライブラリの生成)
    本発明によって、タンパク質配列空間および活性空間の探索に使用可能な新規タンパク質改変体ライブラリを生成する様々な方法が提供される。 そのような多数の方法のもつ1つの機構は、所望される活性に影響を与えることが予測されるタンパク質配列中のアミノ酸残基を同定する過程である。 一例として、そのような過程には以下の演算が含まれる。

    (a) タンパク質改変体のトレーニング・セット(training set)を特徴付けるデータを受け取る演算。 ここで、データは、トレーニング・セットの各タンパク質改変体に関する活性情報および配列情報を提供する演算。

    (b) データから、配列中のアミノ酸残基のタイプ、およびその対応位置の関数として、活性を予測する配列活性モデルを発展させる演算。

    (c) 配列活性モデルを使用して、所望される活性に影響を与えるために変化されるべき、1つ以上のタンパク質改変体中の特定位置にある1つ以上のアミノ酸残基を同定する演算。

    このような方法にわずかな変更を加えた他の方法は、本明細書に記載される本発明の範囲内である。

    図1は、示された順序、または他の順序によって実行可能な様々な演算を示すフローチャートである。 示されるように、プロセス01は、タンパク質改変体ライブラリのための残基配列を含むトレーニング・セットについて記述したデータを受け取り、ブロック03で始まる。 言い換えれば、トレーニング・セット・データは、タンパク質改変体ライブラリから得られる。 通常、そのようなデータは、ライブラリ中の各タンパク質についての活性値と、完全残基配列もしくは部分的残基配列とを含むものである。 場合により、トレーニング・セットは、多種の活性(例えば、速度定数および熱安定性)をあわせもつ。

    多くの実施形態において、タンパク質改変体ライブラリの個々のメンバーは、広範な配列および活性を示す。 これにより、広い領域の配列空間に適用性をもつ配列−活性モデルを生成することが可能となる。 そのような多様化したライブラリを生成するためのテクニックには、タンパク質配列の体系的変化(systematic variation)および有向進化テクニックが含まれる。 これらの両方については、本明細書における他の場所でさらに詳細に説明される。

    活性データは、活性規模を測定するために適切に計画されたアッセイまたはスクリーニングによって取得可能である。 そのようなテクニックは、周知であり、本発明における中心的な存在ではない。 適切なアッセイまたはスクリーニングを計画するための原則は、広く理解されている。 タンパク質配列を得るためのテクニックも、周知であり、本発明における中心的な存在ではない。 この発明において用いられる活性は、タンパク質の安定性(例えば、熱的安定性)であってもよい。 しかし、多くの重要な実施形態において、触媒能、病原菌耐性および/または毒素耐性、治療活性、毒性などの他の活性が考慮される。

    トレーニング・セット・データを生成もしくは取得した後、このプロセスは、このデータを用い、活性を配列情報の関数として予測する配列−活性モデルを生成する。 ブロック05を参照。 そのようなモデルは、そのタンパク質に関する配列情報が提供されたとき、特定のタンパク質の相対活性を予測する数式、アルゴリズムまたは他のツールである。 言い換えれば、タンパク質配列情報が入力であり、活性予測が出力である。 また、この発明の多くの実施形態においては、モデルによって、様々な残基による活性に対する寄与をランク付けすることも可能である。 そのようなモデルを生成する方法(例えば、PLS)については、独立変数の形式(配列情報)、従属変数の形式(活性)、およびモデル自体の形式(例えば、線形一次式)と共に、以下で論じる。

    ブロック05で生成されたモデルは、活性に影響を与えると予測される複数の残基位置(例えば、位置35)、または特定の残基値(residue value)(例えば、位置35のグルタミン)を同定するのに用いられる。 ブロック07を参照。 そのような位置を同定することに加えて、モデルによって、残基位置または残基値を、それらの活性への貢献に基づいて「ランク付けする」ことも可能である。 例えば、モデルによって、位置35のグルタミンは、活性に対する最も著しい影響をもち、位置208のフェニルアラニンは第2に最も著しい影響をもつなどと予測することが可能である。 以下に記述されるある特定の方式では、特定残基の重要度をランク付けするのに、PLS回帰係数を用いている。 また、別の特定の方式では、特定残基位置の重要度をランク付けするのに、PLSロード・マトリクス(PLS load matrix)を用いている。

    該プロセスによって、活性に影響を与える残基が同定された後、ブロック09で示されるように、それらのいくつかが変動用に選択される。 これは、配列空間を探索する目的で行われる。 残基の選択は、多くの異なる選択プロトコルのいずれかを用いて行われ、それらのいくつかについては、以下で説明する。 一実施例においては、活性に最も大きな有益な影響力を持っていると予測された特定残基が保存され、このことを言い換えると、それらは変動されない。 しかし、より少ない影響力を持っていると予測された他の残基の一定数は、変動用に選択される。 しかし、別の実施例では、活性に最も大きな影響力をもつことが見いだされた残基位置が選択されるが、それは、トレーニング・セットの高機能メンバー中で相違が見いだされたときに限る。 例えば、残基位置197に、活性に対する最も大きな影響力があると、モデルによって予測され、しかし、高い活性をもつすべてまたは大部分のタンパク質がこの位置にロイシンをもっている場合、−この方式において−位置197は変動用に選択されないであろう。 次世代ライブラリ中のすべてのタンパク質が位置197にロイシンをもつことになる。 しかし、もし、いくつかの「良い」タンパク質がこの位置にバリンをもち、他のものがロイシンをもっている場合には、このプロセスによって、この位置のアミノ酸を変動させることが選ばれるであろう。

    変動用の残基が同定された後、この方法は、次に、指定された残基の変動をもつ新規の改変体ライブラリを生成する。 ブロック11を参照。 この目的には、様々な方法論が利用可能である。 一実施例においては、新改変体ライブラリを生成するのに、生体外(in vitro)、または生体内(in vivo)の組換え反応に基づく多様性生成メカニズムが実施される。 そのような処置において、親である改変体ライブラリのタンパク質をコードする配列または部分配列を含むオリゴヌクレオチドを使用することが可能である。 そのようなオリゴヌクレオチドのいくつかは、09で変動用に選択された代替アミノ酸についてのコドンの選択のみに相違をもつ、近縁の関係にあるであろう。 組換え反応に基づく多様性生成メカニズムは、1サイクルまたは複数サイクル行うことができる。 複数のサイクルを用いる場合、各サイクルには、次の組換えサイクルで使用するための許容範囲の性能をもつ改変体を明らかにするスクリーニング・ステップが含まれる。 これは有向進化の一形式である。

    別の実施例においては、「標準」タンパク質配列が選ばれ、09で選択された残基は、改変体ライブラリの個々のメンバーを同定するために「切り換えられる」。 そのようにして同定された新規タンパク質は、適切なテクニックによって合成され、新規ライブラリを生成する。 一実施例において、標部分配列はトレーニング・セットの最高性能のメンバーか、またはPLSモデルによって予測された「最も良い」配列であってもよい。

    別の方式では、配列活性モデルは、配列空間を探索する遺伝的アルゴリズムにおける「適合関数」として用いられる。 1ラウンド以上の遺伝的アルゴリズム(各ラウンドごとに適合関数を用い、遺伝的演算子のための1つ以上の可能な配列を選択する)の後、このフローチャートに示されているように、使用するための次世代ライブラリを同定する。

    新規ライブラリを生成した後、ブロック13に示されているように、活性に関して、そのライブラリをスクリーニングする。 理想的には、新規ライブラリには、前ライブラリ中で観測された活性より、より良い活性をもつメンバーが1つ以上、提示されるであろう。 しかし、そのような利点がなくても、新規ライブラリは有益な情報を提供することができる。 メンバーは、09で選択された変動の効果を説明し、それにより、さらに広い領域の配列空間にわたって、より正確に活性を予測する改良モデルの生成に用いることが可能である。 さらに、そのようなライブラリは、配列空間において、(活性の)局部的最大から、全体的最大に向かう経路を表している可能性もある。

    プロセス01の目的とするところによっては、各々がトレーニング・セットの新規メンバーを提供する一連の新規タンパク質改変体ライブラリを生成することが望ましいかもしれない。 更新後のトレーニング・セットは、次いで、改良モデルを生成するのに用いられる。 このため、プロセス01は、さらに別のタンパク質改変体ライブラリを生成するべきであるかを決定する決定演算15を含めて示されている。 この決定をするのに、様々な基準を用いることが可能である。 そのような基準の例には、今までに生成されたタンパク質改変体ライブラリの数、現在のライブラリから得られた最高のタンパク質の活性、所望する活性の規模、および最近の新規ライブラリにおいて観測された改良レベルが含まれる。

    このプロセスを新規ライブラリで継続するものとすると、プロセスは演算05に戻り、そこで、現在のタンパク質改変体ライブラリから得られた配列データおよび活性データから、新規配列−活性モデルが生成される。 言い換えれば、現在のタンパク質改変体ライブラリから得られた配列データおよび活性データは、新規モデルのためのトレーニング・セットの一部として機能する(あるいは、トレーニング・セットの全体として機能することも可能である)。 その後、演算07、09、11、13、および15が上記の記載と同様に行われるが、それらは新規モデルを用いて行われる。

    プロセス01中において、ある時点で、このサイクルが終了し、新規ライブラリが全く生成されなくなるであろう。 その時点で、プロセスは単に終了してもよく、あるいは、開発および/または製造用として、1つ以上のライブラリからの1つ以上の配列を選択することもできる。 ブロック17を参照。

    (A.タンパク質改変体ライブラリの選択)
    タンパク質改変体ライブラリは、本発明の方法で生成された複数のタンパク質のグループである。 また、タンパク質改変体ライブラリは、配列−活性モデルを生成するのに用いられたトレーニング・セットのためのデータを提供する。 タンパク質改変体ライブラリに含まれるタンパク質の数は、その適用および費用に依存する。

    一例においては、タンパク質改変体ライブラリは、1つ以上の天然に存在するタンパク質から生成される。 一例においては、これらは単一遺伝子ファミリーによってコードされたタンパク質メンバーである。 ライブラリのための他の開始点を用いてもよい。 これらのシード(seed)タンパク質、または開始タンパク質から、様々な技術によって、ライブラリが生成され得る。 ある場合には、ライブラリは、1つ以上の親タンパク質の部分またはすべてをコードする核酸における古典的DNAシャフリング(すなわち、Stemmer(1994)Proc.Natl.Acad.Sci.USA:10747−10751およびWO95/22625に記載されている、DNA断片化媒介性組み換え)、または合成DNAシャフリング(すなわち、Nessら(2002)Nature Biotechnology20:1251−1255およびWO00/42561に記載されている、合成オリゴヌクレオチド媒介性組み換え)によって生成される。 別の場合には、単一の開始配列を様々に改変してライブラリを生成する。 好ましくは、ライブラリは、体系的に個々の残基を変えることによって、生成される。 一例においては、体系的に変化した配列(systematically varied sequence)を同定するために、実験計画(DOE)法を用いる。 別の例においては、あるレベルの体系的変化(systematic variation)を導入するために、オリゴヌクレオチド媒介性組み換えなどの「ウエット・ラボ(wet lab)」手順が用いられる。

    本明細書において、「体系的に変化した配列」という用語は、各残基が複数の状況において見出される、1セットの配列のことをいう。 原則として、体系的変化のレベルは、配列がお互いから直交している(orthogonal)(平均と比較して最も異なる)度合いで定量化することができる。 実際には、このプロセスは、最も直交した配列をもつことに依存しないが、モデルの精度は、テストされた配列空間の直交性と直接的な関係をもって向上するであろう。 ある簡単な例において、各々が2つの異なったアミノ酸のうちの1つをもつことができるような、2つの残基位置を同定することによって、ペプチド配列が体系的に変えられる。 最も多様なライブラリは、4つの可能な配列のすべてを含んでいる。 そのような最大限の体系的変化は、可変的な位置の数に従って、指数関数的に、例えば、N残基位置のそれぞれに2つのオプションがある場合は、2 で増大する。 しかしながら、最大限度の体系的変化は本発明の方法に必要でないことは、当業者なら、容易に認めるであろう。 体系的変化は、配列空間の良いサンプリングを提供する比較的小さなセットのテスト用配列を同定するメカニズムを提供する。

    体系的に変化した配列をもつタンパク質改変体は、当業者にとって周知の技術を用いて、多数の方法で得ることができる。 適切な方法には、1つ以上の「親」のポリヌクレオチド配列に基づいて改変体を生成する、組み換えに基づく方法が含まれる。 ポリヌクレオチド配列は、種々の技術を用いて、組み換えることが可能であり、例えば組み換えるべきポリヌクレオチドのDNAse消化に続く、ライゲーション、および/または核酸のPCR再構築が含まれる。 これらの方法には、例えば、Stemmer(1994)Proc. Natl. Acad. Sci. USA、91:10747−10751、米国特許第5,605,793号、「Methods for In Vitro Recombination」、米国特許第5,811,238号、「Methods for Generating Polynucleotides having Desired Characteristics by Iterative Selection and Recombination」、米国特許第5,830,721号、「DNA Mutagenesis by Random Fragmentation and Reassembly」、米国特許第5,834,252号、「End Complementary Polymerase Reaction」、米国特許第5,837,458号、「Methods and Compositions for Cellular and Metabolic Engineering」、PCT公報WO/42832、「Recombination of Polynucleotide Sequences Using Random or Defined Primers」、PCT公報WO98/27230、「Methods and Compositions for Polypeptide Engineering」、PCT公報WO99/29902、「Method for Creating Polynucleotide and Polypeptide Sequences」などに記載されたものが含まれる。

    また、合成組み換え方法は、体系的変化によってタンパク質改変体ライブラリを生成するのに特によく適している。 合成組み換え方法では、組み換えの目的である複数の遺伝子を集合的にコードする複数のオリゴヌクレオチドを合成する。 代表的に、オリゴヌクレオチドは、相同な親遺伝子に由来する配列を集合的にコードする。 例えば、目的とする相同遺伝子を、BLASTなどの配列アラインメント・プログラムを用いて整列させる(Atschulら、J.Mol.Biol、215:403−410、(1990))。 ホモログ間のアミノ酸変化に対応するヌクレオチドが、注記される。 親配列の共分散分析、親配列に関する機能情報、親配列間の保存的変化または非保存的変化の選択、または他の同様な基準に基づき、必要に応じて、これらの変化は、すべての可能な変化の部分集合にさらに限定される。 必要に応じて、例えば、親配列の共分散分析、親配列に関する機能情報、親配列間の保存的変化または非保存的変化の選択、またはその位置での見かけの変化許容度によって同定された位置にて、さらなるアミノ酸をコードするように、変化がさらに増大される。 その結果は、親遺伝子配列に由来するコンセンサスアミノ酸配列をコードする縮重遺伝子配列であり、アミノ酸変化をコードする位置に縮重ヌクレオチドをともなう。 オリゴヌクレオチドは、縮重遺伝子中に存在する多様性を組み立てるのに必要なヌクレオチドを含むようにデザインされる。 そのようなアプローチに関する詳細は、例えば、Nessら(2002)、Nature Biotechnology 20:1251−1255、PCT公報WO00/42561、「Oligonucleotide Mediated Nucleic Acid Recombination」、PCT公報WO00/42560、「Methods for Making Character Strings,Polynucleotides and Polypeptides having Desired Characteristics」、PCT公報WO01/75767、「In Silico Cross−Over Site Selection」、およびPCT公報WO01/64864、「Single−Stranded Nucleic Acid Template−Mediated Recombination and Nucleic Acid Fragment Isolation」に見いだすことができる。

    ポリヌクレオチド改変体配列は、その後、インビトロまたはインビボのいずれかで転写、翻訳され、タンパク質改変体配列のセットまたはライブラリが生成される。

    体系的に変化した配列のセットはまた、実験計画(DOE)法を用いることによって、先験的にデザインして、データ・セット中の配列を規定することが可能である。 DOE法に関する記述は、Diamond,W. J. (2001)Practical Experiment Designs:for Engineers and Scientists、John Wiley & Sons、ならびにWilliam J Drummond(1981)「Practical Experimenral Design for engineers and scientists」、Van Nostrand Reinhold Co,New York、「Statistics for experimenters」George E. P. Box、William G HunterおよびJ. Stuart Hunter(1978)John Wiley & Sons、または、例えば、ワールドワイドウェブのit1. nist. gov/div898/handbook/に見いだすことができる。 MatLabおよびStatease Design expertを含むいくつかのコンピュータのパッケージが、関連する数学的演算を行うのに利用可能である。 本発明の配列活性モデルを構築するのに適当な、体系的に変化しておりかつ直交した配列分散データ・セットが、結果として得られる。 DOEに基づくデータ・セットは、プラケット・バルマン計画(Plackett−Burman design)、または一部実施要因計画法(Fractional Factorial design)(同書)を用いて簡単に生成することができる。

    工学または化学では、一部実施要因計画は、例えば、因子が2つ以上のレベル間で変えられる(切り換えられる)、(完全実施要因計画(full factorial design))より少ない実験を規定するのに用いられる。 最適化技術は、選ばれた実験が、因子空間の分散を説明するのに最大限の情報であることを確実にするために用いられる。 同じ計画アプローチ(例えば、一部実施要因計画、D−最適計画)が、タンパク質工学において、所定数の位置が2つ以上の残基間で切り換わっている、より少数の配列を構築するために適用することができる。 このセットの配列は、問題のタンパク質配列空間に存在する体系的変化の最適な記述となるであろう。 いったん対応する分子(例えば、ポリヌクレオチドは、配列計画の逆翻訳に従って遺伝子合成によって構築可能であり、その後それをポリペプチドとして発現することが可能である)の活性が測定されれば、最適解である傾向にあるPLSモデルが、開発される。 構築される配列の数に制限がないことが、言及されるべきである。

    タンパク質工学に適用されるDOEアプローチの一例には、以下の演算が含まれている:
    1)以前に記述された原則(親配列における存在、保存レベルなど)に基づいて、切り変える位置を同定する 2)一般的に利用可能な統計学パッケージの1つを用い、因子(可変位置)数、レベル(各位置での選択肢)数、および実行すべき実験の数を規定することによって、DOE実験を構築する。 出力マトリクスの情報量、(通常、各位置における残基の選択肢を表す、複数の1と複数の0とからなる)は、実行する実験の数に直接依存する(多いほど良い)
    3)出力マトリクスを用い、タンパク質アライメントを構築する。 このタンパク質アラインメントは、1および0を、各位置における特定の残基選択肢に戻して符号化している 4)タンパク質アライメントで表されたタンパク質をコードする遺伝子を合成する 5)適切なアッセイを行い、合成遺伝子によってコードされたタンパク質をテストする 6)テストされた遺伝子/タンパク質に関するモデルを構築する 7)以前に記述された方法に従い、重要な位置を同定し、適合性において向上を示す後続ライブラリを構築する。

    例示を目的として、20個の位置で機能上最良のアミノ酸残基が決定されるべき(例えば、各位置で2つの可能なアミノ酸が利用可能である)アミノ酸を検討する。 この場合、分解能IV要因計画(resolution IV factorial design)が適切であるだろう。 分解能IV計画は、2因子の影響が重なり合うことなく、すべての単一変数の影響を解明することができるものとして定義される。 この計画において、40個の特定のアミノ酸配列のセットが特定されることになり、それは、2 20 (約100万)個の可能な配列の全多様性を包括するであろう。 その後、これらの配列が、標準的な遺伝子合成プロトコルによって生成され、これらのクローンの機能および適合性が、測定される。

    上のアプローチの代替手段は、利用可能なすべての配列(例えばGenBank(登録商標)データベース、および他の公共の情報源)を用いて、タンパク質改変体ライブラリを提供することである。 これには大規模な演算能を必要とするが、現在の技術によって、このアプローチが可能となっている。 すべての利用可能な配列をマッピング(mapping)することで、目的とする配列空間領域の指標が得られる。

    (B.配列活性モデルの生成、および変化のための残基位置を同定するためのそのモデル使用)
    上述のように、本発明とともに用いられる配列−活性モデルは、タンパク質配列情報をタンパク質活性に関連づける。 モデルによって用いられるタンパク質配列情報は、多くの形式を取り得る。 それはしばしば、タンパク質中のアミノ酸残基の完全配列(例えば、HGPVFSTGGA...)である。 しかし、ある場合には、完全アミノ酸配列を提供する必要がないかもしれない。 例えば、特定の研究活動で変えられることになっている残基だけを提供すれば十分であるかもしれない。 例えば、研究の後期において、多くの残基が固定され得、配列空間の限定的な領域だけが、探索すべき領域として残される。 そのような状況では、入力として、探索を継続するタンパク質領域にある残基の同定のみを必要とする配列活性モデルを提供することが、好都合であり得る。 そしてさらに、いくつかのモデルでは、その残基位置における残基の正確な身元を必要しないかもしれず、代わりに特定の残基位置のアミノ酸を特徴付ける1つ以上の物理的性質または化学的性質を同定し得る。 例えば、そのようなモデルでは、残基位置を、バルク(bulk)、疎水性度、酸性度などで指定する必要があるかもしれない。 あるモデルでは、そのような特性の組合せを採用している。

    配列−活性モデルの形式は、配列情報に基づくタンパク質の相対活性を正しく近似するための手段を提供する限り、きわめて多様なものでありうる。 一般的に、そのようなモデルは、活性を従属変数として扱い、配列/残基値を独立変数として扱うであろう。 モデルの数学的/論理的な形式の例は、様々な次数での線型および非線型数式表現、ニューラル・ネットワーク法、分類および回帰のツリー/グラフ、クラスター化アプローチ、再帰的分割、サポート・ベクトル・マシン(support vector machine)などを含む。 一つの好適な実施形態で、モデル形式は、係数および残基値の積が総計される、線型付加モデルである。 別の好適な実施形態で、モデル形式は、特定の残基外積(残基の間の相互作用項を表す)を含む、様々な配列/残基項の非線型積である。

    モデルは、活性と配列との間の数学的/論理的関係を提供するために、活性情報に対する配列のトレーニング・セットから開発される。 この関係は、代表的には、新規の配列の活性または残基の重要度を予測するために使用するに先だって、認証される。

    モデルを生成するための様々な技術が利用可能である。 しばしば、そのような技術は、最適化技術または最小化技術である。 具体的な例には、部分最小二乗法、他の様々な回帰技術、遺伝プログラミング最適化技術、ニューラルネットワーク技術、再帰的分割、およびサポ−ト・ベクトル・マシン技術が含まれる。 一般的に言って、そのような技術は、活性に重要な影響を与える残基を、そうでない残基から識別できるモデルを生じるべきある。 また、そのようなモデルは、活性に対する影響に基づいて、個々の残基または、残基位置をランク付けするものであるのもまた、好ましい。

    本発明の好適な実施形態において、配列活性モデルは、部分最小二乗(PLS)変数の回帰モデルである。 PLSは、X(独立)変数の重要度回帰を用いて、変数間の多重共線性ならびに、変数とYスコア(すなわち、従属変数)との相関に基づいて予測モデルを築き上げる、アルゴリズムである。 PLSによって、XスコアおよびYスコアは、XスコアとYスコアの連続した対の関係ができるだけ強くなるように選択される。 Hand,D. J. 、ら(2001)Principle of Data Mining(Adaptive Computation and Machine Learning)、Boston,MA,MIT Press。 PLSを用いることで最終回帰方程式をどのように導くかに関する詳細は、例えば、Geladiら、(1986)「Partial Least−Squares Regression:a Tutorial」、Anal. Chim. Acta,198:1−17に見いだすことができる。

    一般に、本発明の実施で使われるPLS回帰モデルは、以下の形式をもつ:

    この数式で、yは予測される応答であり、c

    ijおよびx

    ijは、それぞれ、配列中の位置iの回帰係数およびビット値(すなわち、残基選択)である。 タンパク質改変体ライブラリの配列には、N個の残基位置があり、これらの各位置は、1つ以上の残基によって占められ得る。 所与のいかなる位置でも、j=1〜M個の別個の残基タイプが存在し得る。


    このPLSモデルは、位置ごとに、残基間の線型的な(加法的な)関係を仮定する。 方程式1の拡張版は次の通りである:


    y=c

    +c

    11

    11 +c

    12

    12 +. . . c

    1M

    1M +c

    21

    21 +c

    22

    22 +. . . c

    2M

    2M +. . . +c

    NM

    NM

    活性および配列情報の形式でのデータは、初期のタンパク質改変体ライブラリから派生し、PLSモデルの回帰係数を決定するのに用いられる。 ビット値は、最初、タンパク質改変体配列のアライメントから同定される。 アミノ酸残基位置は、それらの位置におけるアミノ酸残基が配列間で異なるタンパク質改変体配列の中から同定される。 これら可変的残基位置のいくつか、またはすべてにおけるアミノ酸残基情報を配列活性モデルに組み込むことも可能である。

    表Iは、10個の例示的改変体タンパク質に関して、可変的残基位置および残基タイプの形式での配列情報を含み、それぞれの改変体タンパク質に対応する活性値と併せて示している。 これらは、すべての係数に関して解くのに十分な数の方程式を生みだすのに必要なより大きいセットのメンバーを代表するものであると理解されなければならない。 従って、例えば、表Iの例示的タンパク質改変体配列に関し、位置10、166、175、および340は可変的残基位置であり、他のすべての位置(すなわち、表で示されないもの)は改変体1〜10の間で同じ残基を含んでいる。

    表1 例示的な配列および活性データ可変位置 10 166 175 340 y(活性)
    改変体1 Ala Ser Gly Phe y
    改変体2 Asp Phe Val Ala y
    改変体3 Lys Leu Gly Ala y
    改変体4 Asp Ile Val Phe y
    改変体5 Ala Ile Val Ala y
    改変体6 Asp Ser Gly Phe y
    改変体7 Lys Phe Gly Phe y
    改変体8 Ala Phe Val Ala y
    改変体9 Lys Ser Gly Phe y
    改変体10 Asp Leu Val Ala y 10
    など。
    したがって、方程式1に基づき、表1の体系的に変化したライブラリからPLSモデルを導くことができる。 すなわち、

    ビット値(x変数)は、1または0(あるいは1または−1)として表すことが可能で、指定されたアミノ酸残基の存在または非存在を反映する。 例えば、1または0の表記を用いると、x 10Alaは、改変体1に関して「1」であり、さらに、改変体2に関して、「0」である。 1または−1の表記を用いると、x 10Alaは、改変体1に関して「1」であり、さらに、改変体2に関して、「−1」である。 したがって、ライブラリ中のすべての改変体に関する配列活性情報に基づいて、PLS方程式から回帰係数を導くことが可能である。 改変体1〜10に関するそのような方程式の例(xに1または0の表記を用いて)は以下の通りである。

    PLSを用いることで、容易に方程式の完全セットを解くことが可能であり、目的とする残基および位置のそれぞれに対応する回帰係数の値を決定することができる。 この例では、回帰係数の相対的大きさは、特定位置における特定残基の活性に対する貢献の相対的大きさに相関する。 回帰係数は、その後、所望の活性に好ましい貢献をする可能性の高い残基がどれであるかを決定するために、ランク付けされるか、または別の方法で分類することが可能である。 表IIは、表Iで例示された体系的に多様なライブラリに対応する例示的回帰係数値を提供する。

    所望の活性に関して最適化される(すなわち、適合性を向上させる)タンパク質改変体の新規のライブラリを構築するために、回帰係数のランク順リストを用いることが可能である。 これは多様な方法で実施可能である。 ある場合には、それは、最も高い観測値の係数をもつアミノ酸残基を残すことで達成される。 これらは、PLSモデルによって、所望の活性に最も貢献するものとして示された残基である。 残基を同定するのに負の記述子を使用する場合(例えば、ロイシンに1、およびグリシンに−1)、その係数の絶対値に基づく残基位置のランク付けが必要になる。 そのような状況では、通常、各残基に関し、ただ一つの係数しかないことに注意しなければならない。 係数規模の絶対値によって、対応する残基位置のランク付けが与えられる。 その後、個々の残基に関して、それらの各々が所望の活性にとって、有害であるか、または有益であるかを決定する符号について考慮することが必要になる。

    残基は、概ね、それらがランクされた順に考慮される。 考慮中の各残基に関し、この過程は、その残基を「切り換える」かどうか決定する。 「切り換える」という用語は、最適化されたライブラリの中のタンパク質改変体の配列における、特定の位置に複数のアミノ酸残基タイプを導入することをいう。 例えば、あるタンパク質改変体では位置166にセリンがあってもよく、また、同じライブラリの別のタンパク質改変体では位置166にフェニルアラニンがあってもよい。 トレーニング・セット中のタンパク質改変体配列間で異ならなかったアミノ酸残基は、通常、最適化されたライブラリにおいて固定されたまま残っている。

    回帰係数のランクが「高い」と同定されているすべての残基を固定し、残っている回帰係数のランクがより低い残基を切り換えるように、最適化されたタンパク質改変体ライブラリを設計することができる。 このようにする論理的根拠は、「最善」と予測されたタンパク質を取り囲む局所空間を捜すのがよいというものである。 切り換えを導入する出発点である「骨格」は、最善として予測されたPLSタンパク質であってもよく、またはスクリ−ニングされたライブラリの中で、既に「最善」のものとして認証されているタンパク質であってもよいということに注意しなければならない。

    代替手法の一つでは、同定された高ランク回帰係数をもつ残基のすべてではないが、少なくとも一つ以上を、最適化されたライブラリで固定し、他を切り換えることが可能である。 一回に取り込む変化が多すぎることによって、他のアミノ酸残基のコンテクストを大幅に変えるのを避けるのが望ましい場合、この方式が推奨される。 再度、切り換えの出発点は、PLSモデルによって予測される最善のセットの残基でもよく、または、既存のライブラリで最善のものと認証されたタンパク質でもよい。 または、出発点は、うまくモデル化される「平均的な」クローンであってもよい。 この場合、より高い重要度が予測されている残基を切り換えるのが望ましくあり得る。 このようにする論理的根拠は、以前にサンプリングから省略された活性の丘(activity hill)を探索するには、より大きい空間を探索するのがよいということである。 このタイプのライブラリは、後続するラウンドに関する、より明確な未来像を与えるため、通常、早期のラウンドにおいてより重要である。

    保存すべき高い値の回帰係数をもつ残基の数、および切り換えるべき低い値の回帰係数をもつ残基の数は、変化しうる。 考慮すべき要因には、望ましいライブラリ・サイズ、および回帰係数間の相違度が含まれる。 本発明の典型的な、最適化されたタンパク質改変体ライブラリは、約2 タンパク質改変体を含む。 ここで、Nは2つの残基の間で切り換えられる位置の数を表す。 言い換えると、切り換えが追加される度に多様性が増加し、それによってライブラリのサイズが次のように倍化する。 すなわち、10位置の切り換えによって、約1,000クローン(1,024)、13位置で 約10,000クローン(8,192)、そして、20位置で、約1,000,000クローン(1,048,576)が生じる。 ライブラリの適切なサイズは、スクリーニングの費用、ランドスケープの凹凸度、サンプリングとして好ましい空間の割合等の要因に依存する。

    実際には、様々な後続ラウンド・ライブラリ・ストラテジーを同時に追求することが可能である。 いくつかのストラテジーは、より攻撃的であり(より多くの「有益」残基を固定する)、そして、他のストラテジーは、より保守的である(空間をより徹底的に探索するという望みで、より少ない「有益な」残基を固定する)。

    最適化されたタンパク質改変体ライブラリは、本明細書中に記載された組み換え法で生成可能であり、あるいは遺伝子合成法と、それに続く生体内(in vivo)、もしくは生体外(in vitro)発現とによって生成可能である。 その後、最適化されたタンパク質改変体ライブラリを所望の活性に関してスクリーニングし、配列決定する。 図1の上述議論で示されたように、本明細書中に記述された方法を用いて、最適化されたタンパク質改変体ライブラリからの活性情報および配列情報を採用して、別の配列活性モデルが生成可能であり、さらにそこから一層の最適化されたライブラリを設計することができる。 ある方式では、この新規のライブラリからのすべてのタンパク質がデータ・セットの一部として用いられる。

    様々な方式において、最適化されたライブラリ中の、ウェットラボ認証された(wet−lab validated)「最善の」(または、数少ない最善のものの1つ)タンパク質(すなわち、測定された機能において最高値、またはいくつかの最高値の一つ、をもつタンパク質で、かつ良好にモデル化される、すなわち、PLS交差検定において、予測値に比較的近い値を与えるタンパク質)は、様々な変化の機構を組み込む骨格として機能可能である。 この方式では、現在の最適化されたライブラリ中の最善タンパク質の1つ、またはいくつかの残基を変えることによって、「次世代」ライブラリのためのデータ・セット(および、おそらく対応するPLSモデル)を得る。 一実施形態では、これらの変化が骨格中の残基の体系的多様性に含まれる。

    上述の方式の他の多数の変異形(variation)も、本発明の範囲内にある。 一例として、x ij変数は、アミノ酸自体の正確なアイデンティティ(ロイシン対バリン、対プロリン、・・・)より、むしろアミノ酸の物理的または化学的特性の表象である。 そのような特性の例は、親油性、バルク、および電子的特性(例えば、形式電荷、部分電荷に伴うファン・デル・ワース表面積、など)を含む。 この方式を実施するために、アミノ酸残基を表すx ij値は、それらアミノ酸の特性、または特性から構築された主成分で表すことが可能である。

    上の方式の他の変異形では、残基をランク付けするために、または他の方法によって重要度に関する特徴付けを行うために、異なったテクニックを使用する。 上の方式では、回帰係数の規模が、残基をランク付けするのに用いられた。 規模の大きな係数をもつ残基(例えば、166Ile)は、ランクの高い残基として見なされた。 この特徴付けは、タンパク質改変体の新規かつ最適化されたライブラリを生成する際、特定の残基を変えるか否か決めるのに用いられた。

    PLSおよび他のテクニックによって、回帰係数規模の他にも、特定の残基または残基位置をランク付けするために使用可能な他の情報が与えられる。 PLSおよび主成分分析(principle component analysis)(PCA)などのテクニックは、主成分(principle component)、または固有ベクトル(latent vector)の形式で情報を提供する。 これらは、この発明で使われたタンパク質配列−活性空間などの多次元データ・セットを通る最大偏差の方向またはベクトルを表す。 これらの固有ベクトルは、様々な配列次元、すなわち、トレーニング・セットの構築に用いられた改変体ライブラリのタンパク質配列に含まれる個々の残基または残基位置の関数である。 したがって、固有ベクトルは、トレーニング・セットにおける残基位置それぞれからの貢献の合計を含む。 位置のいくつかは、ベクトルの方向により強く貢献する。 「負荷」、すなわち、ベクトルを記述するのに用いられた係数が比較的大きいとき、これらは顕性になるだろう。 簡単な事例として、トレーニング・セットがトリペプチドからなるものとすることが可能である。 最初の固有ベクトルには、通常、3つの残基すべてからの貢献がある。
    ベクトル1=a1(残基位置1)+a2(残基位置2)+a3(残基位置3)
    係数a1、a2、およびa3が、負荷である。 これらはデータ・セットの変異に対する、対応する残基位置の重要さを反映するので、上記の記載と同様、「切り換え」の決定を目的として、個々の残基位置の重要度をランク付けするために、それらを用いることが可能である。 回帰係数のように、負荷は、各切り換え位置において、残基をランク付けするのに用いることが可能である。 様々なパラメータによって、これらの負荷の重要度が示される。 そのようなもの、バリアブル・インポータンス・イン・プロジェクション(Variable Importance in Projection)(VIP)は、トレーニング・セットから取られた複数の固有ベクトルに対する負荷からなる負荷マトリクス(load matrix)を利用する。 バリアブル・インポータンス・フォー・ピー・エル・エス・プロジェクション(Variable Importance for PLS Projection)において、i番目変数(例えば、残基位置)の重要度がVIP(予測における可変重要度(variable importance in projection))を計算することによって算定される。 所与のPLS次元aに関し、(VIN) ak は、a変数の二乗PLSウエイト(W akに、PLS次元による、y(従属変数、例えば、特定関数)のパーセント表示変異(percent explained variavility in y by that PLS dimension)を掛けたものに等しい。 (VIN) ak は、すべてのPLS次元(成分)について合計される。 次いで、VIPは、その合計をPLSモデルで示されたyの全体パーセント変異(total percent variability in y explained by the PLS model)で割り、さらにこのモデルにおける変数の数を掛けることによって計算される。 大きなVIP(1より大きい)の変数は、特定関数(y)との相関において最も重要であり、したがって、切り換え決定の目的上、最も高いランク付けがされる。

    上の方法論への他の代替手段では、どの残基を切り換えたらよいかを決定する際に、残基重要度(ランク付け)を用いる手順が異なる。 そのような代替手段の1つでは、より高いランク付けされた残基位置が切り換えに選択される。 この方式で必要な情報には、トレーニング・セットからの最善のタンパク質の配列、PLSで予測された最善の配列、およびPLSモデルからの残基のランク付けが含まれる。 「最善の」タンパク質は、データ・セットにおける、ウェットラボ認証された「最善の」クローンである(すなわち、測定された機能において最高値をもつクローンで、かつ良好にモデル化される、すなわち、PLS交差検定において、予測値に比較的近い値を与えるクローン)。 この方法では、このタンパク質の各残基と、所望の活性の最高値をもつ「最も良く予測された」配列の対応する残基とが比べられる。 これは、最高の負荷をもつ残基から始まり、例えば、負荷マトリクスを用いることで、実現する。 代替としては、PLSで最も良く予測された配列の別の指標、例えば、各位置に関する回帰係数の最も高い値などが使用される。 最高の負荷または回帰係数をもつ残基が、「最善の」クローンに存在しない場合、この方法では、その位置を、後続のライブラリのための切り換え位置として導入する。 この過程は、様々な残基に関し、反復され、ライブラリが十分なサイズのものになるまで、負荷値がより低いものへと順次に移行する。

    より一般的には、配列活性モデルによって、所望の活性の最高値(または、最高値の1つ)をもつと予測された配列は、次世代ライブラリを構築する際に、様々に利用することができる。 そのような配列を、様々な突然変異誘発、組み換え、そして/または、部分配列選択テクニックの目的にするこが可能である。 これらはそれぞれ、生体内(in vivo)、生体外(in vitro)、またはコンピュータ内(in silico)で行うことが可能である。

    III. 所望の特性を有し、および/または人工進化のための標的生体分子の同定 A. 多数の特性に対するパレート・フロント最適化を用いたライブラリの設計 本発明は、パレート・フロント最適化を利用して、多数のポリペプチド特性(すなわち、多数の目的)の最適化に関連させて、人工進化(例えば、DNAシャッフリングなど)の未来のラウンドを実行するためのクローンを選択する方法を提供する。 パレート・フロント最適化は、2つ以上の所望の目的を同時に改善する多目的進化的アルゴリズムである。

    例示するために、図2は、データの仮説セットのプロットでのパレート・フロントを図示するグラフを提供し、関数2(F2)は、関数1(F1)の関数としてプロットされている。 任意の最適化問題は、例えば適合性の符号を逆転することによって、または適合性を反転することによって、最小化問題として任意に割り当てられる。 図2に示すように、例えば、軸は、同時に最小化すべき異なる目的を表す。 パレート・フロント上にある解(番号が付されたデータ点によって表される)は、いずれの他の解にも「優越」されないトレードオフ解を表す。 これらの非優越点は、仮説データ・セット中で、両方の目的で全ての解より良い(この場合小さい)他の解が存在しないという事実によって定義される。 例えば、解2は、目的F2に対してより小さい値を有してはいるが、解1が目的F1に対してより小さい値を有しているので、解1はパレート・フロントの部分である。 それに対して、少なくとも1つの解が両方の目的でより良いので、解7はパレート・フロントの部分ではない。

    図4は、人工進化に最も適した生体高分子配列改変体の集団のメンバーを同定する本発明の方法の一実施形態で実行される特定のステップを図示する表である。 フレーズ「人工進化に最も適した」とは、例えば改変体をスコアリング(例えば、スクリーニングまたは選択)し、所望の目的に対してプロットする際、パレート・フロントの少なくとも近傍にある改変体集団のメンバーを意味する。 これらの改変体は概ね、所望の目的の少なくとも1つで、他の改変体(または少なくとも大部分の他の改変体)に優越されていないので、人工進化に最も適している。

    図4のA1に示すように、該方法は、2つ以上の所望の目的に対して、生体高分子配列改変体(例えば、文字列改変体等)の集団のメンバーを選択またはスクリーニングして、多目的適合性データ・セットを生産することを含む。 所望の目的としては、典型的に、例えば本明細書に記載される任意のもののような構造的および/または機能的特性が挙げられる。 本明細書に記載される多様性を生成する手法に従って、生体高分子配列改変体の集団を生産し、その後活性または他の機能(すなわち目的)に関してスクリーニングすることができる。 その後、該方法は、多目的適合性データ・セットで、パレート・フロント(例えば、実質的に凸、実質的に非凸等)を同定すること(A2)と、パレート・フロントの近傍にあるメンバーを選択すること(A3)とによって、人工進化に最も適した生体高分子配列改変体の集団のメンバーを同定することを含む。 本発明の文脈で、「パレート・フロント」とは、2つ以上の所望の目的のうち少なくとも1つで、他の生体高分子配列改変体に優越されない生体高分子配列改変体を意味する。 複数の実施形態では、該方法はさらに、人工進化手法を用いて、A3で選択されたメンバーを進化させ、進化された生体高分子配列改変体を生産することを含む。 これらの改変体を進化させるために任意に用いられる様々な人工進化手法が本明細書に記載されている。 これらの人工進化手法の少なくとも1つのステップおよび特定の場合での全てのステップをin silicoで実行することが可能である。 これらの実施形態は、任意で、繰り返されるステップA1で、生態高分子配列改変体集団のメンバーの少なくともいくつかとして進化された生体高分子配列改変体を用いて、ステップA1〜A3を繰り返すことも含む。 典型的には、本明細書に記載される方法の少なくとも1つのステップおよびいくつかの場合での全てのステップを、デジタル・システムまたはウエブベースのシステムで実行する。 デジタル・システムおよびウエブベースのシステムは、さらに詳細に以下に記載される。

    さらに、選択されるべきものから解の最適セットを提供するためには、アルゴリズムは概ね、パレート・フロントに沿った目的空間中で、解を均一に配分するか、または最大限に広げるようにすべきである。 なぜなら、クラスター化された解は、典型的に、十分な多様性を失うからである。 従って、アルゴリズムは典型的に、各目的に沿った両適合性に基づいて、さらに目的空間での相対的な分離に従って、集団で個々の解を配列するように設計される。 このアプローチにより、概ね、目的空間の非凸領域中でさえ、パレート・フロントに沿った解の良好な分布を生じる。 非凸パレート・フロントについては、以下でさらに論じる。 それらの相対的な多様性に基づいて解を選択するための1つのアプローチとしては、領域に基づく選択の技術があり、例えばCorneら、「PESA−II:Region−based selection in evolutionary multiobjective optimization」(Proceedings of the Genetic and Evolutionary Computation Conference(GECCO−2001)、Morgan Kaufmann Publishers、(2001)、pp. 283−290)にさらに記載されている。 領域に基づく選択は、一般に、ハイパーボックスに目的空間を分割することと、より少なく密集しているハイパーボックスから解を優先的に選択することとを伴う。 本明細書に記載される方法を実施する際、当技術で公知の解を選択するための他の技術(例えば、バイナリー・トーナメント選択)を任意で利用する。

    パレート・フロント最適化の1つの重要な利点は、アプローチが単目的最適化の1つに対して論争中の問題を減少させず(例えば加重和アプローチ等により)、むしろアプローチは、選択されるべきものから最適解のセットを提供するということである。 加重測定法を任意で用いて最終解を選択するが、例えばパレート・フロントが非凸である場合、全ての解がこのアプローチを介して特定されるわけではないだろう。 従って、目的の単一の加重和は、これらの実例で、実行可能な解を見出すアルゴリズムの能力を制限する可能性がある。 目的空間中の非凸性により提起される問題は、データの仮説セットのプロットを示すグラフを提供する図3にさらに示される。 図示されるように、さらに定義に一致するように、パレート・フロントに沿った解(番号が付されたデータ点で表される)のセットは優越されない。 しかし、当技術で公知の古典的な重みに基づく最適化は、加重和に基づく優位な解の存在により、目的F1およびF2上の任意の重みに対して、解3および4を発生させないであろう。 さらに、両目的に対してほぼ等しいトレードオフが求められた場合、古典的な方法を用いることによって、解の全クラスが除外されるだろう。

    本発明の方法は、パレート・フロントの近傍にある配列改変体を選択するための様々な実施形態を含む。 例えば、該方法は、1つ以上のニッチング技術を適用して、人工進化に最も適した生体高分子配列改変体集団のメンバーを特定することを任意で含む。 様々なニッチング技術に関連する更なる詳細については、Darwenら、(1997)「Speciation as automatic categorical modularization」、IEEE Transactions on Evolutionary Computation、1(2):101−108、Darwenら、(1996)、「Every niching method has its niche:fitness sharing and implicit sharing compared」、Proc. of Parallel Problem Solving(Nature(PPSN)IV、Vol.1141、Lecture Notes in Computer Science、Springer−Verlag、(1996)、pp.398−407)、およびHornら、(1994)「A niched pareto genetic algorithm for multiobjective optimization」(Proceedings of the First IEEE Conference on Evolutionary Computation、IEEE World Congress on Computational Computation、(1):82−87)に提供されている。 他の実施形態では、例えばパレート・フロントの近傍にあるメンバーの少なくともいくつかに対して、2つ以上の所望の目的の加重和を算出することと、パレート・フロントの近傍にある他のメンバーより高い加重和を含む少なくとも1つのメンバーを選択することとによって、配列改変体を選択する。 さらに他の実施形態では、パレート・フロントに対する相対的近接および配列空間での相対的分離に準じて1つ以上のメンバーをランク付けすることと、パレート・フロントの近傍にある他のメンバーより高いランクである少なくとも1つのメンバーを選択することとによって、生体高分子配列改変体を選択する。 領域に基づく選択技術(上述)を任意で用いて、パレートフロンの近傍にあるメンバーの選択もする。 例示するために、1つの領域に基づく選択技術は、生体高分子配列改変体の集団を含む配列空間を、1つ以上のハイパーボックスに分割することと、配列空間の他の領域より少なく密集された少なくとも1つのハイパーボックスから、パレート・フロントの近傍にあるメンバーを選択することとを含む。

    さらに例示するために、図5は、生体高分子文字列改変体セットの他のメンバーと比べて、多数の改善された目的を含む生体高分子文字列改変体セットのメンバーを特定する方法の一実施形態で実行される特定のステップを図示する表である。 図示されるように、該方法は、1つ以上の多目的進化的アルゴリズムを、少なくとも1つの親生体高分子文字列(例えば、複数の親生体高分子文字列など)に適用して、生体高分子文字列改変体のセットを生成すること(B1)と、2つ以上の所望の目的に対して、生体高分子文字列改変体セットのメンバーを選択またはスクリーニングすること(B2)とを含む。 さらに図示するように、該方法は、2つ以上の所望の目的の関数として、生体高分子文字列改変体セットをプロットし、生体高分子文字列改変体プロットを生成する(例えば、図2または3に示すように)こと(B3)と、生体高分子文字列改変体プロットで、パレート・フロント(例えば、実質的に凸、実質的に非凸等)を特定すること(B4)とによって、生体高分子文字列改変体セットの他のメンバーと比較して、多数の改善された目的を含む生体高分子文字列改変体セットのメンバーを特定することも含む。 該方法は、任意で反復的に、例えば繰り返されるステップB1で、生体高分子文字列改変体セットの少なくとも1つのメンバーを、親生体高分子文字列として用いて、ステップB1〜B4を繰り返して実行される。 幾つかの実施形態では、該方法はさらに、ステップB4で特定された生体高分子文字列改変体セットのメンバーに対応するポリヌクレオチドまたはポリペプチド配列改変体を合成することを含む。

    好適な実施形態では、上述のように、所定の解析でパレート・フロントの近傍にあるメンバーを互いに最大限に離れさせて分布(例えば、実質的に均一に、または一様に配分する)させ、例えば特定された解間の多様性を高める。 他の実施形態では、パレート・フロントの近傍にある配列改変体を実質的に不均一に配分する(例えばランダムに、または非一様に配分する)。 さらに、例えば最大化または最小化プロットとして、生体高分子文字列改変体プロットを任意で提供する。

    これらの方法に従って、多くの異なる所望の目的を任意でスクリーニングまたは選択する。 例示するために、2つ以上の所望の目的それぞれは、典型的に、物理化学的または機能的特性を独立して含む。 幾つかの実施形態では、2つ以上の所望の目的は、例えば、制約、達成する制約からの距離を詳述する値、満たされる制約の総数、および/または満たされる制約の相対数を含む。 任意で、2つ以上の所望の目的は、適合性の測定、競合目的、非競合目的などを含む。 さらに、2つ以上の所望の目的は、任意で互いに直交する。

    他の態様では、本発明は、生体高分子文字列改変体セットの他のメンバーに対して、多数の改善された目的を含む生体高分子文字列改変体セットのメンバーを特定するためのシステムを提供する。 システムは、生体高分子文字列改変体セットを保存することができるデータベースを有するコンピュータを含む。 システムはまた、親生体高分子文字列に多目的進化的アルゴリズムを適用して、生体高分子文字列改変体セットを生成することと、2つ以上の目的に対して、生体高分子文字列改変体セットのメンバーを選択またはスクリーニングすることとのための論理命令を含むシステム・ソフトウェアも含む。 システム・ソフトウェアは、2つ以上の所望の目的の関数として、生体高分子文字列改変体セットをプロットして、生体高分子文字列改変体プロットを生成することと、生体高分子文字列改変体プロットで、パレート・フロントを特定することとのための論理命令も含む。 システムについては、さらに詳細に以下に記載する。

    本発明は、親生体高分子文字列に多目的進化的アルゴリズムを適用して、生体高分子文字列改変体セットを生成することと、2つ以上の所望の目的に対して、生体高分子文字列改変体セットのメンバーを選択またはスクリーニングすることとのための論理命令を有するコンピュータ可読媒体を含むコンピュータ・プログラム・プロダクトも提供する。 さらに、コンピュータ・プログラム・プロダクトは、2つ以上の所望の目的の関数として生体高分子文字列改変体セットをプロットして、生体高分子文字列改変体プロットを生成することと、生体高分子文字列改変体プロットで、パレート・フロントを特定して、生体高分子文字列改変体セットの他のメンバーに対して、多数の改善された目的を含む生体高分子文字列改変体セットのメンバーを特定することとのための論理命令を含む。

    所定の実験から、例えば本明細書に記載される人工進化手法を介してさらに発展させるクローンを選択する際補助するために、本発明のシステムおよびコンピュータ・プログラム・プロダクトは概ね、例えばパレート・フロントに対するそれらの近接の観点から、それらの相対的分離などによって、クローンをランク付けする論理命令を含む。 これは、上述のように、このような多様性に付随する利点を有するパレート・フロントに沿った広範な多様性を提供する。 さらに、最も進歩したパレート・フロントに沿った最善のクローンを、それらの改変された適合性値に基づいたサンプリング率(例えばDNA濃度等)で任意で選択する。 これにより、目的空間のより少なく密集された領域から得たクローンをより頻繁にサンプリングすることが可能になり、人工進化の次のラウンドでの多様性を再び促進する。 進化後の活性の加重和を任意で用いて、「最善の」クローンを選択する。 しかし、研究者らは、進化中の活性の加重和を用いることにより、パレート・フロントに沿った低多様性を有する単目的最適化が生じることを見出した。

    さらに、ニッチング技術(上述)を任意で適用して、発展用のクローンを選択する。 例えば、多重モデルの単目的最適化では、研究により、ニッチングは、特定の状況下で有益となり得ることが示された。 この考察は、単に、集団中の、遺伝子型的に同様であり、かつ高適合性領域を占めるそれらの個体を人工的に進化させるということである。 この推論は、適合空間で異なる形態から一緒にもたらされたモチーフは、より良い機能に至らない可能性があるということである。 実際、それらはしばしば、雑音および破壊に至る。 多目的最適化の文脈では、単純化された小さな問題(toy problem)をシミュレーションして(例えば、カウフマン(Kaufmann)のNKモデル等を用いて)、ニッチングがパレート・フロントに沿った進化を補助しているか、または妨げているかを測定することが可能である。 例えばKauffman、The Origins of Order、Oxford University Press(1993)、ならびにKaufmannおよびJohnsen、「Co−Evolution to the Edge of Chaos:Coupled Fitness Landscapes, Poised States,and Co−Evolutionary Avalanches」(Langtonら、Artificial Life II:Proceedings of the Second Artificial Life Workshop、Addison−Wesley(1992)、pp.325−369)を参照せよ。 具体的には、各目的の適合空間の相対的な凹凸に依拠する可能性がある。 例えば耐熱性を伝えるモチーフが付加可能である一方で、異なるpH条件下で、例えば活性を伝えるモチーフが競合可能であり、多目的適合空間で大きな飛躍をする試みは高死亡率に至る可能性がある。

    (B.インシリコ(インシリコ)進化)
    本発明は、本明細書に記載される遺伝的アルゴリズムおよびモンテ・カルロ法を含む進化的探索アルゴリズムを用いて、ライブラリのインシリコ進化を介してライブラリ構築を最適化する方法を含む。 これらの方法は、遺伝子、オペロン、経路、プロモーター、制御因子、ゲノムなどを含む本質的に任意の遺伝的物質の好結果のインビボおよび/またはインビトロでの首尾良い進化を最大化する。

    より具体的には、図6は、有向進化に対するライブラリを進化させるための方法実施形態で実行される特定のステップを図示する表を提供し、ここで、ライブラリ(L)は、アルゴリズムでの進化の単位である。 各ライブラリは、配列多様性、組換え法、実験条件などのようなパラメーターにより説明される。 さらなるパラメーターについては、本明細書に記載される。 パラメーターは、典型的に変化されるか、またはそうでなければ進化過程中に進化する。 C2に示すように、該方法は、生体高分子文字列改変体の集団のようなライブラリの集団(例えばライブラリの初期集団(C1))を提供することを含む。 アルゴリズムは、単位L上で演算して、ライブラリの新規の集団(C3)を生成する演算(O)のセットを含む。 例えば、演算は、多様性を付加および削除すること、組換え率および頻度を変化させることなどを含む。 これらの方法で任意で用いられる演算に関する更なる詳細は、本明細書で提供される。 具体的には、演算は、ライブラリの集団で作用して、次世代の集団を生じさせる。 C4に示すように、この次世代は、その後適合性(F)に対して選択され、ライブラリのより適合した集団(C5)を生成し、この過程は、(C6)で反復される。 ライブラリに対する所望の特性(例えば適合性のレベル)が満たされたとき、この進化的アルゴリズムを通常停止する。 任意で、選択過程は、生物学的ポリマーに対応するデータ配列の特定を容易し、かつ実験結果を列記/シミュレーションして、その後クローンの活性のインシリコ評価をするためのアルゴリズムを用いて、オリゴヌクレオチドを設計することを伴う。 典型的には、各ライブラリを、その後、例えばクローンの平均活性、クローン活性の標準偏差、クローン間の遺伝的多様性、ライブラリの実験的単純性等の測定を伴う適合性関数により特徴付ける。 ニューラル・ネットワーク、PCA、もしくは他の予測ツールによって、または構造適合性、力学シミュレーション、および他の生物物理学的方法によって、ならびに/または本明細書に記載される他の技術によって、クローンの活性も特徴付けることができる。

    本発明のこれらの局面をさらに例示するために、図7は、様々な演算を利用する、文字列ライブラリのより適合した集団を生成する方法の実施形態で実行される特定のステップを示す表を提供する。 該方法の少なくとも1つのステップおよび特定の場合の全てのステップをインシリコで、例えば本明細書に記載されるデジタル・システムで実行する。 図示するように、ステップD1は、1つ以上の演算を文字列ライブラリの初期集団に適用し、文字列ライブラリの進化した集団を生成することを含む。 典型的には、文字列ライブラリの初期集団中の1つ以上の文字列は、1つ以上のポリヌクレオチドまたは1つ以上のポリペプチドに対応する。 文字列ライブラリの進化した集団のメンバーに対して、適合性レベルを指定した(D2)(例えば所望の構造的特性、所望の機能的特性などに対して、例えばスクリーニングまたは選択した)後、該方法は、集団の他のメンバーより高レベルの適合性を有する文字列ライブラリの進化した集団のメンバーを選択して、文字列ライブラリのより適合した集団を生成すること(D3)を含む。 該方法はさらに、少なくとも1つの文字列ライブラリで適合性が所望のレベルに達するまで、繰り返されるステップD1で、文字列ライブラリの初期集団として文字列ライブラリのより適合した集団を用いて、ステップD1〜D3を繰り返すことを含む。

    特定の実施形態では、ステップD1は、(i)文字列ライブラリ・メンバーの初期集団に基づいて、縮重小列(substring)のセットを提供することと、(ii)縮重小列のセットを組換えて、所望の体系的に多様な文字列を生成することと、(iii)所望の体系的に多様な文字列の1つ以上の活性を評価して、文字列ライブラリの進化した集団を生成することとを含む。 幾つかの実施形態では、1つ以上のパラメーターを利用するアルゴリズムによって、文字列ライブラリの初期集団の1つ以上のメンバーを定義し、このパラメーターは、ステップD1中に進化する。 典型的なパラメーターとしては、例えば、文字列多様性、利用されるモデル化進化方法、利用されるモデル化実験条件、PCAモデル化、PLSモデル化、突然変異マトリクス、例えば個体文字列もしくはライブラリの相対的重要度、利用される幾つかまたは全てのパラメーターに対するスコアリング・システムなどが挙げられる。 文字列ライブラリの初期集団は、一般に、約2ないし約10 のライブラリを含む。 さらに、文字列ライブラリの初期集団の各文字列ライブラリは、典型的には、約2ないし約10 のメンバーを含む。

    これらの方法を実施する際、多くの異なる演算を任意で用いる。 これらは、例えば文字列ライブラリの1つ以上のメンバーの突然変異、文字列ライブラリの1つ以上のメンバーの増殖、文字列ライブラリの1つ以上のメンバーの断片化、文字列ライブラリのメンバー間の交叉、文字列ライブラリの1つ以上のメンバーもしくは文字列ライブラリの1つ以上のメンバーの小列のライゲーション、エリート保存(elitism)算出、指定文字列の配列相同性または配列類似性の算出、文字列ライブラリの1つ以上のメンバーの進化に対する1つ以上の遺伝的演算子の反復的使用、文字列ライブラリの1つ以上のメンバーへのランダム性演算の適用、文字列ライブラリの1つ以上のメンバーの欠失突然変異、文字列ライブラリの1つ以上のメンバーへの挿入突然変異、文字列ライブラリの1つ以上のメンバーの減算、所望の活性を有する文字列ライブラリの1つ以上のメンバーの選択、文字列ライブラリの1つ以上のメンバーの死などを含む。 例えばWO00/42560およびWO01/75767を参照せよ。 演算は、一般に、進化的探索アルゴリズムの構成要素として含まれる。 好適な進化的探索アルゴリズムとしては、遺伝的アルゴリズム、モンテ・カルロ・アルゴリズムなどが挙げられ、本明細書でもさらに記載される。

    適合性のレベルを、典型的には、適合性関数を用いて、文字列ライブラリの進化した集団の各メンバーに指定する。 典型的な適合性関数は、例えば、各文字列ライブラリのメンバーの平均活性を測定することと、各文字列ライブラリのメンバーの活性の標準偏差を測定することと、各文字列ライブラリのメンバー間の文字列多様性のレベルを測定することと、各文字列ライブラリの実験的単純性をモデル化することと、測定値もしくは予測値での確実性のレベルを測定することなどを任意で含む。 好適な実施形態では、多変量解析技術および/または生物物理学的解析技術を用いて、メンバーの活性を測定する。 例えば、多変量解析技術は、例えばニューラル・ネットワーク・トレーニング技術、主成分解析、部分最小二乗解析などを任意で含む。 典型的な生物物理学的解析技術とは、例えば構造的適合性解析、力学シミュレーション、疎水性解析、可溶性解析、免疫原性解析、結合アッセイ、酵素キャラクタリゼーションなどの1つ以上を含む。 多変量解析および生物物理学的解析については、本明細書でさらに記載する。

    文字列ライブラリのより適合した集団のメンバーは、一般に、ポリヌクレオチドまたはポリペプチドに対応する。 これらの方法のステップを、典型的には、インシリコで(例えばデジタル・システム、ウエブベースのシステム等を用いて)実行するが、該方法は、任意で、例えば、文字列ライブラリのより適合した集団の1つ以上のメンバーに対応する1つ以上のポリヌクレオチドまたはポリペプチドを合成して、合成されたポリヌクレオチドまたはポリペプチドを生成することをさらに含む。 さらに、該方法は、任意で、例えば、少なくとも1つの所望の特性に対して、合成されたポリヌクレオチドまたはポリペプチドを選択またはスクリーニングして、スクリーニングまたは選択されたポリヌクレオチドまたはポリペプチドを生成することも含む。 典型的には、合成されたポリヌクレオチドまたはポリペプチドを、インビトロまたはインビボでスクリーニングする。 これらの方法を実施する際用いられる様々なスクリーニング技術ついては、本明細書に記載されている。 該方法は、任意で、スクリーニングまたは選択されたポリヌクレオチドまたはポリペプチドを、1つ以上の人工進化手法に供することをさらに含む。 1つ以上の人工進化手法の少なくとも1つのステップを任意で、インシリコで、例えば、ポリヌクレオチドまたはポリペプチドの文字列表象を用いて実行する。

    別の態様では、本発明は、文字列ライブラリのより適合した集団を生産するためのシステムに関する。 システムは、(a)文字列ライブラリの少なくとも1つの集団を保存することができるデータベースを含む少なくとも1つのコンピュータと、(b)1つ以上の論理命令を含むシステム・ソフトウェアとを含む。 論理命令は典型的には、例えば(i)文字列ライブラリの初期集団に1つ以上の演算子(operator)を適用して、文字列ライブラリの進化した集団を生産することと、(ii)文字列ライブラリの進化した集団の少なくとも1つのメンバーに適合性のレベルを指定することと、(iii)文字列ライブラリの進化した集団の他のメンバーより高レベルの適合性を有する文字列ライブラリの進化した集団の1つ以上のメンバーを選択して、文字列ライブラリのより適合した集団を生産することと、(iv)繰り返されるステップ(i)で、文字列ライブラリの初期集団として、文字列ライブラリのより適合した集団を用いて、ステップ(i)〜(iii)を繰り返すこととのためのものである。 システムは、典型的には、文字列ライブラリのより適合した集団のメンバーに対応するポリヌクレオチドまたはポリペプチドを合成することができるポリヌクレオチドまたはポリペプチド合成装置をさらに含む。 システムについては、以下にさらに詳細に記載する。

    本発明は、(a)文字列ライブラリの初期集団に1つ以上の演算子を適用して、文字列ライブラリの進化した集団を生産することと、(b)文字列ライブラリの進化した集団の少なくとも1つのメンバーに、適合性のレベルを指定することとのための1つ以上の論理命令を有するコンピュータ可読媒体を含むコンピュータ・プログラム・プロダクトも提供する。 コンピュータ・プログラム・プロダクトは、(c)文字列ライブラリの進化した集団の他のメンバーより高レベルの適合性を有する文字列ライブラリの進化した集団の1つ以上のメンバーを選択して、文字列ライブラリのより適合した集団を生産することと、(d)繰り返されるステップ(a)で、文字列ライブラリの初期集団として、文字列ライブラリのより適合した集団を用いて、ステップ(a)〜(c)を繰り返すこととのための論理命令も含む。

    (C.発見的に派生されたモデルからのライブラリの作製)
    以下に論じることにより、図1に提供される本発明の上述の態様を補足する。 複数の選択的な実施形態を提供するとともに、先に導入した概念のいくつかについても詳述する。 これは、上記に論述したことを限定するものではない。

    本明細書に記載するように、測定された活性を有する体系的に多様な配列のデータセットを利用することにより、様々なモデルの生成が可能になる。 この説明により、好適なライブラリの構築で、これらのモデルを如何に実現するかについて明らかにする。 他のモデリング技術も、その多くは本明細書に記載されており、任意で用いてライブラリの構築/スコアリングをするが、明確にするために、このセクションではPLSモデルに重点を置く。 具体的には、探索される配列空間を決定するための1つの選択肢は、与えられたアラインメント中の各アミノ酸残基に対する負荷(例えば、機能に対する関係)を分離することを伴う。 例えば、負荷は、典型的には、例えば任意の標準的PLSモデリングツールによって生成されたモデル中のマトリクスとして保存された状態で見出され、例えばファイル_名前. 負荷 マトリクス(File_Name.loads matrix)から検索可能である。

    概要としては、PLSまたは同様のものを用いて、各残基および最善の、例えば5パーセントの残基ペア(マトリクス中の外積として定義される)に対する重要度を任意に測定し、負荷(1つの成分が用いられている場合)、回帰係数、VIP(射影に対する変数重要度)等として相対的重要度が与えられる。 任意で、例えば数値に準じて、負荷を実質的に分類する。 最も高い負荷、回帰係数、VIP等を有する対応するアミノ酸によって、2つ以上の任意のアミノ酸を有する特定のタンパク質の各位置での好適なアミノ酸が測定される。 従って、理論的に最善の配列を有する(すなわち、各位置で、最も高い負荷を有するアミノ酸オプションをコードする)「ヒーロー」クローンを測定する。 さらに、1つより多い潜在的な変数を生成するモデルに対して、回帰係数または同様のパラメーターも用いることができる。

    説明したように、これらのアプローチは初期に、特定のデータセットで、実際の実験室(wet−lab)で実証された「最善の」クローンを特定することを含んでもよく、最善のクローンは、典型的には、依然十分にモデルとなる(すなわち、PLSクロス確認で、予測値の相対的に近くにある)最も高い測定関数を有するクローンである。 最善のクローン中の各残基を、典型的には、負荷マトリクスから得た、例えば、最も高い負荷を有する残基で始まるものと比較する。 最も高い負荷を有する残基が「最善の」クローンに存在しない場合、その位置を、トグルとして次のライブラリに導入する。 複数の実施形態では、VIPを増加させ、モデル中で十分特徴付けられている(すなわち、多くの実例としてデータセットに存在し、系統的に多様である)それらを省いて各残基を分類することによって、トグルに対する残基を測定する。 これは、単一の(かつデータセットが十分に大きい場合は二重の)実例として生じるそれらのみを保有することによって、最も容易に行われ得る。 従って、2つというライブラリは、「ヒーロー」クローンと、ゼロに最も近いVIPを有し、かつデータセット中の単一の実例のみに存在する残基のトグルをコードする。 4(2 )というライブラリは、単一の実例等を有する2つの最も低いVIP残基を切り換える。 ライブラリが、選択された、または十分なサイズに到達するまで、これらの過程を繰り返す。 トグルによって表される付加された多様性のそれぞれは、10の位置が約1,000のクローン(1,024)に等しい、13の位置が約10,000のクローン(8,192)に等しい、20の位置が約1,000,000のクローン(1,048,576)に等しいなどとなるよう、ライブラリのサイズを倍加する。 適当なライブラリのサイズは、スクリーニングのコスト、景観の凹凸(ruggedness)、空間の好適なパーセント値サンプリング、および同様のもののような因子に依存する。 任意で、小さい負荷を有する残基を切り換えて、例えばすでに実証されている「最善の」クローンを囲む局所空間を探索する。 付加的なオプションは、十分にモデルとなる平均的クローンで始め、さらに高い負荷を切り換えて、例えば、サンプリングから予め省かれた活性の山の探索でより大きな空間を探索することを含む。 次のラウンドに対してより精錬された画像を生成するので、ライブラリのこのタイプは概ね早期のラウンドでより関連性がある。 付加的なフィルターとしては、非天然の多様性から元々は派生している残基を省くことができる。 天然に存在する多様性は、ランダムに発生する多様性よりも機能性をコードする確率が高いという根本原理は、真であるかもしれないし、また真でないかもしれない。

    さらに例示するために、図8は、ポリペプチド改変体中でのアミノ酸位置を選択して、人工的に進化させる方法の実施形態で実行される特定のステップを示す表であり、典型的には、このステップをデジタルシステムまたはウエブベースのシステムで実行する。 例示するように、該方法は、ポリペプチド改変体の集団を提供すること(E1)と、1つ以上の所望の特性(例えば構造的および/または機能的特性)に対して、ポリペプチド改変体(例えば、文字列改変体等)の集団のメンバーをスコアリング(例えばインシリコで)して、ポリペプチド改変体データセットを生産すること(E2)とを含む。 ポリペプチド改変体の集団は、一般に、1つ以上の人工進化手法により提供される。 さらに、典型的には、人工進化手法の少なくとも1つのステップ(およびしばしばそれより多く)をインシリコで実行する。 ポリペプチド改変体の集団は、典型的には、例えば約2ないし約10 のメンバーを含む。 好適な実施形態では、ポリペプチド改変体の集団のメンバーは、体系的に多様な配列である。

    該方法はさらに、ポリペプチド改変体データセットを用いて、ポリペプチド改変体中のアミノ酸位置のアミノ酸を1つ以上の所望の特性と相関させ、例えばアミノ酸が所望の特性に寄与していることを表す負荷マトリクス(例えば定性的マトリクス(例えばアミノ酸同一性等を含む))、定量的マトリクス(例えば、疎水性測定等のような物理化学的特性を含む)、カテゴリーマトリクス(例えば、アミノ酸が負荷されているか、かさ高いかどうか等)、および/または同様のもの)を生産すること(E3)を含む。 例えば、単一のアミノ酸残基以外は、2つのポリペプチド配列が同一であり、配列が異なる活性を有する場合、機能での全ての相違は、典型的に、アミノ酸の相違のみに相関すると仮定される。 従って、本質的に、機能的パラメーターYに対して与えられた変数の相対的重要度をスコアリングできる任意の方法を、これらの方法で、任意で用いる。 例示するために、マトリクスは、任意で、回帰に基づくアルゴリズム、例えば、PLS、回帰係数、VIP(射影に対する変数重要度)(1つの好適なアルゴリズム)、MLR(多重線形回帰)、ILS(逆最小二乗)、PCR(主成分回帰)、および/または同様のものに基づく。 付加的な選択肢は、ニューラルネットワーク、CART(分類ツリーおよび回帰ツリー)、MARS(多変量適合回帰スプライン)、および/または同様のもののようなパターンに基づくアルゴリズムに負荷マトリクスを基づかせることを含む。 該方法は、典型的には、例えば数値等に準じて、負荷マトリクス中の項目を分類することも含む。

    ステップE4に示すように、該方法は、ポリペプチド改変体の集団から選択される少なくとも1つのメンバーと、負荷マトリクスでの対応する項目との間の1つ以上のアミノ酸相違を特定することによって、ポリペプチド改変体中のアミノ酸位置を選択して、人工的に進化させる(例えば、可変アミノ酸残基を用いて切り換える)ことも含む。 例えば、好適な解は、好適な関数または関数のセットで、「最善の」または最も高いスコアリングのメンバーを選出(例えば、モデルに合理的に十分に適合する限り)し、そのメンバー上で進化させる残基を選出することである。 典型的には、ポリペプチド改変体の約2ないし約100のアミノ酸位置を選択し、人工的に進化させる。 任意で、与えられた改変体の全てのアミノ酸位置を選択する。 特定の実施形態では、E4でポリペプチド改変体の集団から選択された少なくとも1つのメンバーは、E2から得た最も高いスコアリングのメンバーを含む。 該方法は、典型的に、E4で選択された1つ以上のアミノ酸位置を人工的に進化させ、進化したポリペプチドライブラリを生産することをさらに含む。 さらに、該方法は、任意で、繰り返されるE1で、進化したポリペプチドライブラリを、ポリペプチド改変体の集団として用いて、E1〜E4を繰り返すことも含む。 進化したポリペプチドライブラリは、任意で、物理的ライブラリまたは計算ライブラリを含む。 物理的ライブラリは、典型的には、例えば約2ないし約10 のメンバーを含む。 それに対して、計算ライブラリは、典型的には、例えば約2ないし約10 20のメンバーを含む。

    上記に言及したように、好適な実施形態では、回帰に基づくアルゴリズム、パターンに基づくアルゴリズム、および/または同様のものを含む様々な発見的に派生されたモデリング技術を用いて、ポリペプチド改変体データセットから負荷マトリクスを生成する。 典型的な回帰に基づくアルゴリズムとしては、例えば部分最小二乗回帰、多重線形回帰、逆最小二乗回帰、主成分回帰、射影の変数重要度等が挙げられる。 典型的なパターンに基づくアルゴリズムとしては、例えばニューラルネットワーク、分類ツリーおよび回帰ツリー、多変量適合回帰スプライン、および/または同様のものが挙げられる。 特定の好適な実施形態では、E3は、ポリペプチド改変体データセットから部分最小二乗モデルを生成して、負荷マトリクスを生産することを含む。 部分最小二乗モデルは、典型的には、1つより多い潜在的な変数を生成する。 該方法は、典型的には、回帰係数を用いることもさらに含む。

    好適な実施形態では、ステップE4は、少なくとも1つのメンバー中の1つ以上のアミノ酸位置を、負荷マトリクスから得た1つ以上の対応するアミノ酸位置と比較して、メンバー中で存在しない負荷マトリクス中の少なくとも1つのアミノ酸を特定し、人工的に進化させるポリペプチド改変体中のアミノ酸位置を選択することを含む。 一般に、少なくとも1つのメンバー中の各アミノ酸位置を、負荷マトリクスから得た対応するアミノ酸位置のそれぞれと比較する。 負荷マトリクスから得た1つ以上の対応するアミノ酸を置換することによって、選択されたアミノ酸位置を任意で人工的に進化させる。 さらに、ポリペプチド改変体の集団から選択されたメンバーは、典型的には、ポリペプチド改変体データセットの他のメンバーと比べて、ポリペプチド改変体データセットのより高いスコアリングのメンバー(例えば、最も高いスコアリングのメンバー)を含む。 例えば、より高いスコアリングのメンバーは、典型的には、部分最小二乗のクロス確認での予測スコアの近傍にある。 典型的には、より低い負荷を含む負荷マトリクスから得たアミノ酸位置に先立って、より高い負荷を含む負荷マトリクスから得たアミノ酸位置を比較する。 任意で、より高い負荷を含む負荷マトリクスから得たアミノ酸位置に先立って、より低い負荷を含む負荷マトリクスから得たアミノ酸位置を比較する。 複数の実施形態では、ポリペプチド改変体の集団から選択されたメンバーは、ポリペプチド改変体データセットの実質的に平均的なスコアリングのメンバーを含む。 これらの実施形態では、典型的には、より低い負荷を含む負荷マトリクスから得たアミノ酸位置に先立って、より高い負荷を含む負荷マトリクスから得たアミノ酸位置を比較する。

    図9は、ポリペプチド改変体中のアミノ酸位置を選択して、人工的に進化させるこれらの方法の別の実施形態で実行される特定のステップを示す表である。 図示するように、該方法は、ポリペプチド改変体の集団を提供すること(F1)と、1つ以上の所望の特性に対して、ポリペプチド改変体の集団のメンバーをスコアリングして、ポリペプチド改変体データセットを生産すること(F2)とを含む。 ステップF3では、ポリペプチド改変体データセットから部分最小二乗モデルを生成し、この部分最小二乗モデルは、ポリペプチド改変体中のアミノ酸位置を、1つ以上の所望の特性に相関させて、負荷マトリクスを生産する。 該方法は、ポリペプチド改変体の集団から選択された少なくとも1つのメンバーと、部分最小二乗モデルから得た負荷マトリクスとの間の1つ以上のアミノ酸相違を特定することによって、ポリペプチド改変体中のアミノ酸位置を選択して、人工的に進化させること(F4)も含む。

    本発明は、ポリペプチド文字列改変体中のアミノ酸位置を選択して、人工的に進化させるためのシステムも提供する。 システムは、(a)ポリペプチド文字列改変体の少なくとも1つの集団を保存することができるデータベースを含むコンピュータと、(b)システム・ソフトウェアとを含む。 システム・ソフトウェアは、(i)ポリペプチド文字列改変体の1つ以上の集団を提供することと、(ii)1つ以上の所望の特性に対して、ポリペプチド文字列改変体の1つ以上の集団のメンバーをスコアリングして、ポリペプチド文字列改変体データセットを生産することとのための1つ以上の論理命令を含む。 ソフトウェアは、(iii)ポリペプチド文字列改変体データセットを用いて、ポリペプチド文字列改変体中のアミノ酸位置のアミノ酸を、1つ以上の所望の特性に相関させ、アミノ酸が1つ以上の所望の特性に寄与していることを表す負荷マトリクスを生産することと、(iv)ポリペプチド文字列改変体の1つ以上の集団から選択された少なくとも1つのメンバーと、負荷マトリクス中の対応する項目との間の1つ以上のアミノ酸相違を特定することとのための命令も含む。 本発明のシステムの様々な態様に関連する更なる詳細を以下に提供する。

    さらに、本発明は、ポリペプチド文字列改変体のアミノ酸位置を選択して、人工的に進化させるためのコンピュータ・プログラム・プロダクトに関する。 コンピュータ・プログラム・プロダクトは、(a)ポリペプチド文字列改変体の1つ以上の集団を提供することと、(b)1つ以上の所望の特性に対して、ポリペプチド文字列改変体の1つ以上の集団のメンバーをスコアリングして、ポリペプチド文字列改変体データセットを生産することとのための1つ以上の論理命令を有するコンピュータ可読媒体を含む。 プログラムは、(c)ポリペプチド文字列改変体データセットを用いて、ポリペプチド文字列改変体中のアミノ酸位置のアミノ酸を、1つ以上の所望の特性に相関させ、アミノ酸が1つ以上の所望の特性に寄与していることを表す負荷マトリクスを生産することと、(d)ポリペプチド文字列改変体の1つ以上の集団から選択された少なくとも1つのメンバーと、負荷マトリクス中の対応する項目との間の1つ以上のアミノ酸相違を特定することとのための命令も含む。

    (D.配列空間探索用の発見的に派生されたモデルでの外積の使用)
    アミノ酸残基間の相互作用(例えば、2次、3次等)は、タンパク質配列活性(機能)関係(PSAR(PSFR))にとって重要である。 本発明の別の態様では、マトリクス中のアミノ酸残基位置に対応する様々な列間の外積項、すなわち共変動する残基を算出することを伴う。 共変動現象の詳細な説明は、以下の実施例で提供する。 その後、外積項を、典型的には、アミノ酸残基に対応する線形項に付加し、拡張されたX予報値マトリクスが生成される。 拡張された予報値マトリクスを用いて、発見的に派生されたモデルを生成し、線形項とともに重要な外積項を特定する。 その後、次のライブラリの構築の際、典型的にはこの外積および線形項情報を用いる。 例えば、例えばPLSモデリングでの線形項の重みで表されるように、2つのアミノ酸残基だけでは重要ではない可能性があるが、それらの外積項は重要であるかもしれない。 従って、対応するアミノ酸位置は、最適配列空間探索を確実にするために、人工進化の次のラウンドでの探索に対する良好な候補であり得る。

    さらに図示するために、図10は、ポリペプチド配列活性関係にとって重要であるポリペプチド中のアミノ酸を特定する方法の実施形態で実行される特定のステップを示す表である。 G1に示すように、該方法は、ポリペプチド配列改変体のセットに対応するデータセットを含むX予報値マトリクスを提供することを含み、その中で、ポリペプチド配列改変体のセットのうちの少なくともサブセットが1つ以上の測定された活性を含む。 ポリペプチド配列改変体のセットは、典型的には、本明細書に記載された任意のもののような、例えば1つ以上の多様性生成または人工進化手法により生産された例えば体系的に多様なポリペプチド配列のセットまたは同様のものを含む。 さらにG2に示すように、該方法は、X予報値マトリクスの列間の1つ以上の外積項を算出することも含む。 各列入力は、ポリペプチド配列改変体のセットから得たポリペプチド配列改変体のアミノ酸に対応する。 さらに、該方法は、ステップG2で算出された1つ以上の外積項の少なくとも1つを、X予報値マトリクスの1つ以上の線形項に付加して、拡張されたX予報値マトリクスを生産すること(G3)も含む。 外積項は、ポリペプチド中の共変動するアミノ酸を特定する一方で、線形項は、ポリペプチド配列改変体中のアミノ酸に対応する。 その後、該方法は、拡張されたX予報値マトリクスを用いてモデルを生成して、重要な外積項および/または線形項を特定することによって、ポリペプチド配列活性関係にとって重要なポリペプチド中のアミノ酸を特定すること(G4)を含む。

    任意で、例えば部分最小二乗回帰、重線形回帰、逆最小二乗回帰、主成分回帰、射影の変数重要度、または同様のものから選択される1つ以上の回帰に基づくアルゴリズムを用いて、発見的に派生されたモデルを生産する。 付加的なオプションとして、例えばニューラル・ネットワーク、分類ツリーおよび回帰ツリー、多変量適合回帰スプライン、または同様のものから選択される1つ以上のパターンに基づくアルゴリズムを用いて、モデルを生産する。

    典型的には、G4で特定された重要な外積項および/または線形項を用いて、1つ以上のポリペプチド・ライブラリを設計する。 言及したように、特定の態様では、2つ以上の線形項は、独立して、ポリペプチド配列活性関係に対して重要でない項を含でもよい。 しかし、同様の2つ以上の線形項から算出された外積項は、ポリペプチド配列活性関係に対して重要であるとして特定される可能性がある。 外積項は典型的に、ポリペプチド配列改変体中のアミノ酸間の相互作用に対応する。 例えば、相互作用は、例えば2次的もしくは3次的相互作用、直接的相互作用、間接的相互作用、物理化学的相互作用、折り畳み中間体による相互作用、翻訳因子、および/または同様のものを含む。 (a)相同の親ポリペプチドの集団を表す文字列集団中の変化するアミノ酸残基を特定することと、(b)互いに共変動する文字列集団中のアミノ酸残基を特定して、親共変動データ・セットを生産することと、(c)文字列集団で特定された1つ以上の共変動するアミノ酸残基をコードするメンバーを含むオーバーラップする合成オリゴヌクレオチドのセットを提供し、各合成オリゴヌクレオチドは、互いに共変動するアミノ酸残基のセットの最大で1つのメンバーをコードすることと、(d)オーバーラップする合成オリゴヌクレオチドを組換えて、相同の親ポリペプチドの子孫をコードする組換えポリヌクレオチドのセットを生産することと、(e)組換えポリヌクレオチドのセットの少なくともサブセットを発現して、子孫ポリペプチドのセットを生産することと、(f)所望の特性に対して、子孫ポリペプチドの少なくともサブセットを選択またはスクリーニングすることと、(g)所望の特性を含む1つ以上の子孫ポリペプチドか、または1つ以上の子孫ポリペプチドをコードする1つ以上の組換えポリヌクレオチドかをシーケンシングして、子孫配列データ・セットを生産することと、(h)互いに共変動する子孫配列データ・セット中のアミノ酸残基の1つ以上のペアを特定して、子孫共変動データ・セットを生産することと、(i)親および子孫共変動データ・セット間の相違を特定して、相同のポリペプチドの集団での共変動を特徴づけることによってポリペプチド・ライブラリでの共変動を特徴付けるための方法で、共変動解析から派生した配列活性情報(すなわち外積項)を用いることができる。

    本発明のこれらの態様も、ポリペプチド配列活性関係に対して重要なポリペプチド中のアミノ酸を特定するためのシステム中に包含される。 システムは、(a)文字列ライブラリの少なくとも1つの集団を保存できるデータベースを含むコンピュータと、(b)システム・ソフトウェアとを含む。 システム・ソフトウェアは、(i)ポリペプチド配列改変体のセットに対応するデータ・セットを含むX予報値マトリクスを提供し、ポリペプチド配列改変体セットの少なくともサブセットが1つ以上の測定された活性を含むことと、(ii)X予報値マトリクスの列間の1つ以上の外積項を算出し、各列項目がポリペプチド配列改変体セットから得たポリペプチド配列改変体のアミノ酸に対応することとのための1つ以上の論理命令を含む。 ソフトウェアはまた、(iii)X予報値マトリクスの1つ以上の線形項に、ステップ(ii)で算出された1つ以上の外積項の少なくとも1つを付加して、拡張されたX予報値マトリクスの生産、および(iv)拡張されたX予報値マトリクスを用いてモデルを生成して、重要な外積項および/または線形項を特定のための命令も含む。 本発明のシステムに関する更なる詳細については以下に記載する。

    本発明は、ポリペプチド配列活性関係にとって重要なポリペプチド中のアミノ酸を特定するためのコンピュータ・プログラム・プロダクトも提供する。 コンピュータ・プログラム・プロダクトは、(a)ポリペプチド配列改変体のセットに対応するデータ・セットを含むX予報値マトリクスを提供し、ポリペプチド配列改変体セットの少なくともサブセットが1つ以上の測定された活性を含むことと、(b)X予報値マトリクスの列間の1つ以上の外積項を算出し、各列項目がポリペプチド配列改変体セットから得たポリペプチド配列改変体のアミノ酸に対応することとのための1つ以上の論理命令を有するコンピュータ可読媒体を含む。 プログラムは、(c)X予報値マトリクスの1つ以上の線形項に、ステップ(b)で算出された1つ以上の外積項の少なくとも1つを付加して、拡張されたX予報値マトリクスを生産することと、(d)拡張されたX予報値マトリクスを用いてモデルを生成して、重要な外積項および/または線形項を特定することとのための命令も含む。

    (E.進化情報を組み込んでいるタンパク質改変体ライブラリ設計)
    単一のタンパク質改変体ライブラリ中の多数の位置でアミノ酸残基を変化させることが所望であり得るが、その様にすることは、あまりに多くの可変残基の有害な組み合わせにより、ほとんど活性を持たないか、全く活性を持たない多数の改変体を有するライブラリを生じさせる可能性がある。 本発明は、親ポリペプチドのセットから得た特定の可変アミノ酸残基置換のみを組み込んでいる1つ以上のタンパク質改変体ライブラリを作製することによって、所望の活性に対して、タンパク質改変体を最適化する効率的な方法を提供する。 可変アミノ酸残基の進化的前後関係(context)に基づいて、タンパク質改変体ライブラリに組み込むために、可変アミノ酸残基のセットを選択する。 進化的に保存された置換を表すそれらの置換を、ライブラリのタンパク質改変体に組み込む。

    進化により可能になったアミノ酸の変化は、一般に、タンパク質の折り畳みおよび機能を保存する。 相対的に短い進化的タイムスケールに関して、可能になった変化は、前後関係に依存しない傾向がある、すなわち「付加的な」適合性の貢献をする(さらに、他の変化とともに十分に作用する)。 そのタイムスケールに対して「可能になった」アミノ酸変化によって、任意の所望の分岐タイムスケールに関してホモログの本質的に無限のソースを評価することができる。 タンパク質構造中の微細な摂動は、機能に大きな影響を持つという証拠もある(Kidokoro(1998)「Design of protein function by physical perturbation method」、Adv.Biophys.35:121−143、およびShimotohnoら(2001)「Demonstration of the importance and usefulness of manipulating non−active−site residues in protein design」、J.Biochem.(Tokyo)129:943−948)。

    本発明は、進化的に保存された置換が高適合性レベルを有する多様性を生成することによって、配列空間を探索するための方法を提供する。 該方法に従って、例えば、親配列を整列して、親配列間で、残基が変化する(すなわち可撓性である)かについて測定し、その後、進化的置換マトリクスを適用して、保存された置換を表す可変残基のサブセットを特定する。 その後、タンパク質改変体の配列に、可変アミノ酸残基の保存されたサブセットを組み込むタンパク質改変体ライブラリを生成する。 また、他の置換マトリクスを用いて、タンパク質改変体ライブラリに組み込む可変残基のサブセットを特定することができる。 他の好適な置換マトリクスとしては、物理化学的特性または本明細書に記載される他のパラメーターに基づくものが挙げられる。 任意で、システイン、プロリン、およびグリシン残基を変化させないままに(すなわち、変化に対する許容が少ない)して、その後他の残基に置換マトリクスを適用するように、使用者が定義するフィルターまたは制約を適用することによって、単一配列に該方法を適用することができる。

    典型的には、DayhoffのPAMマトリクス(様々なPAM距離に対する)、部位依存性マトリクス、BLOSUMマトリクス、JTTマトリクス、任意のアミノ酸分類を捕捉する単バイナリーマトリクス、および同様のもののような置換マトリクスを用いて、異なるタイムスケールを作製することができる(例えば、DayhoffおよびEck(1968)「A model of evolutionary change in proteins」、Atlas of Protein Sequence and Structure 3:33−41、ならびにHenikoffおよびHenikoff(1992)「Amino acid substitution matrices from protein blocks」、Proc.Nat'l.Acad.Sci.USA 89:10915−10919を参照のこと)。 1つのアミノ酸から別のものに移行する確率を調節することによって、保存のレベルを変化させることができる。 確率カットオフおよびマトリクス自体の両方がモデルでのパラメーターである。 利用可能な複数の他のマトリクスもある。 これらのマトリクスは、構造依存性であり得る、すなわちタンパク質の内部コアがタンパク質の外表面とは異なる可能性がある置換パターンを有すること、へリックスが鎖と異なるパターンを持ち得ること、および同様のことである(KoshiおよびGoldstein(1997)「Mutation matrices and physical−chemical properties:correlations and implications」、Proteins 27:336−344、ならびにKoshiおよびGoldstein(1996)「Correlating structure−dependent mutation matrices with physical−chemical properties」、Pac.Symp.Biocomput.488−499)。 物理化学的特性に基づくマトリクスを用いて、好適な置換を選択することもできる。 本発明での使用に適した置換マトリクスに関する更なる詳細は、例えば、Durbinら、Biological Sequence Analysis: Probabilistic Models of Proteins and Amino Acids、Cambridge University Press(1998)にさらに記載されている。 任意の上記のマトリクスを使用する際、保存的多様性および/または非保存的多様性を組み込んでいる改変体ポリペプチドのライブラリを作製することができる。 非保存的ライブラリに対して、多様性進化下で、発生しにくい置換を通常選択する。

    目的のタンパク質の構造が利用可能であるとき、タンパク質機能に所望の影響を有する領域/残基を特定することができる。 これは、例えば活性部位周囲の静電気の変化またはタンパク質の改変された力学を生じる変化の単一モデリングによって達成することができる(Kidokoro、前出)。 構造情報を用いて、最も影響を有するドメイン/モジュールを特定することもでき、作業は、タンパク質の選択された領域のみに制限され得る。

    本発明のアルゴリズムを用いて、中間適合性の連続体、遺伝的および表現型分散の連続体、および高レベルの相加的遺伝的変動性によって、任意の与えられた遺伝子に対して、一連のライブラリを構築することができる。 アルゴリズムは、タンパク質のエキスパートな知識から相対的に独立して実現されるという意味で、本質的に「自動的」である。

    これらの方法の概要として、図11は、配列空間を効率的に探索するための一方法実施形態で実行される特定のステップを図示する表を提供する。 図示するように、該方法は、初期遺伝子または遺伝子ファミリー(すなわち目的となる遺伝子)を特定する工程(H1)と、所望の進化的タイムスケールに及ぶホモログの配列を得る工程(H2)、および時間/確率の関数(P)として特定される(すなわち、このような突然変異が天然に発生するタイムスケールまたは確率および保存のレベルによって示される)アミノ酸変化(例えば、初期遺伝子にコードされるポリペプチドに関して)の数およびタイプを評価する工程(H3)を包含する。 該方法は、時間/確率の関数として、潜在的なライブラリ多様性を評価する工程(H4)、例えば、スクリーニング処理能力および新規ライブラリの予期される適合性に基づいて、所望のライブラリ・サイズを生じる与えられたタイムスケールでの可変位置の数を特定する工程(H5)を包含する。 さらに、該方法は、多様性が起こるタイムスケールの関数として、中間適合性およびライブラリの分散を評価する工程(H6)、および所望の中間適合性および分散範囲を網羅する一連のライブラリを作製する工程(H7)を包含する。

    全アラインメントおよび/または特定の使用者が定義した残基セットに対して、あるいは構造情報を用いて、これらの方法全てを実行して、ドメイン(モジュール、サブドメイン等)のライブラリを作製することができる。 多様性生成に関して、PCA、PLS、または同様のもののような他の方法と関連させて、これらのマトリクスに基づくアプローチを用いることができ、タンパク質の特異的な部位に関する負荷情報(例えば部位エントロピー)の重要度が置換の可能性にあると考えることができる。 コンセンサス配列から得た情報を用いて、ライブラリの多様性を制限または増加することができる。 祖先配列の再構築方法により、進化過程中の非常に早い時期に、タンパク質のセットで起る変化と、天然に適合する変化とを確実に特定することができる。 本明細書に記載されるアプローチで、これを自動的に用いて、所望のライブラリを作製することができる。

    これらの方法は、典型的には、様々な選択厳重性およびライブラリ・サイズを含む。 例えば、推定によって、タンパク質の「脆さ」の評価を任意で行う。 このような推定は、典型的には、タンパク質の折り畳みのモデル研究(例えばすでに文献等にあるように)、実験データ(例えば、ライブラリ毎に約100〜1000ヒットをスクリーニングする等)、進化の変化速度から得た補外法、スクリーニングされ得るライブラリのサイズ、および/または同様のものによって決定される。 ライブラリは、典型的には、使用される特定のスクリーニング方法によって、約10 〜約10 12のメンバーを含む。 例えば、下流のより高い複雑性スクリーニングと、スクリーニングとの相関性を考慮すべきである。

    高効率配列空間探索用のこれらの方法は、多くの異なる利点を提供する。 具体的には、目的となるタンパク質/折り畳みに関するデータが蓄積されるにつれて、一般的なアプローチがより強力に、かつ精錬されるようになる。 また、コンピュータを用いて、系統発生的データから所望の配列空間を自動的に定義することができる。 さらに、「確実な」ステップに関する系統発生的情報(例えば、保存的残基置換)を、次の解析および発展用に利用することができる。

    特定の態様では、本発明は、所望のサイズのライブラリを生産するためのシステムを提供する。 システムは、(a)生体高分子文字列のセットを保存できるデータベースを含む少なくとも1つのコンピュータと、(b)システム・ソフトウェアとを含む。 システム・ソフトウェアは、(i)少なくとも1つの初期ポリペプチド配列の1つ以上のホモログを特定することと、(ii)ホモログの配列および初期ポリペプチドを比較すること、(iii)可変アミノ酸残基を特定し、可変アミノ酸残基は、ホモログの配列および初期ポリペプチド配列の対応する位置でのアミノ酸残基タイプと比較して異なること、(iv)進化的に保存された可変アミノ酸残基のセットを特定すること、および(v)進化的に保存された可変アミノ酸残基のセットを組み込んでいるタンパク質改変体のライブラリを生成することとのための1つ以上の論理命令を含む。 システム・ソフトウェアは、(iv)所望のライブラリ・サイズを生じる選択された進化的タイムスケールから、少なくとも1つの初期生体高分子文字列中の可変単量体位置を特定すること、および(v)選択された中間適合性および分散範囲を含む一連のライブラリを提供することとのための命令も含む。

    本発明は、所望のサイズのライブラリを生産するためのコンピュータ・プログラム・プロダクトも提供する。 コンピュータ・プログラム・プロダクトは、(a)選択された進化的タイムスケールから、少なくとも1つの初期生体高分子文字列の1つ以上のホモログを特定することと、(b)時間/確率に対して、少なくとも1つの初期生体高分子文字列に関する多数の単量体変化をプロットすることと、(c)時間/確率に対して、潜在的なライブラリ・サイズをプロットすることとのための1つ以上の論理命令を有するコンピュータ可読媒体を含む。 コンピュータ・プログラム・プロダクトは、(d)所望のライブラリ・サイズを生じる選択された進化的タイムスケールから、少なくとも1つの初期生体高分子文字列中の可変単量体位置を特定すること、および(e)選択された中間適合性および分散範囲を含む一連のライブラリを提供することとのための命令も含む。

    (IV.配列活性予測)
    (A.向上した特性をもつDNA配列またはタンパク質配列を同定するためのニューラル・ネットワークの使用)
    本発明において、ニューラル・ネットワークは、向上した特性をもつ配列を予測するために、DNAシャフリングを含む様々な人工進化プロセスから得られたデータを分析するのに用いられる。 一実施例において、そのようなニューラル・ネットワークは、遺伝的アルゴリズムによって、配列をさらに先のタンパク質改変体ライブラリに最適化するために用いることが可能である。 簡潔にいうと、この方法には、例えば、シャフリング手順の各ラウンドからのデータを、ニューラル・ネットワークのためのトレーニング・セットとして用いることが含まれる。 ニューラルネット・ネットワークがいったんトレーニングされれば、トレーニングされたネットワークを用いて、文字列配列をインシリコで「アッセイする」ことが可能となる。 ネットワークによって、向上した特性をもつと同定された配列は、通常、次いで、シャフリングの後続ラウンドに加えられるか、または新規に合成される。 これらの新たに予測された文字列配列を評価するのに用いられるスコアリング・システムは、場合によって、ニューラル・ネットワークによって予測されたスコアのみでなく、派生的文字列配列(例えば、新たに予測された文字列配列の文字列改変体)のうちいくつが、さらに高いニューラル・ネットワーク・スコアをもっているかというスコアも考慮に入れる。 例えば、文字列配列Aが1000の文字列改変体に変異し、ネットワークによって、各改変体が得点された場合、ニューラル・ネットワークにおけるある特定のカットオフを超えたスコアをもつ文字列改変体の割合が、場合によって、カウントされる。 さらに、このデータを、文字列配列Aのニューラル・ネットワーク・スコアに合わせることで、最終スコアを算出することも可能である。 そのようなスコアは、ネットワークがその配列に関して予測したことだけではなく、その配列を変異させることによって、同程度に良いか、またはより良い配列に変異する可能性もまた表すであろう。

    さらに例示するため、図13に、所望の特性を含む文字列を予測する方法の一実施形態で実行される特定のステップを示す図を提供する。 示されるように、この方法には、少なくとも1つの人工進化処置を用いて、少なくとも1つの親文字列(例えば、複数の親文字列など)を進化させることで、少なくとも1つの人工進化した文字列の集団を生むこと(I1)が含まれる。 文字列に実施される人工進化処置は、通常、人工進化した文字列の複数の集団を生むために反復的に行われ、そのような人工進化した文字列の複数の集団が、ニューラル・ネットワークをトレーニングするのに用いられる。 また、この方法には、人工進化した文字列の集団を、少なくとも1つの所望する特性(例えば、物理学的特性、触媒特性、または親文字列と比較して向上した特性である同様のもの)に関して、選択、もしくはスクリーニングして、人工進化した選択文字列集団を生む工程(I2)が包含される。 また、この方法には、ニューラル・ネットワークを、人工進化した選択文字列集団によってトレーニングし、トレーニングされたニューラル・ネットワークを生む工程(I3)が包含される。 しかる後、この方法には、トレーニングされたニューラル・ネットワークを用いて、所望の特性を含むか、または含む可能性の高い文字列を予測する工程(I4)が包含される。 ニューラル・ネットワークに関する詳細がさらに、上に提供されている。

    ある特定の実施形態において、この方法には、ステップI2で選択された人工進化した文字列の集団を、反復されるステップI1の少なくとも1つの親文字列として用いてステップI1およびI2を反復することがさらに含まれる。 これらの実施形態において、この方法には、必要に応じて、少なくとも1回反復されたステップI2から得られた、人工進化した選択文字列集団を用いて、ステップI3のニューラル・ネットワークをさらにトレーニングすることがさらに含まれる。 親文字列は、通常、ポリヌクレオチド、またはポリペプチドに対応している。 いくつかの実施形態において、この方法には、必要に応じて、ステップI4で予測された文字列に対応するポリヌクレオチド、またはポリペプチドを合成することがさらに含まれる。 他の実施形態において、この方法には、ステップI4で予測された少なくとも1つの文字列を、反復されるステップI4での親文字として用いてステップI1−I4を反復することがさらに含まれる。 通常、この方法には、ライブラリ生産を、活性なライブラリ・メンバーに向けて偏らせるためのフィルターとして、トレーニングされたニューラル. ネットワークを用いることがさらに含まれる。

    特に、ステップI4には、通常、トレーニングされたニューラル・ネットワークのスコアリング・システムを用いることで複数の文字列を得点して、所望の特性をもつ文字列を予測することが含まれる。 スコアリング・システムは、概して、得点された文字列のランク付けを行う。 加えて、スコアリング・システムは、通常、選択されたスコアを超えるスコアを含む文字列のそれぞれから生じる子孫文字列の数を計上する。 例えば、文字列の子孫の数は、通常、例えば、約2個と約10 個の間の子孫文字列を含む。 一般的に、スコアリング・システムは、それぞれの文字列スコアを、それぞれの対応する子孫文字列スコアと合わせ、最終スコアを算出する。 最終スコアは、その文字列に比べて向上した子孫文字列にその文字列が変異する可能性の指標を提供する。

    ステップI1で用いられた人工進化処置は、場合によっては、インシリコで行われ、従って、通常、遺伝的演算子を親文字列に適用して人工進化した文字列の集団を生むことを含む。 この方法で場合によって用いられる遺伝的演算子の例には、例えば、少なくとも1つの親文字列もしくは少なくとも1つの親文字列の従属文字列(substrings)の変異(mutation)、少なくとも1つの親文字列もしくは少なくとも1つの親文字列の従属文字列の増殖(multiplication)、少なくとも1つの親文字列の従属文字列への断片化(fragmentation)、親文字列間もしくは親文字列の従属文字列間の交さ(crossover)、親文字列もしくは親文字列の従属文字列のライゲーション(ligation)、エリート化計算(elitism calculation)、親文字列を含むアライメントの配列ホモロジーもしくは配列類似性の計算、1つ以上の遺伝的演算子の少なくとも1つの再帰的使用(recursive use)、少なくとも1つの親の文字列もしくは少なくとも1つの親の文字列の従属文字列への偶発性演算子(randomness operator)の適用、1つ以上の親文字列もしくは1つ以上の親文字列の従属文字列の欠失変異(deletion mutation)、少なくとも1つの親文字列もしくはその親文字列の従属文字列のへの挿入変異(insertion mutation)、親文字列から不活性配列を引く減算(substraction with inactive sequence)、親文字列の活性配列による選別(selection with active sequence)、親文字列もしくは親文字列の従属文字列の消滅(death)などが含まれる。

    本発明はまた、所望の特性を含む文字列を予測するためのコンピュータ・システムを提供する。 このシステムには、(a)ニューラル・ネットワーク、および文字列を保存することができるデータベースを含んだコンピュータ・システム、ならびに(b)システム・ソフトウェアが含まれる。 このシステム・ソフトウェアには、(i)少なくとも1つの人工進化処置を用いて少なくとも1つの親文字列を進化させ、人工進化した文字列の少なくとも1つの集団を生むこと、ならびに(ii)人工進化した文字列の集団を少なくとも1つの所望の特性に関して、選択、またはスクリーニングして、人工進化した選択文字列の集団を生むことに対する一つ以上の論理演算命令が含まれている。 このソフトウェアにはまた、(iii)人工進化した選択文字列の集団でニューラル・ネットワークをトレーニングし、トレーニングされたニューラル・ネットワークを生むこと、および(iv)トレーニングされたニューラル・ネットワークを用いることで少なくとも1つの所望の特性を含む1つ以上の文字列を予測することに対する指示が含まれている。

    別の局面において、本発明は、所望の特性を含む文字列の予測のためのコンピュータ・プログラム・プロダクトに関する。 このコンピュータ・プログラム・プロダクトは、(a)少なくとも1つの人工進化処置を用いて少なくとも1つの親文字列を進化させ、人工進化した文字列の少なくとも1つの集団を生むこと、および(b)人工進化した文字列の集団を少なくとも1つの所望の特性に関して、選択、またはスクリーニングして、人工進化した選択文字列の集団を生むことに対する1つ以上の論理演算命令をもつコンピュータによって読み取り可能な媒体が含まれる。 このプロダクトにはまた、(c)人工進化した選択文字列の集団でニューラル・ネットワークをトレーニングし、トレーニングされたニューラル・ネットワークを生むこと、および(d)トレーニングされたニューラル・ネットワークを用いることで少なくとも1つの所望の特性を含む1つ以上の文字列を予測することに対する指示が含まれている。 システムおよびソフトウェアについては、本明細書において、さらに記載されている。

    (B. 配列空間を分析するためのパターンまたはモチーフ探索アルゴリズムの使用)
    一群の配列のなかでモチーフを発見および探索するのに利用可能なコンピュータ・プログラムがある。 一般に、これらのプログラムは、配列を広範なタンパク質ファミリーの一部として、あるいは一部ではないと特徴づけることに制限されている。 本発明では、モチーフ探索プログラムがタンパク質、例えば人工的に進化したタンパク質の特徴付けおよび予測に用いられる。 例えば、ポジティブ配列(例えば、所望の適合性レベルを持つ配列)、ネガティブ配列(例えば、所望の適合性レベルを欠いている配列)、および親が任意かつ別々にパターン探索プログラムに入力される。 しかし、すべてのタイプの配列がパターン探索プログラムに一緒に入り、例えば任意のパターンの発見感度を高める。 一般にポジティブ配列の相同性が高いことから、モチーフ探索プログラムは概して各配列群内に存在する多くのモチーフまたはパターンを見つける。 パターンは、各群での出現頻度にもとづいて、各配列群での無の頻度および/またはその他にスコアリングされる。 また、検出されたパターンも、任意にニューラル/ネットワーク等の別のパターン認識アルゴリズムに入力される。 ひとたびパターン認識およびスコアリングが完了すると、所望の活性/特性を持つ、または持つ可能性のある追加の配列を見つけるために、仮説配列のスコアリングがおこなわれる。 さらに、PCA分析は、パターン探索結果に対して任意に実行され、活性を予測するモチーフまたはパターンの組み換えがあるかどうかを判断し、その後に追加のタンパク質配列のスコアリングに用いられる。 これらの方法は、一般にウェブをベースとした実施形態または他のソフトウェアをベースとして実施形態でインプリメントされ、さらにシャフリング用の分子生物学キットを売るために、オリゴ、または他のバイオインフォマティック・ソフトウェアあるいはサービスを売るために、交叉分析、シャフル分析、オリゴ生成、構造分析等の追加のバイオインフォマティック分析ツールと任意に結びつけられる。

    ある実施形態では、探索ツリーが生成される。 これは、例えば、すべての可能なパターンおよびパターンの組み合わせを試みる代わりにツリーを横断することを可能にするような方法で、パターンまたはパターン群を組織するために、スコアリング方法にもとづいている。 例えば、パターンは、該パターンがどれだけ頻繁にポジティブ/ネガティブ配列に現れるかによって、任意にスコアリングされる。 個々のパターンの代わりに、PCA分析等が任意に行われて、ノードの各々に対するパターンの組み合わせが決定される。 例証のために、ポジティブおよびネガティブ配列上でのパターン探索の結果がPCAを用いて任意に分析される。 ロード・カットオフ値は、一般に各々の主成分に使用され、その後、結果として生ずるパターン(例えば、パターンのリスト)は上記ツリーのノードに相当するだろう。

    さらに、パターンは、予測活性の値と同様に、例えば相対的情報コンテンツ、重要性、適合性等に関連した値で任意にスコアリングされる。 それらは再び任意に用いられ、ニューラル・ネットワークのトレーニング、または仮説タンパク質または他の生体高分子をランク付けまたはスコアリングする決定ツリーを構築する。 例えば、パターンAAA. GAWが最も重要であると見いだされると、仮説タンパク質は、サブ・ブランチに次に最も重要なパターンを持っているかどうかにもとづいて、主にチェックされる。 このプロセスは、与えられた次に最も重要なパターンによって任意に継続され(例えば、最初のものが見つけられ、または見つけられず)、またその配列にもとづいて配列を分類する。 「含んでいる」および「含んでいない」サブ・ツリーは、同様のノード(すなわちパターン)を含むものであってもよく、または特定のパターンがその親ノード系統に与えられることがどれほど重要なのかに依存しない。 さらに例証するために、図14に実施例組織的なツリーの概略図を示す。 この例では、パターンが3つのパターンAAA. GAW、AAA. G. W. WおよびGPPWを有している場合、所望の活性を持つ可能性は60%である。 さらに、ポジティブ配列の60%がこれら3つのパターンを持っているという事実にもとづいているかもしれない。

    図15は、標的ポリペプチド文字列(例えば、少なくとも1つの仮説ポリペプチド文字列など)の特性を予測する方法の一実施形態で実行される特定のステップを描くチャートである。 示されるように、ポリペプチド文字列改変体の集団からなる少なくとも1つのサブセットは、モチーフ・データ(J1)を生成するために少なくとも1つの特性(例えば、機能的特性、構造的特性、および/またはその他)を含むポリペプチド文字列改変体の集団の2つ以上のメンバーに共通した1つ以上のモチーフを識別することが含まれる。 特定の実施形態では、系統発生ファミリーはポリペプチド文字列改変体を含む。 1つ以上のモチーフの少なくとも1つが典型的に1つ以上の文字準列を含む。 一般に、少なくとも1つの標的ポリペプチドは、標的ポリペプチド文字列の集団を含む。 これらの実施形態で、標的ポリペプチド文字列の集団は、一般に1つ以上の人工進化手法によって生成される。 上記方法は、同様に、少なくとも1つの特性とモチーフ・データ・セット由来の少なくとも1つのモチーフとを関連させてモチーフ・スコアリング機能を生成するJ2と、モチーフ・スコアリング機能を用いて少なくとも1つの標的ポリペプチドをスコアリングして少なくとも1つの標的ポリペプチド文字列の少なくとも1つの特性を予測するJ3とを含む。 これらの方法の少なくとも1つのステップは、一般にデジタルまたはウェブをベースとしたシステムで実施される。 必要に応じて、上記方法は標的ポリペプチド文字列に対応したポリペプチドの合成をさらに含む。 追加のオプションとして、上記ポリペプチド、または該ポリペプチドをコードするポリヌクレオチド、1つ以上の人口進化手法が挙げられる。

    モチーフ・スコアリング機能は、変異技術を用いて生成される。 例えば、ステップ12はポジティブ・ポリペプチド文字列改変体またはネガティブ・ポリペプチド文字列改変体の出現頻度にもとづいてモチーフまたはモチーフの組み合わせをスコアリングすることが任意に含まれる。 いくつかの実施形態では、相対的な情報量および/または相対的な適合性により、モチーフまたはモチーフの組み合わせをスコアリングすることがステップJ2に含まれる。 他の実施形態では、ステップJ2は、相対的な推定活性に関する値を用いて、モチーフまたはこれらのモチーフの組合せをスコアリングすることを含む。 さらに別の実施形態では、ステップJ2は、ポリペプチド文字列改変体の集団の2つ以上のメンバーで1つ以上のモチーフが生ずるか、もしくは不在である回数を決定することを含んでいる。

    特定の実施形態では、ポリペプチド文字列改変体の集団は、1つ以上のポリペプチド文字列改変体を含む。 各ポリペプチド文字列改変体群は、例えばポジティブ・ポリペプチド文字列改変体、ネガティブ・ポリペプチド文字列改変体、および/または親ポリペプチド文字列改変体を含む。 ポリペプチド文字列改変体は、1つ以上の人口進化手法によって典型的に生産されるか、あるいはそれによって生産されたポリペプチドに相当する。 1つ以上の人口進化技術の少なくとも1つ(および通常は2つ以上)のステップが一般にインシリコでおこなわれる。

    好ましい実施形態で、少なくともステップJ1は、少なくとも1つの第1モチーフ認識アルゴリズムを含む少なくとも1つの論理装置で実施され、第1モチーフ認識アルゴリズムは、1つ以上のモチーフを識別する。 一般に、各方法のステップは、少なくとも1つの論理装置でおこなわれる。 必要に応じて、それらの方法は、モチーフ・データ・セットのモチーフを組織するために、少なくとも1つの分類ツリー(例えば、少なくとも1つの分類および回帰ツリー(CART))をさらに含む。 例えば、少なくとも1つの分類ツリーは、モチーフ・データ・セットにあるモチーフのすべてまたはモチーフの組み合わせなしに、モチーフ・データ・セットを探索することが典型的に可能である。

    いくつかの実施形態では、方法は、少なくとも1つの所望の特性を予測するモチーフの1つ以上の組み合わせを識別するために、モチーフ・データ・セット上で主成分分析を行うことを、さらに含む。 必要に応じて、方法は、所望の特性を予測するモチーフの1つ以上の組み合わせを識別するために、モチーフ・データ・セット上で部分最小二乗分析をおこなうことを、さらに含む。 1つ以上の識別されたモチーフの組み合わせは、一般的にモチーフ・スコアリング機能をさらに洗練されたものにするために使われる。 また、任意に、方法はモチーフの1つ以上の組み合わせを組織するために、少なくとも1つの分類ツリー(例えば、少なくとも1つの分類および回帰ツリー)を生産することを含む。 これらの実施形態では、モチーフの1つ以上の組み合わせが一般に少なくとも1つの分類ツリーのノードを含む。 一般に、少なくとも1つの分類ツリーによって、モチーフ・データ・セット内のすべてのモチーフまたは組み合わせを試験することなく、モチーフ・データ・セットを探索することが可能になる。 別の特定の実施形態では、方法はさらにモチーフ・データ・セットを少なくとも1つの第2のパターン認識アルゴリズムにさらすことが、さらに含まれ、第2パターン認識アルゴリズムは、ポリペプチド文字列改変体の集団の少なくとも2つのメンバーに共通する少なくとも1つの追加のモチーフを識別する。 例えば、第2パターン認識アルゴリズムは、任意にニューラル・ネットワークを含む。 ニューラル・ネットワークは、本明細書でさらに詳しく説明する。

    本発明は、少なくとも1つの標的ポリペプチド文字列の少なくとも1つの特性を予測するためのシステムも提供する。 このシステムは、(a)文字列を格納することが可能なデータベースと、(b)システム・ソフトウェアとを含む。 システム・ソフトウェアは、(i)ポリペプチド文字列改変体の集団の2つ以上のメンバーに共通の1つ以上のモチーフを識別するための1つ以上の論理命令を含み、モチーフ・データ・セットを生成するために、ポリペプチド文字列改変体の集団からなる少なくとも1つのサブセットが少なくとも1つの特性を有する。 ソフトウェアは、命令または(ii)モチーフ・スコアリング機能を生成するために、モチーフ・データ・セットから少なくとも1つのモチーフを少なくとも1つの特性と相関させ、(iii)少なくとも1つの標的ポリペプチドの少なくとも1つの特性を予測するためにモチーフ・スコアリング機能を用いて少なくとも1つの標的ポリペプチド文字列をスコアリングする命令も含む。

    さらに、本発明は少なくとも1つの標的ポリペプチド文字列の少なくとも1つの特性を予測するコンピュータ・プログラム・プロダクトにも関する。 コンピュータ・プログラム・プロダクトは、(a)ポリペプチド文字列改変体の集団の2つ以上のメンバーに共通する1つ以上のモチーフを識別するための1つ以上の論理命令を有するコンピュータ読み取り可能媒体を含むもので、ポリペプチド文字列改変体の集団からなる少なくとも1つのサブセットは、モチーフ・データ・セットを生成するために、少なくとも1つの特性を有する。 また、コンピュータ・プログラム・プロダクトは、(b)モチーフ・スコアリング機能を生成するために、モチーフ・データ・セットから少なくとも1つのモチーフを少なくとも1つの特性と相関させ、(c)少なくとも1つの標的ポリペプチドの少なくとも1つの特性を予測するためにモチーフ・スコアリング機能を用いて少なくとも1つの標的ポリペプチド文字列をスコアリングする命令も含む。

    (C.PCAおよびニューラル・ネットワークを使用する機能的なスクリーニングによるインシリコ有向進化)
    特定の実施形態では、親文字列のセットの少なくとも1つのメンバーが少なくとも1つのデータベースから得られる。 いくつかの実施形態では、少なくとも1つのメンバーは、データベースから利用可能な実質的にすべての文字列を含む。 典型的には、親文字列のセットの少なくとも1つのメンバーは、1つ以上の人工進化手法によって生産、または少なくとも1つのポリペプチドに対応するか、1つ以上の人工進化手法によって少なくとも1つのポリペプチドが作られる。 人工進化手法の少なくとも1つのステップは、一般にインシリコでおこなわれる。 いくつかの実施形態では、親文字列のセットは、親ポリヌクレオチドまたはポリペプチドのセットに対応する。

    本発明はまた、文字列に対して活性を割り当てるシステムを提供する。 このシステムは、(a)文字列を格納する能力を持つデータベースを含む少なくとも1つのコンピュータと、(b)システム・ソフトウェアとを有する。 システム・ソフトウェアは、(i)選択された1セットの親文字列を生成するために少なくとも1つの活性に対して1セットの親文字列を選択し、(ii)1セットの選択された親文字列を1つ以上の人工進化手法にさらして1セットの進化した文字列を生成する1つ以上の論理命令を含む。 このシステム・ソフトウェアは、(iii)少なくとも1つの活性に対して1セットの進化した文字列を選択して1セットの選択された進化した文字列を生成し、(iv)このセットの文字改変体に対して配列活性プロットを提供し、(v)配列活性プロットから1つ以上の文字列の少なくとも1つの活性を予測するための命令も含む。

    さらに、本発明は文字列活性を予測するためのコンピュータ・プログラム・プロダクトを提供する。 コンピュータ・プログラム・プロダクトは、(a)選択された1セットの親文字列を生成するために少なくとも1つの活性に対して1セットの親文字列を選択し、(b)1セットの選択された親文字列を1つ以上の人工進化手法にさらして1セットの進化した文字列を生成する1つ以上の論理命令を含む。 このシステム・ソフトウェアは、(c)少なくとも1つの活性に対して1セットの進化した文字列を選択して1セットの選択された進化した文字列を生成し、(d)このセットの文字改変体に対して配列活性プロットを提供し、(e)配列活性プロットから1つ以上の文字列の少なくとも1つの活性を予測するための命令も含む。
    V. 実験技術A. タンパク質改変体ライブラリ タンパク質改変体ライブラリは、当業者に周知の種々の方法のいずれかを用いて生成することができる。 それらのライブラリの調製は、一般にin vivoまたはin vitroのいずれかで、多様なポリヌクレオチドからなるライブラリを発現させておこなう。 多様性ポリヌクレオチドのライブラリは、1つ以上の「親」ポリヌクレオチドに対する「多様性生成法」の適用によって生成することができる。

    本明細書で用いられるように、「多様性生成法(diversity generating procedure)」という用語は、親ポリヌクレオチドの配列のみならず、それがコードするポリペプチドも修飾する方法であり、該方法によって配列が互いに異なるポリヌクレオチド改変体のライブラリが生成される。 本発明を実施する際の使用に適している多様性生成法として、突然変異誘発および組み換えをベースとした方法またはそれら両方の組み合わせのいずれかが挙げられる。 したがって、得られたポリヌクレオチド改変体ライブラリが発現することで、ポリペプチド改変体のライブラリが生成される。

    本発明を実施する際に用いられるタンパク質改変体ライブラリの作製は、タンパク質改変体分子のアミノ酸配列について事前に知ることなしに生成する「目隠し(blind)」様式でおこなうこともできる(すなわち、ここではタンパク質改変体ライブラリへの発現に先立ってポリヌクレオチド改変体配列を知ることはできない)。 あるいは、タンパク質改変体をコードするアミノ酸配列を先験的に設計した後、当業者に周知の方法を用いて実際に物理的分子を作製するステップを実施してもよい。 これらの方法はポリヌクレオチドの発現を伴うもので、そのようなポリペプチドは、例えば、当業者に周知の方法を用い、ライゲーションおよび/またはポリメラーゼ媒介オリゴヌクレオチド・アセンブリーならびに親ポリヌクレオチドの突然変異誘発を介した遺伝子合成によって生成される。 体系的に多様なタンパク質改変体のアミノ酸配列を設計するための適当な方法として、本明細書でより詳しく説明される実験計画法(DOE)が挙げられる。

    ポリヌクレオチド突然変異誘発は、本発明を実施する際に用いられるタンパク質改変体を生成する上で適当な方法である。 そのような方法として、例えば、エラープローンポリメラーゼ鎖反応(PCR)、部位特異的突然変異誘発、カセット突然変異誘発、in vivo突然変異誘発法などが挙げられる。 エラープローンPCRは、PCRプロダクトの全長にわたって点突然変異が高率で生ずるように、DNAポリメラーゼの複製忠実度が低い条件下でPCRおこなわれる。 Leungら(1989)Technique 1:11−15およびCaldwellら(1992)PCR Methods Applic. 2:28−33を参照せよ。 部位特異的突然変異は、オリゴヌクレオチドを標的とする突然変異誘発を用いることで、目的とするポリヌクレオチド配列へ導入することができる。 Reidhaar−Olsonら(1988)Science、241:53−57を参照せよ。 同様に、カセット突然変異誘発は、ネイティブな配列とは異なる合成オリゴヌクレオチド・カセットによって二重鎖DNAの小さな領域を置換するプロセスで用いることができる。 in vivo突然変異誘発は、突然変異を生ずる傾向のある宿主細胞株、例えば1つ以上のDNA修復経路で突然変異を有する大腸菌(E.coli)のDNAを伝搬させることによって、目的とする任意のクローン化DNAでのランダム突然変異を生成する。 それらの「ミューテーター(mutator)」株は、野生型の親のものと比べてランダム突然変異率が高い。 それらの株の一つへDNAを伝搬することは、そのDNAにランダム突然変異が生ずる結果となろう。 突然変異誘発は、当業者によく知られており、広くほかのところで説明されている。 例えば、Kramerら(1984)Cell 38:879−887、Carterら(1985)Nucl. Acids Res. 13:4431−4443、Carter(1987)Methods in Enzymol. 154:382−403、EghtedarzadehおよびHenikoff(1986)Nucl. Acids Res. 14:5115、Wellsら(1986)Phil. Trans. R. Soc. Lond. A 317:415−423、Nambiarら(1984)Science 223:1299−1301、SakamarおよびKhorana(1988)Nucl. Acids Res. 14:6361−6372、Wellsら(1985)Gene 34:315−323、Grundstromら(1985)Nucl. Acids Res. 13:3305−3316、Mandecki(1986)Proc. Natl. Acad. Sci. USA,83:7177−7181、Arnold(1993)Current Opinion in Biotechnology 4:450−455)、Anal Biochem. 254(2):157−178、Daleら(1996)Methods Mol. Biol. 57:369−374、Smith(1985)Ann. Rev. Genet. 19:423−462、BotsteinおよびShortle(1985)Science 229:1193−1201、Carter(1986)Biochem. J. 237:1−7、Kunkel(1987)、Nucleic Acids & Molecular Biology、Eckstein,F. およびLilley,D. M. J. eds. ,Springer Verlag,Berlin、Kunkel(1985)Proc. Natl. Acad. Sci. USA 82:488−492、Kunkelら(1987)Methods in Enzymol. 154,367−382、ならびにBassら(1988)Science 242:240−245、Methods in Enzymol. 100:468−500(1983)、Methods in Enzymol. 154:329−350(1987)、ZollerおよびSmith(1982)Nucleic Acids Res. 10:6487−6500、ZollerおよびSmith(1983)Methods in Enzymol. 100:468−500、ならびにZollerおよびSmith(1987)Methods in Enzymol. 154:329−350)、Taylorら(1985)Nucl. Acids Res. 13:8749−8764、Taylorら(1985)Nucl. Acids Res. 13:8765−8787(1985)、NakamayeおよびEckstein(1986)Nucl. Acids Res. 14:9679−9698、Sayersら(1988)Nucl. Acids Res. 16:791−802、Sayersら(1988)Nucl. Acids Res. 16:803−814)、Kramerら(1984)Nucl. Acids Res. 12:9441−9456、KramerおよびFritz(1987)Methods in Enzymol. 154:350−367、Kramerら(1988)Nucl. Acids Res. 16:7207、およびFritzら(1988)Nucl. Acids Res. 16:6987−6999が挙げられる。

    突然変異誘発、ライブラリ構築、および他の多様性生成法用のキットが市販されている。 キットは、例えば、ストラタジーン(Stratagene) (例えば、QuickChange(商標)部位特異的突然変異誘発キット、およびChameleon(商標)二重鎖、部位特異的突然変異誘発キット)、バイオ/キャン・サイエンティフィック(Bio/Can Scientific)、バイオラッド(Bio−Rad)(例えば、上掲のクンケル(Kunkel)法)、ベーリンガー・マンハイム(Boehringer Mannheim Corp.)、クローンテック・ラボラトリーズ(Clonetech Laboratories)、DNAテクノロジーズ(DNA Technologies,)、エピセンター・テクノロジー(Epicentre Technologies)(例えば、5プライム3プライム・キット)、ジェンパック(Genpak Inc)、レマルゴ(,Lemargo Inc)、ライフ・テクノロジーズ(Life Technologies)(Gibco BRL)、ニュー・イングランド・バイオラブス(New England Biolabs)、ファルマシア・バイオテック(Pharmacia Biotech)、プロメガ(Promega Corp.)、クオンタム・バイオテクノロジーズ(Quantum Biotechnologies)、アマシャム・インターナショナル(Amersham International plc)(例えば、上掲のエクススティン(Eckstein)法を用いる)、およびアングリアン・バイオテクノロジー(Anglian Biotechnology Ltd.)(例えば、上掲のカーター/ウィンター(Carter/Winter)法を用いる)から入手可能である。

    組み換えをベースとする方法もまた、タンパク質を生成するために発現可能なポリヌクレオチド改変体からなる多様ライブラリを生成するのに適している。 これらの方法もまた、DNAシャフリングと呼ばれる。 これらの方法では、ポリヌクレオチドがin vitroまたはin vivoのいずれかで組み換えられて、ポリヌクレオチド改変体のライブラリが生ずる。 組み換えにもとづく方法では、1つ以上の親ポリヌクレオチドの配列のいくつかまたはすべてと配列がひとまとめにして一致する、DNAフラグメント、PCRアンプリコン、および/または合成オリゴヌクレオチドが組み換えられて、親ポリヌクレオチドのヌクレオチド改変体ライブラリが生成される。 組み換えプロセスは、DNAフラグメント、PCRアンプリコン、および/または合成オリゴヌクレオチドを互いにハイブリダイゼーションさせたり(例えば、部分的に重複した二本鎖として)、あるいは完全長の鋳型として一本の長いDNAとハイブリダイゼーションさせることを媒介としたものであってもよい。 用いた組み換え体フォーマットに依存して、リガーゼおよび/またはポリメラーゼを使用して完全長ポリヌクレオチドの構築を促進させてもよい。 PCRサイクルは、ポリメラーゼのみを用いる構成で一般に使用される。 これらの方法は、当業者に一般に知られており、広くほかのところで説明されている。 例えば、Soong,N. ら(2000)Nat. Genet. 25(4):436−439、Stemmerら(1999)Tumor Targeting 4:1−4、Nessら(1999)Nature Biotechnology 17:893−896、Changら(1999)Nature Biotechnology 17:793−797、MinshullおよびStemmer(1999)Current Opinion in Chemical Biology 3:284−290、Christiansら(1999)Nature Biotechnology 17:259−264、Crameriら(1998)Nature 391:288−291、Crameriら(1997)Nature Biotechnology 15:436−438、Zhangら(1997)Proc. Natl. Acad. Sci. USA 94:4504−4509、Pattenら(1997)Current Opinion in Biotechnology 8:724−733、Crameriら(1996)Nature Medicine 2:100−103、Crameriら(1996)Nature Biotechnology 14:315−319、Gatesら(1996)Journal of Molecular Biology 255:373−386、Stemmer(1996)In:The Encyclopedia of Molecular Biology. VCH Publishers,New York. pp. 447−457、CrameriおよびStemmer(1995)BioTechniques 18:194−195、Stemmerら(1995)Gene,164:49−53、Stemmer(1995)「The Evolution of Molecular Computation」Science 270:1510、Stemmer(1995)Bio/Technology 13:549−553、Stemmer(1994)Nature 370:389−391、ならびにStemmer(1994)Proc. Natl. Acad. Sci. USA 91:10747−10751、GiverおよびArnold (1998) Current Opinion in Chemical Biology 2:335−338、Zhaoら(1998)Nature Biotechnology 16:258−261、Cocoら(2001)Nature Biotechnology 19:354−359、米国特許第5,605,793号、第5,811,238号、第5,830,721号、第5,834,252号、および第5,837,458号、WO95/22625、WO 96/33207、WO97/20078、WO97/35966、WO99/41402、WO99/41383、WO99/41369、WO99/41368、WO99/23107、WO99/21979、WO98/31837、WO98/27230、WO98/27230、WO00/00632、WO00/09679、WO98/42832、WO99/29902、WO98/41653、WO98/41622、およびWO98/42727、WO00/18906、WO00/04190、WO00/42561、WO00/42559、WO00/42560、WO01/23401、WO00/20573、WO01/29211、WO00/46344、WO01/29212が挙げられる。

    先に参照した組み換えプロセスで用いられる親ポリペプチドは、野生型ポリヌクレオチドでも天然には存在しないポリヌクレオチドのいずれであってもよい。 本発明の一実施形態では、体系的に多様な配列を持つタンパク質改変体が2つ以上の親ポリペプチドの組み換えとそれに続く発現とによって調製される。 いくつかの実施形態では、親ポリヌクレオチドは、単一の遺伝子ファミリーの仲間である。 この明細書で用いられるように、「遺伝子ファミリー(gene family)」という用語は、同じタイプの活性を示す(しかし、必ずしも同程度とは限らない)ポリペプチドをコードする遺伝子の一組である。

    ポリ核酸は、種々の技術のいずれか(例えば組み換えすべき核酸のDNアーゼによる消化)によってinvivo組み換えされ、その後、核酸のライゲーションおよび/またはPCR再構築が行われる。 例えば、性的PCR突然変異誘発を用いることができる。 異なるが関連しているDNA配列を持つDNA分子間での配列類似性にもとづいて、DNA分子のランダム(偽ランダム、または非ランダムな)断片化が組み換えの後に続き、in vitroで、さらにポリメラーゼ鎖反応での伸張による交叉の固定化がおこなわれる。 このプロセスおよび多くのプロセス変形例が、例えばStemmer(1994)Proc. Natl. Acad. Sci. USA 91:10747−10751に記載されている。

    合成組み換え法も用いることができる。 この方法では、目的とする標的に対応したオリゴヌクレオチドを化学的に合成し、2つ以上の親ポリヌクレオチドに対応するオリゴヌクレオチドが含まれるPCRまたはライゲーション反応で再構築し、それによって新規の組み換えポリヌクレオチドを生成する。 オリゴヌクレオチドは、標準的なヌクレオチド付加法、または、トリヌクレオチド合成法等によって合成することができる。 そのような方法に関する詳細は、上記した参考文献、例えばCameriらのWO00/42561:「オリゴヌクレオチド媒介核酸組み換え」、WelchらのWO01/23401:「合成シャフリングのためのコドン多様化オリゴヌクレオチドの使用」、SelifonovらのWO00/42560:「所望の特徴を持つ文字列、ポリヌクレオチド、およびポリペプチドを作製する方法」、さらにSelifonovおよびStemmerらのWO00/42559:「進化シミュレーションで使用されるデータ構造を投入する方法」にある。

    また、ポリヌクレオチドは、組み換えを細胞内の核酸間で起こさせる等、in vivoで組み換えすることもできる。 多くのそのようなin vivo組み換え構成が上記した参考文献に記述されている。 そのような構成は、他の構成と同様に、目的とする核酸間での直接的組み換え、または目的とする核酸を含むベクター、ウイルス、プラスミド等の間での組み換えを状況に応じて提供する。 そのような手法の詳細は、本明細書に引用した参考文献にある。

    自然的多様性にアクセスする多くの方法、例えば多様な核酸または核酸フラグメントを単一鎖の鋳型にハイブリダイズさせ、次に重合および/またはライゲーションをおこなって完全長配列を再生させ、さらに状況に応じて鋳型の分解をおこない、結果として生ずる修飾核酸の回収する方法が、同様に用いられ得る。 これらの方法は、本発明の具体的な実施形態にもとづいて、物理システムで使用でき、あるいはコンピュータ・システムで実行することができる。 単一鎖の鋳型を用いる1つの方法では、ゲノム・ライブラリ由来のフラグメント集団を、正反対の配列に対応する部分的、もしくは多くの場合、ほぼ完全長のssDNAまたはRNAによってアニーリングする。 つぎに、この集団から得た複合キメラ遺伝子からなる集合を、ハイブリダイズしていないフラグメント末端のヌクレアーゼ塩基除去(nuclease−base removal)、そのようなフラグメント間のギャップを埋める重合、および逐次的な単一鎖ライゲーションによって、介在させる。 親ポリヌクレオチド鎖の除去は、消化(例えば、RNAまたはウラシル含有する場合)、変成条件下での磁気による分離(そのような分離の助けとなるように標識した場合)、および利用可能な他の分離/精製方法によって、おこなうことができる。 あるいは、親鎖をキメラ鎖と任意に共精製し、それに続くスクリーニングおよびプロセッシング・ステップの際に除去する。 この方法に関してのさらなる詳細は、例えば、Affholter、WO01/64864の「単一鎖核酸鋳型媒介組み換えおよび核酸フラグメント単離」にある。

    組み換えの方法は、情報処理システム上でデジタル的に実施することもできる。 例えば、アルゴリズムをコンピュータで使用することで、相同的(または非相同的)生体分子に対応する配列文字列を組み換えることができる。 本発明の具体的な実施形態によれば、コンピュータ・システムで処理した後、結果として得られた配列文字列を、例えばオリゴヌクレオチド合成/遺伝子再構築技術と組み合わせて、組み換え配列に対応する核酸の合成によって、核酸に変換することができる。 この方法は、ランダム、部分的にランダム、あるいは設計改変体を精製することができる。 コンピュータ化された組み換えの様々な実施形態に関して、例えば種々のアルゴリズム、オペレータ等をコンピュータ・システムで用いること等の多くの詳細については、設計、偽ランダム、またはランダム組み換え法と同様に、設計された核酸および/またはタンパク質の組み合わせと同様に(例えば、交叉部位選択にもとづく)、SelifonovらのWO00/42560:「所望の特徴を持つ文字列、ポリヌクレオチド、およびポリヌクレオチドを作製する方法」、GustafssonらのWO01/75767:「シリコ交叉部位選択」、ならびにSelifonovおよびStemmerのWO00/42559 :「進化シミュレーションで用いるデータの投入方法」に記載されている。
    B. 有向進化 有向進化(またはそれに代わるものとして「人工進化」)は、組み換え核酸の別の組を生成するために、スクリーニング(本明細書中により詳しく説明されている)と結びつけられた反復的なやり方で1つ以上の多様性生成法をおこなうことで実施することができる。 したがって、有向進化または人工進化は、突然変異誘発および/または組み換えとスクリーニングとの繰り返しサイクルによって実施することができる。 例えば、突然変異誘発および/または組み換えを親ポリペプチド上で実施して改変体ポリヌクレオチドのライブラリを生成し、該ライブラリを発現させることで、所望の活性に対するスクリーニングであるタンパク質改変体ライブラリを生成する。 1つ以上の改変体タンパク質は、所望の活性が改善されていることを示すことから、タンパク質改変体ライブラリから同定してもよい。 同定したタンパク質を逆転写して、同定タンパク質をコードする1つ以上のポリヌクレオチド配列を解明し、その後の多様性生成およびスクリーニングのラウンドで、突然変異または組み換えをおこなう。

    多様性生成の組み換えをベースとした構成を用いた有向進化は、本明細書で引用されている参考文献に縦横に説明されている。 多様性生成の根拠としてタンパク質突然変異誘発のアルゴリズムを用いた有向進化もまた、当業者に周知である。 例えば、アンサンブル突然変異誘発を用いて、表現型上関連した突然改変体の多様性集団(構成要素のアミノ酸配列が異なる)を生成する。 この方法は、フィードバック機構を用いて、組み合わせカセット突然変異の一連のラウンドをモニタする。 この方法の例は、ArkinおよびYouvan(1992)Proc. Natl. Acad. Sci. USA 89:7811−7815にある。 同様に、指数関数的なアンサンブル突然変異誘発は、ユニークかつ機能的な突然変異が高率である組み合わせライブラリを生成するために用いられる。 目的とする1つの配列の複数残基からなる複数の小グループを同時にランダム化し、各々の改変位置で、機能タンパク質に至るアミノ酸を同定する。 そのような手法の例がDelegraveおよびYouvan(1993)Biotechnology Research 11:1548−1552にある。

    本発明の構造活性モデルは、用いられた多様性生成手法に関わりなく、有向進化プロセスの最適化に役立つである。 本発明のモデルの適用に由来する情報は、有向進化プロセスで作られるライブラリをより知的に設計するのに用いることができる。 例えば、特定のアミノ酸残基で残基が切り換えるか、固定することが要求される場合、それら所望のアミノ酸残基をコード化するコドンを取り込んだ合成オリゴヌクレオチドを、本明細書で言及した組み換え構成の1つに用いることで、発現可能なポリヌクレオチド改変体ライブラリが生成される。 あるいは、所望の残基は、本明細書で説明する種々の突然変異誘発法の1つを用いて取り込むことができる。 したがって、いずれにしても、結果として生ずるタンパク質ライブラリは、有益な残基または潜在的に有益な残基であると考えられるものを取り込むタンパク質改変体を含む。 このプロセスは、所望の活性を有するタンパク質改変体が得られるまで繰り返させる。
    C. 活性についてのスクリーニング/選択 本発明の方法に関連して生成されるポリヌクレオチドを、必要に応じて、活性スクリーニングのための細胞中にクローニングする(または、スクリーニング目的の生成物を生成するin vitro転写反応において用いる)。 さらに、in vitroで核酸の濃縮、配列決定、および増幅を行うか、もしくは核酸を任意の他の一般的な組み換え法で処理することができる。

    クローニング、突然変異誘発、ライブラリ構築、スクリーニング・アッセイ、細胞培養等を含む本明細書で有用な分子生物学的技術を説明する一般的なテキストとして、BergerおよびKimmel,Guide to Molecular Cloning Techniques,Methods in Enzymology 第152巻 Academic Press,Inc. ,San Diego,CA(Berger);Sambrookら、Molecular Cloning−A Laboratory Manual(2nd Ed.),第1〜3巻,Cold Spring Harbor Laboratory,Cold Spring Harbor,New York,1989(Sambrook)およびCurrent Protocols in Molecular Biology、F. M. Ausubelら編、Current Protocols,Greene Publishing Associates,Inc. とJohn Wiley & Sons,Inc. とのジョイント・ベンチャー,New York(2000年中、増補)(Ausubel))が挙げられる。 植物および動物細胞を含む細胞への核酸による形質導入の方法は、一般に、そのような核酸によってコードされるタンパク質を発現する方法として、利用可能である。 Berger、Ausubel、およびSambrookに加えて、動物の培養にとって有用な一般参照文献として、Freshney(Culture of Animal Cells,a Manual of Basic Technique,第3版、Wiley−Liss,New York(1994))および該文献に引用された参照文献、Humason(Animal Tissue Techniques、第4版、W.H.FreemanおよびCompany(1979))、ならびにRicciardelliら、In Vitro Cell Dev. Biol. 25:1016−1024(1989)が挙げられる。 植物細胞クローニング、培養、および再生に関する参考文献として、Payneら(1992)Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons,Inc. New York,NY(Payne);ならびにGamborgおよびPhillips(eds)(1995)Plant Cell,Tissue and Organ Culture;Fundamental Methods Springer Lab Manual,Springer−Verlag(Berlin Heidelberg N.Y.)(Gamborg)が挙げられる。 様々な細胞培養培地がAtlasおよびParks(編著)The Handbook of Microbiological Media(1993)CRC Press,Boca Raton,FL(Atlas)に記載されている。 植物細胞培養に関するさらなる情報は、市販の文献、例えばシグマ・アルドリッチ(Sigma−Aldrich,Inc) (St Louis,Mo.)(Sigma−LSRCCC)のLife Science Research Cell Culture Catalogue(1998)、および、例えば同様にシグマ・アルドリッチ(Sigma−Aldrich, Inc)(St Louis, Mo.)(Sigma−PCCS)のPlant Culture Catalogueおよび付録(1997)が挙げられる。

    オリゴヌクレオチド組み換え核酸の増幅等に有用なin vitro増幅法に当業者を導くのに十分な技術の例として、ポリメラーゼ連鎖反応(PCR)、リガーゼ連鎖反応(LCR)、Qβ−レプリカーゼ増幅、および他のRNAポリメラーゼを介した技術(例えば、NASBA)が挙げられる。 これらの技術は、Berger、Sambrook、およびAusubel、上掲、同様にMullisら、(1987)米国特許第4,683,202号、PCR Protocols A Guide to Methods and Applications(Innisら編著) Academic Press Inc. San Diego, CA. (1990) (Innis);Arnheim およびLevinson (1990年10月1日) C&EN 36−47;The Journal Of NIH Research (1991) 3, 81−94;Kwohら(1989) Proc. Natl. Acad. Sci. USA 86, 1173;Guatelliら(1990) Proc. Natl. Acad. Sci. USA 87, 1874;Lomell ら(1989) J. Clin. Chem 35, 1826;Landegrenら (1988) Science 241, 1077−1080; Van Brunt (1990) Biotechnology 8, 291−294;Wu およびWallace, (1989) Gene 4, 560;Barringerら(1990) Gene 89, 117;ならびに、SooknananおよびMalek (1995) Biotechnology 13: 563−564にある。 in vitro増幅核酸の改良されたクローニング方法は、Wallaceら、米国特許第5,426,039号に記載されている。 PCRによる大きい核酸を増幅する改良された方法がChengら(1994) Nature 369: 684−685およびそこで参照された参考文献にまとめられており、そこでは最大で40kbのPCRアンプリコンが生成される。 当業者は、本質的に任意のRNAが、逆転写酵素およびポリメラーゼを用いて、制限消化、PCR展開、および配列決定に適している二重鎖DNAに変換可能であることを理解するだろう。 例えば、Ausubel、Sambrook およびBerger、すべて上掲。

    1つの好ましい方法では、ファミリーをベースとした組み換えオリゴヌクレオチドの組み込みに関して、再構築された配列が調べられる。 このことは、核酸のクローニングおよび配列決定、および/または制限消化(例えばSambrook、Berger、およびAusubel、(上掲)に本質的に示唆されているように)によって行われ得る。 さらに配列を直接、PCR増幅および配列決定し得る。 したがって、例えばSambrook、Berger、Ausubel、およびInnis(上掲)に加えて、追加的なPCR塩基配列決定方法論もまた特に役立つ。 例えば、PCRの最中にホウ素化ヌクレアーゼ耐性ヌクレオチドをアンプリコンに選択的に組み込むことによるPCR生成アンプリコンの直接的塩基配列決定および、ヌクレアーゼによってアンプリコンを消化することで大きさのそろった鋳型フラグメントを生成することが行われた(Porterら(1997) Nucleic Acids Research 25(8):1611−1617)。 この方法では、1つの鋳型上で4回のPCR反応が実行され、各々の反応でPCR反応混合物中のヌクレオチド三リン酸塩の1つが部分的に2'デオキシヌクレオシド5'−[P−ボラノ]−トリホスフェートと置換する。 鋳型のPCRフラグメントのネスト状の集合中のPCRアンプリコンに沿った種々の位置で、ホウ素化ヌクレオチドがPCR生成物に化学量論的に組み込まれる。 組み込まれたホウ素化ヌクレオチドによってブロックされるエクソヌクレアーゼがPCRアンプリコンを切断するのに用いられる。 つぎに、切断されたアンプリコンを、ポリアクリルアミド・ゲル電気泳動法を用いて、大きさによって分けることで、アプリコンの配列が得られる。 この方法の利点は、PCRアンプリコンの標準的なサンガー式の塩基配列決定を実施するよりも、使用される生化学的演算の数が少ないことである。

    合成遺伝子は、従来のクローニングおよび発現法に適している。 そのため、遺伝子およびそれによってコードされるタンパク質の性質は、宿主細胞で発現させた後、容易に調べることができる。 また、合成遺伝子を用いて、in vitro(無細胞)転写および翻訳によるポリペプチド生成物の生成をおこなうことができる。 したがって、ポリヌクレオチドおよびポリペプチドは、微生物の細胞壁、ウイルス粒子、ウイルス表面、およびウイルス膜と同様に、他のタンパク質およびポリペプチドエピトープを含む、様々な所定のリガンド、小分子およびイオン、または高分子物質およびヘテロ高分子物質に結合することができるかどうかを調べ得る。

    例えば、ポリヌクレオチドによって直接的に、またはコードされたポリペプチドによる化学反応の触媒に関わる表現型をコードするポリヌクレオチドを検出するために、多くの物理的方法が用いられ得る。 説明することのみを目的として、またあらかじめ定めた目的とする特定の化学反応の特性に依拠して、それらの方法は、基質と生成物との物理的差異、または化学反応に関連した反応媒体の変化(例えば、電磁気放出、吸着、放散、および蛍光(UV、可視光または赤外線(熱)を問わない)の変化)を知らせる当業者に周知の多数の技術を含み得る。 これらの方法は、以下のものを任意に組み合わせたものから選択することもできる。 すなわち、質量分析法、核磁気共鳴、同位体標識材料、標識産物形成または同位体の分布を知らせるパーティショニングおよびスペクトル方法、反応生成物のイオンまたは元素組成の付随的な変化(pH、無機および有機イオン等の変化を含む)を検出するスペクトルおよび化学的方法である。 本明細書に記した方法での使用に適した他の物理的アッセイ法は、反応生成物に特異的なバイオセンサーの使用に基づき得る。 そのような方法として、レポーター特性を持つ抗体を含むもの、またはレポーター遺伝子の発現および活性に連動したin vivo親和性認識にもとづくものが挙げられる。 反応生成物検出の酵素結合アッセイおよびin vivoでの細胞の生−死−増殖選択もまた適切な場合に用いることができる。 物理的アッセイの特徴にかかわらず、それらはすべて、目的とする生体分子によって提供またはコードされる所望の活性、または所望の活性の組み合わせが選択するために使用される。

    選択のために使用される特異的アッセイは、用途に依存する。 タンパク質、レセプター、リガンド等に対する多くのアッセイが知られている。 形式として、固定化成分への結合、細胞または生物体の生存度、レポーター組成物の生産等が挙げられる。

    ハイスループットアッセイは、本発明で用いられるスクリーニング・ライブラリに特に適している。 ハイスループットアッセイでは、一日のあいだに最大で数千もの異なる改変体をスクリーニングすることが可能である。 例えば、マイクロタイタープレートの各ウェルを用いて、別々のアッセイを実行し得るし、または、濃度またはインキュベーション時間の効果が観察されるならば、5〜10ウエルごとに単一改変体(例えば、濃度を変えて)を調べることができる。 このように、1枚の標準的なマイクロタイタープレートを用いて約100(例えば、96)の反応をアッセイすることができる。 1536ウエルプレートを用いる場合、一枚のプレートで約100から約1500の異なる反応を容易にアッセイすることができる。 1日あたりいくつかの異なるプレートをアッセイすることが可能であり、本発明の統合システムを用いて、最大で約6,000〜20,000の異なるアッセイ(すなわち、異なる核酸、コードされたタンパク質、濃度等を伴う)のアッセイスクリーニングが可能である。 最近、試薬演算のための微流体法が開発されており、例えば、非常にハイスループットの微流体アッセイ法を提供し得るCaliper Technologies(Mountain View,CA)による。

    ハイスループットスクリーニングシステムは市販されている(例えば、Zymark Corp.,Hopkinton,MA;Air Technical Industries,Mentor,OH;Beckman Instruments,Inc.Fullerton,CA;Precision Systems,Inc.,Natick,MA等を見よ)。 これらのシステムは、代表的には、すべての試料および試薬のピペッティング、液体の分注、定時インキュベーション、およびアッセイに適した検出器でのマイクロプレートの最終読み取りを含む手法のすべてを自動化している。 これらの構成可能なシステムは、高度な柔軟性およびカスタム化と同様にハイスループットおよび急速なスタートアップを提供する。

    このようなシステムの製造業者は、様々なハイスループットスクリーニングアッセイに関する詳細なプロトコルを提供する。 したがって、例えば、Zymark Corp. は、遺伝子転写、リガンド結合等の調節を検出するためのスクリーニングシステムを説明する技術的な定期報告を提供する。

    市販の種々の周辺機器およびソフトウェアは、例えばPC (Intel x86またはペンティアム(登録商標)チップ互換性DOS TM 、OS2 TM 、WINDOWS(登録商標)、WINDOWS(登録商標) NT TMをベースとしたマシーン)、マッキントッシュ(MACINTOSH TMあるいはUNIX(登録商標)をベースとした(例えば、SUN TMワーク・ステーション)コンピュータを用いて、デジタル化画像あるいは、光学的アッセイまたは他のアッセイのデジタル化画像、格納、および分析を行うことに利用可能である。

    分析用システムは、代表的には、本明細書に記した1つ以上の方法の1つ以上の工程を指示するソフトウェアを持つデジタルコンピュータを含む。 また、必要に応じて、例えばハイスループット液体制御ソフトウェア、画像分析ソフトウェア、データ解釈ソフトウェア、デジタル・コンピュータに演算自在に連結した宛先へ供給元から溶液を移すためのロボット液体制御アーマチャー、デジタルコンピュータにデータを入力して演算またはロボット液体制御アーマチャーによるハイスループット溶液転送を制御するための入力装置(例えば、コンピュータキーボード)、必要に応じて、標識されたアッセイ成分由来の標識シグナルをデジタル化するためのイメージスキャナを含む。 イメージスキャナは、画像分析ソフトウェアと連結し、プローブ標識強度の測定が得られ得る。 代表的に、プローブ標識強度測定は、データ解釈ソフトウェアによって解釈され、標識プローブが固相上のDNAとハイブリダイズするかどうかが示される。

    計算ハードウェアおよびソフトウェア資源を利用することができ、それらは、本明細書に記載されている本発明の方法で用いることができる(ハードウェアとしては、任意の中程の価格のUnix(登録商標)システム(例えば、Sun Microsystems用)またはよりハイエンドなMacintoshまたはPCでも十分である)。

    いくつかの実施形態では、in vitroオリゴヌクレオチド媒介性組換え生成物またはin silico組み換え核酸の物理的実施形態を含む細胞、ウィルスプラーク、胞子等を、固形培地上で分離して個々のコロニー(またはプラーク)を生ずることができる。 自動化されたコロニー採集器(例えば、Q−bot,Genetix,U.K.)を用いて、コロニーまたはプラークを同定し、ピックアップして、最大10,000の異なる突然改変体を、ウェルあたり2個の3mmガラス球を含む96ウエルマイクロタイターディッシュでインキュベートする。 Q−botは、コロニー全体をピックアップするものではなく、むしろコロニーの中心にピンを挿入して、少量の細胞(または菌糸体)、および胞子(またはプラーク用途でのウィルス)をサンプリングして出る。 ピンがコロニーにある時間、培地に植えるディップの数、およびピンが培地に入っている時間は接種物サイズに影響し、各々のパラメーターの制御および最適化が可能である。

    Q−bot等の自動化したコロニーピッキングの一様なプロセスは、人為的なエラーを少なくし、培養物を確立する割合を増加させる(約10,000/4時間)。 これらの培養物を、必要に応じて、温度および湿度が制御されたインキュベーターで振とうさせる。 マイクロタイタープレートに必要に応じて入れられたガラス球は、発酵器の刃と同様に、細胞の一様なエアレーションおよび細胞(例えば、菌糸体)フラグメントの分散を促進させる作用を示す。 目的とする培養物由来のクローンを限界希釈によって分離することができる。 上掲にも記載されているように、ライブラリを構成するプラークまたは細胞もまた、ハイブリダイゼーション、タンパク質活性、抗体へのタンパク質結合等のいずれかによって、タンパク質生成について直接的なスクリーニングをおこなうこともできる。 十分なサイズのプールを同定する可能性を高めるために、処理する改変体の数を10倍まで高める事前のスクリーニングを用いることができる。 一次スクリーニングの目的は、親株と同等またはより良好な生成物タイターを持つ突然改変体を迅速に同定し、後に続く分析のために、これらの突然改変体のみを液体細胞培地に移すことである。

    多様なライブラリをスクリーニングする1つの方法は、大規模並列固相手順を用いて、ポリヌクレオチド改変体、例えば酵素改変体をコードするポリヌクレオチドを発現する細胞をスクリーニングすることである。 吸着、蛍光、またはFRETを用いた大規模並列固相スクリーニング装置が利用可能である。 例えば、Bylinaらの米国特許第5,914,245号(1999)を参照せよ。 同じく、http://www. kairos−scientific. com/;Youvanら(1999)「フルオレセンス イメージング マイクロスペクトロメーター(FIMS)」 Biotechnology et alia <www. et−al. com> 1:1−16;Yangら(1998)「高解像度イメージング顕微鏡(HIRIM)」Biotechnology et alia <www. et−al. com> 4:1−20;ならびにwww. kairos−scientific. comに投稿されたYouvanら(1999)「ニッケルキレーティングビーズ上の遺伝子工学的に演算されたGFP誘導体を使用する蛍光共鳴エネルギーのキャリブレーション」を参照せよ。 これらの技術によるスクリーニングに続いて、当業者に周知の方法を用いて、目的とする分子を、代表的には単離し、さらに必要に応じて塩基配列の決定を行う。 つぎに、本明細書に記載したように配列情報を使用して新規のタンパク質改変体ライブラリを設計する。

    同様に、多くの周知のロボット・システムもまた、アッセイ・システムに有用な液相化学用に開発されている。 これらのシステムとして、Takeda Chemical Industries, LTD. (Osaka,Japan)によって開発された自動合成装置、科学者によって行われる手作業による合成演算を模倣したロボットアームを用いた多くのロボットシステム(Zymate II,Zymark Corporation,Hopkinton,Mass.;Orca,Beckman Coulter,Inc.(Fullerton,CA))等の自動ワークステーションが挙げられる。 上記した装置のいずれも本発明による使用、例えば本明細書に記載したように導かれた核酸によりコードされた分子のハイスループットスクリーニングに適したものである。 本明細書で議論したように、作動することができるようするこれらの装置に対する改良の性質およびインプリメンテーション(もしあるとすれば)は、当業者にとって明らかである。

    (VII.デジタル装置およびシステム)
    明らかなように、本発明の実施形態は、1台以上のコンピュータシステムに格納またはそれを介して転送された命令および/またはデータの制御下で作用するプロセスを用いる。 本発明の実施形態は、これらの演算を実行する装置にも関する。 このような装置は、所望の目的のために特別に設計および/または構築され得るし、あるいはコンピュータに格納されたコンピュータプログラムおよび/またはデータ構造によって選択的に起動または再構成された汎用のコンピュータであり得る。 本明細書で示したプロセスは、いかなる特定のコンピュータまたは他の装置に本質的に関連するものではない。 特に、種々の汎用マシーンを、本明細書に記した教示にもとづいて書かれたプログラムとともに使用することができる。 しかし、いくつかの例では、所望の方法演算を実行するために特化した装置を構成することで、よりいっそう便利になりうる。 種々のこれらの機器の詳細な構成は、以下の記載から明らかとなる。

    さらに、本発明の実施形態は、種々のコンピュータ実行演算を実施するためのプログラム命令および/またはデータ(データ構造含む)を含むコンピュータ読み取り可能媒体またはコンピュータプログラム製品に関連する。 コンピュータ読み取り可能媒体の例として、限定されるものではないが、ハードディスク、フロッピー(登録商標)ディスク、磁気テープ等の磁気媒体;CD−ROM装置およびホログラフィック装置等の光学媒体;光磁気媒体;半導体記憶装置、ならびにリードオンリーメモリ(ROM)およびランダムアクセスメモリ(RAM)、また時にはアプリケーション特異的集積回路(ASIC)、プログラム可能論理装置(PLD)等のプログラム命令を格納および実行するように特別に構成されたハードウェア装置、さらにローカルエリアネットワーク、広域ネットワーク、およびインターネット等のコンピュータ読み取り可能命令を伝搬する信号伝達媒体が挙げられる。 本発明のデータおよびプログラム命令もまた、搬送波または他の伝達媒体(例えば光学線、電線、および/または放送波)上で具体化することも可能である。

    プログラム命令の例として、コンパイラによって生成されるような低いレベルコードと、インタープリタを使用してコンピュータによって実行され得る高レベルコードを含むファイルとが挙げられる。 さらに、プログラム命令は、機械コード、ソースコード、およびこの発明にもとづいて計算機の演算を直接的または間接的に制御する任意の他のコードを含む。 コードは入力、出力、計算、条件、分岐、繰り返しループ等を特定するものであってもよい。

    ワープロソフト(例えば、Microsoft Word TMまたは Corel WordPerfect TM )およびデータベース・ソフトウェア(例えば、Microsoft Excel TM 、 Corel Quattro Pro TM等のスプレッドシート・ソフトウェアまたは Microsoft Access TMまたは Paradox TM等のデータベース・ソフトウェア)のような標準のデスクトップ・アプリケーションは、デジタル・システムのメモリにロードされるソフトウェアに1つ以上の文字列を入力し、本明細書中で指摘したように、この文字列に対して演算を実行することによって、本発明に適合され得る。 例えば、システムは、適当な文字列情報を有する上述のソフトウェアを含み得、例えばそれは、文字列を演算するためにユーザーインターフェイス(Windows(登録商標)、MacintoshまたはLINUXシステム等の標準的オペレーティングシステムのGUI)と共に使用される。 PILEUPおよびBLAST等の専門化したアラインメントプログラムもまた、例えば、任意の整列した配列に対して演算を実行する準備段階として核酸またはタンパク質(または対応する文字列)を整列させるために、本発明のシステムに組み込むことができる。 PCAを実行するためのソフトウェア(例えば、Partekから市販されているもの)または他の統計的演算もデジタルシステムに含まれ得る。

    システムは、代表的には、例えば本明細書で指摘した演算にもとづいて配列の整列および演算をおこなうため、またはPCA、ニューラルネットワーク分析等をおこなうためのソフトウェアおよび、マッピングまたは演算される配列または他のデータを含むソフトウェアシステムに入力されたデータセットを有するデジタルコンピュータを含む。 コンピュータは、例えば、PC(Intel x86またはPentium(登録商標)チップ互換性DOS TM 、OS2 TM 、WINDOWS(登録商標)、WINDOWS(登録商標) NT TM 、WINDOWS(登録商標)95 TM 、WINDOWS(登録商標)98 TM 、LINUX、Apple互換機,MACINTOSH TM互換機、Power PC互換機、UNIX(登録商標)互換機(例えば、SUN TMワークステーションまたはマシン)または当業者に知られている一般に市販されている他のコンピュータであり得る。配列を整列またはさもなければ演算するためのソフトウェアは、本明細書に記載した方法にもとづいて、VisualBasic, Fortran、Basic、Java(登録商標)等の標準的プログラミング言語を用いて、当業者によって構築することができる。

    いずれのコントローラまたはコンピュータも、必要に応じてモニターを有する。 モニターとしては、例えば陰極線管(CRT)ディスプレイ、フラットパネルディスプレイ(例えば、アクティブマトリクス液晶ディスプレイ、液晶ディスプレイ)等が挙げられ得る。 コンピュータ回路は、しばしば多数の集積回路チップ(マイクロプロセッサ等)、メモリ、インタフェース回路等を含むボックス内におかれる。 ボックスはまた、ハードディスクドライブ、フロッピー(登録商標)ディスクドライブ、高容量のリムーバブルドライブ(例えば、書き込み可能なCD−ROM)、および他の一般的な周辺構成要素を必要に応じて含む。 キーボードおよびマウス等の入力装置は、ユーザからの入力または関連するコンピュータシステムで比較またはさもなければ演算される配列のユーザ選択のために、必要に応じて提供される。

    コンピュータは、代表的には、セットパラメータフィールド(例えばGUI)へのユーザ入力の形態、または、例えば種々の異なる特定演算のために事前にプログラムされたような事前にプログラムされた命令の形態のいずれかで、ユーザ命令を受信するための適当なソフトウェアを含む。 その後、ソフトウェアは、これらの命令を変換し、システムに対して任意の所望の演算を実行するように命令するための適当な言語にそれらの命令を変換する。 例えばデータ空間の統計的演算を実行するのに加えて、デジタルシステムは、オリゴヌクレオチド合成装置に対して、遺伝子再構築のためにオリゴヌクレオチドを合成するように命令し得るし、あるいは商業的供給元からオリゴヌクレオチドを注文する命令を下し得る(例えば、適当な注文フォームを印刷して、またはインターネット上の注文フォームにリンクして)。

    デジタルシステムは、核酸の合成を制御(例えば、本明細書に記す配列または配列の整列にもとづいて)するための出力構成要素も含み得る。 すなわち、本発明の集積システムは、任意にオリゴヌクレオチド合成装置またはオリゴヌクレオチド合成コントローラを含む。 上記システムは、整列から下流で起こる他の演算または本明細書に記した配列に対応する文字列(アッセイに関連して上述した)を使用して実行される他の演算を含むことができる。

    一例では、本発明のコードを具体化する方法は、適当に構築されたコンピュータ装置にロードされた時に1つ以上の文字列で、遺伝子演算子をこの装置に行わせる論理命令および/またはデータを含む固定媒体または伝達可能なプログラム構成要素に具体化される。 図16は、一例としてのデジタル装置2200を示す。 このデジタル装置2200は、媒体2217、ネットワークポート2219、ユーザ入力キーボード2209、ユーザ入力2211、または他の入力手段からの命令を読み取ることができる論理装置であると理解される。 その後、装置2200は、それらの命令を使用してデータ空間の統計的演算を指示し、例えば、1つ以上のデータセットを構築し得る(例えば、データ空間の複数の代表的メンバーを決定し得る)。 本発明を具体化し得る論理装置の1つのタイプは、CPU2207、任意のユーザ入力装置であるキーボード2209、およびGUIポインティング装置2211、同様にデスクドライブ2215およびモニター2205(GO修飾文字列を表示し、ユーザによるそのような文字列のサブセットの選択を単純化する)ような周辺構成要素を含むコンピュータシステム2200のようなコンピュータシステムである。 固定媒体2217は、全般的なシステムのプログラミングに必要に応じて使用されるもので、例として光学型ディスクまたは磁気媒体または他の電子メモリ格納要素が挙げられ得る。 通信ポート2219は、システムをプログラムするのに用いられ、任意のタイプの通信接続を表すことができる。

    本発明は、アプリケーション特異的集積回路(ASIC)またはプログラム可能論理装置(PLD)の回路内で具体化することもできる。 そのような場合、本発明はASICまたはPLDを生成することに使用できるコンピュータ読み取り可能ディスクリプタ言語で具体化される。 本発明はまた、種々の他のデジタル装置、例えばPDA、ラップトップコンピュータシステム、ディスプレイ、イメージ編集装置等の回路または論理プロセッサ内で具体化することもできる。

    1つの好ましい態様では、デジタルシステムは、学習構成要素を含む。 この学習構成要素では、物理的オリゴヌクレオチドアッセンブリスキームの結果(組成物、多数のプロダクト、異なるプロセス)が物理的アッセイに関連してモニタされ、相関が確立される。 成功および不成功の組み合わせがデータベースに文書化され、同一セットの親文字列/核酸/タンパク質(または情報がプロセス改善情報を与える関連していない配列でさえも)を含む本明細書に記載された後のプロセスに、パラメーターのセットのユーザベースまたはデジタルシステムベースの選択についての正当性/優先性を与える。 相関は、本発明の続いて起こるプロセスを修飾する(例えば、特定のプロセスを最適化する)ために使われる。 このような物理的合成、選択、および相関のサイクルが必要に応じて繰り返され、システムが最適化される。 例えば、学習ニューラルネットワークは、結果の最適化に使用することができる。

    (VIII.ウェブサイトでの実施形態)
    インターネットは、通信リンクによって相互に連結するコンピュータ、情報機器、およびコンピューターネットワークを含んでいる。 相互接続したコンピュータは、電子メール、ftp、ワールドワイドウェブ(WWW)等の種々のサービスや安定したサービスを含む他のサービスを用いて情報を交換する。 WWWサービスは、サーバーコンピュータシステム(例えば、WebサーバーまたはWebサイト)によってリモートクライアント情報機器またはコンピュータシステムへ情報ウェブページを送ることを可能にするものと理解することができる。 その後、リモートクライアントコンピュータシステムは、ウェブページを表示し得る。 一般に、WWWの各リソース(例えば、コンピュータまたはウェブページ)は、ユニフォームリソースロケータ(URL)によって一意的に特定可能である。 特定のウェブページを閲覧、対話をおこなうために、クライアントコンピューターシステムは、リクエストでそのウェブページのURLを指定する。 リクエストは、そのウェブページをサポートするサーバーに転送される。 サーバーがリクエストを受け取ると、そのウェブページをクライアント情報システムに送る。 クライアントコンピューターシステムがそのウェブページを受信すると、ブラウザを用いて表示するか、あるいはウェブページまたは他の方法で提供されるようなインタフェースと対話をおこなう(interact)ことができる。 ブラウザは、ウェブページの要求およびウェブページの表示または対話をおこなう論理モジュールである。

    現在、表示可能なウェブページはハイパーテキストマークアップ言語(Hyper Text Markup Language)(HTML)を使用して一般に定義される。 HTMLは、どのようにしてウェブページが表示されるかを定義するタグの標準セットを提供する。 HTMLドキュメントは、テキスト、グラフィック、制御、および他の特徴の表示を制御する様々なタグを含む。 HTMLドキュメントは、サーバーコンピュータシステムまたは他のサーバーコンピュータシステム上で利用可能な他のウェブページのURLを含むものであってもよい。 また、URLは、必ずしもユーザに情報を表示する必要なく、その情報機器がリモート情報機器またはサーバーと通信するために使用する他の種類のインタフェース、例えばCGIスクリプトまたは実行可能なインタフェースのようなものを示すこともできる。

    インターネットは、1人以上の遠隔の顧客に情報サービスを提供する上で、特に助けになる。 サービスは、インターネット上の購入者に電子的に配達されるアイテム(例えば音楽または株式相場)を含むことができる。 サービスは、さらに従来の流通経路(例えばコモンキャリア)によって送達可能なアイテム(例えば食料品、本、あるいは化学的または生物学的化合物など)の注文を扱うことも含むことができる。 サービスは、さらに購入者が後でアクセスするという航空会社または劇場の予約のようなアイテムの注文を扱うことも含むことが可能である。 サーバーコンピュータシステムは、入手可能なアイテムあるいはサービスをリストするインタフェースの電子版を提供することが可能である。 ユーザあるいは潜在的な購入者はブラウザおよび目的の選択した様々なアイテムを使用して、インタフェースにアクセスしてもよい。 所望のアイテムをユーザが選択し終えた場合、その後、サーバーコンピュータシステムはサービスを完了するために必要とされる情報の入力をユーザに促すことが可能である。 この処理に特有な発注情報は、購入者の名前あるいは他の識別、支払いのための識別(例えば、企業発注番号またはアカウント番号)、あるいはフライト情報等のサービスを完了するために必要とされる追加情報を含むものであってもよい。

    (NCBIデータベースおよびソフトウェア)
    インターネット上で、かつ他のネットワーク上で提供できる特に目的のサービスの中には、生物学的データおよび生物学的データベースがある。 そのようなサービスとして、国立衛生研究所(National Institutes of Health)(NIH)の国立バイオテクノロジー情報センター(National Center for Biotechnology Information)(NCBI)によって提供される様々なサービスが含まれる。 NCBIは、分子生物学、生化学、および遺伝学に関する知識を保存して分析するための自動システムの作製、研究および医学界でのそのようなデータベースおよびソフトの使用の促進、国内外のバイオテクノロジー情報を集める労力の調整、および生物学上重要な分子の構造および機能を分析するコンピュータベースの情報処理の高度な方法についての研究を行なうことに責任を負う。

    NCBIは、GenBank(登録商標)DNA配列データベースに責任を負う。 このデータベースは、個々の研究所によって、また国際的なヌクレオチド配列データベース、欧州分子生物学研究所(European Molecular Biology Laboratory)(EMBL)および日本のDNAデータバンク(DDBJ)のデータ交換によって提供を受けた配列から構築されており、さらに米国特許商標庁に提出された特許の配列データも含まれる。 GenBank(登録商標)に加え、NCBIは、医学界および科学界に対して種々のデータベースのサポートおよび分配をおこなっている。 これらは、国立癌研究所(National Cancer Institute)との共同研究で、オンライン版ヒトメンデル遺伝(Online Mendelian Inheritance in Man)(OMIM)、3Dタンパク質構造の分子モデリングデータベース(Molecular Modeling Database)(MMDB)、ユニークヒト遺伝子配列コレクション(Unique Human Gene Sequence Collection)(UniGene)、ヒトゲノムの遺伝子マップ(Gene Map of the Human Genome)、分類学ブラウザ(Taxonomy Browser)、および癌ゲノム解剖学プロジェクト(Cancer Genome Anatomy Project)(CGAP)が含まれる。 Entrezは、NCBIの探索および検索システムであり、ユーザに対して、配列、マッピング、分類、および構造のデータへの統合的アクセスを提供する。 Entrezは、配列および染色体地図の画像も提供する。 エントレツ(Entrez)の特徴は、関連する配列、構造、およびレファレンスを検索する能力である。 本明細書で説明するように、BLASTは、DNAデータベース全体に対する配列探索を実行することができる、遺伝子および遺伝的特徴を識別するためにNCBIで開発された配列類似性探索のためのプログラムである。 NCBIによって提供される他のソフトウェアツールとして、オープンリーディングフレームファインダ(Open Reading Frame Finder)(ORF Finder)、電子PCR(Electronic PCR)、ならびに配列提出ツールであるSequinおよびBankItがある。 NCBIの様々なデータベースおよびソフトウェアツールは、WWWから、またはFTPによって、あるいは電子メールサーバーによって入手可能である。 さらなる詳細はwww. ncbi. nlm. nih. govで入手可能である。

    インターネット上で利用可能ないくつかの生物学的データは、一般に特定のブラウザ「プラグイン」または他の実行可能なコードによって見られるデータである。 そのようなシステムの一例は、CHIMEである。 これは、生物学的分子構造を含む分子構造の対話型仮想3次元表示を可能とするブラウザプラグインである。 CHIMEに関する詳細はwww. mdlchime. com/chime/で入手可能である。

    (オンラインでのオリゴ、遺伝子、またはタンパク質の注文)
    様々な会社および機関は、生物学的化合物を注文するためのオンラインシステムを提供している。 そのようなシステムの例は、www. genosys. com/oligo_custinfo. cfm あるいはwww. genomictechnologies. com/Qbrowser2_FP. htmlで見いだされる。 代表的に、これらのシステムは、所望の生物学的化合物(例えば、オリゴヌクレオチド、DNA鎖、RNA鎖、アミノ酸配列など)のある記述子を受理し、要求された化合物を製造して液体溶液または他の適当な形態で顧客に発送する。

    さらに例証するために、本発明の方法をローカルまたは分散コンピュータ環境で実行することができる。 分散環境では、多数のプロセッサを含む単一のコンピュータ上または複数のコンピュータ上で上記方法を実行してもよい。 コンピュータは、例えば共通のバスを介してリンクすることができるが、より好ましくはコンピュータがネットワーク上のノードとなる。 ネットワークは、汎用化、または専用ローカルあるいは広域ネットワークであり、好ましい実施形態では、コンピュータがイントラネットまたはインターネットの構成要素となり得る。

    一つのインターネット実施形態では、クライアントシステムは典型的に、ウェブブラウザを実行し、ウェブサーバーを実行しているサーバーに接続する。 ウェブブラウザは、典型的にIBMのウェブエクスプローラ(Web Explorer)、マイクロソフト(Microsoft)のインターネットエクスプローラ(Internet explorer)、ネットスケープ(NetScape)、オペラ(Opera)、またはモザイク(Mosaic)等のプログラムである。 ウェブサーバーは、代表的には、必ずしも必要とするものではないが、一般的にはIBMのHTTPデーモン(Daemon)または他のwwwデーモン(例えば、LINUXをベースとした形態のプログラム)等である。 クライアントコンピュータは、ライン上で、またはワイヤレスシステムを介してサーバーコンピュータと二方向的に接続している。 同様に、サーバーコンピュータは、本発明の方法を実行するソフトウェアへのアクセスを提供するウェブサイト(該ウェブサイトをホストサーバー)に対して二方向的に接続している。

    言及したように、イントラネットまたはインターネットに接続したクライアントのユーザは、本発明の方法のインプリメンテーションを提供するアプリケーションをホスティングするウェブサイトの一部であるリソースを上記クライアントに要求させてもよい。 その後、サーバープログラムは、指定されたリソース(現在利用可能であると仮定する)を返すようにリクエストを処理する。 標準命名規約(すなわち、ユニフォームリソースロケータ(Uniform Resource Locator)(URL)は、いくつかのタイプのロケーション名を包含するもので、ハイパーテキスト輸送プロトコル(Hypertext Transport Protocol)(http)、ファイル輸送プロトコル(File Transport Protocol)(ftp)、ゴッファー(gopher)、および広域情報サービス(Wide Area Information Service)(WAIS)等を現在のところ含んでいる。リソースをダウンロードした場合、それは追加のリソースのURLを含むものであってもよい。したがって、クライアントのユーザは、彼または彼女が特に要求しなかった新しいリソースの存在を容易に知ることができる。

    本発明の方法を実行するソフトウェアは、真のクライアントサーバーアーキテクチャのウェブサイトをホストサーバー上でローカルに実行される。 したがって、クライアントコンピュータは、要求されたプロセスをローカルに実行し、次にダウンロードして結果をクライアントに戻すホストサーバーに対して、要求を書き込む。 あるいは、本発明の方法は、該方法の構成要素がクライアントによってローカルに実行される「マルチティア(multi−tier)」フォーマットで実行することができる。 このことは、クライアントによるリクエストに応じてサーバーからダウンロードされるソフトウェア(例えば、ジャバ(Java(登録商標))アプリケーション)によって実行することができ、あるいはクライアントに「永久的に」インストールされたソフトウェアによって実行することができる。

    一実施形態において、本発明の方法を実行するアプリケーションは、フレームに分けられる。 このパラダイムでは、特徴または機能性のコレクションすらしないが、代わりに個別のフレームあるいはビューのコレクションとしてアプリケーションを見ることは有用である。 典型的なアプリケーションは、例えば、一般に1セットのメニュー項目を含んでおり、各々が特定のフレーム、すなわち該アプリケーションのある機能性を表す形態を呼び出す。 この観点から、アプリケーションはコードのモノリシックボディーではなく、アプレットのコレクションとして、あるいは機能性のバンドルとして見られる。 ブラウザの内部からこの方法では、ユーザは、アプリケーション(すなわち、サブアプリケーション)の特定のフレームが続いて呼び出されるウェブページリンクを選択する。 したがって、例えば、1つ以上のフレームが生体分子を1つ以上のデータ空間に入力および/またはコード化するための機能性を提供する一方で、別のフレームが上記データ空間のモデルに磨きをかけるためのツールを提供する。

    ある実施形態例では、本発明の方法を、例えば以下の機能性を与える1つ以上のフレームとして実行する。 2つ以上の生体分子を文字列にコードして、各々の生体分子が選択されたサブユニットセットを含む2つ以上の異なる初期文字列のコレクションを提供する機能、上記文字列から少なくとも2つの部分文字列を選択する機能、部分文字列を連結させて、初期の文字列の1つ以上と長さがほぼ等しい1つ以上の文字列を形成する機能、プロダクト文字列を文字列のコレクションに加える(置く)機能、および本明細書で説明した任意の特徴を実行するための機能がある。

    データ空間へ2つ以上の生体分子を分配する機能は、ユーザが生体分子の代表を挿入することができる1つ以上のウィンドウを提供することができる。 また、コード化機能は、必要に応じてローカルネットワークおよび/またはイントラネットを介してアクセス可能な個人および/または公衆のデータベースへのアクセスを提供することで、データベースに含まれる1つ以上の配列を本発明の方法に入力することができる。 したがって、例えば、一実施形態では、エンドユーザが配列決定された核酸をコード化機能に入力すると、ユーザは必要に応じてGenBank(登録商標)の探索を要求し、そのような探索によって戻った配列の1つ以上をコード化および/または多様性生成機能に入力する能力を持つことができる。

    計算および/またはデータアクセスプロセスのイントラネットおよび/またはイントラネット実施形態を実行する方法は、当業者に周知であり、かなり詳細に文書化されている(例えば、Cluerら(1992)「A General Framework for the Optimization of Object−Oriented Queries」Proc SIGMOD International Conference on Management of Data(San Diego,California)、1992年6月2〜5日、SIGMOD Record,vol.21,Issue 2、1992年6月;Stonebraker,M.,編、ACM Press,pp.383−392;ISO−ANSI、Working Draft「Information Technology−Database Language SQL」、Jim Melton、編、International Organization for Standardization and American National Standards Institute(1992年7月);Microsoft Corporation、「ODBC 2.0 Programmer's Reference and SDK Guide.The Microsoft Open Database Standard for Microsoft Windows(登録商標) and Windows(登録商標) NT TM ,Microsoft Open Database Connectivity TM Software Development Kit」、1992,1993,1994 Microsoft Press,pp.3−30および41−56;ISO Working Draft「Database Language SQL−Part 2:Foundation(SQL/Foundation)」、CD9075−2:199.chi.SQL,1997年9月11日などを参照のこと)。 ウエブベースのアプリケーションに関してさらに関連する詳細な記述は、SelifonovおよびStemmerの標題「METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS」のWO00/42559にも見いだされる。

    (IX. 実施例 合成DNAシャッフリングによるタンパク質中の機能的制約の特定)
    以下に、限定されない実施例を説明目的のみのために提示する。

    タンパク質の進化は、コード配列のアミノ酸変化によって明示される。 これらのアミノ酸変化は機能に対する連続的な選択圧によって制約され、タンパク質子孫中の独立かつ相関した変化を生じる。 このセクションは、単に共通の祖先起源に起因する共変動から、機能的選択を反映するアミノ酸間の共変動を区別する方法を提供する。

    配列の機能的なスクリーニングおよびシーケンシングにより、天然に存在する配列で観察される大部分の共変動は、機能的制約ではなく系統発生的子孫に起因することが示唆される。 特定された機能的な共変動は主として局所的な構造的因子中にあるが、遺伝子/タンパク質中のより長い距離にわたって生じている共変動もいくらかある。 一般に、遺伝子およびタンパク質は非常に可塑性であり、許容されたアミノ酸変化の相互依存を最小限にして適合を容易にするように進化させた。

    分岐進化中に、タンパク質配列が変化する一方で、タンパク質の生化学的機能は概ね維持されている。 タンパク質中の機能的に関連した残基間の相関した変化は、進化過程の間中タンパク質の構造および機能の保存を備える。 共変動する残基間の機能的な関連は、例えば、基質、プロダクト、補因子、または他のタンパク質との相互作用を介した構造的接着または間接効果によるものであり得る。 機能的に関連した残基間の独立した突然変異は多くの場合不都合であるが、2つの同時の突然変異は、タンパク質が機能を維持することを可能にするかもしれない。 また、2つ以上の残基は、共通の祖先起源のみにより共変動する可能性がある。 現在の解析ツールは、オルソロガスなタンパク質ファミリーの中の系統発生的な(祖先の)共変動から機能的なものを分離する能力に制限されている。 統計学的ツールは、共変動を推論するデータ量によっても制限されており、データを解釈するための進化モデルによっても制限されている。 Wollenberg,K. R. & Atchley,W. R. Separation of phylogenetic and functional associations in biological sequences by using the parametric bootstrap、Proc. Nat'l Acad. Sci 97,3288−91. (2000);Gaucher,E. A. ,Miyamoto,M. M. & Benner,S. A. Function−structure analysis of proteins using covarion−based evolutionary approaches:Elongation factors. Proc. Nat'l Acad. Sci 98,548−552(2001);Larson,S. M. ,Di Nardo,A. A. & Davidson,A. R. Analysis of covariation in an SH3 domain sequence alignment:applications in tertiary contact prediction and the design of compensating hydrophobic core substitutions. J Mol Biol 303,433−46. (2000);Pollock,D. D. ,Taylor,W. R. & Goldman,N . Coevolving protein residues:maximum likelihood identification and relationship to structure. J Mol Biol 287,187−98. (1999);およびAtchley,W. R. ,Wollenberg,K. R. ,Fitch,W. M. ,Terhalle,W. & Dress,A. W. Correlations among amino acid sites in bHLH protein domains:an information theoretic analysis. Mol Biol Evol 17,164−78. (2000)を参照せよ。

    逐次的な点突然変異が分岐進化のための主要なメカニズムである場合、大部分のアミノ酸変化は、独立して生じるであろう。 すなわち、2つの同時の突然変異は非常にまれ(例えば大腸菌(E.coli)での単細胞分裂に対して、10 塩基対当たり1つの突然変異の割合で)であるだろう。

    ここで、合成DNAシャッフリング(すなわち、配列中で、親ポリヌクレオチドのセットに集団で対応する合成オリゴヌクレオチドの組換え)によりタンパク質ファミリー中の全てのアミノ酸を計画的に結合していない実験について記載する。 全ての残基が前後関係から独立して変化することを可能にし、その後機能に対してスクリーニングすることによって、共通の祖先起源から派生した任意の共変動を排除し、機能に寄与する共変動のみを維持する。 相互情報量理論を用いて、機能的な改変体を解析して、残基間の共変動を評価する。 親配列間で観察された大部分の共変動は、機能的なキメラタンパク質中で保存されないので、それが主として共通の祖先系統の尺度であることが示される。 該方法は、サンプリング効果により親の間では認められない共変動する残基も特定する。

    任意の与えられた位置で最終プロダクトに組み込まれることが可能な各残基の本質的に等しい確率を可能にするホモロジー独立方法で、合成シャッフリングを実行することができる。 例えば、Crameriら、「Oligonucleotide Mediated Nucleic Acid Recombination」およびNess,J. ,Minshull,J. & Kim,S. Synthetic Shuffling. Nature Biotech Submitted(2001)によるWO00/42561を参照せよ。 これは、任意の単一残基の分布が親遺伝子間のその数度および前後関係に依存する多くの他の組換えフォーマットと対照的である。 合成シャッフリングにより、単一の残基レベル上では完全にキメラ的であり、かつ天然の多様性では豊富である配列のライブラリが生じる。

    合成シャッフリングによって生成され得るライブラリの巨大な総サイズにもかかわらず、ライブラリの小サブセットのみの特徴づけは、機能との相関に対して、共変動する残基ペアのかなりの数をテストするためには十分である。 共変動するアミノ酸残基の任意のペアを、完全に特徴づけられた改変体間で何度もサンプリングする。 合成シャッフリングを介して生成されたライブラリは、共分散の相対的重要度および生体系中のその分布を分析するためのデータの優れた不偏ソースである。

    スクリーニング前のライブラリの分布を特徴づけることにより、ライブラリの共分散の固有の分布に対して活性な改変体間で見出される共変動を正規化することが可能になる。 不完全なライブラリから派生した任意の偽人工相互情報(例えば合成中に生産されたオリゴヌクレオチド縮重の偏り)を除去することができる。 一般に、スクリーニング前の改変体および活性改変体間の配列多様性分布での相違は全くないか、またはほとんどない。 両方の場合で、改変体は均一に配分されるので、任意の与えられた親または親のクラスターが起源の多様性に対する重大な偏りはないと示唆される。 これは、親遺伝子に網羅された同一の配列空間に渡って、特徴付けられた改変体を均一に配分することによって、機能的活性に対して、配列空間の新規の領域を探索することができることを示す。 ランダムな突然変異生成のような古典的な有向進化技術を用いて横断された配列距離は、通常、1つのラウンド毎で1つの遺伝子当たり1〜3のアミノ酸残基に制限されている。 従って、合成シャッフリングを介して見出された大部分の解は、ランダムな突然変異生成によっては到達できない。

    生物学的配列データから推論された残基間の共変動は、機能的制約または系統発生的関係のどちらかに起因する可能性がある。 一般に、問題の配列の歴史上の起源(少なくとも配列が天然に発生する場所)は知られていないので、関係のある残基の共変動の性質を逆重畳積分することができない。 典型的には、この問題は、系統ツリーで与えられたノード下で、可能な限り多くの配列を集めることを介してか、または配列進化に対するモデルを用いた可能な進化の道筋のコンピューター・シミュレーションによって取り組まれてきた。 両アプローチとも重大な問題および欠点を有している。 共変動分析の最初のタイプに固有の問題は、中立突然変異だけでなく機能でも分岐した配列を包含してしまうことである。 わずかに異なるpH最適に進化すると、分岐は小さくなり、また関連しているが異なる反応を触媒するように進化すると、分岐は大きくなり得る。 単一のオルソロガスな酵素ペアは、厳密に同一の生理学的条件に対して真に進化してはいなかった。 配列が異なる淘汰圧を受けるので、機能で分岐した共変動分析での配列を含むことは、相関に雑音を加える。 別の、恐らくより重大な懸念は、データ・セット中の分布がサンプリング効果により偏らないことを保証する系統発生的ノード下で、全ての配列を集めることができないということである。 合成シャッフリングによって生産されたライブラリでは、固有の共変動全てが除去され、任意の1つの位置で生じるアミノ酸多様性は、任意の改変体に生じる等しい確率を持つ。 定義された生化学的機能に対して、このようなライブラリをスクリーニングする(例えば、インビトロで)ことにより、酵素のアッセイされる生物活性に必要な機能的制約から派生する全ての共変動が特定される。 従って、親遺伝子間で見出された共変動の残りは、機能的子孫間では存在しないが、共通の祖先起源の結果である。

    配列を並べて、アラインメント中に保存された残基を除去することによって、ライブラリから得た改変体セット間の共変動を評価および可視化することができる。 二次元マトリクスで、変化する残基ペアそれぞれの間の相互情報量をプロットする。 各横列/縦列は、タンパク質に対して変化する残基位置の1つを表わし、マトリクス中の各セルは、可能な残基ペアを表す。 マトリクスの満たされたセルは、高度に共変動する残基に対応する。 各親配列は、天然の選択を介して独立して進化したものであり、それらの系統発生的分布は高度にクラスター化される。 親遺伝子に対する全ての残基ペアを表示することにより、共変動する多くの残基ペアが特定される。 相互情報量分布を、0の平均値および1の分散を持つように正規化する。 ここで、アラインメントに対する2つの偏差より高い相互情報量を持つ残基ペアとして、共変動を定義する。

    合成ライブラリを作製した後であるが、任意の淘汰圧に改変体を暴露する前に、改変体を単離する。 親遺伝子と同様の方法で、共変動に対して、これらのスクリーニングされない改変体を特徴付ける。 ほとんどの場合、変化する残基の分布は一様であり、全ての変化する残基は、全ての他の変化する残基と関連して存在する。 共変動がある限り、その共変動は機能的制約の結果ではない(すなわち、改変体は選択に暴露されていない)。 実質上、これは、共変動が機能的制約の結果かどうかという問題の管理である。 機能に対する合成シャッフリングおよび選択の後、特定された共変動する残基ペアは、機能的制約の結果である。 機能的活性なライブラリ改変体間ではなく、親遺伝子間で見出された共変動は、生体上の間接効果に対する淘汰圧も反映することもできた。 選択アッセイのスクリーニング基準に特に関連していない補因子またはセルの局在化等の遮断のような、間接効果は潜在的な任意の形質であり得る。

    (1.相互情報量解析)
    タンパク質アラインメントでは、アラインメント中の各位置に対するエントロピー測定は、各アミノ酸に対する変異性および優先性の程度を示す。 以下の方程式を用いて、部位エントロピーを定量する(Shannon,C.E.The mathematical theory of communication.1963.MD Comput 14,306−17.(1997))。

    式中、合計は、アラインメント中の位置iで生じる全てのkアミノ酸{A

    }を超える。 P(A

    )は、位置iにあるアミノ酸kの確率である。 同様に、部位のペア間の相互情報量内容を用いることによって、アミノ酸間の共分散を測定できる。

    2つの総和は、位置iおよびjにある全ての可能なアミノ酸ペア{A

    }および{A

    }をそれぞれ超える。 P(A

    )は、位置iにあるアミノ酸kの確率であり、P(A

    およびA

    )は、位置iにあるアミノ酸kおよび位置jにあるアミノ酸Iの組み合わせた確率である。

    0.0の同一平均値および1.0の標準偏差を持つ改変体の各グループに対して、MI値を正規化する。 期待相互情報量内容のから得た与えられたペアに対するMIの偏差によって、任意の残基ペア間の共変動の程度を特定する。

    明瞭かつ理解されるため、前述の発明を多少詳細に記載したが、発明の真の範囲から逸脱することなく、形態および詳細での様々な変更が可能であることは、この開示を読むことにより当業者には明らかであるだろう。 例えば、上に記載される全ての技術および装置を様々な組み合わせで用いてもよい。 個々の出版物、特許、特許出願、または他の文献は、あらゆる目的のため、参照として援用されることを個別に示すかのように、同程度であらゆる目的のために、本出願中で引用した全ての出版物、特許、特許出願、または他の文献は、参照としてその全体が援用される。

    QQ群二维码
    意见反馈