首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 组合化学;化合物库,如化学库、虚拟库 / 建立化合物库的方法,如组合合成 / .化合物库的虚拟或数学概念 / 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア

相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア

申请号 JP2017140863 申请日 2017-07-20 公开(公告)号 JP2017189176A 公开(公告)日 2017-10-19
申请人 コデクシス, インコーポレイテッド; 发明人 グレゴリー アラン コープ;
摘要 【課題】相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェアを提供すること。 【解決手段】本発明は、 生物 学的に関係するデータ空間を迅速かつ効率的に検索する方法を提供する。より具体的には、本発明は、複雑な生体分子ライブラリーまたはこのようなライブラリーのセットから、所望の特性を有する、あるいはこのような特性の取得に最も適した生体分子を同定する方法を提供する。本発明は、また、段階的加算または減算技法、ベイジアン回帰、アンサンブル回帰および他の方法が挙げられるがこれらに限定されない、配列−活性の関係性をモデリングする方法を提供する。本発明は、本明細書に提供される方法を行うためのデジタルシステムおよびソフトウェアをさらに提供する。 【選択図】なし
权利要求

本明細書に記載の発明。

说明书全文

(関連出願の引用) 本願は、米国仮特許出願第61/759,276号(2013年1月31日出願、名称「METHODS,SYSTEMS,AND SOFTWARE FOR IDENTIFYING BIO−MOLECULES WITH INTERACTING COMPONENTS」)、米国仮特許出願第61/799,377号(2013年3月15日出願、名称「METHODS,SYSTEMS,AND SOFTWARE FOR IDENTIFYING BIO−MOLECULES USING MODELS OF MULTIPLICATIVE FORM」)に対する米国特許法§119(e)に基づく利益を主張し、両出願は、それらの全体があらゆる目的のために参照により本明細書に引用される。

本開示は、分子生物学、分子進化、バイオインフォマティクスおよびデジタルシステムの分野に関する。より具体的には、本開示は、生体分子の活性を計算的に予測するため、および/または定向進化を誘導する方法に関する。これらの方法を実行するためのデジタルシステムを含むシステムおよびシステムソフトウェアも提供される。本開示の方法は、産業上および治療上の使用のためのタンパク質の最適化における有用性を有する。

タンパク質設計は、単に、検索可能な配列空間を構成する可能な分子の組み合わせ爆発の理由しかないのであれば、困難な課題であることが相当以前から公知である。タンパク質の配列空間は莫大であり、現在当技術分野において公知の方法を使用して徹底的に探索することは不可能である。この複雑さのため、多くの近似方法が使用されて、より優れたタンパク質を設計してきた;その中でも主要なものは、定向進化の方法である。今日、タンパク質の定向進化は、多くの場合反復して実行される、様々なハイスループットスクリーニングおよび組換えフォーマットが主流である。

並行して、配列−活性空間を探索するための様々な計算的技法が提唱されてきた。各計算的技法は、ある特定の文脈において利点を有するが、配列空間を効率的に検索して機能タンパク質を同定するための新たな仕方が非常に望ましい。

本開示は、非線形項、特に、配列における2つ以上のサブユニットの間の相互作用を説明する項を用いる配列−活性モデルを作製および使用するための技法を提示する。配列−活性モデルは、様々な生物配列の関数として、生物分子の活性、特徴または特性を説明する。これらの非線形項は、各々が相互作用に関わるサブユニットの存在(または非存在)を表す2つ以上の変数の乗算を含む「外積」項であり得る。一部の実施形態は、配列の活性を最もよく説明する非線形項を選択するための技法を含む。多くの場合、サブユニットの間に真の相互作用が存在するよりもはるかに多くの、可能な非線形相互作用項が存在することに留意されたい。したがって、過剰適合を回避するために、限られた数の非線形項のみが通常考慮され、用いられる非線形項は、活性にはっきりと影響を与える相互作用を反映すべきである。

本開示の一態様は、増強された所望の活性を有する生物分子の同定に役立つことができる配列−活性モデルを調製する方法であって、(a)複数の生物分子に対する配列データおよび活性データを受け取ることと、(b)配列データおよび活性データからベースモデルを調製することであって、ベースモデルが、配列のサブユニットの存在または非存在の関数として活性を予測することと、(c)少なくとも1つの新たな相互作用項をベースモデルに加算またはそれから減算することにより、少なくとも1つの新たなモデルを調製することであって、新たな相互作用項が、2つ以上の相互作用するサブユニットの間の相互作用を表す、ことと、(d)サブユニットの存在または非存在の関数として活性を予測する少なくとも1つの新たなモデルの能を決定することと、(e)(d)において決定される活性を予測する少なくとも1つの新たなモデルの能力に基づき、新たな相互作用項の加算に対する否定的な偏りを伴って、新たな相互作用項をベースモデルに加算すべきかまたはそれから減算すべきかを決定することとを含む方法を提供する。続いて、得られたモデルは、所望の生物活性および特性を有するタンパク質を同定するためのタンパク質ライブラリーの定向進化等、様々な応用において使用することができる。

本方法が、新たな相互作用項をベースモデルに加算してアップデートされたモデルを生成すべきであることを決定する一部の実施形態において、本方法は、アップデートされたモデルをさらに改善することができる追加の相互作用項を検索する追加のステップをさらに含む。具体的には、本方法は、(f)ベースモデルの代わりにアップデートされたモデルを使用し、(c)において加算/減算されたものとは異なる相互作用項を加算または減算して、(c)を反復することと、(g)ベースモデルの代わりにアップデートされたモデルを使用して、(d)および(e)を反復することとを含む。一部の実施形態において、本方法は、(h)さらにアップデートされたモデルを使用して、(f)および(g)を反復することをさらに含む。様々な実施形態において、配列は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、核酸配列、タンパク質、多糖等であり得る。1つ以上の実施形態において、配列のサブユニットは、染色体、染色体セグメント、ハプロタイプ、遺伝子、ヌクレオチド、コドン、変異、アミノ酸、炭化物(モノ、ジ、トリまたはオリゴマー)等であり得る。

上述の実施形態と一致する1つ以上の実施において、タンパク質バリアントライブラリーにおける修飾すべきアミノ酸残基を同定する方法が提供される。これらの実施形態において、複数の生物分子が、タンパク質バリアントライブラリーの訓練セットを構成する。タンパク質バリアントライブラリーは、様々な供給源からのタンパク質を含むことができる。一例において、メンバーは、単一の遺伝子ファミリーのメンバーにコードされるタンパク質等、天然起源のタンパク質を含む。別の一例において、配列は、組換えに基づく多様性作製機構を使用することによって得られるタンパク質を含む。この目的のため、例えば、DNA断片化媒介性の組換え、合成オリゴヌクレオチド媒介性の組換えまたはこれらの組合せを、1つ以上の天然起源の親タンパク質の全体または一部をコードする核酸において実行することができる。さらに別の一例において、系統的に変化させられる配列を同定するための実験計画法(DOE)プロトコールを実装することによってメンバーが得られる。

一部の実施形態において、少なくとも1つの相互作用項は、1相互作用残基の存在を表す1変数と、別の1相互作用残基の存在を表す別の1変数との積を含む外積項である。配列−活性モデルの形式は、少なくとも1つの外積項と、1つ以上の線形項との和であり得、線形項の各々は、タンパク質バリアントライブラリーの訓練セットにおける可変性残基の効果を表す。少なくとも1つの外積項は、返還を伴わない段階的加算または減算を含む様々な技法による潜在的な外積項の群から選択され得る。

1つ以上の実施形態において、外積項を含むモデルは、ベイジアン回帰技法を使用して所定のデータに適合させられ、事前知識が使用されてモデルの事後確率分布を決定する。

1つ以上の実施形態において、各々が少なくとも1つの異なる相互作用項を含む2つ以上の新たなモデルが作成される。このような実施形態において、本方法は、2つ以上の新たなモデルに基づきアンサンブルモデルを調製することをさらに含む。アンサンブルモデルは、2つ以上の新たなモデルからの相互作用項を含む。アンサンブルモデルは、目的の活性を予測する2つ以上の新たなモデルの能力に従って相互作用項を重み付ける。

配列−活性モデルは、多くの異なる技法により、訓練セットから生成することができる。ある特定の実施形態において、モデルは、部分最小二乗モデル、ベイジアン回帰モデルまたは主成分回帰モデル等、回帰モデルである。別の実施形態において、モデルは、ニューラルネットワークである。

固定またはバリエーションのための残基を同定するための配列−活性モデルの使用は、多くの異なる可能な分析的技法のいずれかを含むことができる。一部の事例において、「参照配列」が、バリエーションを定義するために使用される。このような配列は、所望の活性の最高値(または最高値のうちの1つ)を有することがモデルによって予測される配列であり得る。別の事例において、参照配列は、本来のタンパク質バリアントライブラリーのメンバーの配列であり得る。参照配列から、本方法は、バリエーションをもたらすための部分配列を選択することができる。その上またはそれに代えて、配列−活性モデルは、所望の活性に対する影響の順に、残基位置(またはある特定の位置における特定の残基)をランク付けする。

本方法の一目標は、新たなタンパク質バリアントライブラリーを作製することであり得る。本プロセスの一部として、本方法は、この新たなライブラリーの作製に使用すべき配列を同定し得る。このような配列は、上述の(e)、(g)または(h)において同定された残基におけるバリエーションを含むか、あるいはこのようなバリエーションのその後の導入に使用される前駆体である。変異誘発または組換えに基づく多様性作製機構を実行することにより配列を修飾して、タンパク質バリアントの新たなライブラリーを作製することができる。これは、定向進化手順の一部を構成し得る。新たなライブラリーは、新たな配列−活性モデルの開発において使用され得る。新たなタンパク質バリアントライブラリーが分析されて、安定性、触媒活性、治療活性、病原体または毒素に対する抵抗性、毒性等、特定の活性における効果を評価する。

一部の実施形態において、本方法は、生成のための新たなタンパク質バリアントライブラリーの1つ以上のメンバーを選択することを含む。続いて、これらのうち1つ以上を、合成および/または発現系において発現させることができる。具体的な実施形態において、本方法は、次の様式で続く:(i)新たなタンパク質バリアントライブラリーの選択されたメンバーを発現させることができる発現系を準備し、(ii)新たなタンパク質バリアントライブラリーの選択されたメンバーを発現させる。

一部の実施形態において、アミノ酸配列を使用するのではなく、本方法は、ヌクレオチド配列を用いてモデルを作製し、活性を予測する。ヌクレオチド、例えば、コドンの群におけるバリエーションは、該ヌクレオチド配列にコードされるペプチドの活性に影響を与える。一部の実施形態において、モデルは、ペプチドの発現に用いられている宿主に依存して優先的に発現される(同じアミノ酸をコードする他のコドンと比較して)コドンに対して偏りを提供することができる。

本開示の別の態様は、上述の方法およびソフトウェアシステムを実施するためのプログラム命令および/またはデータの配置が提供された機械読み取り可能な媒体を含む装置およびコンピュータプログラム製品に関係する。多くの場合、プログラム命令は、ある特定の方法演算を実行するためのコードとして提供される。データは、本開示の特色の実装に用いられる場合、データ構造、データベースのテーブル、データオブジェクトまたは指定の情報の他の適切な配置として提供されることができる。本明細書に記載されている方法またはシステムのうちいずれかは、全体または一部において、いずれかの適した機械読み取り可能な媒体に提供されたこのようなプログラム命令および/またはデータとして表され得る。

上述および他の特色は、次の図面と併せた詳細な説明においてより詳細に後述される。 本発明は、例えば、以下を提供する。 (項目1) 所望の活性に影響を与える生物分子を同定する方法であって、前記方法は、 (a)複数の生物分子に対する配列データおよび活性データを受け取ることと、 (b)前記配列データおよび活性データからベースモデルを調製することであって、前記ベースモデルは、前記配列のサブユニットの存在または非存在の関数として活性を予測する、ことと、 (c)少なくとも1つの新たな相互作用項を前記ベースモデルに加算またはそれから減算することにより、少なくとも1つの新たなモデルを調製することであって、前記新たな相互作用項は、2つ以上の相互作用するサブユニットの間の相互作用を表す、ことと、 (d)前記サブユニットの存在または非存在の関数として活性を予測する前記少なくとも1つの新たなモデルの能力を決定することと、 (e)(d)において決定される活性を予測する前記少なくとも1つの新たなモデルの能力に基づき、かつ追加の相互作用項を含むことに対する否定的な偏りを伴って、前記新たな相互作用項を前記ベースモデルに加算すべきかまたはそれから減算すべきかを決定することと を含む、方法。 (項目2) (c)における少なくとも1つの新たなモデルを調製することは、事前情報を使用して、前記新たなモデルの事後確率分布を決定することを含む、項目1に記載の方法。 (項目3) 前記ベースモデルおよび/または新たなモデルを調製することは、ギブスサンプリングを使用して、前記配列データおよび活性データにモデルを適合させることを含む、項目2に記載の方法。 (項目4) 前記少なくとも1つの新たなモデルは、2つ以上の新たなモデルを含み、それらの各々は、異なる相互作用項を含む、項目1に記載の方法。 (項目5) 前記2つ以上の新たなモデルに基づきアンサンブルモデルを調製することをさらに含み、 前記アンサンブルモデルは、前記2つ以上の新たなモデルからの相互作用項を含み、 前記相互作用項は、(d)において決定される活性を予測する前記2つ以上の新たなモデルの能力によって重み付けられる、項目4に記載の方法。 (項目6) 前記新たな相互作用項は、アップデートされたモデルを生成するために、前記ベースモデルに加算され、またはそれから減算され、前記方法は、 (f)前記ベースモデルの代わりに前記アップデートされたモデルを使用し、(c)において加算または減算された相互作用項とは異なる相互作用項を加算または減算して、(c)を反復することと、 (g)前記ベースモデルの代わりに前記アップデートされたモデルを使用して、(d)および(e)を反復することと をさらに含む、項目1に記載の方法。 (項目7) (h)さらにアップデートされたモデルを使用して、(f)および(g)を反復することをさらに含む、項目6に記載の方法。 (項目8) (d)における活性を予測する前記少なくとも1つの新たなモデルの前記能力は、赤池の情報量基準またはベイズ情報量基準によって測定される、項目1に記載の方法。 (項目9) 前記配列は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、またはタンパク質である、項目1に記載の方法。 (項目10) 前記サブユニットは、染色体、染色体セグメント、ハプロタイプ、遺伝子、ヌクレオチド、コドン、変異、アミノ酸、または残基である、項目1に記載の方法。 (項目11) 前記複数の生物分子は、タンパク質バリアントライブラリーの訓練セットを構成する、項目1に記載の方法。 コンピュータ実行可能命令を記憶した1つ以上のコンピュータ読み取り可能な非一過性記憶媒体を含むコンピュータプログラム製品であって、前記命令は、コンピュータシステムの1つ以上のプロセッサによって実行されると、前記コンピュータシステムに、所望の活性に影響を与える生物分子を同定する方法を実装させ、前記方法は、 (a)複数の生物分子に対する配列データおよび活性データを受け取ることと、 (b)前記配列データおよび活性データからベースモデルを調製することであって、前記ベースモデルは、前記配列のサブユニットの存在または非存在の関数として活性を予測する、ことと、 (c)少なくとも1つの新たな相互作用項を前記ベースモデルに加算またはそれから減算することにより、少なくとも1つの新たなモデルを調製することであって、前記新たな相互作用項は、2つ以上の相互作用するサブユニットの間の相互作用を表す、ことと、 (d)前記サブユニットの存在または非存在の関数として活性を予測する前記少なくとも1つの新たなモデルの能力を決定することと、 (e)(d)において決定される活性を予測する前記少なくとも1つの新たなモデルの能力に基づき、かつ追加の相互作用項を含むことに対する否定的な偏りを伴って、前記新たな相互作用項を前記ベースモデルに加算すべきかまたはそれから減算すべきかを決定することと を含む、コンピュータプログラム製品。 (項目12) コンピュータシステムであって、 1つ以上のプロセッサと、 システムメモリと、 コンピュータ実行可能命令を記憶した1つ以上のコンピュータ読み取り可能な記憶媒体であって、前記命令は、前記1つ以上のプロセッサによって実行されると、前記コンピュータシステムに、生物分子の定向進化を行う方法を実装させる、1つ以上のコンピュータ読み取り可能な記憶媒体と を備え、前記方法は、 (a)複数の生物分子に対する配列データおよび活性データを受け取ることと、 (b)前記配列データおよび活性データからベースモデルを調製することであって、前記ベースモデルは、前記配列のサブユニットの存在または非存在の関数として活性を予測する、ことと、 (c)少なくとも1つの新たな相互作用項を前記ベースモデルに加算またはそれから減算することにより、少なくとも1つの新たなモデルを調製することであって、前記新たな相互作用項は、2つ以上の相互作用するサブユニットの間の相互作用を表す、ことと、 (d)前記サブユニットの存在または非存在の関数として活性を予測する前記少なくとも1つの新たなモデルの能力を決定することと、 (e)(d)において決定される活性を予測する前記少なくとも1つの新たなモデルの能力に基づき、かつ追加の相互作用項を含むことに対する否定的な偏りを伴って、前記新たな相互作用項を前記ベースモデルに加算すべきかまたはそれから減算すべきかを決定することと を含む、コンピュータシステム。

図1は、配列−活性モデルを調製するための一般的な段階的方法を例示する。

図2は、タンパク質バリアントライブラリーの1以上世代を作製するための作業の流れを描写するフローチャートであり、作業は、図1において得られた配列−活性モデルのうちの1つ等、配列−活性モデルを使用して、タンパク質バリアントライブラリーの作製を誘導する。作製されたバリアントライブラリーは、配列データおよび活性データをもたらして、1つ以上の新たな配列−活性モデルを調製し、誘導進化のモデリング−探索ループを形成することができる。

図3A〜図3Hは、ある特定の線形および非線形モデルの予測能力を比較する例を示すグラフである。

図3A〜図3Hは、ある特定の線形および非線形モデルの予測能力を比較する例を示すグラフである。

図3A〜図3Hは、ある特定の線形および非線形モデルの予測能力を比較する例を示すグラフである。

図3A〜図3Hは、ある特定の線形および非線形モデルの予測能力を比較する例を示すグラフである。

図3A〜図3Hは、ある特定の線形および非線形モデルの予測能力を比較する例を示すグラフである。

図3A〜図3Hは、ある特定の線形および非線形モデルの予測能力を比較する例を示すグラフである。

図3A〜図3Hは、ある特定の線形および非線形モデルの予測能力を比較する例を示すグラフである。

図3A〜図3Hは、ある特定の線形および非線形モデルの予測能力を比較する例を示すグラフである。

図4A〜図4Bは、配列−活性モデルを調製するための段階的加算および減算方法を実施するプロセスのフローチャートを例示する。図4Aは、モデルを調製するための段階的加算方法の具体例を例示し;図4Bは、モデルを調製するための段階的減算方法の具体例を例示する。

図4A〜図4Bは、配列−活性モデルを調製するための段階的加算および減算方法を実施するプロセスのフローチャートを例示する。図4Aは、モデルを調製するための段階的加算方法の具体例を例示し;図4Bは、モデルを調製するための段階的減算方法の具体例を例示する。

図5は、一実施形態に従って配列バリアントの定向進化におけるベイジアン回帰を実施するプロセスのフローチャートを例示する。

図6は、一実施形態に従って配列バリアントの定向進化におけるアンサンブル回帰を実施するプロセスのフローチャートを例示する。

図7は、一実施形態に従ってタンパク質バリアントライブラリーを作製するブートストラップp値方法を描写するフローチャートである。

図8は、例示的デジタルデバイスの模式図である。

(I.定義) 本明細書において他に定義されていなければ、本明細書に使用されているあらゆる技術および科学用語は、当業者によって一般的に理解されているものと同じ意義を有する。本明細書に含まれている用語を含む様々な科学辞書は、当業者に周知であり利用できる。本明細書に記載されているものと同様または同等ないずれかの方法および材料は、本明細書に開示されている実施形態の実施における使用を見出す。

この直ぐ後に定義されている用語は、本明細書を全体として参照することにより、より十分に理解される。定義は、単に特定の実施形態の説明と、本明細書に記載されている複雑な概念の理解を助けることを目的とする。これらの定義は、本開示の全範囲の限定を企図していない。具体的には、記載されている特定の配列、組成物、アルゴリズム、システム、方法論、プロトコールおよび試薬は、当業者によって使用される文脈に応じて変化し得るため、本開示がこれらに限定されないことを理解されたい。

本明細書および添付の特許請求の範囲に使用されている場合、内容および文脈がそれ以外のことを明らかに指示しない限り、単数形(「a」、「an」および「the」)は、複数の指示対象を含む。よって、例えば、「単数のデバイス(a device)」の言及は、2つ以上のこのようなデバイスの組合せ等を含む。

他に断りがなければ、「または(もしくは)」という接続詞は、ブール論理演算子としてのその正しい意味における使用が企図され、これは、二者択一における特色の選択(AまたはB、この場合、Aの選択は、Bとは相互排他的である)と、併用による特色の選択(AまたはB、この場合、AおよびBの両方が選択される)の両方を包含する。本文章のある箇所において、用語「および/または」は同じ目的で使用され、「または」が、相互排他的な二者択一に関して使用される場合を暗示するものと解釈すべきではない。

「生体分子」または「生物分子」は、生物有機体において一般に見出される分子を指す。一部の実施形態において、生物分子は、複数のサブユニットを有するポリマー型生物高分子(すなわち、「バイオポリマー」)を含む。典型的な生体分子として、例えば、RNA、RNAアナログ、DNA、DNAアナログ、ポリペプチド、ポリペプチドアナログ、ペプチド核酸(PNA)、RNAおよびDNAの組合せ(例えば、キメラプラスト)などを含む、RNA(ヌクレオチドサブユニットから形成)、DNA(ヌクレオチドサブユニットから形成)およびペプチドまたはポリペプチド(アミノ酸サブユニットから形成)等の天然起源のポリマーといくつかの構造的特色を共有する分子が挙げられるがこれらに限定されない。生体分子が、いずれか特定の分子に限定されることは企図されない。なぜなら、例えば、脂質、炭水化物または1つ以上の遺伝的にコード可能な分子(例えば、1つ以上の酵素または酵素経路)によって作製された他の有機分子などが挙げられるがこれらに限定されない、いかなる適した生物分子も本発明において用途を見出すからである。

用語「ポリヌクレオチド」および「核酸」は、デオキシリボヌクレオチドまたはリボヌクレオチド、および一本鎖型または二本鎖型いずれかのこれらのポリマー(例えば、オリゴヌクレオチド、ポリヌクレオチド等)を指す。これらの用語として、一本鎖、二本鎖または三本鎖DNA、ゲノムDNA、cDNA、RNA、DNA−RNAハイブリッド、プリン塩基およびピリミジン塩基および/または他の天然の、化学的にもしくは生化学的に改変された、非天然のもしくは誘導体化されたヌクレオチド塩基を含むポリマーが挙げられるがこれらに限定されない。次に、ポリヌクレオチドの限定例を挙げる:遺伝子、遺伝子断片、染色体断片、EST、エクソン、イントロン、mRNA、tRNA、rRNA、リボザイム、cDNA、組換えポリヌクレオチド、分岐ポリヌクレオチド、プラスミド、ベクター、いずれかの配列の単離されたDNA、いずれかの配列の単離されたRNA、核酸プローブおよびプライマー。一部の実施形態において、ポリヌクレオチドは、メチル化ヌクレオチドおよびヌクレオチドアナログ等の改変ヌクレオチド、ウラシル(uracyl)、フルオロリボースおよびチオエート等の他の糖および連結基、および/またはヌクレオチド分岐を含む。一部の代替的実施形態において、ヌクレオチドの配列は、非ヌクレオチド構成成分によって中断される。

具体的に限定されていなければ、この用語は、参照核酸と同様の結合特性を有し、天然起源のヌクレオチドと同様の様式で代謝される、天然ヌクレオチドの公知アナログを含む核酸を包含する。他に特段の断りがなければ、特定の核酸配列は、明確に示されている配列と共に、その保存的に改変されたバリアント(例えば、縮重コドン置換)および相補的配列も暗に包含する。具体的には、縮重コドン置換は、1つ以上の選択された(または全)コドンの第3の位置が混合塩基および/またはデオキシイノシン残基に置換された配列を作製することにより達成することができる(Batzerら(1991年)Nucleic Acid Res.19巻:5081頁;Ohtsukaら(1985年)J. Biol. Chem.260巻:2605〜2608頁;Rossoliniら(1994年)Mol. Cell. Probes 8巻:91〜98頁)。用語、核酸は、例えば、オリゴヌクレオチド、ポリヌクレオチド、cDNAおよびmRNAと互換的に使用される。

用語「タンパク質」、「ポリペプチド」および「ペプチド」は、長さまたは翻訳後修飾(例えば、グリコシル化、リン酸化、脂質付加、ミリスチル化(myristilation)、ユビキチン化等)にかかわらず、アミド結合によって共有結合により連結された少なくとも2個のアミノ酸のポリマーを表示するよう互換的に使用される。一部の事例において、ポリマーは、少なくとも約30アミノ酸残基、通常は、少なくとも約50アミノ酸残基を有する。より典型的には、ポリマーは、少なくとも約100アミノ酸残基を含む。この用語は、全長タンパク質またはペプチドの断片であると従来みなされてきた組成を含む。この定義の内には、D−アミノ酸およびL−アミノ酸、ならびにD−アミノ酸およびL−アミノ酸の混合物が含まれる。本明細書に記載されているポリペプチドは、遺伝的にコードされたアミノ酸に限定されない。実際に、遺伝的にコードされたアミノ酸に加えて、本明細書に記載されているポリペプチドは、全体または一部のいずれかにおいて、天然起源および/または合成非コードアミノ酸で構成され得る。一部の実施形態において、ポリペプチドは、機能活性(例えば、触媒活性)を依然として保持しながら、全長親ポリペプチドのアミノ酸配列と比較して、アミノ酸付加または欠失(例えば、ギャップ)または置換を含む全長祖先または親ポリペプチドの一部である。

本明細書において使用される場合、用語「セルラーゼ」は、セルロース(β−1,4−グルカンまたはβ−D−グルコシド結合)を加水分解して、より短いセルロース鎖、オリゴ糖、セロビオースおよび/またはグルコースにすることができる酵素のカテゴリーを指す。一部の実施形態において、用語「セルラーゼ」は、ベータ−グルコシダーゼ、エンドグルカナーゼ、セロビオヒドロラーゼ、セロビオースデヒドロゲナーゼ、エンドキシラナーゼ、ベータ−キシロシダーゼ、アラビノフラノシダーゼ、アルファ−グルクロニダーゼ、アセチルキシランエステラーゼ、フェルロイルエステラーゼおよび/またはアルファ−グルクロニルエステラーゼを包含する。一部の実施形態において、用語「セルラーゼ」は、エンドキシラナーゼ、ベータ−キシロシダーゼ、アラビノフラノシダーゼ、アルファ−グルクロニダーゼ、アセチルキシランエステラーゼ、フェルロイルエステラーゼおよびアルファ−グルクロニルエステラーゼが挙げられるがこれらに限定されない、ヘミセルロース加水分解酵素を包含する。「セルラーゼ生成真菌細胞」は、少なくとも1つのセルロース加水分解酵素を発現および分泌する真菌細胞である。一部の実施形態において、セルラーゼ生成真菌細胞は、セルロース加水分解酵素の混合物を発現および分泌する。「セルロース分解性」、「セルロース加水分解」、「セルロース分解」および同様の用語は、相乗的に作用してセルロースを分解して、セロビオース等の可溶性二糖またはオリゴ糖にする(これらは続いてベータ−グルコシダーゼによりグルコースにさらに加水分解される)、エンドグルカナーゼおよびセロビオヒドロラーゼ(後者は「エキソグルカナーゼ」とも称される)等の酵素を指す。一部の実施形態において、セルラーゼは、β−グルコシダーゼ(BGL)、1型セロビオヒドロラーゼ(CBH1)、2型セロビオヒドロラーゼ(CBH2)、グリコシドヒドロラーゼ61(GH61)および/またはエンドグルカナーゼ(EG)から選択される組換えセルラーゼである。一部の実施形態において、セルラーゼは、β−グルコシダーゼ(BGL)、1型セロビオヒドロラーゼ(CBH1)、2型セロビオヒドロラーゼ(CBH2)、グリコシドヒドロラーゼ61(GH61)および/またはエンドグルカナーゼ(EG)から選択される組換えMyceliophthoraセルラーゼである。一部の追加の実施形態において、セルラーゼは、EG1b、EG2、EG3、EG4、EG5、EG6、CBH1a、CBH1b、CBH2a、CBH2b、GH61aおよび/またはBGLから選択される組換えセルラーゼである。

用語「配列」は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、核酸配列、タンパク質、多糖等が挙げられるがこれらに限定されない、いずれかの生物配列の順序および同一性を指すよう本明細書において使用される。一部の文脈において、配列は、タンパク質におけるアミノ酸残基の順序および同一性を指す(すなわち、タンパク質配列またはタンパク質文字列)、あるいは核酸におけるヌクレオチドの順序および同一性を指す(すなわち、核酸配列または核酸文字列)。配列は、文字列によって表すことができる。「核酸配列」は、核酸を含むヌクレオチドの順序および同一性を指す。「タンパク質配列」は、タンパク質またはペプチドを含むアミノ酸の順序および同一性を指す。

「コドン」は、遺伝暗号の一部であり、タンパク質における特定のアミノ酸を指定するまたはタンパク質合成を開始もしくは停止する、3個の連続したヌクレオチドの特定の配列を指す。

「ネイティブ配列」または「野生型配列」は、天然起源の供給源から単離されたポリヌクレオチドまたはポリペプチドを指す。「ネイティブ配列」の内には、ネイティブ型と同一の配列を有するネイティブポリペプチドまたはポリヌクレオチドの組換え型が含まれる。

用語「遺伝子」は、生物学的機能に関連するDNAまたは他の核酸のいずれかのセグメントを指すよう広く使用される。よって、遺伝子は、コード配列と、必要に応じて、コード配列の発現に必要とされる調節配列を含む。遺伝子は、例えば、他のタンパク質の認識配列を形成する、発現されない核酸セグメントも必要に応じて含む。遺伝子は、目的の供給源からのクローニングまたは公知もしくは予測される配列情報からの合成を含む、種々の供給源から得ることができ、所望のパラメータを有するよう設計された配列を含むことができる。

「モチーフ」は、生物分子内またはその間のサブユニットのパターンを指す。例えば、用語「モチーフ」は、コードされない生物分子のサブユニットパターンまたは生物分子のコードされた表示のサブユニットパターンに関して使用することができる。

用語「染色体」は、多くの遺伝子、調節エレメントおよび他のヌクレオチド配列を含む一片の巻きついたDNAを含む、細胞に存在するDNAおよび関連するタンパク質の組織化された構造に関して使用される。この用語は、該構造のDNA配列に関しても使用される。

「スクリーニング」は、1つ以上の生体分子の1つ以上の特性が決定されるプロセスを指す。例えば、典型的なスクリーニングプロセスは、1つ以上のライブラリーの1つ以上のメンバーの1つ以上の特性が決定されるプロセスを含む。「発現系」は、遺伝子または他の核酸にコードされるタンパク質またはペプチドを発現するための系である。

「宿主細胞」または「組換え宿主細胞」は、少なくとも1つの組換え核酸分子を含む細胞を指す。よって、例えば、一部の実施形態において、組換え宿主細胞は、ネイティブ(すなわち、非組換え)型の細胞内には見出されない遺伝子を発現する。

「定向進化」、「誘導進化」または「人為的進化」は、人為的選択、組換えまたは他の操作によって1つ以上の生体分子配列(または該配列を表す文字列)を人為的に変化させるin vitroまたはin vivoプロセスを指す。一部の実施形態において、定向進化は、(1)種々の個体が存在する生殖集団において起こり、その一部は(2)遺伝性であり、その一部は(3)適応度が異なる。生殖成功は、有益な特性等、所定の特性の選択の結果によって決定される。生殖集団は、例えば、コンピュータシステムにおける物理的集団またはバーチャルな集団であり得る。

ある特定の実施形態において、定向進化方法は、親タンパク質バリアントライブラリーのバリアントをコードする遺伝子を組換えることにより、タンパク質バリアントライブラリーを作製する。この方法は、親バリアントライブラリーのタンパク質をコードするための配列または部分配列を含むオリゴヌクレオチドを用いることができる。親バリアントライブラリーのオリゴヌクレオチドのうち一部は密接な関係があり得、他のバリアントによる組換えにより変化するよう選択される代替アミノ酸のコドンの選択のみが異なることができる。この方法は、所望の結果が達成されるまで1回または複数のサイクル行うことができる。複数のサイクルが使用される場合、各サイクルは、許容できる性能を有するいずれのバリアントをその後の組換えサイクルにおいて使用すべきか同定するためのスクリーニングステップを包含する。

「シャッフリング」および「遺伝子シャッフリング」は、一連の鎖伸長サイクルを通して親ポリヌクレオチドの断片のコレクションを組換えることにより、多様性を導入するための定向進化方法を指す。ある特定の実施形態において、鎖伸長サイクルのうち1つまたは複数は、セルフプライミングである;すなわち、断片それ自体以外のプライマーを添加せずに行われる。各サイクルは、ハイブリダイゼーションによる一本鎖断片のアニーリングと、鎖伸長によるアニーリングした断片のその後の延長と、変性とを包含する。シャッフリングの経過にわたり、成長する核酸鎖は、典型的に、「テンプレートスイッチング」と称される場合があるプロセスにおいて、複数の異なるアニーリングパートナーに曝露される。本明細書において使用されるように、「テンプレートスイッチング」は、ある核酸由来のある核酸ドメインを、第2の核酸由来の第2のドメインでスイッチする能力を指す(すなわち、第1および第2の核酸は、シャッフリング手順における鋳型として機能する)。

テンプレートスイッチングは、異なる起源の断片間のクロスオーバーの導入に起因するキメラ配列を高頻度で生成する。クロスオーバーは、複数のサイクルのアニーリング、伸長および変性におけるテンプレートスイッチされた組換えにより生じる。よって、シャッフリングは、典型的に、バリアントポリヌクレオチド配列の生成をもたらす。一部の実施形態において、バリアント配列は、バリアントの「ライブラリー」を含む。これらのライブラリーの一部の実施形態において、バリアントは、親ポリヌクレオチドの2つ以上に由来する配列セグメントを含む。

2つ以上の親ポリヌクレオチドが用いられる場合、個々の親ポリヌクレオチドは、シャッフリングサイクルに用いられるアニーリング条件下において異なる親由来の断片がハイブリダイズするように、十分に相同性である。一部の実施形態において、シャッフリングは、相対的に限定された相同性を有する親ポリヌクレオチドの組換えを可能にする。多くの場合、個々の親ポリヌクレオチドは、目的の明確に異なるおよび/または特有のドメインおよび/または他の配列特徴を有する。明確に異なる配列特徴を有する親ポリヌクレオチドを使用する場合、シャッフリングは、高度に多様なバリアントポリヌクレオチドを生成することができる。

様々なシャッフリング技法が当技術分野において公知である。例えば、全てその全体が参照により本明細書に組み込まれる、米国特許第6,917,882号、同第7,776,598号、同第8,029,988号、同第7,024,312号および同第7,795,030号を参照されたい。

「断片」は、ヌクレオチドまたはアミノ酸の配列のいずれか一部である。ポリペプチドまたはポリヌクレオチド配列の切断が挙げられるがこれに限定されない、当技術分野において公知のいずれか適した方法を使用して、断片を生成することができる。一部の実施形態において、断片は、ポリヌクレオチドを切断するヌクレアーゼを使用することにより生成される。一部の追加の実施形態において、断片は、化学的および/または生物学的合成技法を使用して作製される。一部の実施形態において、断片は、相補的核酸(複数可)の部分的鎖延長を使用して作製される、少なくとも1つの親配列の部分配列を含む。

「親ポリペプチド」、「親ポリヌクレオチド」、「親核酸」および「親」は、定向進化等、多様性作製手順における出発点として使用される、野生型ポリペプチド、野生型ポリヌクレオチドまたはバリアントを指すよう一般に使用される。一部の実施形態において、親それ自体は、シャッフリングまたは他の多様性作製手順により生成される。一部の実施形態において、定向進化において使用される変異体は、親ポリペプチドに直接的に関係する。一部の実施形態において、親ポリペプチドは、極端な温度、pHおよび/または溶媒条件に曝露されたときに安定であり、シャッフリングのためのバリアントを作製するための基盤(basis)として役立つことができる。一部の実施形態において、親ポリペプチドは、極端な温度、pHおよび/または溶媒条件に安定ではなく、親ポリペプチドは、頑健なバリアントを作製するために進化する。

「親核酸」は、親ポリペプチドをコードする。

「変異体」、「バリアント」および「バリアント配列」は、本明細書において使用される場合、いくつかの点において、標準配列または参照配列とは異なる生物配列を指す。この差は、「変異」と称され得る。一部の実施形態において、変異体は、少なくとも1個の置換、挿入、クロスオーバー、欠失および/または他の遺伝的操作によって変更されたアミノ酸(すなわち、ポリペプチド)配列またはポリヌクレオチド配列である。本開示の目的のため、変異体およびバリアントは、それらが作製される特定の方法に限定されない。一部の実施形態において、変異体配列またはバリアント配列は、親配列と比較して、増加した、減少したまたは実質的に同様の活性または特性を有する。一部の実施形態において、バリアントポリペプチドは、野生型ポリペプチド(例えば、親ポリペプチド)のアミノ酸配列と比較して、変異した1つ以上のアミノ酸残基を含む。一部の実施形態において、ポリペプチドの1つ以上のアミノ酸残基は、複数を構成するバリアントポリペプチドにおける親ポリペプチドと比較して、一定に保たれる、インバリアントである、または変異されない。一部の実施形態において、親ポリペプチドは、改善された安定性、活性または他の特性を有するバリアントを作製するための基盤として使用される。

「変異誘発」は、親核酸または親ポリペプチド等、標準配列または参照配列に変異を導入するプロセスである。

「ライブラリー」または「集団」は、核酸配列(例えば、遺伝子、オリゴヌクレオチド等)またはそれから生じる発現産物(例えば、酵素または他のタンパク質)等、少なくとも2つの異なる分子、文字列および/またはモデルのコレクションを指す。ライブラリーまたは集団は一般に、多数の異なる分子を含む。例えば、ライブラリーまたは集団は典型的に、少なくとも約10種の異なる分子を含む。大型のライブラリーは典型的に、少なくとも約100種の異なる分子を含み、より典型的には、少なくとも約1000種の異なる分子を含む。一部の適用のため、ライブラリーは、少なくとも約10000種以上の異なる分子を含む。ある特定の実施形態において、ライブラリーは、定向進化手順によって生成される多数のバリアントまたはキメラ核酸またはタンパク質を含む。

2つの核酸は、該2つの核酸のそれぞれに由来する配列が後代核酸において組み合わされる場合、「組換え」られる。2つの配列は、該核酸の両方が組換えの基質となる場合、「直接的に」組換えられる。

「選択」は、1つ以上の生体分子が、1つ以上の目的の特性を有すると同定されるプロセスを指す。よって、例えば、ライブラリーをスクリーニングして、1つ以上のライブラリーメンバーの1つ以上の特性を決定することができる。ライブラリーメンバーのうち1つ以上が、目的の特性を保有すると同定される場合、これが選択される。選択は、ライブラリーメンバーの単離を含むことができるが、これは必須ではない。さらに、選択およびスクリーニングは、同時となることができ、多くの場合同時である。

「従属変数」は、出力または効果を表すか、あるいは、それが効果であるかどうかを調べるために検査される。「独立変数」は、入力または原因を表すか、あるいは、それが原因であるかどうかを調べるために検査される。従属変数は、独立変数が変化するにつれて変化するか、また、どの程度変化するかを調べるために試験され得る。

単純な確率論的線形モデルにおいて、 yi=a+bxi+ei (項yiは、従属変数の第iの値であり、xiは、独立変数の第iの値である)である。項eiは、「誤差」として知られ、独立変数によって説明されない従属変数の可変性を含む。

独立変数は、「予測変数」、「リグレッサー」、「被制御変数」、「操作された変数」、「説明変数」または「入力変数」としても知られている。

「直交/直交性」は、モデルまたは他の関係性における他の独立変数と無相関の独立変数を指す。

用語「配列−活性モデル」は、一方では生物分子の活性、特徴または特性の間、他方では様々な生物配列の間の関係性を説明するいずれかの数学的モデルを指す。

用語「コードされた文字列」は、その分子に関する配列/構造情報を保存する生物分子の表示を指す。一部の実施形態において、コードされた文字列は、バリアントのライブラリーにおける配列変異に関する情報を含む。生体分子の活性情報と共に生体分子のコードされた文字列は、配列−活性モデルの訓練セットとして使用することができる。生体分子の非配列特性は、記憶することができるか、あるいはその生体分子のコードされた文字列と他の仕方で関連させることができる。

「参照配列」は、配列のバリエーションを生じる配列である。一部の事例において、「参照配列」は、バリエーションの定義に使用される。このような配列は、所望の活性の最高値(または最高値の1つ)を有することがモデルによって予測される配列であり得る。別の事例において、参照配列は、本来のタンパク質バリアントライブラリーのメンバーの配列であり得る。ある特定の実施形態において、参照配列は、親タンパク質または核酸の配列である。

「訓練セット」は、1つ以上のモデルがそれに適合させられそれに基づいて構築される、配列−活性データまたは観測のセットを指す。例えば、タンパク質配列−活性モデルに関して、訓練セットは、初期または改善されたタンパク質バリアントライブラリーの残基配列を含む。典型的には、これらのデータは、ライブラリーにおけるタンパク質毎の活性値と共に、完全または部分的残基配列情報を含む。一部の事例において、複数の種類の活性(例えば、速度定数データおよび熱安定性データ)が、訓練セットにおいて一緒に提供される。活性は、有益な特性である場合がある。

用語「観測」は、配列−活性モデル等、モデルを作製するための訓練セットにおいて使用することができるタンパク質または他の生物学的実体に関する情報である。用語「観測」は、タンパク質バリアントを含む、任意のシーケンシングおよびアッセイされた生物分子を指すことができる。ある特定の実施形態において、各観測は、ライブラリーにおけるバリアントの活性値および関連する配列である。一般に、より多くの観測を用いて配列−活性モデルを作成するほど、該配列−活性モデルの予測検出力はより優れたものになる。

本明細書において、用語「有益な特性」は、タンパク質または該タンパク質に関連する物質の組成もしくはプロセスにある程度の利益を付与する表現型または他の同定可能な特色を指すよう企図される。有益な特性の例として、親タンパク質と比較した、バリアントタンパク質の触媒特性、結合特性、極端な温度、pH等に曝露された際の安定性、刺激に対する感受性、阻害その他の増加または減少が挙げられる。他の有益な特性は、特定の刺激に応答して変更されたプロファイルを含むことができる。有益な特性のさらに別の例を下に示す。有益な特性の値は、配列−活性モデルの訓練セットに使用される観測における活性値として使用することができる。

「次世代シーケンシング」または「ハイスループットシーケンシング」は、シーケンシングプロセスを並列化し、数千または数百万個の配列を即座に生成するシーケンシング技法である。適した次世代シーケンシング方法の例として、単一分子リアルタイムシーケンシング(例えば、Pacific Biosciences、Menlo Park、California)、イオン半導体シーケンシング(例えば、Ion Torrent、South San Francisco、California)、パイロシーケンシング(例えば、454、Branford、Connecticut)、ライゲーションによるシーケンシング(例えば、SOLidシーケンシング、Life Technologies、Carlsbad、California)、合成および可逆的ターミネーターによるシーケンシング(例えば、Illumina、San Diego、California)、透過型電子顕微鏡等の核酸撮像技術その他が挙げられるがこれらに限定されない。例示的技法のさらなる記載は、本開示の詳細な説明に記載されている。

「予測検出力」は、様々な条件下でデータの従属変数の値を正確に予測するモデルの能力を指す。例えば、配列−活性モデルの予測検出力は、配列情報から活性を予測する該モデルの能力を指す。

「交差検証」は、目的の値(すなわち、従属変数の値)を予測するモデルの能力の一般化可能性を検査する方法を指す。この方法は、データの1セットを使用してモデルを調製し、データの異なるセットを使用してモデル誤差を検査する。データの第1のセットは、訓練セットと考えられ、データの第2のセットは、検証セットである。

「系統的分散」は、異なる組合せにおいて変化させられる項目または項目のセットの異なる記述子を指す。

「系統的に変化させられるデータ」は、異なる組合せにおいて変化させられる項目または項目のセットの異なる記述子から生成されるデータ、これに由来するデータ、またはこれに起因するデータを指す。多くの異なる記述子は、同時に、但し異なる組合せにおいて変化させられることができる。例えば、アミノ酸の組合せが変化させられたポリペプチドから集めた活性データは、系統的に変化させられるデータである。

用語「系統的に変化させられる配列」は、各残基が複数の文脈において理解される配列のセットを指す。原則として、系統的バリエーションのレベルは、配列が互いに直交する(すなわち、平均と比較して最大に異なる)程度によって定量化することができる。

用語「トグリング」は、最適化されたライブラリーにおけるタンパク質バリアントの配列における特定の位置への複数のアミノ酸残基の種類の導入を指す。

用語「回帰」および「回帰分析」は、独立変数の中のいずれが従属変数に関係するか理解し、これらの関係性の形式を探索するために使用される技法を指す。制限された状況において、回帰分析を使用して、独立変数と従属変数との間の因果関係を推測することができる。これは、変数間の関係性を推定するための統計学的技法である。従属変数と1つ以上の独立変数の間の関係性に焦点が置かれる場合、これは、いくつかの変数をモデリングおよび分析するための多くの技法を含む。より具体的には、回帰分析は、独立変数のうちいずれか1つが変化させられる一方で他の独立変数が固定される場合に、従属変数の典型的な値がどのように変化するかに関する理解を助ける。回帰技法は、配列および活性情報を含み得る複数の観測を含む訓練セットから配列−活性モデルを作製するために使用することができる。

部分最小二乗またはPLSは、新たな空間に予測される変数(例えば、活性)および観測可能な変数(例えば、配列)を投影(project)することにより線形回帰モデルを見出す方法のファミリーである。PLSは、潜在的構造への投影としても公知である。X(独立変数)およびY(従属変数)データの両方が、新たな空間に投影される。PLSは、2行列(XおよびY)間の基本的関係を見出すために使用される。潜在的変数アプローチは、XおよびY空間における共分散構造をモデリングするために使用される。PLSモデルは、Y空間における最大多次元分散方向を説明する、X空間における多次元方向を見出すよう試みるであろう。予測因子の行列が観測よりも多くの変数を有する場合、また、X値の間に多重共線性が存在する場合、PLS回帰が特に適する。

「記述子」は、項目を記述または同定するよう機能するものを指す。例えば、文字列における文字は、該文字列によって表されるポリペプチドにおけるアミノ酸の記述子であり得る。

回帰モデルにおいて、従属変数は、項の和によって独立変数に関係付けられる。各項は、独立変数および関連する回帰係数の積を含む。純粋に線形回帰モデルの場合、回帰係数は、次の形式の式におけるβにより与えられる: yi1xi1+...+βpxipi=xiTβ+εi 式中、yiは従属変数であり、xiは独立変数であり、εiは誤差変数であり、Tは、ベクトルxiおよびβの内積である転置行列を表示する。

「主成分回帰」(PCR)は、回帰係数を推定する際に主成分分析を使用する回帰分析を指す。PCRにおいて、直接的に独立変数に基づいて従属変数を回帰させる(regress)代わりに、独立変数の主成分が使用される。PCRは、典型的には、回帰において主成分のサブセットのみを使用する。

「主成分分析」(PCA)は、直交変換を使用して、おそらく相関する変数の観測のセットを主成分と呼ばれる線形に無相関の変数の値のセットへと転換する数学的手順を指す。主成分の数は、本来の変数の数以下である。この変換は、第1の主成分が、最大の可能な分散(すなわち、データにおける可能な限り多くの変動性の原因である)を有し、次に、続いて起こる構成成分のそれぞれが、先行する構成成分に直交する(すなわち、これと無相関である)という制約下で可能な最高の分散を有するような仕方で定義される。

「ニューラルネットワーク」は、算出のためのコネクショニストアプローチを使用して情報を処理する、相互接続された処理要素または「ニューロン」の群を含むモデルである。ニューラルネットワークは、入力および出力の間の複雑な関係性をモデリングするために、あるいはデータにおけるパターンを見出すために使用される。大部分のニューラルネットワークは、非線形、分布、平行様式でデータを処理する。多くの場合、ニューラルネットワークは、学習フェーズ中にその構造を変化させる適応システムである。関数は、様々なユニットが割り当てられるサブタスクの明らかな線引きが存在するのではなく、処理要素によって集合的にかつ並行して実行される。

一般に、ニューラルネットワークは、処理要素および要素パラメータの間の接続により決定される複雑な大域的挙動を示す単純な処理要素のネットワークを含む。ニューラルネットワークは、ネットワークにおける接続の強度を変更して、所望のシグナルフローを生成するよう設計されたアルゴリズムとともに使用される。強度は、訓練または学習中に変更される。

「ランダムフォレスト(Random forest)」は、各ツリーが、独立してサンプリングされたランダムベクトルの値に依存し、フォレストにおける全てのツリーで同じ分布を有するような、分類ツリー予測因子の組合せを指す。ランダムフォレストは、決定ツリーの各分割における特色のランダム化選択による、非プールニング決定ツリー学習器のバギングからなる学習アンサンブルである。ランダムフォレストは、そのそれぞれが最もポピュラーなクラスに投票する、数多くの分類ツリーを成長させる。続いて、ランダムフォレストは、フォレストにおける全ツリー予測因子から最もポピュラーな投票されたクラスを取り出すことにより、変数を分類する。

不確実量pの「事前確率分布」または「事前」は、目的のデータ(例えば、タンパク質配列の訓練セット)が考慮に入れられる前の、pに関する不確実性を表現する確率分布である。未知含量は、パラメータ、係数、変数、潜在的変数その他(例えば、重回帰モデルにおける係数)であり得る。

不確実量pの「事後確率分布」または「事後」は、目的のデータが考慮に入れられた後の、pに関する不確実性を表現する確率分布である。

用語「ベイジアン線形回帰」は、ベイジアン推測の文脈内で統計学的分析が取り組まれる線形回帰へのアプローチを指す。モデルのパラメータの事前確率分布関数を含む、線形回帰モデルに関する事前の考えは、ベイズ定理に従ったデータの尤度関数と組み合わされて、パラメータに関する事後確率分布をもたらす。

「過剰適合」は、統計学的モデルが、根底にある関係性の代わりにランダム誤差またはノイズを説明する場合に起こる状態を指す。過剰適合は一般に、観測の数と比べて多過ぎるパラメータを有する等、モデルが過剰に複雑な場合に起こる。過剰適合したモデルは一般に、データにおける軽微なゆらぎを誇張し得るため、不十分な予測性能を有するであろう。一部の実施形態において、数学的モデルが使用されて、1つ以上の独立変数(IV)と従属変数(DV)との間の関係性を記載する。このモデルは、DV=(IV)の代数式として表すことができる。「代数式」は、変数、係数、定数ならびにプラスおよびマイナス符号等の演算記号を含むことができる。4x2+3xy+7y+5は、二変数代数式である。

一部の実施形態において、代数式または数学的モデルの「項」は、プラスまたはマイナス符号によって隔てられた要素である。この文脈において、上の例は、4項、4x2、3xy、7yおよび5を有する。項は、変数および係数(4x2、3xyおよび7y)、または定数(5)からなることができる。代数式において、変数は、システムの変化する状態を表すために様々な値を採ることができる。例えば、これは、移動する車(traveling car)のスピードを表す連続型変数、あるいはアミノ酸型を表す複数の非連続値による離散変数であり得る。変数は、実体の存在または非存在、例えば、特定の位置における特定の型の残基の存在または非存在を表すビット値変数であり得る。上述の代数式において、変数は、xおよびyである。

一部の実施形態において、式の「項」は、乗算等、他の符号によって区分された式の要素であり得る。

「係数」は、従属変数または従属変数を含む式によって乗算されるスカラー値を指す。上の例において、「係数」は、代数式における項の数字の部分である。4x2+3xy+7y+5において、第1の項の係数は4である。第2の項の係数は3であり、第3の項の係数は7である。項が変数のみからなる場合、その係数は1である。

「定数」は、数のみを含む代数式における項である。すなわち、これは、変数なしの項である。式4x2+3xy+7y+5において、定数項は「5」である。

「線形項」は、1の次数または1乗された単一変数を有する項である。上の例において、項7yは、その次数が1であるため(y1または単純にy)、線形項である。対照的に、項4x2は、xが2の次数を有するため、二次項であり、3xyは、xおよびyがそれぞれ1の次数を有し、その積が2の次数を導くため、二変数二次項である。

本文章のある箇所において、「線形項」および「非相互作用項」は、単一独立変数と関連する係数との積を含む回帰モデルの項を指すよう本明細書において互換的に使用され、該単一IVは、単一残基の存在/非存在を表す。

一部の実施形態において、「非線形項」、「外積項」および「相互作用項」は、2つ以上の独立変数と関連する係数との積を含む回帰モデルの項を指す場合、本開示において互換的に使用される。より一般には、「非線形項」は、1超または未満の次数を有する項、例えば、独立変数のべき関数または指数関数を示すよう使用される。非線形項の一部の例として、xy、x2、x1/3、xyおよびexが挙げられる。よって、本文章のある箇所において、「非線形項」は、2つの独立変数の積を含む項よりも広い意味を指す。

一部の実施形態において、相互作用項は、2つ以上のIVの非線形関数、例えば、2つ以上のIVの乗算関数(product function)、べき関数または指数関数を含む項として実装されることができ、各IVは、特定の位置における特定の型の残基の存在を表す。例えば、y=ax1+bx2+cx1x2において、変数x1およびx2は、1つの特定の場所における2つの特定の残基の存在/非存在を表すことができ、項cx1x2は、2つの特定の残基の相互作用の効果を表す相互作用項である。他の実施形態において、相互作用項は、2つ以上の残基の相互作用を表す単一IVを含む項として実装されることができる。例えば、y=ax1+bx2+czにおいて、変数x1およびx2は、1つの特定の場所における2つの特定の残基の存在/非存在を表すことができ、項czは、2つの特定の残基の相互作用の効果を表す相互作用項である。この最後の例において、相互作用項czは、外積項ではない。技術的にczは線形項であるが、本明細書においてそのようには標識されず、線形、非相互作用項ax1およびbx2との混同を回避する。本開示において使用されている場合、用語「線形モデル」は、線形項のみを含むモデルを指す。対照的に、用語「非線形モデル」は、線形および非線形項の両方を含むモデルを指す。一部の実施形態において、非線形モデルは、外積項として実装される相互作用項を含む。

より一般には、線形モデルまたは線形システムは、重ね合わせの原理(principal)および次数1の均一性を満たす。重ね合わせの原理は、あらゆる線形システムに対し、2つ以上の刺激によって生じる所定の場所および時間における正味の応答が、各刺激によって個々に生じた応答の和であることを言う。これは、加算性としても知られている。入力Aが応答Xを生じ、入力Bが応答Yを生じる場合、入力(A+B)は、応答(X+Y)を生じる。次数1の均一性は、その出力または従属変数(DV)が、その入力または独立変数と比例して変化する任意のモデルを指す。逆に、「非線形モデル」は、重ね合わせの原理または次数1の均一性を満たさないモデルである。

「相互作用サブユニット」は、配列のモデリングされた活性に対する相乗効果を有する配列の2つ以上のサブユニットを指し、この相乗効果は、モデリングされた活性に対するサブユニットの個々の効果とは別個で異なる。

用語「ベースモデル」は、モデルを改善するプロセスの始めに提供される配列−活性モデルに関して使用される。

用語「アップデートされたモデル」は、ベースモデルおよび/またはこのモデルが由来する別のモデルと比較して改善された予測検出力を有する、ベースモデルに直接的にまたは間接的に由来する配列−活性モデルに関して使用される。

モデルの「尤度関数」または「尤度」は、統計学的モデルのパラメータの関数である。いくつかの観測成果を与えられたパラメータ値のセットの尤度は、これらのパラメータ値を与えられたこれらの観測成果の確率に等しく、すなわち、L(θ|x)=P(x|θ)。

「モンテカルロシミュレーション」は、実現象をシミュレートする数値的結果を得るための数多くのランダムサンプリングに頼るシミュレーションである。例えば、区間(0,1]から数多くの擬似ランダム一様性変数を引き出し、0.50以下の値を表に、0.50を超える値を裏に割り当てることは、コインを反復して投げる行為のモンテカルロシミュレーションである。

「メトロポリスアルゴリズム」または「メトロポリスヘイスティングスアルゴリズム」は、直接サンプリングが困難な確率分布から一連のランダムサンプールを得るためのマルコフ連鎖モンテカルロ(MCMC)方法である。このサンプリングシーケンスを使用して、分布を近似させること(すなわち、ヒストグラムを作製する)、あるいは積分を算出することができる(期待値等)。メトロポリスヘイスティングスおよび他のMCMCアルゴリズムは一般に、特に、次元の数が高い場合に、多次元分布からサンプリングするために使用される。メトロポリスヘイスティングスアルゴリズムの目的は、所望の分布P(x)に従って状態xを漸近的に作製することであり、これを履行するために確率論的プロセスを使用する。このアルゴリズムのアイデアは、特有の分布P(x)へと漸近的に収束するよう確率論的プロセスを調整することである。

「マルコフ連鎖」は、マルコフ特性を有する一連のランダム変数X1、X2、X3...である。換言すれば、現在の状態が与えられると、未来および過去の状態は独立している。公式には、 Pr(Xn+1=x|X1=x1,X2=x2,...,Xn=xn)=Pr(Xn+1=x|Xn=xn)。

Xiの可能な値は、鎖の状態空間と呼ばれる可算セットSを形成する。「マルコフ連鎖」システムは、有限または可算数の可能な状態間で、ある状態から別の状態への移行を行う数学的システムである。これは、無記憶として通常特徴付けられる、ランダムプロセスである:次の状態は、現状態のみに依存し、これに先行する一連の事象には依存しない。

「赤池の情報量基準」(AIC)は、統計学的モデルの適合の相対良好性の尺度であり、これは多くの場合、モデルの有限セットの間のモデル選択のための基準として使用される。AICは、情報エントロピーの概念に根差し、事実上、所定のモデルが使用されて現実を記載する場合、情報喪失の相対尺度を提供する。これは、モデル構築におけるバイアスと分散との間、あるいは大雑把に言うと、モデルの精度と複雑さとの間のトレードオフを記載すると考えることができる。AICは次の通りに計算することができる:AIC=−2logeL+2k(式中、Lは、関数の最大尤度であり、kは、推定しようとするモデルの自由パラメータの数である)。

「ベイズ情報量基準」は、モデルの有限セットの間のモデル選択のための基準であり、AICに密接な関係がある。BICは次の通りに計算することができる:BIC=−2logeL+kloge(n)(式中、nは、データ観測の数である)。観測の数が増加するにつれて、BICは多くの場合、AICよりも重く余分な数の自由パラメータにペナルティーを科す。

「遺伝的アルゴリズム」は、進化過程を模倣するプロセスである。遺伝的アルゴリズム(GA)は、多種多様な分野において使用されており、十分に特徴付けされていないまたは十分な特徴付けを行うには複雑過ぎる問題であるが、ある程度の分析的評価が利用できる問題を解決する。すなわち、GAは、解法の相対値(または別の解法と比較した潜在的な一解法の少なくとも相対値)をいくつかの定量化できる尺度によって評価することができる問題の解決に使用される。本開示の文脈において、遺伝的アルゴリズムは、コンピュータにおいて文字列を選択または操作するためのプロセスであり、典型的には、文字列は、1つ以上の生物分子(例えば、核酸、タンパク質その他)に対応する。

用語「遺伝的操作」(または「GO」)は、生物学的および/または計算的遺伝的操作を指し、任意の種類の文字列の任意の集団における(よって、このような列にコードされる物理的対象物の任意の物理的特性における)あらゆる変化は、論理的代数関数の有限セットのランダムおよび/または所定の適用の結果として説明することができる。GOの例として、増殖、クロスオーバー、組換え、変異、ライゲーション、断片化等が挙げられるがこれらに限定されない。

「アンサンブルモデル」は、その項が、モデルの群の全項を含むモデルであり、項のアンサンブルモデルの係数は、群の個々のモデルの対応する項の重み付きの係数に基づく。係数の重み付けは、個々のモデルの予測検出力および/または適応度に基づく。

(II.改善されたタンパク質バリアントライブラリーの作製) タンパク質配列を探索するための誘導進化アプローチにおいて、配列−活性モデルを使用して、タンパク質バリアントの作製を誘導する。本開示の一態様は、タンパク質ライブラリーに基づき、新たな改善されたタンパク質ライブラリーの検索に使用することができる配列−活性モデルを調製するための様々な方法を提供する。本セクションは先ず、新たな改善されたタンパク質を検索するためのプロセスの概要を提供し、続いて、出発ライブラリーの選択、配列−活性モデルの構築および新たなタンパク質の探索を誘導するためのモデルの使用に関係する課題に関するさらなる詳細を提供する。

本開示は、アミノ酸残基配列およびタンパク質活性を含む例証的な例を提供するが、本明細書に記載されているアプローチを他の生物配列および活性のために実装することもできることが理解される。例えば、様々な実施形態において、配列は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、核酸配列、タンパク質、多糖等であり得る。1つ以上の実施形態において、配列のサブユニットは、染色体、染色体セグメント、ハプロタイプ、遺伝子、ヌクレオチド、コドン、変異、アミノ酸、モノ、ジ、トリまたはオリゴマー型炭水化物等であり得る。

典型的には、配列の定向進化の特定のラウンドの始めに、シーケンシングおよびアッセイされたタンパク質バリアントの訓練セットが得られる。定向進化の所定のラウンドは、定向進化のラウンドの始めに使用される親ペプチド(単数または複数)から1つ以上の変異によって変化する多数のバリアントタンパク質を生成する。定向進化のラウンドにおいて生成されたバリアントペプチドは、活性をアッセイされる。親ペプチド(複数可)と比較して所望の活性および/または改善された活性を有するペプチドが、定向進化の少なくとも1回のさらなるラウンドにおける使用のために選択される。

シーケンシングおよびアッセイされたタンパク質バリアントを使用して、配列−活性モデルを生成し得る。典型的には、それらは、実際にシーケンシングされる場合、配列−活性モデルにおいて使用される。シーケンシングおよびアッセイされたタンパク質バリアントの各々は、「観測」と称される。一般に、より多くの観測が配列−活性モデルの作製に用いられるほど、該配列−活性モデルの予測検出力はより優れたものとなる。

次世代大規模並列処理シーケンシング技術の出現まで、定向進化の任意のラウンドにおいて生成される10〜30種を超えるバリアントペプチドを経済的にシーケンシングすることは困難であった。現在、次世代シーケンシングの適用により、定向進化のラウンドにおいて生成されるさらに多くのバリアントタンパク質をシーケンシングすることができる。結果として、訓練セットデータのさらにより大きなプールを使用して、配列−活性モデルを生成することができる。そして、配列−活性モデルは、訓練セットを使用して作製することができ、訓練セットは、ラウンドから得た最も優れたペプチドのみならず、定向進化のさらなるラウンドの目的のものではないであろうが、その配列−活性情報を適用してより頑強な配列−活性モデルを生成することができるいくつかのペプチドも含む。

一部の実施形態において、任意配列の活性を予測するための優れた能力を有する配列−活性モデルを生成することが一般に望ましい。予測検出力は、予測の精度と、モデルが活性を正確に予測する一貫性によって特徴付けることができる。さらに、モデルは、広範な配列空間にわたり活性を正確に予測するその能力によって特徴付けることができる。例えば、予測検出力は、ペプチドの所定の検査および/または検証セットに関する計算された活性と実際の活性との間の残余の観点から特徴付けることができる。より高い一般化された予測検出力を有するモデルは、検証データの異なるセットにまたがりより小さいより一貫した残余を生じる傾向がある。データの検査セットに過剰適合させられたモデルは、下の例に示す通り、検証データのより大きいより一貫しない残余を生じる傾向がある。本開示の一態様は、データの異なるセットにまたがり高い予測検出力を有するモデルを効率的に見出す方法を提供する。

(A.改善されたタンパク質バリアントを検索するためのプロセスの概要) 本明細書に記載されている配列−活性モデルは、定向進化を受けるための初期バリアントライブラリーにおける1つ以上の親「遺伝子」の同定に役立つために使用されることができる。進化のラウンドを行った後に、新たなバリアントライブラリーが同定され、観測の新たなセットをもたらし、続いてこれをデータとしてフィードバックして、新たなまたは緻密化された配列−活性モデルを調製することができる。新たな観測に基づく配列−活性モデルの調製と、配列−活性モデルに基づく定向進化の実行との間で交互するこのプロセスは、所望のタンパク質およびライブラリーが得られるまで反復することができる、モデリング−探索の反復性ループを形成することができる。

配列−活性モデルとバリアントライブラリーとの間のフィードバックループのため、より良いモデルとより良いバリアントライブラリーとは、改善された活性を有するタンパク質の探索において互いに依存する。したがって、モデリングおよび/またはシーケンシングドメインのいずれかにおける障害および改善は、両方のドメインに影響を与え得る。本発明の一部の実施形態において、より良いモデリング技法によるモデリング効率の改善は、配列探索を誘導するためのより良いモデルをもたらす。一部の実施形態において、次世代シーケンシング技術は、in vitroにおけるシーケンシングスピードを改善すると共に、in silico計算的モデルを改善するための交差検証データをもたらすために使用される。

本発明の一部の実施形態において、有用な配列−活性モデルは、頑強な数学的モデリング技法および数多くの「観測」を要求する。これらの観測は、モデルの訓練セットにおいて提供されるデータである。具体的には、各観測は、ライブラリーにおけるバリアントの活性値および関連する配列である。歴史的に、シーケンシングは、大型の訓練セットと、結果的に、ますます頑強な配列−活性モデルとの開発における限定ステップを有していた。現在一般的に使用されている方法において、おそらく数百種のバリアントを有するバリアントライブラリーが作製される。しかし、これらのバリアントのうちごく一部しか実際にシーケンシングされない。定向進化の典型的ラウンドにおいて、最高活性を有する約10〜30種のバリアントのみが実際にシーケンシングされる。理想的には、相対的に低活性を有するいくつかのバリアントを含む、ライブラリーにおけるバリアントのさらにより大きな割合がシーケンシングされるであろう。次世代シーケンシングツールは、大幅に改善されたシーケンシングスピードを有し、訓練セットにおける低活性および高活性バリアントを含むことを可能にする。一部の実施形態において、様々な活性レベルを有するバリアントの包含は、より良い性能を有するモデル、および/またはより広範な配列および活性空間にわたる活性の予測により優れたモデルの生成をもたらす。

本明細書に言及されている一部の線形配列−活性回帰モデルは、独立変数として個々の残基を含み、目的の任意の活性を予測する。線形配列−活性回帰モデルは、2つ以上の残基(residual)の間の相互作用を記述するための項を含まない。2つの残基(residual)の間の相互作用が、活性に相乗効果を有する場合、線形モデルは、2つの相互作用残基に関連する係数に人為的に膨らませた値を提供することができる。結果として、このモデルを扱う人物が、係数の相対的に高い値によって提唱される通りに単純に残基置換を為すことにより、得られるペプチドの活性が予期されるものよりも高いであろうと誤って結論付ける可能性がある。これは、研究者が、線形モデルの使用から、残基置換に関連する活性の増加が、主に該置換と別の置換との相互作用の結果であることを理解しないからである。研究者が、この相互作用の重要性を理解した場合、研究者は、同時発生的に両方の置換を為すことができ、線形モデルによって示唆される活性の増加を達成することができる。

2つの残基が相互作用して、非線形様式で活性を抑制する場合、線形モデルは、残基を互いに切り離して純粋に考えられた場合に適切な値よりも低い値を、これらの残基に関連する係数に帰する。換言すれば、相互作用残基に対して、置換のうち1つを行い、他方を行わないことが、線形モデルによって示唆されるものよりも優れた活性の結果を生じるであろう。

残基−残基相互作用が活性に強い影響を有する場合、線形モデルは不適切であり得るため、残基間の相互作用を記述する非線形相互作用項を有する非線形モデルが、活性の正確な予測に多くの場合必要となる。しかし、非線形項を利用するモデルは、計算的および経験的課題を提起する。最も注目すべきは、相当量の算出を要求する、モデルの開発/利用の考慮に入れるべき非常に多くの潜在的な相互作用項が存在する。さらにより大きい限定は、有意な数の残基−残基相互作用項を有するモデルの生成に必要な観測の潜在的な数である。その上、モデル作製技法は、特定の数の利用できる観測を与えられると、データを過剰適合させる傾向があり得る。この課題に取り組むため、配列−活性モデルに提供される相互作用項を慎重に選択および限定することは、多くのモデルの開発における重要な検討事項である。

図1は、配列−活性モデルを調製するプロセスの一実装を示すフローチャートを提示する。描写されている通り、プロセス100は、バリアント遺伝子の配列データおよび活性データ(「観測」)を提供するブロック103から始まる。配列データは、例えば、初期または改善されたタンパク質バリアントライブラリーの残基配列を含む訓練セットから採取することができる。典型的には、これらのデータは、ライブラリーにおける各タンパク質に対する活性値と一緒に、完全または部分的残基配列情報を含む。一部の事例において、複数の種類の活性(例えば、速度定数データおよび熱安定性データ)は、訓練セットにおいて一緒に提供される。所望の結果により決定される通り、他のデータ供給源も考慮され得る。一部の適したデータ供給源として、構築中の配列−活性モデルに適切な特定のペプチドに関する情報について記載する参照用文献が挙げられるがこれに限定されない。追加の情報源として、同じプロジェクトにおける定向進化のより初期または異なるラウンドが挙げられるがこれに限定されない。実際には、定向進化の以前のラウンドに由来する情報(本明細書に提示される方法が挙げられるがこれらに限定されない、いずれか適した方法を使用)が、後に生成されるライブラリー、バリアント等の開発における使用を見出すであろうことが企図される。

多くの実施形態において、タンパク質バリアントライブラリーの個々のメンバーは、広範な配列および活性を表す。これは、配列空間の広い領域にわたり適用可能な配列−活性モデルの作製を容易にする。このような多様なライブラリーを作製するための技法として、本明細書に記載されているタンパク質配列の系統的バリエーションおよび定向進化技法が挙げられるがこれらに限定されない。しかし、一部の代替的実施形態において、特定の遺伝子ファミリーにおける遺伝子配列(例えば、複数の種または生物に見出される特定のキナーゼ)からモデルを作製することが望ましい。多くの残基は、ファミリーの全メンバーにまたがり同一であるため、モデルは、変化する残基のみを記述する。よって、一部の実施形態において、あらゆる可能なバリアントのセットと比較して、このような相対的に小型の訓練セットに基づく統計学的モデルは、ローカルな意味で妥当である。すなわち、モデルは、所定のバリアントの所定の観測のみに妥当である。一部の実施形態において、一部のモデルにおいて、検討中のモデルシステム(複数可)の容量および/または必要を越えることが認識されるため、目標は、グローバルな適応度関数を見出すことではない。

活性データは、目的の活性(単数/複数)の規模を測定するよう適切に設計されたアッセイおよび/またはスクリーニングが挙げられるがこれらに限定されない、当技術分野において公知の任意の適した手段を使用して得ることができる。このような技法は、周知のものであり、本発明に必須ではない。適切なアッセイまたはスクリーニングを設計するための原理は、広く理解されており、当技術分野において公知のものである。タンパク質配列を得るための技法も周知のものであり、本発明の要とはならない。言及されている通り、次世代(next−generating)シーケンシング技術を使用することができる。本明細書に記載されている実施形態により使用される活性は、タンパク質安定性(例えば、熱安定性)であり得る。しかし、多くの重要な実施形態が、触媒活性、病原体および/または毒素に対する抵抗性、治療活性、毒性その他等、他の活性を考慮する。実際には、当技術分野において公知のいずれか適した方法が、本発明における使用を見出すため、本発明が、いずれか特定のアッセイ/スクリーニング方法(複数可)および/またはシーケンシング方法(複数可)に限定されることは企図されない。

訓練セットデータを作製または取得した後に、プロセスは、これを使用して、配列情報の関数として活性を予測するベース配列−活性モデルを作製する。ブロック105を参照されたい。このモデルは、タンパク質の配列情報を提供された場合にこの特定のタンパク質の相対活性を予測する式、アルゴリズムまたは他のツールである。換言すれば、タンパク質配列情報は入力であり、活性予測は出力である。一部の実施形態において、ベースモデルは、相互作用項を含まない。このような事例において、ベースモデルは、「線形モデル」として記述されることができる。他の実施形態において、ベースモデルは、あらゆる利用できる相互作用項を含み、この場合、ベースモデルは、非線形モデルまたは相互作用モデルとして記述されることができる。

多くの実施形態に対して、ベースモデルは、活性に対する様々な残基の寄与をランク付けすることができる。機械学習の慣習に全て収まるこのようなモデルを作製する方法(例えば、部分最小二乗回帰(PLS)、主成分回帰(PCR)および多重線形回帰(MLR)、ベイジアン線形回帰)は、独立変数のフォーマット(配列情報)、従属変数(複数可)のフォーマット(活性)およびモデルそれ自体の形式(例えば、線形一次式)と共に後述する。

ベース配列−活性モデルを作製した後に、プロセスは、利用できる相互作用項のプールからの相互作用項を、ベースモデルに反復して加算またはこれから減算し、ベースモデルにわたる改善に関して得られた新たなモデルを評価することにより、最終モデルを生成する。ブロック107を参照されたい。ベースモデルが、あらゆる利用できる相互作用項を含む場合、プロセスは、段階的様式でこのような項を減算する。ベースモデルが、相互作用項を含まない場合、プロセスは、段階的様式でこのような項を加算する。

新たなモデルの評価において、本開示の方法は、モデルが所定のデータのセットを説明する分散を考慮に入れるのみならず、新たなデータを予測するモデルの能力も考慮に入れる。一部の実施形態において、このモデル選択アプローチは、より少ない係数/パラメータを有する同等なモデルよりも多くの係数/パラメータを有するモデルにペナルティーを科し、所定のデータセットに対するモデルの過剰適合を回避する。選択方法の例として、赤池の情報量基準(AIC)およびベイズ情報量基準(BIC)ならびにこれらのバリエーションが挙げられるがこれらに限定されない。

一連のネステッドモデルにおいて、ベースモデルよりも進行的に多くの相互作用項(および関連する係数)を有する回帰モデルと同様に、より複雑なモデルは、余分な係数が偽性であるとしても、より単純なモデルに等しく優れたまたはこれよりも良い適合をもたらす。なぜなら、より複雑なモデルは、余分な自由度を享受するからである。本開示のある特定の実施形態は、適合の良好性の増大が偽性パラメータのコストにより相殺されるより大きい程度まで、より複雑なモデルにペナルティーを科すモデル選択方法を用いる。

ブロック105および107における作業に従って配列−活性モデルを作製するための例示的アルゴリズムを下に示す。このような技法として、モデルにおける追加の相互作用項の包含に対する否定的な偏りを伴う段階的技法が挙げられるがこれに限定されない。しかし、本開示がこれらの具体例に限定されることは企図されない。

一態様において、本開示は、所望の活性に影響を与える生物分子の同定に役立ち得る配列−活性モデルを調製する方法を提供する。一部の実施形態において、本方法は、(a)複数の生物分子に対する配列データおよび活性データを受け取ることと、(b)配列データおよび活性データからベースモデルを調製することであって、ベースモデルが、配列のサブユニットの存在または非存在の関数として活性を予測することと、(c)少なくとも1つの新たな相互作用項をベースモデルに加算またはそれから減算することにより、少なくとも1つの新たなモデルを調製することであって、新たな相互作用項が、2つ以上の相互作用するサブユニットの間の相互作用を表すことと、(d)サブユニットの存在または非存在の関数として活性を予測する少なくとも1つの新たなモデルの能力を決定することと、(e)(d)において決定される活性を予測する少なくとも1つの新たなモデルの能力に基づき、新たな相互作用項の加算に対する否定的な偏りを伴って、新たな相互作用項をベースモデルに加算すべきかまたはそれから減算すべきかを決定することとを含む。続いて、所望の生物活性および特性を有するタンパク質を同定するためのタンパク質ライブラリーの定向進化等、様々な応用において、得られたモデルを使用することができる。

本方法が、新たな相互作用項をベースモデルに加算して、アップデートされたモデルを生成すべきであることを決定する一部の実施形態において、本方法は、(f)ベースモデルの代わりにアップデートされたモデルを使用し、(c)において加算/減算されたものとは異なる相互作用項を加算または減算して、(c)を反復することと、(g)ベースモデルの代わりにアップデートされたモデルを使用して、(d)および(e)を反復することも含む。一部の実施形態において、本方法は、(h)さらにアップデートされたモデルを使用して、(f)および(g)を反復することをさらに含む。

訓練セットの観測が選択され、配列−活性モデルを生成するための数学的技法が選ばれた後に、ベースモデルが作製される。ベースモデルは、典型的には、その予測能力を顧みずに作製される。それは、本明細書に記載されている通り、利用できる観測(すなわち、観測セット)からベースモデルを生成するための定義された手順に従って単純に生成される。上に記す通り、配列モデルは、様々な配列を記述することができるが、一部の実施形態において、モデルは、タンパク質を記述する。後者の場合、ベースモデルは、単純に、訓練セットの作製に使用されるペプチドのコレクションに存在する各変異に対して単一項を有する線形モデルである。これらの実施形態において、ベースモデルは、ペプチドにおける残基間の相互作用を表すいかなる項も含まない。一部の実施形態において、ベースモデルは、観測セットに存在一つ一つの変異に対して別々の項を含まない。

代替的アプローチにおいて、ベースモデルは、変異の各々を分離して記述する項を含むだけではなく、その上、あらゆる潜在的な相互作用残基の項を含む。極端な事例において、注目される変異間の考え得る相互作用全てがベースモデルにおいて使用される。これは、変異の間の一つ一つのペアワイズ相互作用の項と、一つ一つの可能な3残基相互作用の項と、あらゆる可能な4残基相互作用等を含む。一部の実施形態は、ペアワイズ相互作用のみ、あるいはペアワイズ相互作用および三元相互作用を含む。三元相互作用は、3つの明確に異なるサブユニットの間の活性−影響相互作用である。

単純な線形モデルをベースモデルとして使用する1つ以上の実施形態において、モデルを改善するためのその後の努力は、異なる相互作用を表す新たな項の追加を含む。ベースモデルが線形および非線形項の全てを含む代替的な実施形態において、モデルを改善するためのその後の努力は、非線形、相互作用項の一部の選択的な除去を含む。

本発明の1つ以上の実施形態において、ベースモデルを改善するプロセスは、得られたモデルがモデルの品質を十分に改善するか否かの決定における、ベースモデルからの相互作用項の反復した加算または減算を含む。各反復において、現モデルの予測検出力が決定され、別のモデル、例えば、ベースモデルまたはアップデートされたモデルと比較される。

予測検出力の尺度が、データの他のセットに対し一般化されるモデルの能力を既に考慮する実施形態において、該尺度は、単独で、候補モデルを選択すべきか否かを決定することができる。例えば、AICまたはBIC等の尺度は、モデル尤度(または残余誤差)およびパラメータの数の両方を考慮に入れる。モデルの「尤度関数」または「尤度」は、統計学的モデルのパラメータの関数である。いくつかの観測成果を与えられたパラメータ値のセットの尤度は、該パラメータ値を与えられた該観測成果の確率に等しく、すなわち、L(θ|x)=P(x|θ)。モデル尤度の例示的な計算は、後述するセクションに記載されている。より多くのパラメータを有するモデルが、より少ないパラメータを有するモデルと同じ量のデータ分散を捕捉する場合、AICおよびBIC等の尺度は、より多くのパラメータを有するモデルに対する否定的な偏りをもたされる。予測検出力の尺度が、残余誤差のみを考慮する場合、残余誤差における改善の規模は、現反復に関連する変化を、現最良のアップデートされたモデルに取り込むか否か決定するために考慮されなければならない。これは、閾値に対し改善の規模を比較することにより達成することができる。規模が閾値未満である場合、現反復における検討中の変化は許容されない。あるいは、改善の規模が閾値を超える場合、検討中の変化は、アップデートされたモデルに取り込まれ、アップデートされたモデルは、残りの反復へと前進する新たな最良のモデルとして役立つ。

ある特定の実施形態において、各反復は、検討中の現最良のモデルからの単一の相互作用項の加算または減算を考慮する。相加的モデルの場合、すなわち、線形項のみを含むベースモデルの場合、あらゆる利用できる相互作用項のプールを考慮することができる。プロセスが完了し、最終的な最良のモデルが得られるまで、これらの相互作用項の各々は、連続して考慮される。

一部の事例において、プロセスが効果的に収束し、さらなる改善の可能性が低いことを決定した場合、プールにおける利用できる相互作用項が全て考慮される前に、モデル作製プロセスを終結する。

図2は、プロセスにおいて、モデルを反復して使用して、タンパク質配列および活性空間を探索する目的の新たなタンパク質バリアントライブラリーの作製を誘導し得る仕方を例示する(200を参照)。最終モデルが作製された後に、最終モデルを用いて、活性に影響を与えることが予測される複数の残基位置(例えば、35位)または特定の残基値(例えば、35位におけるグルタミン)を同定する。ブロック207を参照されたい。このような位置の同定に加えて、モデルを使用して、所望の活性(複数の活性?)に対するその寄与に基づき残基位置または残基値を「ランク付けする」ことができる。例えば、モデルは、35位におけるグルタミンが、活性に最も顕著なプラスの効果を有すること;208位におけるフェニルアラニンが、活性に2番目に最も顕著なプラスの効果を有すること;等々を予測することができる。後述する特定の1アプローチにおいて、PLSまたはPCR回帰係数を用いて、特定の残基の重要性をランク付けする。別の特定のアプローチにおいて、PLS負荷行列を用いて、特定の残基位置の重要性をランク付けする。

プロセスが、活性に影響を与える残基を同定した後に、そのうちの一部が、ブロック209に示されるバリエーションのために選択される(図2)。これは、配列空間を探索する目的で行われる。多数の異なる選択プロトコール(その一部を後述する)のいずれかを使用して、残基が選択される。例証的な一例において、活性に最も有益な影響を有すると予測された特定の残基が保存される(すなわち、変化させられない)。しかし、より少ない影響を有すると予測された一定数の他の残基が、バリエーションのために選択される。別の例証的な例において、活性に最大の影響を有することが見出された残基位置が、バリエーションのために選択されるが、これは、訓練セットの高性能メンバーにおいて変化することが見出された場合に限る。例えば、モデルが、残基197位が、活性に最大の影響を有するが、高活性を有するタンパク質の全てまたは大部分が、この位置にロイシンを有することを予測する場合、197位は、このアプローチにおけるバリエーションのために選択されないであろう。換言すれば、次世代ライブラリーにおけるタンパク質の全てまたは大部分は、197位にロイシンを有するであろう。しかし、一部の「優れた」タンパク質が、この位置にバリンを有し、その他が、ロイシンを有した場合、プロセスは、この位置におけるアミノ酸を変化させることを選ぶであろう。一部の事例において、2つ以上の相互作用残基の組合せが、活性に最大の影響を有することが見出されるであろう。したがって、一部の戦略において、これらの残基は共変化させられる。

バリエーションのための残基が同定された後に、方法は次に、指定の残基バリエーションを有する新たなバリアントライブラリーを作製する。ブロック211を参照されたい(図2)。この目的のために、様々な方法論が利用できる。一例において、in vitroまたはin vivoの組換えに基づく多様性作製機構が行われて、新たなバリアントライブラリーを作製する。このような手順は、親バリアントライブラリーのタンパク質をコードするための配列または部分配列を含むオリゴヌクレオチドを用いることができる。オリゴヌクレオチドの一部は、密接な関係があり、209におけるバリエーションのために選択される代替アミノ酸のためのコドンの選択のみが異なるであろう。組換えに基づく多様性作製機構は、1回または複数のサイクルに対して行うことができる。複数のサイクルが使用される場合、各サイクルは、どのバリアントが、その後の組換えサイクルにおいて使用されるために許容できる性能を有するかを同定するためのスクリーニングステップを含む。これは、定向進化の形式である。しかし、いかなる適した方法/技法も本発明における使用を見出すため、本発明が、組換えに基づく多様性作製方法の任意の特定の方法に限定されることは企図されない。

追加の例証的な例において、「参照」タンパク質配列が選ばれ、図2の209において選択される残基は、「トグル」されて、バリアントライブラリーの個々のメンバーを同定する。このように同定された新たなタンパク質は、適切な技法によって合成されて、新たなライブラリーを作製する。一例において、参照配列は、訓練セットの最高性能のメンバーまたはPLSまたはPCRモデルによって予測される「最良の」配列であり得る。

別の例証的な例において、定向進化のラウンドにおけるバリエーションのための残基が、単一親配列において選択される。親は、定向進化の先のラウンドに起因するモデルを使用して、あるいは最良のアッセイ性能を有するライブラリーメンバーを同定するデータを使用することにより同定することができる。定向進化の次のラウンドのためのオリゴヌクレオチドは、現ラウンドのための配列−活性モデルからアルゴリズムにより予測される1つ以上の変異を有する、選択された親のバックボーンの一部を含むように定義され得る。これらのオリゴヌクレオチドは、合成方法が挙げられるがこれに限定されない、適した手段を使用して生成することができる。

新たなライブラリーが生成された後に、ブロック213(図2)に示す通り、活性に関してこれをスクリーニングする。理想的には、新たなライブラリーは、以前のライブラリーにおいて観測されるものよりも良い活性を有する1つ以上のメンバーを提供する。しかし、このような利点を抜きにしても、新たなライブラリーは、有益な情報を提供することができる。そのメンバーは、209(図2)において選択されたバリエーションの効果を説明する改善されたモデルの作製に用いることができ、これにより、配列空間のより広い領域にわたり活性をより正確に予測することができる。さらに、ライブラリーは、配列空間における、ローカル最大からグローバル最大への(例えば、活性における)通路を表し得る。

プロセス200(図2)の目標に応じて、一部の実施形態において、一連の新たなタンパク質バリアントライブラリーを作製することが望ましく、各ライブラリーは、訓練セットの新たなメンバーを提供する。続いて、アップデートされた訓練セットを使用して、改善されたモデルを作製する。改善されたモデルを達成するために、さらに別のタンパク質バリアントライブラリーを生成すべきか否かを決定する、ブロック215に示す決定作業によりプロセス200を示す。様々な基準を使用して、この決定を為すことができる。決定基準の例として、これまでに作製されたタンパク質バリアントライブラリーの数、現ライブラリーから得られる最良のタンパク質の活性、所望の活性の規模および直近の新たなライブラリーにおいて観測される改善のレベルが挙げられるがこれらに限定されない。

プロセスが新たなライブラリーを用いて続けるために使用されることを仮定すると、プロセスは、ブロック100(図2)の作業に戻り、そこで、現タンパク質バリアントライブラリーのために得られる配列データおよび活性データから、新たな配列−活性モデルが作製される。換言すれば、現タンパク質バリアントライブラリーのための配列データおよび活性データは、新たなモデルの訓練セットの一部として役立つ(あるいは訓練セット全体として役立つことができる)。その後、ブロック207、209、211、213および215(図2)に示す作業は、新たなモデルを用いる以外は上述の通りに行われる。

方法の終点に達したことが決定される場合、図2に例示されているサイクルが終了し、新たなライブラリーは作製されない。この点において、プロセスは、単純に終結されるか、あるいは一部の実施形態において、ライブラリーのうち1つ以上から得た1つ以上の配列が、開発および/または製造のために選択される。ブロック217を参照されたい。

(B.観測の作製) タンパク質バリアントライブラリーは、ライブラリーにおけるメンバー毎に様々である1つ以上の残基を有する複数のタンパク質の群である。これらのライブラリーは、本明細書に記載されている方法および/または当技術分野において公知のいずれか適した手段を使用して作製することができる。これらのライブラリーは、本発明の様々な実施形態に従って配列−活性モデルの作製に使用される訓練セットのためのデータの提供における用途を見出す。タンパク質バリアントライブラリーに含まれるタンパク質の数は、多くの場合、その作製に関連する適用およびコストに依存する。本発明が、本発明の方法において使用されるタンパク質ライブラリーにおけるいずれか特定の数のタンパク質に限定されることは企図されない。本発明が、いずれか特定のタンパク質バリアントライブラリー(単数または複数)に限定されることはさらに企図されない。

一例において、タンパク質バリアントライブラリーは、単一の遺伝子ファミリーにコードされ得る1つ以上の天然起源のタンパク質から作製される。公知タンパク質または新規合成タンパク質の組換えが挙げられるがこれらに限定されない、他の出発点を使用することができる。これらのシードまたは出発タンパク質から、様々な技法によってライブラリーを作製することができる。一事例において、ライブラリーは、Stemmer(1994年)Proceedings of the National Academy of Sciences, USA、10747〜10751頁およびWO95/22625(どちらも参照により本明細書に組み込まれる)に記載されているDNA断片化媒介性の組換え、Nessら(2002年)Nature Biotechnology 20巻:1251〜1255頁およびWO00/42561(どちらも参照により本明細書に組み込まれる)に記載されている合成オリゴヌクレオチド媒介性の組換え、または1つ以上の親タンパク質の一部もしくは全体をコードする核酸によって作製される。例えば、どちらも参照により本明細書に組み込まれるWO97/20078およびWO98/27230に記載されている他の組換えに基づく方法と共に、これらの方法の組合せを使用することもできる(例えば、DNA断片および合成オリゴヌクレオチドの組換え)。タンパク質バリアントライブラリーの作製に使用されるいずれか適した方法は、本発明における用途を見出す。実際には、本発明が、バリアントライブラリーを生成するためのいずれか特定の方法に限定されることは企図されない。

一部の実施形態において、単一の「出発」配列(「先祖」配列となり得る)は、モデリングプロセスにおいて使用される変異の群を定義する目的に用いることができる。一部の実施形態において、出発配列の少なくとも1つは、野生型配列である。

ある特定の実施形態において、変異は、(a)基質特異性、選択性、安定性もしくは他の有益な特性に影響を与えると文献において同定され、かつ/または(b)タンパク質フォールディングパターン(例えば、タンパク質の内部残基を包む)、リガンド結合、サブユニット相互作用、複数の多様なホモログ間のファミリーシャッフリング等を改善すると計算的に予測される。あるいは、出発配列に変異を物理的に導入し、有益な特性に関して発現産物をスクリーニングすることができる。いずれか適した方法が用途を見出すが、部位特異的変異誘発は、変異を導入するための有用な技法の一例である。よって、それに代えてまたはそれに加えて、遺伝子合成、飽和ランダム変異誘発、残基の半合成コンビナトリアルライブラリー、定向進化、再帰的配列組換え(recursive sequence recombination)(「RSR」)(例えば、その全体が参照により本明細書に組み込まれる米国特許出願第2006/0223143号を参照)、遺伝子シャッフリング、エラープローンPCRおよび/またはその他の適した方法により、変異体をもたらすことができる。適した飽和変異誘発手順の一例は、その全体が参照により本明細書に組み込まれる公開された米国特許出願第20100093560号に記載されている。

出発配列は、野生型タンパク質のアミノ酸配列と同一である必要はない。しかし、一部の実施形態において、出発配列は、野生型タンパク質の配列である。一部の実施形態において、出発配列は、野生型タンパク質に存在しない変異を含む。一部の実施形態において、出発配列は、共通特性を有するタンパク質の群、例えば、タンパク質のファミリーに由来するコンセンサス配列である。

親配列の供給源として役立ち得る酵素のファミリーまたはクラスの非限定的な代表的リストとして、次のものが挙げられるがこれらに限定されない:オキシドレダクターゼ(E.C.1);トランスフェラーゼ(E.C.2);ヒドロリアーゼ(E.C.3);リアーゼ(E.C.4);イソメラーゼ(E.C.5)およびリガーゼ(E.C.6)。オキシドレダクターゼのより特異的であるが非限定的なサブグループは、デヒドロゲナーゼ(例えば、アルコールデヒドロゲナーゼ(カルボニルレダクターゼ)、キシルロースレダクターゼ、アルデヒドレダクターゼ、ファルネソールデヒドロゲナーゼ、乳酸デヒドロゲナーゼ、アラビノースデヒドロゲナーゼ、グルコースデヒドロゲナーゼ(dehyrodgenase)、フルクトースデヒドロゲナーゼ、キシロースレダクターゼおよびコハク酸デヒドロゲナーゼ(dehyrogenase))、オキシダーゼ(例えば、グルコースオキシダーゼ、ヘキソースオキシダーゼ、ガラクトースオキシダーゼおよびラッカーゼ)、モノアミンオキシダーゼ、リポキシゲナーゼ、ペルオキシダーゼ、アルデヒドデヒドロゲナーゼ、レダクターゼ、長鎖アシル−[アシルキャリアータンパク質]レダクターゼ、アシル−CoAデヒドロゲナーゼ、エン(ene)−レダクターゼ、シンターゼ(例えば、グルタミン酸シンターゼ)、硝酸レダクターゼ、モノオキシゲナーゼおよびジオキシゲナーゼならびにカタラーゼを含む。トランスフェラーゼのより特異的であるが非限定的なサブグループは、メチルトランスフェラーゼ、アミジノトランスフェラーゼおよびカルボキシルトランスフェラーゼ、トランスケトラーゼ、トランスアルドラーゼ、アシルトランスフェラーゼ、グリコシルトランスフェラーゼ、トランスアミナーゼ、トランスグルタミナーゼならびにポリメラーゼを含む。ヒドロラーゼのより特異的であるが非限定的なサブグループは、エステルヒドロラーゼ、ペプチダーゼ、グリコシラーゼ、アミラーゼ、セルラーゼ、ヘミセルラーゼ、キシラナーゼ、キチナーゼ、グルコシダーゼ、グルカナーゼ、グルコアミラーゼ、アシラーゼ、ガラクトシダーゼ、プールラナーゼ、フィターゼ、ラクターゼ、アラビノシダーゼ、ヌクレオシダーゼ、ニトリラーゼ、ホスファターゼ、リパーゼ、ホスホリパーゼ、プロテアーゼ、ATPアーゼおよびデハロゲナーゼを含む。リアーゼのより特異的であるが非限定的なサブグループは、デカルボキシラーゼ、アルドラーゼ、ヒドラターゼ、デヒドラターゼ(例えば、炭酸脱水酵素)、シンターゼ(例えば、イソプレンシンターゼ、ピネンシンターゼおよびファルネセンシンターゼ)、ペクチナーゼ(例えば、ペクチンリアーゼ)およびハロヒドリンデヒドロゲナーゼを含む。イソメラーゼのより特異的であるが非限定的なサブグループは、ラセマーゼ、エピメラーゼ、イソメラーゼ(例えば、キシロースイソメラーゼ、アラビノースイソメラーゼ、リボースイソメラーゼ、グルコースイソメラーゼ、ガラクトースイソメラーゼおよびマンノースイソメラーゼ)、トートメラーゼおよびムターゼ(例えば、アシル転移ムターゼ(acyl transferring mutase)、ホスホムターゼおよびアミノムターゼ)を含む。リガーゼのより特異的であるが非限定的なサブグループは、エステルシンターゼを含む。親配列の供給源として使用することができる酵素の他のファミリーまたはクラスは、トランスアミナーゼ、プロテアーゼ、キナーゼおよびシンターゼを含む。このリストは、本開示の可能な酵素のある特定の特異的な態様を例示しているが、網羅的であるとはみなされず、限定を表さない、あるいは本開示の範囲を制限しない。

一部の事例において、本明細書に記載されている方法において有用な候補酵素は、例えば、エナンチオ選択的還元反応等、エナンチオ選択的反応を触媒することができる。このような酵素を使用して、例えば、医薬品化合物の合成において有用な中間体を作製することができる。

一部の実施形態において、候補酵素は、エンドキシラナーゼ(EC3.2.1.8);β−キシロシダーゼ(EC3.2.1.37);アルファ−L−アラビノフラノシダーゼ(EC3.2.1.55);アルファ−グルクロニダーゼ(EC3.2.1.139);アセチルキシランエステラーゼ(EC3.1.1.72);フェルロイルエステラーゼ(EC3.1.1.73);クマロイルエステラーゼ(EC3.1.1.73);アルファ−ガラクトシダーゼ(EC3.2.1.22);ベータ−ガラクトシダーゼ(EC3.2.1.23);ベータ−マンナナーゼ(EC3.2.1.78);ベータ−マンノシダーゼ(EC3.2.1.25);エンド−ポリガラクツロナーゼ(EC3.2.1.15);ペクチンメチルエステラーゼ(EC3.1.1.11);エンド−ガラクタナーゼ(galactanase)(EC3.2.1.89);ペクチンアセチルエステラーゼ(EC3.1.1.6);エンド−ペクチンリアーゼ(EC4.2.2.10);ペクチン酸リアーゼ(EC4.2.2.2);アルファラムノシダーゼ(EC3.2.1.40);エキソ−ポリ−アルファ−ガラクツロノシダーゼ(EC3.2.1.82);1,4−アルファ−ガラクツロニダーゼ(EC3.2.1.67);エキソポリガラクツロン酸リアーゼ(EC4.2.2.9);ラムノガラクツロナンエンドリアーゼ(EC4.2.2.B3);ラムノガラクツロナンアセチルエステラーゼ(EC3.2.1.B11);ラムノガラクツロナンガラクツロノヒドロラーゼ(EC3.2.1.B11);エンド−アラビナナーゼ(EC3.2.1.99);ラッカーゼ(EC1.10.3.2);マンガン依存性ペルオキシダーゼ(EC1.10.3.2);アミラーゼ(EC3.2.1.1)、グルコアミラーゼ(EC3.2.1.3)、プロテアーゼ、リパーゼおよびリグニンペルオキシダーゼ(EC1.11.1.14)から選択される。1、2、3、4、5または6種以上の酵素のいずれかの組合せは、本発明の組成物における用途を見出す。

本発明の1つ以上の実施形態において、単一の出発配列が、様々な仕方で改変されて、ライブラリーを作製する。一部の実施形態において、ライブラリーは、出発配列の個々の残基を系統的に変化させることにより作製される。例証的な一例において、実験計画(DOE)方法論が用いられて、系統的に変化させられる配列を同定する。別の一例において、オリゴヌクレオチド媒介性組換え等、「ウェットラボ」手順を使用して、あるレベルの系統的バリエーションを導入する。いずれか適した方法が用途を見出すため、本発明が、系統的に変化させられる配列を作製するためのいずれか特定の方法に限定されることは企図されない。

本明細書において使用する場合、用語「系統的に変化させられる配列」は、各残基が複数の文脈において理解される配列のセットを指す。原則として、系統的バリエーションのレベルは、配列が互いに直交する(すなわち、平均と比較して最大に異なる)程度により定量化することができる。一部の実施形態において、プロセスは、最大に直交する配列を有することに依存しない。しかし、モデルの品質は、検査される配列空間の直交性と直接比例して改善されよう。単純な例証的な例において、ペプチド配列は、それぞれが2つの異なるアミノ酸のうちの1つを有し得る2つの残基位置を同定することにより、系統的に変化させられる。最大に多様なライブラリーは、全4種の可能な配列を含む。このような最大系統的バリエーションは、可変位置の数と共に;例えば、N個の残基位置のそれぞれに2つのオプションが存在する場合、2Nにより、指数関数的に増加する。しかし、当業者であれば、最大系統的バリエーションが要求されないことを容易に認識されよう。系統的バリエーションは、配列空間の優れたサンプリングをもたらす検査のために、配列の相対的に小型のセットを同定するための機構を提供する。

系統的に変化させられる配列を有するタンパク質バリアントは、当業者に周知の技法を使用して、多数の仕方で得ることができる。示されている通り、適した方法として、1つ以上の「親」ポリヌクレオチド配列に基づきバリアントを作製する組換えに基づく方法が挙げられるがこれに限定されない。例えば、組換えようとするポリヌクレオチドのDNAse消化と、続く核酸のライゲーションおよび/またはPCR再構成を含む種々の技法を使用して、ポリヌクレオチド配列を組換えることができる。これらの方法として、例えば、全てが参照により本明細書に組み込まれる、Stemmer(1994年)Proceedings of the National Academy of Sciences USA、91巻:10747〜10751頁、米国特許第5,605,793号、「Methods for In Vitro Recombination」、米国特許第5,811,238号、「Methods for Generating Polynucleotides having Desired Characteristics by Iterative Selection and Recombination」、米国特許第5,830,721号、「DNA Mutagenesis by Random Fragmentation and Reassembly」、米国特許第5,834,252号、「End Complementary Polymerase Reaction」、米国特許第5,837,458号、「Methods and Compositions for Cellular and Metabolic Engineering」、WO98/42832、「Recombination of Polynucleotide Sequences Using Random or Defined Primers」、WO98/27230、「Methods and Compositions for Polypeptide Engineering」、WO99/29902、「Method for Creating Polynucleotide and Polypeptide Sequences」などに記載されている方法が挙げられるがこれらに限定されない。

合成組換え方法も、系統的バリエーションを有するタンパク質バリアントライブラリーの作製に特によく適する。合成組換え方法において、組換えようとする複数の遺伝子を集合的にコードする複数のオリゴヌクレオチドが合成される。一部の実施形態において、オリゴヌクレオチドは、相同性親遺伝子に由来する配列を集合的にコードする。例えば、目的の相同性遺伝子は、BLAST(例えば、Atschulら、Journal of Molecular Biology、215巻:403〜410頁(1990年)を参照)等、配列アライメントプログラムを使用して整列される。ホモログ間のアミノ酸バリエーションに対応するヌクレオチドが知られている。これらのバリエーションは、親配列の共変動分析、親配列の機能情報、親配列間の保存的もしくは非保存的変化の選択または他の適した基準に基づき、あらゆる可能なバリエーションのサブセットに必要に応じてさらに制限される。バリエーションは、例えば、親配列の共変動分析、親配列の機能情報、親配列間の保存的もしくは非保存的変化の選択またはバリエーションの位置の見かけ上の許容度によって同定される位置における追加のアミノ酸多様性をコードするよう必要に応じてさらに増加する。結果は、アミノ酸バリエーションをコードする位置に縮重ヌクレオチドを有する、親遺伝子配列に由来するコンセンサスアミノ酸配列をコードする縮重遺伝子配列である。縮重遺伝子に存在する多様性の構築に要求されるヌクレオチドを含むオリゴヌクレオチドが設計される。このようなアプローチに関する詳細は、例えば、それぞれが参照により本明細書に組み込まれる、Nessら(2002年)Nature Biotechnology、20巻:1251〜1255頁、WO00/42561、「Oligonucleotide Mediated Nucleic Acid Recombination」、WO00/42560、「Methods for Making Character Strings, Polynucleotides and Polypeptides having Desired Characteristics」、WO01/75767、「In Silico Cross−Over Site Selection」およびWO01/64864、「Single−Stranded Nucleic Acid Template−Mediated Recombination and Nucleic Acid Fragment Isolation」に見出すことができる。同定されたポリヌクレオチドバリアント配列は、in vitroまたはin vivoのいずれかにおいて転写および翻訳されて、タンパク質バリアント配列のセットまたはライブラリーを作製することができる。

系統的に変化させられる配列のセットは、データセットにおける配列を定義するための実験計画(DOE)方法を使用して、経験的に設計することもできる。DOE方法の記載は、Diamond, W.J.(2001年)Practical Experiment Designs: for Engineers and Scientists、John Wiley & SonsおよびWilliam J Drummond(1981年)Van Nostrand Reinhold Co New Yorkによる「Practical Experimental Design for Engineers and Scientists」、「Statistics for experimenters」George E.P. Box, William G Hunter and J. Stuart Hunter(1978年)John Wiley and Sons、New York、または例えば、ワールドワイドウェブ、itl.nist.gov/div898/handbook/に見出すことができる。Statistics Toolbox(MATLAB(登録商標))、JMP(登録商標)、STATISTICA(登録商標)およびSTAT−EASE(登録商標)DESIGN EXPERT(登録商標)を含む、関連する数学の実行に利用できるいくつかの計算パッケージが存在する。結果は、本発明の配列−活性モデルの構築に適した配列の、系統的に変化させられ直交性分散したデータセットである。DOEに基づくデータセットは、当技術分野において公知の通り、Plackett−Burmanまたは一部実施要因計画のいずれかを使用して、容易に作製することもできる。Diamond, W.J.(2001年)。

工学および化学において、完全実施要因計画と比較してより少ない実験を定義する一部実施要因計画を使用する。これらの方法において、2つ以上のレベルの間で要因は変化させられる(すなわち、「トグルされる」)。最適化技法を使用して、選ばれた実験が、要因空間分散の説明において最大に情報価値があることを確実にする。同じ計画アプローチ(例えば、一部実施要因、D−最適計画)をタンパク質工学において適用して、2つ以上の残基の間で所定の数の位置がトグルされた、より少ない配列を構築することができる。一部の実施形態において、この配列セットは、問題になっているタンパク質配列空間に存在する系統的分散の最適記載をもたらす。

タンパク質工学に適用されるDOEアプローチの例証的な例として、次の作業が挙げられる: 1)本明細書に記載されている原理(例えば、親配列に存在する、保存のレベル等)に基づきトグルするための位置を同定する。 2)要因の数(すなわち、可変位置)、レベルの数(すなわち、各位置における選択)および出力行列をもたらすために行う実験の数を定義することにより、一般的に利用できる統計学的ソフトウェアパッケージのうちの1つを使用してDOE実験を作製する。出力行列(典型的に、各位置における残基選択を表す1および0からなる)の情報内容は、行う実験の数に直接的に依存する(典型的に、多いほど良い)。 3)出力行列を使用して、各位置における特異的残基選択に戻り、1および0をコードするタンパク質アライメントを構築する。 4)タンパク質アライメントに表されるタンパク質をコードする遺伝子を合成する。 5)関連するアッセイ(複数可)において合成された遺伝子にコードされるタンパク質を検査する。 6)検査された遺伝子/タンパク質に基づきモデルを構築する。 7)本明細書に記載されているステップに従い、重要な位置を同定し、改善された適応度を有する1つ以上のその後のライブラリーを構築する。

例証的な例において、20種の位置における機能的に最良のアミノ酸残基が決定される(例えば、各位置において利用できる2つの可能なアミノ酸が存在する)タンパク質が調査される。この例において、分解能IV要因計画が適切となる。分解能IV計画は、2要因効果が重複することのない、あらゆる単一の変数の効果を解明することができる計画として定義される。続いて、計画は、220(ほぼ百万)種の可能な配列の総多様性を網羅する40種の特定のアミノ酸配列のセットを指定することになる。続いて、いずれかの標準遺伝子合成プロトコールを使用してこれらの配列が作製され、これらのクローンの機能および適応度が決定される。

上記のアプローチの代替物は、利用できる配列(例えば、GENBANK(登録商標)データベースおよび他の公開ソース)の一部または全体を用いて、タンパク質バリアントライブラリーをもたらすことである。このアプローチは、目的の配列空間領域の指標を提供する。

(C.シーケンシング方法) 歴史的に、シーケンシングは、大型の訓練セットと、結果的にますます頑健な配列−活性モデルの開発における制限ステップであった。バリアントのシーケンシングに要求される高コストおよび長時間は、観測の数を数十種のバリアントに制限した。次世代シーケンシングツールは、コストを大幅に低下させ、シーケンシングのスピードおよび量を増加させ、訓練セットに低および高活性バリアントの両方を含むことを可能にした。

次世代シーケンシングツールは、1回のランで多数の塩基対(例えば、少なくとも約1,000,000,000塩基対)を安価にシーケンシングすることができる。この能力(capacity)は、単一のランで典型的にほんの数キロ塩基対の長さであるバリアントタンパク質をシーケンシングする場合に利用することができる。多くの場合、次世代シーケンシングツールは、単一のランで、多くのより小型の配列よりむしろ単一の大型のゲノム(例えば、ヒトゲノム)のシーケンシングのために最適化される。多くの観測結果を並行してシーケンシングするための次世代シーケンシングツールの潜在力を実現するために、単一のランでシーケンシングされている観測結果のそれぞれの起源は、特有に同定されているべきである。一部の実施形態において、バーコード化された配列が、単一のランのために次世代シーケンサーへと供給された一つ一つの断片において使用される。一例において、バーコードは、特定のプレート(例えば、96ウェルプレート)における特定のウェルを特有に同定する。これらの実施形態の一部において、各プレートの各ウェルは、単一の特有のバリアントを含む。各バリアント、またはより具体的には各バリアントの各断片をバーコード化することにより、単一のランで複数の異なるバリアントの遺伝子配列をシーケンシングおよび同定することができる。このプロセスにおいて、同じバーコードを有する全断片読み取りが同定され、バリアントについての長さ配列(length sequences)を同定するアルゴリズムにより共に処理される。

一部の実施形態において、所定のウェルにおけるバリアントの細胞由来のDNAが抽出され、続いて断片化される。次に、断片をバーコード化して、該バリアントに関連する少なくともウェル、時にはウェルおよびプレートを同定する。次に、得られた断片をサイズ選択して、次世代シーケンサーに適切な長さの配列を生成する。例証的な一例において、読み取りの長さは、約200塩基対である。一部の実施形態において、プレートバーコードは、プレートの様々なウェル由来のDNA断片が先ずプールされる後まで適用されない。次に、プールされたDNAをバーコード化して、プレートを同定する。一部の実施形態において、各断片は、どのウェルに由来するかにかかわらず、同じプレートバーコードを有する。しかし、一部の代替的実施形態において、断片は、異なるバーコードを有する。その上、ウェルバーコードおよびプレートバーコードは、所定のウェルから抽出されたDNAを同定するために適用することができる。

1つ以上の実施形態において、例えば、第1世代シーケンシング方法とみなされるサンガーシーケンシングまたはマクサムギルバートシーケンシングを含む、バルクシーケンシング方法を使用して配列データを得ることができる。標識ジデオキシ鎖ターミネーターの使用を包含するサンガーシーケンシングは、当技術分野において周知のものである;例えば、Sangerら、Proceedings of the National Academy of Sciences of the United States of America 74巻、5463〜5467頁(1997年)を参照されたい。核酸試料の画分における複数の部分的化学分解反応の実行と、続く配列を推測するための断片の検出および分析とを包含するマクサムギルバートシーケンシングも、当技術分野において周知のものである;例えば、Maxamら、Proceedings of the National Academy of Sciences of the United States of America 74巻、560〜564頁(1977年)を参照されたい。別のバルクシーケンシング方法は、ハイブリダイゼーションによるシーケンシングであり、この方法において、試料の配列は、例えば、マイクロアレイまたは遺伝子チップにおける複数の配列へのそのハイブリダイゼーション特性に基づき推定される;例えば、Drmanacら、Nature Biotechnology 16巻、54〜58頁(1998年)を参照されたい。

1つ以上の実施形態において、配列データは、次世代シーケンシング方法を使用して得られる。次世代シーケンシングは、「ハイスループットシーケンシング」とも称される。この技法は、シーケンシングプロセスを並列化し、数千または数百万種の配列を即座に生成する。適した次世代シーケンシング方法の例として、単一分子リアルタイムシーケンシング(例えば、Pacific Biosciences、Menlo Park、California)、イオン半導体シーケンシング(例えば、Ion Torrent、South San Francisco、California)、パイロシーケンシング(例えば、454、Branford、Connecticut)、ライゲーションによるシーケンシング(例えば、シーケンシングLife Technologies、Carlsbad、CaliforniaのSOLidシーケンシング)、合成および可逆的ターミネーターによるシーケンシング(例えば、Illumina、San Diego、California)、透過型電子顕微鏡法等の核酸撮像技術などが挙げられるがこれらに限定されない。

一般に、次世代シーケンシング方法は、典型的に、in vitroクローニングステップを使用して、個々のDNA分子を増幅する。エマルジョンPCR(emPCR)は、油相内の水滴におけるプライマーコーティングされたビーズと共に個々のDNA分子を単離する。PCRは、ビーズ上のプライマーに結合するDNA分子のコピーを生成し、続いて後のシーケンシングのために固定する。Marguilisら(454 Life Sciences、Branford、CTにより商品化)、ShendureおよびPorrecaら(「ポロニーシーケンシング」としても公知)による方法ならびにSOLiDシーケンシング(Applied Biosystems Inc.、Foster City、CA)において、emPCRが使用される。M. Marguliesら(2005年)「Genome sequencing in microfabricated high−density picolitre reactors」Nature 437巻:376〜380頁;J. Shendureら(2005年)「Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome」Science 309巻(5741号):1728〜1732頁を参照されたい。in vitroクローン増幅は、固体表面に結合したプライマーにより断片が増幅される「ブリッジPCR」により行うこともできる。Braslavskyらは、この増幅ステップを省略し、表面にDNA分子を直接的に固定する単一分子方法を開発した(Helicos Biosciences Corp.、Cambridge、MAにより商品化)。I. Braslavskyら(2003年)「Sequence information can be obtained from single DNA molecules」Proceedings of the National Academy of Sciences of the United States of America 100巻:3960〜3964頁。

表面に物理的に結合しているDNA分子は、並行してシーケンシングすることができる。「合成によるシーケンシング」において、DNAポリメラーゼ様ダイターミネーション電気泳動シーケンシングを使用して、鋳型鎖の配列に基づき相補鎖が構築される。可逆的ターミネーター方法(Illumina、Inc.、San Diego、CAおよびHelicos Biosciences Corp.、Cambridge、MAにより商品化)は、ダイターミネーターの可逆的バージョンを使用し、一度に1ヌクレオチドを付加し、ブロック基を反復的に除去して別のヌクレオチドの重合を可能にすることにより、各位置における蛍光をリアルタイムで検出する。「パイロシーケンシング」は、DNA重合も使用し、一度に1ヌクレオチドを付加し、結合したピロリン酸の放出により放射された光により、所定の場所に付加されたヌクレオチドの数を検出および定量化する(454 Life Sciences、Branford、CTにより商品化)。M. Ronaghiら(1996年)「Real−time DNA sequencing using detection of pyrophosphate release」Analytical Biochemistry 242巻:84〜89頁を参照されたい。

次世代シーケンシング方法の具体例は、さらに詳細に後述されている。本発明の1つ以上の実施は、本発明の原理から逸脱することなく、次のシーケンシング方法のうち1つ以上を使用することができる。

単一分子リアルタイムシーケンシング(SMRTとしても公知)は、Pacific Biosciencesによって開発された合成技術による並列化された単一分子DNAシーケンシングである。単一分子リアルタイムシーケンシングは、ゼロモード導波管(ZMW)を利用する。単一のDNAポリメラーゼ酵素が、ZMWの底に固定され、単一分子のDNAを鋳型として用いる。ZMWは、DNAポリメラーゼによって取り込まれているDNAの単一ヌクレオチド(塩基としても公知)のみの観測に十分なほど小さい照射観測量(illuminated observation volume)を生じる構造である。4種のDNA塩基の各々は、4種の異なる蛍光色素のうちの1つに結合されている。DNAポリメラーゼによってヌクレオチドが取り込まれる際に、蛍光タグが切断され、ZMWの観測区域から拡散し、するとその蛍光は観測可能ではなくなる。検出器は、ヌクレオチド取り込みの蛍光シグナルを検出し、色素の対応する蛍光に従って塩基コール(call)が為される。

適用可能な別の単一分子シーケンシング技術は、Helicos True単一分子シーケンシング(tSMS)技術(例えば、Harris T.D.ら、Science 320巻:106〜109頁[2008年]に記載)である。tSMS技法において、DNA試料は、およそ100〜200ヌクレオチドの鎖に切断され、各DNA鎖の3’端にポリA配列が付加される。各鎖は、蛍光標識されたアデノシンヌクレオチドの付加によって標識される。次に、DNA鎖は、フローセル表面に固定された数百万個のオリゴ−T捕捉部位を含むフローセルにハイブリダイズする。ある特定の実施形態において、鋳型は、約1億個の鋳型/cm2密度となり得る。続いて、フローセルは、機器、例えば、HeliScope(商標)シーケンサーに装填され、フローセルの表面にレーザーを照射し、各鋳型の位置を明らかにする。CCDカメラは、フローセル表面における鋳型の位置をマッピングすることができる。次に、鋳型蛍光標識を切断し、洗い流す。シーケンシング反応は、DNAポリメラーゼおよび蛍光標識されたヌクレオチドを導入することにより始まる。オリゴ−T核酸は、プライマーとして機能する。ポリメラーゼは、鋳型指向性の様式で標識されたヌクレオチドをプライマーに取り込む。ポリメラーゼおよび取り込まれなかったヌクレオチドを除去する。蛍光標識されたヌクレオチドの指向性のある取り込み(directed incorporation)を有する鋳型は、フローセル表面の撮像により識別される。撮像後に、切断ステップが蛍光標識を除去し、所望の読み取り長が達成されるまで、他の蛍光標識されたヌクレオチドを用いてこのプロセスを反復する。各ヌクレオチド付加ステップにより、配列情報を収集する。単一分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリーの調製におけるPCRに基づく増幅を除外または典型的に取り除き、この方法は、該試料のコピーの測定よりもむしろ、試料の直接測定を可能にする。

イオン半導体シーケンシングは、DNAの重合の間に放出された水素イオンの検出に基づくDNAシーケンシングの方法である。これは、鋳型鎖の配列に基づき相補鎖が構築される「合成によるシーケンシング」の方法である。シーケンシングしようとする鋳型DNA鎖を含むマイクロウェルを、単一種のデオキシリボヌクレオチド三リン酸(dNTP)で充満させる。導入されたdNTPは、リーディング鋳型ヌクレオチドに相補的である場合、成長中の相補鎖に取り込まれる。これにより、ISFETイオンセンサーの引き金を引く水素イオンが放出され、反応が起こったことを示す。鋳型配列にホモポリマーリピートが存在する場合、複数のdNTP分子が、単一サイクルで取り込まれる。これは、対応する数の放出水素と、比例的により高い電子シグナルを生じる。この技術は、改変ヌクレオチドまたはオプティクスが使用されないという点において、他のシーケンシング技術とは異なる。イオン半導体シーケンシングは、ion torrentシーケンシング、pH媒介性シーケンシング、シリコンシーケンシングまたは半導体シーケンシングと称することもできる。

パイロシーケンシングにおいて、重合反応によって放出されたピロリン酸イオンは、ATPスルフリラーゼによりアデノシン5’ホスホ硫酸と反応して、ATPを生成する;次に、ATPは、ルシフェラーゼによるルシフェリンからオキシルシフェリンプラス光への転換を駆動する。蛍光は一過性であるため、この方法において、蛍光を排除するための別個のステップは必要とされない。1種類のデオキシリボヌクレオチド三リン酸(dNTP)が一度に付加され、配列情報は、どのdNTPが反応部位に有意なシグナルを生じるかに従って識別される。市販のRoche GS FLX機器は、この方法を使用して配列を取得する。この技法およびその応用は、例えば、Ronaghiら、Analytical Biochemistry 242巻、84〜89頁(1996年)およびMarguliesら、Nature 437巻、376〜380頁(2005年)(Nature 441巻、120頁(2006年)に誤植)に詳細に記述されている。市販のパイロシーケンシング技術は、454シーケンシング(Roche)である(例えば、Margulies, M.ら、Nature 437巻:376〜380頁[2005年]に記載されるとおり)。

ライゲーションシーケンシングにおいて、リガーゼ酵素が使用されて、オーバーハングを有する部分的に二本鎖のオリゴヌクレオチドを、オーバーハングを有するシーケンシングされている核酸に連結する;ライゲーションが起こるよう、オーバーハング同士は相補的でなければならない。部分的に二本鎖のオリゴヌクレオチドのオーバーハングにおける塩基は、部分的に二本鎖のオリゴヌクレオチドおよび/または部分的に二本鎖のオリゴヌクレオチドの別の部分にハイブリダイズする二次オリゴヌクレオチドにコンジュゲートされたフルオロフォアによって同定することができる。蛍光データの取得後に、ライゲーションされた複合体は、その認識部位(部分的に二本鎖のオリゴヌクレオチドに含まれた)から固定された距離の部位でカットするIIs型制限酵素、例えば、Bbvlによる等、ライゲーション部位の上流で切断される。この切断反応は、先のオーバーハングの直ぐ上流に新たなオーバーハングを露出させ、このプロセスは反復される。この技法およびその応用は、例えば、Brennerら、Nature Biotechnology 18巻、630〜634頁(2000年)に詳細に記述されている。一部の実施形態において、ライゲーションシーケンシングは、環状核酸分子のローリングサークル増幅産物を得て、ライゲーションシーケンシングのための鋳型としてローリングサークル増幅産物を使用することにより、本発明の方法に適応される。

ライゲーションシーケンシング技術の市販の例は、SOLiD(商標)技術(Applied Biosystems)である。SOLiD(商標)のライゲーションによるシーケンシングにおいて、ゲノムDNAを剪断して断片とし、断片の5’および3’端にアダプターを結合させて、断片ライブラリーを作製する。あるいは、断片の5’および3’端にアダプターをライゲーションし、断片を環状化し、環状化した断片を消化して、内部アダプターを作製し、得られた断片の5’および3’端にアダプターを結合させて、メイトペア(mate−paired)ライブラリーを作製することにより、内部アダプターを導入することができる。次に、ビーズ、プライマー、鋳型およびPCR構成成分を含むマイクロリアクター内にクローンビーズ集団を調製する。PCR後に、鋳型を変性させ、ビーズを富化して、延長された鋳型を有するビーズを分離させる。選択されたビーズにおける鋳型を、スライドグラスへの結合を可能にする3’改変に付す。特定のフルオロフォアによって同定される中心決定塩基(または塩基の対)を有する部分的にランダムなオリゴヌクレオチドの逐次的ハイブリダイゼーションおよびライゲーションにより、配列を決定することができる。色が記録された後に、ライゲーションされたオリゴヌクレオチドを切断および除去し、続いてこのプロセスを反復する。

可逆的ターミネーターシーケンシングにおいて、ブロック基の存在による可逆的鎖ターミネーターである蛍光色素標識されたヌクレオチドアナログが、単一塩基伸長反応において取り込まれる。塩基の同一性は、フルオロフォアによって決定される;換言すれば、各塩基は、異なるフルオロフォアと対になる。蛍光/配列データを取得した後に、フルオロフォアおよびブロック基を化学的に除去し、このサイクルを反復して、配列情報の次の塩基を取得する。Illumina GA機器は、この方法により作動する。この技法およびその応用は、例えば、Ruparelら、Proceedings of the National Academy of Sciences of the United States of America 102巻、5932〜5937頁(2005年)およびHarrisら、Science 320巻、106〜109頁(2008年)に詳細に記述されている。

可逆的ターミネーターシーケンシング方法の市販の例は、Illuminaの合成によるシーケンシングおよび可逆的ターミネーターに基づくシーケンシング(例えば、Bentleyら、Nature 6巻:53〜59頁[2009年]に記載のとおり)である。Illuminaのシーケンシング技術は、オリゴヌクレオチドアンカーが結合した平面状の光学的に透明な表面への、断片化ゲノムDNAの結合に基づく。鋳型DNAを末端修復して、5’−リン酸化平滑末端を作製し、クレノウ断片のポリメラーゼ活性を使用して、該平滑リン酸化DNA断片の3’端に単一A塩基を付加する。この付加は、その3’端にライゲーション効率を増加させる単一T塩基のオーバーハングを有するオリゴヌクレオチドアダプターへのライゲーションのためのDNA断片を調製する。アダプターオリゴヌクレオチドは、フローセルアンカーと相補的である。アダプター改変される限界希釈条件下で、一本鎖の鋳型DNAをフローセルに添加し、アンカーへのハイブリダイゼーションにより固定する。結合したDNA断片を延長させ、ブリッジ増幅させて、それぞれほぼ1,000コピーの同じ鋳型を含む数億個のクラスターを有する超高密度シーケンシングフローセルを作製する。除去可能な蛍光色素を有する可逆的ターミネーターを用いる頑健な4色DNAの合成によるシーケンシング技術を使用して、鋳型をシーケンシングする。レーザー励起および全内部反射オプティクスを使用して、高感度蛍光検出が達成される。約20〜40bp、例えば、36bpの短い配列読み取りを、リピートマスク参照ゲノムに対し整列させ、特別に開発されたデータ分析パイプラインソフトウェアを使用して、参照ゲノムに対する短い配列読み取りの特有のマッピングを同定する。非リピートマスク参照ゲノムを使用することもできる。リピートマスク参照ゲノムまたは非リピートマスク参照ゲノムのいずれが使用されるのであれ、参照ゲノムに対し特有にマッピングされる読み取りのみを計数する。第1の読み取りの完了後に、in situで鋳型を再生して、断片の反対端からの第2の読み取りを可能にすることができる。よって、DNA断片のシングルエンドシーケンシングまたはペアエンドシーケンシングのいずれかを使用することができる。試料に存在するDNA断片の部分的シーケンシングを行い、所定の長さ、例えば、36bpの読み取りを含む配列タグを公知の参照ゲノムに対しマッピングし、計数する。

ナノポアシーケンシングにおいて、例えば、電気泳動による駆動力を使用して、一本鎖核酸分子をポアに通し、一本鎖核酸分子がポアを通過するにつれて得られるデータを分析することにより配列を推定する。データは、イオン電流データとなることができ、各塩基は、例えば、異なる識別可能な程度まで、ポアを通過する電流を部分的に遮断することにより電流を変更する。

別の例証的であるが非限定的な実施形態において、本明細書に記載されている方法は、透過型電子顕微鏡法(TEM)を使用して配列情報を得るステップを含む。本方法は、重原子マーカーで選択的に標識された高分子量(150kb以上)DNAの単一原子分解能の透過型電子顕微鏡撮像を利用するステップと、これらの分子を超高密度(3nm鎖間)平行アレイにおける極薄フィルム上に一貫した塩基間スペーシングで配置するステップを含む。電子顕微鏡を使用して、フィルム上に分子を撮像して、重原子マーカーの位置を決定し、DNAから塩基配列情報を抽出する。本方法は、PCT特許公開WO2009/046445にさらに記載されている。

別の例証的であるが非限定的な実施形態において、本明細書に記載されている方法は、第三世代シーケンシングを使用して配列情報を得るステップを含む。第三世代シーケンシングにおいて、多くの小(ほぼ50nm)孔を備えるアルミニウムコーティングを有するスライドをゼロモード導波管として使用する(例えば、Leveneら、Science 299巻、682〜686頁(2003年)を参照)。アルミニウム表面は、ポリホスホネート化学、例えば、ポリビニルホスホネート化学によってDNAポリメラーゼの結合から保護される(例えば、Korlachら、Proceedings of the National Academy of Sciences of the United States of America 105巻、1176〜1181頁(2008年)を参照)。これは、アルミニウムコーティングの孔における露出したシリカへのDNAポリメラーゼ分子の優先的結合をもたらす。この仕組みは、エバネッセント波現象を使用して、蛍光バックグラウンドを低下させ、より高濃度の蛍光標識されたdNTPの使用を可能にする。dNTPの取り込みにより蛍光が放出されるが、フルオロフォアが新たに取り込まれたヌクレオチドに結合し続けないように、dNTPの末端リン酸にフルオロフォアを結合させる、このことは、複合体の、取り込みの別のラウンドの準備が直ちに整うことを意味する。この方法により、アルミニウムコーティングの孔に存在する個々のプライマー−鋳型複合体へのdNTPの取り込みを検出することができる。例えば、Eidら、Science 323巻、133〜138頁(2009年)を参照されたい。

(D.配列−活性モデルの生成) 上で示したように、本明細書の実施形態で使用される配列−活性モデルは、タンパク質配列情報をタンパク質活性に関連付ける。このモデルにより使用されるタンパク質配列情報は、多くの形をとり得る。一部の実施形態において、それはタンパク質中のアミノ酸残基の全配列(例えば、HGPVFSTGGA・・・)である。しかし、一部の実施形態において、全アミノ酸配列は不要である。例えば、一部の実施形態において、特定の研究努力において変化させられることになる残基のみ提供すれば十分である。後半の研究段階を含む一部の実施形態において、多くの残基が固定され、配列空間の限られた領域だけが調査されるためにのこっている。そのような状況のいくつかでは、探索を継続する場合、タンパク質の領域にあるそれら残基の同定しか、入力として必要としない配列−活性モデルを提供することは、好都合である。一部の追加の実施形態において、モデルは、残基位置での残基の正確な識別情報を知ることを必要としない。一部のそのような実施形態において、特定の残基位置にあるアミノ酸を特徴付ける、1つまたは複数の物理的または化学的性質が同定される。ある例証的な例において、モデルは、バルク、疎水性、酸性等による残基位置の特定を必要とする。さらに、いくつかのモデルでは、そのような性質の組合せを用いる。事実、モデルには、配列情報、活性情報、および/またはその他の物理的性質(例えば、疎水性等)の様々な構成において用途があるので、本発明は、任意の特定のアプローチに限定されるものではない。

このように、配列−活性モデルの形は、望み通りに配列情報に基づいてタンパク質の相対活性を正しく近似するためのビヒクルを提供する限り、広く変化することができる。一部の実施形態において、モデルは一般に、従属変数として活性を、また独立変数として配列/残基値を扱う。モデルの数学的/論理的形態の例は、様々な次数の線形および非線形数式、ニューラルネットワーク、分類および回帰ツリー/グラフ、クラスタリングアプローチ、再帰分割、およびサポートベクターマシン等が含まれる。一実施形態において、モデル形態は、係数と残基値との積が合計される線形加算モデルである。別の実施形態において、モデル形態は、ある特定の残基外積(残基間の相互作用項を表す)を含めた様々な配列/残基項の非線形積である。事実、開示される実施形態は、本明細書に例示されるように、任意の適切なフォーマットには用途があるので、任意の特定のフォーマットに限定されるものではない。

一部の実施形態において、モデルは、活性と配列との間の数学的/論理的関係を提供するために、配列情報に対する活性の訓練セットから開発される。この関係は、典型的には、新しい配列の活性または目的の活性に対する残基の影響を予測するために使用するために先だって、検証される。

モデルを生成するための様々な技法が利用可能であり、本発明での用途がある。一部の実施形態において、技法は、モデルの最適化またはモデル誤差の最小化を含む。具体的な例には、部分最小二乗法、アンサンブル回帰、ランダムフォレスト、様々なその他の回帰技法、ならびにニューラルネットワーク技法、再帰分割、サポ−トベクターマシン技法、および/またはCART(分類および回帰ツリー)等が含まれる。一般に、技法は、活性に著しい影響を及ぼす残基を、そうでない残基と区別することができるモデルを生成すべきである。一部の実施形態において、モデルは、個々の残基または残基位置を、活性に対するそれらの影響に基づいてランク付けもする。本発明は、当技術分野で公知の任意の適切な方法には本発明での用途があるので、モデルを生成するための任意の特定の技法に限定するものではない。

一部の実施形態において、モデルは、訓練セットにおける独立および従属変数の共変動を同定する回帰技法によって生成される。様々な回帰技法が公知であり、広く使用される。その例には、多重線回帰(MLR)、主成分回帰(PCR)、および部分最小二乗回帰(PLS)が含まれる。一部の実施形態において、アンサンブル回帰およびランダムフォレストを含むがこれらに限定されない多構成要素を含む技法を使用して、モデルを生成する。これらおよび任意のその他の適切な方法には、本発明での用途がある。本発明は、任意の特定の技法に限定されるものではない。

MLRは、これらの技法の中で最も基本的なものである。これは訓練セットのメンバーに関する一組の係数方程式を解くためだけに使用される。各方程式は、特定の位置での特定の残基の存在または不在(すなわち、従属変数)を伴う訓練セットメンバーの活性(すなわち、独立変数)に関する。訓練セットにおける残基オプションの数に応じて、これら方程式の数は非常に大きくあり得る。

MLRのように、PLSおよびPCRは、配列活性を残基値に関連付ける方程式からモデルを生成する。しかし、これらの技法は、そのような生成を異なる手法で行う。これらの技法はまず、独立変数の数を低減させるために座標変換を行う。次いで変換された変数に関して回帰を行う。MLRでは、潜在的に非常に大きい数の独立変数があり:訓練セット内で変化する各残基位置に関して2つ以上がある。目的のタンパク質およびペプチドがしばしば非常に大きく、訓練セットが多くの異なる配列を提供し得るとすれば、独立変数の数は、迅速に、非常に大きくなることができる。データセットに最も大きなバリエーションをもたらすものに焦点を当てるために変数の数を低減させることによって、PLSおよびPCRは一般に、より少ない試料しか必要とせず、モデルの生成において含まれるステップを単純化する。

PCRは、生の独立変数(すなわち、残基値)の座標変換によって得られた比較的小さい数の潜在変数に対して実際の回帰が行われる点が、PLS回帰に類似している。PLSとPCRとの相違は、PCRの潜在変数が、独立変数(すなわち、残基値)間の共変動を最大にすることにより構成されることである。PLS回帰では、潜在変数は、独立変数と従属変数(すなわち、活性値)との間の共変動が最大になるような方法で構成される。部分最小二乗回帰は、Hand, D.J.ら(2001年)Principles of Data Mining (Adaptive Computation and Machine Learning)、 Boston、MA、MIT Press、およびGeladiら(1986年)「Partial Least−Squares Regression: a Tutorial」、Analytica Chimica Acta、198巻:1〜17頁に記載されている。これらの参考文献は共に、全ての目的で参照により本明細書に組み込まれる。

PCRおよびPLSにおいて、回帰分析の直接の結果は、重み付けられた潜在変数の関数である活性に関する式である。この式は、潜在変数を元の当初の独立変数に変換する座標変換を行うことにより、当初の独立変数の関数として、活性に関する式に変換することができる。

本質的に、PCRおよびPLSは共に、最初に訓練セットに含まれる情報の次元を低減させ、次いで変換されたデータセットに関して回帰分析を行うが、変換されたデータセットは、新しい独立変数が生成されるように変換されたものであり、しかし当初の従属変数値を保存している。変換バージョンのデータセットは、回帰分析を行うための比較的少ない式しかもたらさないであろう。次元の低減が行われていないプロトコールでは、それに対してバリエーションがあり得る各個別の残基を考慮しなければならない。これは、係数の非常に大きいセットであり得る(例えば、双方向相互作用に関して2N係数、但しNは訓練セットで変化し得る残基位置の数である)。典型的な主成分分析では、3、4、5、6つの主成分だけが用いられる。

訓練データを適合させるマシン学習技法の能力を、しばしば「モデル適合」と呼び、MLR、PCR、およびPLS等の回帰技法において、モデル適合は、典型的には測定値と予測値との間の差分平方和によって測定される。所与の訓練セットでは、最適モデル適合が、MLRを使用して実現されることになり、PCRおよびPLSは、しばしば悪化したモデル適合を有する(測定と予測との間の誤差平方和がより大きい)。しかし、PCRおよびPLS等の潜在変数回帰技法を使用する主な利点は、そのようなモデルの予測能力にある。誤差平方和が非常に小さいモデル適合を得ることは、モデルが訓練セットでは見られない新しい試料を正確に予測できるようになることを、決して保証するものではなく−実際に、それはしばしば、特に多くの変数がありかつ少ししか観察(すなわち、試料)がない場合に、逆のケースになる。このように、潜在変数回帰技法(例えば、PCR、PLS)は、しばしば訓練データに関する悪化したモデル適合を有するが、通常はより堅牢であり、訓練セット外の新しい試料をより正確に予測することができる。

本開示によりモデルを生成するために使用することができる、別のクラスのツールは、サポートベクターマシン(SVM)である。これらの数学的ツールは、入力として、活性に基づいて2つ以上の群に分類された配列の訓練セットを得る。サポートベクターマシンは、訓練セットの「活性」および「不活性」メンバーを分離する超平面界面にそれらがどの程度近いかに応じて、異なって、訓練セットの異なるメンバーを重み付けすることによって動作する。この技法では、科学者はまず、どの訓練セットのメンバーを「活性」群に配置し、かつどの訓練セットのメンバーを「不活性」群に配置するかを決定する必要がある。一部の実施形態において、これは、訓練セットの「活性」メンバーと「不活性」メンバーとの間の境界として働く活性レベルに適切な数値を選択することによって実現される。この分類から、ベクトルWを生成し、Wは、サポートベクターマシンは、訓練セット内の活性および不活性群のメンバーの配列を定める個々の独立変数に関する係数値を提供することができる。これらの係数は、本明細書の他の部分で記載されるように、個々の残基を「ランク付け」するために使用することができる。技法は、平面の反対側にある最も近い訓練セットのメンバー間の距離を最大にする、超平面を同定するために使用される。別の実施形態において、サポートベクター回帰モデリングを実施する。この場合、従属変数は、連続活性値のベクトルである。サポートベクター回帰モデルは、個々の残基をランク付けするために使用できる係数ベクトルWを生成する。

SVMは、多くの研究で大きいデータセットを調べるのに使用され、DNAマイクロアレイと共に広い用途が見出された。それらの潜在的強度は、試料を互いに分離する因子を細かく区別する(重み付けにより)能力を含む。SVMが、どの残基が機能に寄与するかを精密に探り出すことができる限り、それは残基をランク付けするために特に有用なツールとすることができる。SVMは、全ての目的で参照により本明細書に組み込まれるS. Gunn(1998年)「Support Vector Machines for Classification and Regressions」、Technical Report、Faculty of Engineering and Applied Science、Department of Electronics and Computer Science、University of Southamptonに記載されている。

本発明の一部の実施形態において、モデルを生成するために使用することができる別のクラスのツールは、その例がランダムフォレストであるランダム入力を使用した、分類ツリーのアンサンブルに基づく分類および回帰である。Breiman(2001)「Random Forests」、Machine Learning 45巻(1号):5〜32頁を参照されたい。ランダムフォレストは、各ツリーが、独立してサンプリングされたランダムベクトルの値に依存しかつフォレスト内の全てのツリーに関して同じ分布を有するような、ツリー予測因子の組合せである。ランダムフォレストは、決定ツリーの各分割部での特徴のランダム化選択による非プールニング決定ツリー学習器のバギングからなる学習アンサンブルである。フォレストの一般化誤差は、フォレスト内のツリーの数が大きくなるにつれ、限界に集束する。

ランダムフォレストは、下記の手法で構成され得る: 1)訓練セットにおける件数がNの場合、ランダムに試料N個−しかし返還を伴い、オリジナルデータから。この試料は、ツリーを成長させるための訓練セットであろう。 2)M個の入力独立変数がある場合、数値m(m<

3)一部の実施において、各ツリーは、最大限可能な程度まで成長させられる。プールニングはない。 4)次いで多数のツリー、k=1、...、K(通常、K≧100)が生成される。 5)多数のツリーが生成された後、それらは全て、目的の変数の分類に票を投じる。例えばツリーは、活性の最終的な予測または特定の変異の寄与に各々が寄与し得る。 6)次いでランダムフォレストは、フォレスト内の全てのツリー予測因子から最も多く投票されたクラスを得ることにより、xを分類する(例えば、変異の配列またはその他の独立変数)。

フォレスト誤差率は、フォレスト内の任意の2つのツリー間の相関に依存する。相関が増大すると、フォレスト誤差率も増大する。フォレスト誤差率は、フォレスト内の各個々のツリーの強度に依存する。誤差率が低いツリーは強力な分類子である。個々のツリーの強度が増大すると、フォレスト誤差率が低下する。mの低減は、相関および強度の両方を低減させる。mの増大は、両方を増大させる。間のどこかが、mの「最適」範囲であり−通常は非常に広い。

ランダムフォレスト技法は、回帰モデルにおけるカテゴリー変数ならびに連続変数に関して使用することができる。本発明の一部の実施形態において、ランダムフォレストモデルは、SVMおよびニューラルネットモデルに匹敵する予測検出力を有しており、しかしより高い計算効率を有する傾向がある。何故なら、他にも理由がある中で、交差検証がモデリングプロセスに構築され、交差検証用の別のプロセスが必要ではないからである。

i)線形モデル 本開示は、非線形モデルを対象とするが、これらは活性に対する配列の線形モデルの文脈においてより容易に理解することができる。さらに、一部の実施形態において、線形モデルが、非線形モデルを生成するための段階的プロセスにおける「ベース」モデルとして使用される。一般に、配列に対する活性の線形回帰モデルは、下の形式を有する:

この一次式において、yは予測される応答であり、それに対してcijおよびxijは、それぞれ、配列内の位置iでの残基選択肢を表すために使用される回帰係数およびビット値またはダミー変数である。タンパク質バリアントライブラリーの配列には、N個の残基位置があり、これらの各々は、1つまたは複数の残基によって占有され得る。任意の所与の位置で、j=1〜M個の個別の残基タイプがあり得る。このモデルは、全ての位置で残基間の線形(加算)関係を想定する。方程式1の拡張版は、下記の通りである: y=c0+c11x11+c12x12+…c1Mx1M+c21x21+c22x22+…c2Mx2M+...+cNMxNM 示されるように、活性および配列情報の形態のデータは、初期タンパク質バリアントライブラリーから誘導され、モデルの回帰係数を決定するために使用される。ダミー変数は、まずタンパク質バリアント配列のアライメントから同定される。アミノ酸残基位置は、それらの位置でのアミノ酸残基が配列間で異なっている、タンパク質バリアント配列の中から同定される。これらの可変残基位置のいくつかまたは全てにおけるアミノ酸残基情報は、配列−活性モデル内に組み込まれ得る。

表Iは、可変残基位置の形をした配列情報と、各バリアントタンパク質に対応する活性値と共に10個の例示的なバリアントタンパク質に関する残基タイプとを含む。これらは、係数の全てが解かれるよう十分な方程式を生成するために必要な、より大きいセットの代表的なメンバーである。つまり、例えば表Iの例示的なタンパク質バリアント配列では、10、166、175、および340位が可変残基位置であり、その他全ての位置、すなわち表に示されていないものが、バリアント1〜10の間で同一である残基を含む。

この例において、10個のバリアントは、野生型バックボーン配列を含むことも含まないこともある。一部の実施形態において、野生型バックボーン配列を含む全てのバリアントのデータを同定するように開発されたモデルは、完全多重共線性またはダミー可変トラップの問題を導入する可能性がある。この問題は、様々な技法により対処され得る。一部の実施形態は、モデルの開発から野生型バックボーンデータを除外し得る。一部の実施形態は、野生型バックボーンを表すような係数を脱落させ得る。一部の実施形態は、多重共線性に対処するために、PLS回帰等の技法を使用し得る。

このように、方程式1に基づいて、表Iの系統的に変化させられるライブラリーから回帰モデルを誘導することができ、すなわち: y=c0+c10Alax10Ala+c10Aspx10Asp+c10Lysx10Lys+c166Serx166Ser+c166Phex166Phe+c166Leux166Leu+c166Ilex166Ile+c175Glyx175Gly+c175Valx175Val+c340Phex340Phe+c340Alax340Ala(方程式2) ビット値(xダミー変数)は、指定されたアミノ酸残基の存在または不在を反映する1または0のいずれかとして表すことができ、あるいは1または−1、またはいくつかのその他の代理表示とすることができる。例えば、1または0という表示を使用すると、x10Alaは、バリアント1に関しては「1」になり、バリアント2に関しては「0」になる。1または−1の表示を使用すると、x10Alaは、バリアント1に関しては「1」になり、バリアント2に関しては「−1」になる。したがって回帰係数は、ライブラリー内の全てのバリアントに関する配列活性情報に基づいて、回帰方程式から誘導することができる。バリアント1〜10に関するそのような方程式の例(xに関して1または0の表示を使用)は、下記の通りである: y1=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0)y2=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1) y3=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(0)+c166Phe(0)+c166Leu(1)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(0)+c340Ala(1) y4=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(0)+c166Ile(1)+c175Gly(0)+c175Val(1)+c340Phe(1)+c340Ala(0) y5=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(0)+c166Ile(1)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1) y6=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0) y7=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0) y8=c0+c10Ala(1)+c10Asp(0)+c10Lys(0)+c166Ser(0)+c166Phe(1)+c166Leu(0)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1) y9=c0+c10Ala(0)+c10Asp(0)+c10Lys(1)+c166Ser(1)+c166Phe(0)+c166Leu(0)+c166Ile(0)+c175Gly(1)+c175Val(0)+c340Phe(1)+c340Ala(0) y10=c0+c10Ala(0)+c10Asp(1)+c10Lys(0)+c166Ser(0)+c166Phe(0)+c166Leu(1)+c166Ile(0)+c175Gly(0)+c175Val(1)+c340Phe(0)+c340Ala(1) 方程式の完全セットは、目的の各残基および位置に対応する回帰係数の値を決定するために、任意の適切な回帰技法(例えば、PCR、PLS、またはMLR)を使用して容易に解くことができる。この例において、回帰係数の相対的な大きさは、活性に対する特定の位置での特定の残基の寄与の相対的な大きさに相関する。次いで回帰係数を、ランク付けしするか、またはその他の方法で分類することにより、どの残基が所望の活性に対して良好に寄与する傾向が強いかを決定し得る。表IIは、表Iで具体化された、系統的に変化させられるライブラリーに対応する例示的な回帰係数値を提供する:

回帰係数のランク順序付けされたリストを使用して、所望の活性に関して最適化された(すなわち、改善された適応度)タンパク質バリアントの新しいライブラリーを構成することができる。これは様々な方法で行うことができる。一実施形態において、それは観測値が最も高い係数を有するアミノ酸残基を保持することによって、実現される。これらは、所望の活性に最も寄与することが回帰モデルによって示される残基である。残基を特定するために負の記述子が用いられる場合(例えば、ロイシンに対して1、およびグリシンに対して−1)、係数の絶対値に基づいて残基位置をランク付けすることが必要になる。そのような状況では、典型的には、各残基に対して単一の係数のみ存在することに留意されたい。係数の大きさの絶対値は、対応する残基位置のランク付けを示す。次いで個々の残基の符号が、それらの各々が所望の活性に関して有害であるか有益であるかを決定するために考慮することが必要となる。

ii)非線形モデル 非線形モデリングは、タンパク質中の活性に寄与する残基−残基相互作用を説明するために用いられる。N−Kランドスケープは、この問題を記述する。パラメータNは、関連するポリペプチド配列の収集物における可変残基の数を指す。パラメータKは、これらポリペプチドの任意のものにおける個々の残基間の相互作用を表す。相互作用は、通常、ポリペプチドが1次、2次、または3次構造であろうとなかろうと、様々な残基同士が物理的に非常に近接していることの結果である。相互作用は、直接的相互作用、間接的相互作用、物理化学的相互作用、フォールディング中間体に起因した相互作用、および翻訳効果等に起因し得る。Kauffman, S.およびLevin, S.(1987年)、「Towards a general theory of adaptive walks on rugged landscapes」、Journal of Theoretical Biology 128巻(1号)11〜45頁を参照されたい。

パラメータKは、値K=1の場合、各可変残基(例えば、それらの20個が存在する)が、その配列中の正確に1つのその他の残基と相互作用するよう定義される。全ての残基が、他の全ての残基の作用から物理的および化学的に切り離されている場合、Kの値はゼロである。明らかに、ポリペプチドの構造に応じて、Kは広範な種々の値を有することができる。問題となっているポリペプチドの、厳密に解明された構造により、Kに関する値を推定し得る。しかし、しばしば、そのようにはならない。

ポリペプチド活性の純粋に線形の加算モデル(上述の通り)は、2つ以上の残基間の特定の相互作用を表す1つまたは複数の非線形相互作用項を含めることによって改善することができる。上記にて提示されたモデル形態の文脈において、これらの項は、活性に対して有意な正または負の影響を及ぼすように相互作用する2つ以上の特定の残基(各々、配列中の特定の位置に関連付けられている)を表す2つ以上のダミー変数を含む「外積」として示される。例えば、外積項は形式cabxaxbを有し得、式中、xaは、配列上の特定の位置で特定の残基の存在を表すダミー変数であり、変数xbは、ポリペプチド配列における(最初の位置と相互作用する)異なる位置での特定の残基の存在を表す。モデルの詳細な例の形は、以下に示される。

外積項で表される全ての残基の存在(すなわち、特に同定された位置での、2つ以上の特定タイプの残基の各々)は、ポリペプチドの全体的な活性に影響を及ぼす。その影響は、多くの方法で明らかにすることができる。例えば、個々の相互作用する残基の各々は、ポリペプチド中に単独で存在する場合、活性に対して負の影響を及ぼし得るが、それらがポリペプチド中に存在する場合には、全体の効果が正である。反対のことが、その他の場合に言える。さらに、相乗効果がもたらされる可能性があり、その場合、単独の個々の残基の各々が活性に対して比較的限られた影響を及ぼす場合に、それら全てが存在する場合に、活性に対する効果は、個々の残基全ての累積的効果よりも大きい。

一部の実施形態において、非線形モデルは、配列中の相互作用する可変残基の全ての可能な組合せに関する、外積項を含む。しかしこれは、可変残基の部分セットしか互いに実際に相互作用しないので、物理的現実を表さない。さらに、それは、モデルの生成に使用される特定のポリペプチドの現れであり、ポリペプチド内の実際の相互作用を表さない、誤った結果をもたらすモデルを生成する「過剰適合」をもたらすと考えられる。物理的現実を表しかつ過剰適合を回避するモデルに関する、外積項の正しい数は、Kの値によって示される。例えば、K=1の場合、外積相互作用項の数はNに等しい。

非線形モデルを構成する際、一部の実施形態において、活性に著しい影響を及ぼす真の構造上の相互作用を表す、それらの外積相互作用項を同定することが重要である。これは、項の追加がもはや統計的に有意ではなくなるまで1つずつ候補外積項が初期線形項単独モデルに追加される順加算法、および全ての可能な外積項が初期モデルに提供され、1つずつ除去される逆減算法を含むがこれらに限定されることのない、様々な方法で実現することができる。以下に提示される例証的な例は、段階的な加算および減算技法の使用を含み、有用な非線形相互作用項が同定される。

一部の実施形態において、そのような相互作用項を含む非線形モデルを生成するアプローチは、線形モデルを生成するための上述のアプローチと同じである。言い換えれば、訓練セットを用いてデータをモデルに「適合させる」。しかし、1つまたは複数の非線形項、好ましくは上記にて論じた外積項をモデルに追加する。さらに、得られる非線形モデルは、上述の線形モデルと同様に、ポリペプチドの全体的な活性に対する様々な残基の重要性をランク付けするために用いることができる。様々な技法は、非線形方程式により予測されるような、可変残基の最良の組合せを同定するために使用することができる。残基をランク付けするアプローチを、以下に記載する。一部の実施形態において、僅か2つの残基によって引き起こされる相互作用に限定された場合であっても、可変残基に関する非常に多くの数の可能な外積項を使用する。より多くの相互作用が生ずるにつれ、非線形モデルに考慮される潜在的な相互作用の数は、指数関数的に増大する。モデルが、3つ以上の残基を含む相互作用の可能性を含む場合、潜在的な項の数は、さらに、より素早く増大する。

20個の可変残基がありK=1である(これは、各可変残基が他の1つの可変残基と相互作用すると仮定する)単純な例証的な例において、20個の相互作用項(外積)がモデル内にあるべきである。任意のより少ない相互作用項がある場合、モデルは、相互作用について完全には記述しないことになる(しかし、相互作用のいくつかは、活性に対して著しい影響を及ぼさないこともある)。対照的に、任意のより多くの相互作用項がある場合、モデルはデータセットに過剰適合し得る。この例において、N×(N−1)/2、すなわち190の可能な相互作用の対がある。配列中の20の相互作用について記述する20の固有の対の組合せを見出すことは、約5.48×1026の可能な組合せがあるので、計算上の著しい問題である。

関連ある外積項を同定するために、非常に数多くの技法を用いることができる。問題のサイズおよび利用可能な計算力に応じて、全ての可能な組合せを調査することが可能であり、それによって、データに最も良く適合する1つのモデルが同定される。しかし、しばしば、問題は計算上生じる。従って、一部の実施形態において、効率的な探索アルゴリズムまたはその近似が利用される。本明細書に示される、1つの適切な探索技法は、段階的技法である。しかし本発明は、関連ある外積項を同定するための任意の特定の方法に限定するものではない。

例証的な例を、配列情報から活性を予測するモデルに非線形外積項を組み込む値を示すために、以下の表IIIに提示する。この例は、配列内の各可変位置で2つの残基のオプションしかないことが仮定される、非線形モデルである。この例において、それぞれ+1および−1を使用する、選択肢Aまたは選択肢Bに対応するダミー変数を使用することにより、タンパク質配列がコード配列に投入される。モデルは、各残基選択肢を割り当てるためにどの数値が使用されるかという任意の選択肢に影響されない。表IIIの第1行に示される可変位置は、タンパク質配列の実際の配列位置を示さない。代わりにそれらは、残基選択肢Aおよび残基選択肢Bに関する表IIIの第2および第3行に示される2つのオプションのうちの一つによって変化させられることができる、タンパク質配列中の任意の10個の仮説位置を表す任意の標識である。

このコード化スキームを用いて、タンパク質配列を活性に関連付けるために使用される線形モデルは、下記の通り記述されることができる: y=c1x1+c2x2+c3x3+...+cnxn...+cNxN+c0(方程式3) 式中、yは応答(活性)であり、cnは位置nでの残基選択肢の回帰係数であり、xは位置nで残基選択肢(+1/−1)をコードするダミー変数であり,c0は応答の平均値である)。このモデルの形は、可変残基間に相互作用がないと仮定する(すなわち、各残基選択肢は、独立して、タンパク質の全体的な適応度に寄与する。

非線形モデルは、残基間の相互作用を説明する外積項の(まだ決定されていない)ある特定の数を含む: y=c1x1+c2x2+c3x3+...+cnxn+c1,2x1x2+c1,3x1x3+c2,3x2x3+...+c0(方程式4) 式中、変数は方程式(3)の変数と同じであるが、ここでは非線形項があり、例えばc1,2は、可変位置1と可変位置2との間の相互作用に関する回帰係数である)。

線形および非線形モデルの性能を評価するために、NKランドスケープとして公知の合成データ源を使用した(KauffmanおよびLevin、1987年)。上述のように、Nは、シミュレーションがなされるタンパク質における可変位置の数であり、Kは、残基同士の上位カップリングである。さらに合成データセットは、in silicoで生成された。

このデータセットは、S=40個の合成試料、N=20個の可変位置、およびK=1を有する初期訓練セットを生成するために使用した(繰り返すために、K=1の場合、各可変位置を機能的に別の1つの可変位置に連結する)。ランダム化タンパク質生成する際、各可変位置は、ダミー変数+1または−1を含む均等な確率を有していた。残基−残基相互作用(外積によって表される)および実際の活性は、合成訓練セットの各メンバーに関して既知であった。別のV=100個の試料が、検証で使用するために生成された。この場合も、残基−残基相互作用および活性は、検証セットの各メンバーに関して既知であった。

訓練セットを使用して、線形および非線形モデルの両方を構成した。いくつかの非線形モデルは外積項の選択により生成し、その他の非線形モデルはそのような項の選択なしに生成した。図3A〜Fのモデルは、遺伝的アルゴリズムモデリング法を使用して生成し、一方、図G〜Hに関するモデルは、段階的モデリング法を使用して生成した。線形項のみ有するモデルに対する、線形および非線形項の両方を有するモデルの定量的利点は、遺伝的アルゴリズムと段階的モデリング法とでは異なるが、その結果は、モデリング法とは無関係に、非線形項を持つモデルの一般化可能な利点を示す。事実、本発明は、任意の適切なモデリング法には本発明での用途があるので、任意の特定の方法に限定されるものではない。

上述のS=40の訓練セットサイズでは、線形モデルは、測定値および予測値を十分合理的に相関させることが可能であったが、訓練セットで見られないデータに対して検証した場合、より弱い相関を実証した(図3A参照)。図示されるように、暗色のデータポイントは、線形モデルによりなされた予測に対する、40個の訓練データポイントで観察された活性を表す。明色データポイントは、40個の訓練試料から構成されかつ検証試料Vを予測するために使用された、同じモデルによりなされた予測を表すが、これらは当初の訓練セットでは見られなかったものである。検証セットは、特に以下に記載される非線形ケースに関するモデルの過剰適合の問題に悩まされ得る訓練セットとは対照的に、モデルの真の予測能の良好な尺度を提供する。

上述のS=40訓練セットに関するこの結果は、線形モデルが非線形適応度ランドスケープをモデル化するために使用されたことを考慮すれば、注目に値する。この場合、線形モデルは、せいぜい、所与の残基の選択に関する適応度への平均的な寄与を捕えることができたにすぎない。組合せで考慮される十分な数の平均的寄与があるとすれば、線形モデルは、実際に測定された応答を大まかに予測する。線形モデルの検証結果は、訓練サイズがS=100に増大した場合、僅かに良好であった(図3B参照)。比較的単純なモデルがデータをアンダーフィット(underfit)する傾向は、「バイアス」として公知である。

非線形モデルが、S=40試料のみ使用して訓練された場合、訓練セットのメンバーとの相関は優れていた(図3C参照)。残念ながら、この例証的な例において、モデルは、検証セットで測定された値とのその限定された相関により証明されるように、訓練セット外で限られた予測検出力を提供した。多くの潜在的な変数(おそらく210)を有しかつ適正な外積項の同定を容易にするために限られた訓練データを有するこの非線形モデルは、本質的に、訓練されるデータセットを覚えることのみできた。非常に複雑なモデルがデータに過剰適合するこの傾向は、「分散」として公知である。バイアス分散トレードオフは、マシン学習での基本的な問題を表し、ある形態の検証は、新しいまたは特徴付けられていないマシン学習の問題を取り扱う場合にそれに対処することをほぼ常に求められる。

しかし、図3Dに示されるように、より大きい訓練セット(S=100)を使用して非線形モデルが訓練された場合、非線形モデルは、訓練予測およびより重要なことには検証予測の両方に関して非常にうまく機能した。検証予測は、訓練セットをプロットするために使用される暗色円形によってデータポイントのほとんどが曖昧になるほど、十分正確であった。

比較のため、図3Eおよび3Fは、外積項を慎重に選択することなく調製された非線形モデルの性能を示す。図3Cおよび3Dのモデルとは異なって、全ての可能な外積項が選択された(すなわち、N=20に関して190個の外積項)。これらの図に示されるように、検証セットの活性を予測する能力は、外積項を慎重に選択することにより生成された非線形モデルの場合に比べて比較的不十分である。検証データを予測するこの不十分な能力は、過剰適合を明示している。

図3Gおよび3Hはそれぞれ、in silicoでシミュレーションがなされたデータに関する線形モデルと段階的な非線形モデルとの残余によって示される予測検出力を示す。段階的な非線形モデルは、一般には上述のようにかつより具体的には以下のように実現される。

これらのモデルを試験するために、シミュレーションがなされるデータを生成した。乱数発生器Rを、平均MNおよび標準偏差SDを有する正規分布に基づいて生成した。次いでの一組の10個の変異を定義した。これらの呼称は、M1、M2...M10(この呼称スキームは任意である)であった。このステップは、多様性の生成をシミュレートする。

各変異は、タンパク質配列中の所与の位置でのアミノ酸の変化を表し、各位置は、他の位置から独立している。上記各変異は、R(MN=0、SD=0.2)に基づいて割り当てられたランダムな活性値Aを有していた。上記の6つの変異が選択され、一緒に対にして、3つの対Pにした。これらの対は、変異間の上位相互作用を表した。

活性値APを、R(MN=0、SD=0.2)に基づいて各対Pに割り当てた。50バリアントのライブラリーLを構成し、各バリアントは、乱数個の上記にて定義された変異Mを含んでいた−変異の乱数は、丸めた絶対値R(MN=4、S=0.25)により定義された。このステップは、ライブラリーの構築およびシーケンシングをシミュレートする。

Lにおける各バリアントの活性は、最初に1.0(野生型の定義された活性、変異配列なし)に、各ペアワイズ変異PAからの活性(両方の変異が存在する場合)の値を加え、その後、残りのシングルの変異(A)の値を加えることによって計算した。アッセイのノイズを、各バリアントに関する最終値にR(MN=0、SD=0.005)からのランダム値を加えることによってシミュレートした。このステップは、バリアントのスクリーニングをシミュレートする。

線形モデルLMは、最後のステップからのデータに基づいて構成した。このモデルは10個の独立した変数/係数を含み、各々は、Mのうちの1つの変異を表していた。次いで最小二乗法回帰および上記にて得られたデータを使用して、線形モデルを適合させた。

段階的加算法を使用して、上記にて得られたデータに基づきモデルMMを選択し、ここでベースモデルはLMであり、AICを選択基準として使用し、シングルの変異およびペアワイズ相互作用を表す係数のみ含むモデルを選択した。モデル選択法のさらなる詳細については、以下のモデル選択に関する記載を参照されたい。AICによって選択された最良のモデルを、最小二乗法回帰を使用して適合させた。

線形モデルおよび非線形モデルの予測能を評価するために、上述の手順を20回繰り返した。モデルの予測を、シミュレートされたデータに対してプロットしたが、図3Gは線形モデルを示し、図3Hは段階的非線形モデルを示す。モデルを使用して、上述のシングル変異の値を予測した。この予測は、目的のただ1つの変異を含むバリアントを予測するために、モデルを使用し、1.0(野生型)を差し引くことによって行った。図3Gおよび3Hから明らかなように、非線形モデルは、値をより正確に予測し、線形傾向を有しかつより小さい残余を有する。

iii)モデル選択 一部の実施形態において、段階的加算または減算法を使用して、非線形相互作用項を持つモデルを調製する。図1のブロック107に示される動作を実装することにより、相互作用項を含む高い予測検出力を持つ最終モデルが、ベースモデルからの相互作用項の段階的加算または減算によって提供される。図4Aは、相互作用項をベースモデルに加え、新しいモデルを評価して最終的な最良モデルを生成ることによって、図1のブロック107の動作を実装するフローチャートを提供する。

この例において、ベース配列モデルに相互作用項は含まれない。方法は、まず現行の配列モデルおよび最良の配列モデルをブロック409でベース配列モデルに設定する。方法は、配列バリアントに対する相互作用項のプールを定義する。これらの相互作用項は、2つ以上のアミノ酸残基の、任意の数のペアワイズまたはより高次の相互作用を含み得る。ブロック411を参照されたい。ブロック409はブロック411の前に行われるとして示されているが、2つのステップの順序は重要ではない。一部の実施形態において、相互作用項のプールには、目的の全てのアミノ酸残基の階乗組合せが含まれる。一部の追加の実施形態において、少なくとも全てのペアワイズ相互作用項が含まれる。一部のさらなる実施形態において、ペアワイズおよび三元相互作用項が含まれる。

ベースモデルの生成後、方法は、プールから、まだ試験されていない相互作用項を選択する。次いで方法は、選択された相互作用項を現行の配列モデルに加えることによって、新しい配列モデルを生成する。ブロック413を参照されたい。次いで方法は、追加の相互作用項を含むことに対して否定的な偏りを有するモデル選択法を使用して、新しい配列モデルの予測検出力を評価する。ブロック415を参照されたい。方法は、新しい配列モデルの予測検出力が最良の配列モデルの予測検出力よりも大きいか否かを決定する。決定ブロック417を参照されたい。例として、方法は、モデル選択基準として「尤度」決定(例えば、AIC)を用いる技法を使用し得る。そのような場合、先に試験されたモデルよりも小さいAIC値を有するモデルだけが、より高い予測検出力を有すると見なされる。

一部の実施形態において、選択法は、より多くのパラメータを持つモデルに対する否定的な偏りを伴う。そのような選択法の例には、赤池の情報量基準((AIC))およびベイズ情報量基準((BIC))およびそれらのバリエーションが含まれるが、これらに限定するものではない。例えば、AICは: AIC=−2logeL+2k として計算することができ、式中、Lは、データセットが与えられたモデルの尤度であり、kはモデル内の自由パラメータの数である。

一部の実施形態において、データセットを与えられるモデルの尤度は、最尤法が含まれるがこれに限定されない様々な方法によって計算され得る。例えば、1つの観測に対して活性が存在するまたは存在しないバイナリー従属変数に対して、モデルの尤度を:

として計算することができ、式中、nはデータセットにおけるデータポイントの総数であり;aiおよびbiは、i回目の状態を含む、観測された試験の数であり;pは、モデルにより予測された通り観測された従属変数の確率である。

ベースモデルよりも漸進的に多くの相互作用項(および関連する係数)を持つ回帰モデルとして一連のネステッドモデルを含む一部の実施形態において、余分な係数が偽性の場合であっても、より複雑なモデルが、より単純なモデルに対して等しく良好なまたはより良好な適合を提供するが、それはより複雑なモデルが過度な自由度を享受するからである。一部の実施形態において、AICは、適合度の利得が偽性のパラメータのコストによって相殺されるよりも大きい程度にまで、より複雑なモデルにペナルティーを課す。モデル選択では、より小さい値のAICがより良好なモデルであることを示す。

図4Aに示される例において、新しい配列モデルの予測検出力が最良の配列モデルの予測検出力よりも大きい場合、方法は、新しいモデルを最良のモデルとして設定する。ブロック419を参照されたい。次いで方法は、試験されていない任意の追加の相互作用項が、プール内に残されているかをチェックする。決定ブロック421を参照されたい。もしそうなら、プロセスを元のブロック413に戻し、それによって内側ループを形成して、相互作用プール内で利用可能な利用可能相互作用項の全てを試験する。内側ループの反復を通して、単一の最良の相互作用項を見出すことができ、これをモデルに加えることができる。

全ての相互作用項を試験しかつ内側ループを終了した後、先の最良のモデルよりも大きい予測検出力を有するモデルが存在するなら、1つの追加の相互作用項を有する最良のモデルが同定される。決定ブロック423を参照されたい。そのような実施形態において、方法は、現行モデルを最良モデルに設定し、相互作用項の利用可能なプールから最良モデルの相互作用項を除外する。ブロック425を参照されたい。次いで方法は、元のブロック413にループされる。この外側ループは、モデルの予測検出力を改善することができる次の最良の相互作用項を探索する。そのような相互作用項が見出された場合、次の最良の相互作用項の探索は、先の最良の配列モデルの予測検出力よりも大きい予測検出力を有する新しいモデルが同定されなくなるまで、外側ループで継続される。

モデルを改善する相互作用項をもはや見出すことができない場合、方法は、最良モデルを最終モデルとして設定する。ブロック427を参照されたい。配列データおよび活性データが与えられた最良モデルの探索は、終了する。次いでモデルを使用して、新しい配列の活性を予測する。そのような予測は、さらなるバリエーションおよび試験に対して配列の選択を誘導することができる。

ある特定の実施形態において、相互作用項のプールにおける利用可能な相互作用項の各々は、モデルの品質または予測検出力に、潜在的に等しい影響を及ぼすように処理される。言い換えれば、実装に際し、プール内の利用可能な相互作用項の各々は、特定の反復中に、検討のために等しく選択される可能性がある。一部の実施形態において、利用可能な相互作用項は、ランダムにまたはいくつかの任意の順序で選択される。一部の他の実施形態において、相互作用項は、いくつかの項が所与の反復中に他のものよりも検討のためにより選択され易くなるように、偏りをもたされまたは重み付けられる。偏りまたは重み付けは、ある特定の実施形態において、相互作用に関する物理的または理論的情報に基づいて適用されることができる。例えば、タンパク質の2つの特定領域における変異が互いに物理的に近接する傾向にあり、それによって相互作用することは、公知であり得る。これら2つの一般領域における残基に関する相互作用項は、モデルを精緻化する反復プロセス中に、選択のために偏りをもたされることができる。

図4Aのプロセスに類似したプロセスを示す擬似コードは、下記の通りである: SET Coeff=Interaction Terms to Test Best=Baseline Model count=1 WHILE count>0 count=0 BestFromRound=Best BestCoefficient=NULL FOR each Interaction Term in Coeff TestModel=(best+Interaction Term)1 IF TestModel BETTER THAN BestFromRound THEN2 BestFromRound=TestModel Count++ BestCoefficient=Interaction Term ENDIF ENDFOR IF count>0 THEN Best=BestFromRound Remove BestCoefficient FROM Coeff3 ENDIF ENDWHILE 項目1は、試験相互作用項を回帰モデルに加える 項目2は、モデルの比較を表し、赤池の情報量基準(AIC)、ベイズ情報量基準(BIC)、交差検証(平均誤差)、ANOVA、または係数寄与の1つまたは複数を表す。 項目3は、二重の相互作用項試験を回避するために提供される 図4Bは、図1のブロック107に示される操作の実施形態を示すフローチャートを提供する。このプロセスでは、最終的な最良モデルを生成するために、相互作用項が、項のプールからの全ての可能な相互作用項を含むベースモデルから差し引かれる。

この実施形態において、ベース配列モデルは、定義されたプール内の全ての相互作用項を含む。方法は、まず、ブロック439で、プロセスの開始時、ベース配列モデルに等しくなるように、現行の配列モデルおよび最良の配列モデルを設定する。この実施形態は、相互作用項のプール全体が2つ以上のアミノ酸残基の任意の数のペアワイズまたはより高次の相互作用を含み得る点が、上述の最後のモデルに類似している。一部の実施形態において、相互作用項のプールは、目的である全アミノ酸残基の階乗組合せを含む。

ベースモデルの生成後、方法は、ベースモデルに既に含まれる項のプールから、まだ試験されていない相互作用項を選択する。次いで方法は、選択された相互作用項を現行の配列モデルから差し引くことによって、新しい配列モデルを生成する。ブロック441を参照されたい。次いで方法は、追加の相互作用項に対して否定的な偏りを有するモデル選択法を使用して、新しい配列モデルの予測検出力を評価する。ブロック443を参照されたい。方法は、新しい配列モデルの予測検出力が最良の配列モデルの予測検出力よりも大きいか否かを評価する。ブロック445に示される決定動作を参照されたい。一部の実施形態において、先に試験されたモデルよりも小さいAIC値を有するモデルが、より高い予測検出力を有すると見なされるように、AICをモデル選択基準として使用する。

この例証的な例において、新しい配列モデルの予測検出力が最良の配列モデルの予測検出力よりも大きい場合、方法は、新しいモデルを最良のモデルとして設定する。ブロック447を参照されたい。次に方法は、任意の追加の相互作用項が、試験されていないプール内に残されているか否かをチェックする(すなわち、現行の配列モデルから差し引く)。決定ブロック449を参照されたい。任意の試験されていない項がある場合、方法はブロック441に戻り、それによって内側ループが形成されて、相互作用プール内で利用可能な全ての利用可能相互作用項を試験する。内側ループの反復を通して、単一の相互作用項が同定される。それをモデルから落とすことにより、モデルを最大限に改善する(AICがモデルの予測検出力を測定するために使用される場合、AICは、最大限の差を付けて低下する)。

全ての相互作用項を試験しかつ内側ループが終了した後に、先の最良モデルよりも大きい予測検出力を有するモデルが存在するなら、1つ少ない相互作用項を有する最良モデルが特定される。決定ブロック451を参照されたい。この場合、方法は、現行モデルを最良モデルに設定する。ブロック453を参照されたい。次いで、方法はループをブロック441に戻す。この外側ループは、最大限の差を付けてモデルの予測検出力を改善することができる次の相互作用項を探索する。そのような相互作用項が見出された場合、差し引かれる次の相互作用項の探索は、先の最良の配列モデルの予測検出力よりも大きい予測検出力を有する新しいモデルがもはや同定されなくなるまで、外側ループ内で継続する。

内側ループが終了し、かつモデルを改善するために相互作用項が差し引かれるのをもはや見出すことができない場合(すなわち、ブロック451に示される決定動作が否と答える)、方法は、最後の最良モデルを最終モデルとして設定する。ブロック455を参照されたい。配列データおよび活性データが与えられた最良モデルの探索が終了する。

iv)代替のモデリングオプション 上記アプローチに関する多数の追加のバリエーションが、本開示の範囲内にある。事実、本発明は、任意の適切なモデルには本発明での用途があるので、任意の特定のモデルに限定するものではない。1つの例証的な例として、xij変数は、アミノ酸の物理的または化学的性質を表すものであり−アミノ酸そのものの正確な識別情報を表すものではない(ロイシン対バリン対プロリン...)。そのような性質の例には、親油性、バルク、および電子的性質(例えば、形式電荷、部分電荷に関連するファンデルワールス表面積等)が含まれる。このアプローチを実装するために、アミノ酸残基を表すxij値を、それらの性質またはこれらの性質から構成された主成分に関して提示することができる。本発明は、任意の適切な性質には本発明の方法での用途があるので、アミノ酸、ペプチド、および/またはポリペプチドの任意の特定の性質に限定されるものではない。

一部の追加の実施形態において、xij変数は、アミノ酸残基ではなくてヌクレオチドを表す。これらの実施形態で、目標は、タンパク質バリアントライブラリーのタンパク質をコードする核酸配列を同定することである。アミノ酸ではなくヌクレオチドを使用することにより、所望に応じて、活性(例えば、特異的活性)以外のパラメータを最適化することができる。例えば、特定の宿主またはベクターでのタンパク質の発現は、ヌクレオチド配列の関数であり得る。2つの異なるヌクレオチド配列は、同じアミノ酸配列を有するタンパク質をコードし得るが、ヌクレオチド配列の1つは、より多くの量のタンパク質の生成をもたらし得、および/またはタンパク質はより活性である。アミノ酸配列ではなくヌクレオチド配列を使用することによって、本明細書に記載される方法は、改善された遺伝子発現性および/または改善された性質(例えば、特異的活性、安定性等)を示す微生物の株を最適化するために使用することができる。

一部の実施形態において、ヌクレオチド配列は、コドンの配列として表される。一部の実施形態において、モデルは、予測された活性がヌクレオチド配列中に存在する様々なコドンの関数であるように、ヌクレオチド配列の原子単位としてコドンを利用する。各コドンは、ヌクレオチド配列全体におけるその位置と一緒になって、配列活性モデルを生成するための独立変数として働く。ある場合には、所与のアミノ酸に対する異なるコドンが、所与の生体内で異なって発現することに留意されたい。一部の実施形態において、各生体が、所与のアミノ酸に対して好ましいコドンまたはコドン頻度の分布を有する。独立変数としてコドンを使用することにより、実施形態は、これらの好ましさを説明する。したがって実施形態は、発現バリアントのライブラリーを生成するために使用することができる(例えば、「活性」が、特定の宿主生体の遺伝子発現レベルを含む場合)。

一部の実施形態において、方法は、下記の動作を含む:(a)タンパク質バリアントライブラリーの訓練セットを特徴付けるデータを受信する動作;(b)(a)で得られたデータに基づき、ヌクレオチドのタイプおよびヌクレオチド配列中の対応する位置の関数として活性を予測する、非線形配列−活性モデルを開発する動作;(c)配列−活性モデルを使用して、所望の活性に対する影響の順に、ヌクレオチド配列中の位置および/またはヌクレオチド配列中の特定の位置にあるヌクレオチドのタイプをランク付けする動作;および(d)ランク付けを使用して、所望の活性を改善するために、変化させられる、または固定される、ヌクレオチド配列中の1つまたは複数のヌクレオチドを同定する動作。示されるように、一部の実施形態において、変化させられるヌクレオチドが特定のアミノ酸をコードする。

一部の他の実施形態において、方法は、ある特定の性質に関するそれらの重要性に関して残基をランク付けするためのまたはその他の方法で特徴付けるための、種々の技法の使用を含む。線形モデルに関して上述したように、回帰係数の大きさを使用して残基をランク付けした。係数が大きい残基(例えば、166Ile)は、高ランキング残基と見なした。この特徴付けを使用して、タンパク質バリアントの新しい最適化ライブラリーの生成において特定の残基を変化させるか否かを決定した。非線形モデルの場合、本明細書に記載されるように感度分析はより複雑であった。

PLSおよびその他の技法は、特定の残基または残基位置をランク付けするために使用することができる、回帰係数の大きさを超えた追加の情報を提供する。PLSおよび主成分分析(PCA)またはPCR等の技法は、主成分または潜在ベクトルの形で情報を提供する。これらは、本明細書に開示される本発明の実施形態で用いられるタンパク質配列−活性空間等の多元データセットを通した最大バリエーションの方向またはベクトルを表す。これらの潜在ベクトルは、様々な配列次元、すなわち、訓練セットを構成するために使用されるバリアントライブラリーを含むタンパク質配列を含む個々の残基または残基位置の関数である。したがって潜在ベクトルは、訓練セット中の残基位置の各々からの寄与の合計を含む。いくつかの位置は、ベクトルの方向に、より強力に寄与する。これらは、比較的大きい「負荷」、すなわち、ベクトルを記述するために使用される係数によって明らかにされる。単純な例証的な例として、訓練セットはトリペプチドから構成され得る。この例において、第1の潜在ベクトルが、3つの残基全てからの寄与を含む。 ベクトル1=a1(残基位置1)+a2(残基位置2)+a3(残基位置3) 係数a1、a2、およびa3は、負荷である。これらは対応する残基位置の重要性をデータセット内のバリエーションに反映するので、上述のような「トグリング」決定の目的で個々の残基位置の重要性のランク付けに使用することができる。回帰係数のような負荷は、各トグルされる位置での残基をランク付けするために使用され得る。様々なパラメータは、これら負荷の重要性について記述する。一部の実施形態は、負荷行列を使用するために、投影における変数重要度(VIP)等の方法を利用する。この負荷行列は、訓練セットから得られた多数の潜在ベクトルに関する負荷から構成される。PLS投影法に関する変数重要度において、変数(例えば、残基位置)の重要性はVIPを計算することによって算出される。所与のPLS次元に対して、ある(VIN)ak2は、そのPLS次元によるy(従属変数、例えば、ある特定の関数)のパーセント説明変動性を乗じた変数の平方PLS重み(wak)2に等しい。(VIN)ak2を、全てのPLS次元(成分)上で合計する。次いでVIPを、PLSモデルにより説明されるyの全パーセント変動性で合計を割り、モデルの変数の数を乗じることによって計算する。1より大きいVIPを有する変数は、ある特定の関数(y)と相関させるのに最も関連あるものであり、したがって、トグリングの決定を行う目的で最も高いランク付けがなされる。

多くの実施形態において、本発明は、目的の配列−活性に対するコンビナトリアルライブラリーの変異の影響を同定するために、一般的な線形回帰法を利用する。代替のモデリングオプションおよび技法、例えばベイズ回帰、アンサンブル回帰、ブートストラッピングは、上記の方法と組み合わせてまたは代わりに使用することができる。事実、本発明は、任意の適切な方法には本発明での用途があるので、任意の特定のモデリングオプションおよび/または技法に限定するものではない。

(ベイズ線形回帰) 本発明の一部の実施形態において、ベイズ線形回帰は用途を見出す。この方法は、ベイズ推定の文脈において統計分析を行う線形回帰のためのアプローチである。回帰モデルが正規分布を有する誤差を有する場合、および特定の形の事前の分布が想定される場合、モデルのパラメータの事後確率分布を、ベイズ推定技法を使用して決定することができる。

線形回帰モデルの通常の最小二乗推定法は、ムーア−ペンロース擬似逆行列等の分析計算法を使用して、データの尤度関数に基づいて係数ベクトルおよびモデル誤差を推定する。これは、全ての配列に関する配列−活性関係を表すための十分なデータ観測があることを仮定する、頻度論的アプローチである。しかし、試料の実際の観測は、集団のメンバーの全てを表すためにほとんど十分ではない。これは、試料(または、訓練セット)サイズが限定される場合に特に問題がある。ベイズアプローチでは、試料データを、従来の確率分布の形をした追加の情報で補う。パラメータに関する事前信念を、ベイズの定理に従うデータの尤度関数と組み合わせて、パラメータに関する事後信念をもたらす。事前信念は、演繹的に利用可能なドメインおよび情報に応じて、異なる関数形態をとることができる。

例えば、一部の実施形態において、ベイズ回帰は、モデル適合の前に係数を重み付けるために、事前の情報を使用することができる。一部の実施形態において、定向進化の先のラウンド、例えば親または参照主鎖および先のラウンドで使用される変異の少なくともいくつかを使用して行われたラウンドから得られた配列/活性データを使用して、線形係数を重み付けることができる。さらに、2つ以上の変異間の上位関係の予測を使用して、非線形の相互作用係数を重み付けることができる。このアプローチの主な利点の1つは、モデル予測を方向付けるために事前の情報を含むことである。

事前の情報の供給源の、1つの例証的な例は、参照主鎖に対する多数の変異の各々に対して独立および相互作用項を持つモデルである。一部の実施形態において、データは、バリアント当たり1つの変異を含むバリアントの収集物から得られる。

本発明で用途を見出す事前の情報の追加の例には、ある特定の変異の役割または変異のタイプに関する直観的または物理的な情報が含まれるが、これらに限定するものではない。供給源とは無関係に、事前の情報は、配列と活性との関係の既成概念として働く。

モデルのパラメータを推定するための一部の実施形態において、ベイズの線形回帰は、データを与えられたモデルを適合させるために、ギブスサンプリングまたはメトロポリスアルゴリズム等のモンテカルロシミュレーションを使用する。ギブスサンプリングは、直接サンプリングが難しい場合、ほぼ指定された多変量確率分布から(すなわち、2つ以上のランダム変数の接合確率分布から)のものである、一連の観測を得るためのマルコフチェーンモンテカルロアルゴリズムである。

図5は、バリアントライブラリーの誘導進化におけるベイズ回帰の使用を示すフローチャートである。配列進化の各ラウンドは、配列−活性モデル等の知識により誘導され得る、先のラウンドからの配列に基づく変異を含む。ブロック501にあるような進化のラウンドnでは、例えば、バリアント当たり1つの変異がある。進化の次のまたはn+1のラウンドは、ブロック503に示されるように現行のラウンドである。各バリアントに対して、少なくとも1つの新しい変異があり、バリアント当たり2つ以上の変異になる。ベイズ回帰は、この例証的な例においてこのラウンドで実装される。

ラウンドn+1の配列バリアントは、新しいモデルに関するデータの訓練セットを提供する。新しいモデルは、ブロック507に示されるように、個々の残基に対する線形項のみ含むベースモデル、または全ての可能な相互作用項/係数を含む完全モデルを含むことができる。新しいモデルは、上記にて説明した段階的加算または減算技法を含めた様々な技法によって選択されたモデルを含み得、ブロック505を参照されたい。モデルは、代替として、以下に論じられる遺伝的アルゴリズムまたはブートストラップ技法を使用して選択され得る。これらのモデルは、全て、ラウンドn+1の訓練セットデータからの、現行の/新しいデータに基づく。ベイズ推定技法は、モデルが現行データの確率関数および事前の情報の分布の両方に基づくように、これらのモデルに適用されることができる。事前の情報は、ブロック501により示されるラウンドnにおけるような、配列バリアントの先のラウンドのデータから得ることができる。情報は、ブロック513により示されるように、進化の任意の先のラウンドからの配列−活性データから、またはその他の事前の知識に対する直観から得ることもできる。ブロック509により示されるベイズ回帰モデルは、現行データにより提供された情報および事前の情報に基づいて活性を予測するが、ブロック511を参照されたい。図5は、ラウンドn+1へのベイズ回帰技法の適用を示すだけであるが、それは様々な段階に適用されることができる。やはり本発明は、任意の適切な方法には本発明での用途があるので、図5に提示される特定のステップに限定するものではない。

(アンサンブル回帰) 一部の実施形態において、本発明は、配列−活性モデルを調製するためにアンサンブル回帰技法を利用する。アンサンブル回帰モデルは、いくつかの回帰モデルに基づく。各モデルの予測は、特定の情報量基準(IC)に基づいて重み付けられ、アンサンブルの予測は、それが含む全てのモデルの予測の重み付けられた合計である。一部の実施形態において、モデルの開発は、線形項の全てを含むベースモデルで開始する。後続のモデルは、いくつかまたは全ての可能な組合せで相互作用係数を加えることにより構成される。一部の実施形態において、相互作用係数を段階的プロセスに加える。各モデルをデータに適合させ、ICを生成する。各モデルに対する重み付けはICに基づき、これはICそのものまたは変換バージョン、例えばlog値、負の値等にすることができる。予測は、アンサンブルで各モデルの予測を生成し、各モデルからの予測の加重平均を得ることによりアンサンブル予測を決定することによって、観測に対して行うことができる。完全アンサンブルは、全ての可能なモデルを含むが、それが含むモデルの数またはICのいずれかに基づき閾値を設定することにより、不十分な性能のモデルを除去するようにトリムすることができる。

アンサンブルの構成モデルは、様々な技法を使用して生成することができる。例えば、一部の実施形態において、遺伝的アルゴリズムを使用して構成モデルを生成する。配列/活性データは、その各々がそれ自体の係数セットを有している複数の回帰モデルを生成するために使用される。最良のモデルは、適応度基準(例えば、AICまたはBIC)に従い選択される。これらのモデルを「一致(mate)」させて新しいハイブリッドモデルを生成し、次いでこれらの適応度を評価し、それに応じて選択する。一部の実施形態において、このプロセスを、「計算上の進化」の多数のラウンドに対して繰り返して、最良モデルのアンサンブルを生成する。あるいは、一部の実施形態において、アンサンブル構成成分は、上述のような段階的回帰により生成され、最良のnモデルがアンサンブルを形成するために選択される。

図6は、本発明の実施形態による、配列バリアントの定向進化においてアンサンブル回帰を実装するプロセスのフローチャートを提供する。この実施形態において、アンサンブル回帰技法を、配列進化の多数のラウンドの任意の段階で適用し得る。例えば、ラウンドnで、ブロック601に示される配列バリアントは、ブロック603により示されるように、モデルプールを形成するための様々なモデルに対するデータの訓練セットを提供する。モデルプール内のモデルは、遺伝的アルゴリズムおよび/または段階的選択によって生成されたモデルであり得る。他の実施形態において、モデルプールはn分割交差検証モデルおよび/またはブートストラッピングモデルを含む。一部の実施形態において、AICまたはBIC等の様々なモデル選択基準に基づいて、優れた予測検出力を持つモデルのみが、プールに入るために選択される。

あるいは、またはさらに、一部の実施形態において、モデル選択によってスクリーニングされていないモデルも、モデルプールに入る。一実施形態において、全ての線形および非線形項を持つ全てのモデルがモデルプールに入る。多数の残基および残基の中のさらに多数の階乗相互作用に対して、この実施形態は、非常に計算集約的となり得る。一部の代替の実施形態において、線形項およびペアワイズ相互作用項を含むモデルのみがモデルプールに入る。モデルプールの包含法とは無関係に、アンサンブルモデルは、その構成成分の全ての項を含む。モデルプールは、ベイズモデルであり、この場合は事前の情報をアンサンブルに組み込むことができるモデルを含むがこれに限定するものではない、任意の数のモデルを含むことができる。

一部の実施形態において、アンサンブルは、プール内の各モデルの係数の加重平均に基づいて配列活性を予測し、この重みは、ブロック605により示されるように、対応するモデルの予測検出力によって決定される。

一部の実施形態において、アンサンブル回帰は、下記のワークフローを使用する:(1)空のアンサンブルを提供する;(2)1以上のグループサイズnを選択する;(3)データポイントをサイズnのグループに分類するが、このデータポイントは、返還なしでグループ分けされる;および(4)アンサンブルモデルを調製して、個々および相互作用の係数を予測する。一部の実施形態において、アンサンブルモデルを調製するステップ(4)は、さらに:a)各グループのデータポイントを除去することであって、残りのデータが訓練セットを形成しかつ脱落データが検証セットを形成する、こと;b)段階的回帰を使用して訓練セットを適合させることにより、モデルを調製すること;c)モデルの予測能力の指標を提供する検証セットを使用して、モデルを試験すること;d)モデルを、上述のようにアンサンブルモデルを生成するために使用されるモデルのプールに追加することを含む。

(ブートストラップアプローチ) 所与の反復における考慮中のモデルの予測検出力を特徴付けるためのその他の技法は、本発明で用途を見出す。一部の実施形態において、これらの技法は交差検証またはブートストラップ技法を含む。一部の実施形態において、交差検証は、モデルを生成するために使用される一組の観測を用いるが、観測のいくつかはモデルの強度を評価するために除外する。一部の実施形態において、ブートストラップ技法は、返還を伴って試験される一組の試料を使用することを含む。一部の実施形態において、交差検証またはブートストラッピングにより生成されたモデルは、上述のようなアンサンブルモデルに組み合わせることができる。

一部の追加の実施形態において、方法は、それらの予測される活性に対する寄与の大きさによってだけでなくそれらの予測される寄与の信頼性によっても同様に、残基をランク付けする。ある場合には、研究者は、1つのデータセットから別のセットへのモデルの一般化可能性を懸念する。言い換えれば、研究者は、係数または主成分の値が偽であるか否かを知りたい。交差検証およびブートストラッピング技法は、モデルを様々なデータに一般化可能にする信頼性のレベルを示す尺度を提供する。

一部の実施形態において、ランク付けが大きさと分布との組合せに基づく、より統計的に厳密なアプローチを利用する。これらの実施形態の一部において、非常に大きくかつ緊密な分布を持つ係数は、最高のランク付けを与える。ある場合には、別の係数よりも大きさが小さい1つの係数が、ばらつきが少ないためにより高いランク付けを与えられ得る。このように、一部の実施形態は、大きさ、および標準偏差または分散の両方に基づいて、アミノ酸残基またはヌクレオチドをランク付けする。これを実現するために様々な技法を使用することができる。事実、本発明は、ランク付けするための任意の特定の技法に限定するものではない。ブートストラップp値アプローチを使用する一実施形態について、以下に記載する。

ブートストラップ法を用いる方法の例証的な例を、図7に示す。図7に示すように、方法725はブロック727で開始し、オリジナルデータセットSが提供される。一部の実施形態において、これは上述の訓練セットである。例えば、一部の実施形態において、それは、任意の手法で(例えば、上述のように)出発配列の個々の残基を系統的に変化させることによって生成される。方法725により示される場合では、データセットSが、分析で使用されるM個の異なるデータポイント(アミノ酸またはヌクレオチド配列から収集された活性および配列情報)を有する。

データセットSから、様々なブートストラップセットBが生成される。これらのセットの各々は、セットSから、返還を伴うサンプリングによって得られ、その結果、新しいM個のメンバーのセットが生成され−全てはオリジナルセットSから得られる。ブロック729を参照されたい。「返還を伴う」条件は、オリジナルセットSにバリエーションをもたらす。新しいブートストラップセットBは、時々、Sからの複製試料を含むことになる。ある場合には、ブートストラップセットBは、Sに当初から含まれていたある特定の試料を欠く。

例証的な例として、100個の配列のセットSが提供される。ブートストラップセットBは、オリジナルセットSの100個の配列から100個のメンバー配列をランダムに選択することによって生成される。この方法で使用される各ブートストラップセットBは、100個の配列を含む。このように、いくつかの配列が2回以上選択されかつその他の配列が全く選択されないことが可能である。100個の配列のセットSから生成されたブートストラップセットBを使用して、この方法は次に、モデルを構築する。ブロック731を参照されたい。モデルは、PLS、PCR、SVM、段階的回帰等を使用して、上述のように構築され得る。事実、任意の適切な方法は、モデルの構築に用途を見出すことになることが意図される。このモデルは、係数、またはセットBからの様々な試料に見出される残基もしくはヌクレオチドをランク付けするその他のしるしを提供する。ブロック733に示されるように、これらの係数またはその他のしるしは、後続の使用のために記録される。

次に、決定ブロック735で、この方法は別のブートストラップセットが生成されるべきか否かを決定する。はいの場合、方法はブロック729に戻り、そこで新しいブートストラップセットBを上述のように生成する。いいえの場合、方法は、以下に論じられるブロック737に進む。ブロック735での決定は、それらの値の分布を評価する際に、どれくらい多くの異なる係数値セットが使用されるべきかによって定まる。セットBの数は、正確な統計が生成されるように十分であるべきである。一部の実施形態において、100から1000個のブートストラップセットが調製され分析される。これは、方法725のブロック729、731、および733を約100から1000回通過することによって表される。しかし本発明は、所望の分析に適切な任意の数には用途があるので、ブートストラップセットの任意の特定の数に限定されるものではない。

十分な数のブートストラップセットBが調製され分析された後、決定735は、いいえと答える。次いで示されるように、方法は、ブロック737に進む。そこで、係数(またはモデルによって生成されたその他の指標)の平均および標準偏差を、係数値(例えば、100から1000の値、各ブートストラップセットから1つ)を使用して、各残基またはヌクレオチド(コドンを含む)に対して計算する。この情報から、方法は、t統計量を計算し、測定された値がゼロとは異なっている信頼区間を決定することができる。t統計量から、方法は、信頼区間に対するp値を計算する。この例示的なケースでは、p値が小さくなるほど信頼性が大きくなり、測定された回帰係数がゼロとは異なっている。

p値は、係数または残基の重要性に関するその他の指標における統計的バリエーションを説明することができる、特徴付けの多くの異なるタイプの1つにすぎないことに留意されたい。その例には、回帰係数に対して95パーセント信頼区間を計算し、それに対する95パーセントの信頼区間がラインゼロと交差する考慮中の任意の回帰係数を除外することが含まれるが、これに限定するものではない。基本的に、一部の実施形態において、標準偏差、分散、またはデータ分布のその他の統計的関連尺度を説明する任意の特徴付けは用途を見出す。一部の実施形態において、この特徴付けステップは、係数の大きさについても説明する。

一部の実施形態において、大きい標準偏差が得られる。この大きい標準偏差は、データセットでの不十分な測定、および/またはオリジナルデータセットでの特定の残基もしくはヌクレオチドの限定された表示を含むがこれらに限定するものではない、様々な原因に起因し得る。この後者の場合、いくつかのブートストラップセットは、特定の残基またはヌクレオチドの出現を含まないであろう。そのような場合、その残基の係数の値はゼロであろう。その他のブートストラップセットは、残基またはヌクレオチドの少なくともいくつかの出現を含み、対応する係数の非ゼロ値を与えるであろう。しかしゼロ値を与えるセットは、係数の標準偏差が比較的大きくなるようにする。これは、係数値の信頼性を低減させ、より低いランクをもたらす。しかしこれは、含まれる残基またはヌクレオチドに関して比較的少ないデータしかない場合には、予測されることである。

次に、ブロック739で、方法は、回帰係数(または、その他の指標)を最も低い(最良)p値から最も高い(最悪)p値までランク付けする。このランク付けは、絶対値が大きいほどより大きい標準偏差がゼロから隔たっているという事実により、回帰係数そのものの絶対値に非常に相関している。従って、所与の標準偏差では、回帰係数がより大きくなるにつれてp値はより小さくなる。しかし、絶対的なランク付けは、特に比較的少ししかないデータポイントがセットSで始めるために利用可能である場合、p値法および純粋な大きさ(pure magnitude)法の両方と常に同じであるわけではない。

最後に、ブロック741で示されるように、方法は、ブロック739の動作で観測されたランク付けに基づいて、ある特定の残基を固定し、ある特定の残基をトグルする。これは本質的に、他の実施形態に関する上述のランク付けの同じ使用である。1つのアプローチでは、方法は、最良の残基を固定し(ここでは、最低のp値を持つもの)、その他はトグルする(最高のp値を持つもの)。

この方法725は、in silicoで十分機能することが示されている。さらに、一部の実施形態において、p値ランク付けアプローチは、単一のまたは少しのインスタンス残基を自然に取り扱い:p値は、ブートストラッププロセスにおいてオリジナルデータセットでしばしば現れなかった残基がランダムにピックアップされ難くなるので、一般により高くなる(悪化する)。それらの係数が大きい場合であっても、それらの変動性(標準偏差で測定される)も同様に非常に高いであろう。一部の実施形態において、十分呈示されない残基(すなわち、十分な頻度で見られなかった、またはより低い回帰係数を有している)はライブラリー設計の次のラウンドでのトグリングに良い候補であり得るので、これは望ましい結果である。

(E.モデル予測配列を改変することによる最適化タンパク質バリアントライブラリーの生成) 本発明の目標の1つは、定向進化を通して最適化タンパク質バリアントライブラリーを生成することである。本発明の一部の実施形態は、生成された配列−活性モデルを使用して、タンパク質バリアントの定向進化を誘導する方法を提供する。上記の方法に従い調製され精密化された様々な配列−活性モデルは、タンパク質または生体分子の定向進化を誘導するために適している。プロセスの部分として、方法は、新しいタンパク質バリアントライブラリーを生成するために使用される配列を同定し得る。そのような配列は、上記同定された定義済み残基に対してバリエーションを含み、またはそれらは引き続きそのようなバリエーションを導入するために使用される前駆体である。配列は、タンパク質バリアントの新しいライブラリーを生成するために、変異誘発または組換えをベースにした多様性生成メカニズムを行うことによって、改変され得る。新しいライブラリーは、新しい配列−活性モデルを開発する際に使用され得る。

一部の実施形態において、オリゴヌクレオチド配列または核酸配列の調製は、核酸合成機を使用してオリゴヌクレオチド配列または核酸配列を合成することにより実現される。本発明の一部の実施形態は、定向進化の基本要素として、調製されたオリゴヌクレオチド配列またはタンパク質配列を使用して、定向進化のラウンドを行うことを含む。本発明の様々な実施形態は、組換えおよび/または変異誘発をこれらの基本要素に適用して、多様性を生成することができる。

1つの特定の例として、一部の実施形態は、組換え技法をオリゴヌクレオチドに適用する。これらの実施形態において、方法は、配列−活性モデルの項の係数を評価することによって、定向進化のラウンドのために1つまたは複数の変異を選択することを含む。変異は、モデルにより予測されたタンパク質の活性に対するそれらの寄与に基づいて、特定の位置にある特定のタイプの定義済みアミノ酸またはヌクレオチドの組合せから選択される。一部の実施形態において、変異の選択は、係数のうちの他のものよりも大きいことが決定された1つまたは複数の係数を特定することと、そのように特定された1つまたは複数の係数によって表される、定義された位置にある定義済みアミノ酸またはヌクレオチドを選択することとを含む。一部の実施形態において、配列−活性モデルにより変異を選択した後、方法は、1つまたは複数の変異を含むまたはコードする複数のオリゴヌクレオチドを調製することと、調製されたオリゴヌクレオチドを使用して定向進化のラウンドを行うこととを含む。一部の実施形態において、定向進化技法は、オリゴヌクレオチドを組み合わせかつ/または組み換えることを含む。

本発明の他の実施形態は、組換え技法をタンパク質配列に適用する。一部の実施形態において、方法は、新しいタンパク質配列または新しい核酸配列を同定することと、新しいタンパク質、または新しい核酸配列によってコードされたタンパク質を調製しアッセイすることとを含む。一部の実施形態において、方法はさらに、新しいタンパク質、または新しい核酸配列によってコードされたタンパク質を、さらなる定向進化のための開始ポイントとして使用することを含む。一部の実施形態において、定向進化プロセスは、所望のレベルの活性を有することがモデルによって予測されたタンパク質配列を断片化し組み換えることを含む。

一部の実施形態において、方法は、モデルにより重要であることが予測される個々の変異に基づいて、新しいタンパク質配列または新しい核酸配列を同定しかつ/または調製する。これらの方法は:活性に寄与する定義された位置の定義済みアミノ酸またはヌクレオチドの1つまたは複数が同定されるように、配列−活性モデルの項の係数を評価することによって、1つまたは複数の変異を選択することと;上記選択された1つまたは複数の変異を含む、新しいタンパク質配列または新しい核酸配列を同定することと、新しいタンパク質、または新しい核酸配列によってコードされたタンパク質を、調製しアッセイすることとを含む。

他の実施形態において、方法は、個々の変異ではなく全配列の予測された活性に基づいて、新しいタンパク質配列または新しい核酸配列を同定しかつ/または調製する。これらの実施形態の一部では、方法は、複数のタンパク質配列または複数のアミノ酸配列を、配列−活性モデルに適用することと、複数のタンパク質配列または核酸配列のそれぞれについての配列−活性モデルにより予測された活性値を決定することとを含む。方法はさらに、複数の配列についての配列−活性モデルにより予測された活性値を評価することによって、上記適用された複数のタンパク質配列または複数のアミノ酸配列の中から新しいタンパク質配列または新しい核酸配列を選択することを含む。方法は、新しいタンパク質配列を有するタンパク質、または新しい核酸配列によりコードされたタンパク質を調製しアッセイすることも含む。

一部の実施形態において、単一の最良に予測されるタンパク質を単に合成するのではなく、タンパク質中の各位置での残基の選択における最良の変化の感度分析に基づいてタンパク質のコンビナトリアルライブラリーを生成する。この実施形態において、予測されるタンパク質に関して所与の残基の選択がより感度の高いものであるほど、予測された適応度は大きく変化することになる。一部の実施形態において、これらの感度は最高から最低までであり、感度のスコアは、後続のラウンドでコンビナトリアルタンパク質ライブラリーを生成するために使用される(すなわち、感度に基づいて、それらの残基を組み込むことにより)。線形モデルが使用される一部の実施形態において、感度は、モデル内での所与の残基項に関連した係数のサイズを単純に考慮することによって確認される。しかし、これは非線形モデルの場合に可能ではない。代わりに、非線形モデルを利用する実施形態において、残基感度は、単一残基が「最良」の予測された配列で変化する場合、活性の変化を計算するためにモデルを使用することによって決定される。

本発明の一部の実施形態は、タンパク質配列または核酸配列内の1つまたは複数の位置を選択すること、およびそのように特定された1つまたは複数の位置で飽和変異誘発を行うことを含む。一部の実施形態において、位置は、配列−活性モデルの項の係数を評価して、活性に寄与する定義された位置で定義済みアミノ酸またはヌクレオチドの1つまたは複数を同定することによって選択される。したがって一部の実施形態において、定向進化のラウンドは、配列−活性モデルを使用して選択された位置にあるタンパク質配列上で飽和変異誘発を行うことを含む。1つまたは複数の相互作用項を含むモデルを含む一部の実施形態において、方法は、2つ以上の相互作用残基で同時に変異誘発を適用することを含む。

一部の実施形態において、残基は、それらがランク付けされる順序で考慮される。一部の実施形態において、考慮中の各残基ごとに、プロセスは、その残基を「トグル」するかどうかを決定する。「トグリング」という用語は、最適化ライブラリー内のタンパク質バリアントの配列中の、特定の位置への複数のアミノ酸残基タイプの導入を指す。例えばセリンは、1つのタンパク質バリアント中の位置166に現れてもよく、それに対してフェニルアラニンは、同じライブラリーにおける別のタンパク質バリアントの位置166に現れてもよい。訓練セットのタンパク質バリアント配列間で変化しないアミノ酸残基は、典型的には最適化ライブラリー内で固定されたままである。しかしこれは、最適化ライブラリーにバリエーションがある可能性があるので、常にというわけではない。

一部の実施形態において、最適化されたタンパク質バリアントライブラリーは、特定された「高」ランキングの回帰係数残基(regression coefficient residue)の全てが固定されるように、かつ残りのより低いランキングの回帰係数残基がトグルされるように、設計される。この実施形態の理論的根拠は、「最良」予測タンパク質を取り囲む局所空間が探索されるべきであることである。トグルが導入される開始ポイントの「主鎖」は、モデルによって予測された最良のタンパク質、および/またはスクリーニングされたライブラリーからの既に検証された「最良」のタンパク質であり得ることに留意されたい。事実、開始ポイントの主鎖は任意の特定のタンパク質に限定するものではない。

代替の実施形態において、特定された高ランキングの回帰係数残基の少なくとも1つまたは複数であるが全てではないものが、最適化ライブラリー内で固定され、その他はトグルされる。このアプローチは、一度に非常に多くの変化を組み込むことによって、その他のアミノ酸残基の状況を劇的に変化させないことが望まれる場合、一部の実施形態で推奨される。この場合も、トグリングの開始ポイントは、モデルによって予測されるような残基の最良のセット、既存のライブラリーからの最良の検証済みのタンパク質、または充分にモデル化する「平均」クローンであり得る。後者の場合、より高い重要性を持つことが予測された残基をトグルすることが望ましいと考えられるが、それはより大きい空間を、サンプリングから事前に省かれた活性ヒル(activity hill)の探索で調査すべきだからである。このタイプのライブラリーは、後続のラウンドに関してより洗練された画像を生成するので、ライブラリー生成の早期のラウンドにおいて典型的にはより妥当である。開始ポイントの主鎖も、任意の特定のタンパク質に限定するものではない。

上記実施形態のいくつかの代替例は、どの残基をトグルするかを決定する際に、残基の重要性(ランク付け)を使用するための異なる手順を含む。1つのそのような代替の実施形態において、より高いランク付けの残基位置が、トグリングをより積極的に支持する。このアプローチに必要な情報には、訓練セットからの最良のタンパク質の配列、PLSまたはPCR予測最良配列、およびPLSまたはPCRモデルからの残基のランキングが含まれる。「最良」のタンパク質は、データセットにおける、ウェットラボで検証された「最良」のクローンである(すなわち、交差検証での予測値の比較的近くに包含されるという理由で、依然として十分モデル化される、最高の一様な機能(the highest measured function)を持つクローン)。方法は、このタンパク質からの各残基を、所望の活性の最高値を有する「最良予測」配列からの対応する残基と比較する。最高負荷または回帰係数を持つ残基が「最良」クローン内に存在しない場合、方法は、その位置を、後続のライブラリーのためのトグル位置として導入する。残基が最良クローン内に存在する場合、方法は、その位置をトグル位置として処理せず、連続して次の位置に移動させる。プロセスを、様々な残基に関して繰り返し、十分なサイズのライブラリーが生成されるまで、連続してより低い負荷値を移動する。

一部の実施形態において、保持される回帰係数残基の数およびトグルされる回帰係数残基の数を変化させる。どの残基をトグルしかつどれを保持するかの決定は、所望のライブラリーサイズ、回帰係数間の差の大きさ、および非線形性が存在すると考えられる程度を含むがこれらに限定するものではない様々な因子に基づく。小さい(ニュートラル)係数を持つ残基の保持は、後続の進化のラウンドで重要な非線形性を明らかにする可能性がある。一部の実施形態において、最適化タンパク質バリアントライブラリーは、約2N個のタンパク質バリアントを含有し、ここでNは、2つの残基間でトグルされた位置の数を表す。別の方法で記述されるように、それぞれ追加のトグルにより付加された多様性は、ライブラリーのサイズを2倍にし、その結果、10個のトグル位置がほぼ1,000個のクローン(1,024)を生成し、13個の位置がほぼ10,000個のクローン(8,192)を生成し、20個の位置ンがほぼ1,000,000クローン(1,048,576)を生成する。適切なライブラリーサイズは、例えば、スクリーンのコスト、ランドスケープの凹凸、好ましい割合の空間のサンプリング(prefered percentage sampling of space)等の因子に依存する。ある場合には、比較的大きな数の変化した残基が、クローンの過度に大きなパーセンテージが非機能性であるライブラリーを生成することがわかった。したがって、一部の実施形態において、トグリングのための残基の数が約2から約30に及び;すなわち、ライブラリーのサイズは約4から230〜109クローンの間に及ぶ。

さらに、様々な後続のラウンドのライブラリー戦略は、より挑戦的ないくつかの戦略(より「有益な」残基を固定する)およびより保存的なその他の戦略(より徹底的に空間を調査する目的で、より少ない「有益な」残基を固定する)と同時に利用されることが企図される。

一部の実施形態において、ほとんど天然に生ずるまたはそうでない場合には首尾良く得られたペプチドに生じる、グループまたは残基または「モチーフ」を、同定しかつ/または保存するが、それは、それらがタンパク質の機能性(例えば、活性、安定性等)で重要となり得るからである。例えば、可変位置3のIleは、天然に生ずるペプチドにおける可変位置11でValと常にカップリングすることを見出し得る。したがって、一実施形態において、そのようなグループの保存が任意のトグリング戦略で求められる。言い換えれば、唯一受け入れられるトグルは、ベースタンパク質での特定のグループ分けを保存するトグル、または活性タンパク質でも見出される異なるグループ分けを生成するトグルである。後者の場合、2つ以上の残基をトグルすることが必要である。

一部の追加の実施形態において、現行の最適化ライブラリーにおいて、ウェットラボで検証された「最良」(または数個の最良のものの1つ)のタンパク質(すなわち、依然として十分モデル化される、すなわち交差検証での予測値に比較的近くに包含される、最高の、または数個の最高の一様の機能の1つを持つタンパク質)は、様々な変化が組み込まれる主鎖として働く。別のアプローチでは、十分モデル化できない現行のライブラリーにおいて、ウェットラボで検証された「最良」の(またはいくつかの最良のものの1つ)タンパク質は、様々な変化が組み込まれる主鎖として働く。いくつかのその他のアプローチでは、所望の活性の最高値(または最高値の1つ)を有することが配列−活性モデルにより予測される配列は、主鎖として働く。これらのアプローチでは、「次世代」ライブラリー(およびおそらくは対応するモデル)のデータセットが、最良のタンパク質の1つまたは数種の残基を変更することによって得られる。一実施形態において、これらの変化は、主鎖に、残基の系統的バリエーションを含む。ある場合には、変化には、様々な変異誘発、組換え、および/または部分配列選択技法が含まれる。これらの各々は、in vitro、in vivo、および/またはin silicoで行ってもよい。事実、本発明は、任意の適切なフォーマットには用途があるので、任意の特定のフォーマットに限定するものではない。

一部の実施形態において、線形モデルによって予測される最適な配列を上記の検査によって同定することができるが、同様のことは、非線形モデルには当てはまらない。ある特定の残基は、線形項および外積項の両方で現れ、活性に対するそれらの全体的な作用は、その他の残基の多くの可能な組合せの文脈において、問題になる可能性がある。したがって、非線形モデルの外積項の選択と同様に、非線形モデルによって予測される最適な配列は、全ての可能性ある配列をモデルで試験することによって(十分な計算資源を仮定する)、または段階的アルゴリズム等の探索アルゴリズムを利用することによって、同定することができる。

一部の実施形態において、上記のように同定されたコンピュータ進化型タンパク質に含まれる情報を使用して、新規なタンパク質を合成し、それらを物理的アッセイで試験する。実際のウェットラボで決定された適応度関数の正確なin silico表示により、研究者は、進化のサイクル数および/またはラボ内でスクリーニングする必要があるバリアントの数を低減させることが可能になる。一部の実施形態において、最適化タンパク質バリアントライブラリーを、本明細書に記載される組換え法を使用して、あるいは遺伝子合成法により、その後、in vivoまたはin vitroで発現させることによって、生成する。一部の実施形態において、最適化タンパク質バリアントライブラリーを所望の活性に関してスクリーニングした後、それらをシーケンシングする。図1および2の考察において上記に示したように、最適化タンパク質バリアントライブラリーからの活性および配列情報を用いて、別の配列−活性モデルを生成することができ、そこから、本明細書に記載される方法を使用してさらなる最適化ライブラリーを設計することができる。一実施形態において、この新しいライブラリーからのタンパク質の全てを、データセットの部分として使用する。

(III.デジタル装置およびシステム) 明らかなように、本明細書に記載される実施形態は、命令の制御下で動作するプロセス、および/または1つ以上のコンピュータシステムの内部に記憶されまたはそれを通して転送されるデータを用いる。本明細書に開示される実施形態は、これらの動作を行うための装置にも関する。一部の実施形態において、装置は、必要とされる目的のために特別に設計されかつ/または構成され、あるいは、コンピュータに記憶されたコンピュータプログラムおよび/またはデータ構造によって選択的に活性化されまたは再構成される汎用コンピュータであり得る。本発明により提供されるプロセスは、任意の特定のコンピュータまたはその他の特殊な装置に本来関係しない。特に、様々な汎用マシンには、本明細書の教示により書かれたプログラムで用途がある。しかし、一部の実施形態において、必要な方法操作を行うために専用の装置を構成する。様々なこれらのマシンの、特定の構造の一実施形態について、以下に記載する。

さらに、本発明のある特定の実施形態は、様々なコンピュータで実現される操作を行うためのプログラム命令および/またはデータ(データ構造を含む)を含む、コンピュータ読み取り可能な媒体またはコンピュータプログラム製品に関する。コンピュータ読み取り可能な媒体の例には、磁気媒体、例えば、ハードディスク、フロッピー(登録商標)ディスク、磁気テープ;光学媒体、例えば、CD−ROMデバイスおよびホログラフィックデバイス;光磁気媒体;半導体メモリーデバイス;およびプログラム命令を記憶し行うよう特別に構成されたハードウェアデバイス、例えば、読み取り専用メモリーデバイス(ROM)およびランダムアクセスメモリ(RAM)、特定用途向け集積回路(ASIC)、およびプログラム可能論理デバイス(PLD)が含まれるが、これらに限定するものではない。データおよびプログラム命令は、搬送波またはその他の輸送媒体(例えば、光回線、電線、および/またはエアウェーブ)に具体化され得る。事実、本発明は、コンピュータで実現される操作を行うための命令および/またはデータを含む、任意の特定のコンピュータ読み取り可能な媒体または任意のその他のコンピュータプログラム製品に限定するものではない。

プログラム命令の例には、コンパイラーによって生成されるような低レベルコード、およびインタープリターを使用してコンピュータにより実行され得る高レベルコードを含むファイルが含まれるが、これらに限定するものではない。さらに、プログラム命令には、機械コード、ソースコード、および本発明による計算機の動作を直接または間接的に制御する任意のその他のコードが含まれるが、これらに限定するものではない。このコードは、入力、出力、計算、条件付き、分岐、反復ループ等を指定し得る。

1つの例証的な例において、本明細書に開示される方法を具体化するコードは、適切に構成されたコンピュータデバイスにロードされた場合、このデバイスに1つまたは複数の文字列上でシミュレートされた遺伝的操作(GO)を行わせる、論理命令および/またはデータを含む固定媒体または伝達性プログラムコンポーネントにおいて具体化される。図8は、例示的なデジタルデバイス800であり、媒体817、ネットワークポート819、ユーザー入力キーボード809、ユーザー入力811、またはその他の入力手段からの命令を読み取ることができる論理的装置を示す。装置800はその後、データスペースにおける統計的な操作を指示する命令を使用して、例えば1つまたは複数のデータセットを構成することができる(例えば、データスペースの代表的な複数のメンバーを決定するために)。開示される実施形態を具体化することができる論理的装置の1つのタイプは、CPU807と、任意選択のユーザー入力デバイスであるキーボード809と、GUIポインティングデバイス811とを含むコンピュータシステム800と同様のコンピュータシステム、ならびに周辺構成要素、例えば、ディスクデバイス815およびモニター805(GO改変文字列を表示し、ユーザーによって、そのような文字列のサブセットの簡易化選択を提供する)である。固定媒体817は、必要に応じて、全システムをプログラムするために使用され、例えばディスク型の光学もしくは磁気媒体またはその他の電子記憶要素を含むことができる。通信ポート819は、このシステムをプログラムするために使用することができ、任意のタイプの通信接続を表すことができる。

一部の実施形態において、本開示は、1つまたは複数のプロセッサと;システムメモリと;1つまたは複数のプロセッサにより実行されると、コンピュータシステムに、生物分子の定向進化を行う方法を実装させるコンピュータ実行可能命令を記憶した1つ以上のコンピュータ読み取り可能な記憶媒体とを含む、コンピュータシステムを提供する。一部の実施形態において、方法は:(a)複数の生物分子に対する配列データおよび活性データを受け取ることと;(b)配列データおよび活性データからベースモデルを調製することであって、ベースモデルが、配列のサブユニットの存在または非存在に応じて活性を予測することと;(c)少なくとも1つの新たな相互作用項をベースモデルに加算またはそれから減算することにより、少なくとも1つの新たなモデルを調製することであって、新たな相互作用項が、2つ以上の相互作用するサブユニットの間の相互作用を表すことと;(d)サブユニットの存在または非存在の関数として活性を予測する少なくとも1つの新たなモデルの能力を決定することと;(e)(d)において決定される活性を予測する少なくとも1つの新たなモデルの能力に基づき、追加の相互作用項を含むことに対する否定的な偏りを伴って、新たな相互作用項をベースモデルに加算すべきかまたはそれから減算すべきかを決定することとを含む。

ある特定の実施形態は、特定用途向け集積回路(ASIC)またはプログラム可能論理デバイス(PLD)の回路内で具体化することもできる。そのような場合、実施形態は、ASICまたはPLDを生成するために使用することができるコンピュータ読み取り可能な記述子言語で実現される。本発明の一部の実施形態は、PDA、ラップトップコンピュータシステム、ディスプレー、画像編集設備等、様々なその他のデジタル装置の回路または論理的プロセッサ内で実装される。

一部の実施形態において、本発明は、コンピュータシステムの1つまたは複数のプロセッサによって実行されると、コンピュータシステムに、所望の活性に影響を与える生物分子を同定する方法を実施させるコンピュータ実行可能命令を記憶した1つ以上のコンピュータ読み取り可能な記憶媒体を含むコンピュータプログラム製品に関する。そのような方法は、図および擬似コードにより包含されるような、本明細書に記載される任意の方法である。一部の実施形態において、方法は、複数の生体分子の配列データおよび活性データを受け取り、配列データおよび活性データからベースモデルおよび改善されたモデルを調製する。一部の実施形態において、モデルは、配列のサブユニットの存在または非存在の関数として活性を予測する。

本発明の一部の実施形態において、コンピュータプログラム製品により実装される方法は、少なくとも1つの新たな相互作用項をベースモデルに加算またはそれから減算することによって、少なくとも1つの新たなモデルを調製し、この新たな相互作用項は、2つ以上の相互作用するサブユニットの間の相互作用を表すものである。一部の実施形態において、方法は、少なくとも1つの新たなモデルがサブユニットの存在または非存在の関数として活性を予測する能力を決定する。方法は、上記にて決定されたようにかつ追加の相互作用項を含むことに対する否定的な偏りを伴って、少なくとも1つの新たなモデルが活性を予測する能力に基づき、新たな相互作用項をベースモデルに加算すべきかまたそれから減算すべきかについても決定する。

前述では、明瞭さと理解を目的にいくらか詳細に記載してきたが、本開示の真の範囲から逸脱することなく形式上および詳細に様々な変更を行うことができることが、本開示を読み取ることから当業者に明らかにされよう。例えば、上述の全ての技法および装置は、様々な組合せで使用され得る。本出願に引用される全ての刊行物、特許、特許出願、またはその他の文書は、個々の刊行物、特許、特許出願、またはその他の文書のそれぞれが個々に全ての目的で参照により組み込まれることを示すかのように同じ程度まで、全ての目的でその全体が参照により組み込まれる。

QQ群二维码
意见反馈