And use thereof for producing a peptide library |
|||||||
申请号 | JP2009553040 | 申请日 | 2008-03-04 | 公开(公告)号 | JP5371786B2 | 公开(公告)日 | 2013-12-18 |
申请人 | サノフイ; | 发明人 | エーファ・ユンク; マンフレート・ヘントリッヒ; | ||||
摘要 | Screening libraries of peptides in different assays offers an opportunity to simultaneously interrogate intracellular signaling pathways, create reagents to further the understanding of the pathway, and to create novel forms of therapies. Many, if not all, biologically active peptides (e.g. peptide hormones) have profound effects both in health and disease, either by growth stimulating roles, growth inhibitory roles, or the regulation of critical metabolic pathways. The present invention is directed to novel bioactive peptides, an in silico method to identify these peptides and a peptide library containing these peptides. | ||||||
权利要求 | コンピュータベースのシステムにおいて、バイナリサポートベクターマシン(SVM)ベースのアルゴリズムを使用して生物活性ペプチドを同定するための方法であり、該方法は以下の工程: a)生物活性ペプチドと非生物活性ペプチドを識別することを学習するためにSVMアルゴリズムをトレーニングすること、 該トレーニングは、以下の工程を包含する: a 1 )標識された既知の生物活性ペプチドおよび標識された既知の非生物活性ペプチドのセットについて、49の次元でベクターを生成すること、各次元は、分子ディスクリプタ値の計算によりもたらされ、該標識によりペプチドがそれぞれ生物活性または非生物活性のいずれであるのかが示される; a 2 )工程a 1 )で生成されたベクターのデータをSVMベースのアルゴリズムに転換すること、該アルゴリズムは、生物活性ペプチドおよび非生物活性ペプチドのそれぞれに対応するベクターを分離する最適な超平面を計算する; b)公表されているヒトタンパク質データベースからタンパク質配列を提供すること; c)計算法を使用して、工程b)で提供されたタンパク質配列内の二次構造および切断部位を予測すること;7つの分子ディスクリプタのセットをペプチドフラグメントの生成をもたらす該予測工程に基づいて計算する; d)工程c)で生成されたペプチドフラグメントの物理化学的特性に対応する42の分子ディスクリプタのセットを計算すること; e)工程c)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの49−次元−ベクターの次元1〜7を生成し、そして工程d)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの該ベクターの次元8〜49を生成すること; f)工程e)で生成されたベクターを工程a)からのトレーニングされたSVMアルゴリズムに提示し、工程a 2 )で計算された超平面から各ベクターへの距離を測定すること; およびg)工程f)で測定された距離に従って、生物活性ペプチドまたは非生物活性ペプチドに各ペプチドフラグメントを分類することを包含する、方法。 工程e)で生成された次元1〜7が以下:次元1:N末端ProPスコア;次元2:N末端Hmcutスコア;次元3:N末端フラグメント;次元4:C末端ProPスコア;次元5:C末端Hmcutスコア;次元6:C末端Hamidスコア;次元7:C末端フラグメントであり;そして工程e)で生成された次元8〜49が以下:次元8:1ポリペプチドあたりの酸性アミノ酸(E、N、Q)の割合;次元9:1ポリペプチドあたりの正電荷のアミノ酸(R、H)の割合;次元10:1ポリペプチドあたりの芳香族アミノ酸(F、Y、W)の割合;次元11:1ポリペプチドあたりの脂肪族アミノ酸(G、V、A、I)の割合;次元12:1ポリペプチドあたりのプロリンの割合;次元13:1ポリペプチドあたりの反応性アミノ酸(S、T)の割合;次元14:1ポリペプチドあたりのアラニンの割合;次元15:1ポリペプチドあたりのシステインの割合;次元16:1ポリペプチドあたりのグルタミン酸の割合;次元17:1ポリペプチドあたりのフェニルアラニンの割合;次元18:1ポリペプチドあたりのグリシンの割合;次元19:1ポリペプチドあたりのヒスチジンの割合;次元20:1ポリペプチドあたりのイソロイシンの割合;次元21:1ポリペプチドあたりのアスパラギンの割合;次元22:1ポリペプチドあたりのグルタミンの割合;次元23:1ポリペプチドあたりのアルギニンの割合;次元24:1ポリペプチドあたりのセリンの割合;次元25:1ポリペプチドあたりのトレオニンの割合;次元26:1ポリペプチドあたりの非標準アミノ酸の割合;次元27:1ポリペプチドあたりのバリンの割合;次元28:1ポリペプチドあたりのトリプトファンの割合;次元29:1ポリペプチドあたりのチロシンの割合;次元30:システイン含有量;次元31:1ポリペプチドあたりのコイル状の二次構造の割合;次元32:1ポリペプチドあたりのらせん状の二次構造の割合;次元33:1ポリペプチドあたりのランダム二次構造の割合;次元34:N末端切断部位周囲の構造についてのスコア;次元35:C末端切断部位周囲の構造についてのスコア;次元36:1ポリペプチドあたりのらせん状ブロックの数;次元37:ポリペプチドの等電点;次元38:ポリペプチドの平均分子量;次元39:ポリペプチド内の各アミノ酸のファンデルワールス力の合計;次元40:ポリペプチド内の各アミノ酸の疎水性値の合計;次元41〜48:1ポリペプチドあたりの疎水性、立体的特性、および電子物性の主成分スコアベクターに基づいて計算された平均値;次元49:ポリペプチドの長さである、請求項1に記載の方法。 前記工程b)からのタンパク質配列が、ヒトセクレトームにおいて見出される天然のタンパク質配列のみである、請求項1または2に記載の方法。 前記生物活性ペプチドが、前駆体ホルモンから誘導される生物活性ペプチドホルモンである、請求項1〜3のいずれか1項に記載の方法。 ポリペプチド製剤、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するための、請求項1〜4のいずれか1項に記載の方法。 バイナリサポートベクターマシン(SVM)ベースの方法を使用して生物活性ペプチドを同定するように設定された計算デバイスであり、該計算デバイスは前記バイナリサポートベクターマシン(SVM)ベースの方法を実行し、該方法は以下の工程: a)生物活性ペプチドと非生物活性ペプチドを識別することを学習するためにSVMアルゴリズムをトレーニングすること、 該トレーニングは、以下の工程を包含する: a 1 )標識された既知の生物活性ペプチドおよび標識された既知の非生物活性ペプチドのセットについて、49の次元でベクターを生成すること、各次元は、分子ディスクリプタ値の計算によりもたらされ、該標識によりペプチドがそれぞれ生物活性または非生物活性のどちらかであることが示される; a 2 )工程a 1 )で生成されたベクターのデータをSVMベースのアルゴリズムに転換すること、該アルゴリズムは、生物活性ペプチドおよび非生物活性ペプチドのそれぞれに対応するベクターを分離する最適な超平面を計算する; b)公表されているヒトタンパク質データベースからタンパク質配列を提供すること; c)計算法を使用して、工程b)で提供されたタンパク質配列内の二次構造および切断部位を予測すること;7つの分子ディスクリプタのセットをペプチドフラグメントの生成をもたらす該予測工程に基づいて計算する; d)工程c)で生成されたペプチドフラグメントの物理化学的特性に対応する42の分子ディスクリプタのセットを計算すること; e)工程c)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの49−次元−ベクターの次元1〜7を生成し、そして工程d)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの該ベクターの次元8〜49を生成すること; f)工程e)で生成されたベクターを工程a)からのトレーニングされたSVMアルゴリズムに提示し、工程a 2 )で計算された超平面から各ベクターへの距離を測定すること; およびg)工程f)で測定された距離に従って、生物活性ペプチドまたは非生物活性ペプチドに各ペプチドフラグメントを分類することを包含する、上記計算デバイス。 |
||||||
说明书全文 | 本発明は、計算生化学分野およびコンピュータにより補助される生物活性ペプチドの設計に関する。 本発明は、生物学的配列分析、バイオインフォマティクスデータマイニング、情報表現および管理学習を使用する分類アルゴリズムに使用される方法を組み合わせる。 さらに、ペプチドライブラリの設計および生物医学研究のための生物活性ペプチドの使用に関する。 今日の創薬の主要目的は、臨床での実用的である生物活性分子を同定することである。 全部ではないが多くの生物活性ペプチド(例えば、ペプチドホルモン)は、増殖刺激的役割、増殖抑制的役割、または非常に重要な代謝経路の制御のいずれかにより、健康および疾患の両方に大きな影響を与える。 ペプチドホルモンは、異なる細胞型および腺、ニューロン、腸、脳などのような器官中で前駆体として製造される。 ペプチドホルモンは、始めに大きな前駆体、すなわちプロホルモンとして合成され、そしてERおよびゴルジ層板を介する輸送の間に、多くの翻訳後修飾を受け得る。 これらは処理され、そして活性成分(一次メッセンジャー)として作用するようにそれらの終点に輸送され、細胞表面の受容体に結合することにより、細胞応答を誘発する。 ペプチドライブラリは、生物活性ペプチド(抗菌ペプチド、受容体アゴニストおよびアンタゴニスト、細胞表面受容体のリガンド、タンパク質キナーゼ阻害剤および基質、T細胞エピトープ、MHC分子に結合するペプチドならびに受容体結合部位のペプチドミモトープを含む)を同定するのに首尾よく使用されている。 ペプチドライブラリは、遺伝子および合成ベースのライブラリ中のそれらの起点に従って分類され得る(非特許文献1)。 遺伝子ベースのライブラリにおいて、ポリペプチド内の組み合わせ位置は、標的ポリペプチドの配列をエンコードするDNAレベルで導入され、多様化される。 遺伝子ベースのライブラリと対照的に、合成ライブラリは、化学合成のレベルでそれらの多様化を達成する。 多くのペプチドライブラリは、1骨格に基づくか、または異なるポリペプチドの一次構造を生成するためにランダム組み合わせ方法を使用する。 両方の方法の不利点は、20の天然のアミノ酸の組み合わせが、最も変化しやすく、そして非常に多数の異なる構造からなるポリペプチドの構成を可能にすることである。 どのくらいの数の異なる構造が得られ得るか一例を挙げると、4つのアミノ酸のみを含むペプチドについて160.000の異なる一次構造の可能性が考えられる。 C. Falciani, L. Lozzi, A. Pini, L. Bracci;" Bioactive Peptides from Libraries ";Chemistry & Biology,Volume 12,Issue 4, Pages 417-426, 2005 本発明の目的は、先行技術の問題を解決することである。 本発明は、生物情報ストラテジーを使用する新規な生物活性ペプチドホルモンライブラリを構築するための方法に関する。 サポートベクターマシン(SVM)アルゴリズムを使用して、生物活性ペプチドを同定する。 この方法は、保存タンパク質特性およびペプチドホルモン前駆体中に存在する短いモチーフを利用することにより、ヒトプロテオームをコンピュータ内で検索して、可能性ある生物活性ペプチドホルモンを見出すことを可能にする。 それらの特徴はペプチドホルモンに共通しており、そしてそれらの成熟に関与する一方で、意外にも、タンパク質配列レベル単独に対するデータベース検索(例えば、BLAST、FASTA)が可能となるペプチドホルモン前駆体間の配列類似性は極わずかしかない。 しかし、共起タンパク質特性およびペプチドホルモン前駆体における翻訳後修飾のためのモチーフの組み合わせ(例えば、前駆体の短いタンパク質配列の長さ、シグナルペプチド、ジスルフィド結合、アミド化部位、硫酸化部位、グリコシル化部位など)を使用して、高特異性を有する新規なペプチドホルモンを見出すことができる。 発明の要旨 本発明の1つの要旨は、コンピュータベースのシステムにおいて、バイナリーサポートベクターマシン(SVM)ベースのアルゴリズムを使用して、生物活性ペプチドを同定するための方法に関し、ここで: 一般に、工程e)で生成された次元1〜7が以下:次元1:N末端ProPスコア;次元2:N末端Hmcutスコア;次元3:N末端フラグメント;次元4:C末端ProPスコア;次元5:C末端Hmcutスコア;次元6:C末端Hamidスコア;次元7:C末端フラグメントであり;そして工程e)で生成された次元8〜49が以下:次元8:1ポリペプチドあたりの酸性アミノ酸(E、N、Q)の割合;次元9:1ポリペプチドあたりの正電荷のアミノ酸(R、H)の割合;次元10:1ポリペプチドあたりの芳香族アミノ酸(F、Y、W)の割合;次元11:1ポリペプチドあたりの脂肪族アミノ酸(G、V、A、I)の割合;次元12:1ポリペプチドあたりのプロリンの割合;次元13:1ポリペプチドあたりの反応性アミノ酸(S、T)の割合;次元14:1ポリペプチドあたりのアラニンの割合;次元15:1ポリペプチドあたりのシステインの割合;次元16:1ポリペプチドあたりのグルタミン酸の割合;次元17:1ポリペプチドあたりのフェニルアラニンの割合;次元18:1ポリペプチドあたりのグリシンの割合;次元19:1ポリペプチドあたりのヒスチジンの割合;次元20:1ポリペプチドあたりのイソロイシンの割合;次元21:1ポリペプチドあたりのアスパラギンの割合;次元22:1ポリペプチドあたりのグルタミンの割合;次元23:1ポリペプチドあたりのアルギニンの割合;次元24:1ポリペプチドあたりのセリンの割合;次元25:1ポリペプチドあたりのトレオニンの割合;次元26:1ポリペプチドあたりの非標準アミノ酸の割合;次元27:1ポリペプチドあたりのバリンの割合;次元28:1ポリペプチドあたりのトリプトファンの割合;次元29:1ポリペプチドあたりのチロシンの割合;次元30:システイン含有量;次元31:1ポリペプチドあたりのコイル状の二次構造の割合;次元32:1ポリペプチドあたりのらせん状の二次構造の割合;次元33:1ポリペプチドあたりのランダム二次構造の割合;次元34:N末端切断部位周囲の構造についてのスコア;次元35:C末端切断部位周囲の構造についてのスコア;次元36:1ポリペプチドあたりのらせん状ブロックの数;次元37:ポリペプチドの等電点;次元38:ポリペプチドの平均分子量;次元39:ポリペプチド内の各アミノ酸のファンデルワールス力の合計;次元40:ポリペプチド内の各アミノ酸の疎水性値の合計;次元41〜48:1ポリペプチドあたりの疎水性、立体的特性、および電子物性の主成分スコアベクターに基づいて計算された平均値;次元49:ポリペプチドの長さである。 本発明の方法の好ましい実施形態において、工程b)からのタンパク質配列は、ヒトセクレトーム(secretome)において見出される天然のタンパク質配列のみである。 別の好ましい実施形態において、生物活性ペプチドは、以下の配列番号:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138.139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185のアミノ酸配列からなる群から選択される配列を有する。 本発明は、さらに本発明の方法により同定される生物活性ペプチドを含むペプチドライブラリに関する。 別のより好ましい実施形態において、ペプチドライブラリは、前駆体タンパク質から誘導される生物活性ペプチドホルモンを含む。 本発明の別の要旨は、バイナリーサポートベクターマシン(SVM)ベースの方法を使用して、生物活性ペプチドを同定するように設定された計算デバイスに関し、ここで: 本発明は、さらにポリペプチド製剤、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するための本発明の方法の使用に関する。 本発明は、さらに細胞内シグナル伝達経路を問い合わせるため、経路の理解を進める試薬を製造するため、治療の新規な形態を作り上げるため、そして医薬活性化合物、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するためのスクリーニング法における本発明のペプチドライブラリの使用に関する。 本発明はまた、生物活性剤としての配列番号1〜185のアミノ酸配列からなる群から選択される配列を有する生物活性ペプチドを含む医薬組成物に関する。 発明の詳細な説明 本発明は、新規な生物活性ポリペプチドおよびこのような生物活性ポリペプチドを同定するためのコンピュータ内の方法に関する。 本発明において、ヒト体内における任意の細胞組織と相互作用するか、または影響を与える場合、ポリペプチドは生物活性と考えられる。 生物活性ペプチドは、ポリペプチド製剤、薬物療法のための標的、関連標的を見出すためのリガンド(例えば、GPCR脱オーファン化)または疾患を経過観察するための生体指標として使用される可能性がある。 生物活性ペプチドとしては、とりわけ、生物活性ペプチドホルモンが挙げられる。 ペプチドホルモンは、それらの高特異性、さらにそれらの極めて低濃度での有効性により特徴づけられる。 ペプチドホルモンは、より大きな前駆体、すなわちプロホルモンとして始めに合成される。 前駆体は、通常、より活性のある、または成熟した別の物質を形成する物質である。 タンパク質前駆体は、翻訳後修飾により活性形態に変換され得る不活性タンパク質(またはペプチド)である。 いくつかの切断部位が前駆体の修飾に関与し、成熟タンパク質を生成する:シグナル配列切断部位、プロテアーゼ切断部位、アミド化部位など。 タンパク質の前駆体の名前には、しばしば、プロまたはプレが接頭辞として付けられる。 後に生じるタンパク質が潜在的に有害であるが、早急におよび/または大量に利用可能となる必要がある場合、前駆体がしばしば有機体に使用されることが多い。 用語「ポリペプチド」、「ペプチド」および「タンパク質」は本明細書中で相互に用いられ、共有結合により連結したアミノ酸残基からなるポリマーをいう。 これらの用語は、完全長タンパク質の一部またはフラグメント、例えば、ペプチド、オリゴペプチドおよび少なくとも2つのアミノ酸からなるより短いペプチド配列、より特に、4〜45のアミノ酸からなるペプチド配列を含む。 さらに、これらの用語は、修飾アミノ酸のポリマーを含み、この修飾アミノ酸は、例えば、塩基性ペプチド骨格を有効に改変する化学修飾(アミド化、グリコシル化、リン酸化反応、アセチル化および/または硫酸化反応が挙げられるが、これらに限定されない)による翻訳後修飾されているアミノ酸を含む。 従って、ポリペプチドは、天然のタンパク質から誘導され得、そして特に、CNBrのような試薬、またはトリプシンもしくはキモトリプシンなどのようなプロテアーゼを使用して、化学的または酵素的切断により完全長タンパク質から誘導され得る。 あるいは、このようなポリペプチドは、周知のペプチド合成法を使用して化学合成により誘導され得る。 アミノ酸は、アミンおよびカルボン酸官能基の両方を含む任意の分子である。 アミノ酸残基は、ペプチド結合(タンパク質鎖中のアミノ酸モノマーを結合している化学結合)の形成において、一個の水分子を失った(窒素側からH+およびカルボン酸側からOH−)時点のアミノ酸の残りである。 各タンパク質は、その一次構造として公知であるその固有のアミノ酸配列を有する。 一次構造は非常に単純であり、そしてタンパク質またはポリペプチド鎖中のアミノ酸の数および配列に関連する。 共有ペプチド結合は、タンパク質構造のこのレベルに関与する唯一の種類の結合である。 タンパク質中のアミノ酸配列は、DNA中の遺伝情報により決定され、RNAに転写され、次いでタンパク質に翻訳される。 従って、タンパク質構造は遺伝的に決定される。 タンパク質構造の次のレベルは、一般に、構造規則性の量またはポリペプチド鎖がとる形状を参照する。 天然のポリペプチド鎖は、規則正しく、かつ規定の形状に自然に折り畳まれる。 二次構造の主な2つの種類、すなわちα−ヘリックス、およびβ−プリーツシートは、タンパク質中で見出される。 ポリペプチド鎖の三次構造は、鎖のα−ヘリックスまたはβ−プリーツシートによってとられる立体配座または形状の次のレベルである。 多くのタンパク質は、配置が大まかに球形に分類される形状に折り畳まれる傾向にあり、さらにいくつかの特に構造的なタンパク質は長繊維を形成する。 これらは三次構造全体の主要な形態である。 ドメインはしばしば使用される用語であり、これはポリペプチド鎖における球形構造の小型ユニットをいう。 各タンパク質の固有の形状が、体内におけるその機能を決定する。 アミノ酸配列変異体もまた「ポリペプチド」の定義の範囲内に含まれる。 これらは、前記ポリペプチドの少なくとも1つの本質的な特性、例えばその生物活性が変更されていない天然のアミノ酸配列において、1つまたはそれ以上の好ましい保存、アミノ酸置換、欠失、または挿入を含み得る。 このようなポリペプチドは、化学ポリペプチド合成によって合成され得る。 保存的アミノ酸置換は、当該分野で周知である。 例えば、野生型のタンパク質の1つまたはそれ以上のアミノ酸残基が、同様の電荷、大きさまたは極性のアミノ酸残基で保存的に置換され得、得られたポリペプチドは本明細書中に記載されるような機能的能力を保持している。 このような置換基を作製するための規定は周知である。 さらに具体的には、保存的アミノ酸置換は、一般に、それらの側鎖に関連するアミノ酸のファミリー内で行われるものである。 遺伝的にエンコードされたアミノ酸は、一般に4つの群に分類される:(1)酸性=アスパラギン酸塩、グルタミン酸塩;(2)塩基性=リシン、アルギニン、およびヒスチジン;(3)非極性=アラニン、バリン、ロイシン、イソロイシン、プロリン、フェニルアラニン、メチオニン、およびトリプトファン;および(4)非荷電極性=グリシン、アスパラギン、グルタミン、システイン、セリン、トレオニン、およびチロシン。 フェニルアラニン、チロシンおよびトリプトファンはまた、芳香族アミノ酸に一緒に分類される。 任意の特定の基内での1つまたはそれ以上の交換、例えば、イソロイシンまたはバリンについてロイシンの置換は代替的であり、グルタミン酸塩についてアスパラギン酸塩もしくはセリンについてトレオニンの置換、または構造的に関連するアミノ酸残基での任意の他のアミノ酸残基の置換は、一般に、得られたポリペプチドの機能にあまり影響しない。 生物活性が機能ドメインに対応するそのアミノ酸配列の結果として予測可能であるペプチドは、用語「ポリペプチド」の定義の範囲内に含まれる。 生物活性がそのアミノ酸配列の分析により予測され得ないペプチドもまた、用語「ポリペプチド」に含まれる。 本発明において、サポートベクターマシンアルゴリズム(SVM)を使用して、インビボで活性を有するポリペプチドとインビボで活性を有さないポリペプチドを区別する。 サポートベクターマシン(SVM): SVMの数学的基礎は、John Shawe Taylor & Nello Cristianiniによる書籍−Cambridge University Pres トレーニング段階の後、トレーニグ段階の間に予め決定された決定超平面に基づき、試験ベクターを分類するために使用される試験段階において、SVMを作動する(Noble,2006)。 サポートベクターマシンは、多くのかつ多様な分野に応用される。 例えば、H. Kim 本発明において、サポートベクターマシンアルゴリズム(SVM)を使用して、インビボで活性を有するポリペプチドとインビボで活性を有さないポリペプチドを区別する。 実際的な面から、本発明において、パーソナルコンピュータのような計算デバイスにより、SVMを実行する。 計算デバイスは、本発明に従う方法を実行するための取扱説明書を備える、実施例の節(1.1.)に記載されるような一連の異なるソフトウェアを実行する1つまたはそれ以上のプロセッサを含む。 SVMおよびモデル生成のトレーニング: SVMトレーニングセットについて、既知の生物活性ペプチドの情報を、Swissprotのような任意の公表されているヒトタンパク質データベースから抽出し得る。 4〜55のアミノ酸の長さを有する好ましい生物活性ペプチドを、Swissprotの注釈に従ってそれらの前駆体から抽出し、そしてSVMアルゴリズムのトレーニングに使用した正の例として標識した。 割り当てられた機能を有さない同様に既知のペプチドホルモン前駆体から4〜55のアミノ酸の長さで生成された全ての他のフラグメントを、SVMトレーニングについての負のトレーニングセットとして使用した。 SVMはバイナリーシステムであるので、生物活性ペプチドを+1として標識し、そして非生物活性ペプチドを−1として標識した。 同様に、56〜300のアミノ酸の長さを有する生物活性ペプチドおよび非生物活性ペプチドを使用して、より長いポリペプチドを予測するための二次モデルをトレーニングした。 負の例を過剰提示(over−represent)させないために、それぞれ短い(4〜55アミノ酸)および長い(56〜300アミノ酸)についての最終的なSVMトレーニングセットを、全ての負のペプチドから同数の負をランダムに選択することにより、正および負のトレーニングデータを同じくらいの数に調節した。 生物活性ペプチドおよび非生物活性ペプチドに隠されている情報を変換するために、49のディスクリプタのセットを定義し、そしてSVMのトレーニングに使用した。 SVMモデルの性能は、ペプチドを表現するために使用される選ばれたディスクリプタの性質に強く依存する。 本発明において、初めの7つのディスクリプタは、人体によって生成されるポリペプチドの尤度を示す。 ペプチドホルモン前駆体配列に対するプロテアーゼ予測部位ツールのセットを利用することにより、これらの7つの次元を計算した(図1)。 各プログラム出力の得られたスコアをディスクリプタとして直接使用した。 残りの42の次元は、各々生成されたフラグメントの重要な物理化学特性を示す(すなわち、生物活性ペプチドまたは非生物活性ペプチド)。 本発明に使用される49のディスクリプタを、実施例の節の項目3に記載する。 49のディスクリプタの固有の組み合わせが、各ペプチドに対応する。 異なるペプチドは、各次元が1つのディスクリプタに対応する場合、多次元空間中の点として表わされ得る。 SVMは、生物活性ペプチドおよび非生物活性ペプチドに対応する点の2つのセットを最適に分離する境界を見出そうとする。 この境界は、n次元空間中の2つの種類の対象、すなわち、それぞれ生物活性ペプチドおよび非生物活性ペプチドに対応するベクターを最適に分類する最適超平面と呼ばれる。 得られたSVMモデルは、生物活性ペプチドと非生物活性ペプチドを区別することを学習する。 生物活性ペプチドおよび非生物活性ペプチドの独立試験セットの順位に基づいて、最高の性能を有する最良のモデルを選択する。 モデルを試験するために、生成されたモデル全ての性能を試験し、そして短いペプチド(4〜55アミノ酸)および長いポリペプチド(56〜300アミノ酸)についての2つの最良のモデルをそれぞれ選択する。 生物活性ペプチドの同定: ペプチドライブラリ中の可能性ある構造の数を有意に減少させるために、本発明において、ヒトセクレトームにおいて見出される天然のタンパク質配列のみを、ペプチドライブラリを生成するための一次構造として使用した。 ヒトセクレトームは、細胞により分泌される全てのヒトタンパク質に対応するDNA中にエンコードされる全情報である。 新規な生物活性ペプチドを見出すための前駆体配列として使用された可能性のある分泌ヒトタンパク質を、実施例の節の項目1.1.に記載される公表されている配列データベースから抽出した。 分泌タンパク質(すなわち、タンパク質前駆体)の一次構造の異なる部分を、新規な生物活性ペプチドを推定するための鋳型として使用した。 化学合成に適しているペプチドを提供するために、ペプチドの長さは4〜45アミノ酸に制限した。 本発明の方法による新規な生物活性ペプチドの同定後、抗菌アッセイを行い、後者のペプチドの生物活性を試験した。 これらのアッセイを、実施例の節の項目6に詳述する。 ペプチドライブラリは、タンパク質関連研究のために新規に開発された技術である。 ペプチドライブラリは、アミノ酸の系統的組み合わせ(systematic combination)を有する多数のペプチドを含む。 通常、ペプチドライブラリは固相、主に樹脂上で合成され、この固相は平面またはビーズとして作製され得る。 ペプチドライブラリは、薬物設計、タンパク質−タンパク質相互作用、および他の生物化学的応用さらに薬物応用のための強力なツールを提供する。 本発明のペプチドライブラリを、細胞内シグナル伝達経路を問い合わせるため、経路の理解を進める試薬を製造するため、治療の新規な形態を作り上げるため、そして医薬活性化合物、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するためのスクリーニング法に使用し得る。 本発明のポリペプチドは、ホルモン活性を有する。 従って、本発明のポリペプチドは、薬物、例えばポリペプチド製剤、関連標的を見出すためのリガンド(例えば、GPCR)、薬物療法のための標的(例えば、モノクローナル抗体の標的、受容体フラグメント)、疾患を経過観察するための生体指標(体液中のペプチドフラグメントを検出するためのツール抗体との組み合わせ)、タンパク質キナーゼ阻害剤および基質、T細胞エピトープ、受容体結合部位のペプチドミモトープなどとして有用である。 本発明のペプチドまたは前駆体をコードするDNAは、例えば、心疾患、ホルモン産生腫瘍、糖尿病、胃潰瘍などの遺伝子治療、治療または予防のための試薬、ホルモン分泌阻害剤、腫瘍増殖阻害剤、神経作用などとして有用である。 さらに、本発明のDNAは、心疾患、ホルモン産生腫瘍、糖尿病、胃潰瘍などのような疾患の遺伝子診断のための試薬として有用である。 一般に現在記載される本発明は、以下の実施例を参照してより容易に理解され、実施例は本発明の特定の局面および実施形態の説明の目的で単に含まれ、そして本発明を限定するとは意図されない。 1. データベースおよびコンピュータプログラム 1.1. データベース 以下の公表されている配列データベースを使用して、可能性ある分泌ヒトタンパク質を抽出し、これを前駆体配列として使用して、新規な生物活性ペプチドを見出した:ヒトゲノム(NCBI 33アセンブリ、2003年7月1日)をタンパク質に翻訳した、サブセット;International Protein Index,Swissprot(2006年7月11日にリリース50.3)およびTrEMBL(リリース:2003年8月〜2006年3月); 1.2. コンピュータプログラム 1.1シグナルPバージョン2.0(Nielsen et al.,1997) 1.2ProPバージョン1.0(Duckert et al.,2004) 1.3. アミド化部位予測およびプロテアーゼ切断部位予測(Rohrer,2004) 1.4サポートベクターマシン(Chang and Lin,2001) 1.5. PsiPredバージョン2.45(Jones,1999) 1.6. 等電点の計算 目的:ポリペプチドの等電点の計算。 これをGasteiger et al. 2005に従って行った。 1.7. Perl−抽出および出力を行う言語(Practical extraction and report language) 2. SVMのトレーニング 管理された学習プロセスのために、既知の生物活性ポリペプチド前駆体を、以下のSRS(www.expasy.orgのSequence Retrieval System)クエリ命令文(query statement)を使用してSwissprotのような一般によく利用される公表されているデータベースから抽出した:有機体(Organism)=脊椎動物亜門;配列の長さ(Sequence_length)=30:300;重要な特性(Feature_key)=シグナル;キーワード(Keywords)=サイトカインまたはホルモンまたはボンベシンまたはブラジキニンまたはグルカゴンまたは成長因子またはインスリンまたは神経ペプチドまたはオピオイドペプチドまたはタキキニンまたは甲状腺ホルモンまたは血管収縮剤または血管拡張剤。 このクエリは、Swissportデータベースの注釈より生物活性ペプチドが容易に利用可能である既知のペプチドホルモン前駆体のセットをもたらす。 従って、これらの配列を使用して、SVMベースのモデルのトレーニングのための生物活性ペプチドおよび非生物活性ペプチドのセットを推測する。 3. ベクターを構築するために使用した分子ディスクリプタ SVMモデルの性能は、ペプチドを説明にするために使用される選択されたディスクリプタの質に強く依存する。 本発明において、以下のディスクリプタが選択された: 次元1:N末端ProPスコア; ポリペプチドの物理化学特性を計算し、そして以下のベクターの42の次元を示す。 4. モデルの試験 生物活性ペプチドおよび非生物活性ペプチドの独立試験セットの順位に基づいて、最高の性能を有する最良のモデルを選択する。 モデルを試験するために、生成されたモデル全ての性能を試験し、そして短いペプチド(4〜55アミノ酸)および長いポリペプチド(56〜300アミノ酸)についての2つの最良のモデルをそれぞれ選択した。 結果として、短いペプチドについて90.7%および長いペプチドについて94%の全体の予測精度が達成された。 独立試験セットを使用して、開示される方法は、約93%の生物活性ペプチドおよび約91%の非生物活性ペプチドを正確に同定する。 5. 生物活性ペプチドの同定 順位工程の間(工程6、図1)、46アミノ酸よりも短い、1前駆体あたりの最もスコアの高いペプチドを選択する。 この順位プロセスにおいて、たとえ、タンパク質前駆体あたりの最もスコアの高いペプチドが示されても、SVM分類後に、|0,65|を超える距離を有し、そして負のトレーニングデータセット内(すなわち、−0,65またはより低いスコア)に特定される全てのフラグメントをすぐに破棄する。 6. 本発明の方法により同定されたペプチドの生物活性を試験するための抗菌アッセイ 6.1. アッセイ技術 微量希釈試験は、培養物中の生菌または酵母細胞の数を測定するためのホモジニアス法を表す。 これは、生存する細菌または酵母が培養物中で不透明であるという事実に依存する。 濁度は光度計を用いて光吸収として測定され得、そしてサンプル中の細胞の数と関連している。 6.2. 材料および方法 細菌および酵母株 実験の課程において使用した株は、Escherichia coli(E.coli 全ての試験株の前培養 前培養の多数の植菌に使用し得る冷凍保存ストック(cryostock)を構築して、株の培養を開始する。 MH培養液を使用する試験培養物の調製 試験株バイアルをCryobankから取り出す。 ビーズ1つを滅菌ピペットで取り出し、そして細菌および酵母についてそれぞれ、MHおよびSD培養液(30ml)を含む100ml三角フラスコに植菌する。 37℃および180rpmで18時間培養する。 全ての試験株について、光学密度を10 8細胞/mlに対応する細胞密度にMH培養液で調節する。 アッセイのための標準植菌培養物を1:100で10 6 CFU/ml(コロニー形成単位/ml)の最終濃度まで希釈する。 ペプチド希釈 化合物を125μMの標準初期濃度〜0,24μMの最終濃度まで連続希釈する(10希釈段階)。 DMSOの初期濃度は、全てのサンプルおよび対照において、1,4%である。 用量反応曲線についての抗生物質の標準希釈 用量反応実験のために、MH培養液で化合物を連続希釈する(16希釈段階)。 化合物の最終濃度は64μg/ml〜0.002μg/mlの範囲である。 DMSOの初期濃度は、全てのサンプルおよび対照において1,4%である。 アッセイプロトコル アッセイ 対照 6.3. 抗生物質を用いる感度試験 可能性のある薬物を同定するためのアッセイの適正を評価するために、「材料および方法」に記載される条件を使用して、多数の抗生物質の用量依存効果を試験した。 シプロフロキサシン(cyprofloxacin)はE. coliおよびS. aureusに対して、ナイスタチンはC. albicansに対して活性であることが予測された。 これらの抗生物質の計算されたIC50値を、μg/mlで図4に示す。 6.4. アッセイ結果 試験株E. coli(ATCC 25922)、S. aureus(ATCC 29213)およびC. albicans(FH 2173)に対してペプチドを試験した。 ペプチドA003500589およびA003500548は、E. coliに対してそれぞれ、7,25μg/mlおよび6,79μg/mlのIC50値を示した。 S. aureusおよびC. albicansに対する活性は見出せなかった。 参考文献 |