首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 组合化学;化合物库,如化学库、虚拟库 / 库本身,如阵列、混合物 / Construction of pharmacophore fingerprint, as well as the primary library in quantitative structure-activity relationship

Construction of pharmacophore fingerprint, as well as the primary library in quantitative structure-activity relationship

申请号 JP2000578631 申请日 1999-10-27 公开(公告)号 JP2002530727A 公开(公告)日 2002-09-17
申请人 グラクソ グループ リミテッド; 发明人 マクレガー・マルコム・ジェイ.; ムスカル・スティーブン・エム.;
摘要 (57)【要約】 【課題】 本発明は、改良されたファーマコフォア・フィンガープリントと、フィンガープリントを形成してこれを利用する改良された方法とを提供する。 また、本発明の一態様として、ファーマコフォア・フィンガープリントを利用した構造活性相関解析を行う。 【解決手段】 所定の化合物に関するファーマコフォア・フィンガープリントにより、その化合物の構造にマッチングするファーマコフォア群を特定することができる。 フィンガープリントが、エネルギ的に望ましい種々のコンホメーションにマッチングする様々なファーマコフォアを含むと考えられる。 第一のコンホメーションにマッチングし、第二のコンホメーションにはマッチングしないファーマコフォアが存在する一方で、第二のコンホメーションにマッチングし、第一のコンホメーションにはマッチングしないファーマコフォアが存在する。 この場合、2つのコンホメーションは、それぞれ、化合物の活性に大きく寄与する。 すなわち、フィンガープリントは、任意の適当なコンホメーションにマッチングするファーマコフォアを特定する。 本発明は、さらに、ケミカルスペースの高活性領域を特定し、表現し、生産的に利用する装置並びに方法を提供する。 ケミカルスペースを表すものとしては、様々な表現が用いられており、さらに別のものを想定することも可能である。 本発明の好適な態様では、少なくとも二種類の表現で、有用な情報が得られる。 第一の表現は、ファーマコフォアの基本セットにより定義される多数の次元と、さらに、(薬理活性等の)所定の化学活性を表す1つあるいは複数の追加次元を用いるものである。 第二の表現は、次元数を削減したものであり、適当な数学的手法を用いて、第一の表現から第二の表現の座標値を誘導する。 第二の表現の例としては、例えば、化合物群に関するファーマコフォア・フィンガープリント/活性データを用いて、主要コンポーネント解析により得られる主要コンポーネントが挙げられる。
权利要求 【特許請求の範囲】
  • 【請求項1】 機械読み取り可能な形式で与えられるファーマコフォアの基本セットで、各ファーマコフォアは、少なくとも3つの空間的に離れたファーマコフォア中心を含み、各ファーマコフォア中心は、 (i)空間位置と、 (ii)ある化学特性を特定する所定のファーマコフォア型と、を含み、 基本セットのファーマコフォア型には、少なくとも、水素結合受容体、水素結合供与体、マイナス電荷中心、プラス電荷中心、疎水性中心、芳香族中心、ならびに、他のいずれのファーマコフォアの型にも入らないデフォルトカテゴリが含まれるファーマコフォアの基本セット。
  • 【請求項2】請求項1記載の基本セットであって、前記空間位置を、隣接するファーマコフォア中心間の隔絶距離あるいは隔絶距離範囲として与える基本セット。
  • 【請求項3】請求項1記載の基本セットであって、各ファーマコフォアが、
    隣接するファーマコフォア中心から、それぞれ異なった隔絶距離範囲だけ離れたファーマコフォア中心を有する基本セット。
  • 【請求項4】請求項1記載の基本セットであって、各ファーマコフォアが、
    3つのファーマコフォア中心を有する基本セット。
  • 【請求項5】 請求項1記載の基本セットであって、各ファーマコフォア中心が、水素結合受容体、水素結合供与体、マイナス電荷中心、プラス電荷中心、
    疎水性中心、芳香族中心、ならびに、他のいずれのファーマコフォアの型にも入らないデフォルトカテゴリのいずれか1つであるファーマコフォア型を少なくとも備える基本セット。
  • 【請求項6】 請求項1記載の基本セットであって、少なくとも約5,00
    0の異なったファーマコフォアを含む、基本セット。
  • 【請求項7】 請求項1記載の基本セットであって、少なくとも約10,0
    00の異なったファーマコフォアを含む、基本セット。
  • 【請求項8】 化合物のファーマコフォア・フィンガープリントであって、 前記フィンガープリントがビット列で表され、個々のビットが請求項1記載の基本セットに含まれる各々のファーマコフォアに対応するファーマコフォア・フィンガープリント。
  • 【請求項9】 請求項8記載のファーマコフォア・フィンガープリントで、
    前記ビット列が圧縮されるファーマコフォア・フィンガープリント。
  • 【請求項10】 化合物のファーマコフォア・フィンガープリントを作成する方法で、 (a)前記化合物を表す3次元表現を入力するステップと、 (b)各々異なる化学特性を規定するファーマコフォア型を、前記化合物の3次元表現における位置に割り当てるステップと、 (c)前記化合物の、あるコンホメーションを対象コンホメーションとして選択するステップと、 (d)ファーマコフォア型に関係づけられた3以上の空間的に隔たったファーマコフォア中心を各々有するファーマコフォアからなるファーマコフォアの基本セットを、化合物の対象コンホメーションと比較して、マッチングするものを特定するステップと、 (e)前記ステップ(c)および前記ステップ(d)を少なくとももう一度繰り返して、少なくとも2つのコンホメーションを考慮するステップと、 (f)前記化合物と前記基本セットに含まれるファーマコフォアとのマッチングに基づき、ファーマコフォア・フィンガープリントを作成するステップと、を備えるファーマコフォア・フィンガープリントの作成方法。
  • 【請求項11】 請求項10記載の方法で、前記化合物を表す3次元表現は、前記化合物中に含まれる原子、原子の相対的な空間位置、並びに、前記化合物中に含まれる結合の結合次数を規定するファーマコフォア・フィンガープリントの作成方法。
  • 【請求項12】 請求項10記載の方法で、前記ファーマコフォア型が、少なくとも、水素結合受容体、水素結合供与体、マイナス電荷中心、プラス電荷中心、疎水性中心、および、芳香族中心を含む、ファーマコフォア・フィンガープリントの作成方法。
  • 【請求項13】 請求項12記載の方法で、前記芳香族中心ファーマコフォア型を、前記化合物の3次元表現における芳香族環内部の位置に対応させ、前記水素結合受容体、水素結合供与体、マイナス電荷中心、プラス電荷中心、および、疎水性中心等の他のファーマコフォア型を、前記化合物の3次元表現における原子の位置に対応させるファーマコフォア・フィンガープリントの作成方法。
  • 【請求項14】 請求項10記載の方法で、前記ファーマコフォア型が、少なくとも、水素結合受容体、水素結合供与体、マイナス電荷中心、プラス電荷中心、疎水性中心、芳香族中心、ならびに、他のいずれのファーマコフォアの型にも入らないデフォルトカテゴリを含む、ファーマコフォア・フィンガープリントの作成方法。
  • 【請求項15】 請求項10記載の方法で、前記ファーマコフォアの基本セットを化合物の対象コンホメーションと比較して、マッチングするものを特定するステップは、前記化合物の対象コンホメーションに含まれるファーマコフォア型に対応づけられた位置と同一の相対的な位置に存在する同一のファーマコフォア型を有するファーマコフォアを、前記基本セット内で、特定することにより実行されるファーマコフォア・フィンガープリントの作成方法。
  • 【請求項16】 請求項10記載の方法で、前記化合物の3次元表現に含まれる結合を回転することにより、前記化合物のコンホメーションを調整するファーマコフォア・フィンガープリントの作成方法。
  • 【請求項17】 請求項10記載の方法で、前記化合物の3次元表現に含まれる複数の結合を繰り返し回転することにより、複数の対象コンホメーションを得るファーマコフォア・フィンガープリントの作成方法。
  • 【請求項18】 請求項10記載の方法で、前記フィンガープリントがビット列で表され、個々のビットが前記基本セットに含まれる各々のファーマコフォアに対応するファーマコフォア・フィンガープリントの作成方法。
  • 【請求項19】 請求項18記載の方法で、ファーマコフォアを表すビット列を圧縮するステップをさらに備えるファーマコフォア・フィンガープリントの作成方法。
  • 【請求項20】 化合物に関する構造活性相関解析を実行する方法であって、 トレイニングセットに含まれる化合物のファーマコフォア・フィンガープ リントで、各々、ファーマコフォアの3次元の重なりを規定するファーマコフォア・フィンガープリントを入力するステップと、 前記トレイニングセットに含まれる化合物の活性値を入力するステップと、 前記フィンガープリントを前記活性値に関連づける関数を用いて、構造活性相関を実行するステップと、 を備える構造活性相関解析方法。
  • 【請求項21】 請求項20記載の方法で、前記活性が生理活性である構造活性相関解析方法。
  • 【請求項22】 請求項20記載の方法で、前記活性値が、結合アフィニティである構造活性相関解析方法。
  • 【請求項23】 請求項20記載の方法で、前記フィンガープリントを活性値に関連づける関数が、回帰法である構造活性相関解析方法。
  • 【請求項24】 請求項20記載の方法で、前記フィンガープリントを活性値に関連づける関数が、部分最小2乗法である構造活性相関解析方法。
  • 【請求項25】 請求項20記載の方法で、前記フィンガープリントを活性値に関連づける関数が、ニューラルネットワークあるいは遺伝的アルゴリズムである構造活性相関解析方法。
  • 【請求項26】 請求項20記載の方法で、テストセットに含まれる化合物のフィンガープリントを用いて、構造活性相関の妥当性を評価するステップをさらに備える構造活性相関解析方法。
  • 【請求項27】 請求項20記載の方法で、構造活性相関を、化合物ライブラリのスクリーニングあるいはデザインに適用するステップをさらに備える構造活性相関解析方法。
  • 【請求項28】 請求項20記載の方法で、各ファーマコフォアは、少なくとも3つの空間的に離れたファーマコフォア中心を含み、各ファーマコフォア中心は、 (i)空間位置と、 (ii)ある化学特性を特定する所定のファーマコフォア型と、を含み、 基本セットのファーマコフォア型には、少なくとも、水素結合受容体、水素結合供与体、マイナス電荷中心、プラス電荷中心、疎水性中心、芳香族中心、ならびに、他のいずれのファーマコフォアの型にも入らないデフォルトカテゴリが含まれる構造活性相関解析方法。
  • 【請求項29】 請求項20記載の方法で、前記ファーマコフォア・フィンガープリントが、ビット位置からなるビット列で表され、個々のビット位置が各々のファーマコフォアに対応する構造活性相関解析方法。
  • 【請求項30】 化合物のファーマコフォア・フィンガープリントを作成するためのプログラムコードが記憶される機械読み取り可能な媒体を備えるコンピュータプログラム製品で、前記プログラムコードが、 (a)前記化合物を表す3次元表現を入力する工程と、 (b)各々異なる化学特性を規定するファーマコフォア型を、前記化合物の3次元表現における位置に割り当てる工程と、 (c)前記化合物の、あるコンホメーションを対象コンホメーションとして選択する工程と、 (d)ファーマコフォア型に関係づけられた3以上の空間的に隔たったファーマコフォア中心を各々有するファーマコフォアからなるファーマコフォアの基本セットを、化合物の対象コンホメーションと比較して、マッチングするものを特定する工程と、 (e)前記ステップ(c)および前記ステップ(d)を少なくとももう一度繰り返して、少なくとも2つのコンホメーションを考慮する工程と、 (f)前記化合物と前記基本セットに含まれるファーマコフォアとのマッチングに基づき、ファーマコフォア・フィンガープリントを作成する工程と、 を規定するコンピュータプログラム製品。
  • 【請求項31】 請求項30記載のコンピュータプログラム製品で、前記化合物を表す3次元表現は、前記化合物中に含まれる原子、原子の相対的な空間位置、並びに、前記化合物中に含まれる結合の結合次数を規定するコンピュータプログラム製品。
  • 【請求項32】 請求項30記載のコンピュータプログラム製品で、前記ファーマコフォア型が、少なくとも、水素結合受容体、水素結合供与体、マイナス電荷中心、プラス電荷中心、疎水性中心、芳香族中心、ならびに、他のいずれのファーマコフォアの型にも入らないデフォルトカテゴリを含む、コンピュータプログラム製品。
  • 【請求項33】 請求項30記載のコンピュータプログラム製品で、前記ファーマコフォアの基本セットを化合物の対象コンホメーションと比較して、マッチングするものを特定する工程は、前記化合物の対象コンホメーションに含まれるファーマコフォア型に対応づけられた位置と同一の相対的な位置に存在する同一のファーマコフォア型を有するファーマコフォアを、前記基本セット内で、特定することにより実行されるコンピュータプログラム製品。
  • 【請求項34】 化合物に関する構造活性相関解析を実行するためのプログラムコードが記憶される機械読み取り可能な媒体を備えるコンピュータプログラム製品で、前記プログラムコードが、 トレイニングセットに含まれる化合物のファーマコフォア・フィンガープリントで、各々、ファーマコフォアの3次元の重なりを規定するファーマコフォア・
    フィンガープリントを入力する工程と、 前記トレイニングセットに含まれる化合物の活性値を入力する工程と、 前記フィンガープリントを前記活性値に関連づける関数を用いて、構造活性相関を実行する工程と、 を規定するコンピュータプログラム製品。
  • 【請求項35】 請求項34記載のコンピュータプログラム製品で、前記フィンガープリントを活性値に関連づける関数が、部分最小2乗法であるコンピュータプログラム製品。
  • 【請求項36】 請求項34記載のコンピュータプログラム製品で、各ファーマコフォアは、少なくとも3つの空間的に離れたファーマコフォア中心を含み、各ファーマコフォア中心は、 (i)空間位置と、 (ii)ある化学特性を特定する所定のファーマコフォア型と、を含み、 基本セットのファーマコフォア型には、少なくとも、水素結合受容体、水素結合供与体、マイナス電荷中心、プラス電荷中心、疎水性中心、芳香族中心、ならびに、他のいずれのファーマコフォアの型にも入らないデフォルトカテゴリが含まれるコンピュータプログラム製品。
  • 【請求項37】 ケミカルスペースにおいて、所定の活性を有する1つあるいは複数の領域を特定する方法であって、 前記所定の活性に関係する化合物からなる化合物のリファレンスセットを入力するステップと、 前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントで、各々、基本セットのファーマコフォアの3次元の重なりを規定するファーマコフォア・フィンガープリントを準備するステップと、 前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントを前記所定の活性に関連づけることにより、前記ケミカルスペース内で、
    前記所定の活性に関連づけられる少なくとも1つの領域を特定するステップと、 を備える特定方法。
  • 【請求項38】 請求項37記載の方法で、前記所定の活性が生理活性である特定方法。
  • 【請求項39】 請求項38記載の方法で、前記生理活性が薬理活性である特定方法。
  • 【請求項40】 請求項37記載の方法で、前記所定の活性が、吸収、分布、経口生物学的利用率、代謝、排泄のなかから選択される特定方法。
  • 【請求項41】 請求項37記載の方法で、前記リファレンスセットが、薬理活性化合物からなる特定方法。
  • 【請求項42】 請求項37記載の方法で、前記リファレンスセットが、M
    DLドラッグデータリポートの化合物、あるいは、化合物から得られるものである特定方法。
  • 【請求項43】 請求項37記載の方法で、前記リファレンスセットが、薬理活性化合物データベースのサブセットである特定方法。
  • 【請求項44】 請求項43記載の方法で、前記サブセットは、 前記データベースから、所定の分子量範囲の化合物を選択し、 前記データベースから、炭素、窒素、酸素、水素、イオウ、リン、臭素、塩素、ヨウ素のなかから選択される原子からなる化合物を選択する ことによって形成される特定方法。
  • 【請求項45】 請求項44記載の方法で、データベースに含まれる1つの化合物の構造表現と別の化合物の構造表現との間のTanimoto係数が設定値よりも大きい場合には、その化合物を前記サブセットから除外するステップをさらに備える特定方法。
  • 【請求項46】 請求項37記載の方法で、前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントを準備するステップが、 (a)前記リファレンスセットに含まれる化合物を表す3次元表現を入力するステップと、 (b)各々異なる化学特性を規定するファーマコフォア型を、前記化合物の3
    次元表現における位置に割り当てるステップと、 (c)前記化合物の、あるコンホメーションを対象コンホメーションとして選択するステップと、 (d)ファーマコフォア型に関係づけられた3以上の空間的に隔たったファーマコフォア中心を各々有するファーマコフォアからなるファーマコフォアの基本セットを、化合物の対象コンホメーションと比較して、マッチングするものを特定するステップと、 (e)前記化合物と前記基本セットに含まれるファーマコフォアとのマッチングに基づき、ファーマコフォア・フィンガープリントを作成するステップと、 を備える特定方法。
  • 【請求項47】 請求項37記載の方法で、前記ファーマコフォア・フィンガープリントを所定の活性に関連づけるステップが、回帰法により実行される特定方法。
  • 【請求項48】 請求項37記載の方法で、前記ファーマコフォア・フィンガープリントを所定の活性に関連づけるステップが、主要コンポーネント解析により実行される特定方法。
  • 【請求項49】 請求項37記載の方法で、前記ファーマコフォア・フィンガープリントを所定の活性に関連づけるステップが、ニューラルネットワークあるいは遺伝的アルゴリズムによって実行される特定方法。
  • 【請求項50】 請求項37記載の方法で、前記ファーマコフォア・フィンガープリントを所定の活性に関連づけるステップが、前記ケミカルスペースを表す表現を、ファーマコフォア基本セットの各構成要素を次元とする第一の表現から、1つあるいは複数の主要コンポーネントを次元とする第二の表現に変換する特定方法。
  • 【請求項51】 請求項50記載の方法で、主要コンポーネントを次元軸とするケミカルスペースの第二の表現で、リファレンスセットの化合物を表示するステップをさらに備える特定方法。
  • 【請求項52】 請求項51記載の方法で、前記化合物の表示に用いられる主要コンポーネントの数が2または3である特定方法。
  • 【請求項53】 請求項37記載の方法で、前記ファーマコフォア・フィンガープリントを所定の活性に関連づけるステップが、前記ケミカルスペースの次元数を削減する特定方法。
  • 【請求項54】 請求項53記載の方法で、前記ファーマコフォア・フィンガープリントを関連づけるステップが、直交主要コンポーネントに次元数を削減する特定方法。
  • 【請求項55】 請求項54記載の方法で、前記主要コンポーネントが、前記ケミカルスペースの第二の表現における軸に対応する特定方法。
  • 【請求項56】 化合物ライブラリを作成する方法で、 ケミカルスペースにおいて、所定の活性を有する1つあるいは複数の領域を特定するステップと、 ライブラリ用に、調査対象とした一群の化合物に含まれる化合物のファーマコフォア・フィンガープリントを準備するステップと、 前記調査対象とした一群の化合物の中から、前記所定の活性を有する1つあるいは複数の領域に含まれるファーマコフォア・フィンガープリントを有する化合物のサブセットを特定し、該サブセットをライブラリとするステップと、 を備えるライブラリ作成方法。
  • 【請求項57】 請求項56記載の方法で、前記ケミカルスペースにおいて、所定の活性を有する1つあるいは複数の領域を特定するステップが、 前記所定の活性に関係する化合物からなる化合物のリファレンスセットを入力するステップと、 前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントで、各々、基本セットのファーマコフォアの3次元の重なりを規定するファーマコフォア・フィンガープリントを準備するステップと、 前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントを前記所定の活性に関連づけることにより、前記ケミカルスペース内で、
    前記所定の活性に関連づけられる少なくとも1つの領域を特定するステップと、 を備えるライブラリ作成方法。
  • 【請求項58】 請求項56記載の方法で、前記調査対象とした一群の化合物の中からサブセットを特定するステップが、ケミカルスペース内で所定の活性を有する1つあるいは複数の領域と実質的にオーバーラップする構成要素からなる調査対象とした一群の化合物のサブセットを選択するライブラリ作成方法。
  • 【請求項59】 請求項58記載の方法で、前記調査対象とした一群の化合物のサブセットを選択するステップが、 (a)前記調査対象とした一群の化合物の中から、あるサブセットを対象サブセットとしてランダムに抽出するステップと、 (b)前記抽出された対象サブセットと、ケミカルスペースの所定領域内のリファレンスセットとのオーバーラップを算出するステップと、 (c)前記算出されたオーバーラップに基づいて、前記調査対象とした一群の化合物の中から抽出された最新の対象サブセットあるいはそれ以前に抽出された対象サブセットのいずれかを選択するステップと、 (d)選択されたサブセットの突然変異を実行し、その構成要素を交換するステップと、 (e)オーバーラップが収束するまで前記ステップ(b)ないし前記ステップ(d)を繰り返して行うステップと、 を備えるライブラリ作成方法。
  • 【請求項60】 請求項58記載の方法で、前記調査対象とした一群の化合物のサブセットを選択するステップが、 (a)前記調査対象とした一群の化合物の中からサブセットをランダムに抽出するステップと、 (b)前記抽出されたサブセットと、ケミカルスペースの所定領域内のリファレンスセットとのオーバーラップを算出するステップと、 (c)あるサブセットを対象サブセットとしてランダムに抽出するステップと、 (d)前記対象サブセットの突然変異を実行し、その構成要素を交換するステップと、 (e)前記対象サブセットと前記ケミカルスペースの所定領域内のリファレンスセットとのオーバーラップを算出するステップと、 (f)前記対象サブセットの突然変異を受け入れるか否かを判定するステップと、 (g)前記対象サブセットの突然変異が拒絶されるまで、前記ステップ(c)
    ないし前記ステップ(e)を繰り返して行うステップと、 (h)前記対象サブセットと前記リファレンスセットとのオーバーラップが収束したかどうかを評価するステップと、 (i)前記対象サブセットと前記リファレンスセットとのオーバーラップが収束するまで、前記ステップ(c)ないし前記ステップ(g)を繰り返して行うステップと、 (j)前記ケミカルスペースにおいて所定の活性を有する1つあるいは複数の領域と実質的にオーバーラップする前記調査対象セット化合物のすべてのサブセットの特定が完了するまで、前記ステップ(c)ないし前記ステップ(i)を繰り返して行うステップと、 を備えるライブラリ作成方法。
  • 【請求項61】 請求項56記載の方法で、前記所定の活性が生理活性であるライブラリ作成方法。
  • 【請求項62】 請求項61記載の方法で、前記所定の活性が薬理活性であるライブラリ作成方法。
  • 【請求項63】 請求項62記載の方法で、前記化合物ライブラリが特定ライブラリであり、前記活性が所定の標的に対する結合であるライブラリ作成方法。
  • 【請求項64】 請求項62記載の方法で、前記ライブラリがプライマリ・
    ライブラリであり、前記ケミカルスペースにおいて所定の活性を有する1つあるいは複数の領域が、複数の治療活性にまたがるライブラリ作成方法。
  • 【請求項65】 請求項56記載の方法で、前記ケミカルスペースにおいて所定の活性を有する1つあるいは複数の領域が、MDLドラッグデータリポートによる領域であるライブラリ作成方法。
  • 【請求項66】 請求項57記載の方法で、前記リファレンスセットが、薬理活性化合物のデータベースであるあるいは、データベースから得られるライブラリ作成方法。
  • 【請求項67】 請求項57記載の方法で、前記ファーマコフォア・フィンガープリントを関連づけるステップが、主要コンポーネント解析により実行されるライブラリ作成方法。
  • 【請求項68】 請求項57記載の方法で、前記ファーマコフォア・フィンガープリントを所定の活性に関連づけるステップが、前記ケミカルスペースを表す表現を、ファーマコフォア基本セットの各構成要素を次元とする第一の表現から、1つあるいは複数の主要コンポーネントを次元とする第二の表現に変換するライブラリ作成方法。
  • 【請求項69】 請求項56記載の方法で、前記調査対象セットに含まれる化合物のファーマコフォア・フィンガープリントを準備するステップが、 (a)前記調査対象セットに含まれる化合物を表す3次元表現を入力するステップと、 (b)各々異なる化学特性を規定するファーマコフォア型を、前記化合物の3
    次元表現における位置に割り当てるステップと、 (c)前記化合物の対象コンホメーションを選択するステップと、 (d)ファーマコフォア型に関係づけられた少なくとも3つの空間的に隔たったファーマコフォア中心を各々有するファーマコフォアからなるファーマコフォアの基本セットを、化合物の対象コンホメーションと比較して、マッチングするものを特定するステップと、 (e)前記化合物と前記基本セットに含まれるファーマコフォアとのマッチングに基づき、ファーマコフォア・フィンガープリントを作成するステップと、 を備えるライブラリ作成方法。
  • 【請求項70】 ケミカルスペースにおいて、所定の活性を有する1つあるいは複数の領域を特定するためのプログラムコードが記憶される機械読み取り可能な媒体を備えるコンピュータプログラム製品で、前記プログラムコードが、 前記所定の活性に関係する化合物からなる化合物のリファレンスセットを入力する工程と、 前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントで、各々、基本セットのファーマコフォアの3次元の重なりを規定するファーマコフォア・フィンガープリントを準備する工程と、 前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントを少なくとも前記所定の活性に関連づけることにより、前記ケミカルスペース内で、前記所定の活性に関連づけられる少なくとも1つの領域を特定する工程と、 を規定するコンピュータプログラム製品。
  • 【請求項71】 請求項70記載のコンピュータプログラム製品で、前記所定の活性が生理活性であるコンピュータプログラム製品。
  • 【請求項72】 化合物ライブラリを作成するためのプログラムコードが記憶される機械読み取り可能な媒体を備えるコンピュータプログラム製品で、前記プログラムコードが、 ケミカルスペースにおいて、所定の活性を有する1つあるいは複数の領域を特定する工程と、 ライブラリ用に、調査対象とした一群の化合物に含まれる化合物のファーマコフォア・フィンガープリントを準備する工程と、 前記調査対象とした一群の化合物の中から、前記所定の活性を有する1つあるいは複数の領域に含まれるファーマコフォア・フィンガープリントを有する化合物のサブセットを特定し、該サブセットをライブラリとする工程と、 を規定するコンピュータプログラム製品。
  • 【請求項73】 請求項72記載のコンピュータプログラム製品で、前記ケミカルスペースにおいて、所定の活性を有する1つあるいは複数の領域を特定する工程が、 前記所定の活性に関係する化合物からなる化合物のリファレンスセットを入力する工程と、 前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントで、各々、基本セットのファーマコフォアの3次元の重なりを規定するファーマコフォア・フィンガープリントを準備する工程と、 前記リファレンスセットに含まれる化合物のファーマコフォア・フィンガープリントを前記所定の活性に関連づけることにより、前記ケミカルスペース内で、
    前記所定の活性に関連づけられる少なくとも1つの領域を特定する工程と、 を備えるコンピュータプログラム製品。
  • 【請求項74】 請求項72記載のコンピュータプログラム製品で、前記調査対象とした一群の化合物の中からサブセットを特定する工程が、ケミカルスペース内で所定の活性を有する1つあるいは複数の領域と実質的にオーバーラップする構成要素からなる調査対象とした一群の化合物のサブセットを選択するコンピュータプログラム製品。
  • 【請求項75】 請求項72記載のコンピュータプログラム製品で、前記ケミカルスペースを表す表現を、ファーマコフォア基本セットの各構成要素を次元とする第一の表現から、1つあるいは複数の主要コンポーネントを次元とする第二の表現に変換する工程をさらに規定するコンピュータプログラム製品。
  • 【請求項76】 請求項72記載のコンピュータプログラム製品で、前記調査対象とした一群の化合物のサブセットを選択する工程が、 (a)前記調査対象とした一群の化合物の中から対象サブセットをランダムに抽出する工程と、 (b)前記抽出された対象サブセットと、ケミカルスペースの所定領域内のリファレンスセットとのオーバーラップを算出する工程と、 (c)前記算出されたオーバーラップに基づいて、前記調査対象とした一群の化合物の中から抽出された現対象サブセットあるいは前対象サブセットのいずれかを選択する工程と、 (d)選択されたサブセットの突然変異を実行し、その構成要素を交換する工程と、 (e)オーバーラップが収束するまで前記ステップ(b)ないし前記ステップ(d)を繰り返して行う工程と、 を備えるコンピュータプログラム製品。
  • 【請求項77】 ケミカルスペースを表す表現が記憶される機械読み取り可能な媒体を備えるコンピュータプログラム製品で、 前記ケミカルスペースの表現は、ファーマコフォア・フィンガープリントとリファレンスセットの化合物の中から選択された複数の化合物に関する活性から誘導される1つあるいは複数の主要コンポーネントを含み、 前記ケミカルスペースの表現は、所定の活性を有する1つあるいは複数の領域を規定するコンピュータプログラム製品。
  • 【請求項78】 請求項77記載のコンピュータプログラム製品で、前記所定の活性が生理活性であるコンピュータプログラム製品。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】

    本発明は、化合物のファーマコフォア表現に関する。 さらに詳しくは、本発明は、ファーマコフォア・フィンガープリント並びに、構造活性相関へのファーマコフォア・フィンガープリントの適用に関する。 また、本発明は、化合物ライブラリの構築に関し、さらに詳しくは、本発明は、化合物のプライマリ・ライブラリの構築に関する。 本発明は、また、一般的な表現で表されるケミカルスペースにおいて、薬剤発見等に有用なプライマリ・ライブラリの構築に役立つ活性サブ空間(例えば、バイオ活性空間)を特定する手法に関する。

    【0002】

    【発明の背景】

    コンビナトリアル・ケミストリとハイスループット・スクリーニングの最近の発展に伴い、数多くの化合物に対する実験的アプローチが可能になった(DK
    Agrafiotis et al., Molecular Diversity, 1999, 4,1; U. Eichler et al., Dr
    ugs of the Future, 1999, 24, 177; AK Ghose et al., J. Comb. Chem., 1,
    1999, 55; EJ Martin et al., J. Comb. Chem., 1999, 1, 32; PR Menar
    d et al., J. Chem. Inf. Comput. Sci., 1998, 38, 1204; RA Lewis et al.
    , J. Chem. Inf. Comput. Sci., 1997, 37, 599; M. Hassan et al., Molecular
    Diversity, 1996, 2, 64; MJ McGregor et al., J. Chem. Inf. Comput. Sc
    i., 1999, 39, 569; RD Brown, Perspectives in Drug Discovery and Desig
    n, 1997, 7/8, 31参照。 以上を本明細書に参考文献として組み入れる)。 このため、数多くの化合物に関する演算特性を解析する技術が、薬剤開発において、ますます重要になってきている。 特定ライブラリ、すなわち、標的ライブラリの構築並びにプライマリ・ライブラリの構築という2つの適用例では、数多くの化合物に関する演算特性の解析により、薬剤設計にとって特に重要な情報を提供することができる。

    【0003】 標的ライブラリの構築は、本質的には、スキャフォールド(3次元構造モチーフ)設計とビルディングブロックの選択に定量的構造活性相関(QSAR)を利用する計算化学と分子モデルの技術を発展させたものである。 QSARでは、分子記述子(デスクリプタ)を算出し、この分子記述子を用いて、個々の標的に対する生理活性を予想するモデルを構築する。

    【0004】 プライマリ・ライブラリを利用して、レセプタ(受容体)やリガンド(受容体に結合するもの)の構造に関する情報を必要とすることなく、1つあるいは複数の標的に対する活性化合物を生成することが可能である。 また、多くの構造的に無関係な多様な標的に対して、プライマリ・ライブラリのスクリーニングを行うことができる。 さらに、薬剤活性分子の重要な活性であるリガンド結合に無関係な特性である、最適の吸収、分布、代謝、排泄(ADME)、並びに、毒性プロファイルを有する化合物の生成にプライマリ・ライブラリを利用することも可能である。

    【0005】 さらに、構造的に関連のある化合物群に対して活性のある化合物の同定に、中間ライブラリを用いることも可能である。 従って、中間ライブラリは、標的ライブラリとプライマリ・ライブラリの2つに特徴的な特性をあわせもつ。

    【0006】 分子構造を特徴づける記述子群の特定は、数多くの化合物を解析するプロセスでは重要な工程である。 数多くの記述子が提案されているが、分子構造へのアプローチに応じて、これらを分類することができる(M. Hassan et al., Molecula
    r Diversity, 1996, 2, 64; MJ McGregor et al., J. Chem. Inf. Comput. S
    ci., 1999, 39, 569; RD Brown, Perspectives in Drug Discovery and Desi
    gn, 1997, 7/8, 31参照。 以上は先に本明細書に参考文献として組み入れた。 R.
    D. Brown et al., J. Chem. Inf. Comput. Sci. 1996, 36, 572; RD Brown e
    t al., J. Chem. Inf. Comput. Sci. 1996, 37, 1; DE Patterson et al., J
    . Med. Chem. 1996, 39, 3049; SK Kearsley et al., J. Chem. Inf. Comput
    . Sci. 1996, 36, 118参照。 以上を本明細書に参考文献として組み入れる)。 1
    次元(1D)特性は、分子量やclogP等の全体的な分子特性をあらわす。 2次元特性(2D)には、分子の機能性や結合性が含まれる。 2D記述子の実例としては、
    MDLサブストラクチャーキー(MDL Information Systems Inc., 14600 Catalina
    St., San Leandro, CA 94577) (MJ McGregor et al., J. Chem. Inf. Compu
    t. Sci., 1997, 37, 443参照。 これを本明細書に参考文献として組み入れる)やMSI50記述子(Molecular Simulations Inc., 9685 Scranton Road, San Dieg
    o, CA 92121-3752)が挙げられる。 例えば、薬剤化合物に対する要件を特定する際に有用な、周知の5つの法則は、1次元記述子及び2次元記述子から導かれる(CA Lipinski et al., Advanced Drug Delivery Reviews, 1997, 23, 3参照。これを本明細書に参考文献として組み入れる)。

    【0007】 3次元記述子(3D)の算出には、適度なエネルギを有する少なくとも1つの3次元構造体が必要である。 更に、複数のコンホメーション(立体配座)からの寄与を考慮にいれて、3次元記述子を算出してもよい。 また、リガンド結合において重要な特徴に基づいて、あるいは、その他の重要な所望の特徴に応じて、記述子を選択するようにしてもよい。 あるいは、数多くの化合物群の解析に多数の記述子を用いる場合には、主要コンポーネント解析(PCA)や部分最小2乗法(PLS)等の統計手法により最少数の重要な記述子群を求めればよい。

    【0008】 ファーマコフォア(薬の担体)のスクリーニングは、コンピュータ支援薬剤デザインにおいて、ルーチンとして行われている手法である(PW Sprague et a
    l., Perspectives in Drug Discovery and Design, ESCOM Science Publishers
    BV, K. Muller, ed. 1995, 3, 1; D. Barnum et al., J. Chem. Inf. Comput
    . Sci., 1996, 36, 563; J. Greene et al., J. Chem. Inf. Comput. Sci., 199
    4, 34, 1297参照。 以上を本明細書に参考文献として組み入れる)。 ファーマコフォアのスクリーニングは、ハイスループット・スクリーニングとコンビナトリアル・ケミストリとにより与えられる数多くの化合物の解析に有効であると考えられる。 ファーマコフォアの概念は、素結合やイオン化,疎水性結合等の分子認識で観察される相互作用に基づく。 ファーマコフォアは、リガンド群と1つの生物学的標的との間の共通相互作用を表わす特異的なコンホメーション(例えば、三形)における官能基群の種類(例えば、芳香族中心、マイナス電荷中心、
    水素結合供与体等)として定義される。 この定義において、ファーマコフォアは、立体的な記述子(3D記述子)である。

    【0009】 ファーマコフォアのスクリーニングを実行する市販のソフトウェアシステムとしては、例えば、Catalyst(Molecular Simulations Inc.製9685 Scranton Road
    , San Diego, CA 92121-3752)(PW Sprague et al., Perspectives in Drug
    Discovery and Design, ESCOM Science Publishers BV, K. Muller, ed. 199
    5, 3, 1; D. Barnum et al., J. Chem. Inf. Comput. Sci., 1996, 36, 563; J.
    Greene et al., J. Chem. Inf. Comput. Sci., 1994, 34, 1297参照)やChem-X
    のChemDiverseモジュール(Chemical Design Ltd.製、Roundway House, Cromwel
    l Park, Chipping Norton, Oxfordshire, OX7 5SSR, UK)(SD Pickett et
    al., J. Chem. Inf. Comput. Sci., 1996, 36, 1214参照。 これを本明細書に参考文献として組み入れる)が挙げられる。 ただし、残念ながら、これらのソフトウェアシステムの利用にあたっては、製造者が所有する閉鎖的なデータベースシステムへの化合物の登録が義務づけられている。

    【0010】 ファーマコフォア・フィンガープリントは、種々の距離範囲を有する様々な種類のファーマコフォアによりファーマコフォアの基本セットを構成する上述のアプローチを拡張したものである。 ファーマコフォアの基本セットを化合物群に適用して、リガンド−レセプタ結合において重要な特徴を示す記述子であるファーマコフォア・フィンガープリントを生成する。 ファーマコフォア・フィンガープリントに関してはAC Good et al., J. Comput. Aided Mo. Des., 1995, 9, 3
    73; JS Mason et al., Perspective in Drug Discovery and Design, 1997,
    7/8/, 85; SD Pickett et al., J. Chem. Inf. Comput. Sci., 1998, 38, 14
    4; SD Pickett et al., J. Chem. Inf. Comput. Sci., 1996, 36, 1214; C.
    M. Murray et al., J. Chem. Inf. Comput. Sci., 1999, 39, 46; JS Mason
    et al., J. Med. Chem., 1999, 39, 46; SD Pickett et al., J. Chem. Inf.
    Comput. Sci., 1998, 38, 144; R. Nilakantan et al., J. Chem. Inf. Comput
    . Sci., 1993, 33, 79 に詳述されている。 また、構造活性相関への適用に関しては、X. Chen et al., J. Chem. Inf. Comput. Sci., 1998, 38, 1054に報告されている。 以上の各々を本明細書に参考文献として組み入れる。

    【0011】 算出された分子記述子は、いくつかの所望の特徴を有している。 記述子は、分子類似性の定量的な目安を与えるものであることが望ましい。 実験的に測定可能な特性に関連づけることにより、分子記述子の用途が広がる。 例えば、logP
    の演算値を可能な限り測定値に近づけることができる。 生物学的標的に対するリガンドの結合は、薬剤デザインにおける重要な特性である。 標的の構造が(例えば、ドッキング演算を用いることで)利用できる場合には、リガンドの結合を明確に計算することができる。 しかし、通常は、リガンドの結合を、独立変数とみなせる、もっと簡単な算出特性から推定する場合が多い。 コンホメーションの情報を含む記述子は、生理活性を推測するより優れたツールとなる。 また、3D記述子の方が、2D記述子よりも優れていると考えられる。 ただし、2D記述子が3
    D記述子よりも実際上優れている場合もあるので、これを実証することは困難である。

    【0012】 3次元ファーマコフォア・フィンガープリントは、単一の標的に対する活性に化学構造を関係づける場合に有用である。 特徴的な活性を有する既知リガンド群から、一種類のファーマコフォア仮説あるいは少数の異なったファーマコフォア仮説を誘導することができる。 ファーマコフォア・フィンガープリントを利用して得られたファーマコフォア仮説を化合物データベースを用いた数理的なスクリーニングにかけて、実際の生物学的スクリーニング用の化合物を選択する。 理論的には、この記述子を用いて選択された化合物は、ランダムに(無作為的に)選択された化合物よりも、高い割合で、所定の生物学的標的に結合すると考えられる。 すなわち、ファーマコフォア・フィンガープリント記述子に基づくリガンド結合予測により、様々な生物学的レセプタに対するQSAR(定量的構造活性相関)
    解析を行うことができる。 3次元ファーマコフォア・フィンガープリントを用いて開発された構造活性の相関関係は、単一の標的に対して、高いアフィニティ(
    親和性)と特異性で結合する化合物からなる標的ライブラリの構築に重要な意味を持つ。

    【0013】 ファーマコフォア・フィンガープリントの有用性並びに情報性から、この記述子がプライマリ・ライブラリの構築においても有用であることがわかる。 薬剤のプライマリ・ライブラリ構築を成功させるためには、いくつかの条件を満たす必要がある。 第一の条件は、適切に構築された薬剤プライマリ・ライブラリが、様々な生物学的標的に対して活性を有する化合物を含むことである。 第二の条件は、薬剤プライマリ・ライブラリが、レセプタやリガンドの構造に関する知識を必要とすることなく、ある生物学的標的に結合する最大数の化合物を与えることである。 第三の条件は、薬剤プライマリ・ライブラリが、高い特異性で生物学的標的に結合する化合物を与えることである。 最後の条件は、薬剤プライマリ・ライブラリが、生物学的標的への結合に無関係な、吸収、分布、代謝、排泄等の薬剤特性を最適化することである。 すなわち、この意味から、プライマリ・ライブラリは、測定可能レベルの生理活性を有する化合物に類似の特性分布を有する一群の化合物を与えることが望ましい。 この結果、ケミカルスペース(化学空間)と「バイオ活性空間」と称されるサブ空間とを概念的に区別することが可能になる。 また、同様に、分子の多様性を最大にすることと、バイオ活性空間の最適な範囲を特定することの違いも明確にすることができる。

    【0014】 ファーマコフォアのアプローチを採用するか否かにかかわらず、数多くの化合物を用いた新しいスクリーニングの手法が現代の薬剤研究においてその重要性を増していくにつれて、生理活性、分子多様性、並びに、薬剤に特徴的な特性に分子記述子を関連づけるための方法の開発・改良が強く求められている。 すなわち、本発明の目的は、分子記述子を生理活性に関連づけ、膨大なデータ群に簡単に適用可能な、数理的に効率のよい方法を提供することである。 さらに、本発明の目的には、このような方法を用いることにより、最適な特性分布を有するコンビナトリアル・ライブラリの構築に利用可能な、バイオ活性分子の重要な特性を定義するプライマリ・ライブラリを与えることにある。

    【0015】

    【発明の概要】

    本発明は、改良されたファーマコフォア・フィンガープリントと、フィンガープリントを形成し、これを利用する改良された方法と、を提供する。 また、本発明の一態様として、ファーマコフォア・フィンガープリントを利用した構造活性相関解析を行う。 所定の化合物に関するファーマコフォア・フィンガープリントにより、その化合物の構造にマッチングするファーマコフォア群を特定することができる。 フィンガープリントが、エネルギ的に望ましい種々のコンホメーションにマッチングする様々なファーマコフォアを含むことが好ましい。 第一のコンホメーションにマッチングし、第二のコンホメーションにはマッチングしないファーマコフォアが存在する一方で、第二のコンホメーションにマッチングし、第一のコンホメーションにはマッチングしないファーマコフォアが存在する。 この場合、2つのコンホメーションは、それぞれ、化合物の活性に大きく寄与する。
    すなわち、フィンガープリントは、任意の適当なコンホメーションにマッチングするファーマコフォアを特定する。

    【0016】 フィンガープリントを定義するために利用可能なファーマコフォアが「基本セット」由来のものであることが望ましい。 すなわち、本発明の1つの形態は、ファーマコフォアの基本セットである。 基本セットに含まれる各々のファーマコフォアは、少なくとも3つの空間的に離れたファーマコフォア中心を含むことを特徴とする。 各ファーマコフォア中心は、(i)空間位置と(ii)ある化学特性を特定する所定のファーマコフォア型とを含むことを特徴とする。 基本セットのファーマコフォア型には、少なくとも、水素結合受容体(アクセプター)、水素結合供与体(ドナー)、マイナス電荷中心、プラス電荷中心、疎水性中心、芳香族中心、ならびに、他のいずれのファーマコフォアの型にも入らないデフォルトカテゴリが含まれる。 基本セットの最後のカテゴリ(すなわち、デフォルトカテゴリ)を用いることにより、ファーマコフォア・フィンガープリントに基づく構造活性相関の予測能を高めることができる。 部分原子電荷のようなパラメータに基づいて、デフォルトカテゴリを、さらに、サブカテゴリに分類するようにしても良い。

    【0017】 ファーマコフォア中心の空間位置を、隣接するファーマコフォア中心間の隔絶距離、あるいは、より好ましくは、隔絶距離範囲として与えるようにしてもよい。 例えば、ファーマコフォアが、各々、3つのファーマコフォア中心を有するような構成でもよい。 また、中心の位置が、原子の位置あるいは(例えば、芳香族中心の場合)環セントロイドの位置に対応するようにしてもよい。

    【0018】 基本セットは、活性に影響を与える可能性のあるファーマコフォアの大部分を含むのに充分な大きさと多様性を有していることが好ましい。 例えば、基本セットが、少なくとも5000の異なったファーマコフォアを含む、より好ましくは、10,000の異なったファーマコフォアを含む構成でもよい。

    【0019】 ファーマコフォア・フィンガープリントは、好ましくは、ビット列であり、種々のファーマコフォアに対応する個々のビットにより基本セットが形成される。
    例えば、基本セットに5000のファーマコフォアが含まれる場合、フィンガープリントは5000ビットであり、各ビットの位置が、基本セットに含まれる各々のファーマコフォアに対応する。 例えば、値「1」に設定されたビット位置は、該当するファーマコフォアが、フィンガープリントの対象である化合物の構造にマッチングすることを示す。 また、値「0」に設定されたビット位置は、該当するファーマコフォアが、対象化合物の構造にマッチングしないことを示す。 この例では、「1」に設定されたビット位置の集合が、対象化合物にマッチングするファーマコフォアの集合になる。 記憶容量の節約のために、ビット列を圧縮してもよい。

    【0020】 本発明で用いられるファーマコフォア・フィンガープリントは、以下のステップを備える方法で作成される。 すなわち、ファーマコフォア・フィンガープリントの作成方法は、(a)所定の化合物を表す機械読み取り可能な3次元表現を入力するステップと、(b)各々異なる化学特性を規定するファーマコフォア型を、前記化合物の3次元表現における位置に割り当てるステップと、(c)前記化合物の対象コンホメーションを選択するステップと、(d)ファーマコフォア型に関係づけられた3以上の空間的に隔たったファーマコフォア中心を各々有するファーマコフォアからなるファーマコフォアの基本セットを、化合物の対象コンホメーションと比較して、マッチングするものを特定するステップと、(e)前記化合物と前記基本セットに含まれるファーマコフォアとのマッチングに基づき、ファーマコフォア・フィンガープリントを作成するステップと、を備える。 通常、ステップ(a)ないしステップ(e)を繰り返して実行し、フィンガープリントの対象となる化合物群に含まれるすべての化合物に対するファーマコフォア・
    フィンガープリントを作成する。 ファーマコフォア・フィンガープリントは、好ましくは、ビット列であり、種々のファーマコフォアに対応する個々のビットにより基本セットが形成される。 この場合、フィンガープリントを圧縮してもよい。

    【0021】 所定の化合物の機械読み取り可能な3次元表現は、前記化合物中に含まれる原子、原子の相対的な空間位置、並びに、前記化合物中に含まれる結合の結合次数を規定する。 ファーマコフォア型を化合物内の位置に対応させる場合、芳香族中心ファーマコフォア型を、前記化合物の3次元表現における芳香族環内部の位置に対応させるようにしてもよい。 この場合、水素結合受容体、水素結合供与体、
    マイナス電荷中心、プラス電荷中心、および、疎水性中心等の他のファーマコフォア型は、前記化合物の3次元表現における原子の位置に対応させる。

    【0022】 ファーマコフォアの基本セットを化合物の対象コンホメーションと比較して、
    マッチングするものを特定するステップは、化合物の対象コンホメーションに含まれるファーマコフォア型に対応づけられた位置と同一の相対的な位置に存在する同一のファーマコフォア型を有するファーマコフォアを、基本セット内で、特定することにより実行される。

    【0023】 化合物の3次元表現に含まれる結合を回転することにより、化合物のコンホメーションを調整することが望ましい。 対象となる化合物が、基本セットとの比較、マッチングに際して考慮すべきコンホメーションを複数有している場合がある。 この場合、化合物の3次元表現に含まれる複数の結合を繰り返し回転することにより、これら複数のコンホメーションを実現できる。

    【0024】 ファーマコフォア・フィンガープリントを構造記述子として用いて、構造活性相関を実行することができる。 したがって、本発明の別の態様は、化合物に関する構造活性相関解析を実行する方法を提供することである。 この方法は、(a)
    トレイニングセットに含まれる化合物のファーマコフォア・フィンガープリントで、各々、ファーマコフォアの3次元の重なりを規定するファーマコフォア・フィンガープリントを入力するステップと、(b)前記トレイニングセットに含まれる化合物の活性値を入力するステップと、(c)フィンガープリントを活性値に関連づける関数を用いて、構造活性相関を実行するステップと、を備える。 構造活性相関を実行した後、「テストセット」に含まれる化合物のフィンガープリントを用いて、構造活性相関の妥当性を評価するようにしてもよい。 測定可能な物理特性あるいは化学特性のうち任意のものを活性として利用可能であるが、現在のところ、生理活性が最もよく用いられている。 生理活性は、例えば、トレイニングセットに含まれる化合物に対する結合アフィニティ(親和性)として表すことができる。

    【0025】 任意の適当な関数を用いて、フィンガープリントを構造活性相関における活性値に関係づけることができる。 例えば、回帰関数を用いることができる。 回帰関数の特に望ましい例としては、部分最小2乗法が挙げられる。 他に、ニューラルネットワーク(神経回路網)や遺伝的アルゴリズムも好適に用いられる。

    【0026】 以上のようにして本発明の方法で実行される構造活性相関は、様々に適用可能である。 重要な適用例の1つとして、化合物のプライマリ・ライブラリあるいは標的ライブラリを構築するために、化合物群をスクリーニングする際に、構造活性相関が利用される。

    【0027】 本発明は、さらに、ケミカルスペース(化学空間)の高活性領域を特定し、表現し、生産的に利用する装置並びに方法を提供する。 ケミカルスペースを表すものとしては、様々な表現が用いられているおり、さらに別のものを想定することも可能である。 本発明の好適な態様では、少なくとも二種類の表現で、有用な情報が得られる。 第一の表現は、ファーマコフォアの基本セットにより定義される多数の次元と、さらに、(薬理活性等の)所定の化学活性を表す1つあるいは複数の追加次元を用いるものである。 第二の表現は、次元数を削減したものであり、適当な数学的手法を用いて、第一の表現から第二の表現の座標値を誘導する。
    第二の表現の例としては、例えば、化合物群に関するファーマコフォア・フィンガープリント/活性データを用いて、主要コンポーネント解析により得られる主要コンポーネントが挙げられる。

    【0028】 適当な「変換」法により、第一表現と第二表現の間の変換を行うようにしてもよい。 「調査対象」とした一群の化合物に含まれる化合物に関するファーマコフォア・フィンガープリントをケミカルスペースの第二の表現に変換する場合には、スクリーニングを実行して、これらの化合物のうち高活性を有するものを抽出する。 高活性領域内に存在する化合物は所望の活性をもち、一方、高活性領域外に存在する化合物は所望の活性をもたないと考えられる。 高活性領域内の化合物を選択して、高活性領域の特異性に応じて、プライマリ・ライブラリ、あるいは、より限定されたライブラリ(例えば、特定ライブラリ)を作成するようにしてもよい。

    【0029】 本発明の別の態様は、ケミカルスペース内で所定の活性を有する1つあるいは複数の領域の特定である。 最初に、所定の活性に関係する化合物からなる化合物の「リファレンス(参照)」セットを準備する。 つぎに、リファレンスセットのファーマコフォア・フィンガープリントを作成する。 その後、リファレンスセットのファーマコフォア・フィンガープリントを所定の活性に関連づける。 この場合、所定の活性に関連づけられるケミカルスペースの少なくとも1つの領域を特定することが望ましい。 関連づけの工程では、さらに、所定の表現で表されるケミカルスペースを削減された次元数で表される空間に変換するようにしてもよい。

    【0030】 たとえば、薬理活性のような生理活性を所定の活性としてもよい。 あるいは、
    吸収、分布、経口生物学的利用率、代謝、排泄等の、生物学的標的への結合に無関係な特性を所定の活性としてもよい。 薬理活性を所定の活性とした場合、リファレンスセットには薬理活性化合物が含まれる。 この場合、薬理活性化合物のデータベースのサブセットをリファレンスセットとしてもよい。 例えば、リファレンスセットは、MDL Drug Data Reportを構成する化合物である。 あるいは、
    MDL Drug Data Reportのサブセットをリファレンスセットとしてもよい。 また、生理活性分子で構成される他のデータセットをリファレンスセットとしてもよい。

    【0031】 炭素、窒素、酸素、水素、イオウ、リン、フッ素、臭素、塩素、ヨウ素原子のいずれか、あるいはその混合物のみを含む所定の分子量範囲(約200ダルトンから約700ダルトンの範囲)の化合物を選択することにより、薬理活性化合物のデータベースからサブセットを準備するようにしてもよい。 例えば、データベースに含まれる1つの化合物の構造表現と別の化合物の構造表現との間のTanimo
    to係数が設定値(例えば、約0.8)よりも大きい場合には、その化合物をサブセットから除外するようにしてもよい。

    【0032】 任意の適当な数学的手法を用いて、リファレンスセットのファーマコフォア・
    フィンガープリントをケミカルスペースにおける所定の活性に関係づけることができる。 特に好ましい手法は、関連づけと同時にケミカルスペースの次元数も削減する主要コンポーネント解析である。 他に、バックプロパゲーション・ニューラルネットワーク(逆誤差伝搬神経回路網)、部分最小2乗法、多重直線回帰、
    遺伝的アルゴリズム等の適当な手法を用いてもよい。

    【0033】 また、ファーマコフォア・フィンガープリントを所定の活性に関連づける場合に、ケミカルスペースを表す表現を、ファーマコフォア基本セットの各構成要素がケミカルスペースの次元に対応する第一の表現から、主要コンポーネントがケミカルスペースの次元に対応する第二の表現に変換するようにしてもよい。 例えば、主要コンポーネントを次元軸とするケミカルスペースの第二の表現で、リファレンスセットの化合物を表示するようにしてもよい。

    【0034】 本発明のさらに別の態様は、化合物ライブラリの作成である。 まず、(可能ならば、上述の方法にしたがって)所定の活性を有する1つあるいは複数の領域をケミカルスペース内で特定する。 次に、ライブラリ用の調査対象とした一群の化合物(以下、調査セットという)に含まれる化合物のファーマコフォア・フィンガープリントを準備する。 その後、調査対象セットに含まれる化合物のうち、所定の活性を有する1つあるいは複数の領域内に存在するファーマコフォア・フィンガープリントを有する化合物のサブセットを特定する。 サブセットが、化合物ライブラリを構成する。 ケミカルスペース内で所定の活性を有する1つあるいは複数の領域と実質的にオーバーラップする調査セットの構成要素を特定することにより、調査セット化合物のサブセットを選択してもよい。 例えば、ライブラリがプライマリ・ライブラリで、ケミカルスペース内で所定の活性を有する1つあるいは複数の領域は、複数の治療活性にまたがるような構成でもよい。

    【0035】 また、本発明は、調査セットの化合物の中からサブセットを選択する一般的な方法を提供する。 この方法は、例えば、遺伝的アルゴリズムであり、(a)調査対象とした一群の化合物(以下、調査対象セットという)の中から対象サブセットをランダムに抽出するステップと、(b)対象サブセットと、ケミカルスペースの所定領域内のリファレンスセットとのオーバーラップ(重なり)を算出するステップと、(c)算出されたオーバーラップに基づいて、調査対象セットの化合物の中から抽出された現対象サブセットあるいは前対象サブセットのいずれかを選択するステップと、(d)選択されたサブセットの突然変異を実行し、その構成要素を交換するステップと、(e)オーバーラップが収束するまでステップ(b)ないしステップ(d)を繰り返して行うステップと、を備える。 例えば、グリッド(格子)により、ケミカルスペースをセルに分割してもよい。 この場合、
    グリッド内の各セルに関してオーバーラップを算出して、それを平均する。

    【0036】 本発明のさらに別の態様は、機械読み取り可能な媒体上に記憶されるケミカルスペースの表現を実現するコンピュータプログラム製品である。 ケミカルスペースの表現は、ファーマコフォア・フィンガープリントとリファレンスセットの化合物の中から選択された複数の化合物に関する活性から誘導される1つあるいは複数の主要コンポーネントに関する位置により、化合物を同定する。 また、ケミカルスペースの表現は、所定の活性を有する1つあるいは複数の領域を規定する。

    【0037】 本発明の上述した、あるいは、他の特徴や利点を、以下、関連する図面を参照しながら説明する。

    【0038】

    【好適な実施例の詳細な説明】

    以下、さらに理解を深めるために、本発明を、図面を参照しながら、説明する。 好適な実施例に関して本発明を詳述するが、本発明は以下の実施例に何ら限定されるものではなく、本発明の要旨の範囲内で、様々に、変更、変形可能である。

    【0039】 図1は、ファーマコフォア・フィンガープリントを作成し、作成されたファーマコフォア・フィンガープリントを構造活性相関(例えば、定量的構造活性相関(QSAR))に適用する処理を示すフローチャートである。 結果として得られた構造活性相関を用いて、特定ライブラリを構築する。 図1には、本発明で利用される重要な演算処理の概要を示す。

    【0040】 図1の処理が開始されると、まず、ステップ1で、ファーマコフォア・フィンガープリントのためのトレイニングセットを特定する。 トレイニングセットは、
    最終的には、構造活性相関作成のために用いられる。 トレイニングセットは、例えば、200の構造的に多様な化合物の集合であり、そのうち100は、標的A
    に結合することが、また、残りの100は、標的Aに結合しないことが知られている。

    【0041】 次に、ステップ3で、トレイニングセットに含まれる各化合物に関してファーマコフォア・フィンガープリントを作成する。 この工程に関しては、図2を参照して詳細に後述する。 作成されたファーマコフォア・フィンガープリントにより、1つあるいは複数のコンホメーションを有する化合物の構造を、簡便に表すことができる。 ファーマコフォアの基本セットに対して、対象となる化合物のコンホメーションをマッチングさせることにより、フィンガープリントが作成される。

    【0042】 フィンガープリント作成が完了した後、ステップ5で、構造活性モデルを形成する。 モデル形成のために、適当な手法で、トレイニングセット化合物の活性とフィンガープリントを入力する。 ここで、フィンガープリントは、構造記述子(
    デスクリプタ)として機能する。 次に、活性をファーマコフォア構造に相関させたモデルを作成する。 例えば、ニューラルネットワーク(神経回路網)、遺伝的アルゴリズム、回帰法等の手法により、ファーマコフォア・フィンガープリントを生理活性に相関させる。 好適な一例として、回帰法の一手法である部分最小2
    乗法(PLS)を用いて、活性とファーマコフォア・フィンガープリントを関連づけるようにしてもよい。

    【0043】 ステップ5で作成されたモデルの妥当性を、ステップ7で、化合物のテストセットを用いて評価することが望ましい。 妥当性の評価は、作成されたモデルの予測能力を確認することにより行われる。 このため、化合物のテストセットには、
    トレイニングセット以外の化合物が含まれる。 テストセットの化合物の活性は既知であるか、あるいは、合理的に予測可能なものであればよい。 テストセットのファーマコフォア・フィンガープリントを作成して、ステップ5で形成されたモデルに入力する。 モデルは、ファーマコフォア・フィンガープリントに基づいて、活性の予測を行う。 よいモデルであれば、正確に活性を予測することができる。 予測能力は、テストセットに対するモデルのクロス評価結果(q 2 )で測定される。 ただし、トレイニングセットの活性データに関連づけたモデルの能力は、
    ノンクロス評価結果(r 2 )で測定される。

    【0044】 テストセットにより、作成されたモデルが充分に高い予測能力を有していると判定された場合には、そのモデルの「妥当性が評価され」、活性の予測に用いることができる。 逆に、作成されたモデルがテストセットの活性予測に不適切であった場合には、モデルをリファインするか、あるいは、捨てる。 例えば、トレイニングセットを変更してもよいし、あるいは、別の回帰手法を採用してもよい。

    【0045】 モデルの妥当性が評価された場合には、図1のステップ9で、ファーマコフォアモデルを用いて、ライブラリあるいはコーポレートデータベースのデザインおよび/あるいはスクリーニングを行う。 例えば、モデルを用いて、コンビナトリアルライブラリやコーポレートデータベースを数理的にスクリーニングして、生理活性化合物のアナログ(類縁体)を見つける。 類似のファーマコフォア・フィンガープリントを有する分子は、通常、類似の活性を有する。 ただし、2つの化合物間のファーマコフォア類似性あるいは非類似性のすべてが活性に関係するわけではない。 ステップ5で作成され、ステップ7で評価された構造活性モデルにより、ファーマコフォア類似性/非類似性の中で活性と関係するものを、関係しないものと識別する。 活性に関係するファーマコフォア情報を用いて、ライブラリをデザインする。

    【0046】 ファーマコフォア・フィンガープリントは、構造活性モデル以外の観点からも、かなりの重要性をもつ。 Tanimoto係数は、2つの分子のファーマコフォア・フィンガープリントの類似性測定に便利な方法である。 簡単に説明すると、Tanimo
    to係数は、N 1&2 /(N 1 + N 2 − N 1&2 ) と定義される。 ここで、N 1は、ビットストリング1に設定されたビット数であり、 N 2は、ビットストリング2に設定されたビット数である。 また、 N 1&2は、ビットストリング1とビットストリング2
    とのブールAND 演算により形成されたビットストリングに設定されたビット数である。 すなわち、 N 1&2は、ビットストリング1とビットストリング2が共有するビット数である。 ライブラリを構成する要素の候補と生理活性分子との間のT
    animoto係数により、その候補の潜在値がおおまかに最初の指標として示される。 ただし、ファーマコフォア・フィンガープリントがかなりの程度オーバーラップする場合には、外見上構造が非類似の化合物でも類似の生理活性を持つことがある。 すなわち、ファーマコフォア・フィンガープリントにより、化合物間の隠された構造類似性の特定が可能になる。

    【0047】 上述したように、モデル作成の最初の段階として、化合物のトレイニングセットを注意深く選択する必要がある。 一般的にいって、トレイニングセットに含まれる各構成要素は、合成され、既知の活性を有するものならば、いかなる化合物でもかまわない。 ただし、トレイニングセットに含まれる化合物は、構造的に多様であり、広い範囲に異なる生理活性を有し、標的にかなりの特異性をもつものでなければならない。 構造および活性が大きく異なっていれば、作成されたモデルの妥当性を高めることができるし、また、トレイニングセットに含まれる化合物が同一のファーマコフォア・フィンガープリントを持ちながら異なった生理活性を有するという負の可能性を減少させることができる。 トレイニングセットに含まれる化合物のうちかなりの割合のものは不活性である必要がある。 これにより、活性を制御する構造特性が明確に特定可能になる。 表面的な構造類似性を有する一方、非常に異なった活性を持つ化合物群が、モデル作成に望ましい。

    【0048】 例えば、トレイニングセットが、連続的に分布するリガンドアフィニティ値(
    IC 50あるいはEC 50 )からなる生理活性値を有する構造的に多様なリガンドから構成されるようにしてもよい。 トレイニングセットに含まれる各化合物の生理活性の大きさのオーダーが数次にわたっていることが望ましい。 この場合、所定の生物学的標的(例えば、エストロゲンレセプタ)に対するリガンドアフィニティから、リガンドの生理活性値が誘導される。

    【0049】 別のアプローチとして、トレイニングセットに含まれる各化合物を活性か不活性かで規定するようにしてもよい。 この場合には、正確な活性値は用いない。 例えば、1.0と0.0のような所定の数値を活性グループと不活性グループに割り当てる。 この手法は、活性測定値の精度が限られている場合などに適している。 例えば、生理活性に関して、プライマリ・ライブラリの最初のスクリーニングで、化合物を活性グループと不活性グループに分類する。 実際には、活性化合物は、所定の閾値以上の活性値(例えば、アフィニティ値(IC50あるいはEC50
    ))を有する。 例えば、代表的なアッセイで、1.0 m以上のアフィニティ値を有する化合物を活性とし、1.0 m未満のアフィニティ値を有するリガンドを不活性としてもよい。

    【0050】 図1に示したように、ステップ3で、トレイニングセットに含まれる各化合物のフィンガープリントが実行される。 フィンガープリントにより、対象となる化合物の構造を表すファーマコフォアのリストが作成される。 フィンガープリントを以下の手順で実行するようにしてもよい。 まず、ファーマコフォア型(例えば、マイナス電荷、水素結合供与体、疎水性領域等)をフィンガープリントの対象となっている化合物のサブストラクチャー(例えば、原子)に対応づける。 次に、対象構造のエネルギ的に妥当なコンホメーションすべてを規定して、ファーマコフォア基本セットとのマッチングを行う。 マッチングは、ファーマコフォア基本セットに含まれる構成要素と各妥当なコンホメーションとを比較することにより行われる。 対象コンホメーションに含まれるファーマコフォア中心間の距離を測定して、基本セットに含まれるファーマコフォアのいずれかにマッチングする可能性のあるマッチング候補を求める。 対象コンホメーションに含まれるファーマコフォア候補が基本セットに含まれるファーマコフォアとマッチングした場合には、対象構造に関するファーマコフォア・フィンガープリントに登録する。 対象構造に関して規定されたすべてのコンホメーションと基本セットとの比較を行うことにより、その対象構造に関するファーマコフォア・フィンガープリントを完成させる。

    【0051】 図2は、ファーマコフォア・フィンガープリントを作成する好適な方法の詳細を示すフローチャートである。 適切に構成されたディジタルコンピュータ等を用いて、フィンガープリントを規定する工程を自動化することが望ましい。

    【0052】 まず、ステップ201で、コンピュータシステムは、ファーマコフォアの基本セットを入力する。 基本セットは、前もって作成し、様々な化合物のフィンガープリントに利用可能なようにしておくことが望ましい。 基本セットは、通常、広範囲の活性(例えば、エストロゲンレセプタ結合、レトロウィルス由来の逆転写酵素阻害剤等)に関係する可能性のある構造を表すように作成される。 あるいは、所定の活性群に関して、基本セットを特別に設計するようにしてもよい。

    【0053】 基本セットに含まれる各ファーマコフォアは、ファーマコフォア中心群を有する。 基本セットに含まれるすべてのファーマコフォアが、同一数(例えば、3)
    の中心を有することが望ましい。 各ファーマコフォア中心は、相対的な位置とファーマコフォア型により規定される。 相対的な位置は、化学特性(ファーマコフォア型)の空間的な配置を表す。

    【0054】 図3は、ある種類の基本セット構造で用いられる3点ファーマコフォアを示す。 ここで、ファーマコフォア中心P1、P2、P3が三角形の頂点を形成し、D1、
    D2、D3は、それぞれ、P2とP3、P1とP3、P1とP2間の距離を表す。

    【0055】 基本セット構造で用いられるファーマコフォア型の数を、適用に応じて変更するようにしてもよい。 望ましい構成の一例として、基本セットで利用可能なファーマコフォア型は、水素結合受容体(A)、水素結合供与体(D)、負の形式電荷群(N)、正の形式電荷群(P)、疎水性群(H)、ならびに、芳香族群(R
    )を含む。 さらに好ましくは、基本構造に含まれるファーマコフォア型が、上述6種類の型に加えて、上述の6種類の型のいずれにも分類されない原子を表すデフォルト群(X)を含む。

    【0056】 ファーマコフォア型を隔てている距離の数並びに大きさも変更可能である。 活性に影響を与え、実際の化合物の大きさを表していると考えられる距離に基づき、その変更範囲を選択する。 例えば、6種類の距離範囲(D1、D2、D3)を2
    . 0−4.5オングストローム、4.5−7.0オングストローム、7.0−1
    0.0オングストローム、10.0−14.0オングストローム、14.0−1
    9.0オングストローム、19.0−24.0オングストロームで基本セットを形成するようにしてもよい。

    【0057】 ファーマコフォア毎の中心数が固定されている場合、基本セットを構成するファーマコフォアの数は、利用可能なファーマコフォア型の数および利用可能な距離範囲の数によって決まる。 当然のことながら、距離範囲やファーマコフォア型の数が多ければ多いほど、基本セットを構成するファーマコフォアの数が多くなる。 以下に説明する例では、10,000を越えるファーマコフォアをフィンガープリント処理に用いることができる。

    【0058】 図2に戻って、ステップ201で適当な基本セットを入力した後、コンピュータシステムは、ステップ203で、フィンガープリントの対象化合物を選択し、
    その化合物の構造を入力する。 トレイニングセットの場合、多数の化合物のフィンガープリントが順に実行される。 この場合には、各化合物が、順番に、「対象化合物」として選択される。

    【0059】 入力構造は、その化合物に含まれる原子の相対的な空間位置と、原子を接続する結合の種類(イオン結合、共有単結合、二重結合等)とを規定することが望ましい。 原子の位置は、3次元空間で規定される。 標準化されたフォーマットで化合物の構造がコンピュータシステムに入力されることが望ましい。 システムが、
    化合物データベースにアクセスして、その中から化合物を選択するようにしてもよい。 入力構造の望ましいフォーマットの1つを、図4を参照して後述する。

    【0060】 対象化合物の3次元構造を入力後、システムは、ステップ205で、その構造に含まれる原子にファーマコフォア型を対応させる。 原子マッピングアルゴリズムを用いて、ファーマコフォア型を対応させるべき位置のサブストラクチャー検索を実行するようにしてもよい(DJ Gluck, J. Chem. Doc., 1965, 5, 43参照。これを本明細書に参考文献として組みいれる)。 サブストラクチャーは、通常、原子であり、場合によっては、環中心(例えば、芳香族中心)である。 いずれのサブストラクチャーがいずれのファーマコフォア型に対応するかを示すヒューリスティックスでファーマコフォア型の割り当てを行う。 例えば、アミン窒素をプラス電荷(P)に、カルボキシラート基酸素を水素結合受容体(A)に、フェニル基を芳香族中心(R)に対応させる。 望ましくは、ステップ205において、どの型にもラベリングされず残った原子をX型ファーマコフォア型とする。

    【0061】 補遺に、本発明の好適な実施例で用いられるヒューリスティックスの例を示す。 このヒューリスティックスでは、6種類のファーマコフォア型、すなわち、水素結合受容体(A)、水素結合供与体(D)、疎水性(H)、マイナス電荷(N
    )、プラス電荷(P)、芳香族(R)が規定される。

    【0062】 補遺の第一段落に、サブストラクチャーを規定するために用いられるフォーマットを示す。 まず、補遺の第一レコードを説明すると、ライン1のハッシュ記号は、新しいレコードの開始を示す。 第一レコードのライン2は、サブストラクチャーに含まれる原子数と結合数を示す。 この場合、サブストラクチャーは酸素原子であるため、サブストラクチャーに含まれる原子数は1で、結合数は0である。 これを、ライン2で1、0と示す。 第一レコードのライン3は、原子の種類、
    ラベリング状態、他の原子に対する結合数を示す。 すなわち、Oは原子の種類が酸素であることを示し、Y、0は、ラベリングされたこと、任意の数の原子に酸素が結合可能であることを、それぞれ示す。

    【0063】 第二レコードは、任意の二重結合性窒素原子を示す。 第二レコードのライン2
    の3、2は、それぞれ、サブストラクチャーに3つの原子と2つの結合が含まれることを示す。 第二レコードのライン3のN、Y、2は、それぞれ、原子の種類が窒素で、ラベリングされたこと、他の原子に対する結合数が2であることを示す。 ライン3および4は、2つのA原子が他の原子に対して任意の結合数を有することを示す。 最後のライン5および6は、結合状態を規定する。 1つめの数字と2つめの数字が結合に関与する原子を示し、3つめの数字が結合次数を規定する。 すなわち、ライン5は、第一A原子と窒素原子との間の単結合を、ライン6
    は、第二A原子と窒素原子との間の二重結合を示す。

    【0064】 図2に戻って、対象化合物にファーマコフォア型を対応させた後、ステップ2
    07で、その化合物に関して適当と思われるコンホメーションを特定する。 ここで、対象構造に関して、エネルギ的に妥当なコンホメーションすべてを特定することが望ましい。 これには、環状構造(例えば、シクロヘキサン環のアキシアル配座およびエクアトリアル配座)のコンホメーションや様々な結合の回転位置が含まれる。 環状コンホメーションの各々を、独自の回転結合コンホメーションを有する別々の化合物として処理するようにしてもよい。 このような化合物のフィンガープリントは、各環状コンホメーションに関するファーマコフォア・マッチングの複合体として得られる。

    【0065】 処理の手順を説明する。 まず、対象化合物のすべての回転可能な結合を特定し、回転される対象構造の原子の数に基づいて、回転可能結合をランク分類する。
    最も重要な結合は、対象構造において最も多くの原子を回転させるものである。
    次に、対象構造のすべてのコンホメーションを再帰的に形成する。 そして、各コンホメーションのエネルギを計算して、閾値よりも高いエネルギレベルのコンホメーションを捨てる。 次に、すべての可能なコンホメーションの中から残ったサブセットを用いて、対象化合物のファーマコフォア・フィンガープリントを作成する。 演算処理の負荷を軽くするために、処理されるコンホメーションの数を所定数(例えば、1000)に限定するようにしてもよい。 この場合、最大数の原子を回転させる回転可能結合を最初に回転して、コンホメーションが所定数に到達した場合でも、もっとも重要度の低い回転が評価されずに残るようにする。 すなわち、この場合には、より高い重要度にランクされたコンホメーションのみが処理対象となる。 そうでなければ、コンホマー(配座異性体)を処理する順番に何の意味もなくなってしまう。 適当なコンホメーション作成処理の一例を、図7
    A、7B、7Cを参照して、後述する。

    【0066】 対象化合物に関して、すべての適当と思われるコンホメーションを特定した後、順にそのコンホメーションを調べる。 コンホメーションを1つ選択し、これと基本セットとのマッチングを行い、次に、別のコンホメーションを選択し、これと基本セットとのマッチングを行うという処理を繰り返して、すべてのコンホメーションに関してマッチングを行う。 すなわち、図2のステップ209で、選択された対象コンホメーションの3次元構造を形成し、ステップ211で、形成された構造と基本セットとのマッチングを行う。 マッチングが完了した後、ステップ213で、未処理のコンホメーションが残っているか否かを判定する。 未処理のコンホメーションがある場合には、処理がステップ209に戻り、次のコンホメーションを選択して、その3次元構造を形成する。 ある対象構造に対してステップ207で特定されたすべての可能なコンホマーに関して、基本セットとのマッチングが完了するまで、この処理を繰り返す。

    【0067】 対象コンホメーションにおける3つのサブストラクチャーのすべての可能な組み合わせに関して(3点ファーマコフォアの場合)、ステップ211のマッチング処理を実行するようにしてもよい。 各組み合わせに対して、(ステップ205
    で割り当てられた)対応するファーマコフォア型と隔絶距離とを求める。 これによって規定されたファーマコフォア候補を基本セットのファーマコフォアと比較する。 マッチングするものは、すべて、フィンガープリントに寄与するものとして記憶する。 最終的なフィンガープリントでは、マッチングする基本セットファーマコフォアに対応するビット位置に1を設定する。 図12は、エストロゲンレセプタの天然リガンドであるエストラジオール(上)と強力なアンタゴニストであるジエチルスチルベストロール(下)に対する所定のファーマコフォアのマッチングを示す。

    【0068】 対象化合物に関して、すべての適当と思われるコンホマーの処理を完了すると、ステップ213の判定結果がNOとなる。 この時点で、処理は215に進み、
    対象化合物に関するビット列で表されたフィンガープリントが完成する。 一般的にいって、異なった環状コンホメーションに由来するものも含むすべての適当と思われるコンホマーの処理が完了したときにはじめて、フィンガープリントが完成する。

    【0069】 対象構造のファーマコフォア・フィンガープリントが、 ビットの長さのバイナリ−ビットストリングを含むようにしてもよい。 ここで、 は、、基本セットに含まれるファーマコフォアの数を示す。 各ビット位置が、基本セットの各ファーマコフォアに対応する。 望ましい一例では、対象化合物のファーマコフォア・
    フィンガープリントが10,549ビットのビットストリングからなり、各ビットが基本セットファーマコフォアの各構成要素に対応する。

    【0070】 ビット位置に1が設定されている場合には、対象化合物の少なくとも1つのコンホメーションに関して、対応する基本セットファーマコフォアが存在することを示す。 ビット位置に0が設定されている場合には、対象化合物のエネルギ的に妥当な立体配置のいずれに関しても、対応する基本セットファーマコフォアが存在しないことを示す。 ステップ215で、対象構造に関して完成したファーマコフォア・フィンガープリントに加えて、対象化合物のトラックを保存するラベルとなる「化合物ID」を所定のデータフィールドに出力するようにしてもよい。

    【0071】 フィンガープリントを他のフォーマットで作成することもできる。 上述のフォーマットでは、所定のファーマコフォアを1つのビットで表し、化合物中にそのファーマコフォアが何度出現するかにかかわらず、値「1」が設定される。 基本セットに含まれる所定のファーマコフォアが化合物中で複数回出現することも充分にありえる。 このため、ファーマコフォアの出現回数をフィンガープリントで規定するようにしてもよい。 また、当業者に周知のさらに別のフォーマットを用いてもよい。

    【0072】 記憶容量を節約するために、ステップ217で、ファーマコフォア・フィンガープリントを圧縮するようにしてもよい。 例えば、32ビットのコンピュータを使う場合には、フィンガープリントのビットストリングにおける各32ビットをコンピュータメモリの1整数単位(integer)として表すことができる。 したがって、10,549ビットからなるビットストリングを、コンピュータメモリの330整数単位に圧縮することができる。 あるいは、64ビットのコンピュータであれば、ビットストリングにおける各64ビットを1整数単位に圧縮できる。
    この場合には、10,549ビットからなるビットストリングを、コンピュータメモリの165整数単位に圧縮することができる。 演算の必要に応じて、ファーマコフォア・フィンガープリントを簡単に1整数単位あるいはビット毎の浮動小数点数に分解可能である。 ただし、演算によっては、ビット列の分解は必要ではない。 例えば、Tanimoto係数を、通常のプログラミング言語におけるビット演算子を用いて算出するようにしてもよい。

    【0073】 適当なフォーマットで対象化合物のフィンガープリントを作成し、これを記憶した後、ステップ219で、処理すべき化合物が残っているか否かを判定する。
    トレイニングセットには、通常、多くの異なった化合物が含まれ、その各々に関してフィンガープリントを作成する必要がある。 ステップ219の判定がYES
    であれば、処理はステップ203に戻り、次の処理対象化合物(新しい「対象化合物」)に関する構造を入力する。 ステップ219の判定がNOであれば、トレイニングセットを構成するすべての化合物に関してファーマコフォア・フィンガープリントを作成したことになるので、処理を完了する。

    【0074】 上述したように、フィンガープリントに、基本セットに含まれる各ファーマコフォアの識別子を含むように構成してもよい。 図2の処理では、ステップ201
    で基本セットを準備し、ステップ211で基本セットを用いてマッチングを行う。 前記したように、基本セットのファーマコフォアは、3点ファーマコフォアである。 言い換えると、ファーマコフォアは、通常、三角形で規定され、場合によっては、線として規定される。 2、4、5、6点中心等、他の数の中心をファーマコフォアがもつようにしてもよい。 2点ファーマコフォアは1次元で、3点ファーマコフォアは、1次元あるいは2次元である。 それ以上の数の中心点を持つファーマコフォアは、1次元、2次元、あるいは、3次元になる。

    【0075】 ファーマコフォアに含まれる各ファーマコフォア中心は、ファーマコフォア型に対応する。 ファーマコフォア型には、例えば、芳香族中心(R)、水素結合受容体(A)、水素結合供与体(D),マイナス電荷中心(N)、プラス電荷中心(P)、疎水性中心(H)がある。 さらに、これらのいずれの型にも分類されない原子を、デフォルト型(X)とすることが望ましい。 用いられるファーマコフォア型が上述の7種類の型のみという構成が特に望ましい。 (図3に示すD1、
    D2、D3に関して)6種類の距離範囲、すなわち、2.0−4.5オングストローム、4.5−7.0オングストローム、7.0−10.0オングストローム、
    10.0−14.0オングストローム、14.0−19.0オングストローム、
    19.0−24.0オングストロームで、ファーマコフォア中心が隔てられるように構成してもよい。 基本セット形成に用いられるファーマコフォアの数、ならびに、距離範囲の数および距離範囲の値は容易に変更可能である。

    【0076】 ファーマコフォア型と距離のすべての可能な組み合わせを実現することにより、種々のファーマコフォア基本セットを作成可能である。 望ましい構成として、
    2つの追加条件を加えることにより、3点ファーマコフォアからなる基本セットの大きさを削減することができる。 三角形ルールにより、幾何学的に不可能な3
    点ファーマコフォアが除外される。 図3において、3点ファーマコフォアを規定する三角形の一辺の長さが他の2辺の長さの合計を超える場合には、そのファーマコフォアを基本セットから除く。 次に、基本セットにすでに存在する3点ファーマコフォアに対称群として関連づけられる3点ファーマコフォアを基本セットから除く。

    【0077】 上述の2つの条件を適用することにより、例えば、基本セットは、7種類の異なったファーマコフォア型と6種類の異なった距離範囲の組み合わせで規定される10,549の3点ファーマコフォアを含む。 あるいは、上述の2つの条件を適用することにより、例えば、基本セットは、6種類の異なったファーマコフォア型と6種類の異なった距離範囲の組み合わせで規定される6,726の3点ファーマコフォアを含む。

    【0078】 先に述べたように、活性に関係する大部分の構造を規定可能なように、基本セットは充分大きなものでなければならない。 多くの場合には、基本セットが少なくとも5,000の化合物をその構成要素として含むことが望ましい。 さらに好ましくは、少なくとも10,000の化合物を含む。

    【0079】 フィンガープリントに用いられる対象化合物の構造表現は、ファーマコフォアの基本セットとの比較がしやすいものでなければならない。 すなわち、ファーマコフォアとのマッチング結果を示すことができるものでなければならない。 ファーマコフォアは、所定の距離だけ離れたファーマコフォア型の組み合わせで規定されるため、化合物の構造表現もファーマコフォア型とその間の隔絶距離とを示すものでなければならない。

    【0080】 SMILESや2D−3D等の周知のフォーマットで化合物を表現するようにしてもよい。 このようなフォーマットでは、所定の結合により接続される原子の一覧として、化合物を示す。 ファーマコフォアとのマッチングに利用可能なように、化合物に含まれる原子を3次元空間で表現する必要がある。 そのように表現された化合物を図2の処理(ステップ203の工程)で用いる。

    【0081】 図2の処理において有用な3次元構造作成法の一手法を図4に示す。 図示するように、対象化合物を、SMILESフォーマット(401)、2D−3Dフォーマット(403)、あるいは、他の適当な2次元構造ファイルで表現したものを準備する。 このようなフォーマットでの表現を3次元モデルビルダー(405
    )に入力すると、入力ファイルに含まれる原子および結合の情報が3次元表現4
    07に変換される。 モデルビルダー405は、図示するような3次元表現407
    を出力する。

    【0082】 モデルビルダー405は、化合物に含まれる原子の3次元座標を与えることができるどのようなモジュールでもよい。 モデルビルダーの好適な例としては、Ox
    ford Molecular, Ltd., Oxford, England (J. Gasteiger et al., Tetrahedron
    Comp. Methods, 1990, 3, 547参照。 これを本明細書に参考文献として組み入れる)から入手可能なCorinaソフトウェアプログラムが挙げられる。 このプログラムは、バッチモードで 動き、種々の標準分子フォーマットを適用可能で、高品質の構造を作成することが知られている(J. Sadowski et at., J. Chem. Inf.
    Comput. Sci., 1994, 34, 1000参照。 これを本明細書に参考文献として組み入れる)。

    【0083】 図4には、図2のステップ203で入力可能な3次元構造表現を表すデータ構造の一例を示す。 データ構造には、対象化合物を同定するプライマリキー409
    が含まれる。 対象化合物は、化合物データベースから選択したものでもよく、その場合、プライマリキーは、データベースに含まれる各化合物を同定するものである。 データ構造は、さらに、化合物に含まれる各原子を番号でラベリングした原子ブロック411を含む。 原子ブロック411は、さらに、含まれる元素と、
    その元素の3次元の位置とを規定する。 例えば、原子ブロックには、原子1が水素で、原子2が炭素、原子3が窒素で、原子4がリンという情報が含まれる。 データ構造は、各原子の3次元の位置をx、y、zの直角座標で特定する。 データ構造407は、また、原子間の接続と結合の次数とを含む結合ブロック413を含む。 図示されている例では、原子1が原子2に単結合で接続され、原子2は原子3に単結合で接続され、原子2はさらに原子4に二重結合で接続される。

    【0084】 対象化合物の3次元原子表現を3次元ファーマコフォア表現に変換する必要がある(図2のステップ205)。 化合物を構成する元素と、それら元素の化合物内における状況とを考慮するヒューリスティックスを利用して、この変換を行うようにしてもよい。 これらを考慮することにより、ファーマコフォア型を、化合物が占める3次元空間に位置するサブストラクチャー(例えば、原子や芳香族中心)に対応させることができる。 図2のステップ205で利用可能なヒューリスティックスの一例全体を補遺に示す。 この例(ならびに、ここでの議論の大部分)では、考慮対象となっている構造は、炭素、窒素、酸素、水素、イオウ、リン、フッ素、塩素、臭素、ヨウ素から選択される原子のみを含む構造である。 ただし、本発明は、当然のことながら、このような化合物に限定されるものではない。

    【0085】 ファーマコフォア型のサブストラクチャーへの対応は、例えば、カルボキシラート基酸素をマイナス電荷(N)と水素結合受容体(A)に、脂肪族アミンをプラス電荷(P)に、ヒドロキシル基を水素結合供与対(D)と水素結合受容体(
    A)の両方に対応させる。 水素原子は、ファーマコフォア型には対応させない。
    ヒューリスティックの一例では、疎水性ファーマコフォア型を、窒素、酸素、リン、あるいはメルカプタン官能基から3以上の結合ぶん隔てられた、炭素、塩素、臭素、あるいは、ヨウ素原子に対応させる。

    【0086】 図5A、5B、5Cは、原子へのファーマコフォア型の対応を示す図である。
    図5Aは、単純なアシル塩素を示す。 塩素原子は、他の6種類のファーマコフォア型いずれにも当てはまらないため、デフォルトファーマコフォア型(X)に対応する。 この塩素原子は、酸素原子から2結合以内に位置するため(上述のヒューリスティック参照)、疎水性には分類できない。 一方、図5に示すオルトクロロフェノール中の塩素原子は、フェノール性ヒドロキシル基から3結合以上離れているため、疎水性ファーマコフォア型(H)に対応する。

    【0087】 図5Cは、好適な例で用いられる7種類のファーマコフォア型すべてを含むスマトリプタンのアナログ(類縁体)を示す。 説明は、構造の左から始めて、順に右に移動する。 窒素に結合するメチル基炭素はデフォルトのファーマコフォア型(X)に対応する。 この炭素は、水素結合受容体、水素結合供与体、プラス電荷中心、マイナス電荷中心、疎水性部位(窒素原子に結合する)、芳香族基のいずれにも分類されないため、デフォルトに対応づけられる。 このメチル基炭素に結合する窒素原子は、水素結合供与体(ドナー)(D)ファーマコフォア型に対応する。 スルホニル酸素は、水素結合受容体(アクセプター)(A)ファーマコフォア型に対応し、イオウ原子はデフォルト(X)ファーマコフォア型に対応する。 ベンゼン環とスルホンアミドとの間のメチレン基は、デフォルト(X)ファーマコフォア型に対応する。 また、ベンゼン環は、芳香族(R)ファーマコフォア型に対応する。 Rの軌跡は、ベンゼン環のセントロイドである。 置換ベンゼン炭素は、デフォルト(X)ファーマコフォア型に、隣接する芳香族炭素は、疎水性(H)ファーマコフォア型に対応する。 残りのベンゼン炭素は、すべて、デフォルト(X)ファーマコフォア型である。 インドール窒素は、ドナー(D)ファーマコフォア型に、また、インドール窒素に隣接するインドール炭素は、デフォルト(X)ファーマコフォア型に対応する。 他のインドール炭素およびインドール環に隣接するメチレン基も、デフォルト(X)ファーマコフォア型である。 カルボキシラート官能基は、マイナス電荷(N)ならびにアクセプター(A)ファーマコフォア型に対応する。 このカルボキシル基は、2種類の異なったファーマコフォア型が対応するファーマコフォア中心の一例である。 最後に、分子構造の右端にあるメチレン基と完全にアルキル化されたアミンに隣接するメチル基は、デフォルト(X)ファーマコフォア型に、また、アミン窒素は、プラス電荷(P)
    ファーマコフォア型に対応する。

    【0088】 マッチング処理(図2のステップ211)を容易にするために、ファーマコフォア型が特定された対象化合物を表すデータ構造を作成する。 図6は、酢酸アニオン(陰イオン)605に関するこのようなデータ構造603の一例を示す。 一般的にいって、 アレイで原子の様々なファーマコフォア型への分類が行われる。 ここで、 は、水素原子以外の原子の数、 は、ファーマコフォア型の数を示す。 この例では、4 7アレイが、それぞれ、水素原子以外の原子の数、ファーマコフォア型の数に対応する。 アレイの各セルは、ある原子があるファーマコフォア型に割り当てられるか否かを示す。 この例では、1は、対象原子が所定のファーマコフォア型に対応することを、一方、0は対応しないことを示す。 すなわち、原子1のカルボニル酸素では、アクセプター(A)ファーマコフォア型カラムが1に設定されている。 原子1に関するほかのカラムは、すべて0に設定されている。 原子2のカルボニル炭素に関しては、デフォルト(X)ファーマコフォア型カラムが1に設定されている。 原子3のカルボキシラート酸素に関しては、
    アクセプター(A)とマイナス電荷(N)ファーマコフォア型カラムに1が設定されている。 また、原子4のメチル炭素に関しては、デフォルト(X)ファーマコフォア型に1が設定されている。

    【0089】 ファーマコフォア型の割り当てに関して、一般的に、いくつかの条件がある。
    水素原子は、いずれのファーマコフォア型にも割り当てないことが望ましい。 通常、原子へのナンバリング(番号づけ)は任意の方法で行えばよい。 ファーマコフォア型の割り当て、Corina、およびオリジナルの入力データにおいて、同一の原子ナンバリングを採用する構成が望ましい。 また、芳香族中心を擬似原子として加えるようにしてもよい。 さらに、結合を単結合と二重結合に限り、共鳴安定化構造に特徴的な部分二重結合を認めないようにしてもよい。

    【0090】 図2のステップ207および209に示すように、対象化合物に適当と思われるコンホメーションを作成し、作成したコンホメーションに関して、1つずつ独立に、ファーマコフォア型基本セットとのマッチングを調べる。 立体の重なりの程度が甚だしくないコンホメーションに関してのみ、マッチングを調べるような構成が望ましい。 立体障害が激しい多くのコンホメーションは、まったく存在しないか、あるいは、たとえ存在しても、その内部エネルギが強大なため非常に短い時間しか存在し得ない。 高い内部エネルギをもつコンホマーは生理活性に有意な影響を与えないため、このようなコンホマーを除外することが望ましい。

    【0091】 図7Aは、4元数回転アルゴリズム(K. Shoemake, SIGGRAPH, 1985, 19, 245
    参照。 これを本明細書に参考文献として組み入れる)を利用して、ファーマコフォア・フィンガープリントにおいて、化学構造のコンホメーションを作成する好適な方法を示すフローチャートである。 すなわち、図7Aは、図2のステップ2
    07の処理を示す。

    【0092】 まず、ステップ701で、コンピュータシステムは、対象構造において回転可能な結合すべてを特定する。 周知のヒューリスティックスを用いて、いずれの結合が回転可能かを判定し、その回転角度を求める。 例えば、sp 3 -sp 3結合は、1
    20度ずつ異なる3つの回転異性体を有する。 sp 2 -sp 2結合は、180度異なる2つの回転異性体を有する。 一般に、環内の結合は、回転不能と考えられる。 (
    Corinaプログラム等の)3次元モデルビルダーの多重環コンホメーションの選択肢として、共通の環状化合物のコンホメーション異性体(配座異性体)が挙げられる。 このような環状コンホマーを互いに独立に用いて、非環状結合を軸とする回転に基づく、コンホマーのグループをそれぞれ作成することができる。 2つのグループのコンホマーは、それぞれ、ファーマコフォアの基本セットに対して、
    独立にマッチング処理され、化合物のフィンガープリントが作成される。

    【0093】 図7Bを参照して、ステップ701の処理を説明する。 図7Bのプロピルシクロヘキサンは、結合721および723を軸とする回転によるコンホメーション異性体が存在する化合物である。 図7Aのステップ701の処理では、この2つの結合が特定される。 シクロヘキサン環内の結合は回転不能であるが、モデルビルダーが一置換シクロヘキサンのアキシアル配座異性体とエクアトリアル配座異性体の両方を与えるような構成が望ましい。 対称フラグメント(例えば、フェニル等)を見つけて、そのような対象フラグメントに対する結合を回転不能と考えることにより、リダンダントな(余分の)コンホメーションを除外する。

    【0094】 図7Aに戻って、ステップ703で、回転される原子の数に基づいて、回転可能な結合のランクづけを行う。 これは、結合を軸とする回転により動かされる原子の数が増えるほど、対象となるコンホメーション空間がより広範囲となるためである。 図7Bの例では、結合721を軸とする回転で動く原子は2個である。
    このため、回転によりたった1つの原子しか動かさない結合723よりも、結合721のほうが上のランクになる。 同一数の原子を回転させる結合は同じランクに分類され、その場合にはどちらを先に回転させてもよい。

    【0095】 すべての回転可能な結合をランク付けした後、対象構造に関して可能なコンホメーションをすべて再帰的に作成する。 すなわち、図7Aのステップ705で、
    新しいコンホマーを順次作成する。 再帰ツリーのブランチは化合物の個々の結合により規定され、より高いブランチは、より高いランクの結合に対応する。 プロピルシクロヘキサンのコンホメーション総数は18である(すなわち、3 3 2
    )。 まず、シクロヘキサン環には、回転異性体727、729がある。 プロピル基の配向によりアキシアル配座(727)とエクアトリアル配座(729)が存在する。 次に、結合721を軸とする回転に基づく、3つの回転異性体がある。
    同様に、結合723を軸とする回転により、(結合721に基づく回転異性体1
    つにつき)さらに3つの回転異性体が存在する。 ステップ705で所定のコンホマーを再帰的に作成する毎に、ファーマコフォアマッチングのためにそのコンホマーを保存するか、あるいは無関係として捨てるか、を判定しなければならない。 この判定は、図7Aのステップ707、709、711の処理により実行される。 まず、ステップ707で、対象コンホメーションのエネルギを算出する。 (
    AMBER力場のLennard-Jonesポテンシャル等の)単純なエネルギ関数を用いて、回転異性体のエネルギ算出を行うようにしてもよい。 簡単に言えば、この方法は、
    対象コンホメーション内の原子対間の引力と斥力を合計するものである(SJ
    Weiner et al., J. Am. Chem. Soc., 1984, 106, 765参照。 これを本明細書に参考文献として組み入れる)。

    【0096】 対象コンホメーションのエネルギを算出した後、ステップ709で、そのコンホメーションの算出エネルギを所定のエネルギ閾値と比較する。 通常、閾値には大きな値を設定する。 例えば、エネルギ閾値を約100.0kcal/moleに設定する。 コンホマーのエネルギの方が閾値よりも大きい場合には、そのコンホメーションを除外する。 この操作により、対象化合物に関して、立体的に好ましくない回転コンホマー(回転配座異性体)が排除される。 一方、コンホマーのエネルギが閾値未満であれば、図7Aのステップ711で、そのコンホマーを、次の処理工程のために選択されたコンホマーのサブセットに加える。 すなわち、このサブセットには、図2のステップ211で基本セットとマッチング処理され、対象化合物のファーマコフォア・フィンガープリントに寄与する回転コンホマーが含まれる。

    【0097】 対象コンホメーションの取捨選択後、ステップ713で、処理すべきコンホマーがまだ他に残っているか否かを判定する。 すなわち、再帰ツリーに属するすべてのコンホマーに対する処理が完了したかどうかが判定される。 すべてのコンホマーに対する処理が完了していない場合には、処理がステップ705に戻り、再帰ツリーに属する次のコンホマーが作成される。 新しく作成されたコンホマーのエネルギを算出して、上述した閾値と比較する。 コンホマーのエネルギが閾値未満であれば、ファーマコフォアのマッチング用のコンホマーのサブセットに、そのコンホマーを加える。 最後のコンホマーの処理が終わるまで、このようにして、順次コンホマーを処理していく。 最後のコンホマーの処理が終わると、ステップ713の判定がNOになり、すべての処理が完了する。 再帰処理の反復数を所定の数(例えば、1000)に限定するようにしてもよい。 評価対象となるコンホマーの最大数はユーザーが規定するため、簡単に変更可能である。 すなわち、
    必ずしもすべてのコンホマーを処理する必要はない。 コンホマーの処理数を削減することにより、多くのコンホメーションがすでにマッチング用に特定されているような、非常に柔軟度の高い化合物に対する演算負荷を軽減することができる。

    【0098】 ファーマコフォア・フィンガープリントは、様々な用途に適用可能である。 ファーマコフォア・フィンガープリントを用いて、2つの異なった化合物間の構造のオーバーラップ(重なり)を特定することができる。 ファーマコフォア基本セットの選択を誤らなければ、オーバーラップの度合いが大きいものは、類似の活性を持つと考えられる。 ただし、すべてのファーマコフォアのオーバーラップが類似の活性に対応するわけではない。 ファーマコフォア・フィンガープリントの非常に有効な利用法として、ファーマコフォア・フィンガープリントを構造記述子(デスクリプタ)として用いる構造活性相関がある。

    【0099】 本発明の構造活性モデルは、化合物のファーマコフォア・フィンガープリントに適用された場合の活性を予測するものである。 例えば、モデルを用いて、大きなデータベースあるいはライブライ内のどの化合物が所定の生物学的標的に対して活性を持つかの予測が行える。

    【0100】 トレイニングセットのファーマコフォア・フィンガープリントに基づき構造活性相関を実行する処理に関しては、図1の処理工程のステップ5で言及した。 前述したように、任意の適当な相関法を構造活性相関に用いることができる。 (後述するいくつかの実施例で用いられる)部分最小2乗(PLS)法(P. Geladi,
    Analytica Chimica Acta, 1986, 185, 1; W. Lindberg et al., Anal. Chem. 1
    983, 55, 643; SJ Wold et al., Encyclopedia of Computational Chemistry
    , John Wiley & Sons, 1998, 2006参照。 以上を、本明細書に参考文献として組み入れる)が、その好適な一例として挙げられる。

    【0101】 PLS法は、連続活性範囲にも、離散活性範囲にも適用可能である。 ファーマコフォア・フィンガープリントは、解析の独立変数である構造記述子として機能する。 トレイニングセットに含まれる構成要素の活性が従属変数となる。 例えば、連続的に分布するリガンドアフィニティ値がこれにあたる。 あるいは、トレイニングセットを構成する要素を活性と不活性の2つに分類する場合には、生理活性値は1.0あるいは0.0のいずれかとなる。

    【0102】 PLS法により、ファーマコフォア空間の構造の意味を解釈可能である。 PL
    S解析は、各ファーマコフォアの活性に対する相対的な寄与に基づいて、基本セットのファーマコフォアの重みづけを行う。 この解析で大きな重みを与えられたファーマコフォア型は、活性に対する構造要件に重大な影響を与えるものである。

    【0103】 重みづけ処理されたファーマコフォア型を、PLS解析で用いられる主要コンポーネントに関連づける。 主要コンポーネントの各々に対して、重みベクトルが設定される。 重みベクトルの長さは、独立変数/ファーマコフォア/データマトリックスのカラムの数を表す。 重みベクトルにより、各コンポーネントへのビットストリングの変換が規定される。

    【0104】 構造活性相関により、トレイニングセットを構成する化合物の活性にファーマコフォア・フィンガープリントを相関させる。 相関係数r 2の値が大きければ、
    相関の精度が高いことを示す。 モデルはトレイニングセットに含まれるデータによく適合するように作成されるため、トレイニングセット外の化合物の活性予測に同等の精度を持たせる必要はない。 一般的な予測ツールとしての有用性を評価するために、テストデータセットを用いてモデルの妥当性を評価する(図1のステップ9参照)。

    【0105】 テストセットの構成要素は、トレイニングセットに含まれる化合物と同じものであってはならない。 また、テストセットの構成要素は、広範囲な構造と活性を有するものでなければならない。 通常、トレイニングセットを準備する際に用いた基準をテストセットの準備の際にも用いる。 モデルの妥当性は、クロス評価相関係数であるパラメータq 2で表される。

    【0106】 図8は、化合物ライブラリをデザインする場合の一般的な工程を示すフローチャートである。 ここで、ライブラリは、通常、プライマリ・ライブラリであり、
    場合によっては、より限定されたライブラリ(例えば、上述したような特定ライブラリ、すなわち、標的ライブラリ)である。 前述したように、特定ライブラリは、所定の標的に対するスクリーニングを行うために構築される。 プライマリ・
    ライブラリは、一般に、複数の標的に対して可能性のあるリガンドを含み、互いに関係のない多数の標的に対するスクリーニングのために構築される。 プライマリ・ライブラリの重要な一例は、産業的に有用な薬剤からなるケミカルスペース(化学空間)の領域を含むものである。

    【0107】 通常、プライマリ・ライブラリは、そこに含まれる化合物群が任意の有用な特性あるいは活性を持つようにデザインされる。 例えば、プライマリ・ライブラリが、生理活性あるいは薬理活性を有する構成要素からなるようにしてもよい。 プライマリ・ライブラリが、ヒトの様々な病態に対して有効な薬剤化合物に特徴的な特性を有する構成が望ましい。 プライマリ・ライブラリは、例えば、薬剤となる可能性のある化合物として、望ましい吸収、分布、経口生物学的利用率、代謝、ならびに、排泄特性をもつ化合物から構成される。 あるいは、プライマリ・ライブラリが、薬理活性以外の特性を有する様々な種類の化学化合物を網羅するようにしてもよい。 例えば、プライマリ・ライブラリが、除草能等、他の生理活性を有する可能性のある有機化合物から構成されるようにしてもよい。 あるいは、
    プライマリ・ライブラリが、高い伝導性、超伝導性、触媒能、誘電性、ルミネセンス、磁気歪特性、強誘電性等の特性を有する可能性のある無機化合物から構成されるようにしてもよい。 図8は、本発明において利用可能な処理工程の概要を示す。

    【0108】 図8の処理が開始されると、最初に、ステップ801で、リファレンスセットを選択する。 通常、リファレンスセットは、対象となる所定の活性を持つ化合物から構成される。 また、リファレンスセットを、互いに関連する複数の活性を持つ構成要素から形成するようにしてもよい。 結果として構築されるライブラリが、リファレンスセットと同じ所定の1つあるいは複数の活性を有する化合物から構成されることが望ましい。 特に望ましい特性を有する化合物データベースのサブセットを作成して、これをライブラリ構築の際のリファレンスセットとして用いるようにしてもよい。 多数の化合物の中から所定のサブセットを選択して形成する方法の詳細に関しては、図9を参照して、後述する。

    【0109】 続いて、ステップ803で、リファレンスセットの各構成要素に関してファーマコフォア・フィンガープリントが作成される。 この処理の詳細に関しては、先に説明した(図2ならびにそれに関係する説明参照)。

    【0110】 リファレンスセットのファーマコフォア・フィンガープリントは、所定の表現で表されるケミカルスペースにおける一領域を規定するものである。 リファレンスセットに含まれる各化合物は、その化合物のファーマコフォア・フィンガープリントにより規定される位置を、領域内で占める。 リファレンスセットに含まれる各化合物の位置を、さらに、第二の表現で表されるケミカルスペースにおいて、例えば、リファレンスセット化合物のファーマコフォア・フィンガープリントとその化合物の既知活性との主要コンポーネント解析により規定するようにしてもよい。 第二の表現が、「主要コンポーネント」を軸、すなわち、次元とするような構成でもよい。 リファレンスセット化合物の構造は、主要コンポ−ネント軸に対する相対的な位置を示す空間座標により規定される。 すなわち、リファレンスセットを構成する化合物間の構造相関は、ケミカルスペースにおける相対的な位置で規定される。 一般的にいって、ケミカルスペースで互いに近接する化合物は、構造的に類似で、場合によっては、類似の活性を有することが期待される。

    【0111】 所望の活性を有する化合物が存在するケミカルスペース内の領域を規定することにより、所望の活性と化学構造との間の関係が求められる。 ケミカルスペースを表す第一の表現が、ファーマコフォア基本セットのすべての構成要素を独立変数として用いる(各構成要素を別々の次元すなわち軸として表す)ものであれば、高活性の一領域(あるいは複数の領域)を視覚化、あるいは別の方法で表現することは困難である。 このような表現を容易にするために、上述した主要コンポーネント解析あるいはその他の方法により、主要コンポーネントを用いたケミカルスペースの第二の表現を実現する。

    【0112】 所定の数学的手法によりケミカルスペースの次元数を削減するように構成してもよい。 例えば、ステップ805で、所定の1つあるいは複数の活性にファーマコフォア・フィンガープリントを関連づけることにより、オリジナルデータに含まれる情報を規定する独立直交記述子の数を削減する。 すなわち、ファーマコフォア・フィンガープリントを関連づけることにより、ケミカルスペース内でリファレンスセットの個々の構成要素の位置決めを行う。 ここで、直交記述子は次元軸を表す。 このような関連づけを行うことにより、(ファーマコフォアの基本セットを用いる)ケミカルスペースの第一の表現から(削減された次元数を用いる)ケミカルスペースの第二の表現に、任意の化学物質を「変換」することができる。 (必ずしもケミカルスペースの次元数を削減することなく)ファーマコフォア・フィンガープリントを所定の活性に関連づけるために利用可能な他の数学的手法として、例えば、バックプロパゲーション・ニューラルネットワーク(逆誤差伝搬神経回路網)や遺伝的アルゴリズムがある。

    【0113】 かなり特定された高活性領域を有するケミカルスペースの第二の表現(例えば、主要コンポーネントを用いた表現)を2次元プロットのグラフとして表すようにしてもよい。 この場合、高活性は、例えば、高薬理活性である。 2次元グラフの各点が、既知の薬理活性を有するリファレンスセットの化合物を表す。 これらの点の集合が、「高活性」領域を形成する。 グラフの水平軸および鉛直軸は、主要コンポーネント解析により得られた主要コンポーネントに対応する。

    【0114】 図8に戻って、ステップ807で、化合物の調査セットを規定する。 一般的には、調査セットは、任意の化合物群から構成されればよい。 例えば、調査セットをコンビナトリアル・ライブラリとしてもよい。 特に望ましい特性を有する調査セット中のサブセットを規定して、ライブラリ構築の際の調査セットとして用いるようにしてもよい。 調査セットの少なくとも一部が、リファレンスセットの構成要素が示す所定の1つあるいは複数の活性を有することが望ましい。

    【0115】 通常、この段階では、リファレンスセットの構成要素が示す所定の1つあるいは複数の活性を、調査セットを構成する化合物のうちで持っているものがあるのか、また、その場合、いずれの化合物が持っているのか、はわからない。 そこで、図8に示す処理により、リファレンスセットの構成要素が示す所定の1つあるいは複数の活性を、調査セットを構成するいずれの化合物が持っているのかを判別する。

    【0116】 ステップ809で、調査セットの各構成要素に関して、ファーマコフォア・フィンガープリントを作成する。 ステップ809の処理は、ステップ803の処理と相違しないことが望ましい。 ファーマコフォア・フィンガープリントに関する詳細は先に説明した(図2参照)。

    【0117】 調査セットを構成する各化合物の、ケミカルスペースにおける位置は、ファーマコフォア・フィンガープリントにより規定される。 調査セットに含まれる化合物間の構造相関は、ケミカルスペースにおけるそれらの化合物の相対的な位置により規定される。 同様に、調査セットに含まれる化合物とリファレンスセットに含まれる化合物間の構造相関も、ケミカルスペースにおけるそれらの化合物の相対的な位置により規定される。 前述したように、ケミカルスペース内で互いに近接する化合物は、構造の類似性を示し、そのため、何らかの機能的な類似性を持つ。

    【0118】 ファーマコフォア・フィンガープリントの変換が、ステップ805の処理の一部を構成する。 この変換処理により、任意のファーマコフォア・フィンガープリントを、第二の表現(主要コンポーネント)で表したケミカルスペース内の座標に変換する。 図8の処理工程のステップ811では、この手法を利用して、調査セットのファーマコフォア・フィンガープリントを主要コンポーネントに基づく座標に変換する。 一般的には、ステップ811で実行される主要コンポーネント解析等を利用した変換により、第二の表現で表されるケミカルスペースにおける調査セットの化合物の位置決めを行い、リファレンスセットと視覚的に簡単に比較可能にする。 すなわち、調査セットの化合物とリファレンスセットの化合物を、
    (例えば、上述した変換によって得られる表現のような)所定の表現で表されたケミカルスペース内に表示する。 この所定の表現は、迅速な比較を可能にする図式的な表現でもよい。

    【0119】 最後に、ステップ813で、ケミカルスペースの高活性領域に対する調査セット中のサブセットの重なり(オーバーラップ)あるいは分子多様性(モレキュラ・ダイバーシティ)を算出する。 セルに基づく選択、クラスタに基づく選択、非類似性に基づく選択等、種々の選択法を適用して、ケミカルスペースの高活性領域に対して、最大のオーバーラップあるいは分子多様性を有するサブセットを調査セットから選択する(RD Brown et al., Exp. Op. Ther. Patents, 1998,
    8(11), 1447等参照。 これを、本明細書の参考文献として組み入れる)。 例えば、リファレンスセットに関連づけられた高活性領域内に存在する調査セットの化合物を選択するようにしてもよい。 ただし、調査セットが非常に大きい場合には、このような化合物のサブセットを1つだけ選択することが望ましい。 高活性領域は、明確な境界を持つものでなくてもよく、完全に特定されないものでもかまわない。 また、遺伝的アルゴリズムを用いて、調査セットからサブセットを選択する構成も好適である(DE Goldberg, Genetic Algorithms in Search, Opti
    mization and Machine Learning, Addison Wesley, New York, NY等参照。 これを、本明細書に参考文献として組み入れる)。 遺伝的アルゴリズムを用いて調査セットからサブセットを選択する処理の詳細は、図10を参照しながら後述する。

    【0120】 リファレンスセットにより規定される高活性領域外の領域を特定することが望ましい場合もある。 例えば、ケミカルスペースにおいて、活性化合物の大部分がすでに見つかっている範囲外の領域の処理が求められる場合がある。 活性領域に対する処理を続けても新しい化合物がまったく見つからない場合には、ケミカルスペースの非選択領域に重要な化合物が隠れている可能性がある。 また、サブ領域がマイナスの電荷のような特定の特性をもっていること、あるいは、サブ領域に多くの代表的なファーマコフォアがふくまれていることがことがわかっている場合には、活性領域のサブ領域を処理することが求められる場合もある。 高い薬理活性を有するより大きな領域に含まれる重要なサブ領域を示す詳細なマップを構築するようにしてもよい。

    【0121】 ファーマコフォア・フィンガープリントをライブラリのデザインに直接利用するようにしてもよい。 上述したように、Tanimoto係数は、2つの分子のファーマコフォア・フィンガープリント間の類似性を測定するのに便利な方法である。 ライブラリを構成する要素の候補と既知の生理活性分子との間のTanimoto係数により、その候補の潜在値がおおまかに最初の指標として示される。 ただし、ファーマコフォア・フィンガープリントがかなりの程度オーバーラップする場合には、
    外見上構造が非類似の化合物でも類似の生理活性を持つことがある。 すなわち、
    ファーマコフォア・フィンガープリントにより、化合物間の隠された構造類似性の特定が可能になる。 Tanimoto係数の単純な比較により、調査セットの化合物を高活性領域に関連づけることができる。 調査セットの任意の構成要素とリファレンスセットの任意の構成要素との間のTanimoto係数が充分に高ければ、調査セットのその構成要素をライブラリに入れるべきだと考えられる。

    【0122】 上述したように、ライブラリ作成処理の最初の段階で、化合物のリファレンスセットを注意深く選択する必要がある。 一般的にいって、リファレンスセットに含まれる各構成要素は、合成され、所定の活性を有するものならば、いかなる化合物でもかまわない。 リファレンスセットの各構成要素が、対象となる活性を有することが知られている化合物であることが望ましい。 さらに望ましくは、リファレンスセットの構成要素である化合物は、構造的に多様であり、対象となる活性を強く呈するものである。

    【0123】 リファレンスセットにおける所定の活性は、化合物あるいは化学物質群により示されるいかなる活性でもかまわない。 例えば、薬理活性、超伝導性、クロマトグラフにおける移動度、香気、匂い等をリファレンスセットにより示される所定の活性とする構成も、本発明の要旨の範囲内である。 あるいは、除草能、通常の伝導性、触媒能、誘電性、ルミネセンス、磁気歪特性、強誘電性等でもよい。 「
    生理活性」を有するリファレンスセットの構成要素が、所定の活性として、吸収、分布、代謝、排泄等、生物学的標的に対する結合に無関係な薬剤特性を有する構成も、本発明の要旨の範囲内である。 プライマリ・ライブラリ用のリファレンスセットは、通常、複数の活性を示す。 上に挙げたリファレンスセットの活性は、何ら、本発明の範囲を限定するものではない。

    【0124】 上述の方法は、プライマリ・ライブラリの作成に限定されるものではない。 これらの方法を適用して、構造的に関連する多数の標的に対して活性な化合物を構成要素とするより限定された中間ライブラリや、上述した特定ライブラリを作成することもできる。

    【0125】 薬剤として作用する可能性のある化合物のプライマリ・ライブラリを構築する場合に、多数の標的に結合する化合物を、リファレンスセットの構成要素としてもよい。 ここでの標的は、通常、(レセプタや酵素等の)生物学的標的である。
    この場合には、ケミカルスペースにおける所定の活性の全体領域は、複数の治療活性にまたがって存在する。

    【0126】 薬理活性領域を特定する好ましいアプローチとして、リファレンスセットがかなりの数の既知の薬理活性化合物から構成されることが望ましい。 さらに望ましくは、リファレンスセットが、既知の薬理活性化合物のデータベースであるMDL
    Drug Data Report (MDDR) の最新バージョンである。 データベースは、MDL
    Information Systems Inc., 14600 Catalina St. San Leandro, CA 94577から入手可能である。 現在のところ、MDDRの最新バージョンは、バージョン98.1である。 リファレンスセットがMDDRのサブセットである構成がさらに望ましい。 例えば、リファレンスセットは、MDDRのバージョン98.1のサブセットである。 フィルターにかけないリファレンスセットの使用は、向精神薬活性や血管拡張活性等、より細かく設定された活性に限定するようにしてもよい。

    【0127】 大きな化合物データベースの特定サブセットを図8で説明した処理工程において、リファレンスセットとして用いる構成も望ましい。 あるサブセットを用いるかどうかは、プライマリ・ライブラリで示すべき所望の活性範囲を、そのデータベース化合物の集合がどのくらい厳密に表すかによる。 以下に、一実施例として、図9を参照しながら、MDDRのサブセットを選択する処理の詳細を説明する。 分子量範囲、原子組成、構造ホモロジー等のフィルター処理によって、データベース化合物の数を削減することができる。 化合物データベースのサブセットは、任意の有効な基準を用いて作成可能である。 すなわち、図9に示す処理工程は、単に一例に過ぎず、何ら、本発明の範囲を限定するものではない。 このフィルター処理工程を、適当に構成されたデジタルコンピュータ等を用いて自動化することが望ましい。

    【0128】 ステップ901で、コンピュータシステムは、化学構造の大きなデータベースを入力する。 入力されるデータベースの好ましい一例は、92,604個の化合物からなるMDDRバージョン98.1全体である。 次のステップ903で、データベースの有機構造から、対イオン等の結合していない小さなフラグメントを排除する。 例えば、StripSaltと呼ばれるプログラムを用いて、該当する塩を排除するようにしてもよい(1998年7月13日に出願されたSM Muskal et al.,
    US Patent Application Serial No. 09/114,694参照。 これを、本明細書に参考文献として組み入れる)。 このような塩部分を除去した後、分子に含まれる薬剤的に重要な有機部分の分子量を正確に算出することができる。 これは、図9
    のその後の処理において、重要な役割を果たす。 通常、有機分子の対イオンは、
    生理活性を決める重要な因子ではない。

    【0129】 続くステップ905で、所定の範囲外の分子量を有する化合物をステップ90
    1で入力されたデータベースから排除する。 例えば、分子量が200ダルトン未満、あるいは、700ダルトンより大きな化合物をMDDRデータベースから除外する。 重要な低分子薬剤化合物の大部分は、分子量が200ダルトンから70
    0ダルトンの範囲内である。 ただし、単純に5,000ダルトンより大きな分子量を特定することにより、容易に、化合物データベースから巨大分子のみからなるサブセットを構成することも可能である。

    【0130】 ステップ907で、原子組成に基づいて、所定の化学構造を消去することにより、ステップ905で得られた化合物セットをさらに限定する。 例えば、C、N
    、O、H、S、P、F、Cl、Br、I以外の原子を含む構造をデータベースから取り除く。 重要な生理活性化合物の大部分は、これらの原子からのみ構成されている。 ただし、少なくとも1つの金属が欠如している構造を除外することにより、金属錯体を含むサブセットをデータベースから形成するようにしてもよい。

    【0131】 ステップ909で、リファレンスセットを過度に偏らせないように、リファレンスセットから類似のアナログを除外する。 化学構造の類似性を算出する便利な指標にTanimoto係数がある。 化合物をバイナリ・ビットストリングで表した場合、Tanimoto係数を用いて、バイナリ・ビットストリングを比較することにより、
    化合物の類似性を表す有効な尺度が得られる。 2次元フラグメントに基づく記述子であるMDL 166ユーザーキーを用いてTanimoto係数を算出する方法が提案されている(MJ McGregor et al., J. Chem. Inf. Comput. Sci., 1997, 37, 443
    参照。 これは、先に参考文献として組み入れた)。 MDL 166キーは、MDLデータベースに含まれる化合物に関して自動的に演算され、解析のために出力可能な16
    6の2次元サブストラクチャーフラグメントを用いるバイナリ記述子である。 すなわち、MDL 166キーは、166ビットの2次元情報を含むバイナリ・フィンガープリントである。 例えば、0.8よりも大きいTanimoto係数を有する化合物をデータベースから除外する。 1つのレセプタに対して異なった結合アフィニティを持つもの、あるいは、同じレセプタに結合して異なった生物学的応答を示すもの(例えば、アゴニストおよびアンタゴニスト活性)等、他の基準を用いて化合物データベースの分類をするようにしてもよい。

    【0132】 次のステップ911で、生理活性に基づいて、ステップ909の処理で得られた化合物を分類する。 例えば、ステップ909で得られた化合物を、酵素やレセプタ等、所定の生物学的標的に対するアフィニティに従い、活性クラスに分類するようにしてもよい。 化合物の中には、複数の異なった標的に対して活性を示すものもあり、そういう化合物は2つ以上の活性クラスに属することになる。 結合アフィニティ、炭素原子の数、官能基の種類等、他の基準を用いて化合物データベースを分類するようにしてもよい。 すなわち、最初の化合物データベースを、
    いくつのクラスに分類してもかまわない。

    【0133】 最後に、ステップ913で、所定のサイズよりも小さな活性クラスをリファレンスセットから除外する。 例えば、8未満の構成要素しか持たない活性クラスをリファレンスセットから除く。

    【0134】 図9に示した処理により、大きなデータベースから、比較的偏りの少ない小さなリファレンスセットが得られる。 リファレンスセットが小さければ小さいほど、図8の処理における演算効率が高くなり、この観点からのみ判断すれば、大きなリファレンスセットよりも好ましい。 図9の手順で作成されたリファレンスセットは、大きなデータベース内の関連する活性を表すものでなければならない。
    例えば、リファレンスセットが、市販の薬剤に見られる特徴を表すものであってもよい。 図9に示す手順と同様の手順により、大きなデータベースから、任意の1つあるいは複数の活性に関して、演算効率が高く、偏りの少ないリファレンスセットを作成することができる。

    【0135】 図8に示す処理工程のステップ805で説明したように、リファレンスセットのファーマコフォア・フィンガープリントは、所定の1つあるいは複数の活性に関連づけられる。 上述したように、この関連づけには、任意の適当な手法が用いられる。 好適に用いられる手法の1つは、主要コンポーネント解析である(P. G
    eladi, Analytica Chimica Acta, 1986, 185, 1参照。 これは、先に参考文献として組み入れた)。 あるいは、多重回帰法、部分最小2乗法、バックプロパゲーション・ニューラルネットワーク(逆誤差伝搬神経回路網)、遺伝的アルゴリズム等、他の手法を用いて、ファーマコフォア・フィンガープリントを所定の活性に関連づけるようにしてもよい。

    【0136】 図8に示す処理工程のステップ805で、リファレンスセットの主要コンポーネント解析を行う。 前述したように、ファーマコフォア・フィンガープリントの次元数は、基本セットに含まれるファーマコフォアの数によって規定される。 好適な一例では、ファーマコフォア・フィンガープリントが10,549の異なった次元を持ち、各次元が基本セットに含まれる各々のファーマコフォアに対応する。 したがって、ファーマコフォア・フィンガープリントをビット列で表したものでは、個々のビットがケミカルスペース表現の1つの軸に対応する。 この例の場合、ファーマコフォア・フィンガープリントによって規定されるケミカルスペースは、10,549の次元を持つ。 リファレンスセットに含まれる各化合物のケミカルスペース内での位置は、対応するファーマコフォア・フィンガープリントのビット値で表される。

    【0137】 この関連づけは、2つの変数グループ間の関係を見つけるために行われる。 変数グループの1つは、従属変数の集合であり、独立変数の集合の関数で表される。 本発明においては、通常、従属変数が1つあるいは複数の活性クラスであり、
    独立変数がリファレンスセット構成要素(例えば、MDDRのサブセット)のファーマコフォア・フィンガープリントである。 図8に示す手順で作成されたリファレンスセットを用いる場合、(活性クラスに対応する)152の従属変数と(
    ファーマコフォア・フィンガープリントの次元数に対応する)10,549の独立変数が存在する。

    【0138】 直線回帰式(Y=XB+e)は、独立変数と従属変数の関係を表すものである(ここで、Yは、マトリックスで表される従属変数(すなわち、リファレンスセットの構成要素の活性)、Xは、マトリックスで表される独立変数(すなわち、
    ファーマコフォア・フィンガープリント)、Bは、マトリックスで表される回帰係数、eは、剰余系を、それぞれ示す)。

    【0139】 図14に示すように、主要コンポーネント解析により、マトリックス(行列)
    Xは、2つのベクトル、スコアベクトルTとローディングベクトルPの外積として表される。 例えば、Xがファーマコフォア・フィンガープリントを、Tが削減された次元数で表される空間における座標値を示す。 ローディングベクトルPをフィンガープリントに適用することにより、フィンガープリントを前述の削減された次元数で表される空間に変換する。 このようにして、主要コンポーネント解析により、マトリックスXの次元数を削減して、図式的に表現可能な低次元数空間に変換する。 上述したように、ファーマコフォア・フィンガープリントは、解析の際に独立変数として用いられる。 一方、リファレンスセット構成要素の活性は従属変数である。 リファレンスセットの構成要素が活性と不活性に分類される場合には、生理活性は1.0か0.0の値をとる。 リファレンスセットがMDD
    Rのサブセットである場合には、生理活性はバイナリ値で示される。

    【0140】 好適な一例として、ディジタルコンピュータ上で便利に実行される非線形反復部分最小2乗法(NIPALS)アルゴリズムを用いて、スコアベクトルTとローディングベクトルPを算出するようにしてもよい(P. Geladi, Analytica Chi
    mica Acta, 1986, 185, 1参照。 これは、先に参考文献として組み入れた)。 N
    IPALSは、一度にすべての主要コンポーネントを演算するものではない。 N
    IPALSアルゴリズムが収束するまで、各コンポーネントの演算が反復して続けられる。

    【0141】 別の例として、固有ベクトル/固有値方程式を解いて、マトリックスXの主要コンポーネントを求めるようにしてもよい。 NIPALSアルゴリズムの演算結果と固有ベクトル方程式の演算結果は等しくなるはずである。

    【0142】 ステップ805で実行されるリファレンスセットの主要コンポーネント解析により、ファーマコフォア基本セットを次元とするケミカルスペースを主要コンポーネントを次元とするケミカルスペースに変換する。 これにより、例えば、10
    ,549次元のケミカルスペースが、2ないし10次元のケミカルスペースに変換される。

    【0143】 さらに、リファレンスセットのデータマトリックスを少数の主要コンポーネントに変換することにより、次元軸として主要コンポーネントを用いて表現されるケミカルスペース内で、リファレンスセットに含まれる化合物を図式的に表すことが可能になる。 例えば、主要コンポーネント1および2を次元軸としてもよいし、あるいは、主要コンポーネント2および3を次元軸とすることもできる。 4
    以上の主要コンポーネントを次元軸に用いることもできるが、この場合には、ケミカルスペースの図式的表現が難しくなる。

    【0144】 ステップ811の処理により、調査セットのファーマコフォア・フィンガープリントが、ステップ805の処理によって得られたケミカルスペース表現に変換される。 例えば、調査セットのファーマコフォア・フィンガープリントを、ファーマコフォア基本セットを次元とするケミカルスペースの第一表現から主要コンポーネントを次元とするケミカルスペースの第二表現へと変換する。 ステップ8
    05で算出されたローディングマトリックスPを用いて、主要コンポーネントを次元とする空間に、調査セットのファーマコフォア・フィンガープリントを変換するようにしてもよい。

    【0145】 調査セットのフィンガープリントを簡略化された主要コンポーネント座標値に変換することにより、次元軸として主要コンポーネントを用いて表現されるリファレンスセットのケミカルスペースにおいて、調査セットに含まれる化合物を図式的に表現することが可能になる。 最初の2あるいは3の主要コンポーネントを次元軸として用いることが望ましい。

    【0146】 ステップ813の処理は、ケミカルスペースの高活性領域に対する調査セット中のサブセットのオーバーラップあるいは分子多様性を算出するものである。 簡単な処理手順の一例として、リファレンスセットと実質的にオーバーラップするサブセットを調査セットから選択するようにしてもよい。 このサブセットに含まれる化合物により、プライマリライブラリ、あるいは、より限定されたライブラリが構成される。 別の簡単な方法として、分子多様性の基準に基づいて、調査セットの「活性」サブセットの中から、サブセットを選択するようにしてもよい。
    調査セットが大きい場合、あるいは、調査セットの多様性の程度が特に高いものである場合には、より複雑な手順でライブラリの構成要素を選択するようにしてもよい。 前述したように、調査セットの中から適当なサブセットを選択する処理には、数多くの選択手法を適用可能である。

    【0147】 遺伝的アルゴリズムを用いて、調査セットからサブセットを選択するようにする構成も好適である。 簡単に説明すれば、遺伝的アルゴリズムは、自然淘汰のメカニズムを利用するアルゴリズムである進化アルゴリズムの一手法である。 すなわち、遺伝的アルゴリズムは、生殖、突然変異、競争、選択といった進化の過程に見られる特徴を利用して、時間の経過とともに、より優秀な結果を導き出すものである。 遺伝的アルゴリズムの通常の手順を以下に示す。 (1)N個の構成要素からなる初期母集団をランダムに初期化する(2)適応関数を用いて、各構成要素の適応度を計算する(3)生殖用に両親を選択する(4)交差および/あるいは突然変異を利用して、子孫を生み出す(5)適応関数を用いて、各子孫の適応度を計算する(6)母集団の構成要素の中で適応度の小さなものを適応度がそれよりも大きい子孫と交換する(7)ステップ3に戻って、終結あるいは収束するまで繰り返す。

    【0148】 図10は、本発明の一実施例として、遺伝的アルゴリズムを用いて、リファレンスセットと実質的にオーバーラップする一あるいは複数のサブセットを調査セットから選択する処理、あるいは、分子多様性に基づいて選択する処理を示す。
    図10の処理が開始されると、まず、ステップ1001で、主要コンポーネントで表現されるケミカルスペースにおいて、立方体セルを規定する。 ケミカルスペースのセルへの分割には特に規定がなく、実験的な必要に応じて変更するようにしてもよい。 セルの次元数は、通常、この解析を実行するために用いられるケミカルスペースの次元数に対応する。 分割されたセルに含まれる分子を数えることにより、リファレンスセットに含まれる分子と調査セットに含まれる分子の相対数を求めることができる。 次に、図10の処理工程のステップ1003で、調査セットを(通常ランダムに)多数のサブセットに分割する。 分割された各々のサブセットが問題解決のための処理対象となる。 対象サブセットをコンビナトリアル・ライブラリからランダムに選択するようにしてもよい。 対象サブセットの母集団はランダムなものでもよいし、あるいは、必要に応じて偏ったものでもよい。 このステップは、一般的な遺伝的アルゴリズムにおいて、初期母集団を初期化する工程に対応する。

    【0149】 ステップ1005で、リファレンスセットに対する調査セット中の対象サブセットのオーバーラップ(重なり)パーセントあるいは分子多様性の尺度を求める関数の演算を行う。 本実施例では、オーバーラップ・パーセントあるいは分子多様性の尺度が、適応関数であり、これを用いて、調査セット中のサブセットの評価を行う。 オーバーラップ・パーセントを算出する、あるいは、分子多様性の尺度を与える方法は、当業者に周知である(M. Snarey et al., J. Mol. Graphic
    s Modeling, 1998, 15(6), 372参照。 これを、本明細書中に参考文献として組み入れる)。 各セルに含まれる調査セット構成要素とリファレンスセット構成要素の相対数を計測する。 すべてのセルで平均したセル内の計測数の割合(調査セット:リファレンスセット)が調査セット構成要素の総数とリファレンスセット構成要素の総数の割合に近づくにつれて、関数の演算値が増加する。

    【0150】 次のステップ1007で、ランダムに選択した対象サブセットの突然変異を行う。 例えば、対象サブセットがコンビナトリアル・ライブラリから選択されたものである場合には、サブセット中に存在する任意に選択されたモノマー(単量体)ユニットを、サブセット中には存在しない任意に選択されたモノマーと交換する。 あるいは、交差のようなメカニズムを利用して、対象サブセットの突然変異を行ってもよい。 続いて、ステップ1009で、突然変異を起こしたサブセットに関して、関数演算を行う。 通常は、ステップ1005で演算した関数と同じ関数をステップ1009で用いる。

    【0151】 ステップ1009で適応関数を演算した後、処理はステップ1011に進む。
    ステップ1011では、ステップ1007で実行された突然変異を受け入れるか否かが判定される。 例えば、Metropolis関数を用いて、突然変異を受け入れるか拒絶するかを判定する(WH Press et al., Numerical recipes in C, page 2
    44, Cambridge University Press, 1988参照。 これを、本明細書に参考文献として組み入れる)。 Metropolis関数は、関数値を改善する突然変異を受け入れる。
    関数値が改善されない場合には、現在の関数値と先に突然変異を実行した時の関数値との差に応じた確率で、突然変異を受け入れる。 関数値を改善しない突然変異を受け入れる確率は、アルゴリズムが進むにつれて、減少する。 突然変異を評価する様々な方法は、当業者に周知である。

    【0152】 ステップ1011で対象サブセットの突然変異を受け入れると判定した場合には、処理がステップ1007に戻る。 この場合には、突然変異を起こしたサブセットを対象サブセットとして、再び、ステップ1007で突然変異を実行する。
    一方、ステップ1011で突然変異が拒絶された場合には、処理はステップ10
    13に進む。

    【0153】 図10の処理工程のステップ1013で、対象サブセットが収束したか否かが判定される。 当業者に周知の様々な方法で、収束の判定を行うことができる。 例えば、ステップ1013で、オーバーラップ・パーセントあるいは分子多様性の閾値を用いて、収束したかどうかを判定するようにしてもよい。 あるいは、前の処理サイクルからのオーバーラップあるいは分子多様性の改善量をモニターして、それが充分に低い値になったときに、収束基準に達したとみなすようにしてもよい。 例えば、所定数の処理サイクルを経ても関数値の改善がみられない場合に、収束したと判定する構成でもよい。

    【0154】 ステップ1013の処理で、関数値の改善が続いているかどうかの評価を行う。 ステップ1013の判定がYESになれば(すなわち、収束に達した場合には)、処理が完了し、対象サブセットを「最適」サブセットとして選択する。 選択されたサブセットが最適関数値をもつことが望ましい。

    【0155】 ステップ1013の判定がNOである場合には、処理はステップ1007に戻り、再び、対象サブセットの突然変異を実行する。 この場合、前の処理サイクルにおいて突然変異が拒絶されているため、現在の対象サブセットは、前の処理サイクルにおける対象サブセットと同一である。 ステップ1007、1009、1
    011、1013の処理を充分に繰り返すことにより、関数の演算値として最大の値を持つサブセットを調査セットから選択することができる。 このようにして調査セットから選択されたサブセットでプライマリ・ライブラリを構成するようにしてもよい。

    【0156】 プライマリ・ライブラリが、ライブラリ構築のテンプレートとして用いられるリファレンスセットの特性を反映したものであることが望ましい。 例えば、リファレンスセットとしてMDDRを用いる場合には、プライマリ・ライブラリは、
    少なくとも同じ生物学的標的に対して有効なものでなければならない。 したがって、原理的には、プライマリ・ライブラリは、既知の生物学的標的に対して、新しいリード化合物を規定するものである。 あるいは、プライマリ・ライブラリを用いて、リガンド並びに構造が未知の、新しい生物学的標的のスクリーニングを行うこともできる。 MDDRに含まれる化合物は、既知の生物学的標的に対して共通の活性を有するため、本発明の方法に従って構築されたプライマリ・ライブラリが新しい生物学的標的に対して活性であることが期待できる。 さらに、プライマリ・ライブラリのデザイン原理を、コンビナトリアル・ライブラリの評価とデザインに適用可能である。

    【0157】 本発明の実施例で実行される様々な処理工程では、データは1つあるいは複数のコンピュータシステムに記憶あるいはコンピュータシステムを介して伝送される。 上述したような処理を実行する装置も、本発明の態様に含まれる。 この装置は、必要な目的に応じて専用に構成されたものでもよいし、あるいは、汎用コンピュータを用いて、コンピュータ内に記憶されるコンピュータプログラムおよび
    /あるいはデータ構造により選択的に起動され、再構成されたものでもよい。 本明細書で説明した処理は、いかなる特定のコンピュータあるいはその他の装置に対しても、固有に関連づけられたものではない。 種々の汎用機械を本発明の原理に従うプログラムとともに用いてもよいし、あるいは、必要な処理を実行するように専用の装置を構成するようにしてもよい。 これら様々な機械で必要な構造に関して、以下に説明する。

    【0158】 さらに、コンピュータで様々な演算処理を実行するためのプログラム・インストラクション(命令)および/あるいは(データ構造を含む)データを備えるコンピュータ読み取り可能な媒体やコンピュータプログラム製品も、本発明の態様に含まれる。 媒体やプログラム・インストラクションは、本発明の目的に応じて専用に設計・構成されたものでもよいし、あるいは、コンピュータソフトウェア分野の当業者に周知で利用可能なものでもよい。 コンピュータ読み取り可能な媒体の例としては、それらに限定されるものではないが、ハードディスク、フロッピー(登録商標)ディスク、磁気テープ等の磁気媒体、CD−ROMディスク等 の光媒体、フロプティカルディスク等の光磁気媒体、リードオンリーメモリ(R OM)やランダムアクセスメモリ(RAM)等、プログラム・インストラクショ ンを記憶して実行するように専用に構成されたハードウェア装置が挙げられる。 本発明のデータやプログラム・インストラクションを搬送波やその他のトランス ポート媒体に体現化するようにしてもよい。 プログラム・インストラクションは 、例えば、コンパイラにより形成されるマシンコードでもよく、また、インタプ リタを用いてコンピュータにより実行される高水準コードを含むファイルでもよ い。

    【0159】 図11は、本発明の一実施例に従うコンピュータシステムを示す。 コンピュータシステム1100は、任意の数のプロセッサ(中央演算処理装置、すなわちC
    PUとも称する)1102を備え、このプロセッサ1102は、主記憶装置11
    06(ランダムアクセスメモリ、すなわちRAM)と主記憶装置1104(リードオンリーメモリ、すなわちROM)とを含む記憶装置に接続されている。 当業者に周知のように、主記憶装置1104は、CPUに対してデータ並びにインストラクションを単方向に伝送し、一方、主記憶装置1106は、双方向にデータ並びにインストラクションを伝送する。 これらの主記憶装置のいずれも、上述したようなコンピュータ読み取り可能な媒体を備えるものでもよい。 大容量記憶装置1108を、さらに、CPU1102に双方向に接続し、データ記憶容量を増大させる。 大容量記憶装置1108が、上述したようなコンピュータ読み取り可能な媒体を備えるようにしてもよい。 大容量記憶装置1108には、プログラムやデータ等が記憶可能である。 大容量記憶装置1108は、通常、主記憶装置よりも処理速度が遅いハードディスク等の二次記憶媒体である。 場合によっては、
    大容量記憶装置1108に格納された情報を、標準的な方法で、仮想メモリとして、主記憶装置1106の一部に組み込むようにしてもよい。 CD-ROM11
    14等、特定の大容量記憶装置もCPUに単方向にデータを伝送する。

    【0160】 CPU1102は、さらに、ビデオモニター、トラックボール、マウス、キーボード、マイクロフォン、タッチセンサーディスプレイ、変換カード・リーダ、
    磁気あるいは紙テープリーダ、タブレット、スタイラス、音声あるいは手書き認識装置、他のコンピュータ等の周知の入力装置など、1つあるいは複数の入力/
    出力装置を備えるインターフェース1110に接続されている。 また、CPU1
    102が、ネットワーク接続1112を利用して、コンピュータネットワークやテレコミュニケーションネットワークに接続されるようにしてもよい。 上述したような本発明の処理を実行する間に、このようなネットワーク接続を介して、C
    PUが、ネットワークから情報を入力したり、ネットワークに情報を出力したりできる。 上述した装置や素材は、コンピュータハードウェア並びにソフトウェア分野の当業者に周知である。

    【0161】 <実施例> 以下の実施例は、本発明を例示する目的で、本発明のいくつかの態様を説明するものであり、さらに、当業者が本発明を理解し、実行する助けとなるように、
    トレイニングセットを特定し、これをテストする方法に関して説明する。 これらの実施例は、いかなる意味においても本発明を限定するものではない。

    【0162】 トレイニングセットとして、エストロゲン・レセプタ用のものを選択した。 これは、最近の治療動向として、エストロゲン・レセプタ・リガンドに関するQS
    ARモデルの開発が注目されているためである(CL Williams et al., In Go
    odman and Gillman's The Pharmacological Basis of Therapeutics, 9 th editi
    on, eds. JG Hardman and LE Limbird, McGraw-Hill, New York 1996, 14
    11; W. Tong et al., Environ. Health Perspect, 1997, 105, 1116; W. Tong e
    t al., Endocrinology, 1997, 138, 4022; CL Waller et al., Environ. Hea
    lth Perspect., 1996, 103, 702; SP Bradbury et al., Environ. Toxicol.
    Chem., 1996, 15, 1945: TG Gantchev et al., J. Med. Chem., 1994, 37, 4
    164; CL Waller et al., Chem. Res. Toxicol., 1996, 19, 1240; W. Tong e
    t al., J. Chem. Inf. Comput. Sci., 1998, 38, 669参照。 以上を、本明細書に参考文献として組み入れる)。 3種類の他のQSAR法を、実施例1および2で用いた化合物のトレイニング・セットに対して実施した。 その処理結果を、本発明の方法にしたがう処理結果と比較する。 これらの方法では、様々な分子記述子に対してPLSを適用する。 第1の方法は、比較分子場解析(CoMFA)である(RD Cramer et al., J. Am. Chem. Soc., 1988, 110, 5959参照。これを、本明細書に参考文献として組み入れる)。 CoMFA法は、広く用いられており、各リガンドを中心とするグリッド上で立体場および静電場を算出する方法である(W. Tong et al., J. Chem. Inf. Comput. Sci., 1998, 38, 669参照)。
    第2の方法は、CoDESSAプログラムである。 これは、量子力学特性と共に、2次元および3次元構造に関する記述子を算出する方法である(W. Tong et a
    l., J. Chem. Inf. Comput. Sci., 1998, 38, 669参照)。 最後に、第3の方法は、ホログラムQSAR(HQSAR)である。 これは、サブストラクチャー分子フラグメントの計数から構築される分子ホログラムを記述子として利用する方法である(W. Tong et al., J. Chem. Inf. Comput. Sci., 1998, 38, 669参照)。 HQSAR記述子は、厳密な意味で2次元記述子である。

    【0163】 最初の3つの実施例で得られた結果を相関係数r 2およびクロス評価相関係数q 2で表し、活性予測値と活性実測値との比較を行う。 q 2を算出してモデルの妥当性を評価する一つ抜き(Leave One Out:LOO)法で、構造活性モデルを作成する所定の手法(PLS等)の有効性を評価することができる。 たとえば、トレイニングセットが100の構成要素からなると仮定する。 まず、PLS法を1
    番目から99番目までの構成要素に適用して、100番目の構成要素の活性値を予測する。 次に、PLS法を2番目から100番目までの構成要素に適用して、
    1番目の構成要素の活性値を予測する。 この場合には、トレイニングセットの構成要素から99個を選択する100種類の異なった組み合わせにPLS法を適用して、トレイニングセットの100の構成要素すべてに関して100の予測値が得られる。 クロス評価値(q 2 )は、クロス評価r 2値であり、(SD−press)/
    SDと等しい。 SDは、各生物学的特性値の平均からの偏差の2乗和であり、pres
    s(predictive sum of squares)は、すべての化合物に関する生物学的特性の予測値と実測値との差の2乗和である。 r 2は、PLS演算でトレイニングセットに含まれる100の構成要素すべてを用いて算出され、トレイニングセットの構成要素100すべてに関する活性値を予測する。 相関係数(r 2 )は、前述のように定義される。

    【0164】 実施例1: ヒト エストロゲン・レセプタに結合する31のリガンド群をトレイニングセットとして用いた(G. Kuiper et al., Endocrinology, 1997, 138, 863参照。
    これを、本明細書に参考文献として組み入れる)。 トレイニングセットに含まれる構成要素の活性は、ヒト エストロゲン・レセプタの天然リガンドであるエストラジオールの活性値を100.0として、この活性値に対する相対結合アフィニティ(RBA)で示されている。 ヒト エストロゲン・レセプタに対するトレイニングセット構成要素のRBA値は、約0.001から約468の範囲の値である。 7種類のファーマコフォア型(A、D、H、N、P、R、X)と6種類の距離範囲(2.0−4.5オングストローム、4.5−7.0オングストローム、7.0−10.0オングストローム、10.0−14.0オングストローム、
    14.0−19.0オングストローム、19.0−24.0オングストローム)
    を用いて、10,549のファーマコフォアからなる基本セットを構築し、これを用いて、トレイニングセットのフィンガープリントを行った。 PLS法を用いて、構造活性モデルを作成した。 トレイニングセットをテストセットとして、L
    OO法でモデルの妥当性を評価した。 ファーマコフォア・フィンガープリントの結果をr 2値およびq 2値で示す。 CoMFA、HQSAR、CoDESSA法を同一のトレイニングセットに適用したQSARの結果を、以下に、比較のために示す(W. Tong et al., J. Chem. Inf. Comput. Sci., 1998, 38, 669参照)
    。 最後の行(PCs)は、それぞれのモデルに寄与する主要コンポーネントの数を示す。

    【0165】

    【表1】

    【0166】 以下に、PLS解析による重みづけの結果を示す。 ここでは、第1主要コンポーネントに関する重みづけのランクが上から10番までのファーマコフォアを示す。

    【0167】

    【表2】

    【0168】 6種類のファーマコフォア型A、D、H、N、P、Rしか用いないで、このトレイニングセットを選択するための基本セットを構築した場合には、q 2の統計値は約0.60未満になる。 これは、本実施例において基本セット構築に用いたデフォルトX型のファーマコフォアが、重要な情報、おそらくは分子容量に関係する情報、を与えることを示す。 非クロス評価値r 2は、4つの方法のいずれででも同じような値をとる。 一方、各手法の予測能力の尺度となるクロス評価値q 2は、他の3つの方法のいずれよりも、本実施例で用いたファーマコフォア・フィンガープリント−PLS相関法で高くなっている。 q 2値は、本実施例において、主要コンポーネントの数と正の相関を示す。 これらの結果から、本発明の3
    次元コンホメーションに柔軟度を持たせたアプローチが優れていることがわかる。

    【0169】 上記の結果は、化学的、構造的な観点からも解釈可能である。 このような解釈は、従来の計算手法の多くでは困難であった。 上に示したファーマコフォア・フィンガープリントのPLS解析による重みづけは、構造的に重要な情報を与える。 上から4番目までの重みづけランクのファーマコフォア(1−4)は、X型のファーマコフォア基を備え、このため、X型のファーマコフォア基を持たないファーマコフォアと比較して、構造との関連づけが難しい。 ただし、4番目のランクのファーマコフォアと5番目のランクのファーマコフォア(ファーマコフォア番号が1617と1624)は、ファーマコフォア型が1つ異なっているだけなので、トレイニングセットの活性化合物を表すよい例となる。 重みづけランクが4番目と5番目のファーマコフォアは、水素結合受容体(A)あるいは水素結合供与体(D)から2.0−4.5オングストロームの距離を隔てて、芳香族基(
    R)を有する。 この芳香族基(R)は、多くの活性化合物で共通の特徴であるフェノール基にマッピングする。 最初のA/D原子から7−10オングストロームの距離を隔てて、別のA原子が存在する。 このA原子は、遠く離れた他のヒドロキシル基、あるいは、リガンドによっては、カルボニル基にマッピングする。 図12に、これらのファーマコフォアを、天然のリガンドであるエストラジオール(1201)の分子構造と、セット1で最も活性な化合物であるジエチルスチルベストール(1203)の分子構造とにどのようにマッピングさせるかを示す。
    図12では、3次元空間内で種々のファーマコフォア型を正確に位置付けるために、これらの生理活性リガンドの炭素骨格がリジッドなフレームワークを与えるものと仮定して、1201および1203を図示する。 エストラジオールとジエチルスチルベストールのファーマコフォアが非常に似ていることから、表面上は異なっているリガンドを構造レベルで相関させることができる本発明の利点が明らかである。 リストの他のファーマコフォアも、これらの特徴を大なり小なり備えている。 上から10番目のランクのファーマコフォアのみをここでは示した。
    しかし、基本セットに含まれる10,549個のファーマコフォアすべてが、そのうちのかなりの部分は負の重みを持つものであったが、PLSモデルに寄与したことを明記しておく。

    【0170】 実施例2: ラット エストロゲン・レセプタに結合する31のリガンド群をトレイニングセットとして用いた(G. Kuiper et al., Endocrinology, 1997, 138, 863参照)
    。 トレイニングセットに含まれる構成要素の活性は、ラット エストロゲン・レセプタの天然リガンドであるエストラジオールの活性値を100.0として、この活性値に対する相対結合アフィニティ(RBA)で示されている。 ラット エストロゲン・レセプタに対するトレイニングセット構成要素のRBA値は、約0
    . 001から約404の範囲の値である。 7種類のファーマコフォア型(A、D
    、H、N、P、R、X)と6種類の距離範囲(2.0−4.5オングストローム、4.5−7.0オングストローム、7.0−10.0オングストローム、10
    . 0−14.0オングストローム、14.0−19.0オングストローム、19
    . 0−24.0オングストローム)を用いて、10,549のファーマコフォアからなる基本セットを構築し、これを用いて、トレイニングセットのフィンガープリントを行った。 PLS法を用いて、構造活性モデルを作成した。 トレイニングセットをテストセットとして、LOO法でモデルの妥当性を評価した。 ファーマコフォア・フィンガープリントの結果をr 2値およびq 2値で示す。 CoMF
    A、HQSAR、CoDESSA法を同一のトレイニングセットに適用したQS
    ARの結果を、以下に、比較のために示す(W. Tong et al., J. Chem. Inf. Co
    mput. Sci., 1998, 38, 669参照)。 最後の行(PCs)は、それぞれのモデルに寄与する主要コンポーネントの数を示す。

    【0171】

    【表3】

    【0172】 6種類のファーマコフォア型A、D、H、N、P、Rしか用いないで、このトレイニングセットを選択するための基本セットを構築した場合には、q 2の統計値は約0.60未満になる。 これは、本実施例において基本セット構築に用いたデフォルトX型のファーマコフォアが、重要な情報、おそらくは分子容量に関係する情報、を与えることを示す。 非クロス評価値r 2は、4つの方法のいずれででも同じような値をとる。 一方、各手法の予測能力の尺度となるクロス評価値q 2は、他の3つの方法のいずれよりも、本実施例で用いたファーマコフォア・フィンガープリント−PLS相関法で高くなっている。 q 2値は、本実施例において、主要コンポーネントの数と正の相関を示す。 すなわち、本実施例の方法は、
    他の3つの方法に比べて、リガンドに関する3次元コンホメーション情報を多く与えることができる。 この実施例の結果は、さらに、PLS法によりファーマコフォア・フィンガープリントを生理活性に関連づける手法の妥当性を支持するものである。

    【0173】 実施例3: ヒト エストロゲン・レセプタに結合する17の私有複素環式化合物と実施例1のトレイニングセットで用いられた31のリガンドを含む48のリガンド群をトレイニングセットとして用いた。 トレイニングセットおよびテストセットに含まれる構成要素の活性は、ヒト エストロゲン・レセプタの天然リガンドであるエストラジオールの活性値を100.0として、この活性値に対する相対結合アフィニティ(RBA)で示されている。 ヒト エストロゲン・レセプタに対する私有複素環式化合物のRBA値は、約0.002から約5.5の範囲の値である。 7種類のファーマコフォア型(A、D、H、N、P、R、X)と6種類の距離範囲(2.0−4.5オングストローム、4.5−7.0オングストローム、7
    . 0−10.0オングストローム、10.0−14.0オングストローム、14
    . 0−19.0オングストローム、19.0−24.0オングストローム)を用いて、10,549のファーマコフォアからなる基本セットを構築し、これを用いて、トレイニングセットのフィンガープリントを行った。 PLS法を用いて、
    構造活性モデルを作成した。 ヒト エストロゲン・レセプタに結合し、約0.0
    17から約9.4の範囲のRBA値をもつ18の私有複素環式化合物からなるテストセットを用いて、モデルの妥当性の評価を行った。 ファーマコフォア・フィンガープリントの結果をq 2値で示す。

    【0174】

    【表4】

    【0175】 各手法の予測能力の尺度となるクロス評価値q 2は、これまでの実施例の中で一番高い値をとる。 トレイニングセットの様々な研究から得られた構造的に多様なリガンドの混合を用いることにより、テストセットの化合物の活性値として、
    妥当な予測値を与えることができる。 この実施例は、本発明の方法が、データを一般化して、トレイニングセットに含まれていない化合物に関して正確な予測ができることを示している。 この実施例の結果は、さらに、PLS法によりファーマコフォア・フィンガープリントを生理活性に関連づける手法の妥当性を支持するものである。

    【0176】 実施例4: 活性クラスを含むデータに関連づけた生理活性化合物のデータベースであるM
    DDR(MDL Drug Data Report)を薬剤様化合物のリファレンスとして用いた(
    MDL Information Systems Inc., 14600 Catalina St. San Leandro, CA 94577)
    。 バージョン98.1には92,604の化合物がエントリーされている。 図9に示す手順に従って、以下の基準を用いて、MDDRのサブセットを作成した。

    【0177】 まず、分子量が約200ダルトンから約700ダルトンまでの構造のみをサブセットに入れた。 「StripSalt」と呼ばれるプログラムを用いて、塩等の小さな結合されていないフラグメントをSDファイルから除いた(1998年7月13
    日に出願されたSM Muskal et al., US Patent Application Serial No. 0
    9/114,694参照。 これは、先に参考文献として組み入れた)。

    【0178】 次に、C、N、O、H、S、P、F、Cl、Br、I原子以外の原子を含まない化合物のみをサブセットに入れた。 さらに、他のすべての構造から充分に2次元的に異なっている構造のみをサブセットに入れた。 すなわち、解析を偏らせる可能性のある類似のアナログを排除した。 化学的同一性の指標としてMDL166ユーザーキーとTanimoto係数を用いた。 そして、約0.8よりも大きな閾値を持つ化合物をサブセットから排除した。 MDL166ユーザーキーは、2Dフラグメントに基づく記述子であり、MDL ISISデータベースで自動的に演算される(MJ McGrego
    r et al., J. Chem. Inf. Comput. Sci., 1997, 37, 443参照。 これは、先に参考文献として組み入れた)。

    【0179】 MDDRのactiv_classおよびactiv_indexフィールドで与えられる化合物活性クラスは、一つの標的(酵素あるいはレセプタ)を特定するものである。 MDL
    によって作成されたクラスリストであるfile activity.txtを手動で調べて、このようなクラスをすべて抽出した。 8未満の構成要素しかもたないクラス、並びに、そのようなクラスのみに属する化合物をサブセットから排除する。 この処理により、9103の化合物(MDDR9104)と152クラスを含むMDDR
    サブセットが形成され、これを、プライマリ・ライブラリをデザインするためのリファレンスセットとして用いた。 各化合物は2つ以上のクラスに属することができるが、MDDR9104のうち複数のクラスに属する化合物は1083個だけだった(11.9%)。

    【0180】 7種類のファーマコフォア型(A、D、H、N、P、R、X)と6種類の距離範囲(2.0−4.5オングストローム、4.5−7.0オングストローム、7
    . 0−10.0オングストローム、10.0−14.0オングストローム、14
    . 0−19.0オングストローム、19.0−24.0オングストローム)を用いて、10,549のファーマコフォアからなる基本セットを構築し、これを用いて、MDDR9104のフィンガープリントを行った。 Corinaプログラム(J.
    Gasteiger et al., Tetrahedron Comp. Methods, 1990, 3, 537; J. Sadowski
    et at., J. Chem. Inf. Comput. Sci., 1994, 34, 1000参照。 これらは、先に参考文献として組み入れた)により得られた単一の3D分子構造を私有プログラム(MJ McGregor et al., J. Chem. Inf. Comput. Sci., 1999, 39, 569参照。
    これは、先に参考文献として組み入れた)に入力した。 これは、ファーマコフォア型を原子に割り当て、結合を中心として回転させることにより複数のコンホメーションを作成し、ファーマコフォア基間の距離を測定することによりファンが−プリントを作成するプログラムである。 この結果、分子内に存在するファーマコフォアに関する情報を含むバイナリ・ビットストリングが出力される。

    【0181】 実施例5: 実施例4で準備したMDDR9104および152クラスを、本実施例のトレイニングセット並びにテストセット選択の際にも用いた。 775のリガンド群をトレイニングセットとして用いた。 トレイニングセット構成要素の活性を、0あるいは1で示した。 これは、化合物を活性か不活性かに分類し、信頼できるIC50
    EC50情報は得られない、プライマリ・ライブラリの最初のスクリーニングで、通常適用される手法である。 ヒト エストロゲン・レセプタに対するRBA値が1
    0.0以上の15の化合物を、実施例1で用いたトレイニングセットから選んだ。 実際のアフィニティ値を無視して、これらの化合物の活性値を1.0に設定した。 トレイニングセットの残りの750個の化合物は、MDDRサブセットのエストロゲンを除く任意の活性クラスから、ランダムに選んだ。 実際のアフィニティ値を無視して、これらの化合物の活性値を0に設定した。 トレイニングセット処理の工程で、活性化合物を50倍に複製し、トレイニングセットにおける活性化合物と不活性化合物の影響を等しくした。 7種類のファーマコフォア型(A、
    D、H、N、P、R、X)と6種類の距離範囲(2.0−4.5オングストローム、4.5−7.0オングストローム、7.0−10.0オングストローム、1
    0.0−14.0オングストローム、14.0−19.0オングストローム、1
    9.0−24.0オングストローム)を用いて、10,549のファーマコフォアからなる基本セットを構築し、これを用いて、トレイニングセットのフィンガープリントを行った。 PLS法を用いて、構造活性モデルを作成した。 8626
    個の化合物からなるテストセットを用いて、モデルの妥当性評価を行った。 テストセットの化合物を3種類の化合物クラスに分類した。 ヒト エストロゲン・レセプタに対する結合アフィニティが1 Mよりも大きい86個の私有化合物(A
    RI活性)を第1クラスとした。 このクラスには、実施例3で用いたトレイニングセットに入れられた化合物の多くが含まれる。 第2クラスは、MDDRサブセットのエストロゲン活性クラスから抽出した。 トレイニングセットに含まれる明らかな前駆薬剤ならびに化合物を排除するスクリーニングを行った結果、250
    の活性なMDDRリガンドが選択された。 第3クラスは、トレイニングセットで用いた750の化合物を除いたMDDRサブセットの残りで、エストロゲンを除く任意の活性クラスから選択した。 これにより、8290の不活性なMDDR化合物が選択された。 当然のことながら、エストロゲン・レセプタに対するスクリーニングを実際に行ったわけではないので、不活性化合物の不活性は単に仮定に過ぎない。 評価結果を図13に図式的に示し、さらに、平均、標準偏差、正確度パーセントとして統計的に表す。

    【0182】

    【表5】

    【0183】 上記の結果は、本実施例の方法がどのくらい正確に化合物の分類ができるかを示すものである。 ここでは、MDDRバックグラウンドグループが不活性であり、MDDRエストロゲングループとARI化合物グループが活性であると仮定し、任意の識別カットオフを0.2とした。 MDDRバックグラウンド、MDDR
    エストロゲン、ARI化合物に関する結果は、それぞれ、89.2%、92.4
    %、87.2%であった。

    【0184】 図13からわかるように、テストセットの中で、8290個のMDDRバックグラウンド化合物は0付近にかたまっている。 一方、250個のMDDRエストロゲンテスト化合物と86個のARIエストロゲン化合物は、0.0と1.0の間に分布している。 図13のグラフから、250個のMDDRエストロゲンテスト化合物および86個のARIエストロゲン化合物とバックグラウンド化合物との間の分布の相違がわかる。 ARI化合物の分布は、MDDRエストロゲン化合物の分布よりも左側に位置している。 MDDRエストロゲン化合物が通常トレイニングセットと同じクラスに属することを考えれば、この現象は理解できる。 一方、ARI化合物は、私有コンビナトリアル・ライブラリから選択され、いずれもトレイニングセットには含まれない3種類の異なったクラスにまたがっている。 これは、異なったクラスの分子にまたがる予測能力の指標を与えるものである。

    【0185】 実施例6: 演算特性で類似の分子は、生理活性においても類似であると考えられる。 実施例4で説明したように活性クラスに分類されるMDDR9104データセットを用いて、以下の方法により、分子記述子の識別能力を評価する。 分子記述子の判別能力を評価する従来の解析では、通常、一度に1つの標的しか用いない(S. K
    . Kearsley et al., J. Chem. Inf. Comput. Sci. 1996, 36, 118参照。 これは、先に参考文献として組み入れた)。

    【0186】 まず、(n2 −n)/2化合物対すべての分子間比較を行う。 次に、分子間比較を同一クラス内の比較とクラス間の比較に分ける。 対の中の1つの化合物がいくつかのクラスに属していても、対の化合物が少なくとも一つのクラスを共有している場合には、同一のクラスと考える。 この方法では、同一クラスに属する化合物は、異なったクラスに属する化合物よりも、より類似度の高い生理活性を有する、と仮定する。 化合物対の分子間比較により、分子類似性を示す2つの分布が得られる。 分子類似性の分布平均の差は、以下の式によって、標準誤差単位で表される。

    【0187】 t' = (X 1 − X 2 ) / sqrt(s 2 1 /n 1 + s 2 2 /n 2 ) ここで、検体1および2に関して、Xは平均を、s2は分散を、nは検体の大きさを示す。 上の式は、小さな検体に関するStudentのt分布にしたがう。 一方、大きな検体は正規分布にしたがう。 t'統計値は、ときに、2つの分布間の相違の意味を示すものとして用いられる。 表1に示した結果では、統計値は非常に重要な意味をもつ。 表にはt'統計の絶対値を示した。 一般に、絶対値が大きいほど、識別にすぐれていることを示す。 t'統計値は、クラスに分類された任意のデータセットや類似性を表す任意の他の指標に対して、算出可能である。

    【0188】

    【表6】

    【0189】 表1の上部に、3種類の異なる分子記述子、すなわち、1D記述子である分子量、2D記述子であるMDL166キー、3D記述子であるファーマコフォア・
    フィンガープリント、に対するMDDR9104のt'統計値を示す。 MDL1
    66キーとファーマコフォア・フィンガープリントでは、比較にTanimoto係数を用い、分子量記述子では、分子量の差を比較に用いた。

    【0190】 分子量は、それほど高い予測能力を示す記述子だとは考えていなかった。 が、
    驚くべきことに、分子量(t' =321.3)は、MDL166キー(t' =301.8)よりもよい結果を示した。 しかし、このどちらも、ファーマコフォア・フィンガープリントの結果(t' =455.8)には遠く及ばない。

    【0191】 MSI 50記述子とファーマコフォア・フィンガープリント記述子のPCA解析の結果を、あわせて(表1の下部に)示した。 MSI 50は、MSI(Molecular
    Simulations Inc., 9685 Scranton Road, San Diego, CA 92121-3752)製のソフトウェアパッケージCerius2で用いられる50個のデフォルト記述子である。 M
    SI記述子の次元は様々である。 いくつかの記述子は、単一の3D構造から演算される。 ただし、いずれの記述子も、複数のコンホメーションを用いて演算されることはない。 MSI 50は、QSAR適用例の多くで用いられる典型的な記述子群である。 最大20次元で演算されたユークリッド距離を類似性の指標に用いる。

    【0192】 MSI 50の結果では、12次元においてt'が最大値375.7に達する(表1参照)。 主要コンポーネントが5の場合には、t'値は372.1である。 一方、ファーマコフォア・フィンガープリントでは、主要コンポーネントが4で、
    t'が最大値455.2に達する(表1参照)。 コンポーネントの数が増えるにしたがい、t'値は低下する。

    【0193】 したがって、表1に示すt'値の結果から、予想されていたことではあるが証明するのが難しかった、3Dで1コンホマーの記述子よりも3Dでコンホメーションに柔軟度のある記述子のほうが優れているということが、確認できた。 3D
    で1コンホマーの記述子は、2D記述子よりは優れている。 t'値の結果から、
    さらに、ファーマコフォア・フィンガープリント/PCAの結果がファーマコフォア・フィンガープリント/Tanimotoの結果に匹敵することがわかる。 これは、
    ファーマコフォア・フィンガープリントの変換によって得られる低次元空間で、
    MDDR9104を評価可能であることを意味している。 低次元空間での評価は、演算負荷を軽くし、2あるいは3次元での視覚化を可能にする。

    【0194】 実施例7: MDDR9104(実施例4参照)のファーマコフォア・フィンガープリントに対して、主要コンポーネント解析を行い、図式的な表現に適した低次元空間に変換した。 ファーマコフォア・フィンガープリントを10,549個の独立変数として扱い、152の活性クラスを従属変数とした。 フィンガープリントのビットを、0.0(ファーマコフォアが存在しない)あるいは1.0(ファーマコフォアが存在する)の実数に変換した。 MDDR9104の各化合物の活性値として、所定の活性クラスへの結合の存在を示す値1.0、あるいは、活性クラスへの結合が存在しないことを示す値0.0を入力した。 反復NIPALSアルゴリズムを用いて、ファーマコフォア・フィンガープリントを視覚化に適した低次元空間に変換した(参照。これは、先に参考文献として組み入れた)。 データは、
    平均をとったもので、分散は評価対象とはしなかった。 表1(実施例6参照)には、各コンポーネントに関する分散も含めた。

    【0195】 種々のグラフを作成し、ケミカルスペースにおけるMDDR9104の分布を示した。 グラフのプロットは、図11に示すTマトリックスの座標を示す。 MD
    DR9104に含まれる各化合物を、グラフの中の1点として表す。 第1主要コンポーネントおよび第2主要コンポーネント(x軸およびy軸)に関するMDD
    R9104の分布は、おおまかには楔形を呈し、水平軸とほぼ平行な3つのピークをもつ。 2次元ケミカルスペースにおけるMDDR9104の分布は、ランダムではなく、密度の高い部分と低い部分が存在する。

    【0196】 類似の生理活性を有する化合物が、ケミカルスペースで互いに隣接するというのが理想的である。 逆にいえば、異なった生理活性を有する化合物は、ケミカルスペースの中で、異なった領域に存在するものでなければならない。 図式的な表現により、上述の実施例6に示したt'統計値によって算出される活性クラスの分離を、定性的・視覚的に表すことができる。 活性クラスの大部分が、ケミカルスペースの同一領域に集まっている。 これは、ファーマコフォア仮説が物理的重要性を持つという考え方を支持するものである。 おもしろいことに、活性クラスの分離の大部分は、第1主要コンポーネントに対応する水平軸にそってみられる。

    【0197】 MDDR9104の主要コンポーネント解析において重要な目的の一つは、個々のファーマコフォアの主要コンポーネントに対する寄与を求めることである。
    ファーマコフォア・フィンガープリントに設定されているビットの数(すなわち、分子内に存在するファーマコフォアの数)をグラフに表示することができる。
    設定されているビット数が多いということは、大きく、柔軟度が高い、高機能分子を示している。 水平軸に沿って右から左にビット数が増えていくにしたがって、第1主要コンポーネント(x軸)に関する分離をはっきりと観察することができる。

    【0198】 MDDR9104の化合物における形式電荷数をグラフに表示すると、第2主要コンポーネントに関する分離をはっきりと観察できる。 マイナスの電荷をもつ化合物は水平軸の上に、プラスの電荷をもつ化合物は水平軸の下に分布する。 一方、両性イオンおよび非イオン性化合物は、水平軸まわりに集まる。

    【0199】 適当な色づけを行い、3D−コンピュータグラフィックのスクリーン上に表示すれば、第3主要コンポーネントと第4主要コンポーネントとにより、MDDR
    9104における水素結合、芳香族基、並びに、疎水性基の傾向をあらわすことができる。 ただし、上述したビット数や電荷による結果に比べると、これらの傾向はそれほどはっきりしたものではない。

    【0200】 実施例8: 現時点で入手可能な情報を与えるバイオ活性分子すべてを広く代表するように、MDDR9104を選択した(実施例4参照)。 MDDR9104の主要コンポーネント解析により得られるバイオ活性空間が普遍的なバイオ活性空間を表すものか、あるいは、バイオ活性空間がデータベースの内容に強く依存するものかを確認することができるようなテストを行った(実施例7参照)。

    【0201】 MDDR9104の152種類のクラスからランダムに選択したサブセットに関して、主要コンポーネント解析を行った。 サブセットを構成する化合物が属するクラスの数を19、38、57、76、95、114、133種類と増やしながら、サブセットを形成した。 すなわち、大きなサブセットは小さなサブセットを含むセットになる。 これは、新たな標的に対する活性化合物が発見され、MD
    DRデータベースに加えられていく、という状況をシミュレーションしたものである。

    【0202】 主要コンポーネント解析における変換は、ローディングマトリックスP(図1
    4参照)によって規定される。 各サブセットのPマトリックスを、その前のより小さなサブセットのPマトリックスと比較し、その結果を、最初の4つの主要コンポーネントに関して、平均2乗の平方根( Pで示す)であらわす。

    【0203】 まず、19種類のランダムに選択されたクラスに属する化合物のサブセットに関して、主要コンポーネント解析を行った。 次に、別の19種類のランダムに選択されたクラスを加え、38種類のランダムに選択されたクラスのサブセットに関して、主要コンポーネント解析を行った。 そして、19種類のランダムに選択されたクラスのサブセットと38種類のランダムに選択されたクラスのサブセット間の P(19,38)値を計算した。 続いて、さらに別の19種類のランダムに選択されたクラスを加え、57種類のランダムに選択されたクラスのサブセットを形成し、38種類のランダムに選択されたクラスのサブセットと57種類のランダムに選択されたクラスのサブセット間の P(38,57)値を算出した。 MDDR91
    04の152種類のクラス全部に達するまで、この処理を繰り返す。 ここまでの全処理工程を、別々のランダムに選択されたクラスのサブセットを用いて、10
    回繰り返す。 クラスの数が増えていくにつれ、特に、演算の後の段階になるにつれ、 Pの値が小さくなり、これは、新しいクラスの追加が、その時点までのM
    DDR9104で表されるバイオ活性空間の性質に大きな変化をもたらさないことを示す。

    【0204】 得られた Pの算出値を図16に示す。 値は、最初の4つの主要コンポーネントの合計の平均2乗の平方根(RMS)である。 クラス追加が進むにつれ、グラフが明らかな下降傾向を示し、ベースラインに近づいている。 これは、将来的に新しいクラスを追加しても、MDDR9104によって表されるバイオ活性空間の性質に大きな影響を与えないことを示す。 この結果から、ファーマコフォア・
    フィンガープリント記述子を用いて、MDDR9104により、リガンド結合部位の一般的な特徴が代表的にサンプリングされていることがわかる。 ただし、分子のより詳細な記述(例えば、4点ファーマコフォア)のためには、さらにサンプリングが必要になる。

    【0205】 実施例9: 図15に示す、頻繁に用いられ、かつ、多様な8種類のスキャフォールド(3
    次元構造モチーフ)を用いて、コンビナトリアル解析のためのライブラリを構築した。 これらのスキャフォールドは、化学分野の当業者に周知のものである。 各スキャフォールドは、3つのダイバーシティ・センター(多様性中心)を持つ。
    20のビルディング・ブロックを、このダイバーシティ・センターに列挙形式で組み合わせることにより、8000の分子からなる8種類のライブラリを構築することができる。 これにより、ライブラリの比較が簡単になる。 ビルディング・
    ブロックは、20のコード化されたアミノ酸の側鎖と同じものである。 ただし、
    プロリンは例外で、シクロペンチルグリシンに代えた。

    【0206】 あるいは、合成の容易さや便利さに基づいて、各スキャフォールドに用いるビルディング・ブロックを選択し、(アミン、アルデヒド等)様々な化学種から構成されるようにしてもよい。 アミノ酸の側鎖は、化学的に多様であり、かつ、生物学的な関連性があるため、この実施例では、アミノ酸の側鎖を用いた。

    【0207】 overlap関数や分子多様性関数のような関数が最適化されるように、ビルディング・ブロックのサブセットを選択した。 選択は、各スキャフォールドの各位置に対して、独立に行った。 トータルで、480のビルディング・ブロックを選択した(つまり、8種類のスキャフォールドの3箇所の各々で20のビルディング・ブロックを選択した)。 コンビナトリアルの制約にしたがって、選んだビルディング・ブロックを列挙形式で各スキャフォールドにあてはめた。 たとえば、第1位置で選択したすべてのビルディング・ブロックを第2位置で選択したすべてのビルディング・ブロックに列挙形式で組み合わせる。 最初に、ビルディング・
    ブロックの50%をランダムに選択し、64,000個の可能性のある分子の中から選択された約8000の分子のサブセットを形成した。

    【0208】 アルゴリズムが開始されると、最初に、ビルディング・ブロックのセットをランダムに選択し、選択した結果について関数の演算を行う。 次に、ランダムに選択されたビルディング・ブロックの内一つをセットから除き、選択されなかった残りのものから、新たに一つビルディング・ブロックを選択して、セットに入れる。 そして、新たな選択結果について、関数の再評価を行う。 Metropolis(確率)関数を用いて、現在の選択結果を受け入れるか、拒絶するかを判定する。 選択結果の改善が認められなくなるまで、この処理を繰り返して行う。

    【0209】 第1の関数として、バイオ活性空間における化合物サブセットとMDDR91
    04のオーバーラップを示すoverlap関数を用いた。 overlap関数値を最大にすることにより、列挙された化合物の分布を最適化し、MDDR9104によって表される空間にもっとも類似したサブセットが得られる。

    【0210】 MDDR9104セットに対するPCA演算の結果得られた座標空間を、3次元で、2.0単位の大きさの立方体セルに分割した。 この解析には、主要コンポーネント1、2、3を用いた。 各セルにおける座標ポイントの数(すなわち、ライブラリ化合物の数)を数え、ライブラリのサイズに応じてスケーリングを行った。 次に、分布のオーバーラップを示す尺度を、次式に従って、算出した。

    【0211】 Overlap = Σ {n1 i + n2 i − abs(n1 i -n2 i )} / (N1+N2)*100.0 ここで、 N1 =セット1の化合物総数、 N2 =セット2の化合物総数、 n1 i =セルiに存在するセット1の化合物数、 n2 i =セルiに存在するセット2の化合物数、 である。

    【0212】 構成要素をもつ立方体セルすべてが、同じ比率のリファレンスセット構成要素と調査セット構成要素を持つ場合に、この関数は最大値をとる。 この比率は、リファレンスセットの構成要素総数と調査セットの構成要素総数の比に等しい。 第2の関数として、各分子に関して、最も近い隣接分子までの距離を合計した値を示すmaxmin関数を用いた(M. Snarey et al., J. Mol. Graphics Modeling, 19
    98, 15(6), 372参照。 これは、先に参考文献として組み入れた)。 この関数が最大値をとる場合に、設定空間内でポイントを可能な限り分散させることができ、
    ライブラリの分子多様性が最適化される。

    【0213】

    【表7】

    【0214】 表2は、PCA空間における各ライブラリ間およびMDDR9104との間のオーバーラップを示す。 MDDR9104とのオーバーラップ値が、ライブラリの潜在的な生理活性を表す。 前半の4つのライブラリのMDDR9104とのオーバーラップ・パーセントは約20%から約30%の間で変動し、オーバーラップにかなりの変動があることがわかる。 一方、後半の4つのライブラリのMDD
    R9104とのオーバーラップ・パーセントは、10%未満である。 この結果から、後半のライブラリは、プライマリ・ライブラリの有力候補にならないことがわかる。 ただし、中間ライブラリや特定ライブラリのように、より特化した適用において、これら後半の4つのライブラリが有用である可能性も残されている。
    ライブラリ間のオーバーラップ・パーセントを、異なったライブラリ間の類似性の指標として解釈することが可能である。 上述したように、かなりの変動が存在するため(表2参照)、図15に示すスキャフォールドを参照して、ライブラリ間のオーバーラップ・パーセントを解釈するようにしてもよい。

    【0215】 上述したビルディング・ブロック選択シミュレーションを、独立に10回行って、overlap関数とmaxmin関数の演算を実行した。 10回のシミュレーションで得られた結果の平均と標準偏差を表3に示す。 MDDR9104とのオーバーラップを示すoverlap関数を最適化した結果は、初期(すなわち、ランダム)オーバーラップが29.7%(2.0%)、最適化オーバーラップが52.6%(0
    . 3%)であった。 MDDR9104セットを2等分した場合、その2等分された部分間のオーバーラップ・パーセントは約68.1%にすぎない。 このことから、100%に近づけることがいかに困難であるかがわかるであろう。

    【0216】

    【表8】

    【0217】 表3は、初期および最終コンビナトリアル・ライブラリ、並びに、MDDR9
    104に関する統計値を与えるものであり、最適化の計算には用いなかった、分子量やclogPといった記述子に関する結果も示されている(Daylight Chemical I
    nformation Systems, Inc., 27401 Los Altos, Suite#370, Mission Viejo, CA9
    2691)。 さらに、MDLデータベースから抽出した2種類のリファレンスセットに関する結果も、比較のために示した。 CMC(分子量範囲150から750、
    MDDRにおける原子型でフィルタリング。 塩は除いた)ACD(分子量範囲1
    から1000でフィルタリング。 塩は除いた)(J. Greene, J. Chem. Inf. Com
    put. Sci., 1994, 34, 1297-1308参照。 これを、本明細書に参考文献として組み入れる)。

    【0218】 初期のライブラリ・サブセットでは、原子数や分子量等、いくつかの値が、M
    DDR9104セットの値に近い数値を示している。 一方、H−結合供与体の余剰数、疎水性基および芳香族基の相対的な欠如、clogP値には、大きな相違がある。 一般的にいって、maxmin関数を最適化した場合に比べて、overlap関数を最適化した場合に、最終ライブラリの統計値をMDDR9104の統計値により近づけることができる。 また、maxmin関数と比較して、overlap関数のほうが、シミュレーションで用いなかった記述子(例えば、clogP)を最終ライブラリで、
    よりよく最適化できる。

    【0219】

    【表9】

    【0220】

    【表10】

    【0221】 表4は、表3の最適化したライブラリにおけるスキャフォールドとビルディング・ブロックの出現頻度を示す。 標準偏差の値が比較的小さなものは、表4に示す結果に再現性があることを示している。 MDDR9104とのoverlap関数に関して最適化したライブラリにおいて、前半の4つのスキャフォールドの出現頻度は、後半の4つのスキャフォールドの出現頻度よりも高い。 この結果は、表2
    に示した各ライブラリ間のオーバーラップの結果と一致する。 ビルディング・ブロックの出現頻度から、疎水性側鎖や芳香族側鎖が好まれ、荷電側鎖や極性側鎖が好まれないことがわかる。 Maxmin関数に関して最適化したライブラリにおいても、スキャフォールド並びにビルディング・ブロックの出現頻度は同様の傾向を示すが、小さな分子よりも大きな分子がより好まれる傾向がみられる。

    【0222】 ライブラリ化合物を持たない各立方体セルにおけるMDDR9104化合物の数を数えることにより、最適化したライブラリが占める空間における穴を特定した。 Overlap関数により最適化され、最大数のMDDR9104化合物を含むサブセットの一つのセルには、44のMDDR9104化合物が含まれていた。 そのうちのいくつかを図17に示す。 これらのMDDR9104化合物は、多くの場合、芳香族環とH−結合受容体を持ち、一方、H−結合供与体を持たない中性分子である。 図15に示したスキャフォールドを視覚的に検討すると、一つ(No
    .4のアミドスキャフォールド)を除いた残り全部のスキャフォールドは、少なくとも一つの供与体を備えている。 また、ビルディング・ブロックの構造を検討してみると、供与体を持たず受容体を備える中性の側鎖が存在しないことがわかる。 これらのことから、MDDR9104によって表されるバイオ活性空間の所定の部分においては、最適化したライブラリに欠陥があることがわかる。 が、これを演繹的に予測することは困難である。 新しいスキャフォールドおよび/あるいは側鎖を解析に組み込むことで、最適化したコンビナトリアル・ライブラリの欠陥が克服されると考えられる。

    【0223】 上記の結果は、コンビナトリアル・ライブラリの一般的特性最適化にMDDR
    9104/主要コンポーネント解析空間(すなわち、バイオ活性空間)を利用することの妥当性を示している。 また、上述したように、MDDR9104/主要コンポーネント解析空間と比較することにより、コンビナトリアル・ライブラリの欠陥も特定できる。 20のアミノ酸側鎖から構成されるコンビナトリアル・ライブラリは、既知のバイオ活性化合物に比べて、分布に偏りがあるため、20のアミノ酸側鎖すべてを用いることがリガンドをデザインする場合の最適な選択肢ではない可能性もある。

    【0224】 一応、これに関して、2通りの説明が考えられる。 第1に、タンパク質の結合部位は疎水性を示す傾向があるため、親水性の残基はタンパク質の外側においやられる。 第2に、リガンドは、結合部位において、アミノ酸と一致するのではなく、相補的である必要がある。 例えば、タンパク質がより多くのH−結合供与体を備える場合、リガンドとして適しているものは、H−結合受容体をより多く含むリガンドである。

    【0225】 以上、本発明の理解を容易にするために、本発明の実施例を詳述したが、これらは、クレームの範囲内で様々に変形・変更して実施可能である。 例えば、様々な基本セットをトレイニングセットやリファレンスセット、参照セットのフィンガープリントに用いることができる。 また、遺伝的アルゴリズムやニューラル・
    ネットワーク等、様々な方法を適用して、生理活性をファーマコフォア・フィンガープリントに関連づけることができる。 輸送、毒性、経口生物学的利用率など、いろいろな種類の活性をファーマコフォア・フィンガープリントに関連づけることが可能である。 また、種々の方法を用いて、ファーマコフォア・フィンガープリントをケミカルスペースに変換可能である。 さらに、様々な基準および手順を利用して、リファレンスセットからプライマリ・ライブラリをデザインすることができる。 本発明の方法や装置は、様々な態様で実現可能である。 したがって、上述の実施例は、本発明を例示するものにすぎず、何ら本発明を限定するものではない。 本発明は、上述の詳細に限定されるものではなく、クレームの要旨の範囲内で様々に変更可能である。

    【0226】 <補遺> フォーマット ライン1: ハッシュ記号−レコード開始 %c−ファーマコフォア/フィールド型 A−水素結合受容体 D−水素結合供与体 H−疎水性 N−マイナス電荷 P−プラス電荷 任意のコメント

    【0227】 ライン2: %3d%3d−原子数、結合数 原子: %c%c−原子の種類 %c−Y=ラベリングする、N=ラベリングをはずす、それ以外はそのまま %3d−他の原子に対する結合数(0=任意) 結合: %3d%3d%3d−結合を規定する原子1、原子2、結合次数(0=任意)

    【0228】 #A 任意の酸素 10 OY0

    【0229】 #A A−N=A 32 NY2 A0 A0 121 132

    【0230】 #A 非芳香族N 66 NN0 A0 A0 A0 A0 A0 122 131 241 352 462 561

    【0231】 #A シアノ 21 NY1 C0 123

    【0232】 #D O−C 21 OY1 C0 121

    【0233】 #D 非カルボン酸 43 ON1 C0 O0 C0 121 232 241

    【0234】 #D S−C 21 SY1 C0 121

    【0235】 #D N−A 21 NY1 A0 121

    【0236】 #D N=A 21 NY1 A0 122

    【0237】 #D A−N−A 32 NY2 A0 A0 121 131

    【0238】 #H 炭素 10 CY0

    【0239】 #H 塩素 10 ClY0

    【0240】 #H 臭素 10 BrY0

    【0241】 #H ヨウ素 10 IY0

    【0242】 #H 非N−A 21 N0 AN0 120

    【0243】 #H 非O−A 21 O0 AN0 120

    【0244】 #H 非P−A 21 P0 AN0 120

    【0245】 #H 非H−S−A 21 S1 AN0 120

    【0246】 #H 非N−A−A 32 N0 AN0 AN0 120 230

    【0247】 #H 非O−A−A 32 O0 AN0 AN0 120 230

    【0248】 #H 非P−A−A 32 P0 AN0 AN0 120 230

    【0249】 #H 非H−S−A−A 32 S1 AN0 AN0 120 230

    【0250】 #N カルボン酸 43 O1 CY0 O0 C0 121 232 241

    【0251】 #N テトラゾール 66 NY2 N2 N2 N2 C0 C0 120 130 240 350 560 450

    【0252】 #N 硫酸塩、スルホン酸塩 54 SY4 O1 O1 O1 A0 121 132 142 151

    【0253】 #N リン酸塩、ホスホン酸塩 2+ 54 PY4 O1 O1 OY1 A0 121 131 142 151

    【0254】 #N リン酸塩 1+ 54 PY4 O1 O2 O2 O1 121 131 141 152

    【0255】 #P 任意の窒素 10 NY0

    【0256】 #P 非N=A 21 NN0 A0 122

    【0257】 #P 非N(三重結合)A 21 NN0 A0 123

    【0258】 #P 非N−A=A 32 NN0 A0 A0 120 232

    【0259】 #P N=A,−A,−A 43 NY0 C0 C0 C0 122 131 141

    【0260】 #P グアニジノ 54 CY3 N1 N1 N2 C0 120 130 140 450

    【0261】 #P イミダゾール 55 NY0 C0 C0 N0 C0 121 131 242 352 451

    【0262】 #P アミジン 43 N1 CY3 N1 C0 121 232 241

    【図面の簡単な説明】

    【図1】 ファーマコフォア・フィンガープリントを作成し、作成されたファーマコフォア・フィンガープリントを定量的構造活性相関(QSAR)および特定ライブラリの構築に適用するアプローチの概要を示すフローチャートである。

    【図2】 所定の化合物セットに関するファーマコフォア・フィンガープリントを作成するための好適な方法を示すフローチャートである。

    【図3】 一般的な3点ファーマコフォアを示す説明図である。

    【図4】 本発明の一実施例として、ファーマコフォア・フィンガープリントを作成する際に用いられる分子構造の入力表現を示す説明図である。

    【図5A】 本発明の一実施例として、デフォルトのファーマコフォア型に対応する塩素原子を含む構造フラグメントを示す説明図である。

    【図5B】 本発明の一実施例として、疎水性のファーマコフォア型に対応する塩素原子を含む化学構造を示す説明図である。

    【図5C】 本発明の一実施例として、7種類のファーマコフォア型をそれぞれ表す部分を含む化学構造を示す説明図である。

    【図6】 ファーマコフォア・フィンガープリントの作成において、酢酸基の原子にファーマコフォア型を対応させるデータ構造を示す説明図である。

    【図7A】 ファーマコフォア・フィンガープリントにおいて、化学構造のコンホメーションを作成する好適な方法を示すフローチャートである。

    【図7B】 回転可能な炭素−炭素sp3-sp3結合を有する化合物を示す説明図である。

    【図7C】 図7Bに示した化合物に関して評価可能な、アキシアル配座およびエクアトリアル配座の同位体を示す説明図である。

    【図8】 化合物ライブラリを作成するアプローチの概要を示すフローチャートである。

    【図9】 薬理活性化合物のデータベースをスクリーニングして、化合物のリファレンスセットを得る処理を示すフローチャートである。

    【図10】 ケミカルスペースの高活性領域に対する調査対象セットから抽出されたサブセットのオーバーラップあるいは分子多様性を算出する好適な方法を示すフローチャートである。

    【図11】 本発明の方法および装置に適用可能な一般的なコンピュータシステムを示すブロック図である。

    【図12】 エストロゲンレセプタの天然リガンドであるエストラジオール(上)と周知の強力なアンタゴニストであるジエチルスチルベストロール(下)に対する数理学的に作成されたファーマコフォア(P 1 = A/D; P 2 = A/D; P 3 = R; D 1 = 2-4.5;
    D 2 = 7-10; D 3 = 10-14)のマッピングを示す説明図である。

    【図13】 テストセットの活性を予測するために用いられるバイナリ活性値でトレイニングセットの活性を示すグラフである。

    【図14】 マトリックスの形で主要コンポーネント変換を示す説明図である。

    【図15】 実施例5で解析した8つのコンビナトリアル・スキャフォールドを示す説明図である。

    【図16】 実施例4で算出した Pの演算値を示すグラフである。

    【図17】 実施例5のコンビナトリアル・ライブラリに含まれない、PCA空間の領域を占めるMDDR9104の分子を示す説明図である。

    【手続補正書】

    【提出日】平成13年5月18日(2001.5.18)

    【手続補正1】

    【補正対象書類名】明細書

    【補正対象項目名】0069

    【補正方法】変更

    【補正内容】

    【0069】 対象構造のファーマコフォア・フィンガープリントが、 ηビットの長さのバイナリ−ビットストリングを含むようにしてもよい。 ここで、 ηは、基本セットに含まれるファーマコフォアの数を示す。 各ビット位置が、基本セットの各ファーマコフォアに対応する。 望ましい一例では、対象化合物のファーマコフォア・フィンガープリントが10,549ビットのビットストリングからなり、各ビットが基本セットファーマコフォアの各構成要素に対応する。

    【手続補正2】

    【補正対象書類名】明細書

    【補正対象項目名】0088

    【補正方法】変更

    【補正内容】

    【0088】 マッチング処理(図2のステップ211)を容易にするために、ファーマコフォア型が特定された対象化合物を表すデータ構造を作成する。 図6は、酢酸アニオン(陰イオン)605に関するこのようなデータ構造603の一例を示す。 一般的にいって、 η×ψアレイで原子の様々なファーマコフォア型への分類が行われる。 ここで、 ηは、水素原子以外の原子の数、 ψは、ファーマコフォア型の数を示す。 この例では、4 × 7アレイが、それぞれ、水素原子以外の原子の数、ファーマコフォア型の数に対応する。 アレイの各セルは、ある原子があるファーマコフォア型に割り当てられるか否かを示す。 この例では、1は、対象原子が所定のファーマコフォア型に対応することを、一方、0は対応しないことを示す。 すなわち、原子1のカルボニル酸素では、アクセプター(A)ファーマコフォア型カラムが1に設定されている。 原子1に関するほかのカラムは、すべて0に設定されている。 原子2のカルボニル炭素に関しては、デフォルト(X)ファーマコフォア型カラムが1に設定されている。 原子3のカルボキシラート酸素に関しては、アクセプター(A)とマイナス電荷(N)ファーマコフォア型カラムに1が設定されている。 また、原子4のメチル炭素に関しては、デフォルト(X)ファーマコフォア型に1が設定されている。

    ───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 09/411,751 (32)優先日 平成11年10月4日(1999.10.4) (33)優先権主張国 米国(US) (31)優先権主張番号 09/416,550 (32)優先日 平成11年10月12日(1999.10.12) (33)優先権主張国 米国(US) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MD ,MG,MK,MN,MW,MX,NO,NZ,PL, PT,RO,RU,SD,SE,SG,SI,SK,S L,TJ,TM,TR,TT,TZ,UA,UG,US ,UZ,VN,YU,ZA,ZW (71)出願人 Glaxo Wellcome Hous e,Berkeley Avenue G reenford,Middlesex UB6 0NN,Great Brita in (72)発明者 ムスカル・スティーブン・エム. アメリカ合衆国 カリフォルニア州95148 サン・ホセ,ヘッセルベイン・ウェイ, 2656 Fターム(参考) 2G045 AA40 DA77 JA01 JA04 5B046 AA00 KA06 5B075 ND02 UU18

    QQ群二维码
    意见反馈