首页 / 专利库 / 人工智能 / 相似性得分 / Method for displaying and extracting local similar sequence in biopolymer and device therefor

Method for displaying and extracting local similar sequence in biopolymer and device therefor

阅读:1017发布:2021-07-02

专利汇可以提供Method for displaying and extracting local similar sequence in biopolymer and device therefor专利检索,专利查询,专利分析的服务。并且PURPOSE: To display the local similar sequences in biopolymers such as nucleic acids or proteins through such processes that similarity of the sequences for the constituents of biopolymers is scored, the sequences are compared with one another in a parallel- arranged manner, and the two-dimensional graphic data with the sequence order and scores as abscissa and ordinate axes are multidimensionally displayed respectively.
CONSTITUTION: In order to compare genome DNA and cDNA sequences, etc., through the sequences of plural constituents, similarity of the sequences in consideration of consistency, inconsistency, gap incorporation and gap deletion between the constituents among biopolymers is scored, and based on the scores, these sequences are compared with one another in a parallel-arranged manner. At this time, the element number (e.g. amino acid residue number) denoting the order of the sequence for the constituents of one party of the biopolymers is set as the 1st axis (abscissa axis), while the specified parameter determined from the scores for the constituents (e.g. cumulative score, amino acid pair score) as the 2nd axis (ordinate axis), and the results are transformed into graphic data, which are then multidimensionally displayed in the form of a graph. By this method, highly similar regions can be discriminated easily.
COPYRIGHT: (C)1995,JPO,下面是Method for displaying and extracting local similar sequence in biopolymer and device therefor专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】複数の構成要素の配列からなる生体高分子の局所類似配列の表示方法であって、少なくとも2つの前記生体高分子の前記構成要素の配列の比較に際し、前記構成要素間の一致、不一致、ギャップ導入、ギャップ欠失を含む配列の類似度に関する情報を評価するためのスコアを求めるステップと、前記スコアに基づき複数の前記生体高分子の前記構成要素の配列を並置して比較するステップと、を少なくとも有する生体高分子局所類似配列の表示方法において、第1の軸に、前記並置された一方の前記生体高分子の前記構成要素の配列の順序を示す要素番号をとり、第2の軸に、前記並置された前記構成要素間のスコアから求められた所定のパラメータをとり、前記並置された結果をグラフデータに変換するステップと、前記グラフデータをグラフとして多次元表示するステップと、を有すること特徴とする生体高分子局所類似配列の表示方法。
  • 【請求項2】請求項1に記載の方法において、前記グラフデータを平滑化処理するステップをさらに含むことを特徴とする生体高分子局所類似配列の表示方法。
  • 【請求項3】請求項1または請求項2に記載の方法において、前記所定のパラメータが、所定の前記要素番号から各々の前記要素番号までの前記スコアの累積値とすることを特徴とする高体高分子局所類似配列の表示方法。
  • 【請求項4】請求項1または請求項2に記載の方法において、前記所定のパラメータが、各々の前記要素番号におけるスコア値とすることを特徴とする生体高分子局所類似配列の表示方法。
  • 【請求項5】請求項3に記載の方法において、前記グラフデータの勾配が前記第1の軸に関連して連続して前記第2の軸の値が、予め定められた一定値以上である領域を抽出するステップをさらに有し、該領域における、前記スコアの累積値、前記構成要素の配列の一致度、前記並置された結果の少なくとも1つを出力表示することを特徴とする生体高分子局所類似配列の表示方法。
  • 【請求項6】請求項4に記載の方法において、前記グラフデータにおいて前記第1の軸に関連して連続して前記スコアの値が、予め定められた一定値以上である領域を抽出するステップをさらに有し、該領域における、前記スコアの累積値、前記構成要素の配列の一致度、前記並置された結果の少なくとも1つを出力表示することを特徴とする生体高分子局所類似配列の表示方法。
  • 【請求項7】複数の構成要素の配列からなる生体高分子の局所類似配列の抽出方法であって、少なくとも2つの前記生体高分子の前記構成要素の配列の比較に際し、前記構成要素間の一致、不一致、ギャップ導入、ギャップ欠失を含む配列の類似度に関する情報を評価するためのスコアを求めるステップと、前記スコアに基づき複数の前記生体高分子の前記構成要素の配列を並置して比較するステップと、を少なくとも有する生体高分子局所類似配列の抽出方法において、第1の軸に、前記並置された一方の前記生体高分子の前記構成要素の配列の順序を示す要素番号をとり、第2の軸に、前記並置された前記構成要素間のスコアから求められた所定のパラメータをとり、前記並置された結果をグラフデータに変換するステップと、前記グラフデータをグラフとして多次元表示する表示するステップと、前記並置された結果から所定の類似度を有する部分を抽出するステップと、を有すること特徴とする生体高分子局所類似配列の抽出方法。
  • 【請求項8】請求項7に記載の方法において、前記グラフデータを平滑化処理するステップをさらに含むことを特徴とする生体高分子局所類似配列の抽出方法。
  • 【請求項9】請求項7または請求項8に記載の方法において、前記所定のパラメータが、所定の前記要素番号から各々の前記要素番号までの前記スコアの累積値とすることを特徴とする高体高分子局所類似配列の抽出方法。
  • 【請求項10】請求項7または請求項8に記載の方法において、前記所定のパラメータが、各々の前記要素番号におけるスコア値とすることを特徴とする生体高分子局所類似配列の抽出方法。
  • 【請求項11】請求項9に記載の方法において、前記グラフデータの勾配が前記第1の軸に関連して連続して前記第2の軸の値が、予め定められた一定値以上である領域を抽出するステップをさらに有することを特徴とする生体高分子局所類似配列の抽出方法。
  • 【請求項12】請求項10に記載の方法において、前記グラフデータにおいて前記第1の軸に関連して連続して前記スコアの値が、予め定められた一定値以上である領域を抽出するステップをさらに有することを特徴とする生体高分子局所類似配列の抽出方法。
  • 【請求項13】複数の構成要素の配列からなる生体高分子の局所類似配列の表示装置であって、少なくとも2つの前記生体高分子の前記構成要素の配列の比較に際し、
    前記構成要素間の一致、不一致、ギャップ導入、ギャップ欠失を含む配列の類似度に関する情報を評価するためのスコアを求める手段と、前記スコアに基づき複数の前記生体高分子の前記構成要素の配列を並置して比較する手段と、を少なくとも有する生体高分子局所類似配列の表示装置において、前記並置された前記構成要素間のスコアから所定のパラメータを求める手段と、第1の軸を前記並置された一方の前記生体高分子の前記構成要素の配列の順序を示す要素番号とし、第2の軸を前記所定のパラメータとして、前記並置された結果をグラフデータに変換する手と、前記グラフデータをグラフとして多次元表示する表示手段と、を有すること特徴とする生体高分子局所類似配列の表示方法。
  • 【請求項14】請求項13に記載の装置において、前記グラフデータを平滑化処理する手段をさらに含むことを特徴とする生体高分子局所類似配列の表示装置。
  • 【請求項15】請求項13または請求項14に記載の装置において、前記所定のパラメータが、所定の前記要素番号から各々の前記要素番号までの前記スコアの累積値とすることを特徴とする高体高分子局所類似配列の表示装置。
  • 【請求項16】請求項13または請求項14に記載の装置において、前記所定のパラメータが、各々の前記要素番号におけるスコア値とすることを特徴とする生体高分子局所類似配列の表示装置。
  • 【請求項17】請求項15に記載の装置において、前記グラフデータの勾配が前記第1の軸に関連して連続して前記第2の軸の値が、予め定められた一定値以上である領域を抽出する手段をさらに有し、該領域における、前記スコアの累積値、前記構成要素の配列の一致度、前記並置された結果の少なくとも1つを出力表示することを特徴とする生体高分子局所類似配列の表示装置。
  • 【請求項18】請求項16に記載の装置において、前記グラフデータにおいて前記第1の軸に関連して連続して前記スコアの値が、予め定められた一定値以上である領域を抽出する手段をさらに有し、該領域における、前記スコアの累積値、前記構成要素の配列の一致度、前記並置された結果の少なくとも1つを出力表示することを特徴とする生体高分子局所類似配列の表示装置。
  • 【請求項19】複数の構成要素の配列からなる生体高分子の局所類似配列の抽出装置であって、少なくとも2つの前記生体高分子の前記構成要素の配列の比較に際し、
    前記構成要素間の一致、不一致、ギャップ導入、ギャップ欠失を含む配列の類似度に関する情報を評価するためのスコアを求める手段と、前記スコアに基づき複数の前記生体高分子の前記構成要素の配列を並置して比較する手段と、を少なくとも有する生体高分子局所類似配列の抽出装置において、前記並置された前記構成要素間のスコアから所定のパラメータを求める手段と、第1の軸を前記並置された一方の前記生体高分子の前記構成要素の配列の順序を示す要素番号とし、第2の軸を前記所定のパラメータとして、前記並置された結果をグラフデータに変換する手と、前記グラフデータをグラフとして多次元表示する表示手段と、前記並置された結果から所定の類似度を有する部分を抽出する手段と、を有すること特徴とする生体高分子局所類似配列の抽出装置。
  • 【請求項20】請求項19に記載の装置において、前記グラフデータを平滑化処理する手段をさらに含むことを特徴とする生体高分子局所類似配列の抽出装置。
  • 【請求項21】請求項19または請求項20に記載の装置において、前記所定のパラメータが、所定の前記要素番号から各々の前記要素番号までの前記スコアの累積値とすることを特徴とする高体高分子局所類似配列の抽出装置。
  • 【請求項22】請求項19または請求項20に記載の装置において、前記所定のパラメータが、各々の前記要素番号におけるスコア値とすることを特徴とする生体高分子局所類似配列の抽出装置。
  • 【請求項23】請求項21に記載の装置において、前記グラフデータの勾配が前記第1の軸に関連して連続して前記第2の軸の値が、予め定められた一定値以上である領域を抽出する手段をさらに有することを特徴とする生体高分子局所類似配列の抽出装置。
  • 【請求項24】請求項21に記載の装置において、前記グラフデータの勾配が前記第1の軸に関連して連続して前記第2の軸の値が、予め定められた一定値以上である領域を抽出する手段をさらに有し、該領域における前記スコアの累積値を求める手段と、該領域における前記構成要素の配列の一致度を求める手段と、を有し、前記並置された結果から抽出された前記領域、前記スコアの累積値、前記一致度の少なくとも1つを表示する表示手段と、ことを特徴とする生体高分子局所類似配列の抽出装置。
  • 【請求項25】請求項22に記載の装置において、前記グラフデータにおいて前記第1の軸に関連して連続して前記スコアの値が、予め定められた一定値以上である領域を抽出する手段を、さらに有することを特徴とする生体高分子局所類似配列の抽出装置。
  • 【請求項26】請求項22に記載の装置において、前記グラフデータにおいて前記第1の軸に関連して連続して前記スコアの値が、予め定められた一定値以上である領域を抽出する手段をさらに有し、該領域における前記スコアの累積値を求める手段と、該領域における前記構成要素の配列の一致度を求める手段と、を有し、前記並置された結果から抽出された前記領域、前記スコアの累積値、前記一致度の少なくとも1つを表示する表示手段と、ことを特徴とする生体高分子局所類似配列の抽出装置。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は、核酸、タンパク質等の生体高分子の構成要素の配列比較技術に関すし、特に、
    複数の生体高分子の構成要素の配列に保存されている局所的な類似配列を抽出する技術に関する。

    【0002】

    【従来の技術】近年、核酸、タンパク質の生体高分子の構成要素である、塩基、アミノ酸の配列データの蓄積が著しく進んでおり、これら配列データのデータベースが作成されている。 これらのデータベースの中から、生物学的に意味のある情報を引き出すためには、生体高分子の構成要素の配列同士を比較して、その配列の類似性によってグループ分けしたり、複数の生体高分子の構成要素の配列で保存されている、特に重要な生理的もしくは化学的機能に関する局所部分配列を探索することが有効である。

    【0003】従来、核酸の塩基配列同士、タンパク質のアミノ酸配列同士を比較して、その局所的な類似度を探索する手法としては、生体高分子の構成要素の配列全体の類似度を評価するために、ニードルマン(Needlema
    n)とブンシュ(Wunsch)により開発され(ジャーナル オブ モレキュラーバイオロジー、48巻、444−
    453頁(1970年)(J. Mol. Biol. 48, 444-453
    (1970)))、その後、スミス(Smith)とウォーターマン(Waterman)により、局所的な類似度探索法として改良された、ダイナミックプログラミングによる方法が広く用いられている(ジャーナル オブ モレキュラーバイオロジー、147巻、195−197頁(1981
    年)(J. Mol. Biol. 147, 195-197 (1981)))。 この方法では、比較する二つの生体高分子の配列の構成要素を並置して、並置された各要素間の一致、不一致、及び構成要素の挿入、欠失によるギャップ導入を表わすスコアに基づき、局所類似領域においてスコア合計を計算し、最適並置を導き出す。 ただし、このダイナミックプログラミングに基づく方法は、計算時間が比較する構成要素の配列の長さの積に比例するため、非常に長時間を要する。 そのため、新たに決定された核酸あるいはアミノ酸の配列データを、データベース中の生体高分子の構成要素の配列データと比較する場合には、より高速化された手法、FASTA(プロシーディングス オブ ナショナルアカデミー オブ サイエンシズ ユーエスエー、
    85巻、2444−2448頁(1988年)(Proc.
    Natl. Acad.Sci. USA, 85, 2444-2448 (1988))、あるいはBLAST(ジャーナル オブ モレキュラーバイオロジー、215巻、403ー410頁(1990)(J.
    Mol. Biol., 215, 403-410 (1990))が用いられることが多い。

    【0004】しかし、これらいずれの手法もスコア合計が0から最大値をとる領域で、比較する二つの生体高分子の構成要素の配列を並置する。 図1は非常に類似性が高いタンパク質である、ショウジョウバエのnotchタンパクと、アフリカツメガエルのxotchタンパクのアミノ酸配列をBLASTの手法によって比較した結果のうち、最も高いスコア合計を有するアミノ酸配列部分の並置結果を示している。 以下、比較の際に基準として用いる用いるキー配列、比較の対象ととなる配列をターゲット配列と呼ぶことにする。 notchタンパクとxotchタンパクのアミノ酸配列の並置は、比較の際にキー配列として用いた
    notchタンパクの271番目から689番目のアミノ酸配列に対してなされている。 図1に示すBLASTの手法による結果において、Queryと記された欄はキー配列であるnotchタンパクの一文字表現によるアミノ酸配列、Sbj
    ctと記された欄はターゲット配列であるxotchタンパクの一文字表現によるアミノ酸配列がそれぞれ示されている。 Queryの欄とSbjctの欄との間には、キー配列とターゲット配列が一致している場合には、そのアミノ酸が一文字表現により示される。 また、不一致の場合で、そのスコアが正の値をもつ場合には+が示され、負の値をもつ場合には何も示されない。 BLASTの手法におけるスコア計算では、図3に示すPAM120と呼ばれるスコアマトリックスが用いられる。 このマトリックスの要素は二つのアミノ酸配列を比較するとき、それぞれの配列に含まれる各アミノ酸残基の対が、無関係なアミノ酸の配列からどの程度の確率で生ずるかを表わす。 マトリックスの要素の値は、あるアミノ酸残基の対が共通の祖先の分子からの突然変異によって生ずる確率を、無関係なアミノ酸の配列から偶然によって生ずる確率で割った値の対数で表示される。 従って、マトリックスの要素の値が正の値の場合、偶然に生じるよりは共通の祖先の分子を持つ確率が高く類似性が高いこと、負の値の場合は正の値の場合の逆のことをそれぞれ表わす。 従って、図1のQu
    eryの欄とSbjctの欄との間において、一致しているアミノ酸の一文字表現、及び+の記号が多い領域ほど、スコアの合計が高くなり、構成要素の配列の類似度が高くなる。 スコアマトリックスとしては、図3に示すPAM12
    0と、図4に示すPAM250が広く用いられている。 図3、図4はそれぞれ、100残基あたり120及び25
    0残基が突然変異を起こした場合の確率を計算したものである。

    【0005】図1を2つのアミノ酸配列の類似度の観点から見ると、3つの領域に大別できる。 即ち、Queryの欄の配列番号271番から配列番号335番までの第1
    の領域、配列番号335番から配列番号456番までの第2の領域、配列番号456番近傍から配列番号689
    番までの第3の領域に大別できる。 第1及び第3の領域は類似度が高く、第2の領域は類似性がないように見える。 これはBLASTの手法のアルゴリズムが、二つの生体高分子の構成要素の配列を並置する際に、構成要素の挿入、欠失によって生ずるギャップの存在を許容しないことに起因している。

    【0006】図1と同様に同じ配列比較対象を選び、ショウジョウバエの notchタンパクと、アフリカツメガエルのxotchタンパクのアミノ酸配列をFASTAの手法によって比較して得た並置結果を図2に示す。 図1と同様に、
    図2のアミノ酸配列において、上欄はnotchタンパクの一文字表現によるアミノ酸配列(キー配列)、下欄はxo
    tchタンパクの一文字表現によるアミノ酸配列(ターゲット配列)をそれぞれ示している。 FASTAの手法はダイナミックプログラミングの手法と同様に、構成要素の挿入、欠失によって生ずるギャップを許容するアルゴリズムである。 図2の結果を得る際に、スコアマトリックスとしてPAM250、構成要素の挿入、欠失によって生ずるギャップの導入及び延長のペナルティスコアは、それぞれ12と4を用いた。 図2の結果によれば、キー配列の342番に対応するターゲット配列、キー配列の45
    7番に欠失がありギャップが生じていることが判る。 即ち、図1に示す、BLASTの手法による結果では、キー配列の342番から457番までの配列は、本来あるべき並置結果とアミノ酸1残基分ずれており、全く類似性がないと判断されることになる。 即ち、BLASTの手法による並置結果は、全く類似性のない領域も含むことになる。 これは、BLASTの手法ではスコア合計が0から最大値をとる領域で並置が行われ、この領域内では、スコア合計が0より大きく最大値より小さいどのような値も有することができるという原理に起因している。

    【0007】

    【発明が解決しようとする課題】生体高分子の構成要素の配列の、類似度の高い領域と低い領域を、構成要素の並置結果の比較のみから識別し、類似度の高い局所配列を抽出するのは容易ではない。 本発明の第1の目的は、
    局所類似配列として選択された、類似度の低い低類似領域、及び特に類似性がない非類似領域を含む構成要素の配列の並置結果から、類似度の高い高類似領域を容易に識別する方法、装置を提供することにある。 また、本発明の第2の目的は、構成要素の配列の並置結果から高類似領域を自動的に抽出する方法、装置を提供することにある。

    【0008】

    【課題を解決するための手段】上記第1の目的を実現するために、本発明では、核酸、タンパク質等の生体高分子の構成要素の配列を比較し、構成要素の一致、不一致、ギャップ導入などの、2つの生体高分子の構成要素間の類似性を表わすスコアの合計をもとめ、得られた局所類似配列部分の並置結果を、並置された一方の生体高分子の構成要素(例えば、塩基あるいはアミノ酸)の配列の順序を表す要素番号を第1の軸にとり、並置された構成要素間のスコアから求めた所定のパラメータを第2
    の軸にとり、グラフとして多次元表示する。 このグラフは平滑化処理される。 所定のパラメータとして、第1の軸の所定の要素番号から各要素番号までのスコアの累積値、又は各要素番号のスコア値そのものをとる。 局所類似配列部分は、例えば、ダイナミックプログラミングの手法、FASTAの手法、及びBLASTの手法等により求められた結果を使用する。

    【0009】また、上記第2の目的を実現するために、
    本発明では、第1の軸の所定の要素番号から各要素番号までのスコアの累積値を所定のパラメータとするグラフの勾配が、第1の軸に関して連続的に所定の値以上の値を有する領域を識別し抽出し、その領域での累積スコア値と構成要素の配列を並置して出表示する。 あるいは、要素番号のスコア値そのものを所定のパラメータとするグラフの第2の軸のスコア値が、第1の軸に関して連続的に所定の値以上の値を有する領域を識別し抽出し、その領域での累積スコア値と構成要素の配列を並置して出力表示する。

    【0010】

    【作用】上記のように、第1の軸の所定の要素番号から各要素番号までのスコアの累積値を所定のパラメータとするとき、高類似度領域では構成要素の配列の各要素間のスコアが正の大きな値をとることが多いので、グラフの勾配は大きくなる。 一方、低類似度領域ではグラフの勾配は小さくなり、特に類似性がない非類似性領域では、構成要素の配列の各要素間のスコアは負の値をとることが多く、グラフの勾配は負になる。 従って、得られたグラフを一見するだけで、構成要素の配列の並置結果において、低類似度領域、非類似度高類似領域度を識別できる。

    【0011】また、要素番号のスコア値そのものを所定のパラメータとするとき、高類似度領域では構成要素の配列の各要素間のスコアが正の大きな値をとることが多いので、グラフの第2軸の値は大きくなる。 一方、低類似度領域ではグラフの第2軸の値は小さくなり、非類似性領域では、構成要素の配列の各要素間のスコアは負の値をとることが多く、グラフの第2軸の値は負になる。
    従って、得られたグラフを一見するだけで、構成要素の配列の並置結果において、低類似度領域、非類似度高類似領域度を識別できる。 さらにグラフを平滑化処理するので、全体として類似度が低い領域において、類似度の微妙な差を識別する場合に有効である。

    【0012】高類似度領域を自動的に抽出するためには、第1の軸の所定の要素番号から各要素番号までのスコアの累積値を所定のパラメータとするときには、グラフの勾配の大きな領域を、要素番号のスコア値そのものを所定のパラメータとするときには、グラフの第2の軸の値の大きな領域を、それぞれ閾値を設定して抽出すればよい。 この閾値は予め、一定の勾配あるいはスコア値を基準値として設定しておいてもよいし、構成要素の配列の並置結果から得られるグラフ全体の勾配あるいはスコア値の平均値を基に計算で求め自動的に設定できるようにしてもよい。 高類似度領域を効率よく自動的に抽出するためには、グラフを平滑化して構成要素の配列の各要素毎のスコア値のばらつきの影響を受けることが少なく有効である。

    【0013】

    【実施例】本発明の一実施例を図5により説明する。 本実施例では、図1に示した、BLASTの手法により得た、
    ショウジョウバエのnotchタンパクとアフリカツメガエルのxotchタンパクのアミノ酸配列の並置結果をグラフで示した。 横軸にはアミノ酸の順序を示す番号、縦軸にはアミノ酸配列の並置の開始位置から各アミノ酸対に対して、図3に示したスコアマトリックス、PAM120のスコア値を加算した累積値をとった。 横軸はアミノ酸配列の並置の開始点であるキー配列、notchタンパクの2
    71番を1とした。 図5のグラフを一見すれば判るように、横軸の値(番号)が1から64、及び187から4
    15までの領域ではグラフは正の勾配をもち類似度が高く、65から186までは負の勾配をもち類似度が低くなっていることが容易に判別できる。 本実施例では、正の勾配をもつ領域と負の勾配をもつ領域に大別できるので、勾配が正の部分を識別すれば類似度の大きな局所配列が抽出できる。 ただし、アミノ酸対によっては、高い類似性を有する領域でも、負の値をもつ対もあるので、
    自動的に局所類似配列を抽出するには、横軸方向の数点で平滑化処理することが望ましい。 自動的に抽出された局所類似配列の累積スコアをグラフの正の勾配部分の増加量から計算し、アミノ酸配列の並置部分の一致しているアミノ酸対の数と並置部分のアミノ酸対の総数との比から一致度を求め、アミノ酸配列の並置部分とともに出力表示することにより、類似度の大きな部分配列に関する情報を得ることができる。

    【0014】本発明の一実施例を図6、図7により説明する。 図6において、図1に示したアミノ酸配列の並置結果を、横軸にアミノ酸の順序を示す番号、縦軸に並置の各位置のアミノ酸対に対するスコアマトリックス、PA
    M120のスコア値を示した。 横軸は、アミノ酸配列の並置の開始点であるキー配列、notchタンパクの271
    番のアミノ酸残基を1とした。 図6のグラフを一見すれば判るように、横軸の値が1から64まで、及び187
    から415までの領域では大概正の値であり類似度が高く、65から186までの領域では負の値であり類似度が低いことが判別できる。 図6では、平均的に正のスコア値をもつ領域と負のスコア値をもつ領域に大別できるので、スコア値が正の部分を識別すれば類似度の高い局所配列が抽出できる。 ただし、この場合もアミノ酸対によっては負の値をもつ対もあるので、自動的に局所類似配列を抽出するには、横軸方向の数点で平滑化処理をすることが望ましい。 図6を横軸方向の11点で加算平均した結果を図7に示す。 図7によれば、アミノ酸対のスコアによるばらつきが平均化により抑えられるので類似度の高い領域と低い領域を容易に識別できる。 さらにスコアの正負により、類似度の高い領域を自動的に抽出ことも可能になる。

    【0015】本発明の一実施例を図8により説明する。
    図8の例は、カルモジュリンと呼ばれるタンパク質のスーパーファミリー(配列の類似度によりタンパク質を分類したもの)に属するヒトのカルモジュリンタンパクと大腸菌のdnaKと呼ばれるタンパク質のアミノ酸配列を、
    Smith-Watermanの手法によって比較して得た結果をグラフにより表示したものである。 ここでは、スコア計算は図4に示したマトリックス、PAM250を使用している。 また、アミノ酸配列に対するギャップの導入、延長のペナルティスコアとして、それぞれ12と4を用いた。 大腸菌のdnaKと呼ばれるタンパク質のアミノ酸配列は、カルモジュリンスーパーファミリーに属さないタンパク質の中で、Smith-Watermanの手法あるいはFASTAの手法によって比較した場合に、最大のスコア合計を有することが知られている。 149残基のアミノ酸からなるヒトカルモジュリンを比較の際の基準配列とすると、大腸菌dnaKタンパクとはほぼその全長でアミノ酸配列の並置ができる。 アミノ酸配列の並置の長さは、挿入、欠失を含めてアミノ酸120残基におよぶ。 しかし、図8から判るように最適並置のスコア値に貢献しているのはアミノ酸30残基の領域に限られる。 そしてこの領域は、ヒトカルモジュリンの4つあるEFハンドと呼ばれる、カルシウムイオンへの結合に関与するモチーフの一つに対応している。
    本実施例によっても局所類似配列として選択された結果から、真に類似度の高い領域を容易に識別できる。

    【0016】本発明の一実施例を図9により説明する。
    本実施例では、イムノグロブリンV領域スーパーファミリーに属するタンパク質であるK1HUAGをキー配列にして、イムノグロブリンV領域に属する他のタンパク質K2
    DGGM、KVRBB1及びS09230(いづれもタンパク質配列データベースPIRのエントリーネームである)の配列比較を、Smith-Watermanのアルゴリズムに基づくダイナミックプログラミングの手法で行なって得た結果を、図9
    (a)、図9(b)、図9(c)にそれぞれグラフにより示した。 スコア計算では、図4に示したスコアマトリックス、PAM250を使用した。 また、アミノ酸配列に対するギャップの導入、延長のペナルティスコアとしてそれぞれ12と4を用いた。 配列比較の結果、アミノ酸配列の最適並置では、両タンパク質のアミノ酸の一致度は51%から53%であった。 図9では、横軸にキー配列としたK1HUAGのアミノ酸残基の番号、縦軸にアミノ酸配列の並置の開始位置からの各アミノ酸対に対するスコアの累積値をとった。 イムノグロブリン軽鎖のV領域は、主にベータシート構造からなる4つの骨格部分(F
    W)と3つのループ構造部分(CDR)から構成されている。 ループ構造部分(CDR)が抗原との結合に関係する部分であり、抗原認識の多様性の必要からアミノ酸変異の大きい部分である。 一方、骨格部分(FW)はイムノグロブリンタンパクの構造を決める部分であり、そのアミノ酸配列は比較的良く保存されている。 図9には、これらの位置も併せて示した。 図9から判るように、FW領域では相対的に勾配が大きく、CDR領域では小さい。 即ち、上記した配列の保存性に関する知見と各領域の区分けが容易に得られる。

    【0017】本発明の一実施例を図9、図10により説明する。 図9では楕円形の枠8、9、10で示した3つの、局所的に勾配の大きな領域が存在する。 イムノグロブリンV領域スーパーファミリーに属するタンパク質は数が多く、その配列も多岐に渡っている。 Smith-Waterm
    anの手法、FASTAの手法、BLASTの手法等による、異なるタンパク質のアミノ酸配列の類似度の比較に関しては、
    タンパク質のアミノ酸配列データベースの検索に際して、スーパーファミリーに属するタンパク質をできるだけ選択し、属さないものを選択しないという、感度と選択性がアルゴリズムの性能の尺度になっている。 しかし、いずれのアルゴリズムを採用しても、最適並置のスコアだけから選択された配列が基準とした配列と同じスーパーファミリーに属するか否かを決めるのは不可能である。 そこでスコア以外に、図9に楕円形の枠8、9、
    10で示すような、特徴的な局所部位を判断基準に加えることが考えられる。 図10の(a)〜(e)に、図9
    と同様にK1HUAGをキー配列として、Smith-Watermanの手法で得た結果の中で、同じスーパーファミリーに属するもので最も低いスコアを示す幾つかの並置結果をグラフにより示す。 アミノ酸配列の一致度は27%から19%
    であった。 これらのグラフでは最適並置の領域の外側の部分も示した。 従って縦軸のスコア値は相対値である。
    全体としてはほとんど類似性が見られないが、図9で示した楕円形の領域に対応する領域8'、9'、10'が多くの例で保存されている。 従って、ここで示したようなグラフの特徴的なパターンと最適並置のスコア値を組み合わせることにより、スーパーファミリーメンバーの同定が精度良く行なえる可能性を示唆している。

    【0018】以上説明した本発明の方法を実施する装置の一実施例を図11により説明する。 本実施例は、最適並置を求める生体高分子配列の入力手段1、最適並置を求める並置演算手段2、最適並置結果から図5に例示したグラフを求めるグラフ化演算手段3、このグラフを出力表示する出力手段4で構成され、具体的には、計算機本体、外部記憶装置、CRT、プリンタ、キーボード等のハードウェアと最適並置を求めるための計算プログラム、最適並置結果をグラフ化するためのプログラム等のソフトウェアで構成される。

    【0019】入力手段は、最適並置を求めようとするタンパク質を特定するためのキーワード等のデータを計算機のキーボードから入力し、計算機の外部記憶装置に保持されたアミノ酸配列データベース5からタンパク質のアミノ酸配列データを検索する手段、得られた配列データを並置演算手段の内部記憶装置に複製する手段で構成する。 予め、アミノ酸の配列が判明している場合には、
    キーボードから直接アミノ酸配列データを入力してもよい。

    【0020】並置演算手段は、入力手段によって内部記憶装置に複製されたアミノ酸配列データと、外部記憶装置のアミノ酸配列データベースから順次並置演算手段の内部記憶装置に複製された配列データとの最適並置を、
    各アミノ酸間の一致、不一致、ギャップ導入等のスコアに基づき求めるする手段、得られた最適並置のスコア合計の値により有意な配列対を選びだす選別手段で構成する。 得られた最適並置結果は、グラフ化演算手段の内部記憶装置に転送される。 予め比較しようとする配列の対が判明している場合には、比較する配列対の配列データを入力手段によって並置演算手段の内部記憶装置に複製すればよい。 この場合には、最適並置計算で得られた結果を選別手段を通さずに、直接グラフ化演算手段の内部記憶装置に転送すればよい。

    【0021】グラフ化演算手段は、並置演算手段で計算、選別され、内部記憶装置に転送されてきた最適並置結果をベースに、先に説明した各実施例で示したグラフを求める方法により、グラフを求める。 得られたグラフデータは出力手段に転送され、出力表示される。 本実施例では、出力手段をCRT及びプリンタで構成する。

    【0022】本発明の方法を実施する装置の一実施例を図12により説明する。 本実施例は、上記実施例の装置を構成する手段に加えて、得られたグラフから特に類似性の高い領域を選別するための選別演算手段6、選別された領域の累積スコア、一致度を求める出力値演算手段7、累積スコア、一致度、並置結果を出力する出力手段4で構成する。 選別演算手段は、選別演算手段の内部記憶装置に転送されたグラフデータをベースに、グラフの勾配が連続的に一定値以上である領域、あるいはグラフのスコア値が連続的に一定値以上の値である領域を選びだし、その領域の境界を決定する演算手段で構成する。
    出力値演算手段は、選別演算手段により選びだされた領域の累積スコア値、アミノ酸の一致する割合を表す一致度を計算する。 得られた累積スコア値、一致度、及び選別領域の並置結果は出力手段に転送され、出力表示される。 本実施例でも、出力手段をCRT及びプリンタで構成する。 表示は1つのキー配列に対して、複数のターゲット配列を、2次元座標に重複表示、あるいは多次元座標に表示することもできる。 このとき、各ターゲット配列に関するデータをカラー表示して識別を容易にすることもできる。 さらに、累積スコアのグラフ表示における勾配、あるいはスコアのグラフ表示におけるスコア値、
    の正、負部分をそれぞれ異なるカラー表示して識別を容易にすることもできる。

    【0023】以上の実施例では、タンパク質のアミノ酸配列に関する結果を中心に説明したが、本発明が核酸の配列比較に際しても有効なことは明らかである。 特に、
    エクソン、イントロンで構成されるゲノムDNAとcDNA配列を比較する場合に、ダイナミックプログラミングの手法、FASTAの手法、BLASTの手法等の従来の局所類似配列抽出法では、エクソン、イントロンの境界が識別できず、エクソン部分の完全に一致している配列だけでなく、イントロン部分の全く類似性のない配列も含めて類似配列として抽出してくる場合があり、配列の一致度からゲノムDNAとcDNA配列の同一性を評価する場合に問題があった。 しかし、本発明を用いれば、例えば、グラフの勾配から完全一致部分と不一致部分を明瞭に識別でき、完全一致部分を自動的に抽出し、そのスコア値、一致度、並置結果を出力表示することにより、上記の同一性を誤りなく評価できる。

    【0024】

    【発明の効果】本発明によれば、低類似度、非類似度領域をもつ類似核酸、タンパク質の最適並置結果の中から類似度の大きな領域を容易に識別でき、さらに自動的に抽出することが可能となる。 さらに複数のドメインから構成されるタンパク質の各ドメインの位置、境界あるいは核酸のイントロン、エクソンの位置、境界を容易に識別できる。

    【図面の簡単な説明】

    【図1】本発明に関連する一従来技術による一出力結果例。

    【図2】本発明に関連する一従来技術による一出力結果例。

    【図3】本発明で用いられるスコアマトリックスの一例。

    【図4】本発明で用いられるスコアマトリックスの一例。

    【図5】本発明による出力結果の一例を示すグラフ。

    【図6】本発明による出力結果の一例を示すグラフ。

    【図7】本発明による出力結果の一例を示すグラフ。

    【図8】本発明による出力結果の一例を示すグラフ。

    【図9】本発明による出力結果の一例を示すグラフ。

    【図10】本発明による出力結果の一例を示すグラフ。

    【図11】本発明の方法が実施される装置の一実施例の構成図。

    【図12】本発明の方法が実施される装置の一実施例の構成図。

    【符号の説明】

    1…入力手段、2…並置演算手段、3…グラフ化演算手段、4…出力手段、5…配列データベース、6…選別演算手段、7…出力値演算手段、8、9、10…局所的に勾配の大きい領域、8'…局所的に勾配の大きい領域8
    に対応する領域、9'…局所的に勾配の大きい領域9に対応する領域、10'…局所的に勾配の大きい領域10
    に対応する領域。

    ───────────────────────────────────────────────────── フロントページの続き (72)発明者 西川 哲夫 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 川口 久光 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 平岡 進 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 笠原 直子 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 神原 秀記 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 岡山 利次 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社内

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈