专利汇可以提供Haplotype frequency estimation method by dna pool专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To carry out information processing without depending on specification of a computer such as a processing speed in haplotype estimation.
SOLUTION: Genotype pool information where genotype information associated with a plurality of specimen included in a group is integrated, is used as an input value to estimate haplotype frequency in the group by an expectation maximization algorithm.
COPYRIGHT: (C)2004,JPO&NCIPI,下面是Haplotype frequency estimation method by dna pool专利的具体信息内容。
【0001】
【発明の属する技術分野】
本発明は、最大尤度推定アルゴリズムとして知られている期待値最大化アルゴリズム(以下、EMアルゴリズムと呼ぶ)を用いたハプロタイプ頻度推定方法、ハプロタイプ頻度推定アルゴリズム及びハプロタイプ頻度推定プログラムに関する。
【0002】
【従来の技術】
遺伝統計学的手法とは、不明の疾患遺伝子を見出す方法の一つであり、個体間の遺伝子多型の違いと、各個体の形質データとから統計的な計算によって、形質に関連する遺伝子座を探す方法である。 すなわち、遺伝統計学的手法によれば、遺伝的多型と形質(表現型、症状等)の情報のみから統計学を用いて原因(遺伝子座)を解明することができる。
【0003】
遺伝統計学的手法としては、主としてパラメトリック連鎖解析とノンパラメトリック連鎖解析とに分類される。 「連鎖解析」とは、メンデルの第3法則(独立の法則)の例外現象である連鎖を利用して表現型に関連する遺伝子座の染色体上に、疾患原因遺伝子座の存在領域を絞り込んでいく(位置をマッピングする)遺伝統計学的手法である。 「パラメトリック」とは、解析に先立ち、遺伝子型に応じて固有の発症確率(=浸透率)を仮定する(遺伝形式を仮定する)ことを意味する。 遺伝子型における浸透率を仮定するということは、すなわち疾患原因遺伝子座位での遺伝子型によって発症確率が記述できるということである。 浸透率が仮定できるときには、表現型(罹患の有無)からその疾患の原因遺伝子座での遺伝子型を簡単に関連づけることができる。 「ノンパラメトリック」とは、遺伝形式を仮定せずに解析を行うことを意味する。
【0004】
ところで、ハプロタイプとは、複数の遺伝子座における各対立遺伝子の組合せとして定義される。 表現型を遺伝子領域にマッピングする研究など、ハプロタイプ推定は、多くの遺伝子研究において重要な意味を持っている。 通常、集団からサンプリングされた複数個人の遺伝子型データに基づいて集団のハプロタイプ推定及び個人のディプロタイプ推定が行われている。
【0005】
【発明が解決しようとする課題】
ところで、複数個人の遺伝子型データを用いた場合、例えば、最大尤度推定を行うためのEMアルゴリズムを使用して集団のハプロタイプ推定及び個人のディプロタイプ推定を行うことができる。 しかしながら、この場合、複数個人の遺伝子型データを用いているため、入力するためのデータ量が膨大であり、現状使用されている高スペックのコンピュータでさえも処理することが困難であった。
【0006】
そこで、本発明は、上述したような実状に鑑み、処理速度等のコンピュータにおけるスペックに依存せずに情報処理が可能なEMアルゴリズムを用いたハプロタイプ推定方法、ハプロタイプ頻度推定アルゴリズム及びハプロタイプ頻度推定プログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
上述した目的を達成するため、本発明者が鋭意検討した結果、複数個人の遺伝子型データの代わりに、複数個人の遺伝子型データをプールしたデータを用いることにより、集団のハプロタイプ頻度推定に要する処理能力を低く抑えられ、また、複数個人の遺伝子型データをプールしたデータを用いても集団のハプロタイプ頻度推定を正確に行えることを見出し、本発明を完成するに至った。
【0008】
すなわち、本発明は、以下を包含する。
(1)集団に含まれる複数の検体に関する遺伝子型情報を集積してある遺伝子型プール情報を入力値として、期待値最大化アルゴリズムにより上記集団におけるハプロタイプ頻度を推定する方法。
【0009】
(2)上記複数の検体に由来するDNAを含む複数のDNAプールを調製し、当該複数のDNAプールに含まれるDNAにおける所定の遺伝子座に関するタイピングを行う工程を含むことを特徴とする(1)記載のハプロタイプ頻度を推定する方法。
【0010】
(3)2以上6以下の検体に関する遺伝子型情報を集積することして遺伝子型プール情報を作成することを特徴とする(1)記載のハプロタイプ頻度を推定する方法。
【0011】
(4)前記期待値最大化アルゴリズムはEMアルゴリズムであり、前記遺伝子型プール情報に最尤推定を行うことによりハプロタイプ頻度を推定することを特徴とする(1)記載のハプロタイプ頻度を推定する方法。
【0012】
(5)集団に含まれる複数の検体に関する遺伝子型情報を集積してある遺伝子型プール情報を入力値として、期待値最大化アルゴリズムにより上記集団におけるハプロタイプ頻度を推定するアルゴリズム。
【0013】
(6)上記複数の検体に由来するDNAを含む複数のDNAプールを調製し、当該複数のDNAプールに含まれるDNAにおける所定の遺伝子座に関するタイピングを行う工程を含むことを特徴とする(5)記載のハプロタイプ頻度を推定するアルゴリズム。
【0014】
(7)2以上6以下の検体に関する遺伝子型情報を集積することして遺伝子型プール情報を作成することを特徴とする(5)記載のハプロタイプ頻度を推定するアルゴリズム。
【0015】
(8)前記期待値最大化アルゴリズムはEMアルゴリズムであり、前記遺伝子型プール情報に最尤推定を行うことによりハプロタイプ頻度を推定することを特徴とする(5)記載のハプロタイプ頻度を推定するアルゴリズム。
【0016】
(9)集団に含まれる複数の検体に関する遺伝子型情報を集積してある遺伝子型プール情報を入力値として、期待値最大化アルゴリズムにより上記集団におけるハプロタイプ頻度を推定するプログラム。
【0017】
(10)上記複数の検体に由来するDNAを含む複数のDNAプールを調製し、当該複数のDNAプールに含まれるDNAにおける所定の遺伝子座に関するタイピングを行う工程を含むことを特徴とする(9)記載のハプロタイプ頻度を推定するプログラム。
【0018】
(11)2以上6以下の検体に関する遺伝子型情報を集積することして遺伝子型プール情報を作成することを特徴とする(9)記載のハプロタイプ頻度を推定するプログラム。
【0019】
(12)前記期待値最大化アルゴリズムはEMアルゴリズムであり、前記遺伝子型プール情報に最尤推定を行うことによりハプロタイプ頻度を推定することを特徴とする(9)記載のハプロタイプ頻度を推定するプログラム。
【0020】
【発明の実施の形態】
以下、本発明に係るEMアルゴリズムを用いたハプロタイプ頻度推定方法(以下、単に「ハプロタイプ頻度推定方法」と呼ぶ)を詳細に説明する。
【0021】
ハプロタイプ頻度推定方法は、集団における複数の遺伝子型情報を集積(プール)した遺伝子型プール情報から、該集団におけるハプロタイプ頻度を算出する工程を含んでいる。
【0022】
「遺伝子型」とは、所定の遺伝子座における一対の対立遺伝子の組み合わせ(常染色体における遺伝子座の場合)である。 一対の対立遺伝子は、父性由来の一方の対立遺伝子と母性由来の他方の対立遺伝子とからなる。 遺伝子型は、例えば所定の遺伝子座に多型部位が存在する場合、該多型部位に相当する一対の対立遺伝子についての遺伝子の個人についての特徴を示す。
【0023】
「遺伝子型プール情報」とは、個人に関する遺伝子型情報を、複数の個人について集積した情報を意味する。 複数の個人とは、特に限定されないが、2〜6人とすることが好ましく、2〜4人とすることがより好ましい。 また、遺伝子型プール情報は、複数の遺伝子型情報を、複数の個人について集積した情報であってもよい。
【0024】
遺伝子型プール情報となる遺伝子の特徴としては、例えば1塩基多型、マイクロサテライト及び挿入/欠失等の遺伝子変異を挙げることができる。 遺伝子型に関する情報には、前記遺伝子変異のうち、1つの種類に限定されず、複数の種類の遺伝子変異が含まれていてもよい。
【0025】
遺伝子型情報に複数の遺伝子座が含まれる場合、これら遺伝子座は連鎖していることが好ましい。 従って、本発明においては、予め連鎖していることが知られている遺伝子座について遺伝子型プール情報を取得することが望ましいが、連鎖の有無が不明な場合もあり、必ずしもこの限りではない。
【0026】
また、「ハプロタイプ」とは、複数の遺伝子座における各対立遺伝子の組合せを意味する。 ハプロタイプは、複数の1塩基置換(SNP; single nucleotide polymorphism )、マイクロサテライト、挿入/欠失等の多型部位が近接して存在し、これらが連鎖する場合に形成されるものである。 また、常染色体上の遺伝子部位について、個人は、それぞれ父性或いは母性に由来する一対のハプロタイプを保有する。 このような個人が保有する一対のハプロタイプの組み合わせを「ディプロタイプ」という。
【0027】
「ハプロタイプ頻度」とは、複数の遺伝子座における各対立遺伝子について所定の組合せ(ハプロタイプ)が出現する頻度である。 ハプロタイプは、複数の遺伝子座が狭い遺伝子領域に含まれる場合には世代交代によっても変化することは少ない。 これは、複数の多型部位が存在する遺伝子領域内に交差が起きることによりハプロタイプは変化するが、当該遺伝子領域が狭い場合、交差が起きる確率は極めて低い(1世代あたり、100,000kbに1回に過ぎない)ためである。 そのため特定の集団内、例えば日本人では、それぞれのハプロタイプ頻度が決まっている場合が多い。 ハプロタイプ頻度は、集団ごとに異なる場合が多い。
【0028】
「集団」とは、遺伝子型情報を提供する個人の集まりを意味する。 集団の人数は、算出されるハプロタイプ頻度の信頼性を高めるために、なるべく多くの人数から構成されることが望ましい。 集団を構成する人数としては、25名以上であることが好ましいが、特に制限されない。 また、集団は均一(遺伝的背景が近接)であることが好ましい。 例えば、ハプロタイプ頻度の推定を行う個人が日本人であるならば、遺伝子型情報を取得すべき「集団」は、日本人から構成される集団であることが好ましい。 集団が均一か否かについては、それぞれの遺伝子座においてハーディー・ワインバーグ平衡が達成されているか否かを検定することにより調べることができる。
【0029】
ハプロタイプ推定方法では、EMアルゴリズムを使用して遺伝子型プール情報から、以下のようにしてハプロタイプ頻度を推定することができる。
【0030】
以下の説明においては、先ず、N個のDNAプールを作製し、各DNAプールにはM個の異なる個体からのサンプルを含むものとする。 このとき、DNAをプールするためのサンプル選択は、ランダムに行われるものとする。 またサンプル選択は、1個体から1度とする。
【0031】
次いで、連鎖するL個の遺伝子座について定量的DNAタイピングを行い、各DNAプールに含まれるサンプルについて遺伝子型を決定する。 したがって、DNAプール毎に決定された遺伝子型が遺伝子型プール情報となる。 ここで、L個の遺伝子座は、二対立遺伝子であってもよいし、多対立遺伝子(multiallelic)であってもよい。 各DNAプールについて定量的DNAタイピングを行うことによって、各DNAプールにおける各遺伝子座についての対立遺伝子コピー数が正確に決定される。
【0032】
ここで、「対立遺伝子コピー」又は「ハプロタイプコピー」とは、所定の個体又は所定のプールにおける所定の遺伝子座の対立遺伝子又はハプロタイプを意味する。 個体が所定の遺伝子座においてホモ接合体である場合、その個体は当該遺伝子座において1個の対立遺伝子(ただし2個の対立遺伝子コピー)を有すると判断される。 すなわち、単一のプールにおいては、所定の遺伝子座で2M個の対立遺伝子コピー(2M個の対立遺伝子ではない)が存在することとなる。 また、M=1(単一の個体プール)である場合、単一のプールにおける定量的DNAタイピングは、各個体に対する一般的なDNAタイピングと等しくなる。
【0033】
以上のように、N個のDNAプールについて遺伝子型プール情報を決定した後、EMアルゴリズムを使用してN個の遺伝子型プール情報からハプロタイプ推定を行う。 図5は、本発明において用いるEMアルゴリズムの各ステップを概略的に示すフローチャートである。 以下、図5を参照しながら、EMアルゴリズムによってN個の遺伝子型プール情報からハプロタイプ推定を行う方法を詳細に説明する。
【0034】
第 1 ステップ:ハプロタイプ頻度への実数値の割り当て
A iを第iの遺伝子座における対立遺伝子数とする。 L個の遺伝子座に対して可能性があるハプロタイプ数は、
【0035】
【数1】
iを集団における第iのハプロタイプ頻度とする(ここでは、i = 1,2,..,Uにおいて、p
i ≧0)。 自然と、
【数2】
となる。
【0036】
第
2
ステップ:ハプロタイプの組合せ
DNAプールは、M個の個体からのサンプルを含む。 従って、2M個のハプロタイプコピーがプール中に存在するはずである。 2M個のハプロタイプコピーがU個のハプロタイプ全体から選択される(反復的サンプリングを許す)場合、少なくとも1つのハプロタイプコピーの組合せが、プールにおいてL個の遺伝子座全てで認められたプールされた遺伝子型データに一致するはずである。 C
jmをハプロタイプコピーの第mの組合せとする。 これは、L個の遺伝子座について第jのプールに対して認められた遺伝子型データと一致する(ここでは、m = 1,2,..,Q
j )。 Q
jは、第jのプールに対して認められた遺伝子型データに一致するハプロタイプコピーの組合せ数を表す(ステップS101)。
【0037】
ステップ
3
:尤度計算
Hardy−Weinberg平衡であると仮定すると、C
jmの事前確率(prior probability)は、
【数3】
[式中、R
jmiはC
jm内の第iのハプロタイプコピー数を表し、T
jmはC
jm内の異なるハプロタイプ数を表す]である。 任意のjおよびmについて、
【数4】
であることに注意されるべきである。 ハプロタイプ頻度が与えられた第jのプールに対するデータの尤度は、
【0038】
【数5】
として計算される。
【0039】
N個のプール全てに対する全体の尤度は、
【数6】
であるはずである。 なぜなら、Hardy−Weinberg平衡であると仮定すると、異なる個体におけるハプロタイプコピーの組合せの事象は独立しているはずであるからである(ステップS102)。
【0040】
ステップ
4
:期待値
第jのプールに対するC
jmの事後確率(posterior probability)は、以下のようにベイズ定理(Bayes' theorem)によって計算される。
【数7】
従って、全プールにおける第iのハプロタイプのコピー数の期待値は、
【数8】
である。
【0041】
ステップ
5
:最大化
最大化は、全てのiについてp
iをE
i /(2MN)で置き換えることによって行われた(ステップS103)。
【0042】
ステップ
6
:反復
ステップ2〜5をL
allが収束するまで繰り返す(ステップS104)。 L
maxは、L
allが収束したときの値を表す。
【0043】
反復の最後のステップ後のp
iを、p
iの最尤推定値【数9】
とする。
【0044】
以上のように、EMアルゴリズムを使用することによって遺伝子型プール情報からハプロタイプ頻度を推定することができる。 すなわち、本アルゴリズムによれば、M個のサンプルを含むN個のDNAプールから、L個の遺伝子座に関するハプロタイプ頻度を推定することができる。
【0045】
また、以下に説明するように、いわゆるブートストラップ法を実行し、推定されたハプロタイプ頻度に関する標準偏差を求めることができる。
【0046】
最尤推定値が与えられた
C
jm
の事後確率の計算
第jのプールに対するC
jm (ハプロタイプの集団頻度がi = 1,2,..,Uに対して、
【数10】
であると与えられている)の事後確率は、得られた推定値をステップ2〜4に当てはめることによって得られる。 従って、等式(4)によって得られたB
jmによって、第jのプールに対するC
jm (ハプロタイプの集団頻度がi = 1,2,..,Uに対して、
【0047】
【数11】
であると与えられている)の事後確率が得られる。
【0048】
連鎖不平衡でないという仮定の下での尤度
連鎖不平衡でないという仮定の下でのデータの尤度計算は、以下のように行われた。
q
ikを集団における第iの遺伝子座での第kの対立遺伝子の頻度とする。 V
ijkを第jのプールにおける第iの遺伝子座での第kの対立遺伝子のコピー数とする。 またW
ijを第jのプールにおける第iの遺伝子座での異なる対立遺伝子数とする。 任意のiおよびjに対して、
【数12】
であることに注意されるべきである。 連鎖不平衡でないという仮定の下での第iの遺伝子座での第jのプールデータの尤度は、
【0049】
【数13】
である。 連鎖不平衡でない下では、異なる遺伝子座での対立遺伝子は独立しているので、全ての遺伝子座におけるデータの尤度は、
【数14】
であるはずである。 また全てのプールにおける全ての遺伝子座でのデータの尤度は、
【数15】
であるはずである。
【0050】
lod
スコア
lodスコアは、以下のようにして計算した。
【数16】
【0051】
連鎖不平衡でないという帰無仮説を排除するためのP値は、尤度比を等式(8)に組み込む、−ln(尤度比)とすることで計算された。 なおこの統計値はχ
2分布に漸近的に従うと仮定する。 自由度は、
【数17】
であるはずである。
【0052】
プール法によるハプロタイプ頻度の変動および連鎖不平衡の尺度
プールされた遺伝子型データから推定されたハプロタイプ頻度は、サンプルの様々な組合せによって変動する。 そのような変動を調べるために、本発明者らは、様々な個体からのDNAサンプルの様々な組合せを作製し、ハプロタイプ頻度を推定した。 従って、合計MN個の個体が存在する場合、M個の異なる個体からのサンプルが各プール中に存在し、N個のプールが作製されるはずである。 サンプルの異なる組合せは、
【数18】
個存在する。 この数は非常に大きすぎて、全ての事例を調べることができない。 従って、本発明者らはモンテカルロ法を用いて、全ての組合せが同じ確率であると仮定した際のN個のプールの組合せをサンプリングした。 各サンプルからハプロタイプ頻度およびペアワイズ連鎖不平衡の尺度DおよびD'を、下記に説明するように推定した。 ランダムに選択した1000個の異なるサンプルの推定値から、尺度および標準偏差を計算した。
【0053】
標準誤差を推定するための非パラメトリックブートストラップ法
非パラメトリックブートストラップ法を用いて、第iのハプロタイプ頻度の標準誤差、
【数19】
を経験的に推定した。
【0054】
最初のDNAプールは、N個のプールから構成された。 各プールはM個の個体からのDNAを含んでいた。 二重サンプリングを許すことで、最初のN個のプールから新しいセットのN個のプールを選び出すことによって、ブートストラップサンプルを構築した。 次いで、新しいセットのプールにおけるデータを、ハプロタイプ頻度推定のアルゴリズム(すなわち、i = 1,2,..,Uに対するp
i )に当てはめた。
【0055】
【数20】
を、第bのブートストラップサンプルからの第iのハプロタイプ頻度推定値とする。 ブートストラップサンプリングをB回繰り返し、推定値の平均値を以下のようにして計算した。
【0056】
【数21】
次いで、p
iに対する平均値の経験的標準誤差を、以下のようにして計算した。
【0057】
【数22】
通常、ブートストラップサンプリングを10,000回(B = 10,000)繰り返して、各p
iに対する経験的【数23】
を計算した。
【0058】
D
、
D'
およびρ
2
の推定
2つの二対立遺伝子座に対する連鎖不平衡の尺度、D、D'およびρ
2を、以下のように2つの異なる方法で推定した。 f
ijを、第1遺伝子座および第2遺伝座のそれぞれにおける第iの対立遺伝子および第jの対立遺伝子を含むハプロタイプ頻度とする。 D、D'およびρ
2は、以下のようにi = 1,2およびj = 1,2に対する推定値、
【数24】
から計算された。
【数25】
【0059】
第1の方法では、利用可能な全ての遺伝子座についてのデータを用いたハプロタイプ頻度の最尤推定値を用いて、
【数26】
を計算した。 しかしながら、第2の方法では、関係する2つの遺伝子座のみの遺伝子型データを用いて、
【数27】
を推定した。
【0060】
上述したアルゴリズムは、仮想的なデータではなく、検体から得た真のデータを用いて集団におけるハプロタイプ頻度を推定することができる。 ここで、上述したアルゴリズムにおいては、上述する実施例において実証したように、ハプロタイプの相対頻度が0.1より大であり、かつDNAプールに含まれる検体数が4以上である場合、特に、ハプロタイプの頻度の推定はかなり正確であることが示唆された。
【0061】
また、本アルゴリズムは、コンピュータープログラムにおいて実行することができる。 本アルゴリズムを実行できるコンピュータープログラムは、汎用コンピュータが読取り可能な記録媒体に記録することができる。 記録媒体としては、可搬型或いは固定型のいずれであっても良く、例えば、MO、CD−ROM、CD−RAM、DVD−ROM及びDVD−RAM等の光学式記録媒体、フレキシブルディスク及びハードディスク等の磁気記録媒体及び半導体メモリ等を挙げることができる。
【0062】
また、本アルゴリズムを実行できるコンピュータープログラムは、ネットワークに接続されたコンピュータの記録装置に格納しておき、ネットワークを介して他のコンピュータに転送することもできる。 本アルゴリズムを実行するコンピュータープログラムを提供する提供媒体としては、様々な形式のコンピュータに読み出し可能な媒体として頒布可能であって、特定のタイプの媒体に限定されるものではない。
【0063】
一方、本アルゴリズムは、コンピュータとして実現することができる。 この場合コンピュータは、本アルゴリズムを実行できるコンピュータープログラムを格納したハードディスク装置等の補助記憶装置と、サンプルの遺伝子型に関する情報を入力できる入力装置と、ハプロタイプ頻度を算出する演算装置と、算出したハプロタイプ頻度を表示する表示装置とを備える。
【0064】
【実施例】
以下、実施例を用いて本発明を更に詳細に説明するが、本発明の技術的範囲はこれらの実施例に限定されるものではない。
【0065】
〔実施例1〕
SAA
遺伝子におけるハプロタイプ頻度の推定
SAA遺伝子については、6つのSNP座位についての156人の被験者から得たハプロタイプデータが開示されている(MoriguchiらArthritis Rheum 44:1266−1272 (2001))。 当該論文において、全被験者についてディプロタイプ構成が決定されており、これらのデータが実際のデータを反映しているものと判断された。
【0066】
そこで当該論文に開示されているデータを適宜用いて、上述したアルゴリズムを用いたハプロタイプ頻度の推定を行った。 ハプロタイプ頻度の推定を行うに際して、当該論文に開示されているハプロタイプデータを混合するとともに、相データを除いた。
【0067】
多重連鎖座位における相未知の遺伝子型データを用いて、上述したアルゴリズムを実装した「ldpooled」プログラムによりハプロタイプの頻度推定を行った。
【0068】
表1には、必要なCPU時間、収束までの反復試行数、ロッドスコア、χ
2値、及びP値を示す。 それぞれのP値は、6つの座位の全てが互いに独立であるという帰無仮説を棄却することの危険率(risk)を表す。
【0069】
【表1】
【0070】
なお、表1において、Lod値及びχ
2値の計算方法は、上述した方法に準じた。 自由度は、上記式(9)により算出した場合、57となるはずである。 各プールに含まれる被験者の数が増加するにつれて、ロッドスコア及びχ
2値は低下したが、P値は増大した(表1)。 これらの結果は、おそらくは、プーリングのために情報内容が減少することによって生じるものである。
【0071】
表2には、1人、2人及び4人の被験者から得た遺伝子型データを含む各プールについて、異なる頻度推定プロトコールを用いて推定したハプロタイプ頻度の結果を示す。 各プールが2人以上の被験者から得たDNAを含む場合には、各被験者についてのオリジナルデータからサンプリングされる被験者の様々な組み合わせを利用して推定した相対頻度の、平均及び標準偏差も示した。
【0072】
【表2】
【0073】
なお、表2における「ハプロタイプ」には、少なくとも1種の推定方法において相対頻度が>0.001となるハプロタイプが含まれる。 表2における「相対頻度」は1回の推定を行って得られた推定頻度である。 表2における「平均」及び「標準偏差」は種々の無作為抽出法を用いてプールを作製して得られた推定頻度の平均及び標準誤差である。
【0074】
被験者を一人しか含まれないプール(1個体/プール)についての頻度推定の結果は、DNAがプールされなかった既報論文中で示された結果(KitamuraらAnn. Hum. Genet. 66:183−193(2002))と同じであった。 表2から判るように、プール中の被験者数の変化とともに推定したハプロタイプ頻度(相対頻度)が変化したが、プールに含まれる被験者の数が4人までの範囲では、主たるハプロタイプであるACTGCC、ACCGTC、AGCGCTの相対頻度は依然として適正であった。
【0075】
また、表2から判るように、上記の主たる3つのハプロタイプにおいては、プールを作成するために様々なランダムサンプリングを行うことによって推定した相対頻度に対する標準偏差が平均の10%未満であった。 しかしながら、マイナーなハプロタイプ(相対頻度が0.1未満)については、頻度推定は正確ではなかった。 例えば、ハプロタイプACTGTCの頻度は、4人の被験者を含むプールについての頻度推定によっては0.0と推定されたが、被験者を1人含むプールについての頻度推定によっては0.013であった。 後者の頻度推定が正確であれば、このハプロタイプは、156人(すなわちハプロタイプコピーが312)の間で4回しか出現しないこととなる。
【0076】
また、上述した方法に準じて、表2に示した相対頻度から算出したD値及びD'値を表3に示す。
【0077】
【表3】
【0078】
なお、表3においてD値及びD'値は1回の推定を行って得られた値であり、括弧内の値は無作為抽出法によって算出される「平均±標準偏差」を示す。 この場合、f
ij値、すなわち2つの遺伝子座についてのハプロタイプの推定頻度は、上述した方法に記載したように、6つの遺伝子座についてのハプロタイプの推定頻度から計算した。 f
ijを2つの遺伝子座についての遺伝子型データから算出した場合、D値及びD'値が非常に類似している場合もあったが、その2つの方法が全く異なる値をもたらした場合もあった(データは示していない)。 また、表3において、各プールが2人以上の被験者を含む場合は、異なる組み合わせの被験者を用いて算出した値の平均及び標準偏差を示した。 この値は、異なる頻度推定プロトコールの間で異なっていたが、プールに含まれる被験者の数が最大4人までであって、かつ|D|値が0.1を上回る限りは、依然としてかなり一致した値を示した。 しかしながら、いくつかの場合においては、プールを作成するために様々なランダムサンプリングを行うことによって算出したD及びD'の標準偏差が、平均の約50%であり、異なる頻度推定プロトコールにより算出される値は互いに大きく異なっていた。 |D|値は0.1を上回るが|D'|値は0.1を上回らない場合は、D'値がそれほど異なっていなかった点は興味深い。
【0079】
一方、各DNAプールに含まれるハプロタイプコピーの組み合わせについて頻度推定を行った結果を表4に示す。 各プロトコールについて、最初の12人の被験者に対応するデータ部分だけを示した。
【0080】
【表4】
【0081】
なお、表4において「確率」は、プールに対するハプロタイプの各組合せの事後確率を意味する。 この事後確率(表4における「確率」)によって推定ハプロタイプ頻度が示される。
【0082】
表4から判るように、大部分のプールにおいて、最も確率の高いハプロタイプコピーの組み合わせについての事後確率が1又はほぼ1であったことを示している。 ハプロタイプコピーの頻度推定を行った組み合わせについてその内容を比較すると、異なる頻度推定プロトコールの間で、多くの場合、その内容は互いに一致していた。 例えば、表4から判るように、2人の被験者を含むプールを用いるプロトコールの場合のプール番号1の内容は、被験者を1人含むプールを用いた場合のプール番号1及びプール番号2の内容を組み合わせたものと同となっていた。 なお、あるプロトコールによって頻度推定を行ったプールの内容は、別のプロトコールによって頻度推定を行ったプールの内容と一致しない場合もあった。
【0083】
一方、上述したように推定したハプロタイプ頻度には誤差があるため、上述した方法に準じてブートストラップ法による標準誤差を算出した。 上述したハプロタイプ頻度の推定の際と同様に、156人の被験者から得たSAA遺伝子についての遺伝子型データを用いて、本発明者らは上述の通りに1人、2人、又は4人の被験者を含むプールを作成した。 その後、上述した方法に準じてブートストラップ法に適用した。 結果を図1に示す。
【0084】
なお、図1には、1人、2人又は4人の被験者を含むプールを用いて推定したハプロタイプ頻度の平均及び標準誤差を示す。 ブートストラップサンプリングは、各DNAプールを用いたハプロタイプ頻度の推定について、それぞれ10,000回繰り返した。 図1から判るように、各DNAプールに含まれる被験者の数に拘わらず、ハプロタイプACTGCC、ACCGTC及びAGCGCTについての推定頻度は、かなり安定している。 また、図1に示すように、これらのハプロタイプに関する標準誤差を示すバーの長さは、平均を示すバーと比較してかなり短い。 さらに、図1から判るように、各DNAプールについて推定したハプロタイプ頻度の平均は、同一のハプロタイプについてはほぼ同じ値を示した。 しかしながら、マイナーなハプロタイプ(p
i < 0.1)については、各DNAプールについて推定したハプロタイプ頻度の平均が有意に異なっており、前記誤差を示すバーは平均と比較するとかなり長かった。
【0085】
なお、表1に示したように、各計算を行うのに必要な時間及びメモリーを記録した。 1GHzのPentium III(CPU)及び1.5GBメモリーを搭載したコンピュータを用いる場合、プールに含める被験者の数は、遺伝子座の数が6であれば最大で6人であった。 遺伝子座の数が13であれば、プールに含む被験者は最大でたった2人となる可能性がある。
【0086】
一方で、複数のDNAサンプルをプールしない場合(換言すれば1個体の被験者を含むDNAプールの場合)には、25個の遺伝子座について計算することが可能であった。 これは、上述したアルゴリズムを実装したコンピュータープログラムが、各DNAプールに含まれるハプロタイプコピーの可能な組み合わせを用いるものであって、このステップが大量のメモリーを消費するためである。 そのような組み合わせの数は、所定の遺伝子座に存在する対立遺伝子の数の検定力関数に従って増加し、かつ、DNAプールに含まれる被験者数の階乗として増加する。 従って、コンピュータを用いた計算に要する時間及びメモリーがこれらの要因に依存するのは、上記のような組み合わせのための余裕が必要となるためである。
【0087】
〔実施例2〕
実施例2では、メチレンテトラヒドロ葉酸レダクターゼ(MTHFR)遺伝子における連鎖する2つの遺伝子座についてハプロタイプ頻度を推定した。 MTHFR遺伝子は、葉酸代謝に関係するMTHFR酵素をコードしている。 MTHFR遺伝子におけるこれら遺伝子座に関する情報は、計80人の被験者に関する発表済データ(UranoらPharmacogenetics 12:183−190 (2002))を用いた。 これらの発表済データを用いてDNAプールを作成し、プールされたデータからパラメーターを算出した。 結果を表5に示す。
【0088】
【表5】
【0089】
なお、表5における「相対頻度」は1回の推定を行って得られた推定頻度である。 表5における「平均」及び「標準偏差」は種々の無作為抽出法を用いてプールを作製して得られた推定頻度の平均及び標準誤差である。
【0090】
表5に示したように、DNAプールに含まれる被験者の人数に拘わらず、推定されたハプロタイプ頻度が安定していた。 言い換えると、推定されたハプロタイプ頻度は、4人の被験者を含むDNAプールを使用した場合でさえかなり正確だったことを示唆している。 これは、これらの遺伝子座に関する連鎖不平衡が非常に強いためであると考えられる。 また、表5からは、相対頻度が0.1を上回るハプロタイプ同士については、頻度推定がかなり正確であったことも示している。
【0091】
図2は、MTHFR遺伝子のハプロタイプデータに対するブートストラップ法の結果を示す。 これらのデータは、本アルゴリズムによれば、ハプロタイプの頻度がかなり高い場合にはMTHFR遺伝子のハプロタイプ頻度をかなり正確に推定できることを示唆している。
【0092】
MTHFR遺伝子について推定したハプロタイプ頻度から、実施例1と同様に計算したD値及びD'値を表6に示す。 また、2人及び4人の被験者を含むプールを用いるプロトコールによって得たデータに関して、様々なランダムサンプリングを行ったものに対する平均及び標準偏差も示す。
【0093】
【表6】
これらのデータは、推定値の変動が大きいことも示している。 これは、この場合の|D|値が全て0.1未満であったためであると考えられる。
【0094】
〔実施例3〕
実施例3では、N−アセチルトランスフェラーゼ2(NAT2)遺伝子における連鎖する7つの遺伝子座についてハプロタイプ頻度を推定した。 NAT2遺伝子は、N−アセチル残基の転移に関与するNAT2酵素をコードしている。 NAT2遺伝子におけるこれら遺伝子座に関する情報は、計116人の被験者に関する発表済データ(TanakaらJ. Rheumatol (In press))を用いた。 これらの発表済データを用いてDNAプールを作成し、プールされたデータからパラメーターを算出した。 結果を表7に示す。
【0095】
【表7】
【0096】
なお、表7における「ハプロタイプ」には、少なくとも1種の推定方法において相対頻度が>0.001となるハプロタイプが含まれる。 表7における「相対頻度」は1回の推定を行って得られた推定頻度である。 表7における「平均」及び「標準偏差」は種々の無作為抽出法を用いてプールを作製して得られた推定頻度の平均及び標準誤差である。
【0097】
表7に示したように、DNAプールに含まれる被験者の人数に拘わらず、推定されたハプロタイプ頻度が安定していた。 言い換えると、推定されたハプロタイプ頻度は、4人の被験者を含むDNAプールを使用した場合でさえかなり正確だったことを示唆している。
【0098】
図3は、NAT2遺伝子のハプロタイプデータに対するブートストラップ法の結果を示す。 これらのデータは、本アルゴリズムによれば、ハプロタイプの頻度がかなり高い場合にはMTHFR遺伝子のハプロタイプ頻度をかなり正確に推定できることを示唆している。
【0099】
NAT2遺伝子について推定したハプロタイプ頻度から、実施例1と同様に計算したD値及びD'値を表8に示す。
【0100】
【表8】
これらのデータは、|D|値が0.1を上回る場合には推定値の変動が小さいことも示している。
【0101】
〔実施例4〕
実施例4では、スムーセリン(smoothelin)遺伝子における連鎖する36個の遺伝子座についてハプロタイプ頻度を推定した。 smoothelin遺伝子は、第22染色体に存在し、平滑筋細胞骨格を構成するsmoothelinをコードする遺伝子である。 smoothelin遺伝子におけるこれら遺伝子座に関する情報は、計102人の日本人の被験者に関するデータを用いた。
【0102】
本例では、遺伝子座の数が36箇所と多かったため、全遺伝子座を3つの領域に任意に分けてハプロタイプ頻度の推定を行った。 すなわち、smoothelin遺伝子における5'末端から3'末端に向かって、13個の遺伝子座を含む第1の領域、13個の遺伝子座を含む第2の領域、及び10個の遺伝子座を含む第3の領域となるように全遺伝子座を分けた。
【0103】
これら各領域について、前記データを用いてDNAプールを作成し、プールされたデータからハプロタイプの相対頻度を算出した。 結果を表9に示す。
【0104】
【表9】
【0105】
なお、表9において「ハプロタイプ」は、1個体を含むDNAプールを用いた相対頻度が≧0.001となるハプロタイプが含まれる。 また、表9の「ハプロタイプ」欄における「D」は欠失を意味し、「I」は挿入を意味する。
【0106】
表9に示すように、1個体を含むDNAプール及び2個体を含むDNAプールのいずれを用いた場合でも、推定したハプロタイプの頻度(表9における相対頻度)は、そのハプロタイプ頻度が0.1を上回る限りにおいては、非常に近い値を示した。 しかしながらマイナーなハプロタイプ(相対頻度が0.1未満)については、1個体を含むDNAプールを用いた場合と2個体を含むDNAプールを用いた場合とで類似しているとは言えなかった。
【0107】
次に、本例では、連鎖不平衡の強さを評価するため、上記方法に準じてペアワイズ方式で連鎖不平衡測定値ρ
2を算出した。 36個の遺伝子座に関し(36×35)/2=630ペアについて、算出したρ
2を図4に示す。 なお、本例では、f
ij値は2つの遺伝子座のみの遺伝子型データを用いて算出した。 図4から判るように、多少の差異は観察されたものの、1個体を含むDNAプールを用いて算出されたρ
2値と2個体を含むDNAプールを用いて算出されたρ
2値とは、互いに非常に類似していた。 様々なペアの遺伝子座について算出したρ
2値の平均及び標準偏差は、1個体を含むDNAプールを用いた場合はそれぞれ0.114及び0.224であり、2個体を含むDNAプール用いた場合はそれぞれ0.118及び0.227であった。 1個体を含むDNAプールを用いて算出されたρ
2値と2個体を含むDNAプールを用いて算出されたρ
2値との差の絶対値の平均及び標準偏差は、それぞれ0.011及び0.022であった。 また、1個体を含むDNAプールを用いて算出されたρ
2値と2個体を含むDNAプールを用いて算出されたρ
2値との差の絶対値は、平均の約9.5%であった。
【0108】
【発明の効果】
以上、詳細に説明したように、本発明に係るハプロタイプ頻度推定方法によれば、複数のプールした塩基配列データを入力値として集団のハプロタイプ頻度を推定することができる。 換言すると、本発明に係るハプロタイプ頻度推定方法は、プールすることなしに複数の塩基配列データをそれぞれ入力値として用いた場合と同様に、ハプロタイプ頻度を推定することができる。
【図面の簡単な説明】
【図1】SAA遺伝子遺伝子についての遺伝子型データに関して1人、2人又は4人の被験者を含むプールを用いて、ブートストラップ法を適用して算出した、推定ハプロタイプ頻度の平均及び標準誤差を示す特性図である。
【図2】MTHFR遺伝子についての遺伝子型データに関して1人、2人又は4人の被験者を含むプールを用いて、ブートストラップ法を適用して算出した、推定ハプロタイプ頻度の平均及び標準誤差を示す特性図である。
【図3】NAT2遺伝子遺伝子についての遺伝子型データに関して1人、2人又は4人の被験者を含むプールを用いて、ブートストラップ法を適用して算出した、推定ハプロタイプ頻度の平均及び標準誤差を示す特性図である。
【図4】smoothelin遺伝子についての遺伝子型データに関して、ペアワイズ方式で連鎖不平衡測定値ρ
2を算出した結果を示す特性図である。
【図5】EMアルゴリズムの各ステップを概略的に示すフローチャートである。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于主动采样和高斯混合模型的图像超分辨重建方法 | 2020-05-08 | 533 |
一种多重不确定性的水库调度规则提取方法及系统 | 2020-05-11 | 735 |
一种基于WiFi多维参数特征的室内目标被动跟踪方法 | 2020-05-12 | 542 |
非临床环境下对高血压进行非干预式的监测和评估方法 | 2020-05-08 | 179 |
一种基于贝叶斯模型的SRAM电路良率分析方法 | 2020-05-15 | 910 |
具有透镜天线阵的MIMO系统的稀疏信道估计方法 | 2020-05-18 | 260 |
毫米波大规模MIMO系统的波束空间信道估计方法 | 2020-05-20 | 395 |
基于块混合高斯低秩矩阵分解的毫米波图像异物检测方法 | 2020-05-17 | 342 |
基于关键点检测网络和空间约束混合模型的海水区域检测方法 | 2020-05-20 | 73 |
基于先验估计网络和空间约束混合模型的海面障碍物检测方法 | 2020-05-21 | 762 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。