首页 / 专利库 / 人工智能 / 线性分类器 / 支持向量机 / Data sorting method and device and storage medium storing data sorting program

Data sorting method and device and storage medium storing data sorting program

阅读:200发布:2023-11-22

专利汇可以提供Data sorting method and device and storage medium storing data sorting program专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To reduce a trend that the training data are decided in a category having a large quantity of data and to improve the deciding accuracy by preparing an object function having both positive and negative data weighting parameter included in an error term in a data sorting method that uses a support vector machine.
SOLUTION: In a data sorting method using a support vector machine, an object function having both positive and negative data weighting parameters included in an error term is prepared. Then the parameter C of the object function is discriminated between the cases where the training data x belong to the positive and negative examples respectively, and an the object function is shown in an expression where Cp and Cn show the non-negative actual numbers. An object function minimization means of this data sorting device minimizes the object function according to the data x. A sorting decision means forms a separate hyperplane by means of the minimized object function and sorts the inputted test data into a category of a positive or negative example of the separate hyperplane and then outputs the sorted data.
COPYRIGHT: (C)2000,JPO,下面是Data sorting method and device and storage medium storing data sorting program专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 サポートベクトルマシン(Support Vecto
    r Machine)を用いたデータ分類方法において、 正例データと負例データ用の二種類の重み付けパラメータを誤差項に持つ目的関数を持つことを特徴とするデータ分類方法。
  • 【請求項2】 前記目的関数のパラメータCを訓練データxが正例に属す場合と負例に属す場合で区別し、 前記目的関数を、C p 、C nを非負の実数とし、 【数1】 とする請求項1記載のデータ分類方法。
  • 【請求項3】 正例と負例の2つのクラスに属す訓練データが入力されると、該訓練データに応じた前記目的関数の最小化を行い、 最小化された目的関数を用いて分離超平面を構成し、 テストデータが入力されると、前記分離超平面の正例または、負例のいずれかのカテゴリに分類し、 分類された分類結果を出力する請求項1又は2記載のデータ分類方法。
  • 【請求項4】 Support Vector Machineを用いたデータ分類装置であって、 正例データと負例データ用の二種類の重み付けパラメータを誤差項に持つ目的関数を持つことを特徴とするデータ分類装置。
  • 【請求項5】 前記目的関数のパラメータCを訓練データxが正例に属す場合と負例に属す場合で区別し、 前記目的関数を、C p 、C nを非負の実数とし、 【数2】 とする請求項4記載のデータ分類装置。
  • 【請求項6】 正例と負例の2つのクラスに属す訓練データが入力されると、該訓練データに応じた前記目的関数の最小化を行う目的関数最小化手段と、 最小化された目的関数を用いて分離超平面を構成し、テストデータが入力されると、前記分離超平面の正例または、負例のいずれかのカテゴリに分類し、分類された分類結果を出力する分類判定手段とを有する請求項4又は5記載のデータ分類装置。
  • 【請求項7】 Support Vector Machineを用いたデータ分類装置に搭載されるデータ分類プログラムを格納した記憶媒体であって、 正例データと負例データ用の二種類の重み付けパラメータを誤差項に持つ目的関数を持つことを特徴とするデータ分類プログラムを格納した記憶媒体。
  • 【請求項8】 前記目的関数のパラメータCを訓練データxが正例に属す場合と負例に属す場合で区別し、 前記目的関数を、C p 、C nを非負の実数とし、 【数3】 とするプロセスを有する請求項7記載のデータ分類プログラムを格納した記憶媒体。
  • 【請求項9】 正例と負例の2つのクラスに属す訓練データが入力されると、該訓練データに応じた前記目的関数の最小化を行う目的関数最小化プロセスと、 最小化された目的関数を用いて分離超平面を構成し、テストデータが入力されると、前記分離超平面の正例または、負例のいずれかのカテゴリに分類し、分類された分類結果を出力する分類判定プロセスとを有する請求項7
    又は8記載のデータ分類プログラムを格納した記憶媒体。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は、データ分類方法及び装置及びデータ分類プログラムを格納した記憶媒体に係り、特に、目的関数を変えることで分類精度の向上を図ったSupport Vector Machineを用いたデータ分類方法及び装置及びデータ分類プログラムを格納した記憶媒体に関する。

    【0002】大量のデータが流通している情報産業界では、データの効率的な分類が求められている。 中でも、
    Support Vector Machineを用いた分類方法は、高い分類精度を上げることが知られており、広範囲の分野で使用されている。 本発明は、当該Support Vector Machineを用いたデータ分類方法及び装置及びデータ分類プログラムを格納した記憶媒体に関する。

    【0003】

    【従来の技術】従来のSupport Vector Machine(参考文献 V.Vapnik. The Nature of Statistical Learning Th
    eory. Springer-Verlag, New York, 1995.参照) を用いたデータ分類について述べる。 正しい例である正例と誤った例である負例の2つのクラスのいずれかに属すr個の訓練データのベクトルの集合を、 (x 1 ,y 1 ),… (x r ,y r ) とする。 ここで、x iは、データiの特徴ベクトルでn
    次元のベクトルである。 また、y iは、データiが正例の場合+1の値をとり、負例の場合には、−1の値をとるスカラの変数である。 データ分類では、データ中に出現する特徴w k (但し、kは、1≦k≦nの整数)がテキスト中に出現する場合、w k =1、出現しない場合をw k =0としてデータをベクトルx i =(w 1 ,w 2
    …,w n )で表す。 データがあるカテゴリに含まれる場合を正例、含まれない場合を負例として、各カテゴリに対してSupport Vector Machineを構成する。

    【0004】これらのデータをn次元Euclid空間上の (w・x)+b=0 なる超平面で分離する。 この際、近接する正例と負例のデータ間の距離が大きい方が、精度よくテストデータを分類できる。 ここで、正例側の分離超平面と呼ばれる (w・x)+b=1 (1) なる超平面と負例側の分離超平面と呼ばれる (w・x)+b=−1 (2) を定義する。

    【0005】2つの分離超平面間の距離は、

    【0006】

    【数4】

    【0007】である。 この距離を最大にするためには、
    ‖w‖を最小化すればよい。 その関数のとる値が最小値の時、‖w‖が最適値をとるような関数を目的関数と呼ぶ。 この場合、目的関数Φは以下に示すものになる。

    【0008】

    【数5】

    【0009】ここで、ξ iは訓練データx i (iは1からrまでの整数)の正例/負例が分離超平面によって分離できない場合の分離超平面からの距離を表す非負の変数である。 右辺第一項は、二つの分離超平面w・x+b
    =1と、w・x+b=−1間の距離を表し、この項の値が小さいほど分離超平面間の距離が大きい。 右辺第二項のCを除いた部分は、分離できなかった訓練データが2
    つの超平面、w・x+b=1あるいは、w・x+b=−
    1からの距離の和で誤差項(誤差項:正例の場合、w・
    x+b=1からの距離と、負例の場合、w・x+b=−
    1からの距離との和)と呼ぶ。 Cは、第一項と第二項の重視の度合いを決める正値(0以上)のパラメータである。 Cの値が大きいときは、訓練データの超平面からの誤差が大きく評価されて、Cの値が小さい時は、相対的に分離超平面間の距離の大きさが重視される。

    【0010】

    【発明が解決しようとする課題】しかしながら、上記従来のSupport Vector Machineを用いたデータ分類では、
    正例と負例の2つのカテゴリに分けられるデータについて学習を行った場合、正例/負例が未知のデータに対して、訓練データのデータ量が多いカテゴリ(正例もしくは負例)に判定する傾向があり、判定精度が低くなる原因の一つになっている。

    【0011】本発明は、上記の点に鑑みなされたもので、訓練データにおいて、データ量が多いカテゴリに判定する傾向を緩和し、判定精度を高くすることが可能なデータ分類方法及び装置及びデータ分類プログラムを格納した記憶媒体を提供することを目的とする。

    【0012】

    【課題を解決するための手段】本発明(請求項1)は、
    サポートベクトルマシン(Support Vector Machine)を用いたデータ分類方法において、正例データと負例データ用の二種類の重み付けパラメータを誤差項に持つ目的関数を持つ。

    【0013】本発明(請求項2)は、目的関数のパラメータCを訓練データxが正例に属す場合と負例に属す場合で区別し、目的関数を、C p 、C nを非負の実数とし、

    【0014】

    【数6】

    【0015】とする。 図1は、本発明の原理を説明するための図である。 本発明(請求項3)は、正例と負例の2つのクラスに属す訓練データが入されると(ステップ1)、該訓練データに応じた目的関数の最小化を行い(ステップ2)、最小化された目的関数を用いて分離超平面を構成し(ステップ3)、テストデータが入力されると、分離超平面の正例または、負例のいずれかのカテゴリに分類し(ステップ4)、分類された分類結果を出力する(ステップ5)。

    【0016】本発明(請求項4)は、Support Vector M
    achineを用いたデータ分類装置であって、正例データと負例データ用の二種類の重み付けパラメータを誤差項に持つ目的関数を持つ。 本発明(請求項5)は、目的関数のパラメータCを訓練データxが正例に属す場合と負例に属す場合で区別し、目的関数を、C p 、C nを非負の実数とし、

    【0017】

    【数7】

    【0018】とする。 図2は、本発明の原理構成図である。 本発明(請求項6)は、正例と負例の2つのクラスに属す訓練データが入力されると、該訓練データに応じた目的関数の最小化を行う目的関数最小化手段10と、
    最小化された目的関数を用いて分離超平面を構成し、テストデータが入力されると、分離超平面の正例または、
    負例のいずれかのカテゴリに分類し、分類された分類結果を出力する分類判定手段20とを有する。

    【0019】本発明(請求項7)は、Support Vector M
    achineを用いたデータ分類装置に搭載されるデータ分類プログラムを格納した記憶媒体であって、正例データと負例データ用の二種類の重み付けパラメータを誤差項に持つ目的関数を持つ。 本発明(請求項8)は、目的関数のパラメータCを訓練データxが正例に属す場合と負例に属す場合で区別し、目的関数を、C p 、C nを非負の実数とし、

    【0020】

    【数8】

    【0021】とするプロセスを含む。 本発明(請求項9)は、正例と負例の2つのクラスに属す訓練データが入力されると、該訓練データに応じた目的関数の最小化を行う目的関数最小化プロセスと、最小化された目的関数を用いて分離超平面を構成し、テストデータが入力されると、分離超平面の正例または、負例のいずれかのカテゴリに分類し、分類された分類結果を出力する分類判定プロセスとを有する。

    【0022】上記のように、本発明では、上記の目的関数中のC pとC nの2つのパラメータのうち、訓練データ量が正例の方が多ければ、C p <C n 、負例の方が多ければ、C p >C nとすれば、データの少ないカテゴリのデータも正しく判定しやすくなり、データ分類の精度が向上する。

    【0023】

    【発明の実施の形態】本発明では、Support Vector Mac
    hineを用いた分類において目的関数のパラメータCを訓練データxが正例に属す場合と、負例に属す場合で区別し、目的関数を、

    【0024】

    【数9】

    【0025】とする。 なお、C p ,C nは共に非負の実数である。 本発明では、上記のような目的関数を使用することを特徴とする。 図3は、本発明のデータ分類装置の構成を示す。 同図に示すデータ分類装置は、目的関数最小化部10と分類判定部20から構成される。

    【0026】目的関数最小化部10は、訓練データ30
    が入力されると、当該訓練データに応じた目的関数の最小化を行い、最適なw及びbを算出する。 分類判定部2
    0は、目的関数最小化部10で算出されたwとbを用いて、分離超平面を構成し、入力される分類対象データ(テストデータ)に対して、正例/負例のいずれかのカテゴリに分類した分類結果を出力する。

    【0027】

    【実施例】以下、図面と共に本発明の実施例を説明する。 本実施例として、訓練データ及びテストデータに、
    RWCPテキストコーパス(参考文献:豊浦潤、徳永健伸、井佐原均、岡隆一、RWCにおける分類コード付きテキストデータベースの開発、情報処理学会研究報告N
    LC96-13 . IEICE,1996,参照)を用いて説明する。 当該コーパスは、1994年版の毎日新聞の約3万件の記事に、国際十進分類法に基づくUDCコード(参考文献:情報科学技術協会、国際十進分類法、丸善,1994.参照)を付与したものである。

    【0028】これらの記事の中から頻度の高い10種類の分類コード(スポーツ、刑法、政府、教育、交通、軍事、国際関連、言語活動、演劇、作物)が付与されたデータ2000記事を選び、1000記事を訓練データ、
    残りの1000記事をテストデータ、つまり、分類対象データとした。 訓練データとテストデータ数を以下の表に示す。

    【0029】

    【表1】

    【0030】これらの、記事に対して形態素解析を行った後、一つの記事の中に特定の名詞及び固有名詞の出現するか否かを記事の特徴とみなし、特徴ベクトルを構成した。 分類装置は、上記の10種類の分類に対象して、
    10台の分類装置を構成する。 例えば、スポーツに関する分類装置においては、スポーツの分類コードが付与されたデータを正例、付与されていないデータを負例とし、テストデータに対して正例/負例のいずれかのカテゴリに入るかを判定する。 よって、スカラの変数y iも分類装置毎に設定する。

    【0031】次に、データ分類装置の動作について説明する。 まず、1000個の訓練データが入力されると、
    目的関数最小化部10は、訓練データに応じた目的関数の最小化を行い、最適なw及びbを算出する。 次に、分類判定部20は、目的関数最小化部10で算出されたw
    及びbを用いて分離超平面を構成し、入力される100
    0個のテストデータに対して、正例/負例のいずれかのカテゴリに分類し、分類結果を出力する。

    【0032】分類精度を評価するために、適合率、再現率、F値(参考文献:BMSundheim. Overview of the
    Fourth Message Understanding Evaluation and Confer
    ence. Proceedings of Fourth Message Understanding
    Conference, pp. 3-29, 1992. 参照) を用いた。 各分類毎に、分類モデルと正解の正例と負例の数から、 a:正解が正例で分類モデルも正例と判断した数; b:正解が負例で分類モデルも正例と判断した数; c:正解が正例で分類モデルも負例と判断した数; とを考える。 すると、適合率P、再現率Rは、次のように定義される。

    【0033】

    【数10】

    【0034】また、F値は適合率、再現率より、

    【0035】

    【数11】

    【0036】で表される。 ここで、βは重み付けパラメータで本実施例ではβ=1とした。 本発明において、C
    p =30とC n =8とした場合と従来の方法により、C
    =10 12とした場合を比較した結果を以下に示す。

    【0037】

    【表2】

    【0038】F値は、0から1までの値をとり、1に近いほど精度が高いので、各カテゴリともCを分離した方が分類精度が高く、本発明がデータ分類の精度を上げるのに有効であることが分かる。 また、図3に示す(5)
    式に示す目的関数を用いる目的関数最小化部10と分類判定部20をプログラムとして構築しておき、データ分類装置として利用されるコンピュータに接続されるディスク装置や、フロッピー(登録商標)ディスク、CD−
    ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより、容易に本発明を実現できる。

    【0039】なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。

    【0040】

    【発明の効果】上述のように、本発明によれば、正例/
    負例が未知のデータに対して、訓練データのデータ量が多いカテゴリに誤って判定する傾向が緩和させるデータ分類精度が向上する、という効果が得られる。

    【図面の簡単な説明】

    【図1】本発明の原理を説明するための図である。

    【図2】本発明の原理構成図である。

    【図3】本発明のデータ分類装置の構成図である。

    【符号の説明】

    10 目的関数最小化手段、目的関数最小化部 20 分類判定手段、分類判定部 30 訓練データ

    ───────────────────────────────────────────────────── フロントページの続き (72)発明者 春野 雅彦 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール人間情 報通信研究所内 Fターム(参考) 5B075 ND02 NR02 NR12 PR06 QM08

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈