首页 / 专利库 / 电脑零配件 / 接口 / 用户界面 / 字符用户界面 / Text information compression system

Text information compression system

阅读:501发布:2021-12-17

专利汇可以提供Text information compression system专利检索,专利查询,专利分析的服务。并且PURPOSE: To provide a system adapted to use in wide-range languages and to compress a text to text information relatively independent of philological features of languages by selecting text characters and code characters corresponding to a related context. CONSTITUTION: A user interface 70 includes all of routines for interaction with a user, and an application function interface 72 converts the result of a user interface operation to instructions and commands which indicate an application operation prescribed by the user. Application routines 74 and 76 receive the indication related to the operation requested by the user and give an indication of a system operation to an operating system 78. The operating system 78 supplies corresponding instructions to a hardware interface system 80. It continuously reads characters and the related context of the text and selects corresponding code characters to constitute compressed text characters.,下面是Text information compression system专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 情報処理システムにおいて、テキスト情報を圧縮するための方法が、 各文字及びテキストの関連する文脈を連続して読み取るステップ、 各前記テキスト文字及び関連する文脈に対して対応するコード文字を選択するステップ、及び 圧縮された形の前記テキスト文字を構成するように前記コード文字を提供するステップ、 を備える情報処理システムにおけるテキスト情報を圧縮するための方法。
  • 【請求項2】 各前記文脈が、前記テキスト文字に関連するテキスト文字のグループを備える、請求項1に記載の方法。
  • 【請求項3】 各前記文脈が、固定された数の前記テキスト文字を含む、請求項2に記載の方法。
  • 【請求項4】 各前記テキスト文字及びテキストの代表的サンプルの関連する文脈を読み取り、 前記サンプルテキストに発生する各前記文脈に対して、
    前記文脈と関連して発生する前記テキスト文字からなる相対的アルファベットを生成し、 対応するコード文字を各前記相対的アルファベットの各前記テキスト文字に関連させることによって、 前記テキスト文字及びコード文字と前記文脈とを関係づけるテーブルを生成する最初のステップを更に備える、
    請求項1に記載の方法。
  • 【請求項5】 前記コード文字の各々が、前記相対的アルファベットによって共用される1つの組のコード文字から選択される、請求項4に記載の方法。
  • 【請求項6】 情報処理システムにおいて、テキスト情報を圧縮するための方法が、 各テキスト文字及びテキストの代表的サンプルの関連する文脈を読み取るステップ、 前記サンプルテキストで発生する各前記文脈に対して、
    前記各前記文脈に関連して発生する前記テキスト文字からなる相対的アルファベットを生成するステップ、 各前記相対的アルファベットの各前記テキスト文字と、
    対応するコード文字とを対応づけるステップ、 各文字及びテキストの関連する文脈を連続して読み取るステップ、 各前記テキスト文字及び関連する文脈に対して、対応するコード文字を選択するステップ、及び 圧縮された形の前記テキストを構成するように前記コード文字を提供するステップ、 を備える情報処理システムにおけるテキスト情報を圧縮するための方法。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【産業上の利用分野】本発明は、データプロセッシングシステム、ワードプロセッシングシステム、及び通信システムに関し、より詳細にはテキスト情報を圧縮するための方法に関する。 このような関係においては、テキスト情報は、記号又は文字の定められた組、又はアルフアベットから選択された記号又は文字の構造化された順序で表わされる任意の情報として定義される。 テキスト情報の一般的な例は、例えば、英語、ドイツ語又はフランス語で書かれた手紙、レポート、及び原稿、業務記録及び会計記録、科学的データ、並びに図形記号の配列から成る図形表示などの書類を含む。

    【0002】

    【従来の技術】データ処理システム及び通信システムにおいては、限りなく増える情報の量を記録し、処理し、
    通信するという問題が繰返し生じてくる。 斯かるシステムの情報取扱い要求は、ひかえ目に見ても急激に増加し、且つ使用できるメモリとデータリンクの容量が増えるよりも更に急激に増えていく。 更に、特定システムに配設できる或いは付加できる記憶又は通信の能には物理的又は経済的な制限が課せられることが多い。 その結果、よく多くの量の情報をシステムに取扱わせるために、記憶又はデータリンク容量を増やすという方法ではない他の方法が開発されてきた。 斯かる方法の1つは、
    データ圧縮と呼ばれる。 これは、システムのユーザによってシステムに通信される情報が、このシステムによってよりコンパクトな或いは縮小した形に変換され記憶又は伝送に供されるという方法である。 この情報は、その小さくなった形から変換、即ち再生(decompression)
    されて元の形に戻り、 ユーザに通信される。

    【0003】システムとこのシステムのユーザ間で通信される情報の形としての言語は、かなりの度合の冗長度を含んでいるのが一般的である。 即ち、情報が表現される形としての言語は、実際の情報を完全に且つ正確に表現するのに要するよりも多くの情報を含んでいる。 ワードプロセッシングにおける一般的な例としては、情報、
    即ちテキストが、ユーザとシステムの間で、ピリオド、
    コンマ、スペース、タブ及行帰線等の句読点及び書式文字を含む英文言語の形として通信されるものが挙げられる。 テキスト圧縮は斯かる冗長のために可能であり、基本的には、テキストのユーザ言語の形から冗長な情報を削除することにより、ユーザ言語テキストをよりコンパクトな形に変換する。

    【0004】従来のテキスト圧縮方法は、分配的冗長度、即ち、特定の文字、文字の組合わせ、及び特定のユーザ言語におけるワードの使用もしくは発生頻度における非直線性に基づいていた。 例えば、英語の言語の場合、文字「e」及び「スペース」は、「y」又は「z」
    よりも頻繁に発生し、特定の文字の対、又は合字、例えば、「th」及び「es」、並びに特定のワード、例えば、「the」、「of」、及び「and」は頻繁に発生する。

    【0005】従来の技術は、可変長のコードワード、又は文字を指定し、特定の言語において頻繁に現れれる文字、文字の組合せ及びワードを表すことにより圧縮を達成するのにこの分配的冗長度を用いていた。 即ち、最も頻繁に現れる文字、文字の組合せ及びワードは、割当てられた短いコード文字である。 共通性の少ない文字の組合せ及びワードは、発生頻度に応じて、割当てられた長いコード文字となり、或いはより頻繁に発生する文字、
    文字の組合せ及びワードのシーケンスとして「完全綴り」にされる。

    【0006】データ処理システム、ワードプロセッシングシステム及び通信システムにおけるテキストの実際の圧縮及び再生は、頻繁に発生する文字、文字の組合せ及びワードを対応する割当てられたコード文字に関係づける「ルックアップテーブル」を用いて実施されるのが一般的である。 圧縮テーブル及び再生テーブルは、実際の圧縮動作再生動作から別々に発生され、これらのテーブルは、一般的に、ユーザ言語における非常に大量のテキストの十分に詳細な言語学的分析を必要とする。 ここで銘記すべきことは、ある特定の言語におけるあり得るワード及び文字の各々に対してコード文字を割当てることは可能ではあるが、その結果生じるコード文字及びテーブルは、テキスト圧縮によって節約されるであろうメモリスペースよりも多くのメモリスペースを必要とする大きなものになることである。

    【0007】テキスト圧縮の分配的冗長度方法は、オリジナルテキストが形成されている形としての個々の言語の言語学的特徴に依存するところが大である。 特に、より大きな言語ユニット、例えば、文字の組合せ及びワードに関して依存するところが大である。 例えば、英語、
    ドイツ語、フランス語、ロシア語、イタリア語及びスカンジナビア語は全て、はっきりと異なった言語学的特徴を有しており、異なった分析方法を必要としており、従って、非常に異なった圧縮テーブル及び再生テーブルができる。 従って、従来の圧縮技術は、圧縮テーブル再生テーブルを発生するために、独立のユーザ言語の各々における非常に大量のテキストの詳細な言語学的分析を必要としたのである。

    【0008】

    【発明が解決しようとする課題】分配的冗長度方法の言語学的依存性、特に大きな言語学的ユニットに関しての依存性の故に、広い範囲の言語にわたって分配的冗長度を分析するための完全に一般的な目的方法を開発することは困難である。 更に、且つ同じ理由でもって、ある特定の言語に対する圧縮テーブル再生テーブルは、動作の対象となるテキストの特定の「通用語」に依存することがある。 例えば、業務テキスト、科学テキスト及び文献テキストに対する言語学的特徴は十分に異なるため、それぞれの用途に対する独立したテーブルを必要とする。

    【0009】更に、斯かる方法は、異なった寸法の言語的ユニット及びコードワードを使用しているため、圧縮/再生は比較的精巧なプログラムを必要とし、複雑な分解能力と処理能力及び時間並びにプログラムメモリスペースが相応して増加する。 同じ理由により、圧縮動作及び再生動作は対称的とはなり得ない。 即ち、別々のテーブルを必要とし、且つ異なるルーチンの実施を必要とするため、これも処理及びメモリの要求が増加する。 最後に、同じ理由で、斯かる方法は、テキストが一連の小さな「バッチ」動作として処理されなければならない時の、即ちこれらのバッチ処理される大きさが言語的ユニット及びコードワードの大きさによって決定される時の、連続的なインラインテキスト処理又は通信には好ましくない。

    【0010】本発明の目的は、テキスト情報を圧縮する方法を提供することである。

    【0011】更なる目的は、広範囲な言語に用いるのに適するテキスト情報に圧縮することである。

    【0012】更なる目的は、言語の言語学的特徴に比較的依存しないテキスト情報に圧縮することである。

    【0013】更に他の目的は、改良された速度でテキスト情報を圧縮することである。

    【0014】

    【課題を解決するための手段】前記の目的を達成するために、情報処理システムにおいて、テキスト情報を圧縮するための方法は、各文字及びテキストの関連する文脈を連続して読み取るステップ、各前記テキスト文字及び関連する文脈に対して対応するコード文字を選択するステップ、及び圧縮された形の前記テキスト文字を構成するように前記コード文字を提供するステップを備える。

    【0015】本発明に係るテキスト圧縮/再生方法は、
    文脈(context)冗長度、即ち、個々の文字(characte
    r)がテキストの中に存在している文脈の非均一的分布、或いは、同義的には、与えられたセットの文脈における文字の発生の非均一的分布に基づいて動作する。 本明細書に定義される文脈は、1つのテキストを構成する個々の文字に先行又は後続する均一に寸法化された群の文字を含んでいる。

    【0016】

    【作用】本明細書に記載される方法は、抽象的なグループ分け及びテキスト文字間の相関関係でもって動作するのであり、言語学的分析のいかなる形にも或いは言語学的特徴のいかなる形にも、更にいかなる言語の要素にも基づくものではない。 従って、本方法は、一般的であり、いかなる言語にも、或いはある言語のいかなる「通用語」にも等しく適用できる。

    【0017】本方法及び装置は、均一に寸法化されたテキストの群及びコード文字の群でもって動作し、従って複雑性が小さくなり且つ他の方法よりも必要とする処理時間及び能力が小さくなり、従って高速で実施される。
    本方法は、実施において対称的(symmetric)であり、
    唯一つの組み合わされた圧縮/再生テーブルを必要とし、オンライン連続プロセスに好適である。

    【0018】コードとテキスト文字間の相関関係を定める情報の一部は文脈、即ち、テキスト自体に、その圧縮された形と及び圧縮されていない形の両方でもって存在している。 これにより、圧縮されたテキストを一義的に表わすため、必要とする独特なコード文字は少なくて済み、従ってコード文字は短くて済む。 結果として生じる圧縮されたテキストは、これにより、より少ないビットの情報で表わすことができる。

    【0019】

    【実施例】次の記述により、データ処理ワードプロセッシング及び通信オペレーションを実施し且つ本発明を組込む能力を有するコンピュータシステムのハードウエア及びソフトウエアの一般的な構造及びオペレーションを、先ず簡単に説明する。 斯かるシステムの構造及びオペレーションは、当業者にとっては、本明細書に説明されているように、良く理解されるであろう。 更に、斯かるシステムの構造及びオペレーションの詳細については、本明細書にも引例として挙げられている米国特許出願第440,668号に与えられている。 一応の脈絡、
    即ち、本発明に係る方法を実行するための装置を説明したので、本発明に係る文脈冗長度テキスト圧縮方法を次に詳細に説明することにする。

    【0020】説明は以下の順におこなう。

    【0021】1. コンピュータシステムの構造及びオペレーション A. ハードウエアー構造及びオペレーション a. ALU及びバス b. 内部制御論理 c. メモリ d. I/Oデバイス B. ソフトウエア構造及びオペレーション 2. 文脈冗長度テキスト圧縮及び再生1. コンピュータシステムの構造及びオペレーション図1について説明する。 この図には、本発明に従うコンピュータシステムの斜視図が示されている。 システム1
    0は、表示装置12、キーボード14及び中央処理装置(CPU)16を含んでいる。 表示装置12及びキーボード14は、情報、例えば、テキストが本システムとユーザとの間で通信される時に用いられる主な手段である。 図示されないケーブルで表示装置12及びキーボード14に接続されているCPU16は、プログラム及びデータを記憶するためのメモリ及び多目的演算装置(A
    LU)を含んでいる。 CPU16は、更に、プログラム及びデータを記憶するためのディスクドライブ並びに周辺デバイス、例えばプリンタ、ディスクドライブ及び通信デバイスに至るインターフェースを含んでいる。 システム10は、例えば、マサチューセッツ州ローウェルのウォング・ラボラトリーズ・インコーポレーテッド(Wa
    ng Laboratories, Inc.)製市販の「プロフェッショナルコンピュータ」から成り得る。

    【0022】 A. ハードウエア構造及びオペレーション a. ALU及びバス図2及び第3図について説明する。 この図には、システム10のブロック図が示されている。 システム10のC
    PU16中のALUは、メインプロセッサ(以下メインPと称す)18及びコプロセッサ(以下CO−Pと称す)20から成る。 メインP18及びCO−P20は、
    例えば、それぞれ、16ビットIntel8086 A
    LU及びIntel 8087数値プロセッサ拡張部であり得る。 メインP18及びCO−P20は、CPU1
    6に対するアドレス指定、メモリ参照、及び入力/出力(I/O)オペレーションを含む全ての演算及び論理オペレーションを行う。

    【0023】メインP18及びCO−P20は、局所的(Local)バス22と連通し且つアドレスバス24、データバス26及び制御バス28を通してCPU16の残りの部分、表示装置12、キーボード14及び全ての周辺デバイスと連通している。 メインP18とCOーP2
    0並びにバス24、26及び28間のインターフェイスは、アドレスラッチ30、データトランシーバ32及びバス制御34を通して行なわれる。

    【0024】 b. 内部制御論理次に、CPU16の内部制御論理について説明する。 メインP18及びCOーP20に関連しているのは、システムクロック36と待ち状態ロジック(Wait State Log
    ic)38である。 システムクロック36は、CPU16
    に対する全てのクロックタイミング信号のソースである。 待ち状態ロジック38は、基本的に、CPU16の動作を監視し、且つCPU16の動作におけるコンフリクトを防止するために、制御バス28を通してシステムクロック36と及びCPU16の他のエレメントに制御信号を発生する。

    【0025】CPU16の他の制御エレメントは、カウンタ及びタイマチップ(CTC)40及びプログラマブル割込みチップ(PIC)42を含む。 CTC40は、
    例えば、Intel 8253であり、且つPICはI
    ntel 8255Aであり得る。 直ぐに処理されなければならない、即ち、後の動作のためにマスクすることができない割込み状態を処理するために、マスク不能割込みロジック44がPIC42と関連して動作する。 斯かる割込み状態は、パリティ及びI/Oエラーを含んでいる。

    【0026】CPU16は、システム10の周辺デバイスと、以下に示す例えばCPU16のメモリとの間でマップされたメモリリファレンス及び直接メモリアクセス(DMA)オペレーションの両方を実施する能力を有する。 DMAオペレーションは、DMAバス獲得ロジック(論理)46及びDMA制御(DMA)48によって制御される。 DMA獲得論理46は、特にメモリ及びバスオペレーションにおいて、システム10のオペレーションを監視し、DMAオペレーションが実施される時にD
    MA許可信号を制御バス28に発生する。 DMA48
    は、例えば、周辺デバイスからのDMAオペレーション要求を検出し、斯かる要求の存在をDMAバス獲得46
    に通知し、DMAバス獲得論理46がCPU16のバスに対するアクセスを許可した時にDMAオペレーションを制御する。

    【0027】 c. メモリ CPU16の主内部メモリは、128KBランダムアクセスメモリ(RAM)50であり、これは、オペレーティングシステムと動作の対象となる応用プログラム及びデータ、例えばテキストを記憶するのに用いられる。 オペレーティングシステムプログラムは、例えば、マイクロソフト社(Micro Soft Corporation)市販のマイクロソフトディスクオペレーティングシステム(登録商標M
    SDOS)から成り、且つベーシック入力及び出力システム(BIOS)を含み得る。

    【0028】MSDOSは基本的には、システム10のエグゼクチブ(管理的)内部オペレーションを制御するのに対し、BIOSは、システム10、表示装置12とキーボード14並びに広範囲の周辺デバイス間のインターフェースを制御するプログラムを含む。

    【0029】必要に応じて、128KBRAM50の容量は、512KBRAM52を付加することにより増加することができる。 512KBRAM52は、アドレスバス24、データバス26及び制御バス28から128
    KBRAM50に並列に接続されており、128KBR
    AM50と平行に且つその一部として効果的に動作する。

    【0030】消去可能プログラマブル読出し専用メモリ(EPROM) 54は、上に述べられたオペレーティングシステム及び応用プログラムをディスクドライブ5
    6のディスケットから128KBRAM50及び512
    KBRAM52にロードするのに用いられるプログラムを記憶し且つ供給する。

    【0031】図2に示すように、ディスクドライブ56
    は、アドレスバス24、データバス26及び制御バス2
    8から接続され、フロッピー制御器58によって制御される。 オペレーティングシステム及び応用プログラムを記憶し且つ供給することに加えて、ディスクドライブ5
    6は、128KBRAM50及び512KBRAM52
    を増加する付加的なメモリ容量として用いられ且つデータ、例えば、動作の対象となっているテキストを記憶し且つロードするのに用いられる。 この点に関して述べると、ディスクドライブ56は、例えば、テキスト又はデータディスケット上で1つのシステムから別のシステムに転送するI/Oデバイスとして用いられる。

    【0032】ディスクドライブ56の容量は、ディスクドライブ56及びRAM50及び52と平行にアドレスバス28、アドレスバス30及び制御バス32から接続されるウインチェスタハードディスクドライブ60及びディスク制御器62を付加することにより増加される。
    ハードディスクドライブ56は、動作の対象となるプログラム及びデータを記憶するためのRAM50及び52
    に至る延長として用いられる。

    【0033】 d. I/Oデバイス前に述べたように、表示装置12及びキーボード14
    は、システム10とユーザ間の通信のための主なI/O
    手段である。 表示装置12は、モニタ制御器13を通してアドレスバス28、データバス30及び制御バス32
    に接続される従来のCRT表示装置である。 モニタ制御器13は、例えば、日本電気のUPD7220型グラフィックデータ制御装置であり得る。 キーボード14は、
    ユニバーサル非同期レシーバ/トランスミッタ(UAR
    T)15を通じてキーボード14とシステムバス28、
    30及び32との間のキーボード動作及びデータ/制御通信を制御するための内部マイクロプロセッサ、例えば、ザイログ社Z80を有する従来のキーボードである。

    【0034】他のI/Oデバイスはプリンタ64及び6
    6を含む。 プリンタ64は、例えば、従来のデージホイール型プリンタ或いはドットマトリックス型プリンタでよい。 プリンタ66は、例えば、ロードアイランド州のイーストグリーニッチのガルトン工業社(Gulton Indus
    tries,Inc.)市販のマイクロプロット(Microplot)8
    0のようなグラフィック印刷用サーモグラフイックプリンタでよい。

    【0035】更に、システム10と他のシステム又はデバイス間の通信は、通信制御装置(TC)68を通して行われる。 TC68は、システムバス28、30及び3
    2と通信変復調装置又は外部デバイス、例えば、メモリや表示装置との間の通信用の、例えばザイログ社のZ8
    0型マイクロプロセッサ及びシリアルI/Oチップを組込んでいるマイクロプロセッサ制御されたインターフェースデバイスである。

    【0036】ここで銘記すべきことは、上記のシステム10は、例示的であり、以下に更に述べるテキスト圧縮方法は、例えば、広範囲にわたるシステムアーキテクチヤについて実施されることである。 この方法は、例えば、ザイログ社のZ80、モトローラ社のMC6800
    0、インテルの8080、8086又は80186、又はナショナルセミコンダクタ社のNS16000マイクロプロセッサに基づくプロセッサ、又はミニコンピユータ又はメインフレームコンピユータ、又はワードプロセッサ又は通信プロセッサについても実施される。

    【0037】上記のようなシステム10のハードウエアの構造及びオペレーションについて説明したため、システム10のソフトウエア構造及びオペレーションについて述べることにする。

    【0038】 B. ソフトウエア構造及びオペレーション図4について説明する。 この図には、システム10のソフトウエア構造の図が示されている。 ここに示すように、システムのソフトウエア構造は、システムハードウエアによってユーザの動作を特定の詳細なオペレーションに変換するための多層構造である。 このソフトウエア構造は、上層のユーザとインターフェースし且つ下層のシステムハードウエアエレメントとインターフェースするためのエレメントを含む。 中間層は基本的には、ユーザ命令及び要求をハードウエアのオペレーションを指示する命令に変換する。

    【0039】ユーザインターフェースレベルから始まって、ルーチン70、72、74及び76はシステムの応用プログラムを含み、システムによって実行される特定の応用オペレーション、例えば、テキスト又はグラフイック編集或いはデータ処理を決定し、命令する。

    【0040】ユーザインターフェースルーチン70は、
    例えば、表示装置12、キーボード14及びシステムディスク及びプリンタによってユーザと対話するための全てのルーチンを含む。 ユーザインターフェースルーチン70はユーザに向けられたものであるが、応用機能インターフェース72は、ユーザインターフェースルーチン70によって行われるユーザ動作オペレーションと、例えばテキスト編集のような実際の応用オペレーションを行うソフトウエアとの間をインターフェースする。 基本的には、応用機能インターフェースルーチン72は、ユーザインターフェースオペレーションの結果を、ユーザによって規定される応用オペレーションを指図するための命令及びコマンドに変換する。

    【0041】応用ルーチン74及び76は、実際の応用プログラム、即ち、システムが例えば、テキスト又はグラフイック編集オペレーション又はデータ処理オペレーションを実行するように指示するプログラムである。 応用ルーチン74及び76は、応用機能インターフェースルーチン72から、ユーザによって要求されているオペレーションに関する指示を受け、オペレーティングシステム78に、要求されているオペレーションを実施するために行われなければならないシステムオペレーションについての指示を与える。

    【0042】前に述べたように、オペレーティングシステム78は、MSDOSから成り、システムのエグゼクチブ(管理)制御に必要な全てのルーチンを含んでいる。 オペレーティングシステム78は、前に説明したように、BIOSから成るハードウエアインターフェースシステム80とインターフェースする。 基本的には、オペレーティングシステム78は、ユーザによって要求されているオペレーションを実施するために、どの詳細なオペレーションがシステムによって実行されなければならないかを決定し、対応する命令をハードウエアインターフェースシステム80に供給する。 ハードウエアインターフェースシステム80は、システム10のハードウエア構造を含む前に説明した種々のエレメントに詳細なコマンドを供給することによって応答を行なう。

    【0043】前に説明したように、テキスト圧縮によって、テキスト情報をシステム、例えば、メモリ又はディスク上に記憶せしめ、或いはよりコンパクトな形でもってシステム或いはデバイス間に通信せしめる。 例えば、
    上記のシステムの場合、ユーザによってキーボードを通して入力される、或いはディスクから又は通信リンクを通してロードされるテキストは、圧縮されてRAMに或いはディスク上に記憶することができ、或いは通信リンクを通して送信できる。 テキストは、次に、再生(deco
    mpress)されて、例えば、表示装置を通して、或いはプリンタ上にユーザに対して表示することができる。 基本的には、テキスト圧縮及び再生は、テキスト情報が、システムエレメントと、かなりの度合の冗長度を含む言語、例えば、英語を用いているソース又は受け取り側との間で通信される時はいつでも実行される。

    【0044】従って、以下に説明するテキスト圧縮方法は、図4の応用ルーチン74、76レベルに相当する応用プログラムレベルにおいて上記で述べられた斯かるシステムにおいて最も実施されるであろう。 しかしながら、この方法は、例えば表示装置及びキーボードに存在する処理能力の程度に応じて、応用機能インターフェース72レベルにおいても実行され得る。 また、この方法は、実施がシステムオペレーションの基本的特徴であった場合は、オペレーティングシステム78又はハードウエアインターフェースシステム80レベルにおいて実行される。 その実施に応じて、以下に述べる圧縮/再生テーブルはRAM又はROMの中に置かれる。

    【0045】以上のように、本発明に係る方法が実行される装置について述べてきたので、本発明に係る文脈冗長度テキスト圧縮(context redundancy text compress
    ion)方法について以下に述べることとする。

    【0046】 2. 文脈冗長度テキスト圧縮及び再生前に述べたように、テキスト圧縮は、圧縮されるべきテキストの言語の中の情報冗長度の発生に依存する。 上記の従来の技術は、分配的冗長度、即ち、オリジナルテキストの言語の中の特定の文字、文字の組合せ及びワードの発生頻度における非均一性に依っている。

    【0047】本発明に係るテキスト圧縮方法は、文脈冗長度、即ち、他の文字と順次結合している特定の文字、
    即ち文脈の統計的に不均一の発生に基づいている。 例えば、文字「u」は、文字「q」に続くことが最も多く、
    「s」は、「es」に続くことが最も多く、且つ「ブランク」即ち「スペース」は文字「est」に続くことが最も多い。

    【0048】この方法の場合、「文脈」は、順番に特定の文字に先行、或いは続く、文字のシーケンスとして定義され、それぞれ、先行文脈又は後続文脈と呼ばれる。
    文脈は、関連する文字の直ぐ隣に位置する必要はないが、次の例では、隣接した文脈が用いられている。 先行及び後続文脈は、特定の言語の文字が通常書かれているシーケンスを基準にして定義される。 例えば、英語の場合、先行文脈は特定の文字の左に現われる文字であり、
    後続文脈はその文字の右に現れる文字である。 他の言語の場合、例えば、ヘブライ語或いは中国後の場合、先行文脈は特定の文字の右に或いは上に現われ、後続文脈は左又は下に現われる。 これらの例では「q」は「u」の左文脈であり、「es」は「s」の左文脈であり、「e
    st」は「ブランク」の左文脈である。

    【0049】本明細書に説明するテキスト圧縮方法は、
    先行文脈及び後続文脈の両方に対して等しい容易さでもって実施されるが、先行文脈は「オンライン」圧縮及び再生に最も好適である。 後続文脈圧縮及び再生は、「バッチ」処理、即ち、順次的でオーバーラップする文字の組に対しての記憶及び動作を必要とする。 しかしながら、後続文脈圧縮は、特定の状況又は特定の言語にとっては好都合である。

    【0050】テキストを圧縮し再生するのに用いられる文脈の「次数」は、ここでは、文脈中の文字の数として定義され、この方法の特定の実施では一定であることが好ましいであろう。 上記の例の場合、「q」は、「u」
    の一次文脈であり、「es」は「s」の二次文脈であり、「est」は「ブランク」の三次文脈である。 上記の項目を更に定義するために、ある特定の言語を、i=
    1〜uである文字X 、即ち、X 1 ,X 2・・・X u-1
    uから成るアルファベットAで表わすことにする。 この言語が、通常、左から右に書かれていると仮定すると、文字のシーケンスX nn-1・・・X 321iがテキストに現われるとすると、文字のシーケンスX nn-1
    ・・・X 321はX iのn次の先行、即ち左文脈となる。 ここで銘記すべきことは、いかなる文字X の文脈も、文字X 自体を含まないことである。

    【0051】本発明に係る方法は、いかなる次数の値n
    に対しても実行されるが、ここではn=1及びn=2の次数に対する例を下に示す。 しかしながら、次数の値は高い方が好ましいであろう。

    【0052】与えられたX 及び与えられた次数nに対して、全ての可能な独特なn次の先行文脈の組は、PC
    n (X i )として指定され、u のメンバまで含むことができる。 何となれば、独特な文字の各々に対してu個の可能な独特な文字X とn個の可能な位置とが存在するからである。 与えられた言語に対する全ての可能な独特なn次の先行文脈の組はPC nと指定され、u n+1のメンバまでを含むことができる。 何故ならば、X はu個の独特な文字の任意のものでありうるからである。

    【0053】本発明に係るテキスト圧縮方法は、圧縮及び再生のための「ルックアップ」テーブルの使用を必要とする。 上記から、斯かるテーブルは非常に大きいであろうと見られるが、実際は、これらのテーブルは許容できる大きさとなっている。 以下に更に述べられるように、本発明の方法及びこの方法を実施するテーブルの構造は、そのテキスト言語の言語学的特徴には依存しない。 しかしながら、言語学的特徴は、これらのテーブルの大きさに影響する。 何となれば、特定の文脈はまれであり特定の言語には現われず、従って実際にはこれらのテーブルの大きさを制限しているからである。 例えば、
    「wc」は英文においては「s」の先行文脈として現われるのはまれであり、従って英文言語圧縮テーブルには現われないが、例えば、ポーランド語テーブルには、現われる。 しかしながら、この圧縮方法と、これらのテーブルを生成する時に用いる手段は英語の場合もポーランド語の場合も同一である。

    【0054】本発明に係る圧縮/再生テーブルは、発見的に又は言語学的分析法によって生成される。 しかしながら、より好ましい方法の場合、これらのテーブルは、
    テキストの好ましい本体、例えば、辞書、シソーラス、
    原稿或いは文書の文脈分析を通じて生成される。

    【0055】テーブル生成の好ましい方法は、言語学的分析ではなく機械的である。 先ず、文脈nの与えられた次数に対して、テキストのサンプル体が、通常書込まれている方向に従ってシーケンスに文字毎にスキャンされ、各文字X に対して発生している各先行文脈PC n
    (X i )の各発生が表にされる。 この分析は、各X に対する各PC n (X i )の発生の頻度のテーブルを与え、
    基本的には、文脈冗長度をアルファベット中の各文字に対する文脈の対応する分配的冗長度にマップする。 このプロセスは、それらのセルに対するインデックスとしてX 及びPC n (X i )を用いる表配列を生成し、このサンプルテキストの文字X がスキャンされるとセルの内容を適当に増分することによって、簡単に達成される。

    【0056】上記のテーブルを生成すると、最終テーブルが、特定の文脈に現われる各X を、各PC n (X i
    に対してソートすることによって生成される。 即ち、この最終テーブルは、各特定の文脈に対して、その文脈に現われる全ての文字を含んでいる。 これらの文字は、各文脈に対して、発生の頻度の順に従ってソートされるのが一般的である。 ここで銘記すべきことは、この最終テーブルが、連続する文脈を走査し、一度に1つづつ文字をシフトし、発生する文脈及び各斯かる文脈に現われる文字を表にすることにより、第1テーブルからの派生としてではなく、直接発生されることである。

    【0057】従って、この最終テーブルは、各文脈に対して1つの「相対的アルファベット」を定義することができ、ある特定の文脈に対する相対的なアルファベットは、発生の頻度の順に従ってその文脈に現れる全ての文字から成る。 以下に更に述べるように、この最終テーブルは、全ての可能な非圧縮テキスト文字と圧縮テキストコード文字との間の関係を定めており、そして該テーブルはテキストの圧縮と再生の両方に用いられる。

    【0058】表1について説明する。 この表には、次数n=2の先行文脈に対する最終圧縮/再生テーブルの説明的な例が示されている。 表1を生成するのに用いられているテキストのサンプル体は、一般的な事務所の通信文から成る。 表1は単に説明的な目的に意図されているため、発生する文脈の数個だけが示されており、従って各文脈に対しては、8個の最も頻繁に発生するテキストの文字だけが示されている。

    【0059】

    多種の2文字文脈が表1の左の垂直のインデックスとしてリストされており、各文脈に現われるテキスト文字が対応する文脈の右の列にリストされている。 例えば、テキスト文字、即ち文脈「co」に対して発生する相対的アルファベットは、発生の頻度の順で表わすと、


    「n」、「m」、「p」、「u」、「v」、「r」、


    「s」及び「d」である。 ここで銘記すべきことは、テキスト文字「−」は、1つのスペース、即ちブランクを表わすのに用いられ、「*M」は行の終り文字を表わし、「nul」はゼロ頻度数のエントリを表わすことである。

    【0060】表1の上部に平インデックスとして現われているランク数字は、各文脈に対して、各相対的アルファベットの種々のテキスト文字を表わすのに用いられるシンボル、或いはコード文字を含んでいる。 従って、
    文脈「co」のテキスト文字「m」に対するコード文字は「2」である。

    【0061】圧縮/再生テーブル1を検査すると、例えば、コード文字「2」はまた、文脈「ee」、「t
    e」、「se」及び「or」においてテキスト文字「d」を表わし、文脈「to」及び「io」においてテキスト文字「r」を表わすことが分る。 同様にして、コード文字「5」は、文脈「a 」、「io」及び「l
    o」においてテキスト文字「g」を表わし、文脈「r
    e」、「ne」及び「to」においてテキスト文字「d」を表わしている。 別の例の場合、コード「11」
    は、先行の文脈が「ie」である場合、「ss」を表わし、先行の文脈「o 」である場合は、「th」を表わす。

    【0062】上記のことから以下のことが明らかである。 即ち、同一のコード文字が異なるテキスト文字を表わすことであり、且つ与えられたテキスト文字が異なったコード文字によって表わされることである。 即ち、コード文字とテキスト文字との間にはそれら自体独特の1
    対1の関係が存在しないことである。 あるコード文字とあるテキスト文字との間の関係は、そのコード及びテキスト文字が現われる特定の文脈に依存する。

    【0063】このことは、以下の例で更に説明される文脈冗長度圧縮の特徴を示している。 即ち、一つのコード文字は、ある特定のテキスト文字を独自に定義するのに必要な情報の全ての量をそれ自身に含む必要がないことである。 コードとテキスト文字との間の関係を定義する情報の部分は、そのテキスト自身、即ち、その文脈の中にある。 このため、圧縮されたテキストを不明瞭性なしに表わすのに必要な独特なコード文字は少なく済み、従って、コード文字は短くて済む。 従って、その結果生ずる圧縮されたテキストは、より少ないビットの情報で表わされる。 従って、テキスト自体は、テキスト情報に加えて、圧縮された形と圧縮されない形との間にわたる変換に必要な情報の一部を、圧縮された形及び圧縮されない形の両方において含んでいる。

    【0064】テキスト文字とコード文字との間の文脈依存関係の故に、先行文脈、例えば、「nuls」或いは「ブランク」がテキストの最初のn文字に対して仮定されるか、或いは課せられる。 この「ヘッダ文脈」は、テキストの最初の文字或いは諸文字を圧縮又は再生するための既知の文脈を与えており、後続する文字はテキスト自体の文脈において圧縮或いは再生される。

    【0065】テキストの圧縮及び再生のための本発明に係る方法及びテーブルの使用を説明するために、句「t
    otal salt」がテキストの中に現われており、
    「total」の最初の「t」の先行文脈が、例えば、
    (th)e の「e 」であると仮定する。 この句の圧縮及びその後に続く再生は、以下に示す表2及び表3で説明されている。 表2は、圧縮プロセスを示しており表3は再生プロセスを表している。

    【0066】

    このサンプルテキストを圧縮するために、 各テキスト文字及びその関連する文脈が順に読出され、 好ましい実施例においては、 このテキストが通常書き込まれた順に従って読み取られる。 この例の場合、 読み取りは左から右に行なわれる。 この例は2次文脈、即ちn=2の文脈を用いているため、各文字に対する文脈は、その文字の直前に先行する2つの文字から成る。 このように、ある特定の文字の2文字先行文脈を決定すると、次にその文脈は、その文脈に対する相対的アルファベットを位置づけるための、この圧縮/再生テーブルへのインデックスとして用いられる。 この文脈と関連して読み取られる文字は、次に相対的アルファベットの中に置かれ、相当するコード文字が、この表の上部におけるランクインデックスに置かれる。 このプロセスは、この圧縮オペレーションが完了するまで、一度に一文字づつ、継続される。

    【0067】例えば、「total」中の最初の「t」
    の先行文脈は、「e 」である。 「e 」は、対応する相対的アルファベットをつきとめるためにこのテーブルへのインデックスとして用いられる。 その対応する相対的アルファベットは上から第2番目の相対的アルファベットとして現われている。 次のこの相対的アルファベットは、スキャンされて、これによりテキスト文字「t」、即ち左から2番目のエントリを突きとめ、対応するコード文字がこのテーブルの上部から「2」として読み取られる。 次のテキスト文字は、「total」の「o」であり、「o」の文脈は「 t」であり、従って、「o」に対するコード文字もまた「2」となる。 3
    番目のテキスト文字は、「total」の2番目の「t」であり、この「t」の先行文脈は、「to」であり、そのコード文字は「7」であると決定される。

    【0068】このプロセスはテキストの終わりまで継続し、この「total salt」の圧縮された形は「2273513827」となる。

    【0069】同一の圧縮/再生テーブルを用いて、逆のオペレーションが実行され、これにより圧縮されたテキストを再生する。 この場合、読み取られる「テキスト」
    は圧縮されたテキストであり、一度に1つづつ且つ書き込まれた順次に従って読み取られる「文字」は、その圧縮されたテキストのコード文字である。 各コード文字の先行文脈は、復元されたテキストの先行復号化文字から成り、このテキストが再生された時に決定される。 このように決定された文脈は、再びこのテーブルへのインデックスとして用いられ、これにより適当な相対的アルファベットを選択し、このコード文字は、選択された相対的アルファベット内の適当なテキスト文字を決定するためにインデックスとして用いられる。 圧縮オペレーションに用いられる既知の「ヘッダ文脈」が再び、圧縮されたテキストの最初の文字或いは諸文字を再生するのに開始文脈として用いられる。

    【0070】上記と同一の例を用いて、この再生オペレーションを説明するために、再生されるテキストが、コード文字シーケンス「2273513827」から成り、且つ先行する再生テキストが再び「e 」であると決定されていると仮定する。 次に、この再生オペレーションが下の表3に説明されている。

    先行する圧縮テキストが、シーケンス「2273513


    827」の開始に再生されていると仮定すると、このシーケンス中の最初の「2」の先行文脈は、このテキストの前に再生された部分から「e

    」であると分る。 「e


    」は、次にこのテーブルへのインデックスとして用いられ、これにより、このシーケンスの最初の「2」の相対的アルファベットを求め、この文字に対しては、この「e

    」は、このテーブルの上から2番目の相対的アルファベットとなる。 このシーケンスのこの最初の「2」


    は次に、このテーブルへのインデックスとして用いられ、これにより、その相対的アルファベットの対応するテキスト文字が「t」であることを決定する。 次に、このシーケンス中の第2の「2」の先行文脈は、「

    t」


    であることが知られ、このテーブルへのインデックスとして「

    t」及び「2」を用いると、この第2の「2」


    に対応するテキスト文字は、「o」と求められる。 第3


    のコード文字は、現在知られている先行文脈「to」を伴う「7」であり、そのテキスト文字は、「t」であると求めることができ、以下同様となる。

    【0071】更に別の実施においては、上記の圧縮/再生は、反復的に用いることができ、即ち、圧縮されたテキストは、上記と同一の方法を用いて、それ自身が圧縮されることができる。 反復的圧縮は、前記と同じ方法による圧縮/再生テーブルの生成を必要とするが、圧縮されたテキスト資料の文脈冗長度を求め、且つ表を作成するために、それらのテキストの圧縮された形を用いる。
    従って、テキストの圧縮は、2つのステップのプロセスになる。 即ち、再生プロセスもそうであるが、オリジナルテキストを圧縮する第1ステップと圧縮されたテキストを圧縮する第2ステップである。 この2つのステップ、即ち、反復的な圧縮/再生は、単一のステップのプロセスのように、「オンライン」で、即ち、連続的プロセスとして実施され得る。

    【0072】

    【発明の効果】テキスト圧縮/再生の前記の方法の特定の特徴を繰り返すと、本発明に係る方法は、文脈冗長度、即ち、個々の文字が発生する文脈の非均一分布に基づいて動作する。 ここに定義されているような文脈は、
    テキストを構成する個々の文字に先行又は後続する文字の均一寸法のグループを含んでいる。

    【0073】この方法に用いられる圧縮/再生テーブルは、特定の言語の言語学的特徴に影響されるが、この方法は、いかなる形の言語学的分析或いは、いかなる形の言語学的特徴或いは、いかなる言語のエレメントにも基づかない。 従って、この方法は、完全に一般的であり、
    いかなる言語にも或いは、ある言語の「通用語」に対しても等しく適用可能である。

    【0074】この方法は、テキスト及びコード文字の均一寸法のグループについて動作するため、この方法は複雑性が少なく、他の方法が必要とするよりも、少ない処理時間及び能力を必要とし、従って実施速度がより速くなる。 同じ理由でもって、この方法は実施において対称的であり、唯一の圧縮/再生テーブルを必要とするだけであり、オンライン連続プロセスに対して好適である。

    【0075】コード文字とテキスト文字との間の関係を定める情報の部分は、文脈、即ちテキスト自体に、その圧縮形及び非圧縮形の両方でもって存在する。 このために、圧縮されたテキストを不明瞭性なく表わすのに必要な独特のコード文字は少なくて済み、従ってコード文字は短かくて済む。 従って、その結果生ずる圧縮されたテキストは、より少ないビットの情報でもって表わすことができる。

    【0076】従って、本発明によると、テキスト情報を、広範囲な言語に用いるのに適し、言語の言語学的特徴に比較的依存しないテキスト情報に圧縮し、かつ改良された速度で圧縮する方法が提供される。

    【図面の簡単な説明】

    【図1】本発明を組込んでいるコンピュータシステムの斜視図。

    【図2】図1のコンピュータシステムの一部のブロック図。

    【図3】図1のコンピュータシステムの他の部分のブロック図。

    【図4】図1、図2、及び図3のコンピュータシステムのソフトウエア構造の図。

    【符号の説明】

    12 表示装置、 14 キーボード、 16 CP
    U、 18 メインプロセッサ、 20 コプロセッサ、 36 システムクロック、 38 待ち状態ロジック、 40 カウンタ及びタイマチップ、 42 プログラマブル割り込みチップ、 44 非マスク可能割込みロジック、48 DMA制御器、 50128KB
    ランダムアクセスメモリ、 54 消去可能プログラマブル読出し専用メモリ、 56 ディスクドライブ、
    58 フロッピー制御器、 60 ディスクドライブ、
    62 ディスク制御器、 66 ラスタプリンタ、
    67プリンタ制御器、 68 通信制御器、 70 ユーザインターフェースルーチン、 72 応用機能インターフェースルーチン、 74、76 応用ルーチン、
    78 オペレーティングシステム、 80 ハードウエアインターフェースシステム

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈