首页 / 专利库 / 人工智能 / 文本字符串 / テキスト表示プログラム

テキスト表示プログラム

阅读:1015发布:2020-11-17

专利汇可以提供テキスト表示プログラム专利检索,专利查询,专利分析的服务。并且【課題】プレーンテキストが記述している内容を、簡易な処理で容易に把握することができるテキスト表示技術を提供する。 【解決手段】フォーマット情報が存在しないプレーンテキストファイルのテキスト構造を、階層構造の各階層を示すタグとそのタグに対応付けるべき文字列ブロックの開始箇所を 指定 する正規表現によって記述されている定義データにしたがって解析して、文字列ブロックの開始箇所を特定し、各文字列ブロックを階層表示ビューの各階層に割り当てて画面表示する。 【選択図】図4,下面是テキスト表示プログラム专利的具体信息内容。

文書のフォーマットに関する情報が付与されていないプレーンテキストファイルが記述している文字列を画面表示する処理をコンピュータに実行させるテキスト表示プログラムであって、前記コンピュータに、 前記プレーンテキストファイルを記憶装置から読み出す読出ステップ、 前記プレーンテキストファイルが記述している文字列ブロック間の階層関係を定義する定義データを取得する定義取得ステップ、 前記定義データが定義している前記階層関係にしたがって前記文字列ブロック間の階層関係を表現した階層表示ビューを画面表示する階層表示ステップ、 を実行させ、 前記プレーンテキストファイルは、1以上の前記文字列ブロックを含んでおり、 前記定義データは、前記プレーンテキストファイルが記述している各前記文字列ブロックの開始箇所を特定する文字列を定義しており、 前記階層表示ステップにおいては、前記コンピュータに、前記開始箇所によって特定される各前記文字列ブロックを前記階層表示ビューの各階層に割り当てて画面表示させる ことを特徴とするテキスト表示プログラム。前記定義データは、前記文字列ブロックの前記開始箇所が記述している文字列のうち前記階層表示ビューの各階層のタイトルとして使用すべきものを前記階層毎に定義しており、 前記テキスト表示プログラムは、前記階層表示ステップにおいて、前記コンピュータに、前記定義データの定義にしたがって前記文字列ブロックの前記開始箇所が記述している文字列のうち前記階層表示ビューの各階層のタイトルとして使用すべきものを特定させた上で、その特定した文字列を前記階層表示ビューの各階層のタイトルとして表示させる ことを特徴とする請求項1記載のテキスト表示プログラム。前記定義データは、前記文字列ブロックの前記開始箇所が記述している文字列のうち前記階層表示ビューの各階層のタイトルとして使用すべきものの文字列パターンを前記階層毎に定義しており、 前記テキスト表示プログラムは、前記階層表示ステップにおいて、前記コンピュータに、前記文字列ブロックの前記開始箇所が記述している文字列のうち前記文字列パターンに合致するものを特定させた上で、その合致した文字列を前記階層表示ビューの各階層のタイトルとして表示させる ことを特徴とする請求項2記載のテキスト表示プログラム。前記テキスト表示プログラムは、前記コンピュータにさらに、 前記階層表示ビューの各階層のうちいずれかを選択する選択入を受け取るステップ、 前記プレーンテキストファイルが記述している前記文字列ブロックのうち前記選択入力に対応するものを抽出して画面表示するステップ、 を実行させることを特徴とする請求項1記載のテキスト表示プログラム。前記テキスト表示プログラムは、前記コンピュータにさらに、 前記プレーンテキストファイルが記述している文字列をキーワードとして指定して検索するよう要求する検索リクエストを受け取るステップ、 前記検索リクエストが指定する前記キーワードに合致する文字列を含んでいる前記文字列ブロックを前記プレーンテキストファイルから抽出するステップ、 前記階層表示ビューのなかから前記抽出した文字列ブロックに対応する前記階層のみを取り出して前記階層表示ビュー上に画面表示するステップ、 を実行させることを特徴とする請求項1記載のテキスト表示プログラム。前記テキスト表示プログラムは、前記コンピュータにさらに、 1以上の前記プレーンテキストファイルを指定する指定入力を受け取るステップ、 指定された各前記プレーンテキストファイルについて、前記読出ステップ、前記定義取得ステップ、および前記画面表示ステップを実行するステップ、 前記階層表示ビューが表示している各階層およびその各階層に対応する前記文字列ブロックを特定する情報を記憶装置に格納するステップ、 を実行させることを特徴とする請求項1記載のテキスト表示プログラム。

说明书全文

本発明は、テキストデータの内容を表示する技術に関する。

コンピュータが取り扱う文書データは、文書のフォーマットに関する情報が当該文書データ内に付与されているものと、フォーマットに関する情報が付与されず文字列のみを記録したプレーンテキストとがある。プレーンテキストは一般的なテキストエディタプログラムによって閲覧編集することができる。文字量が多いプレーンテキストデータは、記述している項目の意味づけや階層構造が分かりにくい点において、閲覧編集しにくいといえる。

下記特許文献1は、プレーンテキストに対して文書構造情報を付加することにより文書処理に好適な文書データ(タグファイル)を作成する技術を開示している(要約参照)。

特開2001−051997号公報

上記特許文献1記載の技術は、プレーンテキストが記述している原文を形態素解析し、その記述内容の構造や階層関係にしたがって、原文のプレーンテキストに対して構造情報を付加するものであると考えられる。しかしそのような解析処理は一般に演算負荷が高い。またプレーンテキストが記述している内容や階層関係がさほど複雑ではない場合においては、記述内容の意味を解析しなくとも内容を十分に把握できる場合もあると考えられる。

本発明は、上記のような課題に鑑みてなされたものであり、プレーンテキストが記述している内容を、簡易な処理で容易に把握することができるテキスト表示技術を提供することを目的とする。

本発明に係るテキスト表示プログラムは、プレーンテキストファイルが記述している文字列ブロックの開始箇所を特定し、各文字列ブロックを階層表示ビューの各階層に割り当てて画面表示する。

本発明に係るテキスト表示プログラムによれば、プレーンテキストファイルが記述している文字列ブロックを行単位で特定して階層表示するので、簡易な処理によってプレーンテキストファイルの構造を可視化することができる。

実施形態1に係るテキスト表示プログラム120を実行するコンピュータ100およびその周辺構成を示す図である。

プレーンテキストファイル141の例を示す図である。

定義データ130の例を示す図である。

テキスト表示プログラム120の画面イメージを示す図である。

実施形態2に係るテキスト表示プログラム120の画面例を示す図である。

テキスト表示プログラム120が検索結果を表示している様子を示す画面イメージである。

実施形態3に係るテキスト表示プログラム120を実行するコンピュータ100およびその周辺構成を示す図である。

実施形態3におけるテキスト表示プログラム120の画面イメージを示す図である。

実施形態4におけるプレーンテキストファイル141の例を示す図である。

実施形態4における定義データ130の例を示す図である。

<実施の形態1> 図1は、本発明の実施形態1に係るテキスト表示プログラム120を実行するコンピュータ100およびその周辺構成を示す図である。コンピュータ100は、CPU(Central Processing Unit)110、テキスト表示プログラム120、定義データ130、記憶装置140を備える。記憶装置140はプレーンテキストファイル141を格納している。

テキスト表示プログラム120は、プレーンテキストファイル141のテキスト構造を解析して画面表示する処理を実装したプログラムである。詳細については後述する。以下では記載の便宜上、テキスト表示プログラム120を動作主体として説明する場合があるが、実際にこれを実行するのはCPU110である。

定義データ130は、テキスト表示プログラム120がプレーンテキストファイル141のテキスト構造を解析するルールを記述したデータである。定義データ130の具体例については後述する。

テキスト表示プログラム120と定義データ130は、記憶装置140に格納することもできるし、その他適当な記憶装置に格納することもできる。定義データ130は必ずしもデータファイルとして構成する必要はなく、例えばテキスト表示プログラム120の一部として組み込むこともできる。

図2は、プレーンテキストファイル141の例を示す図である。プレーンテキストファイル141は、文書のフォーマットに関する情報がファイル内に付与されておらず、文字列のみを記述したデータファイルである。

プレーンテキストファイル141は、フォーマット情報が存在しないので、これを閲覧するとき、原則としては記述されている文字列がそのまま画面表示される。しかし実際には、プレーンテキストファイル141が記述している文字列はその内容に応じていくつかの文字列ブロックに分かれている場合がある。またその文字列ブロック間には階層関係が存在する場合がある。

図2に示す例においては、1行目に記載されている文字列は当該文書のタイトルであり、文字列ブロックとして「1.第2室トピックス」と「2.案件詳細」の2つが存在していると考えられる。これらブロックは当該文書に従属する。さらに各文字列ブロックは、下階層の文字列ブロックとして、「◆ 案件名:」で開始する文字列ブロックを含んでいると考えられる。

本実施形態1に係るテキスト表示プログラム120は、プレーンテキストファイル141の上記のような階層関係を解析し、その階層関係を後述する階層表示ビュー上で画面表示する。

図3は、定義データ130の例を示す図である。定義データ130は、プレーンテキストファイル141のテキスト構造を定義するデータであり、階層構造の各階層を示すタグとそのタグに対応付けるべき文字列ブロックの開始箇所を指定する正規表現によって記述されている。以下の説明の便宜のため行番号を併記したが、実際のデータ上では行番号は必要ない。

1行目のタグ「T」は、当該文書のタイトルとして使用すべき文字列を指定する。ここでは2行目のタグ「TR」が指定する正規表現に合致する文字列をタイトルとして用いるべき旨を指定している。図2の例においては、タグTRの正規表現「()」が指定する文字列パターンに合致するプレーンテキストファイル141の行を抽出し、これを当該文書のタイトルとして用いることになる。図2に示す例においては、1行目がこれに該当する。

4行目のタグ「BT」は、1つ目の文字列ブロックのタイトルを指定する。ここでは固定文字列として「1.第2室トピックス」が指定されている。5行目のタグ「BBR」は1つ目の文字列ブロックの開始箇所を指定する正規表現を記述する。ここではプレーンテキストファイル141内に必ず「1.第2室トピックス」という文字列が含まれると仮定して当該文字列を開始箇所として指定しているが、メタ文字を含む正規表現によって開始箇所を指定することもできる。連続する複数行の組み合わせで文字列ブロックの開始が特定される場合は、複数行にまたがる正規表現により指定することもできる。

文字列ブロックの終了は次の文字列ブロック開始直前の行、ファイルの最終行、もしくは文字列ブロックの終了箇所を指定する正規表現により決定される。6行目の「BBE」は文字列ブロックの終了箇所を指定する正規表現を記述した例である。終了箇所の指定を省略した場合は、次の文字列ブロック開始直前の行もしくはファイルの最終行が文字列ブロックの終了位置として判定される。

14行目のタグ「BT」、15行目のタグ「BBR」、16行目のタグ「BBE」は、2つ目の文字列ブロックについて同様にタイトルと開始箇所と終了箇所を指定している。

各文字列ブロックは、配下に別の文字列ブロックを含む場合がある。図2に示す例においては、「◆ 案件名:」で開始する文字列ブロックはそれぞれ「1.第2室トピックス」「2.案件詳細」の下階層に配置されるものである。定義データ130はこれら下階層の文字列ブロックについても定義することができる。

8行目のタグ「BST」は、1つ目の文字列ブロック「1.第2室トピックス」に従属する下層文字列ブロックのタイトルを指定する。ここでは9行目のタグ「BSR」が指定する正規表現に合致する文字列をタイトルとして用いるべき旨を指定している。9行目のタグ「BSR」は、下層文字列ブロックの開始箇所を指定する役割も有する。すなわち、「◆ 案件名:」で開始する行は、「1.第2室トピックス」に従属する下層文字列ブロックとなる。

下層文字列ブロックが複数存在する場合は、タグ「BST」「BSR」のペアを複数指定することもできる。図3の例においては、「1.第2室トピックス」に従属する下層文字列ブロックは2組存在する。プレーンテキストファイル141の先頭行から見て次の上層文字列ブロックが出現するまでに登場する下層文字列ブロックは、全て直近で定義されている上層文字列ブロックに従属するとみなすことができる。

18行目〜22行目の各タグは、2つ目の文字列ブロック「2.案件詳細」に従属する下層文字列ブロックについて、同様に定義している。

なおプレーンテキストはフォーマット情報を含まないので、文字列ブロックは1以上の文字行によって構成されていると考えられる。したがって文字列ブロックの開始箇所は、例えば行頭の文字列などのように、文字列ブロックの開始箇所を行単位で特定することができればよいと考えられる。

図4は、テキスト表示プログラム120の画面イメージを示す図である。ここでは図2に例示したプレーンテキストファイル141を図3に例示した定義データ130にしたがって解析した結果を表示している。

図4左側の階層表示ビューは、プレーンテキストファイル141が記述している文字列ブロックの階層関係を、ツリービューによって表示している。ルートノードは当該文書のタイトルを表示しており、その配下の2つのノードは2つの文字列ブロックおよびそのタイトルを表示している。

各文字列ブロックの配下には、下層文字列ブロックが含まれている。ここでは2つ目の文字列ブロック「2.案件詳細」配下の文字列ブロックのタイトルを階層表示ビュー上で展開している。

ユーザが階層表示ビューのいずれかのノードを選択すると、テキスト表示プログラム120は、そのノードおよびこれに属する下層ノードに対応する文字列ブロックを画面右側に表示する。図4においては、2目の文字列ブロック「2.案件詳細」を選択し、その配下の下層文字列ブロックと併せて画面右側に表示している。

階層表示ビューの各ノードと文字列ブロックとの間の対応関係は、例えばプレーンテキストファイル141内の各文字列ブロックの開始行番号と各ノードとを対応付けることによって保持することができるが、これに限られるものではなくその他適当な手法を用いてもよい。

<実施の形態1:まとめ> 以上のように、本実施形態1において、定義データ130はプレーンテキストファイル141内の各行が記述している文字列ブロックの開始箇所(または開始行)を特定する正規表現を定義しており、テキスト表示プログラム120はその正規表現にしたがって各文字列ブロックの開始箇所を特定して階層表示ビュー上で表示する。行単位で文字列ブロックを特定することにより、簡易な処理によってプレーンテキストファイル141のテキスト構造を特定することができる。

また本実施形態1において、定義データ130はプレーンテキストファイル141が記述している文字列ブロックの階層関係を定義しており、テキスト表示プログラム120はその定義にしたがって各文字列ブロックの階層関係を特定して階層表示ビュー上で表示する。これにより、フォーマット情報を持たないプレーンテキストファイル141であっても、ユーザはその記述内容の階層関係を容易に把握することができる。

また本実施形態1において、定義データ130はプレーンテキストファイル141が記述している文字列ブロックのタイトル部分を指定する正規表現を定義しており、テキスト表示プログラム120はその定義にしたがって各文字列ブロックのタイトルを抽出して各階層のタイトルとして表示する。これにより、見出し情報を持たないプレーンテキストファイル141であっても、ユーザはその概略を即座に把握することができる。

また本実施形態1において、ユーザは階層表示ビュー上でいずれかの文字列ブロックを指定し、テキスト表示プログラム120はその指定された文字列ブロックをプレーンテキストファイル141から読み出して表示する。これにより、例えば大量の文字列ブロックを記述したプレーンテキストファイル141であっても、所望する部分の内容のみを容易に把握することができる。

<実施の形態2> 図5は、本発明の実施形態2に係るテキスト表示プログラム120の画面例を示す図である。本実施形態2において、テキスト表示プログラム120はユーザからの検索リクエストを受け付けると、検索キーワード指定画面121を表示する。その他の構成は実施形態2と同様であるため、以下では検索リクエストおよび検索キーワード指定画面121について主に説明する。

検索リクエストは、プレーンテキストファイル141内の特定のキーワードに合致する部分を検索するリクエストである。検索キーワード指定画面121は、そのキーワードを指定入するための画面である。ユーザが検索キーワードを入力してOKボタンを押下すると、テキスト表示プログラム120はそのキーワードに合致する文字列を含む文字列ブロックを特定する。ここではユーザが検索キーワード「石木田」を指定したものと仮定する。

図6は、テキスト表示プログラム120が検索結果を表示している様子を示す画面イメージである。テキスト表示プログラム120は、検索キーワードに合致する文字列を含む文字列ブロックをプレーンテキストファイル141から特定し、その文字列ブロックのみを階層表示ビュー上で表示する。ただしキーワードに合致した文字列ブロックが下層文字列ブロックである場合は、その下層文字列ブロックが属する上層文字列ブロックに対応するツリーノードも併せて表示する。階層関係のどの位置においてキーワードが存在するかを視覚的に把握しやすくするためである。

図6に示す例においては、2つ目の文字列ブロック「2.案件詳細」に属する下層文字列ブロック「◆ 案件名:案件その1」において検索キーワードに合致する文字列が存在するので、当該文字列ブロックおよびその上層文字列ブロックを階層表示ビュー上で表示している。検索キーワードに合致する文字列ブロックが複数存在する場合は、各文字列ブロックを同様に表示することができる。

<実施の形態2:まとめ> 以上のように、本実施形態2に係るテキスト表示プログラム120は、検索キーワードに合致する文字列を含む文字列ブロックを抽出し、その文字列ブロック(およびその上層文字列ブロック)のみを表示する。これにより、検索結果に合致する文字列ブロックの内容を即座に把握することができる。

<実施の形態3> 本発明の実施形態3においては、テキスト表示プログラム120がプレーンテキストファイル141のテキスト構造を解析し、その解析結果を保存する構成例について説明する。その他の構成は実施形態1〜2と同様である。

図7は、本実施形態3に係るテキスト表示プログラム120を実行するコンピュータ100およびその周辺構成を示す図である。本実施形態3において、プレーンテキストファイル141は2つのフォルダ内にそれぞれ1つずつ配置されている。

テキスト表示プログラム120は、ユーザから各プレーンテキストファイル141を指定する指定入力を受け取り、各プレーンテキストファイル141に対して実施形態1〜2と同様の処理を実施する。プレーンテキストファイル141と同じフォルダ内に定義データ130が存在する場合はその定義データを用いてプレーンテキストファイル141のテキスト構造を解析し、存在しない場合はテキスト表示プログラム120が規定で保持している定義データ130を用いて解析する。

図8は、本実施形態3におけるテキスト表示プログラム120の画面イメージを示す図である。2つのプレーンテキストファイル141それぞれに対応する2つのルートノードが画面表示されている。

テキスト表示プログラム120は、各プレーンテキストファイル141のテキスト構造をいったん解析すると、そのテキスト構造を表現する階層表示ビューの内容および各階層に対応する文字列ブロックの位置を、階層構造保存ファイルとして記憶装置140内に保存することができる。この保存は例えばユーザからの指示にしたがって実施してもよいし、定期的に自動実施してもよい。

階層構造保存ファイルは、階層表示ビューの各ノードの階層関係(階層構造、各ノードのタイトルなど)、各ノードに対応するプレーンテキストファイル141のファイルパスおよび文字列ブロックの開始行番号、などのデータ項目を記録することができる。テキスト表示プログラム120は、以前保存した階層構造保存ファイルをオープンすると、保存されている階層表示ビューを復元して画面左側に表示する。ユーザがいずれかのノードを選択すると、実施形態1で説明したように選択されたノードに対応する文字列ブロックを画面右側に表示する。

<実施の形態3:まとめ> 以上のように、本実施形態3に係るテキスト表示プログラム120は、階層表示ビューの各ノード、および各ノードと各プレーンテキストファイル141内の文字列ブロックとの間の対応関係を保存し、これを再読み込みして復元する。これにより、いったんプレーンテキストファイル141のテキスト構造を解析した後は、改めてこれを再解析する必要がなくなり、処理負荷を軽減することができる。特に多数のプレーンテキストファイル141を読み込む場合において、再読み込み時間を大幅に短縮することができる。

<実施の形態4> 図9は、本発明の実施形態4におけるプレーンテキストファイル141の例を示す図である。実施形態1〜3においては、各プレーンテキストファイル141は単一の文書を記述していることを前提としたが、単一のプレーンテキストファイル141が複数の文書を記述している場合においても本発明を適用することができる。図9に示す例は、複数の電子メールのソースをテキストベースで連結して単一のプレーンテキストファイル141としたものである。

図10は、本実施形態4における定義データ130の例を示す図である。1行目において、文書の先頭を示すタグ「SP」が追加されており、その他は図3と同様である。図10に示すタグ「SP」は、文字列「From」で開始する部分は文書の区切りとみなすことを定義している。したがってテキスト表示プログラム120は、複数の電子メールをテキスト連結したプレーンテキストファイル141を解析すると、各電子メールを1つの文書として取り出すことができる。各文書は、例えば図8と同様に各文書の先頭をルートノードとする複数のツリーによって表示することができる。

<本発明の変形例> 以上の実施形態において、定義データ130が定義する各タグの例を示したが、各タグの文字列自体は例示したものに限られるものではなく、同じ意味を表すことができればタグの文字そのものは何でもよい。例えば文書の先頭を表すタグは「SP」でなくともよい。

図3や図10の例において、下層文字列ブロックを表すタグの前にインデントを設けているが、このインデントは見易さのために付与したものであり、階層の深さを表すものではない。各タグの意味づけはタグそのものによって定義される。

以上の実施形態において、階層表示ビューの例としてツリービューを例示したが、ノード間の階層関係を表現することができるその他の階層表示ビューを用いることもできる。

100:コンピュータ、110:CPU、120:テキスト表示プログラム、130:定義データ、140:記憶装置、141:プレーンテキストファイル。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈