주제 적응 품사 태깅 시스템 및 방법专利检索-词性标注人工智能专利检索查询-专利查询网

주제 적응 품사 태깅 시스템 및 방법

阅读：437发布：2021-10-14

专利汇可以提供주제 적응 품사 태깅 시스템 및 방법专利检索，专利查询，专利分析的服务。并且PURPOSE: A part of speech tagging system and method is provided to unify a general dictionary with subject dictionaries, and to make it easy tagging words included in the subject dictionary by giving a weight value to the words included in the subject dictionary. CONSTITUTION: The system comprises a sentence input module(1), a tagging module(2), a subject classification module(3), a dictionary storage(4), the first storage(5), the second storage(6), and a tagging result output module(7). The first storage(5) stores a general dictionary, and the second storage(6) stores plural subject dictionaries. The tagging module(2) performs a procedure of tagging a part of speech on each word included in the sentence, input via the sentence input module(1), by using the dictionary storage(4) in which each word is set with a corresponding part of speech. The subject classification module(3) classifies the words included in the sentence by using the tagging result.，下面是주제 적응 품사 태깅 시스템 및 방법专利的具体信息内容。

权利要求

자연어 처리에서 입력된 문장의 주제에 따른 단어의 품사를 할당하는 주제 적응 품사 태깅 시스템에 있어서,

일반언어를 포함하는 적어도 하나의 일반 언어사전을 저장하는 제1 저장부;

특정언어를 포함하며 주제별로 구분된 복수개의 주제별 언어사전을 저장하는 제2 저장부;

상기 일반 언어사전 및 상기 주제별 언어사전을 이용하여 입력되는 단어에 품사 태깅을 실행하는 품사태깅부;

상기 품사 태깅이 실행된 상기 입력된 문장의 단어의 주제어를 검색하여 주제별로 분류하는 주제분류부; 및

상기 주제분류부에 의해 분류된 주제어에 해당하는 주제별 언어사전과 상기 일반 언어사전이 입력되어 새로운 언어사전을 생성하고 저장하는 사전저장부를 포함하여, 상기 새로운 언어사전을 이용하여 입력되는 단어의 품사 태깅을 실행하는 것을 특징으로 하는 주제 적응 품사 태깅 시스템.

제 1항에 있어서, 상기 품사 태깅은,

통계 기반 접근 방법, 규칙 기반 접근 방법 및 통합 접근 방법 중 어느 하나의 방법으로 실행되는 것을 특징으로 하는 주제 적응 품사 태깅 시스템.

제 1항에 있어서, 상기 주제 분류는,

시소러스 또는 상호정보를 이용하는 방법을 이용하는 것을 특징으로 하는 주제 적응 품사 태깅 시스템.

제 1항에 있어서, 상기 사전저장부는,

상기 새로운 언어사전에 포함된 주제별 언어사전 내의 단어에 더 높은 가중치가 부여되어 특정 주제에 따른 단어의 적용시 상기 일반 언어사전 내의 단어보다 우선적으로 사용되는 것을 특징으로 하는 주제 적응 품사 태깅 시스템.

제 1항에 있어서, 상기 주제분류부는,

상기 사전저장부에 저장된 상기 새로운 언어사전 내의 주제별 언어사전의 주제와 다른 주제의 단어가 입력되는 경우 상기 다른 주제에 해당하는 주제별 언어사전으로의 변경 정보를 상기 사전저장부로 전송하는 것을 특징으로 하는 주제 적응 품사 태깅 시스템.

자연어 처리에서 입력된 문장의 주제에 따른 단어의 품사를 할당하는 주제 적응 품사 태깅 방법에 있어서,

입력된 문장 내의 단어에 대해 품사 태깅을 실시하는 단계;

상기 품사 태깅된 단어 중에서 특정 주제의 단어가 존재하는지를 검사하여 해당 단어를 주제별로 분류하는 단계;

상기 주제별로 분류된 상기 단어가 포함된 주제별 언어사전과 일반 언어사전을 합하여 새로운 언어사전을 생성하는 단계; 및

상기 새로운 언어사전을 이용하여 상기 입력된 문장 내의 단어에 대한 품사 태깅을 재차 실시하는 단계를 포함하는 것을 특징으로 하는 주제 적응 품사 태깅 방법.

제 6항에 있어서, 상기 새로운 언어사전은,

상기 언어사전 내의 주제별 언어사전의 주제와 다른 주제의 단어가 입력되면 상기 단어의 주제에 해당하는 주제별 언어사전으로 변경되는 것을 특징으로 하는 주제 적응 품사 태깅 방법.

제 6항에 있어서, 상기 품사태깅을 재차 실시하는 단계는,

상기 새로운 언어사전에 포함된 주제별 언어사전 내의 단어에 더 높은 가중치가 부여되어 특정 주제에 따른 단어의 적용시 상기 일반 언어사전 내의 단어보다 우선적으로 사용되는 것을 특징으로 하는 주제 적응 품사 태깅 방법.

제 8항에 있어서,

상기 가중치는 상기 주제별 언어사전의 단어가 적용될 확률값의 합인 것을 특징으로 하는 주제 적응 품사 태깅 방법.

자연어 처리에서 입력된 문장의 주제에 따른 단어의 품사를 할당하는 주제 적응 품사 태깅 시스템에,

입력된 문장 내의 단어에 대해 품사 태깅을 실시하는 기능;

상기 품사 태깅된 단어 중에서 특정 주제의 단어가 존재하는지를 검사하여 해당 단어를 주제별로 분류하는 기능;

상기 주제별로 분류된 상기 단어가 포함된 주제별 언어사전과 일반 언어사전을 합하여 새로운 언어사전을 생성하는 기능; 및

상기 새로운 언어사전을 이용하여 상기 입력된 문장 내의 단어에 대한 품사 태깅을 재차 실시하는 기능을 실현하기 위한 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체.

说明书全文

주제 적응 품사 태깅 시스템 및 방법{A SYSTEM AND METHOD FOR TAGGING TOPIC ADOPTIVE POS(PART-OF-SPEECH)}

본 발명은 품사 태깅 시스템 및 방법에 관한 것으로, 특히 자연어 처리 과정에서 일반 언어사전과 주제별 언어사전을 통합하고 주제별 사전 내의 단어의 값을 높게 주어서 주제별 사전 내의 단어에 대한 태깅이 용이하게 함으로써 품사 태깅의 정확도를 향상시킬 수 있는 주제 적응 품사 태깅 시스템 및 방법에 관한 것이다.

차세대의 컴퓨터와 인간간의 의사 소통을 위한 인터페이스로 떠오르고 있는 음성 관련 기술은 비약적인 발전을 거듭하고 있다. 특히, 음성 인식에 대한 연구는 지난 40여년 동안 활발히 진행되어 왔으며 기술의 반전으로 인하여 그 발전속도는 보다 가속화되고 있다. 이와 더불어, 음성합성기술의 발달 또한 인간의 생활을 더욱 편리하게 변화시키고 있다.

이러한 음성 관련 기술과 관련하여 언어를 사용하는 시스템에서는 기본적으로 정확한 품사 태깅((part-of-speech)이 이루어져야 한다.

자연어 처리의 초기단계로 문장에서 사용되는 각 단어(형태소)의 어휘적 중의성 문제를 해결하는 품사 태깅은, 문장에 사용되는 단어의 원래 구조를 파악하고 문장 내의 단어(형태소)가 문맥에 따라 각 단어의 올바른 품사 정보를 할당하는 과정으로서, 음성합성, 음성인식, 자동인덱싱, 번역 및 통역 등에 필요하다. 예를 들어, 음성합성에서는 품사 태깅을 한 결과를 이용하여 운율, 발성음 등을 찾아내며, 음성 인식에서는 단어인식, 숫자음 인식 등에는 상기 품사 태깅의 결과가 사용되지는 않지만 연속 음성을 인식하기 위해서는 어절별로 인식하기에는 그 단위가 너무 크기때문에 그 한단계 아래인 형태소 인식을 위해서 사용되어 진다. 또한, 번역 및 통역에서는 상기 품사 태깅을 근거로 구문분석, 문서요약, 의미분석을 해서 번역 및 통역을 한다. 나아가, 자동인덱싱에서는 여러개의 문서에서 키워드를 추출하는과정에서 품사 태깅이 필요하다.

일반적으로 품사 태깅에는 크게 통계 기반 접근 방법(Statistical Approach)과 규칙 기반 접근방법(Rule-Based Approach), 그리고 통계 기반 접근방법과 규칙 기반 접근방법을 통합한 통합 접근방법(Hybrid Approach)으로 구분할 수 있다.

상기 통계 기반 품사 태깅 방법은 실세계의 자연어 용례들과 부속 정보를 포함하는 원시 또는 태깅된 코퍼스를 분석하고 자연어에 대한 통계 정보를 추출하여 얻는 확률을 이용하여 자연어 처리의 중의성 문제를 확률적으로 해결하는 방법이다. 통계 기반 품사 태깅 방법은 크게 어휘 확률만을 이용하는 방법, HMM(Hidden Markov Model)의 자율 학습을 이용하는 방법, N-gram의 문맥 확률과 어휘 확률을 이용하는 방법으로 분류할 수 있고, 이 밖에도 신경망을 이용하는 방법, 퍼지망을 이용하는 방법 등이 있다. 그러나, 상기 방법은 거의 모든 언어 현상에 적용할 수 있지만, 실세계 언어 현상을 충분히 대표할 수 있는 양과 질의 코퍼스가 존재하지 않아 데이터 부족 문제로 인해 정확도가 저하된다.

한편, 규칙 기반 품사 태깅 방법은 자연어에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고 이를 이용하여 자연어 처리의 중의성 문제를 해결하는 것으로서, 다르게는 지식 기반 방법(Knowledge-Based Approach) 또는 제약 기반 접근 방법(Constraint-Based Approach)이라고도 한다. 상기 방법은 규칙이 적용될 수 있는 현상에 대해서는 높은 정확도를 보이나, 일관성 있는 결정적 규칙을 얻기가 어렵고 많은 규칙들을 잘 제어하기가 쉽지 않아 일반적으로 견고하지 못하다.

최근에는 사용가능해진 대량의 원시 코퍼스 및 태깅된 코퍼스의 구축과 컴퓨터 성능 향상에 힘입어 태깅 규칙을 자동으로 학습하고자 하는 연구가 활발히 진행되고 있다.

한편, 통합 접근 품사 태깅 방법은 대량의 데이터에서 추출한 확률 및 통계 정보와 언어 지식을 모두 이용함으로써 통계 기반 접근 방법과 규칙 기반 접근 방법의 장단점을 상호 보완하고자 하는 방법이다.

대한민국 특허출원 제1997-58986호에 개시된 음성인식 시스템은, 각 주제별로 각 단어로 이루어진 복수개의 사전을 구비하고 사전변환정보에 의해 복수개의 사전 중에서 특정 주제에 대한 단어가 포함된 한 개의 사전만을 선택하여 음성을 인식하도록 하는 것이다.

또한, 미국특허 제6,167,377호에 개시된 음성인식 시스템은, 여러 개의 언어 모델에서 동시에 인식을 실행한 후 최적의 결과값을 계산하는 것을 나타내고 있다.

그러나, 상기와 같이 종래에는 음성인식 시스템은 음성인식시 하나의 사전을 이용하거나 여러 개의 언어 모델을 동시에 사용하여 음성 인식률을 향상시키는 시스템 및 방법을 개시하고 있으나, 상기 음성 인식을 위한 품사 태깅시의 언어사전 사용에 관한 내용은 기재되지 않았다.

나아가, 품사 태깅 방법의 한 예로서, 대한민국 특허출원 제1998-37168호에는 상태 기반 품사 태깅법과 경로 기반 품사 태깅법을 병합하여 품사 태깅을 함으로써 품사 태깅의 정확률을 향상시킨 품사 태깅 시스템 및 방법이 개시되어 있다. 그러나, 품사 태깅시 여러 개의 사전을 통합하여 활용하는 방법은 기재되지 않았다. 특히, 상기와 같은 종래의 품사 태깅 시스템 및 방법에서는 특정 분야의 문장이 입력될 때 그 분야의 독특한 용어들을 품사 태깅하지 못하였으며 품사 태깅을 하더라도 그 정확률이 낮았다. 특히, 특정 분야의 단어와 일반 사전의 단어들이 비슷하면 일반 사전의 단어들이 항상 높은 빈도로 나타나 항상 높은 값을 가지고 있으므로 일반 사전의 단어로 오인식하는 경우가 많았다. 더구나, 특정 분야의 사전만을 구성한다면 그 외의 다른 분야에서는 적용하기가 어려웠다.

본 발명은 상기한 문제점을 해결하기 위한 것으로서, 일반 사전에 주제별 사전을 추가함으로써 일반 및 주제별 품사 태깅의 정확률을 향상시키는 주제 적응 품사 태깅 시스템 및 방법을 제공하는 것을 목적으로 한다.

도 1은 본 발명에 따른 주제 적응 품사 태깅 시스템의 구조를 나타내는 블럭도이다.

도 2는 본 발명에 따른 일반 언어사전 및 주제별 언어사전의 일예를 나타내는 도면이다.

도 3은 본 발명에 따른 사전저장부에서 일반 언어사전과 주제별 언어사전으로부터 새로운 언어사전의 생성을 보이는 개념도이다.

도 4는 본 발명에 따른 주제 적응 품사 태깅 방법을 보이는 플로우차트이다.

* 도면의 주요 부분에 대한 부호의 설명 *

1 : 문장입력부 2 : 품사태깅부

3 : 주제분류부 4 : 사전저장부

5,6 : 제1, 제2 저장부 7 : 품사태깅결과 출력부

상기 목적을 달성하기 위한 구성수단으로서의 본 발명은, 자연어 처리에서 입력된 문장의 주제에 따른 단어의 품사를 할당하는 주제 적응 품사 태깅 시스템에 있어서,

일반언어를 포함하는 적어도 하나의 일반 언어사전을 저장하는 제1 저장부;

특정언어를 포함하며 주제별로 구분된 복수개의 주제별 언어사전을 저장하는 제2 저장부;

상기 일반 언어사전 및 상기 주제별 언어사전을 이용하여 입력되는 단어에 품사 태깅을 실행하는 품사태깅부;

상기 품사 태깅이 실행된 상기 입력된 문장의 단어의 주제어를 검색하여 주제별로 분류하는 주제분류부; 및

상기 주제분류부에 의해 분류된 주제어에 해당하는 주제별 언어사전과 상기 일반 언어사전이 입력되어 새로운 언어사전을 생성하고 저장하는 사전저장부를 포함하여, 상기 새로운 언어사전을 이용하여 입력되는 단어의 품사 태깅을 실행하는 것을 특징으로 한다.

또한, 상기 목적을 달성하기 위한 다른 구성수단으로서의 본 발명은, 자연어 처리에서 입력된 문장의 주제에 따른 단어의 품사를 할당하는 주제 적응 품사 태깅 방법에 있어서,

입력된 문장 내의 단어에 대해 품사 태깅을 실시하는 단계;

상기 품사 태깅된 단어 중에서 특정 주제의 단어가 존재하는지를 검사하여 해당 단어를 주제별로 분류하는 단계;

상기 주제별로 분류된 상기 단어가 포함된 주제별 언어사전과 일반 언어사전을 합하여 새로운 언어사전을 생성하는 단계; 및

상기 새로운 언어사전을 이용하여 상기 입력된 문장 내의 단어에 대한 품사 태깅을 재차 실시하는 단계를 포함한다.

일반적으로 품사 태깅을 실행하는 경우, 입력된 문장 내에 특정 분야의 단어가 포함되어 있으면 그 특정 분야의 문장 속에는 일반 단어와 유사한 특정 단어가 포함되어 있고 상기 특정 단어보다 일반 단어에 더 높은 값을 부여하기 때문에 정확한 품사 태깅이 어려워진다.

본 발명에서는 특정 분야의 단어가 포함되는 문장 내에서의 그 주제에 맞는단어의 언어사전을 사용함으로써 정확한 품사 태깅할 수 있는 주제 적응 품사 태깅시스템 및 방법을 제공한다. 일반 단어는 일반 언어사전 내에 구성 및 저장되고 특정 분야의 단어는 주제별로 분류된 주제별 언어사전 내에 구성 및 저장하며, 해당 특정 분야의 단어가 어느 주제에 속하는지를 검색하여 상기 단어가 속하는 주제별 언어사전을 분류하여 상기 일반 언어사전과 상기 분류된 주제별 언어사전을 통합하여 새로운 구성의 언어사전을 생성, 저장하며 상기 새로운 언어사전을 이용하여 일반 언어사전의 단어보다 주제별 언어사전의 단어에 더 높은 값을 부여함으로써 품사 태깅의 정확률을 향상시키는 시스템 및 방법에 관한 것이다.

이하, 도면을 참조하여 본 발명에 따른 주제 적응 품사 태깅 시스템 및 방법을 보다 상세하게 설명한다.

도 1은 본 발명에 따른 주제 적응 품사 태킹 시스템을 나타내는 구성도이다. 도 1에 도시된 바와 같이, 본 발명에 따른 주제 적응 품사 태깅시스템은 문장입력부(1), 품사 태깅부(2), 주제분류부(3), 사전저장부(4), 제1 저장부(5), 제2 저장부(6) 및 태깅결과 출력부(7)로 구성된다.

문장입력부(1)를 통해 품사 태깅을 위한 문장 등을 입력된다. 상기 문장의 입력은 다양한 형태로 구현될 수 있는데, 이미 만들어져 있는 텍스트 형식으로 입력될 수도 있고 키보드를 이용하여 실제 문장을 입력할 수도 있다.

제1 저장부(5)에는 일반적인 단어들로 이루어진 일반 언어사전이 저장되어 있다. 상기 일반 사전은 기본적으로 품사 태깅에 필요한 사전으로서 품사 태깅 방법에 따라 사전의 구성에서 다소 차이가 난다. 즉, 통계 기반 접근 방법에서는 형태소, 형태소의 범주, 연결 형태에 대한 빈도 정보 등이 상기 일반 사전의 구성이 될 것이고, 규칙 기반 접근방법에서는 상기 통계 기반 접근 방법에서의 사전 구성에다 소정의 규칙들이 추가되어 상기 일반 사전이 구성될 것이다. 또한, 통합 접근방법에서는 상기 두 가지의 사전들을 합한 것이 될 것이다.

제2 저장부(6)는 상기 제1 저장부(5)외에 특정 분야의 단어들로 이루어진 복수개의 주제별 언어사전이 저장되어 있다. 예를 들어, '정치'라는 주제별 언어사전에는 '투표', '선거', '국회' 등과 같이 정치와 관련된 단어들이 저장되어 있으며, '경제'라는 주제별 언어사전에는 '주식', '금리', '통화', '인플레' 등과 같이 경제와 관련된 단어들이 저장되어 있다. 상기 제2 저장부(6)도 상기 설명한 제1 저장부(5)와 마찬가지로 품사 태깅 방법에 따라 그 구성이 필요할 것이다.

품사태깅부(2)는 상기 문장입력부(1)로부터 입력된 문장에 대하여 기설정된 사전저장부(4)를 이용하여 품사 태깅을 실행한다. 예를 들어, '나는 사람이다' 라는 문장이 입력되면 품사태깅부(2)는 '나'를 인칭대명사로 '는'은 조사 등으로 각각의 단어에 대한 품사를 할당하게 된다. 이때, 상기 사전저장부(4)에는 상기 각각의 단어들에게는 그에 따른 품사가 설정되어 있다. 상기 품사태깅부(2)에서 실행하는 품사 태깅 방법은 여러 가지로 실행될 수 있다. 이미 설명한 통계 기반 접근 방법, 규칙 기반 접근 방법 및 통합 접근 방법 등 모두 사용이 가능하다.

주제분류부(3)는 상기 품사태깅부(2)에서 품사 태깅된 단어들의 태깅 결과를 이용하여 상기 문장 내에 포함된 특정 단어들이 속하는 주제별로 분류한다. 즉, 문장입력부(1)로부터 문장이 입력되면 상기 품사태깅부(2)는 우선 제1 저장부(5)의일반 언어사전을 기초로 하여 상기 문장 내의 각 단어들에 대한 품사 태깅을 실행하지만 상기 문장 중에 상기 제1 저장부(5)의 일반 언어사전에 포함되지 않는 단어가 존재하는 경우 상기 주제분류부(3)는 그 단어를 주제별로 분류한 후 상기 단어가 포함된 제2 저장부(6)의 주제별 언어사전을 검색하여 상기 일반 언어사전과 함께 사전저장부(4)에 저장한다. 여기서, 상기 제2 저장부(6)의 주제별 언어사전을 검색하여 그 검색결과가 상기 단어가 기존에 설정된 주제별 언어사전에 포함되어 있지 않은 경우에는 상기 기존의 주제별 언어사전이 변경되어야 한다는 정보를 사전저장부(4)로 전달한다.

도 2에는 상기 제2 저장부(6)에 저장된 상기 주제별 언어사전에 대한 일예를 도시한 것이다. 도 2에 도시된 바와 같이, 상기 제2 저장부(6)는 복수개의 주제별 언어사전을 저장하고 있다. 상기 주제별 언어사전은 도면에 도시된 것에 한정되는 것이 아니며 다양한 방법으로 제작될 수 있다.

또한, 상기 주제별 언어사전에는 주제별로 많은 단어들이 포함되어 있다. 앞서 설명한 바와 같이, '스포츠'에 대한 주제별 언어사전에는 '홈런','안타' '골인' 등 스포츠와 관련된 단어들이 포함되어 있을 것이다. 그러나, 상기와 같이 상기 주제는 임의로 설정이 가능하며 또한, 주제별로 분류하는 방법은 여러 가지 형태로 실현될 수 있을 것이다.

이러한, 주제 분류 방법으로는 시소러스(thesaurus)를 이용하는 방법과 상호정보(MI:Mutual Information)를 이용하는 방법이 이용된다.

시소러스는 단어와 단어 사이의 관계에 대한 정보를 나타낸다. 단어와 단어사이의 관계란 단어들 사이의 상위개념이나 하위개념을 나타내는 것으로서, 본 발명에 따른 주제분류부(3)에서는 이러한 단어의 관계를 망구조로 표시한다. 예를 들면, '경제'라는 주제별 언어사전에는 '경제'-'주식'-'주가'-'금리'-'통화'-'인플레' 라는 특정 단어들이 망구조로 구성되는데, 이때 각각의 단어는 '경제'와 상관관계가 상대적으로 큰 단어는 가까이 위치하고 상관관계가 상대적으로 작은 단어는 더 멀리 위치하게 된다. 이러한 주제별 언어사전의 구성은 다른 사전들(정치, 스포츠, 날씨 등)에게도 동일하게 적용할 수 있다.

상호정보(MI)에 의한 주제 분류는 형태소 뭉치(morpheme corpora)에 포함된 단어와 단어들 사이의 상호관계를 수치로 계산한 것이다. 상기한 상호관계는 하기 수학식 1에 기초하여 계산된다.

[수학식 1]

여기서, P는 확률, x,y는 각각 형태소를 나타낸다.

즉, x라는 단어와 y라는 단어들이 각각 나타날 확률에 대한 x단어와 y단어가 동시에 나타날 확률이 상호정보(MI)이다.

상기 수학식 1에 도시된 바와 같이, 각 단어들은 서로 통계적인 관계를 갖기 때문에 주제별 언어사전에는 단어들간의 통계적(확률적)으로 밀접한 관계를 갖는 단어들이 분류되어 저장된다.

사전저장부(4)는 상기 제1 저장부(5)의 일반 언어사전을 기본으로 하나, 상기 주제분류부(3)에서 분류된 주제별 언어사전과 상기 일반 언어사전을 통합하여 새로운 구성의 언어사전을 생성, 저장한다. 다시 말하면, 입력된 문장 내의 단어의 품사 태깅 결과에 기초하여 상기 단어에 대한 주제별 언어사전이 분류되면 상기 분류된 주제별 언어사전과 상기 일반 언어사전이 상기 사전저장부(4)에 입력되어 새로운 언어사전을 생성하고 이를 저장한다. 예를 들어, 주제별 언어사전 중 '정치' 언어사전에 '정당', '투표', '선거' 등의 단어들이 포함되어 있는 경우에, 입력된 문장 내에 '정당'이라는 단어가 포함되어 있다면 상기 주제분류부(3)는 제2 저장부(6)의 복수개의 주제별 언어사전 중에서 상기 '정당'을 검색하여 상기 '정당'이 포함되는 '정치' 언어사전을 선택하며 상기 선택된 '정치' 언어사전과 일반 언어사전이 상기 사전저장부(4)로 입력된다. 이어, 상기 사전저장부(4)는 상기 두 언어사전이 통합된 새로운 구성의 언어사전을 생성하고 이를 저장한다. 이때, 상기 제2 저장부(6)의 주제별 언어사전의 값을 높게 부여하여 특정 주제에 대한 인식률을 높게 한다.

또한, 상기 사전저장부(4)는 상술한 바와 같이 입력되는 단어에 대한 주제별 언어사전과 일반 언어사전을 통합하여 새로운 언어사전을 생성, 저장하고, 계속하여 입력되는 문장 속에서 상기한 기존 단어와는 주제가 다른 제2 단어가 입력되면 상기 주제분류부(3)는 품사 태깅된 상기 제2 단어에 해당하는 주제를 분류하여 기존에 상기 사전저장부(4)에 저장된 주제별 언어사전의 주제와 동일한지를 판단한다. 상기 판단결과 분류된 상기 제2 단어의 주제와 상기 사전저장부(4)에 기저장된 주제별 언어사전의 주제와 다른 경우에는 상기 주제별 언어사전이 변경되어야 한다는 정보를 상기 사전저장부(4)로 전달하고 이어, 상기 사전저장부(4)는 일반 언어사전과 상기 제2 단어를 포함하는 주제별 언어사전을 통합하여 새로운 언어사전을 생성하고 이를 저장하게 된다.

도 3은 상기한 사전저장부(4)의 새로운 언어사전의 생성과정에 따른 일실시예를 도시한 개념도이다. 상기한 예에서와 같이, 도 3에서는 입력된 단어가 '정당'인 경우를 예를 든 것이다. 도 3을 참조하면, 입력된 '정당'이라는 단어에 대하여 주제분류부(3)는 상기 단어의 주제를 분류하고 상기 단어를 포함하는 '정치'언어사전을 선택하며 상기 사전저장부(4)는 상기 '정치'언어사전과 일반 언어사전을 통합하여 새로운 구성의 언어사전을 생성하고 이를 저장한다.

따라서, 상기 사전저장부(4)는 입력되는 문장의 단어에 따라서 계속해서 새로운 구성의 언어사전을 생성하고 저장하게 되며 RAM(Random Access Memory) 등과 같은 저장수단으로 이루어진다.

상기 새로운 언어사전에 포함되는 주제별 언어사전과 일반 언어사전의 각 단어들에는 각각 일정한 값(가중치)이 부여된다. 이 때, 상기 일반 언어사전의 단어들보다 상기 주제별 언어사전의 단어들에게 더 높은 가중치를 부여함으로써 특정 분야의 주제에 대한 단어가 일반적인 단어와 유사한 경우 상기 더 높은 가중치가 부여된 상기 주제별 언어사전의 단어에 대한 품사 태깅이 용이하게 되어 정확한 품사 태깅이 이루어진다.

상기와 같이 새로이 생성되어 저장되는 사전저장부(4)의 언어사전을 기초로 문장입력부(1)로부터 입력되는 단어들을 품사태깅부(2)에서 품사 태깅을 실행한다.상기 품사 태깅된 결과는 품사태깅결과 출력부(7)를 통해 출력된다. 상기 품사태깅결과 출력부(7)는 다양하게 구현될 수 있으며, 디스플레이 장치, 프린터 또는 기타 출력장치 등을 포함한다.

상기한 구성으로 이루어진 품사 태깅 시스템의 품사 태깅 방법을 설명한다.

도 4는 본 발명에 따른 품사 태깅 방법을 나타내는 플로우차트이다. 도 4에 도시된 바와 같이, 품사 태깅을 위해 문장입력부(1)로부터 문장이 입력되면(S101), 품사태깅부(2)는 기존의 사전저장부(4)에 저장된 언어사전을 이용하여 상기 입력된 문장 내의 단어들에 대한 품사 태깅을 실행한다(S102).

주제분류부(3)는 상기 품사태깅부(2)에서 단어의 품사 태깅 결과를 기초로 상기 입력된 문장 내에 특정 주제의 단어가 존재하는지를 판단한다(S103). 상기 단계(S103)에서 상기 입력된 문장 내에 특정 주제의 단어가 존재하지 않는 것으로 판단되면 상기 단계(S102)에서 상기 기존의 사전저장부(4)의 일반 언어사전을 이용하여 이미 품사 태깅을 실행하였으므로 다른 품사 태깅 과정없이 종료된다. 그러나, 상기 단계(S103)에서 상기 입력된 문장 내에 특정 주제의 단어가 존재하는 것으로 판단되면 주제분류부(3)는 상기 단어의 주제를 분류하여 상기 주제에 해당하는 주제별 언어사전을 검색한다(S104).

이때, 상기 주제분류부(3)에서 시소러스를 이용하는 방법에 의해 주제를 분류하는 경우에 상기 주제분류부(3)는 단어와 단어사이의 거리를 이용하여 입력된 문장의 단어가 포함되는 주제별 언어사전을 검색하게 된다. 즉, 입력된 단어와의 상관관계가 큰 단어는 가까운 곳에 위치하고 상관관계가 작은 단어는 멀리 위치하도록 하고, 입력된 문장의 단어와 각 주제별 언어사전의 주제어와의 거리를 측정하여 가장 가까운 위치의 주제어를 검출함으로써 상기 단어가 상기 주제어에 해당하는 주제별 언어사전에 포함됨을 판단하게 된다. 이로써, 상기 주제분류부(3)는 상기 단어를 해당하는 주제로 분류하고 상기 주제에 해당하는 주제별 언어사전을 선택하게 된다.

또한, 상기 주제분류부(3)에서 상호정보(MI)를 이용하는 방법에 의해 주제를 분류하는 경우 주제별 언어사전에 포함된 단어들 사이의 통계학적인 계산값에 의해 해당 단어의 주제별 언어사전을 판단하게 된다.

계속하여, 상기와 같이 해당 단어에 대한 주제를 분류한 후, 상기 단어를 포함하는 주제별 언어사전을 검색하여 상기 해당 주제별 언어사전이 존재하는지 판단한다(S105). 상기 단계(S105)에서 상기 해당 주제별 언어사전이 존재하지 않는 것으로 판단되면 상기 단계(S102)에서 상기 기존의 사전저장부(4)에 저장된 언어사전을 이용하여 실행한 품사 태깅을 실행한 것으로서 품사 태깅은 종료된다. 그러나, 상기 단계(S105)에서 상기 해당 주제별 언어사전이 존재하는 것으로 판단되면 상기 해당 주제별 언어사전과 일반 언어사전이 입력되어 통합된 새로운 언어사전이 생성 및 저장된다(S106).

이어, 상기 새로운 언어사전을 이용하여 품사태깅부(2)에서는 입력되는 문장의 단어에 대해 품사 태깅을 실시하게 된다(S107). 이상의 과정은 입력되는 단어에 따라 계속적으로 반복 실행된다.

한편, 상기 새로이 생성되어 저장된 언어사전은, 상기 언어사전에 포함된 주제별 언어사전의 주제와 다른 주제어에 해당하는 단어가 입력되는 경우에는 상기 다른 주제에 해당하는 주제별 언어사전이 선택되어 다시 일반 언어사전과 상기 선택된 주제별 언어사전이 입력되고 다시 새로운 언어사전이 생성 및 저장된다.

즉, 입력된 단어에 대한 품사 태깅 후, 주제분류부(3)는 현재 입력되는 단어의 주제가 이전의 주제와 같은지를 검색하여 동일한 주제인 경우에는 이미 설정되어 있는 이전의 주제별 언어사전이 포함된 언어사전을 이용하여 품사를 태깅하도록 하지만, 현재 입력된 단어의 주제와 이전의 주제와 다른 경우에는 상기 주제분류부(3)는 현재 입력된 단어의 주제와 이전의 주제가 다르다는 정보를 상기 사전저장부(4)로 전송하고 상기 사전저장부(4)에 상기 현재 입력된 단어의 주제에 해당하는 주제별 언어사전과 일반 언어사전이 입력되어 새로운 구성의 언어사전이 생성 및 저장된다. 이어, 상기 새로이 생성 및 저장된 언어사전을 이용하여 품사 태깅을 실행한다.

상기한 바와 같이, 상기 생성된 새로운 언어사전에 포함되는 일반 언어사전과 주제별 언어사전 중에서 주제별 언어사전에 더 높은 가중치가 부여된다. 이로써, 특정 분야의 단어들이 사용될 때, 입력되는 단어들에 대한 품사 태깅은 가중치가 더 높은 상기 주제별 언어사전을 적용하여 우선적으로 해당 단어를 선택함으로써 품사 태깅을 실시하도록 한다. 다시 말해서, 일반 언어사전과 주제별 언어사전이 입력되어 새로운 언어사전이 생성되고 품사태깅부(2)는 상기 새로운 언어사전을 이용하여 품사 태깅을 실행한다. 이때, 입력되는 단어들이 상기 생성된 새로운 언어사전 내의 주제별 언어사전에 포함된 특정 분야의 단어들이라면 계속해서 동일한주제의 단어들이 입력될 확률이 높을 것이다. 이와 같은 경우, 입력되는 단어의 품사 태깅은 일반 언어사전의 단어보다는 주제별 언어사전의 단어를 선택하여 품사를 태깅함으로써 전체적으로는 더 높은 정확률을 가진 품사 태깅이 이루어질 것이다.

이것은 결국 특정 분야의 문장에 대한 단어의 품사 태깅시 상기 특정 분야의 해당 주제에 대응하는 단어에 더 높은 적용 확률을 부가함으로써 품사 태깅에서 상기 주제별 언어사전의 단어를 우선적으로 적용하기 위한 것이며 이로써 더 정확한 품사 태깅이 실행된다. 예를 들어, '진주'는 보통명사로도 사용되고(보석이름), 고유명사로도 사용된다(지명이름). 그런데, 입력된 문장의 주제가 '지역'에 관한 것인데 보석이름의 보통명사 '진주'가 나올 확률보다는 지역이름의 고유명사 '진주'가 나올 확률이 매우 높다. 이와 같이, 상기와 같은 경우는 주제별로 분석했을 때 확실히 구분이 되는 것이다. 즉, 특정 주제에 대한 문장이 입력되는 경우 그 주제에 해당하는 주제별 언어사전에 더 높은 가중치를 부여하여 상기 가중치가 높은 주제별 언어사전을 적용하는 것이 품사 태깅의 정확성이 향상될 것이다.

상술한 바와 같이, 특정분야의 주제에 대한 문장이 입력되는 경우 주제별 사전의 적용 확률이 높으므로 상기 주제별 언어사전에 더 높은 가중치를 두는 것이 바람직하다. 여기서, 상기 확률값은 언어사전에 포함된 단어들의 적용확률값이며 이를 모두 더하면 1이 되므로 일반 언어사전의 확률값을 다 더하면 1일 것이고 주제별 언어사전의 값을 다 더하면 1이 될 것이다.

또한, 새로운 언어사전을 생성한 경우에도 상기 새로운 언어사전의 확률값도 모두 더하면 1이 될 것이다. 이와 같은 경우에, 가중치는 상기 일반 언어사전과 상기 주제별 언어사전을 통합하여 새로운 언어사전을 생성할 때, 상기 새로운 언어사전을 만들기 위한 단어가 나타날 확률을 달리 부여하는 것이다. 상기 가중치의 부여방법은 다양하게 실시될 수도 있으나, 본 발명의 일실시예에서는 하기와 같이 설정하는 것이 바람직하다. 즉, 상기 새로운 언어사전에 포함된 일반 언어사전과 주제별 언어사전의 확률값을 다 더한 값이 각각 0.5가 되도록 가중치를 부여한다면 상기 일반 언어사전과 상기 주제별 언어사전에 포함되는 단어들이 동일한 적용 확률을 가지게 되므로 품사 태깅시 정확도가 떨어지게 된다. 그러므로, 일반 언어사전의 확률값을 다 더해서 0.4가 되고 주제별 언어사전의 값을 다 더해서 0.6이 되게 하고 상기 0.4와 0.6을 각각 상기 일반 언어사전 및 상기 주제별 언어사전의 가중치로 설정한 후, 상기 일반 언어사전의 확률값에 상기 가중치 0.4를 곱하고 상기 주제별 언어사전의 확률값에 상기 가중치 0.6을 곱하여 상기 주제별 언어사전이 품사 태깅시 적용되는 확률이 높도록 더 큰 중요도를 부가한다. 이로써, 상기 특정 분야의 문장에 대한 품사 태깅시 상기 분야의 주제에 대응하는 단어에 더 높은 적용확률을 부여함으로써 상기 주제에 대응하는 주제별 언어사전을 우선적으로 적용하여 품사 태깅의 정확도를 향상시킬 수 있게 된다. 상기한 가중치 부여방법은 본 발명을 설명하기 위한 바람직한 일실시예에 불과하며 다양한 방법으로 부여할 수도 있다..

본 발명의 상세한 설명 및 도면에는 본 발명을 설명하기 위한 일실시예를 개시하고 있지만 본 발명의 품사 태깅 시스템 및 방법은 분야별로 다양하게 제작, 실시될 수 있다. 또한, 특정 주제어도 주제별 언어사전에 포함될 수도 있다. 따라서, 상기한 일실시예는 본 발명의 권리범위를 한정하는 것이 아니며 본 발명의 권리의 범위는 첨부한 청구범위에 의해 결정되어야만 할 것이다.

상기한 바와 같이, 본 발명에 따른 주제 적응 품사 태깅 시스템 및 방법에서는 입력되는 문장 내의 단어들은 특정 주제별로 분류하고 상기 주제에 해당하는 주제별 언어사전과 일반 언어사전을 통합한 언어사전을 이용함으로써 상기 문장의 주제에 따른 단어의 품사 태깅의 정확도를 향상시킬 수 있게 된다. 또한, 상기 통합한 언어사전에서 상기 일반 언어사전 내의 단어들보다 상기 주제별 언어사전 내의 단어들에게 가중치를 더 높이 부여함으로써 상기 주제별 사전 내의 단어에 대한 품사 태깅이 용이하고 이로서 성능이 높은 품사 태깅이 실현되는 것이다.

标题	发布/更新时间	阅读量
基于深度问答的答案检索方法及装置	2020-05-13	567
一种智能文本处理方法、装置、电子设备及存储介质	2020-05-11	5
一种针对电力巡检文本的错误识别方法	2020-05-11	765
一种处理文本的方法和装置	2020-05-12	181
一种电商产品竞争分析方法及系统	2020-05-14	221
基于物理距离和语义距离的双向LSTM模型的构建方法	2020-05-08	713
一种面向金融事件的混合型因果关系发现方法	2020-05-11	513
基于XML的领域要素提取配置语言系统	2020-05-08	55
一种公司形象提升系统的社交网络数据提取方法及系统	2020-05-11	985
一种基于大数据的国防科技热词发现方法及系统	2020-05-08	800

주제 적응 품사 태깅 시스템 및 방법

주제 적응 품사 태깅 시스템 및 방법{A SYSTEM AND METHOD FOR TAGGING TOPIC ADOPTIVE POS(PART-OF-SPEECH)}

该功能需要专业版企业版VIP权限，您可以：