통계 기반 케이-베스트 품사 태깅 장치 및 방법专利检索-词性标注人工智能专利检索查询-专利查询网

통계 기반 케이-베스트 품사 태깅 장치 및 방법

阅读：416发布：2021-10-24

专利汇可以提供통계 기반 케이-베스트 품사 태깅 장치 및 방법专利检索，专利查询，专利分析的服务。并且PURPOSE: A K-best part-of-speech tagging apparatus and method based on a statistics is provided, which performs a part-of-speech tagging using a state-based part-of-speech tagging. CONSTITUTION: The K-best part-of-speech tagging apparatus comprises: a state-based part-of-speech tag (100) for performing a part-of-speech tagging using an instant optimum reference to each character in a phrase; a path-based part-of-speech tag (102) for performing a part-of-speech tagging using a Viterbi algorithm according to a global optimum reference to each character in a phrase; and a post-processing unit (104) for combining the part-of-speech tagging result of the state-based part-of-speech tag (100) and the part-of-speech tagging result of the path-based part-of-speech tag (102). Thereby, it is possible to decrease the cost and effort required to the construction of a part-of-speech tagging rule.，下面是통계 기반 케이-베스트 품사 태깅 장치 및 방법专利的具体信息内容。

权利要求

통계 기반 케이-베스트 품사 태깅 장치에 있어서,

원시 코퍼스로부터 형태소 분석된 문장에서 각 단어에 대해 소정의 상태 기반 품사 태깅법을 이용하여 품사 태깅을 수행하는 상태 기반 품사 태거;

상기 형태소 분석된 입력 문장에서 각 단어에 대해 소정의 경로 기반 품사 태깅법을 이용하여 품사 태깅을 수행하는 경로 기반 품사 태거; 및

상기 상태 기반 품사 태깅된 결과와 상기 경로 기반 품사 태깅된 결과를 병합하고, 병합된 결과에서 두가지의 품사를 할당받은 특정 단어의 부적합 품사를 제거하거나 적합 품사를 할당하며, 한가지의 품사를 할당받더라도 오류된 태깅 결과를 정정하여 품사 태깅된 코퍼스를 얻는 후처리부를 구비하는 것을 특징으로 하는 통계 기반 케이-베스트 품사 태깅 장치.

제1항에 있어서, 상기 후처리부는,

소정의 휴리스틱 규칙을 이용하는 것을 특징으로 하는 통계 기반 케이-베스트 품사 태깅 장치.

제2항에 있어서, 상기 휴리스틱 규칙은,

적어도 상기 상태 기반 품사 태거와 상기 경로 기반 품사 태거의 결과를 분석하여 수작업으로 구축한 규칙과, 품사 태깅된 코퍼스를 분석하여 자동 추출한 신태그마 규칙을 구비하는 것을 특징으로 하는 통계 기반 케이-베스트 품사 태깅 장치.

통계 기반 접근법을 이용하여 원시 코퍼스로부터 품사 태깅된 코퍼스를 얻는, 통계 기반 케이-베스트 품사 태깅 방법에 있어서,

상기 원시 코퍼스로부터 형태소 분석된 입력 문장에서 각 단어에 대해 상기 통계 기반 접근법에 속하는 상태 기반 품사 태깅법 및 경로 기반 품사 태깅법 각각에 따른 태깅을 각각 수행하는 품사 태깅 단계;

두가지 품사 태깅 결과를 병합하는 병합 단계; 및

병합된 결과에서 두가지의 품사를 할당받은 특정 단어의 부적합 품사를 제거하거나 적합 품사를 할당하며, 한가지의 품사를 할당받더라도 오류된 태깅 결과를 정정하여 품사 태깅된 코퍼스를 얻는 후처리 단계를 구비하는 것을 특징으로 하는 케이-베스트 품사 태깅 방법.

제4항에 있어서, 상기 후처리 단계는,

소정의 휴리스틱 규칙을 이용하는 것을 특징으로 하는 케이-베스트 품사 태깅 방법.

제5항에 있어서, 상기 휴리스틱 규칙은,

적어도 상기 상태 기반 품사 태거와 상기 경로 기반 품사 태거의 결과를 분석하여 수작업으로 구축한 규칙과, 품사 태깅된 코퍼스를 분석하여 자동 추출한 신태그마 규칙을 구비하는 것을 특징으로 하는 통계 기반 케이-베스트 품사 태깅 방법.

说明书全文

통계 기반 케이-베스트 품사 태깅 장치 및 방법

본 발명은 품사 태깅에 관한 것으로서, 특히 통계 기반 K-best 품사 태깅 장치 및 방법에 관한 것이다.

언어처리에 있어서, 문장에서 사용된 각 단어의 어휘적 중의성을 해결하는 품사 태깅(Part-of-speech tagging)은 형태소 해석 결과를 입력하여 각 단어에 올바른 품사를 결정하는 과정으로서, 구문 분석, 문서 요약, 기계 번역, 정보 검색, 사전 편찬학 등 언어 처리 분야에서 반드시 필요하다.

최근 품사 태깅의 정확률을 향상시키기 위한 많은 노력으로 영어권의 경우 97%~99%를 상회하는 품사 태거가 제안되었고, 한국어의 경우 95~97%의 정확률을 보이는 품사 태거가 제안되었다. 자연어 처리 시스템에서 품사 태깅 시스템의 역할은 각 단어의 불필요한 품사를 제거함으로써 많은 처리 시간을 요구하는 구문 분석의 부하를 감소시키고, 올바른 문장 분석이 이루어 질 수 있도록 지원하는 것이다. 따라서, 올바른 문장 분석을 위해서 높은 문장 단위의 정확률을 갖는 품사 태깅 시스템이 필요한데, 대부분의 품사 태깅 시스템의 정확률은 단어 단위로 평가된 것이며, 실제 구문 분석을 위하여 품사 태깅 시스템을 사용하려 할 경우 그리 좋지 않은 성능을 보인다. 예를 들어, 99%의 단어 단위의 높은 정확률을 보이는 품사 태깅 시스템으로 20단어로 이루어진 100문장을 분석한다고 가정하자. 이 경우, 품사 태깅 후 전체 20단어에 대한 오류가 발생할 것으로 생각할 수 있는데, 최악의 경우 20 단어에 대한 오류가 20 문장에 1번씩 분포되어 발생한다면, 20문장에 대한 문장 분석이 실패하여 80%(80문장/100문장 *100)의 정확률밖에 얻을 수 없게 된다.

자연어에는 어휘 단계의 정보로만으로는 해결하기 어려운 어휘 중의성을 갖는 단어들이 존재한다. 그러나 품사 태깅 시스템들은 주변 단어의 통계 정보나 단어 형태 또는 품사와 같은 어휘 단계의 언어 지식만을 이용하여 무리하게 각 단어에 품사를 할당하며, 이로 인하여 품사 태깅의 오류를 초래하게 된다. 따라서 정확한 문장 분석을 위해서는 어휘 중의성을 해소하기 어려운 단어에 하나의 품사를 할당하여 오류를 초래하게 하는 것보다 중의성을 해결할 수 있는 정보를 얻을 수 있는 구문 분석 단계까지 유보하는 것이 바람직하다. 그 경우 품사 태깅 후, 단어가 가지는 평균 중의성이 증가하여 구문 분석의 부하가 증가할 수 있으므로, 이를 최소화하면서 동시에 문장내 모든 단어가 올바른 품사를 포함할 수 있어야 한다.

품사 태깅시 완전한 중의성 해소가 힘든 경우에, 후보가 되는 2개 이상의 품사를 할당하는 품사 태거를 K-best 품사 태거라 한다. 이 때, K는 품사 태깅 이후 한 단어에 할당되는 평균 품사 개수를 의미한다. 한 단어 당 평균 중의성이 1이상인 품사 태깅을 수행하는 K-best 품사 태깅은 해결되지 않은 단어에 대한 중의성을 구문 분석등 중의성 해소에 필요한 정보의 사용이 가능한 과정에서 해결하도록 함으로써 문장 분석의 정확률을 향상시킬 수 있다. 뿐만 아니라, 이를 품사 태깅된 코퍼스 구축을 위한 전처리기로 사용할 경우, 적은 량의 수작업으로 높은 정확률을 보장할 수 있다. 만약 95%의 정확률을 보이는 품사 태거로 천만단어 크기의 코퍼스를 품사 태깅하고, 그 결과를 후처리하여 품사 태깅된 코퍼스를 구축한다고 가정할 경우, 5%의 오류에 해당하는 50만 단어의 오류를 수정하기 위해서 천만단어를 모두 검사하고, 수정하는 작업을 수행하여야 한다. 그러나 K-best 품사 태깅을 수행하여 99%이상의 정확률을 얻을 수 있다면, 하나 이상의 품사를 가지는 단어만 후처리하여 99%이상의 정확률을 갖는 품사 태깅된 코퍼스를 구축할 수 있다.

K-best 품사 태깅을 위해서는, 단어가 가질 수 있는 가능한 품사중 현재 문맥에 부적합한 품사를 제거하든지 아니면 적합한 품사만을 선택할 수 있는 방법이 필요하다. 규칙 기반 품사 태깅방법은 주로 부정 규칙 또는 언어적 제한(linguistic constraints)을 사용하여 부적합한 품사를 제거하는 방법을 사용한다. 반면, 통계 기반 품사 태깅 방법은 주로 품사열의 확률값을 계산하여 특정 임계값 이상의 확률값을 갖는 품사만을 선택하여 K-best 품사 태깅을 수행한다. 따라서, 사용하는 임계값에 따라 단어 당 평균 중의성과 정확률이 변하게 되며, 최대의 정확률을 보이면서 단어 당 최소의 중의성을 갖을 수 있는 임계값을 결정하는 작업이 매우 중요하다.

K-best 품사 태깅에 관한 기존의 대표적인 연구는 Marcken, Weishedel, Brill, 그리고 Voutilainen 등의 연구를 들 수 있다. Marcken은 DeRose의 알고리즘을 변형한 것으로 그 방법은 다음과 같다. 문장을 왼쪽에서 오른쪽으로 읽어가며 현재 단어, w ⁱ 의 k번째 품사인

ⁱ

까지의 최적의 경로를 결정한다. 다음에, 각 경로를 w ⁱ⁺¹ 의 각 품사까지 확장하여 새로운 확률값을 계산한다. 이 때, 최대의 확률값을 P라 하면, P값과 이미 주어진 임계값 이내의 확률값을 갖는 w ⁱ⁺¹ 까지의 경로에 포함된 w ⁱ 의 품사들을 w ⁱ 의 품사로 결정한다. 주어지는 임계값에 따라 각 단어에 하나의 품사 또는 그 이상의 품사가 할당되는데, P값과 임계값이 같은 경우 각 단어에 하나의 품사만을 할당한다. Marcken은 단어당 평균 중의성이 2.2인 80,000 단어 크기의 코퍼스를 이용하여 실험하였고, 단어 당 평균 중의성이 1.03일 때 약 97.6%의 정확률을 보였고, 1.27개일 때 99.93%의 정확률를 보였다.

Weishedel은 포워드-백워드(forwoard-backward)알고리즘을 이용하여, 입력 문장을 관측하고, 현재 단어 w ⁱ 의 특정 품사

ⁱ

에 위치할 확률값을 계산하고, 가장 높은 확률값과 비교하여 특정 임계값 이하의 확률값을 갖는 품사를 선택하는 K-best 품사 태거를 제안하였다. Weishedel 방법은 품사 선택을 위한 확률 계산시 현재 단어의 앞 단어의 정보만을 이용하는 Marcken의 방법과는 달리 문장 전체를 고려한다는 특징을 갖는다. Weishedel의 K-best 품사 태거는 10,000 단어 크기의 코퍼스에서 실험한 결과 단어당 평균 중의성이 3일 때 99.3%의 정확률을 보였으며, 이는 Marcken의 방법과 똑같은 정확률을 기준으로 평가할 때 다소 높은 중의성을 갖는 결과를 생성하는 것이다.

Brill은 '특정 문맥에서 특정 품사를 다른 품사로 변경한다'와 같은 변형 규칙을 '특정 문맥에서 특정 품사(또는 단어)에 다른 품사를 추가한다'와 같이 수정하고, 이를 이용한 K-best 품사 태깅 방법을 제안하였다. 100개의 변형 규칙을 이용하여 단어당 평균 1.04개의 품사를 할당할 때, 97.4%의 정확률을 보였고, 250개의 변형 규칙을 이용하여 단어당 평균 1.50개의 품사를 할당할 때 99.1%의 정확률을 보였다. Brill의 방법은 초기 태거로 품사 태깅을 수행하고, 오류 수정을 위해 적용될 변형 규칙을 코퍼스로부터 자동 추출할 수 있다는 장점을 갖지만, 수작업으로 구축한 규칙과 같은 일반성과 학습 코퍼스와는 다른 코퍼스에서의 호환성에 대한 문제점이 지적되고 있다.

Voutilainen의 ENGCG2는 ENGCG에 중의성 해소 규칙을 추가하고 개선한 시스템이다. ENGCG2는 특정 품사가 제거될 수 있는 문맥을 기술하는 규칙을 이용하여 각 단어의 부적절한 품사를 제거하여 단어의 중의성을 감소시키는데, 더이상 규칙이 적용될 수 없는 단어에 대해서 중의성이 남아있게 되므로, 한 단어에 평균 중의성이 1이상의 품사를 갖게 된다. ENGCG2는 4,000여개의 규칙으로 단어 당 평균 1.04~1.08개의 품사를 할당할 때 99.7%의 정확률을 보였다. ENGCG2는 위에서 설명한 다른 시스템과 비교하여 가장 좋은 성능을 보고하였다. 뿐만아니라, 규칙 기반 품사 태깅 방법으로 통계 기반 품사 태깅 방법의 한계를 극복할 수 있고, 품사 태깅에도 다른 자연어 처리 단계와 같이 규칙 기반 접근법이 좋은 성능을 가질 수 있음을 주장하였다. 그러나, ENGCG2는 비록 높은 정확률을 보이지만 중의성 해소를 위한 규칙 획득 병목(knowledge acquisition bottleneck)의 문제, 규칙의 개수가 증가할수록 발생하는 규칙의 충돌 문제 또한 시스템 확장 및 변경시 규칙 기반 접근법이 갖는 모든 문제점을 가지고 있다.

본 발명이 이루고자하는 기술적 과제는, 전술한 ENGCG2의 문제점을 극복하기 위해 창출된 것으로서, 상태 기반 품사 태깅법과 기반 품사 태깅법을 모두 활용하여 품사 태깅함으로써, ENGCG2와 같이 높은 성능을 갖으면서 규칙 기반 품사 태거와 비교하여 구현, 확장, 관리가 용이한, 통계 기반 케이-베스트 품사 태깅 장치 및 방법을 제공하는데 있다.

도 1은 본 발명에 의한 통계 기반 K-best 품사 태깅 장치의 블럭도이다.

도 2는 본 발명에 의한 통계 기반 K-best 품사 태깅 방법을 설명하기 위한 플로우챠트이다.

상기 과제를 이루기 위하여, 본 발명에 의한 통계 기반 케이-베스트 품사 태깅 장치는,

원시 코퍼스로부터 형태소 분석된 문장에서 각 단어에 대해 소정의 상태 기반 품사 태깅법을 이용하여 품사 태깅을 수행하는 상태 기반 품사 태거, 형태소 분석된 입력 문장에서 각 단어에 대해 소정의 경로 기반 품사 태깅법을 이용하여 품사 태깅을 수행하는 경로 기반 품사 태거 및 상태 기반 품사 태깅된 결과와 경로 기반 품사 태깅된 결과를 병합하고, 병합된 결과에서 두가지의 품사를 할당받은 특정 단어의 부적합 품사를 제거하거나 적합 품사를 할당하며, 한가지의 품사를 할당받더라도 오류된 태깅 결과를 정정하여 품사 태깅된 코퍼스를 얻는 후처리부를 구비하는 것을 특징으로 한다.

상기 다른 과제를 이루기 위하여, 통계 기반 접근법을 이용하여 원시 코퍼스로부터 품사 태깅된 코퍼스를 얻는, 본 발명에 의한 통계 기반 케이-베스트 품사 태깅 방법은,

원시 코퍼스로부터 형태소 분석된 입력 문장에서 각 단어에 대해 통계 기반 접근법에 속하는 상태 기반 품사 태깅법 및 경로 기반 품사 태깅법 각각에 따른 태깅을 각각 수행하는 품사 태깅 단계, 두가지 품사 태깅 결과를 병합하는 병합 단계 및 병합된 결과에서 두가지의 품사를 할당받은 특정 단어의 부적합 품사를 제거하거나 적합 품사를 할당하며, 한가지의 품사를 할당받더라도 오류된 태깅 결과를 정정하여 품사 태깅된 코퍼스를 얻는 후처리 단계를 구비하는 것을 특징으로 한다.

이하, 본 발명에 의한 통계 기반 케이-베스트 품사 태깅 장치 및 방법을 첨부한 도면을 참조하여 다음과 같이 설명한다.

본 발명은 단어 당 평균 중의성을 최소화하면서 높은 문장 단위의 정확률을 가질 수 있는 통계 기반 K-best 품사 태깅 시스템을 제안한다. 제안된 품사 태깅 방법은 HMM을 이용하는 품사 태깅 모델이 최적의 품사열을 찾기 위하여 사용하는 순간 최적 기준(instantaneous optimality criterior)과 전역 최적 기준(global optimality criterior)을 각각 이용하여 품사 태깅을 수행하고, 두 결과중 충돌이 일어나는 단어에 두가지 품사를 모두 할당하는 방법을 이용한다. 또한, 통계 기반 모델에 의한 결과는 휴리스틱 규칙에 의해서 단어에 남아있는 중의성을 해소하거나 올바른 품사를 할당받는다.

먼저, 본 발명의 이해를 돕기 위해서 본 발명에 적용되는 순각 최적 기준에 따른 상태 기반 품사 태깅법과, 전역 최적 기준에 따른 통계 기반 품사 태깅법을 살펴본다.

본 발명은 앞서 제시한 ENGCG2의 문제점을 극복할 수 있고 ENGCG2와 같은 높은 성능을 갖는 통계 기반 접근법을 이용한 K-best 품사 태거의 개발을 위하여 시작되었다. 통계 기반 품사 태거는 규칙 기반 품사 태거와 비교하여 비교적 구현이 용이하고, 다양한 언어 현상에 대해서 견고하고, 시스템의 확장 및 변경이 용이하다는 장점을 갖는다. 따라서 ENGCG2와 같은 우수한 성능을 갖는 통계 기반 K-best 품사 태거의 개발은 그 의의가 매우 크다고 할 수 있다.

본 발명의 연구는 기존에 제안된 K-best 통계 기반 품사 태깅의 오류와 문제점을 분석하는 것으로 시작되었다. 기존의 통계 기반 K-best 품사 태깅 방법은 순간 최적 기준 또는 전역 최적 기준에 의해서 계산된 특정 임계값 이상의 확률을 갖는 품사 또는 품사열을 품사 태깅 결과로 생성한다. 다음은 순간 최적 기준 또는 전역 최적 기준에 따른 품사 태깅 방법을 설명한다.

품사 태깅 모델은 n개의 단어로 구성된 문장 w ^1,n 을 입력받아 각 단어에 해당하는 품사열 t ^1,n 을 찾는 문제로 정의된다. 상태 기반 품사 태깅법은 현재 단어 w ⁱ 가 가질 수 있는 각 품사를 지나 문장을 생성할 때의 확률값, γ _i (k)을 계산하여 최대의 확률값을 갖는 k번째의 품사를 태깅 결과로 할당하는 방법으로서, 다음 수학식 1과 같이 정의된다.

수학식 1에서, α _i (k)는 문장의 첫 단어에서부터 i번째 단어까지 관측하고, w ⁱ 가 k번째 품사를 갖을 때의 확률값을 의미하고, β _i (k)는 w ⁱ 가 k번째 품사를 가지고, i+1에서 문장 마지막까지의 단어가 관측될 확률값을 의미하며, Pr(Ο｜λ)는 언어 모델을 나타낸다. 즉, 수학식 1의 분자에 사용된 α _i (k)β _i (k)는 w ⁱ 의 k번째 품사를 통과하여 문장 w ^i,n 을 생성할 확률을 의미한다. 순간 최적 기준을 이용한 품사 태깅은 각 단어에서 개별적으로 가장 가능성이 높은 품사를 할당하지만, 주변 단어의 품사, 전체 문장의 길이 등을 고려하지 않으므로 허용되지 않는 상태 전이(disallowed transitions)가 발생할 수 있다. 예를 들면, "the fly have wings"에서 'fly'는 명사와 동사의 품사를 가질 수 있는데, 한정사(determiner)로 사용된 'the' 다음에는 동사가 나오지 않음에도 불구하고, 'fly'가 동사로 품사 태깅될 수도 있다.

상태 기반 품사 태깅의 이러한 오류를 해결하기 위한 방법은 주변 문맥을 이용하는 경로 기반 품사 태깅이다. 경로 기반 품사 태깅은 다음 수학식 2와 같이 정의된다.

수학식 2에서, T(w ^i,n )은 한 문장이 가질 수 있는 품사열 t ^i,n 의 조합에서 통계적으로 가장 많이 사용되는 평균적인 태깅 확률을 나타낸다. 수학식 2의 확률값 계산에는 많은 량의 통계정보가 필요하며, 실제로 이들 정보의 획득은 거의 불가능하다. 따라서, 단어의 어휘 정보 또는 근거리 문맥 정보만을 이용하여 근사한 다음 수학식 3과 수학식 4가 많이 사용된다.

수학식 3과 수학식 4는 현재 단어의 발생은 현재 품사에만 의존하며, 현재 단어의 품사는 이전 단어(또는 앞의 두단어)의 품사에만 의존한다는 마르코프 가정을 이용하여 수학식 2를 근사하게 표현한 것이다. 수학식 3과 수학식 4의 확률값 계산은 다이내믹 프로그래밍(dynamic programming)을 이용한 비터비 알고리즘이 사용되며, 이를 이용하여 선형 시간(linear time)내에 품사열들의 확률값 계산이 가능하다.

앞서 설명하였듯이, 상태 기반 품사 태깅법은 개별적으로 가장 가능성이 높은 품사를 할당하지만, 허용되지 않는 상태 전이가 발생할 수 있다는 단점을 가지며, 경로 기반 품사 태깅법은 이 단점을 극복하기 위한 방법으로 사용될 수 있다. 그러나, 기존의 통계 기반 K-best 품사 태깅 방법은 경로 기반 품사 태깅법 아니면 상태 기반 품사 태깅법을 적절히 수정하는 방법만을 사용하였다.

상태 기반 품사 태깅법과 경로 기반 품사 태깅법은 그 특성상 서로 상이한 품사 태깅 결과를 생성하는데, 그 결과를 비교해보면 매우 흥미로운 사실을 발견할 수 있다. 대부분의 상이한 품사 태깅 결과는 각 방법의 품사 태깅 오류를 일으킨 단어들에 대하여 집중되어 있으며, 두 가지 품사 태깅 결과중 올바른 품사 태깅 결과가 존재하는 경우가 확률적으로 많다. 이는 두 방법이 같은 품사를 할당한 경우에, 이는 순간 최적 기준과 전역 최적 기준 두가지에 의한 결과이므로, 그 정확도를 신뢰할 수 있으나, 그렇지 않은 경우 어느 한 결과의 오류일 가능성이 있기 때문이다. 실제 두 방법이 모두 같은 품사를 할당한 단어의 품사 태깅 결과는 대부분 올바른 결과이고, 서로 다른 결과를 생성한 단어의 경우에는 두 가지중 올바른 품사가 포함되어 있었다. 이는 상태 기반 품사 태거와 경로 기반 품사 태거가 서로의 품사 태깅 오류를 보정할 수 있는 보완적 특성을 가짐을 의미한다.

본 발명이 제안하는 통계적 기반 K-best 품사 태깅 장치 및 방법은 이러한 보완적 특성을 이용하여 입력 문장을 상태 기반 품사 태거과 경로 기반 품사 태거 모두로 품사 태깅하고, 서로 상이한 품사가 할당된 단어에만 두가지 상이한 품사를 모두 할당하는 등 후처리를 수행한다.

도 1은 본 발명에 의한 통계 기반 K-best 품사 태깅 장치의 블럭도로서, 상태 기반 품사 태거(100), 경로 기반 품사 태거(102) 및 후처리부(104)를 구비한다.

도 1에서 상태 기반 품사 태거(100)는 원시 코퍼스로부터 형태소 분석된 문장에서 각 단어에 대해 순간 최적 기준을 이용한 품사 태깅을 수행한다. 한편, 경로 기반 품사 태거(102)는 마찬가지로 원시 코퍼스로부터 형태소 분석된 문장에서 각 단어에 대해 전역 최적 기준에 따라 비터비 알고리즘을 이용한 품사 태깅을 수행한다. 후처리부(104)는 이들 두가지 품사 태깅된 결과를 병합하고, 병합된 결과를 후처리하여 품사 태깅된 코퍼스를 얻는다.

후처리부(104)의 역할은 휴리스틱 규칙을 이용하여 상태 기반 품사 태거(100)와 경로 기반 품사 태거(102)의 결과에서 두가지의 품사로 할당받은 특정 단어의 부적합 품사를 제거하거나, 적합 품사를 추가함으로써, 단어 당 평균 중의성을 감소시키거나, 정확률을 향상시키는 것이다. 본 발명에서 후처리부(104)에서 사용하는 휴리스틱 규칙은 바람직하게 상태 기반 품사 태거(100)와 경로 기반 품사 태거(102)의 결과를 분석하여 수작업으로 구축한 규칙과, 이미 품사 태깅된 코퍼스를 분석하여 자동 추출한 신태그마(syntagma) 규칙으로 구성된다. 신태그마 규칙은 아래와 같이 신태그마내의 개별적인 품사 태깅 결과를 명시한 형태이다.

신태그마 규칙 형태 :

단어1 단어2,...단어n => {단어1/품사 단어2/품사,...단어n/품사}

예컨대, "because of"와 같이 두 단어가 합하여 하나의 의미를 갖는 소정개수의 구를 신태그마 규칙으로 정의하면, 'because'와 'of'는 모두 전치사로 미리 명시된다.

도 2는 본 발명에 의한 통계 기반 K-best 품사 태깅 방법을 설명하기 위한 플로우챠트이다.

도 2를 참조하여, 본 발명의 동작 원리를 상세히 설명하며, 상태 기반 품사 태거와 경로 기반 품사 태거가 품사 태깅을 수행하는 과정과 휴리스틱 규칙에 의해서 후처리되는 과정을 입력 문장 “One island that was near Java was called Pralape in the old book."을 예를 들어 설명한다.

먼저, 원시 코퍼스를 준비한다(제200단계). 입력 문장은 품사 태깅 이전에 각 단어의 가능한 모든 품사를 분석하는 형태소 분석기(상태 기반 품사 태거 및 경로 기반 품사 태거에 각각 내장될 수도 있음)에 의해서 아래와 같은 가능한 품사가 할당된다(제202단계).

입력 문장	형태소 분석 결과
OneislandsthatwerenearJavawascalledPralapeintheoldbookPERIOD	noun det(determiner) pron(pronoun)nounconj(conjection) det pronverbd(verb:past) behad(past beha)verbd(verb:present) adj(adject) adv(adverb)prep(preposition)nounverbd behadverbd verbn(verb:past perfect)nounadv prepdetadjnoun verbp

표 1에서 굵게 쓰여진 품사가 현재 문장에서의 올바른 품사를 나타내고 있으며, 형태소 결과를 살펴보면 각 단어 당 평균 중의성은 1.86(26/14)개다.

다음에, 형태소 분석된 각 단어에 대해 상태 기반 및 경로 기반 품사 태깅을 각각 수행한다(제204단계). 경로 기반 품사 태깅 및 상태 기반 품사 태깅을 수행한 결과는 다음 표 2와 같다. 여기서, * 표시는 잘못된 품사 할당이 된 것을 의미하고, 품사 결과 뒤에 있는 1은 경로 기반 품사 태깅에 의해서 할당된 품사임을 나타낸다. 또한, 품사 결과 뒤의 2는 상태 기반 품사 태깅 결과임을 나타내는 표시이다.

입력 문장	경로 기반 품사 태깅 결과	상태 기반 품사 태깅 결과
OneislandsthatwerenearJavawascalledPralapeintheoldbookPERIOD	noun1noun1conj1verbd1prep1noun1verbd1verbn1noun1prep1det1adj1noun1.1	noun2noun2pron2verbd2adj2noun2verbd2verbn2noun2prep2det2adj2noun2.2

표 1을 살펴보면, 경로 기반 품사 태깅 결과에서 pron과 behad로 품사 태깅되어야 할 'that'과 'was'가 각각 conj와 verbd로 잘못 태깅되었음을 알 수 있다. 상태 기반 품사 태깅 결과는 경로 기반 품사 태깅 결과에서 오류를 일으킨 'that'에 대한 품사를 pron으로 올바르게 품사 태깅한 반면, 'near'에 대한 품사를 adj로 잘못 할당한 것을 볼 수 있다. 또한 경로 기반 품사 태깅에서도 오류를 일으킨 'was'에 대한 오류는 상태 기반 품사 태깅에서도 여전히 존재한다.

제204단계 후에, 두가지 품사 태깅 결과를 병합한다(제206단계). 경로 기반 품사 태깅과 상태 기반 품사 태깅을 수행한 결과중 동일한 품사가 할당된 단어에는 그 품사를 품사 태깅 결과로 할당하고, 상이한 품사가 할당된 단어에 대해서는 두가지 품사를 모두 해당 단어의 품사로 할당하여 병합한다. 다음에, 병합된 결과에 소정의 휴리스틱 규칙을 적용하여 후처리한다(제208단계). 다음 표 3은 두가지 품사 태깅 결과를 병합한 결과와, 후처리된 최종적인 K-best 품사 태깅 결과를 나타낸다.

입력 문장	경로 기반 + 상태 기반품사 태깅 결과	최종적인 K-best품사 태깅 결과
OneislandsthatwerenearJavawascalledPralapeintheoldbookPERIOD	nounnounconj1 pron2verbdprep1 adj2noun*verbdverbnnounprepdetadjnoun.	nounnounconj1 pron2verbdprep1 adj2nounbehadverbnnounprepdetadjnoun.

후처리는 특정 품사의 부적절한 품사를 제거하거나 올바른 품사를 할당하게 되는데, 본 예에서는 verbd로 잘못 태깅된 'was'에 "Cword:verb* && Next word in 2 position:verbn => change Cword:beha*"와 같은 휴리스틱 규칙을 적용되어 'was'의 품사를 behad로 변경한다. 이 규칙은 현재 단어(Cword)의 품사가 verbp(verbd, verbn)이고, 현재 단어 다음 또는 그 다음 단어의 품사가 verbn으로 품사 태깅되었을 경우, 현재 단어의 품사를 behap(behad, behan)으로 수정한다는 규칙이다. 즉, 이런 규칙은 수작업으로 구축된 규칙이다. 표 3에서, 휴리스틱 규칙이 적용된후 최종적인 결과는 단어 당 평균 1.14개의 품사를 할당하며, 100%의 정확률을 보인다.

이제, 본 발명에 따른 통계 기반 K-best 품사 태깅 장치 및 방법과, 종래의 품사 태깅을 실시예를 통해 비교해본다.

경로 기반 품사 태깅에 사용되는 문맥 전이 확률 계산에는 현재 단어 이전 단어의 품사만을 고려하는 바이그램(bigram)모델과, 이전 두 단어의 품사를 고려하는 트라이그램(trigram)모델을 사용된다. 일반적으로 트라이그램 이용한 품사 태깅이 높은 정확률을 보인다. 그러나, 각 방법의 특성이 다소 상이하므로 트라이그램 모델을 이용한 결과와 상태 기반 품사 태깅 결과를 통합한 결과가 바이그램을 이용한 결과와의 통합보다 우수한 성능을 보일 지는 알 수 없다.

따라서, 본 발명은 바이그램 모델과 트라이그램 모델 각각 이용한 경로 기반 품사 태거를 구현하였고, 두 가지 품사 태깅 결과와 상태 기반 품사 태거의 결과를 통합하는 실험을 수행하였다. 실험에 사용된 원시 코퍼스는 품사 태깅을 위하여 사용되는 확률 정보 추출에 사용되지 않은 500개의 영어 문장이 사용되었다. 실험에 사용된 원시 코퍼스내의 총 단어수는 6,137개이며, 단어 당 평균 중의성은 2.53개이다.

다음 표 1은 상태 기반 품사 태깅 방법, 경로 기반 품사 태깅 그리고 본 발명에 의해 제안된 품사 태깅 방법의 실험 결과를 나타내고 있다. '상태'는 상태 기반 품사 품사 태깅 결과를 의미하고, '경로2'와 '경로3'은 각각 바이그램 모델과 트라이그램 모델을 이용한 경로 기반 품사 태깅 결과를 의미한다. '후처리'는 본 발명에서 사용하는 휴리스틱 규칙을 적용한 것임을 의미한다.

품사 태깅 방법	단어단위	문장단위	단어당 중의성
상태	97.07%	70.40%	1
경로2	96.43%	65.80%	1
경로3	96.35%	69.80%	1
경로2+상태	98.21%	80.80%	1.06
경로3+상태	99.02%	88.80%	1.10
경로2+상태+후처리	98.57%	84.20%	1.06
경로3+상태+후처리	99.22%	91.40%	1.09

실험 결과, 경로 기반 품사 태깅과 상태 기반 품사 태깅을 혼합한 품사 태깅 방법은 각 방법을 독립적으로 사용한 경우보다 단어 단위와 문장 단위에서 높은 정확률을 보였다.

특히, 문장 단위의 정확률을 향상시키는데 매우 우수한 성능을 보였음을 알 수 있었다. '경로2+상태'와 '경로3+상태'를 비교해보면, '경로3+상태' 방법이 높은 정확률을 보였으나, 단어 당 평균 중의성도 약간 높았다. 휴리스틱 규칙은 단어 당 평균 중의성을 낮추는데는 많은 영향을 미치지 못했으나 정확률을 높이는데 효과적으로 사용됨을 확인하였다. 최종적으로 트라이그램을 이용한 경로 기반 품사 태깅과 상태 기반 품사 태깅 결과를 통합하고, 이를 후처리한 '경로3+상태+후처리' 방법이 단어 단위와 문장 단위의 가장 높은 정확률을 보였다. 특히, 제안된 방법은 문장 단위의 정확률 향상에 매우 우수한 성능을 보였다.

본 발명은 Marcken과 Weischedel의 품사 태깅 방법을 제안된 방법이 사용한 품사 집합으로 구현하였고, 동일한 실험 코퍼스에 적용하여 비교 평가하였고, 그 결과는 다음 표 5와 같다.

단어당평균 중의성	각 시스템의 정확률
단어당평균 중의성	Marcken	Weischedel	본 발명
1.36개	99.41%	99.36%
1.31개	99.33%	99.15%
1.29개	99.07%	98.55%
1.12개	98.71%	97.51%
1.09개	98.45%	97.28%	99.22%

표 5에서 알 수 있듯이, 품사 태깅 후 한 단어에 같은 수의 중의성을 유지할 때 Weischedel의 방법이 Marcken의 방법보다 높은 정확률을 보였고, 제안된 방법은 단어 당 평균 중의성이 1.09개일 때 가장 높은 정확률을 보였다.

현재 제안된 방법은 단어 당 평균 중의성과 정확률을 조절할 수 있는 기능을 가지고 있지 않은데, 이러한 문제점은 제안된 방법에서 사용하는 경로 기반 품사 태거 또는 상태 기반 품사 태거를 Marcken의 방법이나 Weischedel의 방법을 적용하면 간단히 해결할 수 있다. ENGCG2는 규칙 기반 품사 태깅 방법으로 이를 구현하기 위해서는 품사 태깅 규칙 구축을 위하여 많은 수작업과 비용을 필요로 하므로, 위의 평가에서 제외되었다.

그러나, 표 5의 결과로 제안된 방법이 기존의 통계 기반 접근법을 사용하는 K-best 품사 태깅 시스템보다 우수한 성능을 가질 수 있음을 확인할 수 있다. 또한 통계 기반 접근법과 휴리스틱 규칙의 사용만으로도 ENGCG2에서 보고한 높은 성능을 가질 수 있음을 알 수 있다. 제안된 방법이 ENGCG2의 규칙 기반 방법과 비교하여 가질 수 있는 장점은 다음과 같다. 첫째, 최근 대용량의 코퍼스의 사용이 가능해진 관계로 구현이 용이하다. 둘째, 대량의 품사 태깅 규칙 구축을 위한 비용과 노력을 필요로하지 않는다. 셋째, 품사 집합의 변화나 응용 분야의 변화로 인한 시스템 변경 및 확장이 용이하다.

이상에서 설명한 바와 같이, 본 발명에 의한 통계 기반 케이-베스트 품사 태깅 장치 및 방법은, 최근 최고의 성능을 보고한 규칙 기반 품사 태거인 ENGCG2와 유사한 성능을 갖으면서, 규칙 기반 품사 태거와 비교하여 구현, 확장, 관리가 용이하고, ENGCG2와 같은 높은 정확도를 갖는 품사 태거 개발을 위하여 필요한 대용량의 품사 태깅 규칙 구축에 소요되는 비용과 노력을 절감하며, 간단한 휴리스틱 규칙의 적용으로 통계 기반 품사 태깅의 정확률 한계를 극복하는 이점이 있다.

标题	发布/更新时间	阅读量
基于深度问答的答案检索方法及装置	2020-05-13	567
一种智能文本处理方法、装置、电子设备及存储介质	2020-05-11	5
一种针对电力巡检文本的错误识别方法	2020-05-11	765
一种处理文本的方法和装置	2020-05-12	181
一种电商产品竞争分析方法及系统	2020-05-14	221
一种基于大数据的国防科技热词发现方法及系统	2020-05-08	800
基于物理距离和语义距离的双向LSTM模型的构建方法	2020-05-08	713
一种面向金融事件的混合型因果关系发现方法	2020-05-11	513
基于XML的领域要素提取配置语言系统	2020-05-08	55
一种公司形象提升系统的社交网络数据提取方法及系统	2020-05-11	985

통계 기반 케이-베스트 품사 태깅 장치 및 방법

통계 기반 케이-베스트 품사 태깅 장치 및 방법

该功能需要专业版企业版VIP权限，您可以：