태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 ＨＭＭ 품사 태깅 장치 및 방법专利检索-词性标注人工智能专利检索查询-专利查询网

태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 ＨＭＭ 품사 태깅 장치 및 방법

阅读：629发布：2021-09-24

专利汇可以提供태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 ＨＭＭ 품사 태깅 장치 및 방법专利检索，专利查询，专利分析的服务。并且A statistical HMM(Hidden Markov Model) part-of-speech tagging apparatus and method capable of being applied to a new domain without a tagged domain corpus are provided to select a lexicon with lexical probability varied according to a domain to which the lexicon is applied, and update the lexical probability according to the domain to improve tagging accuracy without having a tagged domain corpus in a specific domain. Tagging probability information is learnt from a previously tagged corpus to construct a lexical/part-of-speech/contextual probability information database and a lexical probability information database(S210). The lexical probability information database is domain-dependently leant and updated based on a raw corpus of an application domain(S220). Morpheme analysis is performed on an input sentence on the basis of a morpheme analysis dictionary database(S240). Statistical part-of-speech tagging is carried out on the morpheme analysis result based on the lexical/part-of-speech/contextual probability information database and the updated lexical probability information database(S250). An error in the tagging result is corrected according to a tagging error correction rule database(S260).，下面是태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 ＨＭＭ 품사 태깅 장치 및 방법专利的具体信息内容。

权利要求

(a) 기존 태깅된 코퍼스로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB 및 어휘확률 정보 DB를 구축하는 단계;

(b) 적용 도메인의 원시 코퍼스(raw corpus)를 기반으로 상기 어휘확률 정보 DB를 도메인 의존적으로 학습하여 갱신하는 단계;

(d) 상기 어휘 품사 문맥확률 정보 DB와 상기 갱신된 어휘확률 정보 DB를 기반으로 상기 형태소 분석 결과에 대하여 통계적 품사 태깅을 수행하는 단계; 및

(e) 상기 통계적 품사 태깅 단계를 통해 태깅된 결과에서 태깅 오류 수정 규칙 DB에 따라 오류를 수정하여 출력하는 단계를 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법.

제 1항에 있어서, 상기 (b) 단계는,

적용 도메인 원시 코퍼스에 대하여 통계적 품사 태깅을 수행하여 자동 태깅된 코퍼스를 구축하는 제 1 단계;

상기 자동 태깅된 코퍼스를 기반으로 적용 도메인의 어휘확률 통계치를 추출하는 제 2 단계;

상기 어휘확률 정보 DB의 정보와 상기 제 2 단계에서 추출된 도메인 의존적 어휘확률 통계치 정보를 기반으로 도메인 의존적 어휘를 추출하는 제 3 단계;

상기 제 3 단계에서 추출된 도메인 의존적 어휘의 어휘확률을 조정하는 제 4 단계; 및

상기 제 4 단계를 통해 조정된 도메인 의존적 어휘확률을 기반으로 상기 어휘확률 정보 DB를 갱신하는 제 5 단계; 및

상기 제 3 단계에서 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 미만일 경우 상기 제 4 단계 및 제 5 단계의 도메인 의존 어휘확률 학습을 종료하는 제 6 단계를 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법.

제 2 항에 있어서, 상기 제 3 단계에서,

상기 도메인 의존적 어휘는,

여기에서,

f(w _i ) : 태깅된 코퍼스에 나타나는 단어 w _i 의 개수

f(w _i , t _j ) : 단어 w _i 가 품사 t _j 를 가지는 경우 태깅된 코퍼스에서 단어 w _i 가 품사 t _j 로 나타나는 개수

f'(w _i ) : 자동 태깅된 코퍼스에 나타나는 단어 w _i 의 개수

f'(w _i , t _j ) : 단어 w _i 가 품사 t _j 를 가지는 경우 자동 태깅된 코퍼스(104)에서 단어 w _i 가 품사 t _j 로 나타나는 개수

에 의해 추출되는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법.

제 2 항에 있어서, 상기 제 4 단계에서,

상기 도메인 의존적 어휘확률은,

여기에서,

f(w _i , t _j ) : 단어 w _i 가 품사 t _j 를 가지는 경우 태깅된 코퍼스에서 단어 w _i 가 품사 t _j 로 나타나는 개수

f'(w _i ) : 자동 태깅된 코퍼스에 나타나는 단어 w _i 의 개수

f'(w _i , t _j ) : 단어 w _i 가 품사 t _j 를 가지는 경우 자동 태깅된 코퍼스에서 단어 w _i 가 품사 t _j 로 나타나는 개수

f(t _j ) : 품사 t _j 가 태깅된 코퍼스에서 나타나는 개수

N : 태깅된 코퍼스에서의 모든 단어의 출현 빈도 합

N': 자동 태깅된 코퍼스에서의 모든 단어의 출현 빈도 합

에 의해 조정되는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법.

제 2 항에 있어서, 상기 제 6 단계에서,

상기 제 3 단계에서 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 이상인 경우 상기 제 4 단계 및 제 5 단계를 통해 도메인 의존 어휘확률 학습을 반복하는 단계를 더 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법.

형태소 분석 사전 DB를 기반으로 입력 문장을 형태소 분석하는 형태소 분석부;

기존 태깅된 코퍼스로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB 및 어휘확률 정보 DB를 구축하는 태깅 확률 정보 학습부;

적용 도메인의 원시 코퍼스를 기반으로 상기 어휘확률 정보 DB를 도메인 의 존적으로 학습하여 갱신하는 도메인 의존 확률 정보 학습부;

상기 어휘 품사 문맥확률 정보 DB 및 상기 갱신된 어휘확률 정보 DB를 기반으로 상기 형태소 분석부를 통해 형태소 분석된 결과에 대하여 통계적 품사 태깅을 수행하는 통계적 품사 태깅부; 및

상기 통계적 품사 태깅부를 통해 태깅된 결과에서 태깅 오류 수정 규칙 DB에 따라 오류를 수정하여 출력하는 태깅 오류 정정부를 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치.

제 6항에 있어서, 상기 도메인 의존 확률 정보 학습부는,

상기 적용 도메인 원시 코퍼스를 기반으로 자동 태깅된 코퍼스를 구축하고,

상기 자동 태깅된 코퍼스를 기반으로 현재 도메인의 어휘확률 통계치를 추출하여, 상기 어휘확률 정보 DB 및 상기 추출된 도메인 의존적 어휘확률 통계치 정보를 기반으로 도메인 의존적 어휘를 추출하며,

상기 추출된 도메인 의존적 어휘의 어휘확률을 조정하여 상기 조정된 도메인 의존적 어휘확률을 기반으로 상기 어휘확률 정보 DB를 갱신하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치.

제 7항에 있어서, 상기 도메인 의존 확률 정보 학습부는,

상기 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 미만일 경우 도메인 의존 어휘확률 학습을 종료하며,

상기 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 이상인 경우 도메인 의존 어휘확률 학습을 반복하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치.

제 6항에 있어서, 상기 갱신된 어휘확률 정보 DB에는,

적용 도메인 의존 어휘확률 정보가 저장된 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치.

说明书全文

태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 ＨＭＭ 품사 태깅 장치 및 방법{Method and apparatus for statistical HMM part-of-speech tagging without tagged domain corpus}

도 1은 본 발명에 따른 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치의 블록도이다.

도 2는 본 발명에 따른 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법의 흐름도이다.

도 3은 도 2에 있어서 도메인 의존 학습 단계의 상세 흐름도이다.

*도면의 주요부분에 대한 부호의 설명*

101: 형태소 분석 사전 DB

102: 도메인 원시 코퍼스

103: 자동 태깅된 코퍼스

104: 어휘 품사 문맥확률 정보 DB 105: 어휘확률 정보 DB

106: 태깅 오류 수정 규칙 DB

110: 형태소 분석부 102: 태깅 확률 정보 학습부

130: 도메인 의존 확률 정보 학습부 140: 통계적 품사 태깅부

150: 태깅 오류 정정부

본 발명은 통계적 HMM(Hidden Markov Model) 품사 태깅 장치 및 방법에 관한 것으로, 특히 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하여 그 어휘의 어휘확률을 적용 도메인에 맞추어 갱신함으로써, 많은 비용과 시간이 드는 적용 도메인의 태깅된 코퍼스 없이, 다양한 도메인에서 높은 성능으로 적용할 수 있는 통계적 HMM 품사 태깅 장치 및 방법에 관한 것이다.

각종 정보검색 시스템, 질의응답 시스템, 또는 자동번역 시스템 등에서는 문장에 대한 형태소 분석 및 품사 태깅(part-of-speech tagging)이 필수적으로 요구되는데, 이를 해결하기 위해서 종래의 품사 태깅 장치들은 통계적 기법으로 구현된 HMM(Hidden Markov Model)을 가장 널리 사용한다.

상기 HMM 태깅 장치는 w ₁ , w ₂ , … , w _n 인 n개의 단어로 구성된 원시 입력 문장을 형태소 분석한 후, 각 단어에 대하여 가장 적합한 품사 나열 t ₁ , t ₂ , … , t _n 을 다음의 수학식 1에 의해서 찾는다.

상기 수학식 1은 2차 마코프 모델을 적용한 경우로서, 이때, P(t _i |t _i-1 ,t _i-2 ) 를 문맥확률(contextual probability) 또는 전이확률(transition probability)이라 하고, P(w _i |t _i )을 어휘확률(lexical/output probability)이라고 하며, 상기 문맥확률과 어휘확률은 태깅된 코퍼스로부터 그 값을 통계적으로 추출하여 사용한다.

상기 수학식 1에 있어서, 상기 문맥확률은 품사 문맥확률을 의미하며, 최근에는 이를 확장한 어휘 품사 문맥확률을 이용하여 그 성능을 향상시키기도 한다.

상기 수학식 1에서 알 수 있는 바와 같이, 통계적 HMM 태깅 장치는 문맥확률과 어휘확률을 태깅된 코퍼스로부터 추출하기 때문에, 즉, 태깅된 코퍼스의 언어적 특성과 어휘 특성에 적합하도록 학습되기 때문에, 태깅된 코퍼스의 특성을 그대로 반영하게 되며, 이에 따라 태깅된 코퍼스의 도메인 문서에서는 뛰어난 성능을 보일 수 있지만, 그렇지 않은 도메인 문서에서는 그 성능을 보장할 수 없으며, 이로 인해 다른 도메인에 적용할 경우, 그 도메인에 따른 특성에 대한 언어적 특성을 제대로 반영하지 못하여 성능의 저하를 가져오게 된다.

그러므로, 일반적으로 시간과 비용이 많이 드는 대용량의 태깅된 코퍼스를 구축하는 경우, 가능하면 모든 도메인에 적용 가능하도록 여러 도메인의 문서들을 균형있게 구성하는 평균화된 코퍼스(balanced corpus)를 구축하고 있는 실정이다.

그러나, 이러한 평균화된 코퍼스로 학습한 통계적 태깅 장치를 특정 도메인을 위해 사용할 경우에는, 그 성능이 그 특정 도메인 문서들로 태깅된 코퍼스로 학습한 통계적 태깅 장치보다 낮은 성능을 보일 수 밖에 없다.

좀 더 자세히 설명하면, 기존의 태깅된 코퍼스가 균형화된 코퍼스이고 대용 량인 경우, 어휘/품사 문맥정보를 담고 있는 문맥확률은 언어적 문법 특성을 갖고 있기 때문에, 도메인에 따라 언어적 문법 특성이 달라지지 않으므로, 그 어휘/품사 문맥확률이 크게 달라지지 않아도 그 역할을 수행할 수 있지만, 어떤 품사로 그 단어가 사용될 확률을 나타내는 어휘확률은 도메인에 따라 크게 차이를 보인다.

다시 말해서, 신문기사, 웹문서, 특허문서, 의료문서 등 다양한 도메인에 사용된 문법적 특성은 문서가 쓰여진 언어(즉 한국어, 영어, 일어 등)의 문법적/통사적 형태가 거의 다르지 않아 문맥확률이 도메인 의존적일 필요가 크게 없지만, 어떤 품사로 단어가 생성될 확률, 쉽게 풀이하면 어떤 단어가 어떤 품사로 될 것인가에 대한 어휘확률값은 단어가 사용된 도메인에 따라 크게 달라진다.

상기와 같이 어휘확률이 도메인에 따라 크게 달라지는 것을 예로 들어 설명하면, "die"는 일반적인 도메인이나, 신문, 웹 문서에서는 대부분 "죽다"라는 의미의 동사로 사용되고, "금형"이라는 명사로 사용될 경우가 거의 없지만, 특허나 기술 문서에서는 반대로 거의 모든 경우가 "금형"이라는 명사로 사용된다.

그러므로, 평균화된 코퍼스에서 학습된 "die"의 어휘확률을 사용하여 특허나 기술 문서에 나타나는 "die"를 태깅하면 많은 경우 "죽다"라는 동사로 잘못 태깅하는 문제가 발생한다.

이와 같은 문제를 해결하기 위해서는 적용 도메인을 위하여 별도로 대용량의 태깅된 코퍼스가 필요로 하지만, 높은 태깅 정확률을 가진 대용량의 태깅된 코퍼스를 구축하는 데에는 비용과 시간이 많이 들기 때문에, 실제로 존재하는 태깅된 코퍼스는 각 언어마다 1 내지 3개 정도인 것이 현실이고 대부분이 평균화된 코퍼스를 통해 태깅 작업이 이루어지고 있는 실정이다.

그러나, 최근에는 언어처리 방법을 요구하는 정보검색, 질의응답 및 자동 번역 시스템들이 모든 분야에 적합하게 구축되어 낮은 성능을 나타내어 실용화 가능성이 없는 것보다, 특허, 신문, 기술분야, 의료분야 등과 같이 특정 도메인에 적합하게 구축되어 보다 높은 성능을 보여서 실용화되는 것에 대한 요구가 커지고 있다.

결론적으로, 기존의 태깅된 코퍼스를 활용하여 특정 도메인에서도 고성능을 보일 수 있는 품사 태깅 방법이 최우선적으로 고려되어야 하며, 다른 어떠한 도메인으로도 쉽게 적용 가능하여 그 활용 가능성을 최대한 높일 수 있는 품사 태깅 방법이 요구되고 있다.

본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하여 그 어휘의 어휘확률을 적용 도메인에 맞추어 갱신함으로써, 태깅된 도메인 코퍼스 없이 특정 도메인에서의 태깅 정확성을 높일 뿐만 아니라 다양한 도메인에서 높은 성능으로 적용할 수 있는 통계적 HMM 품사 태깅 장치 및 방법을 제공하는 것이다.

상기 목적을 달성하기 위하여 본 발명에 따른 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법은, (a) 기존 태깅된 코퍼스로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB 및 어휘확률 정보 DB를 구축하는 단계; (b) 적용 도메인의 원시 코퍼스(raw corpus)를 기반으로 상기 어휘확률 정보 DB를 도메인 의존적으로 학습하여 갱신하는 단계; (c) 형태소 분석 사전 DB를 기반으로 입력 문장에 대한 형태소 분석을 수행하는 단계; (d) 상기 어휘 품사 문맥확률 정보 DB와 상기 갱신된 어휘확률 정보 DB를 기반으로 상기 형태소 분석 결과에 대하여 통계적 품사 태깅을 수행하는 단계; 및 (e) 상기 통계적 품사 태깅 단계를 통해 태깅된 결과에서 태깅 오류 수정 규칙 DB에 따라 오류를 수정하여 출력하는 단계를 포함하는 것을 특징으로 한다.

한편, 상기 목적을 달성하기 위하여 본 발명에 따른 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치는, 형태소 분석 사전 DB를 기반으로 입력 문장을 형태소 분석하는 형태소 분석부; 기존 태깅된 코퍼스로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB 및 어휘확률 정보 DB를 구축하는 태깅 확률 정보 학습부; 적용 도메인의 원시 코퍼스를 기반으로 상기 어휘확률 정보 DB를 도메인 의존적으로 학습하여 갱신하는 도메인 의존 확률 정보 학습부; 상기 어휘 품사 문맥확률 정보 DB 및 상기 갱신된 어휘확률 정보 DB를 기반으로 상기 형태소 분석부를 통해 형태소 분석된 결과에 대하여 통계적 품사 태깅을 수행하는 통계적 품사 태깅부; 및 상기 통계적 품사 태깅부를 통해 태깅된 결과에서 태깅 오류 수정 규칙 DB에 따라 오류를 수정하여 출력하는 태깅 오류 정정부를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

도 1은 본 발명에 따른 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치의 블록도이다.

도 1을 참조하면, 본 발명에 따른 통계적 HMM 품사 태깅 장치(100)는, 입력 문장을 형태소 분석 사전 DB(101)를 기반으로 형태소 분석하는 형태소 분석부(110)와, 기존 태깅된 코퍼스(102)로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB(103) 및 어휘확률 정보 DB(104)를 구축하는 태깅 확률 정보 학습부(120)와, 적용 도메인 원시 코퍼스(raw corpus)(105)를 품사 태깅하여 자동 태깅된 코퍼스(106)를 구축하고 상기 자동 태깅된 코퍼스(106)를 기반으로 상기 어휘확률 정보 DB(104)를 적용 도메인 의존적으로 학습하여 갱신하는 도메인 의존 확률 정보 학습부(130)와, 상기 갱신된 어휘확률 정보 DB(104)를 기반으로 형태소 분석된 결과에서 최적의 품사를 선정하여 통계적 품사 태깅을 하는 통계적 품사 태깅부(140)와, 상기 태깅 결과를 태깅 오류 수정 규칙 DB(107)에 따라 수정하는 태깅 오류 정정부(150)를 포함하여 이루어진다.

상기 형태소 분석부(110)은 형태소 분석 사전 DB(101)를 기반으로 입력 문장에 대한 형태소 분석을 수행하여 형태소 분석 결과를 통계적 품사 태깅부(140)로 출력한다.

상기 태깅 확률 정보 학습부(120)는 기존 태깅된 코퍼스(102)로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB(103)와 어휘확률 정보 DB(104)를 구축한다.

상기 도메인 의존 확률 정보 학습부(130)는 적용 도메인 원시 코퍼스(105)를 품사 태깅하여 자동 태깅된 코퍼스(106)를 구축한 후 상기 자동 태깅된 코퍼스(106)와 상기 어휘확률 정보 DB(104)를 비교하여 적용 도메인에 의존적인 어휘확률을 추출하여 추출된 어휘확률 정보에 따라 상기 어휘확률 정보 DB(104)를 새로 갱신한다.

즉, 상기 도메인 의존 확률 정보 학습부(130)는 상기 어휘확률 정보 DB(104)에서 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하고 그 어휘의 어휘확률을 적용 도메인 의존적으로 학습하여 적용 도메인에 적합하게 갱신하는 역할을 수행한다.

상기 통계적 품사 태깅부(140)는 상기 어휘 품사 문맥확률 정보 DB(103)와 상기 도메인 의존 확률 정보 학습부(130)를 통해 갱신된 도메인 의존적 어휘확률 정보 DB(104)를 기반으로 통계적 품사 태깅을 수행하여 각 단어에 적합한 품사를 선정한다.

상기 태깅 오류 정정부(150)는 상기 통계적 품사 태깅부(140)를 통해 선정된 품사 중에서 태깅 오류 수정 규칙 DB(107)에 따라 오류를 수정하여 최종 태깅 결과를 출력한다.

상기한 바와 같이, 본 발명의 통계적 HMM 품사 태깅 장치에 따르면, 적용 도메인의 원시 코퍼스(105)를 기반으로 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하여 그 어휘의 어휘확률을 적용 도메인에 적합하게 갱신함으로써, 적용 도메인에 의존적인 어휘확률을 추출할 수 있게 되며, 이에 따라 많은 비용과 시간이 드는 적용 도메인의 태깅된 코퍼스 없이 다양한 도메인에서 태깅 정확성을 높일 수 있게 된다.

이하, 본 발명에 따른 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법에 대하여 도 2를 참조하여 상세히 설명한다.

도 2는 본 발명에 따른 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법의 흐름도이다.

도 2를 참조하면, 본 발명에 따른 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법은, 크게 기존 태깅된 코퍼스로부터 새로운 도메인에 적용 가능한 통계적 정보를 추출하여 적용 도메인에 적합하게 학습하여 갱신하는 단계(S210~S220)와, 상기 학습에 의해 갱신된 정보를 활용하여 입력 문장에 대한 통계적 품사 태깅을 수행하는 태깅 수행 단계(S230~S260)로 나누어 설명할 수 있다.

상기 기존 태깅된 코퍼스로부터 새로운 도메인에 적용 가능한 통계적 정보를 추출하여 적용 도메인에 적합하게 학습하여 갱신하는 단계(S210~S220)에 대하여 더 자세히 설명하면 다음과 같다.

우선, 태깅 확률 정보 학습부(120)에서 기존 태깅된 코퍼스(102)로부터 도메인 독립적인 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB(103)와 어휘확률 정보 DB(104)를 구축한다(S210).

그 다음, 도메인 의존 확률 정보 학습부(130)에서 적용 도메인의 원시 코퍼스(105)를 기반으로 상기 어휘확률 정보 DB(104)를 도메인 의존적으로 학습하여 갱신한다(S220).

이에 대하여 좀 더 자세히 설명하면, 상기 도메인 의존 확률 정보 학습 부(130)는 적용 도메인의 원시 코퍼스(105)를 기반으로 상기 어휘확률 정보 DB(104)에서 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하고, 그 어휘의 어휘확률을 적용 도메인 의존적으로 학습하여 적용 도메인에 적합하게 갱신한다.

한편, 상기 학습에 의해 갱신된 정보를 활용하여 입력 문장에 대한 통계적 품사 태깅을 수행하는 태깅 수행 단계(S230~S260)에 대하여 더 자세히 설명하면 다음과 같다.

우선, 문장이 입력되면(S230), 형태소 분석부(110)에서 형태소 분석 사전 DB(101)를 기반으로 입력 문장에 대한 형태소 분석을 수행한다(S240).

그 다음, 통계적 품사 태깅부(140)에서 상기 어휘 품사 문맥확률 정보 DB(103)와 상기 도메인 의존적 학습에 의해 갱신된 어휘확률 정보 DB(104)를 기반으로 상기 형태소 분석 결과에 대하여 통계적 품사 태깅을 수행하여 최적의 품사를 선정한다(S250).

그 다음, 태깅 오류 정정부(150)에서 상기 선정된 품사 중에서 태깅 오류 수정 규칙 DB(107)에 따라 오류를 수정하여 최종 태깅 결과를 출력한다(S260).

한편, 본 발명은 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하여 그 어휘의 어휘확률을 적용 도메인 의존적으로 학습하여 적용 도메인에 적합하게 갱신함으로써, 태깅된 도메인 코퍼스 없이 특정 도메인에서의 태깅 정확성을 높일 수 있는 것에 가장 큰 특징이 있는 바, 이하의 설명에서 상기 도메인 의존 학습 단계(S220)에 대하여 도 3을 참조하여 보다 상세히 설명한다.

도 3은 도 2에 있어서 도메인 의존 학습 단계(S220)의 상세 흐름도이다.

먼저, 적용 도메인 원시 코퍼스(105)가 입력되면(S301), 적용 도메인 원시 코퍼스(105)에 대하여 통계적 품사 태깅을 수행하여 자동 태깅된 코퍼스(106)를 구축한다(S302~S303).

이 때, 상기 어휘 품사 문맥확률 정보 DB(103) 및 어휘확률 정보 DB(104)를 기반으로 도메인 원시 코퍼스(105)에 대한 통계적 품사 태깅이 이루어지게 되는데, 상기 어휘확률 정보 DB(104)에는 기존 태깅된 코퍼스(102)로부터 다음의 표 1과 같은 정보가 추출되어 저장되어 있다.

여기에서, WN은 모든 단어의 개수이고, TN은 전체 품사의 수를 의미한다.

즉, 상기 어휘확률 정보 DB(104)에 저장된 정보들을 기반으로 수학식 1 에 있어서 품사 t _j 가 단어 w _i 로 생성될 어휘확률 P(w _i | t _j )= f(w _i , t _j ) / f(t _j )을 얻을 수 있다.

그 다음, 상기 자동 태깅된 코퍼스(106)를 기반으로 현재 도메인의 어휘확률 통계치를 추출하는데(S304), 여기에서 추출된 어휘확률 통계치는 도메인 의존적 어휘확률 통계치이며, 상기 어휘확률 통계치 추출 단계(S304)를 통해 추출되는 정보는 다음의 표 2와 같다.

그 다음, 상기 어휘확률 정보 DB(104)의 정보와 상기 어휘확률 통계치 추출 단계(S304)에서 추출된 도메인 의존적 어휘확률 통계치 정보를 기반으로 다음의 수학식 2를 만족하는 도메인 의존적 어휘를 추출한다(S305).

상기 수학식 2에 있어서, 단어 w _i 가 k(k≥1)개의 t _i1 , … , t _ik 품사들을 가질 경우, 상기 수학식 2를 만족하는 단어 w _i 는 기존 태깅된 코퍼스(102)에서 그 단어가 나타나는 품사 유형과 현재 자동 태깅된 코퍼스(106)에서 나타나는 품사 유형이 다른 단어들이다.

즉, 상기 수학식 2를 만족하는 단어 w _i 들은 적용 도메인에 따라 어휘확률이 달라지는 도메인 의존적 어휘들로, 이와 같은 도메인 의존적 어휘들은 적용 도메인에서의 어휘확률이 기존 학습된 어휘확률과 상이하여 전체 태깅 성능 저하를 가져올 수 있기 때문에, 적용 도메인에 적합하도록 그 어휘확률을 조정해 줄 필요가 있다.

이를 위해, 본 발명에서는 적용 도메인에 맞는 어휘확률 P(w _i | t _j )을 계산 하기 위해서, 상기 어휘확률 정보 DB(104)와 상기 어휘확률 통계치 추출 단계(S304)에서 추출된 어휘의 어휘확률을 서로 상호 보완하여, 상기 도메인 의존적 어휘 추출 단계(S305)에서 추출된 도메인 의존적 어휘의 어휘확률을 조정한다(S306).

여기에서, 상기 도메인 의존적 어휘확률 조정을 위한 기존의 어휘확률 정보 f''(w _i )와 f''(w _i , t _j ), f''(t _j ) 계산식은 다음의 수학식 3과 같다.

상기 수학식 3에 있어서, N은 기존 태깅된 코퍼스(102)에 나타나는 모든 단어의 총수이고, N'는 자동 태깅된 코퍼스(106)에 나타나는 모든 단어의 총수이다.

상기 수학식 3에서 알 수 있는 바와 같이, f(t _j ) 값에 상응하는 적용 도메인 어휘확률 정보 f''(t _j )는 어휘/품사 문맥확률에 영향을 미치기 때문에 도메인 의존적 어휘의 어휘확률을 조정하며, 언어의 문법적/통사적 특성은 도메인에 따라 큰 변화가 없다는 가정하에 기존의 f(t _j ) 값을 조정하지 않는 것을 알 수 있다.

그 다음, 상기와 같이 도메인 의존적 어휘의 어휘확률에 대한 조정이 완료되면 이를 기반으로 도메인 의존 어휘확률 정보 DB(104a)를 구축한다(S307).

그 다음, 상기 도메인 의존 어휘확률 정보 DB(104a)를 기 구축된 어휘확률 정보 DB(104)로 대체하여 상기 어휘확률 정보 DB(104)를 갱신한다(S308).

즉, 상기 어휘확률 정보 DB 갱신 단계(S308)를 통해 상기 어휘확률 정보 DB(104)에는 점차적으로 적용 도메인 의존 어휘확률 정보가 저장되게 된다.

그 다음, 도메인 의존 어휘확률 재학습 종료 판단 단계(S309)에서는 상기 수학식 2에 의해 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수(TN)(예를 들어, 100개) 미만일 경우, 이미 존재하는 어휘확률 정보가 적용 도메인에 의존적으로 학습된 것으로 판단하여 도메인 의존 어휘확률 재학습을 종료하며, 그렇지 않을 경우에는 도메인 의존 어휘에 대한 어휘확률을 조정하는 단계부터 반복하여 수행하도록 한다.

상기한 과정을 거쳐 도메인 의존적 어휘확률 재학습이 종료되었을 때, 최종적으로 어휘확률 정보 DB(104)에는 본 발명에서 얻고자 하는 도메인 의존 어휘확률 정보가 저장되게 된다.

상기한 바와 같이, 본 발명의 HMM 품사 태깅 방법에 따르면, 도메인에 따라 어휘확률이 달라지는 어휘를 선출하여 그 어휘의 어휘확률을 도메인에 적합하게 갱신함으로써, 적용 도메인의 태깅된 코퍼스 없이도 특정 도메인에서의 태깅 정확성을 높일 수 있다.

즉, 종래의 HMM 품사 태깅 방법에 의하면 기 학습된 도메인 이외의 다른 도메인의 문서들을 고성능으로 태깅하기 위해서 적용 도메인에 대한 고비용의 태깅된 코퍼스를 필요로 하는 것과는 달리, 본 발명의 HMM 품사 태깅 방법에 따르면, 적용 도메인에 의존적인 어휘확률을 추출하기 위해서 비용과 구축 기간이 거의 들지 않는 적용 도메인의 원시 코퍼스를 그대로 이용할 수 있다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

상술한 바와 같이, 본 발명에 따르면, 새로운 특정 도메인에서 정확도가 떨어지는 기존의 통계적 품사 태깅 방법에 비하여, 품사 태깅의 정확성을 크게 향상시킬 수 있으며, 손쉽게 획득할 수 있는 다양한 도메인의 원시 코퍼스들을 기반으로 각 도메인 의존 어휘확률만을 새로이 재학습하여 갱신함으로써, 태깅된 도메인 코퍼스 없이 특정 도메인에서의 태깅 정확성을 높일 뿐만 아니라 다양한 도메인에서 높은 정확도의 통계적 품사 태깅을 수행할 수 있는 효과가 있다.

또한, 본 발명에 따르면, 특정 도메인에 특화된 각종 정보검색 시스템의 검색 성능 및 정확성을 향상시킬 수 있으며, 특정 도메인에 특화된 자동 번역 시스템의 언어분석 정확도를 향상시켜 전체 번역 성능을 향상시킬 수 있는 효과도 있다.

标题	发布/更新时间	阅读量
一种电商产品竞争分析方法及系统	2020-05-14	221
一种面向金融事件的混合型因果关系发现方法	2020-05-11	513
一种融合多类事理与实体知识的领域事件图谱构建方法和装置	2020-05-13	766
一种使用重叠拆分规则的文本序列标注算法	2020-05-14	365
一种视频文本摘要生成方法及装置	2020-05-08	687
基于物理距离和语义距离的双向LSTM模型的构建方法	2020-05-08	713
基于弱监督技术主动学习的智能标注方法、装置及平台	2020-05-13	61
基于XML的领域要素提取配置语言系统	2020-05-08	55
一种公司形象提升系统的社交网络数据提取方法及系统	2020-05-11	985
留学文书智能自动创作系统	2020-05-12	673

태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 ＨＭＭ 품사 태깅 장치 및 방법

태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 ＨＭＭ 품사 태깅 장치 및 방법{Method and apparatus for statistical HMM part-of-speech tagging without tagged domain corpus}

该功能需要专业版企业版VIP权限，您可以：