어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법专利检索-词义消歧人工智能专利检索查询-专利查询网

어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법

阅读：403发布：2020-07-20

专利汇可以提供어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법专利检索，专利查询，专利分析的服务。并且PURPOSE: A Lexical sense tagging system for word sense disambiguation is provided to perform the lexical disambiguation by automatically suggesting a concept candidate in order to reduce the burden of operator and maintain a consistency, and to determine the dependency structure. CONSTITUTION: The method extracts the components of predicate and noun from a result of tagging a morpheme of sentence and rearranges the components around the predicate. The rearrangement extracts a lower range pattern of the predicate from the lower range pattern database and finds out a capable dependency between the predicate and the noun according to an outer layer investigation as a standard. The outer layer investigation includes an extended investigation list database as well as a representative investigation. One pattern includes the 2 or 4 subsidiary range components, each subsidiary range component may have a plurality of nouns capable of matching and the system finds out the concept of the one noun among the nouns in a thesaurus database.，下面是어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법专利的具体信息内容。

权利要求

의미 태깅 장치에 있어서:

원시 코퍼스 데이터 베이스로부터 제공된 말뭉치의 복수의 형태소들을 해석하여 추출하는 전처리 수단과;

상기 추출된 형태소들을 재배열하고, 하위범주화 데이터 베이스를 참조하여 제 1 형태소와 그 하위 범주사이의 의존관계를 매칭시키는 의존관계 매칭 수단과;

시소러스 데이터와 상기 매칭된 의존관계를 참조하여 제 2 형태소에 적용가능한 의미를 제공하는 의미 매칭 수단과;

전체 문장의 의존 구조에 기초하여 상기 매칭된 의존관계중에서 적합한 의존관계만을 선택하는 여과 수단과;

상기 여과된 의존 관계들의 순위를 결정하는 순위 결정 수단과;

상기 순위 결정된 의존관계에 따르는 의미 태깅을 사용자에게 제공하여 정정 및 선택할수 있도록하는 수동 의미 태깅 수단

을 포함하는 의미 태깅 장치.

제 1 항에 있어서,

상기 제 1 형태소는 술어 성분이며,

상기 제 2 형태소는 명사 성분인 의미 태깅 장치.

제 2 항에 있어서,

상기 하위 범주화 데이터 베이스는, 하위 범주의 의미 코드와 확장조사 리스트 데이터 베이스를 더 포함하는 의미 태깅 장치.

제 3 항에 있어서,

상기 순위 결정 수단은 상기 하위 범주의 의미코드와 시소러스 데이터 베이스의 개념코드간의 평균거리에 기초하여 순위를 결정하는 의미 태깅 장치.

제 3 항에 있어서,

상기 수동 의미 태깅 수단은 사용자에게 자동 의미 태깅된 문장, 시소러스 데이터, 하위범주 데이터를 제공하는 의미 태깅 장치.

어휘의 의미와 그 후보를 제시하는 의미 태깅 방법에 있어서:

원시 코퍼스 데이터 베이스로부터 제공된 말뭉치의 복수의 형태소들을 해석하여 추출하는 전처리 단계와;

상기 추출된 형태소들을 재배열하고, 하위범주화 데이터 베이스를 참조하여 제 1 형태소와 그 하위 범주사이의 의존관계를 매칭시키는 의존관계 매칭 단계와;

시소러스 데이터와 상기 매칭된 의존관계를 참조하여 제 2 형태소에 적용가능한 의미를 제공하는 의미 매칭 단계와;

전체 문장의 의존 구조에 기초하여 상기 매칭된 의존관계중에서 적합한 의존관계만을 선택하는 여과 단계와;

상기 여과된 의존 관계들의 순위를 결정하는 순위 결정 단계와;

상기 순위 결정된 의존관계에 따르는 의미 태깅을 사용자가 정정 및 선택하는 수동 의미 태깅 단계

를 포함하는 의미 태깅 방법.

제 6 항에 있어서,

상기 제 1 형태소는 술어 성분이며,

상기 제 2 형태소는 명사 성분인 의미 태깅 방법.

제 7 항에 있어서,

상기 하위 범주화 데이터 베이스는, 하위 범주의 의미 코드와 확장조사 리스트 데이터 베이스를 더 포함하는 의미 태깅 방법.

제 8 항에 있어서,

상기 순위 결정 단계는 상기 하위 범주의 의미코드와 시소러스 데이터 베이스의 개념코드간의 평균거리에 기초하여 순위를 결정하는 의미 태깅 방법.

제 8 항에 있어서,

상기 수동 의미 태깅 단계는 사용자에게 자동 의미 태깅된 문장, 시소러스 데이터 및 하위범주 데이터를 디스플레이하는 의미 태깅 방법.

说明书全文

어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법{A Lexical Sense Tagging Device for Word Sense Disambiguation A Method Thereof}

본 발명은 기계번역, 정보검색, 자연어 인터페이스 등의 응용 시스템 구현 전반에 걸쳐 한국어 어휘의 중의성 해소에 사용될 수 있는 의미 태깅 장치 및 의미 태깅 방법에 관한 것이다.

종래 기술에 있어서, 한국어 어휘 의미에 관한 연구는 주로 형태소, 구문 분석시의 트리 선택 등과 같은 중의성 해소를 위한 목적이나, 제한 영역을 대상으로 하는 담화 분석 시스템 그리고 정보 검색에서 어휘가 갖는 중의성을 분류 문제(Classification Problem)로 간주하여 해결하고자 하는 시도 등이 있었다. 또한 WordNet을 기반으로 하여 한국어 어휘의 중의성 해소를 시도하려는 연구와 국어 사전의 용례를 기반으로 한국어의 의미 계층 체계를 구축하려는 연구 및 의미격의 분류와 신경회로망을 이용한 의미 중의성 해소 방법등도 연구되고 있다.종래 기술에 있어서도, 원시 코퍼스(Raw Corpus)를 이용하여 명사를 정의된 의미범주에 할당하는 클러스터링(clustering) 알고리즘의 연구가 있었지만, 어휘의 의미로서 정의된 범주가 필요에 따라 경험적으로 설정되고, 실험 대상 어휘도 소규모이기 때문에 연구 결과의 일반적인 활용에는 무리가 있다. 반면 수작업에 의한 의미태깅(Sense Tagging) 연구의 경우는 상당한 노력이 필요한 문제가 존재하고 있다.예를 들어, 자동화된 태깅은 프로그램을 통해 의미를 정확히 해석해내기가 힘들 뿐 아니라 구문적 애매성을 동시에 고려해야 하기 때문에 현시점에서는 거의 불가능하다. 또한 수작업으로 태깅을 수행하는 것은 태그셋이 방대하기 때문에 의미 태깅을 수행하는 작업자마다 태깅한 개념이 상이하거나 오류가 있을 개연성이 높아서 적절치 못하다.

따라서, 본 발명은 전술한 목적을 해소하기 위하여, 실제로 사용되는 대규모의 말뭉치로부터 의미에 관한 통계적인 데이터를 용이하게 획득할 수 있도록 시스템이 어휘의 의미와 문장의 의존 구조 후보를 제시하고 작업자가 용이하게 이를 선택할 수 있는 반자동적인 의미 태깅 장치와 태깅 방법을 제공하는 것을 목적으로 한다.

더욱 구체적으로는, 본 발명은 한국어 문장의 의미 태깅을 수행하는 방법으로서, 형태소 태깅된 말뭉치를 하위범주화 데이터베이스와 시소러스 데이터베이스를 이용하여 의미적 선택 제약을 바탕으로 일차적인 애매성 해소(Word Sense Disambiguation; WSD)를 하여 명사와 술어의 개념을 후보로서 작업자에 제시하도록 하고, 이 후보 중에서 작업자가 적절한 개념을 선택하여 태깅하는 반자동적인 방식을 사용하고 있다.

형태소 태깅의 경우 제한된 태그 셋을 가지고 몇가지 품사적 애매성을 작업자가 해소하는 것과 비교해 보면, 의미 태깅은 어휘 개수만큼 방대한 태그셋에는 유사한 의미를 같는 태그가 상당히 많으므로 적절한 태그를 어휘의 개념으로 선택하기가 더욱 힘들고, 또한 특정 개념이 태그로서 유효하다면 시소러스 계층상에서 이 개념의 상위 노드들이 모두 태그로서 유효하기 때문에, 이를 구분하는 작업자의 부담이 상당히 크고 오류의 가능성도 높다고 할 수 있다. 따라서 어휘 의미의 선택에 있어 작업의 효율성 제고와 일관성을 유지하기 위해 자동화된 후보제시 장치를 개발하는 것이 본 발명의 더욱 구체적인 과제이다.

도 1은 본 발명의 실시예에 따른 의미 태깅 장치를 도시한 블럭도.

도 2는 본 발명의 실시예에서 술어 및 조사간의 구체적인 동작과 흐름을 Pseudo Code로 기술한 프로그램 코드의 예시를 도시한 도면.

도 3은 본 발명의 실시예에서 이용되는 하위범주 데이터베이스 구조도.

도 4은 본 발명의 실시예에서 이용되는 의미코드를 구비한 시소러스 데이터베이스 구조도.

도 5은 시소러스 데이터베이스 계층 구조의 하나의 예시를 도시한 계층도.

도 6은 본 발명의 실시예에서 이용되는 복수개의 상위 개념을 갖는 노드를 관리하는 별도의 데이터베이스의 구조도.

도 7은 본 발명의 실시예에 따른 수동 의미 태깅 장치가 디스플레이 할수 있는 예를 도시한 도면.

전술한 기술적 과제를 달성하기 위한 본 발명의 의미 태깅 장치는, 원시 코퍼스 데이터 베이스로부터 제공된 말뭉치의 복수의 형태소들을 해석하여 추출하는 전처리 수단과; 상기 추출된 형태소들을 재배열하고, 하위범주화 데이터 베이스를 참조하여 제 1 형태소와 그 하위 범주사이의 의존관계를 매칭시키는 의존관계 매칭 수단과; 시소러스 데이터와 상기 매칭된 의존관계를 참조하여 제 2 형태소에 적용가능한 의미를 제공하는 의미 매칭 수단과; 전체 문장의 의존 구조에 기초하여 상기 매칭된 의존관계중에서 적합한 의존관계만을 선택하는 여과 수단과; 상기 여과된 의존 관계들의 순위를 결정하는 순위 결정 수단과; 상기 순위 결정된 의존관계에 따르는 의미 태깅을 사용자에게 제공하여 정정 및 선택할수 있도록하는 수동 의미 태깅 수단을 포함한다.여기서, 상기 제 1 형태소는 술어 성분이며, 상기 제 2 형태소는 명사 성분인 것이 바람직하다.또한, 본 발명의 의미 태깅 장치에서 상기 하위 범주화 데이터 베이스는, 하위 범주의 의미 코드와 확장조사 리스트 데이터 베이스를 더 포함할 수 있으며, 상기 순위 결정 수단은 상기 하위 범주의 의미코드와 시소러스 데이터 베이스의 개념코드간의 평균거리에 기초하여 순위를 결정할 수 있다.또한, 상기 수동 의미 태깅 수단은 사용자에게 자동 의미 태깅된 문장, 시소러스 데이터, 하위범주 데이터를 디스플레이상에 제공한다.도 1은 본 발명의 실시예에 따른 의미 태깅 장치를 도시한 블록도이다.본 발명의 실시예에 따� � 의미 태깅 장치는 전처리 장치(100), 하위 범주 파악 장치(200), 여과 장치(300), 순위 결정 장치(400), 수동 의미 태깅 장치(500)을 포함한다.

상기 전처리 장치(100)은 다수의 말뭉치들이 저장된 원시 코퍼스 데이터 베이스(Raw corpus DB)에서 말뭉치를 획득하여, 상기 말뭉치의 형태소를 해석하고, 술어 및 보어 후보를 해석하여 추출하게 된다.하위 범주 파악 장치(200)에서는 상기 해석된 형태소를 기초로 하여 의존 관계와 명사의 의미 매칭 작업을 수향하는 의존관계 매칭 수단과 명사 의미 매칭 수단을 더 포함할 수 있다. 상기 재배열은 술어를 중심으로 행하여지며, 해당 술어의 하위 범주 패턴을 하위 범주화 데이터 베이스(210)에서 추출하고 표층 조사를 기준으로 술어와 명사간의 가능한 의존 관계를 탐색한다. 상기 의존관계 탐색 과정후 명사의 의미 매칭에 있어서, 시소러스 데이터 베이스(220)과 확장 조사 리스트 데이터 베이스(230)을 참조할 수 있다.여과 장치(300)에서는 탐색된 하위 범주중에서 적합한 하위 범주 관계를 필터링하고, 순위 결정 장치(400)는 여과된 후보중에서 순위를 결정하여 제공한다.수동 의미 태깅 장치(500)에서는 상기 순위 결정 장치에서 생성된 자동 의미태깅된 문장 DB(510) 및 하위 범주 DB와 상기 시소러스 DB의 자료를 사용자에게 제공하고 사용자는 그래픽 유저 인터페이스(GUI)와 같은 응용프로그램을 통해 작업을 하여 새로운 의미태깅된 문장 DB를 생성하게 된다.이하, 본 발명의 실시예의 각각의 구성 요소에 대해서 더 상세히 설명한다.본 발명의 의미 태깅 장치는 기본적으로 하위범주화 데이터베이스와 시소러스 데이터베이스간의 개념 정합을 이용한 선택 제약에 의한 방법을 이용한다. 여기에는 문장에 대해 술어를 중심으로 한 의존 관계를 파악하여 절로 구분하는 과정이 필수적이다.도 2는 본 발명의 실시예에서 술어, 조사간의 구체적인 동작과 흐름을 Pseudo Code로 기술한 하나의 예시를 도시한다. 도 2에 도시된 바와 같이 본 실시예는 전처리 과정, 의미 매칭 과정, 필터링 과정, 디스플레이 과정을 거치게 된다.본 발명의 실시예는 먼저 문장의 형태소 태깅 결과로부터 술어와 명사 성분들을 추출하고, 이를 술어를 중심으로 재배열한다.도 3은 본 발명의 실시예에 따른 하위범주화 데이터 베이스를 도시한 테이블 도이다.재배열 과정은 우선 해당 술어의 하위범주 패턴들을 도 3과 같은 하위범주화 데이터베이스(210)에서 추출하고, 표층 조사를 기준으로 술어와 명사간의 가능한 의존 관계를 찾아내는 것이다. 상기 하위 범주화 데이터 베이스(210)은 용원의 품사, 패턴 ID, 참고 색인, 피동 및 사역정보 원형 정보등에 대한 정보를 포함한다. 또한, 표층 조사는 대표 조사만이 아니라 확장 조사 리스트 데이터베이스를 활용한다. 한 패턴에는 2~4개 정도의 하위범주 성분이 있고, 각각의 하위범주 성분에 정합 가능한 명사들은 복수개가 있을 수 있다. 이들 중 한 명사의 개념을 시소러스 데이터베이스에서 탐색하게 된다.도 4는 본 발명의 실시예에 따른 시소러스 데이터 베이스를 도시한 테이블 도이다.예를들어, 도 4에서 '극'이라는 명사가 각각 다른 상위어를 가지고 있는 것과 같이 복수개의 개념에 대응하는 경우도 발생한다. 시소러스에서 탐색된 개념을 패턴의 대응하는 하위범주의 의미 마커와 상하위 관계로 정합시키는 작업은 하위범주파악장치(200)에서 수행된다.

문장내의 모든 술어에 대해 가능한 의존 관계들을 찾아내게 되면, 이들 중에서 가장 적절한 의존 관계들만을 선택하는 작업은 여과 장치(300)에서 수행된다. 즉 명사가 여러 개의 술어에 걸리는 문제가 발생하거나 하위범주 성분을 갖지 못하는 술어가 가급적 없도록 문장 전체의 의존 구조를 결정하는 것이다.

이렇게 얻어진 문장 전체에 대한 술어들과 하위범주 성분들 간의 의존 구조가 최종적으로도 복수개가 있다면 그 중 하나만을 작업자에게 제시하여야 하므로 순위 결정장치(400)가 필요하다. 순위 결정은 경험적으로 각 술어가 갖는 하위범주 성분의 개수가 비교적 편차가 없이 균일한 것을 우선적기준으로 한다. 다음, 하위범주 패턴의 의미 마커와 시소러스 사전의 개념 코드간의 평균 개념 거리가 가까운 것을 그 다음 기준으로 한다. 평균 개념 거리는 시소러스 계층 구조에서 상호간의 깊이 차이를 말하는 것으로 계산의 편의를 위해 도 4에 도시된 바와 같이 시소러스를 접두어식 의미마커로 설계하였으므로 쉽게 계산된다. 또한 시소러스 계층 구조도를 나타낸 도 5에서 볼 수 있듯이 시소러스 계층은 트리 구조가 아니라 상위노드가 복수개 대응될 수 있는 그래프 형태가 일반적이다.따라서, 복수개의 상위 개념을 갖는 노드를 도 6과 같이 별도의 데이터베이스로 관리하고 의미코드도 '*0l '*0m'과 같이 '*'로 시작하게 함으로써 다른 명사와 구분지어 정합 때 참조할 수 있도록 하였다.

만일 보어 성분이 될 만한 표층 조사를 가진 명사구가 어떤 술어에도 하위범주로 할당되지 못하는 경우가 생기면, 표층 조사에 부합하는 하위범주나 술어의 미정합된 하위범주를 대상으로 다시 정합 여부를 검사한다. 이때의 정합은 상하위 정합이 이미 실패한 상황이므로, 개념 거리를 기준으로 한 정합이다.

이러한 방법을 통해 말뭉치에 수록된 보어 성분의 명사에 적절한 개념 후보를 제시해 준다. 그러나 이 후보가 항상 정확한 것은 아니므로 시소러스에 수록된 그 명사의 동음이의 관계의 개념들을 그 다음에 나열하고, 또한 하위범주 패턴의 해당 보어 슬롯에 기술된 의미 마커들을 이후에 추가하여 사용자에 제시하게 된다. 시소러스에 포함된 개념이 하위범주의 의미 마커보다 개념 계층의 하위 노드인 경우가 일반적이므로, 이러한 순서는 정합을 통한 개념을 1순위, 보다 구체적인 개념이 2순위, 광범위한 상위 개념이 3순위의 형태를 갖고 제시하게 되는 것이다.

이런 자동적인 개념 선택 과정에서 오류 발생이 일어날 수 있으므로 수작업으로 확인할 수 있는 장치가 필요하다. 의미 정보를 수작업에 의해 부가하는 것은 작업자 개인의 경험에 따라 많은 편차가 있을 우려가 있으므로, 일관성을 유지하기 위해 적절한 후보들을 제시해 주는 도구 시스템의 개발이 필요하다.도 7은 본 발명의 실시예에 따른 수동 의미태깅장치 부분을 구체적으로 도시한 것이다.자동태깅된 문장 데이터베이스를 문장 단위로 화면에 제시하도록 하였다. 수작업자는 태깅된 결과 중 잘못된 부분을 수정하면 된다. 작업의 편의를 위해 형태소 태깅된 결과를 에디트 상자(530)에 출력한다. 예를 들어 동사 "타고" 를 클릭하면 하위범주화 데이터베이스 뷰어(540)를 통해 가능한 하위범주 패턴들이 하단에 출력되고, 이에 따라 관련된 보어 성분의 후보들의 열이 색깔로 구분되어 출력된다. 이들 중 실제 보어에 해당 하는 부분들을 클릭하여 시소러스 뷰어를 참고로 하여 개념 정보등을 부여하면 앞서 클릭된 술어와의 의존 관계가 '의존관계' 필드(531)에 출력된다. 술어가 피동형 등이어서 하위범주 패턴에 변형 규칙이 적용된다면 그 정보가 '문형' 필드(534)에 나타난다. '의미역' 필드(532)는 하위범주 패턴이 최종 결정될 때, 하위범주 데이터베이스를 통해 부여되는 격 정보이다.

수정 작업이 끝나면, 자동 태깅된 결과가 올바를 경우 그대로 그 정보가 남아있고 잘못되었을 경우 올바른 보어-술어 의존 구조가 파악되고, 각 보어 성분의 의미적 역할과 개념 정보가 부여되며, 술어에는 하위범주 패턴정보를 통해 술어의 의미정보가 기술된다.도 7에 도시된 바와 같이, 처리 필드(535)에 'M'으로 표시된 수작업된 형태소 "타다"는 하위범주 데이터 ID 5647에서 5653으로 수정될 수 있을 것이다.

이상에서 상술한 바와 같은 본 발명의 구성에 의한, 반자동적인 태깅 방법은 작업자의 부담을 줄이고, 일관성을 유지하기 위해 자동적인 개념 후보를 제시해 주기 때문에 어휘 의미의 애매성 해소 및 의존 구조 용이하게 결정할 있는 효과를 구비한다.

또한, 의미 태깅된 말뭉치가 통계적으로 유의한 수준으로 확보된다면, 이를 통해 하위범주와 의미 마커, 개념 정보 등에 대한 다양한 빈도 값을 추출할 수 으므로, 이러한 통계 정보를 이용하면 구분 분석 과정에서의 구조 애매성을 해결하거나 의존 구조 해석에서 의미적 역할을 파악하는데 유용하게 사용될 수 있을 것이며, 어휘 의미의 다의성을 해결하는 주요한 데이터로 사용될 수 있는 현저한 효과를 기대할 수 있다.

标题	发布/更新时间	阅读量
基于关联数据的自治数据湖构建系统及方法	2020-05-08	75
一种基于依存约束和知识的副词词义消歧方法和装置	2020-05-15	607
基于CRP聚类的词语多原型向量表示及词义消歧方法	2020-05-18	801
基于图像和文本语义相似度的图像语义消歧方法和装置	2020-05-20	53
一种信息处理的方法及服务器	2020-05-20	407
一种面向工程应用的领域语义网建模方法	2020-05-22	476
一种基于机器学习的中文商业文本预处理方法	2020-05-12	318
用于计算机学习和理解的体系结构和方法	2020-05-17	49
一种基于概念的语义识别方法及装置	2020-05-19	649
一种基于依存约束和知识的动词词义消歧方法和装置	2020-05-26	616

어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법

어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법{A Lexical Sense Tagging Device for Word Sense Disambiguation A Method Thereof}

该功能需要专业版企业版VIP权限，您可以：