데이터베이스에서의 지식 탐사를 위한 개념계층 자동생성방법专利检索-数据库知识发现人工智能专利检索查询-专利查询网

데이터베이스에서의 지식 탐사를 위한 개념계층 자동생성방법

阅读：444发布：2020-12-10

专利汇可以提供데이터베이스에서의 지식 탐사를 위한 개념계층 자동생성방법专利检索，专利查询，专利分析的服务。并且PURPOSE: A method for automatically generating a concept class for a knowledge discovery in a database is provided to concentrate knowledges used for a knowledge discovery in a database by automatically generating a concept hierarchy using various information included in the database. CONSTITUTION: A set of a functional dependency is arrayed in ascending series(S10). The number of a value which a lower concept has is compared with a critical value(S11¯S14). It is judged whether an extendable upper/lower relationship exists as a functional dependency(S15¯S17). It is judged whether the set of the functional dependency is an empty set(S18¯S19).，下面是데이터베이스에서의 지식 탐사를 위한 개념계층 자동생성방법专利的具体信息内容。

权利要求

함수 종속성으로부터 개념 계층을 자동 생성하는 방법에 있어서,

함수 종속성 집합으로부터 해당 속성이 가지는 서로 다른 값의 크기에 따라 정렬하고 임계값을 주는 제 1 단계와,

하위 개념을 상위 개념으로 매핑한 후 상위 개념과 하위 개념이 가지는 값의 개수를 임계값과 비교하여 하위 개념이 상위 개념으로 얼마나 일반화되었는 지를 판단하여 일반화된 상위 개념을 미리 정의된 개념 계층과 병합하는 제 2 단계와,

상기 개념 계층을 확장할 수 있는 상하위 관계가 함수 종속성으로 존재하는 지를 알아보는 제 3 단계와,

상기 함수 종속성 집합이 공집합이 될 때까지 상기 제 2 단계와 제 3 단계를 반복 수행하는 제 4 단계를 포함한 것을 특징으로 하는 데이터베이스에서의 지식 탐사를 위한 개념계층 자동 생성방법.

유사 함수 종속성으로부터 개념 계층을 자동 생성하는 방법에 있어서,

후보 함수 종속성 집합과 준비 함수 종속성 집합을 정의하는 제 1 단계와,

속성 집합으로부터 얻어진 후보 함수 종속성 집합에 대해 함수 종속성을 가지는 지의 여부를 판단하여 준비 함수 종속성 집합을 생성하는 제 2 단계와,

상기 준비 함수 종속성 집합을 이용하여 개념 계층을 자동 생성하는 제 3 단계를 포함한 것을 특징으로 하는 데이터베이스에서의 지식 탐사를 위한 개념계층 자동 생성방법.

제 2 항에 있어서, 제 2 단계는, 상기 속성 집합에 대하여 서로 다른 값이 몇 개인 지를 결정한 다음 서로 다른 값의 개수에 따라 각 속성을 오름차순으로 정렬하고 각 속성 사이에 반순서관계를 정하여 후보 함수 종속성 집합을 생성하고, 상기 함수 종속성을 가지는 후보 함수 종속성을 준비 함수 종속성 집합에 포함하는 것을 특징으로 하는 데이터베이스에서의 지식 탐사를 위한 개념계층 자동 생성방법.

제 2 항 또는 제 3 항에 있어서, 제 3 단계는, 준비 함수 종속성 집합으로부터 해당 속성이 가지는 서로 다른 값의 크기에 따라 정렬하고 임계값을 주는 제 1 소단계와,

하위 개념을 상위 개념으로 매핑한 후 상위 개념과 하위 개념이 가지는 값의 개수를 임계값과 비교하여 하위 개념이 상위 개념으로 얼마나 일반화되었는 지를 판단하여 일반화된 상위 개념을 미리 정의된 개념 계층과 병합하는 제 2 소단계와,

상기 개념 계층을 확장할 수 있는 상하위 관계가 함수 종속성으로 존재하는 지를 알아보는 제 3 소단계와,

상기 준비 함수 종속성 집합이 공집합이 될 때까지 상기 제 2 소단계와 제 3 소단계를 반복 수행하는 제 4 소단계를 포함한 것을 특징으로 하는 데이터베이스에서의 지식 탐사를 위한 개념계층 자동 생성방법.

说明书全文

데이터베이스에서의 지식 탐사를 위한 개념계층 자동 생성방법 {Method for automatic generation of concept hierarchy for knowledge discovery in database}

본 발명은 데이터베이스로부터의 정보를 이용하여 개념 계층을 자동으로 생성하는 방법에 관한 것으로서, 보다 상세하게 설명하면 속성 집합간의 종속성을 나타내는 함수 종속성을 이용하여 개념 계층을 자동으로 생성하는 방법에 관한 것이다. 또한, 본 발명은 데이터의 분포를 분석하여 확률적으로 어느 정도의 함수 종속성을 가지는 유사 함수 종속성을 찾아내어 개념 계층을 자동으로 생성하는 방법에 관한 것이기도 하다.

데이터베이스에서의 지식 탐사란 대용량의 단편적인 데이터베이스에서 유용한 정보를 추출하여 이용하는 일련의 과정을 일컫는 용어이다. 이 지식 탐사는 대용량의 데이터로부터 기존의 알려지지 않은 숨겨진 형태의 유용한 정보를 찾아내고, 이를 바탕으로 데이터에 대한 통찰을 얻고자 하는 것이 목적이다. 이러한 지식 탐사의 과정에서 배경 지식은 중요한 역할을 한다. 지식 탐사는 대용량의 데이터를 대상으로 하기 때문에 많은 계산을 필요로 하고, 결과로 얻은 지식의 질을 향상시키기 위해서는 배경 지식을 사용함으로써 지식을 찾는 데 필요한 탐색 공간을 줄이고, 탐색의 결과로 보다 흥미로운 지식을 얻을 수 있게 된다. 이러한 배경 지식으로는 데이터의 형태나 내용, 데이터베이스에 의해 저장될 때의 영역, 탐사 내용 등이 있다.

배경 지식의 대표적인 예가 개념계층이다. 개념계층이란 개념 공간상에 존재하는 개념들을 단계에 따라 가장 일반적인 개념에서 그에 대응되는 구체적인 개념 순으로 나열한 것이다. 즉, 개념계층에서 부모와 자식간의 관계는 일반화된 상위개념과 그 상위개념에 대응되는 상세화된 하위개념들과의 관계이다. 개념 계층이 지식 탐사에서 대표되는 배경 지식으로 사용되는 이유는 그 형태가 간단하고 지식 탐사 결과의 일반화 과정에 적합하기 때문이다.

일반적으로, 많은 지식 탐사 연구에서 영역 전문가나 지식 공학자에 의해서 주어지는 개념 계층을 배경 지식으로 사용한다. 이러한 개념 계층에 관한 종래의 두 가지 연구들을 살펴보면 다음과 같다.

먼저, Han과 Fu는 개념 계층을 데이터베이스에 있는 데이터의 분포에 따라서 정제하는 방법과 수치정보로 이루어진 속성에 대해서 개념 계층을 자동으로 생성하는 방법에 관해 설명한다. 즉, 배경 지식으로 사용되는 개념 계층이 데이터베이스 상에서 나타나는 실제 데이터들의 분포에 따라서 특정 데이터마이닝 작업에 적합한 형태로 동적으로 정제하며, 또한 값의 영역이 수치인 속성에 대해서 개념계층을 자동으로 생성하는 방법을 제시한다.

이 Han과 Fu가 제안한 동적 정제방법을 살펴보면, 개념 계층이 주어졌을 때, 동일한 레벨에서는 되도록 동일한 데이터의 분포를 가지는 것이 바람직하다. 즉, 데이터의 분포에 따라 출현빈도가 비교적 많은 노드들은 상위 레벨에 위치하도록 하고, 출현 빈도가 비교적 낮은 노드들은 합병하여 동일한 레벨에서는 동일한 데이터의 분포를 가지도록 정제하는 방법을 제안한다. 또한, Han과 Fu는 수치영역에서 개념 계층을 자동으로 생성하는 방법을 제안하였는데, 역시 데이터의 분포에 따라 동일한 데이터 분포를 가지도록 영역을 나누는 방법을 사용한다.(참고문헌 : Han and Y.Fu, "Dynamic Generation and Refinement of Concept Hierarchies for Knowledge Discovery in Database", AAAI'94 Workshop on Knowledge Discovery in Databases(KDD'94), pp157-168, July 1994 )

이와는 달리 Lu는 개념 계층을 스키마 계층구조, 집합 그룹 계층구조(Set-grouping Hierarchy), 규칙 기반 계층구조(Rule-based Hierarchy)로 나누고, 지금까지 각 연구에서 사용한 개념 계층을 정리하여 분류하고 각각의 경우에 대해서 보다 상세하게 설명한 논문을 발표하였다. 또한, 상기의 Han과 Fu의 논문에서 문제로 제시한 문자적인 영역에 관한 개념 계층을 자동으로 생성하는 방법을 제시하였다. 그러나 이 방법은 단순히 값의 개수에 따라 상, 하위 개념으로 나누어서 의미적인 요소가 부족한 단점이 있다.

또한, 이 Lu의 논문에서는 Han과 Fu가 제시한 수치 영역에서의 개념 계층 생성방법을 확장하여 계층적 클러스터링 방법을 사용한 알고리즘과 분할적 클러스터링 방법을 사용한 알고리즘을 제시하였으며, 구현 기술에 대해 비교적 자세히 언급하고 있다. 그러나 이 방법은 문자 정보로 이루어진 속성에 대해서 단순히 속성이 가지는 서로 다른 값의 개수만 비교한 방법이다. (참고문헌 : YiJun Lu, "Concept Hierarchy in Data Mining: Specification, Generation and Implementation", MS. These, Simon Fraser University, 1997 )

따라서, 본 발명은 상기한 종래기술의 문제점을 해결하기 위하여 안출된 것으로서, 데이터베이스에 내재된 다양한 정보를 이용하여 개념 계층을 자동으로 생성함으로써, 데이터베이스에서의 지식 탐사를 위해 사용되는 배경 지식을 개념 계층에 집중시키고 이를 지식베이스로 활용하여 보다 지능적인 지식 탐사를 수행할 수 있도록 하기 위한 것이다.

도 1은 본 발명의 한 실시예에 따른 함수 종속성으로부터 개념계층을 자동으로 생성하는 방법을 도시한 흐름도,

도 2는 본 발명의 다른 실시예에 따른 유사 함수 종속성으로부터 개념계층을 자동으로 생성하는 방법을 도시한 흐름도이다.

상기한 목적을 달성하기 위한 본 발명에 따르면, 함수 종속성으로부터 개념 계층을 자동 생성하는 방법에 있어서, 함수 종속성 집합으로부터 해당 속성이 가지는 서로 다른 값의 크기에 따라 정렬하고 임계값을 주는 제 1 단계와, 하위 개념을 상위 개념으로 매핑한 후 상위 개념과 하위 개념이 가지는 값의 개수를 임계값과 비교하여 하위 개념이 상위 개념으로 얼마나 일반화되었는 지를 판단하여 일반화된 상위 개념을 미리 정의된 개념 계층과 병합하는 제 2 단계와, 상기 개념 계층을 확장할 수 있는 상하위 관계가 함수 종속성으로 존재하는 지를 알아보는 제 3 단계와, 상기 함수 종속성 집합이 공집합이 될 때까지 상기 제 2 단계와 제 3 단계를 반복 수행하는 제 4 단계를 포함한 것을 특징으로 한다.

또한, 본 발명에 따르면 유사 함수 종속성으로부터 개념 계층을 자동 생성하는 방법에 있어서, 후보 함수 종속성 집합과 준비 함수 종속성 집합을 정의하는 제 1 단계와, 속성 집합으로부터 얻어진 후보 함수 종속성 집합에 대해 함수 종속성을 가지는 지의 여부를 판단하여 준비 함수 종속성 집합을 생성하는 제 2 단계와, 상기 준비 함수 종속성 집합을 이용하여 개념 계층을 자동 생성하는 제 3 단계를 포함한 것을 특징으로 한다.

양호하게는, 제 2 단계는, 상기 속성 집합에 대하여 서로 다른 값이 몇 개 인 지를 결정한 다음 서로 다른 값의 개수에 따라 각 속성을 오름차순으로 정렬하고 각 속성 사이에 반순서관계를 정하여 후보 함수 종속성 집합을 생성하고, 상기 함수 종속성을 가지는 후보 함수 종속성을 준비 함수 종속성 집합에 포함하는 것을 특징으로 한다.

보다 양호하게는, 제 3 단계는, 준비 함수 종속성 집합으로부터 해당 속성이 가지는 서로 다른 값의 크기에 따라 정렬하고 임계값을 주는 제 1 소단계와, 하위 개념을 상위 개념으로 매핑한 후 상위 개념과 하위 개념이 가지는 값의 개수를 임계값과 비교하여 하위 개념이 상위 개념으로 얼마나 일반화되었는 지를 판단하여 일반화된 상위 개념을 미리 정의된 개념 계층과 병합하는 제 2 소단계와, 상기 개념 계층을 확장할 수 있는 상하위 관계가 함수 종속성으로 존재하는 지를 알아보는 제 3 소단계와, 상기 준비 함수 종속성 집합이 공집합이 될 때까지 상기 제 2 소단계와 제 3 소단계를 반복 수행하는 제 4 소단계를 포함한 것을 특징으로 한다.

이하, 첨부된 도면을 참조하면서 본 발명의 한 실시예에 따른 "데이터베이스에서의 지식 탐사를 위한 개념계층 자동 생성방법"을 상세하게 설명하면 다음과 같다.

데이터베이스에서의 지식 탐사에 적용하기 위한 개념 계층을 자동 생성하는데 필요한 정보는 데이터베이스 테이블에 함축적인 형태로 존재한다. 이러한 형태의 가장 단순한 경우는 스키마 상에서 나타나는 경우인데, 예를 들어 태어난 곳(도시, 도, 나라)과 같은 데이터베이스 테이블이 있다고 가정할 때, 도시<도<나라와 같은 개념들 사이의 상하위 관계가 존재한다. 따라서, 본 발명에서는 데이터베이스 테이블의 구조적인 정보와 데이터의 분포를 개념 계층 생성에 활용함으로써 데이터베이스에 내재된 데이터간의 정보를 배경 지식으로 사용하여 데이터베이스의 현재의 상태를 잘 반영하는 개념 계층을 생성할 수 있도록 한다.

도 1은 본 발명의 한 실시예에 따른 함수 종속성으로부터 개념 계층을 자동 생성하는 방법을 도시한 흐름도이고, 도 2는 본 발명의 한 실시예에 따른 유사 함수 종속성으로부터 함수 종속성을 생성한 다음 개념 계층을 자동 생성하는 방법을 도시한 흐름도이다.

함수 종속성으로부터 개념 계층을 생성하는 방법은 함수 종속성의 집합(F)을 오름차순으로 정렬하는 단계(S10)와, 주어진 임계값으로 하위 개념이 가지는 값의 개수를 임계값과 비교하는 단계(S11 ∼ S14)와, 확장 가능한 상하위 관계가 함수 종속성으로 존재하는 지를 알아보는 단계(S15 ∼ S17)와, 함수 종속성의 집합 F가 공집합인 지의 여부를 알아보는 단계(S18 ∼ S19)로 이루어진다.

도 1을 참조하면, 단계 S10은 주어진 함수 종속성을 해당 속성이 가지는 서로 다른 값의 크기에 따라 정렬하고 임계값을 주는 단계이다. 함수 종속성 집합 F = {Fi} (Fi = ai→bi)의 a와 b는 각각 테이블의 각 컬럼을 나타내며, a→b는 함수 종속성의 관계에 있으며, 일대일 또는 다대일의 관계를 가진다. 이는 개념 계층의 일반화, 상세화의 순서관계와 유사하며 b를 a의 상위 개념으로 만들 수 있다. 도 1의 단계 S10에서 bi에 해당하는 속성이 가지는 값의 크기 |bi| 란 속성 bi 가 가지는 서로 다른 값의 수를 의미한다. 이렇게 하는 것은 서로 다른 값의 개수가 적은 항목이 상위 개념에 해당하는 항목이 되고, 서로 다른 값의 개수가 많은 항목이 하위 개념에 해당하기 때문이며, 이것은 개념 계층의 모양(일반적으로 트리의 형태)에서 얻을 수 있는 직관에서 나온 것이다.

각 함수 종속성 요소 Fi에 해당하는 임계값(T = Ti)이란 하위 개념이 상위개념으로 얼마나 일반화되었나를 나타내는 수치이며 사용자에 의해 주어지는 값이다. 이 임계값은 상위개념에 해당하는 속성의 서로 다른 값의 개수와 하위 개념에 해당하는 항목이 가지는 서로 다른 값의 개수의 비로 나타난다.

단계 S11은 i를 초기화하는 단계이고, 단계 S12는 bi를 ai의 상위개념으로 매핑하는 단계이다. 단계 S13은 상위개념과 하위개념이 가지는 값의 개수를 임계값과 비교하여, 하위개념이 상위개념으로 어느 정도 일반화되었는 지를 판단한다. |bi| / |ai| > |Ti| 가 상위 개념과 하위개념이 가지는 값의 개수를 임계값과 비교하는 수식이다. 단계 S13에서 임계값을 넘으면, 하위 개념이 가지는 서로 다른 값의 개수와 상위 개념이 가지는 서로 다른 값의 개수가 차이가 나지 않는 즉, 충분히 일반화되지 않았다고 판단하고, 단계 S14로 진행하여 속성 bi 에 대해 사용자에 의해서 주어진 개념 계층과 병합한 후 단계 S15로 진행한다.

한편, 단계 S13에서 임계값을 넘지 않으면, 단계 S15로 바로 진행한다. 이 단계 S15는 속성 ai가 오른쪽에 놓이는 함수 종속성이 F에 있는지 찾는 단계로써, 상위의 개념 계층의 아래에 붙여서 확장할 수 있는 상하위 관계가 함수 종속성으로 존재하는 지를 알아보는 단계이다. 단계 S16은 이러한 함수 종속성이 존재하는 지를 판단하는 단계인데, 만약 그런 함수 종속성이 존재한다면 i를 증가시키면서 단계 S12 내지 단계 S15를 반복하여 함수 종속성을 찾는다.

단계 S16에서 이러한 함수 종속성이 존재하지 않으면, 단계 S18에서 함수 종속성(F)이 공집합인 지의 여부를 판단한다. 공집합이 아니면 변수 i를 F에 있는 함수 종속성 중 가장 값은 값으로 두고, 함수 종속성의 집합이 공집합이 될 때까지 단계 S12 내지 단계 S18을 반복하여, 함수 종속성의 집합 F에 정의된 모든 함수 종속성에 대해서 개념 계층을 만든다.

본 발명의 다른 실시예에 따른 유사 함수 종속성으로부터 개념 계층을 자동으로 생성하는 방법은, 주어진 속성 집합으로부터 후보 함수 종속성 집합을 정의하는 단계(S21)와, 주어진 속성의 집합에서 각 속성에 대하여 서로 다른 값을 가지는 개수를 세어 반순서관계로 함수 종속성의 집합의 순서를 결정하는 단계(S23)와, 순서가 결정된 함수 종속성에 대해 함수 종속성을 가지는 지를 판단하는 단계(S24 ∼ S28)와, 함수 종속성이 결정된 집합을 도 1에 적용하여 개념 계층을 생성하는 단계(S29)로 이루어진다.

단계 S21은 무결한 함수 종속성을 가지는 것은 아니지만 어느 정도 확률적인 함수 종속성을 가질 가능성이 있는 속성간의 반순서관계의 집합을 후보 함수 종속성 집합(C)이라 두고, 후보 함수 종속성 집합 중에서 일정한 오류 범위 안에서 함수 종속성을 가진다고 판단되는 속성간의 반순서관계의 집합을 준비 함수 종속성 집합(P)이라고 정의하는 단계이다.

단계 S22는 이 후보 함수 종속성 집합(C)과 준비 함수 종속성 집합(P)을 공집합으로 초기화하는 단계이다. 단계 S23에서 주어진 속성집합(Ai)에서 각 속성에 대하여 서로 다른 값을 가지는 개수는 함수 종속성에서 왼쪽 편에 놓일 것인가 아니면 오른쪽 편에 놓일 것인가를 결정한다. 즉, 서로 다른 값의 개수가 많은 속성이 함수 종속성의 왼쪽 편에 놓이고 서로 다른 값의 개수가 적은 속성이 함수 종석성의 오른쪽 편에 놓이게 된다. 이는 함수 종속성 ai→bi 에서 ai가 가지는 서로 다른 값의 개수가 bi가 가지는 서로 다른 값의 개수보다 많거나 같다는 관찰에서 비롯된다.

단계 S24 내지 단계 S28은 후보 함수 종속성 집합(Ci)이 함수 종속성을 가지는 가를 판단하는 단계들이다. 단계 S25의 판단결과, 후보 함수 종속성 함수(Ci)가 함수 종속성을 가진다면 후보 함수 종속성 집합(C)에서 상기 Ci를 제외시키고 Ci를 개념 계층 생성을 위한 준비 함수 종속성 집합(P)에 포함시킨다(S26). 그러나, 단계 S25의 판단결과 후보 함수 종속성 함수(Ci)가 함수 종속성을 가지지 않는다면 후보 함수 종속성 집합(C)에서 상기 Ci를 제외시킨다(S27). 이러한 단계 S25 내지 단계 S27을 후보 함수 종속성 집합(C)이 공집합이 될 때까지 반복 수행한다(S28).

단계 S29는 준비 함수 종속성 집합(P)을 함수 종속성으로부터 개념 계층을 생성하는 알고리즘(도 1의 흐름도)에 적용하여 완성된 다중 개념 계층을 생성하는 단계이다.

이상에서 본 발명의 기술사상을 첨부도면과 함께 서술하였지만 이는 본 발명의 가장 양호한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술분야의 통상의 지식을 가진 자이면 누구나 본 발명의 기술사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.

상기와 같이 구성된 본 발명은, 함수 종속성과 유사 함수 종속성으로부터 개념 계층을 생성함으로써, 영역 전문가나 사용자에 의해 외부로부터 주어지는 것 이외에 데이터베이스에 내재된 데이터들 간의 구조적인 정보로부터 개념 계층을 생성할 수 있다. 또한 유사 함수 종속성이라는 개념을 사용함으로써, 데이터베이스 상에 나타나는 실세계의 반영인 데이터의 분포를 개념 계층으로 표현할 수 있게 된다. 또한 이를 자동생성 함으로써, 이전에는 시간이 많이 소모되고 성가신 작업이었던 대용량의 데이터베이스를 대상으로 하는 대규모의 개념 계층의 생성을 용이하게 할 수 있다.

标题	发布/更新时间	阅读量
基于PRMATC算法的知识库补全方法	2020-05-08	93
面向海量非结构化文本的知识图谱自动构建方法及系统	2020-05-08	688
一种基于机器学习的HTTP流量特征识别与提取方法	2020-05-11	651
一种基于知识图谱的辅助诊疗系统	2020-05-15	233
一种功能评估与干预系统	2020-05-11	127
一种云数据临床医学教育培训过程的形成性评价优化系统	2020-05-14	959
一种基于大数据的教师培养系统	2020-05-15	375
一种基于物联区块链技术的LNG能源管理的方法	2020-05-11	979
一种用于大型赛事赛时运行管理的系统及方法	2020-05-15	830
一种消防员体能训练考核管理系统	2020-05-08	936

데이터베이스에서의 지식 탐사를 위한 개념계층 자동생성방법

데이터베이스에서의 지식 탐사를 위한 개념계층 자동 생성방법 {Method for automatic generation of concept hierarchy for knowledge discovery in database}

该功能需要专业版企业版VIP权限，您可以：