首页 / 专利库 / 人工智能 / 人工神经网络 / 前馈神经网络 / 多层感知器 / 에치 엠 엠을 이용한 음성 인식장치 및 방법

에치 엠 엠을 이용한 음성 인식장치 및 방법

阅读:490发布:2020-12-17

专利汇可以提供에치 엠 엠을 이용한 음성 인식장치 및 방법专利检索,专利查询,专利分析的服务。并且PURPOSE: An apparatus for voice recognition using hidden Markov matrix and method thereof are provided to increase the efficiency of the voice recognition by using MLP(Multilayer Perceptron). CONSTITUTION: An apparatus for voice recognition using hidden Markov matrix includes a voice converter(10), a memory(40), a controller, a voice recognizer(20), and a voice output(60). The voice converter(10) converts the input analog voice signal to a PCM(Pulse Code Modulation) voice data. The memory(40) stores algorithm data to recognize the input voice signal. The controller controls the operation of the voice recognition. The voice recognizer(20) recognizes the voice considering weighting based on the voice recognition control signal which is applied from the controller. The voice output(60) outputs the recognized voice signal according to the control signal applied from the controller.,下面是에치 엠 엠을 이용한 음성 인식장치 및 방법专利的具体信息内容。

  • 음성 인식장치에 있어서, 입력되는 아날로그의 음성 신호를 PCM 음성 데이터로 변환하는 음성 변환수단과;
    입력되는 음성 신호를 인식하기 위한 알고리즘 데이터가 저장되는 메모리수단과;
    음성 신호 인식에 대한 운영 동작을 제어하는 제어수단과;
    상기 제어수단에서 인가되는 음성 인식 제어신호에 따라 상기 변환된 PCM 음성 데이터의 프레임 신호에 대하여 각 상태 유사도의 가중치를 고려하여 음성을 인식하는 음성 인식수단과;
    상기 제어수단에서 인가되는 제어신호에 따라 인식된 음성신호를 출력하는 음성출력수단을 포함하는 것을 특징으로 하는 에치 엠 엠을 이용한 음성 인식장치.
  • 제 1항에 있어서, 상기 음성인식수단은 PCM 음성 데이터에서 음성 인식에 필요한 특징 벡터인 켑스트럼과 켑스트럼의 시간 변화에 따른 변화량을 표시한 차감켑스트럼을 추출하는 신호처리부와;
    상기 추출된 음성신호의 특징 벡터를 훈련시켜 HMM의 상태 유사도를 추출하는 MLP와;
    연속밀도 함수의 각 상태별로 유사도에 대한 가중치가 설정되는 HMM으로 이루어지는 것을 특징으로 하는 에치 엠 엠을 이용한 음성 인식장치.
  • 제 2항에 있어서, 상기 MLP는 상기 추출된 켑스트럼 벡터를 독립적으로 훈련시켜 음소를 분류하기 위한 켑스트럼 벡터 훈련용 MLP와 차감켑스트럼 벡터를 독립적으로 훈련하여 음소 분류를 위한 차감켑스트럼 벡터 훈련용 MLP로 구성되며 서로 동일한 구조로 이루어지는 것을 특징으로 하는 에치 엠 엠을 이용한 음성 인식장치.
  • 제 2항 또는 제 3항중 어느 한 항에 있어서, 상기 MLP는 켑스트럼 벡터 훈련용 MLP와 차감켑스트럼 벡터 훈련용 MLP에서 출력되는 값을 HMM의 상태 유사도 가중치로 이용하기 위하여 출력되는 두개의 값을 각 노드별로 곱하여 HMM 상태의 유사도를 구하는 것을 특징으로 하는 에치 엠 엠을 이용한 음성 인식장치.
  • 제 3항에 있어서, 상기 켑스트럼 벡터 훈련용 MLP와 차감켑스트럼 벡터 훈련용 MLP는 입력층과 은닉층 및 출력층이 순서적으로 연결되어서 전체 3개층으로 구성되는 것을 특징으로 하는 에치 엠 엠을 이용한 음성 인식장치.
  • 음성 인식방법에 있어서, 입력되는 아날로그 음성 신호를 PCM 음성 데이터로 변환한 다음 HMM 상태 유사도의 가중치가 없는 HMM으로 훈련시키는 과정과;
    상기 변환된 PCM 음성 데이터 프레임에서 켑스트럼 벡터와 차감켑스트럼 벡터를 추출한 다음 복수개의 MLP를 통해 훈련시켜 음소를 분리하는 과정과;
    상기 MLP의 훈련을 통해 출력되는 값을 각 노드별로 연산하여 HMM의 상태 유사도 가중치를 추출하는 과정과;
    상기 가중치가 없는 HMM 훈련값과 상기 과정에서 추출된 HMM 상태의 유사도 가중치를 합한 다음 소정의 훈련을 통해 음성을 인식하는 과정을 포함하는 것을 특징으로 하는 에치 엠 엠을 이용한 음성 인식방법.
  • 제 6항에 있어서, 상기 가중치가 없는 HMM 훈련값과 상기 과정에서 추출된 HMM 상태의 유사도 가중치를 합한 다음 음성 인식을 위해 실행하는 훈련은 'back-propagation' 알고리즘을 이용하는 것을 특징으로 하는 에치 엠 엠을 이용한 음성 인식방법.
  • 제 6항에 있어서, 상기 가중치가 없는 HMM 훈련값과 상기 과정에서 추출된 HMM 상태의 유사도 가중치를 합한 다음 음성 인식을 위해 실행하는 훈련은 'HMM의 분별적 학습'을 이용하는 것을 특징으로 하는 에치 엠 엠을 이용한 음성 인식방법.
  • 说明书全文

    에치 엠 엠을 이용한 음성 인식장치 및 방법{Method And Apparatus for Voice Recognize of using Hidden Markov Model}

    본 발명은 음성 인식방법에 관한 것으로, HHM(Hidden Markov Model)을 이용한 음성 인식에서 연속밀도 HMM의 각 상태에서 유사도에 대한 값을 그 상태의 중요도에 따라 MLP(Multilayer Perceptron)를 이용한 가중치를 두어 HMM 스코어를 연산함으로써 음성 인식 성능을 향상시키도록 한 에치 엠 엠을 이용한 음성 인식장치 및 방법에 관한 것이다.

    일반적으로 기술의 발전과 사용자의 편리성 추구 및 보안성을 유지하기 위한 목적으로 교환 시스템이나 각종 제어장치 및 통제장치 등을 사용자의 음성을 이용하여 동작시키는 시스템등이 급격하게 상용화되고 있는 실정이나, 음성신호는 시간적으로 변화하는 신호적 특성을 갖고 있기 때문에 이러한 음성신호를 모델링하는 것은 그렇게 간단한 것이 아니다.

    따라서, 상기와 같이 시스템의 제어나 송수신되는 음성 데이터를 처리하기 위하여 입력되는 음성을 인식하는 방법이 많이 제안되어 활용되고 있는데, 이중에서 복잡한 음성신호의 특성을 비교적 간단하고 정확하게 모델링한다는 특성을 갖고 있는 HMM 방식이 주로 사용되고 있다.

    HMM방식에서 각 상태는 음성의 특성이 비교적 일정하게 유지되는 구간을 지칭하므로 각 상태를 표현하는 방식에 따라서 여러가지 다양한 형태의 HMM방식이 제안되는데, 이중에서 가장 널리 사용되는 표현방식은 연속밀도 HMM 방식이다.

    상기의 연속밀도 HMM방식은 음성에 담긴 주파수 스펙트럼을 모델링하는 과정에서 손실을 줄여주어 인식성능이 다른 여타의 방식에 비해 높은 장점이 있으나 가우시안(Gaussian) 밀도함수를 사용하는 관계로 계산에 많은 시간을 필요로 하는 단점이 있다.

    종래에 음성인식에서 사용되고 있는 연속밀도 HMM의 형태는 도 1에서 알 수 있는 바와 같이, 각각의 주파수 스펙트럼 특성을 갖는 N개의 상태와 자기 자신의 상태에서 반복되는 상태(a1 내지 an)로 이루어진다.

    상기한 연속밀도 HMM의 형태에서 상태 천이 확률과 각 상태별 출력 밀도 함수로 크게 구분되어 구성되는 HMM 파라메타가 가장 중요한 요소인데, 상태 천이 확률은 도 1에서 알 수 있는 바와 같이 상태 1에서 상태 N 번째까지의 각 상태에서 다른 상태로 가거나 또는 자기 자신의 상태에서 반복 될 확률(a1 내지 an)을 나타내는 것이다.

    또한, 상태별 출력 밀도 함수는 연속밀도 HMM을 구성하는 각각의 상태에서 발생하는 출력, 즉 음성신호로 부터 생성되는 특징은 켑스트럼 벡터들의 확률 분포를 나타낸 것으로, 이를 가우시안 혼합(Gaussian Mixture)으로 표현한다.

    가우시안 혼합은 가우시안 밀도 함수들의 합으로 나태내어 지는데, 특정한 특징 벡터에 대하여 이러한 가우시안 밀도 함수들의 합이 나타내는 확률 밀도 함수값이 유사도(likelihood) 값이 된다.

    따라서, 종래의 연속밀도 HHM을 이용한 방식에서 입력되는 음성을 인식할 때 발생하는 HMM 전체의 유사도 값은 각 주파수 스펙트럼의 특징에 따라 구성되는 각각 상태에서 발생하는 유사도 값의 합으로 표시한다.

    또한, 연속밀도 HMM을 이용한 음성인식에서 HMM을 구성하는 각 파라메타의 훈련방법은 통계학 분야에서 이론적으로 정립이 잘되어 있고 구현이 간단한 'maximun-likelihood' 방식을 주로 사용하고, 그중에서도 1970년대 초기에 개발된 'Baum-Welch' 방식을 많이 채택하여 사용하며, 최근에는 'Viterbi decoding' 방법을 이용한 'Segmental K-means' 방식도 사용되고 있다.

    HMM을 구성하는 각 파라메타의 훈련방법은 도 3에서 알 수 있는 바와 같이, 음성입력수단으로 부터 음성신호가 입력되면(S10) 입력되는 음성신호의 HMM 파라메타를 초기화한다(S20).

    이후, 훈련 알고리즘인 'Baum-Welch' 또는 'Segmental K-means' 등을 이용하여 미리 기준값으로 설정된 반복횟수, 통상적으로 5회 내지 10회 동안 상기 입력되는 음성신호에서 추출하여 초기화한 HMM 파라메타를 훈련하여(S30) 개선된 HMM 파라메타의 값을 추출한 다음 추출된 HMM 파라메타의 값으로 부터 음성인식을 실행한다(S40)(S50).

    전술한 바와 같은 음성인식방법은 연속밀도 HMM에서 발생하는 유사도 값을 계산할 때 주파수 스펙트럼의 특징에 따른 각각의 상태에서 발생되는 유사도 값에 대한 가중치를 전혀 고려하지 않기 때문에 입력되는 음성신호의 인식성능이 저하되는 문제점이 있었다.

    본 발명은 전술한 바와 같은 제반적인 문제점을 감안한 것으로, 그 목적은 입력되는 음성신호를 인식함에 있어 연속밀도 HMM의 각 상태에서 발생할 수 있는 유사도 값을 그 상태의 중요도에 따라 MLP를 이용해 가중치를 고려하도록 함으로써 음성 인식 성능을 향상시키도록 한 것이다.

    도 1은 종래의 음성인식에서 연속밀도 HMM의 형태를 도시한 상태도.

    도 2는 종래의 연속밀도 HMM에서 모델링되는 음성신호의 파형도.

    도 3은 종래의 연속밀도 HMM에서 음성 파라메타 훈련방법을 보이는 흐름도.

    도 4는 본 발명에 따른 HMM을 이용한 음성 인식장치의 구성 블록도.

    도 5는 도 4에 도시된 음성 인식부의 상세 구성도.

    〈도면의 주요 부분에 대한 부호의 설명〉

    10 : 보코더부 20 : 음성 인식부

    21 : 신호 처리부 22 : MLP

    30 : 보조 처리부 40 : 메모리부

    50 : 주 처리부 60 : 스피커

    상기한 바와 같은 목적을 달성하기 위한 본 발명은, 음성 인식장치에 있어서, 입력되는 아날로그의 음성 신호를 PCM 음성 데이터로 변환하는 음성 변환수단과, 입력되는 음성 신호를 인식하기 위한 알고리즘 데이터가 저장되는 메모리수단과, 음성 신호 인식에 대한 운영 동작을 제어하는 제어수단과, 상기 제어수단에서 인가되는 음성 인식 제어신호에 따라 상기 변환된 PCM 음성 데이터의 프레임 신호에 대하여 각 상태 유사도의 가중치를 고려하여 음성을 인식하는 음성 인식수단과, 상기 제어수단에서 인가되는 제어신호에 따라 인식된 음성신호를 출력하는 음성출력수단을 포함하는 것을 특징으로 한다.

    상기 음성인식수단은 PCM 음성 데이터에서 음성 인식에 필요한 특징 벡터인 켑스트럼과 켑스트럼의 시간 변화에 따른 변화량을 표시한 차감켑스트럼을 추출하는 신호처리부와, 상기 추출된 음성신호의 특징 벡터를 훈련시켜 HMM의 상태 유사도를 추출하는 MLP와, 연속밀도 함수의 각 상태별로 유사도에 대한 가중치가 설정되는 HMM으로 이루어지는 것을 특징으로 한다.

    상기한 기술적 특징을 갖는 본 발명은 입력되는 아날로그 음성 신호를 PCM 음성 데이터로 변환한 다음 HMM 상태 유사도의 가중치가 없는 HMM으로 훈련시키고, 변환된 PCM 음성 데이터 프레임에서 켑스트럼 벡터와 차감켑스트럼 벡터를 추출한 다음 복수개의 MLP를 통해 훈련시켜 음소를 분리하며, 상기 MLP의 훈련을 통해 출력되는 값을 각 노드별로 연산하여 HMM의 상태 유사도 가중치를 추출하고, 상기 가중치가 없는 HMM 훈련값과 상기 과정에서 추출된 HMM 상태의 유사도 가중치를 합한 다음 소정의 훈련을 통해 음성을 인식한다.

    이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일 실시예를 상세히 설명하면 다음과 같다.

    도 3에서 알 수 있는 바와 같이 본 발명에 따른 HMM을 이용한 음성 인식장치는 보코더(10)와, 음성 인식부(20), 보조 처리부(30), 메모리부(40), 주처리부(50) 및 스피커(60)로 이루어지는데, 보코더(10)는 음성입력수단으로의 부터 입력되는 아날로 상태의 음성신호를 PCM(Pulse Code Modulation) 음성 데이터로 변조하여 출력한다.

    음성 인식부(20)는 보코더(10)에서 인가되는 PCM 음성 데이터의 프레임을 보조신호 처리부(43)에서 인가되는 인식 데이터를 이용하여 각 상태에서 유사도에 대한 가중치를 갖고 있는 HMM에 의해 음성을 인식한 다음 음성인식 결과를 출력한다.

    보조 처리부(30)는 주처리부(50)에서 인가되는 음성 인식을 위한 제어 데이터를 음성 인식부(20)측에 출력하고, 음성 인식부(20)에서 인가되는 음성 인식 결과를 주처리부(50)측에 출력한다.

    메모리부(40)는 입력되는 음성신호을 인식하게 위한 전반적인 데이터가 설정되며, 음성 인식의 진행에 따라 해당하는 데이터를 주처리부(50)측에 출력한다.

    주처리부(50)는 상기 메모리부(40)에서 음성 인식 제어 데이터를 판독하여 보조 처리부(30)측에 출력하고, 보조 처리부(30)에서 인가되는 음성 인식 결과에 따라 음성 출력수단인 스피커(60)를 제어하여 인식된 음성을 출력한다.

    또한, 상기에서 음성 인식부(20)는 도 4에서 알 수 있는 바와 같이, 신호 처리부(21)와, MLP(22), HMM(23)으로 이루어지는데, 신호 처리부(21)는 보코더(10)에서 처리되어 인가되는 PCM 음성 데이터를 보조 처리부(30)에서 인가되는 제어 데이터에 따라 처리하여 음성 인식에 필요한 특징 벡터인 켑스트럼과 켑스트럼의 시간 변화에 따른 변화량을 표시한 차감켑스트럼을 추출한다.

    MLP(22)는 상기 추출된 켑스트럼 벡터를 독립적으로 훈련시켜 음소를 분류하기 위한 켑스트럼 벡터 훈련용 MLP(22a)와 차감켑스트럼 벡터를 독립적으로 훈련하여 음소 분류를 위한 차감켑스트럼 벡터 훈련용 MLP(22b)로 구성되며 이는 서로 동일한 구조로 이루어진다.

    상기의 켑스트럼 벡터 훈련용 MLP(22a)와 차감켑스트럼 벡터 훈련용 MLP(22b)는 입력층과 은닉층 및 출력층이 순서적으로 연결되어서 전체 3개층으로 구성되며, 입력층은 입력 프레임의 수가 현재 프레임의 전후 프레임을 포함하여 3개 프레임이고 각 프레임별로 특징 벡터가 13차이므로 91개의 노드로 구성되고, 은닉층은 50개의 노드로 구성되며 출력층은 28개의 음소군을 고려하여 28개의 노드로 구성된다.

    상기의 MLP(22)는 켑스트럼 벡터 훈련용 MLP(22a)와 차감켑스트럼 벡터 훈련용 MLP(22b)에서 출력되는 값을 HMM의 상태 유사도 가중치로 이용하기 위하여 출력되는 두개의 값을 각 노드별로 곱하여 HMM 상태의 유사도를 출력한다.

    HMM(23)는 연속밀도 함수의 각 상태별로 유사도에 대한 가중치를 가지고 있으며, 상기 MLP(22)에서 얻은 값과 자신이 갖고 있는 값을 결합한 다음 'back-propagation' 이나 'HMM의 분별적 학습'을 통해 HMM의 상태 가중치를 훈련시킨다.

    전술한 바와 같은 기술적 구성을 갖는 본 발명에서 음성 인식에 대한 동작은 다음과 같다.

    음성 입력수단을 통해 입력되는 아날로그 상태의 전기적 음성신호가 보코더(10)측에 인가되면 보코더(10)는 입력되는 음성신호를 PCM 음성 데이터로 변환시켜 음성 인식부(20)측에 인가한다.

    음성 인식부(20)는 보조 처리부(30)로 부터 인가되는 메모리부(40)에 저장된 인식 데이터, 즉 훈련용 HMM의 파라메타들과 MLP(22)의 연결 탭에 대한 계수들에 따라 각 상태 유사도의 가중치를 고려한 음성 인식 동작을 실행하는데, 음성 인식부(20) 내의 신호 처리부(21)는 도 4에서 알 수 있는 바와 같이 입력되는 PCM 음성 데이터의 프레임 신호에서 음성 인식에 필요한 특징 벡터인 켑스트럼과 켑스트럼의 시간 변화에 따른 변화량을 표시하는 차감켑스트럼을 추출한 다음 추출된 각각의 특징 벡터를 대응되는 MLP(22a)(22b)측에 인가한다.

    이때, 입력층과 은닉층 및 출력층으로 이루어지는 켑스트럼 벡터 훈련용 MLP(22a)과 차감켑스트럼 벡터 훈련용 MLP(22b)는 입력되는 특징 벡터를 설정된 반복횟수 동안 훈련하여 각 음소를 분리하여 추출한 다음 HMM의 유사도 가중치로 이용하기 위하여 각각의 MLP(22a)(22b)에서 출력되는 값을 각 노드별로 곱하여 연산된 값을 HHM(23)측에 출력한다.

    상기에서 초기에는 각 상태의 가중치는 동일한 음소에 속해있는 상태끼리 같은 값을 갖게 한다.

    이후 HMM(23)은 상기 MLP(22)에서 얻은 값과 초기화 과정에서 훈련을 통해 자신이 갖고 있는 값을 결합한 다음 'back-propagation' 이나 'HMM의 분별적 학습'을 통해 HMM의 상태 가중치를 훈련시켜 입력된 음성을 인식한 후 인식된 결과를 보조 처리부(30)측에 출력하면 보조 처리부(30)는 음성 인식부(20)에서 인가되는 음성 인식 결과를 주처리부(50)측에 인가한다.

    주처리부(50)는 상기 보조 처리부(30)로 부터 인가되는 음성 인식의 결과에 따라 음성 출력수단인 스피커(60)를 제어하여 인식된 음성신호를 사용자에서 출력한다.

    이상에서 설명한 바와 같이 본 발명에 따른 연속 밀도 HMM을 이용한 음성인식장치는 입력된 음성신호를 인식하기 위한 처리 과정에서 HMM의 각 상태에 대한 유사도의 가중치를 고려함으로써 전체적인 음성의 인식 성능을 향상시킨다.

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈