음성 인식 시스템专利检索-音素信号处理专利检索查询-专利查询网

음성 인식 시스템

阅读：1031发布：2020-07-25

专利汇可以提供음성 인식 시스템专利检索，专利查询，专利分析的服务。并且음성인식시스템은사용자의음성에대응하는음성신호의에너지변화를토대로사용자의발화가음절단위의발화형태를가지는분절발화인지를판정하는판정부, 사용자의발화가분절발화인경우에분절발화에해당하는음소별확률모델을이용하여사용자의음성을인식하는제1 인식부, 그리고사용자의발화가분절발화가아닌경우에사전에학습된학습확률모델과음성신호를비교한결과를토대로사용자의음성을인식하는제2 인식부를포함한다.，下面是음성 인식 시스템专利的具体信息内容。

权利要求

사용자의 음성에 대응하는 음성 신호의 에너지 변화를 토대로 사용자의 발화가 음절 단위의 발화 형태를 가지는 분절 발화인지를 판정하는 판정부,
상기 사용자의 발화가 분절 발화인 경우, 분절 발화에 해당하는 음소별 확률 모델을 이용하여 상기 사용자의 음성을 인식하는 제1 인식부, 그리고
상기 사용자의 발화가 분절 발화가 아닌 경우, 사전에 학습된 학습 확률 모델과 상기 음성 신호를 비교한 결과를 토대로 상기 사용자의 음성을 인식하는 제2 인식부
를 포함하고,
상기 판정부는
상기 음성 신호를 일정한 크기의 프레임으로 나누고, 각 프레임 별로 에너지를 계산하여 에너지 변화를 나타낸 에너지 변화 곡선의 포락면 및 상기 프레임 중 적어도 하나를 기반으로 상기 에너지 변화 곡선을 분석하여 상기 사용자의 발화가 상기 분절 발화인지를 판정하는 음성 인식 시스템.

삭제

청구항 1에 있어서,
상기 판정부는
시간에 따른 상기 음성 신호의 세기를 나타낸 에너지 변화 곡선 및 유한상태기계(Finite State Machine; FSM) 중 적어도 하나를 이용하여 상기 사용자의 발화가 상기 분절 발화인지를 판정하는 것을 특징으로 하는 음성 인식 시스템.

청구항 4에 있어서,
상기 판정부는
상기 에너지 변화 곡선을 일정한 크기의 프레임으로 구분하고, 상기 유한상태기계로 상기 프레임의 상태를 분석하는 것을 특징으로 하는 음성 인식 시스템.

청구항 5에 있어서,
상기 판정부는
상기 프레임의 에너지 및 상기 프레임의 개수 중 적어도 하나를 상기 유한상태기계에 상응하는 천이조건에 대입한 결과를 기반으로 상기 사용자의 발화가 상기 분절 발화인지를 판정하는 것을 특징으로 하는 음성 인식 시스템.

청구항 5에 있어서,
상기 에너지 변화 곡선은
상기 프레임 별로 상기 음성 신호에 상응하는 에너지를 계산하여 나타내는 것을 특징으로 하는 음성 인식 시스템.

청구항 1에 있어서,
상기 제1 인식부는
음절 인식기를 이용하여 상기 사용자의 음성에 상응하는 음절열을 추출하고, 상기 음절열을 조합하여 상기 사용자의 음성을 인식하는 것을 특징으로 하는 음성 인식 시스템.

청구항 5에 있어서,
상기 제1 인식부는
상기 상태에 상응하는 단위 별로 음절 발화를 인식하고, 상기 음절 발화의 인식에 따른 음절열을 이용하여 상기 사용자의 음성을 인식하는 것을 특징으로 하는 음성 인식 시스템.

청구항 1에 있어서,
상기 제2 인식부는
음소 및 서브 음소 중 적어도 하나에 상응하는 상기 학습 확률 모델을 생성하고, 사전에 수집된 데이터를 이용하여 상기 학습 확률 모델을 학습하는 것을 특징으로 하는 음성 인식 시스템.

说明书全文

음성 인식 시스템{Voice Recognition System}

본 발명은 음성 인식 시스템에 관한 것이다. 보다 상세하게는, 음절 단위의 발화 형태를 가지는 음성 신호에 대하여 음성 인식을 수행하는 시스템에 관한 것이다.

일반적으로, 음성 인식 시스템은 사용자가 전달한 음성 신호를 입력으로 하여 자동적으로 언어적 의미 내용을 인식하는 시스템이다.

음성 인식 시스템은 통계적 방법 예를 들어, 은닉 마르코프 모델 (Hidden Markov Model, 이하 "HMM"라고 함)을 이용하여 음성을 인식한다.

HMM을 이용하는 음성 인식 시스템은 각 음소 또는 서브 음소별로 확률 모델을 생성하고, 사전에 수집된 데이터로부터 각 음소 또는 서브 음소의 확률 모델을 학습한 후, 실제 인식시에는 학습된 확률 모델과 입력된 음성 신호를 비교하여, 비교 결과를 토대로 음소열 또는 서브 음소열을 구성한 후 해당 음소열에 해당하는 발화를 인식 결과로 채택한다.

사용자는 복수개의 음절로 이루어진 단어 또는 문장을 발성하는 경우, 하나의 단어 내에서 각 음절을 연음시켜서 발성하는 것이 일반적이다. 특정 기계를 통해 사용자의 음성을 입력받는 음성 인식 시스템의 경우에는 사용자가 기계에 익숙하지 않으므로, 하나의 음절씩 끊어서 분명하게 발성하는 경우가 발생한다. 이처럼, 단어를 발성하는 과정에서 하나의 음절씩 끊어서 발성하는 것을 끊어 읽기 또는 분절 발화라고 한다.

통계적 방법을 이용하는 음성 인식 시스템은 분절 발화와 같은 비정상적인 발화를 제대로 인식하지 못하는 단점이 있으며, 이로 인하여 사용자로 하여금 재발성을 하게 만드는 단점이 있다.

이처럼, 음성 인식 시스템은 일반적인 발화 형태에 대응하게 구성되어 있으므로, 분절 발화로 인하여 음성 인식 성능이 낮아지는 문제점이 있다.

본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로서, 음절 단위의 발화 형태를 포함하는 음성 신호를 인식하는 시스템을 제공하는 것이다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른, 음성 인식 시스템은

본 발명의 실시예에 따른 음성 인식 시스템은 정상 발화에 대한 인식 성능을 유지하면서, 분절 발화와 같은 비정상적인 발화에 대한 인식 성능을 높일 수 있다.

도 1은 본 발명의 실시예에 따른 음성 인식 시스템을 나타내는 구성도이다.
도 2는 본 발명의 실시예에 따른 정상 발화인 경우에 해당하는 음성 신호를 나타내는 그래프이다.
도 3은 본 발명의 실시예에 따른 분절 발화인 경우에 해당하는 음성 신호를 나타내는 그래프이다.
도 4는 본 발명의 실시예에 따른 정상 발화인 경우에 해당하는 에너지 분포 곡선을 나타내는 그래프이다.
도 5는 본 발명의 실시예에 따른 분절 발화인 경우에 해당하는 에너지 분포 곡선을 나타내는 그래프이다.
도 6은 본 발명의 실시예에 따른 정상 발화인 경우에 해당하는 에너지 변화 곡선을 나타내는 그래프이다.
도 7은 본 발명의 실시예에 따른 분절 발화인 경우에 해당하는 에너지 변화 곡선을 나타내는 그래프이다.
도 8은 본 발명의 실시예에 따른 음성 인식 방법을 나타내는 상태 천이도이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하에서는, 본 발명의 실시예에 따른 음성 인식 시스템에 대하여 첨부한 도면을 참고로 하여 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 음성 인식 시스템을 나타내는 구성도이다.

도 1을 참고하면, 음성 인식 시스템은 음성 수신부(110), 판정부(120), 제1 인식부(130), 제1 저장부(135), 제2 인식부(140) 및 제2 저장부(145)를 포함한다.

음성 수신부(110)는 마이크 등과 같은 특정 장치(도시하지 않음)를 통해 사용자의 음성을 입력받아, 입력받은 음성을 음성 신호로 변환한다.

판정부(120)는 변환한 음성 신호의 세기 즉, 신호의 에너지 변화를 토대로 사용자의 발화가 분절 발화인 경우 또는 분절 발화가 아닌 경우(이하, "정상 발화"라고 함)인지를 판정한다.

구체적으로, 판정부(120)는 음성 신호의 세기를 나타내는 에너지 변화 곡선을 이용하여 판정한다. 여기서, 에너지 변화 곡선은 시간에 따라 음성 신호의 세기가 어떻게 바뀌는지를 나타내는 곡선으로, 음성 신호를 일정한 크기의 프레임으로 나누어 각 프레임 별로 에너지를 계산하여, 에너지 변화를 나타내는 곡선이다. 이때, 각 프레임의 길이는 일정하게 설정하며, 일반적으로 각 음소가 일정한 상태를 이루는 평균 기간에 해당하는 20 내지 30msec으로 설정할 수 있으며, 이에 한정되지 않는다.

제1 인식부(130)는 사용자의 발화가 분절 발화인 경우, 분절 발화에 해당하는 음소별 확률 모델을 이용하여 사용자의 음성을 인식한다. 여기서, 분절 발화에 해당하는 음소별 확률 모델은 제1 저장부(135)에 사전에 학습하여 저장한다. 제2 인식부(140)는 사전에 학습된 학습 확률 모델과 사용자의 음성 신호를 비교한 결과를 토대로 사용자의 음성을 인식한다. 여기서, 학습 확률 모델은 제2 저장부(145)에 사전에 저장한다.

구체적으로, 제2 인식부(140)는 각 음소 또는 서브 음소별로 학습 확률 모델을 생성하고, 사전에 수집된 데이터로부터 각 음소 또는 서브 음소의 학습 확률 모델을 학습한다. 다음, 제2 인식부(140)는 학습 확률 모델과 입력된 음성 신호를 비교하여, 비교 결과를 토대로 음소열 또는 서브 음소열을 구성한 후에 해당 음소열에 해당하는 발화를 인식 결과로 채택한다.

다음, 본 발명의 실시예에 따른 정상 발화인 경우와 분절 발화인 경우에 해당하는 그래프에 대하여 도 2 내지 7을 참조하여 상세하게 설명한다.

도 2 및 도 3은 본 발명의 실시예에 따른 정상 발화인 경우와 분절 발화인 경우에 해당하는 음성 신호를 나타내는 그래프이며, 도 4 및 도 5는 본 발명의 실시예에 따른 정상 발화인 경우와 분절 발화인 경우에 해당하는 에너지 분포 곡선을 나타내는 그래프이다. 또한, 도 6 및 도 7은 본 발명의 실시예에 따른 정상 발화인 경우와 분절 발화인 경우에 해당하는 에너지 변화 곡선을 나타내는 그래프이다.

먼저, 도 2 및 도 3에서는 각각 동일한 단어 예를 들어 "교통정보"를 분절 발화인 경우와 정상 발화인 경우의 음성 신호로 나타내고 있다. 이처럼, 음성 신호 상에서도 정상 발화인 경우와 분절 발화인 경우는 큰 차이를 보이고 있다.

또한, 도 4 및 도 5에서는 도 2 및 도 3의 음성 신호를 정상 발화인 경우와 분절 발화인 경우의 에너지 분포 곡선으로 나타내고 있다. 이처럼, 에너지 분포 곡선은 정상 발화인 경우와 분절 발화인 경우의 차이를 보여 주고 있으나, 에너지 변화 곡선의 포락면을 이용하여 발화를 구별하기 위하여 음절의 길이에 해당하는 프레임을 이용할 수도 있다.

도 6 및 도 7에서는 도 2 및 도 3의 음성 신호를 정상 발화인 경우와 분절 발화인 경우의 에너지 변화 곡선으로 나타내고 있다.

도 7을 참고하면, 분절 발화인 경우의 에너지 변화 곡선에 해당하는 프레임의 크기와 곡선의 형태가 도 5의 에너지 분포 곡선과 큰 차이가 없다. 하지만, 도 6을 참고하면, 정상 발화인 경우의 에너지 변화 곡선은 도 4의 에너지 분포 곡선에 비하여 에너지의 연속성이 잘 나타나있다. 즉, 본 발명의 실시예에 따른 음성 인식 시스템은 에너지 변화 곡선을 토대로 발화 형태를 효과적으로 구분할 수 있다.

다음, 본 발명의 실시예에 따른 분절 발화를 검출하는 음성 인식 방법을 도 5를 참조하여 상세하게 설명한다.

도 8은 본 발명의 실시예에 따른 음성 인식 방법을 나타내는 상태 천이도이다.

먼저, 본 발명의 실시예에 따른 음성 인식 시스템은 유한 상태 기계(Finite State Machine, 이하 "FSM"라고 함)를 이용하여 분절 발화를 검출한다. 여기서, FSM은 유한한 개수의 상태(state)와 각 상태를 천이할 수 있도록 하는 천이 조건을 포함한다. 여기서, 각 상태 천이마다 해당하는 천이 조건과 천이시 동작을 표 1과 같이 나타낸다.

상태 천이	천이 조건	천이시 동작
T1	제1 천이 조건= FrameEnergy>Th1	FrameCnt=0
T2	제2 천이 조건= FrameEnergy>Th1 and FrameCnt<Th2	FrameCnt=FrameCnt+1
T3	제3 천이 조건= FrameEnergy<Th1	FrameCnt=0
T4	제4 천이 조건= FrameEnergy<Th1 and FrameCnt<Th3	FrameCnt=FrameCnt+1
T5	제5 천이 조건= FrameEnergy>Th1	FrameCnt=0
T6	제6 천이 조건= FrameEnergy<Th1 and FrameCnt>Th3	FrameCnt=0, 분절발화검출
T7	-	분절발화검출 완료
T8	제6 천이 조건= FrameEnergy<Th1 and FrameCnt>Th2	FrameCnt=0, 정상발화검출

이때, 제1 문턱값(Th1), 제2 문턱값(Th2) 및 제3 문턱값(Th3)은 각각 사용자가 설정하는 문턱값으로, 분절 발화의 경우에 각 음절에 해당하는 프레임의 개수(FrameCnt) 및 프레임의 에너지(FrameEnergy)를 토대로 설정할 수 있다. 여기서, 제1 문턱값(Th1)은 음절부분과 휴지부분을 구분하기 위한 프레임의 에너지에 해당하는 문턱값이고, 제2 문턱값(Th2)은 정상 발화와 분절 발화를 구분하기 위한 프레임의 길이에 해당하는 문턱값이며, 제3 문턱값(Th3)은 음절 사이의 휴지부분과 발성 종료시의 휴지부분을 구분하기 위한 프레임의 길이에 해당하는 문턱값이다.

도 8을 참고하면, 음성 인식 시스템은 사용자의 음성을 입력받기 위하여 대기 상태를 유지한다(S810).

음성 인식 시스템은 사용자의 음성에 해당하는 프레임의 에너지가 제1 천이 조건에 대응하는 경우, 대기 상태에서 사용자의 음성이 발성 중인 발성 상태로 상태를 천이한다(S820).

발성 상태에서, 음성 인식 시스템은 사용자의 음성에 해당하는 프레임의 에너지 내지 프레임의 개수가 제2 천이 조건 또는 제3 천이 조건 또는 제8 천이 조건 중 어디에 해당하는지를 판단한다.

음성 인식 시스템은 사용자의 음성에 해당하는 프레임의 에너지 및 프레임의 개수가 제2 천이 조건에 해당하는 경우, 발성 상태를 유지한다.

음성 인식 시스템은 사용자의 음성에 해당하는 프레임의 에너지가 제3 천이 조건에 해당하는 경우, 발성 상태에서 음절 간의 휴지 부분이 존재하는 휴지 상태로 상태를 천이한다(S830).

휴지 상태에서, 음성 인식 시스템은 사용자의 음성에 해당하는 프레임의 에너지 내지 프레임의 개수가 제4 천이 조건 내지 제6 천이 조건 중 어디에 해당하는지를 판단한다.

음성 인식 시스템은 사용자의 음성에 해당하는 프레임의 에너지 및 프레임의 개수가 제4 천이 조건에 해당하는 경우 휴지 상태를 유지하고, 프레임의 에너지가 제5 천이 조건에 해당하는 경우 휴지 상태에서 발성 상태로 상태를 천이한다.

음성 인식 시스템은 사용자의 음성에 해당하는 프레임의 에너지 및 프레임의 개수가 제6 천이 조건에 해당하는 경우, 휴지 상태에서 분절 발화를 검출하여 사용자의 발화가 분절 발화에 해당하는 것으로 판정한다(S840). 다음, 음성 인식 시스템은 휴지 상태에서 대기 상태로 상태를 천이한다.

발성 상태에서, 음성 인식 시스템은 사용자의 음성에 해당하는 프레임의 에너지 및 프레임의 개수가 제8 천이 조건에 해당하는 경우, 사용자의 발화가 정상 발화에 해당하는 것으로 판정한다(S850).

다음, 음성 인식 시스템은 판정한 사용자의 발화 형태(분절 발화 또는 정상 발화)에 대응하는 특정 방법을 토대로 사용자의 음성을 인식한다(S860). 이때, 본 발명의 실시예에 따른 사용자의 발화 형태가 분절 발화로 판정된 경우, 사용자의 음성을 인식하는 방법을 아래와 같은 방법으로 구현할 수 있다.

첫번째 방법은 정상 발화에 해당하는 학습 확률 모델과 별도로 분절 발화에 해당하는 음소별 확률 모델을 사용하는 것이다. 분절 발화는 정상 발화를 이용하여 학습된 학습 확률 모델과 분절 발화에 해당하는 음소별 확률 모델이 서로 상이하므로, 일반적인 음성 인식 시스템으로 인식이 어렵다. 따라서, 본 발명의 실시예에 따른 음성 인식 시스템은 분절 발화에 해당하는 음소별 확률 모델을 사전에 저장해 두었다가, 분절 발화로 판정된 경우에 해당 확률 모델을 사용한다.

두번째 방법은 음절 인식기(도시하지 않음)를 이용하여 음절열을 추출한 후, 추출한 음절열을 조합하여 최종적으로 사용자의 음성을 인식하는 것이다. 이때, 음절 인식기는 음절별 구분이 어려운 정상 발화에서 성능이 떨어져 사용할 수 없으나, 음절별로 구분이 되는 분절 발화의 경우에 효율적으로 적용할 수 있다.

세번째 방법은 유한한 개수의 상태 단위 별로 음절 발화를 인식하고, 인식한 음절열로부터 최종적으로 사용자의 음성을 인식한 결과를 도출하는 방법이다. 여기서, 상태 단위 별로 음절 발화를 인식하는 경우에는 하나의 단일 음절로 인식할 수도 있으나, 복수개의 출력을 확률값과 같이 인식할 수 있다. 그러면, 복수개의 출력 즉, 복수개의 음절 중 확률이 가장 높은 하나의 음절을 인식한 결과로 도출하게 된다.

이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

标题	发布/更新时间	阅读量
一种基于CLDNN+CTC声学模型的语音识别方法	2020-05-11	970
一种跨语言情感语音合成方法及系统	2020-05-12	743
一种样本生成方法、装置、服务器及存储介质	2020-05-12	609
基于深度学习的VR智能语音交互英语方法	2020-05-12	409
一种实时音频驱动的虚拟人物口型同步控制方法	2020-05-08	665
音频生成方法、装置、计算机可读存储介质及计算设备	2020-05-11	524
语音数据重构方法、装置及电子设备	2020-05-08	610
音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法	2020-05-08	811
検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム	2020-05-11	212
音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム	2020-05-11	452

음성 인식 시스템

음성 인식 시스템{Voice Recognition System}

该功能需要专业版企业版VIP权限，您可以：