대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법专利检索-配音编辑中专利检索查询-专利查询网

대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법

阅读：1020发布：2020-07-10

专利汇可以提供대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법专利检索，专利查询，专利分析的服务。并且본 발명은 등장인물에 대한 정보를 수집하고, 개별 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 등의 단계적 분석을 통해 대화의 흐름과 발화의 내용에 적절하도록 대화체의 억양 및 감정상태를 구현하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법이 개시된다. 이를 위하여 화자 정보 분석부, 성우 데이터베이스 선택부, 감정상태 분석부, 및 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법을 제공한다. 본 발명에 의하면, 단일 화자의 음성을 청취 하는 것에서 벗어나, 문장의 화자나 감정상태에 따라 음성 출력을 달리할 뿐만 아니라 각 등장인물에 어울리는 음성을 출력하여 사용자에게 보다 자연스럽고 현실감 있는 낭독이나 대화를 제공할 수 있는 효과를 가진다. 그리고 입력된 문장이 다국어로 구성되어도 자연스러운 낭독이나 대화를 제공할 수 있다.，下面是대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법专利的具体信息内容。

权利要求

입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하고, 각 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 화자 정보 분석부;
상기 화자 정보 분석부로부터 공급된 화자 예측정보를 바탕으로 각 문장의 화자에 부합되는 음성정보를 지정된 성우 DB로부터 추출하는 성우 DB 선택부;
상기 성우 DB 선택부로부터 공급된 정보 중 각 대화체 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 감정상태 분석부; 및
상기 성우 DB 및 감정 DB로부터 추출된 음성정보를 합성하여 출력하는 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.

제 1 항에 있어서,
입력된 전체 문장을 분석하여 상기 문장을 구성하는 언어를 분석하여 판단하는 언어 분석 판단부를 더 포함하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.

제 1 항에 있어서, 화자 정보 분석부는
입력된 전체 문장에 대화체가 연속으로 위치하면 문장 전체에 대한 화자의 수를 예측하고, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.

제 1 항에 있어서, 화자 정보 분석부는
상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보로부터 화자 정보를 예측하고, 상기 화자 정보와 상기 등장인물에 대한 정보를 비교하여 일치성이 있는 화자 정보에 가중치를 부여하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.

제 1 항에 있어서, 화자 정보 분석부는
입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하는 등장인물 정보 수집 모듈;
상기 입력된 전체 문장으로부터 대화체를 예측하는 문체 분석 모듈;
상기 문체 분석 모듈로부터 대화체에 대한 정보를 공급받아 각 대화체의 앞뒤 문장을 대한 정보를 수집하는 앞뒤 문장정보 수집 모듈;
상기 앞뒤 문장정보 수집 모듈로부터 분석된 정보를 공급받아 화자 정보를 예측하고, 상기 화자 정보를 상기 등장인물 정보 수집 모듈로부터 공급된 등장인물 정보와 비교하여 일치성이 있는 화자 유형에 가중치를 부여하는 발화자 특성 분석 모듈; 및
상기 앞뒤 문장정보 수집 모듈로부터 공급된 정보를 통해 연속된 대화체가 수집되면 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측하는 연속 대화체 화자 예측 모듈로 이루어진 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.

제 1 항에 있어서,
상기 성우 DB는 두 개 이상의 보이스 폰트를 저장하고 있는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.

제 6 항에 있어서,
상기 성우 DB는 코퍼스 기반 TTS 시스템 또는 은닉 마코브 모델 기반 TTS 시스템 방식을 통해 구축된 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템.

(ⅰ) 등장인물 정보 수집 모듈을 통해 입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하는 단계;
(ⅱ) 문체 분석 모듈을 통해 입력된 전체 문장을 분석하여 대화체를 예측하는 단계;
(ⅲ) 상기 문체 분석 모듈로부터 상기 대화체에 대한 정보가 공급되면 앞뒤 문장정보 수집 모듈을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 단계;
(ⅳ) 상기 앞뒤 문장정보 수집 모듈로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 단계;
(ⅴ) 상기 발화자 특성 분석 모듈로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부를 통해 상기 화자 정보에 부합되는 음성을 지정된 성우 DB로부터 추출하는 단계;
(ⅵ) 상기 성우 DB 선택부로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부를 통해 각 대화체로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 단계; 및
(ⅶ) 상기 감정상태 분석부로부터 성우 DB 및 감정 DB로부터 추출된 음성정보가 공급되면, 음성합성부를 통해 합성하여 출력하는 단계를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.

제 8 항에 있어서,
상기 대화체의 앞뒤 문장 분석을 통해 연속되는 대화체가 수집되면, (ⅳ) 단계와 (ⅴ) 단계 사이에 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측하는 단계가 더 포함되는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.

제 8 항에 있어서, 상기 (ⅰ) 단계 이전에
입력부로부터 공급된 전체 문장에 대한 텍스트 데이터를 언어 분석 판단부를 통해 분석하여 상기 텍스트 데이터를 구성하는 언어를 판단하는 단계를 더 포함하는 것을 특징으로 하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법.

说明书全文

대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법{SYSTEM AND METHOD FOR SYNTHESIZING VOICE OF MULTI-LANGUAGE}

본 발명은 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법에 관한 것으로, 보다 상세하게는 입력된 문장에 대하여 대화체가 포함되어 있는 경우에 대화의 흐름과 발화의 내용에 적절하면서 자연스럽게 다양한 대화체의 억양 및 감정상태를 구현하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법에 관한 것이다.

음성합성 시스템(Text-to-Speech system)은 입력 문장(텍스트)을 인간이 들을 수 있는 음성으로 변환하여 출력하는 장치로써, 도 1에 도시된 바와 같이 전처리부(preprocessing module : 110), 언어처리부(linguistic module : 120), 운율처리부(prosodic module : 130), 및 합성음 생성부(speech generator : 140)로 구성된다.

상기와 같이 구성되는 종래의 음성합성 시스템은, 먼저 전처리부(110)에 의해 입력 문장에 대한 정규화(normalization)가 이루어지면, 언어처리부(120)가 입력 문장에 대해 형태소 분석(morphological analysis)이나 구문 분석(syntactic parsing)을 수행하고 발음 변환(grapheme-to-phoneme conversion)을 수행한다.

이어서, 운율처리부(130)가 억양구를 찾아내어 억양구나 문장 전체에 억양을 부여하거나 끊어 읽기(phrasing) 강도를 할당하면, 합성음 생성부(140)가 운율 처리된 입력 문장의 합성음을 생성하여 출력한다.

그러나 상기와 같이 작동하는 음성합성 시스템은 대화의 의미에 대한 고려가 없이 문장 단위로 형태소 분석 및 구문 분석을 실시하여 억양구를 찾아냄으로써, 억양을 부여하거나 끊어 읽기 구간을 부여하여 운율 구현을 하도록 되어 있기 때문에, 낭독체 음성을 합성하기 위한 방법으로는 적당하나, 여러 화자의 다양한 감정이나 태도를 나타내는 대화체 문장을 합성하는 데에는 한계가 있다.

왜냐하면 이러한 대화 음성에는 전후 발화 내용에 따라 같은 문장이라도 다른 억양으로 표현되는 경우가 많기 때문이다.

한국어의 예를 들면, '네', '아니', '그러세요', '글쎄' 등과 같은 단어들이 있는데, 이들은 다른 맥락에서 서로 다른 억양을 통해 다른 의미를 나타내도록 쓰이고 있다. 그 가운데 응답어로 쓰이는 '네'의 경우를 예로 들면, 상대방의 질문에 대한 긍정의 대답으로 사용된 것인지, 단지 선행 발화(preceding utterance)에 대한 인지의 표시로 사용된 것인지에 따라 다른 억양으로 발화된다.

이러한 표현들의 다양한 억양이 그 맥락 혹은 의미에 따라 적절하게 표현되지 않을 경우 발화 의도를 이해하기 어렵고, 결과적으로 대화 음성의 자연성이 감소될 수 있다.

이에, 최근에는 복수 종류의 음성데이터(예를 들면, 남성, 여성, 아이, 노인 등의 음성데이터)를 성우 데이터베이스에 미리 등록하고, 입력되는 텍스트 정보의 내용 등에 따라서 적합한 음성데이터를 선택하고, 선택한 음성데이터를 이용하여 합성 음성을 생성하는 기술들이 개발되고 있다.

이러한 일예로써, 일본 특허 공개 공보 제2000-339137호(2000년12월8일 공개)에는 텍스트 데이터를 음성 출력하기 위한 음성 데이터를 각 범주마다 각각 기억하고 있는 음성 데이터 기억부와, 수신한 전자 메일에 근거해 발신자가 상기 범주의 어느 쪽에 속할까를 결정하는 범주 결정부와, 결정된 범주의 음성 데이터를 텍스트 데이터의 음성 출력용으로 선택해 음성 출력하는 음성 신호 출력부 및 스피커를 가지는 전자 메일 수신 시스템에 대한 기술이 개시되어 있다.

상기 전자 메일 수신 시스템은 자연스러운 합성 음성을 얻을 수 있지만, 이것을 실현하기 위해서 복수 종류의 음성데이터를 성우 데이터베이스에 등록해야 한다. 그러나 상기 복수 종류의 음성데이터는 메모리나 CPU 등의 하드웨어 자원에 큰 제약이 부과되어 있는 휴대 단말기 등에 저장할 수 없기 때문에, 결국 휴대 단말기 등에서는 다양한 음질의 합성 음성을 생성할 수 없다는 문제가 있다.

따라서, 본 발명의 제 1 목적은 문장 입력과 음성 출력이 가능한 모든 기기에 본 음성 합성 시스템을 적용할 수 있을 뿐만 아니라, 대화체에 대한 화자 매치의 정확도를 높일 수 있도록 문장 전체를 분석하여 대화체의 억양 및 감정상태를 자연스럽게 구현할 수 있는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템을 제공하는데 있다.

또한, 본 발명의 제 2 목적은 문장 전체를 분석하여 대화체에 적절한 화자 정보를 예측하고, 상기 화자 정보를 다양한 보이스폰트 및 감정상태가 저장된 데이터베이스를 이용하여 합성음을 생성함으로써, 문장의 의미에 맞도록 대화체의 억양 및 감정상태를 다양하고 자연스럽게 구현하는 앞뒤 문장정보를 이용한 다국어 음성합성 방법을 제공하는데 있다.

상술한 본 발명의 제 1 목적을 달성하기 위하여, 본 발명의 일실시예에서는 입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하고, 각 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 화자 정보 분석부; 상기 화자 정보 분석부로부터 공급된 화자 예측정보를 바탕으로 각 문장의 화자에 부합되는 음성정보를 지정된 성우 DB로부터 추출하는 성우 DB 선택부; 상기 성우 DB 선택부로부터 공급된 정보 중 각 대화체 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 감정상태 분석부; 및 상기 성우 DB 및 감정 DB로부터 추출된 음성정보를 합성하여 출력하는 음성합성부를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템을 제공한다.

또한, 본 발명의 제 2 목적을 달성하기 위하여, 본 발명의 일실시예에서는 (ⅰ) 등장인물 정보 수집 모듈을 통해 입력된 전체 문장을 분석하여 등장인물에 대한 정보를 수집하는 단계; (ⅱ) 문체 분석 모듈을 통해 입력된 전체 문장을 분석하여 대화체를 예측하는 단계; (ⅲ) 상기 문체 분석 모듈로부터 상기 대화체에 대한 정보가 공급되면 앞뒤 문장정보 수집 모듈을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 단계; (ⅳ) 상기 앞뒤 문장정보 수집 모듈로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 단계; (ⅴ) 상기 발화자 특성 분석 모듈로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부를 통해 상기 화자 정보에 부합되는 음성을 지정된 성우 DB로부터 추출하는 단계; (ⅵ) 상기 성우 DB 선택부로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부를 통해 각 대화체로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB로부터 추출하는 단계; 및 (ⅶ) 상기 감정상태 분석부로부터 성우 DB 및 감정 DB로부터 추출된 음성정보가 공급되면, 음성합성부를 통해 합성하여 출력하는 단계를 포함하는 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 방법을 제공한다.

본 발명에 의하면, 단일 화자의 음성을 청취 하는 것에서 벗어나, 문장의 감정상태에 따라 음성 출력을 달리할 뿐만 아니라 각 등장인물에 어울리는 음성을 출력하여 사용자에게 보다 자연스럽고 현실감 있는 낭독이나 대화를 제공할 수 있다.

또한, 본 발명은 음성합성 시스템에서 입력된 대화 텍스트에 대하여 대화의 흐름과 발화의 내용에 부합하면서도 자연스럽고 다양한 대화체의 억양을 구현할 수 있다. 나아가, 각 대화체에 대한 합성음 생성방법이 개별 문장에 대한 대화체의 정보만을 분석하는 것이 아닌, 전체 문장의 정보도 고려하므로, 대화의 흐름과 발화의 내용에 적절하면서 자연스러운 합성음을 생성할 수 있다.

또한, 본 발명은 메모리나 CPU 등 하드웨어 자원에 대한 제약을 최소화 할 수 있도록 은닉 마코브 모델(Hidden Markov mode : HMM)기반 TTS 시스템 방식을 통해 구축된 성우 데이터베이스(이하, "DB"라고 한다.)를 사용하여 소용량 하드웨어를 사용하는 텔레매틱스 기술에도 자유롭게 적용할 수 있다. 따라서, 하드웨어의 제약이 있는 개인용 휴대기기, 전자사전, 인터넷 신문, 학습용 기기, 차량 탑재용 단말기 등과 같은 소용량 시스템에서도 HMM 기반 TTS 시스템을 이용하여 합성음을 생성할 수 있다.

또한, 본 발명은 어린이들을 위한 동화 구연 시스템이나 다국어 학습 시스템, 또는 시각장애인들을 위한 텍스트의 음성화 시스템에 적용되면 각 등장인물에 어울리는 음성을 표현할 수 있어, 보다 사실감 있고 자연스러운 이야기의 전달이 가능하다.

또한, 본 발명은 시나리오 및 장치 관리를 하는 음성 미들웨어 시스템에 적용될 수 있어 효율적인 다국어 음성 지원이 가능하며, 차량용 단말기에서의 인터넷 정보, SMS 등에도 적용이 가능하여 사용자 친화적인 시스템 구현이 가능하다. 즉, 본 발명은 단일 언어가 아닌 다양한 언어 처리가 가능하고, 새로운 언어를 추가할 경우에도 음성 미들웨어 시스템을 통해 시나리오나 장치, 모듈이 통합적으로 관리될 수 있기 때문에 다국어 음성 구현이 가능하다.

도 1은 종래의 음성합성 시스템을 나타내는 구성도이다.
도 2는 본 발명의 일실시 예에 따른 음성합성 시스템을 설명하기 위한 구성도이다.
도 3은 본 발명에 따른 언어 분석 판단부와 화자 정보 분석부를 구성하는 각 모듈의 역할을 구체적으로 설명하기 위한 텍스트 예문이다.
도 4는 본 발명의 일실시 예에 따른 음성합성 방법을 설명하기 위한 흐름도이다.

이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예들에 의한 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템(이하, “음성합성 시스템”이라 한다.)을 상세하게 설명한다.

도 2는 본 발명의 일실시예에 따른 음성합성 시스템을 설명하기 위한 구성도이다.

도 2를 참조하면, 본 발명의 일실시예에 의한 음성합성 시스템은 대화체가 포함된 단일 문장이 아닌 입력된 전체 문장을 단계적으로 분석하여 대화체의 화자 정보를 예측하는 화자 정보 분석부(30)와, 상기 예측된 화자 정보에 부합되는 음성정보를 지정된 성우 DB(100)로부터 추출하는 성우 DB 선택부(40)와, 상기 대화체의 핵심어를 바탕으로 등장인물의 감정상태를 분석하며 상기 감정상태에 부합되는 음성정보를 지정된 감정 DB(200)로부터 추출하는 감정상태 분석부(50), 및 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성 정보를 합성하여 출력하는 음성합성부(60)를 포함한다.

이러한 음성합성 시스템은 퍼스널 컴퓨터 등의 일반적인 정보 처리 장치나 휴대전화, PHS(Personal Handyphone System), PDA(Personal Digital Assistance), 전자사전, 학습용 기기, 차량 탑재용 단말기 등 텍스트를 입력하여 음성 출력이 가능한 모든 기기에 적용할 수 있다.

이하, 도면을 참조하여 각 구성요소별로 보다 구체적으로 설명한다.

먼저 본 발명의 일실시예에 의한 음성합성 시스템은 입력부(10)를 포함한다.

상기 입력부(10)는 조작부(미도시) 등을 통해 입력된 전체 문장을 이용하여 텍스트 데이터를 추출하고, 상기 텍스트 데이터를 상기 화자 정보 분석부(30)로 공급하는 역할을 수행한다. 여기서, 입력부(10)는 공지된 기술에 해당하므로, 상세한 설명은 생략하기로 한다.

필요에 따라, 도 2에 도시된 바와 같이 상기 입력부(10)와 화자 정보 분석부(30) 사이에는 언어 분석 판단부(20)를 더 포함할 수 있다.

상기 언어 분석 판단부(20)는 입력부(10)로부터 제공된 텍스트 데이터를 분석하여 상기 텍스트 데이터를 구성하는 언어가 어떤 언어(한국어, 영어, 일어, 중국어 등)에 해당되는지를 판단하는 역할을 수행한다.

특정 양태로서, 본 발명에 따른 언어 분석 판단부(20)는 텍스트 데이터를 구성하는 문장의 전체적인 형태를 분석하거나 상기 문장의 어근, 어간, 어미의 결합구조를 분석하여 해당 언어를 판단한다.

그리고 본 발명에 따른 음성합성 시스템은 화자 정보 분석부(30)를 포함한다.

상기 화자 정보 분석부(30)는 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 등장인물에 대한 정보를 수집하고, 각 문장으로부터 대화체를 예측하며, 상기 대화체의 대화 특성과 대화체의 앞뒤 문장에 대한 정보 및 상기 등장인물에 대한 정보를 바탕으로 각 대화체의 화자 정보를 예측하는 역할을 수행한다. 여기서, 문장은 대화체와 낭독체로 구분한다.

이때, 상기 화자 정보 분석부(30)는 입력된 전체 문장에 대화체가 연속으로 위치하면 문장 전체에 대한 화자의 수를 예측하고, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측할 수 있다.

일실시 양태로써, 본 발명에 따른 화자 정보 분석부(30)는 등장인물 정보 수집 모듈(31), 문체 분석 모듈(32), 발화자 특성 분석 모듈(33), 앞뒤 문장정보 수집 모듈(34), 연속 대화체 화자 예측 모듈(35)로 이루어질 수 있다.

보다 구체적으로, 상기 등장인물 정보 수집 모듈(31)은 입력부(10) 또는 언어 분석 판단부(20)에 연결되어 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 등장인물들에 대한 정보, 예를 들면 등장인물의 명칭, 등장인물의 나이 및 직업 등 문장 내에서 파악할 수 있는 정보를 수집하는 역할을 수행한다. 이때, 상기 등장인물 정보 수집 모듈(31)은 입력된 문장의 전체로부터 문장의 구성요소 중 조사와 형태소 등을 제외한 고유명사와 명사 등을 별도로 추출하고, 상기 고유명사와 명사의 추출된 빈도수를 조사하여 빈도수가 높은 고유명사와 명사에 가중치를 부여함으로써, 각 등장인물들에 대한 중요도를 나눌 수 있다.

필요에 따라, 상기 등장인물 정보 수집 모듈(31)은 도서정보 DB를 이용하여 등장인물에 대한 정보를 수집할 수도 있다. 여기서, 도서정보 DB란 기존에 존재하는 유명 서적들을 중심으로 도서명, 등장인물 등의 기본정보를 저장해 놓은 DB를 의미한다.

상기 문체 분석 모듈(32)은 입력부(10) 또는 언어 분석 판단부(20)에 연결되어 상기 입력부(10) 또는 언어 분석 판단부(20)로부터 공급된 전체 문장에 대한 텍스트 데이터를 분석하여 대화체를 예측하는 것이다. 구체적으로, 서적에서 대화체의 시작과 끝을 알리는 특정 기호들, 예를 들면 “ ”, -, ' ', ... 등을 이용하여 대화체를 낭독체와 구분한다. 여기서, 문체 분석 모듈(32)은 입력된 전체 문장을 대화체와 낭독체로 나누는 역할을 수행한다.

그러나 특정 기호들을 이용하여 문장으로부터 대화체를 구분하는 것은 100%의 정확성을 가지지 못한다. 이에, 상기 문체 분석 모듈(32)은 대화체와 낭독체를 확정적으로 양분하는 것이 아니라, 상기 특정 기호들을 통해 개별 문장이 대화체에 가까운 문장인지 아니면 낭독체에 가까운 문장인지를 판단하는 역할을 수행한다.

따라서, 문체 분석 모듈(32)을 통해 낭독체에 해당되는 문장이라고 분석되어도 상기 문장은 발화자 특성 분석 모듈(33), 앞뒤 문장정보 수집 모듈(34), 연속 대화체 화자 예측 모듈(35)을 통해 대화체의 문장에 해당되는지의 여부를 추가적으로 분석한다.

상기 앞뒤 문장정보 수집 모듈(34)은 문체 분석 모듈(32)에 연결되며, 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집한다. 여기서, 상기 보충자료는 대화체에 대한 적절한 화자를 판단하는데 도움이 될 만한 것이나, 화자의 상태, 주변 환경 등 음성합성을 할 때 영향을 미칠 수 있는 모든 정보를 의미한다.

상기 발화자 특성 분석 모듈(33)은 앞뒤 문장정보 수집 모듈(34)에 연결되어 상기 앞뒤 문장정보 수집 모듈(34)로부터 분석된 정보를 공급받고, 상기 대화체의 대화 특성, 예를 들면, 말투, 맺음말의 종류, 호칭사용 등을 분석하여 대화체의 화자 정보를 예측한다. 필요에 따라, 상기 발화자 특성 분석 모듈(33)은 문체 분석 모듈(32)에 연결되어 상기 문체 분석 모듈(32)로부터 직접 대화체에 대한 정보를 공급받을 수도 있다.

그리고 발화자 특성 분석 모듈(33)은 등장인물 정보 수집 모듈(31)에 연결되며, 상기 화자 정보를 상기 등장인물 정보 수집 모듈(31)로부터 공급받은 등장인물에 대한 정보와 비교하여 일치성이 있는 화자 정보에 가중치를 부여한다. 이때, 가중치는 대화체에 부여하는 것이 바람직하다.

필요에 따라, 상기 등장인물에 대한 정보는 등장인물 정보 수집 모듈(31)로부터 문체 분석 모듈(32) 및 앞뒤 문장정보 수집 모듈(34)을 거쳐 발화자 특성 분석 모듈(33)로 공급될 수도 있다.

상기 연속 대화체 화자 예측 모듈(35)은 앞뒤 문장정보 수집 모듈(34)로부터 공급된 정보, 즉 보충자료를 통해 연속된 대화체가 수집되면, 연속된 각 대화체에 대한 화자 정보를 비교하고 분석하여 각 대화체에 대한 화자 정보를 재 예측한다.

이와 같이, 상기 연속 대화체 화자 예측 모듈(35)은 연속된 각 대화체에 대한 화자 정보를 비교하고 분석함으로써, 가중치가 낮은 문장의 화자 매치 정확도를 높일 수 있게 된다. 다시 말해, 연속 대화체 화자 예측 모듈(35)은 화자 판단의 근거 자료가 부족한 대화체에 대하여 상기 대화체의 앞뒤 대화체를 비교하고 분석하여 판단 자료를 보충해 줌으로써, 연속된 대화체의 화자 유형 판단에 대한 정확도를 향상시키는 역할을 수행한다.

도 3은 본 발명에 따른 언어 분석 판단부(20)와 화자 정보 분석부(30)를 구성하는 각 모듈의 역할을 구체적으로 설명하기 위한 텍스트 예문이다.

도 3과 같은 텍스트가 입력되면, 언어 분석 판단부(20)를 통해 입력된 문장이 '한국어'로 구성되어 있다는 것을 판단한 후, 상기 등장인물 정보 수집 모듈(31)을 통과하여 얻게 되는 최소 정보는 “등장인물의 수 : 3, 등장인물 : 흰둥이 강아지, 강아지 똥, 참새”이다.

그리고 상기 텍스트가 문체 분석 모듈(32)로 공급되면, 상기 문체 분석 모듈(32)은 공급된 텍스트를 분석하여, 특정 기호가 기재되어 있는 4번째 문장 "똥! 똥! 에그, 더러워."와 6번째 문장 "내가 더럽다고?"를 대화체로 구분한다.

또한, 앞뒤 문장정보 수집 모듈(34)은 상기 문체 분석 모듈(32)로부터 대화체(4번째, 6번째 문장)에 대한 정보를 공급받으면, 상기 대화체의 앞뒤 문장(3번째, 5번째, 7번째 문장)에 대한 보충자료를 수집한다.

또한, 발화자 특성 분석 모듈(33)은 상기 앞뒤 문장정보 수집 모듈(34)로부터 대화체에 대한 정보와 상기 보충자료를 공급받으면, 대화체의 특성을 분석하여 대화 특성을 추출하고, 상기 대화 특성과 보충자료를 분석하여 각 대화체의 화자 정보를 예측한다.

보다 구체적으로, 앞뒤 문장정보 수집 모듈(34)에서 반영하는 가중치를 '100'으로 한다면, [④ "똥! 똥! 에그, 더러워."]의 문장은 3번째 문장 및 5번째 문장으로부터 수집된 등장인물 '참새'에 가중치 '100'을 부여하며, [⑥ "내가 더럽다고?"]의 문장은 5번째 문장 및 7번째 문장으로부터 수집된 등장인물 '강아지 똥'에 가중치 '100'을 부여한다.

이때, 5번째 문장 [⑤ 참새는 쫑알거리며 멀리 날아갔습니다.]는 '..갔습니다.','..떠났습니다.', '..멀어집니다.'와 같이 대화에서 제외되는 서술부가 기재되어 있으므로, 5번째 문장의 등장인물 '참새'에 대한 가중치는 부여하지 않는다. 이와 같이, 앞뒤 문장을 파악할 때, 등장인물이 언급 되는지 만을 보는 것이 아닌, 주요 서술부를 분석하면 등장인물의 자세나 행동에 대한 정보를 얻을 수 있게 된다.

따라서, 본 발명에 따른 화자 정보 분석부는 4번째 문장의 화자를 참새로 예측하고, 6번째 문장의 화자를 강아지 똥으로 예측한다.

이와 같이, 전체 문장 중 대화체가 포함된 각각의 개별 문장을 별도로 분석하여 각 대화체에 적절한 화자 정보를 분석하는 종래 기술과 달리, 본 발명에 따른 음성합성 시스템은 입력되는 전체 문장을 단계적으로 분석하여 해당 대화체에 대한 화자 정보를 분석하므로, 자연스럽고 현실감 있게 합성음을 생성할 수 있다.

또한, 본 발명의 일실시예에 의한 음성합성 시스템은 성우 DB 선택부(40)를 포함한다.

상기 성우 DB 선택부(40)는 상기 화자 정보 분석부(30)로부터 공급된 화자 정보를 바탕으로 각 대화체의 화자 정보에 부합되는 음성정보를 지정된 성우 DB(100)로부터 추출하는 역할을 수행한다. 즉, 언어 분석 판단부(20)를 통해 입력된 전체 문장을 구성하는 언어가 '한국어'로 판단되면, 성우 DB 선택부(40)는 지정된 성우 DB(100)로부터 '한국어'에 대한 음성정보를 추출한다. 이와 반대로, 언어 분석 판단부(20)를 통해 입력된 전체 문장을 구성하는 언어가 '영어'로 판단되면, 성우 DB 선택부(40)는 지정된 성우 DB(100)로부터 '영어'에 대한 음성정보를 추출한다.

한편, 성우 DB(100)는 코퍼스 기반 TTS 시스템뿐만 아니라 HMM 기반 TTS 시스템 방식을 통해 구축된 것을 사용할 수 있다. 이때, 성우 DB(100)는 두 개 이상의 보이스 폰트가 저장될 수 있다. 여기서, 코퍼스 기반 TTS 시스템과 HMM 기반 TTS 시스템은 공지된 기술에 해당하므로, 상세한 설명은 생략하기로 한다.

또한, 본 발명의 일실시예에 의한 음성합성 시스템은 감정상태 분석부(50)를 포함한다.

상기 감정상태 분석부(50)는 상기 화자 정보 분석부(30)로부터 공급된 각 대화체에 대한 정보로부터 감정상태를 나타낼 수 있는 문장의 핵심어를 수집하고, 상기 핵심어를 통해 각 대화체의 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출하는 역할을 수행한다. 여기서, 핵심어는 감정상태의 카테고리별 단어와 횟수 혹은 빈도, 감탄사, 관용어, 부호 등을 의미한다.

보다 구체적으로, 상기 핵심어를 긍정, 보통, 부정의 카테고리로 나누어 특정 카테고리에 해당되는 단어의 빈도수에 따라 문장의 감정상태에 따른 적합한 목소리 종류를 선택한다. 여기서 긍정은 기쁨, 즐거움 등의 표현을 부정은 슬픔, 두려움 등의 표현을 포함한다.

즉, 감정상태 분석부(50)는 입력되는 문장이 낭독체인지 대화체인지 구분하고, 대화체이면 핵심어를 분석하여 문장의 감정상태를 긍정, 보통, 부정의 카테고리로 구분하여 적합한 음성 종류를 선택한다. 예를 들면, 긍정적인 문장이면 기쁜 목소리가 선택되도록 명령하고, 부정적인 문장이면 슬픈 목소리가 선택되도록 명령하는 것이다.

또한, 본 발명의 일실시예에 의한 음성합성 시스템은 음성합성부(60)를 포함한다.

상기 음성합성부(60)는 상기 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보를 합성하여 출력하는 역할을 수행한다.

본 발명에 따른 음성합성부(60)는 낭독체 음성과 대화체 음성의 목소리 종류를 달리하여 한 가지 목소리의 음성이 출력되는 것이 아니라 서로 다른 목소리로 출력할 수 있다. 즉, 음성합성 시스템으로 입력된 문장을, 문장의 내용에 따라 남자 목소리, 여자 목소리로 구분하여 마치 대화를 나누는 것처럼 출력할 수 있다.

본 발명에 따른 음성합성 시스템은 개인용 휴대기기, 전자사전, 인터넷 신문, 학습용 기기, 차량 탑재용 단말기, 텔레매틱스용 기기(오토 PC) 등에 적용될 수 있다. 이와 같이, 임베디드 시스템이나 음성인식 및 다양한 모듈들의 통합적인 제공이 필요한 기기인 경우 각 모듈들을 미들웨어 시스템에서 통합적으로 관리하여 본 발명에 따른 음성합성 시스템을 효율적으로 동작시킬 수 있다. 따라서, 본 발명을 텔레매틱스용 기기 등에 사용하면 상기 텔레매틱스용 기기 등은 다국어 음성 지원이 가능하게 된다.

도 4는 본 발명의 일실시예에 따른 음성합성 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 본 발명에 따른 음성합성 방법은 먼저 대화체, 낭독체, 또는 대화체 및 낭독체로 이루어진 문장이 본 발명에 따른 음성합성 시스템으로 입력되면, 입력부(10)를 통해 상기 문장 전체로부터 텍스트 데이터를 추출하는 제 1 단계(S10)를 포함한다.

다음으로, 등장인물에 대한 정보를 수집하는 제 2 단계(S20)를 포함한다.

본 단계(S20)에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 등장인물 정보 수집 모듈(31)을 통해 분석하여 등장인물, 인물의 나이, 직업 등 문장 내에서 파악할 수 있는 인물 정보들을 수집하며, 최종적으로 등장하는 인물의 수와 그 등장인물의 정보를 예측한다.

필요에 따라, 상기 제 1 단계(S10)와 제 2 단계(S20) 사이에는 텍스트 데이터를 구성하는 언어를 판단하는 단계(미도시)를 더 포함할 수 있다.

본 단계에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 언어 분석 판단부(20)를 통해 분석하여 텍스트 데이터를 구성하는 언어가 어떤 언어(한국어, 영어, 중국어 등)인지를 판단한다.

다음으로, 상기 입력된 전체 문장을 분석하여 대화체를 예측하는 제 3 단계(S30)를 포함한다.

본 단계(S30)에서는 입력부(10)로부터 공급된 전체 문장에 대한 텍스트 데이터를 문체 분석 모듈(32)을 통해 분석하여 개별 문장에 대한 특정 기호들의 노출 빈도수에 대한 정보를 수집하고, 이를 통해 개별 문장이 대화체에 해당하는지, 아니면 낭독체에 해당하는지를 분석한다. 이때, 특정 기호들의 노출 빈도수에 따라 각 대화체 또는 낭독체에 가중치를 차별적으로 부여할 수도 있다. 즉, 특정 기호들이 문장에 하나 또는 둘 이상 존재하는 것으로 판단되면 상기 문장은 대화체에 해당하는 것으로 구분하며, 특정 기호 한 개가 존재하는 경우보다 두 개 이상 존재하는 경우에 높은 가중치를 부여한다.

여기서, 상기 전체 문장에 대한 텍스트 데이터는 입력부(10)로부터 직접 공급될 수 있지만, 등장인물 정보 수집 모듈(31)을 거쳐 공급될 수도 있다.

다음으로, 상기 대화체가 예측되면 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집하는 제 4 단계(S40)를 포함한다.

본 단계(S40)에서는 문체 분석 모듈(32)로부터 대화체에 대한 정보가 공급되면, 앞뒤 문장정보 수집 모듈(34)을 통해 각 대화체의 앞뒤 문장을 분석하여 해당 대화체의 화자 정보 판단의 보충자료를 수집한다. 상기 보충자료는 음성을 합성할 때 화자의 매치 정확도에 영향을 미칠 수 있도록 가중치를 부여한다.

다음으로, 상기 대화체 분석을 통하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 상기 등장인물을 분석하여 각 대화체에 대한 화자 정보를 예측하는 제 5 단계(S50)를 포함한다.

본 단계(S50)에서는 앞뒤 문장정보 수집 모듈(34)로부터 대화체에 대한 정보 및 상기 보충자료에 대한 정보를 공급받으면, 발화자 특성 분석 모듈(33)을 통해 상기 대화체를 분석하여 대화 특성을 추출하고, 상기 대화 특성과 상기 보충자료 및 등장인물 정보 수집 모듈(31)로부터 수집된 등장인물에 대한 정보를 분석하여 각 대화체에 대한 화자 정보를 예측한다.

즉, 대화 특성의 기준으로 말투, 맺음말의 종류, 호칭사용 등을 분석하며, 등장인물 정보 수집 모듈(31)에서 예측된 등장인물에 대한 정보와 비교하여 일치성이 높은 등장인물에 가중치를 부여한다. 이와 같이, 텍스트 데이터가 등장인물 정보 수집 모듈(31)을 거친 후 발화자 특성 분석 모듈(33)을 거치는 과정을 통해, 각 대화체에 나타난 정보에 상기 대화체의 주변 정보를 부가함으로써, 대화체에 대한 화자 매치 정확도를 향상시킬 수 있게 된다.

다음으로, 각 대화체에 대한 화자 정보가 예측되면, 상기 화자 정보에 부합되는 음성을 지정된 성우 DB(100)로부터 추출하는 제 6 단계(S70)를 포함한다.

본 단계(S70)에서는 상기 발화자 특성 분석 모듈(33)로부터 각 대화체에 대한 화자 정보가 공급되면, 성우 DB 선택부(30)를 통해 상기 화자 정보에 적합한 음성을 지정하여 성우 DB(100)로부터 추출한다.

본 발명은 상기 화자 정보를 예측하는 단계와 음성을 지정된 성우 DB(100)로부터 추출하는 단계 사이에 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측하는 단계(S65)가 포함될 수 있다. 이때, 본 단계(S65)는 상기 대화체의 앞뒤 문장 분석을 통해 연속되는 대화체가 수집되는 경우(S60)에만 동작한다.

본 단계(S65)에서는 발화자 특성 분석 모듈(33)로부터 각 대화체에 대한 화자 정보를 공급받고, 앞뒤 문장정보 수집 모듈(34)로부터 보충자료를 공급받아 연속 대화체 화자 예측 모듈(35)을 통해 연속된 각 대화체의 화자 정보를 비교하고 분석하여 상기 화자 정보를 재 예측한다.

본 단계(S65)에서 텍스트 데이터가 상기 연속 대화체 화자 예측 모듈(35)을 거칠 때에는 모든 문장의 가중치가 매겨져 있다. 연속하는 대화체 중 일정한 가중치에 미달되는 즉, 문장의 특성 정보가 낮은 연속 대화체의 경우, 앞뒤 문장정보 수집 모듈(34)을 통해 수집된 정보를 이용하여 최소의 발화자 수를 예측할 수 있다. 또한, 연속된 각 대화체의 화자 정보를 비교하고 분석하는 과정을 통해 상대적으로 가중치가 낮은 문장의 인물 매치 정확도를 높일 수 있게 된다.

다음으로, 각 대화체로부터 감정상태를 나타낼 수 있는 개별 문장의 핵심어를 수집하고, 상기 핵심어를 이용하여 감정상태를 분석하며, 상기 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출하는 제 7 단계(S80)를 포함한다.

본 단계(S80)에서는 성우 DB 선택부(40)로부터 각 대화체에 대한 화자 정보가 공급되면, 감정상태 분석부(50)를 통해 감정상태에 부합하는 음성정보를 지정된 감정 DB(200)로부터 추출한다.

다음으로, 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보를 합성하여 음성으로 출력하는 제 8 단계(S90)를 포함한다.

본 단계(S90)에서는 감정상태 분석부(50)에 의해 성우 DB(100) 및 감정 DB(200)로부터 추출된 음성정보가 공급되면, 음성합성부(60)를 통해 텍스트 데이터에 대한 합성음을 생성하고, 스피커 등을 통해 음성으로 출력한다.

이와 같이, 상기 제 2 단계(S20) 내지 제 5 단계(S50)는 화자 정보 분석부(30)를 통해 문장의 발화자를 정확히 예측하는 단계이며, 상기 제 6 단계(S70)는 발화자에 알맞은 성우 DB(100)를 선택하는 단계이다. 그리고 제 7 단계(S80)는 음성을 합성하기 전 문장의 감정상태 분석하여 감정 상태와 일치하는 감정 DB(200)를 선택하는 단계이며, 제 8 단계(S90)는 입력된 문장에 대한 합성음을 생성하는 단계이다.

한편, 상술한 본 발명의 실시 예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, DB 크기의 축소로 인해 임베디드 단말기에 적용이 가능하고, 이로 인해 텔레매틱스용 기기 및 휴대 기기에서 사용이 가능하며, 그 외 다양한 분야에서 적용이 가능하다.

이상에서 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10 : 입력부 20 : 언어 분석 판단부
30 : 화자 정보 분석부 31 : 등장인물 정보 수집 모듈
32 : 문체 분석 모듈 33 : 발화자 특성 분석 모듈
34 : 앞뒤 문장정보 수집 모듈 35 : 연속 대화체 화자 예측 모듈
40 : 성우 DB 선택부 50 : 감정상태 분석부
60 : 음성합성부

标题	发布/更新时间	阅读量
一种语音转换系统及方法	2020-05-11	35
一种音频文件处理方法及装置	2020-05-13	962
一种交互平台的控制方法、装置、存储介质及交互平台	2020-05-14	660
一种基于VR技术的全景视频播放控制方法	2020-05-08	128
一种视频文案的制作方法及装置	2020-05-11	822
一种音频工作站管理方法和系统	2020-05-12	26
视频节目配音效果评估方法、装置及计算机可读存储介质	2020-05-15	359
视频配音方法、装置、计算机设备及计算机可读存储介质	2020-05-08	401
一种音响输出装置	2020-05-13	641
一种具有耳机、话筒及亭子安全防护组件的配音朗读亭	2020-05-08	254

대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법

대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법{SYSTEM AND METHOD FOR SYNTHESIZING VOICE OF MULTI-LANGUAGE}

该功能需要专业版企业版VIP权限，您可以：