首页 / 专利库 / 人工智能 / 情感分析 / 음성 합성 장치

음성 합성 장치

阅读:816发布:2021-12-03

专利汇可以提供음성 합성 장치专利检索,专利查询,专利分析的服务。并且본발명은감정이풍부한합성음을생성할수 있도록한 음성합성장치에관한것이다. 감정상태에맞게음질을바꾼합성음을생성함으로써, 감정이풍부한합성음을얻는다. 파라미터생성부(43)는페트로봇의감정상태를나타내는상태정보에기초하여, 변환파라미터와합성제어파라미터를생성한다. 데이터변환부(44)는음성정보로서의음소편데이터의주파수특성을변환한다. 파형생성부(42)는텍스트해석결과에포함되는음운정보에기초하여, 필요한음소편데이터를얻고, 그음소편데이터를운율데이터와합성제어파라미터에기초하여가공하면서접속하고, 대응하는운율과음질의합성음데이터를생성한다. 본발명은합성음을출력하는로봇에적용할수 있다.,下面是음성 합성 장치专利的具体信息内容。

  • 소정의 정보를 이용하여 음성 합성을 행하는 음성 합성 장치에 있어서,
    상기 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보를 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성하는 음질 영향 정보 생성 수단과,
    상기 음질 영향 정보를 이용하여 음질을 제어한 상기 합성음을 생성하는 음성 합성 수단
    을 포함하는 것을 특징으로 하는 음성 합성 장치.
  • 제1항에 있어서,
    상기 음질 영향 정보 생성 수단은,
    상기 감정 상태에 기초하여, 상기 합성음을 구성하는 파형 데이터의 특성을 변경하도록, 상기 음질 영향 정보를 변환하는 변환 파라미터를 생성하는 변환 파라미터 생성 수단과,
    상기 변환 파라미터에 기초하여, 상기 음질 영향 정보를 변환하는 음질 영향 정보 변환 수단
    을 포함하는 것을 특징으로 하는 음성 합성 장치.
  • 제2항에 있어서,
    상기 음질 영향 정보는 상기 합성음을 생성하는 데 접속되는 소정 단위의 파형 데이터인 것을 특징으로 하는 음성 합성 장치.
  • 제2항에 있어서,
    상기 음질 영향 정보는 상기 파형 데이터로부터 추출된 특징 파라미터인 것을 특징으로 하는 음성 합성 장치.
  • 제1항에 있어서,
    상기 음성 합성 수단은 규칙 음성 합성을 행하고,
    상기 음질 영향 정보는 상기 규칙 음성 합성을 제어하기 위한 합성 제어 파라미터인 것을 특징으로 하는 음성 합성 장치.
  • 제5항에 있어서,
    상기 합성 제어 파라미터는 음량 밸런스, 음원의 진폭 변동의 크기, 또는 음원의 주파수를 제어하는 것인 것을 특징으로 하는 음성 합성 장치.
  • 제1항에 있어서,
    상기 음성 합성 수단은 주파수 특성 또는 음량 밸런스를 제어한 상기 합성음을 생성하는 것을 특징으로 하는 음성 합성 장치.
  • 소정의 정보를 이용하여 음성 합성을 행하는 음성 합성 방법에 있어서,
    상기 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보를 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성하는 음질 영향 정보 생성 단계와,
    상기 음질 영향 정보를 이용하여 음질을 제어한 상기 합성음을 생성하는 음성 합성 단계
    를 포함하는 것을 특징으로 하는 음성 합성 방법.
  • 소정의 정보를 이용하여 음성 합성을 행하는 음성 합성 처리를 컴퓨터에 실행하게 하는 프로그램에 있어서,
    상기 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보를 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성하는 음질 영향 정보 생성 단계와,
    상기 음질 영향 정보를 이용하여 음질을 제어한 상기 합성음을 생성하는 음성 합성 단계
    를 포함하는 것을 특징으로 하는 프로그램.
  • 소정의 정보를 이용하여 음성 합성을 행하는 음성 합성 처리를 컴퓨터에 실행하게 하는 프로그램이 기록되어 있는 기록 매체에 있어서,
    상기 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보를 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성하는 음질 영향 정보 생성 단계와,
    상기 음질 영향 정보를 이용하여 음질을 제어한 상기 합성음을 생성하는 음성 합성 단계
    를 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  • 说明书全文

    음성 합성 장치{VOICE SYNTHESIS DEVICE}

    종래의 음성 합성 장치에서는 텍스트나 발음 기호를 제공함으로써, 대응하는 합성음이 생성된다.

    그런데, 최근 예를 들면 페트형 페트 로봇 등에, 음성 합성 장치를 탑재하여, 사용자에게 이야기를 건네는 것이 제안되고 있다.

    또한, 페트 로봇으로서는 감정 상태를 나타내는 감정 모델을 도입하고, 그 감정 모델이 나타내는 감정 상태에 따라, 사용자의 명령에 따르거나, 따르지 않거나 하는 것도 제안되어 있다.

    따라서, 감정 모델에 따라, 예를 들면 합성음의 음질을 변화시킬 수 있으면, 감정에 따른 음질의 합성음이 출력되고, 페트 로봇의 엔터테이먼트성을 향상시킬 수 있다고 상정된다.

    〈발명의 개시〉

    본 발명은 이러한 상황에 감안하여 이루어진 것으로, 감정 상태에 따라 음질을 바꾼 합성음을 생성함으로써, 감정이 풍부한 합성음을 얻을 수 있도록 하는 것이다.

    본 발명의 음성 합성 장치는, 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보를 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성하는 음질 영향 정보 생성 수단과, 음질 영향 정보를 이용하여 음질을 제어한 합성음을 생성하는 음성 합성 수단을 포함하는 것을 특징으로 한다.

    본 발명의 음성 합성 방법은, 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보를 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성하는 음질 영향 정보 생성 단계와, 음질 영향 정보를 이용하여 음질을 제어한 합성음을 생성하는 음성 합성 단계를 포함하는 것을 특징으로 한다.

    본 발명의 프로그램은, 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보를 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성하는 음질 영향 정보 생성 단계와, 음질 영향 정보를 이용하여 음질을 제어한 합성음을 생성하는 음성 합성 단계를 포함하는 것을 특징으로 한다.

    본 발명의 기록 매체는, 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보를 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성하는 음질 영향 정보 생성 단계와, 음질 영향 정보를 이용하여 음질을 제어한 합성음을 생성하는 음성 합성 단계를 포함하는 프로그램이 기록되어 있는 것을 특징으로 한다.

    본 발명에서는, 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보가 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성되고,그 음질 영향 정보를 이용하여 음질을 제어한 합성음이 생성된다.

    본 발명은 음성 합성 장치에 관한 것으로, 특히 예를 들면, 감정이 풍부한 합성음을 생성할 수 있도록 하는 음성 합성 장치에 관한 것이다.

    도 1은 본 발명을 적용한 로봇의 일 실시예의 외관 구성예를 도시하는 사시도.

    도 2는 로봇의 내부 구성예를 도시하는 블록도.

    도 3은 컨트롤러(10)의 기능적 구성예를 도시하는 블록도.

    도 4는 음성 인식부(50A)의 구성예를 도시하는 블록도.

    도 5는 음성 합성부(55)의 구성예를 도시하는 블록도.

    도 6은 규칙 합성부(32)의 구성예를 도시하는 블록도.

    도 7은 규칙 합성부(32)의 처리를 설명하는 플로우차트.

    도 8은 파형 생성부(42)의 제1 구성예를 도시하는 블록도.

    도 9는 데이터 변환부(44)의 제1 구성예를 도시하는 블록도.

    도 10A는 고역 강조 필터의 특성을 나타내는 도면.

    도 10B는 고역 억압 필터의 특성을 나타내는 도면.

    도 11은 파형 생성부(42)의 제2 구성예를 도시하는 블록도.

    도 12는 데이터 변환부(44)의 제2 구성예를 도시하는 블록도.

    도 13은 본 발명을 적용한 컴퓨터의 일 실시예의 구성예를 도시하는 블록도.

    〈발명을 실시하기 위한 최량의 형태〉

    도 1은 본 발명을 적용한 로봇의 일 실시예의 외관 구성예를 도시하고 있으며, 도 2는 그 전기적 구성예를 도시하고 있다.

    본 실시예에서는, 로봇은, 예를 들면 개 등의 네 발 달린 동물의 형상으로 되어 있으며, 동체부 유닛(2)의 전후 좌우에, 각각 다리부 유닛(3A, 3B, 3C, 3D)이 연결됨과 함께, 동체부 유닛(2)의 전단부와 후단부에, 각각 머리부 유닛(4)과 꼬리부 유닛(5)이 연결됨으로써 구성되어 있다.

    꼬리부 유닛(5)은 동체부 유닛(2)의 상면에 형성된 베이스부(5B)로부터, 2 자유도를 갖고 만곡 또는 요동 가능하게 인출되어 있다.

    동체부 유닛(2)에는 로봇 전체의 제어를 행하는 컨트롤러(10), 로봇의 동력원이 되는 배터리(11), 배터리 센서(12) 및 열 센서(13)로 이루어지는 내부 센서부(14) 등이 수납되어 있다.

    머리부 유닛(4)에는 「귀」에 상당하는 마이크(마이크로폰)(15), 「눈」에 상당하는 CCD(Charge Coupled Device) 카메라(l6), 촉각에 상당하는 터치 센서(17), 「입」에 상당하는 스피커(18) 등이 각각 소정 위치에 배치되어 있다. 또한, 머리부 유닛(4)에는 입의 아랫턱에 상당하는 아랫턱부(4A)가 1 자유도를 갖고 동작 가능하게 부착되어 있으며, 이 아랫턱부(4A)가 움직임으로써, 로봇의 입의 개폐 동작이 실현되도록 되어 있다.

    다리부 유닛(3A∼3D) 각각의 관절 부분이나, 다리부 유닛(3A∼3D) 각각과 동체부 유닛(2)의 연결 부분, 머리부 유닛(4)과 동체부 유닛(2)의 연결 부분, 머리부 유닛(4)과 아랫턱부(4A)의 연결 부분, 및 꼬리부 유닛(5)과 동체부 유닛(2)의 연결 부분 등에는, 도 2에 도시한 바와 같이 각각 액튜에이터(3AA 1 ∼3AA K , 3BA 1 ∼3BA K ,3CA 1 ∼3CA K , 3DA 1 ∼3DA K , 4A 1 ∼4A L , 5A 1 , 5A 2 )가 배치되어 있다.

    머리부 유닛(4)에 있어서의 마이크(15)는 사용자로부터의 발성을 포함한 주위의 음성(소리)을 집음하고, 얻어진 음성 신호를 컨트롤러(10)로 송출한다. CCD 카메라(16)는 주위의 상황을 촬상하고, 얻어진 화상 신호를 컨트롤러(10)로 송출한다.

    터치 센서(17)는, 예를 들면 머리부 유닛(4)의 상부에 부착되어 있으며, 사용자로부터의 「어루만진다」나 「때린다」 등의 물리적인 활동 작용에 의해 받은 압력을 검출하고, 그 검출 결과를 압력 검출 신호로서 컨트롤러(10)로 송출한다.

    동체부 유닛(2)에 있어서의 배터리 센서(12)는 배터리(11)의 잔량을 검출하고, 그 검출 결과를 배터리 잔량 검출 신호로서 컨트롤러(10)로 송출한다. 열 센서(13)는 로봇 내부의 열을 검출하고, 그 검출 결과를 열 검출 신호로서 컨트롤러(10)로 송출한다.

    컨트롤러(10)는 CPU(Central Processing Unit)(10A)나 메모리(10B) 등을 내장하고 있으며, CPU(10A)에서 메모리(10B)에 기억된 제어 프로그램이 실행됨으로써, 각종 처리를 행한다.

    즉, 컨트롤러(10)는 마이크(15)나, CCD 카메라(16), 터치 센서(17), 배터리 센서(12), 열 센서(13)로부터 주어지는 음성 신호, 화상 신호, 압력 검출 신호, 배터리 잔량 검출 신호, 열 검출 신호에 기초하여, 주위의 상황이나, 사용자로부터의 명령, 사용자로부터의 작용 등의 유무를 판단한다.

    또한, 컨트롤러(10)는 이 판단 결과 등에 기초하여, 후속 행동을 결정하고, 그 결정 결과에 기초하여, 액튜에이터(3AA 1 ∼3AA K , 3BA 1 ∼3BA K , 3CA 1 ∼3CA K , 3DA 1 ∼3DA K , 4A 1 ∼4A L , 5A 1 , 5A 2 ) 중 필요한 것을 구동시킨다. 이에 의해, 머리부 유닛(4)을 상하 좌우로 흔들게 하거나, 아랫턱부(4A)를 개폐시킨다. 또한, 꼬리부 유닛(5)을 움직이게 하거나, 각 다리부 유닛(3A∼3D)을 구동하여 로봇을 보행시키는 등의 행동을 행하게 한다.

    또한, 컨트롤러(10)는 필요에 따라 합성음을 생성하여, 스피커(18)로 공급하여 출력시키거나, 로봇의 「눈」의 위치에 장착된 도시하지 않는 LED(Light Emitting Diode)를 점등, 소등 또는 점멸시킨다.

    이상과 같이 하여, 로봇은 주위의 상황 등에 기초하여 자율적으로 행동을 취하게 되어 있다.

    다음으로, 도 3은 도 2의 컨트롤러(10)의 기능적 구성예를 도시하고 있다. 또, 도 3에 도시하는 기능적 구성은 CPU(10A)가 메모리(10B)에 기억된 제어 프로그램을 실행함으로써 실현되도록 되어 있다.

    컨트롤러(10)는 특정한 외부 상태를 인식하는 센서 입력 처리부(50), 센서 입력 처리부(50)의 인식 결과를 누적하여, 감정이나, 본능, 성장 상태를 표현하는 모델 기억부(51), 센서 입력 처리부(50)의 인식 결과 등에 기초하여, 후속 행동을 결정하는 행동 결정 기구부(52), 행동 결정 기구부(52)의 결정 결과에 기초하여, 실제로 로봇에 행동을 일으키게 하는 자세 천이 기구부(53), 각 액튜에이터(3AA 1 ∼5A 1 , 5A 2 )를 구동 제어하는 제어 기구부(54), 및 합성음을 생성하는 음성 합성부(55)로 구성되어 있다.

    센서 입력 처리부(50)는 마이크(15)나, CCD 카메라(16), 터치 센서(17) 등으로부터 주어지는 음성 신호, 화상 신호, 압력 검출 신호 등에 기초하여, 특정한 외부 상태나, 사용자로부터의 특정 작용, 사용자로부터의 지시 등을 인식하고, 그 인식 결과를 나타내는 상태 인식 정보를 모델 기억부(51) 및 행동 결정 기구부(52)에 통지한다.

    즉, 센서 입력 처리부(50)는 음성 인식부(50A)를 포함하고 있으며, 음성 인식부(50A)는 마이크(15)로부터 주어지는 음성 신호에 대하여 음성 인식을 행한다. 그리고, 음성 인식부(50A)는 그 음성 인식 결과로서의, 예를 들면 「걸어라」, 「엎드려」, 「볼을 쫓아」 등의 명령을 상태 인식 정보로서, 모델 기억부(51) 및 행동 결정 기구부(52)에 통지한다.

    또한, 센서 입력 처리부(50)는 화상 인식부(50B)를 포함하고 있으며, 화상 인식부(50B)는 CCD 카메라(16)로부터 주어지는 화상 신호를 이용하여 화상 인식 처리를 행한다. 그리고, 화상 인식부(50B)는, 그 처리 결과, 예를 들면 「빨갛고 둥근 것」이나, 「지면에 대하여 수직이며 소정 높이 이상의 평면」 등을 검출했을 때에는 「볼이 있다」나, 「벽이 있다」 등의 화상 인식 결과를 상태 인식 정보로서 모델 기억부(51) 및 행동 결정 기구부(52)에 통지한다.

    또한, 센서 입력 처리부(50)는 압력 처리부(50C)를 포함하고 있으며, 압력처리부(50C)는 터치 센서(17)로부터 주어지는 압력 검출 신호를 처리한다. 그리고, 압력 처리부(50C)는, 그 처리 결과, 소정의 임계치 이상이며, 또한 단시간의 압력을 검출했을 때에는 「맞았다(꾸중들었다)」라고 인식하고, 소정의 임계치 미만이며, 또한 장시간의 압력을 검출했을 때에는 「어루만졌다(칭찬받았다)」라고 인식하여, 그 인식 결과를 상태 인식 정보로서, 모델 기억부(51) 및 행동 결정 기구부(52)에 통지한다.

    모델 기억부(51)는 로봇의 감정, 본능, 성장 상태를 표현하는 감정 모델, 본능 모델, 성장 모델을 각각 기억, 관리하고 있다.

    여기서, 감정 모델은 예를 들면, 「기쁨」, 「슬픔」, 「분노」, 「즐거움」 등의 감정 상태(정도)를 소정의 범위(예를 들면, -1.0 내지 1.0 등)의 값에 의해 각각 나타내고, 센서 입력 처리부(50)로부터의 상태 인식 정보나 시간 경과 등에 기초하여, 그 값을 변화시킨다. 본능 모델은 예를 들면, 「식욕」, 「수면욕」, 「운동욕」 등의 본능에 의한 욕구 상태(정도)를 소정의 범위의 값에 의해 각각 나타내고, 센서 입력 처리부(50)로부터의 상태 인식 정보나 시간 경과 등에 기초하여, 그 값을 변화시킨다. 성장 모델은 예를 들면, 「유년기」, 「청년기」, 「숙년기」, 「노년기」 등의 성장 상태(정도)를 소정의 범위의 값에 의해 각각 나타내고, 센서 입력 처리부(50)로부터의 상태 인식 정보나 시간 경과 등에 기초하여, 그 값을 변화시킨다.

    모델 기억부(51)는 상술된 바와 같이 하여 감정 모델, 본능 모델, 성장 모델의 값으로 표시되는 감정, 본능, 성장 상태를 상태 정보로서, 행동 결정기구부(52)로 송출한다.

    또, 모델 기억부(51)에는 센서 입력 처리부(50)로부터 상태 인식 정보가 공급되는 것 외에, 행동 결정 기구부(52)로부터, 로봇의 현재 또는 과거의 행동, 구체적으로는, 예를 들면 「장시간 걸었다」 등의 행동의 내용을 나타내는 행동 정보가 공급되도록 되어 있으며, 모델 기억부(51)는 동일한 상태 인식 정보가 주어져도, 행동 정보가 나타내는 로봇의 행동에 따라, 다른 상태 정보를 생성하도록 되어 있다.

    즉, 예를 들면 로봇이 사용자에게 인사를 하고, 사용자가 머리를 어루만진 경우에는 사용자에게 인사를 했다는 등의 행동 정보와, 머리가 어루만져졌다고 하는 상태 인식 정보가 모델 기억부(51)에 주어지고, 이 경우, 모델 기억부(51)에서는 「기쁨」을 나타내는 감정 모델의 값이 증가된다.

    한편, 로봇이 어떠한 일을 실행하던 중에 머리가 어루만져진 경우에는 일을 실행하던 중이라는 행동 정보와, 머리가 어루만져졌다고 하는 상태 인식 정보가 모델 기억부(51)에 주어지고, 이 경우, 모델 기억부(51)에서는 「기쁨」을 나타내는 감정 모델의 값은 변화되지 않는다.

    이와 같이 모델 기억부(51)는 상태 인식 정보뿐만 아니라, 현재 또는 과거의 로봇의 행동을 나타내는 행동 정보도 참조하면서, 감정 모델의 값을 설정한다. 이에 의해, 예를 들면 어떠한 태스크를 실행하던 중에, 사용자가 장난을 목적으로 머리를 어루만졌을 때에, 「기쁨」을 나타내는 감정 모델의 값을 증가시키는 부자연스런 감정의 변화가 생기는 것을 회피할 수 있다.

    또, 모델 기억부(51)는 본능 모델 및 성장 모델에 대해서도, 감정 모델에 있어서의 경우와 마찬가지로, 상태 인식 정보 및 행동 정보의 양방에 기초하여, 그 값을 증감시키도록 되어 있다. 또한, 모델 기억부(51)는 감정 모델, 본능 모델, 성장 모델 각각의 값을 다른 모델의 값에도 기초하여 증감시키도록 되어 있다.

    행동 결정 기구부(52)는 센서 입력 처리부(50)로부터의 상태 인식 정보나, 모델 기억부(51)로부터의 상태 정보, 시간 경과 등에 기초하여, 다음의 행동을 결정하고, 결정된 행동의 내용을 행동 명령 정보로서, 자세 천이 기구부(53)로 송출한다.

    즉, 행동 결정 기구부(52)는 로봇이 취할 수 있는 행동을 스테이트(상태)(state)에 대응시킨 유한 오토마톤(automaton)을, 로봇의 행동을 규정하는 행동 모델로서 관리하고 있으며, 이 행동 모델로서의 유한 오토마톤에 있어서의 스테이트를, 센서 입력 처리부(50)로부터의 상태 인식 정보나, 모델 기억부(51)에서의 감정 모델, 본능 모델, 또는 성장 모델의 값, 시간 경과 등에 기초하여 천이시키고, 천이 후의 스테이트에 대응하는 행동을 다음에 취해야 하는 행동으로서 결정한다.

    여기서, 행동 결정 기구부(52)는 소정의 트리거(trigger)가 있었던 것을 검출하면, 스테이트를 천이시킨다. 즉, 행동 결정 기구부(52)는, 예를 들면 현재의 스테이트에 대응하는 행동을 실행하고 있는 시간이 소정 시간에 도달했을 때나, 특정한 상태 인식 정보를 수신했을 때, 모델 기억부(51)로부터 공급되는 상태 정보가 나타내는 감정이나, 본능, 성장 상태의 값이 소정의 임계치 이하 또는 이상으로 되었을 때 등에, 스테이트를 천이시킨다.

    또, 행동 결정 기구부(52)는 상술한 바와 같이 센서 입력 처리부(50)로부터의 상태 인식 정보뿐만 아니라, 모델 기억부(51)에서의 감정 모델이나, 본능 모델, 성장 모델의 값 등에도 기초하여, 행동 모델에 있어서의 스테이트를 천이시키므로, 동일한 상태 인식 정보가 입력되어도, 감정 모델이나, 본능 모델, 성장 모델의 값(상태 정보)에 따라서는 스테이트의 천이처(先)는 다른 것으로 된다.

    그 결과, 행동 결정 기구부(52)는, 예를 들면 상태 정보가 「화나 있지 않다」는 것, 및 「배가 고프지 않다」는 것을 나타내고 있는 경우에, 상태 인식 정보가 「눈앞에 손바닥을 내밀었다」는 것을 나타내고 있을 때에는 눈앞에 손바닥을 내민 것에 따라, 「손」이라는 행동을 취하게 하는 행동 명령 정보를 생성하고, 이것을 자세 천이 기구부(53)로 송출한다.

    또한, 행동 결정 기구부(52)는, 예를 들면 상태 정보가 「화나 있지 않다」는 것, 및 「배가 고프다」는 것을 나타내고 있는 경우에, 상태 인식 정보가 「눈앞에 손바닥을 내밀었다」는 것을 나타내고 있을 때에는 눈앞에 손바닥을 내민 것에 따라, 「손바닥을 할짝거린다」와 같은 행동을 행하게 하기 위한 행동 명령 정보를 생성하고, 이것을 자세 천이 기구부(53)로 송출한다.

    또한, 행동 결정 기구부(52)는, 예를 들면 상태 정보가 「화나 있다」는 것을 나타내고 있는 경우에, 상태 인식 정보가 「눈앞에 손바닥을 내밀었다」는 것을 나타내고 있을 때에는 상태 정보가 「배가 고프다」는 것을 나타내고 있어도, 또한 「배가 고프지 않다」는 것을 나타내고 있어도, 「고개를 홱 돌린다」와 같은 행동을 행하게 하기 위한 행동 명령 정보를 생성하고, 이것을 자세 천이 기구부(53)로 송출한다.

    또, 행동 결정 기구부(52)에는 모델 기억부(51)로부터 공급되는 상태 정보가 나타내는 감정이나, 본능, 성장 상태에 기초하여 천이처의 스테이트에 대응하는 행동의 파라미터로서의, 예를 들면 보행 속도나, 손발을 움직일 때의 움직임의 크기 및 속도 등을 결정시킬 수 있으며, 이 경우 이들 파라미터를 포함하는 행동 명령 정보가 자세 천이 기구부(53)로 송출된다.

    또한, 행동 결정 기구부(52)에서는 상술한 바와 같이 로봇의 머리부나 손발 등을 동작시키는 행동 명령 정보 외에, 로봇에 발화를 행하게 하는 행동 명령 정보도 생성된다. 로봇에 발화를 행하게 하는 행동 명령 정보는 음성 합성부(55)에 공급되도록 되어 있다. 이 음성 합성부(55)에 공급되는 행동 명령 정보에는 음성 합성부(55)에 생성시키는 합성음에 대응하는 텍스트 등이 포함된다. 그리고, 음성 합성부(55)는 행동 결정부(52)로부터 행동 명령 정보를 수신하면, 그 행동 명령 정보에 포함되는 텍스트에 기초하여, 합성음을 생성하여, 스피커(18)로 공급하여 출력시킨다. 이에 의해, 스피커(18)로부터는, 예를 들면 로봇의 울음 소리, 나아가서는 「배가 고프다」 등의 사용자에 대한 각종 요구, 「뭐?」 등의 사용자의 호출에 대한 응답 그 이외의 음성 출력이 행해진다. 여기서, 음성 합성부(55)에는 모델 기억부(51)로부터 상태 정보도 공급되도록 되어 있으며, 음성 합성부(55)는 이 상태 정보가 나타내는 감정 상태에 기초하여 음질을 제어한 합성음을 생성할 수 있게 되어 있다. 또, 음성 합성부(55)에서는 감정 이외의, 본능이나 성장 상태에 기초하여 음질을 제어한 합성음을 생성할 수도 있다.

    자세 천이 기구부(53)는 행동 결정 기구부(52)로부터 공급되는 행동 명령 정보에 기초하여, 로봇의 자세를 현재의 자세로부터 다음의 자세로 천이시키기 위한 자세 천이 정보를 생성하여, 이것을 제어 기구부(54)로 송출한다.

    여기서, 현재의 자세로부터 다음으로 천이 가능한 자세는, 예를 들면 동체나 손이나 발의 형상, 무게, 각부의 결합 상태와 같은 로봇의 물리적 형상과, 관절이 굽은 방향이나 각도와 같은 액튜에이터(3AA 1 ∼5A 1 , 5A 2 )의 기구에 의해 결정된다.

    또한, 다음의 자세로서는 현재의 자세로부터 직접 천이 가능한 자세와, 직접 천이할 수 없는 자세가 있다. 예를 들면, 네 발 달린 로봇은 손발을 크게 벌리고 뒹굴고 있는 상태에서, 엎드린 상태로 직접 천이하는 것은 할 수 있지만, 선 상태로 직접 천이할 수는 없고, 일단 손발을 동체 근처에 가까이 당겨 엎드린 자세가 되고 나서 일어서는 2단계 동작이 필요하다. 또한, 안전하게 실행할 수 없는 자세도 존재한다. 예를 들면, 네 발 달린 로봇은 그 네 발로 서 있는 자세로부터, 양 앞발을, 예를 들어 만세를 하고자 하면, 간단히 전도된다.

    이 때문에, 자세 천이 기구부(53)는 직접 천이 가능한 자세를 미리 등록해 두고, 행동 결정 기구부(52)로부터 공급되는 행동 명령 정보가 직접 천이 가능한 자세를 나타내는 경우에는, 그 행동 명령 정보를 그대로 자세 천이 정보로서 제어 기구부(54)로 송출한다. 한편, 행동 명령 정보가 직접 천이 불가능한 자세를 나타내는 경우에는, 자세 천이 기구부(53)는 천이 가능한 다른 자세로 일단 천이한 후에, 목표 자세까지 천이시키는 자세 천이 정보를 생성하여, 제어 기구부(54)로 송출한다. 이에 의해, 로봇이 천이 불가능한 자세를 무리하게 실행하고자 하는 사태나, 전도하는 사태를 회피할 수 있게 되어 있다.

    제어 기구부(54)는 자세 천이 기구부(53)로부터의 자세 천이 정보에 따라, 액튜에이터(3AA 1 ∼5A 1 , 5A 2 )를 구동하기 위한 제어 신호를 생성하고, 이것을 액튜에이터(3AA 1 ∼5A 1 , 5A 2 )로 송출한다. 이에 의해, 액튜에이터(3AA 1 ∼5A 1 , 5A 2 )는 제어 신호에 따라 구동하고, 로봇은 자율적으로 행동을 일으킨다.

    다음으로, 도 4는 도 3의 음성 인식부(50A)의 구성예를 도시하고 있다.

    마이크(15)로부터의 음성 신호는 AD(Analog Digital) 변환부(21)로 공급된다. AD 변환부(21)에서는 마이크(15)로부터의 아날로그 신호인 음성 신호가 샘플링, 양자화되어, 디지털 신호인 음성 데이터로 A/D 변환된다. 이 음성 데이터는 특징 추출부(22) 및 음성 구간 검출부(27)로 공급된다.

    특징 추출부(22)는 거기에 입력되는 음성 데이터에 대하여, 적당한 프레임마다, 예를 들면 MFCC(Mel Frequency Cepstrum Coefficient) 분석을 하고, 그 분석 결과 얻어지는 MFCC를 특징 파라미터(특징 벡터)로서, 매칭부(23)로 출력한다. 또, 특징 추출부(22)에서는, 기타 예를 들면, 선형 예측 계수, 켑스트럼 계수, 선 스펙트럼쌍, 소정의 주파수 대역별 파워(필터 뱅크의 출력) 등을 특징 파라미터로서 추출할 수 있다.

    매칭부(23)는 특징 추출부(22)로부터의 특징 파라미터를 이용하여 음향 모델기억부(24), 사전 기억부(25), 및 문법 기억부(26)를 필요에 따라 참조하면서, 마이크(15)에 입력된 음성(입력 음성)을, 예를 들면 연속 분포 HMM(Hidden Markov Model)법에 기초하여 음성 인식한다.

    즉, 음향 모델 기억부(24)는 음성 인식하는 음성의 언어에 있어서의 개개의 음소나 음절 등의 음향적인 특징을 나타내는 음향 모델을 기억하고 있다. 여기서는, 연속 분포 HMM법에 기초하여 음성 인식을 행하기 때문에, 음향 모델로서는 HMM(Hidden Markov Model)이 이용된다. 사전 기억부(25)는 인식 대상의 각 단어에 대하여, 그 발음에 관한 정보(음운 정보)가 기술된 단어 사전을 기억하고 있다. 문법 기억부(26)는 사전 기억부(25)의 단어 사전에 등록되어 있는 각 단어가 어떻게 연쇄하는지(연결하는지)를 기술한 문법 규칙을 기억하고 있다. 여기서, 문법 규칙으로서는, 예를 들면 문맥 자유 문법(CFG)이나, 통계적인 단어 연쇄 확률(N-gram) 등에 기초한 규칙을 이용할 수 있다.

    매칭부(23)는 사전 기억부(25)의 단어 사전을 참조함으로써, 음향 모델 기억부(24)에 기억되어 있는 음향 모델을 접속함으로써, 단어의 음향 모델(단어 모델)을 구성한다. 또한, 매칭부(23)는 몇 개의 단어 모델을 문법 기억부(26)에 기억된 문법 규칙을 참조함으로써 접속하고, 그와 같이 하여 접속된 단어 모델을 이용하여, 특징 파라미터에 기초하여, 연속 분포 HMM법에 의해 마이크(15)에 입력된 음성을 인식한다. 즉, 매칭부(23)는 특징 추출부(22)가 출력하는 시계열의 특징 파라미터가 관측되는 스코어(개연도)가 가장 높은 단어 모델의 계열을 검출하고, 그 단어 모델의 계열에 대응하는 단어 열의 음운 정보(판독)를 음성의 인식 결과로서 출력한다.

    보다 구체적으로는, 매칭부(23)는 접속된 단어 모델에 대응하는 단어 열에 대하여, 각 특징 파라미터의 출현(출력) 확률을 누적하고, 그 누적값을 스코어로 하여, 그 스코어를 가장 높게 하는 단어 열의 음운 정보를, 음성 인식 결과로서 출력한다.

    이상과 같이 하여 출력되는, 마이크(15)에 입력된 음성의 인식 결과는 상태 인식 정보로서, 모델 기억부(51) 및 행동 결정 기구부(52)로 출력된다.

    또, 음성 구간 검출부(27)는 AD 변환부(21)로부터의 음성 데이터에 대하여, 예를 들면 특징 추출부(22)가 MFCC 분석을 하는 것과 마찬가지의 프레임별로, 파워를 산출하고 있다. 또한, 음성 구간 검출부(27)는 각 프레임의 파워를 소정의 임계치와 비교하여, 그 임계치 이상의 파워를 갖는 프레임으로 구성되는 구간을 사용자의 음성이 입력되어 있는 음성 구간으로서 검출한다. 그리고, 음성 구간 검출부(27)는 검출한 음성 구간을 특징 추출부(22)와 매칭부(23)로 공급하고 있으며, 특징 추출부(22)와 매칭부(23)는 음성 구간만을 대상으로 처리를 행한다. 또, 음성 구간 검출부(27)에서의 음성 구간의 검출 방법은, 상술한 바와 같은 파워와 임계치와의 비교에 의한 방법으로 한정되는 것이 아니다.

    다음으로, 도 5는 도 3의 음성 합성부(55)의 구성예를 도시하고 있다.

    텍스트 해석부(31)에는 행동 결정 기구부(52)가 출력하는, 음성 합성의 대상으로 하는 텍스트를 포함하는 행동 명령 정보가 공급되도록 되어 있으며, 텍스트 해석부(31)는 사전 기억부(34)나 생성용 문법 기억부(35)를 참조하면서, 그 행동명령 정보에 포함되는 텍스트를 해석한다.

    즉, 사전 기억부(34)에는 각 단어의 품사 정보나, 읽기, 액센트 등의 정보가 기술된 단어 사전이 기억되어 있으며, 또한 생성용 문법 기억부(35)에는 사전 기억부(34)의 단어 사전에 기술된 단어에 대하여, 단어 연쇄에 관한 제약 등의 생성용 문법 규칙이 기억되어 있다. 그리고, 텍스트 해석부(31)는 이 단어 사전 및 생성용 문법 규칙에 기초하여, 거기에 입력되는 텍스트의 형태소 해석이나 구문 해석 등의 텍스트 해석(언어 해석)을 행하고, 후단의 규칙 합성부(32)에서 행해지는 규칙 음성 합성에 필요한 정보를 추출한다. 여기서, 규칙 음성 합성에 필요한 정보로서는, 예를 들면 포즈의 위치나, 액센트, 인토네이션, 파워 등을 제어하기 위한 운율 정보, 각 단어의 발음을 나타내는 음운 정보 등이 있다.

    텍스트 해석부(31)에서 얻어진 정보는 규칙 합성부(32)로 공급되고, 규칙 합성부(32)는 음성 정보 기억부(36)를 참조하면서, 텍스트 해석부(31)에 입력된 텍스트에 대응하는 합성음의 음성 데이터(디지털 데이터)를 생성한다.

    즉, 음성 정보 기억부(36)에는, 예를 들면 CV(Consonant, Vowel)나, VCV, CVC, 1 피치 등의 파형 데이터의 형태로 음소편 데이터가 음성 정보로서 기억되어 있으며, 규칙 합성부(32)는 텍스트 해석부(31)로부터의 정보에 기초하여, 필요한 음소편 데이터를 접속하고, 또한 음소편 데이터의 파형을 가공함으로써, 포즈, 액센트, 인토네이션 등을 적절하게 부가하고, 이에 의해 텍스트 해석부(31)에 입력된 텍스트에 대응하는 합성음의 음성 데이터(합성음 데이터)를 생성한다. 또한, 음성 정보 기억부(36)에는, 예를 들면 선형 예측 계수(LPC(Liner PredictionCoefficients))나, 켑스트럼(cepstrum) 계수 등의 파형 데이터를 음향 분석함으로써 얻어지는 음성의 특징 파라미터가 음성 정보로서 기억되고 있으며, 규칙 합성부(32)는 텍스트 해석부(31)로부터의 정보에 기초하여, 필요한 특징 파라미터를, 음성 합성용 합성 필터의 탭 계수로서 이용하고, 또한 그 합성 필터에 제공하는 구동 신호를 출력하는 음원 등을 제어함으로써, 포즈, 액센트, 인토네이션 등을 적절하게 부가하고, 이에 의해 텍스트 해석부(31)에 입력된 텍스트에 대응하는 합성음의 음성 데이터(합성음 데이터)를 생성한다.

    또한, 규칙 합성부(32)에는 모델 기억부(51)로부터 상태 정보가 공급되도록 되어 있으며, 규칙 합성부(32)는 그 상태 정보 중의, 예를 들면 감정 모델의 값에 기초하여, 음성 정보 기억부(36)에 기억된 음성 정보로부터, 그 음질을 제어한 것을 생성하거나, 규칙 음성 합성을 제어하는 각종 합성 제어 파라미터를 생성함으로써, 음질을 제어한 합성음 데이터를 생성한다.

    이상과 같이 하여 생성된 합성음 데이터는 스피커(18)로 공급되고, 이에 의해 스피커(18)로부터는 텍스트 해석부(31)에 입력된 텍스트에 대응하는 합성음이 감정에 따라 음질을 제어하여 출력된다.

    또, 도 3의 행동 결정 기구부(52)에서는 상술한 바와 같이 행동 모델에 기초하여, 다음의 행동이 결정되지만, 합성음으로서 출력하는 텍스트의 내용은 로봇의 행동과 대응시켜 둘 수 있다.

    즉, 예를 들면 로봇이 앉은 상태로부터 선 상태가 되는 행동에는, 텍스트 「얍」 등을 대응시켜 둘 수 있다. 이 경우, 로봇이 앉아 있는 자세로부터 서는 자세로 이행할 때에, 그 자세의 이행에 동기하여, 합성음 「얍」을 출력할 수 있다.

    다음으로, 도 6은 도 5의 규칙 합성부(32)의 구성예를 도시하고 있다.

    운율 생성부(41)에는 텍스트 해석부(31)(도 5)에 의한 텍스트 해석 결과가 공급되고, 운율 생성부(41)는 그 텍스트 해석 결과에 포함되는, 예를 들면 포즈의 위치나, 액센트, 인토네이션, 파워 등을 나타내는 운율 정보와, 음운 정보 등에 기초하여, 합성음의 운율을, 말하자면 구체적으로 제어하는 운율 데이터를 생성한다. 운율 생성부(41)에서 생성된 운율 데이터는 파형 생성부(42)로 공급된다. 여기서, 운율 제어부(41)에서는 합성음을 구성하는 각 음운의 계속 시간 길이, 합성음의 피치 주기의 시간 변화 패턴을 나타내는 주기 패턴 신호, 합성음의 파워의 시간 변화 패턴을 나타내는 파워 패턴 신호 등이 운율 데이터로서 생성된다.

    파형 생성부(42)에는, 상술한 바와 같이 운율 데이터가 공급되는 것 외에, 텍스트 해석부(31)(도 5)에 의한 텍스트 해석 결과가 공급된다. 또한, 파형 생성부(42)에는 파라미터 생성부(43)로부터 합성 제어 파라미터가 공급된다. 파형 생성부(42)는 텍스트 해석 결과에 포함되는 음운 정보에 따라, 필요한 변환 음성 정보를, 변환 음성 정보 기억부(45)로부터 판독하고, 그 변환 음성 정보를 이용하여 규칙 음성 합성을 행함으로써, 합성음을 생성한다. 또한, 파형 생성부(42)는 규칙 음성 합성을 행할 때, 운율 생성부(41)로부터의 운율 데이터와, 파라미터 생성부(43)로부터의 합성 제어 파라미터에 기초하여, 합성음 데이터의 파형을 조정함으로써, 합성음의 운율과 음질을 제어한다. 그리고, 파형 생성부(42)는 최종적으로 얻어진 합성음 데이터를 출력한다.

    파라미터 생성부(43)에는 모델 기억부(51)(도 3)로부터 상태 정보가 공급되도록 되어 있다. 파라미터 생성부(43)는 그 상태 정보 중의 감정 모델에 기초하여, 파형 생성부(42)에서의 규칙 음성 합성을 제어하기 위한 합성 제어 파라미터나, 음성 정보 기억부(36)(도 5)에 기억된 음성 정보를 변환하는 변환 파라미터를 생성한다.

    즉, 파라미터 생성부(43)는, 예를 들면 감정 모델로서의 「기쁨」, 「슬픔」, 「분노」, 「즐거움」, 「흥분」, 「졸리다」, 「기분좋다」, 「불쾌하다」 등의 감정 상태를 나타내는 값(이하, 적절하게, 감정 모델값이라고 함)에, 합성 제어 파라미터와 변환 파라미터를 대응시킨 변환 테이블을 기억하고 있으며, 그 변환 테이블에서, 모델 기억부(51)로부터의 상태 정보에 있어서의 감정 모델의 값에 대응되어 있는 합성 제어 파라미터와 변환 파라미터를 출력한다.

    또, 파라미터 생성부(43)가 기억하고 있는 변환 테이블은 페트 로봇의 감정 상태를 나타내는 음질의 합성음이 얻어지도록, 감정 모델값과, 합성 제어 파라미터 및 변환 파라미터를 대응시켜 구성되어 있다. 감정 모델값과, 합성 제어 파라미터 및 변환 파라미터를 어떻게 대응시킬지는, 예를 들면 시뮬레이션을 행함으로써 결정할 수 있다.

    또한, 여기서는 변환 테이블을 이용하여, 감정 모델값으로부터, 합성 제어 파라미터 및 변환 파라미터를 얻도록 하였지만, 그 밖에 합성 제어 파라미터 및 변환 파라미터는, 예를 들면 다음과 같이 하여 얻을 수도 있다.

    즉, 예를 들면 어떤 감정 #n의 감정 모델값을 P n 으로, 어떤 합성 제어 파라미터 또는 변환 파라미터를 Q i 로, 소정의 함수를 f in ()으로, 각각 나타낼 때, 합성 제어 파라미터 또는 변환 파라미터 Q i 는 식 Q i =Σf in (P n )을 계산함으로써 구할 수 있다. 단, Σ는 변수 n에 대한 서메이션을 나타낸다.

    또한, 상술한 경우에는 「기쁨」, 「슬픔」, 「분노」, 「즐거움」 등의 모든 감정 모델값을 고려한 변환 테이블을 이용하도록 하였지만, 그 밖에 예를 들면, 다음과 같은 간략화한 변환 테이블을 이용할 수도 있다.

    즉, 감정 상태를 예를 들면, 「정상」, 「슬픔」, 「분노」, 「즐거움」 등의 어느 하나로만 분류하고, 각 감정에 고유한 번호로서의 감정 번호를 붙여 둔다. 즉, 예를 들면 「정상」, 「슬픔」, 「분노」, 「즐거움」에, 각각 0, 1, 2, 3 등의 감정 번호를 각각 붙여 둔다. 그리고, 이러한 감정 번호와, 합성 제어 파라미터 및 변환 파라미터를 대응시킨 변환 테이블을 작성한다. 또, 이러한 변환 테이블을 이용하는 경우에는 감정 모델값로부터, 감정 상태를 「기쁨」, 「슬픔」, 「분노」, 「즐거움」 중 어느 하나로 분류할 필요가 있지만, 이것은 다음과 같이 하여 행할 수 있다. 즉, 예를 들면 복수의 감정 모델값 중, 가장 큰 감정 모델값과, 2번째로 큰 감정 모델값과의 차가 소정의 임계치 이상인 경우에는 가장 큰 감정 모델값에 대응하는 감정 상태로 분류하고, 그렇지 않은 경우에는 「정상」 상태로 분류하면 된다.

    여기서, 파라미터 생성부(43)에서 생성되는 합성 제어 파라미터에는, 예를들면 유성음이나 무성 마찰음, 파열음 등의 각음의 음량 밸런스를 조정하는 파라미터, 파형 생성부(42)에서의 음원으로서의, 후술하는 구동 신호 생성부(60)(도 8)의 출력 신호의 진폭 변동의 크기를 제어하는 파라미터, 음원의 주파수를 제어하는 파라미터 등의 합성음의 음질에 영향을 주는 파라미터가 포함된다.

    또한, 파라미터 생성부(43)에서 생성되는 변환 파라미터는 합성음을 구성하는 파형 데이터의 특성을 변경하도록, 음성 정보 기억부(36)(도 5)의 음성 정보를 변환하기 위한 것이다.

    파라미터 생성부(43)가 생성하는 합성 제어 파라미터는 파형 생성부(42)로 공급되고, 변환 파라미터는 데이터 변환부(44)로 공급되도록 되어 있다. 데이터 변환부(44)는 음성 정보 기억부(36)로부터 음성 정보를 판독하고, 변환 파라미터에 따라, 음성 정보를 변환한다. 데이터 변환부(44)는, 이에 의해 합성음을 구성하는 파형 데이터의 특성을 변경시키는 음성 정보로서의 변환 음성 정보를 얻어, 변환 음성 정보 기억부(45)로 공급한다. 변환 음성 정보 기억부(45)는 데이터 변환부(44)로부터 공급되는 변환 음성 정보를 기억한다. 이 변환 음성 정보는 파형 생성부(42)에 의해, 필요에 따라 판독된다.

    다음으로, 도 7의 플로우차트를 참조하여, 도 6의 규칙 합성부(32)의 처리에 대하여 설명한다.

    도 5의 텍스트 해석부(31)가 출력하는 텍스트 해석 결과는, 운율 생성부(41)와 파형 생성부(42)로 공급된다. 또한, 도 5의 모델 기억부(51)가 출력하는 상태 정보는 파라미터 생성부(43)로 공급된다.

    운율 생성부(41)는 텍스트 해석 결과를 수신하면, 단계 S1에서, 텍스트 해석 결과에 포함되는 음운 정보가 나타내는 각 음운의 계속 시간 길이, 주기 패턴 신호, 파워 패턴 신호 등의 운율 데이터를 생성하여, 파형 생성부(42)로 공급하고, 단계 S2로 진행한다.

    그 후, 단계 S2에서는 파라미터 생성부(43)는 감정 반영 모드인지를 판정한다. 즉, 본 실시예에서는 감정을 반영한 음질의 합성음을 출력하는 감정 반영 모드와, 감정을 반영하지 않는 음질의 합성음을 출력하는 비감정 반영 모드 중 어느 하나를 설정할 수 있게 되어 있으며, 단계 S2에서는 로봇의 모드가 감정 반영 모드로 되어 있는지가 판정된다.

    여기서, 로봇에는 감정 반영 모드와 비감정 반영 모드를 설정하지 않고, 항상 감정을 반영한 합성음을 출력시키도록 할 수도 있다.

    단계 S2에서, 감정 반영 모드가 아니라고 판정된 경우, 단계 S3 및 S4를 스킵하여, 단계 S5로 진행하고, 파형 생성부(42)는 합성음을 생성하여, 처리를 종료한다.

    즉, 감정 반영 모드가 아닌 경우, 파라미터 생성부(43)는 특별히 처리를 행하지 않음에 따라, 합성 제어 파라미터 및 변환 파라미터를 생성하지 않는다.

    그 결과, 파형 생성부(42)는 음성 정보 기억부(36)(도 5)에 기억된 음성 정보를 데이터 변환부(44) 및 변환 음성 정보 기억부(45)를 통해 판독하고, 그 음성 정보와, 디폴트의 합성 제어 파라미터를 이용하여 운율 생성부(41)로부터의 운율 데이터에 대응하여 운율을 제어하면서 음성 합성 처리를 행한다. 따라서, 파형 생성부(42)에서는 디폴트의 음질을 갖는 합성음 데이터가 생성된다.

    한편, 단계 S2에서, 감정 반영 모드라고 판정된 경우, 단계 S3으로 진행하고, 파라미터 생성부(43)는 모델 기억부(51)로부터의 상태 정보 중의 감정 모델에 기초하여, 합성 제어 파라미터 및 변환 파라미터를 생성한다. 그리고, 합성 제어 파라미터는 파형 생성부(42)로 공급되고, 변환 파라미터는 데이터 변환부(44)로 공급된다.

    그 후, 단계 S4로 진행하고, 데이터 변환부(44)가 파라미터 생성부(43)로부터의 변환 파라미터에 따라, 음성 정보 기억부(36)(도 5)에 기억된 음성 정보를 변환한다. 또한, 데이터 변환부(44)는 그 변환 결과 얻어진 변환 음성 정보를 변환 음성 정보 기억부(45)로 공급하여 기억시킨다.

    그리고, 단계 S5로 진행하고, 파형 생성부(42)는 합성음을 생성하여, 처리를 종료한다.

    즉, 이 경우, 파형 생성부(42)는 변환 음성 정보 기억부(45)에 기억된 음성 정보 중 필요한 것을 판독하고, 그 변환 음성 정보와, 파라미터 생성부(43)로부터 공급되는 합성 제어 파라미터를 이용하여, 운율 생성부(41)로부터의 운율 데이터에 대응하여 운율을 제어하면서 음성 합성 처리를 행한다. 따라서, 파형 생성부(42)에서는 로봇의 감정 상태에 대응하는 음질을 갖는 합성음 데이터가 생성된다.

    이상과 같이 감정 모델값에 기초하여, 합성 제어 파라미터나 변환 파라미터를 생성하고, 그 합성 제어 파라미터나 변환 파라미터에 의해 음성 정보를 변환한 변환 음성 정보를 이용하여 음성 합성을 행하도록 하였기 때문에, 감정에 따라, 예를 들면 주파수 특성이나 음량 밸런스 등의 음질이 제어된, 감정이 풍부한 합성음을 얻을 수 있다.

    다음으로, 도 8은 음성 정보 기억부(36)(도 5)에 기억되어 있는 음성 정보가 음성의 특징 파라미터로서의, 예를 들면 선형 예측 계수(LPC)인 경우의, 도 6의 파형 생성부(42)의 구성예를 도시하고 있다.

    여기서, 선형 예측 계수는 음성의 파형 데이터로부터 구해진 자기 상관 계수를 이용한 Yule-Walker 방정식을 푸는 등의, 소위 선형 예측 분석을 함으로써 얻어지지만, 이 선형 예측 분석은 현재 시각 n의 음성 신호(의 샘플값) s n , 및 이에 인접하는 과거의 P개의 샘플값 s n-1 , s n-2 , … , s np 에,

    으로 표현되는 선형 1차 결합이 성립한다고 가정하고, 현재 시각 n의 샘플값 s n 의 예측값(선형 예측값) s n '를 과거의 P개의 표본값 s n-1 , s n-2 , … , s np 를 이용하여,

    에 의해 선형 예측했을 때에, 실제의 샘플값 s n 과 선형 예측값 s n ' 사이의 제곱 오차를 최소로 하는 선형 예측 계수 α p 를 구하는 것이다.

    여기서, 수학식 1에서, {e n }( …, e n-1 , e n , e n+1 , …)은 평균값이 0이며, 분산이 소정치 σ 2 의 상호 무 상관인 확률 변수이다.

    수학식 1로부터, 샘플값 s n

    로 표현할 수 있으며, 이것을 Z 변환하면, 다음식이 성립한다.

    단, 수학식 4에서, S와 E는 수학식 3에서의 s n 과 e n 의 Z 변환을 각각 나타낸다.

    여기서, 수학식 1 및 2로부터, e n

    로 표현할 수 있으며, 실제 샘플값 s n 과 선형 예측값 s n ' 사이의 잔차 신호라고 불린다.

    따라서, 수학식 4로부터, 선형 예측 계수 α p 를 IIR(Infinife Impulse Response) 필터의 탭 계수로 함과 함께, 잔차 신호 e n 을 IIR 필터의 구동 신호(입력 신호)로 함으로써, 음성 신호 s n 을 구할 수 있다.

    도 8의 파형 생성부(42)는 수학식 4에 따라 음성 신호를 생성하는 음성 합성을 행하도록 되어 있다.

    즉, 구동 신호 생성부(60)는 구동 신호로 되는 잔차 신호를 생성하여 출력한다.

    여기서, 구동 신호 생성부(60)에는 운율 데이터, 텍스트 해석 결과, 및 합성 제어 파라미터가 공급되도록 되어 있다. 그리고, 구동 신호 생성부(60)는 이들 운율 데이터, 텍스트 해석 결과 및 합성 제어 파라미터에 따라, 주기(주파수)나 진폭 등을 제어한 주기적인 임펄스와, 백색 잡음과 같은 신호를 중첩함으로써, 합성음에 대하여, 대응하는 운율, 음운, 음질(성(聲)질)을 공급하는 구동 신호를 생성한다. 또, 주기적인 임펄스는 주로 유성음의 생성에 기여하고, 백색 잡음과 같은 신호는 주로 무성음의 생성에 기여한다.

    도 8에서, 하나의 가산기(61), P개의 지연 회로(D)(62 1 ∼62 p ), 및 P개의 승산기(63 1 ∼63 p )는 음성 합성용 합성 필터로서의 IIR 필터를 구성하고 있으며, 구동 신호 생성부(60)로부터의 구동 신호를 음원으로 하여, 합성음 데이터를 생성한다.

    즉, 구동 신호 생성부(60)가 출력하는 잔차 신호(구동 신호) e는 가산기(61)를 통해, 지연 회로(62 1 )로 공급되고, 지연 회로(62 p )는 거기에의 입력 신호를 잔차 신호의 1샘플분만큼 지연하여, 후단의 지연 회로(62 p+1 )로 출력함과 함께, 연산기(63 p )로 출력한다. 승산기(63 p )는 지연 회로(62 p )의 출력과, 거기에 세트된 선형 예측 계수 α p 를 승산하고, 그 승산값을 가산기(61)로 출력한다.

    가산기(61)는 승산기(63 1 ∼63 p )의 출력 전부와, 잔차 신호 e를 가산하고, 그 가산 결과를 지연 회로(62 1 )로 공급하는 것 외에, 음성 합성 결과(합성음 데이터)로서 출력한다.

    또, 계수 공급부(64)는 변환 음성 정보 기억부(45)로부터, 텍스트 해석 결과에 포함되는 음운 등에 따라, 필요한 변환 음성 정보로서의 선형 예측 계수 α 1 , α 2 , … , α p 를 판독하여, 각각을 승산기(63 1 ∼63 p )로 세트하도록 되어 있다.

    다음으로, 도 9는 음성 정보 기억부(36)(도 5)에 기억되어 있는 음성 정보가 음성의 특징 파라미터로서의, 예를 들면 선형 예측 계수(LPC)인 경우의, 도 6의 데이터 변환부(44)의 구성예를 도시하고 있다.

    음성 정보 기억부(36)에 기억된 음성 정보로서의 선형 예측 계수는, 합성 필터(71)로 공급된다. 합성 필터(71)는 도 8에서의 하나의 가산기(61), P개의 지연 회로(D)(62 1 ∼62 p ), 및 P개의 승산기(63 1 ∼63 p )로 구성되는 합성 필터와 마찬가지의 IIR 필터이고, 선형 예측 계수를 탭 계수로 함과 함께, 임펄스를 구동 신호로서 필터링을 행함으로써, 선형 예측 계수를 음성 데이터(시간 영역의 파형 데이터)로 변환한다. 이 음성 데이터는 푸리에 변환부(72)로 공급된다.

    푸리에 변환부(72)는 합성 필터(71)로부터의 음성 데이터를 푸리에 변환함으로써, 주파수 영역의 신호, 즉 스펙트럼을 구하여, 주파수 특성 변환부(73)로 공급한다.

    따라서, 합성 필터(71) 및 푸리에 변환부(72)에서는 선형 예측 계수 α 1 , α 2 , … , α p 가 스펙트럼 F(θ)로 변환되지만, 이 선형 예측 계수 α 1 , α 2 , … , α p 로부터 스펙트럼 F(θ)의 변환은, 그 밖에 예를 들면, 다음 식에 따라, θ를 0부터 π까지 변화시킴으로써도 행할 수 있다.

    여기서, θ는 각 주파수를 나타낸다.

    주파수 특성 변환부(73)에는 파라미터 생성부(43)(도 6)가 출력하는 변환 파라미터가 공급되도록 되어 있다. 그리고, 주파수 특성 변환부(73)는 푸리에 변환부(72)로부터의 스펙트럼을 변환 파라미터에 따라 변환함으로써, 선형 예측 계수로부터 얻어지는 음성 데이터(파형 데이터)의 주파수 특성을 변경한다.

    여기서, 도 9의 실시예에서는 주파수 특성 변환부(73)는 신축 처리부(73A)와 이퀄라이저(73B)로 구성되어 있다.

    신축 처리부(73)는 푸리에 변환부(72)로부터 공급되는 스펙트럼 F(θ)를 주파수 축 방향으로 신축시킨다. 즉, 신축 처리부(73A)는 신축 파라미터를 Δ로 표현하면, 수학식 6을 그 θ를 Δθ로 바꾸어 연산하고, 주파수 축 방향으로 신축을 행한 스펙트럼 F(Δθ)를 구한다.

    이 경우, 신축 파라미터 Δ가 변환 파라미터가 된다. 또, 신축 파리미터 Δ는, 예를 들면 0.5 내지 2.0의 범위 내의 값으로 할 수 있다.

    이퀄라이저(73B)는 푸리에 변환부(72)로부터 공급되는 스펙트럼 F(θ)에, 이퀄라이징 처리를 실시함으로써, 그 고역을 강조 또는 억압한다. 즉, 이퀄라이저(73B)는 스펙트럼 F(θ)에 대하여, 예를 들면 도 10A에 도시한 바와 같은 특성의 고역 강조 필터, 또는 도 10B에 도시한 바와 같은 특성의 고역 억압 필터를 걸어, 그 주파수 특성을 변경한 스펙트럼을 구한다.

    여기서, 도 10에서, g는 게인을 나타내고, f C 는 차단 주파수를 나타내고, f W 은 감쇠 폭을 나타내며, f S 는 음성 데이터(합성 필터(71)가 출력하는 음성 데이터)의 샘플링 주파수를 각각 나타내지만, 이 중 게인 g, 차단 주파수 f C , 및 감쇠 폭 W 가, 변환 파라미터가 된다.

    또, 일반적으로, 도 10A의 고역 강조 필터를 건 경우에는 합성음의 음질은 딱딱한 인상의 것이 되고, 도 10B의 고역 억압 필터를 건 경우에는 합성음의 음질은 부드러운 인상의 것이 된다.

    또한, 주파수 특성 변환부(73)에서는, 그 밖에 예를 들면, n차 평균 필터를 걸거나, 켑스트럼 계수를 구하여 리프터(lifter)를 거는 등으로 하여, 스펙트럼을 평활화할 수도 있다.

    주파수 특성 변환부(73)에서 주파수 특성이 변환된 스펙트럼은 역 푸리에 변환부(74)로 공급된다. 역 푸리에 변환부(74)는 주파수 특성 변환부(73)로부터의 스펙트럼을 역 푸리에 변환함으로써, 시간 영역의 신호, 즉 음성 데이터(파형 데이터)를 구하고, LPC 분석부(75)로 공급한다.

    LPC 분석부(75)는 역 푸리에 변환부(74)로부터의 음성 데이터를 선형 예측 분석함으로써, 선형 예측 계수를 구하고, 이 선형 예측 계수를 변환 음성 정보로서, 변환 음성 정보 기억부(45)(도 6)로 공급하여 기억시킨다.

    또, 여기서는 음성의 특징 파라미터로서, 선형 예측 계수를 채용하였지만, 그 밖에 켑스트럼 계수나, 선 스펙트럼쌍 등을 채용할 수도 있다.

    다음으로, 도 11은 음성 정보 기억부(36)(도 5)에 기억되어 있는 음성 정보가 음성 데이터(파형 데이터)로서의, 예를 들면 음소편 데이터인 경우의, 도 6의 파형 생성부(42)의 구성예를 도시하고 있다.

    접속 제어부(81)에는 운율 데이터, 합성 제어 파라미터, 및 텍스트 해석 결과가 공급되도록 되어 있다. 접속 제어부(81)는 이들 운율 데이터, 합성 제어 파라미터, 및 텍스트 해석 결과에 따라, 합성음을 생성하는 데 접속해야 할 음소편 데이터나, 그 파형의 가공 방법 또는 조정 방법(예를 들면, 파형의 진폭 등)을 결정하고, 파형 접속부(82)를 제어한다.

    파형 접속부(82)는 접속 제어부(81)의 제어에 따라, 변환 음성 정보 기억부(45)로부터, 변환 음성 정보로서의, 필요한 음소편 데이터를 판독하고, 또한 동일하게 접속 제어부(81)의 제어에 따라, 판독한 음소편 데이터의 파형을 조정하여 접속한다. 이에 의해, 파형 접속부(82)는 운율 데이터, 합성 제어 파라미터, 텍스트 해석 결과 각각에 대응하는 운율, 음질, 음운의 합성음 데이터를 생성하여 출력한다.

    다음으로, 도 12는 음성 정보 기억부(36)(도 5)에 기억되어 있는 음성 정보가 음성 데이터(파형 데이터)인 경우의, 도 6의 데이터 변환부(44)의 구성예를 나타내고 있다. 또, 도 12에서, 도 9에서의 경우와 대응하는 부분에 대해서는 동일한 부호를 붙이고 있으며, 이하에서는 그 설명은 적절하게 생략한다. 즉, 도 12의 데이터 변환부(44)는 합성 필터(71) 및 LPC 분석부(75)가 설치되어 있지 않는 것 외에는, 도 9에서의 경우와 마찬가지로 구성되어 있다.

    따라서, 도 12의 데이터 변환부(44)에서는 푸리에 변환부(72)에서, 음성 정보 기억부(36)(도 5)에 기억된 음성 정보로서의 음성 데이터가 푸리에 변환되고, 그 결과 얻어지는 스펙트럼이 주파수 특성 변환부(73)로 공급된다. 주파수 특성 변환부(73)는 푸리에 변환부(72)로부터의 스펙트럼에 대하여, 변환 파라미터에 따른 주파수 특성 변환 처리를 실시하고, 역 푸리에 변환부(74)로 출력한다. 역 푸리에 변환부(74)는 주파수 특성 변환부(73)로부터의 스펙트럼을 역 푸리에 변환함으로써, 음성 데이터로 하고, 이 음성 데이터를 변환 음성 정보로서, 변환 음성 정보 기억부(45)(도 6)로 공급하여 기억시킨다.

    이상, 본 발명을 오락용 로봇(유사 페트로서의 로봇)에 적용한 경우에 대해서 설명했지만, 본 발명은 이에 한정되지 않고, 예를 들면 음성 합성 장치를 탑재한 각종 시스템에 널리 적용할 수 있다. 또한, 본 발명은 현실 세계의 로봇뿐만 아니라, 예를 들면 액정 디스플레이 등의 표시 장치에 표시되는 가상적인 로봇에도 적용 가능하다.

    또, 본 실시예에서는 상술한 일련의 처리를 CPU(10A)에 프로그램을 실행시킴으로써 행하도록 하였지만, 일련의 처리는 그 전용의 하드웨어에 의해 행할 수도 있다.

    여기서, 프로그램은 미리 메모리(10B)(도 2)에 기억시켜 두는 것 외에, 플로피 디스크, CD-ROM(Compact Disc Read Only Memory), MO(Magneto optical) 디스크, DVD(Digital Versatile Disc), 자기 디스크, 반도체 메모리 등의 리무버블 기록 매체에, 일시적 또는 영속적으로 저장(기록)해 둘 수 있다. 그리고, 이러한 리무버블 기록 매체를, 소위 패키지 소프트웨어로서 제공하고, 로봇 (메모리(10B))에 인스톨하도록 할 수 있다.

    또한, 프로그램은 다운로드 사이트로부터, 디지털 위성 방송용 인공위성을 통해, 무선으로 전송하거나, LAN(Local Area Network), 인터넷 등의 네트워크를 통해 유선으로 전송하고, 메모리(10B)에 인스톨할 수 있다.

    이 경우, 프로그램이 버전-업되었을 때 등에, 그 버전-업된 프로그램을 메모리(10B)에 용이하게 인스톨할 수 있다.

    또, 본 명세서에서, CPU(10A)에 각종 처리를 행하게 하기 위한 프로그램을 기술하는 처리 단계는, 반드시 플로우차트로서 기재된 순서를 따라 시계열로 처리할 필요는 없고, 병렬적 또는 개별적으로 실행되는 처리(예를 들면, 병렬 처리 또는 오브젝트에 의한 처리)도 포함하는 것이다.

    또한, 프로그램은 하나의 CPU에 의해 처리되는 것이어도 되고, 복수의 CPU에 의해 분산 처리되는 것이어도 된다.

    다음으로, 도 5의 음성 합성 장치(55)는 전용의 하드웨어에 의해 실현할 수도 있고, 소프트웨어에 의해 실현할 수도 있다. 음성 합성 장치(55)를 소프트웨어에 의해 실현하는 경우에는 그 소프트웨어를 구성하는 프로그램이 범용의 컴퓨터 등에 인스톨된다.

    따라서, 도 13은 음성 합성 장치(55)를 실현하기 위한 프로그램이 인스톨되는 컴퓨터의 일 실시예의 구성예를 도시하고 있다.

    프로그램은 컴퓨터에 내장되어 있는 기록 매체로서의 하드디스크(105)나 ROM(103)에 미리 기록해 둘 수 있다.

    또, 프로그램은 플로피 디스크, CD-ROM, MO 디스크, DVD, 자기 디스크, 반도체 메모리 등의 리무버블 기록 매체(111)에, 일시적 또는 영속적으로 저장(기록)시켜 둘 수 있다. 이러한 리무버블 기록 매체(111)는, 소위 패키지 소프트웨어로서 제공할 수 있다.

    또, 프로그램은 상술한 바와 같은 리무버블 기록 매체(111)로부터 컴퓨터에 인스톨하는 것 외에, 다운로드 사이트로부터, 디지털 위성 방송용 인공위성을 통해 컴퓨터에 무선으로 전송하거나, LAN(Local Area Network), 인터넷 등의 네트워크를 통해 컴퓨터에 유선으로 전송하고, 컴퓨터에서는 그와 같이 하여 전송되어 오는 프로그램을 통신부(108)에서 수신하여, 내장하는 하드디스크(105)에 인스톨할 수 있다.

    컴퓨터는 CPU(Central Processing Unit)(102)를 내장하고 있다. CPU(102)에는 버스(101)를 통해 입출력 인터페이스(110)가 접속되어 있으며, CPU(102)는 입출력 인터페이스(110)를 통해 사용자에 의해, 키보드나, 마우스, 마이크 등으로 구성되는 입력부(107)가 조작됨으로써 명령이 입력되면, 그에 따라 ROM(Read Only Memory)(103)에 저장되어 있는 프로그램을 실행한다. 또한, CPU(102)는 하드디스크(105)에 저장되어 있는 프로그램, 위성 또는 네트워크로부터 전송되고, 통신부(108)에서 수신되어 하드디스크(105)에 인스톨된 프로그램, 또는 드라이브(109)에 장착된 리무버블 기록 매체(111)로부터 판독되어 하드디스크(105)에 인스톨된 프로그램을 RAM(Random Access Memory)(104)에 로드하여 실행한다. 이에 의해, CPU(102)는 상술한 플로우차트에 따른 처리, 또는 상술한 블록도의 구성에 의해 행해지는 처리를 행한다. 그리고, CPU(102)는 그 처리 결과를, 필요에 따라, 예를 들면 입출력 인터페이스(110)를 통해, LCD(Liquid Crystal Display)나 스피커 등으로 구성되는 출력부(106)로부터 출력, 또는 통신부(108)로부터 송신, 나아가서는 하드디스크(105)에 기록 등을 시킨다.

    또, 본 실시예에서는 감정 상태에 기초하여, 합성음의 음질을 바꾸도록 하였지만, 그 밖에 예를 들면, 감정 상태에 기초하여, 합성음의 운율도 바꾸도록 할 수 있다. 합성음의 운율은, 예를 들면 합성음의 피치 주기의 시간 변화 패턴(주기 패턴)이나, 합성음의 파워의 시간 변화 패턴(파워 패턴) 등을 감정 모델에 기초하여 제어함으로써 바꿀 수 있다.

    또한, 본 실시예에서는 텍스트(한자 가나 혼용의 텍스트를 포함함)로부터 합성음을 생성하도록 했지만, 그 밖에 발음 기호 등으로부터 합성음을 생성하도록 할 수도 있다.

    이상과 같이, 본 발명에 따르면, 소정의 정보 중, 합성음의 음질에 영향을 주는 음질 영향 정보가 외부로부터 공급되는, 감정 상태를 나타내는 상태 정보에 기초하여 생성되고, 그 음질 영향 정보를 이용하여 음질을 제어한 합성음이 생성된다. 따라서, 감정 상태에 따라 음질을 바꾼 합성음을 생성함으로써, 감정이 풍부한 합성음을 얻을 수 있다.

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈