语音识别处理装置及语音识别处理方法专利检索-语音信号音频信号信号信号处理专利检索查询-专利查询网

语音识别处理装置及语音识别处理方法

阅读：399发布：2022-10-01

专利汇可以提供语音识别处理装置及语音识别处理方法专利检索，专利查询，专利分析的服务。并且本发明提供一种语音识别处理装置及语音识别处理方法，其以适当的形式对无语音区间进行规定，并根据在无语音区间所得到的声音信号来生成用于噪声去除的补正信息。语音识别处理装置包括：语音合成部、语音输出部、语音输入部、语音识别部，在语音合成部中被合成的第一合成音和第二合成音从语音输出部被输出，根据在第一合成音的输出期间和第二合成音的输出期间之间从语音输入部输入的声音信号来取得噪声信息，并将该噪声信息应用于语音识别部中的噪声去除的处理中。，下面是语音识别处理装置及语音识别处理方法专利的具体信息内容。

权利要求

1.一种语音识别处理装置，其特征在于，
包括：
语音合成部；
语音输出部，其输出在所述语音合成部中所合成的语音；
语音输入部；
语音识别部，其实施对从所述语音输入部输入的声音的语音识别，
在所述语音合成部中被合成的第一句子包括第一单词和第二单词，在将所述语音合成部中合成有所述第一单词的声音设为第一合成音、并将所述语音合成部中合成有所述第二单词的声音设为第二合成音时，以在第一期间和第二期间之间的第三期间内通过所述语音输入部而被输入的声音为基础，来生成补正信息，其中，所述第一期间为，输出所述第一合成音的期间，所述第二期间为，输出所述第二合成音的期间，所述第三期间为，未通过所述语音输出部来输出语音的期间，所述补正信息为，用于对实施所述语音识别的语音信号进行噪声去除的信息。
2.如权利要求1所述的语音识别处理装置，其特征在于，
所述第二单词为所述第一单词的下一个单词。
3.如权利要求1或2所述的语音识别处理装置，其特征在于，
所述补正信息以在多个所述第三期间内被输入的声音为基础而生成。
4.一种语音识别处理方法，其特征在于，
在具有语音合成部、语音输出部及语音输入部的语音识别处理装置中，
在所述语音合成部中被合成的第一句子包括第一单词和第二单词，在将所述语音合成部中合成有所述第一单词的声音设为第一合成音，将所述语音合成部中合成有所述第二单词的声音设为第二合成音时，以在第一期间和第二期间之间的第三期间内通过所述语音输入部而被输入的声音为基础，来生成补正信息，其中，所述第一期间为，输出所述第一合成音的期间，所述第二期间为，输出所述第二合成音的期间，所述第三期间为，未通过所述语音输出部来输出语音的期间，
所述补正信息用于对实施语音识别的语音信号进行噪声去除。

说明书全文

语音识别处理装置及语音识别处理方法

技术领域

[0001] 本发明涉及一种实施对使用者的语音的识别的语音识别处理装置。

背景技术

[0002] 一直以来，存在一种语音处理装置，其输入使用者的语音，并对语音进行分析从而实施与使用者相对应的处理。这种装置例如被用于电话应答系统、实施美术馆等的馆内的引导的引导系统以及车辆导航系统等。虽然使用者的语音会通过话筒而被导入到语音处理装置中，然而在多数情况下，使用者的周围的声音也会被同时导入。这种周围的声音，在实施对使用者的语音的识别的过程中会构成噪声，从而成为使语音识别率降低的主要因素。

[0003] 因此，进行了各种研究来实施用于去除周围声音的预定的处理。例如，在专利文献1中，记载了一种如下的噪声抑制装置，该噪声抑制装置在每个固定区间内提取语音输入信号并对语音区间和无语音区间进行区分，并且通过对无语音区间内的频谱进行平均化从而持续对噪声频谱进行推断和更新。

[0004] 但是，由于专利文献1的噪声抑制装置需要始终导入周围的声音且持续推断并更新无语音区间内的输入信号的频谱，因此需要在语音识别处理的执行过程中使噪声抑制装置持续工作，从而认为上述情况将成为阻碍消耗电力降低化的主要因素之一。此外，虽然在每个预定的固定区间进行提取并实施其为语音区间或无语音区间的判断，然而由于使用者的发声的时刻并非按照该预定的固定区间来实施，因此存在混入了少许语音的、并非为完全的无语音区间的区间也被判断为无语音区间的情况，并且认为当这种情况增多时有时会导致噪声频谱并非优选。

[0005] 此外，装置周围的状态并不一定总处于相同的状态。因此，认为存在如下情况，即，不存在使用者时的无语音区间内的噪声、和存在使用者时的噪声较大程度地不同的情况。在包括不存在使用者时的预定的固定区间内的噪声频谱在内的条件下持续进行推断和更新，有时会有在实施语音识别时成为并非优选的噪声频谱的可能性。

[0006] 专利文献1：日本特开2004-20679号公报

发明内容

[0007] 本发明是为了解决上述课题中的至少一部分而实施的发明，其能够作为以下的方式或应用例来实现。

[0008] 应用例1

[0009] 本应用例所涉及的语音识别处理装置的特征在于，包括：语音合成部；语音输出部，其输出在所述语音合成部中所合成的语音；语音输入部；语音识别部，其实施针对从所述语音输入部输入的声音的语音识别，在所述语音合成部中被合成的第一句子包括第一单词和第二单词，在将所述语音合成部中合成有所述第一单词的声音设为第一合成音、将所述语音合成部中合成有所述第二单词的声音设为第二合成音时，以在第一期间和第二期间之间的第三期间内通过所述语音输入部而被输入的声音为基础，来生成补正信息，其中，所述第一期间为输出所述第一合成音的期间，所述第二期间为输出所述第二合成音的期间，所述第三期间为未通过所述语音输出部而输出语音的期间，所述补正信息为，用于对实施所述语音识别的语音信号进行噪声去除的信息。

[0010] 根据该结构，由于通过根据在第三期间内所输入的声音的信号，来生成用于噪声去除的补正信息，并将其用于语音识别时的声音的信号的噪声去除，且所述第三期间为，在语音合成部中所合成的第一合成音和第二合成音之间的、未输出语音的期间，从而不需要始终实施用于实施噪声去除的信号生成的处理，因此与始终实施噪声去除的方式相比，能够实现消耗电力的降低化。

[0011] 此外还认为，在作为合成音的输出间隙的期间的第三期间内，使用者发出语音的可能性较低，从而结果成为不含有使用者的语音的无语音区间的情况较多。因此，在以预定的固定区间来分割时所计算出的噪声频谱、和在第三期间内所计算出的噪声频谱中，在第三期间内所计算出的噪声频谱中使用者的语音频谱的成分较少。由此能够判断为，根据在第三期间内被输入的声音的信号来使用被用于噪声去除的补正信息，具有进一步提高语音识别率的效果。

[0012] 此外，例如，在以与使用者的对话形式实施处理的情况下，在语音识别处理装置输出通过语音合成而形成的语音时，是存在使用者之时。因此，在以第三期间内所输入的声音的信号为基础而生成的用于噪声去除的补正信息中，不包含不存在使用者时所发出的周围的声音的信息。因此，能够判断为具有进一步提高语音识别率的效果。

[0013] 应用例2

[0014] 在上述应用例所涉及的语音识别处理装置中，优选为，所述第二单词为所述第一单词的下一个单词。

[0015] 根据该结构，通过使第二单词为第一单词的下一个单词，从而能够将第三期间设为连续的两个单词之间的期间，进而能够使第三期间的设定变得容易。

[0016] 语音输出部接收在语音合成部中被合成的语音合成信号并作为语音来进行输出。因此，能够在语音合成部或语音输出部中对第一合成音及第二合成音被输出至语音合成部的时刻进行确定，从而能够通过该时刻来对第三期间进行规定。在这种情况下，只要为连续的单词，即只要能够实现所谓的开始、停止的两个意思的表示，即可实现第三期间的设定。
这种设定的控制例如在假定为反复电路形式的控制时，能够以1位的表示来实施。因此，由于能够以较少的信息量来实施，因此能够使第三期间的设定变得容易。

[0017] 应用例3

[0018] 在上述应用例所涉及的语音识别处理装置中，优选为，所述补正信息以在多个所述第三期间中所输入的声音为基础而生成。

[0019] 根据该结构，通过以在多个第三期间内所输入的声音为基础来生成补正信息，从而能够生成缓和了由突发性的噪声所造成的影响的补正信息。

[0020] 以在多个第三期间内所输入的声音为基础而生成的方法，可以采取对在各个第三期间内所计算出的结果进行平均的处理，也可以保存预定数量的第三期间内的声音输入，并利用这些声音输入来进行计算。使用何种方法，可以引入语音识别处理装置的使用状态及周围环境等来进行判断，也可以实施如实际使用测试这样的方法，并使用得出了优选结果的方法。

[0021] 而且，在上述应用例所涉及的语音识别处理装置中，优选为，还引入如下的声音的解析结果来生成所述补正信息，所述声音为，在所述第一句子通过语音输出部而被输出之前的预定的期间内被输入的声音。

[0022] 根据该结构，通过还引入如下的声音的解析结果，所述声音为在第一句子通过语音输出部而被输出之前的预定的时间内被输入的声音，从而能够使获得用于生成补正信息的信息的期间增多。

[0023] 应用例4

[0024] 本应用例所涉及的语音识别处理方法的特征在于，在具有语音合成部、语音输出部及语音输入部的语音识别处理装置中，在所述语音合成部中被合成的第一句子包括第一单词和第二单词，在将所述语音合成部中合成有所述第一单词的声音设为第一合成音，将所述语音合成部中合成有所述第二单词的声音设为第二合成音时，以在第一期间和第二期间之间的第三期间内通过所述语音输入部而被输入的声音为基础，来生成补正信息，其中，所述第一期间为，输出所述第一合成音的期间，所述第二期间为，输出所述第二合成音的期间，所述第三期间为，未通过所述语音输出部来输出语音的期间，所述补正信息为，用于对实施语音识别的语音信号进行噪声去除的信号。

[0025] 根据该方法，在语音合成部中被合成的第一句子包括第一单词和第二单词，在将语音合成部中合成有第一单词的声音设为第一合成音，将语音合成部中合成有第二单词的声音设为第二合成音时，以在第一期间和第二期间之间的第三期间内通过语音输入部而被输入的声音为基础，来生成补正信息，其中，所述第一期间为，输出第一合成音的期间，所述第二期间为，输出第二合成音的期间，所述第三期间为，未通过声音输出部来输出语音的期间，所述补正信息为，用于对实施语音识别的语音信号进行噪声去除的信息，由于通过上述内容，不需要始终实施用于实施噪声去除的信号生成的处理，因此与始终实施噪声去除的方式相比能够实现装置所消耗的电力的降低化。

[0026] 此外还认为，在作为合成音的输出间隙的期间的第三期间内，使用者发出语音的可能性较低，从而结果成为不含有使用者的语音的无语音区间的情况较多。因此，在以预定的固定区间来分割时所计算出的噪声频谱、和在第三期间内所计算出的噪声频谱中，在第三期间内所计算出的噪声频谱中使用者的语音频谱的成分较少。由此，能够判断为，根据在第三期间内被输入的声音的信号来使用被用于噪声去除的补正信息，具有进一步提高语音识别率的效果。

[0027] 此外，例如，在以与使用者的对话形式来实施处理的情况下，语音识别处理装置输出通过语音合成而形成的语音时，是存在使用者之时。因此，在以第三期间内所输入的声音的信号为基础而生成的用于噪声去除的补正信息中，不包含不存在使用者时所发出的周围的声音的信息。因此，能够判断为具有进一步提高语音识别率的效果。附图说明

[0028] 图1为语音识别处理装置的概要框图。

[0029] 图2为语音识别处理装置的使用状态的模式图。

[0030] 图3为句子和语音波形的影像图。

[0031] 图4为包含噪声的语音波形的影像图。

[0032] 图5为第一声谱的影像图。

[0033] 图6为包含噪声的语音的声谱的影像图。

[0034] 图7为语音的声谱的影像图。

具体实施方式

[0035] 利用附图来对本发明进行说明。另外，在说明中所使用的附图为，记载了足够用于说明的内容的简易图。因此，附图中并没有记载装置的全部的结构要素，此外还存在信号等的波形的形状也与实际的形状不同的情况。

[0036] 第一实施方式

[0037] 在图1中图示了应用本发明的语音识别处理装置1。语音识别处理装置1包括处理部100、话筒109及扬声器199。此外，处理部100包括：语音输入部110、频率解析部120、语音信号控制部130、噪声去除部140、噪声去除信号生成部150、语音识别部160、控制部170、语音合成部180及语音输出部190。此外，虽然未图示，但语音识别处理装置1对使用者的信息的提示及语音识别处理装置1的操作中所使用的显示器、键盘及鼠标等也包含于语音识别处理装置1或处理部100中。

[0038] 控制部170为，实施处理部100内的控制的部分。控制部170上连接有控制所需的各种控制信号及总线等。控制信号82为，综合表示了对于语音输入部110、频率解析部120、语音信号控制部130及噪声去除部140的多个控制信号及数据信号的信号。控制信号
83为，综合表示了对于语音合成部180及语音输出部190的多个控制信号及数据信号的信号。控制部170和语音识别部160通过第一总线信号71而被连接。控制部170和噪声去除信号生成部150通过第二总线信号52而被连接。此外，虽然未图示，但在处理部100中存在针对控制部170的各种中断信号等。

[0039] 控制部170例如可以由MCU（Micro Control Unit：微处理单元）和存储器装置等构成。另外，也可以通过控制部170来实施语音识别处理装置1中的应用程序等的执行。

[0040] 语音输入部110中包含模拟-数字转换器111（以下，称为AD转换器111）及缓冲器112。从话筒109输出的模拟声音信号11通过AD转换器111而被转换为数字信号，并被暂时保持于预定容量的缓冲器112中，之后，在预定的时刻作为数字声音信号21而被输出至频率解析部120。

[0041] 语音输入部110通过控制部170而经由控制信号82来实施动作模式的设定及状态管理等。从语音输出部190输出的时刻信号93为，用于对噪声检测期间进行识别的信号。此处，噪声检测期间为，用于语音输入部110采集如下的声音信号的期间，且为语音识别处理装置1将引导导向等的某种信息作为语音而对使用者发出时的词组或单词之间的间隙等的、未输出语音时的期间，其中，所述声音信号为，用于生成用于噪声去除的信息的信号。
语音输入部110通过时刻信号93来实施噪声检测期间和其他期间的识别，并将各自期间内的AD转换器111的输出以可识别的方式存储于缓冲器112中。控制信号22为，对作为数字声音信号21而被输出的信号是否为噪声检测期间内的信号进行识别的信号。可以采用如下设定，即，控制信号22处于激活状态时的数字声音信号21为噪声检测期间内的信号。

[0042] 频率解析部120为，将数字声音信号21分解为频率成分，并作为频谱信号31而进行输出的部分。频谱信号31被输出至语音信号控制部130及噪声去除信号生成部150。此处设定为，将使数字声音信号21分解为频率成分后的部分（信号）称为声谱（声谱信号），特别将噪声检测期间内的声谱（声谱信号）称为第一声谱（第一声谱信号）。将在控制信号22处于激活状态时所传达的数字声音信号21分解为频率成分后的部分（信号）设为第一声谱（第一声谱信号）。在频率解析部120输出的频谱信号31为第一声谱信号时，控制信号32成为激活状态。

[0043] 语音信号控制部130为，用于将语音识别中所使用的声谱（声谱信号）选择性地向噪声去除部140输出的部分。声谱信号的选择可以根据是否为第一声谱信号来实施。第一声谱信号以外的声谱信号被输出至噪声去除部140。此外，语音信号控制部130也可以不进行选择而将全部的声谱信号向噪声去除部140输出。这些动作的设定根据从控制部170输出的控制信号82来实施。

[0044] 噪声去除部140为，利用在噪声去除信号生成部150中所生成的噪声频谱来实施对声谱（声谱信号）的噪声去除的部分。噪声频谱作为噪声频谱信号51而从噪声去除信号生成部150被输出。具体而言，噪声去除的处理通过从声谱中减去噪声频谱而实施。为了实施语音识别的处理，被实施了噪声去除的声谱作为语音频谱信号61而被输出至语音识别部160。

[0045] 噪声去除信号生成部150为，根据第一声谱（第一声谱信号）来生成作为噪声频谱信号51而输出的噪声频谱的部分。噪声去除信号生成部150经由第二总线信号52而被控制部170控制。另外，噪声频谱信号51例如也可以作为预定的期间内的平均值来进行计算。该预定的期间通过控制部170经由第二总线信号52而被设定。预定的期间例如可以在针对于使用者的应用程序的一次处理中结束，也可以被设定为，在多次反复执行应用程序的过程中连续。

[0046] 语音识别部160为，对作为语音频谱信号61而被输送来的声谱实施语音识别的处理的部分。由于本发明无论语音识别的方法如何都能够使用，因此在本实施方式中并未具体地对于语音识别的方法进行特别记载。

[0047] 语音合成部180为，实施对从控制部170输出的语音合成用数据81的语音合成的部分。虽然关于语音合成的方法由于与本发明无直接关系因而未对具体的语音合成的方法进行记载，但语音合成用数据81例如可以由字符码构成。被语音合成后的语音数据与指示输出语音的时刻的时刻码一起，作为语音合成数据91而被输出至语音输出部190。时刻码为，表示不发出语音的期间的代码，也可以理解为对连续发出语音的单位进行规定的代码。作为该单位，例如可以为词组单位或单词单位等。

[0048] 语音输出部190为，将语音合成数据91转换为模拟语音信号92并向扬声器199输出的部分。语音输出数据通过输出控制部191而被规定为预定的时刻，并被输出至数字-模拟转换器192（以下，称为DA转换器192），从而被转换为模拟语音信号92。该预定的时刻通过语音合成数据91中所包含的时刻码而被规定。此外，时刻信号93为，以语音合成数据91中所包含的时刻码为基础，而由输出控制部191所生成的信号。

[0049] 图2为，将语音识别处理装置1的利用状况影像化了的图。针对使用者2的语音，从扬声器199被输出，使用者2的语音从话筒109被输入。在使用者2的周围存在噪声3。噪声3与使用者2的语音一起从话筒109被输入，并被导入到语音识别处理装置1中。

[0050] 实施例1

[0051] 本实施例为，语音识别处理装置1为实施美术馆的引导的装置的情况的示例。本实施例中的语音识别处理装置1的工作为，对使用者2发出美术馆的引导信息、和对使用者2的提问进行答复等。在图3-（A）中将语音识别处理装置1对使用者2实施引导时所使用的句子的示例作为句子S1而进行图示。此外，图3-（B）中图示了，句子S1作为语音而从扬声器199被输出时的波形。横轴表示时间的经过，而纵轴表示振幅的大小。

[0052] 句子S1被分割为“美术馆中的”（词组b）、“哪里”（词组d）及“想去”（词组f）的三个词组而使用。各个词组作为一连串的声音的连接而对使用者2输出。词组与词组之间为，未从语音识别处理装置1输出语音的期间。将该未输出语音的期间称为第三期间。将词组b与词组d之间的第三期间设为空白c，而词组d与词组f之间的第三期间设为空白e。句子S1被输出的期间通过控制部170来进行管理。该期间为图3-（B）的T1（以下，称为期间T1）。另外，在期间T1内，存在有词组b被输出前的第三期间、即空白a。

[0053] 控制部170将用于输出句子S1的语音合成用数据81输出到语音合成部180。如上所述，在语音合成用数据81中，包含用于语音合成的合成用数据、和用于对预定的词组与该预定的词组的下一个词组之间的时间进行控制的时刻码。合成用数据和时刻码依照处理顺序，从控制部170被输出至语音合成部180。在本实施例的情况下，语音合成用数据81由开始码、时刻码a、词组b的合成用数据、时刻码c、词组d的合成用数据、时刻码e、词组f的合成用数据、结束码构成。此处，时刻码a为对空白a进行规定的时刻码，时刻码c为对空白c进行规定的时刻码，时刻码e为对空白e进行规定的时刻码。

[0054] 语音合成部180根据各词组的合成用数据而对输出用的数字语音数据进行合成。语音合成部180依照从扬声器199输出的顺序，而将数字语音数据及时刻码作为语音合成数据91而输出到语音输出部190。语音合成数据91通过语音输出部190中的输出控制部
191而被接收。在本实施例的情况下，语音合成部180所输出的语音合成数据91由开始码、时刻码a、词组b的数字语音数据、时刻码c、词组d的数字语音数据、时刻码e、词组f的数字语音数据、结束码构成。

[0055] 输出控制部191通过语音合成数据91中的开始码和结束码来规定期间T1并实施处理。输出控制部191在识别出语音合成数据91中的开始码时，识别为新的期间T1开始并开始处理。虽然未图示，但有时会有在语音合成部180中存在用于向扬声器199驱动信号的放大器的情况。通过使输出控制部191能够对期间T1进行识别，从而能够实现用于使放大器动作的电源的控制。能够在期间T1以外时将用于使放大器动作的电源置于断开，从而能够实现语音识别处理装置1中的消耗电力的降低化。另外，控制部170还能够以向语音合成部180输出开始码的时刻为基础，而经由控制信号82来实施语音输入部110、频率解析部120、语音信号控制部130、噪声去除部140、噪声去除信号生成部150及语音识别部160等的工作开始的控制。虽然也受所执行的应用程序的影响，但通过以配合期间T1的开始而开始工作的方式来实施电源控制，从而能够实现消耗电力的进一步降低化。

[0056] 输出控制部191在由时刻码所规定的时刻而将数字语音数据输出到DA转换器192。数字语音数据通过DA转换器192而被转换为模拟信号，并作为模拟语音信号92而被传递至扬声器199，并通过扬声器199而作为语音被输出。

[0057] 输出控制部191在识别出开始码时开始实施语音输出所需的预定的控制。

[0058] 接下来，输出控制部191与由时刻码a所规定的期间的开始一起使时刻信号93成为激活状态。

[0059] 输出控制部191在经过由时刻码a所规定的期间后解除时刻信号93的激活状态，并将词组b的数字语音数据输出到DA转换器192。词组b的数字语音数据通过DA转换器192而被转换为模拟信号，并作为模拟语音信号92而被传递至扬声器199，并作为语音而被输出。当词组b的数字语音数据的数字-模拟转换（以下，称为DA转换）结束时，DA转换器
192对输出控制部191通知转换的结束。

[0060] 输出控制部191在从DA转换器192接收到DA转换的结束的通知时，实施对时刻码c的控制。输出控制部191在由时刻码c所规定的期间之内使时刻信号93成为激活状态后，将词组d的数字语音数据输出到DA转换器192。DA转换器192在词组d的数字语音数据的DA转换结束时对输出控制部191通知转换的结束。

[0061] 输出控制部191在从DA转换器192接收到DA转换的结束的通知时，实施对时刻码e的控制。输出控制部191在由时刻码e所规定的期间内使时刻信号93成为激活状态后，将词组f的数字语音数据输出到DA转换器192。DA转换器192在词组f的数字语音数据的DA转换结束时对输出控制部191通知转换的结束。

[0062] 输出控制部191在从DA转换器192接收到DA转换的结束的通知时，实施由接下来所实施的处理码、即结束码所规定的处理。在由结束码所规定的处理中，还包括向控制部170通知与句子S1相对应的语音合成用数据81的处理结束的处理。控制部170通过来自输出控制部191的处理结束的通知，从而能够识别出期间T1的结束、即句子S1的语音输出已结束的情况。另外，控制部170还可以在如下的预定的期间的停止后，经由控制信号82来实施语音输入部110、频率解析部120、语音信号控制部130、噪声去除部140、噪声去除信号生成部150及语音识别部160等的工作停止的控制，所述预定的期间被认为是，在期间T1的结束后用于使用者2的答复的足够时间的期间。

[0063] 如上所述，从控制部170输出的语音合成用数据81中所包含的时刻码被输送至输出控制部191，从而通过输出控制部191来控制时刻信号93的状态。在图3-（B）中，图示了句子S1从扬声器199被语音输出时的波形，图中Tb图示了词组b的波形，Td图示了词组d的波形，Tf图示了词组f的波形。Ta、Tc及Te均为第三期间，且为时刻信号93处于激活状态的期间。

[0064] 在语音输入部110中，附加如下的识别标识并存储于缓冲器112中，所述识别标识为，表示时刻信号93处于激活状态时的AD转换器111的输出为第三期间的输出的信号。附加了识别标识并被存储于缓冲器112中的数据，在控制信号22处于激活状态下，作为数字声音信号21而被输出至频率解析部120。

[0065] 在频率解析部120中，分别实施控制信号22处于激活状态时对数字声音信号21的处理、和控制信号22不处于激活状态时对数字声音信号21的处理。虽然数字声音信号21以预先确定的预定的时间间隔而被分割并被实施频率解析，但是存在如下情况，即，控制信号22处于激活状态时和不处于激活状态时的分割与预先确定的预定的时间间隔不一致的情况。这种情况的处理可以设定为，通过表示零振幅的数据来对不满足预定的时间间隔的部分进行插补的处理。此外，还可以采用如下方式，即，在控制信号22为处于激活状态时的信号的情况下，将不满足预定的时间间隔的数字声音信号21从频率解析的对象中排除。

[0066] 在从频率解析部120输出的频谱信号31为第一声谱信号时，控制信号32成为激活状态。噪声去除信号生成部150通过导入控制信号32处于激活状态时的频谱信号31，从而能够导入第一声谱信号。

[0067] 此外，控制信号32还被输出至语音信号控制部130。语音信号控制部130能够设定为，通过导入控制信号32不处于激活状态时的频谱信号31，从而不导入第一声谱信号。另外，语音信号控制部130可以设定为，通过与频谱信号31及控制信号32的双方的状态相对应地进行存储，从而导入全部频谱信号31。以何种方式来导入频谱信号31，通过控制部
170经由控制信号82来进行指示。被导入至语音信号控制部130的声谱中的、至少并非第一声谱信号的声谱信号，作为选择频谱信号41而被输出至噪声去除部140。

[0068] 如上所述，虽然频谱为以预先确定的预定的时间间隔被分割并被实施解析的频谱，但该预先确定的预定的时间间隔即使与一个第三期间相比也为相当短的期间，从而在一个第三期间中存在多个预先确定的预定的时间间隔。虽然在噪声去除信号生成部150中会生成噪声频谱信号51，但是采取何种生成方法，经由第二总线信号52通过控制部170来进行指示。噪声频谱的生成例如可以采用如下方式，即，存储预定数量的第一声谱，并计算出成为这些预定数量的第一声谱的平均值的频谱，也可以作为刚刚使用了的噪声频谱与新的第一声谱的平均值来进行计算。此外，也可以设定为始终使用最新的第一声谱。此外，也可以采用如下方式，即，经由第二总线信号52而使控制部170发送作为基准的频谱，将作为该基准的频谱和第一声谱的平均的频谱设为噪声频谱。噪声去除部140将如下的频谱作为语音频谱信号61而向语音识别部160输出，所述频谱为，利用作为噪声频谱信号51而被发送的噪声频谱而实施了噪声去除后的频谱。

[0069] 噪声去除部140实施噪声去除并作为语音频谱信号61而至少向语音识别部160输出的频谱为，第一声谱以外的声谱。但是，还可以采用如下方式，即，作为选择频谱信号41而发送第一声谱，而在噪声去除部140中，实施对第一声谱信号的噪声去除。由此，例如在对第一声谱进行噪声去除而结果得到的频谱中残留有预定量以上的频谱的情况下，噪声去除部140能够实施如下操作，即，向控制部170要求中断，并通知存在语音识别率变差的可能性等。

[0070] 在图4中，图示了在图3-（B）所示的句子S1的语音波形上重叠有噪声波形4的波形的示例。在语音识别处理装置1的实际的工作中从话筒109输入的波形成为图4所示的这种形状。

[0071] 图5所示的示例为，通过噪声去除信号生成部150所生成的噪声频谱的示例。其为根据在第三期间被输入的声音而生成的噪声频谱，并且如上所述作为噪声频谱信号51而被输出至噪声去除部140。

[0072] 图6所示的示例为，作为选择频谱信号41而被输出的声谱的示例。作为选择频谱信号41而被输出的声谱为，混合了使用者2的语音的频谱和使用者2发出语音时的噪声3的频谱的声谱。

[0073] 图7所示的示例为，作为语音频谱信号61而被输出的频谱的示例。其为从作为选择频谱信号41而被输入的声谱中，减去作为噪声频谱信号51而被输入的噪声频谱后的声谱。作为语音频谱信号61而被输出的频谱成为语音识别部160中的语音识别处理的对象。

[0074] 通过应用本发明，使得用于识别噪声的期间的设定变得容易，从而能够将与噪声去除相关的电路装置设为更加简便的装置，并且由于还能够实施工作期间的定义，因此能够构成可实现消耗电力的降低化的语音识别处理装置。

[0075] 以上，虽然对本发明进行了说明，但本发明的实施并不限定于上述的应用例或实施方式。本发明的实施可以在不脱离本发明的主旨的范围内广泛应用。

[0076] 符号说明

[0077] 1…语音识别处理装置；2…使用者；3…噪声；4…噪声波形；11…模拟声音信号；21…数字声音信号；22…控制信号；31…频谱信号；32…控制信号；41…选择频谱信号；
51…噪声频谱信号；52…第二总线信号；61…语音频谱信号；71…第一总线信号；81…语音合成用数据；82…控制信号；83…控制信号；91…语音合成数据；92…模拟语音信号；93…时刻信号；100…处理部；109…话筒；110…语音输入部；111…AD转换器；112…缓冲器；
120…频率解析部；130…语音信号控制部；140…噪声去除部；150…噪声去除信号生成部；
160…语音识别部；170…控制部；180…语音合成部；190…语音输出部；191…输出控制部；
192…DA转换器；199…扬声器。

标题	发布/更新时间	阅读量
语音合成设备、语音合成方法及其存储介质	2020-05-08	516
一种相位相关的共享深度卷积神经网络语音增强方法	2020-05-08	262
一种电梯检修装置	2020-05-08	685
语音信号处理方法、系统、装置、计算机设备和存储介质	2020-05-08	213
视频及语音智能音乐控制器	2020-05-08	546
一种适用于医药产品的交易系统	2020-05-08	755
一种对讲终端通话质量的测试方法及测试系统	2020-05-08	317
一种快递投放装置	2020-05-11	812
一种基于双麦降噪的语音鼠标	2020-05-11	48
基于阿尔法脑波的学习机	2020-05-08	549

语音识别处理装置及语音识别处理方法

语音识别处理装置及语音识别处理方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：