语音识别方法和设备专利检索-语音信号音频信号广播专利检索查询-专利查询网

语音识别方法和设备

阅读：119发布：2020-05-08

专利汇可以提供语音识别方法和设备专利检索，专利查询，专利分析的服务。并且公开一种语音识别方法和设备。所述语音识别方法包括：获得语音信号，以及执行语音信号的识别，其中，执行语音信号的识别的步骤包括：使用参数生成模型从输入方言数据生成针对语音信号的方言参数；将方言参数应用于训练的语音识别模型以生成方言语音识别模型，以及通过针对语音信号实施方言参数识别模型从语音信号生成语音识别结果。语音识别方法和设备可执行语音识别模型和参数生成模型的语音识别和/或训练。，下面是语音识别方法和设备专利的具体信息内容。

权利要求

1.一种语音识别方法，所述语音识别方法包括：
获得语音信号，以及
执行语音信号的识别，其中，执行语音信号的识别的步骤包括：
使用参数生成模型从输入方言数据生成针对语音信号的方言参数；
将方言参数应用于训练的语音识别模型以生成方言语音识别模型，以及
通过针对语音信号实施方言语音识别模型，从语音信号生成语音识别结果。
2.如权利要求1所述的语音识别方法，其中，应用方言参数的步骤包括：
将使用参数生成模型生成的方言参数或各自的方言参数应用于训练的语音识别模型的一个或多个层中的每个的至少各自的部分。
3.如权利要求2所述的语音识别方法，
其中，训练的语音识别模型是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点，以及
其中，应用方言参数或各自的方言参数的步骤包括：将连接权重插入到所述一个或多个层中的每个中，或者设置、替换或修改所述一个或多个层中的每个中的各自的连接权重，其中，所述一个或多个层的每个中的各自的连接权重少于所有的各自的加权连接。
4.如权利要求3所述的语音识别方法，
其中，方言参数或各自的方言参数还包括一个或多个各自的缩放矩阵，
其中，应用方言参数或各自的方言参数的步骤还包括：在方言语音识别模型的实施期间，将所述一个或多个各自的缩放矩阵应用于方言语音识别模型的一个或多个隐藏层的各自的输出。
5.如权利要求4所述的语音识别方法，
其中，方言参数或各自的方言参数还包括一个或多个各自的批量参数，
其中，所述一个或多个各自的批量参数均包括第一批量参数γ和第二批量参数β，以及其中，应用方言参数或各自的方言参数的步骤还包括：在方言语音识别模型的实施期间，通过针对方言语音识别模型的一个或多个隐藏层将各自的输入乘以第一批量参数γ并加上第二批量参数β并且将应用的一个或多个各自的批量参数的各自的结果分别转发到所述一个或多个隐藏层，将所述一个或多个各自的批量参数应用于所述一个或多个隐藏层的各自的输入。
6.如权利要求5所述的语音识别方法，其中，各自的输入是归一化的各自的输入，并且各自的批量参数是各自的批量归一化参数。
7.如权利要求3所述的语音识别方法，
其中，方言参数或各自的方言参数还包括一个或多个各自的批量参数，
其中，所述一个或多个各自的批量参数均包括第一批量参数γ和第二批量参数β，以及其中，应用方言参数或各自的方言参数的步骤还包括：在方言语音识别模型的实施期间，通过针对方言语音识别模型的一个或多个隐藏层将各自的输入乘以第一批量参数γ并加上第二批量参数β并且将应用的一个或多个各自的批量参数的各自的结果分别转发到所述一个或多个隐藏层，将所述一个或多个各自的批量参数应用于所述一个或多个隐藏层的各自的输入。
8.如权利要求1所述的语音识别方法，
其中，训练的语音识别模型是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点，以及
其中，应用方言参数的步骤包括：在方言语音识别模型的实施期间，将作为由参数生成模型生成的方言参数或各自的方言参数的各自的缩放矩阵应用于方言语音识别模型的对应隐藏层的各自的输出。
9.如权利要求1所述的语音识别方法，
其中，方言参数包括各自的批量参数，以及
其中，应用方言参数的步骤包括：在方言语音识别模型的实施期间，将各自的批量参数应用于方言语音识别模型的一个或多个过渡操作的各自的输入，其中，各自的输入来自方言语音识别模型的输入操作或来自方言语音识别模型的先前一个或多个过渡操作。
10.如权利要求9所述的语音识别方法，其中，训练的语音识别模型是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前层节点的至少一个节点，以及其中，将各自的批量参数应用于各自的输入的步骤包括：在方言语音识别模型的实施期间，将各自的批量参数应用于方言语音识别模型的一个或多个隐藏层的各自的输入。
11.如权利要求10所述的语音识别方法，
其中，批量参数包括第一批量参数γ和第二批量参数β，以及
其中，将各自的批量参数应用于方言语音识别模型的一个或多个隐藏层的各自的输入的步骤包括：针对所述一个或多个隐藏层中的每个，将各自的输入乘以第一批量参数γ并加上第二批量参数β，并且将应用的各自的批量参数的各自的结果分别转发到所述一个或多个隐藏层。
12.如权利要求1所述的语音识别方法，其中，生成方言参数的步骤包括：
响应于由用户接收到的用户输入，将由用户输入指示的方言信息确定为输入方言数据；
使用参数生成模型，从确定的输入方言数据生成方言参数。
13.如权利要求1所述的语音识别方法，其中，生成方言参数的步骤包括：
使用方言分类模型从语音信号计算输入方言数据。
14.如权利要求13所述的语音识别方法，其中，计算输入方言数据的步骤包括：
使用方言分类模型从语音信号计算与语音信号所属的方言相关联的概率数据作为输入方言数据。
15.如权利要求13所述的语音识别方法，其中，计算输入方言数据的步骤包括：
在使用方言分类模型从语音信号计算进一步的方言信息时，将方言分类模型的至少一个层的输出确定为输入方言数据。
16.如权利要求1所述的语音识别方法，其中，生成方言参数的步骤包括：
从方言语音识别模型的至少一个实施的层的输出计算输入方言数据。
17.如权利要求1所述的语音识别方法，其中，输入方言数据是语音信号。
18.如权利要求1所述的语音识别方法，其中，在使用参数生成模型以生成方言参数中，参数生成模型考虑从方言语音识别模型的一个或多个实施的层中的每个的至少各自的部分输出的特征数据。
19.如权利要求1所述的语音识别方法，其中，生成方言参数的步骤包括：
基于通过参数生成模型考虑从方言语音识别模型的一个或多个层的各自的之前的层输出的各自的数据，针对所述一个或多个层中的每个生成方言参数。
20.如权利要求1所述的语音识别方法，其中，生成方言参数的步骤包括：
获得指示多个方言组之中的针对语音信号的方言组的数据作为输入方言数据。
21.如权利要求1所述的语音识别方法，其中，生成方言参数的步骤包括：
保持方言参数，直到新的输入方言数据针对另一用户被生成为止，其中，所述方言参数使用用在后续获得的语音信号的识别中的先前应用并生成的方言参数，通过先前语音识别模型针对先前语音识别而被先前生成。
22.如权利要求1所述的语音识别方法，其中，生成方言参数的步骤包括：
响应于确定当前用户所属的方言组不同于先前用户所属的方言组，获得当前用户的新的输入方言数据作为输入方言数据。
23.如权利要求1所述的语音识别方法，其中，实施方言语音识别模型的步骤包括：
计算以音素为单位识别语音信号的结果。
24.如权利要求1所述的语音识别方法，还包括：
基于语音信号和与语音信号对应的输入方言数据，重新训练参数生成模型。
25.如权利要求1所述的语音识别方法，还包括：
将生成的方言参数和与语音信号对应的输入方言数据存储在存储器中；以及在执行的后续语音的识别中，选择性地实施基于确定由方言分类模型针对后续语音生成的方言数据是否与存储的输入方言数据匹配而针对后续语音生成方言参数的步骤，并且当方言数据被确定为与存储的方言数据匹配时，绕过针对后续语音生成方言参数的步骤以及针对后续语音实施方言语音识别模型的步骤，并且实施方言语音识别模型以生成针对后续语音的语音识别结果。
26.如权利要求1所述的语音识别方法，还包括：
辨识用户的语言并选择存储在存储器中的多个各自不同的语言训练的语音识别模型之中的与辨识的语言对应的训练的语音识别模型，
其中，应用方言参数的步骤包括：将方言参数应用于选择的训练的语音识别模型以生成方言语音识别模型。
27.如权利要求1所述的语音识别方法，其中，生成方言参数的步骤包括：
每次获得到语音信号，动态地生成方言参数。
28.如权利要求1所述的语音识别方法，其中，生成语音识别结果的步骤包括：
通过将语音信号归一化来获得归一化数据；以及
针对归一化的数据实施方言语音识别模型以生成语音识别结果。
29.一种存储指令的非暂时性计算机可读存储介质，当所述指令由处理器执行时，使处理器执行如权利要求1所述的语音识别方法。
30.一种语音识别设备，包括：
一个或多个存储器，存储参数生成模型、训练的语音识别模型以及指令；以及处理器，通过执行指令而被配置为：
使用参数生成模型从输入方言数据生成针对获得的语音信号的方言参数；
将生成的方言参数应用于训练的语音识别模型以生成方言语音识别模型；以及通过针对语音信号实施方言语音识别模型来生成语音识别结果，以生成针对语音信号的语音识别结果。
31.如权利要求30所述的语音识别设备，其中，处理器被配置为将使用参数生成模型生成的方言参数或各自的方言参数应用于训练的语音识别模型的一个或多个层中的每个的至少各自的部分。
32.如权利要求30所述的语音识别设备，其中，处理器被配置为：将由从用户接收的用户输入指示的方言信息确定为输入方言数据，并使用参数生成模型从确定的输入方言数据生成方言参数。
33.如权利要求30所述的语音识别设备，其中，处理器被配置为：使用方言分类模型从语音信号计算输入方言数据。
34.如权利要求30所述的语音识别设备，其中，输入方言数据是语音信号。
35.如权利要求30所述的语音识别设备，其中，将生成的方言参数应用于训练的语音识别结果的处理和生成语音识别结果的处理由处理器同时执行，以及
处理器被配置为基于通过参数生成模型考虑从方言语音识别模型的所述一个或多个层的各自的之前的层输出的各自的数据生成针对训练的语音识别模型的一个或多个层中的每个的方言参数。
36.如权利要求30所述的语音识别设备，还包括：麦克风，其中，处理器还被配置为：控制麦克风捕获语音信号以获得语音信号。
37.一种语音识别设备，包括：
一个或多个存储器，存储参数生成模型、方言分类模型、训练的语音识别模型以及指令，其中，训练的语音识别模型是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点；以及
处理器，通过执行指令而被配置为：
通过针对获得的语音信号使用方言分类模型，来生成输入方言数据，其中，输入方言数据是语音信号的分类的方言的确定的指示或者是语音信号的复合方言的概率性数据；
使用参数生成模型从输入方言数据生成各自的方言参数；
将各自的方言参数应用于训练的语音识别模型以生成方言语音识别模型；以及通过针对语音信号实施方言语音识别模型来生成语音识别结果，以生成针对语音信号的语音识别结果，
其中，应用各自的方言参数的步骤包括：将连接权重插入到所述一个或多个层中的每个中，或者设置、替换或修改在所述一个或多个层中的每个中的各自的连接权重，其中，所述一个或多个层中的每个中的各自的连接权重少于所有的各自的加权连接。

说明书全文

语音识别方法和设备

[0001] 本申请要求于2018年10月19日提交到韩国知识产权局的第10-2018-0125070号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

[0002] 下面的描述涉及语音识别方法和设备。

背景技术

[0003] 例如，诸如，在个人移动装置被配置为识别输入语音并输出识别的结果的地方，电子装置或相同可实施一个或多个语音识别模型以执行语音或音频识别。这种语音识别(即，机器语音识别)可以是将存在于输入语音中的语言信息转换为例如与输入语音对应的文本信息的处理。语音识别模型的实施可导致输入语音被分析，从而产生包括在输入语音中的语音信息的例如示例文本形式的估计。例如，到这样的语音识别模型的输入可以是语音序列的形式。发明内容

[0004] 提供本发明内容以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本发明内容既不意在标识所要求保护的主题的关键特征或必要特征，也不意在用于帮助确定要求保护的主题的范围。

[0005] 在一个总体方面，一种处理器实现的语音识别方法包括：获得语音信号，以及执行语音信号的识别，其中，执行语音信号的识别的步骤包括：使用参数生成模型从输入方言数据生成针对语音信号的方言参数；将方言参数应用于训练的语音识别模型以生成方言语音识别模型，以及通过针对语音信号实施方言语音识别模型，从语音信号生成语音识别结果。

[0006] 应用方言参数的步骤可包括：将使用参数生成模型生成的方言参数或各自的方言参数应用于训练的语音识别模型的一个或多个层中的每个的至少各自的部分。

[0007] 训练的语音识别模型可以是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点，以及应用方言参数或各自的方言参数的步骤可包括：将连接权重插入到所述一个或多个层中的每个中，或者设置、替换或修改所述一个或多个层中的每个中的各自的连接权重，其中，所述一个或多个层的每个中的各自的连接权重少于所有的各自的加权连接。

[0008] 方言参数或各自的方言参数还可包括一个或多个各自的缩放矩阵，应用方言参数或各自的方言参数的步骤还可包括：在方言语音识别模型的实施期间，将所述一个或多个各自的缩放矩阵应用于方言语音识别模型的一个或多个隐藏层的各自的输出。

[0009] 方言参数或各自的方言参数还可包括一个或多个各自的批量参数，所述一个或多个各自的批量参数均可包括第一批量参数γ和第二批量参数β，以及应用方言参数或各自的方言参数的步骤还可包括：在方言语音识别模型的实施期间，通过针对方言语音识别模型的一个或多个隐藏层将各自的输入乘以第一批量参数γ并加上第二批量参数β并且将应用的一个或多个各自的批量参数的各自的结果分别转发到所述一个或多个隐藏层，将所述一个或多个各自的批量参数应用于所述一个或多个隐藏层的各自的输入。

[0010] 各自的输入可以是归一化的各自的输入，并且各自的批量参数可以是各自的批量归一化参数。

[0011] 方言参数或各自的方言参数还可包括一个或多个各自的批量参数，所述一个或多个各自的批量参数均可包括第一批量参数γ和第二批量参数β，以及应用方言参数或各自的方言参数的步骤还可包括：在方言语音识别模型的实施期间，通过针对方言语音识别模型的一个或多个隐藏层将各自的输入乘以第一批量参数γ并加上第二批量参数β并且将应用的一个或多个各自的批量参数的各自的结果分别转发到所述一个或多个隐藏层，将所述一个或多个各自的批量参数应用于所述一个或多个隐藏层的各自的输入。

[0012] 训练的语音识别模型可以是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点，以及应用方言参数的步骤可包括：在方言语音识别模型的实施期间，将作为由参数生成模型生成的方言参数或各自的方言参数的各自的缩放矩阵应用于方言语音识别模型的对应隐藏层的各自的输出。

[0013] 方言参数可包括各自的批量参数，以及应用方言参数的步骤可包括：在方言语音识别模型的实施期间，将各自的批量参数应用于方言语音识别模型的一个操作或过渡操作的各自的输入，其中，输入来自方言语音识别模型的输入操作或来自方言语音识别模型的先前一个或多个过渡操作。

[0014] 训练的语音识别模型可以是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点，以及将各自的批量参数应用于各自的输入的步骤可包括：在方言语音识别模型的实施期间，将各自的批量参数应用于方言语音识别模型的一个或多个隐藏层的各自的输入。

[0015] 批量参数可包括第一批量参数γ和第二批量参数β，以及将各自的批量参数应用于方言语音识别模型的一个或多个隐藏层的各自的输入的步骤可包括：针对所述一个或多个隐藏层中的每个，将各自的输入乘以第一批量参数γ并加上第二批量参数β，并且将应用的各自的批量参数的各自的结果转发到所述一个或多个隐藏层。各自的输入可以是归一化的各自的输入，并且批量参数可以是批量归一化参数。

[0016] 批量参数可包括第一批量参数γ和第二批量参数β，以及将各自的批量参数应用于方言语音识别模型的一个或多个过渡操作的各自的输入的步骤可包括：将各自的输入乘以第一批量参数γ并加上第二批量参数β，并且将应用的各自的批量参数的各自的结果分别转发到方言语音识别模型的所述一个或多个过渡操作。各自的输入可以是归一化的各自的输入，并且批量参数可以是批量归一化参数。

[0017] 生成方言参数的步骤可包括：响应于由用户接收到的用户输入，将由用户输入指示的方言信息确定为输入方言数据；使用参数生成模型，从确定的输入方言数据生成方言参数。

[0018] 生成方言参数的步骤可包括：使用方言分类模型从语音信号计算输入方言数据。

[0019] 计算输入方言数据的步骤可包括：使用方言分类模型从语音信号计算与语音信号所属的方言相关联的概率数据作为输入方言数据。

[0020] 计算输入方言数据的步骤可包括：在使用方言分类模型从语音信号计算进一步的方言信息时，将方言分类模型的至少一个层的输出确定为输入方言数据。

[0021] 生成方言参数的步骤可包括：从方言语音识别模型的至少一个实施的层的输出计算输入方言数据。

[0022] 输入方言数据可以是语音信号。

[0023] 在使用参数生成模型以生成方言参数中，参数生成模型可考虑从方言语音识别模型的一个或多个实施的层中的每个的至少各自的部分输出的特征数据。

[0024] 生成方言参数的步骤可包括：基于通过参数生成模型考虑从方言语音识别模型的一个或多个层的各自的之前的层输出的各自的数据，针对所述一个或多个层中的每个生成方言参数。

[0025] 生成方言参数的步骤可包括：获得指示多个方言组之中的针对语音信号的方言组的数据作为输入方言数据。

[0026] 生成方言参数的步骤可包括：保持方言参数，直到新的输入方言数据针对另一用户被生成为止，其中，所述方言参数使用用在后续获得的语音信号的识别中的先前应用并生成的方言参数，通过先前语音识别模型针对先前语音识别而被先前生成。

[0027] 生成方言参数的步骤可包括：响应于确定当前用户所属的方言组不同于先前用户所属的方言组，获得当前用户的新的输入方言数据作为输入方言数据。

[0028] 实施方言语音识别模型的步骤可包括：计算以音素为单位识别语音信号的结果。

[0029] 所述方法还可包括：基于语音信号和与语音信号对应的输入方言数据，重新训练参数生成模型。

[0030] 所述方法还可包括：将生成的方言参数和与语音信号对应的输入方言数据存储在存储器中；以及在执行的后续语音的识别中，选择性地实施基于确定由方言分类模型针对后续语音生成的方言数据是否与存储的输入方言数据匹配而针对后续语音生成方言参数的步骤，并且当方言数据被确定为与存储的方言数据匹配时，绕过针对后续语音生成方言参数的步骤以及针对后续语音实施方言语音识别模型的步骤，并且实施方言语音识别模型以生成针对后续语音的语音识别结果。

[0031] 所述方法还可包括：辨识用户的语言并选择存储在存储器中的多个各自不同的语言训练的语音识别模型之中的与辨识的语言对应的训练的语音识别模型，应用方言参数的步骤可包括：将方言参数应用于选择的训练的语音识别模型以生成方言语音识别模型。生成方言参数的步骤可包括：每次获得到语音信号，动态地生成方言参数。

[0032] 生成语音识别结果的步骤可包括：通过将语音信号归一化来获得归一化数据；以及针对归一化的数据实施方言语音识别模型以生成语音识别结果。

[0033] 在一个总体方面，提供一种存储指令的非暂时性计算机可读存储介质，当所述指令由处理器执行时，使处理器执行在此描述的操作中的任何一个、任何组合或全部。

[0034] 在一个总体方面，一种语音识别设备包括：一个或多个存储器，存储参数生成模型、训练的语音识别模型以及指令；以及处理器，通过执行指令而被配置为：使用参数生成模型从输入方言数据生成针对获得的语音信号的方言参数；将生成的方言参数应用于训练的语音识别模型以生成方言语音识别模型；以及通过针对语音信号实施方言语音识别模型来生成语音识别结果，以生成针对语音信号的语音识别结果。

[0035] 处理器可被配置为将使用参数生成模型生成的方言参数或各自的方言参数应用于训练的语音识别模型的一个或多个层中的每个的至少各自的部分。

[0036] 训练的语音识别模型可以是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点，以及应用方言参数或各自的方言参数的步骤可包括：将连接权重插入到所述一个或多个层中的每个中，或者设置、替换或修改所述一个或多个层中的每个中的各自的连接权重，其中，所述一个或多个层的每个中的各自的连接权重少于所有的各自的加权连接。

[0037] 训练的语音识别模型可以是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点，以及应用方言参数的步骤可包括：在实施方言语音识别模型期间，将作为由参数生成模型生成的方言参数或各自的方言参数的各自的缩放矩阵应用于方言语音识别模型的一个或多个隐藏层的各自的输出。

[0038] 方言参数可包括各自的批量参数，以及应用方言参数的步骤可包括：将各自的批量参数应用于方言语音识别模型的一个或过渡操作的各自的输入，输入来自方言语音识别模型的输入操作或来自方言语音识别模型的先前的一个或多个过渡操作。

[0039] 训练的语音识别模型可以是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点，以及将各个批量参数应用于各自的输入的步骤可包括：将各自的批量参数应用于方言语音识别模型的一个或多个隐藏层的各自的输入。

[0040] 批量参数可包括第一批量参数γ和第二批量参数β，以及将各自的批量参数应用于方言语音识别模型的一个或多个隐藏层的各自的输入的步骤可包括：针对所述一个或多个隐藏层中的每个，将各自的输入乘以第一批量参数γ并加上第二批量参数β，并且将应用的各自的批量参数的各自的结果分别转发到所述一个或多个隐藏层。

[0041] 各自的输入可以是归一化的各自的输入，并且各自的批量参数可以是各自的批量归一化参数。

[0042] 处理器可被配置为：将由从用户接收的用户输入指示的方言信息确定为输入方言数据，并使用参数生成模型从确定的输入方言数据生成方言参数。

[0043] 处理器可被配置为：使用方言分类模型从语音信号计算输入方言数据。

[0044] 输入方言数据可以是语音信号。

[0045] 在使用参数生成模型以生成方言参数中，参数生成模型可考虑从方言语音识别模型的一个或多个层中的每个的至少各自的部分输出的特征数据。

[0046] 将生成的方言参数应用于训练的语音识别结果的处理和生成语音识别结果的处理可由处理器同时执行，以及处理器可被配置为基于通过参数生成模型考虑从方言语音识别模型的所述一个或多个层的各自的之前的层输出的各自的数据生成针对训练的语音识别模型的一个或多个层中的每个的方言参数。

[0047] 所述语音识别设备还可包括：麦克风，其中，处理器还被配置为：控制麦克风捕获语音信号以获得语音信号。

[0048] 在一个总体方面，一种语音识别设备包括：一个或多个存储器，存储参数生成模型、方言分类模型、训练的语音识别模型以及指令，其中，训练的语音识别模型是具有至少所述一个或多个层的神经网络模型，所述一个或多个层中的每个包括根据各自的加权连接连接到一个或多个层级上先前的层节点和/或一个或多个临时先前节点的至少一个节点；以及处理器，通过执行指令而被配置为：通过针对获得的语音信号使用方言分类模型，来生成输入方言数据，其中，输入方言数据是语音信号的分类的方言的确定的指示或者是语音信号的复合方言的概率性数据；使用参数生成模型从输入方言数据生成各自的方言参数；
将各自的方言参数应用于训练的语音识别模型以生成方言语音识别模型；以及通过针对语音信号实施方言语音识别模型来生成语音识别结果，以生成针对语音信号的语音识别结果，其中，应用各自的方言参数的步骤包括：将连接权重插入到所述一个或多个层中的每个中，或者设置、替换或修改在所述一个或多个层中的每个中的各自的连接权重，其中，所述一个或多个层中的每个中的各自的连接权重少于所有的各自的加权连接。

[0049] 从下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

[0050] 图1是示出语音识别系统的示例的示图。

[0051] 图2是示出语音识别模型的示例的示图。

[0052] 图3是示出语音识别方法的示例的流程图。

[0053] 图4是示出语音识别模型和参数生成模型的示例的示图。

[0054] 图5是示出语音识别方法的示例的流程图。

[0055] 图6是示出语音识别模型、参数生成模型和方言分类模型的示例的示图。

[0056] 图7、图8A和图8B是示出将方言数据提供给参数生成模型的与语音识别模型合作实施的语音识别方法的示例的示图。

[0057] 图9是示出语音识别设备的示例的示图。

[0058] 图10是示出存储语音识别模型、参数生成模型和方言分类模型的存储器的示例的示图。

[0059] 图11是示出用于训练语音识别模型的训练方法的示例的流程图。

[0060] 图12是示出用于训练语音识别模型的训练设备的示例的示图。

[0061] 贯穿附图和具体实施方式，除非另外描述或提供，否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例，并且为了清楚、说明和方便，附图中元件的相对大小、比例和描绘可被夸大。

具体实施方式

[0062] 提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不受限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚地那样被改变。此外，为了更加清楚和简明，可省略本领域已知的特征的描述。

[0063] 在此描述的特征可以以不同的形式来实现，并且将不被解释为限于在此描述的示例。相反，已经提供在此描述的示例，仅用于示出在理解本申请的公开之后将是清楚的实现在此描述的方法、设备和/或系统的许多可行方式中的一些方式。

[0064] 尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不受这些术语限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开来。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分还可被称为第二构件、第二组件、第二区域、第二层或第二部分。

[0065] 贯穿说明书，当组件被描述为“连接到”或“结合到”另一组件时，所述组件可直接“连接到”或“结合到”所述另一组件，或者它们之间可存在一个或多个其他组件。相反，当元件被描述为“直接连接到”或“直接结合到”另一元件时，它们之间不会存在其他元件。类似地，相似的表达(例如“在……之间”与“直接在……之间”以及“与……相邻”与“直接与……相邻”)也可以以相同的方式来解释。

[0066] 如在此使用的，术语“和/或”包括相关所列项的任意一个或任意两个或更多个的任意组合。

[0067] 在此使用的术语仅为了描述各种示例，并且将不被用于限制本公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”指定存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

[0068] 除非另外定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常理解以及基于本申请的公开的理解的含义相同的含义。除非在此明确地如此定义，否则术语(诸如，通用词典中定义的术语)将被解释为具有与它们在相关领域的上下文和本申请的公开中的含义一致的含义，并且将不被理想化或过于形式化地解释。

[0069] 此外，在示例实施例的描述中，当认为在理解本申请的公开之后从而得知的结构或功能的详细描述将导致对示例实施例的模糊解释时，将省略这样的描述。

[0070] 图1是示出语音识别系统的示例的示图。在一个示例中，语音识别系统可以是个性化的用于语音识别的系统，或者可选择性地提供这样的个性化的语音识别。

[0071] 参照图1，语音识别系统可包括语一个或多个音识别设备、一个或多个语音识别服务器130、或者一个或多个语音识别设备和一个或多个语音识别服务器130中的任意一种情况。

[0072] 一个或多个语音识别设备可被配置为使用例如语音识别设备的一个或多个麦克风收集声音或话音并生成对应的模拟声音信号，并且被配置为例如通过模数转换和声音信号的解析从收集的声音或话音获得对应的数字音频信号。例如，语音识别设备可收集作为多种附近声音中的一种声音的由人发出的语音声音，并且将由语音识别设备的用户发出的话音或语音与其他附近声音区分开来。在例如针对收集的语音的数字音频信号的生成中，语音识别设备可被配置为诸如以词素、音素、单词和/或句子为单位将音频信息组织为序列化的音频信息或帧以及序列化的语音信息。

[0073] 例如，语音识别设备可以是可由个人用户拥有或操作的电子装置。在这样的示例以及其他示例中，例如，语音识别设备可以是智能电话、智能平板、可穿戴装置(诸如，智能手环)、个人数字助理(PDA)、膝上型计算机等。这些示例还可以是作为由多个用户享有的电子装置的语音识别设备的示例。因此，除了这些示例之外，例如，语音识别设备可包括如图1中所示的语音识别扬声器103和语音识别电视(TV)104。这里，虽然语音识别扬声器103或TV 104被指示为均由多个用户使用或享有，并且智能电话、智能平板、可穿戴装置、PDA和膝上型计算机均可被指示为由单个用户或个人拥有或操作，但是语音识别扬声器103或TV 104还可由单个用户或个人拥有或操作，并且智能电话、智能平板、可穿戴装置、PDA和膝上型计算机均可由多个用户使用或享有。在此针对示例或实施例的术语“可”的使用(例如，关于示例或实施例可包括或实施什么)表示存在包括或实施这样的特征的至少一个示例或实施例，而所有示例和实施例不限于此。

[0074] 因此，语音识别系统可执行话音或语音识别以识别一个或多个用户的话音或语音。语音识别可表示区分包括在音频信号中的用户的话音并将该话音转换为以语言表达的语音的机器处理。例如，语音识别可将收集的用户的可听的语音转换为文本形式，其中，该文本形式可被反映回用户，用于基于识别的语音控制语音识别系统执行一个或多个操作，或者被提供给语音识别系统被配置为执行的应用(或在语音识别系统被配置为执行的应用内被提供)。

[0075] 在一个示例中，语音识别设备和/或语音识别服务器130可识别音频信号并生成与音频信号对应的文本数据。在此使用的术语“音频信号”还可被称为“语音信号”。例如，语音识别服务器130可从语音识别设备接收例如作为模拟或数字波形的用户的语音信号，并基于接收的语音信号通过执行在此描述的语音识别生成与语音信号对应的文本数据。语音识别服务器130可将通过语音信号的转换生成的结果文本数据发送到语音识别设备，其中，如上面提到的，结果文本数据可用于将被提供给语音识别设备的用户的各种服务。

[0076] 在一个示例中，第一终端101是第一用户111的个性化电子装置，第二终端102是第二用户112的个性化电子装置。作为非限制性示例，第一终端101和第二终端102可以是智能电话。在这个示例中，第一终端101可从第一用户111收集表示捕获的向第二用户112打电话的语音指令的语音信号，并且将语音信号发送或否则转发到语音识别服务器130。然后，语音识别服务器130可接收语音信号，并可对接收的语音信号执行语音识别，从而获得与来自语音信号的指令对应的文本数据。然后，语音识别服务器130可将获得的文本数据发送或否则转发到第一终端101。当文本数据由第一终端101接收到时，第一终端101可分析接收的文本数据，识别被表示的指令以呼叫第二用户112，并执行电话应用并控制电话应用向第二用户112打电话。

[0077] 在另一示例中，其中，接收的文本数据通过语音识别设备(例如，通过第一终端101)的分析导致确定识别的语音信号包括例如除了进行示例呼叫之外的一个或多个其他指令，语音识别设备可确定由语音识别服务器130识别的文本数据包括用于针对语音识别设备的用户生成调度并继续生成调度或调度事件的调度指令，包括用于检索网络服务的数据并继续发出查询并检索数据的互联网搜索查询指令，包括针对文本消息的内容和/或接收者并继续起草和/或发送文本消息的指令，或者包括用于实施存储在语音识别设备中的信息的检索或访问并继续检索存储在语音识别设备中的数据并将存储在语音识别设备中的数据提供给语音识别设备的用户的指令。

[0078] 然而，语音识别设备和语音识别服务器130的操作不限于前面描述的内容。语音识别设备可收集语音信号，并自身执行收集的语音信号的语音识别以识别语音信号，并继续分析识别的语音例如以用于识别这样的示例指令或查询的任何一个，并基于分析的结果执行任何进一步的操作。此外，虽然以上示例讨论了语音识别服务器130将识别的文本数据发送或转发到第一终端101，但是语音识别服务器130可将识别的文本数据发送或转发到第一终端101以及示例其他终端102、130和/或104中的一个或多个，或者在不将文本数据发送或转发到第一终端101的情况下，发送或转发到这样的其他终端中的任何一个或全部。语音识别服务器130还可分析文本数据并基于分析的结果执行操作，例如，可选地发送或支付文本数据或者除了发送或支付文本数据之外。语音识别服务器103和各种示例语音识别设备中的任何一个均可被配置为执行收集的语音信息的语音识别。此外，虽然普通的语音识别模型可由这样的装置中的任何一个来实施，但是各自的装置还可或者可以可选地存储并选择性地实施可根据方言被个性化的额外的语音识别模型，例如，与专门针对不同的特定方言被训练的另一额外的语音识别模型相比，各自的额外的语音识别模型专门针对特定方言被训练。

[0079] 此外，如下面讨论的，针对一个或多个语言中的每个，这样的装置中的任何一个可以可选地或还可存储语音识别模型(例如，基本的或普通的或者多方言训练的语音识别模型训练)，并基于针对对应语言的特定方言或识别的对应语言的方言优化的方言参数来选择性地修改语音识别模型，然后使用修改的语音识别模型来执行语音信号的识别。因此，在这样的示例中，虽然语音识别服务器130可具有用于存储例如均针对不同方言训练的多个语音识别模型的较大的资源，但是示例语音识别设备可具有较小的资源，或者语音识别设备的特定用户的范围可不等同地对应于现有的语音识别模型被分别训练所针对的方言，因此，在一个示例中，语音识别仍可通过语音识别设备使用基本的或普通的语音识别模型，并然后通过语音识别设备针对语音识别设备的说话者的方言选择性地修改基本的或普通的语音识别模型以这样较大的方言准确度被执行，而不需要存储所有的不同方言训练的语音识别模型。

[0080] 图2是示出语音识别模型的示例的示图。

[0081] 参照图2，上面参照图1描述的语音识别系统和语音识别设备中的任何一个可使用语音识别模型220。语音识别模型220可被配置为执行语音信号的机器识别以生成文本数据作为语音信号的识别。如上面提到的，语音信号可表示模拟波形，模拟波形之后被转换为数字波形，并且在一些示例中，模拟波形之后在被用作或应用/提供给语音识别模型220之前被转换为数字波形的特征数据，或者，语音信号可表示被用作或应用/提供给语音识别模型220的示例语音序列格式的这样的特征数据。因此，为了易于描述并且不将示例限制于此，在本公开的下文中，语音信号术语被讨论为对应于对捕获的音频已执行的这样的收集后处理，从而最终生成示例语音序列形式(即，以语音识别模型期望的这样的信息的应用/提供/输入的形式)的示例特征数据，以应用/提供/输入到语音识别模型。如上面提到的，语音识别设备可执行所有的这样的捕获的语音的收集后处理，并且自身实施语音识别模型220，或者语音识别设备可不执行、执行一些或执行所有的这样的捕获的语音的收集后处理，而语音识别服务器可然后执行针对捕获的语音的任何剩余的收集后处理，以生成被语音识别模型220期望的格式的对应的语音信息，并实施语音识别模型220。作为非限制性示例，语音识别模型220可包括声学模型和语言模型。在下文中，将描述语音识别模型220如何被存储并被实施以生成文本数据作为语音信号的机器识别的示例。例如，如上面参照图1讨论的，一个示例可包括语音识别设备，其中，该语音识别设备例如针对捕获的语音生成语音信号，并将语音信号发送到语音识别服务器，其中，语音识别服务器可使用接收的信息执行语音识别。因此，虽然示例不限于语音识别模型220由语音识别服务器实施(例如，如语音识别设备可自主地存储语音识别模型220，并自身实施语音识别模型220以识别用户的语音那样)，但是下面针对图2的讨论以及语音识别模型220的存储和实施将使用语音识别服务器示例来讨论。

[0082] 声学模型可以是训练的模型，该训练的模型因此被配置为例如从自提供给声学模型的捕获的语音提取的特征(例如，语音信号)以音素为单位识别语音信号。例如，语音识别系统可基于以音素为单位识别由声学模型获得语音信号的结果来估计由语音信号指示的单词。

[0083] 语言模型可以是训练的模型，该训练的模型因此被配置为获得语音的序列中的与单词的衔接(或连接)相关联的概率信息。例如，语言模型可提供与例如各种潜在或候选的下一个单词之中的衔接输入到语言模型的当前单词的下一个单词的概率相关联的概率信息。例如，在单词“this”被输入到语言模型的情况下，语言模型可提供与单词“is”或单词“was”衔接单词“this”的各个概率相关联的概率信息。在一个示例中，语音识别系统可基于由语言模型生成的概率信息来选择具有最高概率的单词的衔接，并且输出选择的结果作为语音识别结果。在一个示例中，声学模型和语言模型中的每个可使用各自的序列数据，诸如通过各自的深度学习被训练，和/或通过其他或另外的深度学习被共同地训练。

[0084] 在下文中，为了描述的简单，将主要描述与语音识别模型220的声学模型相关联的操作。示例包括声学模型，其中，声学模型以各种非限制性架构(诸如，例如，高斯混合模型(GMM)、深度神经网络(DNN)和双向长短期记忆(BLSTM))中的任何一种实现。然而，用于实现声学模型的机器学习的架构不限于前面描述的示例，因此，声学模型可以以所述示例中的至少一个的组合架构实现。神经网络可以是由硬件、或硬件和存储的参数信息的组合实现的识别模型，其中，硬件、或硬件和存储的参数信息的组合被配置为当语音识别模型220被实施时使用多个人工节点(例如，激活节点)执行复杂计算。神经网络可通过人工节点(例如，通过深度学习)被训练，使得训练的神经网络可然后通过人工节点执行识别。

[0085] 在一个示例中，神经网络可包括多个层。例如，神经网络可包括一个或多个输入层、至少一个隐藏层221和一个或多个输出层。输入层可接收(例如，获得)输入数据并将接收的输入数据发送到一个或多个隐藏层221，输出层可基于从一个或多个隐藏层221的节点接收的信号或其他激活信息生成输出数据。此外，作为非限制性示例，虽然图2示出单个一连串的隐藏层221，但是，例如，在各自的最终隐藏层221的各自的节点将它们的输出或激活提供给输出层之前，可存在隐藏层221的一个或多个并行布置。

[0086] 因此，在一个示例中，隐藏层221可通过被设置在如所示的输入层与输出层之间而连接到输入层和输出层，使得语音识别系统可将(输入到语音识别模型220的输入层的)输入数据变换为在指示通过隐藏层221生成的识别结果的输出层处的值。包括在输入层和第一或初始隐藏层221中的节点可通过均具有或表示训练的连接权重的连接线彼此连接，包括在第一或初始隐藏层221和层级上下一个隐藏层221中的节点可通过均具有训练的连接权重的进一步的连接线彼此连接，例如，包括在层级上最终隐藏层221和输出层中的节点通过均具有或表示训练的连接权重的对应的连接线彼此连接。例如，隐藏层221和输出层的每个节点可对输出到对应节点的(即，来自输入的)合成加权激活或来自根据对应的训练连接权重加权的层级上先前层的节点的激活，执行各自的激活功能。包括多个隐藏层的一类神经网络被称为DNN，并且学习或训练DNN被称为深度学习。训练将包括训练这样的连接权重，直到神经网络例如基于具有调节的连接权重的训练内神经网络的迭代实施来操作到预定成功或准确率阈值或最小错误率阈值被达到时为止。在神经网络的节点之中，包括在隐藏层221中的节点被称为隐藏节点229。

[0087] 如提到的，输入层、隐藏层221和输出层可包括多个节点。作为非限制性示例，隐藏层221可在语音识别模型220包括卷积神经网络(CNN)时包括分别作为卷积滤波器进行操作的一个或多个层并且可包括两个或更多个全连接层，可包括另外执行滤波的一个或多个层，和/或可包括由特定功能或特性分别分组的各种类型的一个或多个层。

[0088] 例如被配置为声学模型的示例神经网络可组织上被配置为或包括例如递归神经网络(RNN)。RNN表示先前帧或时间的一个隐藏层221的输出值再次被输入到当前帧或时间的同一隐藏层221并且针对每个进一步的帧或时间被重复的网络。这些到同一隐藏层221或同一隐藏层221的相同节点的连接还可被称为递归连接，递归连接可以是取决于加权连接权重的类似加权的连接。因此，在RNN中，先前的输出可影响计算新的输出的结果。

[0089] 在一个示例中，语音识别系统可将语音序列201划分为多个帧，并使用语音识别模型220预测、估计或识别与每个帧对应的话语。语音识别系统可使用声学模型和/或语言模型执行语音识别，并且声学模型和/或语言模型可分别包括这样的输入层、隐藏层221和输出层。输出层可输出结果230作为与输入到输入层的帧210对应的话语的预测或估计。例如，语音识别设备或语音识别服务器可通过具有或表示各自的连接权重的连接线将包括在先前隐藏层中的先前隐藏节点的输出输入到每个隐藏层221，并且基于各自的连接权重被施加到先前隐藏节点的输出的值以及基于隐藏节点229的激活函数生成包括在隐藏层221中的隐藏节点229的输出。在一个非限制性示例中，其中，被配置为实施语音识别模型220的语音识别设备的处理器是神经形态处理器，当当前隐藏节点的激活的结果比当前隐藏节点的阈值大或者累积比当前隐藏节点的阈值大时，该处理器可将输出从当前隐藏节点发(fire)到后续的隐藏节点。在这个示例中，当前隐藏节点保持处于未激活状态而不向后续节点发信号，直到当前隐藏节点例如使用输入向量达到阈值激活强度。如上面讨论的，语音识别设备的语音识别模型220的训练可类似地实施这样的神经形态处理器、或其他处理器。

[0090] 在一个示例中，输出层可以是柔性最大(softmax)层，其中，例如，柔性最大层可包括节点。作为非限制性示例，节点的数量可等于所有潜在或训练的话语的总数，其中，输出层的每个节点可以是分别指示输入帧210是某个话语的概率的概率数据。

[0091] 图3是示出语音识别方法的示例的流程图。

[0092] 参照图3，在操作310中，语音识别设备基于参数生成模型从输入方言数据生成方言参数。输入方言数据可以是输入到参数生成模型的数据。例如，输入方言数据可包括与方言相关联的数据，并可指示用户所属的方言组。例如，输入方言数据可以是指示语言的多个方言组之中的用户的语言所属的一个方言组的数据。在另一示例中，输入方言数据可以是指示用户的语言的方言组的各自的概率的概率数据，例如，其中，最高概率指示可表示对应的方言组是用户所属的最可能的方言组。然而，输入方言数据不限于前面描述的示例。

[0093] 方言分组在此可用于将相同语言的不同地区、种族、文化等的方言分类为多个组。例如，在语言是英语的情况下，方言组可包括例如本地英语组、美国英语组、英国英语组、菲律宾英语组、印度英语组、韩国英语组、美国西部英语组、美国中部英语组、美国东部英语组等。然而，方言组的示例不限于前面描述的示例，并且方言组可基于多种语言中的每种语言中的方言特性而被分类。

[0094] 方言参数表示由参数生成模型生成的参数。方言参数可以是表示方言的语言学特性的抽象参数，该抽象参数可被应用于多种方言训练的语音识别模型，例如，从而针对方言调整或缩放语音识别模型的层的至少一个的输入和/或输出。生成的抽象方言参数可具有各种形式和维度，诸如，具有缩放矩阵形式和/或批量(batch)参数形式。在缩放矩阵示例中，例如，在各自的节点的缩放激活之后，各自的参数可以是针对层的各自的节点的缩放值，诸如，例如，学习隐藏单元贡献(learning hidden unit contribution，LHUC)。缩放矩阵的维度可以是m×1，使得抽象的参数可以是矢量格式，或者缩放矩阵可以是m×n，使得抽象的参数可以是矩阵形式。生成的抽象方言参数可具有额外的维度，因此可使形式交替。在批处理参数示例中，多个各自的方言参数中的每个可包括批量归一化参数(batch normalization parameter)(例如，γ和β)。针对对一个或多个或所有的不同层的应用，相同或不同的抽象方言参数格式可例如通过一个或多个这样的实施的参数生成模型来生成。

[0095] 在此使用的参数生成模型表示被配置(例如，训练)为从输入方言数据或基于输入方言数据输出方言参数的模型，并且，例如，在此使用的参数生成模型可以是神经网络。参数生成模型可包括多个层。参数生成模型和语音识别模型可连接到彼此，使得参数生成模型的输出或各自的输出应用于语音识别模型的层的一个或多个。

[0096] 在操作320中，语音识别设备基于语音识别模型和由参数生成模型生成的方言参数从语音信号生成语音识别结果。例如，语音识别设备可在语音识别模型正在执行语音信号的语音识别或针对语音信号的语音识别的同时，将由参数生成模型分别确定的方言参数应用于语音识别模型的至少一部分层。在一个示例中，语音识别设备对方言参数的这种应用可根据正被讲出的方言而动态地修改语音识别模型。

[0097] 例如，在方言参数是批量归一化参数(在下文中，简称为批量参数)的情况下，语音识别设备可将批量参数应用于将被输入到语音识别模型的至少一个层的每个节点的数据。语音识别设备可使用批量参数从而修改语音识别模型的隐藏层的节点输入(例如，归一化输入)，并生成隐藏层的新的节点输入。例如，语音识别设备可通过将归一化输入乘以第一批量参数γ并加上第二批量参数β来生成新的节点输入。然后，语音识别设备可将各自的新的节点输入输入到隐藏层的各自的节点，以分别计算它们的隐藏层的例如包括针对一个或多个输入将激活函数应用于节点的激活输出。在这个示例中，批量归一化层可在隐藏层之前被连接。例如，在隐藏层之前连接的批量归一化层可例如基于示例第一批量参数γ和第二批量参数β被提供用于改变将被提供给隐藏层的每个节点的输入的批量参数。在一个示例中，参数生成模型的输出层还可以是这样的批量归一化层，批量归一化层可插入到语音识别模型，以将各自的批量归一化输入数据生成到一个或多个隐藏层。在另一示例中，参数生成模型的这样的输出层(或者，输出层后续的批量归一化层)可被输入从先前隐藏层输出的输入数据，用于输入到后续隐藏层，并且基于由参数生成模型确定的批量参数来执行输入数据的批量归一化。

[0098] 在一个示例中，与语音识别模型的隐藏层的数量相同数量的批量归一化层可被包括例如在语音识别模型或者被包括为参数生成模型的各自的输出层(或者，输出层之后的)，使得每个批量归一化层的各自的输出连接到对应的隐藏层。然而，示例不限于前面描述的示例，各自的批量归一化层可仅连接到隐藏层中的一些。因此，批量归一化层的批量归一化可基于什么批量参数或其他方言参数被参数生成模型输出而动态地变化。

[0099] 此外，方言参数的应用不限于前面描述的内容，因为其他示例也是可行的。例如，在参数生成模型确定的方言参数是缩放矩阵(scale matrix)的情况下，语音识别设备可通过按元素运算(elementwise operation)(例如，矩阵乘积计算)将确定的缩放矩阵应用于语音识别模型的至少一个隐藏层的输出。语音识别设备还可通过将由参数生成模型针对每个隐藏层分别确定的对应的缩放矩阵应用于每个隐藏层，来应用缩放矩阵。然而，示例不限于前面描述的示例，因为在另一示例中，语音识别设备可仅针对语音识别模型的一些层确定各自的缩放矩阵。

[0100] 语音识别设备可针对输入到这样的隐藏层的数据和/或由这样的隐藏层输出的数据在语音识别模型的一个或多个隐藏层之前或之后基于修改的语音识别模型(例如，如通过应用方言参数或各自的方言参数修改的语音识别模型)从语音信号生成语音识别结果。语音识别设备可通过将语音信号归一化来获得归一化数据，并基于修改的语音识别模型(即，应用了方言参数的语音识别模型)从归一化数据生成语音识别结果。例如，语音识别设备可基于应用了方言参数的语音识别模型以音素为单位计算识别语音信号的结果。可选地或额外地，如下面进一步讨论的，语音识别设备可被配置为通过基于生成的方言参数修改语音识别模型的预定参数(例如，连接权重)来实施语音识别模型的修改。

[0101] 在一个示例中，参数生成模型和语音识别模型可一起被训练。将在下面参照图11和图12更详细描述参数生成模型和语音识别模型的训练。

[0102] 图4是示出语音识别模型和参数生成模型的示例的示图。

[0103] 参照图4，语音识别模型410包括多个层411、412和413。多个层411、412和413均可以以长短期记忆(LSTM)的架构被提供，但不限于此。语音识别模型410可被配置为从语音信号401输出识别结果409。参数生成模型420包括多个层421和422。参数生成模型420可被配置为从输入方言数据402输出方言参数。在图4的示例中，参数生成模型420的输出层的输出可分别应用于语音识别模型410的多个层411、412和413中的每个的输入，或者从语音识别模型410的多个层411、412和413中的每个输出。语音识别模型410和参数生成模型420可与图3的语音识别模型和参数生成模型相同，注意，示例不限于此。

[0104] 在一个示例中，语音识别设备基于从用户接收的用户输入来确定输入方言数据402。响应于从用户接收到用户输入，语音识别设备可将由用户输入指示的方言信息确定为输入方言数据402。方言信息表示指示针对用户输入从多个方言组之中已被确定或设置的方言组的信息。

[0105] 语音识别设备通过将从参数生成模型420确定的不同的方言参数变化地应用于语音识别模型410来变化地修改语音识别模型410。例如，语音识别设备基于确定的方言参数使用一个这样的修改的语音识别模型410从语音信号401确定识别结果409。

[0106] 与从针对包括多个方言的语言的特征或特性先前训练导出的普通参数相比，语音识别模型410的每个层可包括可针对不同的方言或方言组动态地改变的各自的方言参数，或者可通过可针对不同的方言或方言组动态地改变的各自的方言参数被修改或调整。因此，方言参数可基于由语音识别设备的考虑的语音的方言被动态地生成或设置。如所提到的，作为非限制性示例，普通的参数可以是使用与多个方言组对应的语音训练的各自的参数，因此可至少针对由多个方言组共同享有的特征或特性被训练。虽然在图4的示例中示出各自的方言参数针对每个层的中间的节点或连接被应用而各自的普通参数被保持在每个层的剩余部分中，但是示例不限于示出的示例。例如，各自的参数可应用于每个层的输入和/或输出侧的节点。在这些示例中，图4的示出的单个层均表示节点的多个层和节点之间的连接。因此，将方言参数应用于示出的层的中部对应于对应的动态设置的连接权重被应用于来自示出的层的内部层激活值，将方言参数应用于示出的层的输入侧对应于对应的动态设置的连接权重被应用于来自语音识别模型的先前示出的层的激活值。此外，在一个示例中，隐藏层越靠近示例识别结果409，语音识别模型的仅普通的参数实施可越反映方言依赖性，因此，虽然在一个示例中，方言参数可应用于最高的隐藏层，但是在相同的示例中，方言参数可不应用于最低的层或可不应用于所有低于较高的层或最高的层的较低的层。例如，在一个示例中，各自的方言参数可仅应用于层413而不应用于层412和411，或者仅应用于层413和412而不应用于层411。

[0107] 尽管在此描述了在神经网络实施方式中语音识别模型410包括层，但是示例不限于此。

[0108] 图5是示出语音识别方法的另一示例的流程图。

[0109] 参照图5，在操作501中，语音识别设备获得语音信号。例如，语音识别设备可通过语音识别设备的麦克风获得语音信号或者有线或无线连接到语音识别设备。

[0110] 在一个示例中，语音识别设备可使用方言分类模型从语音信号计算输入方言数据。方言分类模型可被配置(例如，训练)为从语音信号输出输入方言数据。

[0111] 例如，在操作511中，语音识别设备使用方言分类模型提取语音特征。例如，语音识别设备可使用方言分类模型的多个层的至少一部分(例如，方言分类层的一个或多个第一层)从语音信号提取语音特征。

[0112] 在操作512中，语音识别设备预测方言组。例如，语音识别设备可使用方言分类模型的多个层的剩余的后续部分从语音特征预测输入方言数据。在图5中所示的示例中，输入方言数据可以是指示多个方言组之中的语音信号所属的方言组的数据。然而，示例不限于示出的示例。

[0113] 在一个示例中，语音识别设备可从语音信号计算并输出与语音信号使用方言分类模型被确定为所属的方言相关联的概率或概率性数据作为输入方言数据。例如，当从用户获得语音信号时，语音识别设备可生成指示获得的语音信号的方言特性或特征的输入方言数据。在这个示例中，生成的输入方言数据可以是指示个人用户所固有的方言特征的数据。在输入方言数据是如上所述的可能性或概率数据的情况下，输入方言数据可指示用户的语音属于或具有与每个方言组对应的特性的概率。例如，用户的语言可具有多个方言组的特性或特征的混合，并且这样的概率性输入方言数据可指示用户的语言中反映的每个方言组的权重或百分比。

[0114] 例如，在美国用户习惯于居住在法国和还有菲律宾的情况下，用户的讲话的语言可具有美国英语方言、法国英语方言和菲律宾英语方言的特性。如所述的，基于方言分类模型计算的输入方言数据可因此具有混合了用户的语言中的多个方言的复合特征。

[0115] 在操作513中，基于输入方言数据(作为指示特定方言组的数据或这样的针对多个组的概率性数据)，语音识别设备计算方言参数。例如，语音识别设备可使用参数生成模型从在操作512中计算的输入方言数据动态地生成方言参数。在一个示例中，语音识别设备可使用示例概率性输入方言数据动态地生成例如针对每个个人用户针对方言优化的各自的方言参数。在这样的示例中，语音识别设备可从指示与讲话者的语言的方言组的混合特征的输入方言数据计算各自的方言参数。方言参数可因此反映与包括在当前讲话者的语言中的如由参数生成模型考虑每个方言组占当前讲话者的语言的权重或比例确定的复合方言特征对应的抽象参数。

[0116] 在操作521中，语音识别设备修改语音识别模型。例如，语音识别设备可将在语音识别模型的训练期间基于具有多种方言的普通的语言设置的原始参数、生成的方言参数应用(例如，插入或设置、替换、或调节)于语音识别模型，以生成对用户特定的新的语音识别模型。新的语音识别模型的多个层的至少一部分(例如，如插入和/或调节)可因此包括反映动态生成的方言参数的部分。这里，作为非限制性示例，将方言参数应用于语音识别模型以生成新的语音识别模型还可考虑调整针对特定方言或方言分类的语音识别模型。

[0117] 在操作522中，语音识别设备计算语音识别结果。例如，语音识别设备可基于已应用方言参数的新的或调整的语音识别模型从在操作501中获得的语音信号计算语音识别结果。已应用方言参数的新的语音识别模型的多个层的至少一部分可包括前述的各自的共同参数，并且包括或反映各自的方言参数。

[0118] 如上所述，语音识别设备可使用针对捕获的用户的语音的语言的方言特征优化的方言参数从用户的具有复合方言特征的语音信号准确地识别语音。此外，每次语音识别设备获得语音信号，语音识别设备可动态地生成方言参数。此外，即使同一用户以不同的声调发出语音，语音识别设备也可动态地生成针对用户的方言优化的方言参数。

[0119] 图6是示出例如被配置为执行图5的语音识别方法的语音识别模型、参数生成模型和方言分类模型的示例的示图，然而示例不限于此。

[0120] 作为非限制性示例并且参照图6，语音识别模型410可包括与上面参照图4描述的示例语音识别模型410类似的多个层。下面，将针对具有与图4的对应特征类似的功能的特征使用相同的参考标号来进行图6至图8B的解释，然而，图6至图8B中的相同的参考标号特征均可以是图4中(例如，在各种示例中)的相同的对应特征，示例不限于此。因此，除了现有的共同参数之外，语音识别模型410的每个层包括从参数生成模型420生成的各自的方言参数。语音识别设备使用方言分类模型630生成将被输入到参数生成模型420的输入方言数据402。

[0121] 方言分类模型630可被配置(例如，训练)为输出用户的语言的方言特征。例如，方言分类模型630可被配置为从语音信号401输出输入方言数据402。在这个示例中，例如，输入方言数据402可以是指示例如基于独热编码方法(one-hot encoding method)的多个方言组之中的单个方言组的数据。再例如，输入方言数据402可以是指示每个方言组占用户的语言的特征的权重或比例的概率或概率性数据，或者是作为用户的语言的准确方言的每个组的概率。

[0122] 然而，示例不限于前面描述的示例，并且输入方言数据402还可以是提取的语音特征。例如，语音识别设备可在方言分类模型630从语音信号401计算方言信息时，选择或使用方言分类模型630的一个或多个层的输出为输入方言数据420。方言分类模型630的层的输出可以是指示语音信号401的抽象语音特征的特征数据。

[0123] 语音识别设备使用参数生成模型420从输入方言数据402计算方言参数。语音识别设备将计算的方言参数应用于语音识别模型410。语音识别设备基于已经利用或基于生成的方言参数修改或调整的语音识别模型410从语音信号401生成识别结果409，例如，识别结果409是调整的语音识别模型的实施的结果。

[0124] 尽管在图6的示例中示出方言分类模型630基于或从语音信号401输出输入方言数据402，但示例不限于示出的示例。例如，代替语音信号401，语音识别设备可使用由语音识别模型410的层生成或计算的特征数据，并使用特征数据实施方言分类模型630以计算或生成输入方言数据402。然后，语音识别设备可使用参数生成模型420从输入方言数据402生成方言参数。

[0125] 图7、图8A和图8B是示出提供给参数生成模型的输入方言数据的示例的示图。

[0126] 参照图7，参数生成模型420使用语音信号401作为输入方言数据702。语音识别设备使用参数生成模型420从作为输入方言数据702的语音信号401生成方言参数。

[0127] 参照图8A，参数生成模型420使用从语音识别模型410的多个层的至少一部分输出的特征数据(例如，语音特征)作为输入方言数据802。语音识别设备通过参数生成模型420被提供从语音识别模型410的多个层的至少一部分输出的特征数据，来生成方言参数。

[0128] 参照图8B，参数生成模型420使用语音信号401和从语音识别模型410的多个层中的每个层输出的特征数据作为输入方言数据830。在一个示例中，语音识别设备可使用参数生成模型420，分别使用输入到对应的层的数据(例如，输入方言数据)生成针对语音识别模型410的每个层的方言参数。输入到语音识别模型410的对应的层的数据可以是从语音识别模型410的先前层输出的特征数据或语音信号。

[0129] 例如，如所示，参数生成模型420包括与语音识别模型410的多个层(例如，第一层811、第二层812和第三层813)分别对应的多个参数生成层(例如，第一参数生成层821、第二参数生成层822和第三参数生成层823)。参数生成层821、822和823中的每个可连接到语音识别模型410的对应的层，例如，以接收输入到语音识别模型410的对应的层的特征数据并将分别生成的方言参数提供给语音识别模型410的对应的层。因此，参数生成层821、822和
823中的每个被配置为生成针对语音识别模型410的对应的层的这样的方言参数。如在图8B中所示，输入到参数生成层821、822和823中的每个的输入方言数据830包括第一方言输入
831、第二方言输入832、第三方言输入833和方言信息839。

[0130] 语音识别设备基于第一参数生成层821从第一方言输入831(例如，语音信号401)生成第一方言参数。从第一参数生成层821输出的第一方言参数被应用于语音识别模型410的第一层811。语音识别设备基于第二参数生成层822从第二方言输入832(例如，从第一层811输出的特征数据)生成第二方言参数。从第二参数生成层822输出的第二方言参数被应用于语音识别模型410的第二层812。语音识别设备基于第三参数生成层823从第三方言输入833(例如，从第二层812输出的特征数据)生成第三方言参数。从第三参数生成层823输出的第三方言参数被应用于语音识别模型410的第三层813。

[0131] 语音识别设备还可通过还将方言信息839与对应的方言输入一起输入到参数生成模型420的每个层来生成各自的方言参数。例如，方言信息839可以是指示用户的语言的方言的特征或特性的特征向量，例如，通过利用用户的登记处理生成的特征向量或者针对方言信息839的当前的后续应用在用户的先前登记中生成并存储的特征向量。例如，特征向量可从可被应用在这样的登记处理、先前处理或初始处理中的在此讨论的特征提取层中的任何一个被生成。在图8B的示例中，语音识别设备将方言信息839与第一方言输入831一起输入到第一参数生成层821。语音识别设备将方言信息839与第二方言输入832一起输入到第二参数生成层822。语音识别设备将方言信息839与第三方言输入833一起输入到第三参数生成层823。

[0132] 如上所述，例如，语音识别设备可通过基于参数生成模型420以及前述的预定方言信息将从自先前层输出的特征数据生成的方言参数应用于语音识别模型410的每个层来更准确地修改语音识别模型410以更准确地识别语音。

[0133] 作为非限制性示例，语音识别设备可在语音识别模型410中包括如上面参照图7、图8A或图8B描述地生成的方言参数。

[0134] 图9是示出语音识别设备的示例的示图。图10是示出存储在存储器中的语音识别模型、参数生成模型和方言分类模型的示例的示图。

[0135] 参照图9，语音识别设备900可包括输入和输出接口910、处理器920和存储器930。

[0136] 输入和输出接口910可被配置为接收用户的语音或正确的答案文本(answer text)作为输入，并且将识别结果或引导文本提供给用户。例如，输入和输出接口910可代表处理器920被配置为实施的语音识别设备900的其他功能之中的诸如用于接收用户的语音作为输入的麦克风、用于从用户接收正确的答案文本的键盘、触摸屏、触摸板等中的任何一个或任何组合。例如，输入和输出接口910还可代表用于提供识别结果或引导文本的显示器以及用于基于在识别的语音中的解释的指令可听地提供识别结果或响应的扬声器。

[0137] 处理器920可使用参数生成模型1032从输入方言数据生成方言参数。处理器920可基于语音识别模型1031和应用的方言参数从语音信号生成语音识别结果。然而，处理器920的操作不限于前面描述的内容，并且处理器920可执行上面参照图1至图8B以及下面针对图11和图12描述的操作中的任何一个、任何组合或全部。

[0138] 存储器930可存储可由处理器920执行的指令，并可存储参数生成模型1032、方言分类模型1033和语音识别模型1031，其中，当该指令被执行时，配置处理器实施在此描述的操作中的任何一个、任何组合或全部。每个模型可以是基于神经网络的语音识别模型。在每个模型是神经网络的情况下，存储器930可存储各自的模型的各自的参数(诸如，例如，神经网络的每个层的每个激活节点的各自的连接权重)。

[0139] 在一个示例中，语音识别设备900可保持例如由先前用户基于先前输入语音生成的先前方言参数，直到例如当前用户的新的输入方言数据被接收到为止，即，新的方言参数的生成可根据通过提供输入语音或输入语音的特征数据的分类器的方言分类来选择性地执行。此外，响应于示例当前用户的方言组例如通过这样的方言分类器被确定为不同于示例先前用户的方言组，语音识别设备900可然后选择使用当前用户的输入方言数据生成新的方言参数，例如作为通过方言分类器的输出和/或输入到语音识别模型的对应层的特征数据，并然后将新的方言参数应用于语音识别模型或基于新的方言参数调节语音识别模型的现有的方言参数。

[0140] 上面参照图1至图10描述了语音识别模型1031、参数生成模型1032和方言分类模型1033是训练的模型。语音识别设备900可额外地或可选地训练这些模型中的任何一个、任何组合或全部，并且可将任何两个，任何组合或全部模型一起训练。例如，语音识别设备900可基于训练语音信号和与训练语音信号对应的输入方言数据来训练参数生成模型1032。语音识别设备900可训练参数生成模型1032，使得参数生成模型1032从训练语音信号基于输入方言数据输出方言参数。

[0141] 在一个示例中，语音识别设备900可辨识用户的语言并选择对应语言语音识别模型1031。例如，在与每种语言对应的语音识别模型被存储的情况下，语音识别设备900可存储分别针对不同讲话语言的多种语音识别模型，并可额外地存储对应参数生成模型和与多个语音识别模型中的每个对应的对应方言分类模型。因此，语音识别设备900可将生成的方言参数应用于选择的语音识别模型1031。语音识别设备900可使用应用了生成的方言参数的语音识别模型1031生成语音信号的语音识别结果。

[0142] 语音识别设备900可代表或设置在个人装置(诸如，智能电话等)中，并可提供可针对用户的发音优化的语音识别功能。语音识别设备900还可代表设置在实施语音识别功能的任何装置(诸如，例如，家庭扬声器)中，并可提高语音识别的整体性能。

[0143] 语音识别设备900可使用集成了语音识别模型1031和参数生成模型1032的集成模型准确地执行语音识别，而不必单独地生成和管理针对每种方言的整个模型。因此，将用于服务器开发和维护的费用可被减少。此外，语音识别设备900还可被应用于基于语音识别的端对端(end-to-end)服务，诸如，方言分类、方言参数生成和/或语音识别模型基于生成的方言参数的动态调节中的任何一个可基于远程装置与本地装置之间的各自的输入和/或生成的数据的通信，例如在服务器被远程地执行，和/或与示例个人装置本地地执行。

[0144] 图11是示出用于训练语音识别模型的训练方法的示例的流程图。图12是示出用于训练语音识别模型的训练设备的示例的示图。

[0145] 参照图12，被配置为训练语音识别模型1221的训练设备1200包括处理器1210和存储器1220。处理器1210可被配置为诸如通过存储在存储器1220中的指令的执行或否则实施的硬件，来执行将在下文中参照图11描述的下面的操作。存储器1220还可诸如通过存储各自的模型的结构、它们的内部偏差和对应的训练的参数的信息，来存储语音识别模型1221、参数生成模型1222和方言分类模型1223。存储器1220还可临时存储训练语音识别模型、训练的参数生成模型和训练方言分类模型，其中，训练语音识别模型、训练参数生成模型和训练方言分类模型分别通过训练操作被更新和修改，以生成训练的语音识别模型1221、训练的参数生成模型1222和训练的方言分类模型1223，然而在下文中，为了解释的简单，被执行以通过各自的过渡模型的训练和更新的/修改的过渡模型的临时存储而最终生成这样的模型的训练，将仅被称为语音识别模型1221的训练、参数生成模型1222的训练和方言分类模型1223的训练。此外，存储器1220可存储训练数据1290。

[0146] 训练数据1290可包括成对的训练输入1291和与训练输入1291对应的训练输出1292，例如，其中，在包括语音识别模型1221通过基于损耗的反向传播(loss based back propagation)的初始共同语音训练的示例中，训练输入可包括包含多种方言的对应的语言的语音，例如，其中，共同语音训练可包括利用不同的方言训练输入1291或利用混合的方言训练输入1291顺序地训练语音识别模型1221。因此，训练输入1291可包括针对多种方言的对应语言的语音，并且在额外的或可选的示例中，训练输入1291可用于语音识别模型1221和参数生成模型1222一起的训练中，或者语音识别模型1221、参数生成模型1222和方言分类模型1223一起的训练中，或者与一起训练的参数生成模型1222和方言分类模型1223分开训练的语音识别模型1221。在一个示例中，在暂时训练的语音识别模型的生成例如到预定准确度或最小不准确度从而确定暂时的共同参数之后，作为非限制性示例，暂时的共同参数可在参数生成模型1222的训练期间被固定，在参数训练模型的初始训练到预定准确度或最小不准确度并此后与参数生成模型1221一起训练期间被固定。此外，在方言分类模型
1223生成针对包括多种方言的特性的复合语音的概率或概率性数据的示例中，训练输入
1291可包括这样的复合语音。因此，为了解释ID目的，通过图11和图12中所示的示例，训练输入1291可以是训练语音，训练输出1292可以是对应的参考识别结果(例如，参考话语或对应的成对的训练语音的正确识别)。此外，训练输入1291还可包括与训练语音对应的输入方言数据(例如，训练方言信息或标签)。

[0147] 参照图11，在操作1110中，训练设备1200使用训练参数生成模型1222从训练方言信息计算临时方言参数，其中，训练参数生成模型1222是与系统的剩余物分开初始训练，或者包括初始化的参数。训练设备1200可通过将训练方言信息从仍未完成训练的参数生成模型1222的输入层向上传播至输出层来计算临时方言参数。临时方言参数指示仍未完成训练的参数生成模型1222的输出。

[0148] 在操作1120中，训练设备1200训练参数生成模型1222和语音识别模型1221中的至少一个，使得应用了临时方言参数的语音识别模型1221从训练语音输出参考识别结果。训练设备1200可将临时方言参数应用于仍未完成训练的语音识别模型1221。

[0149] 然后，训练设备1200可通过将训练语音从应用了临时方言参数的语音识别模型1221(即，临时调整的语音识别模型)的输入层向上传播到输出层来输出临时输出。训练设备1200可基于临时输出和参考识别结果来计算损失。损失可由各种目标函数来定义，但不限于特定的目标函数。训练设备1200可更新参数生成模型1222和语音识别模型1221的参数，使得基于临时输出和参考识别结果的损失被最小化。训练设备1200可通过反向传播来更新参数生成模型1222和语音识别模型1221二者的各自的参数。然而，示例不限于前面描述的内容，并且训练设备1200可更新参数生成模型1222和语音识别模型1221中的一个的参数，或者可首先更新参数生成模型1222和语音识别模型1221中的一个的参数，然后更新参数生成模型1222和语音识别模型1221中的另一个的参数。训练设备1200可重复这样的计算临时输出、计算损失和更新参数生成模型1222和语音识别模型1221的参数的操作，直到损失收敛或达到阈值低损失水平。

[0150] 图12中所示的方言分类模型1223还可以是分开地(例如，与语音识别模型1221和参数生成模型1222分开地)训练的模型。例如，训练设备1200可使用各种方言的训练语音来训练方言分类模型1223以从语音信号输出方言信息。例如，训练设备1200可通过将这个训练语音从方言分类模型1223的输入层向上传播到输出层来计算临时方言输出。训练设备1200可更新方言分类模型1223的参数，使得临时方言输出与相应地提供的或否则已知的参考方言信息之间的损失被最小化。

[0151] 额外地或可选地，训练设备1200可训练方言分类模型1223以及语音识别模型1221和参数生成模型1222。例如，训练设备1200可通过将临时方言输出传播到仍未完成训练的参数生成模型1222来计算临时方言参数。与上面上述内容相似，训练设备1200可通过应用了临时方言参数的语音识别模型1221来计算临时输出。训练设备1200可同时或顺序地训练语音识别模型1221、参数生成模型1222和方言分类模型1223中的至少一个，使得基于临时输出和参考识别结果的损失被最小化。

[0152] 通过硬件组件来实现在此针对图1至图12描述的语音识别设备、服务器和系统、训练设备、处理器、处理器920、存储器、存储器930、输入和输出接口910以及其他设备、模块和其他组件。可用于执行在本申请中描述的操作的硬件组件的示例在适当位置包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中，执行在本申请中描述的操作的硬件组件的一个或多个通过计算硬件(例如，通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件(诸如，逻辑门的阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令实现期望的结果的任何其他装置或装置的组合)，来实现处理器或计算机。在一个示例中，处理器或计算机包括或被连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行在本申请中描述的操作。硬件组件还可响应于指令或软件的执行，访问、操纵、处理、创建和存储数据。为了简明，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述中，但在其他示例中，多个处理器或多个计算机可被使用，或者一个处理器或一个计算机可包括多个处理器元件或多种类型的处理器元件或者两者。例如，可通过单个处理器或者两个或更多个处理器、或者处理器和控制器，来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器、或者处理器和控制器，来实现一个或多个硬件组件，并且可通过一个或多个其他处理器、或者另外的处理器和另外的控制器，来实现一个或多个其他硬件组件。一个或多个处理器、或者处理器和控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任意一个或多个，不同的处理配置的示例包括：单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

[0153] 通过计算硬件(例如，通过一个或多个处理器或计算机)来执行针对图1至图12中示出并讨论的执行在本申请中描述的操作的方法，其中，计算硬件被实现为如上所述地执行指令或软件，以执行在本申请中描述的由所述方法所执行的操作。例如，单个操作或者两个或更多个操作可通过单处理器或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行，且一个或多个其他操作可通过一个或多个其他处理器、或者另外的处理器和另外的控制器来执行。
一个或多个处理器、或者处理器和控制器可执行单个操作、或者两个或更多个操作。

[0154] 为了单独地或共同地指示或配置处理器或计算机作为机器或专用计算机进行操作，以执行由如上所述的硬件组件和方法执行的操作，用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可被写为计算机程序、代码段、指令或它们的任意组合。在一个示例中，指令或软件包括直接由一个或多个处理器或计算机执行的机器代码，诸如，由编译器产生的机器代码。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。指令或软件可基于附图中示出的框图和流程图以及说明书中的相应描述使用任何编程语言来编写，其中，附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。

[0155] 用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件、以及任何相关联的数据、数据文件以及数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、作为非限制性的蓝光或光盘存储装置示例、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡型存储器(诸如，多媒体卡或微卡(例如，安全数字(SD)或极速数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、和任何其他装置，该任何其他装置被配置为以非暂时方式存储指令或软件、以及任何相关联的数据、数据文件以及数据结构，并向一个或多个处理器或计算机提供指令或软件、以及任何相关联的数据、数据文件以及数据结构，以便一个或多个处理器或计算机能够执行指令。在一个示例中，指令或软件、以及任何相关联的数据、数据文件以及数据结构分布在联网的计算机系统上，使得指令或软件、以及任何相关联的数据、数据文件以及数据结构通过一个或多个计算机或处理器以分布式方式被存储、访问和执行。

[0156] 尽管本公开包括特定的示例，但是在理解本申请的公开之后将是清楚的是，在不脱离权利要求和它们的等同物的精神和范围的情况下，可在这些示例中做出形式和细节上的各种改变。在此描述的示例将被认为仅是描述性的，而非为了限制的目的。在每个示例中的特征或方面的描述将被认为适用于其他示例中的相似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果在描述的系统、架构、装置、或电路中的组件以不同的方式组合，和/或被其他组件或者它们的等同物代替或补充，则可实现合适的结果。因此，本公开的范围不是通过具体实施方式所限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在本公开中。

标题	发布/更新时间	阅读量
音响输出装置及音响输出方法	2020-05-08	652
语音识别方法和设备	2020-05-08	119
语音识别方法、服务器及计算机可读存储介质	2020-05-08	554
身份验证方法、装置、电子设备及存储介质	2020-05-08	129
语音合成设备、语音合成方法及其存储介质	2020-05-08	859
一种适用于医药产品的交易系统	2020-05-08	998
一种基于人工智能的综合客服系统	2020-05-08	494
多音频识别方法、装置、设备及可读存储介质	2020-05-11	563
一种新型AI智能交互装置	2020-05-08	894
一种基于双麦降噪的语音鼠标	2020-05-11	379

语音识别方法和设备

语音识别方法和设备

技术领域

背景技术

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：