首页 / 专利库 / 信号处理 / 音素 / 语音识别方法、服务器及计算机可读存储介质

语音识别方法、服务器及计算机可读存储介质

阅读:916发布:2020-05-08

专利汇可以提供语音识别方法、服务器及计算机可读存储介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 语音识别 方法,该方法包括:构建 声学模型 ;当获取到原始语音 信号 时,对 语音信号 进行预处理以提取出有效的语音部分;从有效的语音部分提取声学特征;将声学特征输入至声学模型,通过已经训练完成的 音素 训练模型以对声学特征进行音素识别并输出识别结果至已经训练完成的基于记忆单元连接的混合神经网络模型;通过已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与语音信息相对的文本信息。本发明还提供一种 服务器 及计算机可读存储介质。本发明提供的语音识别方法、服务器及计算机可读存储介质可以提高语音识别的准确率。,下面是语音识别方法、服务器及计算机可读存储介质专利的具体信息内容。

1.一种语音识别方法,应用于服务器,其特征在于,所述方法包括:
构建声学模型,其中所述声学模型包括音素训练模型及混合神经网络模型,所述混合神经网络模型包括基于记忆单元连接的长短时递归神经网络HLSTM-RNN、卷积神经网络CNN、前馈神经网络DNN以及隐尔可夫模型HMM,通过CNN-HMM来减少说话人差异性,通过RNN-LSTM-HMM捕捉语音的时序信息、利用一句话中的历史信息进行上下文建模,并通过DNN-HMM区分不同的音素,分类输出对应输入语音信息的识别音素;
当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;
从所述有效的语音部分提取声学特征;
将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型对声学特征进行音素识别,并根据所述混合神经网络模型中的隐马尔可夫模型HMM中状态的发生概率,在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中基于记忆单元连接的RNN-LSTM模型,并将最后一层LSTM的输出输入至所述前馈神经网络DNN;
输出与所述语音信息相对应的文本信息。
2.如权利要求1所述的语音识别方法,其特征在于,所述当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:
预加重所述语音信号以提升所述语音信号中的高频部分;
对所述语音信号进行分加窗以将非平稳信号转换成短时平稳信号;
去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。
3.如权利要求2所述的语音识别方法,其特征在于,所述从所述有效的语音部分提取声学特征的步骤,具体包括:
对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱
根据所述能量频谱通过一组梅尔尺度的三滤波器组,突出所述语音部分的共振峰特征;
将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征。
4.如权利要求1-3任一项所述的语音识别方法,其特征在于,所述音素训练模型包括单音素模型以及三音素模型,所述在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型,还包括:
通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;
通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果至所述混合神经网络模型中的CNN模型;
将CNN模型的输出结果输出至所述RNN-LSTM模型。
5.如权利要求4所述的语音识别方法,其特征在于,所述声学特征为MFCC(mel frequency cepstrum coefficient)。
6.一种服务器,其特征在于,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的语音识别系统,所述语音识别系统被所述处理器执行时实现如下步骤:
构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型,所述混合神经网络模型包括基于记忆单元连接的长短时递归神经网络HLSTM-RNN、卷积神经网络CNN、前馈神经网络DNN以及隐马尔可夫模型HMM,通过CNN-HMM减少说话人差异性,通过RNN-LSTM-HMM捕捉语音的时序信息、利用一句话中的历史信息进行上下文建模,并通过DNN-HMM区分不同的音素,分类输出对应输入语音信息的识别音素;
当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;
从所述有效的语音部分提取声学特征;
将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型对声学特征进行音素识别,并根据所述混合神经网络模型中的隐马尔可夫模型HMM中状态的发生概率,在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型,并将最后一层LSTM的输出输入至所述前馈神经网络DNN;
输出与所述语音信息相对应的文本信息。
7.如权利要求6所述的服务器,其特征在于,所述当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:
预加重所述语音信号以提升所述语音信号中的高频部分;
对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号;
去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。
8.如权利要求6所述的服务器,其特征在于,所述从所述有效的语音部分提取声学特征的步骤,具体包括:
对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱;
根据所述能量频谱通过一组梅尔尺度的三角滤波器组,突出所述语音部分的共振峰特征;
将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征,其中,所述声学特征为MFCC(mel frequency cepstrum coefficient)。
9.如权利要求7-8任一项所述的服务器,其特征在于,所述音素训练模型包括单音素模型以及三音素模型,所述在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型,还包括:
通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;
通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果至所述混合神经网络模型中的CNN模型;
将CNN模型的输出结果输出至所述基于记忆单元连接的RNN-LSTM模型。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有语音识别系统,所述语音识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的语音识别方法的步骤。

说明书全文

语音识别方法、服务器及计算机可读存储介质

技术领域

[0001] 本发明涉及语音识别领域,尤其涉及一种语音识别方法、服务器及计算机可读存储介质。

背景技术

[0002] 语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是让机器通过识别和理解,把语音信号变成文字,是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提,并能有效推动声控交互相关领域的发展并极大方便人们的生活,如智能家居、语音输入,使得一些不适宜使用手和眼睛的人群如中老年人,和环境如开车、路上等场景进行命令操作成为现实。语音识别的准确度直接决定了技术应用的有效性,但是目前的语音识别的准确度没有达到用户的需求。

发明内容

[0003] 有鉴于此,本发明提出一种语音识别方法、服务器及计算机可读存储介质,能够提高语音识别的准确率。
[0004] 首先,为实现上述目的,本发明提出一种语音识别方法,包括:
[0005] 构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;
[0006] 当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;
[0007] 从所述有效的语音部分提取声学特征;
[0008] 将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;
[0009] 通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。
[0010] 可选地,所述当获取到语音信号时,对语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:
[0011] 预加重所述语音信号以提升所述语音信号中的高频部分;
[0012] 对所述语音信号进行分加窗以将非平稳信号转换成短时平稳信号;
[0013] 去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。
[0014] 可选地,所述从所述有效的语音部分提取声学特征的步骤,具体包括:
[0015] 对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱
[0016] 根据所述能量频谱通过一组梅尔尺度的三滤波器组,突出所述语音部分的共振峰特征;
[0017] 将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征。
[0018] 可选地,所述音素训练模型包括单音素模型以及三音素模型,所述将所述声学特征输入至所述声学模型,通过音素训练模型以对声学特征进行识别并输出识别结果至所述基于记忆单元连接的混合神经网络模型的步骤,具体包括:
[0019] 通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;
[0020] 通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果;
[0021] 将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
[0022] 可选地,所述声学特征为MFCC(mel frequency cepstrum coefficient)。
[0023] 此外,为实现上述目的,本发明还提供一种服务器,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的语音识别系统,所述语音识别系统被所述处理器执行时实现如下步骤:
[0024] 构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;
[0025] 当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;
[0026] 从所述有效的语音部分提取声学特征;
[0027] 将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;
[0028] 通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。
[0029] 可选地,所述当获取到语音信号时,对语音信号进行预处理以提取出有效的语音部分的步骤,具体包括:
[0030] 预加重所述语音信号以提升所述语音信号中的高频部分;
[0031] 对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号;
[0032] 去除所述短时平稳信号的噪音,提取有效的语音部分,其中所述有效的语音部分为预设频率内的短时平稳信号。
[0033] 可选地,所述从所述有效的语音部分提取声学特征的步骤,具体包括:
[0034] 对所述有效的语音部分进行傅立叶变换,以将时域的所述语音部分转换成频域的能量频谱;
[0035] 根据所述能量频谱通过一组梅尔尺度的三角滤波器组,突出所述语音部分的共振峰特征;
[0036] 将所述三角滤波器组输出的能量频谱,通过离散余弦变换得到声学特征,其中,所述声学特征为MFCC(mel frequency cepstrum coefficient)。
[0037] 可选地,所述音素训练模型包括单音素模型以及三音素模型,所述将所述声学特征输入至所述声学模型,通过音素训练模型以对声学特征进行识别并输出识别结果至所述基于记忆单元连接的混合神经网络模型的步骤,具体包括:
[0038] 通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并输出对齐结果至所述三音素模型;
[0039] 通过所述三音素模型结合当前音素的前后相关音素的影响,并输出强制音素对齐结果;
[0040] 将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
[0041] 进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有语音识别系统,所述语音识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音识别方法的步骤。
[0042] 相较于现有技术,本发明所提出的服务器、语音识别方法及计算机可读存储介质,构建的声学模型包括音素训练模型及混合神经网络模型。所述混合神经网络模型包括基于记忆单元连接的长短时递归神经网络HLSTM-RNN、卷积神经网络CNN、前馈神经网络DNN以及隐尔可夫模型HMM,通过CNN-HMM减少说话人差异性,通过RNN-LSTM-HMM捕捉语音的时序信息、利用一句话中的历史信息进行上下文建模,并通过DNN-HMM区分不同的音素,分类输出对应输入语音信息的识别的音素,能够有效提高音素识别的准确率。所述方法在获取到原始语音信号时,对所述语音信号进行预处理提取出有效的语音部分,从所述有效的语音部分提取声学特征;接着,之后将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型。最后,通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息,通过先对原始语音信号预处理后提取出声学特征再通过声学模型进行语音识别,提高了语音识别的正确率。附图说明
[0043] 图1是本发明服务器一可选的硬件架构的示意图;
[0044] 图2是本发明语音识别系统第一实施例的程序模示意图;
[0045] 图3是本发明语音识别系统第二实施例的程序模块示意图;
[0046] 图4为本发明语音识别方法第一实施例的流程示意图;
[0047] 图5为本发明语音识别方法第二实施例的流程示意图。
[0048] 附图标记:
[0049]
[0050]
[0051] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0052] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053] 需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0054] 参阅图1所示,是服务器2一可选的硬件架构的示意图。本实施例中,所述服务器2可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-13的服务器2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
[0055] 其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述服务器2的内部存储单元,例如该服务器2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述服务器2的外部存储设备,例如该服务器2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述服务器2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述服务器2的操作系统和各类应用软件,例如语音识别系统200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0056] 所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器微控制器微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器2的总体操作,例如执行与所述终端设备1进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的语音识别系统200等。
[0057] 所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述服务器2与其他电子设备之间建立通信连接。本实施例中,所述网络接口13主要用于通过网络将所述服务器2与一个或多个其他电子装置相连,在所述服务器2与所述电子装置之间的建立数据传输通道和通信连接。
[0058] 至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
[0059] 首先,本发明提出一种语音识别系统200。
[0060] 参阅图2所示,是本发明语音识别系统200第一实施例的程序模块图。
[0061] 本实施例中,所述语音识别系统200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的语音识别操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,语音识别系统200可以被划分为一个或多个模块。例如,在图2中,所述语音识别系统200可以被分割成构建模块201、处理模块202、提取模块203,识别模块204、以及输出模块205。其中:
[0062] 所述构建模块201,用于构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型。
[0063] 具体地,所述服务器2通过所述构建模块201构建声学模型。在本实施例中,所述模型包含有音素训练模型及基于记忆单元连接的混合神经网络的自动语音识别技术(Convolutional Long short recurrent Deep Neural Network,CLDNN),该技术采用基于记忆单元连接的长短时递归神经网络(Highway Long short-time recurrent Neural Network,HLSTM-RNN)、卷积神经网络(Convoluntional Neural Network,CNN)、前馈神经网络(Feed-forward Deep Neural Network,DNN)以及隐马尔可夫模型HMM,融合的深度混合神经网络模型作为声学模型,通过CNN-HMM来减少说话人差异性(与声纹识别关注说话人的差异性不同,语音识别关注的是内容本身,即非差异性),通过RNN-LSTM-HMM来捕捉语音的时序信息(利用一句话中的历史信息进行上下文建模),再通过DNN-HMM来区分不同的音素,分类输出对应输入语音信息的识别的音素。比如普通话在中同音词,如(公式、工事、公示、攻势),如果用户仅仅是说了“gong-shi”发音的词,则很难判断具体是哪一个词,并且每个用户的发音会有一定的差异,因此在本实施例中,通过CNN-HMM来减少说话人差异性。通过RNN-LSTM-HMM来捕捉语音的时序信息,如果捕捉到时序信息为“利用公式计算时间的最大值”,通过“gong-shi”的上下文信息可以确定此句话中的“gong-shi”为“公式”一词。
[0064] 所述处理模块202,用于当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分。
[0065] 具体地,所述服务器2在获取到原始语音信号时,通过所述处理模块202对所述原始语音信号进行预处理。在本实施例中,所述预处理模块202首先对所述原始语音信号做预加重,以提升语音信号中的高频部分,使得频谱更平滑。接着所述处理模块202对预加重后的语音信号进行分帧加窗,将非平稳的语音信号转变为短时平稳信号。进一步地,所述处理模块202通过端点检测,区分语音与噪声,以去除短时平稳信号的中噪音,提取出有效的语音部分。人发声的频率大约在65~1100Hz,在本实施例中,所述处理模块202可以设定一频率范围为65~1100Hz的预设频率,去除该预设频率范围以外的声音(即为噪声),提取该预设频率范围内的短时平稳信号。
[0066] 所述提取模块203,用于从所述有效的语音部分提取声学特征作为所述声学模型的输入。
[0067] 具体地,所述服务器2通过所述提取模块203从所述有效的语音部分中提取声学特征。在本实施例中,所述提取模块203首先对所述有效的语音部分进行傅里叶变换,以将时域的语音信号转换为频域的能量谱。然后,所述提取模块203将所述能量谱通过一组梅尔尺度的三角滤波器组,突出语音的共振峰特征。进一步地,计算每个滤波器组输出的对数能量。在对数能量计算后,将所述三角滤波器组输出的能量频谱经离散余弦变换就可得到MFCC系数(mel frequency cepstrum coefficient),亦即MFCC声学特征。
[0068] 所述识别模块204,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型。
[0069] 具体地,所述识别模块204通过已经训练完成的音素训练模型以对声学特征进行音素识别,所述音素识别主要包括对句子中的字、词识别。在语音识别的过程中,根据HMM中状态的发生概率,即不同发音比较相似度,在解码网络中选择发生概率最大的路径作为最终输出结果。
[0070] 所述输出模块205,用于通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。
[0071] 具体地,所述服务器2通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。本实施例中,基于记忆单元连接的混合神经网络模型的所有结点均采用[-0.05~0.05]区间的均匀随机权重初始化,bias偏置初始为0。神经网络的训练采用交叉熵评判准则(corss-entropy,CE:反映训练输出与标准的训练评价准则),以及沿时间截断反向传播(truncated  back-propagation-through-time,BPTT)的优化训练方法。其中,模型的每个segment包含20帧信息,每个minibatch包含40条发音语句。此外,在动量因子的选择上(momentum:控制神经网络训练加速的一个变量),第一个epoch采用0,之后的epoch采用0.9。
[0072] 通过上述程序模块201-205,本发明所提出的语音识别系统200,首先,构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;然后,当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;进一步地,从所述有效的语音部分提取声学特征;接着,将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;最后,通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息,通过先对原始语音信号预处理后提取出声学特征再通过声学模型进行语音识别,提高了语音识别的正确率。
[0073] 进一步地,基于本发明语音识别系统200的上述第一实施例,提出本发明的第二实施例(如图3所示)。本实施例中,所述语音识别系统200还包括及比较模块206及结合模块207,所述音素训练模型包括单音素模型以及三音素模型,其中,
[0074] 所述比较模块206,用于通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并通过所述输出模块205输出单因素对齐结果至所述三音素模型。
[0075] 通常地,每个人的发音有所差异,或带有地方口音导致发音不标准,因此,在本实施例中,所述比较模块206通过所述单音素模型根据所述声学特征比较不同音素发音与字典音素(标准发音)的相似度,并通过所述输出模块205输出单音素对齐结果至所述三音素模型。
[0076] 在本实施例中,训练所述单音素模型的过程为:首先对输入的声学特征进行归一化,默认对对variance进行归一化;进而利用声学特征数据得到一个初始化的HMM-GMM模型和决策树;接着构造训练用的网络,对每个句子构造一个音素级别的FST网络用于解码,在训练的过程中通过不断对齐特征序列,反复训练得到中间统计量,其中HMM的统计量是两个音素在FST网络中互联的边Arc出现的次数,GMM的统计量是每个pdf-id对应的特征累计值和特征平方累计值,统计量跟GMM的方差均值两个充分统计量的更新相关,通过不断的更新模型完成解码网络的训练;最后再做一次强制对齐,用于解码输出结果或者进行下一阶段的模型训练。
[0077] 所述结合模块207,用于通过所述三音素模型结合当前音素的前后相关音素的影响,输出强制音素对齐结果。
[0078] 具体地,所述三音素模型对音素逐一对齐,并结合了当前音素,即当前正在对齐的音素的前后相关音素影响,能够得到更加准确的对齐效果,也就能产生更好的识别结果。比如普通话在中同音字比比皆是(静、净、竞、竟),还有同音词,如(公式、工事、公示、攻势)。通过三因素训练,能够结合当前音素的前后相关音素影响,即结合当前的语境及上下文本信息,达到更加准确的对其效果。例如,若用户说了“zen-me-li-yong-gong-shi-zheng-ming-deng-shi-cheng-li?”当正在识别的当前音素为“gong-shi”,因为gong-shi的同音词很多,则结合上下文,通过“zheng-ming”(证明)、deng-shi(等式)相关音素的语境,则可以确定“gong-shi”为公式。
[0079] 在本实施例中,三音素模型训练选择的是基于delta+delta-delta特征变换的三音素模型,delta+delta-delta特征变换是对原始的MFCC特征添加了delta特征(delta即对MFCC特征进行求导,同理delta-delta就是求二阶导)进行的模型训练,原始的MFCC特征是13维,添加delta+delta-delta特征后输入特征变成39维。
[0080] 所述输出模块205,还用于将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
[0081] 具体地,所述服务器2通过所述输出模块205将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
[0082] 在本实施例中,基于记忆单元连接的混合神经网络模型的处理为:将所述强制音素对齐结果输出至CNN模型中。该CNN模型具有一个卷积层(convolutional layer),含有256个卷积核(size 1*8的矩阵大小),每个卷积核产生1个特征图谱(feature map)用于提取不同特征;该CNN模型还具有一个非重叠的池化层(max-pooling layer),其窗口大小和stride(表示卷积时对输入进行每次移动一步,上下都是)都是3,池化的作用是对卷积层的输出结果进行降低维度。比如我们这里采用83维的特征向量输入,经过第一层convolutional layer后参数变成83*256,经过这层max-pooling layer参数变成(83/3)*
256;尽管减少了1/3,该模型参数对于语音识别来说还是太大了,为此在max-pooling layer后面连接一个(维度)投影层(projection layer),该投影层的作用是继续降维,将(83/3)*256降至256。
[0083] 将CNN的输出送入基于记忆单元连接的RNN-LSTM之前,有一个连接层(concatenation layer),来增加输出的数量。这是因为输入到递归神经网络的特征向量一般采取前后拼接的方式,比如一般在当前帧按照时间顺序,前后各拼接5帧,用于时序模型RNN的训练,而CNN是一帧一帧输入处理的,因而需要对CNN的输出做concatenation才能输入到LSTM-RNN中。RNN-LSTM模型具有3层LSTM layer,每层LSTM有1024个神经元节点,后面带有512结点的投影层(同样用于降维)。最后,将最后一层LSTM的输出输入到一个全连接的前馈神经网络(fully-connected feed-forward layer)模型中,该DNN模型有两层,每层
1024个隐含节点,激活函数采用修正的线性激活函数(rectified linear activation function,其函数表达式为f(x)=max(0,x)),DNN的结果之后会经过softmax层输出,用于分类判断。
[0084] 通过上述程序模块206-207,本发明所提出的语音识别系统200可以通过单音素模型对齐音素发音,进而通过三音素模型结合上下文强制对齐音素,提高语音识别的正确率。
[0085] 此外,本发明还提出一种语音识别方法。
[0086] 参阅图4所示,是本发明语音识别方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
[0087] 步骤S301,构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型。
[0088] 具体地,所述服务器2构建声学模型。在本实施例中,所述模型包含有音素训练模型及基于记忆单元连接的混合神经网络的自动语音识别技术(Convolutional Long short recurrent Deep Neural Network,CLDNN),该技术采用基于记忆单元连接的长短时递归神经网络(Highway Long short-time recurrent Neural Network,HLSTM-RNN)、卷积神经网络(Convoluntional Neural Network,CNN)、前馈神经网络(Feed-forward Deep Neural Network,DNN)以及隐马尔可夫模型HMM,融合的深度混合神经网络模型作为声学模型,通过CNN-HMM来减少说话人差异性(与声纹识别关注说话人的差异性不同,语音识别关注的是内容本身,即非差异性),通过RNN-LSTM-HMM来捕捉语音的时序信息(利用一句话中的历史信息进行上下文建模),再通过DNN-HMM来区分不同的音素,分类输出对应输入语音信息的识别的音素。比如普通话在中同音词,如(公式、工事、公示、攻势),如果用户仅仅是说了“gong-shi”发音的词,则很难判断具体是哪一个词,并且每个用户的发音会有一定的差异,因此在本实施例中,通过CNN-HMM来减少说话人差异性。通过RNN-LSTM-HMM来捕捉语音的时序信息,如果捕捉到时序信息为“利用公式计算时间的最大值”,通过“gong-shi”的上下文信息可以确定此句话中的“gong-shi”为“公式”一词。
[0089] 步骤S302,当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分。
[0090] 具体地,所述服务器2在获取到原始语音信号时对所述原始语音信号进行预处理。在本实施例中,所述服务器2首先对所述原始语音信号做预加重,以提升语音信号中的高频部分,使得频谱更平滑。接着对预加重后的语音信号进行分帧加窗,将非平稳的语音信号转变为短时平稳信号。进一步地,通过端点检测,区分语音与噪声,以去除短时平稳信号的中噪音,提取出有效的语音部分。人发声的频率大约在65~1100Hz,在本实施例中,所述处理模块202可以设定一频率范围为65~1100Hz的预设频率,去除该预设频率范围以外的声音(即为噪声),提取该预设频率范围内的短时平稳信号。
[0091] 步骤S303,从所述有效的语音部分提取声学特征作为所述声学模型的输入。
[0092] 具体地,所述服务器2从所述有效的语音部分中提取声学特征。在本实施例中,所述服务器2首先对所述有效爹语音部分进行傅里叶变换,以将时域的语音信号转换为频域的能量谱。然后,所述服务器2将所述能量谱通过一组梅尔尺度的三角滤波器组,突出语音的共振峰特征。进一步地,计算每个滤波器组输出的对数能量。在对数能量计算后,将所述三角滤波器组输出的能量频谱经离散余弦变换就可得到MFCC系数(mel frequency cepstrum coefficient),亦即MFCC声学特征。
[0093] 步骤S304,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型。
[0094] 具体地,所述服务器2通过已经训练完成的音素训练模型以对声学特征进行音素识别,所述音素识别主要包括对句子中的字、词识别。在语音识别的过程中,根据HMM中状态的发生概率,即不同发音比较相似度,在解码网络中选择发生概率最大的路径作为最终输出结果。
[0095] 步骤S305,通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。
[0096] 具体地,所述服务器2通过已经训练完成的所述基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息。本实施例中,基于记忆单元连接的混合神经网络模型的所有结点均采用[-0.05~0.05]区间的均匀随机权重初始化,bias偏置初始为0。神经网络的训练采用交叉熵评判准则(corss-entropy,CE:反映训练输出与标准的训练评价准则),以及沿时间截断反向传播(truncated  back-propagation-through-time,BPTT)的优化训练方法。其中,模型的每个segment包含20帧信息,每个minibatch包含40条发音语句。此外,在动量因子的选择上(momentum:控制神经网络训练加速的一个变量),第一个epoch采用0,之后的epoch采用0.9。
[0097] 通过上述步骤S301-305,本发明所提出的语音识别方法,首先,构建声学模型,其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型;然后,当获取到原始语音信号时,对所述语音信号进行预处理以提取出有效的语音部分;进一步地,从所述有效的语音部分提取声学特征;接着,将所述声学特征输入至所述声学模型,通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型;最后,通过所述已经训练完成的基于记忆单元连接的混合神经网络模型根据接收到的识别结果输出与所述语音信息相对的文本信息,通过先对原始语音信号预处理后提取出声学特征再通过声学模型进行语音识别,提高了语音识别的正确率。
[0098] 进一步地,基于本发明语音识别方法的上述第一实施例,提出本发明语音识别方法的第二实施例。
[0099] 如图5所示,是本发明语音识别方法第二实施例的流程示意图。本实施例中,所述音素训练模型包括单音素模型以及三音素模型,所述通过已经训练完成的音素训练模型以对声学特征进行音素识别并输出识别结果至所述已经训练完成的基于记忆单元连接的混合神经网络模型的步骤,具体包括如下步骤:
[0100] 步骤S401,通过所述单音素模型根据所述声学特征比较不同音素发音的相似度,并通过所述输出模块205输出单因素对齐结果至所述三音素模型。
[0101] 通常地,每个人的发音有所差异,或带有地方口音导致发音不标准,因此,在本实施例中,所述服务器2通过所述单音素模型根据所述声学特征比较不同音素发音与字典音素(标准发音)的相似度,并输出单音素对齐结果至所述三音素模型。
[0102] 在本实施例中,训练所述单音素模型的过程为:首先对输入的声学特征进行归一化,默认对对variance进行归一化;进而利用声学特征数据得到一个初始化的HMM-GMM模型和决策树;接着构造训练用的网络,对每个句子构造一个音素级别的FST网络用于解码,在训练的过程中通过不断对齐特征序列,反复训练得到中间统计量,其中HMM的统计量是两个音素在FST网络中互联的边Arc出现的次数,GMM的统计量是每个pdf-id对应的特征累计值和特征平方累计值,统计量跟GMM的方差均值两个充分统计量的更新相关,通过不断的更新模型完成解码网络的训练;最后再做一次强制对齐,用于解码输出结果或者进行下一阶段的模型训练。
[0103] 步骤S402,通过所述三音素模型结合当前音素的前后相关音素的影响,输出强制音素对齐结果。
[0104] 具体地,所述三音素模型对音素逐一对齐,并结合了当前音素,即当前正在对齐的音素的前后相关音素影响,能够得到更加准确的对齐效果,也就能产生更好的识别结果。比如普通话在中同音字比比皆是(静、净、竞、竟),还有同音词,如(公式、工事、公示、攻势)。通过三因素训练,能够结合当前音素的前后相关音素影响,即结合当前的语境及上下文本信息,达到更加准确的对其效果。例如,若用户说了“zen-me-li-yong-gong-shi-zheng-ming-deng-shi-cheng-li?”当正在识别的当前音素为“gong-shi”,因为gong-shi的同音词很多,则结合上下文,通过“zheng-ming”(证明)、deng-shi(等式)相关音素的语境,则可以确定“gong-shi”为公式。
[0105] 在本实施例中,三音素模型训练选择的是基于delta+delta-delta特征变换的三音素模型,delta+delta-delta特征变换是对原始的MFCC特征添加了delta特征(delta即对MFCC特征进行求导,同理delta-delta就是求二阶导)进行的模型训练,原始的MFCC特征是13维,添加delta+delta-delta特征后输入特征变成39维。
[0106] 步骤S403,将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
[0107] 具体地,所述服务器2将所述强制音素对齐结果输出至所述基于记忆单元连接的混合神经网络模型。
[0108] 在本实施例中,基于记忆单元连接的混合神经网络模型的处理为:将所述强制音素对齐结果输出至CNN模型中。该CNN模型具有一个卷积层(convolutional layer),含有256个卷积核(size 1*8的矩阵大小),每个卷积核产生1个特征图谱(feature map)用于提取不同特征;该CNN模型还具有一个非重叠的池化层(max-pooling layer),其窗口大小和stride(表示卷积时对输入进行每次移动一步,上下都是)都是3,池化的作用是对卷积层的输出结果进行降低维度。比如我们这里采用83维的特征向量输入,经过第一层convolutional layer后参数变成83*256,经过这层max-pooling layer参数变成(83/3)*
256;尽管减少了1/3,该模型参数对于语音识别来说还是太大了,为此在max-pooling layer后面连接一个(维度)投影层(projection layer),该投影层的作用是继续降维,将(83/3)*256降至256。
[0109] 将CNN的输出送入基于记忆单元连接的RNN-LSTM之前,有一个连接层(concatenation layer),来增加输出的数量。这是因为输入到递归神经网络的特征向量一般采取前后拼接的方式,比如一般在当前帧按照时间顺序,前后各拼接5帧,用于时序模型RNN的训练,而CNN是一帧一帧输入处理的,因而需要对CNN的输出做Concatenation才能输入到LSTM-RNN中。RNN-LSTM模型具有3层LSTM layer,每层LSTM有1024个神经元节点,后面带有512结点的投影层(同样用于降维)。最后,将最后一层LSTM的输出输入到一个全连接的前馈神经网络(fully-connected feed-forward layer)模型中,该DNN模型有两层,每层
1024个隐含节点,激活函数采用修正的线性激活函数(rectified linear activation function,其函数表达式为f(x)=max(0,x)),DNN的结果之后会经过softmax层输出,用于分类判断。
[0110] 通过上述步骤S401-S403,本发明所提出的语音识别方法,可以通过单音素模型对齐音素发音,进而通过三音素模型结合上下文强制对齐音素,提高语音识别的正确率。
[0111] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0112] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0113] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈