一种语音识别系统中拒识能力提升方法专利检索-音乐符号工艺品专利检索查询-专利查询网

一种语音识别系统中拒识能力提升方法

阅读：996发布：2020-07-19

专利汇可以提供一种语音识别系统中拒识能力提升方法专利检索，专利查询，专利分析的服务。并且本发明涉及一种语音识别系统中拒识能力提升方法，步骤为：收集各种各样的噪声数据；按噪声种类进行分类；再针对不同类别的噪声分别训练高斯混合模型（GMM）；最后组合各类GMM模型为整体的吸收模型；通过各种比较随意的文本训练统计语言模型，然后通过加权有限状态机（WFST）技术构建识别网络，称之为吸收网络；将吸收网络和吸收模型同原始解码网络并联，形成新的解码网络；将输入的原始音频经过端点检测以及特征提取模块，生成特征向量；特征向量在解码网络的三个部分中根据Viterbi 算法进行竞争，生成最终的识别结果，噪声以及集外词能够得到有效的拒识。本发明在兼顾识别效率的前提下，很好解决了对于集外词以及无效输入的拒识问题。，下面是一种语音识别系统中拒识能力提升方法专利的具体信息内容。

权利要求

1.一种语音识别系统中拒识能力提升方法，其特征在于实现步骤如下：
(1)收集各种各样的噪声数据；然后按噪声种类进行分类，噪声种类包括背景噪声、背景音乐、关门声、咳嗽声；再针对不同类别的噪声分别训练高斯混合模型(GMM)；最后组合各类GMM模型为整体的吸收模型；
(2)通过各种比较随意的文本训练统计语言模型，然后通过加权有限状态机(WFST)技术构建识别网络，称之为吸收网络；
(3)将吸收网络和吸收模型同原始解码网络并联，形成新的解码网络；
(4)将输入的原始音频经过端点检测以及特征提取模块，生成特征向量，该特征向量输入(3)中生成的解码网络中进行解码；
(5)特征向量在解码网络的吸收网络、吸收模型以及命令词网络根据Viterbi 算法进行竞争，生成最终的识别结果，噪声以及集外词能够得到有效的拒识；
所述步骤(2)中吸收网络训练和构建过程如下：
(21)收集各种比较随意的文本数据；
(22)根据统计语言模型训练的方案训练N-Gram语言模型；
(23)使用WFST工具对N-Gram语言模型和词典进行聚合(Compose)，生成输入符号为音素输出符号均为词的WFST网络；
(24)(23)中生成的WFST网络和声学模型对应的HMM List进行聚合(Compose)，生成输入符号为tri-phone三因子模型输出符号为词的WFST网络；
(25)使用WFST工具对步骤(24)中生成的WFST网络进行确定化(Determine)和最小化(Minimize)，生成最终的吸收网络。

说明书全文

一种语音识别系统中拒识能力提升方法

技术领域

[0001] 本发明涉及一种语音识别系统中拒识能力提升方法，用于语音识别系统中的命令词识别技术领域。

背景技术

[0002] 命令词识别系统是目前语音识别系统中很重要的一个类别，广泛应用于家电、车载、智能手机以及呼叫中心的导航产品中。命令词识别系统的任务是在识别语法范围内，找出输入语音最相似的识别结果。相对于范围有限的识别语法，输入语音是无限的，当输入语音的实际内容不在识别语法范围之内，称此输入为集外词。除了集外词之外，还会有诸如背景说话声、噪声等其他的无效输入，这些无效输入送入自动语音识别系统之后，也会给出语法范围内的识别结果，相当于做出了不必要的响应，影响用户的体验。基于上述原因，自动语音识别系统需要具备较强的集外词以及无效输入的拒识能力，也即自动判断是否为集外词或者无效输入。

[0003] 目前的系统拒识能力主要依靠置信度判决的方案，也即自动语音识别系统不仅能给出识别结果，还应该给出该识别结果是输入语音真实内容的可信度，从而对集外词进行判决，这个过程称为置信度判决。最直接的做法是将根据声学模型和识别语法所计算得到的输入语音相对于识别结果的似然值或者是它的某种变换做为置信度，进行置信度判决。而置信度判决任务需要面对不同的输入语音，似然值的取值范围会因为输入语音的长短、说话人、背景噪声等因素的变化而有很大变化，将似然值直接应用于置信度判决，性能并不理想。后来的研究者将语音的后验概率作为识别结果的置信度，取得了较好的性能，这类方法通常基于贝叶斯公式和全概率公式来进行：

[0004]

[0005] 上式中W代表识别结果，X代表输入语音，P(W|X)为识别结果W对于输入语音X的后验概率，该后验概率可以通过贝叶斯公式以及全概率公式求得，Ω代表辅助解码空间，该空间是一个全路径集合，包含的元素为全部竞争路径。基于后验概率的置信度判决方案的核心是确定一个辅助空间Ω并且在Ω上准确高效地获取有效竞争路径。基于置信度判决的方案在整个语音识别流程中所处的位置如图1所示：

[0006] 目前基于后验概率的置信度都有各自的缺陷。通过定义辅助空间并且在其上进行解码获取有效竞争路径的方案，要么竞争路径的有效性非常依赖于识别语法本身，普适性较差；要么采用全因素解码网络进行解码，在解码获取有效竞争路径的时候兼顾包括时序信息、语言模型等重要知识，能够比较准确地获取到有效竞争路径，但是算法复杂度较高，在对实时率要求比较高的语音识别系统中很难成功应用。

发明内容

[0007] 本发明技术解决问题：克服现有技术的不足，提供一种语音识别系统中拒识能力提升方法，采用一种吸收模型和吸收网络的方法，在兼顾识别效率的前提下，很好解决了对于集外词以及无效输入的拒识问题。

[0008] 本发明技术解决方案：一种语音识别系统中拒识能力提升方法，实现步骤如下：

[0009] （1）收集各种各样的噪声数据；然后按噪声种类进行分类，噪声种类包括背景噪声、背景音乐、关门声咳嗽声；再针对不同类别的噪声分别训练高斯混合模型（GMM）；最后组合各类GMM模型为整体的吸收模型；

[0010] （2）通过各种比较随意的文本训练统计语言模型，然后通过加权有限状态机（WFST）技术而构建识别网络，称之为吸收网络；

[0011] （3）将吸收网络和吸收模型同原始解码网络并联，形成新的解码网络；

[0012] （4）将输入的原始音频经过端点检测以及特征提取模块，生成特征向量，该特征向量输入（3）中生成的解码网络中进行解码；

[0013] （5）特征向量在解码网络的三个部分中吸收模型、吸收网络以及命令词网络根据Viterbi算法进行竞争，生成最终的识别结果，噪声以及集外词可以得到有效的拒识。

[0014] 所述步骤（2）中吸收网络训练和构建过程如下：

[0015] （1）收集各种比较随意的文本数据；

[0016] （2）根据统计语言模型训练的方案训练N-Gram语言模型；

[0017] （3）使用WFST工具对N-Gram语言模型和词典进行聚合（Compose），生成输入符号为音素输出符号均为词的WFST网络；

[0018] （4）（3）中生成的WFSA网络和声学模型对应的HMMList进行聚合（Compose），生成输入符号为tri-phone（三因子模型）输出符号为词的WFST网络；

[0019] （5）使用WFST工具对步骤（4）中生成的WFST网络进行确定化（Determine）和最小化（Minimize），生成最终的吸收网络。

[0020] 本发明的原理为：在原命令词网络基础上，并联了一个吸收模型和一个吸收网络，其中吸收模型是通过各种背景说话声以及噪声数据训练而成的声学模型，加入该并联网络旨在吸收背景说话声、背景噪声等其他无效的输入；吸收网络是通过各种比较随意的文本训练统计语言模型，然后通过加权有限状态机（WFST）技术而构建的识别网络。

[0021] 本发明与现有技术相比的优点在于：

[0022] （1）本发明通过加入吸收网络和声学的吸收模型，对自动语音识别系统中的集外词以及无效输入进行拒识，在兼顾识别效率的前提下，很好解决了对于集外词以及无效输入的拒识问题，很好地提升集外词的拒识效果，提升了命令词语音识别系统的鲁棒性。

[0023] （2）本发明实现简单，计算量不复杂。附图说明

[0024] 图1为基于置信度判决的方案在整个语音识别流程中所处的位置图；

[0025] 图2为本发明方法的实现流程图；

[0026] 图3为本发明中的解码网络结构示意图；

[0027] 图4为本发明中的吸收模型训练流程图；

[0028] 图5为本发明中的吸收网络的训练和构建流程图。

具体实施方式

[0029] 如图2所示，本发明可能提升对于集外词以及背景说话声以及其他噪声等无效输入的拒识能力，具体流程如下：

[0030] （1）收集各种各样的噪声数据；然后按噪声种类进行分类，噪声种类包括背景噪声、背景音乐、关门声咳嗽声；再针对不同类别的噪声分别训练高斯混合模型（GMM）；最后组合各类GMM模型为整体的吸收模型；高斯混合模型GMM（Gaussian mixture model）是单一高斯密度函数的延伸，能够平滑地近似任意形状的密度分布，这也是现在语音识别领域经常用到GMM模型的原因之一；

[0031] （2）通过各种比较随意的文本训练统计语言模型，然后通过加权有限状态机（WFST）技术而构建识别网络，称之为吸收网络；

[0032] （3）将吸收网络和吸收模型同原始解码网络并联，形成新的解码网络；

[0033] （4）将输入的原始音频经过端点检测以及特征提取模块，生成特征向量，该特征向量输入（3）中生成的解码网络中进行解码；其中端点检测的功能主要是在输入音频中提取中噪声以及静音之外的有效语音部分，对有效语音部分按10ms进行分帧，每一帧通过特征提取模块生成对应的特征向量，目前主要的特征向量有Mel 频率倒谱系数（MFCC，Mel Frequency Cepstrum Coefficient）以及感知线性预测（PLP，Perceptual Linear Predictive）等；

[0034] （5）特征向量在解码网络的吸收模型、吸收网络以及命令词网络中根据Viterbi算法进行竞争，生成最终的识别结果，噪声以及集外词可以得到有效的拒识。因为噪声数据可以被专门训练的吸收模型吸收，而集外词在识别过程中主要通过吸收网络，相当于被吸收网络吸收，所以只有正确的结果才会从命令词网络中竞争胜出。

[0035] 通过图2可以看出，本发明的语音识别流程中不再包含单独的置信度判决模块，语音识别解码模块直接给出识别结果，如果是集外词或者无效输入，直接输出为空，而不再给出一个语法内的结果。

[0036] 本发明主要修改语音识别解码模块，在原命令词网络中加入了吸收模型以及吸收网络，如图3所示，语音识别解码模块的构成如下：命令词网络是通过命令词语法构建的语音识别网络；本发明在命令词网络的基础上，并联了一个吸收模型和一个吸收网络，其中吸收模型是使用各种噪声数据训练而成的一个声学模型，加入该并联网络旨在吸收背景说话声、背景噪声等其他无效的输入；另外，本发明在命令词网络上也并联了一个吸收网络，该网络是通过各种相对比较随意的文本训练语言模型，然后通过加权有限状态机（WFST）的技术构建而成的一个识别网络，该网络在语音识别的过程中跟命令词网络进行竞争，如果通过命令词网络的路径胜出，说明输入的音频内容是语法内的内容，直接输出即可，如果通过吸收网络的路径胜出，说明输入的音频内容是集外词，直接输出空的结果，说明整个自动语音识别系统没有响应，相当于对集外词进行了拒识。

[0037] 吸收模型是通过各种背景说话声以及噪声数据训练而成的声学模型，其训练方式如图4所示：数据收集模块收集各种各样的噪声数据；然后按噪声种类进行分类，主要包括背景噪声、背景音乐、关门声咳嗽声等常见噪声类别；再针对不同类别的噪声分别训练高斯混合模型（GMM）；最后组合各类GMM模型为整体的吸收模型。

[0038] 吸收网络是通过各种比较随意的文本训练统计语言模型，然后通过WFST技术而构建的识别网络。

[0039] 统计语言模型（Statistical Language Model）在连续语音识别中的作用，简单来说是用于计算一个句子的概率，即P(W1，W2,…,Wk)，利用语言模型确定词序列的可能性，或者给定若干个词，可以预测下一个最可能出现的词语,给定句子S（词序列S＝W1，W2,...，Wk）的概率利用语言模型可以表示为P(S)＝P(W1，W2,…，Wk)＝p(W1)P(W2|W1)...P(Wk|W1，W2,…,Wk-2，由于上式中的参数过多，因此本发明采用了一种常用的近似计算方法，即N-Gram模型方法。其中P(W1，W2,...，Wk表示一个句子的概率，p(W1)表示W1词出现的概率；

[0040] WFST（Weighted Finite State Transducer）是加权有限状态机的简称，它使用统一的框架描述各种知识，各种知识不需要统一对待，均统一表示为WFST网络，各种知识的WFST网络可以通过融合，产生新的WFST网络；通过对各种具体问题的泛化，使用统一的自动机理论来解决具体问题。跟WFST技术相关的一些算法包括：Compose、Determine以及Minimize等，其中Compose操作将两个WFST网络融合在一起，也即将两种不同的知识融合在一起；Determine是对一个WFST网络进行确定化，保证对于一个输入，有唯一的一个输出与之对应；Minimize操作将对WFST网络进行一些必要的节点和弧的合并，以减小整个WFST网络的规模，从而不会对整个识别效率有大的影响。

[0041] 本发明中吸收网络的训练和构建流程如图5所示：

[0042] （1）收集各种比较随意的文本数据；

[0043] （2）根据统计语言模型训练的方案训练N-Gram语言模型；

[0044] （3）使用WFST工具对N-Gram语言模型和词典进行聚合（Compose），生成输入符号为音素输出符号均为词的WFST网络；

[0045] （4）步骤（3）中生成的WFSA网络和声学模型对应的HMM List进行聚合（Compose），生成输入符号为tri-phone输出符号为词的WFST网络；

[0046] （5）使用WFST工具对步骤（4）中生成的WFST网络进行确定化（Determine）和最小化（Minimize），生成最终的吸收网络。

[0047] 本发明未详细阐述部分属于本领域公知技术。

[0048] 以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

标题	发布/更新时间	阅读量
图形码朗读演奏演唱器	2020-05-14	302
简谱变音调、变节奏辅助符号的标注方法	2020-05-15	626
哼唱编曲系统及其方法	2020-05-16	746
家用收录放唱代码转换与还原系统	2020-05-13	361
电子音乐教具	2020-05-13	676
终端装置和引导声音再现方法	2020-05-18	972
输出音频数据和乐谱图像的方法和设备	2020-05-18	667
中国典型听觉文化符号特征选择方法	2020-05-14	814
用于制作更和谐音乐伴奏以及用于将效果链应用于乐曲的系统和方法	2020-05-16	379
一种音乐教学用识谱板	2020-05-20	99

一种语音识别系统中拒识能力提升方法

一种语音识别系统中拒识能力提升方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：