首页 / 专利库 / 电脑编程 / 算法 / 期望最大化算法 / 一种语音检测方法及装置

一种语音检测方法及装置

阅读:599发布:2020-05-19

专利汇可以提供一种语音检测方法及装置专利检索,专利查询,专利分析的服务。并且本公开提供了语音检测方法及装置。语音检测方法包括构建语音检测模型;其由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型 串联 构成;训练语音检测模型的过程为:利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,组成一个三维向量,作为音频 片段 的向量表征;将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型;测试音频数据的过程为:分割测试音频数据为若干个音频片段,再逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值,通过对比概率值和设定 阈值 将音频片段判别为语音或非语音。,下面是一种语音检测方法及装置专利的具体信息内容。

1.一种语音检测方法,其特征在于,包括:
构建语音检测模型;所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成;
训练语音检测模型;其过程为:
利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,进而组成一个三维向量,作为音频片段的向量表征;
将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求;
测试音频数据;其过程为:
分割测试音频数据为若干个音频片段,再将音频片段逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值。
2.如权利要求1所述的语音检测方法,其特征在于,在求得测试音频片段属于语音的概率值后,若概率值大于或等于设定阈值,则判断相应时刻的音频片段属于语音;否则,判断相应时刻的音频片段不属于语音。
3.如权利要求1所述的语音检测方法,其特征在于,训练第一GMM模型的过程为:
将仅含有语音数据的音频片段分处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第一训练样本集合内;
将第一训练样本集合内的训练样本输入至第一GMM模型中,输出各帧音频的语音识别得分值,将音频片段内所有帧的语音识别得分值取平均,得到相应音频片段的语音识别得分值;
通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数;

训练第二GMM模型的过程为:
将仅含有非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第二训练样本集合内;
将第二训练样本集合内的训练样本输入至第二GMM模型中,输出各帧音频的非语音识别得分值,将音频片段内所有帧的非语音识别得分值取平均,得到相应音频片段的非语音识别得分值;
通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数。
4.如权利要求1所述的语音检测方法,其特征在于,训练LSTM模型的过程为:
将含有语音数据和非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,将这些音频特征按照时间顺序排列构成一个时间序列;
将上述时间序列输入至LSTM模型中,输出得到相应音频片段的识别得分值;
采用Adam优化算法训练LSTM模型,直至LSTM模型的参数达到最优。
5.如权利要求1所述的语音检测方法,其特征在于,训练RNN模型的过程为:
将训练好的第一GMM模型、第二GMM模型和LSTM模型分别输出的识别得分值组成一个三维向量,作为音频片段的向量表征;
将当前时刻、前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,输出得到当前时刻音频片段属于语音的概率值;
采用Adam优化算法训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
6.一种语音检测装置,其特征在于,包括:
语音检测模型构建模,其用于构建语音检测模型,所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成;
语音检测模型训练模块,其用于训练语音检测模型,其过程为:
利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,进而组成一个三维向量,作为音频片段的向量表征;
将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求;
音频数据测试模块,其用于测试音频数据,其过程为:
分割测试音频数据为若干个音频片段,再将音频片段逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值。
7.如权利要求6所述的语音检测装置,其特征在于,在所述音频数据测试模块中,若概率值大于或等于设定阈值,则判断相应时刻的音频片段属于语音;否则,判断相应时刻的音频片段不属于语音。
8.如权利要求6所述的语音检测装置,其特征在于,在所述语音检测模型训练模块中,训练第一GMM模型的过程为:
将仅含有语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第一训练样本集合内;
将第一训练样本集合内的训练样本输入至第一GMM模型中,输出各帧音频的语音识别得分值,将音频片段内所有帧的语音识别得分值取平均,得到相应音频片段的语音识别得分值;
通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数;

在所述语音检测模型训练模块中,训练第二GMM模型的过程为:
将仅含有非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第二训练样本集合内;
将第二训练样本集合内的训练样本输入至第二GMM模型中,输出各帧音频的非语音识别得分值,将音频片段内所有帧的非语音识别得分值取平均,得到相应音频片段的非语音识别得分值;
通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数;

在所述语音检测模型训练模块中,训练LSTM模型的过程为:
将含有语音数据和非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,将这些音频特征按照时间顺序排列构成一个时间序列;
将上述时间序列输入至LSTM模型中,输出得到相应音频片段的识别得分值;
采用Adam优化算法训练LSTM模型,直至LSTM模型的参数达到最优;

在所述语音检测模型训练模块中,训练RNN模型的过程为:
将训练好的第一GMM模型、第二GMM模型和LSTM模型分别输出的识别得分值组成一个三维向量,作为音频片段的向量表征;
将当前时刻、前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,输出得到当前时刻音频片段属于语音的概率值;
采用Adam优化算法训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的语音检测方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的语音检测方法中的步骤。

说明书全文

一种语音检测方法及装置

技术领域

[0001] 本公开属于语音检测领域,尤其涉及一种语音检测方法及装置。

背景技术

[0002] 本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
[0003] 语音检测作为音频检测领域的重要内容之一,得到了广泛关注。语音检测具有广阔的应用前景,可以作为语音识别技术的前端预处理,从音频数据中检测出待识别的语音数据,提高语音的识别效率;语音检测也可以从会议录音中检测出某个人的发言,形成会议摘要。随着深度学习技术的快速发展,在语音检测领域,深度神经网络逐渐代替传统常用的机器学习模型进行分类。音频检测领域传统常用的机器学习模型有高斯混合模型(Gaussian Mixture Model,GMM)、隐尔可夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)等。
[0004] 发明人发现,传统机器学习模型存在以下问题:
[0005] 1)传统机器学习模型得到的音频频谱维度较高,使得神经网络的运算量大,耗费神经网络的训练和分类时间多,运算效率低;
[0006] 2)传统机器学习模型提取的音频样本中的重要信息存在冗余信息的干扰,使得分类模型不能很好地识别出语音样本,降低了检测准确率。

发明内容

[0007] 为了解决上述问题,本公开的第一个方面提供一种语音检测方法,其将GMM模型、LSTM模型和RNN模型有效结合,能够充分发挥三个模型各自的优势,以提高语音检测模型整体的分类检测能
[0008] 为了实现上述目的,本公开采用如下技术方案:
[0009] 一种语音检测方法,包括:
[0010] 构建语音检测模型;所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成;
[0011] 训练语音检测模型;其过程为:
[0012] 利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,进而组成一个三维向量,作为音频片段的向量表征;
[0013] 将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求;
[0014] 测试音频数据;其过程为:
[0015] 分割测试音频数据为若干个音频片段,再将音频片段逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值。
[0016] 进一步地,若概率值大于或等于设定阈值,则判断相应时刻的音频片段属于语音;否则,判断相应时刻的音频片段不属于语音。
[0017] 该技术方案的优点在于,通过将音频片段属于语音的概率值与设定阈值比较,来判断相应时刻的音频片段是否属于语音,使得检测结果更加直观。
[0018] 进一步地,训练第一GMM模型的过程为:
[0019] 将仅含有语音数据的音频片段分处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第一训练样本集合内;
[0020] 将第一训练样本集合内的训练样本输入至第一GMM模型中,输出各帧音频的语音识别得分值,将音频片段内所有帧的语音识别得分值取平均,得到相应音频片段的语音识别得分值;
[0021] 通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数。
[0022] 该技术方案的优点在于,利用仅含有语音数据的音频片段且通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数,减少了第一GMM模型的训练和分类时间,提高了运算效率,可以更加精确地得到样本在语音模型上的得分,得到更加准确的语音检测模型,提高了整个语音检测模型的检测准确率。
[0023] 进一步地,训练第二GMM模型的过程为:
[0024] 将仅含有非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第二训练样本集合内;
[0025] 将第二训练样本集合内的训练样本输入至第二GMM模型中,输出各帧音频的非语音识别得分值,将音频片段内所有帧的非语音识别得分值取平均,得到相应音频片段的非语音识别得分值;
[0026] 通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数。
[0027] 该技术方案的优点在于,利用仅含有非语音数据的音频片段且通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数,减少了第二GMM模型的训练和分类时间,提高了运算效率,可以更加精确地得到样本在非语音模型上的得分,得到更加准确的非语音检测模型,提高了整个语音检测模型的检测准确率。
[0028] 进一步地,训练LSTM模型的过程为:
[0029] 将含有语音数据和非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,将这些音频特征按照时间顺序排列构成一个时间序列;
[0030] 将上述时间序列输入至LSTM模型中,输出得到相应音频片段的语音识别得分值;
[0031] 采用Adam优化算法训练LSTM模型,直至LSTM模型的参数达到最优。
[0032] 该技术方案的优点在于,利用含有语音数据和非语音数据的音频片段且采用Adam优化算法训练LSTM模型,可以充分利用样本的上下文信息进行识别,更加精确地得到样本属于语音的概率得分,得到准确的语音检测模型,提高整个语音检测模型的检测准确率。
[0033] 进一步地,训练RNN模型的过程为:
[0034] 将训练好的第一GMM模型、第二GMM模型和LSTM模型分别输出的识别得分值组成一个三维向量,作为音频片段的向量表征;
[0035] 将当前时刻、前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,输出得到当前时刻音频片段属于语音的概率值;
[0036] 采用Adam优化算法训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
[0037] 该技术方案的优点在于,利用含有语音数据和非语音数据的音频片段且采用Adam优化算法训练RNN模型,可以充分利用样本的上下文信息进行识别,提高识别准确率;此外,RNN模型的输入为三维向量,低维向量的特征表示可以减少模型的训练和分类时间,提高运算效率,且低维向量的特征表示减少冗余信息的干扰,这样能够更加准确地得到样本属于语音的概率值,得到准确的语音检测模型,提高整个语音检测模型的检测准确率。
[0038] 本公开的第二个方面提供一种语音检测装置,其将GMM模型、LSTM模型和RNN模型有效结合,能够充分发挥三个模型各自的优势,以提高语音检测模型整体的分类检测能力。
[0039] 为了实现上述目的,本公开采用如下技术方案:
[0040] 一种语音检测装置,包括:
[0041] 语音检测模型构建模,其用于构建语音检测模型,所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成;
[0042] 语音检测模型训练模块,其用于训练语音检测模型,其过程为:
[0043] 利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,进而组成一个三维向量,作为音频片段的向量表征;
[0044] 将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求;
[0045] 音频数据测试模块,其用于测试音频数据,其过程为:
[0046] 分割测试音频数据为若干个音频片段,再将音频片段逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值。
[0047] 进一步地,在所述音频数据测试模块中,若概率值大于或等于设定阈值,则判断相应时刻的音频片段属于语音;否则,判断相应时刻的音频片段不属于语音。
[0048] 该技术方案的优点在于,通过将音频片段属于语音的概率值与设定阈值比较,来判断相应时刻的音频片段是否属于语音,使得检测结果更加直观。
[0049] 进一步地,在所述语音检测模型训练模块中,训练第一GMM模型的过程为:
[0050] 将仅含有语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第一训练样本集合内;
[0051] 将第一训练样本集合内的训练样本输入至第一GMM模型中,输出各帧音频的语音识别得分值,将音频片段内所有帧的语音识别得分值取平均,得到相应音频片段的语音识别得分值;
[0052] 通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数。
[0053] 该技术方案的优点在于,利用仅含有语音数据的音频片段且通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数,减少了第一GMM模型的训练和分类时间,提高了运算效率,可以更加精确地得到样本在语音模型上的得分,得到更加准确的语音检测模型,提高整个语音检测模型的检测准确率。
[0054] 进一步地,在所述语音检测模型训练模块中,训练第二GMM模型的过程为:
[0055] 将仅含有非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第二训练样本集合内;
[0056] 将第二训练样本集合内的训练样本输入至第二GMM模型中,输出各帧音频的非语音识别得分值,将音频片段内所有帧的非语音识别得分值取平均,得到相应音频片段的非语音识别得分值;
[0057] 通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数。
[0058] 该技术方案的优点在于,利用仅含有非语音数据的音频片段且通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数,减少了第二GMM模型的训练和分类时间,提高了运算效率,可以更加精确地得到样本在非语音模型上的得分,得到更加准确的非语音检测模型,提高了整个语音检测模型的检测准确率。
[0059] 进一步地,在所述语音检测模型训练模块中,训练LSTM模型的过程为:
[0060] 将含有语音数据和非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,将这些音频特征按照时间顺序排列构成一个时间序列;
[0061] 将上述时间序列输入至LSTM模型中,输出得到相应音频片段的语音识别得分值;
[0062] 采用Adam优化算法训练LSTM模型,直至LSTM模型的参数达到最优。
[0063] 该技术方案的优点在于,利用含有语音数据和非语音数据的音频片段且采用Adam优化算法训练LSTM模型,可以充分利用样本的上下文信息进行识别,得到更加精确地样本属于语音的概率得分,得到准确的语音检测模型,提高整个语音检测模型的检测准确率。
[0064] 进一步地,在所述语音检测模型训练模块中,训练RNN模型的过程为:
[0065] 将训练好的第一GMM模型、第二GMM模型和LSTM模型分别输出的识别得分值组成一个三维向量,作为音频片段的向量表征;
[0066] 将当前时刻、前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,输出得到当前时刻音频片段属于语音的概率值;
[0067] 采用Adam优化算法训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
[0068] 该技术方案的优点在于,利用含有语音数据和非语音数据的音频片段且采用Adam优化算法训练RNN模型,可以充分利用样本的上下文信息进行识别,提高识别准确率;此外,RNN模型的输入为三维向量,低维向量的特征表示减少了模型的训练和分类时间,提高了运算效率,且低维向量的特征表示减少了冗余信息的干扰,可以得到更加精确地样本属于语音的概率值,得到准确的语音检测模型,提高整个语音检测模型的检测准确率。
[0069] 本公开的第三个方面提供一种计算机可读存储介质。
[0070] 一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的语音检测方法中的步骤。
[0071] 本公开的第四个方面提供一种计算机设备。
[0072] 一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的语音检测方法中的步骤。
[0073] 本公开的有益效果是:
[0074] (1)本公开通过GMM模型和LSTM模型将RNN模型的输入由传统的音频频谱转换为低维的特征表示,低维特征可以减少RNN模型的运算量,减少RNN模型的训练和分类时间,提高运算效率。
[0075] (2)本公开以不同模型的分类得分作为音频样本的特征表示,这种特征表示可以有效地提取出音频样本中的重要信息,减少冗余信息的干扰,进而使分类模型能更好地识别出语音样本,提高检测准确率。
[0076] (3)本公开实现了传统分类模型:GMM模型、LSTM模型和RNN模型的有效结合,GMM模型能很好地模拟音频样本的特征结构,LSTM模型和RNN模型能有效地利用音频样本的上下文信息进行分类,本公开的语音检测模型能够充分发挥GMM模型、LSTM模型和RNN模型各自的优势,提高了整体的分类检测性能。
[0077] (4)本公开设计的语音检测方法在信噪比较低的情况下也能得到不错的语音检测性能,因而对噪声具有很好的鲁棒性。
[0078] (5)本实施例的设计思路是将传统常用的语音检测模型和深度神经网络模型进行结合,结合方案中的传统语音检测模型不局限于GMM,结合方案中的深度神经网络模型不局限于LSTM和RNN,结合方案具有很好的拓展性,可以为传统语音检测模型和深度神经网络模型的结合提供很好的方法借鉴。附图说明
[0079] 构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0080] 图1是本公开实施例的一种语音检测方法流程图
[0081] 图2是本公开实施例的语音检测模型结构示意图。
[0082] 图3是本公开实施例的测试音频数据的过程图。
[0083] 图4是本公开实施例的一种语音检测装置结构示意图。

具体实施方式

[0084] 下面结合附图与实施例对本公开作进一步说明。
[0085] 应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
[0086] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0087] 术语解释:
[0088] GMM模型:高斯混合模型,就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
[0089] LSTM模型:Long Short-Term Memory,长短期记忆网络模型,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
[0090] RNN模型:Recurrent Neural Network,循环神经网络模型,是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是,RNN可以利用它内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别等。
[0091] 实施例一
[0092] 图1给出了本实施例的一种语音检测方法流程图。
[0093] 如图1所示,本实施例的语音检测方法,包括:
[0094] S101:构建语音检测模型。
[0095] 所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成,如图2所示。
[0096] 在本实施例中,第一GMM模型中高斯混合分量的个数设置为5。
[0097] 第二GMM模型中高斯混合分量的个数设置为5。
[0098] LSTM模型包括输入层、由2层LSTM网络结构构成的隐藏层以及输出层。输入层的节点个数设置为39,输出层神经元个数设置为1,设语音的类标签为“1”,非语音的类标签为“0”。在每个LSTM网络结构层后添加dropout层,dropout层的参数设为0.2。
[0099] RNN模型的输入层的节点个数设置为3,隐藏层设置为2层,每个隐藏层中神经元的个数设置为50,在每个隐藏层后添加dropout层,设置dropout的参数为0.2,输出层神经元的个数设置为1,设语音的类标签为“1”,非语言的类标签为“0”,输出层将输出得到每个音频片段属于语音的概率。
[0100] 可以理解的是,在其他实施例中,第一GMM模型和第二GMM模型中高斯混合分量的个数也可设置为其他值,本领域技术人员可根据实际情况来具体设置,此处不再详述。
[0101] 在其他实施例中,LSTM模型中LSTM网络结构的层数也可设置为其他值,本领域技术人员可根据实际情况来具体设置,此处不再详述。
[0102] 在其他实施例中,RNN模型各层节点数量及隐藏层的层数也可设置为其他值,本领域技术人员可根据实际情况来具体设置,此处不再详述。
[0103] S102:训练语音检测模型。
[0104] 在具体实施中,步骤S102的训练语音检测模型的过程为:
[0105] S1021:利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,进而组成一个三维向量,作为音频片段的向量表征。
[0106] 具体地,在所述步骤S1021中,训练第一GMM模型的过程为:
[0107] S1021-11:将仅含有语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第一训练样本集合内。
[0108] 例如:将仅含有语音数据的训练集中每个训练数据以100毫秒长为单位,分割成一系列互不交叠的音频片段;对每个100毫秒长的音频片段进行分帧处理,帧长设定为30毫秒,帧移设定为10毫秒;分帧处理后,对每个音频帧提取39维MFCC特征,用此39维MFCC特征来表达每个训练语音样本。
[0109] 其中,MFCC,Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数,梅尔频率是基于人听觉特性提出来的,它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。
[0110] 需要说明的是,可采用现有的方法来提取梅尔频率倒谱系数,本领域技术人员可根据实际情况来具体选择。
[0111] S1021-12:将第一训练样本集合内的训练样本输入至第一GMM模型中,输出各帧音频的语音识别得分值,将音频片段内所有帧的语音识别得分值取平均,得到相应音频片段的语音识别得分值。
[0112] 其中,语音识别得分值越大,则相应音频片段属于语音的概率越大。
[0113] S1021-13:通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数。
[0114] 最大期望算法(Expectation-Maximization algorithm,EM),是一类通过迭代进行极大似然估计的优化算法,通常作为顿迭代法的替代用于对包含隐变量或缺失数据的概率模型进行参数估计,可以给出隐变量,即缺失数据的后验,因此在缺失数据问题中有应用。
[0115] 本实施例利用仅含有语音数据的音频片段且通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数,减少了第一GMM模型的训练和分类时间,提高了运算效率,可以更加精确地得到样本在语音模型上的得分,得到更加准确的语音检测模型,提高了整个语音检测模型的检测准确率。
[0116] 具体地,在所述步骤S1021中,训练第二GMM模型的过程为:
[0117] S1021-21:将仅含有非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第二训练样本集合内。
[0118] 例如:将仅含有非语音数据的训练集中每个训练数据以100毫秒长为单位,分割成一系列互不交叠的音频片段;对每个100毫秒长的音频片段进行分帧处理,帧长设定为30毫秒,帧移设定为10毫秒;分帧处理后,对每个音频帧提取39维梅尔频率倒谱系数,用此39维梅尔频率倒谱系数来表达每个训练非语音样本。
[0119] 需要说明的是,可采用现有的方法来提取梅尔频率倒谱系数,本领域技术人员可根据实际情况来具体选择。
[0120] S1021-22:将第二训练样本集合内的训练样本输入至第二GMM模型中,输出各帧音频的非语音识别得分值,将音频片段内所有帧的非语音识别得分值取平均,得到相应音频片段的非语音识别得分值。
[0121] 其中,非语音识别得分值越大,则相应音频片段属于语音的概率越小。
[0122] S1021-23:通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数。
[0123] 最大期望算法(Expectation-Maximization algorithm,EM),是一类通过迭代进行极大似然估计的优化算法,通常作为牛顿迭代法的替代用于对包含隐变量或缺失数据的概率模型进行参数估计,可以给出隐变量,即缺失数据的后验,因此在缺失数据问题中有应用。
[0124] 该技术方案的优点在于,利用仅含有非语音数据的音频片段且通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数,减少了第二GMM模型的训练和分类时间,提高了运算效率,可以更加精确地得到样本属于非语音的识别得分,得到更加准确的非语音检测模型,提高了整个语音检测模型的检测准确率。
[0125] 具体地,在所述步骤S1021中,训练LSTM模型的过程为:
[0126] S1021-31:将含有语音数据和非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,将这些音频特征按照时间顺序排列构成一个时间序列。
[0127] 具体地,将含有语音数据和非语音数据训练集中每个训练数据以100毫秒长为单位,分割成一系列互不交叠的音频片段;对每个100毫秒长的音频片段进行分帧处理,帧长设定为30毫秒,帧移设定为10毫秒,100毫秒长的音频片段被分割成8个30毫秒长的音频帧,此8个音频帧构成一个时间序列;分帧处理后,对每个音频帧提取39维MFCC特征;
[0128] 以每个100毫秒长的音频片段分帧后所构成的时间序列为输入,训练LSTM模型。
[0129] S1021-32:将上述时间序列输入至LSTM模型中,输出得到相应音频片段的识别得分值。
[0130] 其中,识别得分值越大,则相应音频片段属于语音的概率越大。
[0131] S1021-33:采用Adam优化算法训练LSTM模型,直至LSTM模型的参数达到最优。
[0132] LSTM模型的初始化采用Glorot均匀分布初始化方法,损失函数采用交叉熵损失函数,训练采用Adam优化算法,设置学习率为0.01,batch_size参数为128,epoch参数为20。LSTM模型设置为在读入输入时间序列的最后一帧时才进行输出。
[0133] Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。其优势在于:直截了当地实现;高效的计算;所需内存少;梯度对缩放的不变性;适合解决含大规模数据和参数的优化问题;适用于非稳态(non-stationary)目标;适用于解决包含很高噪声或稀疏梯度的问题;超参数可以很直观地解释,并且基本上只需极少量的调参。
[0134] 该技术方案的优点在于,利用含有语音数据和非语音数据的音频片段且采用Adam优化算法训练LSTM模型,可以充分利用样本的上下文信息进行识别,可以更加精确地得到样本属于语音的概率得分,得到更加准确的语音检测模型,提高了整个语音检测模型的检测准确率。
[0135] S1022:将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
[0136] 假设训练集合中共有N个训练数据,xi(i=1,…,N)表示第i个训练数据,假设xi中共有Mi个音频片段,xij(j=1,…,Mi)表示xi的第j个音频片段,xij是第一GMM模型、第二GMM模型和LSTM模型输出的相应识别得分值组成的一个三维向量的形式。在表征音频片段时,为了将其上下文信息也包含进来,将xij和其前一时刻的音频片段xi(j-1)及后一时刻的音频片段xi(j+1)一起组成一个时间序列[xi(j-1),xij,xi(j+1)](j=2,…,Mi-1),以此时间序列作为RNN神经网络的输入,训练RNN网络。
[0137] 具体地,训练RNN模型的过程为:
[0138] 将训练好的第一GMM模型、第二GMM模型和LSTM模型分别输出的识别得分值组成一个三维向量,作为音频片段的向量表征;
[0139] 将当前时刻、前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,输出得到当前时刻音频片段属于语音的概率值;
[0140] 采用Adam优化算法训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
[0141] RNN网络的输入层的节点个数设置为3,隐藏层设置为2层,每个隐藏层中神经元的个数设置为50,在每个隐藏层后添加dropout层,设置dropout的参数为0.2,输出层神经元的个数设置为1,设语音的类标签为“1”,非语言的类标签为“0”,输出层将输出得到每个音频片段属于语音的概率值;
[0142] RNN网络的初始化采用Glorot均匀分布初始化方法,损失函数采用交叉熵损失函数,训练采用Adam优化算法,设置学习率为0.01,batch_size参数为128,epoch参数为20。
[0143] S103:测试音频数据。
[0144] 在具体实施中,如图3所示,步骤S103的测试音频数据的过程为:
[0145] 分割测试音频数据为若干个音频片段,再将音频片段逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值。
[0146] 具体地,若概率值大于或等于设定阈值,则判断相应时刻的音频片段属于语音;否则,判断相应时刻的音频片段不属于语音。
[0147] 假设测试音频数据分割后共得到K个音频片段,用yk表示其第k个音频片段,k=1,…,K。对每个音频片段yk,将其分别通过第一GMM模型、第二GMM模型和LSTM模型求得的识别得分组成一个3维向量,用此3维向量表征音频片段yk。
[0148] 将yk和其前一时刻的音频片段yk-1及后一时刻的音频片段yk+1一起组成一个时间序列[yk-1,yk,yk+1](k=2,…,K-1),以此时间序列作为RNN神经网络的输入,求得音频片段yk属于语音的概率值,设定阈值为0.5,概率值大于0.5,则将yk判定为语音,概率值小于0.5,则将yk判定为非语音。
[0149] 需要说明的是,本领域人员可根据实际精度需求来设置音频片段属于语音的概率值的阈值大小。
[0150] 本实施例通过GMM模型和LSTM模型将RNN模型的输入由传统的音频频谱转换为低维的特征表示,低维特征可以减少RNN模型的运算量,减少RNN模型的训练和分类时间,提高运算效率。
[0151] 本实施例以不同模型的分类得分作为音频样本的特征表示,这种特征表示可以有效地提取出音频样本中的重要信息,减少冗余信息的干扰,进而使分类模型能更好地识别出语音样本,提高检测准确率。
[0152] 本实施例实现了传统分类模型:GMM模型、LSTM模型和RNN模型的有效结合,GMM模型能很好地模拟音频样本的特征结构,LSTM模型和RNN模型能有效地利用音频样本的上下文信息进行分类,本公开的语音检测模型能够充分发挥GMM模型、LSTM模型和RNN模型各自的优势,提高了整体的分类检测性能。
[0153] 本实施例在信噪比较低的情况下也能得到不错的语音检测性能,因而对噪声具有很好的鲁棒性。
[0154] 本实施例的设计思路是将传统常用的语音检测模型和深度神经网络模型进行结合,结合方案中的传统语音检测模型不局限于GMM,结合方案中的深度神经网络模型不局限于LSTM和RNN,结合方案具有很好的拓展性,可以为传统语音检测模型和深度神经网络模型的结合提供很好的方法借鉴。
[0155] 实施例二
[0156] 图4是本公开实施例提供的一种语音检测装置结构示意图。
[0157] 如图4所示,本实施例的语音检测装置,包括:
[0158] (1)语音检测模型构建模块,其用于构建语音检测模型,所述语音检测模型由第一GMM模型、第二GMM模型和LSTM模型并联连接之后再与RNN模型串联构成;
[0159] (2)语音检测模型训练模块,其用于训练语音检测模型,其过程为:
[0160] 利用语音数据、非语音数据及语音和非语音混合数据分别对应训练第一GMM模型、第二GMM模型和LSTM模型,输出相应识别得分值,进而组成一个三维向量,作为音频片段的向量表征;
[0161] 将每个时刻、每个时刻前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
[0162] 具体地,在所述语音检测模型训练模块中,训练第一GMM模型的过程为:
[0163] 将仅含有语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第一训练样本集合内;
[0164] 将第一训练样本集合内的训练样本输入至第一GMM模型中,输出各帧音频的语音识别得分值,将音频片段内所有帧的语音识别得分值取平均,得到相应音频片段的语音识别得分值;
[0165] 通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数。
[0166] 该技术方案的优点在于,利用仅含有语音数据的音频片段且通过期望最大化算法由第一训练样本集合内的训练样本训练得到第一GMM模型的所有参数,减少了第一GMM模型的训练和分类时间,提高了运算效率,可以更加精确地得到样本在语音模型上的得分,得到更加准确的语音检测模型,提高整个语音检测模型的检测准确率。
[0167] 在所述语音检测模型训练模块中,训练第二GMM模型的过程为:
[0168] 将仅含有非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,形成一个训练样本并存储至第二训练样本集合内;
[0169] 将第二训练样本集合内的训练样本输入至第二GMM模型中,输出各帧音频的非语音识别得分值,将音频片段内所有帧的非语音识别得分值取平均,得到相应音频片段的非语音识别得分值;
[0170] 通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数。
[0171] 该技术方案的优点在于,利用仅含有非语音数据的音频片段且通过期望最大化算法由第二训练样本集合内的训练样本训练得到第二GMM模型的所有参数,减少了第二GMM模型的训练和分类时间,提高了运算效率,可以更加精确地得到样本在非语音模型上的得分,得到更加准确的非语音检测模型,提高了整个语音检测模型的检测准确率。
[0172] 在所述语音检测模型训练模块中,训练LSTM模型的过程为:
[0173] 将含有语音数据和非语音数据的音频片段分帧处理,提取每帧音频的预设维的梅尔频率倒谱系数作为音频特征,将这些音频特征按照时间顺序排列构成一个时间序列;
[0174] 将上述时间序列输入至LSTM模型中,输出得到相应音频片段的识别得分值;
[0175] 采用Adam优化算法训练LSTM模型,直至LSTM模型的参数达到最优。
[0176] 该技术方案的优点在于,利用含有语音数据和非语音数据的音频片段且采用Adam优化算法训练LSTM模型,可以充分利用样本的上下文信息进行识别,可以更加精确地得到样本属于语音的概率得分,得到更加准确的语音检测模型,提高了整个语音检测模型的检测准确率。
[0177] 在所述语音检测模型训练模块中,训练RNN模型的过程为:
[0178] 将训练好的第一GMM模型、第二GMM模型和LSTM模型分别输出的识别得分值组成一个三维向量,作为音频片段的向量表征;
[0179] 将当前时刻、前一时刻及后一时刻的音频片段向量表征组成一个时间序列,作为输入量来训练RNN模型,输出得到当前时刻音频片段属于语音的概率值;
[0180] 采用Adam优化算法训练RNN模型,直至输出的所有时刻的音频片段属于语音的平均概率值偏差符合预设精度要求。
[0181] 该技术方案的优点在于,利用含有语音数据和非语音数据的音频片段且采用Adam优化算法训练RNN模型,可以充分利用样本的上下文信息进行识别,提高识别准确率,此外,RNN模型的输入为三维向量,低维向量的特征表示减少了模型的训练和分类时间,提高了运算效率,且低维向量的特征表示减少了冗余信息的干扰,可以更加精确地得到样本属于语音的概率值,得到更加准确的语音检测模型,提高了整个语音检测模型的检测准确率。
[0182] (3)音频数据测试模块,其用于测试音频数据,其过程为:
[0183] 分割测试音频数据为若干个音频片段,再将音频片段逐个输入至训练完成的语音检测模型,得到相应时刻的音频片段属于语音的概率值。
[0184] 具体地,在所述音频数据测试模块中,若概率值大于或等于设定阈值,则判断相应时刻的音频片段属于语音;否则,判断相应时刻的音频片段不属于语音。
[0185] 该技术方案的优点在于,通过将音频片段属于语音的概率值与设定阈值比较,来判断相应时刻的音频片段是否属于语音,使得检测结果更加直观。
[0186] 本实施例通过GMM模型和LSTM模型将RNN模型的输入由传统的音频频谱转换为低维的特征表示,低维特征可以减少RNN模型的运算量,减少RNN模型的训练和分类时间,提高运算效率。
[0187] 本实施例以不同模型的分类得分作为音频样本的特征表示,这种特征表示可以有效地提取出音频样本中的重要信息,减少冗余信息的干扰,进而使分类模型能更好地识别出语音样本,提高检测准确率。
[0188] 本实施例实现了传统分类模型:GMM模型、LSTM模型和RNN模型的有效结合,GMM模型能很好地模拟音频样本的特征结构,LSTM模型和RNN模型能有效地利用音频样本的上下文信息进行分类,本公开的语音检测模型能够充分发挥GMM模型、LSTM模型和RNN模型各自的优势,提高了整体的分类检测性能。
[0189] 本实施例在信噪比较低的情况下也能得到不错的语音检测性能,因而对噪声具有很好的鲁棒性。
[0190] 实施例三
[0191] 本公开的第三个方面提供一种计算机可读存储介质。
[0192] 一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所示的语音检测方法中的步骤。
[0193] 本实施例通过GMM模型和LSTM模型将RNN模型的输入由传统的音频频谱转换为低维的特征表示,低维特征可以减少RNN模型的运算量,减少RNN模型的训练和分类时间,提高运算效率。
[0194] 本实施例以不同模型的分类得分作为音频样本的特征表示,这种特征表示可以有效地提取出音频样本中的重要信息,减少冗余信息的干扰,进而使分类模型能更好地识别出语音样本,提高检测准确率。
[0195] 本实施例实现了传统分类模型:GMM模型、LSTM模型和RNN模型的有效结合,GMM模型能很好地模拟音频样本的特征结构,LSTM模型和RNN模型能有效地利用音频样本的上下文信息进行分类,本公开的语音检测模型能够充分发挥GMM模型、LSTM模型和RNN模型各自的优势,提高了整体的分类检测性能。
[0196] 本实施例在信噪比较低的情况下也能得到不错的语音检测性能,因而对噪声具有很好的鲁棒性。
[0197] 实施例四
[0198] 本公开的第四个方面提供一种计算机设备。
[0199] 一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所示的语音检测方法中的步骤。
[0200] 本实施例通过GMM模型和LSTM模型将RNN模型的输入由传统的音频频谱转换为低维的特征表示,低维特征可以减少RNN模型的运算量,减少RNN模型的训练和分类时间,提高运算效率。
[0201] 本实施例以不同模型的分类得分作为音频样本的特征表示,这种特征表示可以有效地提取出音频样本中的重要信息,减少冗余信息的干扰,进而使分类模型能更好地识别出语音样本,提高检测准确率。
[0202] 本实施例实现了传统分类模型:GMM模型、LSTM模型和RNN模型的有效结合,GMM模型能很好地模拟音频样本的特征结构,LSTM模型和RNN模型能有效地利用音频样本的上下文信息进行分类,本公开的语音检测模型能够充分发挥GMM模型、LSTM模型和RNN模型各自的优势,提高了整体的分类检测性能。
[0203] 本实施例在信噪比较低的情况下也能得到不错的语音检测性能,因而对噪声具有很好的鲁棒性。
[0204] 本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0205] 本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0206] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0207] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0208] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
[0209] 以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈