基于听觉系统模型的老年人及残障人士说话人的识别方法专利检索-听觉模型残疾人专用配件专利检索查询-专利查询网

基于听觉系统模型的老年人及残障人士说话人的识别方法

阅读：124发布：2020-05-12

专利汇可以提供基于听觉系统模型的老年人及残障人士说话人的识别方法专利检索，专利查询，专利分析的服务。并且本发明提供了一种基于听觉系统模型的老年人及残障人士说话人的识别方法，包括以下步骤：预处理语音数据；通过听神经模型生成神经电图；提取神经图特征信息；将特征数据集分为训练集和测试集；采用高斯混合模型训练数据，将数据集进行测试分类，得出结果。，下面是基于听觉系统模型的老年人及残障人士说话人的识别方法专利的具体信息内容。

权利要求

1.一种基于听觉系统模型的老年人及残障人士说话人的识别方法，其特征在于，包括以下步骤：
预处理语音数据；
通过听神经模型生成神经电图；
提取神经图特征信息；
将特征数据集分为训练集和测试集；
采用高斯混合模型训练数据，将数据集进行测试分类，得出结果。
2.根据权利要求1所述的方法，其特征在于，预处理语音数据包括去除语音静默期、检测清音与低能信号、利用动态时间归整算法对齐语音样本。
3.根据权利要求1所述的方法，其特征在于，将听觉每个活动部位的现象学描述为中耳到听觉神经的听神经模型，该模型包括中耳、前馈控制通路、BM滤波器、低通滤波器、内毛细胞IHC、外毛细胞OHC和IHC-AN突触模型。
4.根据权利要求1所述的方法，其特征在于，神经电图为听神经模型输出的时间和频率域的图示。
5.根据权利要求1所述的方法，其特征在于，训练集和测试集的比例为7：3。
6.根据权利要求1所述的方法，其特征在于，提取神经图特征信息具体为：
通过对神经电图的二维数组输出均值化处理变为一维数组得到一个列向量，该列向量中包含每行特征元素20个特征频率内每行特征元素的平均值。
7.根据权利要求6所述的方法，其特征在于，将列向量中的训练集用于GMM，并用EM算法进行训练；将神经电图特征数据中的测试集输入到训练完成的GMM中，得到一个矢量输出，其中的最大值便代表说话人身份。

说明书全文

基于听觉系统模型的老年人及残障人士说话人的识别方法

技术领域

[0001] 本发明涉及一种语音识别技术，特别是一种基于听觉系统模型的老年人及残障人士说话人的识别方法。

背景技术

[0002] 说话人识别是以声音为特征识别特定人的过程。声音作为人类的生物特性，特征因人而异，具有独特的可分辨范围，可以用来唯一的描述一个人。在如今的许多领域中，说话人识别得到了广泛的应用。

[0003] 然而传统的说话人识别建立在声学模型基础上，不同的环境噪声、说话人本身如果语音不清晰、沙哑或者带有噪音也会降低声音信号的质量，使得识别准确率下降，这也成为了语音识别的一大难点和阻碍。而人类听觉系统的转换作为最复杂的系统之一，将外界的声音通过连接听觉神经的中耳和内耳的生理机制传递，听觉神经根据听觉系统感知到的信号做出反应，表现出听觉处理的非线性，使得人类能够在嘈杂的环境中也能准确的分辨出说话人身份，这也给语音识别技术提供了新的思路。由于神经响应在一定频率范围内对周期性输入具有锁相效应，意味着听神经模型对噪音具有很强的鲁棒性，这也就是选择基于听觉系统而非声学模型的原因。

发明内容

[0004] 本发明的目的在于提供一种基于听觉系统模型的老年人及残障人士说话人的识别方法。

[0005] 实现本发明目的的技术方案为：一种基于听觉系统模型的老年人及残障人士说话人的识别方法，包括以下步骤：

[0006] 预处理语音数据；

[0007] 通过听神经模型生成神经电图；

[0008] 提取神经图特征信息；

[0009] 将特征数据集分为训练集和测试集；

[0010] 采用高斯混合模型训练数据，将数据集进行测试分类，得出结果。

[0011] 进一步地，预处理语音数据包括去除语音静默期、检测清音与低能信号、利用动态时间归整算法对齐语音样本。

[0012] 进一步地，将听觉每个活动部位的现象学描述为中耳到听觉神经的听神经模型，该模型包括中耳、前馈控制通路、BM滤波器、低通滤波器、内毛细胞IHC、外毛细胞OHC和IHC-AN突触模型。

[0013] 进一步地，神经电图为听神经模型输出的时间和频率域的图示。

[0014] 进一步地，训练集和测试集的比例为7：3。

[0015] 进一步地，提取神经图特征信息具体为：通过对神经电图的二维数组输出均值化处理变为一维数组得到一个列向量，该列向量中包含每行特征元素20个特征频率内每行特征元素的平均值。

[0016] 进一步地，将列向量中的训练集用于GMM，并用EM算法进行训练；将神经电图特征数据中的测试集输入到训练完成的GMM中，得到一个矢量输出，其中的最大值便代表说话人身份。

[0017] 本发明与现有技术相比，具有以下优点：(1)在听觉模型的基础上的语音识别鲁棒性强，抗干扰，抗噪音能力强，尤其针对于老年及残障人士，发音不明显或者养老院环境嘈杂时，能够更有效的完成语音识别功能；(2)本发明针对神经反应电图而不是声音波形分析，电图同时包含env和tfs两种反应说话人生理特征独立信息的数据，在信噪比不高的情况下识别效果明显优于传统方法。

[0018] 下面结合说明书附图对本发明作进一步描述。

附图说明

[0019] 图1为本发明所提供的基于听觉系统模型的老年人及残障人士说话人的识别方法的框架流程示意图。

[0020] 图2为本发明提供的说话人识别方法高斯混合模型，EM算法训练的框架流程示意图。

具体实施方式

[0021] 结合图1，一种基于听觉系统模型的老年人及残障人士说话人的识别方法，包括如下步骤：

[0022] 步骤1，预处理所有获取的语音数据；

[0023] 步骤2，通过听神经模型生成神经电图；

[0024] 步骤3，提取神经图特征信息；

[0025] 步骤4，将数据集分为训练集和测试集；

[0026] 步骤5，采用高斯混合模型训练训练集数据；

[0027] 步骤6，利用测试集测试高斯混合模型的分类结果。

[0028] 首先获取待识别人的语音数据，例如选取40人，录取每人说同一单词的10次语音，总计400条语音数据。之后对语音数据进行预处理，利用语音端点检测技术(VAD)和动态时间归整算法(GTW)获取处理后的数据。VAD算法用于检测出语音的开始点和结束点，也就是除去语音数据中的静音时间与噪音部分。通过对于短时能量、过零率等特征的计算比较，将静音部分、噪音背景和实际语音部分分离开，判断是否是实际语音。GTW则是针对同一说话人的语音也有可能语速、单词间隔等时间长度不一致的问题，将同一说话人的语音数据进行归整，将有效语音时间对齐，方便之后操作、提取特征。

[0029] 得到预处理后的语音数据后，将其输入到听觉系统模型中。听神经模型由中耳、前馈控制通路、BM滤波器、低通滤波器、IHC和OHC突触模型构成。声音压力信号被传递到中耳，接着通过基底膜(BM)滤波器。前馈控制通路(包括OHC)调节BM滤波器的增益和带宽，以解释耳蜗的电平相关特性。基底膜响应通过内毛细胞(IHC)传递，IHC将BM滤波器的机械响应转化为电势，然后用低通滤波器对IHC进行非线性建模。IHC-AN突触模型决定模型的自发速率、适应特性和速率级函数。峰值时间由突触模型输出驱动的非均匀泊松过程决定。该听觉系统模型输出时间与特征频率的神经电图，

[0030] 该听觉系统模型相较于传统的模型，模拟了中耳到耳蜗完整的听觉系统模型，引入参数模拟噪音对毛细胞的损伤程度。输出的神经电图不是对于声音波形进行分析，而是针对神经反应进行模拟，包括了env和tfs两种代表特定说话人独立信息的数据。该模型对于信噪比不高，尤其针对于老年人及残障人士，在声音不清晰、沙哑或环境复杂的情景下，识别效果要明显优于传统的MFCC。

[0031] 由于语音是一维信号，而神经电图是二维的，所以使用均值化处理神经电图。特征提取器将返回一个列向量，其中包含每行中的特征元素的平均值，这里取20CFs时间内的平均值。将特征数据集按7：3的比例随机分为训练集和测试集，提取后的训练集特征数据将用于下一步的训练。

[0032] 结合图2，本发明所提供的相关说话人识别方法，是采用高斯混合模型进行分类输出结果，利用EM算法训练模型。先初始化各类参数，再计算后验概率，即隐藏变量期望值γ(Znk)，再根据公式：

[0033]

[0034]

[0035]

[0036]

[0037] 更新模型中的均值、协方差矩阵和混合系数参数，再更新期望。通过与设置的阈值进行比较判断结果是否收敛，如果没有收敛则进行下一次迭代计算，如果收敛则结束迭代输出参数，模型训练完成。识别阶段则将测试集特征数据输入模型中，将输出一个列向量，其中每个值代表每个说话人的识别概率，其中最大值就是最终的识别结果。

[0038] 通过最大期望算法(EM)，训练GMM分类器。假设每个说话人j以参数λj，则高斯混合模型即为特定说话人的语音特征向量x的k个高斯密度之和。分类器表达式如下：

[0039]

[0040] 其中∑I为协方差矩阵，μk为特征向量平均值，为由特征向量、特征向量平均值和协方差矩阵作为参数的高斯密度函数。

[0041] 我们用k维二元随机变量Z(隐藏变量)来表示每一个高斯分布，将Z引入后，得到：

[0042]

[0043]

[0044] 然而Z的后验概率满足(利用条件概率计算)：

[0045]

[0046] 但是Znk为隐藏变量，实际中并不知晓，所以用期望值得到估计值：

[0047]

[0048]

[0049] 最终计算最大期望：

[0050]

[0051] 最后可以得到：

[0052]

[0053]

[0054]

[0055]

[0056] 通过一次次迭代计算，保证计算的期望值最终收敛，就可以结束循环得到最后训练的结果，也就是最后的分类器模型。

[0057] 检测识别阶段，将测试集中提取出的特征向量传入训练完成的GMM中，将输出一个列向量，每个值即代表对应说话人的概率，其中最大值便是最后的识别结果。

标题	发布/更新时间	阅读量
一种基于人耳听觉频率尺度信号分解的音频编解码方法	2020-05-14	781
一种基于听觉模型的自适应音频盲水印方法	2020-05-11	361
一种基于听觉感知特性的语音质量客观评估的方法	2020-05-13	471
一种基于伽马通相关图语音特征参数提取方法	2020-05-14	125
一种模拟听觉感知模型的滤波器组	2020-05-11	626
一种基于广告视频图像数据的吸引力判定方法	2020-05-14	788
基于听觉感知模型的多通道语音增强方法	2020-05-11	386
基于类脑多感觉注意切换的计算方法	2020-05-14	505
视觉、听觉、嗅觉的相互转化系统与音乐可视化应用	2020-05-15	386
用于使用听力损失病人的听觉模型确定参数的设备和方法	2020-05-12	979

基于听觉系统模型的老年人及残障人士说话人的识别方法

基于听觉系统模型的老年人及残障人士说话人的识别方法

技术领域

背景技术

发明内容

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：