首页 / 专利库 / 人工智能 / 声学模型 / 一种基于忆阻网络的残差神经网络模型及其应用方法

一种基于忆阻网络的残差神经网络模型及其应用方法

阅读:1001发布:2020-05-13

专利汇可以提供一种基于忆阻网络的残差神经网络模型及其应用方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于忆阻网络的残差神经网络模型及其应用方法,基于忆阻器构建的忆阻网络结构,能够进行 大规模并行处理 ,同时拥有巨大的存储量。忆阻器可通过调节两端的施加 电压 ,灵活地改变其阻值状态,从而实现突触可塑性。基于忆阻器的忆阻网络具有功耗低,速度快和模 块 化等优势,可根据开发者的需求构建多种神经网络。由忆阻器所搭建的忆阻网络作为残差神经网络的 硬件 支撑 ,在此 基础 之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能,通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。,下面是一种基于忆阻网络的残差神经网络模型及其应用方法专利的具体信息内容。

1.一种基于忆阻网络的残差神经网络模型,其特征在于,该残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,在此基础上构建所述残差神经网络模型,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
具体地,所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作可以通过以下公式表示:
其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关。
2.根据权利要求1所述的基于忆阻网络的残差神经网络模型,其特征在于,所述步骤S1)中所构建的残差神经网络模型包括输入模、特征提取模块、ResNet模型、GRU模型、ResNet输出模块、GRU输出模块、分类结果整合模块和最终结果输出模块;所述特征提取模块对由所述输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述ResNet模型和所述GRU模型均采用相同的语音信号特征向量作为所述残差神经网络模型的输入,由所述ResNet输出模块和所述GRU输出模块分别输出所述ResNet模型和所述GRU模型的语音分类结果,然后通过所述分类结果整合模块将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行整合,按照各占0.5权重的方式将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行加权求和,并由所述最终结果输出模块输出最终的语音分类结果,其中,分别由所述ResNet输出模块和所述GRU输出模块输出的语音分类结果为统一的格式。
3.根据权利要求2所述的基于忆阻网络的残差神经网络模型,其特征在于,所述ResNet模型的结构为:第一层是卷积层,即输入层,包含64个相同的大小为5×5的卷积核;紧接着是一层批量归一化层、Relu激活函数以及一个大小为2×2的最大池化层;最大池化层后面依次连接的是三层相同的小残差块和四层相同的大残差块;该四层相同的大残差块后面是一层卷积层,该层卷积层包含512个相同的大小为9×1的卷积核;该层卷积层后面是一层包含512个神经元的全连接层,最后以Softmax激活函数作为输出。
4.根据权利要求2所述的基于忆阻网络的残差神经网络模型,其特征在于,所述GRU模型的结构为:前三层均为卷积层,分别作为一层输入层和两层隐藏层,第一、二层卷积层均包含64个相同的大小为3×3的卷积核,第三层卷积层包含128个相同的大小为5×5的卷积核,这三层卷积层每层后面都紧跟着一个大小为2×2的最大池化层,该三层卷积层后面连接三层残差块,该三层残差块后面是三层包含512个神经元的循环控单元层,其中前两层循环门控单元层返回的是该层所有神经元的输出向量,第三层循环门控单元层返回的是该层最后一个神经元的输出向量,便于与全连接层进行连接;该三层循环门控单元层之后紧接着是一层包含512个神经元的全连接层,该全连接层的激活函数为Elu,最后是Softmax激活函数作为输出。
5.根据权利要求3所述的基于忆阻网络的残差神经网络模型,其特征在于,所述ResNet模型的残差块结构为:所述小残差块和所述大残差块都包含连续的三个卷积层和一个作为恒等映射的卷积层,所述连续的三个卷积层分别作为输入层、隐藏层和输出层,所述连续的三个卷积层用于提取语音特征向量,所述作为恒等映射的卷积层用于缓解由于网络过深所造成的网络退化问题;所述ResNet模型中的每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,其中所述小残差块中的四个卷积层的卷积核的数量分别为64、64、256、256,所述大残差块中的四个卷积层的卷积核的数量分别为128、128、512、512,这四个卷积层分别为所述ResNet模型中输入层、隐藏层、输出层和作为恒等映射的卷积层,所述小残差块和所述大残差块中所有卷积核的大小均为1×1。
6.根据权利要求4所述的基于忆阻网络的残差神经网络模型,其特征在于,所述GRU模型的残差块结构为:所述残差块包含两个含有128个相同的大小为3×3的卷积核的卷积层,分别作为输入层和输出层,每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,并且所述GRU模型的残差块的恒等映射为残差块的输入直接映射到输出。
7.一种基于忆阻网络的残差神经网络模型的应用方法,其特征在于,该方法包括如下步骤:
S1)基于Python下的Keras库构建残差神经网络模型作为声学模型
S2)获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来;并输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号;
S3)所述残差神经网络模型提取步骤S2)中获取的所述经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,保存所述语音信号特征向量到特定文件,所述所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量;
S4)将步骤S3)提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型;
S5)保存所述训练完成的残差神经网络模型及其相关参数;
S6)将步骤S3)中测试集中待测试样本的语音信号特征向量输入到步骤S5)中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
8.根据权利要求7所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S1)中所构建的残差神经网络模型包括输入模块、特征提取模块、ResNet模型、GRU模型、ResNet输出模块、GRU输出模块、分类结果整合模块和最终结果输出模块;所述特征提取模块对由所述输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述ResNet模型和所述GRU模型均采用相同的语音信号特征向量作为所述残差神经网络模型的输入,由所述ResNet输出模块和所述GRU输出模块分别输出所述ResNet模型和所述GRU模型的语音分类结果,然后通过所述分类结果整合模块将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行整合,按照各占0.5权重的方式将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行加权求和,并由所述最终结果输出模块输出最终的语音分类结果,其中,分别由所述ResNet输出模块和所述GRU输出模块输出的语音分类结果为统一的格式。
9.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S2)对所述原始音频文件的语音信号进行预处理包括以下过程:VAD去静音、语音填充和语音截断,其中,VAD去静音是根据语音信号中的能量大小和过零率检测语音中的静音片段并去除,保证输入的音频尽可能地有效,从而使得所述残差神经网络模型能够学习到有用的特征;语音填充和截断都是通过判断语音信号的长度是否符合预设的要求来对音频文件进行处理,将音频文件的长度设置为3s,填充时进行零值填充,从而保证输入的音频文件都具有相同的规格,便于统一处理。
10.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S3)中提取的语音信号的特征为40位滤波的logFilterBank特征,提取特征过程中采用了语音加重、分加窗,其中帧长为25ms,帧移为10ms,窗函数使用汉明窗,之后进行快速傅立叶变换,将语音信号由时域信号转化为频域信号,然后使用梅尔滤波器组,最后取对数得到logFilterBank特征。
11.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S4)中在训练所述残差神经网络模型的过程中采用的优化函数为随机梯度下降,损失函数为交叉熵,评价标准为分类准确率,并且在训练过程中进行分批次输入训练集的语音信号特征向量,并且在每一轮的迭代结束后使用验证集的语音信号特征向量进行测试,得到当前残差神经网络模型的准确率,通过比较每一轮迭代训练得到的残差神经网络模型的准确率,并在所述步骤S5)中保存当前的最优残差神经网络模型的权重,在整个训练过程完成后,保存最终的残差神经网络模型权重到后缀为.h5的文件中,在训练过程中,每一轮训练完成后,将该轮训练所得模型在验证集上进行测试,并计算准确率和损失值。
12.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S3)中所述特定文件为后缀为.npy的文件,以便于语音信号特征向量的存储和读取。
13.根据权利要求11所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述训练轮数不少于50轮。
14.根据权利要求7-13任意一项所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S1)中基于Python下的Keras库构建的残差神经网络模型是在计算机CPU型号i7-8700、显卡GTX-1070、内存大小16GB的实验环境下,使用的原始音频文件是LibriSpeech数据集,对所述残差神经网络模型进行训练、验证和测试。

说明书全文

一种基于忆阻网络的残差神经网络模型及其应用方法

技术领域

[0001] 本发明涉及人工智能技术领域,具体涉及一种基于忆阻网络的残差神经网络模型及其在用于语音识别中的应用方法。

背景技术

[0002] 忆阻器是一种新型的非线性两端电路元件,其天然的记忆功能、连续的输入输出特性和非易失性,使其在人工神经网络模式识别图像处理等方面有着巨大的应用潜能。忆阻器不仅具有很好的兼容性,而且都具有功耗低、高可靠性和可扩展性等优势。忆阻器构建神经元使得神经网络电路设计更加优越可靠。
[0003] 大规模深度卷积神经网络的计算需要大量的计算资源,目前的通用计算平台难以满足神经网络计算对计算能与计算功耗的需求。忆阻器作为第四种基本电路元件,具有存储密度高、功耗低等优点,并且忆阻器阵列可以模拟矩阵向量乘计算。采用忆阻器加速大规模深度神经网络,将有效提高深度神经网络计算的性能与能效比。
[0004] 在语音识别领域,传统的算法GMM-UBM声学模型一直占据的主导地位,但由于GMM-UBM声学模型本身的特点,其对数据量要求较高,并且在操作过程中计算量大、运行速度缓慢,导致模型的训练时间较长,因此在实际应用过程中有一定的缺陷。近年来,随着神经网络的飞速发展,CNN、ResNet、VggNet等性能优异的神经网络模型被提出,并被应用到端到端语音识别方法中,表现出杰出的效果。
[0005] 由此可见,运用忆阻器来实现一种以语音识别为目标的神经网络是有必要的,其结合了忆阻器在功耗、性能等方面的优越性和神经网络在语音识别领域的优势。

发明内容

[0006] 基于上述技术问题,本发明提出了一种基于忆阻网络的残差神经网络模型,并探索了其在语音识别中的应用方法。在硬件上,基于忆阻器构建的忆阻网络结构,能够进行大规模并行处理,同时拥有巨大的存储量。忆阻器可通过调节两端的施加电压,灵活地改变其阻值状态,从而实现突触可塑性。基于忆阻器的忆阻网络模型具有功耗低,速度快和模化等优势,可根据开发者的需求构建多种神经网络,如利用忆阻器构建卷积神经网络、残差网络、BP神经网络等。由忆阻器所搭建的忆阻网络作为残差神经网络的硬件支撑,在此基础之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能。通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。
[0007] 本发明提出了一种基于忆阻网络的残差神经网络模型,该残差神经网络模型基于卷积神经网络和残差神经网络,其更加擅长提取局部特征,模型的复杂度高,更容易拟合复杂的数据,泛化性能更佳,能够广泛应用到各种语音识别的场景中。
[0008] 一种基于忆阻网络的残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,在此基础上构建所述残差神经网络模型,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
[0009] 基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
[0010] 所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
[0011] 所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作可以通过以下公式表示:
[0012]
[0013] 其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关。
[0014] 一种基于上述残差神经网络模型的应用方法,包括以下步骤:
[0015] S1)基于Python下的Keras库构建上述残差神经网络模型作为声学模型;
[0016] S2)获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来;并输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号
[0017] S3)所述残差神经网络模型提取步骤S2)中获取的所述经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,保存所述语音信号特征向量到特定文件,所述所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量;
[0018] S4)将步骤S3)提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型;
[0019] S5)保存所述训练完成的残差神经网络模型及其相关参数;
[0020] S6)将步骤S3)中测试集中待测试样本的语音信号特征向量输入到步骤S5)中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
[0021] 本发明基于忆阻网络构建残差神经网络模型,克服了软件实现神经网络存在的运算速度低、稳定性差等缺点,具体地,基于忆阻器的残差神经网络模型在语音识别方面具有以下优点:1)分类精度高:通过神经网络进行训练,可以达到高精度的分类效果;2)分类效率高:采用硬件实现神经网络,从而大幅度降低了神经网络训练时间。并且本发明所构建的声学模型基于ResNet模型和GRU模型,将二者融合为一体进行语音识别,在其中某一模型产生较大预测偏差时能够借助另外一个模型来保证模型的准确率有一个较高的下限,使得整体模型具有良好的泛化性能和鲁棒性。附图说明
[0022] 图1为本发明的基于忆阻网络的残差神经网络模型
[0023] 图2为本发明的语音识别流程图
[0024] 图3为本发明的残差神经网络模型的工作流程图
[0025] 图4为本发明的ResNet模型结构图
[0026] 图5为本发明的GRU模型结构图
[0027] 图6为本发明的ResNet模型的残差块结构图
[0028] 图7为本发明的GRU模型的残差块结构图
[0029] 图8为本发明的ResNet模型训练过程中的准确率-损失图
[0030] 图9为本发明的GRU模型训练过程中的准确率-损失图

具体实施方式

[0031] 下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
[0032] 基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数,通过忆阻网络中的忆阻器的阻值来模拟忆阻网络中的权重,电压模拟神经元的输入,电流模拟神经元的输出。由忆阻器所搭建的忆阻网络作为残差神经网络模型的硬件支撑,在此基础之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能。通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。
[0033] 如图1所示为本发明的基于忆阻网络的残差神经网络模型,将基于忆阻器的忆阻网络结构作为残差神经网络的权值矩阵,忆阻网络可以有效的模拟矩阵向量乘操作,下图中Vo=(Vo,0,Vo,1,...,Vo,M)为神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)为神经元的输入向量,输出向量与输入向量之间的函数关系可以通过以下公式表示:
[0034]
[0035] 公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定。ci,j指的是矩阵中的第i行、第j列的元素,gs应该是一个额外的电阻值,与矩阵中的i、j位置无关,更详细地说,ci,j是忆阻器对应的一个属性值,由gi,j和gs计算得来。通过对忆阻器两端施加不同的电压可以灵活改变忆阻器的阻值,从而有效实现所述残差神经网络模型中的各种计算。
[0036] 如图1所示为本发明的基于忆阻网络的残差神经网络模型,所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层。由于忆阻器具有阻值可变性和可存储性,在本发明的残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和。
[0037] 如图2所示,为本发明实现的一种基于忆阻网络的残差神经网络模型的应用方法,包括以下步骤:
[0038] S1:基于Python下的Keras库构建如图1所示的残差神经网络模型作为声学模型。
[0039] S2:获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来,便于训练时需要。输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号。
[0040] S3:所述残差神经网络模型提取S2中获取的经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,所述所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量,保存所述语音信号特征向量到特定文件。
[0041] S4:将S3提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型。
[0042] S5:保存所述训练完成的残差神经网络模型及其相关参数。
[0043] S6:将S3中测试集中待测试样本的语音信号特征向量输入到S5中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
[0044] 步骤1所构建的残差神经网络模型的工作流程图如图3所示,特征提取模块对由输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述残差神经网络模型包含两部分:ResNet模型和GRU模型,左右两个模型ResNet模型和GRU模型都采用了相同的得到的语音信号特征向量作为所述残差神经网络模型的输入,并且分别由ResNet输出模块和GRU输出模块输出的语音分类结果为统一的格式,最后通过分类结果整合模块将ResNet模型和GRU模型两个模型输出的语音分类结果进行整合,按照各占0.5权重的方式进行加权求和,并由最终结果输出模块输出最终的语音分类结果。
[0045] 如图4所示,为图3中ResNet模型的结构图,第一层为卷积层,即输入层,包含64个相同的大小为5×5的卷积核。接着是一层批量归一化层,Relu激活函数以及大小为2×2的最大池化层。最大池化层后面依次连接的是三层相同的小残差块和四层相同的大残差块。四层大残差块后面是一层卷积层,该层卷积层包含512个相同的大小为9×1的卷积核。卷积层后面是一层包含512个神经元的全连接层,最后以Softmax激活函数作为输出。
[0046] 如图5所示,为图3中GRU模型的结构图,前三层均为卷积层,分别为一层输入层和两层隐藏层,第一、二层卷积层均包含64个相同的大小为3×3的卷积核,第三层卷积层包含128个相同的大小为5×5的卷积核,这三层卷积层每层后面都紧跟着一个大小为2×2的最大池化层。该三层卷积层后面连接三层残差块。该三层残差块后面是三层包含512个神经元的循环控单元层,其中前两层循环门控单元层返回的是该层所有神经元的输出向量,第三层循环门控单元层返回的是该层最后一个神经元的输出向量,便于与全连接层进行连接;;该循环门控单元层之后紧接着是一层包含512个神经元的全连接层,全连接层的激活函数为El u,最后是Softmax激活函数作为输出。
[0047] 如图6所示为图4中ResNet模型的残差块结构图,小残差块和大残差块都包含连续的三个卷积层(分别为输入层、隐藏层和输出层)和一个作为恒等映射的卷积层,分别用于提取语音特征向量和缓解由于网络过深所造成的网络退化问题。ResNet模型中的每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,其中图4中的小残差块中的四个卷积层的卷积核的数量分别为64、64、256、256,大残差块中的四个卷积层的卷积核的数量分别为128、128、512、512,卷积核的大小均为1×1。所述恒等映射的卷积层作用是越级传递信息,防止网络的退化/过拟合。
[0048] 如图7所示为图5中GRU模型的残差块结构图,所述残差块包含两个含有128个相同的大小为3×3的卷积核的卷积层,分别为输入层和输出层,每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,GRU模型的残差块的恒等映射为残差块的输入直接映射到输出。
[0049] 步骤2的预处理包括以下过程:VAD去静音、语音填充、语音截断。VAD去静音根据语音信号中的能量大小和过零率检测语音中的静音片段并去除,保证输入的音频尽可能地有效,从而神经网络能够学习到有用的特征;语音填充和截断都是通过判断语音的长度是否符合预设的要求来对音频信号进行处理,通常将音频文件的长度设置为3s,填充时进行零值填充,从而保证了输入的音频文件都具有相同的规格,便于统一处理。
[0050] 步骤3提取的语音信号特征为40位滤波的logFilterBank特征,提取特征过程中采用了语音加重、分加窗,其中帧长为25ms,帧移为10ms,窗函数使用汉明窗,之后进行快速傅立叶变换,将语音信号由时域信号转化为频域信号,然后使用梅尔滤波器组,最后取对数得到logFilterBank特征。最后将提取到的音频文件保存在后缀为.npy的文件中,便于特征向量的存储和读取。相比于梅尔倒谱系数(Mel-scale  Frequency Cepstral Coefficients,MFCC)特征,logFilterBank特征具有特征相关性更高的优点。
[0051] 步骤4在训练过程中采用的优化函数为随机梯度下降,损失函数为交叉熵,评价标准为分类准确率,并且在训练过程中进行分批次输入音频文件,并且在每一轮的迭代结束后使用验证集进行测试,得到当前模型的准确率,通过比较每一轮训练得到的模型的准确率,保存当前的最优模型的权重,在整个训练过程完成后,保存最终的模型权重到后缀为.h5的文件中。在训练过程中,每一轮训练完成后,将该轮训练所得模型在验证集上进行测试,并计算的准确率和损失值。如图8,9所示。所述训练轮数不少于五十轮。
[0052] 步骤6加载步骤5中保存的残差神经网络模型及其权重,输入步骤3中的测试集中待测试样本的语音信号特征向量,输出该待测试样本的语音分类识别结果,并计算分类的准确率。
[0053] 基于Python的学习库Keras搭建残差神经网络模型,在计算机CPU型号i7-8700、显卡GTX-1070、内存大小16GB的实验环境下,使用的数据集是LibriSpeech数据集,对上述残差神经网络模型进行训练、验证和测试,所得的结果如下表1所示:
[0054] 表1测试结果
[0055]
[0056]
[0057] 从表中可见,本发明所提出的残差神经网络模型在语音识别中的准确率均高于单独使用ResNet模型或GRU模型的准确率,说明所述残差神经网络模型在语音识别方面表现优异。
[0058] 本发明公开了一种基于忆阻网络的残差神经网络模型及其应用,涉及人工智能技术领域。基于忆阻器实现突触的可塑性,搭建忆阻网络,进而设计实现残差神经网络,并由此提出其在语音识别中的应用。其在硬件上提高了计算精度和训练效率,在软件上实现了更高级的残差神经网络,更擅长提取局部特征,同时结合了卷积神经网络和残差网络,使模型具有更好的泛化能力和鲁棒性,并且对于复杂的数据具有较强的拟合能力,在复杂应用场景下具有良好的适应能力。与传统卷积神经网络相比,本发明使用忆阻网络设计的残差神经网络模型具有优良的性能,可将其用于语音识别等领域。
[0059] 尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈