专利汇可以提供一种基于忆阻网络的残差神经网络模型及其应用方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于忆阻网络的残差神经网络模型及其应用方法,基于忆阻器构建的忆阻网络结构,能够进行 大规模并行处理 ,同时拥有巨大的存储量。忆阻器可通过调节两端的施加 电压 ,灵活地改变其阻值状态,从而实现突触可塑性。基于忆阻器的忆阻网络具有功耗低,速度快和模 块 化等优势,可根据开发者的需求构建多种神经网络。由忆阻器所搭建的忆阻网络作为残差神经网络的 硬件 支撑 ,在此 基础 之上构建残差神经网络模型,进而实现残差神经网络模型的训练、测试等功能,通过在忆阻器两边施加电压控制忆阻器的阻值,从而实现残差神经网络模型中各种所需算术运算。,下面是一种基于忆阻网络的残差神经网络模型及其应用方法专利的具体信息内容。
1.一种基于忆阻网络的残差神经网络模型,其特征在于,该残差神经网络模型将基于忆阻器的忆阻网络结构作为所述残差神经网络模型的权值矩阵,在此基础上构建所述残差神经网络模型,进而实现所述残差神经网络模型的训练、测试功能,通过对忆阻器两端施加不同的电压来灵活改变忆阻器的阻值,从而实现所述残差神经网络模型中的各种所需的算术运算;
基于忆阻器所搭建的忆阻网络由多个忆阻器按照M×N矩阵的形式排列而成,其中M、N均为大于0的整数;
所述残差神经网络模型包含输入层、多层隐藏层和恒等映射,最后是输出层,由于忆阻器具有阻值可变性和可存储性,在所述残差神经网络模型中,多层隐藏层之间的权重通过忆阻网络进行模拟,具体通过忆阻网络中的忆阻器的阻值来进行模拟,其中对忆阻器所施加的电压对应隐藏层的输入,输出的电流对应隐藏层中激活函数之前的乘加和;
具体地,所述忆阻网络用于模拟矩阵向量乘操作,采用Vo=(Vo,0,Vo,1,...,Vo,M)表示神经元的输出向量,Vi=(Vi,0,Vi,1,...,Vi,N)表示神经元的输入向量,所述输出向量与所述输入向量之间的矩阵向量乘操作可以通过以下公式表示:
其中,公式中M×N的矩阵CM,N的参数值ci,j由忆阻器阵列对应位置的电导系数gi,j与负载电阻gs共同决定,ci,j指的是矩阵CM,N中的第i行、第j列的元素,gs为一个额外的电阻值,与矩阵中的i、j位置无关。
2.根据权利要求1所述的基于忆阻网络的残差神经网络模型,其特征在于,所述步骤S1)中所构建的残差神经网络模型包括输入模块、特征提取模块、ResNet模型、GRU模型、ResNet输出模块、GRU输出模块、分类结果整合模块和最终结果输出模块;所述特征提取模块对由所述输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述ResNet模型和所述GRU模型均采用相同的语音信号特征向量作为所述残差神经网络模型的输入,由所述ResNet输出模块和所述GRU输出模块分别输出所述ResNet模型和所述GRU模型的语音分类结果,然后通过所述分类结果整合模块将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行整合,按照各占0.5权重的方式将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行加权求和,并由所述最终结果输出模块输出最终的语音分类结果,其中,分别由所述ResNet输出模块和所述GRU输出模块输出的语音分类结果为统一的格式。
3.根据权利要求2所述的基于忆阻网络的残差神经网络模型,其特征在于,所述ResNet模型的结构为:第一层是卷积层,即输入层,包含64个相同的大小为5×5的卷积核;紧接着是一层批量归一化层、Relu激活函数以及一个大小为2×2的最大池化层;最大池化层后面依次连接的是三层相同的小残差块和四层相同的大残差块;该四层相同的大残差块后面是一层卷积层,该层卷积层包含512个相同的大小为9×1的卷积核;该层卷积层后面是一层包含512个神经元的全连接层,最后以Softmax激活函数作为输出。
4.根据权利要求2所述的基于忆阻网络的残差神经网络模型,其特征在于,所述GRU模型的结构为:前三层均为卷积层,分别作为一层输入层和两层隐藏层,第一、二层卷积层均包含64个相同的大小为3×3的卷积核,第三层卷积层包含128个相同的大小为5×5的卷积核,这三层卷积层每层后面都紧跟着一个大小为2×2的最大池化层,该三层卷积层后面连接三层残差块,该三层残差块后面是三层包含512个神经元的循环门控单元层,其中前两层循环门控单元层返回的是该层所有神经元的输出向量,第三层循环门控单元层返回的是该层最后一个神经元的输出向量,便于与全连接层进行连接;该三层循环门控单元层之后紧接着是一层包含512个神经元的全连接层,该全连接层的激活函数为Elu,最后是Softmax激活函数作为输出。
5.根据权利要求3所述的基于忆阻网络的残差神经网络模型,其特征在于,所述ResNet模型的残差块结构为:所述小残差块和所述大残差块都包含连续的三个卷积层和一个作为恒等映射的卷积层,所述连续的三个卷积层分别作为输入层、隐藏层和输出层,所述连续的三个卷积层用于提取语音特征向量,所述作为恒等映射的卷积层用于缓解由于网络过深所造成的网络退化问题;所述ResNet模型中的每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,其中所述小残差块中的四个卷积层的卷积核的数量分别为64、64、256、256,所述大残差块中的四个卷积层的卷积核的数量分别为128、128、512、512,这四个卷积层分别为所述ResNet模型中输入层、隐藏层、输出层和作为恒等映射的卷积层,所述小残差块和所述大残差块中所有卷积核的大小均为1×1。
6.根据权利要求4所述的基于忆阻网络的残差神经网络模型,其特征在于,所述GRU模型的残差块结构为:所述残差块包含两个含有128个相同的大小为3×3的卷积核的卷积层,分别作为输入层和输出层,每个卷积层后面都紧跟着一层批量归一化层和Relu激活函数,并且所述GRU模型的残差块的恒等映射为残差块的输入直接映射到输出。
7.一种基于忆阻网络的残差神经网络模型的应用方法,其特征在于,该方法包括如下步骤:
S1)基于Python下的Keras库构建残差神经网络模型作为声学模型;
S2)获取原始音频文件的列表,将原始音频文件按照一定的预设比例分为训练集、验证集、测试集,并将每个原始音频文件与其标签一一对应起来;并输入原始音频文件,对所述原始音频文件的语音信号进行预处理,得到经过预处理的原始音频文件的语音信号;
S3)所述残差神经网络模型提取步骤S2)中获取的所述经过预处理的原始音频文件的语音信号的特征,生成语音信号特征向量,保存所述语音信号特征向量到特定文件,所述所述语音信号特征向量包括训练集、验证集以及测试集的语音信号特征向量;
S4)将步骤S3)提取的训练集和验证集的语音信号特征向量输入到所述残差神经网络模型中,训练所述残差神经网络模型,得到训练完成的残差神经网络模型;
S5)保存所述训练完成的残差神经网络模型及其相关参数;
S6)将步骤S3)中测试集中待测试样本的语音信号特征向量输入到步骤S5)中保存的所述训练完成的残差神经网络模型中,输出该待测试样本的语音分类的结果,并计算语音分类的准确率。
8.根据权利要求7所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S1)中所构建的残差神经网络模型包括输入模块、特征提取模块、ResNet模型、GRU模型、ResNet输出模块、GRU输出模块、分类结果整合模块和最终结果输出模块;所述特征提取模块对由所述输入模块输入的原始音频文件统一进行特征提取,得到语音信号特征向量;所述ResNet模型和所述GRU模型均采用相同的语音信号特征向量作为所述残差神经网络模型的输入,由所述ResNet输出模块和所述GRU输出模块分别输出所述ResNet模型和所述GRU模型的语音分类结果,然后通过所述分类结果整合模块将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行整合,按照各占0.5权重的方式将所述ResNet模型和所述GRU模型分别输出的语音分类结果进行加权求和,并由所述最终结果输出模块输出最终的语音分类结果,其中,分别由所述ResNet输出模块和所述GRU输出模块输出的语音分类结果为统一的格式。
9.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S2)对所述原始音频文件的语音信号进行预处理包括以下过程:VAD去静音、语音填充和语音截断,其中,VAD去静音是根据语音信号中的能量大小和过零率检测语音中的静音片段并去除,保证输入的音频尽可能地有效,从而使得所述残差神经网络模型能够学习到有用的特征;语音填充和截断都是通过判断语音信号的长度是否符合预设的要求来对音频文件进行处理,将音频文件的长度设置为3s,填充时进行零值填充,从而保证输入的音频文件都具有相同的规格,便于统一处理。
10.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S3)中提取的语音信号的特征为40位滤波的logFilterBank特征,提取特征过程中采用了语音加重、分帧、加窗,其中帧长为25ms,帧移为10ms,窗函数使用汉明窗,之后进行快速傅立叶变换,将语音信号由时域信号转化为频域信号,然后使用梅尔滤波器组,最后取对数得到logFilterBank特征。
11.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S4)中在训练所述残差神经网络模型的过程中采用的优化函数为随机梯度下降,损失函数为交叉熵,评价标准为分类准确率,并且在训练过程中进行分批次输入训练集的语音信号特征向量,并且在每一轮的迭代结束后使用验证集的语音信号特征向量进行测试,得到当前残差神经网络模型的准确率,通过比较每一轮迭代训练得到的残差神经网络模型的准确率,并在所述步骤S5)中保存当前的最优残差神经网络模型的权重,在整个训练过程完成后,保存最终的残差神经网络模型权重到后缀为.h5的文件中,在训练过程中,每一轮训练完成后,将该轮训练所得模型在验证集上进行测试,并计算准确率和损失值。
12.根据权利要求8所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S3)中所述特定文件为后缀为.npy的文件,以便于语音信号特征向量的存储和读取。
13.根据权利要求11所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述训练轮数不少于50轮。
14.根据权利要求7-13任意一项所述的基于忆阻网络的残差神经网络模型的应用方法,其特征在于,所述步骤S1)中基于Python下的Keras库构建的残差神经网络模型是在计算机CPU型号i7-8700、显卡GTX-1070、内存大小16GB的实验环境下,使用的原始音频文件是LibriSpeech数据集,对所述残差神经网络模型进行训练、验证和测试。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
语音识别方法、服务器及计算机可读存储介质 | 2020-05-11 | 349 |
基于人脸特征识别用户性别的方法、装置及终端 | 2020-05-12 | 192 |
一种语音识别方法、装置和用于语音识别的装置 | 2020-05-12 | 186 |
一种语音控制方法、装置、电子设备及存储介质 | 2020-05-11 | 862 |
语音信号中针对通用特定语音的并联特征提取系统及方法 | 2020-05-12 | 41 |
一种基于D2D技术的离线式语音控制方法、系统及存储介质 | 2020-05-13 | 544 |
一种基于CLDNN+CTC声学模型的语音识别方法 | 2020-05-12 | 901 |
一种基于画屏的语音交互方法、画屏及存储介质 | 2020-05-11 | 215 |
一种面向私家车内后排婴儿/宠物趴窗判别及车内氛围识别方法 | 2020-05-12 | 829 |
一种水电站进水口前水流结构优化设计多功能试验系统 | 2020-05-12 | 750 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。