首页 / 专利库 / 信号处理 / 滤波器组 / 语音辅助的视听协同学习新目标网络模型的构建方法

语音辅助的视听协同学习新目标网络模型的构建方法

阅读:484发布:2020-05-11

专利汇可以提供语音辅助的视听协同学习新目标网络模型的构建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种语音辅助的视听协同学习新目标网络模型的构建方法,包括步骤S1-S11,本发明基于传统的对象识别模型和图像特征匹配技术,通过初始对象识别模型对已知对象进行精确识别,若出现新对象,则通过在线学习模型对新对象进行特征记忆,并实时更新初始对象识别模型,使模型的泛化能 力 更强,更加适用现实场景的应用。,下面是语音辅助的视听协同学习新目标网络模型的构建方法专利的具体信息内容。

1.一种语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,包括以下步骤:
S1:搭建用于原始对象识别的原始对象分类器M1和用于提取对象的特征向量的对象特征提取模型M2;
S2:创建用于保存新对象的特征向量的对象特征向量库B1和用于保存新对象的图像数据集的新对象图像库B2;
S3:输入新图像picture,加载原始对象分类器M1对新图像picture进行对象识别;
S4:若新图像picture中不存在未识别的对象,则停止操作;若存在未识别的对象(object-1、……、object-m)时,则加载对象特征提取模型M2对未识别的对象(object-
1、……、object-m)进行特征提取,将提取到的特征向量集R中的每一个特征向量分别与特征向量库B1中每一个特征向量进行特征匹配;
S5:若匹配时存在匹配的最高置信度most-value高于置信度基础值base-value的对象,则判定该对象正确识别,反之则判定该对象为新对象object;
S6:通过语音辅助进行人机交互,对新对象object的显性特征进行语音描述,为新对象object打上语音标签,得到新图像image;
S7:对新图像image进行图像增广,得到增广后的图像(image-1、image-2、……、image-n),并保存到新对象图像库B2中;
S8:加载对象特征提取模型M2,对新图像image中的新对象object进行特征提取,并将得到的特征向量feature保存到特征向量库B1中;
S9:遍历新对象图像库B2,判断是否有新对象的数据集量达到训练要求的数据集量N;
S10:若是,则将该新对象的数据集N与原始对象分类器M1的数据集进行合并,并利用合并的数据集训练新的对象分类器替换原始对象分类器M1,并删除新对象图像库B2中该新对象特征的图像数据集;
S11:否则,则重复步骤S3-S9,直到有新对象的数据集量达到训练要求的数据集量N。
2.根据权利要求1所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,所述搭建用于原始对象识别的原始对象分类器M1的方法包括:
A11:根据实际应用场景,利用图像数据集生成训练图像集images-input1;
A12:创建残差卷积神经网络ResNet来提取训练图像集images-input1中图像的图像特征feature-maps,残差卷积神经网络ResNet由卷积层conv1、relu1层和池化层pooling1组成;
A13:创建RPN网络生成图像候选区域region-proposals,并输入图像特征feature-maps,通过Softmax判断图像特征feature-maps属于前景还是后景,并对候选区域region-proposal进行修正,生成准确的候选区域proposals1;
A14:利用候选区域proposals1和图像特征feature-maps,生成一个固定大小的特征区域proposal-feature-maps。
A15:将固定大小的特征区域proposal-feature-maps进行全连接,利用Softmax进行对象分类,计算损失Loss,并修正损失Loss,实现原始对象的精确分类。
3.根据权利要求2所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,搭建用于提取对象的特征向量的对象特征提取模型M2的方法包括:
B11:准备具有若干类型的图像数据Data1作为训练数据集images-input2;
B12:加载训练数据集images-input2,预训练自主RPN网络模型RPN-model,输出对象候选区域proposals2;
B13:预训练特征提取网络模型con-model,加载训练数据集images-input2,特征提取网络模型con-model由卷积层conv2、relu2层、池化层pooling2和全连接层FC组成;
B14:对对象候选区域proposals2进行修正,然后分别输入到特征提取网络模型con-model中进行特征提取,得到每个候选区域的图像特征feature-maps。
4.根据权利要求3所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,所述特征提取网络模型con-model的卷积层conv2为16层、relu2层为15层、池化层pooling2为5层,所述卷积层conv2使用多通道卷积操作,卷积核大小为3x3,填充大小为1,卷积步数为1,所述池化层pooling2使用滤波器大小为2x2,步长为2,类型为最大池化,所述全连接层FC为三层,且每层加入dropout机制。
5.根据权利要求2所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,所述残差卷积神经网络ResNet的卷积层conv1为49层、relu1层为49层、池化层pooling1为2层,所述卷积层conv1使用多通道卷积操作,所述卷积层conv1包含有1个7x7的卷积核、32个1x1的卷积核和16个3x3的卷积核,所述池化层pooling1使用一个3x3的最大滤波器和一个2x2的均值滤波器。
6.根据权利要求1所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,所述特征向量集R通过特征提取网络模型con-model中深层卷积层提取:
第8层卷积层conv3-4后的特征矩阵为
第12层卷积层conv4-4后的特征矩阵为
第16层卷积层conv5-4后的特征矩阵为
其中i=n/2,j=m/2,p=i/2,q=j/2,
则特征矩阵
函数MatToVec(T)将一个矩阵各行进行拼接,变为一个一维向量,参数T=(A/B/C)为一个矩阵;函数Pad(n)为补零操作,参数n代表补零的个数;特征向量R1=MatToVec(S1),特征向量集R=(R1,R2,...,Rs),矩阵A、B中的n、m分别为矩阵A、B的长和宽,p、q分别代表矩阵C的长和宽。
7.根据权利要求1所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,所述最高置信度most-value为特征向量集R中的任意一个特征向量与特征向量库B1中任意一个特征向量的匹配度:
最高置信度 其中α+β+γ=1,M属于特征向量库B1特征
向量集Q=(Q1,Q2…Qt)中的向量,N属于特征向量集R=(R1,R2…Rs)中的向量,Q和R中所有特征向量的大小为L。

说明书全文

语音辅助的视听协同学习新目标网络模型的构建方法

技术领域

[0001] 本发明涉及计算机视觉技术领域,具体涉及一种语音辅助的视听协同学习新目标网络模型的构建方法。

背景技术

[0002] 随着计算机视觉的快速发展,对象识别技术已经应用到了各个领域,且带来了巨大的经济效益。近年来,出现了不少的对象识别网络模型,它们的识别准确度不断地得到提升,但有一个共同的缺陷,就是必须提前准备图像数据集,针对已有的数据集进行训练,生成一个对象检测器。在实际应用中,对象的种类有很多,很多图像数据收集不到或者很难得到。在一些场景中,事先并不知道该准备哪些类别的图像数据,这就导致传统的网络模型很难应用到实际场景中。图像的特征匹配技术可以对两种图像进行匹配,当没有足够的训练数据时,该技术具有很强的应用价值,虽然泛化能较弱,但在一些特定的场景中也能得到很好地应用。
[0003] 一个好的对象识别模型应该和人一样,具有自主学习和引导学习的能力,对已学习到的对象可以精确识别,对于新对象通过人的引导可以记忆学习,并不断更新模型的知识储备,使模型变得更加智能化。针对已有技术,本发明给出一种语音辅助的视听协同学习新目标的网络模型,它具有在线学习新目标的功能,在一些特定场景(如家居机器人、巡检机器人等)中具有重要的应用价值,将推动该领域的发展。

发明内容

[0004] 针对现有技术的上述不足,本发明提供了一种解决现有网络模型不具备在线学习新目标缺陷的语音辅助的视听协同学习新目标网络模型的构建方法。
[0005] 为达到上述发明目的,本发明所采用的技术方案为:
[0006] 提供一种语音辅助的视听协同学习新目标网络模型的构建方法,其包括以下步骤:
[0007] S1:搭建用于原始对象识别的原始对象分类器M1和用于提取对象的特征向量的对象特征提取模型M2;
[0008] S2:创建用于保存新对象的特征向量的对象特征向量库B1和用于保存新对象的图像数据集的新对象图像库B2;
[0009] S3:输入新图像picture,加载原始对象分类器M1对新图像picture进行对象识别;
[0010] S4:若新图像picture中不存在未识别的对象,则停止操作;若存在未识别的对象(object-1、……、object-m)时,则加载对象特征提取模型M2对未识别的对象(object-1、……、object-m)进行特征提取,将提取到的特征向量集R中的每一个特征向量分别与特征向量库B1中每一个特征向量进行特征匹配;
[0011] S5:若匹配时存在匹配的最高置信度most-value高于置信度基础值base-value的对象,则判定该对象正确识别,反之则判定该对象为新对象object;
[0012] S6:通过语音辅助进行人机交互,对新对象object的显性特征进行语音描述,为新对象object打上语音标签,得到新图像image;
[0013] S7:对新图像image进行图像增广,得到增广后的图像(image-1、image-2、……、image-n),并保存到新对象图像库B2中;
[0014] S8:加载对象特征提取模型M2,对新图像image中的新对象object进行特征提取,并将得到的特征向量feature保存到特征向量库B1中;
[0015] S9:遍历新对象图像库B2,判断是否有新对象的数据集量达到训练要求的数据集量N;
[0016] S10:若是,则将该新对象的数据集N与原始对象分类器M1的数据集进行合并,并利用合并的数据集训练新的对象分类器替换原始对象分类器M1,并删除新对象图像库B2中该新对象特征的图像数据集;
[0017] S11:否则,则重复步骤S3-S9,直到有新对象的数据集量达到训练要求的数据集量N。
[0018] 进一步地,搭建用于原始对象识别的原始对象分类器M1的方法包括:
[0019] A11:根据实际应用场景,利用图像数据集生成训练图像集images-input1;
[0020] A12:创建残差卷积神经网络ResNet来提取训练图像集images-input1中图像的图像特征feature-maps,残差卷积神经网络ResNet由卷积层conv1、relu1层和池化层pooling1组成;
[0021] A13:创建RPN网络生成图像候选区域region-proposals,并输入图像特征feature-maps,通过Softmax判断图像特征feature-maps属于前景还是后景,并对候选区域region-proposal进行修正,生成准确的候选区域proposals1;
[0022] A14:利用候选区域proposals1和图像特征feature-maps,生成一个固定大小的特征区域proposal-feature-maps。
[0023] A15:将固定大小的特征区域proposal-feature-maps进行全连接,利用Softmax进行对象分类,计算损失Loss,并修正损失Loss,实现原始对象的精确分类。
[0024] 进一步地,搭建用于提取对象的特征向量的对象特征提取模型M2的方法包括:
[0025] B11:准备具有若干类型的图像数据Data1作为训练数据集images-input2;
[0026] B12:加载训练数据集images-input2,预训练自主RPN网络模型RPN-model,输出对象候选区域proposals2;
[0027] B13:预训练特征提取网络模型con-model,加载训练数据集images-input2,特征提取网络模型con-model由卷积层conv2、relu2层、池化层pooling2和全连接层FC组成。
[0028] B14:对对象候选区域proposals2进行修正,然后分别输入到特征提取网络模型con-model中进行特征提取,得到每个候选区域的图像特征feature-maps。
[0029] 进一步地,特征提取网络模型con-model的卷积层conv2为16层、relu2层为15层、池化层pooling2为5层,卷积层conv2使用多通道卷积操作,卷积核大小为3x3,填充大小为1,卷积步数为1,池化层pooling2使用滤波器大小为2x2,步长为2,类型为最大池化,全连接层FC为三层,且每层加入dropout机制。
[0030] 进一步地,残差卷积神经网络ResNet的卷积层conv1为49层、relu1层为49层、池化层pooling1为2层,卷积层conv1使用多通道卷积操作,卷积层conv1包含有1个7x7的卷积核、32个1x1的卷积核和16个3x3的卷积核,池化层pooling1使用一个3x3的最大滤波器和一个2x2的均值滤波器。
[0031] 进一步地,特征向量集R通过特征提取网络模型con-model中深层卷积层提取:
[0032] 第8层卷积层conv3-4后的特征矩阵为
[0033] 第12层卷积层conv4-4后的特征矩阵为
[0034] 第16层卷积层conv5-4后的特征矩阵为
[0035] 其中i=n/2,j=m/2,p=i/2,q=j/2,
[0036] 则特征矩阵
[0037] 函数MatToVec(T)将一个矩阵各行进行拼接,变为一个一维向量,参数T=(A/B/C)为一个矩阵;函数Pad(n)为补零操作,参数n代表补零的个数;特征向量R1=MatToVec(S1),特征向量集R=(R1,R2,...,Rs),矩阵A、B中的n、m分别为矩阵A、B的长和宽,p、q分别代表矩阵C的长和宽。
[0038] 进一步地,最高置信度most-value为特征向量集R中的任意一个特征向量与特征向量库B1中任意一个特征向量的匹配度:
[0039]
[0040] 最高置信度 其中α+β+γ=1,M属于特征向量库B1特征向量集Q=(Q1,Q2…Qt)中的向量,N属于特征向量集R=(R1,R2…Rs)中的向量,Q和R中所有特征向量的大小为L。
[0041] 本发明的有益效果为:本发明基于传统的对象识别模型和图像特征匹配技术,通过初始对象识别模型对已知对象进行精确识别,若出现新对象,则通过在线学习模型对新对象进行特征记忆,并实时更新初始对象识别模型,使模型的泛化能力更强,更加适用现实场景的应用。
[0042] 在一些场景中,大多数对象比较固定,本方案只需要进行特征记忆即可实现识别,而且在不断地记忆学习中可以对初始对象识别模型进行更新,使之可以识别更多种类的对象。将本发明的网络模型应用到需要对象识别的场景中,模型显得更加智能化。相比于传统的对象识别模型,具有更大的应用价值,该网络模型将推动对象识别领域的发展,具有重要的研究意义。附图说明
[0043] 图1为语音辅助的视听协同学习新目标网络模型的构建方法的流程图

具体实施方式

[0044] 下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0045] 如图1所示,语音辅助的视听协同学习新目标网络模型的构建方法包括以下步骤:
[0046] S1:搭建用于识别原始对象的原始对象分类器M1和用于提取对象的特征向量的对象特征提取模型M2;
[0047] 搭建用于原始对象识别的原始对象分类器M1的方法包括:
[0048] A11:根据实际应用场景,利用图像数据集生成训练图像集images-input1;
[0049] A12:创建残差卷积神经网络ResNet来提取训练图像集images-input1中图像的图像特征feature-maps,残差卷积神经网络ResNet由卷积层conv1、relu1层和池化层pooling1组成。
[0050] 残差卷积神经网络ResNet的卷积层conv1为49层、relu1层为49层、池化层pooling1为2层,卷积层conv1使用多通道卷积操作,卷积层conv1包含有1个7x7的卷积核、32个1x1的卷积核和16个3x3的卷积核,池化层pooling1使用一个3x3的最大滤波器和一个
2x2的均值滤波器。
[0051] 步骤A12包括:
[0052] A121:利用具有若干类型的图像数据Data1作为训练数据集images-input2;
[0053] A122:加载训练数据集images-input2,预训练自主RPN网络模型RPN-model,输出对象候选区域proposals2。
[0054] A123:预训练特征提取网络模型con-model作为训练数据集images-input2,特征提取网络模型con-model由卷积层conv2、relu2层、池化层pooling2和全连接层FC组成。
[0055] 特征提取网络模型con-model的卷积层conv2为16层、relu2层为15层、池化层pooling2为5层,卷积层conv2使用多通道卷积操作,卷积核大小为3x3,填充大小为1,卷积步数为1,池化层pooling2使用滤波器大小为2x2,步长为2,类型为最大池化,全连接层FC为三层,且每层加入dropout机制。
[0056] A124:对对象候选区域proposals2进行修正,然后分别输入到特征提取网络模型con-model中进行特征提取,得到每个候选区域的图像特征feature-maps。
[0057] A13:创建RPN网络生成图像候选区域region-proposals,并输入图像特征feature-maps,通过Softmax判断图像特征feature-maps属于前景还是后景,并对候选区域region-proposal进行修正,生成准确的候选区域proposals1;
[0058] A14:利用候选区域proposals1和图像特征feature-maps,生成一个固定大小的特征区域proposal-feature-maps。
[0059] A15:将固定大小的特征区域proposal-feature-maps进行全连接,利用Softmax进行对象分类,计算损失Loss,并修正损失Loss,实现原始对象的精确分类。
[0060] 搭建用于提取对象的特征向量的对象特征提取模型M2的方法包括:
[0061] B11:利用具有若干类型的图像数据Data1,生成训练数据集images-input2;
[0062] B12:加载训练数据集images-input2,预训练自主RPN网络模型RPN-model,输出对象候选区域proposals2。
[0063] B13:预训练特征提取网络模型con-model,加载训练数据集images-input2,特征提取网络模型con-model由卷积层conv2、relu2层、池化层pooling2和全连接层FC组成。
[0064] 特征提取网络模型con-model的卷积层conv2为16层、relu2层为15层、池化层pooling2为5层,卷积层conv2使用多通道卷积操作,卷积核大小为3x3,填充大小为1,卷积步数为1,池化层pooling2使用滤波器大小为2x2,步长为2,类型为最大池化,全连接层FC为三层,且每层加入dropout机制。
[0065] B14:对对象候选区域proposals2进行修正,然后分别输入到特征提取网络模型con-model中进行特征提取,得到每个候选区域的图像特征feature-maps。
[0066] S2:创建用于保存新对象的特征向量的对象特征向量库B1和用于保存新对象的图像数据集的新对象图像库B2;
[0067] S3:输入新图像picture,加载原始对象分类器M1对新图像picture进行对象识别;
[0068] S4:若新图像picture中不存在未识别的对象,则停止操作;若存在未识别的对象(object-1、……、object-m)时,则加载对象特征提取模型M2对未识别的对象(object-1、……、object-m)进行特征提取,将提取到的特征向量集R中的每一个特征向量分别与特征向量库B1中每一个特征向量进行特征匹配;
[0069] 特征向量集R通过特征提取网络模型con-model中深层卷积层提取:
[0070] 第8层卷积层conv3-4后的特征矩阵为
[0071] 第12层卷积层conv4-4后的特征矩阵为
[0072] 第16层卷积层conv5-4后的特征矩阵为
[0073] 其中i=n/2,j=m/2,p=i/2,q=j/2,
[0074] 则特征矩阵
[0075] 函数MatToVec(T)将一个矩阵各行进行拼接,变为一个一维向量,参数T=(A/B/C)为一个矩阵;函数Pad(n)为补零操作,参数n代表补零的个数;特征向量R1=MatToVec(S1),特征向量集R=(R1,R2,...,Rs),矩阵A、B中的n、m分别为矩阵A、B的长和宽,p、q分别代表矩阵C的长和宽。
[0076] S5:若匹配时存在匹配的最高置信度most-value高于置信度基础值base-value的对象,则判定该对象正确识别,反之则判定该对象为新对象object;
[0077] 最高置信度most-value为特征向量集R中的任意一个特征向量与特征向量库B1中任意一个特征向量的匹配度:
[0078]
[0079] 最高置信度 其中α+β+γ=1,M属于特征向量库B1特征向量集Q=(Q1,Q2…Qt)中的向量,N属于特征向量集R=(R1,R2…Rs)中的向量,Q和R中所有特征向量的大小为L。
[0080] S6:通过语音辅助进行人机交互,对新对象object的显性特征进行语音描述,为新对象object打上语音标签,得到新图像image;
[0081] S7:对新图像image进行图像增广,得到增广后的图像(image-1、image-2、……、image-n),并保存到新对象图像库B2中;
[0082] S8:加载对象特征提取模型M2,对新图像image中的新对象object进行特征提取,并将得到的特征向量feature保存到特征向量库B1中;
[0083] 特征向量feature的获得不需要经过特征提取模型M2中的自主RPN网络模型RPN-model,因为通过语音辅助已经为新对象打上了特征标签,不需要再提取对象区域。直接将打完特征标签的图像输入到所述特征提取模型M2中的特征提取网络模型con-model提取特征向量feature即可。
[0084] S9:遍历新对象图像库B2,判断是否有新对象的数据集量达到训练要求的数据集量N;
[0085] S10:若有,则将该新对象的数据集N与原始对象分类器M1的数据集进行合并,并利用合并的数据集训练新的对象分类器替换原始对象分类器M1,并删除新对象图像库B2中该新对象特征的图像数据集;
[0086] S11:若无,则重复步骤S3-S9,直到有新对象的数据集量达到训练要求的数据集量N。
[0087] 本发明基于传统的对象识别模型和图像特征匹配技术,通过初始对象识别模型对已知对象进行精确识别,若出现新对象,则通过在线学习模型对新对象进行特征记忆,并实时更新初始对象识别模型,使模型的泛化能力更强,更加适用现实场景的应用。
[0088] 在一些场景中,大多数对象比较固定,本方案只需要进行特征记忆即可实现识别,而且在不断地记忆学习中可以对初始对象识别模型进行更新,使之可以识别更多种类的对象。将本发明的网络模型应用到需要对象识别的场景中,模型显得更加智能化。相比于传统的对象识别模型,具有更大的应用价值,该网络模型将推动对象识别领域的发展,具有重要的研究意义。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈