专利汇可以提供基于多尺度深度学习的图像问答方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于多尺度 深度学习 的图像问答方法,该方法受人类在图像问答中的认知行为启发,包括以下步骤:1)首先将同一图片按照需要设定为不同尺度大小的三幅图片,并采用预训练好的 卷积神经网络 提取图片特征,获取多 尺度图 片特征;2)利用 递归神经网络 来得到问句的特征表示,并接一个带不同卷积核大小的卷积层来获取n元问句特征表示;3)采用注意 力 转移机制来探索不同尺度的图片特征与n元问句表示之间的内在关联关系,即相似性度量;4)最后,融合不同尺度图片特征和n元问句特征,并使用层次网络结构,从大尺度到中尺度再到小尺度来推理预测问题的答案。本发明模拟人类在图像问答中的认知行为,并且在基准数据集上取得较高 精度 。,下面是基于多尺度深度学习的图像问答方法专利的具体信息内容。
1.一种基于多尺度深度学习的图像问答方法,其特征在于,所述的图像问答方法包括如下步骤:
S1、对训练数据集中的图像,设定为大、中、小三种尺度图像,得到不同尺度的图像;
S2、对不同尺度的图像,用预先训练好的卷积神经网络分别提取各个尺度的图像特征,得到大、中、小三种尺度图像特征,然后对每个尺度的特征采用二范数归一化;
S3、对训练数据集中图像对应的问句,使用双向门循环神经网络获得问句特征表示;
S4、将上述的问句特征表示,使用带有不同卷积核大小的单层卷积层,获得n元问句特征表示,包括一元问句特征、二元问句特征、三元问句特征;
S5、采用注意力转移机制,计算各个尺度图像特征与n元问句特征之间的相似度,得到各个尺度图像特征的权重分布,以及n元问句特征的权重分布;
S6、将各个尺度图像特征与相应的权重分布加权求和,得到各个尺度的注意力图像特征向量,将n元问句特征与相应的权重分布加权求和,得到n元问句注意力特征向量;
S7、将各个尺度的注意力图像特征向量与相应n元问句注意力特征向量进行融合得到融合特征;
S8、将上述的融合特征,从大尺度到中等尺度再到小尺度进行融合,使用层次多层感知机结构,推理预测问句的答案;
S9、在训练数据集上不断重复S1到S8,直到验证集上的准确率达到预期目标或者网络的损失函数开始收敛;
S10、将训练好的网络在测试集上进行测试。
2.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S1中不同尺度的图像是通过以下过程得到:将原始图片缩放到某个设定的尺度,作为大尺度图像,然后从大尺度图像的中央裁剪出中等尺度图像和小尺度图像。
3.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S4具体如下:
将所述的步骤S3中得到的问句特征表示,使用卷积核窗口大小分别为1*k,2*k,3*k,卷积操作过程沿着问句的单词顺序分别得到一元问句特征、二元问句特征、三元问句特征,其中,k是词向量的长度。
4.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S5包括下列子步骤:
S501、将大、中、小尺度的图像特征和一元问句特征、二元问句特征、三元问句特征分别线性映射到相同的低维度特征表示,特征维度为d,且d
C=tanh(QWVT)
其中,相似矩阵C∈RT×N,T是问句中的单词数,N是图片特征块数,Q是问句特征,Q∈RT×d,W是d×d维度参数矩阵,V是图像特征,V∈RN×d;
S503、计算各个尺度图像特征和n元问句特征的权重分布,取相似矩阵C中每一行的最大值作为问句特征的权重分布αq,取相似矩阵C中每一列的最大值作为图像特征的权重分布βv,并用Softmax函数归一化:
αq=softmax(maxj(Ct,j));
βv=softmax(maxi(Ci,n));
其中,αq∈RT,βv∈RN,q取值1、2、3,分别表示一元问句、二元问句、三元问句,v取值1,2,3分布表示小尺度图像特征,中尺度图像特征,大尺度图像特征。
5.根据权利要求4所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S6中将各个尺度图像特征与相应的权重分布加权求和,得到各个尺度的注意力图像特征向量,将n元问句特征与相应的权重分布加权求和,得到n元问句注意力特征向量,计算方式如下:
6.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S7中注意力图像特征向量与注意力文本特征向量之间的融合,采用向量逐元素相乘的方式,融合大尺度图像特征与三元注意力问句特征,融合中尺度图像特征与二元注意力问句特征,融合小尺度图像特征与一元注意力问句特征。
7.根据权利要求1所述的基于多尺度深度学习的图像问答方法,其特征在于,所述的步骤S8中将步骤S7中得到的融合特征,从大尺度到中等尺度再到小尺度融合不同尺度特征,使用层次多层感知机结构,推理预测问句的答案,得到预测答案的概率值,具体计算方式为:
h1=tanh(W1(Q3⊙V3))
h2=tanh(W2(Q2⊙V2),h1)
h3=tanh(W3(Q1⊙V1),h2)
p=softmax(Whh3)
其中,W1,W2,W3,Wh是需要训练的模型参数,⊙表示逐元素相乘,p表示问句的答案预测的概率,h1是大尺度融合的第一层特征,h2是大尺度特征与中等尺度特征融合的第二层尺度特征,h3是大尺度与中尺度融合后与小尺度特征融合的第三层尺度特征,tanh(·)表示双曲正切函数。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种微纳尺度的图形绘制方法 | 2020-05-11 | 735 |
大尺度地距星载SAR图像镶嵌方法 | 2020-05-11 | 630 |
尺度无关图 | 2020-05-11 | 274 |
图像纹理窗口形状与尺度的选择方法 | 2020-05-11 | 650 |
一种多尺度图像增强方法 | 2020-05-12 | 43 |
基于多尺度深度学习的图像问答方法 | 2020-05-13 | 651 |
一种微纳尺度的图形绘制方法 | 2020-05-13 | 562 |
一种多尺度SAR图像边缘检测方法 | 2020-05-11 | 491 |
使用多尺度取向片段的多图像匹配 | 2020-05-12 | 520 |
数字图像中目标物体多尺度捕捉方法 | 2020-05-13 | 12 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。