专利汇可以提供一种基于目标语义和深度外观特征融合的场景识别方法专利检索,专利查询,专利分析的服务。并且一种基于目标语义和深度外观特征融合的场景识别方法,具体步骤为:获取待识别的场景图像;提取场景图像的目标语义信息,生成保持 空间布局 信息的目标语义特征;提取场景图像的外观上下文信息,生成外观上下文特征;提取场景图像的外观全局信息,生成外观全局特征;根据目标语义特征、外观上下文特征和外观全局特征,获取场景图像的识别结果。本 发明 采用多类目标检测器 算法 ,精准地获取关键目标、类别及其布局信息;通过SFV模型获取室内场景图像的目标语义特征;卷积层和LSTM层组成端到端可训练的混合DNN网络结构可以有效提取场景图像的上下文相信息。该方法融合了目标语义信息、全局外观信息和外观的上下文特征,提高了识别算方法的识别率和鲁棒性。,下面是一种基于目标语义和深度外观特征融合的场景识别方法专利的具体信息内容。
1.一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,具体步骤为:
获取待识别的场景图像;
提取场景图像的目标语义信息,生成保持空间布局信息的目标语义特征;
提取场景图像的外观上下文信息,生成外观上下文特征;
提取场景图像的外观全局信息,生成外观全局特征;
根据所述目标语义特征、所述外观上下文特征和所述外观全局特征,获取所述场景图像的识别结果。
2.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述生成保持空间布局信息的目标语义特征的具体方法为:
从数据库中收集类目标图像,训练相对应的多类目标检测器;
输入场景图像,输出对应的矩阵;
根据类别得分,对矩阵中网格单元的锚点的数据进行最大池化,获取底层特征;
根据SFV模型将底层特征转化为目标语义特征。
3.根据权利要求2所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述数据库为ImageNet数据库,所述类目标图像的数量为177;
所述场景图像像素为608×608,所述矩阵的维度为19×19×(5+177)×5=328,510,其中,19×19为输出的网格单元的宽和高,括号内的5为目标的位置坐标,大小和置信度,括号外的5为5个锚点,177为类别得分的维度;根据类别得分,最大池化每个网格单元中的5个锚点的数据,获取维度为65702的底层特征;所述SFV模型提取的初始维度为92928,在SFV模型中,利用128维高斯核生成外观模型和一个混合高斯核生成每个视觉词汇的空间模型,再通过主成分分析降维至4096维,获取目标语义特征。
4.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述生成外观上下文特征具体方法为:构建混合DNN网络模型,将场景图像输入混合DNN网络模型提取出场景外观上下文特征。
5.根据权利要求4所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述混合DNN网络模型包括1个输入、13个卷积层、4个最大池化层、2个四方向长短期记忆网络LSTM层和1个输出层,所述输入为256×256的RGB图像,所述池化层的卷积核为2×2,步长为2,所述卷积层的卷积核为3×3,卷积的步长为1,所述卷积层的输入为空间填充。
6.根据权利要求5所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述混合DNN网络模型的前17层依次为:2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层;其中,第13层和第17层的卷积层后分别拼接四方向长短期记忆网络LSTM层,所述四方向长短期记忆网络LSTM层包含水平方向从左到右、水平方向从右至左、垂直方向从上至下、垂直方向从下至上四种方向,具有四个输出;2个所述四方向长短期记忆网络LSTM层的8个LSTM输出串接作为所述混合DNN网络模型的输出,生成外观上下文特征;所述输出的维度为4096维。
7.根据权利要求6所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述四方向长短期记忆网络LSTM层内有一个隐含层,所述隐含层的输入为512维,输出为512维。
8.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述生成外观全局特征具体方法为:将场景图像输入卷积神经网络VGG16模型中,提取倒数第二层的全连接层输出作为外观全局特征。
9.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述获取所述场景图像的识别结果具体方法为:将所述目标语义特征、所述外观上下文特征和所述外观全局特征进行得分融合,训练SVM分类器,获取所述场景图像的识别结果。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
视频分类方法、模型训练方法、装置及设备 | 2020-07-20 | 1 |
一种引入对抗训练的基于内容的实例检索方法 | 2021-01-08 | 2 |
一种基于卷积神经网络的稳态视觉诱发电位信号分类方法 | 2021-01-30 | 1 |
多重CNN网络预测全景视频观看位置的方法和系统 | 2021-02-25 | 1 |
一种面向嵌入式应用的深度对抗网络优化方法 | 2022-12-14 | 1 |
一种解析房产证照片内容的方法 | 2020-09-06 | 1 |
一种三维模具缺陷检测方法及装置 | 2020-12-11 | 0 |
产品缺陷检测方法及系统 | 2022-09-23 | 0 |
卷积神经网络压缩方法及人脸检测方法 | 2022-10-24 | 0 |
年龄的估计方法、装置、电子设备和计算机存储介质 | 2021-08-29 | 1 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。