专利汇可以提供一种基于文本自编码器的视频内容描述方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于文本自 编码器 的视频内容描述方法。本发明方法首先构建 卷积神经网络 提取视频的二维和三维特征;其次,构建文本自编码器,即分别用编码器-文本卷积网络提取文本隐空间特征和 解码器 -多头注意 力 残差网络重构文本;再次,通过自注意力机制及全连接映射得到估计文本隐空间特征;最后,通过自适应矩估计 算法 交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。本发明方法通过文本自编码器的训练可充分挖掘视频内容语义和视频文本描述的潜在关系,通过自注意力机制捕捉视频长时间跨度的动作时序信息,提高了模型的计算效率,从而生成更符合视频真实内容的文本描述。,下面是一种基于文本自编码器的视频内容描述方法专利的具体信息内容。
1.一种基于文本自编码器的视频内容描述方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).构建卷积神经网络模型提取视频的二维和三维特征;
步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本;
步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征;
步骤(4).通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。
2.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(1)具体方法是:
(1-1).设给定视频 含有N幅帧图像,表示为{X1,X2,…Xi,…,XN},其中 为第i帧图像,w,h,c分别为视频帧的宽度、高度、通道数;
(1-2).构建卷积神经网络模型提取视频的二维和三维特征,具体是:
对每个视频进行等间隔采样256帧,将采样后的每一帧裁剪为224×224大小的图像该视频处理后的所有帧集合记作
将视频对应的视频帧 以16帧为间隔,划分成16个视频片段,记作
其中
利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧 中每一帧的特征,将所有帧的特征进行拼接得到视频的外观特征表示矩阵为 提
取视频帧 中每一帧的特征是取平均池化层后的输出,并拉直为向量;
利用在Sports-1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征,取全连接层fc6后的输出,将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵
3.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(2)具体方法是:
(2-1).用于描述视频的有序词汇表记为集合 对于不在词汇表中的单词用符号
(2-2).处理视频对应的文本:先过滤长度超过L的描述文本并利用符号
及其标记 构建文本卷积神经网络作为分类器;对视频内容描述 进行词嵌入操作得到其表示矩阵 其中 为单词yk的词嵌入表示向
量, 为词嵌入权重矩阵;利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext;
(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新:利用一维最大池化和随机失活操作,即以0.5概率对特征的每一个位置赋值0,将文本隐空间特征矩阵Ftext进行映射得到特征向量 用于分类;利用映射矩阵 和偏置项
将特征fsc映射为类别空间向量 fclass=Wprojextfsc+bproject,其中
Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布 其中
通过极大似然估计定义分类损失 其中指示函数Ik(·)表
示视频样本是否属于第k个类别, 为对应类别k的概率值,Z为训练视频的文本描述总数,并通过自适应矩估计算法最小化该分类损失;
(2-5).通过采用多头注意力残差网络作为解码器重构文本:将视频 对应的描述语句集合 中的单词整体向后移动一位,记为 将每个单词进行步骤(2-3)的词嵌入操作得到新的词嵌入表示矩阵M′并进行位置编码;
利用映射矩阵 和偏置向量 将多头注意力残差网络的输出矩
阵 映射到具有 维度的向量空间,并用Softmax(·)函数进行归一化处理,得到各单词的概率分布矩阵 通过极大似然估计方法定义模型的文本自
编码器重构损失 其中指示函数Ik(·)表示正确单词
是否位于有序词汇表 的第k个位置, 为对第j个视频预测文本中第t个位置预测为有序词汇表 的第k个位置的预测概率值,Z为训练视频的文本描述总数;计算概率分布矩阵 的各列向量概率值最大的索引,并从有序词汇表中找到索引对应的单词作为视频描述的单词。
4.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(3)具体方法是:
将视频的外观特征表示矩阵Fappearance在帧级维度上进行最大池化操作,得到池化后的表示矩阵
利用步骤(2)的注意力机制模块对视频外观特征表示矩阵 和视频动态特征表示矩阵Fdynamic进行处理,得到两个矩阵记为 和 并进行拼接;
利用一个大小为6144×He的全连接层将拼接后的特征进行映射,得到估计文本隐空间特征矩阵
利用估计文本隐空间特征矩阵 和原文本隐空间特征矩阵Ftext计算视频文本特征表示误差,即 其中||·||F表示矩阵Frobenious范数。
5.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(4)具体方法是:
(4-1).利用自适应矩估计算法交替优化自编码器重构损失 和视频文本特征表示误差 直至模型收敛,得到最终的视频内容描述模型;
(4-2).对于新视频 先利用步骤(2)已构建的卷积神经网络提取视频的二维和三维特征;再利用步骤(2)已构建的文本自编码器中的解码器计算概率分布矩阵 的各列向量概率值的最大索引,然后从有序词汇表 中找到该最大索引对应的单词作为视频描述的单词,得到对应的视频内容描述。
6.如权利要求3所述的一种基于文本自编码器的视频内容描述方法,其特征在于:
所述的文本卷积神经网络是利用一组大小分别为2×L、3×L、4×L、5×L的卷积核,其中每种不同大小的卷积核数目均设置为L,然后对词嵌入表示矩阵M进行卷积计算,并对卷积后的特征进行拼接得到
7.如权利要求3所述的一种基于文本自编码器的视频内容描述方法,其特征在于:所述的位置编码是指将词嵌入表示矩阵M′用三角函数刻画,即
其中pos表示单词的位置序号,feaq表
示单词的第q个特征维度,然后将计算得到的值与M′对应元素相加的结果记为
8.如权利要求3所述的一种基于文本自编码器的视频内容描述方法,其特征在于:所述的多头注意力残差网络由多个注意力机制模块组成,这些模块是由残差网络连接;残差网络为两层全连接层处理后特征与未处理的特征相加,未处理特征即为自注意力机制模块的结果 或 多头注意力残差网络的输出矩阵记为
所述的注意力机制模块是指先将自编码器的输入特征Fgt复制三份得到三个矩阵,分别记为询问矩阵、键矩阵和价值矩阵,然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘,再利用Softmax(·)函数进行归一化处理得到则整个注意力机制模块的输出矩阵记为
其中Ftext.,k表示矩阵Ftext第k
个列向量,参数 为待学习的参数,⊙表示点积运算,即向量对应元素相乘;将Ftext复制两份分别记为询问矩阵和键矩阵,将 作为价值矩阵再次进行上述操作,得到输出矩阵
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
家电自定义控制系统、方法、自定义动作处理系统、方法 | 2020-05-08 | 376 |
一种急救教学自动识别方法及系统 | 2020-05-11 | 607 |
一种基于机器视觉的抛射物落点实景仿真系统及方法 | 2020-05-11 | 630 |
一种基于运动生理参数实时反馈的正念运动康复装置及其方法 | 2020-05-12 | 785 |
一种基于虚拟现实技术的医疗交互系统 | 2020-05-08 | 650 |
一种汽车电磁阀的电流响应时间测试装置及测试方法 | 2020-05-12 | 582 |
一种多视角小白鼠动态三维重建方法 | 2020-05-08 | 231 |
数据捕捉的智能飞行摇杆及其数据处理方法 | 2020-05-11 | 334 |
一种基于语音的动作捕捉数据云分享的控制方法、及其系统 | 2020-05-08 | 740 |
一种变压器有载分接开关测试仪 | 2020-05-12 | 989 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。