专利汇可以提供一种利用基于图论的多重交互网络机制解决视频问答问题的方法专利检索,专利查询,专利分析的服务。并且本 发明 公布了一种利用基于图论的多重交互网络机制解决视频问答问题的方法。步骤:1)针对视频,利用ResNet网络得到 帧 级别的视频表达。2)利用MaskR-CNN网络得到物体的存在和 位置 特征。3)利用GloVe网络提取问题单词级信息。4)利用基于图论的GNN网络构图,引入消息机制对图 迭代 ,最终得到物体存在和物体间联系特征表达。5)引入多重交互,利用 前馈神经网络 学习得到与问题相关的物体存在和物体间动态联系的特征表达以及 视频帧 级和 片段 级表达。6)针对不同类型的问题答案模 块 会采用不同的策略。本发明利用上述机制得到物体间的 时空 依赖关系和动态语义交互信息,在视频理解上达到更深刻的效果,继而给出更精准的答案。,下面是一种利用基于图论的多重交互网络机制解决视频问答问题的方法专利的具体信息内容。
1.一种利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于包括如下步骤:
1)对于输入的视频及自然语言问题语句,训练出图神经网络和多重交互网络来获取问题相关的物体存在特征表达、物体间动态联系的特征表达、以及与问题相关的帧级和片段级视频表达,得到针对不同问题的预测答案;
1.1)针对一段视频,采用残差神经网络提取视频的帧级表达;
1.2)采用Mask R-CNN神经网络,提取视频中物体存在特征表达和物体空间位置特征表达;
1.3)针对自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达;
1.4)利用步骤1.2)得到的物体存在特征表达和物体空间位置特征表达,通过图神经网络进行建图,并引入消息传输机制,对图进行迭代更新,获得最终的物体存在特征表达;
1.5)利用步骤1.1)获得的视频的帧级表达、步骤1.2)获得的物体空间位置特征表达、步骤1.3)获得的自然语言问题语句的单词级别的嵌入表达和步骤1.4)获得的最终的物体存在特征表达,引入多重交互网络,利用预训练的交互网络和前馈神经网络,分三个通道得到与问题相关的物体存在特征表达、物体间动态联系的特征表达以及与问题相关的视频帧级和片段级视频表达;
1.6)针对不同的问题形式,采用不同的回归函数和损失函数,得到针对问题的预测答案;
2)将步骤1)获得的针对不同问题的预测答案与真实的答案进行比较,更新图神经网络和多重交互网络的参数,得到最终的图神经网络和多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的最终的图神经网络和多层注意力网络,得到所预测的答案。
2.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.1)具体为:
对于一段视频,将视频输入到预训练的残差神经网络,输出视频的帧级表达φ={Ii},i=1,2,3,…,,其中Ii表示视频第i帧的特征表达,T表示视频的帧数。
3.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.2)具体为:
对于一段视频,将视频输入到预训练的Mask R-CNN卷积神经网络,输出视频中的物体存在特征表达 和物体空间位置特征表达 其中
和 分别表示视频中第t帧第i个物体的存在特征表达和空间位置特征表达;所述空间位置特征表达 是一个四维坐标,表示为 其中 和 分别表示视频中第t帧
第i个物体的边界框中心点的横坐标和纵坐标, 和 分别表示视频中第t帧第i个物体的边界框的宽度和高度。
4.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.3)具体为:
对于自然语言问题语句,采用预训练的GloVe神经网络得到自然语言问题语句的单词级别的嵌入表达Q={q1,q2,…,q|Q|};其中qi表示自言语言问题语句中的第i个单词的嵌入特征表达,|Q|表示自然语言问题语句中的单词的数量。
5.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.4)具体为:
1.4.1)对于步骤1.2)获得的视频中物体存在特征表达 按照如下
公式获得视频中第t帧第i个物体的隐藏状态表达:
其中 表示第t帧第i个物体的隐藏状态;
将不同帧中被检测到的所有物体重新进行排序,不同帧中的同一物体算不同物体,只使用下角标i表示不同帧中被检测到的第i个物体,简称视频中第i个物体;
进一步得到视频中物体的隐藏状态表达HV,
HV={hv}v∈V={h1,…,hi,…h|V|}
其中,hi表示视频中第i个物体的隐藏状态表达,V表示被检测到的所有物体的个数;
1.4.2)对于步骤1.2)获得的视频中物体空间位置特征表达,计算两两物体之间的相对位置向量:定义任意视频中两个物体的空间位置特征表达lm和ln,根据如下公式得到四个维度上的物体相对位置向量(Xmn,Ymn,Wmn,Hmn)T:
对于上述四个维度相对位置向量(Xmn,Ymn,Wmn,Hmn)T,利用位置编码,将(Xmn,Ymn,Wmn,Hmn)T通过不同频率的正弦、余弦函数嵌入到高维,然后再将四个高维向量拼接成单个向量,得到视频中第m个物体和第n个物体之间的特征向量lrmn;
计算视频中第m个物体和第n个物体的空间位置联系LRmn:
LRmn=max{0,Wr·lrmn}
其中,Wr为参数矩阵,运用线性整流函数作为神经元的激活函数;
视频中所有物体之间的空间位置联系两两对应,得到视频中物体空间位置的隐藏状态表达He:
其中 表示视频中第i个物体和第j个物体空间位置的隐藏状态;
1.4.3)步骤1.4.1)和步骤1.4.2)得到的HV、He对应初始化的图,将HV和He输入到图神经网络中,分两步采用消息传输机制对图点和边的隐藏状态进行多次迭代更新:
第一步,只考虑连接同一帧图像中物体的交互型边;按照如下公式,计算视频中第i个物体和第j个物体的连接分数:
其中Ws,Wt,Wst分别是第i个物体,第j个物体,ij之间交互型边的学习权重,vo是学习向量,σ是一个非线性函数, 表示第l-1次迭代第i个物体的隐藏状态, 表示第l-1次迭代第i个物体和第j个物体的边的隐藏状态, 表示第l次迭代第i个物体和第j个物体之间的连接分数;利用softmax函数,得到连接分数 的激活值,即标准值:
其中, 表示第l次迭代第i个物体和第j个物体的连接分数的标准值,Vsj表示指向第j个物体的物体集合;
对于上述标准值 根据如下公式得到从第i个物体到第j个物体的传输信息
根据如下公式更新图的隐藏状态向量:
其中, 表示第l次迭代更新的第j个物体的隐藏状态, 表示第l次迭代更新的第i
个物体和第j个物体之间边的隐藏状态;
第二步,考虑轨迹型边;按照如下公式,计算没有注意力机制下,从第i个物体到第j个物体的轨迹型边上的传输信息
其中W′s、W′st是学习权重;
根据如下公式更新图的隐藏状态向量:
其中λij是一个二进制标量,当且仅当第i个物体和第j个物体之间存在轨迹型边时取1,否则取0;
经过L次循环更新,得到更新图的隐藏状态向量 和 即得到了最终更新后的视频
中物体的隐藏状态表达 和更新后的视频中物体空间位置的隐藏状
态表达
最终的物体存在特征表达H表示为:
6.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,步骤1.5)所述的多重交互网络具体如下,假定多头线性层的头数为1:
第一步,对两个输入序列做线性映射,得到两个输入矩阵Q=(q1,q2,…,qi)和V=(v1,v2,…,vj),其中Q是lq×dk维的实矩阵,V是lv×dk维的实矩阵。
第二步,构建张量K来表示两个输入矩阵的每列之间的相互作用,张量K的每列Kij计算方式如下:
其中Kij是一个dk维的实列向量,qi和vj也是dk维的实列向量,°是按元素乘法;
第三步,对张量K利用一个卷积核窗面积为sq×sv的卷积层,此时,张量K被分为不同的子张量K′,这些子张量是sq×sv×dk维的实矩阵,表示段问题和段视频之间的按元素交互特征,随着卷积核窗的移动,得到不同的按段交互的表达,构成张量P;
第四步,用一个去卷积层将张量P恢复成原始lq×lv×dk维的张量M,其中张量M包含了按段交互的信息;
第五步,将张量K和张量M压缩到dk维,分别得到lq×lv维的按元素的权重矩阵WE和lq×lv维的按段的权重矩阵WS;
第六步,利用softmax函数得到按元素和按段的交互信息,即多重注意力机制的最终输出:
O=softmax(WE+WS)V or
O=softmax((WE+WS)⊙WR)V
其中,O是一个lq×dk维的实矩阵,WR是可选的外部矩阵;
此外,步骤1.5)中提到的多重交互网络三个通道的Q和V分别为视频的帧级表达和物体空间位置特征表达,自然语言问题单词级别的嵌入表达和物体空间位置特征表达,最终的物体存在特征表达和通道2输出的特征矩阵;通道1第一个交互单元输出的特征矩阵与通道
2输出的特征矩阵作为通道1第二个交互单元的输入。
7.根据权利要求1所述的利用基于图论的多重交互网络机制解决视频问答问题的方法,其特征在于,所述的步骤1.6)具体为:
针对多选类型的问题,使用线性回归函数,将视频编码器的输出Fvo作为其输入,并输出每个选项的分数:
其中WS是训练权重;使用正确答案的分数sp和错误答案的分数sn之间的合页损失函数max{0,1+sn-sp}来优化模型;
针对开放性数字题,利用下列公式得到输出的答案:
其中,Wn是训练权重,b是偏置,Round是取整函数,同时利用正确数字和预测数字之间的损失函数来优化模型;
针对开放单词题,利用线性层将输出维度转换成答案词汇维度,利用softmax函数计算出答案分布:
其中,Wn是训练权重,b是偏置,同时利用正确单词和预测单词之间的交叉熵损失函数来优化模型。
方法
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于BERT并融合可区分属性特征的刑事案件刑期预测方法 | 2020-05-08 | 650 |
增强具有外部存储器的神经网络 | 2020-05-08 | 740 |
语音识别方法、服务器及计算机可读存储介质 | 2020-05-08 | 448 |
一种基于神经网络计算的多目标直接定位方法 | 2020-05-15 | 54 |
基于节气特征的土遗址温度预测方法 | 2020-05-11 | 236 |
高阶邻域混合的网络表示学习方法及装置 | 2020-05-12 | 581 |
一种智能学习的纯电动汽车能量管理控制方法 | 2020-05-13 | 823 |
文本处理模型的运行方法、装置、电子设备、及存储介质 | 2020-05-14 | 670 |
基于大数据的行业分类方法、装置、设备及存储介质 | 2020-05-11 | 937 |
一种基于删减型前馈小世界神经网络出水BOD预测方法 | 2020-05-12 | 847 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。