一种双模块神经网络结构视频对象分割方法专利检索-明显错误国际申请第I章专利合作条约专利权专利检索查询-专利查询网

一种双模块神经网络结构视频对象分割方法

阅读：988发布：2021-04-02

专利汇可以提供一种双模块神经网络结构视频对象分割方法专利检索，专利查询，专利分析的服务。并且本发明提供一种双模块神经网络结构视频对象分割的方法，用来解决视频对象分割过程中由噪声干扰而造成视频对象分割结果不理想的问题。步骤包括：对第一帧图和第一帧的掩模输入变换网络中生成图像对；对每幅图像对进行目标提议框生成，来确定图像对是否为感兴区域；感兴区域添加跟踪器输入到感兴分割网络中训练学习模型并输出；从感兴分割网络最后层卷积输出特征图，分别输入到空间关注模块和通道关注模块；最后将两个关注模块输出的特征图进行融合，经过卷积层操作输出最终的分割掩码结果；本发明在DAVIS视频数据集上取得了较好的分割实验结果。，下面是一种双模块神经网络结构视频对象分割方法专利的具体信息内容。

权利要求

1.一种双模块神经网络结构视频对象分割的方法，其特征在于：该方法通过为像素级视频对象分割场景收集处理数据，确保近目标域有足够量的训练数据，其方法为：
获取视频的第一帧及其注释掩模，用于生成未来视频帧的掩模，产生合理逼真图像的训练集，进而获得未来视频帧中的预期外观变化，得到接近目标域；
此外，引入一种关注模块机制，分别捕获空间和通道关注模块中的目标特征依赖性；该注模块机制是在扩张的全卷积神经网络的架构附加两个平行模块：一个是空间位置维度模块，另一个是通道信息维度模块；经过对前述两个平行模块处理，空间位置维度模块得到准确的位置信息依赖关系，通道维度模块得到通道映射之间依赖关系；
最后，把来自两个维度模块的输出特征图进行融合，获得更好的像素级预测的特征表示并在经过一层卷积层输出分割结果；分割结果，是由1和0分别表示前景和背景组成分割结果。
2.根据权利要求1所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：
通过计算机并按如下步骤进行：
步骤1，在视频中，将第一帧图记作为I0，第一帧图的掩模记作为M0；由已知第一帧图I0和第一帧掩模M0输入变换网络，通过变换网络生成图像对；前述的图像对，是一张图像和对应一个掩码；变换网络是包含旋转、平移、翻转和缩放操作的网络；步骤2，将步骤1中第一帧图I0的像素和第一帧的掩模M0通过变换网络生成一组以上的图像对，图像对不相同，并通过目标提议获得感兴区域；
所述的目标提议，是在全卷积网络中，输入任意大小的图像，输出图像目标矩形提议框的集合；目标提议通过对候选框评分得到感兴区域；具体步骤如下：
在第一帧图I0中的目标周围生成目标提议；
采用如下方式获得IoU；所述IoU全称是交并比，是预测区域与实际区域之间的交并比值；
其一：用由步骤1中变换网络生成的图像对目标周围随机生成目标提议，获得生成图像目标提议和第一帧图I0目标提议的比值IoU；
其二：对生成图象掩码与初始掩码比值IoU分数；所述初始掩码，是第一帧掩码M0；
通过IoU比值选择大于0.75分数的图像对，称作为感兴区域；
然后，对感兴区域添加一个跟踪器，由跟踪器在下一帧中定位目标有效；所述跟踪器，是输入当前帧掩模和下一帧图像，预测下一帧目标掩摸的位置；使用跟踪器来获取下一帧图像的掩模区域，为后续的帧感兴区域提供时间一致性；
步骤3，一旦感兴区域被定位在下一帧中，把感兴区域添加跟踪器输入到本发明中的感兴分割网络经行训练预测目标；所述感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101 框架网络基础上，构成本发明中网络框架，简称RoISeg；所述CNN，是深度学习中卷积神经网络；ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络；感兴区域上添加跟踪器并输入RoISeg中进行训练模型，输出得到粗略目标识别位置和分割掩模的结果；
步骤4，由步骤3中感兴区域添加跟踪器输入到RoISeg预测输出目标结果的存在较大误差，为了减少噪声分割的部分；因此，本发明构建一种“双关注模块的方法：在RoISeg的最后卷积层输出的特征图，把特征图输入到双关注模块；所述双关注模块，包括空间关注模块和通道关注模块；
空间关注模块，是引入空间关注机制，来捕获任意两个空间位置之间的空间依赖性；所述空间关注机制，是空间关注模块中的函数操作；对于帧中的目标位置特征，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定；换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离；
通道关注模块，是通过通道关注机制，来捕获任意两个通道映射之间通道依赖关系；并使用所有通道映射的加权和来更新每个通道映射；所述通道关注机制，是通道关注模块中的函数操作；
最后，将上述两个关注模块融合操作；融合操作，是并行策略，将这两个特征向量组合成复向量；融合在一起丰富目标对象的前后帧之间的信息，从而获得更好的视频对象分割的特征效果；通过双关注模块中空间维度信息和通道维度信息之间的特征捕获依赖关系，增强了视频对象分割中特征表示的判别能力；对视频分割中出现干扰、噪声影响起到抑制作用；在经过一次卷积层，输出最终的分割掩模结果。
3.根据权利要求1或2所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：
步骤1，向计算机输入一段视频，视频的每一帧是一张图片；该图片为RGB格式，记为RGB图片I；该图像中目标标签，记为掩模M；所述掩模，为图像的二进制前景和背景；
首先，输入一段视频和第一帧的掩码，将第一帧I0和第一掩码M0输入变换网络G中，得到变换图像对D；具体表达式如下：
Dn＝G(I0,M0)
其中G表示变换网络；图像对集合Dn＝{d1m1,d2m2,...,dnmn}，Dn表示有n个图像对；dimi表示第i个图像对，其中di表示第i个变换网络生成的图像，mi表示第i个变换网络生成的掩码；
通过变换网络生成图像对，对图像对进行筛选是否作为感兴区域。
4.根据权利要求1或2所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：步骤2的具体步骤为：
通过变换网络生成的图像对，图像对进行筛选是否作为感兴区域；使用目标提议获得感兴区域；目标提议，是一个全卷积网络，将一个图像任意大小作为输入，输出矩形目标提议框的集合；在第一帧中的目标周围进行目标提议操作，并记为gtbox，所述gtbox是第一帧的目标周围真实标记的边界框；图像对目标周围进行目标提议操作生成的边界框，并记为bbox，所述bbox是将图像对输入到目标提议，输出图像对中目标提议框；对生成图像目标提议和第一帧目标提议比值IoU分数；具体表达式如下：
S＝IoU(bbox,gtbox)
其中，IoU是交并比的函数表达式；S得分，是图像对中目标提议框和第一帧中目标提议框交并比值分数；通过IoU比值S>0.75部分具有代表性图像对作为感兴区域；然后，对感兴区域添加一个跟踪器，跟踪器能在下一帧中定位目标有效的方法；所述跟踪器，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置；使用跟踪器来获取下一帧图像的掩模区域；为后续的帧感兴区域提供时间一致性；已知一段视频序列R，R＝{I0,I1,I2,I3,...It...,In}和第一帧I0的掩模M0；It是视频序列中第t帧；t∈{1,2,3,...,n}；求视频序列中剩下帧的掩模{M1,M2,M3，...,Mn}，根据跟踪器函数表达式如下：
Mt+1＝f(It+1,Mt)
其中，f表示为跟踪器函数，已知It+1表示为第t+1帧的图像，已知Mt表示第t帧图像的掩模，求Mt+1表示为第t+1帧的掩摸；视频第二帧图像和第一帧图像的掩模是已知的，通过跟踪器求出第二帧图像的掩模；由于目标在空间具有平滑移动的趋势，视频帧与帧之间几乎变化很小特性，相对具有一定的关联性；通过Mt掩模和It+1帧，预测It+1帧的掩模Mt+1；预测It+1帧的掩模和真实的掩模Mgt存在很大的误差；所述Mgt表示真实准确的掩模；然后把感兴区域添加跟踪器输入到感兴分割网络中。
5.根据权利要求1或2所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：步骤3的具体步骤为：
基于步骤2通过感兴区域添加跟踪器输入到感兴分割网络中；把感兴区域添加跟踪器输入到本发明中的感兴分割网络经行训练预测目标；本发明中感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络基础上，创新本发明中网络框架，称作为感兴分割网络；ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络；本发明RoISeg网络中由卷积层、池化层、激活函数、批量规范化、反卷积等组合；其中RoISeg中初始参数设置为：学习率为0.0001、权重衰减项为0.005；RoISeg最终输出使用加权交叉熵损失进行约束；所述交叉生损失表达式如下所示：
其中，L(θ)表示加权交叉熵损失，θ取值范围[0，1]，表示与网络中当前预测相关的权重参数；X+和X-分别代表具有目标正样本和负样本标签的像素集；正样本是真实的正确样本，负样本是预测错误样本；话句话说，视频帧掩码的正样本和负样本的像素集；β是权重衰减项，在训练期间惩罚有偏差采样；卷积层的激活输出来计算概率函数P表示概率分布，P∈[0,1]；所述激活函数，使用常用的非线性的激活函数Sigmoid取值范围[0,1]；感性分割网络训练输出层使用交叉熵损失的约束，再经过反向传播到网络中继续训练，当训练的过程损失逐渐变小，收敛变足够小并且稳定；输出得到目标分割结果；输出结果，是掩模前景和背景的分割图。
6.根据权利要求1或2所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：步骤4的具体步骤为：
由步骤3中RoISeg网络预测输出目标结果的存在较大误差，为了减少噪声分割的部分；
因此，本发明构建一种“双关注模块的方法；在RoISeg的最后卷积层输出的特征图，把特征图分别输入到两个关注模块；两个关注模块分：别为空间关注模块和通道关注模块，具体如下：
空间关注模块：引入空间关注机制，为视频帧中目标丰富上下文特征的依赖关系；引入空间关注机制操作进行详细说明；从RoISeg的卷积层输出特征图记为A，A∈RC×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度；首先由特征图A共享分别生成三个新的特征映射B、D和F，其中{B，D，F}∈RC×H×W；然后将它们形状大小重新改变为C×N
R ，其中N＝H×W，N表示为高度和宽度的乘积；之后，B进行矩阵转置和D执行矩阵乘法，并应用softmax层来计算空间维度信息关注特征图S∈RN×N，具体表达式如下所示：
其中Sij测量第ith空间位置对第jth空间位置的影响；exp表示两个位置之间距离，距离越小它们之间位置越相似；所述前文中，来捕获任意两个空间位置之间的空间依赖性；换句话说，两个位置的更相似的特征；表示有助于它们之间特征更大的相似性；上述中F形状大小为RC×N；然后在F和S矩阵转置之间执行矩阵乘法操作，矩阵乘法结果特征图大小形状为RC×N，再把特征图的形状大小重新改变为RC×H×W；最后，乘以一个尺度参数α，并用特征A执行元素和运算操作，得到输出特征图结果E1，具体表达式如下：
其中，α为权重系数初始化设置为0，α∈[0,1]，并逐渐分配更多权重；相加操作结果特征图E1，形状大小E1∈RC×H×W；对于视频帧中的目标特征位置，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定；换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离；并根据空间关注映射选择性地聚合上下文特征表示，从而提升了相同类之间信息相互依赖关系。
7.根据权利要求6所述的一种双模块神经网络结构视频对象分割的方法，其特征在于：
步骤4的具体步骤为：
通道关注模块：通过通道关注机制操作，来捕获任意两个通道映射之间通道依赖关系；
从RoISeg的卷积层输出特征图也记为A，A∈RC×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度；特征图A共享分别生成两个新的特征映射M和N，其中{M，N}∈RC×H×W；然后将它们形状大小重新改变为RC×N；M与N转置之间执行矩阵乘法，直接计算出通道特征图X∈RC×C；使用softmax层来获取通道关注信息特征图X∈RC×C，具体表达式如下所示：
其中Xji测量第ith通道对第jth通道之间影响，前文提到通道关注模块捕获任意两个通道映射之间通道依赖关系；另外，把X矩阵和A特征图形状重塑为RC×N的矩阵之间执行矩阵乘法，矩阵乘法得到的结果形状为RC×N，再重新塑形为RC×H×W；然后乘以一个尺度权重参数β，并与A执行元素和运算，得到输出特征图E2，具体表达式如下所示：
其中，β为权重系数，初始化设置为0.3，β∈[0,1]；相加操作结果特征图E2，E2形状大小C×H×W
E2∈R ；模拟了特征图通道映射之间通道依赖关系；从而有助于提高模型功能的可辨性；通过通道关注模块的增强通道目标特征更为突出，使得视频帧在网络中能够识别目标；
将上述两个关注模块融合操作；所述的融合操作，是将这两个特征向量组合成复向量；
上述空间关注模块输出的特征特E1，通道关注模块输出的特征图E2，经过融合操作得到新的特征图O：具体表达式如下所示：
O＝f(E1,E2)
其中，O是融合特征图输出的结果，O输出特征图大小为O∈RC×H×W；函数f表示为融合操作；E1特征图的大小为E1∈RC×H×W；E2特征图的大小为E2∈RC×H×W；融合在一起丰富目标对象的前后帧之间的特征信息更加明显，从而获得更好的视频目标对象分割的特征效果。

说明书全文

一种双模块神经网络结构视频对象分割方法

技术领域

[0001] 本发明是在计算机视觉领域，尤其涉及视频中大规模变化和动态外观变化不准确的视频对象分割处理，具体为一种双模块神经网络结构视频对象分割的方法。

背景技术

[0002] 近年来随着计算机视觉技术的突飞猛进的发展，深度学习中卷积神经网络在各个研究领域得到极大的重视，视频对象分割技术更是近些年来科研人员关注的重要内容。视频分割技术越来越彰显出它的重要的地位。其应用在场景理解、视频标签，无人驾驶汽车和物体检测等都在视频分割技术得到快速的发展。可以说视频分割技术的进步带动计算机视觉技术整体的发展。但是视频对象分割不仅是研究热点，同时也是研究难点。分割的目标是对视频中的对象找到精准的位置关系，然而其实现过程受到多种的限制，例如运动速度，物体变形，实例之间的遮挡和混乱的背景，可以来自不同的摄像设备，不同的场景影像。这使得视频对象分割面临很大挑战性。仍然在现实世界场景分割中表现出差的结果。这些影像无疑给视频对象分割技术带来巨大的挑战性。

[0003] 最近几年来看。广大学者已经对视频分割技术进行了大量的研究，并取得较好的学术成果。无监督的视频对象分割。无监督的方法主要是在没有任何事先知道目标的情况下从背景中分割移动物体，无监督的视频对象分割的方法旨在自动发现和分离突出的对象与背景。这些方法基于概率模型，动作和对象提议。现有的方法通常依靠视觉线索(如超像素。显著性图像或者光流)来获取初始对象区域，并且需要以批处理模式处理整个视频以提供对象分割。此外，在每个帧中生成和处理数千个候选区域通常是消耗大量的时间。由于不同实例和动态背景之间的运动混淆，这些无监督方法无法分割特定对象。用于半监督视频对象分割的许多方法依赖于使用第一帧地面实况的微调，使用卷积网络，对前景和背景分割进行训练，并在测试时将其调整到目标视频的第一帧上(如在线自适应自适应机制和实例分割网络的语义信息)。它们提供了目标的关键视觉线索。因此，这些方法可以处理多实例情况，并且通常比无监督方法执行得更好。然而，许多半监督方法在很大程度上依赖于第一帧中的分割掩模。这些方法通常用第一帧进行数据增强，模型自适应严重依赖微调模型，在视频中出现背景复杂，出现遮挡或者快速运动、摄像抖动振荡都无法实现高效的分割问题。

发明内容

[0004] 针对以上视频分割方法存在的问题，本发明提供了一种基于双关注模块结构的空间和通道信息的视频分割方法。与现有技术相比较，本发明方法能够灵活利用特征图中空间和通道信息，并在优化的过程中简化了计算量，大大提高了视频目标对象分割的精准度。

[0005] 发明目的：本发明所要解决的是现在视频对象分割方法中存在不足问题，提出了一种双模块神经网络结构视频对象分割的方法，来解决视频对象分割中的一些问题。

[0006] 技术方案：本发明一种双模块神经网络结构视频对象分割的方法，该方法为了确保近目标域的足够数量的训练数据，为像素级视频对象分割场景量身定制的训练数据。

[0007] 首先，第一帧及其注释掩模输入变换网路生成未来可能图像对，解决了数据前期的准备和训练数据增强需要额外处理时间的问题。产生合理逼真图像的训练集。捕获未来视频帧中目标可能的预期变化轨迹及外观。其次，图像对输入目标提议操作，通过目标提议来确定可以候选的感兴区域，感兴区域确定可以筛选一些不需要的图像对。使得感兴分割网络在计算上节省一些不必要的开销。然后，将感兴区域添加跟踪器输入感性分割网络进行训练模型并输分割结果。由于视频帧追踪到目标出现干扰影响，导致跟踪分割不准确。最后，设计了一种双关注模块方法。空间关注模块来捕获任意两个空间位置之间的空间依赖性，通道关注模块来捕获任意两个通道映射之间的通道依赖关系。再将两个关注模块输出进行融合操作，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。增强了视频对象分割中特征表示的判别能力。再执行一次卷积层的操作。输出最终的分割掩模结果图。本发明的视频对象分割的方法经过实验结果证明如图4和图5结果，取得有效的效果成果。具体包括以下步骤：

[0008] 步骤1，在视频中第一帧记作为I0，第一帧的掩模记作为M0。由已知第一帧I0和第一帧掩模M0输入变换网络，通过变换网络能够生成多张不同图像对。图像对，是一张图像和对应一个掩码。变换网络是旋转、平移、翻转、缩放等一些操作。不同图像对为未来视频帧可能出现对象的掩模训练数据，数据集来源于DAVIS公开视频图像分割数据集。本发明使用的方法，是视频帧和对应一个辅助掩码进行数据处理。获得大量的图像对，该图像对用以改善视频训练数据不足。从而可以为训练得到足够多数据，能够准确的预测视频结果。

[0009] 步骤2，对步骤1中根据第一帧的像素I0和第一帧的掩模M0通过变换网络生成不同图像对，并使用目标提议获得感兴区域。目标提议，是一个典型的全卷积网络，将一个图像任意大小作为输入，输出矩形目标提议框的集合。在第一帧中的目标周围生成目标提议，上述步骤1中变换网络生成的图像对目标周围随机生成目标提议，对生成图像目标提议和第一帧目标提议比值IoU分数。或者对生成图象掩码与初始掩码比值IoU分数。通过IoU比值选择大于0.35分数具有代表性图像对，称作为感兴区域(region of interest简称RoI)。初始掩码，是第一帧掩码M0。所述IoU全称是交并比，是预测区域与实际区域之间的交并比值。然后，对感兴区域添加一个跟踪器，跟踪器能在下一帧中定位目标有效的方法。所述跟踪器，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置。使用跟踪器来获取下一帧图像的掩模区域。为后续的帧感兴区域提供时间一致性。

[0010] 步骤3，一旦感兴区域被定位在下一帧中，把感兴区域添加跟踪器输入到本发明中的感兴分割网络(RoISeg)经行训练预测目标。本发明中感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101 框架网络基础上，创新本发明中网络框架，称作为感兴分割网络。下文中RoISeg表示感兴分割网络。所述CNN，是深度学习中卷积神经网络。ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络。感兴区域上添加跟踪器并输入RoISeg中进行训练模型，输出得到粗略目标识别位置和分割掩模的结果。

[0011] 步骤4，由步骤3中感兴区域添加跟踪器输入到RoISeg预测输出目标结果的存在较大误差，为了减少噪声分割的部分。因此，本发明构建一种“双关注模块的方法。在RoISeg的最后卷积层输出的特征图，把特征图输入到双关注模块。所述双关注模块，分别为空间关注模块和通道关注模块”。

[0012] 空间关注模块，引入空间关注机制，来捕获任意两个空间位置之间的空间依赖性。所述空间关注机制，是空间关注模块中一些函数的操作。对于帧中的目标位置特征，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定。换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离。

[0013] 通道关注模块，通过通道关注机制，来捕获任意两个通道映射之间通道依赖关系。并使用所有通道映射的加权和来更新每个通道映射。所述通道关注机制，是通道关注模块中一些函数的操作。

[0014] 最后，将上述两个关注模块融合操作。融合操作，是并行策略，将这两个特征向量组合成复向量。融合在一起丰富目标对象的前后帧之间的信息，从而获得更好的视频对象分割的特征效果。通过双关注模块中空间维度信息和通道维度信息之间的特征捕获依赖关系，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。在经过一次卷积层，输出最终的分割掩模结果。

[0015] 详细具体的步骤如下：

[0016] 步骤1，向计算机输入一段视频，视频的每一帧是一张图片。该图片为RGB格式，记为RGB图片I。该图像中目标标签，记为掩模M。所述掩模，为图像的二进制前景和背景。

[0017] 首先，输入一段视频和第一帧的掩码，将第一帧I0和第一掩码M0输入变换网络G中。得到大量变换图像对D。具体表达式如下：

[0018] Dn＝G(I0，M0)

[0019] 其中G表示变换网络，是旋转、平移、翻转、缩放等一些操作。Dn＝{d1m1，d2m2，...，dnmn}，Dn表示有n个图像对。dimi表示第i个图像对，其中di表示第i个变换网络生成的图像，mi表示第i个变换网络生成的掩码。通过变换网络生成图像对，对图像对进行筛选是否作为感兴区域。

[0020] 步骤2的具体步骤为：

[0021] 通过变换网络生成的图像对，图像对进行筛选是否作为感兴区域。使用目标提议获得感兴区域。目标提议，是一个典型的全卷积网络，将一个图像任意大小作为输入，输出矩形目标提议框的集合。在第一帧中的目标周围进行目标提议操作，并记为gtbox，所述gtbox是第一帧的目标周围真实标记的边界框。图像对目标周围进行目标提议操作生成的边界框，并记为bbox，所述bbox是将图像对输入到目标提议，输出图像对中目标提议框，如图2中5号标记处所示。对生成图像目标提议和第一帧目标提议比值IoU分数。具体表达式如下：

[0022] S＝IoU(bbox，gtbox)

[0023] 其中，IoU是交并比的函数表达式。S得分，是图像对中目标提议框和第一帧中目标提议框交并比值分数。通过IoU比值S＞0.75部分具有代表性图像对作为感兴区域。然后，对感兴区域添加一个跟踪器，跟踪器能在下一帧中定位目标有效的方法。所述跟踪器，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置。使用跟踪器来获取下一帧图像的掩模区域。为后续的帧感兴区域提供时间一致性。已知一段视频序列R，R＝{I0，I1，I2，I3，...It...，In}和第一帧I0的掩模M0。It是视频序列中第t帧。t∈{1，2，3，...，n}。求视频序列中剩下帧的掩模{M1，M2，M3，...，Mn}，根据跟踪器函数表达式如下：

[0024] Mt+1＝f(It+1，Mt)

[0025] 其中，f表示为跟踪器函数，已知It+1表示为第t+1帧的图像，已知Mt表示第t帧图像的掩模，求Mt+1表示为第t+1帧的掩摸。视频第二帧图像和第一帧图像的掩模是已知的，通过跟踪器求出第二帧图像的掩模。由于目标在空间具有平滑移动的趋势，视频帧与帧之间几乎变化很小特性，相对具有一定的关联性。通过Mt掩模和It+1帧，预测It+1帧的掩模Mt+1。预测It+1帧的掩模和真实的掩模Mgt存在很大的误差。所述Mgt表示真实准确的掩模。然后把感兴区域添加跟踪器输入到感兴分割网络中。

[0026] 步骤3的具体步骤为：

[0027] 基于步骤2通过感兴区域添加跟踪器输入到感兴分割网络中。把感兴区域添加跟踪器输入到本发明中的感兴分割网络(RoISeg)经行训练预测目标。本发明中感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络基础上，创新本发明中网络框架，称作为感兴分割网络。ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络。本发明RoISeg网络中由卷积层、池化层、激活函数、批量规范化、反卷积等组合。其中RoISeg中一些初始参数设置。学习率为0.0001、权重衰减项为0.005。RoISeg最终输出使用加权交叉熵损失进行约束。所述交叉生损失表达式如下所示：

[0028]

[0029] 其中，L(θ)表示加权交叉熵损失，θ取值范围[0，1]，表示与网络中当前预测相关的权重参数。X+和X-分别代表具有目标正样本和负样本标签的像素集。正样本是真实的正确样本，负样本是预测错误样本。话句话说，视频帧掩码的正样本和负样本的像素集。β是权重衰减项，在训练期间惩罚有偏差采样。卷积层的激活输出来计算概率函数P表示概率分布，P∈[0，1]。所述激活函数，使用常用的非线性的激活函数Sigmoid取值范围[0，1]。感性分割网络训练输出层使用交叉熵损失的约束，再经过反向传播到网络中继续训练，当训练的过程损失逐渐变小，收敛变足够小并且稳定。输出得到目标分割结果。输出结果，是掩模前景和背景的分割图。

[0030] 由步骤3中RoISeg网络预测输出目标结果的存在较大误差，为了减少噪声分割的部分。因此，本发明构建一种“双关注模块的方法。在RoISeg的最后卷积层输出的特征图，把特征图分别输入到两个关注模块。两个关注模块分别为空间关注模块和通道关注模块。

[0031] 空间关注模块：引入空间关注机制，为视频帧中目标丰富上下文特征的依赖关系。引入空间关注机制操作进行详细说明。在图3中11所示为空间关注模块。从RoISeg的卷积层输出特征图记为A，A∈RC×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度。首先由特征图A共享分别生成三个新的特征映射B、D和F，其中{B，D，F}∈RC×H×W。然后将它们形状大小重新改变为RC×N，其中N＝H×W，N表示为高度和宽度的乘积。之后，B进行矩阵转置和D执行矩阵乘法，并应用soffmax层来计算空间维度信息关注特征图SN×N
∈R ，具体表达式如下所示：

[0032]

[0033] 其中Sij测量第ith空间位置对第jth空间位置的影响。exp表示两个位置之间距离，距离越小它们之间位置越相似。所述前文中，来捕获任意两个空间位置之间的空间依赖性。换句话说，两个位置的更相似的特征。表示有助于它们之间特征更大的相似性。上述中F形状大小为RC×N。然后在F和S矩阵转置之间执行矩阵乘法操作，矩阵乘法结果特征图大小形状为RC×N，再把特征图的形状大小重新改变为RC×H×W。最后，乘以一个尺度参数α，并用特征A执行元素和运算操作，得到输出特征图结果E1，具体表达式如下：

[0034]

[0035] 其中，α为权重系数初始化设置为0，α∈[0，1]，并逐渐分配更多权重。相加操作结果特征图E1，形状大小E1∈RC×H×W。对于视频帧中的目标特征位置，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定。换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离。并根据空间关注映射选择性地聚合上下文特征表示，从而提升了相同类之间信息相互依赖关系。

[0036] 通道关注模块，通过通道关注机制一些操作，来捕获任意两个通道映射之间通道依赖关系。通道关注机制一些操作。从RoISeg的卷积层输出特征图也记为A，A∈RC×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度。特征图A共享分别生成两个新的特征映射M和N，其中{M，N}∈RC×H×W。然后将它们形状大小重新改变为RC×N。M与N转置之间执行矩阵乘法，直接计算出通道特征图X∈RC×C。使用soffmax层来获取通道关注信息特征图X∈RC×C，具体表达式如下所示：

[0037]

[0038] 其中Xji测量第ith通道对第jth通道之间影响，前文提到通道关注模块捕获任意两个通道映射之间通道依赖关系。另外，在X和A矩阵转置之间执行矩阵乘法，矩阵乘法操作结果特征图，重新塑形为RC×H×W。然后乘以一个尺度权重参数β，并与A执行元素和运算，得到输出特征图E2，具体表达式如下所示：

[0039]

[0040] 其中，β为权重系数，初始化设置为0.3，β∈[0，1]。相加操作结果特征图E2，E2形状大小E2∈RC×H×W。模拟了特征图通道映射之间通道依赖关系。从而有助于提高模型功能的可辨性。通过通道关注模块的增强通道目标特征更为突出，使得视频帧在网络中能够识别目标。

[0041] 将上述两个关注模块融合操作。融合操作，是将这两个特征向量组合成复向量。上述空间关注模块输出的特征特E1，通道关注模块输出的特征图E2，经过融合操作得到新的特征图O：具体表达式如下所示：

[0042] O＝f(E1，E2)

[0043] 其中，O是融合特征图输出的结果，O输出特征图大小为O∈RC×H×W。函数f表示为融合操作。E1特征图的大小为E1∈RC×H×W。E2特征图的大小为E2∈RC×H×W。融合在一起丰富目标对象的前后帧之间的特征信息更加明显，从而获得更好的视频目标对象分割的特征效果。

[0044] 通过关注模块中空间维度信息和通道维度信息之间的特征融合捕获依赖关系，充分利用空间和通道之间的上下文特征信息。具体而言，通过感兴分割网络的卷积层输出，分别输入到两个关注模块。经过各自的关注机制操作，空间关注模块得到显著的空间信息特征，通道关注模块得到显著的通道信息的特征。把这两个关注模块融合特征操作，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。再执行一次卷积层的操作。输出最终的分割掩模结果图。本发明的视频对象分割的方法经过实验结果证明如图4和图5结果，取得有效的效果成果，由此证明了本发明的是有意义。

[0045] 有益的技术效果

[0046] 本发明所提供的一种双关注模块的卷积神经网络视频对象分割的方法，是用来解决视频对象分割过程中一下问题，如数据不足、处理开销大、复杂背景、快速移动、抖动和振荡等干扰性的问题。因出现这些干扰的问题，本发明设计变换网络、感兴区域添加跟踪器和双关注模块有效的解决这些问题。通过变换网络方法，解决在网络训练过程因数据不足的问题学习模型泛化能力差。通过目标提议来确定感兴区域，并在感兴区域添加跟踪器来预测下一帧可能出现的目标的位置信息。能够解决快速移动或者相机移动出现的抖动和振荡提问，找出目标可能出现的位置。感兴区域添加跟踪器输入本发明设计的感兴分割网络(RoISeg)进行训练模型并输分割结果。由于视频帧追踪到目标出现干扰影响，导致跟踪分割不准确。为此设计了一种双关注模块方法。空间关注模块来捕获任意两个空间位置之间的空间依赖性，通道关注模块来捕获任意两个通道映射之间的通道依赖关系。将两个关注模块输出特征图进行融合操作，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。增强了视频对象分割中特征表示的判别能力。再执行一次卷积层的操作。输出最终的分割掩模结果图。附图说明

[0047] 图1为本发明方法的基本流程图

[0048] 图2为本发明的网络结构图

[0049] 图3为双关注模块网络关系表示图

[0050] 图4，图5为实验效果图

[0051] 在图2中1为表示第一帧图像。2为为第一帧图像对应的掩模图。3为变换网络操作做。4为变换网络生成的图像对。5为目标提议生成来确定感兴区域，6为本发明RoISeg网络框架，7为RoISeg网络输出特征图，8为特征图，9为特征图，10为通道关注模块，11为空间关注模块，12为输出特征图经行融合，13最终实验分割结果。

[0052] 具体实施方法

[0053] 现结合附图详细说明本发明的技术特点。

[0054] 参见图1，一种双模块神经网络结构视频对象分割的方法，该方法通过为像素级视频对象分割场景收集处理数据，确保近目标域有足够量的训练数据，其方法为：

[0055] 获取视频的第一帧及其注释掩模，用于生成未来视频帧的掩模，产生合理逼真图像的训练集，进而获得未来视频帧中的预期外观变化，得到接近目标域。

[0056] 此外，引入一种关注模块机制，分别捕获空间和通道关注模块中的目标特征依赖性。该注模块机制是在扩张的全卷积神经网络的架构附加两个平行模块：一个是空间位置维度模块，另一个是通道信息维度模块。经过对前述两个平行模块处理，空间位置维度模块得到准确的位置信息依赖关系，通道维度模块得到通道映射之间依赖关系。

[0057] 最后，把来自两个维度模块的输出特征图进行融合，获得更好的像素级预测的特征表示并在经过一层卷积层输出分割结果。分割结果，是由1和0分别表示前景和背景组成分割结果。

[0058] 进一步说，本发明的方法是：通过计算机并按如下步骤进行：

[0059] 步骤1，在视频中，将第一帧图记作为I0，第一帧图的掩模记作为M0。由已知第一帧图I0和第一帧掩模M0输入变换网络，通过变换网络生成图像对。前述的图像对，是一张图像和对应一个掩码。变换网络是包含旋转、平移、翻转和/或缩放操作的网络。所述图像对，是指能够为视频帧输入网络训练模型解决数据不足的情况。在本步骤中，输入的视频来自于数据集，该数据集可以来源于DAVIS公开视频图像分割数据集。本发明使用的方法，是视频帧和对应一个辅助掩码进行数据处理。获得大量的图像对，该图像对用以改善视频训练数据不足。从而可以为训练得到足够多数据，能够准确的预测视频结果。

[0060] 步骤2，将步骤1中第一帧图I0的像素和第一帧的掩模M0通过变换网络生成一组以上的图像对，图像对不相同，并通过目标提议获得感兴区域。

[0061] 所述的目标提议，是在全卷积网络中，输入任意大小的图像，输出图像目标矩形提议框的集合。目标提议通过对候选框评分得到感兴区域。。具体步骤如下：

[0062] 在第一帧图I0中的目标周围生成目标提议。

[0063] 采用如下方式获得IoU。所述IoU全称是交并比，是预测区域与实际区域之间的交并比值。

[0064] 其一：用由步骤1中变换网络生成的图像对目标周围随机生成目标提议，获得生成图像目标提议和第一帧图I0目标提议的比值IoU。

[0065] 其二：对生成图象掩码与初始掩码比值IoU分数。所述初始掩码，是第一帧掩码M0。

[0066] 通过IoU比值选择大于0.75分数具有代表性的图像对，称作为感兴区域(region of interest简称RoI)。

[0067] 然后，对感兴区域添加一个跟踪器，由跟踪器在下一帧中定位目标有效。所述跟踪器，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置。使用跟踪器来获取下一帧图像的掩模区域，为后续的帧感兴区域提供时间一致性。

[0068] 步骤3，一旦感兴区域被定位在下一帧中，把感兴区域添加跟踪器输入到本发明中的感兴分割网络(RoISeg)经行训练预测目标。所述感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络基础上，构成本发明中网络框架，简称RoISeg。所述CNN，是深度学习中卷积神经网络。ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络。感兴区域上添加跟踪器并输入RoISeg中进行训练模型，输出得到粗略目标识别位置和分割掩模的结果。

[0069] 步骤4，由步骤3中感兴区域添加跟踪器输入到RoISeg预测输出目标结果的存在较大误差，为了减少噪声分割的部分。因此，本发明构建一种“双关注模块的方法：在RoISeg的最后卷积层输出的特征图，把特征图输入到双关注模块。所述双关注模块，包括空间关注模块和通道关注模块，详见图1和图3。

[0070] 空间关注模块，是引入空间关注机制，来捕获任意两个空间位置之间的空间依赖性。所述空间关注机制，是空间关注模块中的函数操作。对于帧中的目标位置特征，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定。换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离。

[0071] 通道关注模块，是通过通道关注机制，来捕获任意两个通道映射之间通道依赖关系，并使用所有通道映射的加权和来更新每个通道映射。所述通道关注机制，是通道关注模块中的函数操作。

[0072] 最后，将上述两个关注模块融合操作。融合操作，是并行策略，将这两个特征向量组合成复向量。融合在一起丰富目标对象的前后帧之间的信息，从而获得更好的视频对象分割的特征效果。通过双关注模块中空间维度信息和通道维度信息之间的特征捕获依赖关系，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。在经过一次卷积层，输出最终的分割掩模结果。

[0073] 更进一步说，步骤1，向计算机输入一段视频，视频的每一帧是一张图片。该图片为RGB格式，记为RGB图片I。该图像中目标标签，记为掩模M。所述掩模，为图像的二进制前景和背景。

[0074] 首先，输入一段视频和第一帧的掩码，将第一帧I0和第一掩码M0输入变换网络G中，得到变换图像对D。具体表达式如下：

[0075] Dn＝G(I0，M0)

[0076] 其中G表示变换网络。图像对集合Dn＝{d1m1，d2m2，...，dnmn}，Dn表示有n个图像对。dimi表示第i个图像对，其中di表示第i个变换网络生成的图像，mi表示第i个变换网络生成的掩码。通过变换网络生成图像对，对图像对进行筛选是否作为感兴区域。

[0077] 更进一步说，步骤2的具体步骤为：

[0078] 通过变换网络生成的图像对，图像对进行筛选是否作为感兴区域。使用目标提议获得感兴区域。目标提议，是一个典型的全卷积网络，输入任意大小图像，输出图像目标矩形提议框的集合。在第一帧中的目标周围进行目标提议操作，并记为gtbox，所述gtbox是第一帧的目标周围真实标记的边界框。图像对目标周围进行目标提议操作生成的边界框，并记为bbox，所述bbox是将图像对输入到目标提议，输出图像对中目标提议框，如图2中5号标记处所示。对生成图像目标提议和第一帧目标提议比值IoU分数。具体表达式如下：

[0079] S＝IoU(bbox，gtbox)

[0080] 其中，IoU是交并比的函数表达式。S得分，是图像对中目标提议框和第一帧中目标提议框交并比值分数。通过IoU比值S＞0.75部分具有代表性图像对作为感兴区域。然后，对感兴区域添加一个跟踪器，跟踪器能在下一帧中定位目标有效的方法。所述跟踪器，是输入当前帧掩模和下一帧图像，能够预测下一帧目标掩摸的位置。使用跟踪器来获取下一帧图像的掩模区域。为后续的帧感兴区域提供时间一致性。已知一段视频序列R，R＝{I0，I1，I2，I3，...It...，In}和第一帧I0的掩模M0。It是视频序列中第t帧。t∈{1，2，3，...，n}。求视频序列中剩下帧的掩模{M1，M2，M3，...，Mn}，根据跟踪器函数表达式如下：

[0081] Mt+1＝f(It+1，Mt)

[0082] 其中，f表示为跟踪器函数，已知It+1表示为第t+1帧的图像，已知Mt表示第t帧图像的掩模，求Mt+1表示为第t+1帧的掩摸。视频第二帧图像和第一帧图像的掩模是已知的，通过跟踪器求出第二帧图像的掩模。由于目标在空间具有平滑移动的趋势，视频帧与帧之间几乎变化很小特性，相对具有一定的关联性。通过Mt掩模和It+1帧，预测It+1帧的掩模Mt+1。预测It+1帧的掩模和真实的掩模Mgt存在很大的误差。所述Mgt表示真实准确的掩模。然后把感兴区域添加跟踪器输入到感兴分割网络中。

[0083] 更进一步说，步骤3的具体步骤为：

[0084] 基于步骤2通过感兴区域添加跟踪器输入到感兴分割网络中。把感兴区域添加跟踪器输入到本发明中的感兴分割网络(RoISeg)经行训练预测目标。本发明中感兴分割网络RoISeg，是基于深度卷积神经网络CNN，在ResNet101框架网络基础上，创新本发明中网络框架，称作为感兴分割网络。ResNet101框架网络，是一个具有深层次残差学习框架来解决精准度下降问题的网络，具有较低的训练误差和测试误差网络。本发明RoISeg网络中由卷积层、池化层、激活函数、批量规范化、反卷积等组合。其中RoISeg中初始参数设置为：学习率为0.0001、权重衰减项为0.005。RoISeg最终输出使用加权交叉熵损失进行约束。所述交叉生损失表达式如下所示：

[0085]

[0086] 其中，上(θ)表示加权交叉熵损失，θ取值范围[0，1]，表示与网络中当前预测相关的权重参数。X+和X-分别代表具有目标正样本和负样本标签的像素集。正样本是真实的正确样本，负样本是预测错误样本。话句话说，视频帧掩码的正样本和负样本的像素集。β是权重衰减项，在训练期间惩罚有偏差采样。卷积层的激活输出来计算概率函数P表示概率分布，P∈[0，1]。所述激活函数，使用常用的非线性的激活函数Sigmoid取值范围[0，1]。感性分割网络训练输出层使用交叉熵损失的约束，再经过反向传播到网络中继续训练，当训练的过程损失逐渐变小，收敛变足够小并且稳定。输出得到目标分割结果。输出结果，是掩模前景和背景的分割图。

[0087] 更进一步说，步骤4的具体步骤为：

[0088] 由步骤3中RoISeg网络预测输出目标结果的存在较大误差，为了减少噪声分割的部分。因此，本发明构建一种“双关注模块的方法。在RoISeg的最后卷积层输出的特征图，把特征图分别输入到两个关注模块。两个关注模块分：别为空间关注模块和通道关注模块，具体如下：

[0089] 空间关注模块：引入空间关注机制，为视频帧中目标丰富上下文特征的依赖关系。引入空间关注机制操作进行详细说明。在图3中空间关注模块所示s。从RoISeg的卷积层输出特征图记为A，A∈RC×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度。首先由特征图A共享分别生成三个新的特征映射B、D和F，其中{B，D，F}∈RC×H×W。然后将它们形状大小重新改变为RC×N，其中N＝H×W，N表示为高度和宽度的乘积。之后，B进行矩阵转置和D执行矩阵乘法，并应用softmax层来计算空间维度信息关注特征图S∈RN×N，具体表达式如下所示：

[0090]

[0091] 其中Sij测量第ith空间位置对第jth空间位置的影响。exp表示两个位置之间距离，距离越小它们之间位置越相似。所述前文中，来捕获任意两个空间位置之间的空间依赖性。换句话说，两个位置的更相似的特征。表示有助于它们之间特征更大的相似性。上述中F形状大小为RC×N。然后在F和S矩阵转置之间执行矩阵乘法操作，矩阵乘法结果特征图大小形状为RC×N，再把特征图的形状大小重新改变为RC×H×W。最后，乘以一个尺度参数α，并用特征A执行元素和运算操作，得到输出特征图结果E1，具体表达式如下：

[0092]

[0093] 其中，α为权重系数初始化设置为0，α∈[0，1]，并逐渐分配更多权重。相加操作结C×H×W果特征图E1，形状大小E1∈R 。对于视频帧中的目标特征位置，通过加权求和所在位置聚合特征来更新，其中权重由相应两个位置之间的特征相似性决定。换而言之，具有相似特征的任何两个位置可以促进相互改进，而不管它们在空间维度上的距离。并根据空间关注映射选择性地聚合上下文特征表示，从而提升了相同类之间信息相互依赖关系。

[0094] 通道关注模块：通过通道关注机制操作，来捕获任意两个通道映射之间通道依赖关系。从RoISeg的卷积层输出特征图也记为A，A∈RC×H×W，R表示集合，A的形状大小为C×H×W，C表示通道数，H表示为高度，W表示宽度。特征图A共享分别生成两个新的特征映射M和N，其中{M，N}∈RC×H×W。然后将它们形状大小重新改变为RC×N。M与N转置之间执行矩阵乘法，直接计算出通道特征图X∈RC×C。使用softmax层来获取通道关注信息特征图X∈RC×C，具体表达式如下所示：

[0095]

[0096] 其中Xji测量第ith通道对第jth通道之间影响，前文提到通道关注模块捕获任意两个通道映射之间通道依赖关系。另外，把X矩阵和A特征图形状重塑为RC×N矩阵之间执行矩阵乘法，矩阵乘法得到的结果形状为RC×N，再重新塑形为RC×H×W。然后乘以一个尺度权重参数β，并与A执行元素和运算，得到输出特征图E2，具体表达式如下所示：

[0097]

[0098] 其中，β为权重系数，初始化设置为0.3，β∈[0，1]。相加操作结果特征图E2，E2形状大小E2∈RC×H×W。模拟了特征图通道映射之间通道依赖关系。从而有助于提高模型功能的可辨性。通过通道关注模块的增强通道目标特征更为突出，使得视频帧在网络中能够识别目标。

[0099] 将上述两个关注模块融合操作。所述的融合操作，是将这两个特征向量组合成复向量。上述空间关注模块输出的特征特E1，通道关注模块输出的特征图E2，经过融合操作得到新的特征图O：具体表达式如下所示：

[0100] O＝f(E1，E2)

[0101] 其中，O是融合特征图输出的结果，O输出特征图大小为O∈RC×H×W。函数f表示为融合操作。E1特征图的大小为E1∈RC×H×W。E2特征图的大小为E2∈RC×H×W。融合在一起丰富目标对象的前后帧之间的特征信息更加明显，从而获得更好的视频目标对象分割的特征效果。

[0102] 通过关注模块中空间维度信息和通道维度信息之间的特征融合捕获依赖关系，充分利用空间和通道之间的上下文特征信息。具体而言，通过感兴分割网络的卷积层输出，分别输入到两个关注模块。经过各自的关注机制操作，空间关注模块得到显著的空间信息特征，通道关注模块得到显著的通道信息的特征。把这两个关注模块融合特征操作，增强了视频对象分割中特征表示的判别能力。对视频分割中出现干扰、噪声影响起到抑制作用。再执行一次卷积层的操作。输出最终的分割掩模结果图。

[0103] 本发明的视频对象分割的方法经过实验结果证明如图4和图5结果，取得有效的效果成果，由此证明了本发明的是有意义。实施例

[0104] 本发明实验硬件环境是：3.4GHz Intel(R)Core(TM)i5-7500 CPU和GTX 1080Ti GPU的PC上，16内存，Ubuntu18.04 操作系统下实现，基于开源框架Pytorch深度框架实现的。训练和测试使用854x480的图像大小。测试结果(如图4图5)数据集来源于DAVIS公开视频图像分割的数据集。

[0105] 首先对给定的第一帧和第一帧的掩模(如图2中1和2所示)。通过变换网络生成1～100张的图像对(图2中4所示)。通过目标提议框选择候选感兴区域(图2中5所示)。感兴区域添加跟踪器后输入RoISeg网络中训练(图2中6所示)。从RoISeg网络中最后卷积层输出特征图(图2中7所示)分别输入空间关注模块和通道关注模块。最后把空间关注模块和通道关注模块输出的特征图进行融合(图2中12所示)，最后输出分割结果图。本发明的视频对象分割的方法经过实验结果证明如图4和图5结果，取得有效的效果成果，由此证明了本发明的是有意义。

标题	发布/更新时间	阅读量
一种利用近似环额外信息度与分割移位的低错误平层QC-LDPC码构造方法	2020-05-15	219
一种解决处理器死机问题的方法	2020-05-15	153
基于多视点视频整帧丢失的自适应错误掩盖方法	2020-05-11	834
肌力恢复与姿势纠正辅助装置	2020-05-12	210
一种内存重复释放错误检测方法	2020-05-14	278
对邻线干扰的安全防护方法及装置	2020-05-14	814
MBMS文件片的发送方法、传输系统及业务服务器	2020-05-11	749
用于提高视频质量的错误掩蔽方法	2020-05-17	345
调校多媒体资料流中软资料的方法以及软资料解映射器	2020-05-12	975
实现数据包重发的方法、装置及系统	2020-05-12	653

一种双模块神经网络结构视频对象分割方法

一种双模块神经网络结构视频对象分割方法

技术领域

背景技术

发明内容

该功能需要专业版企业版VIP权限，您可以：