一种基于投影卷积网络的三维形状分割及语义标记方法专利检索-共享初始过滤规则集软件专利检索查询-专利查询网

一种基于投影卷积网络的三维形状分割及语义标记方法

阅读：882发布：2020-05-24

专利汇可以提供一种基于投影卷积网络的三维形状分割及语义标记方法专利检索，专利查询，专利分析的服务。并且本发明提出了一种基于投影卷积网络的三维形状分割及语义标记方法，输入采用多边形网格的三维形状表示，信息点大限度地覆盖形状表面，渲染形状为阴影图像和深度图像，产生双通道图像，经相同图像的全连接网络(FCN)模块，对于每个输入图像每个函数模块输出置信图，图像表面投影层聚合多个视图的置信度图，结合边界线索进行表面条件随机域CRF传播，对任务各模块进行训练，最终获得分割语义标记结果。本发明不需要利用任何人工调整几何描述符，减少闭塞和覆盖形状表面，不会丢失显著部分标签，有效地关联信息，闭塞的部分也被标记，保证了分割的完整性和连贯性，方法显著优于以前的方法。，下面是一种基于投影卷积网络的三维形状分割及语义标记方法专利的具体信息内容。

权利要求

1.一种基于投影卷积网络的三维形状分割及语义标记方法，其特征在于，主要包括数据输入(一)；完全卷积网络(FCN)模块(二)；图像表面投影层(三)；表面条件随机域(CRF)模块(四)；训练(五)。
2.基于权利要求书1所述的数据输入(一)，其特征在于，输入采用多边形网格的三维形状表示，作为预处理，形状表面通过均匀分布点采样(这里采用1024个)；确定紧凑的信息点，最大限度地覆盖形状表面，对于每一个信息点，在一个二值图像的透视投影下，每个角度的形状光栅化，信息点的覆盖范围的测量作为可见的表面点的片段，对形状进行渲染。
3.基于权利要求书2所述的最大限度覆盖形状表面，其特征在于，通过从图像中聚合表面点引用来估计，对于每一个的尺寸，最大覆盖的信息点插入到列表中，然后重新估计覆盖在这个规模，选择信息点覆盖了省略点，与下一个大范围的信息点添加到列表；重复该过程，直到所有表面点在此规模被覆盖。
4.基于权利要求书2所述的渲染，其特征在于，确定信息点收集，渲染形状为阴影图像和深度图像，对于每一个信息点，放置一个摄像头指向的表面点用于生成这种信息点，并旋转向量4次，每次90度(即使用4个平面内旋转)，这4个旋转，渲染阴影和深度图像，连接成一个双通道图像，这些图像被馈送作为输入到图像网络处理模块(FCN)，栅格化形状到另一个图像，每个像素存储多边形ID，投影最接近的像素中心，这些图像称为“表面参考”的图像，被馈送到网络的“投影层”。
5.基于权利要求书1所述的FCN模块(二)，其特征在于，在上一步产生双通道图像，经相同图像的全连接网络(FCN)模块，对于每个输入图像每个函数模块输出L置信图，大小为768×768，其中L是部分标签数量，由于输入是一个2通道的图像，使用2通道3×3 过滤器，适应这些过滤器来处理灰度而不是彩色图像，上采样置信图大小768×768通过转置卷积层(“去卷积”)，置信度通过CRF层转换成概率。
6.基于权利要求书1所述的图像表面投影层(三)，其特征在于，这一层的目标是聚合多个视图的置信度图，并将结果投影到三维表面上；位置和最佳角度的数量和形状都不同，且无规则，给定输入形状s的输入图像Ms，L从FCN模块提取的置信图叠成一个Ms×768×768×L图像，投影层作为输入这四维图像，这层输出Fs×L列，其中Fs是形状s的多边形数，投影是通过视图池操作完成的，对于每个表面多边形f和部分类别标签l，分配置信度P(f，l)等于在所有像素和输入图像映射到该多边形根据表面参考图像的最大标签的置信度，投影操作公式为：
C(m,i,j,l)是图像m的像素(i,j)的标签l的置信度，I(m,i,j)储存相应的参考图像m像素(i,j)多边形ID；是标记多边形f的标签l的输出置信度。
7.基于权利要求书1所述的表面CRF(四)，其特征在于，一些小的表面区域可能是高度封闭的，因此未观测到所有选定的信息点，或不包括在任何参考图像中，任何这样的多边形，标签的置信度都设置为零，正确的标签将通过在投影层之后的条件随机域(CRF)层传播；此外，由于采样的函数模块，有可能在表面凸起或凹陷，可能是分割边界，需要结合表面边界线索进行CRF操作。
8.基于权利要求书7所述的CRF操作，其特征在于，在曲面表示(法)中定义CRF操作处理，每个多边形f被分配一个随机变量Rf代表其标签；CRF包括每个变量的一元因素，这是在投影层根据置信度设置的： CRF编码这些变量之间相互作用
的基础上的表面接近和曲率，每对相邻的多边形(f,f′)，定义了一个考虑其法线之间的角度ωf,f′的因素，有利于多边形共享法线相同的标签，公式如下：
其中wadj和wl,l′是学习因子和标签相关权重；
定义多边形f类似标签的因素f′，根据之间的测地线距离df,f′，空间上彼此接近；使CRF相对密集和更敏感的远程表面变量之间的相互作用，这些因素被定义如下：
其中依赖因子的权重wdist和依赖标签的权重wl,l′是学习获得的参数，df,f′代表f和f′之间的测地距离，距离归一化为[0，1]；
基于上述所有因素，CRF定义在所有的表面随机变量形状的如下：
Zs是一个归一化常数。
9.基于权利要求书1所述的训练(四)，其特征在于，FCN模块与过滤器预训练图像处理任务初始化，网络输入呈现灰度(无色)的图像，平均卷积层预训练过滤器BGR通道的权重，即3×3×3滤波器转换为颜色不敏感3×3×1过滤器，复制两次权重3×3×2过滤器，接受双输入图像，CRF的权重初始化为1；
给定一个输入训练数据集的3D形状，生成深度、阴影和参考图像，微调FCN模块滤波参数θ学习CRF的权重wadj、wdist和{wl,l′}，使目标函数最大化，加上一个小的正则化项，公式如下：
Ts是训练形状s的每个表面变量对照标签，λ是正则化参数(权重衰减)设置为10-3。
10.基于权利要求书8所述的目标函数最大化，其特征在于，基于目标函数最大化的CRF，计算FCN模块输出所需的反向传播梯度：
计算梯度需要估计边际概率P(Rf)，用平均场推理估计边际(相同的推理过程是在训练和测试使用)，10次迭代之后，平均场收敛，即边际变化很小，CRF具有对数线性模型的形式，梯度可以很容易地导出，边缘概率也需要通过这些梯度计算，使用相同的平均场的过程估计。

说明书全文

一种基于投影卷积网络的三维形状分割及语义标记方法

技术领域

[0001] 本发明涉及图像分割领域，尤其是涉及了一种基于投影卷积网络的三维形状分割及语义标记方法。

背景技术

[0002] 三维形状分割成标记的语义得到广泛的应用，常用于机器人技术和虚拟现实技术，如三维形状、跨模态分析、图像目标检测、图像三维重建和三维对象的风格转换等等，根据部分的形状和种类，进行相应的分割和语义标记，现有的三维几何形状数据语义推理技术大多依赖于启发式处理阶段和人工调整几何描述符，且分割边界的线索非常细微，需要对噪点有较强的鲁棒性，易产生严重闭塞，影响分割边界的连贯性和完整性。

[0003] 本发明提出了一种基于投影卷积网络的三维形状分割及语义标记方法，输入采用多边形网格的三维形状表示，信息点大限度地覆盖形状表面，渲染形状为阴影图像和深度图像，产生双通道图像，经相同图像的全连接网络(FCN)模块，对于每个输入图像每个函数模块输出置信图，图像表面投影层聚合多个视图的置信度图，结合边界线索进行表面条件随机域CRF传播，对任务各模块进行训练，最终获得分割语义标记结果。本专利不需要利用任何人工调整几何描述符，减少闭塞和覆盖形状表面，不会丢失显著部分标签，有效地关联信息，闭塞的部分也被标记，保证了分割的完整性和连贯性，方法显著优于以前的方法。

发明内容

[0004] 为解决上述问题，本发明提供一种基于投影卷积网络的三维形状分割及语义标记方法，其主要内容包括：数据输入(一)；完全卷积网络(FCN)模块(二)；图像表面投影层(三)；表面条件随机域(CRF)模块(四)；训练(五)。

[0005] 其中数据输入(一)，输入采用多边形网格的三维形状表示，作为预处理，形状表面通过均匀分布点采样(这里采用1024个)；确定紧凑的信息点，最大限度地覆盖形状表面，对于每一个信息点，在一个二值图像的透视投影下，每个角度的形状光栅化，信息点的覆盖范围的测量作为可见的表面点的片段，对形状进行渲染。

[0006] 进一步地，最大限度覆盖形状表面，通过从图像中聚合表面点引用来估计，对于每一个的尺寸，最大覆盖的信息点插入到列表中，然后重新估计覆盖在这个规模，选择信息点覆盖了省略点，与下一个大范围的信息点添加到列表；重复该过程，直到所有表面点在此规模被覆盖。

[0007] 进一步地，渲染确定信息点收集，渲染形状为阴影图像和深度图像，对于每一个信息点，放置一个摄像头指向的表面点用于生成这种信息点，并旋转向量4次，每次90度(即使用4个平面内旋转)，这4个旋转，渲染阴影和深度图像，连接成一个双通道图像，这些图像被馈送作为输入到图像网络处理模块(FCN)，栅格化形状到另一个图像，每个像素存储多边形ID，投影最接近的像素中心，这些图像称为“表面参考”的图像，被馈送到网络的“投影层”。

[0008] 其中，FCN模块(二)，在上一步产生双通道图像，经相同图像的全连接网络(FCN)模块，对于每个输入图像每个函数模块输出L置信图，大小为768×768，其中L是部分标签数量，由于输入是一个2通道的图像，使用2通道3×3 过滤器，适应这些过滤器来处理灰度而不是彩色图像，上采样置信图大小768×768通过转置卷积层(“去卷积”)，置信度通过CRF层转换成概率。

[0009] 其中，图像表面投影层(三)，这一层的目标是聚合多个视图的置信度图，并将结果投影到三维表面上；位置和最佳角度的数量和形状都不同，且无规则，给定输入形状s的输入图像Ms，L从FCN模块提取的置信图叠成一个Ms×768×768×L图像，投影层作为输入这四维图像，这层输出Fs×L列，其中Fs是形状s的多边形数，投影是通过视图池操作完成的，对于每个表面多边形f和部分类别标签l，分配置信度P(f，l)等于在所有像素和输入图像映射到该多边形根据表面参考图像的最大标签的置信度，投影操作公式为：

[0010]

[0011] C(m,i,j,l)是图像m的像素(i,j)的标签l的置信度，I(m,i,j)储存相应的参考图像m像素(i,j)多边形ID；是标记多边形f的标签l的输出置信度。

[0012] 其中，表面CRF(四)，一些小的表面区域可能是高度封闭的，因此未观测到所有选定的信息点，或不包括在任何参考图像中，任何这样的多边形，标签的置信度都设置为零，正确的标签将通过在投影层之后的条件随机域(CRF)层传播；此外，由于采样的函数模块，有可能在表面凸起或凹陷，可能是分割边界，需要结合表面边界线索进行CRF操作。

[0013] 进一步地，CRF操作，在曲面表示(法)中定义CRF操作处理，每个多边形f被分配一个随机变量Rf代表其标签；CRF包括每个变量的一元因素，这是在投影层根据置信度设置的： CRF编码这些变量之间相互作用的基础上的表面接近和曲率，每对相邻的多边形(f,f′)，定义了一个考虑其法线之间的角度ωf,f′的因素，有利于多边形共享法线相同的标签，公式如下：

[0014]

[0015] 其中wadj和wl,l′是学习因子和标签相关权重；

[0016] 定义多边形f类似标签的因素f′，根据之间的测地线距离df,f′，空间上彼此接近；使CRF相对密集和更敏感的远程表面变量之间的相互作用，这些因素被定义如下：

[0017]

[0018] 其中依赖因子的权重wdist和依赖标签的权重wl,l′是学习获得的参数，df,f′代表f和f′之间的测地距离，距离归一化为[0，1]；

[0019] 基于上述所有因素，CRF定义在所有的表面随机变量形状的如下：

[0020]

[0021] Zs是一个归一化常数。

[0022] 其中，训练(四)，FCN模块与过滤器预训练图像处理任务初始化，网络输入呈现灰度(无色)的图像，平均卷积层预训练过滤器BGR通道的权重，即3×3×3滤波器转换为颜色不敏感3×3×1过滤器，复制两次权重3×3×2过滤器，接受双输入图像，CRF的权重初始化为1；

[0023] 给定一个输入训练数据集的3D形状，生成深度、阴影和参考图像，微调FCN模块滤波参数θ学习CRF的权重wadj、wdist和{wl,l′}，使目标函数最大化，加上一个小的正则化项，公式如下：

[0024]

[0025] Ts是训练形状s的每个表面变量对照标签，λ是正则化参数(权重衰减)设置为10-3。

[0026] 进一步地，目标函数最大化基于目标函数最大化的CRF，计算FCN模块输出所需的反向传播梯度：

[0027]

[0028] 计算梯度需要估计边际概率P(Rf)，用平均场推理估计边际(相同的推理过程是在训练和测试使用)，10次迭代之后，平均场收敛，即边际变化很小，CRF具有对数线性模型的形式，梯度可以很容易地导出，边缘概率也需要通过这些梯度计算，使用相同的平均场的过程估计。附图说明

[0029] 图1是本发明一种基于投影卷积网络的三维形状分割及语义标记方法的系统流程图。

[0030] 图2是本发明一种基于投影卷积网络的三维形状分割及语义标记方法的流程示意图。

[0031] 图3是本发明一种基于投影卷积网络的三维形状分割及语义标记方法的图像分割数据集。

具体实施方式

[0032] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

[0033] 图1是本发明一种基于投影卷积网络的三维形状分割及语义标记方法的系统流程图。主要包括：数据输入；完全卷积网络(FCN)模块；图像表面投影层；表面条件随机域(CRF)模块；训练。

[0034] 输入采用多边形网格的三维形状表示，作为预处理，形状表面通过均匀分布点采样(这里采用1024个)；确定紧凑的信息点，最大限度地覆盖形状表面，对于每一个信息点，在一个二值图像的透视投影下，每个角度的形状光栅化，信息点的覆盖范围的测量作为可见的表面点的片段，对形状进行渲染。

[0035] 最大限度覆盖形状表面，通过从图像中聚合表面点引用来估计，对于每一个的尺寸，最大覆盖的信息点插入到列表中，然后重新估计覆盖在这个规模，选择信息点覆盖了省略点，与下一个大范围的信息点添加到列表；重复该过程，直到所有表面点在此规模被覆盖。

[0036] 渲染确定信息点收集，渲染形状为阴影图像和深度图像，对于每一个信息点，放置一个摄像头指向的表面点用于生成这种信息点，并旋转向量4次，每次90度(即使用4个平面内旋转)，这4个旋转，渲染阴影和深度图像，连接成一个双通道图像，这些图像被馈送作为输入到图像网络处理模块(FCN)，栅格化形状到另一个图像，每个像素存储多边形ID，投影最接近的像素中心，这些图像称为“表面参考”的图像，被馈送到网络的“投影层”。

[0037] 在上一步产生双通道图像，经相同图像的全连接网络(FCN)模块，对于每个输入图像每个函数模块输出L置信图，大小为768×768，其中L是部分标签数量，由于输入是一个2通道的图像，使用2通道3×3过滤器，适应这些过滤器来处理灰度而不是彩色图像，上采样置信图大小768×768通过转置卷积层(“去卷积”)，置信度通过CRF层转换成概率。

[0038] 图像表面投影层，这一层的目标是聚合多个视图的置信度图，并将结果投影到三维表面上；位置和最佳角度的数量和形状都不同，且无规则，给定输入形状s的输入图像Ms，L从FCN模块提取的置信图叠成一个Ms×768×768×L图像，投影层作为输入这四维图像，这层输出Fs×L列，其中Fs是形状s的多边形数，投影是通过视图池操作完成的，对于每个表面多边形f和部分类别标签l，分配置信度P(f，l)等于在所有像素和输入图像映射到该多边形根据表面参考图像的最大标签的置信度，投影操作公式为：

[0039]

[0040] C(m,i,j,l)是图像m的像素(i,j)的标签l的置信度，I(m,i,j)储存相应的参考图像m像素(i,j)多边形ID；是标记多边形f的标签l的输出置信度。

[0041] 一些小的表面区域可能是高度封闭的，因此未观测到所有选定的信息点，或不包括在任何参考图像中，任何这样的多边形，标签的置信度都设置为零，正确的标签将通过在投影层之后的条件随机域(CRF)层传播；此外，由于采样的函数模块，有可能在表面凸起或凹陷，可能是分割边界，需要结合表面边界线索进行CRF操作。

[0042] 在曲面表示(法)中定义CRF操作处理，每个多边形f被分配一个随机变量Rf代表其标签；CRF包括每个变量的一元因素，这是在投影层根据置信度设置的：CRF编码这些变量之间相互作用的基础上的表面接近和曲率，每对相邻的多
边形(f,f′)，定义了一个考虑其法线之间的角度ωf,f′的因素，有利于多边形共享法线相同的标签，公式如下：

[0043]

[0044] 其中wadj和wl,l′是学习因子和标签相关权重；

[0045] 定义多边形f类似标签的因素f′，根据之间的测地线距离df,f′，空间上彼此接近；使CRF相对密集和更敏感的远程表面变量之间的相互作用，这些因素被定义如下：

[0046]

[0047] 其中依赖因子的权重wdist和依赖标签的权重wl,l′是学习获得的参数，df,f′代表f和f′之间的测地距离，距离归一化为[0，1]；

[0048] 基于上述所有因素，CRF定义在所有的表面随机变量形状的如下：

[0049]

[0050] Zs是一个归一化常数。

[0051] FCN模块与过滤器预训练图像处理任务初始化，网络输入呈现灰度(无色)的图像，平均卷积层预训练过滤器BGR通道的权重，即3×3×3滤波器转换为颜色不敏感3×3×1过滤器，复制两次权重3×3×2过滤器，接受双输入图像，CRF的权重初始化为1；

[0052] 给定一个输入训练数据集的3D形状，生成深度、阴影和参考图像，微调FCN模块滤波参数θ学习CRF的权重wadj、wdist和{wl,l′}，使目标函数最大化，加上一个小的正则化项，公式如下：

[0053]

[0054] Ts是训练形状s的每个表面变量对照标签，λ是正则化参数(权重衰减)设置为10-3。

[0055] 目标函数最大化基于目标函数最大化的CRF，计算FCN模块输出所需的反向传播梯度：

[0056]

[0057] 计算梯度需要估计边际概率P(Rf)，用平均场推理估计边际(相同的推理过程是在训练和测试使用)，10次迭代之后，平均场收敛，即边际变化很小，CRF具有对数线性模型的形式，梯度可以很容易地导出，边缘概率也需要通过这些梯度计算，使用相同的平均场的过程估计。

[0058] 图2是本发明一种基于投影卷积网络的三维形状分割及语义标记方法的流程示意图。使用一个单一的前馈网络，给定一个原始的3D多边形网格作为输入，生成一组多个视图，自动选择最佳表面覆盖的图像。这些图像被送入网络，通过图像处理层输出每个部分的置信图。置信图通过投影层融合和投影到形状表面。最后，架构采用了基于表面的CRF层促进整个表面一致的标签。整个网络，包括CRF，在终端到终端的方式进行培训，以达到最佳的性能。

[0059] 图3是本发明一种基于投影卷积网络的三维形状分割及语义标记方法的图像分割数据集。引入一个深层结构的组成部分基于推理3D形状表示，可以对复杂结构的形状，例如汽车、飞机等有较好的分割结果，标签精度高，无需使用手动调整描述符。

[0060] 对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

标题	发布/更新时间	阅读量
基于合作感知的插电式混合动力汽车能量优化控制方法	2020-05-16	31
政府综合业务平台业务库和基础库的构建方法	2020-05-25	842
政府综合业务平台业务库和基础库的构建方法	2020-06-03	566
对象检测方法、装置、计算机可读存储介质和计算机设备	2020-05-12	884
一种面向机器人智能抓取应用的视觉识别与定位方法	2020-05-18	476
基于IFC数据交互的工程项目信息交付集成管理系统	2020-05-21	425
同步共享初始过滤规则集配置数据的方法、装置及系统	2020-06-09	1005
一种企业异构数据库智能集成的系统及方法	2020-05-23	57
大型防火墙集群中的定时管理	2020-05-20	808
基于人机协作的机器人感知与理解方法	2020-05-22	475

一种基于投影卷积网络的三维形状分割及语义标记方法

一种基于投影卷积网络的三维形状分割及语义标记方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：