一种视觉目标上下文空间关系编码的系统和方法专利检索-空间编码诊断设备和程序专利检索查询-专利查询网

一种视觉目标上下文空间关系编码的系统和方法

阅读：1021发布：2020-05-27

专利汇可以提供一种视觉目标上下文空间关系编码的系统和方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种视觉目标上下文空间关系编码的系统和方法。该系统以神经元网络形式实现；包括视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像目标逻辑关系编码神经元层和视觉目标空间关系编码神经元层；所有相邻两层神经元之间的连接权值构成了对图像内容的编码，每个编码神经元及其连接权值分别编码图像基元、图像目标、目标二元逻辑关系和目标空间关系。其具有极大的灵活性和自适应性。，下面是一种视觉目标上下文空间关系编码的系统和方法专利的具体信息内容。

权利要求

1.一种视觉目标上下文空间关系编码的系统，其特征在于，其以神经元网络形式实现；
包括视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像目标逻辑关系编码神经元层和视觉目标空间关系编码神经元层；
所有相邻两层神经元之间的连接权值构成了对图像内容的编码，每个编码神经元及其连接权值分别编码图像基元、图像目标、目标二元逻辑关系和目标空间关系。
2.根据权利要求1所述的视觉目标上下文空间关系编码的系统，其特征在于，还包括一图像传感输入神经元层，用于图像输入。
3.根据权利要求2所述的视觉目标上下文空间关系编码的系统，其特征在于，所述图像传感输入神经元层构成的神经元与图像上的等间隔像素采样一一对应，而神经元的响应值取对应的像素值。
4.根据权利要求1至3任一项所述的视觉目标上下文空间关系编码的系统，其特征在于，所述视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像目标逻辑关系编码神经元层和视觉目标空间关系编码神经元层编码分别采用稀疏特征、赫布学习权值特征、连接特征和距离特征作为编码的基本要素，四个编码层分别由稀疏编码神经元组成。
5.一种视觉目标上下文空间关系编码的方法，其特征在于，包括下列步骤：
步骤A，根据局部图像传感神经元的像素值，计算得到视觉图像基元编码神经元的编码值和响应值；
步骤B，根据视觉图像基元编码神经元的响应，计算得到视觉图像目标编码神经元的编码值和响应值；
步骤C，根据任意两个有关联的视觉图像目标编码神经元的响应值，计算得到视觉图像目标逻辑关系编码神经元的编码值和响应值；
步骤D，根据图像目标之间的空间关系，计算得到视觉目标空间关系编码神经元的编码值。
6.根据权利要求5所述的视觉目标上下文空间关系编码的方法，其特征在于，所述步骤C中的逻辑关系为二元逻辑关系。
7.根据权利要求5或6所述的视觉目标上下文空间关系编码的方法，其特征在于，所述步骤D中，还包括计算得到视觉目标空间关系编码神经元的响应值的步骤。
8.根据权利要求5或6所述的视觉目标上下文空间关系编码的方法，其特征在于，所述步骤A中，15个视觉图像基元编码神经元的编码值(wi1，wi2，wi3， wi4)是根据2×2像素的15种组合对应的权值，经过归一化处理而得到；
对来自视觉图像传感神经元的响应输入(x1，x2，x3，x4)，所述视觉图像基元编码神经元Bi的响应值Ri 2由以下函数决定：

其中， $I_{i}^{2} = Σ_{k = 1}^{4} w_{ik} x_{k},$ T是一个阈值，wik为图像基元Bi的四个编码中的一个。
9.根据权利要求5或6所述的视觉目标上下文空间关系编码的方法，其特征在于，所述步骤B中，所述计算得到视觉图像目标编码神经元的编码值，包括下列步骤：
设图像目标区域包含M个子区域，对每个子区域Xm(1≤m≤M)，基元编码神经元B0和Bk的响应值是Rm0 2和Rmk 2(1≤k≤14)，则对应的权值Wm0，j 23和Wmk，j 23 由下式决定：
$w_{mi, j} = \frac{{w^{'}}_{mi, j}}{\sqrt{Σ_{m = 1}^{M} ({w^{'}}_{m 0, j}^{2} + {w^{'}}_{mk, j}^{2})}}, (i = 0, k; 1 \leq k \leq 14)$
其中w’mi，j的值根据赫布学习规则来决定： ${w^{'}}_{mi, j} = α_{2} R_{mi}^{2}, (i = 0, k; 1 \leq k \leq 14),$ 其中，a2是一个系数，即首先根据赫布学习规则计算得到一个连接权值，再进行归一化计算，得到第二层到第三层的连接权值；
对来自第二层基元编码神经元响应值(R1 2，R2 2，...Ri 2，...R2m 2)，第三层的目标编码神经元Oi的输入值Ij 3，如下式所示：
$I_{j}^{3} = Σ_{i = 1}^{2 M} w_{ij}^{23} R_{i}^{2}$
经过进一步经竞争响应得到最佳响应值Rj 3，由下式响应函数决定：

10.根据权利要求5或6所述的视觉目标上下文空间关系编码的方法，其特征在于，所述步骤C中，所述计算得到视觉图像目标逻辑关系编码神经元的两个编码值，根据赫布规则，都用相同的常数表示；
对来自第三层目标编码神经元(Oi1，Oi2)的响应值(Ri1 3，Ri2 3)，第四层的二元逻辑关系编码神经元Pj的输入值Ij 4由以下函数决定：
$I_{j}^{4} = w_{i 1,, j} R_{i 1}^{3} + w_{i 2, j} R_{i 2}^{3}$
其中wi1，j和wi2，j为等值常数。
进一步经竞争响应得到最佳响应值Rj 4，由以下响应函数决定，使得突出其响应：

11.根据权利要求5或6所述的视觉目标上下文空间关系编码的方法，其特征在于，所述步骤D中，所述计算得到视觉目标空间关系编码神经元的编码值，包括下列步骤：
第四层到第五层的连接权值Wij 45(w向左或w向右，w向上或w向下)是根据赫布规则wij＝α3RiRj计算得出，其中，α3是一个系数，Ri是第四层神经元的响应值，为1；Rj是第五层神经元的响应值，其为两个目标之间的水平或者垂直方向的距离|Δx|或|Δy|；计算如下：
w向左＝α3|Δx|(Δx＜0)
w向右＝α3|Δx|(Δx＞0)
w向上＝α3|Δy|(Δy＜0)
w向下＝α3|Δy|(Δy＞0)
对来自第四层目标二元逻辑关系编码神经元Pi的响应Ri 4，其响应值为1，第五层的空间关系编码神经元(S向左、S向右、S向上、S向下)的响应值(s向左、s向右、s向上、 s向下)由以下响应函数决定：
s向右＝0    (Δx＜0)
s向左＝0    (Δx＞0)
s向下＝0    (Δy＜0)
s向上＝0    (Δy＞0)。

说明书全文

技术领域

本发明涉及图像识别和神经元网络技术领域，特别是涉及一种以神经元网络形式实现的、用于表达视觉图像目标上下文空间关系编码的系统和方法。

背景技术

视觉目标的上下文关系是指图像任意两个目标之间的空间相对关系。其中目标可以是图像中的任何内容，包括简单目标和复杂目标，前者如一段边缘、一个形状、一段轮廓或一个较紧凑的单一纹理区域；后者由前者组成，如人脸、人脸面部的各个感官等。
一般地，除了特别指定以外，两个目标之间的空间关系一般以各自中心点之间的连线的方向和距离表示。
在现有技术中，对视觉目标上下文关系进行编码主要包括两个部分：对两个视觉目标的编码和对视觉目标相对空间关系的编码。
目前关于视觉目标上下文关系的表示，普遍采用基于概率统计框架的模型方法，例如贝叶斯网或马尔可夫场模型。
欧洲专利申请WO2004111931公开了一种视觉注意选择系统和方法(A System And Method for Attentional Selection)。其基于自下而上的视觉注意，它能够自动选择和分离可能包含对象的显著区域。其主要工作体现在接受输入图像，自动分割出显著区域，得到一张显著映射图，能够直接定位显著对象的位置，因此，可以产生仅仅包括显著对象的掩码图像，并把这些分隔结果显示给用户，这样识别系统就可以在仅有显著对象的图上进行对象识别，而舍弃了一些无关的、不重要或者干扰的因素。
同时，美国专利公开文献US5664065，US2002154833，US2005047647，日本专利公开文献JP2002373333，以及中国专利公开文献申请号为： 99810425.6，200380103136.5，200410035084也公开了一些现有的视觉目标上下文关系的表示系统和方法，其主要是关于视觉选择性注意、图像目标表达和跟踪的技术。但是，现有技术中，并没有以神经元网络形式表达的关于视觉上下文空间关系的编码表示，无法更好地对视觉上下文关系进行表示。

发明内容

本发明所要解决的问题在于提供一种视觉目标上下文空间关系编码的系统和方法，其具有极大的灵活性和自适应性。
为实现本发明目的而提供的一种视觉目标上下文空间关系编码的系统，其以神经元网络形式实现；
包括视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像目标逻辑关系编码神经元层和视觉目标空间关系编码神经元层；
所有相邻两层神经元之间的连接权值构成了对图像内容的编码，每个编码神经元及其连接权值分别编码图像基元、图像目标、目标二元逻辑关系和目标空间关系。
所述的视觉目标上下文空间关系编码的系统，还包括一图像传感输入神经元层，用于图像输入。
所述图像传感输入神经元层构成的神经元与图像上的等间隔像素采样一一对应，而神经元的响应值取对应的像素值。
所述视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像目标逻辑关系编码神经元层和视觉目标空间关系编码神经元层编码分别采用稀疏特征、赫布学习权值特征、连接特征和距离特征作为编码的基本要素，四个编码层分别由稀疏编码神经元组成。
为实现本发明目的还提供一种视觉目标上下文空间关系编码的方法，包括下列步骤：
步骤A，根据局部图像传感神经元的像素值，计算得到视觉图像基元编码神经元的编码值和响应值；
步骤B，根据视觉图像基元编码神经元的响应，计算得到视觉图像目标编码神经元的编码值和响应值；
步骤C，根据任意两个有关联的视觉图像目标编码神经元的响应值，计算得到视觉图像目标逻辑关系编码神经元的编码值和响应值；
步骤D，根据图像目标之间的空间关系，计算得到视觉目标空间关系编码神经元的编码值。
所述步骤C中的逻辑关系为二元逻辑关系。
所述步骤D中，还包括计算得到视觉目标空间关系编码神经元的响应值的步骤。
所述步骤A中，15个视觉图像基元编码神经元的编码值(wi1，wi2，wi3，wi4) 是根据2×2像素的15种组合对应的权值，经过归一化处理而得到；
对来自视觉图像传感神经元的响应输入(x1，x2，x3，x4)，所述视觉图像基元编码神经元Bi的响应值Ri 2由以下函数决定：

其中，

I_{i}^{2} = Σ_{k = 1}^{4} w_{ik} x_{k},

T是一个阈值，wik为图像基元Bi的四个编码中的一个。
所述步骤B中，所述计算得到视觉图像目标编码神经元的编码值，包括下列步骤：
设图像目标区域包含M个子区域，对每个子区域Xm(1≤m≤M)，基元编码神经元B0和Bk的响应值是Rm0 2和Rmk 2(1≤k≤14)，则对应的权值Wm0，j 23和Wmk，j 23 由下式决定：

w_{mi, j} = \frac{{w^{'}}_{mi, j}}{\sqrt{Σ_{m = 1}^{M} ({w^{'}}_{m 0, j}^{2} + {w^{'}}_{mk, j}^{2})}}, (i = 0, k; 1 \leq k \leq 14)

其中w’mi，j的值根据赫布学习规则来决定：

{w^{'}}_{mi, j} = α_{2} R_{mi}^{2}, (i = 0, k; 1 \leq k \leq 14),

其中，α2是一个系数，即首先根据赫布学习规则计算得到一个连接权值，再进行归一化计算，得到第二层到第三层的连接权值；
对来自第二层基元编码神经元响应值(R1 2，R2 2，...Ri 2，...R2m 2)，第三层的目标编码神经元Oi的输入值Ij 3，如下式所示：

I_{j}^{3} = Σ_{i = 1}^{2 M} w_{ij}^{23} R_{i}^{2}

经过进一步经竞争响应得到最佳响应值Rj 3，由下式响应函数决定：

所述步骤C中，所述计算得到视觉图像目标逻辑关系编码神经元的两个编码值，根据赫布规则，都用相同的常数表示；
对来自第三层目标编码神经元(Oi1，Oi2)的响应值(Ri1 3，Ri2 3)，第四层的二元逻辑关系编码神经元Pj的输入值Ij 4由以下函数决定：

I_{j}^{4} = w_{i 1,, j} R_{i 1}^{3} + w_{i 2, j} R_{i 2}^{3}

其中wi1，j和wi2，j为等值常数。
进一步经竞争响应得到最佳响应值Rj 4，由以下响应函数决定，使得突出其响应：

所述步骤D中，所述计算得到视觉目标空间关系编码神经元的编码值，包括下列步骤：
第四层到第五层的连接权值Wij45(w向左或w向右，w向上或w向下)是根据赫布规则wij＝α3RiRj计算得出，其中，α3是一个系数，Ri是第四层神经元的响应值，为1；Rj是第五层神经元的响应值，其为两个目标之间的水平或者垂直方向的距离|Δx|或|Δy|；计算如下：
w向左＝α3|Δx|(Δx＜0)
w向右＝α3|Δx|(Δx＞0)
w向上＝α3|Δy|(Δy＜0)
w向下＝α3|Δy|(Δy＞0)
对来自第四层目标二元逻辑关系编码神经元Pi的响应Ri 4，其响应值为1，第五层的空间关系编码神经元(S向左、S向右、S向上、S向下)的响应值(s向左、s向右、s向上、 s向下)由以下响应函数决定：
s向右＝0    (Δx＜0)
s向左＝0    (Δx＞0)
s向下＝0    (Δy＜0)
s向上＝0    (Δy＞0)。
本发明的有益效果是：本发明的视觉目标上下文空间关系编码的系统和方法，其提出的编码网络中的模拟神经元在硬件实现上可以与物理器件一一对应，在对图像目标空间关系学习和表达过程中可以动态扩充，对于表达多对、每对任意两个目标之间的空间关系方面表现出了极大的灵活性、自适应性，可应用于视觉图像的表示和理解、视点的运动控制以及目标的搜索、检测和识别上。
附图说明
图1是本发明神经元网络目标上下文空间关系编码结构示意图；
图2是本发明视觉图像基元的神经元编码示意图；
图3是图像基元类别示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种视觉目标上下文空间关系编码的系统和方法进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
本发明的一种视觉目标上下文空间关系编码的系统和方法，是以神经元网络形式实现的，用于表达视觉图像目标上下文空间关系的编码系统和方法。
神经元网络，也称为人工神经网络(ARTIFICIAL NEURAL NETWORK， ANN)是在对人脑组织结构和运行机制的认识理解基础之上模拟其结构和智能行为的一种工程系统。早在本世纪40年代初期，心理学家McCulloch、数学家Pitts就提出了神经元网络的第一个数学模型，从此开创了神经计算科学理论的研究时代。其后，Rosenblatt、Widrow和Hopfield等学者又先后提出了一系列感知学习模型，使得神经元网络技术得以蓬勃发展。
神经元网络是由大量的神经元广泛互连而成的系统，它的这一结构特点决定着神经元网络具有高速信息处理的能力。人脑的每个神经元大约有103～104 个树突及相应的突触，一个人的大脑总计约形成1014～1015个突触。用神经网络的术语来说，即是人脑具有1014～1015个互相连接的存储潜力。虽然每个神经元的运算功能十分简单，且信号传输速率也较低(大约100次/秒)，但由于各神经元之间的极度并行互连功能，最终使得一个普通人的大脑在约1秒内就能完成现行计算机至少需要数10亿次处理步骤才能完成的任务。
本发明的视觉目标上下文空间关系编码的系统，即视觉目标上下文空间关系编码的神经元网络，包括四个编码神经元层：视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像目标逻辑关系编码神经元层以及视觉图像目标空间关系编码神经元层。四层编码分别采用稀疏特征、赫布(Hebb)学习权值特征、连接特征和距离特征作为编码的基本要素，四个编码层分别由稀疏编码神经元组成，神经元之间实现局域稀疏连接、层与层之间实现无缝连接，结构上既稀疏又紧凑。
如图1所示，本发明的视觉目标上下文空间关系编码的系统，包括一个图像传感输入神经元层和四个编码神经元层。
图像传感输入神经元层用于图像输入，其构成的神经元与图像上的等间隔像素采样一一对应，而神经元的响应值取对应的像素值。
四个编码神经元层分别是：视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像目标逻辑关系编码神经元层和视觉目标空间关系编码神经元层。其中，每一层编码神经元的响应值是下一层中与之有连接的神经元的响应值的加权输入和，并经阈值截断保证非负。
所有相邻两层神经元之间的连接权值构成了对图像内容的编码值，从第二到第五层中，每个编码神经元及其连接权值分别代表图像基元、图像目标、目标二元逻辑关系和目标空间关系。
编码神经元的功能除了以连接到自身的所有突触的权值来存储、记忆或编码目标(或基元)外，还负责对下层神经元的响应值进行加权求和计算，并通过自身的竞争响应来表示目前图像中含有这么一个目标或基元，也就是起到识别和判断的作用。
在本发明实施例中，作为一种可实施的方式，第二层视觉图像基元编码神经元层，任意一个视觉图像基元编码神经元接受来自第一层图像传感输入神经元层一个子区域内2×2个输入神经元的连接输入，也就是一个子区域内2×2 个像素的连接输入。本发明实施例用连接权值(wi1，wi2，wi3，wi4)表示第一层中对应的2×2像素的子图像(x1，x2，x3，x4)的第i个基底，该基底同时代表了一种图像基本特征，如亮度或边缘特征，如图2和图3所示，称之为图像基元。
这些连接权值(wi1，wi2，wi3，wi4)被称为对应该基底i的图像基元编码，可以计算得到子图像(x1，x2，x3，x4)对应的2×2像素的15种组合B0~B14(共24-1种) 对应的连接权值。如图3所示的15种基元编码示意图，图中每个基元由4个权值(w1，w2，w3，x4)代表；每个基元的四个权值对应于一组2×2个小方格，每个小方格代表一个实数。灰色方格代表正实数，黑色方格代表负实数。计算方法如下：设4个小方格中有n个小灰格，则有4-n个小黑格；n个小灰格对应的权值＝1/n，4-n个小灰格对应的权值＝-1/(4-n)；计算出来的权值，最后经过归一化处理，就得到如表1所示的编码值(w1，w2，w3，w4)。
表1图像基元编码(wi1，wi2，wi3，wi4)表

如图1所示，第一层第i个神经元到第二层第j个神经元之间的连接权值的集合

W_{ij}^{12} = {w_{ij}^{12}},

构成了图像内所有子区域的所有图像基元的编码。
同时计算出该层基元编码神经元的响应值Ri 2：
一个图像基元编码神经元Bi(0≤i≤14)通过对子图像(x1，x2，x3，x4)的加权(wi1，wi2，wi3，wi4)求和运算，如式(1)所示，实现对该子图像的基本特征提取，所提取的特征的值Ii2被称之为该图像基元编码神经元的输入值。

I_{i}^{2} = Σ_{k = 1}^{4} w_{ik} x_{k} - - - (1)

本发明中，还进一步经阀值截断，得到阀值截断后第二层编码神经元的响应值，如式(2)所示：

其中，T为阀值，其作用在于让神经元对较小的加权输入不做出响应。
第三层视觉图像目标编码神经元层，其中，每个神经元对应图像中的一个目标，任意一个视觉图像目标编码神经元接受来自第二层中一个目标区域内所有子区域的图像基元编码神经元的连接输入，用于一个图像目标的表达或编码。其中编码值体现在第二层到第三层的连接权值Wij 23，该视觉图像目标编码神经元通过对图像目标区域内所有图像基元编码神经元的响应值的加权求和运算，实现对图像目标的表达和响应。
其中，第二层到第三层的连接权值Wij 23是根据赫布规则wij＝α1RiRj计算得出，其中，α1是一个系数，Ri是第二层第i个神经元的响应值，Ri是第三层第j 个神经元的响应值，在计算第二层到第三层的连接权值时，由于第三层的响应值未知，本发明中，设定第三层，即视觉图像目标编码神经元层的响应值为1，则第三层的连接权值Wij 23是根据赫布规则wij＝α1Ri计算得到，其中，Ri是第二层第i个神经元的响应值。
如图1所示，连接权值Wij 23计算如下：
设图像目标区域包含M个子区域，对每个子区域Xm(1≤m≤M)，基元编码神经元B0和Bk的响应值是Rm0 2和Rmk 2(1≤k≤14)，则对应的权值Wm0，j 23和Wmk，j 23 由公式(3)决定：

w_{mi, j} = \frac{{w^{'}}_{mi, j}}{\sqrt{Σ_{m = 1}^{M} ({w^{'}}_{m 0, j}^{2} + {w^{'}}_{mk, j}^{2})}}, (i = 0, k; 1 \leq k \leq 14) - - - (3)

其中w’mi，j的值根据赫布学习规则来决定：

{w^{'}}_{mi, j} = α_{1} R_{mi}^{2}, (i = 0, k; 1 \leq k \leq 14),

其中，α1是一个系数，即首先根据赫布学习规则计算得到一个连接权值，再进行归一化计算，得到第二层到第三层的连接权值。
所有这些连接权值或编码的集合

W_{ij}^{23} = {w_{ij}^{23}}

构成了对图像中相关所有视觉图像目标编码的表示。
同时，对来自第二层基元编码神经元响应值(R1 2，R2 2，...Ri 2，...R2m 2)，第三层的目标编码神经元Oi的输入值Ij 3，如式(4)所示：

I_{j}^{3} = Σ_{i = 1}^{2 M} w_{ij}^{23} R_{i}^{2} - - - (4)

经过进一步经竞争响应得到最佳响应值Rj 3，由式(5)响应函数决定，使得能够突出其目标响应：

第四层视觉图像目标逻辑关系编码神经元层，任意一个目标逻辑关系编码神经元通过与第三层中任意两个目标编码神经元的连接来表达对应的两个图像目标的一对二元配对关系，用于编码这两个目标之间的二元逻辑关系，为进一步表达两个目标之间的空间关系提供索引。其中编码值体现在第二层到第三层的连接权值Wij 34，该目标逻辑关系编码神经元通过对两个图像目标编码神经元的响应值的加权求和运算实现对这一二元配对关系的响应。
第三层到第四层的连接权值Wij 34根据赫布规则wij＝α2RiRj计算得出，其中，本发明实施例中，α2是一个常数，Ri是第三层第i个神经元的响应值，Rj是第四层第j个神经元的响应值，在计算第三层到第四层的连接权值时，由于第四层的响应值未知，本发明中，设定第四层，即目标逻辑关系编码神经元层的响应值为1，则第四层的连接权值Wij 34是根据赫布规则wij＝α2Ri计算得到，其中， Ri是第三层第i个神经元的响应值，而由于第三层的神经元的响应值Ri＝1，因此，第四层的连接权值
较佳地，取α2＝1/2，这样可以使第四层的神经元响应值为1，简化后续计算。
所有这些连接权值或编码的集合

W_{ij}^{34} = {w_{ij}^{34}}

构成了对图像中相关所有目标配对关系的表示。
对来自第三层目标编码神经元(Oi1，Oi2)的响应值(Ri1 3，Ri2 3)，第四层的二元逻辑关系编码神经元Pj的输入值Ij 4由式(6)响应函数决定：

I_{j}^{4} = w_{i 1,, j} R_{i 1}^{3} + w_{i 2, j} R_{i 2}^{3} - - - (6)

其中wi1，j和wi2，j为等值常数(如1/2)。
进一步经竞争响应得到最佳响应值Rj 4，由式(7)响应函数决定，使得突出其响应：

如图1所示，在神经元网络编码结构的第四层和第五层之间的连接是关于图像目标之间空间关系(即一个目标相对于另一个目标在水平方向和竖直方向上的位移(Δx，Δy))的编码表示。
第五层由四个方向(向左、向右、向上、向下)神经元构成，其中向左、向右两个方向神经元的响应值代表一个目标B相对于另一个目标A在水平方向上的偏移Δx，其中当Δx＜0时，表示目标B在目标A的左侧且距离是|Δx|，向左神经元S向左的响应值R向左＝|Δx|，向右神经元S向右的响应值R向右＝0；当Δx＞0时，表示目标B在目标A的由侧且距离是|Δx|，向左神经元S向左的响应值R向左＝0，向右神经元S向右的响应值R向右＝|Δx|；同理，向上、向下两个方向神经元的响应值代表一个目标B相对于另一个目标A在竖直方向上的偏移Δy，其中当 Δy＜0时，表示目标B在目标A的下侧且距离是|Δy|，向下神经元S向下的响应值 R向下＝|Δy|，向上神经元S向上的响应值R向上＝0；当Δy＞0时，表示目标B在目标 A的上侧且距离是|Δy|，向下神经元S向下的响应值R向下＝0，向上神经元S向上的响应值R向上＝|Δy|。
第四层到第五层的连接权值Wij 45(w向左或w向右，w向上或w向下)是根据赫布规则wij＝α3RiRj计算得出，其中，α3是一个系数，Ri是第四层神经元的响应值，为1；Rj是第五层神经元的响应值，其为两个目标之间的水平或者垂直方向的距离|Δx|或|Δy|。计算如下：
w向左＝α3|Δx|  (Δx＜0)    (8)
w向右＝α3|Δx|  (Δx＞0)    (9)
w向上＝α3|Δy|  (Δy＜0)    (10)
w向下＝α3|Δy|  (Δy＞0)    (11)
如图1所示，所有这些连接权值或编码的集合

W_{ij}^{45} = {w_{ij}^{45}}

构成了对图像中有关的任意两个目标之间空间关系的表示。
对于任意两个目标，如果它们的Δx，Δy都不为零，则水平方向(向左、向右)和竖直方向(向上、向下)上各有一个神经元接受来自第四层中一个响应值不为零的目标逻辑关系编码神经元的输入。这两个空间关系编码神经元通过对目标二元逻辑关系编码神经元的响应值的加权输入运算实现对任意一对图像目标空间关系(即水平和竖直方向上的偏移距离)的响应。而另外两个方向神经元因为没有输入，所以响应值都为零。
因此，对来自第四层目标二元逻辑关系编码神经元Pi的响应Ri 4，其响应值为1，第五层的空间关系编码神经元(S向左、S向右、S向上、S向下)的响应值(s向左、s 向右、s向上、s向下)由式(12)～式(15)的响应函数决定：
s向右＝0    (Δx＜0)    (12)
s向左＝0    (Δx＞0)    (13)
s向下＝0    (Δy＜0)    (14)
s向上＝0    (Δy＞0)    (15)
由以上就算可以看出，空间关系编码神经元(S向左、S向右、S向上、S向下)的响应值与|Δx|或|Δy|成比例，因而反映了目标之间的空间关系。
下面详细说明本发明的视觉目标上下文空间关系编码的方法，包括下列步骤：
步骤S100，根据局部图像传感神经元的像素值，计算得到视觉图像基元编码神经元的编码值和响应值；
如图1所示，是神经元网络目标上下文空间关系编码结构示意图。在神经元网络编码结构的第一层和第二层之间的连接是对图像基元进行编码的表示。
如图2所示，是图像基元的神经元网络编码(wi1，wi2，wi3，wi4)示意图。作为一种示例，局部图像(x1，x2，x3，x4)，也就是对应的第一层传感神经元的响应值，它的一个基元Bi可以表示为神经元网络编码(wi1，wi2，wi3，wi4)＝(0.5，0.5， -0.5，-0.5)。
如图3所示，是图像基元类别示意图，任意一个图像基元Bi由四个编码 (wi1，wi2，wi3，wi4)表示，共有15个这样的基元。每个基元都由四个小方格表示，每个小方格代表一个实数。灰色方格代表正实数，黑色方格代表负实数。
计算得到图3中15个基元的编码值，如表1所示。
因此，对来自第一层局部图像传感神经元的响应(x1，x2，x3，x4)，也就是局部图像的像素值(x1，x2，x3，x4)，第二层的基元编码神经元Bi的输入值由式(2) 定义的输入函数决定。
本发明中，将响应值经阈值截断，得到响应值Ri 2，如式(2)所示，保证其非负。
步骤S200，根据视觉图像基元编码神经元的响应值，计算得到视觉图像目标编码神经元的编码值和响应值；
如图1所示，在神经元网络编码结构的第二层和第三层之间的连接是对图像目标进行编码的表示。
图1中第三层中的图像目标编码神经元采用稀疏编码策略方法，即该层任意一个神经元都不与第二层中所有基元编码神经元连接，而只于其中一小部分相连。
具体而言，对于图像目标中任意一个子区域图像(xi1，xi2，xi3，xi4)，图像目标编码神经元只接受对这个子区域响应的两个基元编码神经元B0和Bk(1≤k ≤14)的输入。其中，k对应于除B0外具有最大响应的基元编码神经元的序号，如图3所示。
B0和Bk与目标编码神经元Oj的连接权值w0j和wkj，就是目标编码神经元对该子区域的编码。图像目标区域中所有这样的子区域的编码总和构成了目标编码神经元对这一图像目标的编码。
连接权值w0j和wkj的获得如下：设图像目标区域包含M个子区域，对每个子区域Xm(1≤m≤M)，基元编码神经元B0和Bk的响应值是Rm0 2和Rmk 2(1≤ k≤14)，则连接目标编码神经元Oj的权值Wm0，j 23和Wmk，j 23由公式(3)决定。
其中w’mi，j的值根据赫布学习规则来决定：

{w^{'}}_{mi, j} = α_{2} R_{mi}^{2}

(i＝0，k；1≤k≤ 14)，其中，α2是一个系数，即首先根据赫布学习规则计算得到一个连接权值，再进行归一化计算，得到第二层到第三层的连接权值。
对来自第二层基元编码神经元响应值(R1 2，R2 2，...Ri 2，...R2m 2)，第三层的目标编码神经元Oi的输入值Ij 3，如式(4)所示。
经过进一步经竞争响应得到最佳响应值Rj 3，由式(5)响应函数决定，使得能够突出其目标响应。
步骤S300，根据任意两个有关联的视觉图像目标编码神经元的响应值，计算得到视觉图像目标逻辑关系编码神经元的编码值和响应值；
如图1所示，在神经元网络编码结构的第三层和第四层之间的连接是关于图像目标之间二元逻辑配对关系的编码表示。例如，第三层中对三个图像目标 A、B和C进行编码的神经元分别与第四层中的神经元AB、AC和BC形成连接，分别表示目标A、B和C之间两两配对成(A，B)、(A，C)和(B，C)的二元逻辑关系。此编码是为了第四部分表示任意两个目标之间的具体空间关系提供索引。根据赫布规则wij＝αRiRj计算得出，用于本部分编码的连接权值都用相同的常数(如数值α＝1/2)表示。设置逻辑关系编码神经元的响应值为1，由于图像目标编码神经元的响应输入值也为1，则wij＝α。
对来自第三层目标编码神经元(Oi1，Oi2)的响应值(Ri1 3，Ri2 3)，第四层的二元逻辑关系编码神经元Pj的输入值Ij 4由式(6)响应函数决定。
进一步经竞争响应得到最佳响应值Rj 4，由式(7)响应函数决定，使得突出其响应。
步骤S400，根据视觉图像目标的空间关系，计算得到视觉目标空间关系编码神经元的编码值，并进一步得到其相应的响应值。
如图1所示，在神经元网络编码结构的第四层和第五层之间的连接是关于图像目标之间空间关系(即一个目标相对于另一个目标在水平方向和竖直方向上的位移(Δx，Δy))的编码表示。
第五层由四个方向(向左、向右、向上、向下)神经元构成，水平(向左、向右)和竖直(向上、向下)方向上各有一个神经元与第四层中的目标二元逻辑关系神经元的连接权(w向左或w向右，w向上或w向下)编码一个目标在水平和竖直方向上相对于另一个目标的空间关系。
根据赫布规则，其连接权值大小正比于两个目标之间在水平和竖直方向上的距离(|Δx|，|Δy|)，如式(8)～(11)所示。
因此，对来自第四层目标二元逻辑关系编码神经元Pi的响应Ri 4，其响应值为1，第五层的空间关系编码神经元(S向左、S向右、S向上、S向下)的响应值(s向左、s 向右、s向上、s向下)由式(12)～式(15)的响应函数决定。
本发明的视觉目标上下文空间关系编码的系统和方法，以神经元网络形式实现关于图像目标上下文空间关系表达的核心技术和方法，其提出的编码网络中的模拟神经元在硬件实现上可以与物理器件一一对应，在对图像目标空间关系学习和表达过程中可以动态扩充，对于表达多对、每对任意两个目标之间的空间关系方面表现出了极大的灵活性、自适应性，可应用于视觉图像的表示和理解、视点的运动控制以及目标的搜索、检测和识别上。
举例而言，一幅人脸图像由头发、面部轮廓及感觉器官等目标图像组成，对人脸内的各个目标及其空间关系的编码表达可以实现对人脸图像组成内容及其空间结构的表示和理解；本发明所述神经元网络第五层中的空间关系编码神经元直接模拟了控制人类眼球转动的四个肌肉神经元，四个编码神经元的响应等价于肌肉神经元的收缩响应而引起的视点位置变化，因而具有视点的运动控制功能；另用该编码神经元网络可以编码任意视点到一个图像目标、或者第一时刻的目标到第二时刻的目标的空间关系，因而利用视点运动控制机制可以实现目标的检测和跟踪；通过对不同图像目标的各个子目标及其空间关系的不同的编码表达，通过整体目标编码神经元的响应计算，根据响应值的大小可以区分和识别目标。
通过以上结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明，这些实施例应被认为其只是示例性的，并不用于对本发明进行限制，本发明应根据所附的权利要求进行解释。

标题	发布/更新时间	阅读量
基于道路拟合的空间地理编码方法	2020-05-12	235
一种空间编码的方法和装置	2020-05-12	396
空间复用多天线发射机的预编码器	2020-05-12	440
对漫射声音的空间音频编码和再现	2020-05-13	118
减少空间可缩放视频编码中的混叠	2020-05-13	666
使用空间可变变换的视频编码	2020-05-13	888
使用低编码速率空间复用的发送分集	2020-05-13	432
空间子信道选择和预编码装置	2020-05-13	19
空间编码的生物学测定	2020-05-11	350
基于空间编码的模型获取方法及装置	2020-05-12	449

一种视觉目标上下文空间关系编码的系统和方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：