本发明所要解决的问题在于提供一种视觉目标上下文空间关系编码的系 统和方法,其具有极大的灵活性和自适应性。
为实现本发明目的而提供的一种视觉目标上下文空间关系编码的系统,其 以神经元网络形式实现;
包括视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像 目标逻辑关系编码神经元层和视觉目标空间关系编码神经元层;
所有相邻两层神经元之间的连接权值构成了对图像内容的编码,每个编码 神经元及其连接权值分别编码图像基元、图像目标、目标二元逻辑关系和目标 空间关系。
所述的视觉目标上下文空间关系编码的系统,还包括一图像传感输入神经 元层,用于图像输入。
所述图像传感输入神经元层构成的神经元与图像上的等间隔
像素采样一 一对应,而神经元的响应值取对应的像素值。
所述视觉图像基元编码神经元层、视觉图像目标编码神经元层、视觉图像 目标逻辑关系编码神经元层和视觉目标空间关系编码神经元层编码分别采用 稀疏特征、赫布学习权值特征、连接特征和距离特征作为编码的基本要素,四 个编码层分别由稀疏编码神经元组成。
为实现本发明目的还提供一种视觉目标上下文空间关系编码的方法,包括 下列步骤:
步骤A,根据局部图像传感神经元的像素值,计算得到视觉图像基元编码 神经元的编码值和响应值;
步骤B,根据视觉图像基元编码神经元的响应,计算得到视觉图像目标编 码神经元的编码值和响应值;
步骤C,根据任意两个有关联的视觉图像目标编码神经元的响应值,计算 得到视觉图像目标逻辑关系编码神经元的编码值和响应值;
步骤D,根据图像目标之间的空间关系,计算得到视觉目标空间关系编码 神经元的编码值。
所述步骤C中的逻辑关系为二元逻辑关系。
所述步骤D中,还包括计算得到视觉目标空间关系编码神经元的响应值 的步骤。
所述步骤A中,15个视觉图像基元编码神经元的编码值(wi1,wi2,wi3,wi4) 是根据2×2像素的15种组合对应的权值,经过归一化处理而得到;
对来自视觉图像传感神经元的响应输入(x1,x2,x3,x4),所述视觉图像基元 编码神经元Bi的响应值Ri 2由以下函数决定:
其中,
T是一个
阈值,wik为图像基元Bi的四个编码中的一个。
所述步骤B中,所述计算得到视觉图像目标编码神经元的编码值,包括 下列步骤:
设图像目标区域包含M个子区域,对每个子区域Xm(1≤m≤M),基元编 码神经元B0和Bk的响应值是Rm0 2和Rmk 2(1≤k≤14),则对应的权值Wm0,j 23和Wmk,j 23 由下式决定:
其中w’mi,j的值根据赫布学习规则来决定:
其中,α2是一个系数,即首先根据赫布学习规则计算得到一个连接权值,再进 行归一化计算,得到第二层到第三层的连接权值;
对来自第二层基元编码神经元响应值(R1 2,R2 2,...Ri 2,...R2m 2),第三层的 目标编码神经元Oi的输入值Ij 3,如下式所示:
经过进一步经竞争响应得到最佳响应值Rj 3,由下式响应函数决定:
所述步骤C中,所述计算得到视觉图像目标逻辑关系编码神经元的两个 编码值,根据赫布规则,都用相同的常数表示;
对来自第三层目标编码神经元(Oi1,Oi2)的响应值(Ri1 3,Ri2 3),第四层的二 元逻辑关系编码神经元Pj的输入值Ij 4由以下函数决定:
其中wi1,j和wi2,j为等值常数。
进一步经竞争响应得到最佳响应值Rj 4,由以下响应函数决定,使得突出 其响应:
所述步骤D中,所述计算得到视觉目标空间关系编码神经元的编码值, 包括下列步骤:
第四层到第五层的连接权值Wij45(w向左或w向右,w向上或w向下)是根据赫布规 则wij=α3RiRj计算得出,其中,α3是一个系数,Ri是第四层神经元的响应值, 为1;Rj是第五层神经元的响应值,其为两个目标之间的
水平或者垂直方向的 距离|Δx|或|Δy|;计算如下:
w向左=α3|Δx|(Δx<0)
w向右=α3|Δx|(Δx>0)
w向上=α3|Δy|(Δy<0)
w向下=α3|Δy|(Δy>0)
对来自第四层目标二元逻辑关系编码神经元Pi的响应Ri 4,其响应值为1, 第五层的空间关系编码神经元(S向左、S向右、S向上、S向下)的响应值(s向左、s向右、s向上、 s向下)由以下响应函数决定:
s向右=0 (Δx<0)
s向左=0 (Δx>0)
s向下=0 (Δy<0)
s向上=0 (Δy>0)。
本发明的有益效果是:本发明的视觉目标上下文空间关系编码的系统和方 法,其提出的编码网络中的模拟神经元在
硬件实现上可以与物理器件一一对 应,在对图像目标空间关系学习和表达过程中可以动态扩充,对于表达多对、 每对任意两个目标之间的空间关系方面表现出了极大的灵活性、自适应性,可 应用于视觉图像的表示和理解、视点的运动控制以及目标的搜索、检测和识别 上。
附图说明
图1是本发明神经元网络目标上下文空间关系编码结构示意图;
图2是本发明视觉图像基元的神经元编码示意图;
图3是图像基元类别示意图。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明的
一种视觉目标上下文空间关系编码的系统和方法进行进一步 详细说明。应当理解,此处所描述的具体
实施例仅仅用以解释本发明,并不用 于限定本发明。
本发明的一种视觉目标上下文空间关系编码的系统和方法,是以神经元网 络形式实现的,用于表达视觉图像目标上下文空间关系的编码系统和方法。
神经元网络,也称为
人工神经网络(ARTIFICIAL NEURAL NETWORK, ANN)是在对人脑组织结构和运行机制的认识理解
基础之上模拟其结构和智能 行为的一种工程系统。早在本世纪40年代初期,
心理学家McCulloch、数学 家Pitts就提出了神经元网络的第一个数学模型,从此开创了神经计算科学理 论的研究时代。其后,Rosenblatt、Widrow和Hopfield等学者又先后提出了一 系列
感知学习模型,使得神经元网络技术得以蓬勃发展。
神经元网络是由大量的神经元广泛互连而成的系统,它的这一结构特点决 定着神经元网络具有高速信息处理的能
力。人脑的每个神经元大约有103~104 个树突及相应的突触,一个人的大脑总计约形成1014~1015个突触。用神经网 络的术语来说,即是人脑具有1014~1015个互相连接的存储潜力。虽然每个神 经元的运算功能十分简单,且
信号传输速率也较低(大约100次/秒),但由于各 神经元之间的极度并行互连功能,最终使得一个普通人的大脑在约1秒内就能 完成现行计算机至少需要数10亿次处理步骤才能完成的任务。
本发明的视觉目标上下文空间关系编码的系统,即视觉目标上下文空间关 系编码的神经元网络,包括四个编码神经元层:视觉图像基元编码神经元层、 视觉图像目标编码神经元层、视觉图像目标逻辑关系编码神经元层以及视觉图 像目标空间关系编码神经元层。四层编码分别采用稀疏特征、赫布(Hebb)学习 权值特征、连接特征和距离特征作为编码的基本要素,四个编码层分别由稀疏 编码神经元组成,神经元之间实现局域稀疏连接、层与层之间实现无缝连接, 结构上既稀疏又紧凑。
如图1所示,本发明的视觉目标上下文空间关系编码的系统,包括一个图 像传感输入神经元层和四个编码神经元层。
图像传感输入神经元层用于图像输入,其构成的神经元与图像上的等间隔 像素采样一一对应,而神经元的响应值取对应的像素值。
四个编码神经元层分别是:视觉图像基元编码神经元层、视觉图像目标编 码神经元层、视觉图像目标逻辑关系编码神经元层和视觉目标空间关系编码神 经元层。其中,每一层编码神经元的响应值是下一层中与之有连接的神经元的 响应值的加权输入和,并经阈值截断保证非负。
所有相邻两层神经元之间的连接权值构成了对图像内容的编码值,从第二 到第五层中,每个编码神经元及其连接权值分别代表图像基元、图像目标、目 标二元逻辑关系和目标空间关系。
编码神经元的功能除了以连接到自身的所有突触的权值来存储、记忆或编 码目标(或基元)外,还负责对下层神经元的响应值进行加权求和计算,并通过 自身的竞争响应来表示目前图像中含有这么一个目标或基元,也就是起到识别 和判断的作用。
在本发明实施例中,作为一种可实施的方式,第二层视觉图像基元编码神 经元层,任意一个视觉图像基元编码神经元接受来自第一层图像传感输入神经 元层一个子区域内2×2个输入神经元的连接输入,也就是一个子区域内2×2 个像素的连接输入。本发明实施例用连接权值(wi1,wi2,wi3,wi4)表示第一层中对 应的2×2像素的子图像(x1,x2,x3,x4)的第i个基底,该基底同时代表了一种图像 基本特征,如
亮度或边缘特征,如图2和图3所示,称之为图像基元。
这些连接权值(wi1,wi2,wi3,wi4)被称为对应该基底i的图像基元编码,可以 计算得到子图像(x1,x2,x3,x4)对应的2×2像素的15种组合B0~B14(共24-1种) 对应的连接权值。如图3所示的15种基元编码示意图,图中每个基元由4个 权值(w1,w2,w3,x4)代表;每个基元的四个权值对应于一组2×2个小方格,每 个小方格代表一个实数。灰色方格代表正实数,黑色方格代表负实数。计算方 法如下:设4个小方格中有n个小灰格,则有4-n个小黑格;n个小灰格对应 的权值=1/n,4-n个小灰格对应的权值=-1/(4-n);计算出来的权值,最后经过归 一化处理,就得到如表1所示的编码值(w1,w2,w3,w4)。
表1图像基元编码(wi1,wi2,wi3,wi4)表
如图1所示,第一层第i个神经元到第二层第j个神经元之间的连接权值 的集合
构成了图像内所有子区域的所有图像基元的编码。
同时计算出该层基元编码神经元的响应值Ri 2:
一个图像基元编码神经元Bi(0≤i≤14)通过对子图像(x1,x2,x3,x4)的加 权(wi1,wi2,wi3,wi4)求和运算,如式(1)所示,实现对该子图像的基本特征提 取,所提取的特征的值Ii2被称之为该图像基元编码神经元的输入值。
本发明中,还进一步经
阀值截断,得到阀值截断后第二层编码神经元的响 应值,如式(2)所示:
其中,T为阀值,其作用在于让神经元对较小的加权输入不做出响应。
第三层视觉图像目标编码神经元层,其中,每个神经元对应图像中的一个 目标,任意一个视觉图像目标编码神经元接受来自第二层中一个目标区域内所 有子区域的图像基元编码神经元的连接输入,用于一个图像目标的表达或编 码。其中编码值体现在第二层到第三层的连接权值Wij 23,该视觉图像目标编码 神经元通过对图像目标区域内所有图像基元编码神经元的响应值的加权求和 运算,实现对图像目标的表达和响应。
其中,第二层到第三层的连接权值Wij 23是根据赫布规则wij=α1RiRj计算得 出,其中,α1是一个系数,Ri是第二层第i个神经元的响应值,Ri是第三层第j 个神经元的响应值,在计算第二层到第三层的连接权值时,由于第三层的响应 值未知,本发明中,设定第三层,即视觉图像目标编码神经元层的响应值为1, 则第三层的连接权值Wij 23是根据赫布规则wij=α1Ri计算得到,其中,Ri是第二 层第i个神经元的响应值。
如图1所示,连接权值Wij 23计算如下:
设图像目标区域包含M个子区域,对每个子区域Xm(1≤m≤M),基元编 码神经元B0和Bk的响应值是Rm0 2和Rmk 2(1≤k≤14),则对应的权值Wm0,j 23和Wmk,j 23 由公式(3)决定:
其中w’mi,j的值根据赫布学习规则来决定:
其中,α1是一个系数,即首先根据赫布学习规则计算得到一个连接权值,再进 行归一化计算,得到第二层到第三层的连接权值。
所有这些连接权值或编码的集合
构成了对图像中相关所有视觉 图像目标编码的表示。
同时,对来自第二层基元编码神经元响应值(R1 2,R2 2,...Ri 2,...R2m 2),第 三层的目标编码神经元Oi的输入值Ij 3,如式(4)所示:
经过进一步经竞争响应得到最佳响应值Rj 3,由式(5)响应函数决定,使 得能够突出其目标响应:
第四层视觉图像目标逻辑关系编码神经元层,任意一个目标逻辑关系编码 神经元通过与第三层中任意两个目标编码神经元的连接来表达对应的两个图 像目标的一对二元
配对关系,用于编码这两个目标之间的二元逻辑关系,为进 一步表达两个目标之间的空间关系提供索引。其中编码值体现在第二层到第三 层的连接权值Wij 34,该目标逻辑关系编码神经元通过对两个图像目标编码神经 元的响应值的加权求和运算实现对这一二元配对关系的响应。
第三层到第四层的连接权值Wij 34根据赫布规则wij=α2RiRj计算得出,其中, 本发明实施例中,α2是一个常数,Ri是第三层第i个神经元的响应值,Rj是第 四层第j个神经元的响应值,在计算第三层到第四层的连接权值时,由于第四 层的响应值未知,本发明中,设定第四层,即目标逻辑关系编码神经元层的响 应值为1,则第四层的连接权值Wij 34是根据赫布规则wij=α2Ri计算得到,其中, Ri是第三层第i个神经元的响应值,而由于第三层的神经元的响应值Ri=1,因 此,第四层的连接权值
较佳地,取α2=1/2,这样可以使第四层的神经元响应值为1,简化后续计 算。
所有这些连接权值或编码的集合
构成了对图像中相关所有目标 配对关系的表示。
对来自第三层目标编码神经元(Oi1,Oi2)的响应值(Ri1 3,Ri2 3),第四层的二 元逻辑关系编码神经元Pj的输入值Ij 4由式(6)响应函数决定:
其中wi1,j和wi2,j为等值常数(如1/2)。
进一步经竞争响应得到最佳响应值Rj 4,由式(7)响应函数决定,使得突 出其响应:
如图1所示,在神经元网络编码结构的第四层和第五层之间的连接是关于 图像目标之间空间关系(即一个目标相对于另一个目标在水平方向和竖直方向 上的位移(Δx,Δy))的编码表示。
第五层由四个方向(向左、向右、向上、向下)神经元构成,其中向左、向 右两个方向神经元的响应值代表一个目标B相对于另一个目标A在水平方向 上的偏移Δx,其中当Δx<0时,表示目标B在目标A的左侧且距离是|Δx|,向左 神经元S向左的响应值R向左=|Δx|,向右神经元S向右的响应值R向右=0;当Δx>0时, 表示目标B在目标A的由侧且距离是|Δx|,向左神经元S向左的响应值R向左=0, 向右神经元S向右的响应值R向右=|Δx|;同理,向上、向下两个方向神经元的响 应值代表一个目标B相对于另一个目标A在竖直方向上的偏移Δy,其中当 Δy<0时,表示目标B在目标A的下侧且距离是|Δy|,向下神经元S向下的响应值 R向下=|Δy|,向上神经元S向上的响应值R向上=0;当Δy>0时,表示目标B在目标 A的上侧且距离是|Δy|,向下神经元S向下的响应值R向下=0,向上神经元S向上的 响应值R向上=|Δy|。
第四层到第五层的连接权值Wij 45(w向左或w向右,w向上或w向下)是根据赫布规 则wij=α3RiRj计算得出,其中,α3是一个系数,Ri是第四层神经元的响应值, 为1;Rj是第五层神经元的响应值,其为两个目标之间的水平或者垂直方向的 距离|Δx|或|Δy|。计算如下:
w向左=α3|Δx| (Δx<0) (8)
w向右=α3|Δx| (Δx>0) (9)
w向上=α3|Δy| (Δy<0) (10)
w向下=α3|Δy| (Δy>0) (11)
如图1所示,所有这些连接权值或编码的集合
构成了对图像中 有关的任意两个目标之间空间关系的表示。
对于任意两个目标,如果它们的Δx,Δy都不为零,则水平方向(向左、向 右)和竖直方向(向上、向下)上各有一个神经元接受来自第四层中一个响应值不 为零的目标逻辑关系编码神经元的输入。这两个空间关系编码神经元通过对目 标二元逻辑关系编码神经元的响应值的加权输入运算实现对任意一对图像目 标空间关系(即水平和竖直方向上的偏移距离)的响应。而另外两个方向神经元 因为没有输入,所以响应值都为零。
因此,对来自第四层目标二元逻辑关系编码神经元Pi的响应Ri 4,其响应 值为1,第五层的空间关系编码神经元(S向左、S向右、S向上、S向下)的响应值(s向左、s 向右、s向上、s向下)由式(12)~式(15)的响应函数决定:
s向右=0 (Δx<0) (12)
s向左=0 (Δx>0) (13)
s向下=0 (Δy<0) (14)
s向上=0 (Δy>0) (15)
由以上就算可以看出,空间关系编码神经元(S向左、S向右、S向上、S向下)的响应 值与|Δx|或|Δy|成比例,因而反映了目标之间的空间关系。
下面详细说明本发明的视觉目标上下文空间关系编码的方法,包括下列步 骤:
步骤S100,根据局部图像传感神经元的像素值,计算得到视觉图像基元 编码神经元的编码值和响应值;
如图1所示,是神经元网络目标上下文空间关系编码结构示意图。在神经 元网络编码结构的第一层和第二层之间的连接是对图像基元进行编码的表示。
如图2所示,是图像基元的神经元网络编码(wi1,wi2,wi3,wi4)示意图。作 为一种示例,局部图像(x1,x2,x3,x4),也就是对应的第一层传感神经元的响应 值,它的一个基元Bi可以表示为神经元网络编码(wi1,wi2,wi3,wi4)=(0.5,0.5, -0.5,-0.5)。
如图3所示,是图像基元类别示意图,任意一个图像基元Bi由四个编码 (wi1,wi2,wi3,wi4)表示,共有15个这样的基元。每个基元都由四个小方格表示, 每个小方格代表一个实数。灰色方格代表正实数,黑色方格代表负实数。
计算得到图3中15个基元的编码值,如表1所示。
因此,对来自第一层局部图像传感神经元的响应(x1,x2,x3,x4),也就是局 部图像的像素值(x1,x2,x3,x4),第二层的基元编码神经元Bi的输入值由式(2) 定义的输入函数决定。
本发明中,将响应值经阈值截断,得到响应值Ri 2,如式(2)所示,保证 其非负。
步骤S200,根据视觉图像基元编码神经元的响应值,计算得到视觉图像 目标编码神经元的编码值和响应值;
如图1所示,在神经元网络编码结构的第二层和第三层之间的连接是对图 像目标进行编码的表示。
图1中第三层中的图像目标编码神经元采用稀疏编码策略方法,即该层任 意一个神经元都不与第二层中所有基元编码神经元连接,而只于其中一小部分 相连。
具体而言,对于图像目标中任意一个子区域图像(xi1,xi2,xi3,xi4),图像目 标编码神经元只接受对这个子区域响应的两个基元编码神经元B0和Bk(1≤k ≤14)的输入。其中,k对应于除B0外具有最大响应的基元编码神经元的序号, 如图3所示。
B0和Bk与目标编码神经元Oj的连接权值w0j和wkj,就是目标编码神经元 对该子区域的编码。图像目标区域中所有这样的子区域的编码总和构成了目标 编码神经元对这一图像目标的编码。
连接权值w0j和wkj的获得如下:设图像目标区域包含M个子区域,对每 个子区域Xm(1≤m≤M),基元编码神经元B0和Bk的响应值是Rm0 2和Rmk 2(1≤ k≤14),则连接目标编码神经元Oj的权值Wm0,j 23和Wmk,j 23由公式(3)决定。
其中w’mi,j的值根据赫布学习规则来决定:
(i=0,k;1≤k≤ 14),其中,α2是一个系数,即首先根据赫布学习规则计算得到一个连接权值, 再进行归一化计算,得到第二层到第三层的连接权值。
对来自第二层基元编码神经元响应值(R1 2,R2 2,...Ri 2,...R2m 2),第三层的 目标编码神经元Oi的输入值Ij 3,如式(4)所示。
经过进一步经竞争响应得到最佳响应值Rj 3,由式(5)响应函数决定,使 得能够突出其目标响应。
步骤S300,根据任意两个有关联的视觉图像目标编码神经元的响应值, 计算得到视觉图像目标逻辑关系编码神经元的编码值和响应值;
如图1所示,在神经元网络编码结构的第三层和第四层之间的连接是关于 图像目标之间二元逻辑配对关系的编码表示。例如,第三层中对三个图像目标 A、B和C进行编码的神经元分别与第四层中的神经元AB、AC和BC形成连 接,分别表示目标A、B和C之间两两配对成(A,B)、(A,C)和(B,C)的二元逻 辑关系。此编码是为了第四部分表示任意两个目标之间的具体空间关系提供索 引。根据赫布规则wij=αRiRj计算得出,用于本部分编码的连接权值都用相同的 常数(如数值α=1/2)表示。设置逻辑关系编码神经元的响应值为1,由于图像 目标编码神经元的响应输入值也为1,则wij=α。
对来自第三层目标编码神经元(Oi1,Oi2)的响应值(Ri1 3,Ri2 3),第四层的二 元逻辑关系编码神经元Pj的输入值Ij 4由式(6)响应函数决定。
进一步经竞争响应得到最佳响应值Rj 4,由式(7)响应函数决定,使得突 出其响应。
步骤S400,根据视觉图像目标的空间关系,计算得到视觉目标空间关系 编码神经元的编码值,并进一步得到其相应的响应值。
如图1所示,在神经元网络编码结构的第四层和第五层之间的连接是关于 图像目标之间空间关系(即一个目标相对于另一个目标在水平方向和竖直方向 上的位移(Δx,Δy))的编码表示。
第五层由四个方向(向左、向右、向上、向下)神经元构成,水平(向左、向 右)和竖直(向上、向下)方向上各有一个神经元与第四层中的目标二元逻辑关系 神经元的连接权(w向左或w向右,w向上或w向下)编码一个目标在水平和竖直方向上 相对于另一个目标的空间关系。
根据赫布规则,其连接权值大小正比于两个目标之间在水平和竖直方向上 的距离(|Δx|,|Δy|),如式(8)~(11)所示。
因此,对来自第四层目标二元逻辑关系编码神经元Pi的响应Ri 4,其响应 值为1,第五层的空间关系编码神经元(S向左、S向右、S向上、S向下)的响应值(s向左、s 向右、s向上、s向下)由式(12)~式(15)的响应函数决定。
本发明的视觉目标上下文空间关系编码的系统和方法,以神经元网络形式 实现关于图像目标上下文空间关系表达的核心技术和方法,其提出的编码网络 中的模拟神经元在
硬件实现上可以与物理器件一一对应,在对图像目标空间关 系学习和表达过程中可以动态扩充,对于表达多对、每对任意两个目标之间的 空间关系方面表现出了极大的灵活性、自适应性,可应用于视觉图像的表示和 理解、视点的运动控制以及目标的搜索、检测和识别上。
举例而言,一幅人脸图像由头发、面部轮廓及感觉器官等目标图像组成, 对人脸内的各个目标及其空间关系的编码表达可以实现对人脸图像组成内容 及其空间结构的表示和理解;本发明所述神经元网络第五层中的空间关系编码 神经元直接模拟了控制人类眼球转动的四个肌肉神经元,四个编码神经元的响 应等价于肌肉神经元的收缩响应而引起的视点位置变化,因而具有视点的运动 控制功能;另用该编码神经元网络可以编码任意视点到一个图像目标、或者第 一时刻的目标到第二时刻的目标的空间关系,因而利用视点运动控制机制可以 实现目标的检测和跟踪;通过对不同图像目标的各个子目标及其空间关系的不 同的编码表达,通过整体目标编码神经元的响应计算,根据响应值的大小可以 区分和识别目标。
通过以上结合附图对本发明具体实施例的描述,本发明的其它方面及特征 对本领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只 是示例性的,并不用于对本发明进行限制,本发明应根据所附的
权利要求进行 解释。