基于视频对象和区域指导的图像插值方法专利检索-均值漂移过程视听技术与设备专利检索查询-专利查询网

基于视频对象和区域指导的图像插值方法

阅读：957发布：2021-01-02

专利汇可以提供基于视频对象和区域指导的图像插值方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于视频对象和区域指导的图像插值方法。具体过程是：分割原始图像并确定插值点的位置和所属区域；对区域内部的插值点，当插值点位于原始图像的两水平像素或两垂直像素之间时，采用一维线性插值公式求值，其它位置的插值点采用二维线性插值公式求值；对于在相邻区域过渡位置的插值点，当其位于原始图像的两水平像素或两垂直像素之间时，采用一维非线性插值公式求值：对于在相邻区域过渡位置的插值点，当其不位于原始图像的两水平像素之间、也不位于原始图像的两垂直像素之间时，采用二维非线性插值公式求值：将所求得的各像素点的值，赋给待插值点位置处的像素，完成图像插值。本发明适用于对视频对象或整幅图像的分辨率变换。，下面是基于视频对象和区域指导的图像插值方法专利的具体信息内容。

权利要求

1.一种基于视频对象和区域指导的图像插值方法，包括如下步骤：
(1)将原始图像分割成不同区域；
(2)根据图像的缩放倍数，将待插值的点映射到原始图像中，即确定插值点的位置；
(3)根据插值点的位置和区域分割的结果，确定插值点在其所属区域的位置；
(4)对于位置在其所属区域内部的插值点，采用一维线性插值和二维线性插值公式求值，即对位于原始图像的两水平像素或两垂直像素之间的插值点，采用一维线性插值公式求值，其它位置的像素采用二维线性插值公式求值；
(5)对于在相邻区域过渡位置的插值点，当其位于原始图像的两水平像素或两垂直像素之间时，采用构造的如下一维非线性插值公式求值：
F(I，J)＝[f(A)*(1-dx)a+f(B)*dxa]/[(1-dx)a+dxa]
式中，当插值点位于原始图像的两水平像素点之间时，A和B分别表示原始图像的这两个水平像素点，且A为左侧的点；当插值点位于原始图像的两垂直像素点之间时，A和 B分别表示原始图像的这两个垂直像素点，且A为上方的点；f(A)和f(B)分别为原始图像点 A和B处的像素值；dx表示插值点到点A的距离，满足0≤dx，1-dx＜1；a为大于1的实数；
(6)对于在相邻区域过渡位置的插值点，当其不位于原始图像的两水平像素之间、也不位于原始图像的两垂直像素之间时，即插值点位于四个已知邻域像素的矩形内，采用构造的如下二维非线性插值公式求值：
F(I，J)＝[f(A)*w(A)+f(B)*w(B)+f(C)*w(C)+f(D)*w(D)]/[w(A)+w(B)+w(C)+w(D)]
式中，
、 w(A)＝(2-dx-dy)*b(L(A)＝＝k)
w(B)＝(1-dy+dx)*b(L(B)＝＝k)
w(C)＝(1-dx+dy)*b(L(C)＝＝k)
w(D)＝(dx+dy)*b(L(D)＝＝k)
A、B、C和D分别表示矩形的左上角、右上角、左下角和右下角的像素；f(A)、f(B)、 f(C)和f(D)分别为点A、B、C和D处的像素值；dx和dy分别表示插值点到点A的水平和垂直距离，满足0≤dx，1-dx＜1和0≤dy，1-dy＜1；L(A)、L(B)、L(C)和L(D)分别为点A、B、C 和D的区域标记；k为当前点所属区域的区域标记；L(A)＝＝k表示当点A的区域标记L(A) 等于k时，表达式L(A)＝＝k的值取1，否则取0；L(B)＝＝k表示当点B的区域标记L(B)等于k时，表达式L(B)＝＝k的值取1，否则取0；L(C)＝＝k表示当点C的区域标记L(C)等于 k时，表达式L(C)＝＝k的值取1，否则取0；L(D)＝＝k表示当点D的区域标记L(D)等于k 时，表达式L(D)＝＝k的值取1，否则取0；b为大于1的实数；
(7)将步骤(4)至步骤(6)所求得的各像素点的值，赋给待插值点位置处的像素。
2.根据权利要求1所述的图像插值方法，其特征在于步骤(1)所述的将视频图像分割成不同区域，按如下步骤进行：
(1a)取当前像素点；
(1b)如果当前像素点不属于视频对象，则将当前像素点划分为背景类；
(1c)如果当前像素点属于视频对象，则计算均值漂移矢量，并不断滑动均值的计算窗口，迭代计算，直至均值漂移矢量小于容许误差ξ，得到一个收敛点为止；如果该收敛点是第一次出现，则建立一个新类，将当前像素点加入该新类，并将该新类的像素点数计为 1个；如果该收敛点不是第一次出现，即确定该收敛点已经属于某个类，并将该当前像素点加入收敛点所属的类，使该类的像素点数增加1个；
(1d)取下一个像素点为当前像素点，重复步骤(1b)和步骤(1c)，将下一个像素点加入一个类；
(1e)重复步骤(1d)，将图像所有像素点加入到相应的类中；
(1f)设定像素点阈值，去除像素点数小于阈值的类，即去除小面积区域，完成区域分割。
3.根据权利要求1所述的图像插值方法，其特征在于步骤(3)所述的根据插值点的位置和区域分割的结果，确定插值点所属区域，包括如下几种情况：
(3a)当插值点位于原始图像两水平已知点或两垂直已知像素点之间时，且如果两水平已知像素点或两垂直已知像素点属于同一区域，则根据众数法，将插值点确定为两水平已知点或两垂直已知像素点所在区域；
(3b)当插值点位于原始图像两水平已知像素点或两垂直已知像素点之间时，且如果两水平已知点或两垂直已知像素点不属于同一区域，则根据近邻法，将插值点确定在与其最近的已知像素点的区域；
(3c)当插值点不位于原始图像两水平已知像素点之间、也不位于两垂直已知像素点之间时，即插值点位于四个已知邻域点的矩形内，且如果插值点的四个已知邻域点属于同一区域，则根据众数法，将插值点确定在四个邻域点所属的区域；
(3d)当插值点不位于原始图像两水平已知像素点之间、也不位于两垂直已知像素点之间时，即插值点位于四个已知邻域点的矩形内，且如果插值点的四个已知邻域点中三个点属于同一区域，则根据众数法，将插值点确定在三个同一区域的邻域点所属区域；
(3e)当插值点不位于原始图像两水平已知像素点之间、也不位于两垂直已知像素点之间时，即插值点位于四个已知邻域点的矩形内，且如果插值点的四个已知邻域点两两属于同一区域，则根据近邻法，将插值点确定在与其最近的已知点的区域；
(3f)当插值点不位于原始图像两水平已知像素点之间、也不位于两垂直已知像素点之间时，即插值点位于四个已知邻域点的矩形内，且如果插值点的四个已知邻域点属于三个不同一区域，即四点中有且只有两个点属于同一区域，则根据众数法，将插值点确定在两个同一区域的邻域点所属区域；
(3g)当插值点不位于原始图像两水平已知像素点之间、也不位于两垂直已知像素点之间时，即插值点位于四个已知邻域像素点的矩形内，且如果插值点的四个已知邻域点属于四个不同区域，则根据近邻法，将插值点确定在与其最近的已知点的区域。
4.根据权利要求1所述的图像插值方法，其特征在于步骤(5)所述的一维非线性插值公式，按如下过程构建：
(5a)对一维线性插值公式F(I，J)＝f(A)*(1-dx)+f(B)*dx的两个权值分别a次方，得到公式
F(I，J)＝f(A)*(1-dx)a+f(B)*dxa (8)
式中dx表示插值点到点A的距离，有0≤dx，1-dx＜1，且插值点确定在与其最近的已知邻域像素的区域，当a＞1时，上式对同一区域的邻域像素赋较大的权值；
(5b)用式(8)除以两个权值分别a次方后的权值之和，得到一维非线性插值公式：
F(I，J)＝[f(A)*(1-dx)a+f(B)*dxa]/[(1-dx)a+dxa]
式中，(1-dx)a+dxa为两个权值分别a次方后的权值之和。
5.根据权利要求1所述的图像插值方法，其特征在于步骤(6)所述的二维非线性插值公式，按如下过程构建：
(6a)将二维线性插值公式F(I，J)＝[f(A)*(2-dx-dy)+f(B)*(1-dy+dx)+f(C)*(1-dx+dy)+f(D)* (dx+dy]/4中的第一个权值(2-dx-dy)改进为：
(2-dx-dy)*b(L(A)＝＝k)
式中，k为当前点所属区域的区域标记，L(A)＝＝k表示当点A的区域标记L(A)等于k 时，表达式L(A)＝＝k的值取1，否则取0；
(6b)将二维线性插值公式F(I，J)＝[f(A)*(2-dx-dy)+f(B)*(1-dy+dx)+f(C)*(1-dx+dy)+f(D)* (dx+dy)]/4中的第二个权值(1-dy+dx)改进为：
(1-dy+dx)*b(L(B)＝＝k)
式中，k为当前点所属区域的区域标记，L(B)＝＝k表示当点B的区域标记L(B)等于k 时，表达式L(B)＝＝k的值取1，否则取0；
(6c)将二维线性插值公式F(I，J)＝[f(A)*(2-dx-dy)+f(B)*(1-dy+dx)+f(C)*(1-dx+dy)+ f(D)*(dx+dy)]/4中的第三个权值(1-dx+dy)改进为：
(1-dx+dy)*b(L(C)＝＝k)
式中，k为当前点所属区域的区域标记，L(C)＝＝k表示当点C的区域标记L(C)等于 k时，表达式L(C)＝＝k的值取1，否则取0；
(6d)将二维线性插值公式F(I，J)＝[f(A)*(2-dx-dy)+f(B)*(1-dy+dx)+f(C)*(1-dx+dy)+ f(D)*(dx+dy)]/4中的第四个权值(dx+dy)改进为：
(dx+dy)*b(L(D)＝＝k)
式中，k为当前点所属区域的区域标记，L(D)＝＝k表示当点D的区域标记L(D)等于k 时，表达式L(D)＝＝k的值取1，否则取0；
(6e)将二维线性插值公式F(I，J)＝[f(A)*(2-dx-dy)+f(B)*(1-dy+dx)+f(C)*(1-dx+dy)+ f(D)*(dx+dy)]/4中的分母4改进为：
w(A)+w(B)+w(C)+w(D)
式中，
w(A)＝(2-dx-dy)*b(L(A)＝＝k)
w(B)＝(1-dy+dx)*b(L(B)＝＝k)
w(C)＝(1-dx+dy)*b(L(C)＝＝k)
w(D)＝(dx+dy)*b(L(D)＝＝k)
w(A)+w(B)+w(C)+w(D)为改进后的权值之和；
(6f)经过步骤(6a)至步骤(6e)的改进，得到二维非线性插值公式：
F(I，J)＝[f(A)*w(A)+f(B)*w(B)+f(C)*w(C)+f(D)*w(D)]/[w(A)+w(B)+w(C)+w(D)]
式中，
w(A)＝(2-dx-dy)*b(L(A)＝＝k)
w(B)＝(1-dy+dx)*b(L(B)＝＝k)
w(C)＝(1-dx+dy)*b(L(C)＝＝k)
w(D)＝(dx+dy*b(L(D)＝＝k)
式中，w(A)、w(B)、w(C)和w(D)为改进后的权值，w(A)+w(B)+w(C)+w(D)为改进后的权值之和。

说明书全文

技术领域

本发明属于图像处理技术领域，涉及图像插值方法，该方法能获得较高的主观和客观图像质量，同时满足MPEG-4基于视频对象的需求，适用于需要视频对象或整幅图像分辨率变换的场合。

背景技术

随着信息技术的发展，视频的应用越来越广泛，各种数字视频系统，诸如全数字高清晰电视和视频电话等，有着不同的分辨率要求，从而产生了许多不同的格式来存储、传输和显示数字视频信号，不同应用的视频信号有许多不同的商业标准，例如QCIF、NTSC、 PAL和HDTV等。
为了适应不同网络条件、不同的显示设备和不同的显示方式等，在应用过程当中不可避免地会对图像的分辨率进行暂时或永久的改变，根据输入图像和输出图像分辨率的关系，实现图像的缩放。图像缩小技术主要用于视频预览、画中画、多画面、镜头伸缩和高清电视节目源在标清或传统模拟电视上显示等方面。在反方向，由于人们对视频质量要求的不断提高，出现了大量的高清电视、宽屏电视、液晶电视和等离子电视等高分辨率显示终端，为向下兼容传统电视的信号源，就需要对接收过来的图像信号做放大处理。而且常见的卫星、有线和地面电视信号源中存在着大量的非标准分辨率的节目，如PAL/NTSC制式的兼容等等。
总之，为了结合不同的应用，需要目标图像分辨率可实现任意比例的缩放、水平和垂直方向独立可控、播放窗口的大小可调等，这些都需要图像缩放技术的支持。从硬件上着手实现图像的缩放，可以获得较高的图像质量，但一般对硬件的改进将需要付出较昂贵的代价，因而从软件方面改进，采用插值技术实现数字图像的分辨率变换很有意义。
已有的图像插值技术主要集中在图像放大的应用中，如张晓峰研究了图像缩小和放大的关系，证明了二者在实现技术上的内在同一性，见张晓峰.基于H.26L的电视制导图象处理机关键技术研究.哈尔滨工业大学博士学位论文，2005。对于数字图象处理而言，该同一性的意义在于：长期以来，在插值方面研究的大量成果均可以应用在下采样中；插值方法在下采样的应用中保持特征、保护边缘、维持平滑等特性依然能够体现，使下采样后图像能保持更多的信息，以利于后续应用。
目前，图像插值方法主要分为以下几类：
(1)传统图像插值方法。在传统图像插值方法中，最近邻插值较简单，容易实现，早期的时候应用比较普遍。但是，该方法会在新图像中产生明显的锯齿边缘和马赛克现象。双线性插值法具有平滑功能，能有效地克服最近邻法的不足，但会退化图像的高频部分，使图像细节变模糊。在放大倍数比较高时，高阶插值，如双三次和三次样条插值等比低阶插值效果好。这些插值方法可以使插值生成的像素灰度值延续原图像灰度变化的连续性，从而使放大图像浓淡变化自然平滑。但是在图像中，有些像素与相邻像素间灰度值存在突变，即存在灰度不连续性。这些具有灰度值突变的像素就是图像中描述对象的轮廓或纹理图像的边缘像素。在图像放大中，对这些具有不连续灰度特性的像素，如果采用常规的插值方法生成新增加的像素，势必会使放大图像的轮廓和边缘，降低图像质量。
(2)基于原始低分辨率图像边缘的方法。这类插值方法一般采用如图1所示原理图，首先检测低分辨率图像的边缘，然后根据检测的边缘将像素分类处理，对于平坦区域的像素，采用传统方法插值；对于边缘区域的像素，设计特殊插值方法，以达到保持边缘细节的目的。如张雄，毕笃彦，杨宝强发表的“一种保持图像边缘的插值方法”空军工程大学学报， vol.8，no.3，2007，pp.78-80.所采用的方法就是这种方法。该方法在插值时，沿着边缘的像素取相邻已知边缘的像素求平均，其它像素用双三次插值法求值。这类方法可提高图像的边缘清晰度，但存在边缘偏离的现象，放大倍数越大，偏离越严重。
(3)基于插值后高分辨率图像边缘的方法。这类插值方法一般采用如图2所示原理图，首先采用传统方法插值低分辨率图像，然后检测高分辨率图像的边缘，最后对边缘及附近像素进行特殊处理，以去除模糊，增强图像的边缘。如文献Q.Wang，R.Ward，J.C.Zou. Contrast Enhancement for Enlarged Images Based on Edge Sharpening.IEEE International Conference on Image Processing(ICIP’05)，Genova：IEEE Press，2005，pp.762-765.所采用的方法是：首先用传统方法对图像进行放大，然后用Sobel算子提取边缘像素，用边缘增强函数(x)，按如下步骤对边缘像素进行处理：
(1)寻找连续的水平边缘像素。
(2)对步骤(1)中找到的像素值Ui规范化，使规范化后的Ui满足：0≤Ui≤1。
(3)用边缘增强函数(x)修改规范化后的像素值，即：

(4)对修改后的像素值按步骤(2)中规范化相反的操作进行还原，然后代替原来的边缘像素值。
其中a是任意实数，用来控制(x)的形状，为了使边缘增强，必须满足a≥1。以上操作增强了水平边缘，然后在垂直方向上重复以上操作，增强垂直边缘，文献中取
定义一簇sigmoidal函数(x)作为边缘增强函数：

为了增强平滑区域，利用传统的unsharp模板对非边缘像素进行增强，传统unsharp模板核函数如下：

[\begin{matrix} a & a & a \\ a & b & a \\ a & a & a \end{matrix}], a = \frac{c - 1}{18 c - 9}, b = \frac{10 c - 1}{18 c - 9}, 0.5 < c \leq 1

其中参数c用来控制增强强度，c越小，则增强强度越大，即c＝0.5时增强强度最大，当c＝1时图像不变。
这类方法对高分辨率图像边缘进行增强处理，可提高传统插值方法结果图像的边缘对比度，得到较好的主观视觉效果；但是采用传统方法放大后的图像边缘被加宽，很难检测出边缘的准确位置，而且由于对图像进行了滤波处理，会导致图像客观质量有一定下降。
由于以上所有图像插值方法都在整幅图像范围内进行，当视频编码标准MPEG-4引入了基于对象的操作后，如基于内容的检索、识别等功能，人们更多关注的是感兴趣的视频对象，因此再采用上述在整幅图像范围内对图像背景和非感兴趣视频对象进行插值，必将造成资源和时间的浪费。
发明的内容
本发明的目的在于克服上述已有技术的不足，提出一种基于视频对象和区域指导的图像插值方法，以获得较高的主观和客观图像质量，同时满足视频对象或整幅图像分辨率变换的需求。
本发明的目的是这样实现的：
由于图像中存在不同性质或颜色的区域，传统方法对整幅图像采用相同的方法处理不科学；基于边缘的处理方法同样不科学，因为图像的区域之间本身不存在特殊的边缘，而平常所检测到的“边缘”本身也应该属于某一区域，因此本发明充分利用图像的区域一致性，明确判断插值像素所属区域，从而克服传统图像插值方法由于边缘点所属区域不明确，模糊的处理造成的图像模糊和图像客观质量下降。同时，为了满足视频编码标准MPEG-4 基于对象的应用，以视频对象为指导，插值时可只在感兴趣的对象范围内基于区域指导，而对背景和其它对象范围采用简单、快速的线性方法，以保证较快的处理速度和兴趣区域较好的图像质量，避免内存资源和时间的浪费，适用于需要处理速度快和系统处理能力有限的情况。
本发明的图像插值方法包括如下步骤：
(1)将原始图像分割成不同区域；
(2)根据图像的缩放倍数，将待插值的点映射到原始图像中，即确定插值点的位置；
(3)根据插值点的位置和区域分割的结果，确定插值点在其所属区域的位置；
(4)对于位置在其所属区域内部的插值点，采用一维线性插值和二维线性插值公式求值，即对位于原始图像的两水平像素或两垂直像素之间的插值点，采用一维线性插值公式求值，其它位置的像素采用二维线性插值公式求值；
(5)对于在相邻区域过渡位置的插值点，当其位于原始图像的两水平像素或两垂直像素之间时，采用构造的如下一维非线性插值公式求值：
F(I，J)＝[f(A)*(1-dx)a+f(B)*dxa]/[(1-dx)a+dxa]
式中，当插值点位于原始图像的两水平像素点之间时，A和B分别表示原始图像的这两个水平像素点，且A为左侧的点；当插值点位于原始图像的两垂直像素点之间时，A和 B分别表示原始图像的这两个垂直像素点，且A为上方的点；f(A)和f(B)分别为原始图像点 A和B处的像素值；dx表示插值点到点A的距离，满足0≤dx，1-dx＜1；a为大于1的实数；
(6)对于在相邻区域过渡位置的插值点，当其不位于原始图像的两水平像素之间、也不位于原始图像的两垂直像素之间时，即插值点位于四个已知邻域像素的矩形内，采用构造的如下二维非线性插值公式求值：
F(I，J)＝[f(A)*w(A)+f(B)*w(B)+f(C)*w(C)+f(D)*w(D)]/[w(A)+w(B)+w(C)+w(D)]
式中，
w(A)＝(2-dx-dy)*b(L(A)＝＝k)
w(B)＝(1-dy+dx)*b(L(B)＝＝k)
w(C)＝(1-dx+dy)*b(L(C)＝＝k)
w(D)＝(dx+dy)*b(L(D)＝＝k)
A、B、C和D分别表示矩形的左上角、右上角、左下角和右下角的像素；f(A)、f(B)、 f(C)和f(D)分别为点A、B、C和D处的像素值；dx和dy分别表示插值点到点A的水平和垂直距离，满足0≤dx，1-dx＜1和0≤dy，1-dy＜1；L(A)、L(B)、L(C)和L(D)分别为点A、B、C 和D的区域标记；k为当前点所属区域的区域标记；L(A)＝＝k表示当点A的区域标记L(A) 等于k时，表达式L(A)＝＝k的值取1，否则取0；L(B)＝＝k表示当点B的区域标记L(B)等于k时，表达式L(B)＝＝k的值取1，否则取0；L(C)＝＝k表示当点C的区域标记L(C)等于 k时，表达式L(C)＝＝k的值取1，否则取0；L(D)＝＝k表示当点D的区域标记L(D)等于k 时，表达式L(D)＝＝k的值取1，否则取0；b为大于1的实数；
(7)将步骤(4)至步骤(6)所求得的各像素点的值，赋给待插值点位置处的像素。
本发明具有如下优点：
(1)本发明由于利用基于Mean Shift和视频对象的区域分割方法将视频对象分割成不同区域，插值公式的设计以区域为指导，充分体现了区域的一致性，即对区域内部的点采用线性插值方法，保持了区域内部的平滑性；对区域间的过渡点，给同一区域的邻域像素赋较大的权值，给其它区域的邻域像素赋较小的权值；
(2)本发明由于采用以视频编码标准MPEG-4中的视频对象为指导，插值时只在感兴趣的对象内基于区域指导，而对背景和其它对象采用简单、快速的线性方法，因而可保证较快的处理速度和兴趣区域较好的图像质量，适用于需要处理速度快或系统处理能力有限的情况；
(3)本发明由于采用将整幅图像视作一个对象，则可提高整幅图像的质量；
(4)本发明理论上可实现图像任意倍数的缩放，放大5倍以内效果较好。
仿真结果表明，本发明用于图像放大中，在保证图像有较高的主观视觉质量的同时，图像具有较高的客观质量；根据图像缩小和图像放大在实现技术上的内在同一性关系，将所述图像插值方法用于图像缩小中，在保证图像较好的主观视觉效果的同时，能较好地保持原始图像的信息，便于处理后的图像进一步的应用和处理，如图像匹配、拼接、检索。以下结合附图对本发明的特征和效果作进一步详细描述。

附图说明

图1为已有基于原始低分辨率图像边缘的插值方法原理图；
图2为已有基于插值后高分辨率图像边缘的插值方法原理图；
图3为本发明图像的区域特征分析模拟图，其中图3(a)为原始图像，3(b)为边缘检测结果，3(c)为将图像的行数扩大4倍的插值示意图；
图4为本发明图像插值方法的主要步骤；
图5为本发明基于均值漂移和视频对象的区域分割方法流程图；
图6为本发明基于Mean Shift和视频对象的区域分割方法分割结果图，其中图6(a)为 LENA原始图像，分辨率为512×512，图6(b)为MPEG-4视频对象形状平面，图6(c)为基于MPEG-4视频对象指导下的区域分割结果，图6(d)为将整幅图像视作一个视频对象的区域分割效果；
图7为本发明插值图像映射原始图像间的位置关系，其中图7(a)为原始图像，7(b)为可能的插值区域，7(c)为插入点在原图中的位置示意图；
图8为本发明图像插值方法流程图；
图9为本发明的图像插值方法应用于图像放大的示例图，其中9(a)为基于视频对象的放大结果，图9(b)为基于整幅图像的放大结果，图9(c)和图9(d)分别为两种放大结果视频对象的局部放大图，图9(e)和图9(f)分别为两种放大结果背景的局部放大图；
图10为本发明的图像插值方法应用于图像缩小的示例图，其中10(a)为将512×512的 LENA图像缩小4倍的结果，图10(b)为缩小图像的局部放大图。

具体实施方式

参照图3，本发明利用图像区域一致性的原理分析如下：
以一幅包含两个区域的图像为例，如图3(a)，对该图运用Sobel算子进行边缘检测，得到的结果如图3(b)所示，即“B”区域的第一行像素被检测为边缘。可见，一般图像中并没有特殊的边缘存在，边缘检测得到的“边缘”本身也是属于某一区域，因此，图像存在明显的区域特征。如果运用传统边缘保持图像插值方法对图像边缘进行特殊处理不合理，以将图像的行数扩大4倍为例，如图3(c)所示，在原图的两行之间，需要插入三行新的像素。则“C”和“E”分别属于A和B区域内部插入的像素，但由于“B”区域的第一行像素被检测为边缘，运用传统边缘保持图像插值方法时，区域内部的“E”像素就变为了边缘过渡像素；而对于“D”像素，它应该属于区域之间的过渡像素，放大图像的边缘应该在“D”区域的某一位置(如中间一行“D”)，可见，把“B”的第一行当作边缘导致了边缘的偏离。
以上分析可得出如下结论：
(1)对整幅图像进行统一的处理，将会造成图像的模糊；
(2)对图像的边缘进行特殊处理不合理；
(3)一般图像具有区域特征，对图像进行区域一致性分析更科学。
因此，本发明基于图像的区域一致性进行图像的插值，比现有的图像插值方法原理上更科学。
参照图4，本发明的图像插值按如下步骤进行：
步骤一，分割原始图像
本发明采用基于Mean Shift和视频对象的区域分割方法将原始图像分割成不同区域，该Mean Shift和视频对象的区域分割方法如图5所示，具体过程为：
(1)取当前像素点；
(2)如果当前像素点不属于视频对象，则将当前像素点划分为背景类；
(3)如果当前像素点属于视频对象，则计算均值漂移Mean Shift矢量，并不断滑动均值的计算窗口，迭代计算，直至均值漂移矢量小于容许误差ξ，得到一个收敛点为止；如果该收敛点是第一次出现，则建立一个新类，将当前像素点加入该新类，并将该新类的像素点数计为1个；如果该收敛点不是第一次出现，即确定该收敛点已经属于某个类，并将该当前像素点加入收敛点所属的类，使该类的像素点数增加1个；
所述的计算均值漂移Mean Shift矢量方法如下：
给定d维空间的n个点xi∈Rd(i＝1，...，n)，点x的多元核密度估计函数可表示为：

{\hat{f}}_{h, K} (x) = \frac{c_{k, d}}{{nh}^{d}} Σ_{i = 1}^{n} k [{| | \frac{x - x_{i}}{h} | |}^{2}] - - - (1)

其中，h为核函数的带宽；k(.)为核函数的轮廓，具有该轮廓的核函数为K(x)＝ck，dk(||x||2)，ck，d 是归一化常量，保证核函数K(x)积分为1，且严格正定。核函数在均值漂移方法中起到至关重要的作用。
一般比较常用的核轮廓函数为Epanechnikov核轮廓函数：

k_{E} (x) = \{\begin{matrix} 1 - x & 0 \leq x \leq 1 \\ 0 & x > 1 \end{matrix} - - - (2)

相应的Epanechnikov核函数为：

K_{E} (x) = \{\begin{matrix} \frac{1}{2} c_{d}^{- 1} (d + 2) (1 - {| | x | |}^{2}) & | | x | | \leq 1 \\ 0 & others \end{matrix} - - - (3)

其中，cd为单位d维椭圆球体的体积。
令g(.)＝-k’(.)，则可以用g(.)轮廓定义核函数G(x)＝c’g(||x||2)，c’也是归一化的常量，则可得到均值漂移Mean Shift矢量：

m_{h, G} (x) = \frac{Σ_{i = 1}^{n} x_{i} g [{| | \frac{x - x_{i}}{h} | |}^{2}]}{Σ_{i = 1}^{n} g [{| | \frac{x - x_{i}}{h} | |}^{2}]} - x; - - - (4)

(4)取下一个像素点为当前像素点，重复步骤(2)和步骤(3)，将下一个像素点加入一个类；
(5)重复步骤(4)，将图像所有像素点加入到相应的类中；
(6)根据需要保留区域的大小设定像素点阈值，去除像素点数小于阈值的类，即去除小面积区域，完成整个区域分割。
参照图6，本发明采用的原始图像如6(a)，且在基于视频编码标准MPEG-4的应用中，视频对象的二值alpha形状平面为已知信息，如图6(b)所示；用本发明的分割方法在视频对象6(b)的指导下对原始图像6(a)进行分割，其分割结果如图6(c)所示，图像的整个背景被分为一个区域；用本发明的分割方法对于只输入原始图像的单幅图像进行分割，其分割结果如图6(d)所示。
步骤二，确定插值点在原始图像中的位置
参照图7，其中图7(a)为原始图像，A、B、C和D为原始图像的四个像素点；图7(b) 中e、f、g、h和i为插值点在原始图像中可能的区域；图7(c)为插入点在原图中的位置示意图，其中dx和dy分别表示插值点到点A的水平和垂直距离，该dx和dy的计算是利用公式：x′＝I/SH，y′＝J/SV求插值图像F中像素的位置(I，J)所对应的原始图像中的位置 (x′，y′)，SH和SV分别是水平和垂直缩放比例，为任意实数。
令x＝floor(x′)，y＝floor(y′)，floor(x)表示不超过x的最大整数，则有：
dx＝x′-x，dy＝y′-y；
可以看出，0≤dx，dy＜1。
求出dx和dy后，参照图7(c)和图8，插值点M(x′，y′)映射到原始图像中的位置是：
(1)如果dx，dy均为0，插值点M(x′，y′)等于(x，y)，即插值点等于点A；
(2)如果dx等于0，而dy不为0，插值点M(x′，y′)位于f区域；
(3)如果dy等于0，而dx不为0，插值点M(x′，y′)位于e区域；
(4)如果dx，dy均不为0，插值点M(x′，y′)位于g区域。
步骤三，确定插值点在其所属区域的位置
根据原始图像的区域分割结果和插值点在原始图像中的位置，参照图7和图8，按如下方法确定插值点在其所属区域的位置：
(1)如果插值点等于点A，不用确定插值点的区域，直接取插值点等于点A；
(2)当插值点位于原始图像两水平已知像素点之间时，且如果两水平已知像素点属于同一区域，则根据众数法，将插值点确定为两水平已知点或两垂直已知点所在区域，即如果插值点M(x′，y′)位于e区域，当点A的区域标记L(A)与点B的区域标记L(B)相同时，说明点A和点B属于同一区域，则插值点在其所属区域的内部；
(3)当插值点位于两垂直已知点之间时，且如果两垂直已知像素点属于同一区域，则根据众数法，将插值点确定为两水平已知点或两垂直已知点所在区域，即如果插值点M (x′，y′)位于f区域，当点A的区域标记L(A)与点C的区域标记L(C)相同时，说明点A和点C属于同一区域，则插值点在其所属区域的内部；
(4)当插值点位于原始图像两水平已知像素点A和B之间时，且如果两水平已知像素点不属于同一区域，则根据近邻法，将插值点确定在与其最近的已知点的区域，即如果插值点M(x′，y′)位于e区域，当点A的区域标记L(A)与点B的区域标记L(B)不相同时，说明点A和B不属于同一区域，则插值点在相邻区域过渡位置，根据近邻法，将插值点确定在与其最近的已知点的区域；
(5)当插值点位于原始图像两垂直已知像素点A和C之间时，且如果两垂直已知像素点不属于同一区域，则根据近邻法，将插值点确定在与其最近的已知点的区域，即如果插值点M(x′，y′)位于f区域，当点A的区域标记L(A)与点C的区域标记L(C)不相同时，说明点A和C不属于同一区域，则插值点在相邻区域过渡位置，根据近邻法，将插值点确定在与其最近的已知点的区域；
(6)当插值点不位于两水平已知像素点之间、也不位于两垂直已知像素点之间时，插值点位于四个已知邻域像素点A、B、C和D的矩形内，即如果插值点M(x′，y′)位于g区域，当点A、B、C和D的区域标记L(A)、L(B)、L(C)和L(D)都相同时，说明点A、B、C 和D属于同一区域，则插值点在其所属区域的内部；
(7)当插值点不位于两水平已知像素点之间、也不位于两垂直已知像素点之间时，插值点位于四个已知邻域像素点A、B、C和D的矩形内，即如果插值点M(x′，y′)位于g区域，当点A、B、C和D的区域标记L(A)、L(B)、L(C)和L(D)不完全相同时，说明点A、B、 C和D不属于同一区域，则插值点在相邻区域的过渡位置。其中如果点A、B、C和D中三个点属于同一区域，则根据众数法，将插值点确定在三个同一区域的邻域点所属区域；如果点A、B、C和D两两属于同一区域，则根据近邻法，将插值点确定在与其最近的已知点的区域；如果点A、B、C和D属于三个不同一区域，即四点中有且只有两个点属于同一区域，则根据众数法，将插值点确定在两个同一区域的邻域点所属区域；如果点A、B、 C和D属于四个不同区域，则根据近邻法，将插值点确定在与其最近的已知点的区域。
步骤四，构建插值公式
参照附图7和图8，本发明的图像插值公式按照插值点所属区域构建，具体过程如下：
1)对于位置在其所属区域内部的插值点，当插值点位于原始图像的两水平像素之间，即dy＝0时，插值点位于e区域，采用一维线性插值公式：
F(I，J)＝f(A)*(1-dx)+f(B)*dx                (5)
式中，A和B分别表示原始图像的两个像素点；f(A)和f(B)分别为原始图像像素点A 和B处的像素值；dx表示插值点到点A的距离，满足0≤dx，1-dx＜1；
2)对于位置在其所属区域内部的插值点，当插值点位于原始图像的两垂直像素之间，即dx＝0时，插值点位于f区域，采用一维线性插值公式：
F(I，J)＝f(A)*(1-dy)+f(C)*dy                 (6)
式中，A和C分别表示原始图像的两个像素点；f(A)和f(C)分别为原始图像像素点A 和C处的像素值；dy表示插值点到点A的距离，满足0≤dy，1-dy＜1；
3)对于位置在其所属区域内部的插值点，当插值点不位于原始图像的两水平像素之间、也不位于原始图像的两垂直像素之间，即dx，dy均不为0时，插值点位于g区域，即插值点位于四个已知邻域像素的矩形内，采用如下二维线性插值公式：
F(I，J)＝[f(A)*(2-dx-dy)+f(B)*(1-dy+dx)+f(C)*(1-dx+dy)+f(D)*(dx+dy)]/4     (7)
式中，A、B、C和D表示原始图像的四个像素点；f(A)、f(B)、f(C)和f(D)分别为点A、 B、C和D处的像素值；dx和dy分别表示插值点到点A的水平和垂直距离，满足0≤dx，1-dx＜1 和0≤dy，1-dy＜1；(2-dx-dy)、(1-dy+dx)、(1-dx+dy)和(dx+dy)分别为A、B、C和D四个像素点的权值，为了简化计算，这里以两条直角边之和近似斜边，如图7(c)所示，待插值点M 到点A的距离近似为dx+dy，作为对角点D的权值；
4)对于在相邻区域过渡位置的插值点，当插值点位于原始图像的两水平像素之间，即 dy＝0时，插值点位于e区域，对(5)式进行变换，构造一维非线性插值公式，具体过程如下：
①对(5)式的两个权值分别a次方，得到公式：
F(I，J)＝f(A)*(1-dx)a+f(B)*dxa；                 (8)
式中，dx表示插值点到点A的距离，有0≤dx，1-dx＜1，且插值点确定在与其最近的已知邻域像素的区域，当a＞1时，上式对同一区域的邻域像素赋较大的权值；
②用式(8)除以两个权值分别a次方后的权值之和，得到一维非线性插值公式：
F(I，J)＝[f(A)*(1-dx)a+f(B)*dxa]/[(1-dx)a+dxa]            (9)
式中，(1-dx)a+dxa为两个权值分别a次方后的权值之和；
5)对于在相邻区域过渡位置的插值点，当插值点位于原始图像的两垂直像素之间，即 dx＝0时，插值点位于f区域，对(6)式进行变换，构造一维非线性插值公式，具体过程如下：
①对(6)式的两个权值分别a次方，得到公式：
F(I，J)＝f(A)*(1-dy)a+f(C)*dya；                 (10)
式中dy表示插值点到点A的距离，有0≤dy，1-dy＜1，且插值点确定在与其最近的已知邻域像素的区域，当a＞1时，上式对同一区域的邻域像素赋较大的权值；
②用式(10)除以两个权值分别a次方后的权值之和，得到一维非线性插值公式：
F(I，J)＝[f(A)*(1-dy)a+f(C)*dya]/[(1-dy)a+dya]          (11)
式中，(1-dy)a+dya为两个权值分别a次方后的权值之和；
6)对于在相邻区域过渡位置的插值点，当其不位于原始图像的两水平像素之间、也不位于原始图像的两垂直像素之间时，即插值点位于四个已知邻域像素的矩形内，对(7)式进行变换，构造二维非线性插值公式，具体过程如下：
①将(7)式的第一个权值(2-dx-dy)改进为：
(2-dx-dy)*b(L(A)＝＝k                               (12)
式中，k为当前点所属区域的区域标记，L(A)＝＝k表示当点A的区域标记L(A)等于k 时，表达式L(A)＝＝k的值取1，否则取0；改进的权值表示当插值点与点A属于同一区域时，将权值(2-dx-dy)扩大b倍，对同一区域的邻域点赋较大的权值，体现区域的一致性；
②将(7)式的第二个权值(1-dy+dx)改进为：
(1-dy+dx)*b(L(B)＝＝k)                             (13)
式中，k为当前点所属区域的区域标记，L(B)＝＝k表示当点B的区域标记L(B)等于k 时，表达式L(B)＝＝k的值取1，否则取0；改进的权值表示当插值点与点B属于同一区域时，将权值(1-dy+dx)扩大b倍，对同一区域的邻域点赋较大的权值，体现区域的一致性。
③将(7)式的第三个权值(1-dx+dy)改进为：
(1-dx+dy)*b(L(C)＝＝k)                     (14)
式中，k为当前点所属区域的区域标记，L(C)＝＝k表示当点C的区域标记L(C)等于 k时，表达式L(C)＝＝k的值取1，否则取0；改进的权值表示当插值点与点C属于同一区域时，将权值(1-dx+dy)扩大b倍，对同一区域的邻域点赋较大的权值，体现区域的一致性；
④将(7)式的第四个权值(dx+dy)改进为：
(dx+dy)*b(L(D)＝＝k)                         (15)
式中，k为当前点所属区域的区域标记，L(D)＝＝k表示当点D的区域标记L(D)等于k 时，表达式L(D)＝＝k的值取1，否则取0；改进的权值表示当插值点与点D属于同一区域时，将权值(dx+dy)扩大b倍，对同一区域的邻域点赋较大的权值，体现区域的一致性；
⑤将(7)式的分母4改进为：
w(A)+w(B)+w(C)+w(D)                          (16)
式中，
w(A)＝(2-dx-dy)*b(L(A)＝＝k)
w(B)＝(1-dy+dx)*b(L(B)＝＝k)
w(C)＝(1-dx+dy)*b(L(C)＝＝k)
w(D)＝(dx+dy)*b(L(D)＝＝k)
式中，w(A)、w(B)、w(C)和w(D)为改进后的权值，w(A)+w(B)+w(C)+w(D)为改进后的权值之和；
⑥经过式(12)至式(16)的改进，得到二维非线性插值公式：
F(I，J)＝[f(A)*w(A)+f(B)*w(B)+f(C)*w(C)+f(D)*w(D)]/[w(A)+w(B)+w(C)+w(D)]    (17)
式中，
w(A)＝(2-dx-dy)*b(L(A)＝＝k)
w(B)＝(1-dy+dx)*b(L(B)＝＝k)
w(C)＝(1-dx+dy)*b(L(C)＝＝k)
w(D)＝(dx+dy)*b(L(D)＝＝k)
式中，w(A)、w(B)、w(C)和w(D)为改进后的权值，w(A)+w(B)+w(C)+w(D)为改进后的权值之和；
分析以上插值公式，非线性插值公式比线性插值公式的求幂、除法、乘法等费时和费内存资源的运算较多，因此本发明基于视频对象的插值方法，在背景和非兴趣对象范围内采用简单快速的线性方法，相对于全图均采用非线性方法，能有效地节省计算时间和内存空间，性能提高的量即背景和非兴趣对象部分所占运算量，主要受以下因素影响：
(a)兴趣对象相对整幅图像所占比例：对象相对越小时，对比例较大的背景和非兴趣对象部分运算费时越多，性能提高越大；
(b)兴趣对象相对背景和其它对象的纹理复杂度：如果对象纹理较复杂，背景和其它对象较平滑，说明背景和其它对象的区域数较少，性能提高也较小；相反，如果兴趣对象纹理较平滑，而背景和其它对象纹理复杂，性能提高越大。
步骤五，计算插值点的像素值
利用步骤四中设计的插值公式，即一维线性插值公式(5)和(6)、二维线性插值公式(7)、一维非线性插值公式(9)和(11)、二维非线性插值公式(17)计算待插值点的值，赋给待插值点位置处的像素，完成图像插值。
本发明的效果可通过以下仿真结果图进一步详细说明：
图9是用本发明的图像插值方法将图像放大4倍的仿真结果图，其中9(a)为基于视频对象的放大结果，该结果图像峰值信噪比PSNR值为27.7866dB；图9(b)为基于整幅图像的放大结果，该结果图像峰值信噪比PSNR值为27.8831dB；图9(c)是图9(a)中视频对象的局部放大图，图9(d)是图9(b)中视频对象的局部放大图，图9(c)和图9(d)表明，对于视频对象部分，两幅图像在图像平滑、细节保持和清晰度方面效果较好，如眼部、帽、肩部和脸部等边缘较清晰；图9(e)是图9(a)中背景的局部放大图，图9(f)是9(b)中背景的局部放大图，图9(e)和图9(f)表明，对于背景部分，基于全图的插值仍能保持图像的边缘，而基于视频对象的方法边缘部分较模糊。可见，本发明的图像插值方法能保证视频对象部分较好的视觉效果。
图10为本发明的图像插值方法应用于图像缩小4倍的仿真结果图，其中10(a)为将 512×512的LENA图像缩小4倍的结果，图10(b)为缩小图像的局部放大图；原图像与缩小图像的标准差分别为47.8538和47.9946。本发明的标准差甚至超过了原图像，说明使用本发明的图像插值方法进行图像缩小时，缩小图像边缘处的波动客观上超过了原始图像而带来了视觉增强的效果；原图像与缩小图像的信息熵分别为7.4455和7.4371，可见缩小图像与原图像的信息熵较接近，图像缩小后较好地保留了原图像的信息。
仿真结果表明，本发明图像插值方法基于全图时可提高整幅图像的视觉效果，而基于视频对象时能够节省运算时间和内存开消，保证视频对象部分较好的视觉效果；并且在图像放大时，能够获得较高的图像峰值信噪比，图像缩小时，能够较多地保留原图像的信息，提高图像的客观质量和保持图像的原始信息，便于处理后的图像进一步的应用和处理，如图像匹配、拼接、检索等。

标题	发布/更新时间	阅读量
直线移动PTZ相机辅助双目PTZ视觉系统的主从跟踪方法	2020-05-08	402
一种基于海洋环境噪声的声学监测系统及方法	2020-05-15	270
一种基于滤波最优平滑确定故障首达时刻的故障诊断方法	2020-05-16	371
一种结合小波变换和图像分割网络的QRS波识别方法	2020-05-12	173
一种电连接器加速退化试验方案优化方法	2020-05-12	9
一种改进SPC的小区供水漏损监测预警方法	2020-05-15	678
结合判别式深度置信网络和主动学习的心电分类方法	2020-05-13	453
基于互联网的图片自动合成系统	2020-05-08	1021
空中移动目标的反制系统及其反制方法	2020-05-12	718
一种时间序列概念漂移检测方法、系统、介质及设备	2020-05-13	522

基于视频对象和区域指导的图像插值方法

技术领域

背景技术

附图说明

具体实施方式

该功能需要专业版企业版VIP权限，您可以：