首页 / 专利库 / 生物计算 / 手掌的几何特征 / 一种基于多特征融合的单目静态手势识别方法

一种基于多特征融合的单目静态手势识别方法

阅读:670发布:2020-05-24

专利汇可以提供一种基于多特征融合的单目静态手势识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于多特征融合的单目静态 手势识别 方法,步骤包括:手势 图像采集 ,用单目摄像头采集包含手势的RGB图像;图像预处理,利用人体肤色信息进行肤色分割,利用形态学处理并结合手部的几何特征,将手部与复杂背景分离,通过距离变换操作 定位 掌心并去除手部存在的手臂区域,得到手势二值图像;手势特征提取,计算手势的周长与面积比、Hu矩及傅里叶描述子特征,构成手势 特征向量 ;手势识别,输入手势特征向量训练BP神经网络,实现静态手势分类。本发明结合肤色信息与手部的几何特征,利用形态学处理及距离变换操作实现单目视觉下准确的手势分割;通过组合多种手势特征并训练BP神经网络,得到鲁棒性强、准确率高的手势分类器。,下面是一种基于多特征融合的单目静态手势识别方法专利的具体信息内容。

1.一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的识别方法包括:
手势图像采集步骤,用单目摄像头采集包含手势的RGB图像;
图像预处理步骤,利用人体肤色信息进行肤色分割,将图像中的肤色及类肤色区域提取出来,利用形态学处理并结合手部的几何特征,将手部与复杂背景分离,通过距离变换操作定位掌心并去除手部存在的手臂区域,得到手势二值图像;
手势特征提取步骤,计算手势的周长与面积比、Hu矩以及傅里叶描述子特征,构成手势特征向量
手势识别步骤,将提取的手势特征向量作为BP神经网络的输入,通过训练BP神经网络实现静态手势分类。
2.根据权利要求1所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的图像预处理步骤包括:
肤色分割,将输入的图像进行色彩空间的转换,通过色度阈值分割将图像中的肤色及类肤色区域提取出来,得到二值图像;
形态学处理,对肤色分割后的二值图像进行形态学处理,先采用开运算操作,再采用闭运算操作,消除图像中的孤立噪声;
手部几何形状分割,实现人脸和手与复杂背景进行分离,计算剩下的两个连通区域的形状复杂度C,通过与阈值T判断,提取手部二值图像;
将手部二值图像中的手臂去除,得到手势二值图像。
3.根据权利要求2所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的将输入的图像进行色彩空间的转换,通过色度阈值分割将图像中的肤色及类肤色区域提取出来,得到二值图像过程如下:
转换色彩空间,将输入的图像由RGB色彩空间转换到YCr′Cb′色彩空间,转换公式如下:
y=0.299×r+0.587×g+0.114×b
其中r、g、b分别为图像在RGB色彩空间中的红、绿、蓝三个分量,y、cr'、cb'分别为图像在YCr′Cb′色彩空间中的亮度分量、红色色度分量、蓝色色度分量;
色度阈值分割,若像素点的两个色度分量同时满足肤色在cr'和cb'分量的阈值范围时,令该像素点取值为1,否则取值为0,从而将图像中的肤色及类肤色区域提取出来,得到二值图像。
4.根据权利要求2所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的手部几何形状分割,实现人脸和手与复杂背景进行分离,计算剩下的两个连通区域的形状复杂度C,通过与阈值T判断,提取手部二值图像过程如下:
面积筛选,利用八连通判别算法,计算图像中不同连通区域的面积,提取面积较大的两个连通区域,实现人脸和手与复杂背景的分离;
形状复杂度阈值判断,计算剩下的两个连通区域的形状复杂度C,若连通区域的形状复杂度C取值大于阈值T,则认为该区域为非手部区域并去除,从而得到手部二值图像。
5.根据权利要求2所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的将手部二值图像中的手臂去除,得到手势二值图像过程如下:
掌心定位,采用距离变换操作,计算手部像素点离手部边界的最小距离,距离值取代原像素点取值,除手部的其余区域取值为0,距离变换操作后得到的图像中取值最大的像素点为掌心,对应的取值为R0;
手掌切割,将与掌心的距离小于R1的像素点取值为0,从而去除手掌区域,其中,R1=
1.35×R0;
阈值法判断手臂是否存在,定位图像中最大取值的像素点P,对应的取值为Pvalue,计算Pvalue/R0,若取值大于阈值T1,则P点所在区域即为手臂区域,继续进行下一移除手臂操作,否则手部二值图像中不存在手臂区域,转至手势特征提取步骤;
移除手臂,利用八连通判别算法,去除P点所在区域;
异或运算,利用图像间的异或运算,最终得到手势二值图像。
6.根据权利要求1所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的手势特征提取步骤包括:
计算手势的7个不变矩,构成Hu矩特征;
利用八连通判别算法,计算手势区域的周长和面积,计算周长与面积的比值;
计算手势轮廓的傅里叶描述子特征;
组合Hu矩特征、周长与面积的比值及傅里叶描述子特征,构成18维的手势特征向量。
7.根据权利要求6所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的计算手势轮廓的傅里叶描述子特征过程如下:
将手势轮廓边缘的坐标{(xk,yk)}用复数表示,构成复数序列{ck},ck表示如下:
ck=xk+iyk,k=0,1,2,...,N-1;
对离散序列{ck}作傅里叶变换,得到傅里叶系数序列{C(u)},公式如下:
提取u=1开始的10个傅里叶系数,对其取模值并归一化,构成傅里叶描述子特征。
8.根据权利要求1所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的BP神经网络包括输入层隐藏层输出层,输入层有d个神经元,由手势特征向量的维数决定,输出层有s个神经元,由手势种类数决定,隐藏层有q个神经元,输入层第i个神经元与隐藏层第h个神经元之间的连接权值为vih,隐藏层第h个神经元与输出层第j个神经元之间的连接权值为whj,隐藏层第h个神经元的阈值为 输出层第j个神经元的阈值为θj。
9.根据权利要求8所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的手势识别步骤之前,还包括:
BP神经网络训练步骤,输入训练样本的手势特征向量训练BP神经网络,过程如下:
随机初始化权值和阈值,初始化权值的取值范围为[-1,1],初始化阈值的取值范围为[-0.5,0.5];
输入训练样本的手势特征向量(x1,x2,...,x18);
计算各层的输出数据,其中,所述的BP神经网络采用sigmoid函数作为各层神经元的激活函数,公式如下:
隐藏层第h个神经元的输出值为αh,计算公式如下:
输出层第j个神经元的输出值为 计算公式如下:
计算均方误差E,计算公式如下:
其中(y1,y2,...,y8)为训练样本的类别标签;
参数更新,当E大于设定误差时,采用梯度下降法更新网络的权值和阈值,以修正当前的BP神经网络;当E小于设定误差时,停止训练网络,得到最佳的模型参数。
10.根据权利要求4所述的一种基于多特征融合的单目静态手势识别方法,其特征在于,所述的形状复杂度C的计算公式如下:
其中,A为连通区域的面积,p为连通区域的周长。

说明书全文

一种基于多特征融合的单目静态手势识别方法

技术领域

[0001] 本发明涉及图像识别领域,具体涉及一种基于多特征融合的单目静态手势识别方法。

背景技术

[0002] 手势作为一种自然而直观的人机交互模式,逐渐发展为人机交互领域的研究热点,并在体感游戏、机器人控制、电脑控制等方面得到广泛的应用。相比基于数据手套的手势识别技术,基于视觉的手势识别技术具有对设备要求低、交互自然等优点,并成为手势识别的主流方式。
[0003] 手势分割是基于视觉的手势识别中关键的环节,分割的效果影响着特征提取,进而影响手势分类结果。在基于单目视觉的静态手势识别方法中,由于复杂背景环境的影响,手势分割的结果不太理想。随着kinect相机的出现,深度信息被用于手势与复杂背景分离的研究中。由于kinect相机成本较高,没有广泛使用,因此该类手势识别方法无法得到推广应用。现有的单目静态手势识别方法采用的手势特征比较单一,导致手势识别系统的鲁棒性较弱,识别准确率不高。因此,提出一种在复杂背景下能够准确分割并识别手势的单目静态手势识别方法是目前函待解决的问题。

发明内容

[0004] 本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于多特征融合的单目静态手势识别方法。
[0005] 本发明的目的可以通过采取如下技术方案达到:
[0006] 一种基于多特征融合的单目静态手势识别方法,所述的识别方法包括:
[0007] 手势图像采集步骤,用单目摄像头采集包含手势的RGB图像;
[0008] 图像预处理步骤,利用人体肤色信息进行肤色分割,将图像中的肤色及类肤色区域提取出来,利用形态学处理并结合手部的几何特征,将手部与复杂背景分离,通过距离变换操作定位掌心并去除手部存在的手臂区域,得到手势二值图像;
[0009] 手势特征提取步骤,计算手势的周长与面积比、Hu矩以及傅里叶描述子特征,构成手势特征向量
[0010] 手势识别步骤,将提取的手势特征向量作为BP神经网络的输入,通过训练BP神经网络实现静态手势分类。
[0011] 进一步地,所述的图像预处理步骤包括:
[0012] 肤色分割,将输入的图像进行色彩空间的转换,通过色度阈值分割将图像中的肤色及类肤色区域提取出来,得到二值图像;
[0013] 形态学处理,对肤色分割后的二值图像进行形态学处理,先采用开运算操作,再采用闭运算操作,消除图像中的孤立噪声;
[0014] 手部几何形状分割,实现人脸和手与复杂背景进行分离,计算剩下的两个连通区域的形状复杂度C,通过与阈值T判断,提取手部二值图像;
[0015] 将手部二值图像中的手臂去除,得到手势二值图像。
[0016] 进一步地,所述的将输入的图像进行色彩空间的转换,通过色度阈值分割将图像中的肤色及类肤色区域提取出来,得到二值图像过程如下:
[0017] 转换色彩空间,将输入的图像由RGB色彩空间转换到YCr′Cb′色彩空间,转换公式如下:
[0018] y=0.299×r+0.587×g+0.114×b
[0019]
[0020]
[0021] 其中r、g、b分别为图像在RGB色彩空间中的红、绿、蓝三个分量,y、cr'、cb'分别为图像在YCr′Cb′色彩空间中的亮度分量、红色色度分量、蓝色色度分量;
[0022] 色度阈值分割,若像素点的两个色度分量同时满足肤色在cr'和cb'分量的阈值范围时,令该像素点取值为1,否则取值为0,从而将图像中的肤色及类肤色区域提取出来,得到二值图像。
[0023] 进一步地,所述的手部几何形状分割,实现人脸和手与复杂背景进行分离,计算剩下的两个连通区域的形状复杂度C,通过与阈值T判断,提取手部二值图像过程如下:
[0024] 面积筛选,利用八连通判别算法,计算图像中不同连通区域的面积,提取面积较大的两个连通区域,实现人脸和手与复杂背景的分离;
[0025] 形状复杂度阈值判断,计算剩下的两个连通区域的形状复杂度C,若连通区域的形状复杂度C取值大于阈值T,则认为该区域为非手部区域并去除,从而得到手部二值图像。
[0026] 进一步地,所述的将手部二值图像中的手臂去除,得到手势二值图像过程如下:
[0027] 掌心定位,采用距离变换操作,计算手部像素点离手部边界的最小距离,距离值取代原像素点取值,除手部的其余区域取值为0,距离变换操作后得到的图像中取值最大的像素点为掌心,对应的取值为R0;
[0028] 手掌切割,将与掌心的距离小于R1的像素点取值为0,从而去除手掌区域,其中,R1=1.35×R0;
[0029] 阈值法判断手臂是否存在,定位图像中最大取值的像素点P,对应的取值为Pvalue,计算Pvalue/R0,若取值大于阈值T1,则P点所在区域即为手臂区域,继续进行下一移除手臂操作,否则手部二值图像中不存在手臂区域,转至手势特征提取步骤;
[0030] 移除手臂,利用八连通判别算法,去除P点所在区域;
[0031] 异或运算,利用图像间的异或运算,最终得到手势二值图像。
[0032] 进一步地,所述的手势特征提取步骤包括:
[0033] 计算手势的7个不变矩,构成Hu矩特征;
[0034] 利用八连通判别算法,计算手势区域的周长和面积,计算周长与面积的比值;
[0035] 计算手势轮廓的傅里叶描述子特征;
[0036] 组合Hu矩特征、周长与面积的比值及傅里叶描述子特征,构成18维的手势特征向量。
[0037] 进一步地,所述的计算手势轮廓的傅里叶描述子特征过程如下:
[0038] 将手势轮廓边缘的坐标{(xk,yk)}用复数表示,构成复数序列{ck},ck表示如下:
[0039] ck=xk+iyk,k=0,1,2,...,N-1;
[0040] 对离散序列{ck}作傅里叶变换,得到傅里叶系数序列{C(u)},公式如下:
[0041]
[0042] 提取u=1开始的10个傅里叶系数,对其取模值并归一化,构成傅里叶描述子特征。
[0043] 进一步地,所述的BP神经网络包括输入层隐藏层输出层,输入层有d个神经元,由手势特征向量的维数决定,输出层有s个神经元,由手势种类数决定,隐藏层有q个神经元,输入层第i个神经元与隐藏层第h个神经元之间的连接权值为vih,隐藏层第h个神经元与输出层第j个神经元之间的连接权值为whj,隐藏层第h个神经元的阈值为 输出层第j个神经元的阈值为θj。
[0044] 进一步地,所述的手势识别步骤之前,还包括:
[0045] BP神经网络训练步骤,输入训练样本的手势特征向量训练BP神经网络,过程如下:
[0046] 随机初始化权值和阈值,初始化权值的取值范围为[-1,1],初始化阈值的取值范围为[-0.5,0.5];
[0047] 输入训练样本的手势特征向量(x1,x2,...,x18);
[0048] 计算各层的输出数据,其中,所述的BP神经网络采用sigmoid函数作为各层神经元的激活函数,公式如下:
[0049]
[0050] 隐藏层第h个神经元的输出值为αh,计算公式如下:
[0051]
[0052] 输出层第j个神经元的输出值为 计算公式如下:
[0053]
[0054] 计算均方误差E,计算公式如下:
[0055]
[0056] 其中(y1,y2,...,y8)为训练样本的类别标签;
[0057] 参数更新,当E大于设定误差时,采用梯度下降法更新网络的权值和阈值,以修正当前的BP神经网络;当E小于设定误差时,停止训练网络,得到最佳的模型参数。
[0058] 进一步地,所述的形状复杂度C的计算公式如下:
[0059]
[0060] 其中,A为连通区域的面积,p为连通区域的周长。
[0061] 本发明相对于现有技术具有如下的优点及效果:
[0062] (1)本发明利用人体肤色信息与手部的几何特征提取手部区域,采用距离变换操作去除存在的手臂区域,实现手势与复杂背景的准确分离;
[0063] (2)本发明通过组合多种有效的手势特征训练BP神经网络,实现一个鲁棒性强、准确率高的手势识别系统;
[0064] (3)本发明基于普通单目摄像头的静态手势识别方法具有设备成本低、识别准确率高、便于推广应用等优点。附图说明
[0065] 图1是本发明中公开的基于多特征融合的单目静态手势识别方法的流程图
[0066] 图2是本发明中公开的基于多特征融合的单目静态手势识别方法中图像预处理流程图;
[0067] 图3是本发明中公开的基于多特征融合的单目静态手势识别方法中手势特征提取流程图;
[0068] 图4是本发明中公开的基于多特征融合的单目静态手势识别方法中手势识别流程图。

具体实施方式

[0069] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0070] 实施例
[0071] 如图1所示,一种基于多特征融合的单目静态手势识别方法,其流程如下:手势图像采集步骤、图像预处理步骤、手势特征提取步骤以及手势识别步骤。
[0072] 其中,S1、手势图像采集步骤:
[0073] 使用单目摄像头采集包含手势的RGB图像,所述的单目摄像头应位于人体正前方的位置,采集的图像中人脸和手是所有肤色及类肤色区域中面积较大的两个。
[0074] 其中,S2、图像预处理步骤:
[0075] 如图2所示,图像预处理步骤过程如下:
[0076] S201、肤色分割,具体过程如下:
[0077] S2011、转换色彩空间,将输入的图像由RGB色彩空间转换到YCr′Cb′色彩空间,具体转换公式如下:
[0078] y=0.299×r+0.587×g+0.114×b
[0079]
[0080]
[0081] 其中r、g、b分别为图像在RGB色彩空间中的红、绿、蓝三个分量;y、cr'、cb'分别为图像在YCr′Cb′色彩空间中的亮度分量、红色色度分量、蓝色色度分量。
[0082] S2012、色度阈值分割,若像素点的两个色度分量同时满足肤色在cr'和cb'分量的阈值范围时,令该像素点取值为1,否则取值为0,从而将图像中的肤色及类肤色区域提取出来,得到一副二值图像。
[0083] S202、形态学处理,具体过程如下:
[0084] 对肤色分割后的二值图像进行形态学处理,先采用开运算操作,再采用闭运算操作,可以消除图像中大量的孤立噪声。
[0085] S203、手部几何形状分割,具体过程如下:
[0086] S2031、面积筛选,利用八连通判别算法,计算图像中不同连通区域的面积,提取面积较大的两个连通区域,实现了人脸和手与复杂背景的分离。
[0087] S2032、形状复杂度阈值判断,计算剩下的两个连通区域的形状复杂度,若连通区域的形状复杂度C取值大于阈值T,则认为该区域为非手部区域并去除,从而得到手部二值图像,本发明取T=0.3最佳,形状复杂度C的具体公式如下:
[0088]
[0089] 其中,A为连通区域的面积,p为连通区域的周长。
[0090] S204、手臂去除,具体做法如下:
[0091] S2041、掌心定位,采用距离变换操作,计算手部像素点离手部边界的最小距离,距离值取代原像素点取值,除手部的其余区域取值为0,距离变换操作后得到的图像中取值最大的像素点为掌心,对应的取值为R0。
[0092] S2042、手掌切割,将与掌心的距离小于R1的像素点取值为0,从而去除手掌区域,本发明取R1=1.35×R0最佳。
[0093] S2043、阈值法判断手臂是否存在,定位图像中最大取值的像素点P,对应的取值为Pvalue,计算Pvalue/R0,若取值大于阈值T1,则P点所在区域即为手臂区域,需进行移除手臂操作,否则手部二值图像中不存在手臂区域,可直接用于提取手势特征,本发明取T1=0.35最佳。
[0094] S2044、移除手臂,利用八连通判别算法,去除P点所在区域。
[0095] S2045、异或运算,利用图像间的异或运算,最终得到手势二值图像。
[0096] 其中,S3、手势特征提取步骤:
[0097] 如图3所示,对手势二值图像提取手势特征,包括以下步骤:
[0098] S301、计算手势的7个不变矩,构成Hu矩特征。
[0099] S302、利用八连通判别算法,计算手势区域的周长和面积,计算周长与面积的比值。
[0100] S303、计算手势轮廓的傅里叶描述子特征,具体做法如下:
[0101] S3031、将手势轮廓边缘的坐标{(xk,yk)}用复数表示,构成复数序列{ck},ck具体表示如下:
[0102] ck=xk+iyk,k=0,1,2,...,N-1;
[0103] S3032、对离散序列{ck}作傅里叶变换,得到傅里叶系数序列{C(u)},具体公式如下:
[0104]
[0105] S3033、提取u=1开始的10个傅里叶系数,对其取模值并归一化,构成傅里叶描述子特征。
[0106] S304、组合Hu矩特征、周长与面积的比值及傅里叶描述子特征,构成18维的手势特征向量。
[0107] 其中,S4、手势识别步骤:
[0108] 本发明将提取的手势特征向量作为BP神经网络的输入,通过训练BP神经网络实现静态手势分类。所述的BP神经网络包括输入层、隐藏层和输出层,输入层有d个神经元,由手势特征向量的维数决定,输出层有s个神经元,由手势种类数决定,隐藏层有q个神经元,输入层第i个神经元与隐藏层第h个神经元之间的连接权值为vih,隐藏层第h个神经元与输出层第j个神经元之间的连接权值为whj,隐藏层第h个神经元的阈值为 输出层第j个神经元的阈值为θj。本发明选取d=18,q=10,s=8,本发明实现8种静态手势的分类。
[0109] 如图4所示,手势识别步骤之前,还包括:
[0110] BP神经网络训练步骤,输入训练样本的手势特征向量训练BP神经网络,具体过程如下:
[0111] i.随机初始化权值和阈值,初始化权值的取值范围为[-1,1],初始化阈值的取值范围为[-0.5,0.5]。
[0112] ii.输入训练样本的手势特征向量(x1,x2,...,x18)。
[0113] iii.计算各层的输出数据:
[0114] 本发明BP神经网络均采用sigmoid函数作为各层神经元的激活函数,具体公式如下:
[0115]
[0116] 隐藏层第h个神经元的输出值为αh,计算公式如下:
[0117]
[0118] 输出层第j个神经元的输出值为 计算公式如下:
[0119]
[0120] iv.计算均方误差E,具体公式如下:
[0121]
[0122] 其中(y1,y2,...,y8)为训练样本的类别标签。
[0123] v.参数更新,当E大于设定误差时,采用梯度下降法更新网络的权值和阈值,以修正当前的BP神经网络;当E小于设定误差时,停止训练网络,得到最佳的模型参数。
[0124] 分类阶段,用训练好的BP神经网络模型进行手势分类,具体做法如下:输入待分类样本的手势特征向量,计算各层的输出数据,得到网络的输出值,即为手势的分类结果。
[0125] 综上所述,本实施例公开了一种基于多特征融合的单目静态手势识别方法,该方法利用人体肤色信息与手部的几何特征提取手部区域,采用距离变换操作去除存在的手臂区域,实现手势与复杂背景的准确分离。该方法通过组合多种有效的手势特征训练BP神经网络,实现一个鲁棒性强、准确率高的手势识别系统。此外,该方法利用普通单目摄像头实现静态手势识别,具有设备成本低、识别准确率高、便于推广应用等优点。
[0126] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈