专利汇可以提供结合视频通道的智能家居语音控制系统及其控制方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了结合视频通道的智能家居语音控制系统及其方法,系统包括依次连接的手势检测模 块 、 人脸检测 模块、识别系统模块、指令判断模块、指令显示与确认模块。识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸 跟踪 定位 模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、 语音识别 模块。其能够通过检测控制手势、识别人脸和唇语信息,对已识别到的语音信息加以补充,从而提高控制指令的准确度,增加利用语音控制智能家居的可行性。本 专利 具有很强的抗干扰能 力 ,可广泛应用于多种复杂环境模式,尤其适用于克服家庭环境中人多有噪音的情况下。,下面是结合视频通道的智能家居语音控制系统及其控制方法专利的具体信息内容。
1.结合视频通道的智能家居语音控制系统的识别方法,其特征在于如下步骤:
(1)手势检测
手势检测模块采用haar小波变换,以及LBP特征提取,选取Adaboost分类器对固定手势进行检测,判断用户是否获得控制权;
(2)人脸检测
人脸检测模块采用haar小波变换,选取Adaboost分类器对人脸进行检测,判断操作空间内是否有人,如果检测到人脸,则同时开启识别系统模块的唇语和语音两部分;
(3)人脸跟踪与定位
人脸跟踪与定位模块结合人脸检测模块输出的参数,按照人脸的大小以及位置,调整摄像头焦距和光轴,使人脸图像足够清晰,同时控制人脸处于图像中央位置,使人脸至少占图像的三分之二面积以上;
(4)唇语视频输入
唇语视频输入模块将从人脸中提取出嘴唇部分,实现嘴唇的分割与模型建立,获得嘴唇运动序列;
(5)唇语识别
唇语识别模块将相应的嘴唇运动序列翻译成为一定语义的指令,其中包括唇部特征提取和模式识别;
(6)语音输入
语音输入模块通过语音接收设备,接收音频输入,系统采用麦克风将语音输入给计算机,声卡以一定频率机型数据采样,然后进行A/D转换;为减少不利影响,此模块将对输入的语音信号进行高频补偿;
(7)语音识别
语音识别模块将检测到的语音数据,翻译成对应的语义指令,包括语音特征提取和语音识别;
(8)指令判断
指令判断模块将语音识别模块的输出结果和唇语识别模块的输出结果进行匹配,通过概率分析,判断该指令是否有效,
指令集为C=[c1,c2,...cn]
唇语识别模块输出各指令概率为P=[p1,p2,...pn],
语音识别模块输出各指令概率为Q=[q1,q2,...qn],
则认为唇语和语音结合判断的指令概率D=[d1,d2,...dn],其中
挑选最大概率dimax,若dimax大于阈值,则选择dimax对应的指令ci作为输出指令;若dimax小于阈值,则认为该指令是无效指令,系统将返回至人脸检测模块重新开始;
(9)指令显示与确认
指令显示与确认模块将显示判断后的最终指令,供用户确认,确认方法仍为手势控制。
2.根据权利要求1所述结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(4)唇语视频输入具体如下:
(1)嘴唇分割使用改善的FCMS算法,将图像的颜色信息与空间信息结合起来,再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中,实现嘴唇的有效分割;
(2)在嘴唇模型建立方法上,采用14点主动形状模型,在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量。
3.根据权利要求1所述结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(5)唇语识别具体如下:
(1)唇部的形状特征提取,将选取14点ASM模型的长和宽,即6点和14点之间以及3点和10点之间的距离W和H作为特征,并在计算过程中引入两点间距离公式:
为消除由于说话人坐姿等带来的干扰因素,要对W,H进行归一化,特征向量记为fWH={W,H};另外几何特征提取将通过14点ASM模型进行曲线拟合,然后把说话人嘴唇划分为三段曲线,即14-6点,6-10点,10-14点分别进行二次曲线拟合:
2
Y=ax+bx+c
曲线内核所得到参数a,b,c,经过归一化后可作为独立的特征向量,此特征向量可记为fcur={a1,b1,c1,a2,b2,c2,a3,b3,c3}
其中相关特征提取将采取一阶差分、二阶差分获取运动图像相关特征:
Vf=f(n)-f(n-1),结果记为VfWH,Vfcur
2 2 2
Vf=f(n)+f(n+2)-2f(n-1),结果记为VfWH,Vfcur,
(2)模式识别部分将前述的各种特征组合作为输入向量输入HMM,通过这种方式识别唇语,紧接着将识别的内容与事先设置好的指令集进行匹配,匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
4.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(7)语音特征提取和语音识别具体如下:
(1)语音特征提取
使用线性预测倒谱系数来表征短时语音信号,由线性预测系数直接推导:
(2)语音识别,使用动态时间规整方法和隐马尔科夫模型方法;
动态时间规整方法对参考语音模式和待测语音模式的时间轴进行非线性归一化变换,使其对齐从而进行模板匹配;隐马尔科夫模型方法包括:
1)HMM中的状态个数记为N;模型t时刻的状态记为qt;
2)初始状态概率分布π=[πi];
3)状态概率转移矩阵为A=[aij],其中aij,aij=P(qt+1=Si),1≤i,j≤N表示从状态i转移到状态j的概率;
4)观察概率分布B=[bj(Oj)],表示时刻t观察到状态i的概率;
只要合并不同HMM之间的引入状态和引出状态,即得到任意长度的音素序列或词序列的组合模型,预示对于每一帧特征矢量,组合HMM都会以一定的转移概率改变状态,而当前状态又以其观察概率产生这一帧特征矢量,这样就能计算某音素序列或词序列产生给定特征矢量的概率,实现语音识别,紧接着将识别的内容与事先设置好的指令集进行匹配,匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
5.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(9)指令显示与确认具体如下:当检测到用户的手势,若表示确认该指令,指令将会输出到相应的设备中执行;当检测到用户的手势,若表示否定该指令,系统将返回至人脸检测模块重新开始。
6.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述智能家居语音控制系统,包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。
7.根据权利要求6所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于:所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种训练生成对抗网络、语音增强方法及系统 | 2020-05-08 | 987 |
语音合成设备、语音合成方法及其存储介质 | 2020-05-08 | 516 |
组呼业务处理方法及装置 | 2020-05-08 | 310 |
声音掩蔽器及声音掩蔽方法 | 2020-05-08 | 980 |
一种多通道远场语音增强方法 | 2020-05-08 | 907 |
语音信号处理方法、系统、装置、计算机设备和存储介质 | 2020-05-08 | 213 |
视频及语音智能音乐控制器 | 2020-05-08 | 546 |
一种基于定制化模型的轻量级语音识别系统及方法 | 2020-05-08 | 306 |
一种磁悬浮智能灯 | 2020-05-08 | 881 |
基于阿尔法脑波的学习机 | 2020-05-08 | 549 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。