首页 / 专利库 / 电子零件及设备 / 二极管 / 光电二极管 / 一种远场语音输入装置

一种远场语音输入装置

阅读:1022发布:2020-07-04

专利汇可以提供一种远场语音输入装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种远场语音输入装置,包括遥控器和主机端模 块 ,遥控器包含红外 信号 微 控制器 、按键和红外发光 二极管 ;主机端模块包含麦克 风 阵列、两个 光电二极管 、 微控制器 、两个 运算 放大器 和两个 挡板 。两颗独立的麦克风用于实时采集 语音信号 ,两个光电二极管用于接收红外信号微控制器发出的红外线,并实现遥控器到主机端模块的 角 度 定位 。与 现有技术 相比较,本发明采用红外按键唤醒 语音识别 功能,充分利用已有的遥控器,实现精准唤醒。本发明采用的两个光电二极管及档板等机构实现声源角度定位,根据声源的角度,调整麦克风阵列做Beamforming时的方位解,实现最佳的噪声消除,保证了语音识别的准确率。本发明的结构更简单、操作使用更方便灵活。,下面是一种远场语音输入装置专利的具体信息内容。

1.一种远场语音输入装置,该远场语音输入装置包括遥控器和主机端模,遥控器包含红外信号控制器、按键和红外发光二极管;其特征在于:主机端模块包含麦克阵列、两个光电二极管微控制器、两个运算放大器和两个挡板
遥控器和主机端模块的交互通过遥控器的红外信号微控制器发射的红外信号实现,主机端模块通过USB接口或者音频口与被控主机相连;
麦克风阵列由两颗独立的麦克风组成,两颗独立的麦克风与微控制器连接;每个光电二极管通过运算放大器与微控制器连接,每个光电二极管的外部设有挡板;按键通过红外信号微控制器控制红外发光二极管
2.根据权利要求1所述的一种远场语音输入装置,其特征在于:主机端模块用于采集、降噪的数字语音信号通过USB接口或者音频接口传输给被控主机。
3.根据权利要求1所述的一种远场语音输入装置,其特征在于:两颗独立的麦克风用于实时采集语音信号,两个光电二极管用于接收红外信号微控制器发出的红外线,并实现遥控器到主机端模块的定位,并间接得到声源的角度信息,用于调整麦克风阵列做Beamforming时的波束角。
4.根据权利要求1所述的一种远场语音输入装置,其特征在于:所述的主机端模块的两个光电二极管之间的距离是固定的;当按下遥控器上的控制按键后,红外发光二极管发出的红外光被两个光电二极管接收,并通过运算放大器放大后给微控制器进行处理,红外光的强度越大,红外光信号转换成的电信号强度也越大,然后根据光源角度定位法定位到发出光源的遥控器角度,从而得到操作遥控器的人声源角度定位。
5.根据权利要求4所述的一种远场语音输入装置,其特征在于:所述人声源角度定位的方法具体实现步骤如下:
S1光电二极管会检测接收到的遥控器发出的红外光信号强度;
S2当遥控器正对着主机端模块的时候,两个光电二极管接收到的红外光信号强度相同;当遥控器在主机端模块两侧的时候,由于档板,其中有一个光电二极管的信号被档板挡掉一部分,红外光信号变弱;
S3利用检测到的红外光信号强弱关系变化,通过计算获得遥控器当前相对于主机端模块的角度。
6.根据权利要求5所述的一种远场语音输入装置,其特征在于:声源角度定位方法具体步骤为:
1)当遥控器正对着主机端模块的时候,两个光电二极管接收到的光信号强度相同,判断此时遥控器相对主机端模块的角度为90度;
2)当遥控器在接收装置左测试,由于档板的作用,光电二极管A的光信号会被档掉一部份假设值为A’,而当光电二极管B的光信号不受影响为B’;A’3)根据事先测量各种角度下A’跟B’的比值反系,然后利用查表法得知遥控器具体的角度置位信息;
4)由于档板是垂直设立,利用光影原理,当A’90+A-COS(B’/A’);
得到的角度定位信息用于麦克风语音识别降噪时保留当前角度采集到的语音信息,过滤其它角度的噪声。
7.根据权利要求1所述的一种远场语音输入装置,其特征在于:所述的挡板用于遮挡光电二极管来自部分角度的光线,跟据主机端模块需要,档板位于两个光电二极管的内侧或外侧。
8.根据权利要求1所述的一种远场语音输入装置,其特征在于:所述麦克风阵列为拾音装置,包括MIC1和MIC2,MIC1和MIC2并列连接并用以采集语音数据。
9.根据权利要求8所述的一种远场语音输入装置,其特征在于:需要进行语音输入时,按下遥控器的按键,红外信号微控制器控制红外发光二极管发出红外光线,主机端模块的光电二极管接收遥控器发出的红外光线,并将红外光线输出不同强度的电信号至运算放大器,经过同倍数的放大以后输入到微控制器,微控制器运行角度定位算法,计算出发射出红外线遥控器的角度定位;同时唤醒拾音装置启动语音识别功能;
此时,MIC1和MIC2同时采集语音数据,分别获取时域语音数据T1和时域语音数据T2;
对时域语音数据T1和时域语音数据T2进行延迟相加和延迟相减,获得T_ADD和T_SUB;
分别对延迟相加T_ADD和延迟相减T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获得频域信号数据F1和频域信号数据F2;进而获得频域信号能量,两路频域信号能量进行GSC波束形成算法滤波,获得GSC波束形成输出F1_2和阻塞信号F2_2;
对两路频域语音数据的进行稳态噪声估计,获得两颗麦克风的平均稳态噪声信息的估计值N1和N2;
计算麦克风信号的信号平均能量值X1和X2,和稳态噪声估计值进行比较,计算信号和参考噪声能量比值OMAGA,然后通过OMEGA的值和设定的阈值估计语音存在概率P,进而得到语音不存在概率Q;
使用语音存在概率P和语音不存在概率Q计算语音存在的增益G对频域数据增益调整,获得调整增益后的频域优化信号F_OPT;之后通过频域加窗和逆傅里叶变换将频域优化信号F_OPT转换成时域稳态噪声优化信号T_FINAL。
10.根据权利要求1所述的一种远场语音输入装置,其特征在于:所述的挡板能够换成屏蔽箱加红外滤光片。

说明书全文

一种远场语音输入装置

技术领域

[0001] 本发明涉及一种智能语音输入遥控装置,尤其涉及一种远场语音输入装置,属于家用电器控制技术领域。

背景技术

[0002] 传统的家电如电视、机顶盒、DVD、空调等都采用红外遥控器进行控制。
[0003] 中国专利201810085098.3公开了一种语音遥控方法和装置,所述语音遥控方法包括以下步骤:通过USB接口连接受控设备,获取受控设备的控制权限,接收语音指令,根据语音指令控制受控设备,从而实现了对受控设备的语音遥控,解放了用户的双手,提高了操作的便捷性。利用家电设备现存的USB接口,无需对家电设备进行任何改造,就能从传统的红外遥控升级为语音遥控,实现成本低。并且对原有的红外遥控功能没有任何影响,而是增加了一种语音遥控方式,使得用户多了一种遥控选择,提升了用户体验。
[0004] 随着语音技术的发展,方便快捷的语音遥控技术被普遍看好,而传统的红外遥控器已无法承载语音遥控功能。因此设计一种能够实现语音遥控功能的遥控装置非常必要。

发明内容

[0005] 针对现有技术中存在的相关问题,本发明提供了一种远场语音输入装置,其实现方式结构简单、使用方便灵活,使原本只有红外遥控器的智能机顶盒、电视、空调等也具备语音输入的功能。
[0006] 本发明采用的技术方案是:一种远场语音输入装置,包括遥控器和主机端模,遥控器包含红外信号控制器、按键和红外发光二极管;主机端模块包含麦克阵列、两个光电二极管微控制器、两个运算放大器和两个挡板
[0007] 遥控器和主机端模块的交互通过遥控器的红外信号微控制器发射的红外信号实现,主机端模块通过USB接口或者音频口与被控主机相连,主机端模块用于采集、降噪的数字语音信号通过USB接口或者音频接口传输给被控主机。
[0008] 麦克风阵列由两颗独立的麦克风组成,两颗独立的麦克风与微控制器连接;每个光电二极管通过运算放大器与微控制器连接,每个光电二极管的外部设有挡板。
[0009] 按键通过红外信号微控制器控制红外发光二极管
[0010] 两颗独立的麦克风用于实时采集语音信号,两个光电二极管用于接收红外信号微控制器发出的红外线,并实现遥控器到主机端模块的定位,并间接得到声源的角度信息,用于调整麦克风阵列做Beamforming时的波束角,实现最佳的噪声消除。
[0011] 所述的主机端模块的两个光电二极管之间的距离是固定的;当按下遥控器上的控制按键后,红外发光二极管发出的红外光被两个光电二极管接收,并通过运算放大器放大后给微控制器进行处理,红外光的强度越大,红外光信号转换成的电信号强度也越大,然后根据光源角度定位法定位到发出光源的遥控器角度,从而得到操作遥控器的人声源角度定位。
[0012] 所述声源角度定位的方法具体实现步骤如下:S1光电二极管会检测接收到的遥控器发出的红外光信号强度。
[0013] S2当遥控器正对着主机端模块的时候,两个光电二极管接收到的红外光信号强度相同。当遥控器在主机端模块两侧的时候,由于档板的作用,其中有一个光电二极管的信号被档板挡掉了一部分,红外光信号变弱。
[0014] S3利用检测到的红外光信号强弱关系变化,通过计算获得遥控器当前相对于主机端模块的角度。
[0015] 所述的挡板用于遮挡光电二极管来自部分角度的光线,跟据主机端模块需要,档板位于两个光电二极管的内侧或外侧。
[0016] 所述麦克风阵列为拾音装置,包括MIC1和MIC2,MIC1和MIC2并列连接并用以采集语音数据。
[0017] 需要进行语音输入时,按下遥控器的按键,红外信号微控制器控制红外发光二极管发出红外光线,主机端模块的光电二极管接收遥控器发出的红外光线,并将红外光线输出不同强度的电信号至运算放大器,经过同倍数的放大以后输入到微控制器,微控制器运行角度定位算法,计算出发射出红外线遥控器的角度定位;同时唤醒拾音装置启动语音识别功能。
[0018] 此时,MIC1和MIC2同时采集语音数据,分别获取时域语音数据T1和时域语音数据T2。
[0019] 对时域语音数据T1和时域语音数据T2进行延迟相加和延迟相减,获得T_ADD和T_SUB。
[0020] 分别对延迟相加T_ADD和延迟相减T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获得频域信号数据F1和频域信号数据F2。进而获得频域信号能量,两路频域信号能量进行GSC波束形成算法滤波,获得GSC波束形成输出F1_2和阻塞信号F2_2。
[0021] 对两路频域语音数据的进行稳态噪声估计,获得两颗麦克风的平均稳态噪声信息的估计值N1和N2;计算麦克风信号的信号平均能量值X1和X2,和稳态噪声估计值进行比较,计算信号和参考噪声能量比值OMAGA,然后通过OMEGA的值和设定的阈值估计语音存在概率P,进而得到语音不存在概率Q。
[0022] 使用语音存在概率P和语音不存在概率Q计算语音存在的增益G对频域数据增益调整,获得调整增益后的频域优化信号F_OPT。之后通过频域加窗和逆傅里叶变换将频域优化信号F_OPT转换成时域稳态噪声优化信号T_FINAL。
[0023] 与现有技术相比较,本发明具有如下技术效果。
[0024] 1、本发明采用红外按键唤醒语音识别功能,充分利用已有的遥控器,实现精准唤醒。结构简单,与之前的智能语音遥控器相比,本发明在使用方式上摆脱了每次拾音都需要手持遥控器对着麦克风讲话的语音识别方式。
[0025] 2、本发明采用的两个光电二极管及档板等机构实现声源角度定位,根据声源的角度,调整麦克风阵列做Beamforming时的方位解,实现最佳的噪声消除,保证了语音识别的准确率。
[0026] 3、本发明丰富和完善了现有红外遥控器的控制功能,在不影响正常控制功能的前提下,将语音识别及声源定位集成一体,很好地提升了实际操作感受。相较于现有控制方式,本发明的结构更简单、操作使用更方便灵活。附图说明
[0027] 图1是实现远场语音识别的硬件装置图。
[0028] 图2是声源角度定位流程图
[0029] 图3是远场语音识别流程图。

具体实施方式

[0030] 以下,参考附图,对本发明进行更全面的说明,附图中示出了本发明的示例性实施例。然而,本发明可以体现为多种不同形式,并不应理解为局限于这里叙述的示例性实施例。而是,提供这些实施例,从而使本发明全面和完整,并将本发明的范围完全地传达给本领域的普通技术人员。
[0031] 如图1所示,实现本发明一种远场语音输入方法的装置包含遥控器和主机端模块,其中主机端模块包含两颗麦克风,两个光电二极管,一个微处理器、两个运算放大器,两块挡板,其中两颗麦克风用于实时采集语音信号,两个光电二极管用于接收红外线,并计算遥控器到主机端的声源角度定位,得到声源的角度信息,方便调整麦克风阵列做Beamforming 时的方位解,实现最佳的噪声消除;遥控器和主机端模块的交互通过遥控器的红外控制微控制器发射的红外信号实现,主机端模块通过USB接口或者音频口与被控主机电相连,主机端模块采集、降噪的数字语音信号通过USB接口传输给被控主机。
[0032] 主机端模块的两个光电二极管之间的距离固定,遥控器发出的红外光照射到两个光电二极管上,红外光的强度越大,红外光信号转换成的电信号强度也越大,根据光源角度定位法定位到发出光源的遥控器的角度,从而得到操作遥控器的人声源定位。
[0033] 如图2所示所述的声源角度定位方法具体步骤为:1)示例I中,当遥控器正对着主机端模块的时候,两个光电二极管接收到的光信号强度相同,判断此时遥控器相对主机端模块的角度为90度;
2)当遥控器在接收装置左测试,示例II中,由于档板的作用,光电二极管A的光信号会被档掉一部份假设值为A’,而当光电二极管B的光信号不受影响为B’。A’
[0034] 3)根据事先测量各种角度下A’跟B’的比值反系,然后利用查表法得知遥控器具体的角度置位信息。
[0035] 4)由于档板是垂直设立,利用光影原理,当A’
[0036] 得到的角度定位信息用于麦克风语音识别降噪时保留当前角度采集到的语音信息,过滤其它角度的噪声。
[0037] 所述的挡板用于遮挡光电二极管来自部分角度的光线,也可以换成屏蔽箱加红外滤光片实现同样的作用。
[0038] 所述的麦克风阵列包括MIC1和MIC2,MIC1和MIC2并列连接并用以采集语音数据。
[0039] 如图3所示为远场语音识别流程图,需要进行语音输入时,按下遥控器的按键,红外信号微控制器控制红外发光二极管发出红外光线,主机端模块的光电二极管接收遥控器发出的红外光线,并将红外光线输出不同强度的电信号至运算放大器,经过同倍数的放大以后输入到微控制器,微控制器运行角度定位算法,计算出发射出红外线遥控器的角度定位;同时唤醒拾音装置启动语音识别功能;此时,MIC1和MIC2同时采集语音数据,分别获取时域语音数据T1和时域语音数据T2;
对时域语音数据T1和时域语音数据T2进行延迟相加和延迟相减,获得T_ADD和T_SUB。
[0040] 分别对延迟相加T_ADD和延迟相减T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获得频域信号数据F1和频域信号数据F2。进而获得频域信号能量,两路频域信号能量进行GSC波束形成算法滤波,获得GSC波束形成输出F1_2和阻塞信号F2_2。
[0041] 对两路频域语音数据的进行稳态噪声估计,获得两颗麦克风的平均稳态噪声信息的估计值N1和N2。
[0042] 计算麦克风信号的信号平均能量值X1和X2,和稳态噪声估计值进行比较,计算信号和参考噪声能量比值OMAGA,然后通过OMEGA的值和设定的阈值估计语音存在概率P,进而得到语音不存在概率Q。
[0043] 使用语音存在概率和语音不存在概率计算语音存在的增益G对频域数据增益调整,获得调整增益后的频域优化信号F_OPT。之后通过频域加窗和逆傅里叶变换将频域优化信号转换成时域稳态噪声优化信号T_FINAL。
[0044] 对所公开实施案例的上述说明,使本领域专业技术人员能够实现或使用本发明,对本实施案例的多种修改对本领域的专业技术人员来说是显而易见的。本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施案例中体现。因此,本发明将不会被限制于本文所示的实施案例,而是要求符合本文所公开的原理和新颖性特点相一致的最宽的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈