首页 / 专利库 / 家用器具 / 家用电器 / 白色家电 / 语音识别电路、语音交互设备和家电设备

语音识别电路、语音交互设备和家电设备

阅读:662发布:2020-05-29

专利汇可以提供语音识别电路、语音交互设备和家电设备专利检索,专利查询,专利分析的服务。并且本 申请 提供了一种 语音识别 电路 、语音交互设备和家电设备,其中,语音识别电路包括:麦克 风 接口 组件,能够与至少两个麦克风构成的多麦克风阵列适配连接,以接收多麦克风阵列获取到的音频数据,并将音频数据转换为模拟音频 信号 ; 模数转换 器 ,与麦克风接口组件电连接,包括 滤波器 与模数转换器,滤波器用于对模拟 音频信号 执行滤波操作,并将滤波后的模拟音频信号转换为数字音频信号;音频处理器,与模数转换器电连接,配置有与多麦克风阵列对应的远场 信号处理 引擎,用于对数字音频信号执行远场降噪处理,以得到预处理数字音频信号。通过本申请的技术方案,能够实现远场语音的唤醒和命令词的识别。,下面是语音识别电路、语音交互设备和家电设备专利的具体信息内容。

1.一种语音识别电路,其特征在于,包括:
麦克接口组件,能够与至少两个麦克风构成的多麦克风阵列适配连接,以接收所述多麦克风阵列获取到的音频数据,并将所述音频数据转换为模拟音频信号
模数转换器,与所述麦克风接口组件电连接,包括滤波器与模数转换器,所述滤波器用于对所述模拟音频信号执行滤波操作,并将滤波后的所述模拟音频信号转换为数字音频信号;
音频处理器,与所述模数转换器电连接,配置有与所述多麦克风阵列对应的远场信号处理引擎,用于对所述数字音频信号执行远场降噪处理,以得到预处理数字音频信号,所述音频处理器还用于将所述预处理数字音频信号执行解析操作,以根据解析结果生成数字反馈音频信号。
2.根据权利要求1所述的语音识别电路,其特征在于,还包括:
数模转换器,与所述音频处理器电连接,用于将所述数字反馈音频信号转换为模拟反馈音频信号;
音频功率放大器,与所述数模转换器电连接,用于对所述模拟反馈音频信号进行放大,所述音频功率放大器还连接至扬声器,以通过所述扬声器将放大后的所述模拟反馈音频信号进行广播。
3.根据权利要求2所述的语音识别电路,其特征在于,
所述麦克风接口组件为驻极体电容麦克风接口或微机电麦克风接口。
4.根据权利要求2所述的语音识别电路,其特征在于,所述模数转换器包括:
自举开关,所述自举开关用于接收正向模拟音频信号与负向模拟音频信号,并分别输出待比较信号;
钟控比较器,与所述自举开关电连接,用于比较所述待比较信号,以输出比较结果;
逐次逼近动态逻辑模,与所述钟控比较器电连接,用于根据所述比较结果生成对应的控制信号
非对称式电容阵列,分别与所述逐次逼近动态逻辑模块以及所述钟控比较器电连接,所述非对称式电容阵列包括至少两个开关,用于根据所述控制信号控制所述至少两个开关开闭,以重新分配所述电容阵列的极板上的电荷;
所述钟控比较器还用于接收所述电荷的分配结果,以根据所述分配结果修改所述待比较信号并将修改后的所述比较结果输入至所述逐次逼近动态逻辑模块,所述模数转换器在执行多个比较周期后,输出所述数字音频信号。
5.根据权利要求4所述的语音识别电路,其特征在于,
所述滤波器包括模拟低通滤波器
6.根据权利要求5所述的语音识别电路,其特征在于,还包括:
采样保持电路,设置于所述麦克风接口组件与所述滤波器之间,用于保持所述模拟音频信号。
7.根据权利要求2所述的语音识别电路,其特征在于,所述音频处理器还包括:
语音识别引擎,与所述远场信号处理引擎电连接,用于根据所述预处理数字音频信号执行语音识别操作,并生成识别结果;
语言理解引擎,与所述语音识别引擎电连接,用于对所述识别结果执行反馈语义解码,并生成解码文本;
文本转换引擎,与所述语义理解引擎电连接,用于将所述解码文本转换为所述数字反馈音频信号。
8.根据权利要求7所述的语音识别电路,其特征在于,所述远场信号处理引擎还用于执行以下处理中的至少一种:
根据所述数字音频信号确定所述音频数据的声源位置
消除所述数字音频信号的回音数据;
根据所述数字音频信号确定所述音频数据的起点与终点;
对所述音频数据中的空间信息进行加权,以使所述音频数据的指向一致;
识别所述音频数据中的离线命令词;
对所述音频数据执行打断处理。
9.根据权利要求7所述的语音识别电路,其特征在于,所述数模转换器包括:
低压差分信号模块,与所述文本转换引擎电连接,用于传输所述数字反馈音频信号;
动态元件匹配译码器,与所述低压差分信号模块电连接,用于接收所述数字反馈音频信号,使能信号与复位信号,并将所述数字反馈音频信号,所述使能信号与所述复位信号转换为随机温度计码;
同步数据处理模块,与所述动态元件匹配译码器电连接,用于对所述随机温度计码进行数据同步;
开关编码电路,与所述同步数据处理模块电连接,用于生成开关编码;
四通道开关,与所述开关编码电路电连接,用于根据所述开关编码控制开闭;
电流源阵列,与所述四通道开关电连接,用于根据所述四通道开关的开闭对输入的电流信号进行加权,以生成输出电流信号;
负载电阻,与所述电流源阵列电连接,所述输出电流信号被配置为所述负载电阻的驱动电流,以输出所述模拟反馈音频信号。
10.根据权利要求9所述的语音识别电路,其特征在于,所述数模转换器还包括:
带隙基准电路,用于输出基准电压
外设串行接口,用于输入数据输入信号、输出数据输出信、输入时钟信号以及片选信号;
电流源偏置电路,分别接收所述带隙基准电路的传输信号与所述外设串行接口的传输信号;
偏置及参考电流产生电路,用于输出基准电流;
时钟接收与分配模块,用于接收正向差分时钟输入信号与负向差分时钟输入信号。
11.根据权利要求2至10中任一项所述的语音识别电路,其特征在于,
所述音频功率放大器包括自适应滤波全差动音频功率放大器。
12.一种语音交互设备,其特征在于,包括:
多麦克风阵列,包括至少两个麦克风,所述至少两个麦克风被配置为相同朝向或不同朝向;
如权利要求1至11中任一项所述的语音识别电路,与所述多麦克风阵列电连接,用于接收所述多麦克风阵列获取到的音频数据,并根据对所述音频数据的解析结果生成反馈信号。
13.根据权利要求12所述的语音交互设备,其特征在于,
所述语音识别电路还用于:将所述反馈信号转换为音频反馈信号;
所述语音交互设备还包括:扬声器,所述扬声器与所述语音识别电路电连接,用于广播所述音频反馈信号。
14.一种家电设备,其特征在于,包括:
设备主体;
如权利要求1至11中任一项所述的语音识别电路,与所述设备主体电连接,用于根据获取到的音频数据生成控制指令,所述控制指令被配置为控制所述设备主体运行或停止运行。
15.根据权利要求14所述的家电设备,其特征在于,还包括:
单麦克风;或
多麦克风阵列,包括至少两个麦克风,所述至少两个麦克风被配置为相同朝向或不同朝向,
所述单麦克风或所述多麦克风阵列用于采集所述音频数据。
16.根据权利要求14或15所述的家电设备,其特征在于,
所述家电设备包括箱、洗衣机空调烤箱、电饭煲、微波炉与扫地机器人中的任意一种。

说明书全文

语音识别电路、语音交互设备和家电设备

技术领域

[0001] 本申请涉及语音识别技术领域,具体而言,涉及一种语音识别电路、一种语音交互设备和一种家电设备。

背景技术

[0002] 相关技术中,语音交互系统采用单麦克处理方式采集语音数据并进行语音处理,由于单麦克风语音识别只支持近场音频采集,针对距离较远的语音数据识别效果较差。发明内容
[0003] 本申请旨在至少解决现有技术或相关技术中存在的技术问题之一。
[0004] 为此,本申请的一个目的在于提供一种语音识别电路。
[0005] 本申请的另一个目的在于提供一种语音交互设备。
[0006] 本申请的再一个目的在于提供一种家电设备。
[0007] 为了实现上述目的,根据本申请的第一方面的实施例,提供了一种语音识别电路,包括:麦克风接口组件,能够与至少两个麦克风构成的多麦克风阵列适配连接,以接收多麦克风阵列获取到的音频数据,并将音频数据转换为模拟音频信号模数转换器,与麦克风接口组件电连接,包括滤波器与模数转换器,滤波器用于对模拟音频信号执行滤波操作,并将滤波后的模拟音频信号转换为数字音频信号;音频处理器,与模数转换器电连接,配置有与多麦克风阵列对应的远场信号处理引擎,用于对数字音频信号执行远场降噪处理,以得到预处理数字音频信号,音频处理器还用于将预处理数字音频信号执行解析操作,以根据解析结果生成数字反馈音频信号。在该技术方案中,本申请所限定的语音识别电路根据信号传输的方向依次至少包括麦克风接口组件、模数转换器以及音频处理器,其中,麦克风接口组件用于与多麦克风阵列进行连接,以接收由多麦克风阵列采集到的音频数据。
[0008] 音频数据通过模式转换器进行滤波并转换为数字音频信号,以通过模数转换器对数字音频信号进行处理,通过在音频处理器中设置远场信号处理引擎,基于远场信号处理引擎对数字音频信号进行远场降噪,以提升数字音频信号的信噪比,进而实现对远场语音的准确采集与提取,进而能够实现远场语音的唤醒和命令词的识别。
[0009] 其中,远场信号为相对于近场信号确定的音频信号,比如声源与麦克风之间的距离小于或等于3米,获取到的音频信号可以视为近场的音频信号,超过3米获取到的音频信号则可以视为远场的音频信号。
[0010] 另外,根据麦克风的数量的不同,多麦克风阵列可以为双麦克风阵列、四麦克风阵列或八麦克风阵列等,通过灵活设置麦克风接口组件,能够实现与至少两个麦克风阵列进行适配,结合语音识别电路内部的远场信号处理引擎等模,实现远场语音唤醒和命令词识别,在识别距离方面,安静环境下(小于或等于40dB)里远达8米的使用距离,生活环境(小于或等于55dB)里使用距离达5米,通过采用远场信号处理引擎对数字音频信号执行降噪操作,可以有效抑制15dB的噪声。其中,信号处理器可以为CPU(Central Processing Unit)、DSP(Digital Signal Processing,数字信号处理)、FPGA(Field Programmable Gate Array,现场可编辑逻辑阵列)以及NPU(嵌入式神经网络处理器)等。
[0011] 在上述技术方案中,还包括:数模转换器,与音频处理器电连接,用于将数字反馈音频信号转换为模拟反馈音频信号;音频功率放大器,与数模转换器电连接,用于对模拟反馈音频信号进行放大,音频功率放大器还连接至扬声器,以通过扬声器将放大后的模拟反馈音频信号进行广播。
[0012] 在该技术方案中,在设置麦克风接口组件、模数转换器以及音频处理器的基础上,通过进一步设置数模转换器与音频功率放大器,在音频处理器输出的数字反馈音频信号转换为模拟反馈音频信号后,通过音频功率放大器进行放大处理,结合与音频功率放大器连接的扬声器,实现放大后的模拟反馈音频信号的广播,以通过广播的形式反馈给用户,从而实现与用户之间的语音交互,该语音交互方式与相关技术相比,能够实现较远距离的语音识别。
[0013] 其中,较远距离具体可以为8m。
[0014] 在上述任一项技术方案中,麦克风接口组件为驻极体电容麦克风接口或微机电麦克风接口。
[0015] 在该技术方案中,麦克风接口可以是模拟信号输入,即连接驻极体电容麦克风,也可以是数字PDM(脉冲密度调制)方式的接口,即连接微机电麦克风(MEMS麦克风)。
[0016] 其中,模拟接口具体为模数转换器,后面会讨论。数字PDM接口是一种单线数字通信方式,具体地,逻辑1对应一个正(+A)脉冲,而逻辑0对应一个负(-A)脉冲。假设输入一个周期的正弦音频,当输入电压在最大正振幅时,输出为一个由“1”组成的脉冲序列,当输入电压在最大负振幅时,输出则是一个由“0”组成的序列,当穿过0振幅时,声波在1和0序列之间快速变化,PDM可通过数字方法给高品质音频编码,而且实现方法简易,成本低廉,并输出PDM比特流,输出PDM比特流是MEMS麦克风常用的数据输出格式。
[0017] 在上述任一项技术方案中,模数转换器包括:自举开关,自举开关用于接收正向模拟音频信号与负向模拟音频信号,并分别输出待比较信号;钟控比较器,与自举开关电连接,用于比较待比较信号,以输出比较结果;逐次逼近动态逻辑模块,与钟控比较器电连接,用于根据比较结果生成对应的控制信号;非对称式电容阵列,分别与逐次逼近动态逻辑模块以及钟控比较器电连接,非对称式电容阵列包括至少两个开关,用于根据控制信号控制至少两个开关开闭,以重新分配电容阵列的极板上的电荷;钟控比较器还用于接收电荷的分配结果,以根据分配结果修改待比较信号并将修改后的比较结果输入至逐次逼近动态逻辑模块,模数转换器在执行多个比较周期后,输出数字音频信号。
[0018] 在该技术方案中,模数转换器可以采用逐次逼近寄存器型(SAR),SAR模数转换器由自举开关、非对称式电容阵列、钟控比较器、异步时序发生器、逐次逼近动态逻辑以及精度开关等模块片配置形成,输入的模拟音频信号(包括正向输入信号与负向输入信号),经过自举开关后进入钟控比较器,钟控比较器将比较的结果输入到逐次逼近动态逻辑模块中,并产生相应的控制信号去控制电容阵列中的开关,对非对称式电容阵列极板上的电荷进行重新分配,再反馈到钟控比较器,使钟控比较器的输入端的数值发生变化,变化后的值在下一个时钟上升沿进行第二次比较,将结果又重新输入到逐次逼近动态逻辑模块中,如此不断循环。在比较周期结束后,整个模数转换器将产生的数字音频信号输出。
[0019] 其中,模数转换器的采样位数支持16bit~48bit,速率支持8khz、16khz、32kHz以及44.1kHz等常用规格,信噪比SNR达到92dB,THD谐波失真不低于-80dB。
[0020] 在上述任一项技术方案中,滤波器包括模拟低通滤波器
[0021] 在该技术方案中,前置的混叠滤波器一般为模拟低通滤波器,把输入信号中不需要的高频部分滤掉,只保留低频部分,以满足奈奎斯特采样定义。
[0022] 具体地,低通滤波器的采样率Fs>2Fmax(信号的最高频率),可编程增益放大器PLA的增益范围-18dB~28.5dB,以保证具有足够的信号动态范围。
[0023] 在上述任一项技术方案中,还包括:采样保持电路,设置于麦克风接口组件与滤波器之间,用于保持模拟音频信号。
[0024] 在该技术方案中,采样保持电路包括设置在模数转换器最前端的采样保持电路的输入电阻(参数范围15~44kohm)与输入电容为(参数范围10pF)。
[0025] 在上述任一项技术方案中,音频处理器还包括:语音识别引擎,与远场信号处理引擎电连接,用于根据预处理数字音频信号执行语音识别操作,并生成识别结果;语言理解引擎,与语音识别引擎电连接,用于对识别结果执行反馈语义解码,并生成解码文本;文本转换引擎,与语义理解引擎电连接,用于将解码文本转换为数字反馈音频信号。
[0026] 在该技术方案中,音频处理器对数字音频信号进行预处理后生成预处理数字音频信号,预处理数字音频信号依次语音识别引擎ASR(Automatic Speech Recognition)、语言理解引擎NLU(Natural Language Understanding)、文本转换引擎TTS(Text to Speech,从文本到语音)等模块,实现远场输入的语音识别与反馈。
[0027] 其中,音频处理器具体可以为4核CPU,该CPU具有双向超标量,并且每个核心使用DSP和NEON SIMD扩展,板载VFPv4浮点单元(每个核心),硬件虚拟化支持,TrustZone安全扩展,64字节缓存行,10项L1 TLB和512项L2 TLB,4KiB条件分支预测器,256项间接分支预测器。
[0028] 在上述任一项技术方案中,远场信号处理引擎还用于执行以下处理中的至少一种:根据数字音频信号确定音频数据的声源位置;消除数字音频信号的回音数据;根据数字音频信号确定音频数据的起点与终点;对音频数据中的空间信息进行加权,以使音频数据的指向一致;识别音频数据中的离线命令词;对音频数据执行打断处理。
[0029] 在该技术方案中,远场信号处理引擎包括阵列算法,阵列算法还可以实现声源定位、回音消除、端点检测、波束成形、离线命令词、打断等处理,以实现远场语音识别,并能够有效抑制噪声。
[0030] 在上述任一项技术方案中,数模转换器包括:低压差分信号模块,与文本转换引擎电连接,用于传输数字反馈音频信号;动态元件匹配译码器,与低压差分信号模块电连接,用于接收数字反馈音频信号,使能信号与复位信号,并将数字反馈音频信号,使能信号与复位信号转换为随机温度计码;同步数据处理模块,与动态元件匹配译码器电连接,用于对随机温度计码进行数据同步;开关编码电路,与同步数据处理模块电连接,用于生成开关编码;四通道开关,与开关编码电路电连接,用于根据开关编码控制开闭;电流源阵列,与四通道开关电连接,用于根据四通道开关的开闭对输入的电流信号进行加权,以生成输出电流信号;负载电阻,与电流源阵列电连接,输出电流信号被配置为负载电阻的驱动电流,以输出模拟反馈音频信号。
[0031] 在上述任一项技术方案中,数模转换器还包括:带隙基准电路,用于输出基准电压;外设串行接口,用于输入数据输入信号、输出数据输出信、输入时钟信号以及片选信号;电流源偏置电路,分别接收带隙基准电路的传输信号与外设串行接口的传输信号;偏置及参考电流产生电路,用于输出基准电流;时钟接收与分配模块,用于接收正向差分时钟输入信号与负向差分时钟输入信号。
[0032] 在该技术方案中,通过采用DEM译码,能够将固定调用电流源而产生的与输入信号强相关的失真转换为整个频带范围的噪声,进而降低了数模转换器的增益误差,提升了数模转换器的失配抗性和精度。
[0033] 另外,整个数模转换器包括数字部分与模拟部分,其中数字部分采用1.8V电源电压,而模拟部分则采用3.3V电源电压,通过1.8V/3.3V双电源供电,有利于大幅度降低模拟部分的电源噪声。
[0034] 在上述任一项技术方案中,音频功率放大器包括自适应滤波全差动音频功率放大器。
[0035] 在该技术方案中,自适应滤波全差动音频功率放大器,电路2.5V-5.5V的宽电压工作范围,2.8mA的静态电流,0.5uA的关断电流,芯片内部产生250kHz的开关频率,带共模反馈的全差分放大输入,9mS的延时启动时间,能有效防止开机浪涌电流产生的爆音干扰。该电路采用自适应滤波结构,具有高效率、低静态电流与较强的抗电源干扰EMI的特点。
[0036] 进一步地,基于对上述语音识别电路中不同的功能模块的设置,实现了对基于多麦克风阵列采集到的音频数据的全链路处理,并能够实现唤醒、打断、声源定位和波束成形的语音识别。
[0037] 根据本申请的第二方面的技术方案,提供了一种语音交互设备,包括:多麦克风阵列,包括至少两个麦克风,至少两个麦克风被配置为相同朝向或不同朝向;如本申请的第一方面中任一项技术方案所述的语音识别电路,与多麦克风阵列电连接,用于接收多麦克风阵列获取到的音频数据,并根据对音频数据的解析结果生成反馈信号。
[0038] 在该技术方案中,通过设置与多麦克风阵列适配的语音识别电路,语音识别电路包括远场信号处理引擎,通过远场信号处理引擎对音频信号的处理,实现了对远场语音的准确采集与提取,进而能够实现远场语音的唤醒和命令词的识别。
[0039] 在上述技术方案中,语音识别电路还用于:将反馈信号转换为音频反馈信号;语音交互设备还包括:扬声器,扬声器与语音识别电路电连接,用于广播音频反馈信号。
[0040] 在该技术方案中,语音识别电路中还设置有音频功率放大器,结合与音频功率放大器连接的扬声器,实现放大后的模拟反馈音频信号的广播,以通过广播的形式反馈给用户,从而实现与用户之间的语音交互,该语音交互方式与相关技术相比,能够实现较远距离的语音识别。
[0041] 根据本申请的第三方面的技术方案,提供了一种家电设备,包括:设备主体;如本申请的第一方面中任一项技术方案的语音识别电路,与设备主体电连接,用于根据获取到的音频数据生成控制指令,控制指令被配置为控制设备主体运行或停止运行。
[0042] 在上述技术方案中,还包括:单麦克风;或多麦克风阵列,包括至少两个麦克风,至少两个麦克风被配置为相同朝向或不同朝向,单麦克风或多麦克风阵列用于采集音频数据。
[0043] 本领域的技术人员能够理解的是,本申请第一方面的技术方案虽然限定了对多麦克风阵列采集的音频数据进行语音识别的语音识别电路,该语音识别电路仍适于对单麦克风采集的音频数据进行语音识别,因此针对家电设备,无论设置有单麦克风还是多麦克风阵列,只要设置有该语音识别电路,均能够达到良好的语音识别效果。
[0044] 进一步地,基于对上述语音识别电路中不同的功能模块的设置,实现了对基于多麦克风阵列采集到的音频数据的全链路处理,并能够实现唤醒、打断、声源定位和波束成形的语音识别。
[0045] 在上述技术方案中,家电设备包括箱、洗衣机空调烤箱、电饭煲、微波炉与扫地机器人中的任意一种。
[0046] 针对上述家电设备,在设置有多麦克风阵列的情况下,多麦克风阵列可以为双麦克风阵列、四麦克风阵列或八麦克风阵列等,通过灵活设置麦克风接口组件,能够实现与至少两个麦克风阵列进行适配,结合语音识别电路内部的远场信号处理引擎等模块,实现远场语音唤醒和命令词识别,在识别距离方面,安静环境下(小于或等于40dB)里远达8米的使用距离,生活环境(小于或等于55dB)里使用距离达5米,通过采用远场信号处理引擎对数字音频信号执行降噪操作,可以有效抑制15dB的噪声。
[0047] 即能够对处于较远位置的用户发出的音频指令进行较准确的语音识别,从而提升用户的使用体验。
[0048] 本申请的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。附图说明
[0049] 本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0050] 图1示出了根据本申请的一个实施例的语音识别电路的示意图;
[0051] 图2示出了根据本申请的另一个实施例的语音识别电路的示意图;
[0052] 图3示出了根据本申请的一个实施例的数模转换器的示意图;
[0053] 图4示出了根据本申请的一个实施例的语音交互设备的示意框图
[0054] 图5示出了根据本申请的另一个实施例的语音交互设备的示意框图;
[0055] 图6示出了根据本申请的一个实施例的家电设备的示意框图;
[0056] 图7示出了根据本申请的另一个实施例的家电设备的示意框图。

具体实施方式

[0057] 为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0058] 在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
[0059] 实施例一
[0060] 如图1所示,根据本申请的一个实施例的语音识别电路1,包括:麦克风接口组件(对应于图1中的麦克风接口10)、模数转换器(对应于图1中的ADC&抗混叠滤波器20)以及音频处理器30。
[0061] 其中,麦克风接口组件,能够与至少两个麦克风构成的多麦克风阵列适配连接,以接收多麦克风阵列获取到的音频数据,并将音频数据转换为模拟音频信号。
[0062] 模数转换器,与麦克风接口组件电连接,包括滤波器与模数转换器,滤波器用于对模拟音频信号执行滤波操作,并将滤波后的模拟音频信号转换为数字音频信号。
[0063] 音频处理器30,与模数转换器电连接,配置有与多麦克风阵列对应的远场信号处理引擎302,用于对数字音频信号执行远场降噪处理,以得到预处理数字音频信号,音频处理器30还用于将预处理数字音频信号执行解析操作,以根据解析结果生成数字反馈音频信号。
[0064] 在该实施例中,本申请所限定的语音识别电路1根据信号传输的方向依次至少包括麦克风接口组件、模数转换器以及音频处理器30,其中,麦克风接口组件用于与多麦克风阵列进行连接,以接收由多麦克风阵列采集到的音频数据,音频数据通过模式转换器进行滤波并转换为数字音频信号,以通过模数转换器对数字音频信号进行处理,通过在音频处理器30中设置远场信号处理引擎302,基于远场信号处理引擎302对数字音频信号进行远场降噪,以实现对远场语音的准确采集与提取,进而能够实现远场语音的唤醒和命令词的识别。
[0065] 其中,信号处理器可以为CPU(Central Processing Unit)、DSP(Digital Signal Processing,数字信号处理)、FPGA(Field Programmable Gate Array,现场可编辑逻辑门阵列)以及NPU(嵌入式神经网络处理器)等。
[0066] 实施例二
[0067] 如图2所示,根据本申请的另一个实施例的语音识别电路1,包括:麦克风接口组件(对应于图2中的麦克风接口10)、模数转换器(对应于图2中的ADC&抗混叠滤波器20)、音频处理器30、数模转换器(对应于图2中的DAC-Codec电路40)以及音频功率放大器50。
[0068] 其中,数模转换器与音频处理器30电连接,用于将数字反馈音频信号转换为模拟反馈音频信号。
[0069] 音频功率放大器50与数模转换器电连接,用于对模拟反馈音频信号进行放大,音频功率放大器还连接至扬声器,以通过扬声器将放大后的模拟反馈音频信号进行广播。
[0070] 在该实施例中,在设置麦克风接口组件、模数转换器以及音频处理器30的基础上,通过进一步设置数模转换器与音频功率放大器50,在音频处理器30输出的数字反馈音频信号转换为模拟反馈音频信号后,通过音频功率放大器50进行放大处理,结合与音频功率放大器连接的扬声器,实现放大后的模拟反馈音频信号的广播,以通过广播的形式反馈给用户,从而实现与用户之间的语音交互,该语音交互方式与相关技术相比,能够实现较远距离的语音识别。
[0071] 其中,较远距离具体可以为8m。
[0072] 实施例三
[0073] 在上述的实施例一与实施例二中,麦克风接口组件的具体实施方式至少包括以下两种:
[0074] (1)麦克风接口组件为驻极体电容麦克风接口。
[0075] 在该实施例中,麦克风接口可以是模拟信号输入,即连接驻极体电容麦克风。
[0076] (2)或麦克风接口组件为微机电麦克风接口,即数字PDM(脉冲密度调制)方式的接口,即连接微机电麦克风(MEMS麦克风)。
[0077] 在该实施例中,模拟接口具体为模数转换器,后面会讨论。数字PDM接口是一种单线数字通信方式,具体地,逻辑1对应一个正(+A)脉冲,而逻辑0对应一个负(-A)脉冲。假设输入一个周期的正弦音频,当输入电压在最大正振幅时,输出为一个由“1”组成的脉冲序列,当输入电压在最大负振幅时,输出则是一个由“0”组成的序列,当穿过0振幅时,声波在1和0序列之间快速变化,PDM可通过数字方法给高品质音频编码,而且实现方法简易,成本低廉,并输出PDM比特流,输出PDM比特流是MEMS麦克风常用的数据输出格式。
[0078] 实施例四
[0079] 在上述任一项实施例中,模数转换器的一种实现方式包括:自举开关,自举开关用于接收正向模拟音频信号与负向模拟音频信号,并分别输出待比较信号;钟控比较器,与自举开关电连接,用于比较待比较信号,以输出比较结果;逐次逼近动态逻辑模块,与钟控比较器电连接,用于根据比较结果生成对应的控制信号;非对称式电容阵列,分别与逐次逼近动态逻辑模块以及钟控比较器电连接,非对称式电容阵列包括至少两个开关,用于根据控制信号控制至少两个开关开闭,以重新分配电容阵列的极板上的电荷;钟控比较器还用于接收电荷的分配结果,以根据分配结果修改待比较信号并将修改后的比较结果输入至逐次逼近动态逻辑模块,模数转换器在执行多个比较周期后,输出数字音频信号。
[0080] 在该实施例中,模数转换器可以采用逐次逼近寄存器型(SAR),SAR模数转换器由自举开关、非对称式电容阵列、钟控比较器、异步时序发生器、逐次逼近动态逻辑以及精度开关等模块片配置形成,输入的模拟音频信号(包括正向输入信号与负向输入信号),经过自举开关后进入钟控比较器,钟控比较器将比较的结果输入到逐次逼近动态逻辑模块中,并产生相应的控制信号去控制电容阵列中的开关,对非对称式电容阵列极板上的电荷进行重新分配,再反馈到钟控比较器,使钟控比较器的输入端的数值发生变化,变化后的值在下一个时钟上升沿进行第二次比较,将结果又重新输入到逐次逼近动态逻辑模块中,如此不断循环。在比较周期结束后,整个模数转换器将产生的数字音频信号输出。
[0081] 其中,模数转换器的采样位数支持16bit~48bit,速率支持8khz、16khz、32kHz以及44.1kHz等常用规格,信噪比SNR达到92dB,THD谐波失真不低于-80dB。
[0082] 在上述任一项实施例中,滤波器包括模拟低通滤波器。
[0083] 在该实施例中,前置的抗混叠滤波器一般为模拟低通滤波器,把输入信号中不需要的高频部分滤掉,只保留低频部分,以满足奈奎斯特采样定义。
[0084] 具体地,低通滤波器的采样率Fs>2Fmax(信号的最高频率),可编程增益放大器PLA的增益范围-18dB~28.5dB,以保证具有足够的信号动态范围。
[0085] 在上述任一项实施例中,还包括:采样保持电路,设置于麦克风接口组件与滤波器之间,用于保持模拟音频信号。
[0086] 在该实施例中,采样保持电路包括设置在模数转换器最前端的采样保持电路的输入电阻(参数范围15~44kohm)与输入电容为(参数范围10pF)。
[0087] 实施例五
[0088] 在上述任一项实施例中,音频处理器30的一种实现方式,包括:语音识别引擎即ASR引擎304,与远场信号处理引擎302电连接,用于根据预处理数字音频信号执行语音识别操作,并生成识别结果;语言理解引擎即NLU处理引擎306,与语音识别引擎304电连接,用于对识别结果执行反馈语义解码,并生成解码文本;文本转换引擎即TTS处理引擎308,与语义理解引擎电连接,用于将解码文本转换为数字反馈音频信号。
[0089] 在该实施例中,音频处理器30对数字音频信号进行预处理后生成预处理数字音频信号,预处理数字音频信号依次语音识别引擎即ASR引擎304、语言理解引擎即NLU处理引擎306、文本转换引擎即TTS处理引擎308(从文本到语音)等模块,实现远场输入的语音识别与反馈。
[0090] 其中,音频处理器30具体可以为4核CPU,该CPU具有双向超标量,并且每个核心使用DSP和NEON SIMD扩展,板载VFPv4浮点单元(每个核心),硬件虚拟化支持,TrustZone安全扩展,64字节缓存行,10项L1TLB和512项L2 TLB,4KiB条件分支预测器,256项间接分支预测器。
[0091] 在上述任一项实施例中,远场信号处理引擎302还用于执行以下处理中的至少一种:根据数字音频信号确定音频数据的声源位置;消除数字音频信号的回音数据;根据数字音频信号确定音频数据的起点与终点;对音频数据中的空间信息进行加权,以使音频数据的指向一致;识别音频数据中的离线命令词;对音频数据执行打断处理。
[0092] 在该实施例中,远场信号处理引擎302包括阵列算法,阵列算法还可以实现声源定位、回音消除、端点检测、波束成形、离线命令词、打断等处理,以实现远场语音识别,并能够有效抑制噪声。
[0093] 实施例六
[0094] 如图3所示,在上述任一项实施例中,数模转换器的一种实现方式包括:低压差分信号(Low-Voltage Differential Signaling,LVDS)模块(即LVDS数据接收),与文本转换引擎308电连接,用于传输数字反馈音频信号;动态元件匹配译码器,与低压差分信号模块电连接,用于接收数字反馈音频信号,使能信号与复位信号,并将数字反馈音频信号,使能信号与复位信号转换为随机温度计码;同步数据处理模块(即数据同步),与动态元件匹配译码器电连接,用于对随机温度计码进行数据同步;开关编码电路,与同步数据处理模块电连接,用于生成开关编码;四通道开关,与开关编码电路电连接,用于根据开关编码控制开闭;电流源阵列,与四通道开关电连接,用于根据四通道开关的开闭对输入的电流信号进行加权,以生成输出电流信号;负载电阻,与电流源阵列电连接,输出电流信号被配置为负载电阻的驱动电流,以输出模拟反馈音频信号。
[0095] 如图3所示,在上述任一项实施例中,数模转换器还包括:带隙基准电路,用于输出基准电压;外设串行接口,用于输入数据输入信号、输出数据输出信、输入时钟信号以及片选信号;电流源偏置电路,分别接收带隙基准电路的传输信号与外设串行接口的传输信号;偏置及参考电流产生电路,用于输出基准电流;时钟接收与分配模块,用于接收正向差分时钟输入信号与负向差分时钟输入信号。
[0096] 如图3所示,两组变化的16bit数据DATAP[15∶0]和DATAN[15∶0]经过LVDS数据接收模块后进入动态元件匹配译码,以进行DEM译码,该模块中的两个使能和复位信号分别为PRBSEN和RSTDEM,通过将高、低位信号经过不同处理后实现数据同步,再经过开关编码电路后启动电流开关,以实现电流的加权,其中,DEM译码可以将二进制码转换成随机温度计码,而电流源阵列的开关是由译码器控制的,因此使用这种DEM译码技术可以在二进制码转换成温度计码的过程中实现对电流源阵列的随机调用。
[0097] 从频谱度看,能够将固定调用电流源而产生的与输入信号强相关的失真转换为整个频带范围的噪声,进而降低了数模转换器的增益误差,提升了数模转换器的失配抗性和精度。
[0098] 另外,整个数模转换器包括数字部分与模拟部分,其中数字部分采用1.8V电源电压,而模拟部分则采用3.3V电源电压,通过1.8V/3.3V双电源供电,有利于大幅度降低模拟部分的电源噪声。
[0099] 在上述任一项实施例中,音频功率放大器50包括自适应滤波全差动音频功率放大器。
[0100] 在该实施例中,自适应滤波全差动音频功率放大器,电路2.5V-5.5V的宽电压工作范围,2.8mA的静态电流,0.5uA的关断电流,芯片内部产生250kHz的开关频率,带共模反馈的全差分放大输入,9mS的延时启动时间,能有效防止开机浪涌电流产生的爆音干扰。该电路采用自适应滤波结构,具有高效率、低静态电流与较强的抗电源干扰EMI的特点。
[0101] 实施例七
[0102] 如图4所示,根据本申请的实施例的语音交互设备,包括:多麦克风阵列2,由多个包括至少两个麦克风,所述至少两个麦克风被配置为相同朝向或不同朝向;上述任一实施例所述的语音识别电路1,与多麦克风阵列2电连接,用于接收多麦克风阵列2获取到的音频数据,并根据对音频数据的解析结果生成反馈信号。
[0103] 具体地,如图1所示,语音识别电路1可以包括麦克风接口组件(对应于图1中的麦克风接口10)、模数转换器(对应于图1中的ADC&抗混叠滤波器20)与音频处理器30。
[0104] 如图2所示,语音识别电路1还可以包括数模转换器(对应于图2中的DAC-Codec电路40)与音频功率放大器50。
[0105] 在该实施例中,通过设置与多麦克风阵列2适配的语音识别电路1,语音识别电路1包括远场信号处理引擎,通过远场信号处理引擎对音频信号的处理,实现了对远场语音的准确采集与提取,进而能够实现远场语音的唤醒和命令词的识别。
[0106] 另外,如图4所示,语音交互设备还包括存储语音识别程序的存储器3以及用于对语音识别电路供电的电源4。
[0107] 在上述实施例中,语音识别电路1还用于:将反馈信号转换为音频反馈信号;如图5所示,在图4的基础上,语音交互设备还包括:扬声器5,扬声器5与语音识别电路1电连接,用于广播音频反馈信号。
[0108] 在该实施例中,语音识别电路1中还设置有音频功率放大器50,结合与音频功率放大器连接的扬声器5,实现放大后的模拟反馈音频信号的广播,以通过广播的形式反馈给用户,从而实现与用户之间的语音交互,该语音交互方式与相关技术相比,能够实现较远距离的语音识别。
[0109] 实施例八
[0110] 如图6所示,根据本申请的实施例的家电设备,包括:设备主体6;上述任一实施例所述的语音识别电路1,与设备主体6电连接,用于根据获取到的音频数据生成控制指令,控制指令被配置为控制设备主体6运行或停止运行。
[0111] 在上述实施例中,还包括单麦克风;或如图7所示,包括多麦克风阵列,包括至少两个麦克风,至少两个麦克风被配置为相同朝向或不同朝向,单麦克风或多麦克风阵列用于采集音频数据。
[0112] 本领域的技术人员能够理解的是,本申请第一方面的实施例虽然限定了对多麦克风阵列采集的音频数据进行语音识别的语音识别电路,该语音识别电路仍适于对单麦克风采集的音频数据进行语音识别,因此针对家电设备,无论设置有单麦克风还是多麦克风阵列,只要设置有该语音识别电路,均能够达到良好的语音识别效果。
[0113] 进一步地,基于对上述语音识别电路中不同的功能模块的设置,实现了对基于多麦克风阵列采集到的音频数据的全链路处理,并能够实现唤醒、打断、声源定位和波束成形的语音识别。
[0114] 在上述实施例中,家电设备包括冰箱、洗衣机、空调、烤箱、电饭煲、微波炉与扫地机器人中的任意一种。
[0115] 针对上述家电设备,在设置有多麦克风阵列的情况下,多麦克风阵列可以为双麦克风阵列、四麦克风阵列或八麦克风阵列等,通过灵活设置麦克风接口组件,能够实现与至少两个麦克风阵列进行适配,结合语音识别电路内部的远场信号处理引擎等模块,实现远场语音唤醒和命令词识别,在识别距离方面,安静环境下(小于或等于40dB)里远达8米的使用距离,生活环境(小于或等于55dB)里使用距离达5米,通过采用远场信号处理引擎对数字音频信号执行降噪操作,可以有效抑制15dB的噪声。
[0116] 即能够对处于较远位置的用户发出的音频指令进行较准确的语音识别,从而提升用户的使用体验。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0117] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0118] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0119] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0120] 应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0121] 术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
[0122] 尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
[0123] 显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈