一种智慧语音LED/LCD时钟及语音处理方法 |
|||||||
申请号 | CN202311376234.1 | 申请日 | 2023-10-23 | 公开(公告)号 | CN117392979A | 公开(公告)日 | 2024-01-12 |
申请人 | 深圳市茂捷智能科技有限公司; | 发明人 | 周华明; | ||||
摘要 | 本 发明 公开了一种智慧语音LED/LCD时钟及语音处理方法,时钟包括:LED屏/LCD屏、音频输入模 块 、音频处理系统、音频输出模块及控 制模 块;LED屏/LCD屏、音频输入模块、音频处理系统、音频输出模块分别与 控制模块 电连接;音频处理系统包括训练模块及判决模块;训练模块包括音频分离单元、梯度单元及训练单元;通过利用方差特征、匹配度特征以及噪声 帧 数 阈值 对拾取的用户声音进行分离,提高了分离 精度 ;通过进行梯度量化并采用多个子判决器对不同的梯度特征进行判决识别,提高在低 信噪比 下对语音指令内容的识别精度,提高了智慧语音LED/LCD时钟的用户体验。 | ||||||
权利要求 | 1.一种智慧语音LED/LCD时钟,其特征在于,包括:LED屏/LCD屏、音频输入模块、音频处理系统、音频输出模块及控制模块;所述LED屏/LCD屏、所述音频输入模块、所述音频处理系统、所述音频输出模块分别与所述控制模块电连接;所述LED屏/LCD屏用于显示时钟信息; |
||||||
说明书全文 | 一种智慧语音LED/LCD时钟及语音处理方法技术领域[0001] 本发明涉及智慧时钟技术领域,特别涉及一种智慧语音LED/LCD时钟及语音处理方法。 背景技术[0002] 随着计算机与人工智能、互联网云服务的普及,人工智能应用在工作和生活的多个领域。闹铃多种选择可选为起床闹铃、起床报时、报时加天气信息播报。还可以语音触发各项功能,从而避免手动调节带来的不便,例如,通过语音进行时间查询,通过语音进行时间校正。但是,在进行语音交互过程中,由于受到噪声的干扰影响,时钟中的语音处理单元无法正确区分语音指令与噪声,而不能及时进行响应,反而降低了用户体验。 发明内容[0003] 现有的智能语音时钟,由于受到背景声音的干扰影响,时钟中的语音处理单元无法正确区分语音指令与噪声,无法及时进行功能响应,降低了用户体验。 [0004] 针对上述问题,提出一种智慧语音LED/LCD时钟及语音处理方法,以解决上述问题。 [0005] 第一方面,一种智慧语音LED/LCD时钟,通过语音与用户进行交互,包括:LED屏/LCD屏、音频输入模块、音频处理系统、音频输出模块及控制模块;所述LED屏/LCD屏、所述音频输入模块、所述音频处理系统、所述音频输出模块分别与所述控制模块电连接;所述LED屏/LCD屏用于显示时钟信息;所述音频输入模块用于拾取用户语音指令;所述音频处理系统用于对拾取的音频信号进行处理;所述音频输出模块根据控制指令输出交互语音;其中,所述音频处理系统包括训练模块及判决模块; [0006] 所述训练模块包括音频分离单元、梯度单元及训练单元; [0007] 所述音频分离单元用于: [0008] 利用两步法进行语音分离:第一步、从拾取的声音信号中提取方差特征及匹配度特征;第二步、若所述声音信号的基准参量小于规定阈值,且方差特征值小于规定阈值或匹配度特征值小于规定阈值,则当前帧为噪声帧,若所述声音信号的基准参量大于规定阈值,且所述方差特征值和所述匹配度特征值分别小于其规定阈值,则当前帧为噪声帧,获取噪声段及语音段; [0009] 所述梯度单元用于: [0010] 将所述噪声段分别与各指令语音样本进行叠加,对叠加后获取的训练信号集提取谱分布特征,并对所述谱分布特征进行阶梯量化,获取第一梯度特征、第二梯度特征、第三梯度特征及梯度特征集; [0011] 所述训练单元用于: [0012] 利用所述梯度特征集对所述第一梯度特征、第二梯度特征及第三梯度对应的第一子判决器、第二子判决器、第三子判决器进行训练; [0013] 所述判决单元用于: [0014] 利用训练完成的所述第一子判决器、第二子判决器、第三子判决器对拾取的声音信号进行投票判决; [0015] 其中,所述基准参量为该帧的对数能量与谱熵的比值,所述第一梯度特征的能量强度大于第二梯度特征的能量强度,所述第二梯度特征的能量强度大于第三梯度特征的能量强度,所述梯度特征集包括第一梯度特征子集、第二梯度特征子集及第三梯度特征子集。 [0016] 结合本发明第一方面所述所述的智慧语音LED/LCD时钟,第一种可能的实施方式中,所述音频分离单元包括: [0017] 第一特征提取单元; [0018] 所述第一特征提取单元用于将输入的声音信号进行傅里叶变换,获取声音信号序列,对所述声音信号序列进行分帧加窗后进行均匀划分并获取划分后的谱分布的能量方差,获取方差特征。 [0019] 结合本发明第一方面第一种可能的实施方式,第二种可能的实施方式中,所述梯度单元包括: [0020] 分类单元; [0021] 叠加单元; [0022] 所述分类单元用于对各指令的语音训练样本的信噪比进行估计,并将所述语音训练样本按照信噪比进行分类; [0023] 所述叠加单元用于根据信噪比将噪声段与各指令语音样本进行叠加,获取训练信号集。 [0024] 结合本发明第一方面第二种可能的实施方式,第三种可能的实施方式中,所述梯度单元还包括: [0025] 第二特征提取单元; [0026] 所述第二特征提取单元用于分别提取所述训练信号集中的谱分布特征。 [0027] 第二方面,一种语音处理方法,用于对第一方面所述的智慧语音LED/LCD时钟拾取的用户语音进行处理,包括: [0028] 步骤100、训练阶段; [0029] 所述步骤100包括: [0030] 步骤110、利用两步法进行语音分离:第一步、从拾取的声音信号中提取方差特征及匹配度特征;第二步、若所述声音信号的基准参量小于规定阈值,且方差特征值小于规定阈值或匹配度特征值小于规定阈值,则当前帧为噪声帧,若所述声音信号的基准参量大于规定阈值,且所述方差特征值和所述匹配度特征值分别小于其规定阈值,则当前帧为噪声帧,获取噪声段及语音段; [0031] 步骤120、将所述噪声段分别与各指令语音样本进行叠加,对叠加后获取的训练信号集提取谱分布特征,并对所述谱分布特征进行阶梯量化,获取第一梯度特征、第二梯度特征及第三梯度特征; [0032] 步骤130、利用所述第一梯度特征、第二梯度特征及第三梯度特征获取所述训练信号集的梯度特征集,并利用所述梯度特征集对所述第一梯度特征、第二梯度特征及第三梯度对应的第一子判决器、第二子判决器、第三子判决器进行训练; [0033] 步骤200、判决分类阶段; [0034] 利用训练完成的所述第一子判决器、第二子判决器、第三子判决器对拾取的声音信号进行投票判决; [0035] 其中,所述第一梯度特征的能量强度大于第二梯度特征的能量强度,所述第二梯度特征的能量强度大于第三梯度特征的能量强度,所述梯度特征集包括第一梯度特征子集、第二梯度特征子集及第三梯度特征子集。 [0036] 结合本发明第二方面所述的语音处理方法,第一种可能的实施方式中,所述步骤110包括: [0037] 步骤111、将输入的声音信号进行傅里叶变换,获取声音信号序列; [0038] 步骤112、对所述声音信号序列进行分帧加窗后进行均匀划分; [0039] 步骤113、计算均匀划分后的所述声音信号序列的能量方差,获取方差特征。 [0040] 结合本发明第二方面第一种可能的实施方式中,第二种可能的实施方式中,所述步骤110还包括: [0041] 步骤114、获取所述声音信号的噪声帧; [0042] 步骤115、若所述噪声帧的帧数大于规定阈值,则确定为噪声段。 [0043] 结合本发明第二方面第一种可能的实施方式,第三种可能的实施方式中,所述步骤120包括: [0044] 步骤121、对各指令的语音训练样本的信噪比进行估计,并将所述语音训练样本按照信噪比进行分类; [0045] 步骤122、根据信噪比将噪声段与各指令的语音训练样本进行叠加,获取训练信号集。 [0046] 结合本发明第二方面第三种可能的实施方式,第四种可能的实施方式中,所述步骤120还包括: [0047] 步骤123、提取所述训练信号集中的谱分布特征; [0048] 步骤124、利用所述谱分布特征中的梯度特征集对判决器进行训练。 [0049] 实施本发明所述的一种智慧语音LED/LCD时钟及语音处理方法,通过利用方差特征、匹配度特征以及噪声帧数阈值对拾取的用户声音进行分离,提高了分离精度;通过进行梯度量化并采用多个子判决器对不同的梯度特征进行判决识别,提高在低信噪比下对语音指令内容的识别精度,提高了智慧语音LED/LCD时钟的用户体验。附图说明 [0050] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 [0051] 图1为本发明智慧语音LED/LCD时钟模块逻辑连接示意图; [0052] 图2为本发明中的音频处理系统的模块逻辑连接示意图; [0053] 图3为本发明中的训练模块的模块逻辑连接示意图; [0054] 图4为本发明中的梯度单元的模块逻辑连接示意图; [0055] 图5为本发明中的一种语音处理方法第一示意图; [0056] 图6为本发明中的一种语音处理方法第二示意图; [0057] 图7为本发明中的一种语音处理方法第三示意图; [0058] 图8为本发明中的一种语音处理方法第四示意图; [0059] 图9为本发明中的一种语音处理方法第五示意图。 具体实施方式[0060] 下面将结合发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的其他实施例,都属于本发明保护的范围。 [0061] 现有的智能语音时钟,由于受到背景声音的干扰影响,时钟中的语音处理单元无法正确区分语音指令与噪声,从而无法及时进行响应,降低了用户体验。 [0062] 针对上述问题,提出一种智慧语音LED/LCD时钟及语音处理方法,以解决上述问题。 [0063] 第一方面,如图1,图1为本发明智慧语音LED/LCD时钟模块逻辑连接示意图;一种智慧语音LED/LCD时钟,通过语音与用户进行交互,包括:LED屏/LCD屏10、音频输入模块20、音频处理系统30、音频输出模块40及控制模块50;LED屏/LCD屏10、音频输入模块20、音频处理系统30、音频输出模块40分别与控制模块50电连接;LED屏/LCD屏10用于显示时钟信息;音频输入模块20用于拾取用户语音指令;音频处理系统30用于对拾取的音频信号进行处理;音频输出模块40根据控制指令输出交互语音;其中,如图2,图2为本发明中的音频处理系统30的模块逻辑连接示意图;音频处理系统30包括训练模块31及判决模块32;如图3,图3为本发明中的训练模块31的模块逻辑连接示意图;训练模块31包括音频分离单元311、梯度单元312及训练单元313。 [0064] 音频分离单元311用于利用两步法进行语音分离:第一步、从拾取的声音信号中提取方差特征及匹配度特征;第二步、若声音信号的基准参量小于规定阈值,且方差特征值小于规定阈值或匹配度特征值小于规定阈值,则当前帧为噪声帧,若声音信号的基准参量大于规定阈值,且方差特征值和匹配度特征值分别小于其规定阈值,则当前帧为噪声帧,获取噪声段及语音段。 [0065] 梯度单元312用于将噪声段分别与各指令语音样本进行叠加,对叠加后获取的训练信号集提取谱分布特征,并对谱分布特征进行阶梯量化,获取第一梯度特征g1、第二梯度特征g2及第三梯度特征g3及梯度特征集A。 [0066] 训练单元313用于利用梯度特征集对第一梯度特征g1、第二梯度特征g2及第三梯度特征g3对应的第一子判决器J1、第二子判决器J2、第三子判决器J3,进行训练。 [0067] 判决单元用于利用训练完成的第一子判决器J1、第二子判决器J2、第三子判决器J3,对拾取的声音信号进行投票判决。 [0068] 其中,所述基准参量为该帧的对数能量与谱熵的比值,第一梯度特征g1的能量强度大于第二梯度特征g2的能量强度,第二梯度特征g2的能量强度大于第三梯度特征g3的能量强度,梯度特征集A包括第一梯度特征子集g1、第二梯度特征子集g2及第三梯度特征子集g3。 [0069] 本实施例中的智慧语音LED/LCD时钟可以采用LED屏进行时钟数字信息显示,也可以采用LCD屏10进行时钟信息显示。 [0070] 在有的实施方式中,也可以同时采用LED屏及LCD屏10,进行重叠设置。 [0071] 在训练阶段,首先利用音频分离单元311分离出语音段与噪声段,并将噪声段与各个指令语音样本进行叠加;然后利用梯度单元312提取谱分布特征集,对判决器进行训练。 [0072] 进一步地,音频分离单元311包括第一特征提取单元;第一特征提取单元用于将输入的声音信号进行傅里叶变换,获取声音信号序列,对声音信号序列进行分帧加窗后进行均匀划分并获取划分后的谱分布的能量方差,获取方差特征。 [0073] 假设输入/拾取的声音信号为x(n),则傅里叶变换后的声音信号序列为x(w),对声音信号序列x(w)进行分帧加窗,得到第t帧窗谱St(w),各个帧的窗谱相互正交,对窗谱St(w)的谱线进行均匀划分,则第m个频带窗谱为SSt,则第m个频带的方差特征方程为: [0074] [0075] 其中, 为第m个频带窗谱的均值,Z为第t帧窗谱St(w)的频带总数,方差σt反映了信号能量的变化程度,能量变化越大,方差就越大,背景声音(噪声)能量相对平缓,方差相对较小。 [0076] 匹配度特征反映了估计的信号谱特征与构建的噪声模型的匹配程度,通过匹配程度来判决当前信号帧为噪声帧还是语音帧。其判决规则为: [0077] [0078] 其中,H为用于判决的规定阈值,J(t)满足: [0079] [0080] 其中,logΛl为似然比对数,l表示第l个频带分量, 表示为语音帧的概率密度, 表示为噪声帧的概率密度。 [0081] 在初步进行语音分离时,为避免误判,可以将噪声帧达到一定的阈值后才判定为噪声段,具体的,可以将噪声帧阈值设定为4个,当噪声帧数大于4个时,则判断为噪声段。也可以设定其他的噪声帧数阈值。 [0082] 进一步地,如图4,图4为本发明中的梯度单元312的模块逻辑连接示意图;梯度单元312包括分类单元3121、叠加单元3122;分类单元3121用于对各指令的语音训练样本的信噪比进行估计,并将所述语音训练样本按照信噪比进行分类;叠加单元3122用于根据根据信噪比将噪声段与各指令的语音训练样本进行叠加,获取训练信号集。 [0083] 在叠加时,将不同信噪比的语音训练样本进行分类,然后,将噪声段进行分别叠加。 [0084] 在叠加后,需要提取谱分布特征,在本实施例中,对混合的声音训练信号集进行傅里叶变换、分帧加窗后进行频带划分,本实施例中的谱分布特征即为每一频带的能量统计特征。 [0085] 进一步地,梯度单元312还包括第二特征提取单元3123;第二特征提取单元3123用于分别提取训练信号集中的谱分布特征。 [0086] 在提取谱分布特征时,对混合声音训练信号集的能量分布将能量统计特征图分为多个第一分块G,每一个频带可以包括多个上述第一分块G,对上述第一分块G的能量分布进行阶梯量化,每一第一分块包括第一梯度特征g1、第二梯度特征g2及第三梯度特征g3,因此训练信号集的梯度特征集A可以表示为: [0087] A={G1,...,Gi,...,GN} (4), [0088] 其中,Gi={g1,g2,g3},其能量梯度为g1>g2>g3,将式子(4)整理后可得: [0089] A={g1,g2,g3} (5), [0090] 其中,g1,g2,g3分别表示第一梯度特征子集、第二梯度特征子集及第三梯度特征子集,其对应第一子判决器J1、第二子判决器J2、第三子判决器J3,进行训练。 [0091] 通过对能量分布进行阶梯量化细化,并对对应的子判决器进行训练,可以在特定场景中,实现低信噪比的语音识别检测。 [0092] 第二方面,一种语音处理方法,用于对第一方面的智慧语音LED/LCD时钟拾取的用户语音进行处理,包括: [0093] 步骤100、训练阶段; [0094] 如图5,图5为本发明中的一种语音处理方法第一示意图;步骤100包括: [0095] 步骤110、利用两步法进行语音分离:第一步、从拾取的声音信号中提取方差特征及匹配度特征;第二步、若声音信号的基准参量小于规定阈值,且方差特征值小于规定阈值或匹配度特征值小于规定阈值,则当前帧为噪声帧,若声音信号的基准参量大于规定阈值,且方差特征值和匹配度特征值分别小于其规定阈值,则当前帧为噪声帧,获取噪声段及语音段; [0096] 步骤120、将噪声段分别与各指令语音样本进行叠加,对叠加后获取的训练信号集提取谱分布特征,并对谱分布特征进行阶梯量化,获取第一梯度特征g1、第二梯度特征g2及第三梯度特征g3; [0097] 步骤130、利用第一梯度特征g1、第二梯度特征g2及第三梯度g3获取训练信号集的梯度特征集A,并利用梯度特征集A对第第一梯度特征g1、第二梯度特征g2及第三梯度特征g3对应的第一子判决器J1、第二子判决器J2、第三子判决器J3进行训练; [0098] 步骤200、判决分类阶段; [0099] 利用训练完成的第一子判决器J1、第二子判决器J2、第三子判决器J3,对拾取的声音信号进行投票判决; [0100] 其中,所述基准参量为该帧的对数能量与谱熵的比值,第一梯度特征g1的能量强度大于第二梯度特征g2的能量强度,第二梯度特征g2的能量强度大于第三梯度特征g3的能量强度,梯度特征集A包括第一梯度特征子集g1、第二梯度特征子集g2及第三梯度特征子集g3。 [0101] 在进行方差特征提取时,优选地,如图6,图6为本发明中的一种语音处理方法第二示意图;步骤110包括:步骤111、将输入的声音信号进行傅里叶变换,获取声音信号序列;步骤112、对声音信号序列进行分帧加窗后进行均匀划分;步骤113、计算均匀划分后的声音信号序列的能量方差,获取方差特征。 [0102] 假设输入/拾取的声音信号为x(n),则傅里叶变换后的声音信号序列为x(w),对声音信号序列x(w)进行分帧加窗,得到第t帧窗谱St(w),各个帧的窗谱相互正交,对窗谱St(w)的谱线进行均匀划分,则第m个频带窗谱为SSt,则第m个频带的方差特征方程为: [0103] [0104] 其中, 为第m个频带窗谱的均值,Z为第t帧窗谱St(w)的频带总数,方差反映了信号能量的变化程度,能量变化越大,方差特征值就越大,背景声音(噪声)能量相对平缓,方差特征值相对较小。 [0105] 匹配度特征反映了估计的信号谱特征与构建的噪声模型的匹配程度,通过匹配程度来判决当前信号帧为噪声帧还是语音帧。其判决规则为: [0106] [0107] 其中,H为用于判决的规定阈值,J(t)满足: [0108] [0109] 其中,logΛl为似然比对数,l表示第l个频带分量, 表示为语音帧的概率密度, 表示为噪声帧的概率密度。 [0110] 优选地,在判决噪声帧与语音帧时,为了避免误判,本实施例中采取的方式为: [0111] 如图7,图7为本发明中的一种语音处理方法第三示意图;步骤110还包括:步骤114、获取声音信号的噪声帧;步骤115、若噪声帧的帧数大于规定阈值,则确定为噪声段。 [0112] 例如,可以将噪声帧阈值设定为4个,当噪声帧数大于4个时,则判断为噪声段。也可以设定其他的噪声帧数阈值。 [0113] 分离出噪声段与语音段之后,将噪声段与不同的语音训练样本叠加,优选地,如图8,图8为本发明中的一种语音处理方法第四示意图;步骤120包括: [0114] 步骤121、对各指令的语音训练样本的信噪比进行估计,并将所述语音训练样本按照信噪比进行分类;步骤122、根据信噪比将噪声段与各指令的语音训练样本进行叠加,获取训练信号集。 [0115] 在叠加时,将不同信噪比的语音训练样本进行分类,然后,将噪声段进行分别叠加。 [0116] 在叠加后,需要提取谱分布特征,在本实施例中,对混合的声音训练信号集进行傅里叶变换、分帧加窗后进行频带划分,本实施例中的谱分布特征即为每一频带的能量统计特征。 [0117] 优选地,如图9,图9为本发明中的一种语音处理方法第五示意图;步骤120还包括:步骤123、提取训练信号集中的谱分布特征;步骤124、利用谱分布特征中的梯度特征集对判决器进行训练。 [0118] 在提取谱分布特征时,对混合声音训练集的能量分布将能量统计特征图分为多个第一分块G,每一个频带可以包括多个上述第一分块G,对上述第一分块G的能量分布进行阶梯量化,每一第一分块包括第一梯度特征g1、第二梯度特征g2及第三梯度特征g3,因此梯度特征集A可以表示为: [0119] A={G1,...,Gi,...,GN} (4), [0120] 其中,Gi={g1,g2,g3},其能量梯度为g1>g2>g3,将式子(4)整理后可得: [0121] A={g1,g2,g3} (5), [0122] 其中,g1,g2,g3分别表示第一梯度特征子集、第二梯度特征子集及第三梯度特征子集,其对应第一子判决器J1、第二子判决器J2、第三子判决器J3,,进行训练。 [0123] 通过对能量分布进行阶梯量化细化,并对对应的子判决器进行训练,可以在特定场景中,实现低信噪比的语音识别检测。 [0124] 实施本发明的一种智慧语音LED/LCD时钟及语音处理方法,通过利用方差特征、匹配度特征以及噪声帧数阈值对拾取的用户声音进行分离,提高了分离精度;通过进行梯度量化并采用多个子判决器对不同的梯度特征进行判决识别,提高在低信噪比下对语音指令内容的识别精度,提高了智慧语音LED/LCD时钟的用户体验。 |