由于不同人的声道存在很大差别,再加上各种个人和方言发音习惯的影响,语音
信号具有多变性、复杂性和易混性的特点,这给正确处理和区分语音信息带来很大的困难。
语音信号识别过程中,需要对大量的
数字信号进行处理,使用普通的识别方法需要巨大的存储空间和计算能
力的支持,所以目前市场上常见的
分辨率较高的声音识别系统大多是基于计算机的,还未发现能识别中等字库的低价位声音识别装置。
实用新型内容本实用新型的目的是提供一种低价位的智能汉语语音识别卡。
实现本实用新型目的的技术方案是:本智能汉语语音识别卡具有语音提取、训练和识别的功能模
块,其结构特点是:功能模块设置在单一的
单片机中;本智能汉语语音识别卡还具有晶振
电路、外围
接口电路和音频采集电路;晶振电路的晶振输出端接单片机的晶振输入端,外围接口电路的信号端与单片机的信号端双向电连接,音频采集电路的
音频信号输出端接单片机的音频信号输入端。
上述技术方案中,单片机中的功能模块中设有采用小波分析
算法、线性预测谱
倒谱和动态时间规整算法的程序。单片机的型号为SPCE061A。单片机的电源端具有抗干扰电路。音频采集电路具有音频采集
传感器,音频采集传感器的音频信号输出端即为音频采集电路的音频信号输出。
本实用新型具有积极的效果:(1)本实用新型的智能汉语语音识别卡采用单一的单片机来实现语音提取、训练和识别的功能,实现这些功能时可以同时采用小波分析算法、线性预测谱倒谱和动态时间规整算法来实现,因此本实用新型的智能汉语语音识别卡结构简单,成本低廉。(2)当本实用新型单片机的电源端设置抗干扰电路后,则可确保本实用新型的智能汉语语音识别卡工作
稳定性。(3)本实用新型的智能汉语语音识别卡能对数百个汉语的常见语音进行有效快速的区分,而且可以通过对发音的判断作出相应的数字信号输出。(4)本实用新型的智能汉语语音识别卡具有开放的训练功能,可由使用者自由选择训练内容,因而减小发音习惯不同造成的影响,本智能汉语语音识别卡可以用于如家电、玩具、公共设施中,既可逐个控制,也可以进行群体控制,大大加强了各种产品人机对话的能力。
附图说明
图1为本实用新型的智能汉语语音识别卡的电路
框图。
图2为本实用新型的智能汉语语音识别卡的电路原理图。
图3-7为本实用新型的智能汉语语音识别卡的单片机所采用的核心识别算法的图型。
图8-10为本实用新型的智能汉语语音识别卡的单片机所采用核心识别算法的程序
流程图。
(
实施例1)见图1和图2,本实施例的智能汉语语音识别卡具有单片机1、晶振电路2、外围接口电路4和音频采集电路5。
单片机1的型号为SPCE061A。单片机1中设有语音提取、训练和识别的功能模块,这些功能模块中设有采用小波分析算法、线性预测谱倒谱和动态时间规整算法所编制的程序。晶振电路2由晶振Y1和电容C24、C25组成。外围接口电路4由接口J1串接J2,J3串接J4组成;外围接口电路4用于向外输出经过单片机1处理的语音信号而给其它
电子设备使用。音频采集电路5音频传感器MIC、
电阻R4、R5、R6和电容C30、C31、C32组成。
晶振电路2的晶振输出端即晶振Y1的输出端OSC0和OSC1接单片机1的晶振输入端即12脚和13脚。外围接口电路4的信号端即J1的IOA0-IOA7端接单片机的IOA0-IOA7端,J3的IOB0-IOB7端接单片机的IOB0-IOB7端。音频采集电路5的音频信号输出端即音频传感器MIC的MICP端和MICN端接单片机1的音频信号输入端即MICP端和MICN端。
单片机1的36脚VDDA端具有由电容C7和C27组成的抗干扰电路,单片机1的51脚和52脚具有由电容C11和C12组成的抗干扰电路。单片机1的15脚和75脚分别串接电容C5和C10后接VSS端。单片机1的7脚和9脚串接电容C9。电容C2和电阻R3并联后串接在单片机的AGC端和VSS端。电容C8和C28并联后的一端接单片机的VRT端。
本实施例的智能汉语语音识别卡的电路提供给
外围设备16位的输出输入管脚,可以实现多种
控制信号输出和外部指令的输入。
见图8至图10,本实用新型的智能汉语语音识别卡使用时,还需在单片机1的IOA0端至IOA2端设置功能控制电路。单片机1默认的语音信号为语音识别信号。若通过按下功能控制电路的相应的按钮record,则认为语音信号为语音训练信号。按下按钮stop,则认为语音训练结束。按下按钮play,则认为开始汉语语音识别。
本识别卡上电后,单片机1的工作步骤为:①单片机1对来自智能汉语语音识别卡本身的麦克
风或外部信号采集设备输入的语音信号进行有效的切分
定位(图8)。所述切分定位的过程是:首先将音频
帧1写入单片机1的寄存器中,单片机1中的音频处理器对所述音频帧1进行
能量计算,当该帧1能量大于设定值时,单片机1开始计算线性预测倒谱系数并存入单片机1的闪存中,同时音频起始位和命令字长加1。当第一帧音频处理结束后,开始将第二音频帧写入单片机1的寄存器,并同样进行上述处理;第二帧音频处理结束后,则判断状态控制电路是否有结束命令,若无结束命令,则进行新的音频帧1的写入寄存器的操作,若有则判断该结束命令是否为练习命令,若是则运行特定人语音识别的程序,若否,则单片机1进行排序并等待新的音频帧1写入单片机1。
②单片机1在进行特定人语音识别程序时,单片机1通过由小波分析技术编制的程序对原始信号进行多分辨率分割,将声音分解为高频区和低频区,对所述低频区信号采集的数据量是对所述高频区信号采集的数据量的1/8或更低。执行完毕后,单片机1进入8kHz中断(图8)。
上述步骤①②也可以省去单片机1中的音频处理器对所述音频帧1进行能量计算的过程(图10)。
③进入所述8kHz中断后,开始对上述特定人的语音进行
采样,并将采样信号进行高通滤波,并进行过零率分析。也即系统对通过多分辨率分解语音成高、低频部分,通过对高频数据进行过零率分析,从而实现对汉语
频率较高的部分辅音的区分。后进行低通滤波和音频能量计算,当所述的音频取样帧1处理结束后,单片机1存储该取样帧1,同时计数变量加1,若帧长度不等于变量长度,则清除中断后跳出中断。若帧长度等于变量长度,则待排除后,清除中断并跳出中断(图9)。
④对低频数据进行基频计算得出信号的语调特征(包括第一声到第四声和轻声)。
⑤对低频数据进行线性预测谱倒谱(LPCC)计算,得出LPCC数组。
⑥如果是语音训练信号,将信号归类,然后存入系统内部储存区,进入第⑧步,如果是语音识别信号,进入第⑦步。
⑦如果是声音识别对象,先按照前面的辅音、基频和语调特征缩小对
数据库里面可能匹
配对象的范围,然后在该范围内用动态时间规整的算法进行识别而找出信号类型,匹配总误差最小的库里面的信号就是
输入信号。再依照这一信号和命令类型规则输出数字信号。
⑧进行下一次语音采样。
图3至7显示了本系统的核心匹配过程。
对于从
声音信号通过计算得到的线性预测谱倒谱模板数组(图3至7的左上子图)和测试数据(图3至7的右下子图)上的各个点都寻找其相应的匹配性最好的点(即几何学中高维欧氏距离最小的点)。重复至信号末尾,产生匹配路径(如3的右上子图),如果路径与矩形对
角线匹配良好且归一化的总误差最小,则说明模板与测试信号是同类,也就是识别出声音信号。
见图4,匹配路径与矩形对角线匹配不理想且归一化的总误差较大为9.9343,则说明模板与测试信号不是同类,也就是未能识别出声音信号。
见图5,匹配路径与矩形对角线匹配比图4稍好,归一化的总误差较大为6.5223,则说明模板与测试信号仍不是同类,也就是未能识别出声音信号。
见图6,匹配路径与矩形对角线匹配比图5稍好,归一化的总误差较大为7.198,则说明模板与测试信号仍不是同类,也就是未能识别出声音信号。
见图7,匹配路径与矩形对角线匹配比图6稍好,归一化的总误差较大为5.6307,则说明模板与测试信号是同类,也就是能识别出声音信号。