专利汇可以提供一种基于Android的声纹识别方法专利检索,专利查询,专利分析的服务。并且本 发明 一种基于Android的声纹识别方法,运行在Android 操作系统 中,通过调用内置录音设备采集训练说话人音频并进行语音增强,训练时构建矢量量化模型的kd树以及高斯混合模型。识别时在矢量量化模型的kd树中搜索出与测试说话人声纹特征最接近的K个训练说话人后,利用高斯混合模型进行精确识别。本发明利用矢量量化模型的kd树不仅避免了遍历高斯混合模型库中的所有模型,增加了识别速度,而且利用矢量量化模型和高斯混合模型的二次识别增加了识别的准确度,具有很强的实用性、易用性和鲁棒性。,下面是一种基于Android的声纹识别方法专利的具体信息内容。
1.一种基于Android的声纹识别方法,该方法步骤如下:
步骤1:利用AudioRecorder接口采集音频数据,采用单声道录音,设置采样频率
22050HZ,采取脉冲编码调制,每个采样点量化位数16,同时通过调用
AcousticEchoCanceler类实例、NoiseSuppressor类实例和AutomaticGainControl类实例进行自动回声消除、抑制噪声和自动增益控制,达到语音增强的效果,同时通过Android的异步消息处理机制实现子线程更新UI并实现计时功能,在获取音频裸数据的同时,为其编写wave格式的头文件后存入相应的训练说话人语音库文件夹中,录音结束后,软件界面弹出重命名窗口,用户输入对应训练说话人的姓名作为文件名;
步骤2:当训练说话人语音库采集完毕后,对该库中所有音频文件进行预处理,首先进行分帧操作,设置分帧帧长为16毫秒,帧移为8毫秒;当分帧操作完成后,利用双门限法进行端点检测工作,由于步骤1中语音增强效果理想,设置低能量阈值为0.1,高能量阈值为1,低过零率阈值为0.01,高过零率阈值为10,语音段中最长静音时长为12帧,即语音段的帧能量和过零率同时小于低能量阈值和低过零率阈值的时长不能超过12帧,最短语音时长为10帧,即起始语音段的帧能量大于低帧能量阈值或过零率大于低过零率阈值的时长不能短于
10帧;当端点检测完成后,获取语音段信号,为每帧信号加上汉明窗;当加窗操作完成后,为每帧语音段信号进行预加重操作,弥补高频分量的损失,本方法设置预加重系数为0.93;
步骤3:当预处理完成后,本方法提取梅尔频率倒谱系数,设置三角带通滤波器个数为
40,每帧提取前12维系数;当提取梅尔频率倒谱系数完成后,提取前1阶和2阶12维差分梅尔频率倒谱系数;当提取完成差分特征后,淘汰对应帧能量小于1和大于10的特征向量,消除说话人声音音量过大或过小而产生的识别误差;
步骤4:当完成特征提取后,训练其矢量量化模型,生成代表该说话人的码书,采用构造平衡kd树的算法,以所有训练说话人码书中的码字构建kd树,每个码字作为该树中的一个结点而存在;
步骤5:同时,程序在另一线程中利用k均值聚类算法将特征矢量进行聚类,分类数为
16,该方法将k均值聚类过程重复进行10次后,分别计算每次聚类后的总类内方差,选择总类内方差最小的一次作为最终结果;当完成聚类操作后,利用EM算法进行高斯模型的参数估计,首先将聚类后的各参数—均值、方差和权重系数作为高斯混合模型的初始参数,通过EM算法的参数重估公式进行各项参数的重估,在重估过程中计算似然函数值的对数值的改变量,当该改变量小于阈值0.01时,即判定为收敛,记录此时的均值、方差和权重系数,然后将该三项参数与抓取的该语音文件名即训练说话人姓名存入说话人模型类中,并将该说话人模型类实例存入模型动态数组中;当模型动态数组中的内存大小即模型类实例的个数,等于说话人个数时,表明所有语音文件全部被训练完毕,然后程序将模型动态数组进行序列化操作,其中的各个模型类实例转换为字节序列,然后将该序列存入高斯混合模型数据库文件,训练工作即完毕;
步骤6:当高斯混合模型数据库文件建立完成后,即可进行测试工作,录取测试说话人音频数据后,按照步骤2、3提取测试说话人的声纹特征向量集,在特征向量集中选取一个特征向量,在步骤4生成的kd树中,找到与该特征向量的欧式距离最近的M个码字,并查找该M个码字分别对应的码书,重复上述步骤,直到遍历完测试特征向量集,然后找出被查找次数最多的K个码书,其中K
语音采集模块:硬件部分包括麦克风和声卡,麦克风负责语音的采集,而声卡则是用来对语音进行数字化转换;软件部分包括音频数据采集、自动回声消除、抑制噪声、自动增益控制和计时功能;
声纹特征提取模块:包括语音预处理和特征提取两个子模块,输入是由语音采集模块录取的音频数据,训练阶段把特征送到模型训练模块进行处理,测试阶段把特征送到模型识别模块进行处理;
模型训练模块:该模块包括训练语音的矢量量化模型、构建码字的kd树和训练语音的高斯混合模型;
模型更新模块:该模块将新添加的训练说话人矢量量化模型插入到kd树中,并将其高斯混合模型添加到高斯混合模型数据库文件中;
模型识别模块:该模块的输入是声纹特征提取模块的输出,而该模块的输出是测试说话人的姓名及其个人信息;
数据库管理模块:负责管理训练说话人的姓名及其个人信息、模型参数以及语音文件,其中每个模型对应着每个语音文件,每个语音文件的命名是对应说话人的姓名,每个说话人的姓名在数据库中连接着其个人信息。
(一)技术领域:
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
电子元件与电路板的连接方法、电路板组件及电子设备 | 2020-05-08 | 585 |
多次迭代运动矢量细化 | 2020-05-08 | 102 |
一种超长距离光纤高精度射频信号传递系统和方法 | 2020-05-08 | 426 |
一种频率补偿型数字锁相环实现方法 | 2020-05-08 | 774 |
一种X/Ku波段幅相控制收发芯片 | 2020-05-08 | 717 |
基于卷积神经网络的篡改图像来源取证方法 | 2020-05-11 | 551 |
一种加强鲁棒性的无人机航拍图像拼接方法 | 2020-05-11 | 314 |
一种水下鱼类图像的超分辨率重建方法、系统及装置 | 2020-05-11 | 519 |
工件内外表面缺陷检测方法 | 2020-05-11 | 432 |
双电感降压直流斩波器 | 2020-05-08 | 190 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。