专利汇可以提供一种音频关键词模板的筛选和优化方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定 音素 集上全部音素的后验概率;步骤2)计算模板的后验概率 稳定性 分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一 帧 的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。,下面是一种音频关键词模板的筛选和优化方法专利的具体信息内容。
1.一种音频关键词模板的筛选和优化方法,所述方法包括:
步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;
步骤2)基于步骤1)生成的后验概率,计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;
所述后验概率稳定性分数用于描述模板后验概率在声学状态上分布的稳定程度;首先对模板后验概率序列进行分段,每个分段近似对应一个音素;在每个分段上选取前N个后验概率最高的发音单元,计算后验概率稳定性分数:
上式中,S表示模板分段数,bi和ei分别表示分段i的起点和终点,pj,top(i,n)是第j帧上声学状态top(i,n)的后验概率,top(i,n)表示分段i上后验概率第n大的状态;
所述发音可靠性分数用于描述根据后验概率给出的最优声学单元序列的可靠程度;对模板后验概率序列按照前段所述的方法进行分段,然后列出每个分段上后验概率最高的音素;对属于同一关键词的两个模板,计算其编辑距离:
c(qi,qj)=max(1-aNsub-b(Nins+Ndel))
式中,qi,qj表示属于同一关键词的两个模板,Nsub、Nins和Ndel分别代表替换错误、插入错误和删除错误;参数b>a,由此,定义发音可靠性分数为:
所述邻域相似性分数用于描述属于同一关键词的模板之间后验概率序列的相似性;定义为距当前模板最近的K个模板到当前模板的平均距离:
步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;
步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;
步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
2.根据权利要求1所述的音频关键词模板的筛选和优化方法,其特征在于,所述步骤1)的音素集为采用基于国际音标系统的通用音素集或采用目标语言的特定音素集。
3.根据权利要求1所述的音频关键词模板的筛选和优化方法,其特征在于,所述步骤1)的特征提取中所涉及的特征为语音识别特征;所述语音识别特征为梅尔频率倒谱系数或感知线性预测。
4.根据权利要求1所述的音频关键词模板的筛选和优化方法,其特征在于,所述步骤5)具体包括:
步骤501)选取一条代表性发音模板为当前模板q;设置迭代次数初始值N=0;
步骤502)计算当前模板q和所有音频关键词模板的动态时间规整距离,选取距离最小的K个模板,组成集合QN;
步骤503)利用步骤502)选取的K个模板计算当前模板q的邻域相似性分数;设置初始学习率λ=λ0;
步骤504)对当前模板q的第i帧的声学单元j,对这一帧的后验概率做变换:
其中,pik为第i帧的声学单元k的后验概率, 为变换后的后验概率;对每个i和j的组合,将修改之后的模板作为一个候选模板qij,共有i×j个候选模板;
步骤505)利用步骤502)选取的K个模板计算所有候选模板qij的LS分数,选出LS分数最小的一个候选模板为qbest;如果当前模板q的LS分数与qbest的分数的差的绝对值超过了预设的阈值∈,用qbest替换当前模板q,转到步骤504);否则,学习率λ减半,转到步骤506);
步骤506)判断学习率λ是否大于预设的阈值λT,如果判断结果是肯定的,转到步骤504);
否则,进入步骤507);
步骤507)判断N是否小于最大迭代次数N0,如果判断结果是肯定的,转到步骤508);否则,转到步骤509);
步骤508)判断集合QN和集合QN-1是否相同,如果判断结果是肯定的,转到步骤509);否则,令N=N+1,转入步骤502);
步骤509)保存当前模板q;转入步骤501),直至所有的代表性发音模板处理完毕。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
语音情绪波动分析方法及装置 | 2020-05-08 | 791 |
基于声纹特征识别的聚乙烯气相流化床生产过程结块在线监测系统及方法 | 2020-05-12 | 273 |
基于室内声学信道扰动分析的物体识别方法 | 2020-05-13 | 100 |
实时声纹辨识系统与方法 | 2020-05-08 | 396 |
一种提高DNN模型泛化性能的语音增强方法 | 2020-05-11 | 452 |
一种基于情感识别的老人陪护机器人子系统 | 2020-05-08 | 841 |
一种风力发电机组稳态振动在线监测方法及监测系统 | 2020-05-11 | 661 |
一种风力发电机组稳态振动在线趋势预测方法及趋势预测系统 | 2020-05-11 | 689 |
基于音频分析与深度学习的争吵识别方法 | 2020-05-13 | 536 |
一种乒乓球比赛视频的智能数据采集方法 | 2020-05-13 | 472 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。